JP2023500141A - 単一試料からの腫瘍純度の推定 - Google Patents

単一試料からの腫瘍純度の推定 Download PDF

Info

Publication number
JP2023500141A
JP2023500141A JP2022526098A JP2022526098A JP2023500141A JP 2023500141 A JP2023500141 A JP 2023500141A JP 2022526098 A JP2022526098 A JP 2022526098A JP 2022526098 A JP2022526098 A JP 2022526098A JP 2023500141 A JP2023500141 A JP 2023500141A
Authority
JP
Japan
Prior art keywords
nucleic acid
data
sequencing
sample
combined
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2022526098A
Other languages
English (en)
Other versions
JP7470787B2 (ja
Inventor
フィリップス ニコラス
ハリス ジェイソン
Original Assignee
パーソナリス,インコーポレイティド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パーソナリス,インコーポレイティド filed Critical パーソナリス,インコーポレイティド
Publication of JP2023500141A publication Critical patent/JP2023500141A/ja
Application granted granted Critical
Publication of JP7470787B2 publication Critical patent/JP7470787B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6844Nucleic acid amplification reactions
    • C12Q1/686Polymerase chain reaction [PCR]
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • C12Q1/6874Methods for sequencing involving nucleic acid arrays, e.g. sequencing by hybridisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Engineering & Computer Science (AREA)
  • Organic Chemistry (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Physics & Mathematics (AREA)
  • Genetics & Genomics (AREA)
  • Analytical Chemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Immunology (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Microbiology (AREA)
  • Pathology (AREA)
  • Medical Informatics (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Oncology (AREA)
  • Hospice & Palliative Care (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本開示は、一致する正常な対照を使用せずに腫瘍試料から腫瘍純度を推定するための方法を提供する。ゲノム領域のセットを、参照ゲノムにアラインメントされた核酸配列データに基づいて特定する。前記ゲノム領域のセットの各ゲノム領域は、前記参照ゲノムの対応するゲノム領域に関連する1又は複数のヌクレオチド配列バリアントを含む。前記生物学的試料のB対立遺伝子頻度分布を、前記ゲノム領域のセットの各ゲノム領域に対して測定したB対立遺伝子頻度に基づいて測定する。訓練済み機械学習モデルを使用して前記B対立遺伝子頻度分布を処理し、前記生物学的試料の腫瘍純度を特定するメトリックを推定する。

Description

関連出願への相互参照
本出願は、2019年11月5日に出願された米国仮特許出願第62/931,096号の優先権を主張し、あらゆる目的のためにその全体が参照により本明細書に援用される。
本開示は、概して単一の試料から腫瘍純度を推定するためのシステム及び方法に関する。より具体的には、限定ではないが、本開示は、訓練済み機械学習モデルを使用してB対立遺伝子頻度分布を処理することによって生物学的試料の腫瘍純度を推定することに関する。
「腫瘍純度(tumor purity)」とも称される腫瘍細胞含有割合(tumor cellularity)は、試料中の癌細胞の割合を割り出すものである。生物学的試料中の腫瘍純度の正確な推定は、体細胞変異の量及び/又はコピー数の変化を検出する際の精度の向上に寄与し得る。これは、腫瘍純度が、生物学的試料に存在する体細胞変異の対立遺伝子頻度を示すことによる。体細胞変異及びコピー数の多様性の検出は、次に、対象の癌の病期を決定する又は特定の癌治療が有効であるかどうかを評価するために使用することができる。したがって、腫瘍純度は、癌の病期の決定及び/又は治療効果の評価に役立つ可能性がある。
腫瘍純度は効果的なメトリック(測定基準)となる可能性があるが、いくつかのバイオインフォマティクス分析では交絡変数となる可能性もある。例えば、腫瘍純度を推定する従来の手法では、試料の画像を手動で検査して腫瘍純度を推定することにより、病理学者による組織病理学的評価が必要になる場合がある。但し、試料画像の手動検査を含む組織病理学的評価は、主観的で不正確である可能性がある。腫瘍純度を推定するための他の従来の技術は、所与の腫瘍試料の核酸配列データに由来する値(例えば、推定上の体細胞変異)を、一致する正常対照試料の核酸配列データに由来する他の値と比較することを必要とする。但し、このような通常の対照試料は利用できない場合がある。
例えば、従来の手法では、試料の腫瘍純度を、個人の腫瘍に固有の体細胞変異の対立遺伝子画分の関数として推定する。一致する正常な試料がない場合、これらの体細胞変異の識別は精度が低くなり、推定純度の精度が大幅に低下する。場合によっては、試料提供元が正常な対照を収集又は配列決定しなかった場合は(例えば)、一致する正常な対照は使用できない。
したがって、主観的分析(例えば、組織病理学的評価)又は正常な対照試料の存在に依存することなく、検出を容易にするために試料中の腫瘍純度を正確に推定する必要がある。
いくつかの実施形態では、腫瘍純度を推定する方法を提供する。前記方法は、対象の腫瘍試料の複数の核酸分子を表す核酸配列データを取得することを含み得る。前記方法は、前記核酸配列データを参照ゲノムにアラインメントすることも含み得る。前記方法は、アラインメントされた核酸配列データに基づいて、ゲノム領域のセットを特定することも含み得る。場合によっては、前記ゲノム領域のセットの各ゲノム領域は、前記参照ゲノムの対応するゲノム領域に関連する1又は複数のヌクレオチド配列バリアントを含む。
前記方法は、前記ゲノム領域のセットの各ゲノム領域のB対立遺伝子頻度を測定することも含みうる。前記方法は、前記ゲノム領域のセットの前記B対立遺伝子頻度に基づいて、前記生物学的試料のB対立遺伝子頻度分布を測定することも含み得る。前記方法は、訓練済み機械学習モデルを使用して前記B対立遺伝子頻度分布を処理し、前記生物学的試料の腫瘍純度を特定するメトリックを推定することも含み得る。前記方法は、前記メトリックを出力することも含み得る。
いくつかの実施形態では、1又は複数のデータプロセッサと、前記1又は複数のデータプロセッサで実行されると、前記1又は複数のデータプロセッサに、本明細書に開示される1又は複数の方法の一部又は全部を実施させる命令を含む非一時的コンピューター可読記憶媒体と、を含むシステムを提供する。
いくつかの実施形態では、非一時的機械可読記憶媒体において実体的に具体化され、1又は複数のデータプロセッサに、本明細書に開示される1又は複数の方法の一部又は全部を実施させるように構成された命令を含むコンピュータープログラム製品を提供する。
本開示のいくつかの実施形態は、1又は複数のデータプロセッサを含むシステムを含む。いくつかの実施形態では、前記システムは、前記1又は複数のデータプロセッサで実行されると、前記1又は複数のデータプロセッサに、本明細書に開示される1又は複数の方法の一部又は全部及び/又は1又は複数のプロセスの一部又は全部を実施させる命令を含む非一時的コンピューター可読記憶媒体を含む。本開示のいくつかの実施形態は、非一時的機械可読記憶媒体において実体的に具体化され、1又は複数のデータプロセッサに、本明細書に開示される1又は複数の方法の一部又は全部及び/又は1又は複数のプロセスの一部又は全部を実施させるように構成された命令を含むコンピュータープログラム製品を含む。
使用されている用語及び表現は、説明の用語として使用され、限定するものではなく、そのような用語や表現を使用して、示され説明されている特徴又はその一部に相当するいかなるものを除外する意図はないが、特許請求される本発明の範囲内で様々な変更が可能であることが認識される。したがって、特許請求される本発明は、実施形態及び所望の特徴によって具体的に開示されているが、本明細書に開示される概念の変更及び変形は、当技術分野の当業者によって行われ得ることを理解されたい。そのような変更及び変形は、添付の特許請求の範囲によって定義される本発明の範囲内であると見なされる。
以下の図を参照して以下の詳細な説明を読み取ると、本開示の特徴、実施形態、及び利点がよりよく理解される。
図1は、いくつかの実施形態による腫瘍純度を推定するための完全に接続されたニューラルネットワークの模式図を示す。 図2は、いくつかの実施形態による腫瘍純度を推定するための一次元畳み込みニューラルネットワークの模式図を示す。 図3は、いくつかの実施形態による腫瘍純度を推定するための二次元畳み込みニューラルネットワークの模式図を示す。 図4Aは、いくつかの実施形態による、VCFレベルデータセットで訓練済みの完全に接続されたニューラルネットワーク、一次元畳み込みニューラルネットワーク、及び二次元畳み込みニューラルネットワークの損失対エポックプロットを示す。 図4Bは、いくつかの実施形態による、VCFレベルデータセットで訓練済みの完全に接続されたニューラルネットワーク、一次元畳み込みニューラルネットワーク、及び二次元畳み込みニューラルネットワークの二乗平均平方根誤差(RMSE)データ及び平均絶対誤差(MAE)データを示す。 図4Cは、いくつかの実施形態による、FASTQレベルデータセットのテストのための二乗平均平方根誤差(RMSE)データ及び平均絶対誤差(MAE)データを示す。 図5Aは、いくつかの実施形態による、真の腫瘍純度を訓練済みの完全に接続されたニューラルネットワークによって予測された腫瘍純度と比較するプロット500Aを示す。 図5Bは、いくつかの実施形態による、真の腫瘍純度を訓練済みの二次元畳み込みニューラルネットワークによって予測された腫瘍純度と比較するプロット500Bを示す。 図5Cは、いくつかの実施形態による、真の腫瘍純度を一次元畳み込みニューラルネットワークによって予測された腫瘍純度と比較するプロット500Cを示す。 図6は、いくつかの実施形態による、訓練済みの機械学習モデルを使用して腫瘍純度を推定するための模式図の例を示す。 図7A~7Eは、いくつかの実施形態によるプロットされたBAF分布の例を提供する。 図7A~7Eは、いくつかの実施形態によるプロットされたBAF分布の例を提供する。 図7A~7Eは、いくつかの実施形態によるプロットされたBAF分布の例を提供する。 図7A~7Eは、いくつかの実施形態によるプロットされたBAF分布の例を提供する。 図7A~7Eは、いくつかの実施形態によるプロットされたBAF分布の例を提供する。 図8は、いくつかの実施形態による、B対立遺伝子頻度の特徴を使用して生物学的試料を分類するための最初の主な2つの構成要素のプロット800を示す。 図9は、特定の実施形態による生物学的試料の腫瘍純度を推定する方法の例を示すフローチャートを含む。 図10は、本明細書に開示される実施形態のいくつかを実施するためのコンピューターシステムの例を示す。
I.概要
少なくとも従来のシステムの上記欠陥に対処するために、本発明の手法は、訓練済み機械学習モデルを使用して、配列決定データのヘテロ接合部位のB対立遺伝子頻度分布を処理することにより、腫瘍純度を推定するために使用され得る。訓練済み機械学習モデルは、正常な対照試料の一致する配列決定データが存在しない場合でも、生物学的試料の腫瘍純度を特定する推定メトリックを生成し得る。したがって、本発明の技術は、一致した正常な対照なしに生物学的試料中の腫瘍純度を正確に推定することができ、これにより腫瘍のみの試料からの核酸配列決定データのより正確な分析を容易にする。
対象の腫瘍試料の複数の核酸分子を表す核酸配列データを取得することができる。いくつかの実施形態では、前記核酸配列データが、全エクソーム配列決定データである。前記核酸配列データは、全ゲノム配列決定データであってもよい。いくつかの実施形態では、前記配列決定データは腫瘍試料からのものである。前記腫瘍試料は、ヒト対象由来であり得る。前記核酸配列データは、ショットガン配列決定により生成され得る。いくつかの実施形態では、前記核酸配列データは、ゲノム又はエクソームの選択部分を配列決定することによって生成され得る。
前記核酸配列データは、参照ゲノムにアラインメントされ得る。アラインメントされた核酸配列データに基づいて、ゲノム領域のセットを特定し得る。場合によっては、前記ゲノム領域のセットの各ゲノム領域は、前記参照ゲノムの対応するゲノム領域に関連する1又は複数のヌクレオチド配列バリアントを含む。ヌクレオチド配列バリアントを同定するために、バリアント候補を特定し、バリアント候補の参照読み取り深度及び代替読み取り深度を計算し得る。
前記ゲノム領域のセットの各ゲノム領域のB対立遺伝子頻度を測定し得る。B対立遺伝子頻度(B-Allele Frequency、BAF)は、2つの対立遺伝子(A及びB)の対立遺伝子強度比の正規化された尺度を指し、1又は0のBAFは、2つの対立遺伝子(例えば、AA又はBB)の1つが完全に存在しないことを示し、0.5のBAFは、両方の対立遺伝子(例えば、AB)が等しく存在することを示している。前記ゲノム領域のセットの前記B対立遺伝子頻度に基づいて、前記生物学的試料のB対立遺伝子頻度分布を測定し得る。いくつかの実施形態では、前記B対立遺伝子頻度分布が正規化されている。
訓練済み機械学習モデルを使用して前記B対立遺伝子頻度分布を処理し、前記生物学的試料の腫瘍純度を特定するメトリックを推定し得る。本明細書で使用される場合、腫瘍純度又は腫瘍細胞含有割合は、腫瘍試料中の癌細胞の割合を指す。腫瘍純度は、直接的な臨床的関連性に対応する腫瘍の特徴を推定するための様々な手法で使用されるメトリックとなり得る。例えば、推定された腫瘍純度は、承認済みコンパニオン診断(例えば、NSCLCでのEGFRエクソン19の欠失)に関連するものを含む、コピー数の変化を特定するために必要なエビデンスの閾値を直接変更する場合がある。腫瘍純度の推定は、体細胞バリアントの予想される対立遺伝子画分に優先度を付与することにより、体細胞バリアントコールの質(感度、PPV)を改善するためにも使用され得る。例えば、60%の腫瘍純度値は、腫瘍試料に60%の腫瘍細胞と40%の正常細胞とが含まれていることを示し得る。追加的に又は代替的に、腫瘍純度は、腫瘍試料中の癌細胞の数を示していてもよい。「腫瘍純度」という用語が言及されている場合は常に、「腫瘍細胞含有割合」という用語は、本明細書全体を通して交換可能に使用され得ることに留意されたい。
訓練済み機械学習モデルは、インシリコで生成されたデータセット(例えば、コンピューターシミュレーションによって生成された核酸配列データ)で訓練されていてもよい。いくつかの実施形態では、前記訓練済み機械学習モデルは、正常細胞で希釈された腫瘍細胞に由来する配列決定データから生成された訓練データセットで訓練されている。前記訓練済み機械学習モデルの平均絶対誤差は、約0.2未満であり得る。いくつかの実施形態では、前記訓練済み機械学習モデルの二乗平均平方根誤差が、約0.2未満である。
いくつかの実施形態では、前記訓練済み機械学習モデルは、完全に接続されたニューラルネットワークを含む。前記完全に接続されたネットワークは、正規化線形ユニット(Rectified Linear Unit、ReLU)活性化関数を備えた完全に接続された層を含んでいてもよい。いくつかの実施形態では、前記完全に接続されたニューラルネットワークの出力活性化関数は、シグモイド関数である。前記完全に接続されたニューラルネットワークの損失関数は、平均二乗誤差(MSE)を計算するように構成され得る。いくつかの実施形態では、前記完全に接続されたニューラルネットワークは、層の線形検索、サイズの線形検索、学習率の対数検索、又はそれらの組み合わせを用いたランダムサンプリングを使用したハイパーパラメーター検索によって調整される。
場合によっては、前記訓練済み機械学習モデルは、一次元畳み込みニューラルネットワークを含む。一次元畳み込みニューラルネットワークは、B対立遺伝子頻度分布を入力として使用でき、高さ25、幅1、深さ100の入力サイズにエンコードできるように構成され得る。いくつかの実施形態では、一次元畳み込みニューラルネットワークの各層は、1×1畳み込みを実行し、続いてReLU活性化関数を実行する。
いくつかの実施形態では、前記訓練済み機械学習モデルは、二次元畳み込みニューラルネットワークを含む。いくつかの実施形態では、二次元畳み込みニューラルネットワークのB対立遺伝子頻度分布は入力として使用され、高さ25、幅100、深さ1で定義される入力サイズにエンコードされる。いくつかの実施形態では、前記二次元畳み込みニューラルネットワークの各畳み込み層の後には、ReLU層が続く。二次元畳み込みニューラルネットワークの出力は、シグモイド活性化関数を用いて密に接続された層としてもよい。さらに、二次元畳み込みニューラルネットワークのハイパーパラメーターは、層の数、フィルターサイズ、フィルターの数、又はそれらの組み合わせを調節することで調整され得る。
腫瘍純度を特定する推定メトリックが出力され得る。例えば、推定メトリックを含むレポートが出力され得る。いくつかの実施形態では、前記レポートは、B対立遺伝子頻度分布を特定する情報を含む。前記レポートは、少なくとも1つの診断マーカー及び/又は少なくとも1つの予後マーカーを識別する情報も含んでいてもよい。いくつかの実施形態では、前記レポートは、予測される体細胞バリアントを特定する情報を含む。前記レポートは、治療推奨も含んでいてもよい。例えば、推定された腫瘍純度は、膠芽腫の予後バイオマーカーであるO-6-メチルグアニン-DNAメチルトランスフェラーゼのメチル化レベルの上昇を示している可能性がある。別の例では、推定された腫瘍純度を使用して、癌細胞の突然変異負荷の量を測定することができ、これを使用して、特定のタイプの免疫療法を決定することができる。推定腫瘍純度の量に応じて、膠芽腫の治療を開始するかどうかを推奨できる。いくつかの実施形態では、治療推奨には、ヒト対象に治療を施すための推奨が含まれる。前記治療推奨は、前記ヒト対象に治療を施さないという推奨を含む場合がある。
したがって、本開示の実施形態は、一致する正常な対照試料由来のデータに依存する必要のない腫瘍純度のより正確な推定を行うことによって、従来のシステムに対する技術的利点を提供する。推定された腫瘍純度は、腫瘍試料からの配列決定データの分析と注釈(アノテーション)の精度を向上させるために使用され得る。推定された腫瘍純度を説明する1又は複数のレポートを生成することができる(例えば、診断レポート及び/又は予後レポート)。例えば、腫瘍純度の推定値を使用して、体細胞変異及び/又はコピー数の変化を特定する診断技術の精度を向上させることができ、予測される体細胞変異及び/又はコピー数の変化の詳細を含むレポートを生成できる。
腫瘍純度の推定及び/又は腫瘍純度の推定によって容易になるレポートに基づいて、1又は複数の治療を患者に施すか、又は患者に対して保留することができる。例えば、予測される体細胞バリアントを、公知の癌変異の1又は複数のデータベースと比較して、癌を診断又は特徴づけることができる。特定のがん治療に対する反応性又は無反応性に関連するバリアントを特定することができ、治療推奨を提供することができる。前記癌を、推奨に基づいて治療できる。
以下の例は、特定の実施形態を紹介するために提供される。以下の記述では、説明の目的で、本開示における例の深い理解を提供するために具体的な詳細が示されている。但し、これらの具体的な詳細がなくても、様々な例を行えることは明らかである。例えば、デバイス、システム、構造、アセンブリ、方法、及びその他の構成要素は、例を不必要に詳細に曖昧にしないために、ブロック図形式の構成要素として示される場合がある。他の例では、例を曖昧にすることを避けるために、周知のデバイス、プロセス、システム、構造、及び手法が、必要な詳細なしに示され得る。図及び説明は、限定的なものではない。本開示において使用されている用語及び表現は、説明の用語として使用され、限定するものではなく、そのような用語や表現を使用して、示され説明されている特徴又はその一部に相当するいかなるものを除外する意図はない。「例」という言葉は、本明細書では「例、実例、又は図解として役立つ」ことを意味するために使用される。本明細書で「例」として説明される任意の実施形態又は設計は、必ずしも他の実施形態又は設計よりも好ましい又は有利であると解釈されるものではない。
II.単一試料から腫瘍純度を推定するための機械学習モデル
A.生物学的試料の腫瘍純度を推定するための機械学習モデルの例
本明細書で説明されるように、生物学的試料の腫瘍純度は、訓練済み機械学習モデルを使用して推定できる。訓練済み機械学習モデルは、生物学的試料の腫瘍純度を推定するために訓練された様々な機械学習モデルの1つに対応していてもよい。いくつかの実施形態では、訓練済み機械学習モデルは、複数のモデルを含む(例えば、1、2、3、4、5、6、7、8、9、又は10の機械学習モデル)。例えば、完全に接続されたニューラルネットワーク、一次元畳み込みニューラルネットワーク、二次元畳み込みニューラルネットワークなど、3つの機械学習モデルの1つを訓練して、核酸配列決定データにおける腫瘍純度を推定できる。場合によっては、訓練済み機械学習モデルは、ディープニューラルネットワークを含む。ディープニューラルネットワークを使用して、拡大する高次元のデータセット(例えば、核酸配列データ)の内部構造をキャプチャできる。ディープニューラルネットワークは、高レベルの特徴を識別し、従来の統計モデルよりもパフォーマンスを向上させ、解釈可能性を高め、核酸配列データの構造に関するさらなる理解を提供する。
訓練済み機械学習モデルは、ハイパーパラメーターを含んでいてもよい。ハイパーパラメーターは、前記モデルの外部にあり、データ(例えば、トレーニングデータや入力データ)から値が推定されない構成とされ得る。場合によっては、ハイパーパラメーターを調整し、例えば、特定の予測モデリングの問題を解決するように調整する。場合によっては、モデルパラメーターの推定に役立つハイパーパラメーターが使用される。ハイパーパラメーターはユーザーが指定できる。場合によっては、ヒューリスティックアルゴリズムのセットを使用してハイパーパラメーターを決定できる。
図1は、いくつかの実施形態による腫瘍純度を推定するための完全に接続されたニューラルネットワークの模式図100を示す。完全に接続されたニューラルネットワークの入力層105が左側に示され、その後に一組の隠れ層110が続く。出力層115が右側に示されている。完全に接続されたネットワークの場合、入力機能には、生物学的試料で同定されたヌクレオチド配列バリアントの全エクソーム、B対立遺伝子頻度(BAF)分布を含めることができる。完全に接続されたニューラルネットワークには、ReLU活性化関数を備えた一連の完全に接続された層が含まれていてもよく、出力活性化関数はシグモイド関数であり得る。場合によっては、完全に接続されたニューラルネットワークの損失関数は、平均二乗誤差(MSE)を生成するように構成される。完全に接続されたニューラルネットワークは、層及びサイズの線形検索や学習率の対数検索など、ランダムサンプリングを使用したハイパーパラメーター検索によって最適化され得る。完全に接続されたニューラルネットワークの各出力次元は、各入力次元に依存し得る。場合によっては、完全に接続されたニューラルネットワークがフィードフォワードニューラルネットワークとなり得る。
畳み込みニューラルネットワークは、生物学的試料の腫瘍純度を推定するように訓練できる。畳み込みニューラルネットワークは、ローカル接続とユニット間の結合された重みとに依存し、その後に特徴プーリング(サブサンプリング)を行って、翻訳不変記述子を取得することができる。基本的な畳み込みニューラルネットワークアーキテクチャは、1つの畳み込み層及びプーリング層を含み、オプションで、所望により監視された予測のために完全に接続された層が続く。場合によっては、畳み込みニューラルネットワークは、入力空間をよりよくモデル化するために、複数の(例えば、>10)畳み込み層及びプーリング層で構成される。畳み込みニューラルネットワークでは、充分に訓練されるために大規模なデータセットが必要になる場合がある。いくつかの実施形態では、畳み込みニューラルネットワークは、入力空間の小さな領域で畳み込みを計算し、領域間でパラメーターを共有することにより、完全に接続されたニューラルネットワークよりも少ないパラメーターを使用する。畳み込みニューラルネットワークは、一次元畳み込みニューラルネットワークであり得る。畳み込みニューラルネットワークは、二次元畳み込みニューラルネットワークであり得る。いくつかの実施形態では、畳み込みニューラルネットワークは、3次元又はそれ以上の次元を備える。
図2は、いくつかの実施形態による腫瘍純度を推定するための一次元畳み込みニューラルネットワークの模式図200を示す。一次元畳み込みニューラルネットワークの場合、入力機能には染色体BAF分布が含まれていてもよく、高さ25、幅1、深さ100を定義する入力サイズにエンコードされ得る。前記一次元畳み込みニューラルネットワークの各層は、1×1畳み込みを実行し、続いてReLU活性化関数を実行し得る。場合によっては、「ネットワーク内ネットワーク」のディープネットワーク構造が使用される。事実上、フラット化された入力で各層の深さのストライドを使用した一次元(1D)畳み込みが使用される。場合によっては、深さ及び層サイズに対応するハイパーパラメーターが完全に接続されたニューラルネットワークから取得され(図1を参照)、一次元畳み込みニューラルネットワークの学習率に対応するハイパーパラメーターを最適化のために調整してもよい。
図3は、いくつかの実施形態による腫瘍純度を推定するための二次元畳み込みニューラルネットワークの模式図300を示す。二次元畳み込みニューラルネットワークの場合、入力機能には染色体BAF分布が含まれていてもよく、高さ25、幅100、深さ1を定義する入力サイズにエンコードされ得る。各層は、二次元畳み込み層(二次元畳み込みニューラルネットワーク層)に対応し、その後にReLU活性化関数が続く。出力層は、シグモイド活性化関数を有する密に接続された層に対応していてもよい。いくつかの実施形態では、二次元畳み込みニューラルネットワークのハイパーパラメーターは、層の数、フィルターサイズ、及びフィルターの数を検索することによって最適化される。ドロップアウト正則化及び/又はL2正則化を実行することにより、訓練セットの初期過適合(オーバーフィッティング)を減らすことができる。
他の種類の機械学習モデルを訓練して、生物学的試料の腫瘍純度を推定することができる。いくつかの実施形態では、機械学習モデルは、勾配ブースティング決定木(例えば、XGBoostフレームワークやLightGBMフレームワーク)、バギング手順、ブースティング手順、及び/又はランダムフォレストアルゴリズムの1又は複数に対応している。例えば、勾配ブースティングされた決定木を訓練して、生物学的試料の腫瘍純度を推定することができる。勾配ブースティングは、回帰問題及び分類問題、並びに、例えば決定木などの弱い予測モデルのアンサンブルを含んでいてもよい予測モデルの生成に使用され得る機械学習手法の一種に対応している。場合によっては、勾配ブーストされた決定木は、例えば、XGBoostフレームワーク又はLightGBMフレームワークを含み得る。
B.生物学的試料の腫瘍純度を推定するための機械学習モデルを訓練するためのトレーニングデータセット
生物学的試料の腫瘍純度を推定するための機械学習モデルは、監視された訓練アルゴリズムを使用して訓練できる。教師あり訓練アルゴリズムを使用して、機械学習モデルを訓練し、腫瘍純度に対応する線形回帰値及び/又はロジスティック回帰値に対応する出力を生成してもよい。機械学習モデルは、訓練データセットに基づいて訓練できる。場合によっては、訓練データセットは、純粋な腫瘍試料、純粋な正常試料、及び正常細胞間の腫瘍細胞の希釈系列からの配列決定データセットを含む。配列決定データセットは、癌と診断された対象からの生物学的試料を含む、他の対象の生物学的試料に由来し得る。訓練データセットの生物学的試料は、悪性組織、良性組織、又はそれらの混合物に対応していてもよい。いくつかの実施形態では、癌組織を含む生物学的試料は、一致する正常な試料なしでえ取得される。追加的に又は代替的に、機械学習モデルの訓練及びテストのために、一致する正常試料が取得される(例)。
いくつかの実施形態では、訓練データセットは、訓練ヌクレオチド配列バリアントデータセットを含む。訓練バリアントデータセットは、ヌクレオチド配列バリアントが特定される核酸配列データに対応していてもよい。ヌクレオチドに続くバリアントは、一塩基多型(SNP)、1又は複数の単一ヌクレオチド変化、挿入-欠失変異(インデル)、小挿入、小欠失、構造的バリアント接合、可変長タンデムリピート(縦列反復)、隣接配列、及びそれらの組み合わせを含んでいてもよい。場合によっては、バイアスのある「バリアントコールフォーマット(Variant Call Format(VCF))レベル」のデータセットが、腫瘍試料及び正常試料を含む訓練試料から生成されたVCFファイルの人工的な組み合わせを使用して生成される。したがって、訓練データセットには、腫瘍配列のインシリコ「希釈」が含まれていてもよい。VCFレベルのデータセットは、表1に概説されている特性を用いて生成され得る。機械学習モデルを訓練するには、機械学習モデルを「訓練(train)」セットに適合させ、「訓練(train)」セットと「開発(dev)」セットのパフォーマンスに基づいてハイパーパラメーターを調整し、「テスト(test)」セットで最終的なパフォーマンスを評価できる。
Figure 2023500141000001
いくつかの実施形態では、訓練データセットは、訓練核酸配列データを含む。訓練核酸配列データは、訓練試料からの読み取りをダウンサンプリング(downsampling)及び結合することによって生成されるバイアスのない「FASTQレベル」データセットに対応していてもよい。訓練試料は、正常試料及び腫瘍試料を含んでいてもよい。FASTQレベルのデータセットは、サイズ99及び11の固有の試料で生成でき、腫瘍細胞と一致した正常細胞のインビトロ希釈の配列決定から取得され得る。VCFレベルのデータセットと比較すると、FASTQレベルのデータセットは、バリアントレベルではなく読み取りレベルである可能性があるため、生データに近くなる。場合によっては、FASTQレベルのデータセットを使用して、より現実的なデータを使用してパフォーマンスを改善又は最適化する。大きなFASTQレベルのデータセットを生成することは計算上困難であるため、機械学習モデルは、転移学習を使用したFASTQレベルのデータセットを使用して訓練され得る。転移学習は、VCFレベルのデータセットで事前に訓練された機械学習モデルを使用して実行され、5分割交差検定が行われる。場合によっては、各機械学習モデルを訓練データセットの4/5で訓練し、各反復で訓練データセットの1/5でテストすることができる。
C.生物学的試料の腫瘍純度を推定するための機械学習モデルの訓練及びテスト
機械学習モデル(例えば、完全に接続されたニューラルネットワーク)は、訓練データセット(例えば、VCFレベルのデータセット)で訓練できる。場合によっては、機械学習モデルは最初にVCFレベルのデータセットで訓練される。機械学習モデルを「訓練(train)」セットに適合させ「訓練(train)」セットと「開発(dev)」セットのパフォーマンスに基づいてハイパーパラメーターを調整し、「テスト(test)」セットで最終的なパフォーマンスを評価できる。図4Aは、いくつかの実施形態による、VCFレベルデータセットで訓練済みの完全に接続されたニューラルネットワーク、一次元畳み込みニューラルネットワーク、及び二次元畳み込みニューラルネットワークの損失対エポックプロット400Aを示す。損失対エポックプロット400Aは、各訓練済み機械学習モデルのパフォーマンスレベルが各エポックで増加し、それによって約0.01~0.025の範囲の誤差値(平均二乗誤差など)に達することを示している。
図4Bは、いくつかの実施形態による、VCFレベルデータセットで訓練済みの完全に接続されたニューラルネットワーク、一次元畳み込みニューラルネットワーク、及び二次元畳み込みニューラルネットワークの二乗平均平方根誤差(RMSE)データ及び平均絶対誤差(MAE)データ400Bを示す。全てのモデルは、VCFレベルのデータセットで同等に機能する。このデータセットでは、訓練データセットに基づいて、二乗平均平方根誤差値が0.081(二次元畳み込みニューラルネットワーク)~0.088(完全に接続されたニューラルネットワーク)の範囲内となる。図4A及び図4Bに示されるように、VCFレベルの訓練データセット及びテストデータセットで訓練された全ての機械学習モデルにおける一貫したパフォーマンスは、良好な適合を示し、試料の腫瘍純度を推定するための最適性に近づいている可能性がある。
いくつかの実施形態では、FASTQレベルのデータセットは、訓練済み機械学習モデルのパフォーマンスを改善又は最適化するために使用される。大きなFASTQレベルのデータセットを生成することは計算上困難であるため、機械学習モデルは、転移学習を使用したFASTQレベルのデータセットを使用して訓練され得る。転移学習は、VCFレベルのデータセットで事前に訓練された機械学習モデルを使用して実行され得る。訓練済み機械学習モデルのパフォーマンスは、5分割交差検定戦略を使用して評価され得る。場合によっては、各機械学習モデルを訓練データセットの4/5で訓練し、各反復で訓練データセットの1/5でテストすることができる。図4Cは、いくつかの実施形態による、FASTQレベルデータセットで訓練済みの完全に接続されたニューラルネットワーク、一次元畳み込みニューラルネットワーク、及び二次元畳み込みニューラルネットワークのRSME及びMAEデータ400Cを示す。RMSE及びMAEデータ400Cは、訓練済み一次元畳み込みニューラルネットワーク(例えば、0.057RMSE)と訓練済み二次元畳み込みニューラルネットワーク(例えば、0.067RMSE)との間の同等レベルのパフォーマンスを示す。さらに、RMSE及びMAEデータ400Cは、訓練済み機械学習モデルが、FASTQレベルのデータセットでの転移学習後に低いRSME及びMAEを達成したことを示している。
各訓練済み機械学習モデルのパフォーマンスレベルを評価した。図5Aは、いくつかの実施形態による、真の腫瘍純度を訓練済みの完全に接続されたネットワークによって予測された腫瘍純度と比較するプロット500Aを示す。図5Bは、いくつかの実施形態による、真の腫瘍純度を訓練済みの二次元畳み込みニューラルネットワークによって予測された腫瘍純度と比較するプロット500Bを示す。図5Cは、いくつかの実施形態による、真の腫瘍純度を一次元畳み込みニューラルネットワークによって予測された腫瘍純度と比較するプロット500Cを示す。図5A、図5B、及び図5Cそれぞれからの結果は、訓練済み機械学習モデルが、一致する正常対照試料を必要とする既存のツールに匹敵するパフォーマンスレベルを達成することを示している。
場合によっては、畳み込みニューラルネットワークモデルが訓練データセットに過適合する傾向がある。例えば、畳み込みニューラルネットワークに対応するより高いRSME値及びMAE値は、正則化及びドロップアウトによって大幅に改善されない場合がある。これらの畳み込みニューラルネットワークが過適合する傾向は、より大きな訓練データセットを使用して訓練された場合、腫瘍純度の複雑な信号を検出するこれらの機械学習モデルの能力を示している場合がある。そのため、より大きく、より多様な訓練データセットを使用して、機械学習モデルをさらに訓練してもよい。
いくつかの実施形態では、訓練済み機械学習モデルは、訓練データ及び/又はテストデータを使用して訓練され、腫瘍純度を推定するための1又は複数の所定のパフォーマンスレベルを達成する。1又は複数の所定のパフォーマンスレベルは、以下のものを含む。
最大で1%、2%、3%、4%、5%、6%、7%、8%、9%、10%、11%、12%、13%、14%、15%、16%、17%、18%、19%、又は20%のMAE。
最大で1%、2%、3%、4%、5%、6%、7%、8%、9%、10%、11%、12%、13%、14%、15%、16%、17%、18%、19%、又は20%のRMSE。
少なくとも約0.2、0.25、0.3、0.35、0.4、0.45、0.5、0.55、0.6、0.65、0.7、0.75、0.8、0.85、0.9、0.95、又はそれ以上の精度。追加的に又は代替的に、前記訓練済み機械学習モデルは、約0.2~1.0、0.2~0.9、0.2~0.8、0.2~0.7、0.2~0.6、0.2~0.5、0.2~0.4、0.2~0.3、0.3~1.0、0.3~0.9、0.3~0.8、0.3~0.7、0.3~0.6、0.3~0.5、0.3~0.4、0.4~1.0、0.4~0.9、0.4~0.8、0.4~0.7、0.4~0.6、0.4~0.5、0.5~1.0、0.5~0.9、0.5~0.8、0.5~0.7、0.5~0.6、0.6~1.0、0.6~0.9、0.6~0.8、0.6~0.7、0.7~1.0、0.7~0.9、0.7~0.8、0.8~1.0、0.8~0.9、又は0.9~1.0の精度で腫瘍純度を推定するように訓練される。
少なくとも約0.2、0.25、0.3、0.35、0.4、0.45、0.5、0.55、0.6、0.65、0.7、0.75、0.8、0.85、0.9、0.95、又はそれ以上のリコール。追加的に又は代替的に、前記訓練済み機械学習モデルは、約0.2~1.0、0.2~0.9、0.2~0.8、0.2~0.7、0.2~0.6、0.2~0.5、0.2~0.4、0.2~0.3、0.3~1.0、0.3~0.9、0.3~0.8、0.3~0.7、0.3~0.6、0.3~0.5、0.3~0.4、0.4~1.0、0.4~0.9、0.4~0.8、0.4~0.7、0.4~0.6、0.4~0.5、0.5~1.0、0.5~0.9、0.5~0.8、0.5~0.7、0.5~0.6、0.6~1.0、0.6~0.9、0.6~0.8、0.6~0.7、0.7~1.0、0.7~0.9、0.7~0.8、0.8~1.0、0.8~0.9、又は0.9~1.0のリコールで腫瘍純度を推定するように訓練される。
少なくとも約0.2、0.25、0.3、0.35、0.4、0.45、0.5、0.55、0.6、0.65、0.7、0.75、0.8、0.85、0.86、0.87、0.88、0.89、0.9、0.91、0.92、0.93、0.94、0.95、0.96、0.97、0.98、0.99、0.995、又はそれ以上のF1スコア(例えば、マクロ平均F1分類スコア)。追加的に又は代替的に、前記訓練済み機械学習モデルは、約0.2~1.0、0.2~0.99、0.2~0.95、0.2~0.9、0.2~0.8、0.2~0.7、0.2~0.6、0.2~0.5、0.2~0.4、0.2~0.3、0.3~1.0、0.3~0.99、0.2~0.95、0.3~0.9、0.3~0.8、0.3~0.7、0.3~0.6、0.3~0.5、0.3~0.4、0.4~1.0、0.4~0.99、0.4~0.95、0.4~0.9、0.4~0.8、0.4~0.7、0.4~0.6、0.4~0.5、0.5~1.0、0.5~0.99、0.5~0.95、0.5~0.9、0.5~0.8、0.5~0.7、0.5~0.6、0.6~1.0、0.6~0.99、0.6~0.95、0.6~0.9、0.6~0.8、0.6~0.7、0.7~1.0、0.7~0.99、0.7~0.98、0.7~0.97、0.7~0.96、0.7~0.95、0.7~0.9、0.7~0.8、0.8~1.0、0.8~0.99、0.8~0.98、0.8~0.97、0.8~0.96、0.8~0.95、0.8~0.9、0.9~1.0、0.9~0.99、0.9~0.98、0.9~0.97、0.9~0.96、又は0.9~0.95のF1スコアで腫瘍純度を推定するように訓練される。
III.腫瘍純度の推定
図6は、いくつかの実施形態による、訓練済みの機械学習モデルを使用して腫瘍純度を推定するための模式図600の例を示す。不一致の生物学的試料の配列決定からの腫瘍純度は、訓練済み機械学習モデル(例えば、回帰モデル)を使用して推定できる。場合によっては、ディープニューラルネットワークを使用して、対を成さない生物学的試料中のヌクレオチド配列バリアントの対立遺伝子分画分布(例えば、B対立遺伝子頻度分布)から腫瘍純度を推定する。回帰モデルを使用して、全エクソーム配列決定データのB対立遺伝子頻度(BAF)から腫瘍純度を予測できる。
ブロック605では、不一致の腫瘍試料を癌患者から得ることができる(すなわち、一致する正常試料なし)。ブロック610では、腫瘍試料からDNAが抽出され、処理され、全エクソーム配列決定が行われる。場合によっては、配列決定読み取りは、FASTQファイルを提供するために品質管理処理(例えば、FastQCを介して)を受ける。FASTQファイルは、BAMファイルを生成するために参照ゲノムにアラインメントされる。
ブロック615において、GATK HaplotypeCallerを使用して、BAMファイルからバリアントを呼び出し、バリアント情報を含むVCFファイルを生成することができる。試料エクソーム内のヘテロ接合部位を特定でき、VCFファイルをフィルタリングして、全てのヘテロ接合部位の参照及び代替読み取り深度を取得できる。この情報は、B対立遺伝子頻度(BAF)を計算するために使用される。正規化されたBAF分布は、エクソーム全体のヘテロ接合部性位に対して計算される。
ブロック620では、訓練済み機械学習モデルを使用して、正規化されたBAF分布から腫瘍純度を推定できる。したがって、訓練済み機械学習モデルは、一致する正常試料がない場合であっても、腫瘍純度の正確な推定値を生成できる。
A.対象及び試料
腫瘍純度を推定するために、複数の核酸分子を表す核酸配列データを対象の生物学的試料から取得することができる。前記対象はヒトであり得る。前記対象は、男性又は女性であり得る。前記対象は、胎児、乳児、小児、青年、ティーンエイジャー、又は成人であってもよい。前記対象は、あらゆる年齢の患者であり得る。例えば、前記対象は、約10歳未満の患者であり得る。例えば、前記対象は、少なくとも約0、5、10、20、30、40、50、60、70、80、90、又は100歳の患者であり得る。前記対象は、治療レジメンを受けている、又は治療レジメン(例えば、癌治療)について評価されている患者又は他の個人であり得る。しかしながら、場合によっては、前記対象は治療レジメンを受けていない。
場合によっては、前記対象は、哺乳動物又は非哺乳動物であってもよい。場合によっては、前記対象は、ヒト、非ヒト霊長類(例えば、類人猿、サル、チンパンジー)、猫、犬、ウサギ、ヤギ、ウマ、ウシ、ブタ、齧歯動物、マウス、SCIDマウス、ラット、モルモット、又はヒツジなどの哺乳動物である。いくつかの実施形態では、これらの遺伝子の種バリアント又は相同体は、非ヒト動物モデルで使用される。種のバリアントは、互いに機能的特性において最大の配列同一性及び類似性を有する異なる種の遺伝子であり得る。そのような種のバリアントのヒト遺伝子の多くは、Swiss-Protデータベースに列挙されている場合がある。
特定の実施形態は、ヒト対象などの対象から試料を取得することを含み得る。場合によっては、患者からの臨床検体が得られる。例えば、血液は患者から採取され得る。特定の実施形態は、生物学的試料内にある分子(例えば、核酸、DNA、RNAなど)を特異的に検出、プロファイリング、又は定量化することを含み得る。
前記試料は、組織試料又は体液であり得る。場合によっては、前記試料は組織試料又は生検などの臓器試料である。場合によっては、前記試料は、癌細胞を含む。場合によっては、前記試料は、癌性細胞及び正常細胞を含む。場合によっては、前記試料は腫瘍生検である。前記体液は、汗、唾液、涙、尿、血液、月経、精液、及び/又は髄液であり得る。場合によっては、前記試料は、血液試料である。前記試料は、1又は複数の末梢血リンパ球を含み得る。前記試料は、全血試料であり得る。前記血液試料は、末梢血試料であり得る。場合によっては、前記試料は、末梢血単核細胞(PBMC)を含み、場合によっては、前記試料は末梢血リンパ球(PBL)を含む。前記試料は、血清試料であり得る。
前記試料は、本明細書に記載の分析方法に適した試料を提供可能な任意の方法を使用して得ることができる。前記試料は、喉スワブ、口腔スワブ、気管支洗浄、採尿、皮膚又は子宮頸部の掻き取り、頬スワブ、採唾、採便、経血採取、又は精液採取などの非侵襲的方法によって得てもよい。前記試料は、採血などの低侵襲的方法で採取してもよい。前記試料は、静脈穿刺によって採取してもよい。他の例では、前記試料は、生検、肺胞若しくは肺洗浄、又は針吸引を含むがこれらに限定されない侵襲的処置によって得られる。生検の方法は、外科的生検、切開生検、切除生検、パンチ生検、剃毛生検、又は皮膚生検を含み得る。前記試料はホルマリン固定切片であってもよい。針吸引の方法は、細針吸引、コア針生検、真空支援生検、又はラージコア生検をさらに含み得る。場合によっては、充分な量の生物学的材料を確保するために、本明細書の方法によって複数の試料を取得してもよい。場合によっては、前記試料は、生検によって取得されない。場合によっては、前記試料は腎生検ではない。
本開示の方法を使用して、少なくとも約1%、5%、10%、15%、20%、25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、又はそれ以上の腫瘍細胞を含む試料中の腫瘍純度を推定することができる。いくつかの実施形態では、本開示の方法を使用して、最大で約10%、15%、20%、25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、又はそれ以上の腫瘍細胞を含む試料中の腫瘍純度を推定することができる。
B.核酸配列決定データの生成
いくつかの実施形態では、前記試料は、核酸配列データを取得するために処理される。「核酸」又は「核酸分子」は、プリン及びピリミジン塩基、又は他の天然、化学的若しくは生化学的に修飾された、非天然、又は誘導体化されたヌクレオチド塩基を含む、リボヌクレオチド、デオキシリボヌクレオチド、又はペプチド核酸(PNA)のいずれかの任意の長さのヌクレオチドのポリマー形態に対応し得る。ポリヌクレオチドの骨格は、RNA又はDNAに典型的に見られるような糖及びリン酸基、あるいは修飾又は置換された糖又はリン酸基を含み得る。ポリヌクレオチドは、メチル化ヌクレオチド及びヌクレオチド類似体などの修飾ヌクレオチドを含み得る。ヌクレオチドの配列は、非ヌクレオチド成分によって中断される可能性がある。したがって、ヌクレオシド、ヌクレオチド、デオキシヌクレオシド、及びデオキシヌクレオチドという用語は、概して、本明細書に記載されるものなどの類似体を含む。これらの類似体は、天然に存在するヌクレオシド又はヌクレオチドと共通するいくつかの構造的特徴を有する分子であるため、核酸配列又はオリゴヌクレオシド配列に組み込まれると、溶液中に天然に存在する核酸配列とのハイブリダイゼーションを可能にする。典型的には、これらの類似体は、塩基、リボース、又はホスホジエステル部分を置換及び/又は修飾することにより、天然に存在するヌクレオシド及びヌクレオチドに由来する。この変化は、ハイブリッド形成を安定化又は不安定化するか、必要に応じて相補的核酸配列とのハイブリダイゼーションの特異性を高めるように調整され得る。核酸分子は、DNA分子であってもよい。核酸分子は、RNA分子であってもよい。
試料処理は、核酸試料処理とそれに続く核酸試料配列とを含む。生物学的試料の一部又は全部を配列決定して、核酸配列データを提供することができ、これは、電子的、磁気的、又は光学的保存場所に保存又は維持され得る。配列情報は、コンピュータープロセッサにより分析してもよく、分析された配列情報は、電子記憶場所に保存してもよい。電子保管場所は、核酸試料から生成された配列情報及び分析された配列情報のプール又はコレクションを含み得る。いくつかの実施形態では、生物学的試料は、癌を有する又は癌を有する疑いのある対象から取得される。
いくつかの実施形態では、核酸配列決定データは、純粋な腫瘍試料と純粋な正常試料とから生成される。一致した対を成す細胞株は、別の提供元(例えば、アメリカンタイプカルチャーコレクション(American Type Culture Collection、ATCC))から入手可能である。一致した各対には、同じ対象の腫瘍細胞株と正常細胞株とが含まれていてもよい。前記細胞株は、DNA抽出に適した数の細胞を得るために、インビトロで培養及び増殖させてもよい。DNAを抽出し、処理し、全エクソーム又は全ゲノム配列決定に供する。配列読み取りは、FASTQファイルを提供するために品質管理処理(例えば、FastQCを介して)を受け得る。
場合によっては、前記核酸配列データは全ゲノム配列決定を使用して生成される。場合によっては、全ゲノム配列決定を使用して一個人におけるバリアントを特定する。場合によっては、配列決定は、ゲノムの一部にわたるディープシーケンシングを含み得る。例えば、ゲノムの画分は、少なくとも約50、75、100、125、150、175、200、225、250、275、300、350、400、450、500、550、600、650、700、750、800、850、900、950、1,000、1100、1200、1300、1400、1500、1600、1700、1800、1900、2,000、3,000、4,000、5,000、6,000、7,000、8,000、9,000、10,000、15,000、20,000、30,000、40,000、50,000、60,000、70,000、80,000、90,000、100,000、又はそれ以上の塩基又は塩基対であり得る。場合によっては、ゲノムは、100万、200万、300万、400万、500万、600万、700万、800万、900万、1000万、又は1000万を超える塩基又は塩基対にわたって配列決定されてもよい。場合によっては、ゲノムは、エクソーム全体にわたって配列決定され得る(例えば、エクソーム全体の配列決定)。場合によっては、ディープシーケンシングには、ゲノムの一部で複数の読み取りを取得することが含まれ得る。例えば、複数の読み取りを取得するには、ゲノムの一部で少なくとも2、3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900、1000、10,000個又はそれ以上の読み取りが含まれ得る。
場合によっては、核酸配列データの生成には、ディープシーケンシングによる低対立遺伝子画分の検出が含まれる。場合によっては、ディープシーケンシングは次世代シーケンシングによって行われます。場合によっては、エラーが発生しやすい領域を回避することにより、ディープシーケンシングが実行される。場合によっては、エラーが発生しやすい領域には、配列重複に近い領域、%GCが異常に高い又は低い領域、ホモポリマーに近い領域、ジヌクレオチド及びトリヌクレオチド、並びに他の短い繰り返しに近い領域が含まれていてもよい。場合によっては、エラーが発生しやすい領域には、DNA配列決定エラー(例えば、ホモポリマー配列におけるポリメラーゼスリッページ)に至る領域が含まれる場合がある。
場合によっては、核酸配列データを生成することは、試料中の1又は複数の核酸分子に対して1又は複数の配列決定反応を実施することを含む。特定の実施形態は、試料中の1又は複数の核酸分子に対して1以上、2以上、3以上、4以上、5以上、6以上、7以上、8以上、9以上、10以上、15以上、20以上、30以上、40以上、50以上、60以上、70以上、80以上、90以上、100以上、200以上、300以上、400以上、500以上、600以上、700以上、800以上、900以上、又は1000以上、又はそれ以上の配列決定反応を実施することを含み得る。配列決定反応は、同時に、連続して、又はそれらの組み合わせで実施してもよい。配列決定反応は、全ゲノム配列決定又はエクソーム配列決定を含み得る。配列決定反応は、マクサム・ギルバート(Maxim-Gilbert)システム、チェーンターミネーションシステム、又はハイスループットシステムを含み得る。代替的に又は追加的に、配列決定反応は、HeliScope(商標)単一分子配列決定、ナノ細孔DNA配列決定、リンクス・セラピューティックス(Lynx Therapeutics)社の超並列署名配列決定(Massively Parallel Signature Sequencing、MPSS)、454パイロシーケンシング、単一分子リアルタイム(RNAP)配列決定、イルミナ(Illumina)(Solexa)配列決定、SOLiD配列決定、Ion Torrent(商標)イオン半導体配列決定、単一分子SMRT(商標)配列決定、ポロニー配列決定、DNAナノボール配列決定、VisiGen Biotechnologies社によるアプローチ、又はそれらの組み合わせを含んでいてもよい。代替的に又は追加的に、配列決定反応は、イルミナ(Illumina)社が提供するゲノムアナライザーIIx、HiSeq、及びMiSeq、パシフィック・バイオサイエンシズ(Pacific Biosciences)社(カリフォルニア州)が提供するPacBio RSシステムなどの単一分子リアルタイム(Single Molecule Real Time、SMRT(商標))技術、及びSolexaシークエンサー(イルミナ社)、並びにヘリコス(Helicos)社が提供するHeliScope(商標)シークエンサーなどの単一分子配列決定(True Single Molecule Sequencing、tSMS(商標))技術(マサチューセッツ州ケンブリッジ)などの1又は複数の配列決定プラットフォームを含み得るが、これらに限定されない。配列決定反応は、電子顕微鏡又は化学感受性電界効果トランジスタ(chemFET)アレイも含み得る。本開示のいくつかの態様において、配列決定反応は、毛細血管配列決定、次世代配列決定、サンガー(Sanger)配列決定、合成による配列決定、ライゲーションによる配列決定、ハイブリダイゼーションによる配列決定、単一分子配列決定、又はそれらの組み合わせを含む。合成による配列決定は、可逆的ターミネーター配列決定、プロセッシブ単一分子配列決定、配列フロー配列決定、又はそれらの組み合わせを含み得る。配列フロー配列決定は、パイロシーケンシング、pHを介した配列決定、半導体配列決定、又はそれらの組み合わせを含み得る。
場合によっては、核酸配列データを生成することは、少なくとも1つの長い読み取り配列決定反応及び少なくとも1つの短い読み取り配列決定反応を実施することを含む。長い読み取り配列決定反応及び/又は短い読み取り配列決定反応は、核酸分子のサブセットの少なくとも一部に対して実施され得る。長い読み取り配列決定反応及び/又は短い読み取り配列決定反応は、核酸分子の2つ以上のサブセットの少なくとも一部に対して実施され得る。長い読み取り配列決定反応及び短い読み取り配列決定反応の両方が、核酸分子の1又は複数のサブセットの少なくとも一部に対して実施され得る。
1又は複数の核酸分子又はそのサブセットの配列決定は、少なくとも約5、10、15、20、25、30、35、40、45、50、60、70、80、90、100、200、300、400、500、600、700、800、900、1,000、1500、2,000、2500、3,000、3500、4,000、4500、5,000、5500、6,000、6500、7,000、7500、8,000、8500、9,000、10,000、25,000、50,000、75,000、100,000、250,000、500,000、750,000、10,000,000、25,000,000、50,000,000、100,000,000、250,000,000、500,000,000、750,000,000、1,000,000,000個又はそれ以上の配列決定読み取りを含み得る。
配列決定反応は、1又は複数の核酸分子の少なくとも約50、60、70、80、90、100、110、120、130、140、150、160、170、180、190、200、210、220、230、240、250、260、270、280、290、300、325、350、375、400、425、450、475、500、600、700、800、900、1,000、1500、2,000、2500、3,000、3500、4,000、4500、5,000、5500、6,000、6500、7,000、7500、8,000、8500、9,000、10,000、20,000、30,000、40,000、50,000、60,000、70,000、80,000、90,000、100,000個又はそれ以上の塩基又は塩基対を配列決定することを含み得る。配列決定反応は、1又は複数の核酸分子の少なくとも約50、60、70、80、90、100、110、120、130、140、150、160、170、180、190、200、210、220、230、240、250、260、270、280、290、300、325、350、375、400、425、450、475、500、600、700、800、900、1,000、1500、2,000、2500、3,000、3500、4,000、4500、5,000、5500、6,000、6500、7,000、7500、8,000、8500、9,000、10,000、20,000、30,000、40,000、50,000、60,000、70,000、80,000、90,000、100,000個又はそれ以上の連続した塩基又は塩基対を配列決定することを含み得る。
場合によっては、配列決定手法により、少なくとも100リード/ラン(読み取り/実行)、少なくとも200リード/ラン、少なくとも300リード/ラン、少なくとも400リード/ラン、少なくとも500リード/ラン、少なくとも600リード/ラン、少なくとも700リード/ラン、少なくとも800リード/ラン、少なくとも900リード/ラン、少なくとも1000リード/ラン、少なくとも5,000リード/ラン、少なくとも10,000リード/ラン、少なくとも50,000リード/ラン、少なくとも100,000リード/ラン、少なくとも500,000リード/ラン、又は少なくとも1,000,000リード/ランが生成される。あるいは、配列決定手法により、少なくとも1,500,000リード/ラン、少なくとも2,000,000リード/ラン、少なくとも2,500,000リード/ラン、少なくとも3,000,000リード/ラン、少なくとも3,500,000リード/ラン、少なくとも4,000,000リード/ラン、少なくとも4,500,000リード/ラン、又は少なくとも5,000,000リード/ランが生成される。
場合によっては、配列決定手法により、少なくとも約30塩基対、少なくとも約40塩基対、少なくとも約50塩基対、少なくとも約60塩基対、少なくとも約70塩基対、少なくとも約80塩基対、少なくとも約90塩基対、少なくとも約100塩基対、少なくとも約110、少なくとも約120塩基対/読み取り、少なくとも約150塩基対、少なくとも約200塩基対、少なくとも約250塩基対、少なくとも約300塩基対、少なくとも約350塩基対、少なくとも約400塩基対、少なくとも約450塩基対、少なくとも約500塩基対、少なくとも約550塩基対、少なくとも約600塩基対、少なくとも約700塩基対、少なくとも約800塩基対、少なくとも約900塩基対、又は少なくとも約1,000塩基対/読み取りが生成される。追加的に又は代替的に、配列決定技術により、長い配列決定読み取りを生成し得る。場合によっては、配列決定技術により、少なくとも約1,200塩基対/読み取り、少なくとも約1,500塩基対/読み取り、少なくとも約1,800塩基対/読み取り、少なくとも約2,000塩基対/読み取り、少なくとも約2,500塩基対/読み取り、少なくとも約3,000塩基対/読み取り、少なくとも約3,500塩基対/読み取り、少なくとも約4,000塩基対/読み取り、少なくとも約4,500塩基対/読み取り、少なくとも約5,000塩基対/読み取り、少なくとも約6,000塩基対/読み取り、少なくとも約7,000塩基対/読み取り、少なくとも約8,000塩基対/読み取り、少なくとも約9,000塩基対/読み取り、少なくとも約10,000塩基対/読み取り、20,000塩基対/読み取り、30,000塩基対/読み取り、40,000塩基対/読み取り、50,000塩基対/読み取り、60,000塩基対/読み取り、70,000塩基対/読み取り、80,000塩基対/読み取り、90,000塩基対/読み取り、又は100,000塩基対/読み取りを生成し得る。
ハイスループット配列決定システムは、成長する鎖に組み込まれた直後又はその際に、配列決定されたヌクレオチドの検出、すなわち、リアルタイム又は実質的にリアルタイムでの配列の検出を可能にし得る。場合によっては、ハイスループット配列決定により、少なくとも1,000、少なくとも5,000、少なくとも10,000、少なくとも20,000、少なくとも30,000、少なくとも40,000、少なくとも50,000、少なくとも100,000、又は少なくとも500,000配列読み取り/時間が生成され、各読み取りは、少なくとも50、少なくとも60、少なくとも70、少なくとも80、少なくとも90、少なくとも100、少なくとも120、少なくとも150、少なくとも200、少なくとも250、少なくとも300、少なくとも350、少なくとも400、少なくとも450、又は少なくとも500塩基/読み取りである。配列決定は、ゲノムDNA、RNA転写産物に由来するcDNA、又は鋳型としてのRNAなどの本明細書に記載の核酸を使用して実施され得る。
C.ヌクレオチド配列バリアントの特定
生物学的試料の腫瘍純度を推定するために、生物学的試料のB対立遺伝子頻度(BAF)を決定することができる。BAFを決定するために、ゲノム領域のセットを特定することができ、ゲノム領域のセットの各々は、参照ゲノムの対応するゲノム領域に関連するヌクレオチド配列バリアントを含み得る。ゲノム領域のセットを決定するために、核酸配列データを参照ゲノムにアラインメントすることができる。例えば、核酸配列データに対応するFASTQファイルを参照ゲノムにアラインメントして、1又は複数のBAMファイルを生成することができる。1又は複数のBAMファイルを別のモジュール(例えば、GATK HaplotypeCaller)で処理して、ゲノム領域のセットを特定することができる。場合によっては、ゲノム領域のセットを含むVCFファイルが生成される。追加的に又は代替的に、VCFファイルは一致した対を成す細胞株に対して取得され得る。VCFファイルは、核酸配列データと参照ゲノムとの比較に基づいて、ヌクレオチド配列バリアントを有するゲノム領域のセットを特定し得る。
特定の実施形態は、1又は複数のゲノム領域を含む核酸分子を含み得る。特定の実施形態は、1又は複数のセットのゲノム領域を含む核酸分子を含み得る。前記1又は複数のゲノム領域は、1又は複数のゲノム領域の特徴を含み得る。前記ゲノム領域の特徴は、ゲノム全体又はその一部を含み得る。前記ゲノム領域の特徴は、エクソーム全体又はその一部を含み得る。前記ゲノム領域の特徴は、1又は複数の遺伝子セットを含み得る。前記ゲノム領域の特徴は、1又は複数の遺伝子を含み得る。前記ゲノム領域の特徴は、1又は複数の調節要素のセットを含み得る。前記ゲノム領域の特徴は、1又は複数の調節要素を含み得る。
ゲノム領域の特徴は、多型のセットを含み得る。ゲノム領域の特徴は、1又は複数の多型を含み得る。ゲノム領域の特徴は、1又は複数の核酸分子のGC含量、複雑性、及び/又はマッピング可能性に関連していてもよい。ゲノム領域の特徴には、1又は複数の単純なタンデムリピート(STR)、不安定な拡張リピート、セグメント重複、単一及び対を成す読み取り変性マッピングスコア、GRCh37パッチ、又はそれらの組み合わせが含まれ得る。ゲノム領域の特徴には、全ゲノム配列決定(WGS)からの1又は複数の低平均カバレッジ領域、WGSからのゼロ平均カバレッジ領域、検証済み圧縮、又はそれらの組み合わせが含まれ得る。ゲノム領域の特徴には、1又は複数の代替又は非参照配列が含まれ得る。ゲノム領域の特徴は、1又は複数の遺伝子フェージング及び再構築遺伝子が含まれ得る。本開示のいくつかの態様では、1又は複数のゲノム領域の特徴は、相互に排他的ではない。例えば、ゲノム全体又はその一部を含むゲノム領域の特徴は、エクソーム全体又はその一部、1又は複数の遺伝子、1又は複数の調節要素などのような追加のゲノム領域の特徴と重複し得る。あるいは、1又は複数のゲノム領域の特徴は、相互に排他的である。例えば、全ゲノムの非コード部分を含むゲノム領域は、エクソーム又はその一部、あるいは遺伝子のコード部分などのゲノム領域の特徴と重複しないこともある。代替的に又は追加的に、1又は複数のゲノム領域の特徴は、部分的に排他的又は部分的に包括的である。例えば、エクソン全体又はその一部を含むゲノム領域は、遺伝子のエクソン部分を含むゲノム領域と部分的に重複し得る。しかしながら、エクソーム全体又はその一部を含むゲノム領域は、遺伝子のイントロン部分を含むゲノム領域と重複しないこともある。したがって、遺伝子又はその一部を含むゲノム領域の特徴は、エクソーム全体又はその一部を含むゲノム領域の特徴を部分的に含まなくてもよい及び/又は部分的に含んでいてもよい。
特定の実施形態は、1又は複数のゲノム領域を含む核酸試料又は分子を含み得、1又は複数のゲノム領域のうちの少なくとも1つは、ゲノム全体又はその一部を含むゲノム領域の特徴を含む。ゲノム全体又はその一部は、ゲノムの1又は複数のコーディング部分、ゲノムの1又は複数の非コーディング部分、又はそれらの組み合わせを含み得る。ゲノムのコーディング部分は、1又は複数のタンパク質をコードする遺伝子の1又は複数のコーディング部分を含み得る。ゲノムの1又は複数のコーディング部分は、エクソーム全体又はその一部を含み得る。代替的に又は追加的に、ゲノムの1又は複数のコーディング部分は、1又は複数のエクソンを含み得る。
ゲノムの1又は複数の非コード部分は、1又は複数の非コード分子又はその一部を含み得る。非コード分子は、1又は複数の非コードRNA、1又は複数の調節要素、1又は複数のイントロン、1又は複数の偽遺伝子、1又は複数のリピート配列、1又は複数のトランスポゾン、1又は複数のウイルス要素、1又は複数のテロメア、それらの一部、又はそれらの組み合わせを含み得る。非コードRNAは、タンパク質に翻訳されない機能性RNA分子であってもよい。非コードRNAの例には、リボソームRNA、トランスファーRNA、PIWI相互作用RNA、マイクロRNA、siRNA、shRNA、snoRNA、sncRNA、及びlncRNAが含まれるが、これらに限定されない。偽遺伝子は公知の遺伝子に関連している場合があり、典型的にはもはや発現されない。リピート配列は、1又は複数のタンデムリピート、1又は複数の散在リピート、又はそれらの組み合わせを含み得る。タンデムリピートは、1又は複数のサテライトDNA、1又は複数のミニサテライト、1又は複数のマイクロサテライト、又はそれらの組み合わせを含み得る。
散在リピートには、1又は複数のトランスポゾンが含まれていてもよい。トランスポゾンは可動遺伝因子であってもよい。可動遺伝因子は、ゲノム内での位置が可変である場合が多い。トランスポゾンは、クラスIトランスポゾン(クラスI TE)又はクラスIIトランスポゾン(クラスII TE)に分類できる。クラスI TE(例えば、レトロトランスポゾン)は、多くの場合、最初は転写によってDNAからRNAに、次に逆転写によってRNAからDNAに戻るという2つの段階で自分自身をコピーすることがある。続いて、DNAコピーがゲノムの新しい位置に挿入され得る。クラスI TEには、1又は複数の長いターミナルリピート(LTR)、1又は複数の長い散在核要素(LINE)、1又は複数の短い散在核要素(SINE)、又はそれらの組み合わせが含まれ得る。LTRの例には、ヒト内因性レトロウイルス(HERV)、中程度の反復リピート4(medium reiterated repeats 4、MER4)、及びレトロトランスポゾンが含まれるが、これらに限定されない。LINEの例には、LINE1及びLINE2が含まれるが、これらに限定されない。SINEには、1又は複数のAlu配列、1又は複数の哺乳動物全体における散在リピート(mammalian-wide interspersed repeat、MIR)、又はそれらの組み合わせが含まれ得る。クラスII TE(例えば、DNAトランスポゾン)は、RNA中間体を含まないことが多い。DNAトランスポゾンは、多くの場合、ある部位から切り取られ、ゲノム内の別の部位に挿入される。あるいは、DNAトランスポゾンが複製され、ゲノムの新しい位置に挿入される。DNAトランスポゾンの例には、MER1、MER2、及びマリナーが含まれるが、これらに限定されない。ウイルス要素には、1又は複数の内在性レトロウイルス配列が含まれ得る。テロメアは、染色体の末端にある反復DNAの領域であることが多い。
特定の実施形態は、1又は複数のゲノム領域を含む核酸試料又は核酸分子のサブセットを含み得、1又は複数のゲノム領域のうちの少なくとも1つは、エクソーム全体又はその一部を含むゲノム領域の特徴を含む。エクソームは、多くの場合、エクソンによって形成されるゲノムの一部である。エクソームは、非翻訳領域(UTR)、スプライス部位、及び/又はイントロン領域によって形成される場合がある。エクソーム全体又はその一部は、タンパク質をコードする遺伝子の1又は複数のエクソンを含み得る。エクソーム全体又はその一部には、1又は複数の非翻訳領域(UTR)、スプライス部位、及びイントロンが含まれる場合がある。
特定の実施形態は、1又は複数のゲノム領域を含む核酸試料又は分子を含み得、1又は複数のゲノム領域のうちの少なくとも1つは、遺伝子又はその一部を含むゲノム領域の特徴を含む。典型的には、遺伝子には、ポリペプチド又は機能性RNAをコードする核酸のストレッチが含まれる。遺伝子は、1又は複数のエクソン、1又は複数のイントロン、1又は複数の非翻訳領域(UTR)、又はそれらの組み合わせを含み得る。エクソンは多くの場合、遺伝子のセクションをコードし、前駆体mRNA配列に転写され、遺伝子の最終的な成熟RNA産物内にある。イントロンは多くの場合、遺伝子の非コードセクションであり、前駆体mRNA配列に転写され、RNAスプライシングによって除去される。UTRは、mRNA鎖のコード配列の両側のセクションを指す場合がある。コード配列の5’側にあるUTRは、5’UTR(又はリーダー配列)と呼ばれることがある。コード配列の3’側に位置するUTRは、3’UTR(又はトレーラー配列)と呼ばれることがある。UTRには、遺伝子発現を制御するための1又は複数の要素が含まれていてもよい。調節要素などの要素は、5’UTRに配置され得る。ポリアデニル化シグナル、タンパク質の結合部位、miRNAの結合部位などの調節配列は、3’UTRに位置し得る。3’UTRに位置するタンパク質の結合部位として、セレノシステイン挿入配列(SECIS)要素及びAUリッチ要素(ARE)が挙げられるが、これらに限定されない。SECIS要素は、リボソームに、コドンUGAを終止コドンではなくセレノシステインとして翻訳するように指示する場合がある。AREは多くの場合、主にアデニンヌクレオチド及びウラシルヌクレオチドからなるストレッチであり、mRNAの安定性に影響を与える可能性がある。
特定の実施形態は、1又は複数のゲノム領域を含む核酸試料又は核酸分子のサブセットを含み得、1又は複数のゲノム領域のうちの少なくとも1つは、遺伝子のセットを含むゲノム領域の特徴を含む。遺伝子のセットには、メンデルDB遺伝子、ヒト遺伝子変異データベース(HGMD)遺伝子、癌遺伝子センサス遺伝子、OMIM(Online Mendelian Inheritance in Man)遺伝子、HGMDメンデル遺伝子、及びヒト白血球抗原(HLA)遺伝子が含まれるが、これらに限定されない。遺伝子のセットは、1又は複数の公知のメンデル形質、1又は複数の公知の疾患形質、1又は複数の公知の薬物形質、1又は複数の公知の生物医学的に解釈可能なバリアント、又はそれらの組み合わせを有し得る。メンデル形質は、単一の遺伝子座によって制御され、メンデル遺伝パターンを示し得る。公知のメンデル形質を有する遺伝子のセットには、フェニルチオカルバミド(優性)に対する味覚、シアン化水素(苦いアーモンド様)に対する嗅覚(劣性)、白皮症(劣性)、短指症(手指及び足指の短さ)、及び湿った(優性)又は乾いた(劣性)耳垢を含むがこれらに限定されないメンデル形質をコードする1又は複数の遺伝子が含まれ得る。疾患形質は、疾患の原因となるかリスクを高め、メンデルパターン又は複雑なパターンで受け継がれる場合がある。公知の疾患特性を有する遺伝子のセットは、嚢胞性線維症、血友病、及びリンチ症候群を含むがこれらに限定されない疾患形質をコードする1又は複数の遺伝子を含み得る。
薬物形質は、1又は複数の薬物又は薬物ファミリーの代謝、最適用量、有害反応、及び副作用を変化させ得る。公知の薬物形質を有する遺伝子のセットは、CYP2D6、UGT1A1、及びADRB1を含むがこれらに限定されない薬物形質をコードする1又は複数の遺伝子を含み得る。生物医学的に解釈可能なバリアントは、疾患又は適応症に関連する遺伝子の多型であり得る。公知の生物医学的に解釈可能なバリアントを有する遺伝子のセットは、嚢胞性線維症(CF)変異、筋ジストロフィー変異、p53変異、Rb変異、細胞周期調節因子、受容体、及びキナーゼを含むがこれらに限定されない生物医学的に解釈可能なバリアントをコードする1又は複数の遺伝子を含み得る。代替的に又は追加的に、公知の生物医学的に解釈可能なバリアントを有する遺伝子のセットは、ハンチントン病、癌、嚢胞性線維症、筋ジストロフィー(例えば、デュシェンヌ型筋ジストロフィー)に関連する1又は複数の遺伝子を含み得る。
特定の実施形態は、1又は複数のゲノム領域を含む核酸試料又は分子を含み得、1又は複数のゲノム領域のうちの少なくとも1つは、調節要素又はその一部を含むゲノム領域の特徴を含む。調節要素は、シス調節要素又はトランス調節要素であり得る。シス調節要素は、近くの遺伝子の転写を制御する配列であってもよい。シス調節エレメントは、5’又は3’非翻訳領域(UTR)又はイントロン内に位置する場合がある。トランス調節要素は、離れた遺伝子の転写を制御し得る。調節要素は、1又は複数のプロモーター、1又は複数のエンハンサー、又はそれらの組み合わせを含み得るプロモーターは特定の遺伝子の転写を促進し得るものであり、コード領域の上流に見られる場合がある。エンハンサーは、遺伝子の転写レベルに遠隔効果を与え得る。
特定の実施形態は、1又は複数のゲノム領域を含む核酸試料又は核酸分子のサブセットを含み得、1又は複数のゲノム領域のうちの少なくとも1つは、多型又はその一部を含むゲノム領域の特徴を含む。概して、多型とは遺伝子型の突然変異を指す。多型は、生殖細胞バリアント又は体細胞バリアントであり得る。多型は、1又は複数の塩基の変化、挿入、反復(リピート)、又は1又は複数の塩基の欠失を含み得る。コピー数多型(CNV)、塩基転換(トランスバージョン)、及びその他の再配列も、遺伝的変化の形態である。多型マーカーには、制限フラグメント長多型、可変数のタンデムリピート(VNTR)、超可変領域、ミニサテライト、ジヌクレオチドリピート、トリヌクレオチドリピート、テトラヌクレオチドリピート、単純配列リピート、及びAluなどの挿入要素が含まれる。選択された集団で最も頻繁に発生する対立遺伝子型は、野生型形態と称される場合もある。二倍体生物は、対立遺伝子型についてホモ接合性又はヘテロ接合性であり得る。二対立遺伝子(diallelic)多型には2つの形態がある。三対立遺伝子(triallelic)多型には3つの形態がある。一塩基多型(SNP)は、多型の一形態である。本開示のいくつかの局面において、1つ以上の多型は、1又は複数の単一ヌクレオチド変化、インデル(Indel)、小挿入、小欠失、構造的バリアント接合、可変長タンデムリピート(縦列反復)、隣接配列、又はそれらの組み合わせを含む。1又は複数の多型は、コード領域及び/又は非コード領域内に位置し得る。1又は複数の多型は、遺伝子、エクソン、イントロン、スプライス部位、非翻訳領域、又はそれらの組み合わせ内、それらの周囲、又はそれらの近くに位置し得る。1又は複数の多型は、遺伝子、エクソン、イントロン、非翻訳領域の少なくとも一部にまたがっていてもよい。
特定の実施形態は、1又は複数のゲノム領域を含む核酸試料又は分子を含み得、1又は複数のゲノム領域のうちの少なくとも1つは、1又は複数の単純タンデムリピート(STR)、不安定な拡張リピート、セグメント重複、単一及び対を成す読み取り変性マッピングスコア、GRCh37パッチ、又はそれらの組み合わせを含むゲノム領域の特徴を含む。前記1又は複数のSTRは、1又は複数のホモポリマー、1又は複数のジヌクレオチドリピート、1又は複数のトリヌクレオチドリピート、又はそれらの組み合わせを含み得る。前記1又は複数のホモポリマーは、約7、8、9、10、11、12、13、14、15、16、17、18、19、20又はそれ以上の塩基又は塩基対であり得る。前記ジヌクレオチドリピート及び/又はトリヌクレオチドリピートは、約15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、35、40、45、50又はそれ以上の塩基又は塩基対であり得る。単一及び対を成す読み取り変性マッピングスコアは、ENCODE/CRG(Guigo)のGEMによる100merのアラインメント可能性、ENCODE/CRG(Guigo)のGEMによる75merのアラインメント可能性、信号マッピング可能性の100塩基対ボックスカー平均、対を成す読み取りスコアの軌跡及び可能な対の最大値、又はそれらの組み合わせに基づくか、それらから導出され得る。
ゲノム領域の特徴には、全ゲノム配列決定(WGS)からの1又は複数の低平均カバレッジ領域、WGSからのゼロ平均カバレッジ領域、検証済み圧縮、又はそれらの組み合わせが含まれ得る。WGSの低平均カバレッジ領域には、Illumina(登録商標)V3の化学により生成された領域、平均カバレッジに基づくポアソン分布の第1のパーセンタイル未満の領域、又はそれらの組み合わせが含まれ得る。WGSのゼロ平均カバレッジ領域には、Illumina(登録商標)V3の化学により生成された領域が含まれ得る。検証済み圧縮には、マッピングされた深さが高い領域、2以上のハプロタイプが観察された領域、参照でリピートが欠落していると予想される領域、又はそれらの組み合わせが含まれ得る。ゲノム領域の特徴には、1又は複数の代替又は非参照配列が含まれ得る。1又は複数の代替又は非参照配列は、公知の構造バリアント接合部、公知の挿入、公知の欠失、代替ハプロタイプ、又はそれらの組み合わせを含み得る。ゲノム領域の特徴は、1又は複数の遺伝子フェージング及び再構築遺伝子が含まれ得る。フェージング及び再構築遺伝子の例には、1又は複数の主要組織適合遺伝子複合体、血液型、及びアミラーゼ遺伝子ファミリーが含まれるが、これらに限定されない。1又は複数の主要組織適合遺伝子複合体は、1又は複数のHLAクラスI、HLAクラスII、又はそれらの組み合わせを含み得る。1又は複数のHLAクラスIは、HLA-A、HLA-B、HLA-C、又はそれらの組み合わせを含み得る。1又は複数のHLAクラスIIは、HLA-DP、HLA-DM、HLA-DOA、HLA-DOB、HLA-DQ、HLA-DR、又はそれらの組み合わせを含み得る。血液型遺伝子には、ABO、RHD、RHCE、又はそれらの組み合わせが含まれ得る。
特定の実施形態は、1又は複数のゲノム領域を含む核酸試料又は分子を含み得、1又は複数のゲノム領域のうちの少なくとも1つは、1又は複数の核酸分子のGC含量に関連するゲノム領域の特徴を含む。GC含量は、核酸分子のGC含量を指し得る。あるいは、GC含量は、1又は複数の核酸分子のGC含量を指す場合があり、平均GC含量と称される場合がある。本明細書で使用される場合、「GC含量」及び「平均GC含量」という用語は、交換可能に使用され得る。ゲノム領域のGC含量は、高GC含量であってもよい。典型的には、高GC含量とは、約65%、70%、75%、80%、85%、90%、95%、97%、又はそれ以上のGC含量を指す。本開示のいくつかの態様では、高GC含量は、約70%以上のGC含量を指し得る。ゲノム領域のGC含量は、低GC含量であってもよい。典型的には、低GC含量とは、約65%、60%、55%、50%、45%、40%、35%、30%、25%、20%、15%、10%、5%、2%、又はそれ以下のGC含量を指す。
特定の実施形態は、1又は複数のゲノム領域を含む核酸試料又は分子を含み得、1又は複数のゲノム領域のうちの少なくとも1つは、1又は複数の核酸分子の複雑性に関連するゲノム領域の特徴を含む。核酸分子の複雑性は、ヌクレオチド配列のランダム性を指し得る。低複雑性は、配列内の1又は複数のヌクレオチド種のパターン、リピート、及び/又は欠乏を指し得る。
特定の実施形態は、1又は複数のゲノム領域を含む核酸試料又は分子を含み得、1又は複数のゲノム領域のうちの少なくとも1つは、1又は複数の核酸分子のマッピング可能性に関連するゲノム領域の特徴を含む。核酸分子のマッピング可能性は、参照配列へのそのアラインメントの特有性を指し得る。マッピング可能性の低い核酸分子は、参照配列とのアラインメントが不充分となる場合がある。
D.BAF分布の計算
ゲノム領域のセットの各ゲノム領域について、B対立遺伝子頻度(BAF)を決定することができる。BAFは、2つの対立遺伝子(A及びB)の対立遺伝子強度比の正規化された測定値を指す。100又は0のBAFは、2つの対立遺伝子の1つ(例えば、AA又はBB)が完全に存在しないことを示す。例えば、試料の両方の染色体に参照ゲノムに関連するヌクレオチド配列バリアントが含まれている場合、特定のゲノム領域のBAFは100であり得る。したがって、バリアント対立遺伝子は、その試料の読み取りのほぼ100%に存在する必要がある。場合によっては、BAF分布を正規化して、曲線下面積の合計が1になるような密度プロットを生成する。具体的には、全てのバリアントのBAFのヒストグラムが作成され、このヒストグラムの面積が計算され、ヒストグラムの各ビンが計算された面積で除算される。
試料内のヘテロ接合性対立遺伝子では、バリアントは配列読み取りのサブセットに存在する。したがって、50のBAFは、両方の対立遺伝子(例えば、AB)が同等に存在することを示す。コピー数多型がない正常試料では、0、50、又は100のBAFが期待される。ただし、腫瘍試料では、変異によってBAF値が変化する可能性がある。例えば、B対立遺伝子を複製するコピー数イベントは、-67%のB対立遺伝子頻度に至る場合がある。別の例では、1つの染色体のみにバリアントが含まれている場合、バリアント対立遺伝子は、その試料の読み取りのほぼ50%に存在する必要がある。データ生成プロセスに固有のランダムな変化によりノイズが発生し、観察されたBAF測定値が、両方の腫瘍試料及び正常試料の特定のコピー数の理想的な値から逸脱する。
場合によっては、生物学的試料(例えば、エクソーム試料)のヘテロ接合部位に対応するゲノム領域のサブセットが特定され、ゲノム領域のサブセット各々の対立遺伝子頻度が定量化される。したがって、VCFファイルをフィルタリングして、ヌクレオチド配列バリアントを有する全てのヘテロ接合部位の参照及び代替読み取り深度を取得できる。このような情報を使用して、ヘテロ接合性を有するゲノム領域のサブセットの各ゲノム領域のBAFを計算できる。
ゲノム領域のセットごとに決定されたBAFに基づいて、正規化されたBAF分布を計算できる。BAF分布は、ゲノム領域のセットの各ゲノム領域のBAFに対応する絶対量、パーセンテージ、及び/又は正規化された量を示し得る。場合によっては、正規化されたBAF分布は、ゲノム領域のサブセット(例えば、エクソーム全体のヘテロ接合部位)に対応するBAFから決定される。BAF値は典型的には0~100であるため、正規化されたBAF分布には最大101個のBAF値が含まれる場合があり、各値は対応する正規化された頻度を示す。追加的に又は代替的に、正規化されたBAF分布は、対応するBAF値が所定の数のビンに投入され得るように修正され得る。例えば、各ビンは、重複しない範囲内のBAF値(例えば、1~9、10~19)に対応していてもよく、BAF値を対応するビンに割り当てることができる。次に、BAF分布を、各所定のビンに対応する値に基づいて決定することができる。
図7A~7Eは、いくつかの実施形態によるプロットされたBAF分布の例を提供する。図7A及び図7Bの両方の図において、x軸は、0%(A対立遺伝子についてホモ接合性)~100%(B対立遺伝子についてホモ接合性)までの範囲内のBAF値を表す。上述したように、50のBAFはヘテロ接合性を示し、これは両方の対立遺伝子(例えば、AB)が同等に存在することに対応する。正常試料では、0、50、又は100のBAFが期待され得る。ただし、腫瘍試料では、変異によってBAF値が変化する可能性がある。例えば、B対立遺伝子を複製するコピー数イベントは、-67%のB対立遺伝子頻度に至る場合がある。y軸は、x軸の各BAF値に対応する正規化された頻度値を表す。正規化された頻度値は、特定のBAF値に対応するいくつかのゲノム領域を特定し得る。例えば、50%のBAFの正規化された頻度は、4を超える値にすることができる。
図7Aは、純粋な正常試料の染色体におけるヘテロ接合部位からのB対立遺伝子頻度のヒストグラムである。ヒストグラムは正規分布を示し、ほとんどの観察されたB対立遺伝子頻度は50%近くに低下している。図7Bは、純粋な腫瘍史試料中のヘテロ接合部位からのB対立遺伝子頻度のヒストグラムである。ヒストグラムは変化した分布を示し、50%からさらに低下するB対立遺伝子頻度がより多く観察された。図7Bに示すように、体細胞変異数の増加が、BAF頻度を50%から変更させた可能性があることが分かる。
図7Cはヒートマップであり、各行は純粋な正常試料の染色体からのBAF分布を表す。ヒートマップは正規分布を示し、ほとんどの観察されたB対立遺伝子頻度は50%近くに低下している。図7Eはヒートマップであり、各行は純粋な腫瘍試料の染色体からのBAF分布を表す。ヒートマップは変化した分布を示し、50%からさらに低下するB対立遺伝子頻度がより多く観察された。図7Dは、50%が正常で50%が腫瘍である試料からのヒートマップである。ヒートマップは、図7C及び図7Eに示される分布の間にある中間分布を示す。
E.BAFを使用した純粋な腫瘍試料及び純粋な正常試料の分類
場合によっては、生物学的試料のBAF特性を使用して、生物学的試料を正常又は腫瘍があるものとして分類する。例えば、正規化されたBAF分布は、複数の純粋な腫瘍試料及び純粋な正常試料のエクソーム全体のヘテロ接合部位で計算できる。純粋な腫瘍試料及び純粋な正常試料は、全エクソームBAF特性を使用したロジスティック回帰を使用して分類できる。
図8は、いくつかの実施形態による、B対立遺伝子頻度の特徴を使用して生物学的試料を分類するための最初の主な2つの構成要素(PC1及びPC2)のプロット800を示す。図8において、最初の主な2つの構成要素は、腫瘍試料と正常試料との近線形分離可能性を示し、BAF特性が試料の腫瘍含有量を推定するのに適し得ることを示している。さらに、純粋な腫瘍試料及び純粋な正常試料は、全エクソームBAF特性を使用したロジスティック回帰を使用して分類できることが実証される。
F.BAF分布に基づく腫瘍純度の推定
訓練済み機械学習モデルを使用して前記生物学的試料のBAF分布を処理し、前記生物学的試料の腫瘍純度を特定するメトリックを推定し得る。いくつかの実施形態では、前記訓練済み機械学習モデルは、完全に接続されたニューラルネットワークを含む。前記完全に接続されたニューラルネットワークは、正規化線形ユニット(Rectified Linear Unit、ReLU)活性化関数を備えた完全に接続された層を含んでいてもよい。いくつかの実施形態では、前記完全に接続されたニューラルネットワークの出力活性化関数は、シグモイド関数である。前記完全に接続されたニューラルネットワークの損失関数は、平均二乗誤差(MSE)を生成するように構成され得る。いくつかの実施形態では、前記完全に接続されたニューラルネットワークは、層の線形検索、サイズの線形検索、学習率の対数検索、又はそれらの組み合わせを用いたランダムサンプリングを使用したハイパーパラメーター検索によって調整される。
場合によっては、前記訓練済み機械学習モデルは、一次元畳み込みニューラルネットワークを含む。一次元畳み込みニューラルネットワークは、B対立遺伝子頻度分布を入力として使用でき、高さ25、幅1、深さ100の入力サイズにエンコードされるように構成され得る。いくつかの実施形態では、一次元畳み込みニューラルネットワークの各層は、1×1畳み込みを実行し、続いてReLU活性化関数を実行する。
いくつかの実施形態では、前記訓練済み機械学習モデルは、二次元畳み込みニューラルネットワークを含む。いくつかの実施形態では、二次元畳み込みニューラルネットワークのB対立遺伝子頻度分布は入力として使用され、高さ25、幅100、深さ1で定義される入力サイズにエンコードされる。いくつかの実施形態では、前記二次元畳み込みニューラルネットワークの各畳み込み層の後には、ReLU層が続く。二次元畳み込みニューラルネットワークの出力は、シグモイド活性化関数を用いて密に接続された層としてもよい。さらに、二次元畳み込みニューラルネットワークのハイパーパラメーターは、層の数、フィルターサイズ、フィルターの数、又はそれらの組み合わせを調節することで調整され得る。
腫瘍純度を特定する推定メトリックが出力され得る。例えば、推定メトリックを含むレポートが出力され得る。いくつかの実施形態では、前記レポートは、B対立遺伝子頻度分布を特定する情報を含む。前記レポートは、少なくとも1つの診断マーカー及び/又は少なくとも1つの予後マーカーを識別する情報も含んでいてもよい。いくつかの実施形態では、前記レポートは、予測される体細胞バリアントを特定する情報を含む。前記レポートは、治療推奨も含んでいてもよい。いくつかの実施形態では、治療推奨には、ヒト対象に治療を施すための推奨が含まれる。前記治療推奨は、前記ヒト対象に治療を施さないという推奨を含む場合がある。
IV.単一試料から腫瘍純度を推定するためのプロセス例
図9は、特定の実施形態による生物学的試料の腫瘍純度を推定する方法の例を示すフローチャート900を含む。フローチャート900に記載されている操作は、例えば、訓練済み一次元又は二次元の畳み込みニューラルネットワークなどの訓練済み機械学習モデルを実装するコンピューターシステムによって実行され得る。フローチャート900は、操作を順次プロセスとして説明することができるが、様々な実施形態において、操作の多くは、並行して又は同時に実行され得る。また、操作の順序を変更してもよい。操作には、図示されていない追加の工程が含まれてもよい。さらに、この方法の実施形態は、ハードウェア、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語、又はそれらの任意の組み合わせによって実装され得る。ソフトウェア、ファームウェア、ミドルウェア、又はマイクロコードに実装されている場合、関連するタスクを実行するためのプログラムコード又はコードセグメントは、記憶媒体などのコンピューター可読媒体に格納され得る。
操作910で、コンピューターシステムは、対象の生物学的試料の複数の核酸分子を表す核酸配列データを取得する。前記核酸配列データは、腫瘍試料の複数の核酸分子を配列決定することによって生成され得る。場合によっては、配列決定の前に複数の核酸分子が単離される。前記核酸配列データは、全エクソーム配列データに対応し得る。代替的に又は追加的に、前記核酸配列データは全ゲノム配列決定データである。
操作920で、コンピューターシステムは、前記核酸配列データを参照ゲノムにアラインメントする。例えば、核酸配列データに対応するFASTQファイルを参照ゲノムにアラインメントして、1又は複数のBAMファイルを生成することができる。
操作930で、前記コンピューターシステムは、アラインメントされた核酸配列データに基づいて、ゲノム領域のセットを特定する。前記ゲノム領域のセットの各ゲノム領域は、前記参照ゲノムの対応するゲノム領域に関連する1又は複数のヌクレオチド配列バリアントを含んでいてもよい。場合によっては、前記コンピューターシステムは、前記核酸配列データにおける1又は複数のヌクレオチド配列バリアント候補を特定し、前記1又は複数のヌクレオチド配列バリアント候補の各々の参照読み取り深度及び代替読み取り深度を計算する。
操作940で、前記コンピューターシステムは、ゲノム領域のセットの各ゲノム領域のBAFを測定する。BAFは、2つの対立遺伝子(A及びB)の対立遺伝子強度比の正規化された測定値を指す。場合によっては、100又は0のBAFは、2つの対立遺伝子(例えば、AA又はBB)の1つが完全に存在しないことを示し、50のBAFは、両方の対立遺伝子(例えば、AB)が等しく存在することを示している。正常試料では、0、50、又は100のBAFが期待され得る。ただし、腫瘍試料では、変異によってBAF値が変化する可能性がある。
操作950で、前記コンピューターシステムは、一連のゲノム領域のBAFに基づいて、生物学的試料のBAF分布を測定する。場合によっては、B対立遺伝子頻度が正規化される。
操作960で、前記コンピューターシステムは、訓練済み機械学習モデルを使用して前記B対立遺伝子頻度分布を処理し、前記生物学的試料の腫瘍純度を特定するメトリックを推定する。場合によっては、前記訓練済み機械学習モデルは、正常細胞で希釈された1又は複数の腫瘍細胞に由来する核酸配列データから生成された訓練データセットで訓練されている。前記訓練済み機械学習モデルの平均絶対誤差は、約0.2未満であってもよい。
操作970で、前記コンピューターシステムはメトリックを出力する。場合によっては、前記コンピューターシステムは、腫瘍純度を特定する推定メトリックを含むレポートを出力する。推定メトリックに加えて、レポートには測定されたB対立遺伝子頻度分布が含まれていてもよい。前記レポートには、少なくとも1つのバイオマーカー、少なくとも1つの予後マーカー、予測される体細胞バリアント、及び治療推奨(例えば、治療が対象に投与されるべきかどうかの推奨)を含むがこれらに限定されない他のタイプの情報も含まれていてもよい。
V.追加の考慮事項
A.プロービング手法
特定の実施形態は、1又は複数の標識を含み得る。1又は複数の標識は、1又は複数の捕捉プローブ、核酸分子、ビーズ、プライマー、又はそれらの組み合わせに付着させることができる。標識の例には、放射性同位元素、蛍光色素分子(フルオロフォア)、化学発光物質(chemiluminophore)、発色団、ルミフォア(lumiphore)、酵素、コロイド粒子、蛍光微粒子などの検出可能な標識、量子ドット、並びに抗原、抗体、ハプテン、アビジン/ストレプトアビジン、ビオチン、ハプテン、酵素補因子/基質、クエンチング系の1又は複数のメンバー、色原体、ハプテン、磁性粒子、非線形光学を示す材料、半導体ナノ結晶、金属ナノ粒子、酵素、アプタマー、及び結合対の1又は複数のメンバーが含まれるが、これらに限定されない。
特定の実施形態は、1又は複数の捕捉プローブ、複数の捕捉プローブ、又は1又は複数の捕捉プローブセットを含み得る。典型的には、捕捉プローブは、核酸結合部位を含む。捕捉プローブは、1又は複数のリンカーをさらに含み得る。捕捉プローブは、1又は複数の標識をさらに含み得る。前記1又は複数のリンカーは、1又は複数の標識を核酸結合部位に付着させることができる。
捕捉プローブは、試料中の1又は複数の核酸分子にハイブリダイズし得る。捕捉プローブは、1又は複数のゲノム領域にハイブリダイズし得る。捕捉プローブは、1又は複数の遺伝子、エクソン、イントロン、UTR、又はそれらの組み合わせ内、周囲、近傍、又はそれらにまたがる1又は複数のゲノム領域にハイブリダイズし得る。捕捉プローブは、1又は複数の遺伝子、エクソン、イントロン、UTR、又はそれらの組み合わせにまたがる1又は複数のゲノム領域にハイブリダイズし得る。捕捉プローブは、1又は複数の公知のインデルにハイブリダイズし得る。捕捉プローブは、1又は複数の公知の構造バリアントにハイブリダイズし得る。
特定の実施形態は、1以上、2以上、3以上、4以上、5以上、6以上、7以上、8以上、9以上、10以上、20以上、30以上、40以上、50以上、60以上、70以上、80以上、90以上、100以上、125以上、150以上、175以上、200以上、250以上、300以上、350以上、400以上、500以上、600以上、700以上、800以上、900以上、1000以上の1又は複数の捕捉プローブ又は捕捉プローブセットを含み得る。前記1又は複数の捕捉プローブ又は捕捉プローブセットは、異なるか、類似するか、同一であるか、又はそれらの組み合わせであり得る。
前記1又は複数の捕捉プローブは、核酸分子の試料又はサブセット中の1又は複数の核酸分子又はそのバリアント若しくは誘導体の少なくとも一部にハイブリダイズする核酸結合部位を含み得る。前記捕捉プローブは、1又は複数のゲノム領域にハイブリダイズする核酸結合部位を含み得る。前記捕捉プローブは、異なるか、類似するか、及び/又は同一のゲノム領域にハイブリダイズし得る。前記1又は複数の捕捉プローブは、少なくとも約50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、97%、99%又はそれ以上に、前記1又は複数の核酸分子又はそのバリアント若しくは誘導体に相補的であり得る。
前記捕捉プローブは、1又は複数のヌクレオチドを含み得る。前記捕捉プローブは、1以上、2以上、3以上、4以上、5以上、6以上、7以上、8以上、9以上、10以上、20以上、30以上、40以上、50以上、60以上、70以上、80以上、90以上、100以上、125以上、150以上、175以上、200以上、250以上、300以上、350以上、400以上、500以上、600以上、700以上、800以上、900以上、又は1000以上のヌクレオチドを含み得る。前記捕捉プローブは、約100ヌクレオチドを含み得る。前記捕捉プローブは、約10~約500ヌクレオチド、約20~約450ヌクレオチド、約30~約400ヌクレオチド、約40~約350ヌクレオチド、約50~約300ヌクレオチド、約60~約250ヌクレオチド、約70~約200ヌクレオチド、又は約80~約150ヌクレオチドを含み得る。本開示のいくつかの態様において、前記捕捉プローブは、約80ヌクレオチド~約100ヌクレオチドを含む。
前記複数の捕捉プローブ又は捕捉プローブセットは、同一の、類似した、及び/又は異なる核酸結合部位配列、リンカー、及び/又は標識を有する2以上の捕捉プローブを含み得る。例えば、2以上の捕捉プローブは、同一の核酸結合部位を含む。別の例では、2以上の捕捉プローブが類似した核酸結合部位を含む。別の例では、2以上の捕捉プローブが異なる核酸結合部位を含む。前記2以上の捕捉プローブは、1又は複数のリンカーをさらに含み得る。前記2以上の捕捉プローブは、異なるリンカーをさらに含み得る。前記2以上の捕捉プローブは、類似したリンカーをさらに含み得る。前記2以上の捕捉プローブは、同一のリンカーをさらに含み得る。前記2以上の捕捉プローブは、1又は複数の標識をさらに含み得る。前記2以上の捕捉プローブは、異なる標識をさらに含み得る。前記2以上の捕捉プローブは、類似した標識をさらに含み得る。前記2以上の捕捉プローブは、同一の標識をさらに含み得る。
B.アッセイ及び増幅技術
特定の実施形態は、1又は複数の核酸分子を含む試料に対して1又は複数のアッセイを実施することを含み得る。核酸分子の2以上のサブセットを生成することは、1又は複数のアッセイを実施することを含み得る。前記アッセイは、前記試料からの核酸分子のサブセットに対して実施してもよい。前記アッセイは、前記試料からの1又は複数の核酸分子に対して実施してもよい。前記アッセイは、核酸分子のサブセットの少なくとも一部に対して実施され得る。前記アッセイは、1又は複数の核酸分子の検出、定量化、及び/又は分析のための1又は複数の技術、試薬、捕捉プローブ、プライマー、標識、及び/又は構成要素を含み得る。
アッセイには、1又は複数の核酸分子の配列決定、増幅、ハイブリダイゼーション、濃縮、単離、溶出、断片化、検出、定量化が含まれ得るが、これらに限定されない。アッセイは、1又は複数の核酸分子を調製するための方法を含み得る。
特定の実施形態は、試料中の1又は複数の核酸分子に対して1又は複数の増幅反応を実施することを含み得る。「増幅」という用語は、核酸分子の少なくとも1つのコピーを生成する任意のプロセスを指す。「アンプリコン」及び「増幅された核酸分子」という用語は、核酸分子のコピーを指し、交換可能に使用され得る。前記増幅反応は、PCRベースの方法、非PCRベースの方法、又はそれらの組み合わせを含み得る。非PCRベースの方法の例には、複数置換増幅(MDA)、転写媒介増幅(TMA)、核酸配列ベースの増幅(NASBA)、鎖置換増幅(SDA)、リアルタイムSDA、ローリングサークル増幅、又はサークルツーサークル増幅が含まれるが、これらに限定されない。PCRベースの方法には、PCR、HD-PCR、次世代PCR、デジタルRTA、又はそれらの任意の組み合わせが含まれるが、これらに限定されない。追加的PCR法には、線形増幅、対立遺伝子特異的PCR、Alu PCR、アセンブリPCR、非対称PCR、液滴PCR、エマルジョンPCR、ヘリカーゼ依存性増幅HDA、ホットスタートPCR、インバースPCR、線形後指数関数的(LATE)PCR、ロングPCR、マルチプレックスPCR、ネステッドPCR、ヘミネステッドPCR、定量PCR、RT-PCR、リアルタイムPCR、シングルセルPCR、及びタッチダウンPCRが含まれるが、これらに限定されない。
特定の実施形態は、試料中の1又は複数の核酸分子に対して1又は複数のハイブリダイゼーションを実施することを含み得る。ハイブリダイゼーション反応は、核酸分子の試料又はサブセット中の1又は複数の核酸分子への1又は複数の捕捉プローブのハイブリダイゼーションを含み得る。ハイブリダイゼーション反応は、1又は複数の捕捉プローブセットを、核酸分子の試料又はサブセット中の1又は複数の核酸分子にハイブリダイズさせることを含み得る。ハイブリダイゼーション反応は、1又は複数のハイブリダイゼーションアレイ、多重ハイブリダイゼーション反応、ハイブリダイゼーション連鎖反応、等温ハイブリダイゼーション反応、核酸ハイブリダイゼーション反応、又はそれらの組み合わせを含み得る。1又は複数のハイブリダイゼーションアレイは、ハイブリダイゼーションアレイジェノタイピング、ハイブリダイゼーションアレイ比例センシング、DNAハイブリダイゼーションアレイ、マクロアレイ、マイクロアレイ、高密度オリゴヌクレオチドアレイ、ゲノムハイブリダイゼーションアレイ、比較ハイブリダイゼーションアレイ、又はそれらの組み合わせを含み得る。ハイブリダイゼーション反応は、1又は複数の捕捉プローブ、1又は複数のビーズ、1又は複数の標識、1又は複数の核酸分子のサブセット、1又は複数の核酸試料、1又は複数の試薬、1又は複数の洗浄緩衝液、1又は複数の溶出緩衝液、1又は複数のハイブリダイゼーション緩衝液、1又は複数のハイブリダイゼーションチャンバー、1又は複数のインキュベーター、1又は複数のセパレーター、又はそれらの組み合わせを含み得る。
特定の実施形態は、試料中の1又は複数の核酸分子に対して1又は複数の濃縮反応を実施することを含み得る。濃縮反応は、試料を1又は複数のビーズ又はビーズセットと接触させることを含み得る。濃縮反応は、1又は複数のゲノム領域の特徴に基づく核酸分子の2以上のサブセットの示差的増幅を含み得る。例えば、濃縮反応は、GC含量に基づく核酸分子の2以上のサブセットの示差的増幅を含む。代替的に又は追加的に、濃縮反応は、メチル化状態に基づく核酸分子の2以上のサブセットの示差的増幅を含む。濃縮反応は、1又は複数のハイブリダイゼーション反応を含み得る。濃縮反応は、1又は複数のハイブリダイズされた核酸分子、1又は複数のビーズ結合核酸分子、1又は複数の遊離核酸分子(例えば、捕捉プローブなしの核酸分子、ビーズ非結合核酸分子)、1又は複数の標識核酸分子、1又は複数の非標識核酸分子、1又は複数のアンプリコン、1又は複数の非増幅核酸分子、又はそれらの組み合わせの単離及び/又は精製を含む。追加的に又は代替的に、濃縮反応は、試料中の1又は複数の細胞型の濃縮を含み得る。1又は複数の細胞型は、フローサイトメトリーによって濃縮してもよい。
1又は複数の濃縮反応は、1又は複数の濃縮核酸分子を生成し得る。濃縮された核酸分子は、核酸分子又はそのバリアント若しくは誘導体を含み得る。例えば、濃縮された核酸分子は、1又は複数のハイブリダイズされた核酸分子、1又は複数のビーズ結合核酸分子、1又は複数の遊離核酸分子(例えば、捕捉プローブなしの核酸分子、ビーズ非結合核酸分子)、1又は複数の標識核酸分子、1又は複数の非標識核酸分子、1又は複数のアンプリコン、1又は複数の非増幅核酸分子、又はそれらの組み合わせを含む。濃縮された核酸分子は、GC含有量、分子サイズ、ゲノム領域、ゲノム領域の特徴、又はそれらの組み合わせによって、濃縮されていない核酸分子と区別され得る。濃縮された核酸分子は、1又は複数のアッセイ、上清、溶出液、又はそれらの組み合わせに由来し得る。濃縮された核酸分子は、平均サイズ、平均GC含有量、ゲノム領域、又はそれらの組み合わせによって、濃縮されていない核酸分子とは異なる場合がある。
特定の実施形態は、試料中の1又は複数の核酸分子に対して1又は複数の単離又は精製反応を実施することを含み得る。単離又は精製反応は、試料を1又は複数のビーズ又はビーズセットと接触させることを含み得る。単離又は精製反応は、1又は複数のハイブリダイゼーション反応、濃縮反応、増幅反応、配列決定反応、又はそれらの組み合わせを含み得る。単離又は精製反応は、1又は複数のセパレーターの使用を含み得る。前記1又は複数のセパレーターは、磁気セパレーターを含み得る。単離又は精製反応は、ビーズに結合した核酸分子をビーズに結合していない核酸分子から分離することを含み得る。単離又は精製反応は、捕捉プローブがハイブリダイズした核酸分子を捕捉プローブがハイブリダイズしていない核酸分子から分離することを含み得る。単離又は精製反応は、核酸分子の第1のサブセットを核酸分子の第2のサブセットから分離することを含み得、前記核酸分子の第1のサブセットは、平均サイズ、平均GC含量、ゲノム領域、又はそれらの組み合わせにおいて前記核酸分子の第2のサブセットと異なる。
特定の実施形態は、試料中の1又は複数の核酸分子に対して1又は複数の溶出反応を実施することを含み得る。溶出反応は、試料を1又は複数のビーズ又はビーズセットと接触させることを含み得る。溶出反応は、ビーズに結合した核酸分子をビーズに結合していない核酸分子から分離することを含み得る。溶出反応は、捕捉プローブがハイブリダイズした核酸分子を捕捉プローブがハイブリダイズしていない核酸分子から分離することを含み得る。溶出反応は、核酸分子の第1のサブセットを核酸分子の第2のサブセットから分離することを含み得、前記核酸分子の第1のサブセットは、平均サイズ、平均GC含量、ゲノム領域、又はそれらの組み合わせにおいて前記核酸分子の第2のサブセットと異なる。
特定の実施形態は、1又は複数の断片化反応を含み得る。前記断片化反応は、核酸分子の試料又はサブセット中の1又は複数の核酸分子を断片化して、1又は複数の断片化された核酸分子を生成することを含み得る。前記1又は複数の核酸分子は、超音波処理、針剪断、噴霧、剪断(例えば、音響剪断、機械的剪断、ポイントシンク剪断)、フレンチプレッシャーセルの通過、又は酵素消化によって断片化され得る。酵素消化は、ヌクレアーゼ消化(例えば、ミクロコッカスヌクレアーゼ消化、エンドヌクレアーゼ、エキソヌクレアーゼ、RNAseH又はDNaseI)によって起こり得る。前記1又は複数の核酸分子の断片化は、約100塩基対~約2000塩基対、約200塩基対~約1500塩基対、約200塩基対~約1000塩基対、約200塩基対~約500塩基対、約500塩基対~約1500塩基対、及び約500塩基対~約1000塩基対の断片サイズをもたらし得る。前記1又は複数の断片化反応は、約50塩基対~約1000塩基対のサイズの断片をもたらし得る。前記1又は複数の断片化反応は、約100塩基対、150塩基対、200塩基対、250塩基対、300塩基対、350塩基対、400塩基対、450塩基対、500塩基対、550塩基対、600塩基対、650塩基対、700塩基対、750塩基対、800塩基対、850塩基対、900塩基対、950塩基対、1000塩基対又はそれ以上の断片サイズをもたらし得る。
前記1又は複数の核酸分子を断片化することは、試料中の1又は複数の核酸分子を一定期間機械的に剪断することを含み得る。前記断片化は、少なくとも約10秒間、15秒間、20秒間、25秒間、30秒間、35秒間、40秒間、45秒間、50秒間、55秒間、60秒間、65秒間、70秒間、75秒間、80秒間、85秒間、90秒間、95秒間、100秒間、125秒間、150秒間、175秒間、200秒間、225秒間、250秒間、275秒間、300秒間、325秒間、350秒間、375秒間、400秒間、425秒間、450秒間、475秒間、500秒間以上に渡ってもよい。
前記1又は複数の核酸分子を断片化することは、核酸試料を1又は複数のビーズと接触させることを含み得る。前記1又は複数の核酸分子を断片化することは、前記核酸試料を複数のビーズと接触させることを含み得、核酸試料の体積に対する複数のビーズの体積の比率は、約0.10、0.20、0.30、0.40、0.50、0.60、0.70、0.80、0.90、1.00、1.10、1.20、1.30、1.40、1.50、1.60、1.70、1.80、1.90、2.00又はそれ以上である。前記1又は複数の核酸分子を断片化することは、前記核酸試料を複数のビーズと接触させることを含み得、核酸試料の体積に対する複数のビーズの体積の比率は、約2.00、1.90、1.80、1.70、1.60、1.50、1.40、1.30、1.20、1.10、1.00、0.90、0.80、0.70、0.60、0.50、0.40、0.30、0.20、0.10、0.05、0.04、0.03、0.02、0.01又はそれ以下である。
特定の実施形態は、試料中の1又は複数の核酸分子に対して1又は複数の検出反応を実施することを含み得る。検出反応は、1又は複数の配列決定反応を含み得る。あるいは、検出反応を実施することは、光学的感知、電気的感知、又はそれらの組み合わせを含む。光学的感知は、フォトルミネッセンス光子放出、蛍光光子放出、ピロリン酸塩光子放出、化学発光光子放出、又はそれらの組み合わせの光学的感知を含み得る。電気的感知は、イオン濃度、イオン電流変調、ヌクレオチド電場、ヌクレオチドトンネリング電流、又はそれらの組み合わせの電気的感知を含み得る。
特定の実施形態は、試料中の1又は複数の核酸分子に対して1又は複数の定量化反応を実施することを含み得る。定量化反応は、配列決定、PCR、qPCR、デジタルPCR、又はそれらの組み合わせを含み得る。
特定の実施形態は、1又は複数の試料を含み得る。特定の実施形態は、1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100以上の試料を含み得る。前記試料は、対象に由来し得る。2以上の試料は、単一の対象に由来し得る。前記2以上の試料は、2、3、4、5、6、7、8、9、10、11、12、13、14、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100以上の異なる対象に由来し得る。前記対象は、哺乳動物、爬虫類、両生類、鳥類、及び魚類であり得る。哺乳動物は、ヒト、類人猿、オランウータン、サル、チンパンジー、ウシ、ブタ、ウマ、齧歯類、鳥類、爬虫類、イヌ、ネコ、又は他の動物であり得る。爬虫類は、トカゲ、ヘビ、ワニガメ、カメ、ワニ、カメなどであり得る。両生類は、ヒキガエル、カエル、イモリ、及びサンショウウオであり得る。鳥類の例には、アヒル、ガチョウ、ペンギン、ダチョウ、及びフクロウが含まれるが、これらに限定されない。魚類の例には、ナマズ、ウナギ、サメ、及びメカジキが含まれるが、これらに限定されない。好ましくは、前記対象はヒトである。前記対象は、疾患又は状態(例えば、癌)に罹患している可能性がある。
前記2以上の試料は、1時間、2時間、3時間、4時間、5時間、6時間、7時間、8時間、9時間、10時間、11時間、12時間、15時間、20時間、30時間、40時間、50時間、60時間、70時間、80時間、90時間、100時間、200時間、300時間、400時間、500時間、600時間、700時間、800時間、900時間、1000時間又はそれ以上の時点で採取され得る。前記時点は、1時間、2時間、3時間、4時間、5時間、6時間、7時間、8時間、9時間、10時間、11時間、12時間、13時間、14時間、15時間、16時間、17時間、18時間、19時間、20時間、21時間、22時間、23時間、24時間、25時間、30時間、35時間、40時間、45時間、50時間、55時間、60時間又はそれ以上に渡ってもよい。前記時点は、1日間、2日間、3日間、4日間、5日間、6日間、7日間、8日間、9日間、10日間、11日間、12日間、13日間、14日間、15日間、16日間、17日間、18日間、19日間、20日間、21日間、22日間、23日間、24日間、25日間、30日間、35日間、40日間、45日間、50日間、55日間、60日間又はそれ以上に渡ってもよい。前記時点は、1週間、2週間、3週間、4週間、5週間、6週間、7週間、8週間、9週間、10週間、11週間、12週間、13週間、14週間、15週間、16週間、17週間、18週間、19週間、20週間、21週間、22週間、23週間、24週間、25週間、30週間、35週間、40週間、45週間、50週間、55週間、60週間又はそれ以上に渡ってもよい。前記時点は、1ヶ月間、2ヶ月間、3ヶ月間、4ヶ月間、5ヶ月間、6ヶ月間、7ヶ月間、8ヶ月間、9ヶ月間、10ヶ月間、11ヶ月間、12ヶ月間、13ヶ月間、14ヶ月間、15ヶ月間、16ヶ月間、17ヶ月間、18ヶ月間、19ヶ月間、20ヶ月間、21ヶ月間、22ヶ月間、23ヶ月間、24ヶ月間、25ヶ月間、30ヶ月間、35ヶ月間、40ヶ月間、45ヶ月間、50ヶ月間、55ヶ月間、60ヶ月間又はそれ以上に渡ってもよい。前記時点は、1年間、2年間、3年間、4年間、5年間、6年間、7年間、8年間、9年間、10年間、11年間、12年間、13年間、14年間、15年間、16年間、17年間、18年間、19年間、20年間、21年間、22年間、23年間、24年間、25年間、30年間、35年間、40年間、45年間、50年間、55年間、60年間又はそれ以上に渡ってもよい。
前記試料は、体液、細胞、皮膚、組織、器官、又はそれらの組み合わせからのものであり得る。前記試料は、血液、血漿、血液画分、唾液、喀痰、尿、精液、経膣液、脳脊髄液、糞便、細胞、又は組織生検であり得る。前記試料は、副腎、付属器、膀胱、脳、耳、食道、眼、胆嚢、心臓、腎臓、大腸、肝臓、肺、口腔、筋肉、鼻腔、膵臓、副甲状腺、松果体腺、下垂体腺、皮膚、小腸、脾臓、胃、胸腺、甲状腺、気管、子宮、虫垂、角膜、皮膚、心臓弁、動脈、又は静脈からのものであり得る。
前記試料は、1又は複数の核酸分子を含み得る。前記核酸分子は、DNA分子、RNA分子(例えば、mRNA、cRNA、又はmiRNA)、及びDNA/RNAハイブリッドであり得る。DNA分子の例には、二本鎖DNA、一本鎖DNA、一本鎖DNAヘアピン、cDNA、ゲノムDNAが含まれるが、これらに限定されない。前記核酸は、二本鎖RNA、一本鎖RNA、ncRNA、RNAヘアピン、及びmRNAなどのRNA分子であり得る。ncRNAの例には、siRNA、miRNA、snoRNA、piRNA、tiRNA、PASR、TASR、aTASR、TSSa-RNA、snRNA、RE-RNA、uaRNA、x-ncRNA、hY RNA、usRNA、snaR、及びvtRNAが含まれるが、これらに限定されない。
特定の実施形態は、1又は複数の容器を含み得る。特定の実施形態は、1以上、2以上、3以上、4以上、5以上、6以上、7以上、8以上、9以上、10以上、20以上、30以上、40以上、50以上、60以上、70以上、80以上、90以上、100以上、125以上、150以上、175以上、200以上、250以上、300以上、350以上、400以上、500以上、600以上、700以上、800以上、900以上、又は1000以上の容器を含み得る。前記1又は複数の容器は、異なるか、類似するか、同一であるか、又はそれらの組み合わせであり得る。容器の例には、プレート、マイクロプレート、PCRプレート、ウェル、マイクロウェル、チューブ、エッペンドルフチューブ、バイアル、アレイ、マイクロアレイ、及びチップが含まれるが、これらに限定されない。
特定の実施形態は、1又は複数の試薬を含み得る。特定の実施形態は、1以上、2以上、3以上、4以上、5以上、6以上、7以上、8以上、9以上、10以上、20以上、30以上、40以上、50以上、60以上、70以上、80以上、90以上、100以上、125以上、150以上、175以上、200以上、250以上、300以上、350以上、400以上、500以上、600以上、700以上、800以上、900以上、又は1000以上の試薬を含み得る。前記1又は複数の試薬は、異なるか、類似するか、同一であるか、又はそれらの組み合わせであり得る。前記試薬は、1又は複数のアッセイの効率を改善し得る。前記試薬は、核酸分子又はそのバリアント若しくは誘導体の安定性を改善し得る。試薬には、酵素、プロテアーゼ、ヌクレアーゼ、分子、ポリメラーゼ、逆転写酵素、リガーゼ、及び化学的化合物が含まれ得るが、これらに限定されない。特定の実施形態は、1又は複数の抗酸化剤を含むアッセイを実施することを含み得る。概して、抗酸化剤は別の分子の酸化を阻害する分子である。抗酸化剤の例には、アスコルビン酸(例えば、ビタミンC)、グルタチオン、リポ酸、尿酸、カロテン、α-トコフェロール(例えば、ビタミンE)、ユビキノール(例えば、補酵素Q)、及びビタミンAが含まれるが、これらに限定されない。
特定の実施形態は、1又は複数の緩衝液又は溶液を含み得る。前記1又は複数の緩衝液又は溶液は、異なるか、類似するか、同一であるか、又はそれらの組み合わせであり得る。前記緩衝液又は溶液は、1又は複数のアッセイの効率を改善し得る。緩衝液又は溶液は、核酸分子又はそのバリアント若しくは誘導体の安定性を改善し得る。緩衝液又は溶液には、洗浄緩衝液、溶出緩衝液、及びハイブリダイゼーション緩衝液が含まれ得るが、これらに限定されない。
特定の実施形態は、1又は複数のビーズ、複数のビーズ、又は1又は複数のビーズセットを含み得る。特定の実施形態は、1以上、2以上、3以上、4以上、5以上、6以上、7以上、8以上、9以上、10以上、20以上、30以上、40以上、50以上、60以上、70以上、80以上、90以上、100以上、125以上、150以上、175以上、200以上、250以上、300以上、350以上、400以上、500以上、600以上、700以上、800以上、900以上、1000以上の1又は複数のビーズ又はビーズセットを含み得る。前記1又は複数のビーズ又はビーズセットは、異なるか、類似するか、同一であるか、又はそれらの組み合わせであり得る。ビーズは、磁性、抗体被覆、プロテインA架橋、プロテインG架橋、ストレプトアビジン被覆、オリゴヌクレオチド結合、シリカ被覆、又はそれらの組み合わせであり得る。ビーズの例には、AMPure(登録商標)ビーズ、AMPure(登録商標)XPビーズ、ストレプトアビジンビーズ、アガロースビーズ、磁性ビーズ、Dynabeads(登録商標)、MACS(登録商標)マイクロビーズ、抗体結合ビーズ(例えば、抗免疫グロブリンマイクロビーズ)、プロテインA結合ビーズ、プロテインG結合ビーズ、プロテインA/G結合ビーズ、プロテインL結合ビーズ、オリゴdT結合ビーズ、シリカビーズ、シリカ様ビーズ、抗ビオチンマイクロビーズ、抗蛍光クロムマイクロビーズ、及びBcMag(商標)カルボキシ末端磁性ビーズが含まれるが、これらに限定されない。本開示のいくつかの態様では、前記1又は複数のビーズは、1又は複数のAMPure(登録商標)ビーズを含む。代替的に又は追加的に、前記1又は複数のビーズは、AMPure(登録商標)XPビーズを含む。
特定の実施形態は、1又は複数のプライマー、複数のプライマー、又は1又は複数のプライマーセットを含み得る。プライマーは、1又は複数のリンカーをさらに含み得る。プライマーは、1又は複数の標識をさらに含み得る。プライマーは、1又は複数のアッセイで使用され得る。例えば、プライマーは、1又は複数の配列決定反応、増幅反応、又はそれらの組み合わせで使用される。特定の実施形態は、1以上、2以上、3以上、4以上、5以上、6以上、7以上、8以上、9以上、10以上、20以上、30以上、40以上、50以上、60以上、70以上、80以上、90以上、100以上、125以上、150以上、175以上、200以上、250以上、300以上、350以上、400以上、500以上、600以上、700以上、800以上、900以上、1000以上の1又は複数のプライマー又はプライマーセットを含み得る。前記プライマーは、約100ヌクレオチドを含み得る。前記プライマーは、約10~約500ヌクレオチド、約20~約450ヌクレオチド、約30~約400ヌクレオチド、約40~約350ヌクレオチド、約50~約300ヌクレオチド、約60~約250ヌクレオチド、約70~約200ヌクレオチド、又は約80~約150ヌクレオチドを含み得る。本開示のいくつかの態様において、前記プライマーは、約80ヌクレオチド~約100ヌクレオチドを含む。前記1又は複数のプライマー又はプライマーセットは、異なるか、類似するか、同一であるか、又はそれらの組み合わせであり得る。
前記プライマーは、核酸分子の試料又はサブセット中の1又は複数の核酸分子又はそのバリアント若しくは誘導体の少なくとも一部にハイブリダイズする。前記プライマーは、1又は複数のゲノム領域にハイブリダイズし得る。前記プライマーは、異なるか、類似するか、及び/又は同一のゲノム領域にハイブリダイズし得る。前記1又は複数のプライマーは、少なくとも約50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、97%、99%又はそれ以上に、前記1又は複数の核酸分子又はそのバリアント若しくは誘導体に相補的であり得る。
前記プライマーは、1又は複数のヌクレオチドを含み得る。前記プライマーは、1以上、2以上、3以上、4以上、5以上、6以上、7以上、8以上、9以上、10以上、20以上、30以上、40以上、50以上、60以上、70以上、80以上、90以上、100以上、125以上、150以上、175以上、200以上、250以上、300以上、350以上、400以上、500以上、600以上、700以上、800以上、900以上、又は1000以上のヌクレオチドを含み得る。前記プライマーは、約100ヌクレオチドを含み得る。前記プライマーは、約10~約500ヌクレオチド、約20~約450ヌクレオチド、約30~約400ヌクレオチド、約40~約350ヌクレオチド、約50~約300ヌクレオチド、約60~約250ヌクレオチド、約70~約200ヌクレオチド、又は約80~約150ヌクレオチドを含み得る。本開示のいくつかの態様において、前記プライマーは、約80ヌクレオチド~約100ヌクレオチドを含む。
前記複数のプライマー又はプライマーセットは、同一の、類似した、及び/又は異なる配列、リンカー、及び/又は標識を有する2以上のプライマーを含み得る。例えば、2以上のプライマーは同一の配列を含む。別の例では、2以上のプライマーは類似した配列を含む。さらに別の例では、2以上のプライマーが異なる配列を含む。前記2以上のプライマーは、1又は複数のリンカーをさらに含み得る。前記2以上のプライマーは、異なるリンカーをさらに含み得る。前記2以上のプライマーは、類似したリンカーをさらに含み得る。前記2以上のプライマーは、同一のリンカーをさらに含み得る。前記2以上のプライマーは、1又は複数の標識をさらに含み得る。前記2以上のプライマーは、異なる標識をさらに含み得る。前記2以上のプライマーは、類似した標識をさらに含み得る。前記2以上のプライマーは、同一の標識をさらに含み得る。
前記捕捉プローブ、プライマー、標識、及び/又はビーズ1又は複数のヌクレオチドを含み得る。前記1又は複数のヌクレオチドは、RNA、DNA、DNA及びRNA残基の混合物、又は2’-0Me、2’-フルオロ(2’-F)、ロック核酸(LNA)、又は脱塩基部位などの修飾類似体を含み得る。
特定の実施形態は、1又は複数の標識を含み得る。特定の実施形態は、1以上、2以上、3以上、4以上、5以上、6以上、7以上、8以上、9以上、10以上、20以上、30以上、40以上、50以上、60以上、70以上、80以上、90以上、100以上、125以上、150以上、175以上、200以上、250以上、300以上、350以上、400以上、500以上、600以上、700以上、800以上、900以上、1000以上の1又は複数の標識を含み得る。前記1又は複数の標識は、異なるか、類似するか、同一であるか、又はそれらの組み合わせであり得る。
標識の例には、当技術分野で周知の化学的、生化学的、生物学的、比色、酵素的、蛍光性、及び発光性の標識が含まれるが、これらに限定されない。前記標識は、染料、光架橋剤、細胞毒性化合物、薬物、親和性標識、光親和性標識、反応性化合物、抗体又は抗体フラグメント、生体材料、ナノ粒子、スピンラベル、フルオロフォア、金属含有部分、放射性部分、新規官能基、他分子と共有的又は非共有的に相互作用する基、光ケージ化(photocaged)部分、化学線励起可能部分、リガンド、光異性化部分、ビオチン、ビオチン類似体、重原子を組み込んだ部分、化学的に切断可能な基、光切断性基、酸化還元活性剤、同位体標識部分、生物物理学的プローブ、リン光性基、化学発光基、高電子密度基、磁性基、挿入基、発色団、エネルギー伝達剤、生物学的に活性な薬剤、検出可能な標識、又はそれらの組み合わせを含む。
前記標識は、化学標識であってもよい。化学標識の例には、ビオチン及び放射性同位体(例えば、ヨウ素、炭素、リン酸塩、水素)が含まれ得るが、これらに限定されない。
本明細書に開示される方法、キット、及び組成物は、生物学的標識を含み得る。生物学的標識は、生体直交性アジド修飾アミノ酸、糖、及び他の化合物を含むがこれらに限定されない代謝標識を含み得る。
本明細書に開示される方法、キット、及び組成物は、酵素標識を含み得る。酵素標識には、ホースラディッシュペルオキシダーゼ(HRP)、アルカリホスファターゼ(AP)、グルコースオキシダーゼ、及び0-ガラクトシダーゼが含まれるが、これらに限定されない。前記酵素標識はルシフェラーゼであり得る。
本明細書に開示される方法、キット、及び組成物は、生物学的標識を含み得る。蛍光標識は、有機染料(例えば、FITC)、生物学的フルオロフォア(例えば、緑色蛍光タンパク質)、又は量子ドットであり得る。蛍光標識の非限定的なリストには、イソチオシアン酸フルオレセイン(FITC)、DyLight(登録商標)Fluor、フルオレセイン、ローダミン(テトラメチルローダミンイソチオシアナート、TRITC)、クマリン、ルシファーイエロー、及びBODIPYが含まれる。前記標識はフルオロフォアであってもよい。フルオロフォアの例には、インドカルボシアニン(C3)、インドジカルボシアニン(C5)、Cy3、Cy3.5、Cy5、Cy5.5、Cy7、テキサスレッド、パシフィックブルー、オレゴングリーン488、Alexa Fluor(登録商標)355、Alexa Fluor(登録商標)488、Alexa Fluor(登録商標)532、Alexa Fluor(登録商標)546、Alexa Fluor(登録商標)555、Alexa Fluor(登録商標)568、Alexa Fluor(登録商標)594、Alexa Fluor(登録商標)647、Alexa Fluor(登録商標)660、Alexa Fluor(登録商標)680、JOE、リサミン、ローダミングリーン、BODIPY、イソチオシアン酸フルオレセイン(FITC)、カルボキシフルオレセイン(FAM)、フィコエリスリン、ローダミン、ジクロロローダミン(dRhodamine)、カルボキシテトラメチルローダミン(TAMRA)、カルボキシ-X-ローダミン(ROX(商標))、LIZ(商標)、VIC(商標)、NED(商標)、PET(商標)、SYBR、PicoGreen(登録商標)、RiboGreen(登録商標)などが含まれるが、これらに限定されない。前記蛍光標識は、緑色蛍光タンパク質(GFP)、赤色蛍光タンパク質(RFP)、黄色蛍光タンパク質、フィコビリタンパク質(例えば、アロフィコシアニン、フィコシアニン、フィコエリトリン、及びフィコエリスロシアニン)であり得る。
特定の実施形態は、1又は複数のリンカーを含み得る。特定の実施形態は、1以上、2以上、3以上、4以上、5以上、6以上、7以上、8以上、9以上、10以上、20以上、30以上、40以上、50以上、60以上、70以上、80以上、90以上、100以上、125以上、150以上、175以上、200以上、250以上、300以上、350以上、400以上、500以上、600以上、700以上、800以上、900以上、1000以上の1又は複数のリンカーを含み得る。前記1又は複数のリンカーは、異なるか、類似するか、同一であるか、又はそれらの組み合わせであり得る。
適切なリンカーは、本明細書に開示される標識、プライマー、及び/又は捕捉プローブに付着可能な任意の化学的又は生物学的化合物を含む。前記リンカーが、標識とプライマー又は捕捉プローブとの両方に付着する場合、適切なリンカーは、標識とプライマー又は捕捉プローブとを充分に分離可能である。適切なリンカーは、前記プライマー及び/又は捕捉プローブが核酸分子、その一部、又はそのバリアント若しくは誘導体にハイブリダイズする能力を著しく妨害しない。適切なリンカーは、検出される標識の能力を著しく妨害することはない。前記リンカーは、剛性であり得る。前記リンカーは、可動性であり得る。前記リンカーは、半剛性であってもよい。前記リンカーは、タンパク質分解的に安定していてもよい(例えば、タンパク質分解切断に耐性を有する)。前記リンカーは、タンパク質分解的に不安定であってもよい(例えば、タンパク質分解切断に感受性を有する)。前記リンカーは、らせん状であり得る。前記リンカーは、非らせん状であってもよい。前記リンカーは、コイル状であってもよい。前記リンカーは、三本鎖であり得る。前記リンカーは、ターンコンフォメーションを含み得る。前記リンカーは、一本鎖であってもよい。前記リンカーは、長鎖であってもよい。前記リンカーは、短鎖であってもよい。前記リンカーは、少なくとも約5残基、少なくとも約10残基、少なくとも約15残基、少なくとも約20残基、少なくとも約25残基、少なくとも約30残基、又は少なくとも約40残基以上を含み得る。
リンカーの例には、ヒドラゾン、ジスルフィド、チオエーテル、及びペプチドリンカーが含まれるが、これらに限定されない。前記リンカーはペプチドリンカーであり得る。前記ペプチドリンカーは、プロリン残基を含み得る。前記ペプチドリンカーは、アルギニン、フェニルアレニン、スレオニン、グルタミン、グルタミン酸、又はそれらの任意の組み合わせを含み得る。前記リンカーは、ヘテロ二官能性架橋剤であり得る。
特定の実施形態は、1又は複数の核酸分子を含む試料に対して1以上、2以上、3以上、4以上、5以上、6以上、7以上、8以上、9以上、10以上、11以上、12以上、13以上、14以上、15以上、20以上、25以上、30以上、35以上、40以上、45以上、又は50以上のアッセイを実施することを含む。前記2以上のアッセイは、異なるか、類似するか、同一であるか、又はそれらの組み合わせであり得る。例えば、特定の実施形態は、2以上の配列決定反応を実施することを含む。別の例では、特定の実施形態は、2以上のアッセイを実施することを含み、2以上のアッセイのうちの少なくとも1つは、配列決定反応を含む。さらに別の例では、特定の実施形態は、2以上のアッセイを実施することを含み、2以上のアッセイのうちの少なくとも2つは、配列決定反応及びハイブリダイゼーション反応を含む。前記2以上のアッセイは、連続して、同時に、又はそれらの組み合わせで実施してもよい。例えば、前記2以上の配列決定反応を同時に実施してもよい。別の例では、特定の実施形態は、ハイブリダイゼーション反応を実施し、続いて配列決定反応を実施することを含む。さらに別の例では、特定の実施形態は、2以上のハイブリダイゼーション反応を同時に実施し、続いて2以上の配列決定反応を同時に実施することを含む。前記2以上のアッセイは、1又は複数のデバイスによって実施され得る。例えば、2以上の増幅反応は、PCR機器によって実施され得る。別の例では、2以上の配列決定反応は、2以上のシーケンサーによって実施され得る。
C.デバイス
特定の実施形態は、1又は複数のデバイスを含み得る。特定の実施形態は、1又は複数のデバイスを含む1又は複数のアッセイを含み得る。特定の実施形態は、1又は複数の工程又はアッセイを実施するための1又は複数のデバイスの使用を含み得る。特定の実施形態は、1又は複数の工程又はアッセイにおける1又は複数のデバイスの使用を含み得る。例えば、配列決定反応を実施することは、1又は複数のシーケンサーを含み得る。別の例では、核酸分子のサブセットを生成することは、1又は複数の磁気セパレーターの使用を含み得る。さらに別の例では、1又は複数の核酸試料の分析において、1又は複数のプロセッサを使用してもよい。デバイスの例には、シーケンサー、サーモサイクラー、リアルタイムPCR機器、磁気セパレーター、伝送装置、ハイブリダイゼーションチャンバー、電気泳動装置、遠心分離機、顕微鏡、イメージャー、蛍光光度計、ルミノメーター、プレートリーダー、コンピューター、プロセッサ、及びバイオアナライザーが含まれるが、これらに限定されない。
特定の実施形態は、1又は複数のシーケンサーを含み得る。前記1又は複数のシーケンサーは、1又は複数のHiSeq、MiSeq、HiScan、Genome Analyzer IIx、SOLiD Sequencer、Ion Torrent PGM、454 GS Junior、Pac Bio RS、又はそれらの組み合わせを含み得る。前記1又は複数のシーケンサーは、1又は複数の配列決定プラットフォームを含み得る。前記1又は複数の配列決定プラットフォームは、Life Technologies/Roche社によるGS FLX 454、Solexa/Illumina社によるGenome Analyzer、Applied Biosystems社によるSOLiD、Complete Genomics社によるCGA Platform、Pacific Biosciences社によるPacBio RS、又はそれらの組み合わせを含み得る。
特定の実施形態は、1又は複数のサーモサイクラーを含み得る。前記1又は複数のサーモサイクラーは、1又は複数の核酸分子の増幅に使用され得る。特定の実施形態は、1又は複数のリアルタイムPCR機器を含み得る。前記1又は複数のリアルタイムPCR機器は、サーマルサイクラー及び蛍光光度計を含み得る。前記1又は複数のサーモサイクラーは、1又は複数の核酸分子の増幅及び検出に使用され得る。
特定の実施形態は、1又は複数の磁気セパレーターを含み得る。前記1又は複数の磁気セパレーターは、懸濁液からの常磁性粒子及び強磁性粒子の分離に使用され得る。前記1又は複数の磁気セパレーターは、1又は複数のLifeStep(商標)生体磁気セパレーター、SPHERO(商標)FlexiMagセパレーター、SPHERO(商標)MicroMagセパレーター、SPHERO(商標)HandiMagセパレーター、SPHERO(商標)MiniTube Magセパレーター、SPHERO(商標)UltraMagセパレーター、DynaMag(商標)マグネット、DynaMag(商標)-2マグネット、又はそれらの組み合わせを含み得る。
特定の実施形態は、1又は複数のバイオアナライザーを含み得る。概して、バイオアナライザーは、RNA、DNA、及びタンパク質を分析可能なチップベースのキャピラリー電気泳動装置である。前記1又は複数のバイオアナライザーは、Agilent 2100バイオアナライザーを含み得る。
特定の実施形態は、1又は複数のプロセッサを含み得る。前記1又は複数のプロセッサは、1又は複数のアッセイからの1又は複数のデータ及び/又は結果、1又は複数のアッセイに基づく又は由来する1又は複数のデータ及び/又は結果、1又は複数のアッセイからの1又は複数の出力、1又は複数のアッセイに基づく又は由来する1又は複数の出力、1又は複数のデータ及び/又は結果からの1又は複数の出力、1又は複数のデータ及び/又は結果に基づく又は由来する1又は複数の出力、又はそれらの組み合わせを分析、コンパイル、保存、ソート、結合、評価、又はその他の方法で処理し得る。前記1又は複数のプロセッサは、1又は複数のアッセイからの1又は複数のデータ、結果、又は出力、1又は複数のアッセイに基づく又は由来する1又は複数のデータ、結果、又は出力、1又は複数のデータ又は結果からの1又は複数の出力、1又は複数のデータ又は結果に基づく又は由来する1又は複数の出力、又はそれらの組み合わせを伝送し得る。前記1又は複数のプロセッサは、ユーザーからのリクエストを受信及び/又は保存し得る。前記1又は複数のプロセッサは、1又は複数のデータ、結果、出力を作成又は生成し得る。前記1又は複数のプロセッサは、1又は複数の生物医学的レポートを作成又は生成し得る。前記1又は複数のプロセッサは、1又は複数の生物医学的レポートを伝送し得る。前記1又は複数のプロセッサは、1又は複数のデータベース、1又は複数のデータ又は結果、1又は複数の出力、又はそれらの組み合わせからの情報を分析、コンパイル、保存、ソート、結合、評価、又はその他の方法で処理し得る。前記1又は複数のプロセッサは、1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、30以上のデータベースからの情報を分析、コンパイル、保存、ソート、結合、評価、又はその他の方法で処理し得る。前記1又は複数のプロセッサは、1又は複数のリクエスト、データ、結果、出力及び/又は情報を、1又は複数のユーザー、プロセッサ、コンピューター、コンピューターシステム、記憶場所、デバイス、データベース、又はそれらの組み合わせに伝送し得る。前記1又は複数のプロセッサは、1又は複数のリクエスト、データ、結果、出力及び/又は情報を、1又は複数のユーザー、プロセッサ、コンピューター、コンピューターシステム、記憶場所、デバイス、データベース、又はそれらの組み合わせから受信し得る。前記1又は複数のプロセッサは、1又は複数のリクエスト、データ、結果、出力及び/又は情報を、1又は複数のユーザー、プロセッサ、コンピューター、コンピューターシステム、記憶場所、デバイス、データベース、又はそれらの組み合わせから回収し得る。
特定の実施形態は、1又は複数の記憶場所を含み得る。前記1又は複数の記憶場所は、情報、データ、結果、出力、リクエスト、又はそれらの組み合わせを保存し得る。前記1又は複数の記憶場所は、情報、データ、結果、出力、リクエスト、又はそれらの組み合わせを1又は複数のユーザー、プロセッサ、コンピューター、コンピューターシステム、デバイス、又はそれらの組み合わせから受信し得る。
本明細書に記載の方法は、1又は複数のコンピューター及び/又はコンピューターシステムを用いることにより実施され得る。コンピューター又はコンピューターシステムは、本明細書で提供される方法を実施するための機械実行可能コードを備えた電子記憶場所(例えば、データベース、メモリ)、及び機械実行可能コードを実行するための1又は複数のプロセッサを含み得る。
コードは、プリコンパイルして、コードを実行するように適合されたプロセッサを備えた機器で使用するように構成しても、実行時にコンパイルしてもよい。コードは、コードをプリコンパイル済み又はコンパイル済みの形式で実行できるように選択可能なプログラミング言語で提供され得る。
前記1又は複数のコンピューター及び/又はコンピューターシステムは、1又は複数のアッセイからの1又は複数のデータ及び/又は結果、1又は複数のアッセイに基づく又は由来する1又は複数のデータ及び/又は結果、1又は複数のアッセイからの1又は複数の出力、1又は複数のアッセイに基づく又は由来する1又は複数の出力、1又は複数のデータ及び/又は結果からの1又は複数の出力、1又は複数のデータ及び/又は結果に基づく又は由来する1又は複数の出力、又はそれらの組み合わせを分析、コンパイル、保存、ソート、結合、評価、又はその他の方法で処理し得る。前記1又は複数のコンピューター及び/又はコンピューターシステムは、1又は複数のアッセイからの1又は複数のデータ、結果、又は出力、1又は複数のアッセイに基づく又は由来する1又は複数のデータ、結果、又は出力、1又は複数のデータ又は結果からの1又は複数の出力、1又は複数のデータ又は結果に基づく又は由来する1又は複数の出力、又はそれらの組み合わせを伝送し得る。前記1又は複数のコンピューター及び/又はコンピューターシステムは、ユーザーからのリクエストを受信及び/又は保存し得る。前記1又は複数のコンピューター及び/又はコンピューターシステムは、1又は複数のデータ、結果、出力を作成又は生成し得る。前記1又は複数のコンピューター及び/又はコンピューターシステムは、1又は複数の生物医学的レポートを作成又は生成し得る。前記1又は複数のコンピューター及び/又はコンピューターシステムは、1又は複数の生物医学的レポートを伝送し得る。前記1又は複数のコンピューター及び/又はコンピューターシステムは、1又は複数のデータベース、1又は複数のデータ又は結果、1又は複数の出力、又はそれらの組み合わせからの情報を分析、コンパイル、保存、ソート、結合、評価、又はその他の方法で処理し得る。前記1又は複数のコンピューター及び/又はコンピューターシステムは、1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、30以上のデータベースからの情報を分析、コンパイル、保存、ソート、結合、評価、又はその他の方法で処理し得る。前記1又は複数のコンピューター及び/又はコンピューターシステムは、1又は複数のリクエスト、データ、結果、出力及び/又は情報を、1又は複数のユーザー、プロセッサ、コンピューター、コンピューターシステム、記憶場所、デバイス、又はそれらの組み合わせに伝送し得る。前記1又は複数のコンピューター及び/又はコンピューターシステムは、1又は複数のリクエスト、データ、結果、出力及び/又は情報を、1又は複数のユーザー、プロセッサ、コンピューター、コンピューターシステム、記憶場所、デバイス、又はそれらの組み合わせから受信し得る。前記1又は複数のコンピューター及び/又はコンピューターシステムは、1又は複数のリクエスト、データ、結果、出力及び/又は情報を、1又は複数のユーザー、プロセッサ、コンピューター、コンピューターシステム、記憶場所、デバイス、データベース、又はそれらの組み合わせから回収し得る。
D.データベース
特定の実施形態は、1又は複数のデータベースを含み得る。特定の実施形態は、少なくとも約1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、30以上のデータベースを含み得る。前記データベースは、ゲノムデータベース、プロテオミクスデータベース、薬理ゲノミクスデータベース、生物医学データベース、及び科学データベースを含み得る。前記データベースは、公開されているデータベースであってもよい。代替的に又は追加的に、前記データベースは、専用のデータベースを含む場合がある。前記データベースは、商用のデータベースであってもよい。前記データベースには、Cosmic、GnomAD、Dbsnp、Mills Indels、MendelDB、PharmGKB、Varimed、Regulome、BreakSeq(キュレートされたジャンクション)、OMIM(Online Mendelian Inheritance in Man)、HGMD(Human Genome Mutation Database)、NCBI db SNP、NCBI RefSeq、GENCODE、GO(Gene Ontology)、及びKEGG(Kyoto Encyclopedia of Genes and Genomes)が挙げられるが、これらに限定されない。
特定の実施形態は、1又は複数のデータベースを分析することを含み得る。特定の実施形態は、少なくとも約1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、30以上のデータベースを分析すること含み得る。1又は複数のデータベースを分析することは、1又は複数のアルゴリズム、コンピューター、プロセッサ、記憶場所、デバイス、又はそれらの組み合わせを含み得る。
特定の実施形態は、1又は複数のデータベースからのデータ及び/又は情報に基づいて、1又は複数の核酸領域を特定することを含み得る。特定の実施形態は、1又は複数のデータベースからのデータ及び/又は情報に基づいて、1又は複数の核酸領域のセットを特定することを含み得る。特定の実施形態は、少なくとも約2以上のデータベースからのデータ及び/又は情報に基づいて、1又は複数の核酸領域及び/又は核酸領域のセットを特定することを含み得る。特定の実施形態は、少なくとも約3以上のデータベースからのデータ及び/又は情報に基づいて、1又は複数の核酸領域及び/又は核酸領域のセットを特定することを含み得る。特定の実施形態は、少なくとも約4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、30以上のデータベースからのデータ及び/又は情報に基づいて、1又は複数の核酸領域及び/又は核酸領域のセットを特定することを含み得る。
特定の実施形態は、1又は複数のデータベースからのデータ及び/又は情報に基づいて、1又は複数の結果を分析することを含み得る。特定の実施形態は、1又は複数のデータベースからのデータ及び/又は情報に基づいて、1又は複数の結果のセットを分析することを含み得る。特定の実施形態は、1又は複数のデータベースからのデータ及び/又は情報に基づいて、1又は複数の結合された結果を分析することを含み得る。特定の実施形態は、少なくとも約2以上のデータベースからのデータ及び/又は情報に基づいて、1又は複数の結果、結果のセット、結合された結果を分析することを含み得る。特定の実施形態は、少なくとも約3以上のデータベースからのデータ及び/又は情報に基づいて、1又は複数の結果、結果のセット、結合された結果を分析することを含み得る。特定の実施形態は、少なくとも約4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、30以上のデータベースからのデータ及び/又は情報に基づいて、1又は複数の結果、結果のセット、結合された結果を分析することを含み得る。
特定の実施形態は、1又は複数のデータベースからのデータ及び/又は情報に基づいて、1又は複数の結果を比較することを含み得る。特定の実施形態は、1又は複数のデータベースからのデータ及び/又は情報に基づいて、1又は複数の結果のセットを比較することを含み得る。特定の実施形態は、1又は複数のデータベースからのデータ及び/又は情報に基づいて、1又は複数の結合された結果を比較することを含み得る。特定の実施形態は、少なくとも約2以上のデータベースからのデータ及び/又は情報に基づいて、1又は複数の結果、結果のセット、結合された結果を比較することを含み得る。特定の実施形態は、少なくとも約3以上のデータベースからのデータ及び/又は情報に基づいて、1又は複数の結果、結果のセット、結合された結果を比較することを含み得る。特定の実施形態は、少なくとも約4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、30以上のデータベースからのデータ及び/又は情報に基づいて、1又は複数の結果、結果のセット、結合された結果を比較することを含み得る。
特定の実施形態は、1又は複数のデータベース、1又は複数のアッセイ、1又は複数のデータ又は結果、1又は複数のアッセイに基づく又は由来する1又は複数の出力、1又は複数のデータ又は結果に基づく又は由来する1又は複数の出力、又はそれらの組み合わせからのデータ及び/又は情報に基づいた生物医学データベース、ゲノムデータベース、生物医学的レポート、疾患レポート、ケースコントロール分析、及び稀なバリアント検出分析を含み得る。
E.データセット及び分析
特定の実施形態は、1又は複数のデータ、1又は複数のデータセット、1又は複数の結合されたデータ、1又は複数の結合されたデータセット、1又は複数の結果、1又は複数の結果のセット、1又は複数の結合された結果、又はそれらの組み合わせを含み得る。前記データ及び/又は結果は、1又は複数のアッセイ、1又は複数のデータベース、又はそれらの組み合わせに基づく又は由来するものであり得る。特定の実施形態は、1又は複数のデータ、1又は複数のデータセット、1又は複数の結合されたデータ、1又は複数の結合されたデータセット、1又は複数の結果、1又は複数の結果のセット、1又は複数の結合された結果、又はそれらの組み合わせの分析を含み得る。特定の実施形態は、1又は複数のデータ、1又は複数のデータセット、1又は複数の結合されたデータ、1又は複数の結合されたデータセット、1又は複数の結果、1又は複数の結果のセット、1又は複数の結合された結果、又はそれらの組み合わせの処理を含み得る。
特定の実施形態は、1又は複数のデータ、1又は複数のデータセット、1又は複数の結合されたデータ、1又は複数の結合されたデータセット、1又は複数の結果、1又は複数の結果のセット、1又は複数の結合された結果、又はそれらの組み合わせの少なくとも1つの分析及び少なくとも1つの処理を含み得る。特定の実施形態は、1又は複数のデータ、1又は複数のデータセット、1又は複数の結合されたデータ、1又は複数の結合されたデータセット、1又は複数の結果、1又は複数の結果のセット、1又は複数の結合された結果、又はそれらの組み合わせの1又は複数の分析及び1又は複数の処理を含み得る。特定の実施形態は、1又は複数のデータ、1又は複数のデータセット、1又は複数の結合されたデータ、1又は複数の結合されたデータセット、1又は複数の結果、1又は複数の結果のセット、1又は複数の結合された結果、又はそれらの組み合わせの少なくとも1、2、3、4、5、6、7、8、9、10、15、20、30、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900、1000以上の異なる分析を含み得る。特定の実施形態は、1又は複数のデータ、1又は複数のデータセット、1又は複数の結合されたデータ、1又は複数の結合されたデータセット、1又は複数の結果、1又は複数の結果のセット、1又は複数の結合された結果、又はそれらの組み合わせの少なくとも1、2、3、4、5、6、7、8、9、10、15、20、30、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900、1000以上の異なる処理を含み得る。前記1又は複数の分析及び/又は1又は複数の処理は、同時に、連続して、又はそれらの組み合わせで行ってもよい。
前記1又は複数の分析及び/又は1又は複数の処理は、1時間、2時間、3時間、4時間、5時間、6時間、7時間、8時間、9時間、10時間、11時間、12時間、15時間、20時間、30時間、40時間、50時間、60時間、70時間、80時間、90時間、100時間、200時間、300時間、400時間、500時間、600時間、700時間、800時間、900時間、1000時間又はそれ以上の時点で行われ得る。前記時点は、1時間、2時間、3時間、4時間、5時間、6時間、7時間、8時間、9時間、10時間、11時間、12時間、13時間、14時間、15時間、16時間、17時間、18時間、19時間、20時間、21時間、22時間、23時間、24時間、25時間、30時間、35時間、40時間、45時間、50時間、55時間、60時間又はそれ以上に渡ってもよい。前記時点は、1日間、2日間、3日間、4日間、5日間、6日間、7日間、8日間、9日間、10日間、11日間、12日間、13日間、14日間、15日間、16日間、17日間、18日間、19日間、20日間、21日間、22日間、23日間、24日間、25日間、30日間、35日間、40日間、45日間、50日間、55日間、60日間又はそれ以上に渡ってもよい。前記時点は、1週間、2週間、3週間、4週間、5週間、6週間、7週間、8週間、9週間、10週間、11週間、12週間、13週間、14週間、15週間、16週間、17週間、18週間、19週間、20週間、21週間、22週間、23週間、24週間、25週間、30週間、35週間、40週間、45週間、50週間、55週間、60週間又はそれ以上に渡ってもよい。前記時点は、1ヶ月間、2ヶ月間、3ヶ月間、4ヶ月間、5ヶ月間、6ヶ月間、7ヶ月間、8ヶ月間、9ヶ月間、10ヶ月間、11ヶ月間、12ヶ月間、13ヶ月間、14ヶ月間、15ヶ月間、16ヶ月間、17ヶ月間、18ヶ月間、19ヶ月間、20ヶ月間、21ヶ月間、22ヶ月間、23ヶ月間、24ヶ月間、25ヶ月間、30ヶ月間、35ヶ月間、40ヶ月間、45ヶ月間、50ヶ月間、55ヶ月間、60ヶ月間又はそれ以上に渡ってもよい。前記時点は、1年間、2年間、3年間、4年間、5年間、6年間、7年間、8年間、9年間、10年間、11年間、12年間、13年間、14年間、15年間、16年間、17年間、18年間、19年間、20年間、21年間、22年間、23年間、24年間、25年間、30年間、35年間、40年間、45年間、50年間、55年間、60年間又はそれ以上に渡ってもよい。
特定の実施形態は、1又は複数のデータを含み得る。前記1又は複数のデータは、1又は複数のアッセイに基づく又は由来する1又は複数の生データを含み得る。前記1又は複数のデータは、1又は複数のデータベースに基づく又は由来する1又は複数の生データを含み得る。前記1又は複数のデータは、1又は複数の生データに基づく又は由来する少なくとも部分的に分析されたデータを含み得る。前記1又は複数のデータは、1又は複数の生データに基づく又は由来する少なくとも部分的に処理されたデータを含み得る。前記1又は複数のデータは、1又は複数の生データに基づく又は由来する充分に分析されたデータを含み得る。前記1又は複数のデータは、1又は複数の生データに基づく又は由来する充分に処理されたデータを含み得る。前記データは、配列決定読み取りデータ又は発現データを含み得る。前記データは、生物医学的、科学的、薬理学的、及び/又は遺伝的情報を含み得る。
特定の実施形態は、1又は複数の結合されたデータを含み得る。前記1又は複数の結合されたデータは、2以上のデータを含み得る。前記1又は複数の結合されたデータは、2以上のデータセットを含み得る。前記1又は複数の結合されたデータは、1又は複数のアッセイに基づく又は由来する1又は複数の生データを含み得る。前記1又は複数の結合されたデータは、1又は複数のデータベースに基づく又は由来する1又は複数の生データを含み得る。前記1又は複数の結合されたデータは、1又は複数の生データに基づく又は由来する少なくとも部分的に分析されたデータを含み得る。前記1又は複数の結合されたデータは、1又は複数の生データに基づく又は由来する少なくとも部分的に処理されたデータを含み得る。前記1又は複数の結合されたデータは、1又は複数の生データに基づく又は由来する充分に分析されたデータを含み得る。前記1又は複数の結合されたデータは、1又は複数の生データに基づく又は由来する充分に処理されたデータを含み得る。1又は複数の結合されたデータは、配列決定読み取りデータ又は発現データを含み得る。1又は複数の結合されたデータは、生物医学的、科学的、薬理学的、及び/又は遺伝的情報を含み得る。
特定の実施形態は、1又は複数のデータセットを含み得る。前記1又は複数のデータセットは、1又は複数のデータを含み得る。前記1又は複数のデータセットは、1又は複数の結合されたデータを含み得る。前記1又は複数のデータセットは、1又は複数のアッセイに基づく又は由来する1又は複数の生データを含み得る。前記1又は複数のデータセットは、1又は複数のデータベースに基づく又は由来する1又は複数の生データを含み得る。前記1又は複数のデータセットは、1又は複数の生データに基づく又は由来する少なくとも部分的に分析されたデータを含み得る。前記1又は複数のデータセットは、1又は複数の生データに基づく又は由来する少なくとも部分的に処理されたデータを含み得る。前記1又は複数のデータセットは、1又は複数の生データに基づく又は由来する充分に分析されたデータを含み得る。前記1又は複数のデータセットは、1又は複数の生データに基づく又は由来する充分に処理されたデータを含み得る。前記データセットは、配列決定読み取りデータ又は発現データを含み得る。前記データセットは、生物医学的、科学的、薬理学的、及び/又は遺伝的情報を含み得る。
特定の実施形態は、1又は複数の結合されたデータセットを含み得る。前記1又は複数の結合されたデータセットは、2以上のデータを含み得る。前記1又は複数の結合されたデータセットは、2以上の結合されたデータを含み得る。前記1又は複数の結合されたデータセットは、2以上のデータセットを含み得る。前記1又は複数の結合されたデータセットは、1又は複数のアッセイに基づく又は由来する1又は複数の生データを含み得る。前記1又は複数の結合されたデータセットは、1又は複数のデータベースに基づく又は由来する1又は複数の生データを含み得る。前記1又は複数の結合されたデータセットは、1又は複数の生データに基づく又は由来する少なくとも部分的に分析されたデータを含み得る。前記1又は複数の結合されたデータセットは、1又は複数の生データに基づく又は由来する少なくとも部分的に処理されたデータを含み得る。前記1又は複数の結合されたデータセットは、1又は複数の生データに基づく又は由来する充分に分析されたデータを含み得る。前記1又は複数の結合されたデータセットは、1又は複数の生データに基づく又は由来する充分に処理されたデータを含み得る。特定の実施形態は、前記結合されたデータセットのさらなる処理及び/又は分析をさらに含み得る。1又は複数の結合されたデータセットは、配列決定読み取りデータ又は発現データを含み得る。1又は複数の結合されたデータセットは、生物医学的、科学的、薬理学的、及び/又は遺伝的情報を含み得る。
特定の実施形態は、1又は複数の結果を含み得る。前記1又は複数の結果は、1又は複数のデータ、データセット、結合されたデータ、及び/又は結合されたデータセットを含み得る。前記1又は複数の結果は、1又は複数のデータ、データセット、結合されたデータ、及び/又は結合されたデータセットに基づく又は由来するものであり得る。前記1又は複数の結果は、1又は複数のアッセイから作成され得る。前記1又は複数の結果は、1又は複数のアッセイに基づく又は由来するものであり得る。前記1又は複数の結果は、1又は複数のデータベースに基づく又は由来するものであり得る。前記1又は複数の結果は、1又は複数のデータ、データセット、結合されたデータ、及び/又は結合されたデータセットに基づく又は由来する少なくとも部分的に分析された結果を含み得る。前記1又は複数の結果は、1又は複数のデータ、データセット、結合されたデータ、及び/又は結合されたデータセットに基づく又は由来する少なくとも部分的に処理された結果を含み得る。前記1又は複数の結果は、1又は複数のデータ、データセット、結合されたデータ、及び/又は結合されたデータセットに基づく又は由来する充分に分析された結果を含み得る。前記1又は複数の結果は、1又は複数のデータ、データセット、結合されたデータ、及び/又は結合されたデータセットに基づく又は由来する充分に処理された結果を含み得る。前記結果は、配列決定読み取りデータ又は発現データを含み得る。前記結果は、生物医学的、科学的、薬理学的、及び/又は遺伝的情報を含み得る。
特定の実施形態は、1又は複数の結果のセットを含み得る。前記1又は複数の結果のセットは、1又は複数のデータ、データセット、結合されたデータ、及び/又は結合されたデータセットを含み得る。前記1又は複数の結果のセットは、1又は複数のデータ、データセット、結合されたデータ、及び/又は結合されたデータセットに基づく又は由来するものであり得る。前記1又は複数の結果のセットは、1又は複数のアッセイから作成され得る。前記1又は複数の結果のセットは、1又は複数のアッセイに基づく又は由来するものであり得る。前記1又は複数の結果のセットは、1又は複数のデータベースに基づく又は由来するものであり得る。前記1又は複数の結果のセットは、1又は複数のデータ、データセット、結合されたデータ、及び/又は結合されたデータセットに基づく又は由来する少なくとも部分的に分析された結果のセットを含み得る。前記1又は複数の結果のセットは、1又は複数のデータ、データセット、結合されたデータ、及び/又は結合されたデータセットに基づく又は由来する少なくとも部分的に処理された結果のセットを含み得る。前記1又は複数の結果のセットは、1又は複数のデータ、データセット、結合されたデータ、及び/又は結合されたデータセットに基づく又は由来する充分に分析された結果のセットを含み得る。前記1又は複数の結果のセットは、1又は複数のデータ、データセット、結合されたデータ、及び/又は結合されたデータセットに基づく又は由来する充分に処理された結果のセットを含み得る。前記結果のセットは、配列決定読み取りデータ又は発現データを含み得る。前記結果のセットは、生物医学的、科学的、薬理学的、及び/又は遺伝的情報を含み得る。
特定の実施形態は、1又は複数の結合された結果を含み得る。前記結合された結果は、1又は複数の結果、結果のセット、及び/又は結合された結果のセットを含み得る。前記結合された結果は、1又は複数の結果、結果のセット、及び/又は結合された結果のセットに基づく又は由来するものであり得る。前記1又は複数の結合された結果は、1又は複数のデータ、データセット、結合されたデータ、及び/又は結合されたデータセットを含み得る。前記1又は複数の結合された結果は、1又は複数のデータ、データセット、結合されたデータ、及び/又は結合されたデータセットに基づく又は由来するものであり得る。前記1又は複数の結合された結果は、1又は複数のアッセイから作成され得る。前記1又は複数の結合された結果は、1又は複数のアッセイに基づく又は由来するものであり得る。前記1又は複数の結合された結果は、1又は複数のデータベースに基づく又は由来するものであり得る。前記1又は複数の結合された結果は、1又は複数のデータ、データセット、結合されたデータ、及び/又は結合されたデータセットに基づく又は由来する少なくとも部分的に分析された結合された結果を含み得る。前記1又は複数の結合された結果は、1又は複数のデータ、データセット、結合されたデータ、及び/又は結合されたデータセットに基づく又は由来する少なくとも部分的に処理された結合された結果を含み得る。前記1又は複数の結合された結果は、1又は複数のデータ、データセット、結合されたデータ、及び/又は結合されたデータセットに基づく又は由来する充分に分析された結合された結果を含み得る。前記1又は複数の結合された結果は、1又は複数のデータ、データセット、結合されたデータ、及び/又は結合されたデータセットに基づく又は由来する充分に処理された結合された結果を含み得る。前記結合された結果は、配列決定読み取りデータ又は発現データを含み得る。前記結合された結果は、生物医学的、科学的、薬理学的、及び/又は遺伝的情報を含み得る。
特定の実施形態は、1又は複数の結合された結果のセットを含み得る。前記結合された結果のセットは、1又は複数の結果、結果のセット、及び/又は結合された結果を含み得る。前記結合された結果のセットは、1又は複数の結果、結果のセット、及び/又は結合された結果に基づく又は由来するものであり得る。前記1又は複数の結合された結果のセットは、1又は複数のデータ、データセット、結合されたデータ、及び/又は結合されたデータセットを含み得る。前記1又は複数の結合された結果のセットは、1又は複数のデータ、データセット、結合されたデータ、及び/又は結合されたデータセットに基づく又は由来するものであり得る。前記1又は複数の結合された結果のセットは、1又は複数のアッセイから作成され得る。前記1又は複数の結合された結果のセットは、1又は複数のアッセイに基づく又は由来するものであり得る。前記1又は複数の結合された結果のセットは、1又は複数のデータベースに基づく又は由来するものであり得る。前記1又は複数の結合された結果のセットは、1又は複数のデータ、データセット、結合されたデータ、及び/又は結合されたデータセットに基づく又は由来する少なくとも部分的に分析された結合された結果のセットを含み得る。前記1又は複数の結合された結果のセットは、1又は複数のデータ、データセット、結合されたデータ、及び/又は結合されたデータセットに基づく又は由来する少なくとも部分的に処理された結合された結果のセットを含み得る。前記1又は複数の結合された結果のセットは、1又は複数のデータ、データセット、結合されたデータ、及び/又は結合されたデータセットに基づく又は由来する充分に分析された結合された結果のセットを含み得る。前記1又は複数の結合された結果のセットは、1又は複数のデータ、データセット、結合されたデータ、及び/又は結合されたデータセットに基づく又は由来する充分に処理された結合された結果のセットを含み得る。前記結合された結果のセットは、配列決定読み取りデータ又は発現データを含み得る。前記結合された結果のセットは、生物医学的、科学的、薬理学的、及び/又は遺伝的情報を含み得る。
特定の実施形態は、1又は複数の出力、出力のセット、結合された出力、及び/又は結合された出力のセットを含み得る。本明細書に記載の方法、ライブラリー、キット、及びシステムは、1又は複数の出力、出力のセット、結合された出力、及び/又は結合された出力のセットを作成することを含み得る。前記出力のセットは、1又は複数の出力、1又は複数の結合された出力、又はそれらの組み合わせを含み得る。前記結合された出力は、1又は複数の出力、1又は複数の出力のセット、1又は複数の結合された出力のセット、又はそれらの組み合わせを含み得る。前記結合された出力のセットは、1又は複数の出力、1又は複数の出力のセット、1又は複数の結合された出力、又はそれらの組み合わせを含み得る。前記1又は複数の出力、出力のセット、結合された出力、及び/又は結合された出力のセットは、1又は複数のデータ、1又は複数のデータセット、1又は複数の結合されたデータ、1又は複数の結合されたデータセット、1又は複数の結果、1又は複数の結果のセット、1又は複数の結合された結果、又はそれらの組み合わせに基づく又は由来するものであり得る。前記1又は複数の出力、出力のセット、結合された出力、及び/又は結合された出力のセットは、1又は複数のデータベースに基づく又は由来するものであり得る。前記1又は複数の出力、出力のセット、結合された出力、及び/又は結合された出力のセットは、1又は複数の生物医学的レポート、生物医学的出力、稀なバリアント出力、薬理遺伝学的出力、集団調査出力、ケースコントロール出力、生物医学データベース、ゲノムデータベース、疾患データベース、ネットコンテンツを含み得る。
特定の実施形態は、1又は複数の生物医学的出力、1又は複数の生物医学的出力のセット、1又は複数の結合された生物医学的出力、1又は複数の結合された生物医学的出力のセットを含み得る。本明細書に記載の方法、ライブラリー、キット、及びシステムは、1又は複数の生物医学的出力、1又は複数の生物医学的出力のセット、1又は複数の結合された生物医学的出力、1又は複数の結合された生物医学的出力のセットを作成することを含み得る。前記生物医学的出力のセットは、1又は複数の生物医学的出力、1又は複数の結合された生物医学的出力、又はそれらの組み合わせを含み得る。前記結合された生物医学的出力は、1又は複数の生物医学的出力、1又は複数の生物医学的出力のセット、1又は複数の結合された生物医学的出力のセット、又はそれらの組み合わせを含み得る。前記結合された生物医学的出力のセットは、1又は複数の生物医学的出力、1又は複数の生物医学的出力のセット、1又は複数の結合された生物医学的出力、又はそれらの組み合わせを含み得る。前記1又は複数の生物医学的出力、1又は複数の生物医学的出力のセット、1又は複数の結合された生物医学的出力、1又は複数の結合された生物医学的出力のセットは、1又は複数のデータ、1又は複数のデータセット、1又は複数の結合されたデータ、1又は複数の結合されたデータセット、1又は複数の結果、1又は複数の結果のセット、1又は複数の結合された結果、1又は複数の出力、1又は複数の出力のセット、1又は複数の結合された出力、1又は複数の結合された出力のセット、又はそれらの組み合わせに基づく又は由来するものであり得る。前記1又は複数の生物医学的出力は、対象の生物医学情報を含み得る。前記対象の生物医学情報により、1又は複数の生物医学的特徴を予測、診断、及び/又は予後診断し得る。前記1又は複数の生物医学的特徴は、疾患又は状態の程度、疾患又は状態の遺伝的リスク、生殖リスク、胎児への遺伝的リスク、薬物有害反応のリスク、薬物療法の有効性、最適な薬物投与量の予測、移植耐性、又はそれらの組み合わせを含み得る。
特定の実施形態は、1又は複数の生物医学的レポートを含み得る。本明細書に記載の方法、ライブラリー、キット、及びシステムは、1又は複数の生物医学的レポートを作成することを含み得る。前記1又は複数の生物医学的レポートは、1又は複数のデータ、1又は複数のデータセット、1又は複数の結合されたデータ、1又は複数の結合されたデータセット、1又は複数の結果、1又は複数の結果のセット、1又は複数の結合された結果、1又は複数の出力、1又は複数の出力のセット、1又は複数の結合された出力、1又は複数の結合された出力のセット、1又は複数の生物医学的出力、1又は複数の生物医学的出力のセット、結合された生物医学的出力、1又は複数の生物医学的出力のセット、又はそれらの組み合わせに基づく又は由来するものであり得る。前記生物医学レポートにより、1又は複数の生物医学的特徴を予測、診断、及び/又は予後診断し得る。前記1又は複数の生物医学的特徴は、疾患又は状態の程度、疾患又は状態の遺伝的リスク、生殖リスク、胎児への遺伝的リスク、薬物有害反応のリスク、薬物療法の有効性、最適な薬物投与量の予測、移植耐性、又はそれらの組み合わせを含み得る。
特定の実施形態は、1又は複数のデータ、情報、結果、出力、レポート、又はそれらの組み合わせの伝送も含み得る。例えば、1又は複数のアッセイに基づく又は由来するデータ/情報は、別のデバイス及び/又は機器に伝送される。別の例では、前記データ、結果、出力、生物医学的出力、生物医学的レポート、又はそれらの組み合わせは、別のデバイス及び/又は機器に伝送される。アルゴリズムから得られた情報もまた、別のデバイス及び/又は機器に伝送され得る。1又は複数のデータベースの分析に基づく情報は、別のデバイス及び/又は機器に伝送され得る。前記データ/情報の伝送は、第1のソースから第2のソースへのデータ/情報転送を含み得る。前記第1のソース及び前記第2のソースは、同一近似位置(例えば、同じ部屋、建物、ブロック、キャンパス内)に存在し得る。あるいは、前記第1のソース及び前記第2のソースは、複数の場所(例えば、複数の都市、州、国、大陸など)に存在し得る。前記データ、結果、出力、生物医学的出力、生物医学的レポートは、患者及び/又は医療従事者に伝達され得る。
伝送は、1又は複数のデータ、結果、情報、データベース、出力、レポート、又はそれらの組み合わせの分析に基づき得る。例えば、2番目のレポートの伝送は、最初のレポートの分析に基づいている。あるいは、レポートの伝送は、1又は複数のデータ又は結果の分析に基づいている。伝送は、1又は複数のリクエストの受信に基づいていてもよい。例えば、レポートの伝送は、ユーザー(例えば、患者、医療従事者、個人)からのリクエストの受信に基づいていてもよい。
データ/情報の伝送には、デジタル伝送又はアナログ伝送が含まれ得る。デジタル伝送は、ポイントツーポイント又はポイントツーマルチポイント通信チャンネルを介したデータ(デジタルビットストリーム)の物理的伝送を含み得る。このようなチャンネルの例としては、銅線、光ファイバー、ワイヤレス通信チャンネル、及び記憶媒体が挙げられる。データは、電圧、電波、マイクロ波、又は赤外線信号などの電磁信号として表され得る。
アナログ伝送は、連続的に変化するアナログ信号の伝送を含み得る。メッセージは、ラインコードによる一連のパルス(ベースバンド伝送)、又はデジタル変調方式を使用した連続的に変化する波形の限定されたセット(通過帯域伝送)のいずれかで表され得る。通過帯域変調及び対応する復調(検出としても知られる)は、モデム機器によって実行され得る。デジタル信号の最も一般的な定義によると、ビットストリームを表すベースバンド信号及びパスバンド信号の両方がデジタル伝送と見なされるが、別の定義では、ベースバンド信号のみがデジタルと見なされ、デジタルデータのパスバンド伝送はデジタルからアナログへの変換の形式と見なされる。
特定の実施形態は、1又は複数の試料識別子を含み得る。前記試料識別子は、核酸分子の1又は複数の試料及び/又はサブセットに関連付けられ得る標識、バーコード、及びその他の指標を含み得る。特定の実施形態は、データ、結果、出力、生物医学的出力、及び/又は生物医学的レポートを試料に関連付けるための1又は複数のプロセッサ、1又は複数の記憶場所、1又は複数のコンピューター、1又は複数のモニター、1又は複数のコンピューターソフトウェア、1又は複数のアルゴリズムを含み得る。
特定の実施形態は、1又は複数の核酸分子の発現量と疾患転帰の予後とを相互に関連付けるためのプロセッサを含み得る。特定の実施形態は、ルックアップテーブル、アルゴリズム、多変量モデル、及び式モデル又はアルゴリズムの線形又は非線形の組み合わせを含む、様々な相関手法の1又は複数を含み得る。前記発現量は、前記試料を提供する患者が特定の疾患転帰を示す可能性を反映している1又は複数の尤度スコアに変換され得る。モデル及び/又はアルゴリズムは、機械可読形式で提供されてもよく、所望により患者又は患者クラスの治療法をさらに指定してもよい。
場合によっては、本明細書に記載の方法及びシステムを使用して、DNA多型を含む領域(例えば、生殖細胞バリアント又は体細胞バリアント)などのゲノムDNA領域の検出及び/又は定量化を含む出力を生成する。場合によっては、1又は複数のゲノム領域の検出は、本明細書の他の場所で説明されているデータ入力又はデータベースのソースに応じて、1又は複数のアルゴリズムに基づく。1又は複数のアルゴリズムの各々を使用して、ゲノム領域(すなわち、多型)の検出を含むデータを受信、結合、及び生成し得る。いくつかの実施形態では、本発明の方法及びシステムは、1又は複数、2以上、3以上、4以上、5以上、6以上、7以上、8以上、9以上、又は10以上のアルゴリズムに基づくゲノム領域の検出を含み得る。前記アルゴリズムは、機械学習アルゴリズム、コンピューター実装アルゴリズム、機械実行アルゴリズム、自動アルゴリズムなどであり得る。
各核酸試料の得られたデータは、特徴選択手法を使用して分析でき、データの固有の特性を調べることによって特徴の関連性を評価するフィルター手法、特徴サブセット検索内にモデル仮説を埋め込むラッパー法、及び最適な特徴セットの検索がアルゴリズム又はモデルに組み込まれている組み込み手法が挙げられる。
場合によっては、1又は複数のゲノム領域の検出は1又は複数の統計モデルに基づいている。本発明の方法において有用な統計モデル又はフィルタリング技術は以下を含む:(1)2標本t検定、ANOVA分析、ベイジアンフレームワーク、及びガンマ分布モデルの使用などのパラメトリック手法、(2)ウィルコクソンの順位和検定、クラス間及びクラス内平方和検定、順位積法、ランダム純烈法、又は2つのデータセット間の発現の倍数変化の差の閾値ポイントを設定し、次に、誤分類の数を最小限に抑える各遺伝子の閾値ポイントを検出することを含むTNoMの使用などのモデルフリー法、並びに(3)二変量法、相関ベース特徴選択法(CFS)、最小冗長性最大関連性法(MRMR)、マルコフブランケットフィルター法、マルコフモデル、隠れマルコフモデル(HMM)、及び相関のない縮小重心(uncorrelated shrunken centroid、USC)法などの多変量法。場合によっては、隠れマルコフモデル(HMM)に内部状態が与えられ、内部状態は、第1の核酸試料又は第2の核酸試料の染色体の全体的なコピー数に従って設定される。一例では、二倍体染色体の場合、HMMの内部状態は、ホモ接合性欠失(局所的にゼロコピー)、ヘテロ接合性欠失(局所的に1コピー)、正常(局所的に2コピー)、重複(2以上のコピー)、及び参照ギャップ(ギャップをホモ接合性欠失と区別するための状態として存在)であり得る。別の例では、半数体染色体(例えば、男性のX又はY)の場合、HMIMの内部状態は、ホモ接合性欠失(局所的にゼロコピー)、正常(局所的に2コピー)、重複(2以上のコピー)、及び参照ギャップ(ギャップをホモ接合性欠失と区別するための状態として存在)であり得る。例えば、半数体染色体の場合、利用可能なヘテロ接合性の欠失状態が認められない場合がある。別の例では、トリソミー及び/又はテトラソミーの場合、追加の中間体であるHMM状態は、追加の中間状態を有し得、中間状態は、様々なCNVの可能性を説明し得る。別の実施形態では、隠れマルコフモデルを使用して、検出された特徴のブレークポイントの近くで測定された読み取りの挿入サイズを調べることによって出力をフィルタリングする。
本発明の方法において有用な他のモデル又はアルゴリズムには、順次検索方法、遺伝子アルゴリズム、分布アルゴリズムの推定、ランダムフォレストアルゴリズム、サポートベクターマシンアルゴリズムの重みベクトル、ロジスティック回帰アルゴリズムの重みなどが挙げられる。Bioinformatics. 2007 Oct 1;23(19):2507-17は、データ分析のために上記で提供されたアルゴリズム又はモデルの相対的な利点の概要を提示している。実例となるアルゴリズムには、主成分分析アルゴリズムなどの変数の数を減らす方法、部分最小二乗法、独立成分分析アルゴリズム、統計的手法など、多数の変数を直接処理する方法、及び機械学習手法に基づく方法が含まれるが、これらに限定されない。統計的手法には、ペナルティ付きロジスティック回帰、マイクロアレイ(PAM)の予測分析、縮小セントロイドに基づく手法、サポートベクターマシン分析、及び正則化線形判別分析が含まれる。
いくつかの実施形態では、HMMベースの検出アルゴリズムは、大きな又は実質的に大きなCNVを「セグメント的に」検出され得る。場合によっては、カバレッジ信号の変動により、真のCNVの長さに沿って小さな検出ギャップが存在することがある。一例では、1メガベースペア(Mbp)の欠失は、それらの間に小さなギャップがある、少数の別個の名目上の検出として検出され得る。これを軽減するために、2つのブラケット検出のいずれよりも小さいギャップによって分離された隣接する検出のペアを特定するマージ操作を用いてもよい。次に、マージ操作により、ギャップ内のカバレッジレベルの中央値が測定される。カバレッジの中央値が事前定義された閾値を超えると、2つの検出がマージされて、2つの元の検出(囲まれた検出ギャップを含む)にまたがる単一の大きな検出になる。一例では、真の特徴は両方の検出にまたがり、ギャップは統計的アーティファクトである。大きなCNVを有することが公知である試料の実際の配列決定データを使用すると、このマージ操作により、CNVの実際の特性に関して大幅に忠実度を高めることができる。
本明細書で提供される方法及びシステムは、本明細書で提供されるような特徴選択アルゴリズムの使用をさらに含み得る。本発明のいくつかの実施形態では、特徴選択は、LIMMAソフトウェアパッケージ(Smyth, G. K. (2005). Limma: linear models for microarray data. In: Bioinformatics and Computational Biology Solutions using R and Bioconductor, R. Gentleman, V. Carey, S. Dudoit, R. Irizarry, W. Huber (eds.), Springer, New York, pages 397-420)を使用して提供される。
本発明のいくつかの実施形態では、1又は複数のゲノム領域を検出するために、対角線形判別分析、K最近傍アルゴリズム、サポートベクターマシン(SVM)アルゴリズム、線形サポートベクターマシン、ランダムフォレストアルゴリズム、確率モデルベースの方法、又はそれらの組み合わせが提供される。いくつかの実施形態では、試料を区別する(例えば、疾患対正常)又はゲノム領域を区別する(例えば、コピー数多型対正常)特定されたマーカーは、目的のクラス間の発現量の差の統計的有意性に基づいて選択される。場合によっては、統計的有意性は、ベンジャミーニーホッホベルク(Benjamini Hochberg)又は偽発見率(FDR)の別の補正を適用することによって調整される。
場合によっては、前記アルゴリズムは、Fishel and Kaufman et al. 2007 Bioinformatics 23(13): 1599-606に記載されるようなメタ分析アプローチで補完されてもよい。場合によっては、前記アルゴリズムは、再現性分析などのメタ分析アプローチで補完されてもよい。場合によっては、再現性分析により、少なくとも1つの予測発現産物マーカーセットに現れるマーカーが選択される。
ゲノム領域の検出の統計的評価によって、以下の1又は複数を示す1又は複数の定量値が提供される:診断精度の尤度;傷害、疾患、状態などの尤度;特定の傷害、疾患、又は状態の尤度;及び特定の治療的介入の成功の可能性。したがって、遺伝学や分子生物学の訓練を受けていない可能性が高い医師は、生データを理解する必要はない。むしろ、データは、患者のケアを導くための定量値の形で医師に直接提示される。前記結果は、当技術分野で公知のいくつかの方法を使用して統計的に評価することができ、スチューデントのt検定、両側t検定、ピアソン順位和分析、隠しマルコフモデル分析、Q-Qプロットの分析、主成分分析、一元配置分散分析、二元配置分散分析、LIMMAなどが含まれるが、これらに限定されない。
F.疾患及び状態
特定の実施形態は、1又は複数の生物医学的出力に基づいて、対象における疾患又は状態の程度又は転帰を予測、診断、及び/又は予後診断することを含み得る。対象における疾患の程度又は転帰を予測、診断、及び/又は予後診断することは、疾患又は状態を診断すること、疾患又は状態を特定すること、疾患又は状態のステージを決定すること、疾患又は状態のリスクを評価すること、疾患再発のリスクを評価すること、薬物の有効性を評価すること、薬物有害反応のリスクを評価すること、最適な薬剤投与量を予測すること、薬剤耐性を予測すること、又はそれらの組み合わせを含み得る。
本明細書に開示される試料は、癌に罹患している対象からのものであり得る。前記試料は、悪性組織、良性組織、又はそれらの混合物を含み得る。前記癌は、再発性及び/又は難治性の癌であり得る。癌の例には、肉腫、癌腫、リンパ腫、又は白血病が含まれるが、これらに限定されない場合によっては、癌組織を含む試料が得られるが、一致する正常試料は得られない。場合によっては、入手可能な一致する正常試料はない。場合によっては、一致する正常試料が取得される(例えば、本明細書に開示されているモデルの訓練及びテストの目的で)。
肉腫は、骨、軟骨、脂肪、筋肉、血管、又はその他の結合組織若しくは支持組織の癌である。肉腫には、骨癌、線維肉腫、軟骨肉腫、ユーイング肉腫、悪性血管内皮腫、悪性神経鞘腫、両側前庭神経鞘腫、骨肉腫、軟部肉腫(例えば、胞巣状軟部肉腫、血管肉腫、葉状嚢胞肉腫、皮膚線維肉腫、デスモイド腫瘍、類上皮肉腫、骨格外骨肉腫、線維肉腫、血管周囲細胞腫、血管肉腫、カポジ肉腫、平滑筋肉腫、脂肪肉腫、リンパ管肉腫、リンパ肉腫、悪性線維性組織球腫、神経線維肉腫、横紋筋肉腫、及び滑膜肉腫)が挙げられるが、これらに限定されない。
癌腫は、体表面を覆い、ホルモンを産生し、腺を構成する細胞である上皮細胞から発生する癌である。非限定的な例として、癌腫には、乳癌、膵臓癌、肺癌、結腸癌、結腸直腸癌、直腸癌、腎臓癌、膀胱癌、胃癌、前立腺癌、肝臓癌、卵巣癌、脳腫瘍、膣癌、外陰癌、子宮癌、口腔癌、陰茎癌、精巣癌、食道癌、皮膚癌、卵管癌、頭頸部癌、消化管間質癌、腺癌、皮膚又は眼内黒色腫、肛門領域癌、小腸癌、内分泌系癌、甲状腺癌、副甲状腺癌、副腎癌、尿道癌、腎盂癌、尿管癌、子宮内膜癌、子宮頸癌、下垂体癌、中枢神経系(CNS)の新生物、原発性CNSリンパ腫、脳幹神経膠腫、及び脊髄軸腫瘍が挙げられる。前記癌は、基底細胞癌、扁平上皮癌、黒色腫、非黒色腫、又は光線性(太陽)角化症などの皮膚癌であり得る。
前記癌は、肺癌であってもよい。肺癌は、気管から分岐して肺(気管支)又は肺の小さな気嚢(肺胞)に供給する気道で発生し得る。肺癌には、非小細胞肺癌(NSCLC)、小細胞肺癌、及び中皮腫が含まれる。NSCLCの例には、扁平上皮癌、腺癌、及び大細胞癌が含まれる。中皮腫は、肺及び胸腔(胸膜)又は腹部の内層(腹膜)の内層の癌性腫瘍であり得る。中皮腫はアスベスト曝露が原因である場合がある。前記癌は、膠芽腫などの脳腫瘍であり得る。
前記癌は、中枢神経系(CNS)腫瘍であり得る。CNS腫瘍は神経膠腫又は非神経膠腫として分類され得る。神経膠腫は、悪性神経膠腫、高悪性度神経膠腫、びまん性内因性橋神経膠腫であり得る。神経膠腫の例には、星状細胞腫、乏突起膠腫(又は乏突起膠腫及び星状細胞腫の要素の混合物)、及び上衣腫が含まれる。星状細胞腫には、低悪性度星状細胞腫、退形成性星状細胞腫、多形性膠芽腫、毛様細胞性星状細胞腫、多形黄色星細胞腫、及び上衣下巨大細胞星状細胞腫が挙げられるが、これらに限定されない。乏突起膠腫には、低悪性度の乏突起膠腫(又は乏突起膠腫)及び退形成性乏突起膠腫が挙げられる。非神経膠腫には、髄膜腫、下垂体腺腫、原発性CNSリンパ腫、及び髄芽腫が挙げられる。前記癌は髄膜腫であり得る。
白血病は、急性リンパ性白血病、急性骨髄性白血病、慢性リンパ性白血病、又は慢性骨髄性白血病であり得る。追加の種類の白血病には、有毛細胞白血病、慢性骨髄単球性白血病、及び若年性骨髄単球性白血病が挙げられる。
リンパ腫はリンパ球の癌であり、Bリンパ球又はTリンパ球のいずれかから発生し得る。リンパ腫の2つの主な種類は、以前はホジキン病として知られていたホジキンリンパ腫及び非ホジキンリンパ腫である。ホジキンリンパ腫は、リードシュテルンベルグ細胞の存在によって特徴付けられる。非ホジキンリンパ腫は全てホジキンリンパ腫ではないリンパ腫である。非ホジキンリンパ腫は、無痛性リンパ腫及び侵攻性リンパ腫であり得る。非ホジキンリンパ腫には、びまん性大細胞型B細胞リンパ腫、濾胞性リンパ腫、粘膜関連リンパ組織リンパ腫(MALT)、小細胞リンパ球性リンパ腫、マントル細胞リンパ腫、バーキットリンパ腫、縦隔大細胞型B細胞リンパ腫、ワルデンストレーム・マクログロブリン血症、節性辺縁帯B細胞リンパ腫(NMZL)、脾辺縁帯リンパ腫(SMZL)、節外性辺縁帯B細胞リンパ腫、血管内大細胞型B細胞リンパ腫、原発性滲出液リンパ腫、及びリンパ腫様肉芽腫症が挙げられるが、これらに限定されない。
特定の実施形態は、1又は複数の生物医学的出力に基づいて、対象における疾患又は状態を治療及び/又は予防することを含み得る。前記1又は複数の生物医学的出力は、1又は複数の治療法を推奨し得る。前記1又は複数の生物医学的出力は、疾患又は状態の治療及び/又は予防コースを提案、選択、指定、推奨、又はその他の方法で決定し得る。前記1又は複数の生物医学的出力は、1又は複数の治療法を変更又は継続することを推奨し得る。1又は複数の治療法の変更は、1又は複数の治療法を実施する、開始する、減らす、増やす、及び/又は終了することを含み得る。前記1又は複数の治療法は、抗癌療法、抗ウイルス療法、抗菌療法、抗真菌療法、免疫抑制療法、又はそれらの組み合わせを含み得る。前記1又は複数の治療法は、1又は複数の疾患又は適応症を治療、緩和、又は予防し得る。
抗癌療法の例には、手術、化学療法、放射線療法、免疫療法/生物学的療法、光力学的療法が含まれるが、これらに限定されない。抗癌療法は、化学療法剤、モノクローナル抗体(例えば、リツキシマブ、トラスツズマブ)、癌ワクチン(例えば、治療ワクチン、予防ワクチン)、遺伝子療法、又はそれらの組み合わせを含み得る。
G.システム、キット、及びライブラリー
本開示の方法は、システム、キット、ライブラリー、又はそれらの組み合わせによって実施され得る。本発明の方法は、1又は複数のシステムを含んでいてもよい。本開示のシステムは、キット、ライブラリー、又はその両方を介して実施され得る。システムは、特定の実施形態の方法又は工程のいずれかを実施するための1又は複数の構成要素を含んでいてもよい。例えば、システムは、1又は複数のキット、デバイス、ライブラリー、又はそれらの組み合わせを含んでいてもよい。システムは、1又は複数のシーケンサー、プロセッサ、記憶場所、コンピューター、コンピューターシステム、又はそれらの組み合わせを含んでいてもよい。システムは、伝送装置を含んでいてもよい。
キットは、試料処理及び/又は分析操作を含む、本明細書に開示される様々な操作を実施するための様々な試薬を含んでいてもよい。キットは、本明細書に開示される操作の少なくともいくつかを実施するための指示を含んでいてもよい。キットは、1又は複数の捕捉プローブ、1又は複数のビーズ、1又は複数の標識、1又は複数のリンカー、1又は複数のデバイス、1又は複数の試薬、1又は複数の緩衝液、1又は複数の試料、1又は複数のデータベース、又はそれらの組み合わせを含んでいてもよい。
ライブラリーは、1又は複数の捕捉プローブを含んでいてもよい。ライブラリーは、1又は複数の核酸分子のサブセットを含んでいてもよい。ライブラリーは、1又は複数のデータベースを含んでいてもよい。ライブラリーは、本明細書に開示されている方法、キット、又はシステムのいずれかから作成又は生成されてもよい。データベースライブラリーは、1又は複数のデータベースから作成されてもよい。1又は複数のライブラリーを作成する方法は、(a)1又は複数のデータベースからの情報を集約して、集約されたデータセットを作成すること、(b)前記集約されたデータセットを分析すること、及び(c)前記集約されたデータセットから1又は複数のデータベースライブラリーを作成すること、を含んでいてもよい。
VI.コンピューティング環境
図10は、本明細書に開示される実施形態のいくつかを実施するためのコンピューターシステム1000の例を示す。コンピューターシステム1000は、いくつかの構成要素(例えば、メモリ及びプロセッサ)がエンドユーザーデバイスの一部であり、いくつかの他の同様の構成要素(例えば、メモリ及びプロセッサ)がコンピュータサーバーの一部である分散アーキテクチャを有していてもよい。コンピューターシステム1000は、少なくともプロセッサ1002、メモリ1004、記憶装置1006、入力/出力(I/O)周辺機器1008、通信周辺機器1010、及びインターフェースバス1012を含む。インターフェースバス1012は、コンピューターシステム1000の様々な構成要素間でデータ、制御、及びコマンドを通信、送信、及び転送するように構成される。プロセッサ1002は、CPU、GPU、TPU、シストリックアレイ、又はSIMDプロセッサなどの1又は複数の処理ユニットを含んでいてもよい。メモリ1004及び記憶装置1006は、RAM、ROM、電気的に消去可能なプログラム可能な読み取り専用メモリ(EEPROM)、ハードドライブ、CD-ROM、光記憶装置、磁気記憶装置、電子不揮発性コンピューター・ストレージ(例えば、Flash(登録商標))、及びその他の有形記憶媒体などのコンピューター可読記憶媒体を含む。そのようなコンピューター可読記憶媒体のいずれも、本開示の態様を具体化する命令又はプログラムコードを記憶するように構成され得る。メモリ1004及び記憶装置1006はまた、コンピューター可読信号媒体を含む。コンピューター可読信号媒体には、コンピューター可読プログラムコードが組み込まれた伝搬データ信号が含まれる。このような伝播された信号は、電磁的、光学的、又はそれらの任意の組み合わせを含むがこれらに限定されない様々な形態のいずれかをとる。コンピューター可読信号媒体には、コンピューター可読記憶媒体ではなく、コンピューターシステム1000に関連して使用するためのプログラムを通信、伝播、又は伝送し得る任意のコンピューター可読媒体が含まれる。
さらに、メモリ1004は、オペレーティングシステム、プログラム、及びアプリケーションを含む。プロセッサ1002は、格納された命令を実行するように構成され、例えば、論理処理ユニット、マイクロプロセッサ、デジタル信号プロセッサ、及び他のプロセッサを含む。メモリ1004及び/又はプロセッサ1002は、仮想化することができ、例えば、クラウドネットワーク又はデータセンターの別のコンピューティングシステム内でホストされ得る。I/O周辺機器1008には、キーボード、画面(例えば、タッチスクリーン)、マイク、スピーカー、その他の入力/出力デバイスなどのユーザーインターフェイス、並びにグラフィカル処理ユニット、シリアルポート、パラレルポート、ユニバーサルシリアルバス、及びその他の入力/出力周辺機器などのコンピューティングコンポーネントが含まれる。I/O周辺機器1008は、インターフェースバス1012に結合された任意のポートを介してプロセッサ1002に接続されている。通信周辺機器1010は、通信ネットワークを介したコンピューターシステム1000と他のコンピューティング装置との間の通信を容易にするように構成され、例えば、ネットワークインターフェースコントローラー、モデム、無線及び有線インターフェースカード、アンテナ、及び他の通信周辺機器を含む。
本発明の主題は、その特定の実施形態に関して詳細に説明されてきたが、当業者は、前述の理解を得ると、そのような実施形態の変更、変形、及び均等物を容易に生じ得ることが理解されよう。したがって、本開示は、限定ではなく例の目的で提示されており、当業者に容易に明らかであるような本発明の主題へのそのような修正、変形、及び/又は追加を含めることを排除するものではないことを理解されたい。実際、本明細書に記載の方法及びシステムは、他の様々な形態で具体化することができ、さらに、本開示の精神から逸脱することなく、本明細書に記載の方法及びシステムの形態の様々な省略、置換、及び変更を行うことができる。付随する請求項及びそれらの均等物は、本開示の範囲及び精神に含まれるような形態又は修正を対象にすることを意図している。
特に明記しない限り、「処理(すること)」、「コンピューティング(すること)」、「計算(すること)」、「決定(すること)」、及び「特定(すること)」などの用語を利用することは、メモリ、レジスタ、又はその他の情報記憶装置、伝送装置、又はコンピューティングプラットフォームの表示装置内で、物理的な電子量又は磁気量として表されるデータを操作又は変換する1又は複数のコンピューター又は同様の電子コンピューティング装置などのコンピューティング装置のアクション又はプロセスを指すことが本明細書における説明全体を通して理解される。
本明細書で説明する1又は複数のシステムは、特定のハードウェアアーキテクチャ又は構成に限定されない。コンピューティング装置は、1又は複数の入力で条件付けられた結果を提供する構成要素の任意の適切な配置を含み得る。適切なコンピューティング装置には、汎用コンピューティング装置から本発明の主題の1又は複数の実施形態を実施する特殊なコンピューティング装置まで、コンピューティングシステムをプログラム又は構成する格納されたソフトウェアにアクセスする多目的マイクロプロセッサベースのコンピューティングシステムが挙げられる。任意の適切なプログラミング、スクリプティング、又は他のタイプの言語若しくは言語の組み合わせを使用して、コンピューティング装置のプログラミング又は構成に使用されるソフトウェアに本明細書に含まれる教示を実装してもよい。
本明細書に開示される方法の実施形態は、そのようなコンピューティング装置の操作において実行され得る。上記の例に示されているブロックの順序は変更してもよく、例えば、ブロックの順序を変更したり、組み合わせたり、及び/又はサブブロックに分割してもよい。特定のブロック又はプロセスは、並行して実行され得る。
本明細書で使用される条件付き言語、例えば、「し得る(can)」、「し得るだろう(could)」、「する場合がある(might)」、「してもよい(may)」、「例えば」などは、特に明記しない限り、又は使用される文脈内でその他の点で理解されない限り、概して、特定の例には、特定の特徴、要素、及び/又は工程が含まれるが、他の例では含まれないことを伝えることを意図している。したがって、そのような条件付き言語は、概して、特徴、要素、及び/又は工程が1又は複数の例に必要であること、又は1又は複数の例に、作成者の入力又は指示の有無にかかわらず、決定するためのロジックが必然的に含まれることを意味することを意図しておらず、これらの特徴、要素、及び/又は工程は、特定の例に含まれているか、実行されるものである。
「含む/備える(comprising)」、「含む(including)」、「有する(having)」などの用語は同義であり、制限のない方法で包括的に使用され、追加の要素、特徴、アクション、操作などを除外するものではない。また、「又は」という用語は、その包括的な意味で(排他的な意味ではなく)使用されるため、例えば、要素のリストを関連付けるために使用される場合、「又は」という用語は、リスト内の要素の1つ、いくつか、又は全てを意味する。本明細書における「適応(された)」又は「構成(された)」の使用は、追加のタスク又は工程を実行するように適応又は構成されたデバイスを排除しない、オープンかつ包括的な言語を意味する。さらに、「基づく」の使用は、1又は複数の記載された条件又は値に「基づく」プロセス、工程、計算、又はその他のアクションが実際には追加の条件又は記載されている値を超える値に基づいていてもよいという点で、オープンかつ包括的であることを意味する。同様に、「少なくとも部分的に基づく」の使用は、1又は複数の列挙された条件又は値に「少なくとも部分的に基づく」プロセス、工程、計算、又は他のアクションが、実際には、記載されているもの以外の追加の条件又は記載されている値を超える値に基づいていてもよいという点で、オープンかつ包括的であることを意味する。本明細書に含まれる見出し、リスト、及び番号付けは、説明を容易にするためのものであり、限定するものではない。
上記の様々な特徴及びプロセスは、互いに独立して使用しても、様々な方法で組み合わせてもよい。全ての可能な組み合わせ及び副次的組み合わせは、本開示の範囲内に入ることが意図されている。さらに、一部の実装では、特定の方法ブロック又はプロセスブロックが省略されてもよい。本明細書に記載の方法及びプロセスもまた、特定のシーケンスに限定されず、それに関連するブロック又はステータスは、適切な他のシーケンスで実行され得る。例えば、記載されたブロック又はステータスは、具体的に開示された順序以外の順序で実行され得るか、又は複数のブロック又はステータスが単一のブロック又はステータスに組み合わされ得る。ブロック又はステータスの例は、連続して、並行して、又はその他の方法で実行されてもよい。ブロック又はステータスは、開示された例に追加又は例からは削除されてもよい。同様に、本明細書に記載されている例示的なシステム及び構成要素は、記載されているものとは異なって構成され得る。例えば、要素は、開示された例と比較して、追加、削除、又は再配置されてもよい。

Claims (18)

  1. 腫瘍純度を決定する方法であって、
    対象の生物学的資料の複数の核酸分子を表す核酸配列データを取得すること、
    前記核酸配列データを参照ゲノムにアラインメントすること、
    前記アラインメントされた核酸配列データに基づいて、ゲノム領域のセットを特定することであって、前記ゲノム領域のセットの各ゲノム領域は、前記参照ゲノムの対応するゲノム領域に関連する1又は複数のヌクレオチド配列バリアントを含むこと、
    前記ゲノム領域のセットの各ゲノム領域のB対立遺伝子頻度を測定すること、
    前記ゲノム領域のセットの前記B対立遺伝子頻度に基づいて、前記生物学的試料のB対立遺伝子頻度分布を測定すること、
    訓練済み機械学習モデルを使用して前記B対立遺伝子頻度分布を処理し、前記生物学的試料の腫瘍純度を特定するメトリックを推定すること、及び
    前記メトリックを出力すること、を含む方法。
  2. 前記核酸配列データが、全エクソーム配列決定データである、請求項1に記載の方法。
  3. 前記核酸配列データが、全ゲノム配列決定データである、請求項1に記載の方法。
  4. 前記対象から前記腫瘍試料を取得すること、及び
    前記腫瘍試料の前記複数の核酸分子を配列決定して、前記核酸配列データを生成すること、
    をさらに含む、請求項1に記載の方法。
  5. 配列決定の前に前記複数の核酸分子を単離することをさらに含む、請求項4に記載の方法。
  6. 前記ゲノム領域のセットを特定することが、
    前記核酸配列データにおける1又は複数のヌクレオチド配列バリアント候補を特定すること、及び
    前記1又は複数のヌクレオチド配列バリアント候補の各々の参照読み取り深度及び代替読み取り深度を計算すること、を含む、請求項1に記載の方法。
  7. 前記訓練済み機械学習モデルは、正常細胞で希釈された1又は複数の腫瘍細胞に由来する核酸配列データから生成された訓練データセットで訓練されている、請求項1に記載の方法。
  8. 前記B対立遺伝子頻度分布が正規化されている、請求項1に記載の方法。
  9. 前記訓練済み機械学習モデルの平均絶対誤差が、約0.2未満である、請求項1に記載の方法。
  10. 前記B対立遺伝子頻度分布を特定する情報を含むレポートを出力することをさらに含む、請求項1に記載の方法。
  11. 推定した前記腫瘍純度を特定するメトリックを含むレポートを出力することをさらに含む、請求項1に記載の方法。
  12. 前記レポートが、少なくとも1つのバイオマーカーを特定する情報をさらに含む、請求項11に記載の方法。
  13. 前記レポートが、少なくとも1つの予後マーカーを特定する情報をさらに含む、請求項11に記載の方法。
  14. 前記レポートが、予測される体細胞バリアントを特定する情報を含む、請求項11に記載の方法。
  15. 前記レポートが、治療推奨を含む、請求項11に記載の方法。
  16. 前記腫瘍試料が、ヒト対象由来である、請求項1に記載の方法。
  17. 前記治療推奨が、前記対象に治療を施さないという推奨を含む、請求項15に記載の方法。
  18. 前記対象に前記治療を施すことをさらに含む、請求項17に記載の方法。
JP2022526098A 2019-11-05 2020-11-04 単一試料からの腫瘍純度の推定 Active JP7470787B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201962931096P 2019-11-05 2019-11-05
US62/931,096 2019-11-05
PCT/US2020/058951 WO2021092066A1 (en) 2019-11-05 2020-11-04 Estimating tumor purity from single samples

Publications (2)

Publication Number Publication Date
JP2023500141A true JP2023500141A (ja) 2023-01-04
JP7470787B2 JP7470787B2 (ja) 2024-04-18

Family

ID=75849179

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022526098A Active JP7470787B2 (ja) 2019-11-05 2020-11-04 単一試料からの腫瘍純度の推定

Country Status (5)

Country Link
US (1) US20220259678A1 (ja)
EP (1) EP4055610A4 (ja)
JP (1) JP7470787B2 (ja)
CN (1) CN114945987A (ja)
WO (1) WO2021092066A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115404275B (zh) * 2022-08-17 2023-07-11 中山大学·深圳 一种基于纳米孔测序技术评估肿瘤纯度的方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018144782A1 (en) * 2017-02-01 2018-08-09 The Translational Genomics Research Institute Methods of detecting somatic and germline variants in impure tumors

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012106559A1 (en) * 2011-02-02 2012-08-09 Translational Genomics Research Institute Biomarkers and methods of use thereof
AU2015267190B2 (en) * 2014-05-30 2020-10-01 Sequenom, Inc. Chromosome representation determinations

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018144782A1 (en) * 2017-02-01 2018-08-09 The Translational Genomics Research Institute Methods of detecting somatic and germline variants in impure tumors

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CANDACE C LIU, ET AL.: "Computational approaches for characterizing the tumor immune microenvironment", IMMUNOLOGY, vol. 158, no. 2, JPN6023015623, October 2019 (2019-10-01), pages 70 - 84, XP055778735, ISSN: 0005046107, DOI: 10.1111/imm.13101 *
XIAOQI ZHENG, ET AL.: "Estimating and accounting for tumor purity in the analysis of DNA methylation data from cancer studi", GENOME BIOLOGY, vol. 18, no. 17, JPN6023015625, 25 January 2017 (2017-01-25), pages 1 - 14, ISSN: 0005046106 *

Also Published As

Publication number Publication date
JP7470787B2 (ja) 2024-04-18
WO2021092066A1 (en) 2021-05-14
EP4055610A1 (en) 2022-09-14
CN114945987A (zh) 2022-08-26
US20220259678A1 (en) 2022-08-18
EP4055610A4 (en) 2023-11-29

Similar Documents

Publication Publication Date Title
US11649507B2 (en) Methods for using mosaicism in nucleic acids sampled distal to their origin
CA3049682C (en) Methods for non-invasive assessment of genetic alterations
US20240029826A1 (en) Methods and Processes for Assessment of Genetic Variations
JP2018500876A (ja) 遺伝子の変動の非侵襲的評価のための方法および処理
WO2017065959A2 (en) Methods and compositions that utilize transcriptome sequencing data in machine learning-based classification
US11929143B2 (en) Methods for non-invasive assessment of copy number alterations
CA3194557A1 (en) Sequencing adapter manufacture and use
US20220259678A1 (en) Estimating Tumor Purity From Single Samples
US20220284984A1 (en) Somatic variant calling from an unmatched biological sample
WO2023225659A2 (en) Methods and system for using methylation data for disease detection and quantification

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220623

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230425

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20230725

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231017

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231024

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240123

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240206

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20240219

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240408

R150 Certificate of patent or registration of utility model

Ref document number: 7470787

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150