JP2023540257A - がんを分類するためのサンプルの検証 - Google Patents

がんを分類するためのサンプルの検証 Download PDF

Info

Publication number
JP2023540257A
JP2023540257A JP2023513869A JP2023513869A JP2023540257A JP 2023540257 A JP2023540257 A JP 2023540257A JP 2023513869 A JP2023513869 A JP 2023513869A JP 2023513869 A JP2023513869 A JP 2023513869A JP 2023540257 A JP2023540257 A JP 2023540257A
Authority
JP
Japan
Prior art keywords
sample
chromosome
cfdna
ethnicity
cancer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023513869A
Other languages
English (en)
Inventor
サカリャ オヌール
エイ ヴィ ヤキム クリストファー-ジェイムス
Original Assignee
グレイル エルエルシー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by グレイル エルエルシー filed Critical グレイル エルエルシー
Publication of JP2023540257A publication Critical patent/JP2023540257A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6879Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for sex determination
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Analytical Chemistry (AREA)
  • Organic Chemistry (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Genetics & Genomics (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Molecular Biology (AREA)
  • Immunology (AREA)
  • General Engineering & Computer Science (AREA)
  • Microbiology (AREA)
  • Pathology (AREA)
  • Biochemistry (AREA)
  • Oncology (AREA)
  • Epidemiology (AREA)
  • Artificial Intelligence (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Hospice & Palliative Care (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

DNAサンプルが試験対象由来であることを検証するための、システム及び方法、を開示する。前記試験対象は、前記DNAサンプルから予測され得る、1つ以上の特性(生物学的な性、民族性、及び/又は年齢)を報告する。その予測したものを、報告された特性と比較し、前記DNAサンプルを検証する。生物学的な性によって検証するために、前記システムは、Y染色体に特異的な遺伝子についての配列リード(sequence reads)のカウントに基づいたY染色体シグナル、及び、同様に、X染色体に特異的な別の遺伝子を使用するX染色体シグナル、を決定する。前記生物学的な性を、2つのシグナルを比較することに基づいて、予測する。民族性によって検証するために、前記システムは、各々の染色体に特異的なSNPについて、検出されるアレル頻度に基づいて、民族性を予測する。年齢により検証するために、前記システムは、年齢-情報があるCpG部位のメチル化密度を計算する。前記システムは、訓練済み回帰モデルを使用して、メチル化密度を使用して、年齢を予測する。【選択図】図3

Description

[関連出願の相互参照]
本出願は、2020年8月28日に出願された米国仮出願第63/071,951号の利益を主張するものであり、その全体が参照により取り込まれる。
[背景技術]
技術分野
デオキシリボ核酸(DNA)メチル化は、遺伝子発現を調節することにおいて重要な役割を果たす。異常なメチル化は、がんを含む多くの疾患のプロセスに関与している。メチル化シークエンシング(例えば、全ゲノム・バイスルファイト・シークエンシング(whole genome bisulfite sequencing (WGBS)))を用いたDNAメチル化プロファイリングは、がんの検出、診断、及び/又はモニタリングのための有益な診断ツールとして、ますます認識されている。例えば、種々にメチル化された領域の特定のパターン、及び/又はアレル特異的なメチル化パターンは、循環する無細胞(cell-free (cf))DNAを使用する、非侵襲的な診断のための分子マーカーとして有益であることがある。しかしながら、がんなどの疾患の検出、診断、及び/又はモニタリングのために、無細胞DNAからのメチル化シークエンシング・データを解析するための改善された方法が、当技術分野において依然として必要とされている。
[概要]
対象において、疾患の状態(例えば、がんなど)を早期に発見することは、より早期に治療することを可能にし、それ故に、生存の可能性がより高くなるので、重要である。無細胞(cf)DNAサンプルにおけるDNAフラグメントのシークエンシングを用いて、疾患分類に用いることができる特徴を同定することができる。例えば、がんの評価に際して、血中サンプルに由来する無細胞DNAベースの特徴(例えば、体細胞バリアントの有無、メチル化状態、又は他の遺伝子異常)は、対象ががんを有しているかどうか、及び前記対象がどのようなタイプのがんを有しているか、についての、更なる洞察を、提供することができる。この目的のために、本明細書は、対象が疾患を有する可能性を決定するための、無細胞DNAシークエンシング・データを解析するための、システム及び方法を含む。
解析システムは、複数のサンプル(例えば、複数のがんサンプル及び非-がんサンプル)に由来する多数のシークエンシング・データを処理して、その後にがんを分類するために利用する特徴を、同定する。シークエンシング・データを使用すると、前記解析システムは、試験サンプルについてのがん予測を生成するためのがん分類子を、訓練することができる、及び使用することができる。
がん分類子を訓練するために、どの訓練サンプルを使用するかに関して、前記解析は、1種以上のがんタイプを有するものとして、既に同定された、及びラベル付けされた、訓練サンプルを、並びに非-がんとしてラベル付けされた健常な個体に由来する訓練サンプルを、使用する。各々の訓練サンプルは、1セットのフラグメントを含む。各々の訓練サンプルについて、前記解析システムは、例えば、同定した特徴の各々にスコアを割り当てることによって、特徴ベクトルを生成する。前記解析システムは、前記訓練サンプルをまとめて、前記がん分類子を反復訓練するための1つ以上の訓練サンプルのセットにすることがある。前記解析システムは、特徴ベクトルの各々のセットを前記がん分類子に入力する、及び前記がん分類子内の分類パラメータを調整して、前記がん分類子の機能が、前記特徴ベクトル及び前記分類パラメータに基づいて、前記セット内の訓練サンプルのラベルを正確に予測するがん予測を、計算するようにする。訓練サンプルの各々のセットに渡って、上記のステップが反復された後に、前記がん分類子は十分に訓練されたものとなる。
使用中、前記解析システムは、前記訓練サンプルと同様の方法で、試験サンプルについての特徴ベクトルを、例えば、前記試験サンプルの各々についての特徴ベクトルにおける複数の特徴の各々に対して、スコアを割り当てることによって、生成する。次に、前記解析システムは、がん予測を返すがん分類子に、前記試験サンプルについての特徴ベクトルを、入力する。1つの実施形態では、がんを有する又は有さない尤度に関する、がん予測を返すための2値の分類子として、前記がん分類子を構成することがある。別の実施形態では、カテゴリー化されているがんタイプのための予測値を伴ったがん予測を返すためのマルチクラスの分類子として、前記がん分類子を構成することがある。
1つ以上の実施形態では、無細胞デオキシリボ核酸(cfDNA)サンプルが試験対象由来であることを検証するための方法を開示する、ここで、前記方法は、以下のステップを含む:
試験対象から試験サンプルを取得するステップ、ここで、前記試験対象の生物学的な性は、生物学的な雄性又は生物学的な雌性のうちの1つであることが既知である;
前記試験サンプルから前記cfDNAサンプルを取得するステップ;
前記cfDNAサンプルから配列リード(sequence reads)を取得するステップ;
Y染色体上に見出される、且つX染色体上に見出されない、第1の遺伝子の配列リード(sequence reads)の第1のカウント(first count)を決定するステップ;
前記第1のカウント(first count)を正規化するステップ(normalizing);
第2の遺伝子の配列リード(sequence reads)の正規化した第1のカウント(first count)に基づいて、前記cfDNAサンプルのY染色体シグナルを決定するステップ;
前記Y染色体シグナルに基づいて、前記cfDNAサンプルの生物学的な性を決定するステップ;及び、
決定した生物学的な性と既知の生物学的な性とが同じである場合、前記cfDNAサンプルが前記試験対象由来であることを検証するステップ。ハードウェア・プロセッサ、及び、実行可能な命令(この命令は、前記ハードウェア・プロセッサによって実行される時に、前記プロセッサに、前記方法を実行させる)を記憶する、非-一過性のコンピュータ-可読記憶媒体、を含むシステム、もまた開示する。
1つの実施形態では、前記方法は、以下のステップを更に含む:
ヒト・ゲノムのX染色体上に見出される、且つヒト・ゲノムのY染色体上に見出されない、第2の遺伝子の配列リード(sequence reads)の第2のカウント(second count)を決定するステップ;
前記第2のカウント(second count)を正規化するステップ;及び、
第1の遺伝子の配列リード(sequence reads)の正規化した第2のカウント(second count)に基づいて、前記cfDNAサンプルのX染色体シグナルを決定するステップ;
ここで、前記cfDNAサンプルの生物学的な性を決定するステップは、前記X染色体シグナルに更に基づく。
1つの実施形態では、前記第1のカウント(first count)及び前記第2のカウント(second count)を、前記cfDNAサンプルのシークエンシング深度(sequencing depth)に従って正規化する。
1つの実施形態では、前記cfDNAサンプルの生物学的な性を決定するステップは、以下のステップを含む:
閾値比と、前記cfDNAサンプルのX染色体シグナルに対する前記cfDNAサンプルのY染色体シグナルの比とを、比較するステップ。
1つの実施形態では、前記cfDNAサンプルの生物学的な性を決定するステップは、以下のステップを含む:
前記cfDNAサンプルの生物学的な性を予測するために、生物学的な性の分類子を、前記cfDNAサンプルのX染色体シグナル及び前記cfDNAサンプルのY染色体シグナルに、適用するステップ、ここで、前記生物学的な性の分類子を、訓練サンプルの訓練セットを使って訓練する、ここで、各々の訓練サンプルは、生物学的な雄性又は生物学的な雌性のうちの1つであることが既知である、生物学的な性を有する。
1つの実施形態では、前記方法は、以下のステップを更に含む:
Y染色体上に見出される、且つX染色体上に見出されない、第3の遺伝子の配列リード(sequence reads)の第3のカウント(third count)を決定するステップ;
X染色体上に見出される、且つY染色体上に見出されない、第4の遺伝子の配列リード(sequence reads)の第4のカウント(fourth count)を決定するステップ;
前記第3のカウント(third count)及び前記第4のカウント(fourth count)を正規化するステップ;
ここで、前記Y染色体シグナルを決定するステップは、その正規化した第3のカウント(third count)に更に基づく;及び、ここで、前記X染色体シグナルを決定するステップは、その正規化した第4のカウント(fourth count)に更に基づく。
1つの実施形態では、前記第1のカウント(first count)、前記第2のカウント(second count)、前記第3のカウント(third count)、及び前記第4のカウント(fourth count)を、前記cfDNAサンプルのシークエンシング深度(sequencing depth)に従って正規化する。
1つの実施形態では、前記Y染色体シグナルは、前記正規化した第1のカウント(first count)及び前記正規化した第3のカウント(third count)の平均である、並びに、前記X染色体シグナルは、前記正規化した第2のカウント(second count)及び前記正規化した第4のカウント(fourth count)の平均である。
1つの実施形態では、前記cfDNAサンプルの生物学的な性を決定するステップは、前記cfDNAサンプルのY染色体シグナルを、閾値Y染色体シグナルと比較するステップ、を含む、
ここで、前記cfDNAサンプルのY染色体シグナルが閾値Y染色体シグナルを上回る場合、前記cfDNAサンプルは、生物学的な雄性であると決定する、及び、
ここで、前記cfDNAサンプルのY染色体シグナルが閾値Y染色体シグナルを下回る場合、前記cfDNAサンプルは、生物学的な雌性であると決定する。
1つの実施形態では、前記cfDNAサンプルを検証するステップに応答して、前記方法は、以下のステップを更に含む:
異常フラグメントのセットを生成するために、前記配列リード(sequence reads)を、p-値フィルタリング(p-value filtering)でフィルタリングするステップ;
複数のCpG部位の各々について、1つ以上の異常フラグメントが前記CpG部位と重なるかどうかに基づいたスコアを生成することによって、試験特徴ベクトルを生成するステップ;
前記試験サンプルについてのがん予測を生成するために、前記試験特徴ベクトルを、訓練済みモデルに入力するステップ;及び、
前記がん予測に従って、前記試験サンプルががんを有する可能性が高いかどうかを決定するステップ。
1つの実施形態では、前記配列リード(sequence reads)は、前記cfDNAフラグメントのメチル化シークエンシングによって生成された、メチル化シークエンシング・データを含む。
1つの実施形態では、前記メチル化シークエンシングは、WGBSを含む。
1つの実施形態では、前記メチル化シークエンシングは、ターゲット化シークエンシング(targeted sequencing)を含む。
1つ以上の実施形態では、無細胞デオキシリボ核酸(cfDNA)サンプルが試験対象由来であることを検証するための方法を開示する、ここで、前記方法は、以下のステップを含む:
試験対象から試験サンプルを取得するステップ、ここで、前記試験サンプルは、複数の民族性のうちの1つ以上の報告された民族性であると、報告されている;
前記試験対象から前記cfDNAサンプルを取得するステップ;
前記cfDNAサンプルから複数の配列リード(sequence reads)を取得するステップ、ここで、前記複数の配列リード(sequence reads)は、複数の単一ヌクレオチド多型(SNP)を含む;
前記複数の配列リード(sequence reads)から、前記複数のSNPの各々についてのアレル頻度(allele frequency)を決定するステップ;
訓練セットから決定した複数の民族性の各々についての、前記複数のSNPの各々についての、期待されるアレル頻度を取得するステップ、ここで、前記民族性は、前記訓練セット中の訓練サンプルの各々について、既知である;
複数の染色体のうちの各々の染色体について:
前記染色体内のSNPのサブセットについての、決定したアレル頻度(allele frequency)、及び前記染色体内のSNPのサブセットについての、複数の民族性に対して期待されるアレル頻度、に基づいて、複数の民族性の各々についての民族性確率を計算するステップ;
前記複数の染色体について計算された民族性確率に基づいて、前記cfDNAサンプルについての1つ以上の民族性を予測するステップ;並びに、
前記cfDNAサンプルの1つ以上の予測した民族性、及び前記試験対象の1つ以上の報告された民族性、に基づいて、前記cfDNAサンプルが前記試験対象由来であることを検証するステップ。
ハードウェア・プロセッサ、及び、実行可能な命令(この命令は、前記ハードウェア・プロセッサによって実行される時に、前記プロセッサに、前記方法を実行させる)を記憶する、非-一過性のコンピュータ-可読記憶媒体、を含むシステム、もまた開示する。
1つの実施形態では、前記方法は、以下のステップを更に含む:
複数のSNPの各々についての遺伝子型を、前記SNPでのアレル頻度(allele frequency)に基づいて、決定するステップ。
1つの実施形態では、前記複数の染色体のうちの各々の染色体について、前記複数の民族性の各々についての前記民族性確率を計算するステップは、前記染色体内のSNPの前記サブセットについての、その決定した遺伝子型に、更に基づく。
1つの実施形態では、前記複数の染色体のうちの各々の染色体について、前記複数の民族性の各々についての前記民族性確率を計算するステップは、前記染色体内のSNPの前記サブセットについての、その決定した遺伝子型に基づいて、ベイズ確率を計算するステップ、を含む。
1つの実施形態では、前記方法は、以下のステップを更に含む:
前記複数の民族性についての期待されるアレル頻度に基づいて、複数のSNPの各々についての決定した遺伝子型について、前記複数の民族性の各民族性の遺伝子型の割合を決定するステップ、
ここで、前記ベイズ確率を計算するステップは、その決定した遺伝子型の割合に、更に基づく。
1つの実施形態では、前記方法は、以下のステップを更に含む:
前記複数の染色体のうちの各々の染色体について、その決定した民族性確率に従って、前記複数の民族性をランク付けするステップ、
ここで、第1の予測した民族性は、第1の民族性を第1にランク付けする、最大数の染色体に対応する、前記複数の民族性のうちの民族性、を含む。
1つの実施形態では、第2の予測した民族性は、第2の民族性を第1にランク付けする、2番目に最も大きな数の染色体に対応する、前記複数の民族性のうちの民族性、を含む。
1つの実施形態では、前記cfDNAサンプルが前記試験対象由来であることを検証するステップは、前記第1の民族性予測及び前記第2の民族性予測のうちの少なくとも1つが、前記1つ以上の報告された民族性のうちの1つに、一致することを決定するステップ、を含む。
1つの実施形態では、前記cfDNAサンプルを検証するステップに応答して、前記方法は、以下のステップを更に含む:
異常フラグメントのセットを生成するために、前記配列リード(sequence reads)を、p-値フィルタリング(p-value filtering)でフィルタリングするステップ;
複数のCpG部位の各々について、1つ以上の異常フラグメントが前記CpG部位と重なるかどうかに基づいたスコアを生成することによって、試験特徴ベクトルを生成するステップ;
前記試験サンプルについてのがん予測を生成するために、前記試験特徴ベクトルを、訓練済みモデルに入力するステップ;及び、
前記がん予測に従って、前記試験サンプルががんを有する可能性が高いかどうかを決定するステップ。
1つの実施形態では、前記配列リード(sequence reads)は、前記cfDNAフラグメントのメチル化シークエンシングによって生成されたメチル化シークエンシング・データを含む。
1つの実施形態では、前記メチル化シークエンシングは、WGBSを含む。
1つの実施形態では、前記メチル化シークエンシングは、ターゲット化シークエンシング(targeted sequencing)を含む。
1つ以上の実施形態では、無細胞デオキシリボ核酸(cfDNA)サンプルが試験対象由来であることを検証するための方法を開示する、ここで、前記方法は、以下のステップを含む:
試験対象から試験サンプルを取得するステップ、ここで、前記試験対象の年齢は、複数の年齢範囲のうちの1つの中にあると報告される;
前記試験サンプルから、前記cfDNAサンプルを受け取るステップ;
前記cfDNAサンプルから、配列リード(sequence reads)を取得するステップ;
複数のCpG部位の各々について、前記cfDNAサンプル由来の配列リード(sequence reads)に基づいて、複数のCpG部位の各々におけるメチル化密度を、決定するステップ;
訓練済み回帰モデルを、前記複数のCpG部位についての決定したメチル化密度に、適用することによって、前記cfDNAサンプルについての年齢範囲を予測するステップ、ここで、前記訓練済み回帰モデルを、訓練セットを用いて、訓練する、ここで、複数のCpG部位の各々についてのメチル化密度、及び年齢は、前記訓練セットの各々の個体について、既知である;
前記cfDNAサンプルの予測した年齢範囲、及び前記試験対象の報告された年齢範囲、に基づいて、前記cfDNAサンプルが前記試験対象由来であることを検証するステップ。
ハードウェア・プロセッサ、及び、実行可能な命令(この命令は、前記ハードウェア・プロセッサによって実行される時に、前記プロセッサに、前記方法を実行させる)を記憶する、非-一過性のコンピュータ-可読記憶媒体、を含むシステム、もまた開示する。
1つの実施形態では、前記複数のCpG部位を、年齢と相関することが見出された初期セットのCpG部位から同定する、及び、ここで、前記複数のCpG部位を、がん予測にとって交絡特徴(confounding feature)である、初期セットのCpG部位から、CpG部位を除外するステップによって、同定する。
1つの実施形態では、前記複数のCpG部位を、生物学的な性及び民族性の、一方又は両方にとって交絡特徴(confounding feature)である、初期セットのCpG部位から、CpG部位を更に除外するステップによって、同定する。
1つの実施形態では、前記複数のCpG部位を、以下によって同定する:
複数の回帰モデルを訓練するステップ、ここで、各回帰モデルは、訓練サンプルのセットを訓練することによって訓練される、及び初期セットのCpG部位の各々のCpG部位についての学習係数を含む、ここで、所与のCpG部位についての学習係数は、前記CpG部位の予測力を表す;
前記初期セットのCpG部位の各々のCpG部位について、複数の回帰モデルに渡るCpG部位の学習係数の平均を、複数の回帰モデルに渡るCpG部位の学習係数の分散で割ったものとして計算される情報スコアを決定するステップ;
その決定した情報スコアに従って、初期セットのCpG部位のCpG部位をランク付けするステップ;並びに、
前記ランク付けから、複数のCpG部位を選択するステップ。
1つの実施形態では、その訓練済み回帰モデルは、線形回帰演算を使用して訓練したものである。
1つの実施形態では、その訓練済み回帰モデルは、ロジスティック回帰演算を使用して訓練したものである。
1つの実施形態では、その訓練済み回帰モデルは、正則化の実装を伴うGlmnet’s回帰演算を使用して訓練したものである。
1つの実施形態では、前記cfDNAサンプルを検証するステップに応答して、前記方法は、以下のステップを更に含む:
異常フラグメントのセットを生成するために、前記配列リード(sequence reads)を、p-値フィルタリング(p-value filtering)でフィルタリングするステップ;
第2の複数のCpG部位の各々について、1つ以上の異常フラグメントが前記CpG部位と重なるかどうかに基づいたスコアを生成することによって、試験特徴ベクトルを生成するステップ;
前記試験サンプルについてのがん予測を生成するために、前記試験特徴ベクトルを、訓練済みモデルに入力するステップ;及び、
前記がん予測に従って、前記試験サンプルががんを有する可能性が高いかどうかを決定するステップ。
1つの実施形態では、前記配列リード(sequence reads)は、前記cfDNAフラグメントのメチル化シークエンシングによって生成されたメチル化シークエンシング・データを含む。
1つの実施形態では、前記メチル化シークエンシングは、WGBSを含む。
1つの実施形態では、前記メチル化シークエンシングは、ターゲット化シークエンシング(targeted sequencing)を含む。
1つの実施形態では、前記複数のCpG部位は、表Aに列挙されたCpG部位を含む。
1つ以上の実施形態では、無細胞デオキシリボ核酸(cfDNA)サンプルが試験対象由来であることを検証するための方法を開示する、ここで、前記方法は、以下のステップを含む:
試験対象から試験サンプルを取得するステップ、ここで、生物学的な性、民族性、及び複数の年齢範囲のうちの1つの中の年齢、のうちの2つ以上は、前記試験対象から報告されている;
前記試験サンプルから前記cfDNAサンプルを取得するステップ;
前記cfDNAサンプルから複数の配列リード(sequence reads)を取得するステップ;
前記cfDNAサンプルについて、以下のうちの2つ以上を予測するステップ:
以下に基づいたcfDNAサンプルの生物学的な性:
ヒト・ゲノムのX染色体上に見出される、且つヒト・ゲノムのY染色体上に見出されない、第1の遺伝子の配列リード(sequence reads)の第1のカウント(first count)、及び、
前記Y染色体上に見出される、且つ前記X染色体上に見出されない、第2の遺伝子の配列リード(sequence reads)の第2のカウント(first count);
複数の染色体のうちの各々の染色体について計算された民族性確率に基づいた、cfDNAサンプルの1つ以上の民族性、ここで、所与の染色体についての民族性確率は、所与の染色体にある複数のSNPの各々について、cfDNAサンプルの配列リード(sequence reads)から決定したアレル頻度に基づく;並びに、
複数のCpG部位の各々について決定したメチル化密度に基づいた、cfDNAサンプルの年齢範囲;並びに、
前記試験対象の、その予測したcfDNAサンプルの生物学的な性、その1つ以上の予測したcfDNAサンプルの民族性、その予測したcfDNAサンプルの年齢範囲、のうちの2つ以上と、その報告された生物学的な性、その報告された民族性、及びその報告された年齢範囲、のうちの2つ以上とを、比較することに基づいて、前記cfDNAサンプルが前記試験対象由来であることを検証するステップ。
ハードウェア・プロセッサ、及び、実行可能な命令(この命令は、前記ハードウェア・プロセッサによって実行される時に、前記プロセッサに、前記方法を実行させる)を記憶する、非-一過性のコンピュータ-可読記憶媒体、を含むシステム、もまた開示する。
1つ以上の実施形態では、無細胞デオキシリボ核酸(cfDNA)サンプルが試験対象由来であることを検証するための方法を開示する、ここで、前記方法は、以下のステップを含む:
試験対象から試験サンプルを取得するステップ、ここで、生物学的な性、及び民族性、は、前記試験対象から報告されている;
前記試験サンプルから前記cfDNAサンプルを取得するステップ;
前記cfDNAサンプルから複数の配列リード(sequence reads)を取得するステップ;
前記cfDNAサンプルについて、以下を予測するステップ:
(1)以下に基づいたcfDNAサンプルの生物学的な性:
ヒト・ゲノムのX染色体上に見出される、且つヒト・ゲノムのY染色体上に見出されない、第1の遺伝子の配列リード(sequence reads)の第1のカウント(first count)、及び、
前記Y染色体上に見出される、且つ前記X染色体上に見出されない、第2の遺伝子の配列リード(sequence reads)の第2のカウント(first count);並びに、
(2)複数の染色体のうちの各々の染色体について計算された民族性確率に基づいた、cfDNAサンプルの1つ以上の民族性、ここで、所与の染色体についての民族性確率は、所与の染色体にある複数のSNPの各々について、cfDNAサンプルの配列リード(sequence reads)から決定したアレル頻度に基づく;並びに、
前記試験対象の、その予測したcfDNAサンプルの生物学的な性、及びその1つ以上の予測したcfDNAサンプルの民族性、と、その報告された生物学的な性、及びその報告された民族性、とを、比較することに基づいて、前記cfDNAサンプルが前記試験対象由来であることを検証するステップ。
ハードウェア・プロセッサ、及び、実行可能な命令(この命令は、前記ハードウェア・プロセッサによって実行される時に、前記プロセッサに、前記方法を実行させる)を記憶する、非-一過性のコンピュータ-可読記憶媒体、を含むシステム、もまた開示する。
1つ以上の実施形態では、無細胞デオキシリボ核酸(cfDNA)サンプルが試験対象由来であることを検証するための方法を提供する、ここで、前記方法は、以下のステップを含む:
試験対象から試験サンプルを取得するステップ、ここで、生物学的な性、及び複数の年齢範囲のうちの1つの中の年齢、は、前記試験対象から報告されている;
前記試験サンプルから前記cfDNAサンプルを取得するステップ;
前記cfDNAサンプルから複数の配列リード(sequence reads)を取得するステップ;
前記cfDNAサンプルについて、以下を予測するステップ:
(1)以下に基づいたcfDNAサンプルの生物学的な性:
ヒト・ゲノムのX染色体上に見出される、且つヒト・ゲノムのY染色体上に見出されない、第1の遺伝子の配列リード(sequence reads)の第1のカウント(first count)、及び、
前記Y染色体上に見出される、且つ前記X染色体上に見出されない、第2の遺伝子の配列リード(sequence reads)の第2のカウント(first count);並びに、
(2)複数のCpG部位の各々について決定したメチル化密度に基づいた、cfDNAサンプルの年齢範囲;並びに、
前記試験対象の、その予測したcfDNAサンプルの生物学的な性、及びその予測したcfDNAサンプルの年齢範囲、と、その報告された生物学的な性、及びその報告された年齢範囲、とを、比較することに基づいて、前記cfDNAサンプルが前記試験対象由来であることを検証するステップ。
ハードウェア・プロセッサ、及び、実行可能な命令(この命令は、前記ハードウェア・プロセッサによって実行される時に、前記プロセッサに、前記方法を実行させる)を記憶する、非-一過性のコンピュータ-可読記憶媒体、を含むシステム、もまた開示する。
1つ以上の実施形態では、無細胞デオキシリボ核酸(cfDNA)サンプルが試験対象由来であることを検証するための方法を開示する、ここで、前記方法は、以下のステップを含む:
試験対象から試験サンプルを取得するステップ、ここで、民族性、及び複数の年齢範囲のうちの1つの中の年齢、は、前記試験対象から報告されている;
前記試験サンプルから前記cfDNAサンプルを取得するステップ;
前記cfDNAサンプルから複数の配列リード(sequence reads)を取得するステップ;
前記cfDNAサンプルについて、以下を予測するステップ:
(1)複数の染色体の各々の染色体について計算された民族性確率に基づいた、cfDNAサンプルの1つ以上の民族性、ここで、所与の染色体についての民族性確率は、所与の染色体にある複数のSNPの各々について、cfDNAサンプルの配列リード(sequence reads)から決定したアレル頻度に基づく;並びに、
(2)複数のCpG部位の各々について決定したメチル化密度に基づいた、cfDNAサンプルの年齢範囲;並びに、
前記試験対象の、その1つ以上の予測したcfDNAサンプルの民族性、及びその予測したcfDNAサンプルの年齢範囲、と、その報告された民族性、及びその報告された年齢範囲、とを、比較することに基づいて、前記cfDNAサンプルが前記試験対象由来であることを検証するステップ。
ハードウェア・プロセッサ、及び、実行可能な命令(この命令は、前記ハードウェア・プロセッサによって実行される時に、前記プロセッサに、前記方法を実行させる)を記憶する、非-一過性のコンピュータ-可読記憶媒体、を含むシステム、もまた開示する。
図1Aは、1つの実施形態による、メチル化状態ベクトルを取得するために、無細胞(cf)DNAのフラグメントをシークエンシングするステップに関する、プロセスを説明するフローチャートを図示する。図1Bは、1つの実施形態による、メチル化状態ベクトルを取得するために、無細胞(cf)DNAのフラグメントをシークエンシングするステップに関する、図1Aのプロセスの説明図である。 図2は、1つの実施形態による、配列リード(sequence reads)を生成するために、シークエンシング・アッセイを実行するステップに関する、プロセスを説明するフローチャートを図示する。 図3は、1つの実施形態による、cfDNAサンプルが試験対象に由来することを検証するステップに関する、プロセスを説明するフローチャートを図示する。 図4は、1つの実施形態による、cfDNAサンプルの性別を予測するステップに関する、プロセスを説明するフローチャートを図示する。 図5は、1つの実施形態による、cfDNAサンプルの民族性を予測するステップに関する、プロセスを説明するフローチャートを図示する。 図6は、1つの実施形態による、cfDNAサンプルの年齢を予測するステップに関する、プロセスを説明するフローチャートを図示する。 図7A及び図7Bは、1つの実施形態による、サンプルから異常にメチル化したフラグメントを決定するステップに関する、プロセスを説明するフローチャートを図示する。 図8Aは、1つの実施形態による、がん分類子を訓練するステップに関する、プロセスを説明するフローチャートを図示する。図8Bは、1つの実施形態による、がん分類子を訓練するステップのために使用する特徴ベクトルの例示的な生成を図示する。 図9Aは、1つの実施形態による、核酸サンプルをシークエンシングするステップのためのデバイスのフローチャートを図示する。図9Bは、1つの実施形態による、解析システムの構成図を図示する。 図10及び図11は、性別決定の精度を示すグラフを図示する。 図10及び図11は、性別判定の精度を示すグラフを図示する。 図12から14は、染色体間の民族性予測の精度を示す表を図示する。 図12から14は、染色体間の民族性予測の精度を示す表を図示する。 図12から14は、染色体間の民族性予測の精度を示す表を図示する。 図15及び16は、分類するために使用する、民族性に関して異なるセットを用いた民族性予測の精度を示す混同行列(confusion matrices)を図示する。 図15及び16は、分類するために使用する、民族性に関して異なるセットを用いた民族性予測の精度を示す混同行列(confusion matrices)を図示する。 図17A及び17Bは、特徴選択のための特徴の性能を示すグラフを図示する。 図18は、各々の特徴の年齢予測の精度を個別に示すグラフを図示する。 図19は、経時的な年齢と決定した年齢との間の相関を示すグラフを図示する。 図20A及び20Bは、特徴を選択した及び正則化を実行した(regularized performance)、年齢予測の精度を示すグラフを図示する。 図21は、異なるセットの特徴を考慮した年齢予測の精度を比較するグラフを図示する。
図面は、説明のみを目的として様々な実施形態を示す。当業者は、本明細書に記載された原理から逸脱することなく、本出願で説明された構造及び方法に関する代替的な実施形態を使用し得ることを、以下の議論から容易に認識するのであろう。
[詳細な説明]
I. 概要
I.A. メチル化の概要
本明細書によれば、個体由来のcfDNAフラグメントを、例えば、非メチル化シトシンをウラシルに変換することによって、処理する、シークエンシングする、及びその配列リード(sequence reads)を参照ゲノムと比較して、前記DNAフラグメント内の特定のCpG部位でのメチル化状態を同定する。各々のCpG部位は、メチル化されていても、メチル化されていなくてもよい。健常な個体と比較して、異常にメチル化されたフラグメントを同定することは、対象のがんの状態についての洞察を提供する。当技術分野で周知のように、DNAメチル化の異常(健常コントロールと比較して)は、がんに寄与し得る様々な影響を引き起こし得る。異常にメチル化されたcfDNAフラグメントを同定するに際しては、様々な困難が生じる。まず最初に、異常にメチル化されるDNAフラグメントを決定するステップは、一群のコントロール個体と比べて、重みを保持するだけであり、その結果、そのコントロール群が少数である場合、その決定によって、より小さいサイズの前記コントロール群内の統計的な変動の為に、信頼性が失われる。更に、一群のコントロール個体の間で、メチル化状態は変化することがあり、これは、対象のDNAフラグメントが異常にメチル化されていることを決定するときに考慮することが困難であることがある。別の注目すべきことに、CpG部位でのシトシンのメチル化は、その後のCpG部位でのメチル化に、因果的に影響を及ぼす。この依存関係を包含することは、それ自体が別の課題である。
メチル化は、典型的には、シトシン塩基のピリミジン環上の水素原子がメチル基に変換され、5-メチルシトシンを形成する場合に、デオキシリボ核酸(DNA)中で起こる。特に、メチル化は、本出願において「CpG部位」と称される、シトシン及びグアニンのジヌクレオチドで起こる傾向がある。他の例では、メチル化は、CpG部位の一部ではないシトシンで、又はシトシンではない別のヌクレオチドで、起こることがあるが、これらの発生は、より稀である。本開示において、明確にするために、メチル化を、CpG部位に関して議論する。異常なDNAメチル化は、高メチル化又は低メチル化として同定することがあり、その両方が、がん状態を示すことがある。この開示を通して、DNAフラグメントが、メチル化されている又はメチル化されていないCpG部位の閾値割合を超えて、閾値数を超えるCpG部位を含む場合、前記DNAフラグメントについて、高メチル化及び低メチル化を、特徴付ける。
当業者は、本出願に記載される原理が、非-シトシン・メチル化などの非-CpGの文脈におけるメチル化の検出に、同じく適用可能であることを理解するのであろう。そのような実施形態では、メチル化を検出するために使用されるウェットの実験室でのアッセイ(wet laboratory assay)は、本出願に記載されるものとは異なるかもしれない。更に、本出願で検討するメチル化状態ベクトルは、一般的に、メチル化が起こっている部位又は起こっていない部位(それらの部位が具体的にCpG部位でない場合であっても)である要素を含むことがある。その置き換えがあっても、本出願に記載されるプロセスの残りは同じであり、その結果、本出願に記載される本発明の概念は、メチル化のそれらの他の形態に適用可能である。
I.B. 定義
用語「個体」は、ヒト個体を指す。用語「健常な個体」は、がん又は疾患を有さないと推定される個体を指す。用語「対象」は、がん又は疾患を有することが既知の個体、又は有する可能性のある個体、を指す。
用語「無細胞核酸」又は「cfNA」は、個体の体内(例えば、血中)を循環する、並びに1つ以上の健常な細胞に由来する、及び/又は1つ以上がん細胞に由来する、核酸フラグメントを指す。用語「無細胞DNA」又は「cfDNA」は、個体の体内(例えば、血中)を循環するデオキシリボ核酸断片を指す。更に、個体の体内のcfNA又はcfDNAは、他の非-ヒト供給源に由来することがある。
用語「ゲノム核酸」、「ゲノムDNA」、又は「gDNA」は、1つ以上の細胞から得られる核酸分子、又はデオキシリボ核酸分子、を指す。様々な実施形態では、gDNAを、健常細胞(例えば、非-腫瘍細胞)、又は腫瘍細胞(例えば、生検サンプル)、から抽出することがある。いくつかの実施形態では、gDNAを、白血球細胞などの血液細胞系統に由来する細胞から抽出することがある。
用語「循環腫瘍DNA(circulating tumor DNA)」又は「ctDNA」は、腫瘍細胞又は他のタイプのがん細胞に由来する、及び、死にかけている細胞のアポトーシス若しくはネクローシスなどの生物学的なプロセスの結果として個体の体液(例えば、血液、汗、尿中、又は唾液)中に放出されることがある、又は生存している腫瘍細胞によって能動的に放出されることがある、核酸フラグメントを指す。
用語「DNAフラグメント」、「フラグメント」、又は「DNA分子」は、一般的に、任意のデオキシリボ核酸フラグメント、即ち、cfDNA、gDNA、ctDNAなど、を指すことがある。
用語「配列リード(sequence read)」は、個体由来の試験サンプルの核酸分子から得られるヌクレオチド配列を指す。配列リード(Sequence reads)を、当技術分野で公知の様々な方法によって取得することができる。
用語「シークエンシング深度(sequencing depth)」又は「深度」は、個体由来の試験サンプルの、所与のゲノム位置又は遺伝子座における、配列リード(sequence reads)又はリード・セグメント(read segment)、の総数を指す。
用語「アレル頻度(allele frequency)」は、ゲノム中の遺伝子座についての複数のアレルのうちの第1のアレルに関する、個体由来の試験サンプルの配列リード(sequence reads)の割合を指す、ここで、遺伝子座についてのアレルとは、前記遺伝子座の様々なヌクレオチド配列を指す。遺伝子座について、参照アレル(reference allele)とは、参照ゲノムのヌクレオチド配列を指す、及び代替アレル(alternate allele)とは、参照ゲノムに対するバリアントである任意のヌクレオチド配列を指す。
用語「異常フラグメント」、「異常にメチル化されたフラグメント」、又は「異常なメチル化パターンを有するフラグメント」は、CpG部位の異常なメチル化を有するフラグメントを指す。フラグメントの異常メチル化を、コントロール群におけるフラグメントのメチル化パターンを観察して、その予想外性を同定するために、確率論的モデルを用いて決定することがある。
用語「極端なメチル化を有する異常なフラグメント(unusual fragment with extreme methylation)」又は「UFXM」は、低メチル化フラグメント、又は高メチル化フラグメント、を指す。低メチル化フラグメント及び高メチル化フラグメントは、それぞれ、メチル化又は非メチル化の、ある閾値割合(例えば、90%)を超えて有する、少なくともいくつかの数のCpG部位(例えば、5)がある、フラグメントを指す。
用語「異常スコア」は、CpG部位についてのスコアを指し、そのCpG部位と重なるサンプルに由来する、異常フラグメント(又は、いくつかの実施形態では、UFXM)の数に基づく。異常スコアを、分類のために、サンプルを特徴化する文脈において、使用する。
II. サンプル処理
II.A. DNAフラグメントのメチル化状態ベクトルを生成するステップ
図1Aは、1つの実施形態による、メチル化状態ベクトルを取得するための、無細胞(cf)DNAのフラグメントをシークエンシングするステップに関する、プロセス100を説明するフローチャートである。DNAメチル化を解析するために、解析システムは、まず、複数のcfDNAを含むcfDNAサンプルを少なくとも含む、個体由来の試験サンプルを取得する(110)。一般に、サンプルは、健常な個体、がんを有することが既知の対象、若しくはがんを有することが疑われる対象、又は事前情報が既知ではない対象、に由来することがある。前記試験サンプルは、血液、血漿、血清、尿、糞便、及び唾液のサンプル、からなる群より選択されるサンプルであってもよい。或いは、前記試験サンプルは、全血、血液画分(例えば、白血球細胞(WBC))、組織生検、胸腺液(pleural fluid)、心嚢液(pericardial fluid)、脳脊髄液、及び腹膜液、からなる群より選択されるサンプルを含むことがある。更なる実施形態では、前記プロセス100を適用して、他のタイプのDNA分子をシークエンシングすることがある。
前記サンプルから、前記解析システムは、各々のcDNA分子を単離する。前記cfDNA分子を処理して、非メチル化シトシンをウラシルに変換する。1つの実施形態では、前記方法は、メチル化シトシンを変換することなく、非メチル化シトシンをウラシルに変換する、前記DNAの亜硫酸水素塩処理(bisulfite treatment)を用いる。例えば、亜硫酸水素塩変換(bisulfite conversion)には、EZ DNA MethylationTM-Gold、EZ DNA MethylationTM-Direct又はEZ DNA MethylationTM-Lightningキット(Zymo Research Corp(カリフォルニア州アーバイン)から入手可能)などの市販のキットを使用する。別の実施形態では、非メチル化シトシンをウラシルに変換することを、酵素反応を使用して行う。例えば、前記変換は、APOBEC-Seq(NEBiolabs、Ipswich、MA)などの、非メチル化シトシンをウラシルに変換するための市販のキットを使用することがある。
その変換したcfDNA分子から、シークエンシング・ライブラリを調製する(130)。任意選択的に、前記シークエンシング・ライブラリを、複数のハイブリダイゼーション・プローブを使用してがん状態についての情報がある、cfDNA分子又はゲノム領域について、富化することがある(135)。前記ハイブリダイゼーション・プローブは、特に、特定のcfDNA分子又はターゲットとする領域にハイブリダイズすることが可能である、及びその後のシークエンシング及び解析のためにそれらのフラグメント又は領域を富化することが可能である、短いオリゴヌクレオチドである。ハイブリダイゼーション・プローブを使用して、研究者に関心のある1セットの特定のCpG部位について、ターゲット化した、高-深度の解析を実行することができる。1つの実施形態では、前記ハイブリダイゼーション・プローブを、非メチル化シトシンをウラシルに転換するために、(例えば、亜硫酸水素塩(bisulfite)を使用して)処理したDNA分子を富化するように設計する。一旦調製されると、前記シークエンシング・ライブラリ又はその一部を、シークエンシングして、複数の配列リード(sequence reads)を取得することができる。前記配列リード(sequence reads)は、コンピュータ・ソフトウェアが処理する、及び解釈するためのコンピュータ-可読、デジタル・フォーマットであることがある。
前記配列リード(sequence reads)から、前記解析システムは、参照ゲノムに対するアライメントに基づいて、各々のCpG部位についての位置及びメチル化状態を決定する(150)。前記解析システムは、メチル化(例えば、Mとして示される)、非メチル化(例えば、Uとして示される)、又は不明(例えば、Iとして示される)のいずれかにかかわらず、参照ゲノム中のフラグメントの位置(例えば、各々のフラグメント中の第1のCpG部位の位置、又は別の同様の測定基準によって指定される)、前記フラグメント中のCpG部位の数、及び前記フラグメント中の各々のCpG部位のメチル化状態、を特定する、各々のフラグメントについてのメチル化状態ベクトル、を生成する (160)。観察された状態は、メチル化の状態及び非メチル化の状態である;一方、観察されない状態は、不明である。不明のメチル化状態は、シークエンシング・エラー、及び/又はDNAフラグメントの相補鎖のメチル化状態間の不一致、に起因することがある。前記メチル化状態ベクトルを、後に使用する及び処理するために、一過性の又は永続的なコンピュータ・メモリーに、保存することがある。更に、前記解析システムは、単一のサンプルから、重複したリード又は重複したメチル化状態ベクトル、を除去することができる。前記解析システムは、1つ以上のCpG部位を有する、ある特定のフラグメントが、閾値数又は割合を超える、不明なメチル化状態を有すると判定することがある、及びそのようなフラグメントを除外することがある、又はそのようなフラグメントを選択的に含むが、そのような不明なメチル化状態を考慮するモデルを構築することがある;1つのそのようなモデルを、図4に関連して以下で説明する。
図1Bは、1つの実施形態による、メチル化状態ベクトルを取得するためにcfDNA分子をシークエンシングするステップに関する、図1Aのプロセス100の説明図である。例として、前記解析システムは、この例では、3つのCpG部位を含むcfDNA分子112を受け取る。示すように、cfDNA分子112の第1の及び第3のCpG部位は、メチル化114されている。本処理ステップ120の中で、前記cfDNA分子112は、変換を受けて、変換されたcfDNA分子122が生成される。本処理120の中で、メチル化されていない第2のCpG部位は、そのシトシンがウラシルに変換される。しかし、第1の及び第3のCpG部位は変換されなかった。
変換後、シークエンシング・ライブラリ130を調製する、及び配列リード(sequence reads)142を生成するシークエンシングをする(140)。前記解析システムは、前記配列リード(sequence reads)142と参照ゲノム144とのアライメントを作る(150)。前記参照ゲノム144は、そのフラグメントのcfDNAが、ヒト・ゲノム内のどの位置に由来するかに関する文脈を提供する。この単純化した実施例では、前記解析システムは、3つのCpG部位がCpG部位23、24、及び25(記載の便宜上使用する任意の参照識別子)に相関するように、前記配列リード(sequence reads)142のアライメントを作る(150)。従って、前記解析システムは、cfDNA分子112上の全てのCpG部位のメチル化状態、及び前記CpG部位がマッピングされるヒト・ゲノム内の位置、の両方に関する情報を生成する。示すように、メチル化された配列リード(sequence reads) 142のCpG部位は、シトシンとして読み取られる。この例では、前記シトシンは、前記配列リード(sequence reads)142の中、第1及び第3のCpG部位にのみに現れ、このことによって、元のcfDNA分子中の第1の及び第3のCpG部位がメチル化されたと推測することができる。一方、前記第2のCpG部位は、チミンとして読み取られ(Uは、シークエンシング・プロセスの中で、Tに変換される)、それによって、第2のCpG部位は、元のcfDNA分子中では、メチル化されていないと推測することができる。これら2つの情報(メチル化状態及びメチル化位置)を用いて、前記解析システムは、フラグメントcfDNA 112についてのメチル化状態ベクトル152を生成する(160)。この例では、得られるメチル化状態ベクトル152は、<M23、U24、M25>、であり、ここで、Mはメチル化されたCpG部位に対応し、Uはメチル化されていないCpG部位に対応し、下付きの数は、参照ゲノムにおける、各々のCpG部位の位置に対応する。
図2は、1つの実施形態による、配列リード(sequence reads)を生成するためにシークエンシング・アッセイを実行するステップに関する、プロセス200を説明するフローチャートを図示する。前記プロセス200は、メチル化シークエンシングの1つの実施形態を記載する、前記プロセス100と比較して、シークエンシング・アッセイを実行するステップに関する、より一般的なプロセスのフロー(flow)である。前記プロセス200は、限定されるものではないが、以下のステップを含む。例えば、前記プロセス200の任意のステップは、品質管理のための定量サブ-ステップ、又は当業者に公知の他の実験的なアッセイ手順、を含むことがある。
一般的に、ステップ(例えば、ステップ205-235)を様々に組み合わせることを、全ゲノム・シークエンシング・アッセイ、小さなバリアント・シークエンシング・アッセイ(small variant sequencing assay)、及びメチル化シークエンシング・アッセイ、の各々について、実行する。具体的には、ステップ205、215、230、及び235を、全ゲノム・シークエンシング・アッセイについて実行する。ステップ205及び215-235を、小さなバリアント・シークエンシング・アッセイ(small variant sequencing assay)について実行する。いくつかの実施形態では、ステップ205-235の各々を、メチル化シークエンシング・アッセイについて実行する。例えば、ターゲット化遺伝子パネル・バイスルファイト・シークエンシングを使用するメチル化シークエンシング・アッセイは、ステップ205-235の各々を使用する。いくつかの実施形態では、ステップ205-215及び230-235を、メチル化シークエンシング・アッセイについて実行する。例えば、全ゲノム・バイスルファイト・シークエンシングを使用するメチル化シークエンシング・アッセイは、ステップ220及び225を実行する必要はない。
ステップ205では、核酸(DNA又はRNA)を、試験サンプルから抽出する。本開示では、DNA及びRNAを、別段に示さない限り、互換的に使用することがある。即ち、バリアント・コーリング(variant calling)及び品質管理において、エラー源の情報を使用するための以下の実施形態を、DNAタイプの及びRNAタイプの両方の核酸配列に適用可能であることがある。しかしながら、本出願に記載される実施例は、明確さ及び説明の目的のために、DNAに焦点を当てることがある。様々な実施形態では、DNA(例えば、cfDNA)を、精製プロセスを経た前記試験サンプルから抽出する。一般的に、当該技術分野で公知の任意の方法を、DNAを精製するために、使用することができる。例えば、核酸を、チューブの中で、前記核酸をペレット化させる、及び/又は沈殿させる、ことによって、単離することができる。その抽出した核酸は、cfDNAを含むことがある、又はWBC DNAなどのgDNAを含むことがある。
ステップ210では、cfDNAフラグメントを処理して、非メチル化シトシンをウラシルに変換する。1つの実施形態では、前記方法は、前記DNAの亜硫酸水素塩処理(bisulfite treatmetn)を用い、これは、非メチル化シトシンをウラシルに変換し、メチル化シトシンを変換することがない。例えば、EZ DNA METHYLATION-Gold、EZ DNA METHYLATION-Direct、又はEZ DNA METHYLATION-Lightningキット(Zymo Research Corpから入手可能、カリフォルニア州アーバイン)などの市販のキットを、亜硫酸水素塩変換(bisulfite conversion)の為に、使用する。別の実施形態では、非メチル化シトシンをウラシルに変換することを、酵素反応を使用して行う。例えば、前記変換は、APOBEC-Seq(NEBiolabs、Ipswich、MA)などの、非メチル化シトシンをウラシルに変換するための市販のキットを使用することがある。
ステップ215では、シークエンシング・ライブラリを調製する。ライブラリを調製する中で、アダプターは、例えば、その後のクラスター生成、及び/又はシークエンシングに使用するための1種以上のシークエンシング・オリゴヌクレオチドを含み(例えば、合成によるシークエンシング(sequencing by synthesis (SBS) (Illumina, San Diego, CA))に使用するための既知のP5及びP7配列)、アダプター・ライゲーション(adapter ligation)を介して、核酸フラグメントの末端に連結する。1つの実施形態では、固有の分子識別子(unique molecular identifiers (UMI))を、アダプター・ライゲーション(adapter ligation)の最中に、抽出した核酸に付加する。前記UMIは、アダプター・ライゲーション(adapter ligation)の最中に、核酸の末端に付加される、短い核酸配列(例えば、4-10塩基対)である。いくつかの実施形態では、UMIは、核酸から得られる配列リード(sequence reads)を同定するために使用することができる、固有のタグとして役立つ、縮重塩基対である。後述するように、前記UMIは、増幅中に、結合した核酸と共に、更に複製されることがあり、これによって、その後の解析に際して、同じ元の核酸セグメントに由来する配列リード(sequence reads)を同定する方法が得られる。
ステップ220では、ハイブリダイゼーション・プローブを使用して、核酸の選択したセットについて、シークエンシング・ライブラリを富化する。ハイブリダイゼーション・プローブを、がん(若しくは、疾患)の有無、がん状態、又はがん分類(例えば、がんタイプ又は起源組織)についての情報がある、ターゲット化した核酸フラグメントを、プルダウンするために、及び富化するために、ターゲット化した核酸配列、をターゲットとするように、及び、とハイブリダイズするように、設計することができる。このステップによれば、複数のハイブリダイゼーション・プルダウン・プローブを、所与のターゲット配列又は遺伝子のために、使用することができる。前記プローブは、長さが、約40から約160塩基対(bp)、約60から約120 bp、又は約70 bpから約100 bp、の範囲であることがある。1つの実施形態では、前記プローブは、ターゲット部位又は遺伝子の重なる部分をカバーする。ターゲット化遺伝子パネル・シークエンシングのために、前記ハイブリダイゼーション・プローブを、前記ターゲット化遺伝子パネルに含まれる特異的な遺伝子配列に由来する核酸フラグメントを、ターゲットとするように、及びプルダウンするように、設計する。全エクソーム・シークエンシングについては、前記ハイブリダイゼーション・プローブを、参照ゲノム中のエクソン配列に由来する核酸フラグメントを、ターゲットとするように、及びプルダウンするように、設計する。当業者のある者が容易に理解するように、核酸をターゲット化して富化するための、当該技術分野における他の既知の方法を、使用することがある。
ハイブリダイゼーション・ステップ220の後、そのハイブリダイズした核酸フラグメントを富化する(225)。例えば、そのハイブリダイズした核酸フラグメントを、捕捉することがある、及びPCRを用いて増幅することがある。そのターゲット配列を富化して、引き続き、シークエンシングをすることができる富化した配列を取得することができる。これは、配列リード(sequence reads)のシークエンシング深度(sequencing depth)を改善する。
ステップ230では、前記核酸をシークエンシングして、配列リード(sequence reads)を生成する。配列リード(Sequence reads)を、当該技術分野で公知の方法によって獲得することがある。例えば、多数の技術及びプラットホームは、並行して、何百万もの個々の核酸(例えば、cfDNA又はgDNAなどのDNA)から、配列リード(sequence reads)を、直接的に取得する。そのような技術は、ターゲット化遺伝子パネル・シークエンシング、全エクソーム・シークエンシング、全ゲノム・シークエンシング、ターゲット化遺伝子パネル・バイスルファイト・シークエンシング、及び全ゲノム・バイスルファイト・シークエンシング、の何れかを行うのに、好適であることがある。
第1の例として、合成によるシークエンシング (sequencing-by-synthesis technologies)は、シークエンシングの対象である鋳型に相補的なDNAの新生鎖に組み込まれる、蛍光ヌクレオチドを検出することに依拠する。1つの方法では、長さ30-50塩基のオリゴヌクレオチドを、その5'末端で、ガラス・カバー・スリップに共有結合的に固定する。これらの固定した鎖は、2つの機能を果たす。第1に、前記鋳型を、表面に結合したオリゴヌクレオチドに相補的な捕捉尾部を有するように構成する場合、固定した鎖は、そのターゲット化テンプレート鎖の捕捉部位としての働きをする。それらはまた、配列読み取りの基礎を形成する、鋳型指向性のプライマー伸長のためのプライマーとしても、働く。色素-リンカーを合成する、検出する、及び化学的に切断して前記色素を除去する、という複数サイクルを使用する配列決定をするための固定した位置部位として、前記捕捉プライマーは、機能する。各々のサイクルは、ポリメラーゼ/標識化ヌクレオチド混合物を添加するステップ、すすぐステップ、イメージングするステップ、及び色素の切断、からなる。
別の方法では、ポリメラーゼを、蛍光ドナー(donor)分子で修飾する、及びスライドグラス上に固定化する、一方、各々のヌクレオチドを、ガンマ-リン酸に結合したアクセプター蛍光部分で色分けする。前記システムは、蛍光的にタグ付けしたポリメラーゼと蛍光的に改変したヌクレオチドとの間の相互作用を、前記ヌクレオチドが新たな鎖に組み込まれるときに、検出する。
任意の好適な、合成によるシークエンシング(sequencing-by-synthesis)プラットフォームを使用して、変異を同定することができる。合成によるシークエンシング(sequencing-by-synthesis)としては、Roche/454 Life SciencesのGenome Sequencers、Illumina/SOLEXAのGENOME ANALYZER、Applied BioSystemsのSOLIDシステム、及びHelicos BiosciencesのHELISCOPEシステム、が挙げられる。合成によるシークエンシング(sequencing-by-synthesis)プラットフォームは、Pacific BioSciences、及びVisiGen Biotechnologies、によっても、記載されている。いくつかの実施形態では、シークエンシングする複数の核酸分子は、支持体(例えば、固体の支持体)に、結合する。前記核酸を支持体上に固定化するために、捕捉配列/ユニバーサル・プライミング部位を、前記鋳型の3'末端及び/又は5'末端に付加することがある。前記捕捉配列を、支持体に共有結合した相補的配列にハイブリダイズさせることによって、前記核酸を支持体に結合させることができる。前記捕捉配列(ユニバーサル捕捉配列とも呼ばれる)は、ユニバーサル・プライマーとして二重に機能することがある、支持体に結合した配列に対して相補的な核酸配列である。
捕捉配列の代替として、カップリング対 (例えば、抗体/抗原、レセプター/リガンド、又はアビジン-ビオチン対など) のあるメンバーを、そのカップリング対の各々の第2のメンバーでコーティングした表面上で捕捉されるべき各々のフラグメントに、連結することがある。その捕捉に続いて、その配列を、例えば、鋳型に依拠した合成によるシークエンシング(sequencing-by-synthesis)などの、単一分子検出/シークエンシングによって、解析することがある。合成によるシークエンシング(sequencing-by-synthesis)では、その表面結合分子を、ポリメラーゼの存在下で、複数の標識ヌクレオチド三リン酸に曝露する。前記鋳型の配列を、伸長する鎖の3'末端の中に組み込まれた標識ヌクレオチドの順番によって決定する。これを、リアル・タイムで行うことができる、又はステップ-アンド-リピートのモード(step-and-repeat mode)で行うことができる。リアル-タイム解析について、各々のヌクレオチドに対する様々な光学標識を組み込ませることがある、及び組み込まれたヌクレオチドを刺激するために、多数のレーザーを利用することがある。
超並列シークエンシング(massively parallel sequencing)、又は次世代シークエンシング(next generation sequencing (NGS))技術としては、合成技術、パイロシークエンシング、イオン半導体技術、単一分子リアル-タイム・シークエンシング、ライゲーションによるシークエンシング(sequencing by ligation)、ナノポア・シークエンシング、又はペアド-エンド・シークエンシング(paired-end sequencing)、が挙げられる。超並列シークエンシング・プラットフォームの例は、Illumina HISEQ又はMISEQ、ION PERSONAL GENOME MACHINE、PACBIO RSIIシークエンサー又はSEQUELシステム、QiagenのGENEREADER、及びOxford MINION、である。更なる同様の現行の超並列シークエンシング技術を、並びにこれらの技術の将来の世代を、使用することができる。
ステップ230では、前記配列リード(sequence reads)を、アライメント位置情報を決定するために、当該技術分野において公知の方法を使用して、参照ゲノムに対して、アライメントすることがある。前記アライメント位置情報は、所与の配列リード(sequence reads)の開始ヌクレオチド塩基及び終了ヌクレオチド塩基に対応する、前記参照ゲノム内領域の開始位置及び終了位置、を示すことがある。また、アライメント位置情報は、前記開始位置及び終了位置から決定することができる、配列リード(sequence reads)長さ、を含むことがある。参照ゲノム中の領域は、遺伝子又は遺伝子のセグメントに、関連することがある。
様々な実施形態では(例えば、ペアド-エンド・シークエンシング(paired-end sequencing)では)、配列リード(sequence reads)は、R_1及びR_2として示されるリード・ペア(read pair)から構成される。例えば、第1のリードR_1を、核酸フラグメントの第1の末端からシークエンシングすることがある、第2のリードR_2を、核酸フラグメントの第2の末端からシークエンシングすることがある。従って、第1のリードR_1及び第2のリードR_2のヌクレオチド塩基対と、参照ゲノムの塩基とを、一致させて(例えば、逆向きに)アライメントを作ることがある。前記リード・ペアR_1及びR_2から導出されるアライメント位置情報は、第1のリード(例えば、R_1)の末端に対応する、参照ゲノム中の開始位置、及び第2のリード(例えば、R_2)の末端に対応する、参照ゲノム中の終了位置、を含むことがある。言い換えれば、前記参照ゲノム中の開始位置及び終了位置は、前記核酸フラグメントが対応する参照ゲノム中の可能性のある位置、を表す。SAM (配列アライメント・マップ(sequence alignment map))フォーマット又はBAM(バイナリ・アライメント・マップ(binary alignment map))フォーマットを有する出力ファイルを生成し、更なる解析のために出力することがある。
ステップ235に続いて、そのアライメントにした配列リード(sequence reads)を、計算解析(例えば、上記の、及び図1Dに示される140B、140C、又は140D)を使用して、処理する。小さなバリアント計算解析140C、全ゲノム計算アッセイ140B、メチル化計算解析140D、及びベースライン計算解析、の各々を、以下で更に詳しく説明する。
II.B. サンプル・スワップ(Sample Swap)検証
前記解析システムは、試験対象の試験サンプルから得られたcfDNAサンプルが、実際に前記試験対象に由来することを検証する。前記解析システムは、前記cfDNAサンプルに基づいて、前記試験対象の1つ以上の特性を予測することによって、及びその予測された特性を前記試験対象から報告された1つ以上の特性に対して比較することによって、前記cfDNAサンプルを検証する。これらの特性としては、限定されるものではないが、生物学的な性(又は性別)、民族性、年齢、他の遺伝的形質、他の身体的形質、又はこれらの任意の組合せ、が挙げられる。より一般的には、前記解析システムは、前記試験サンプル中に存在するcfDNA分子、及び/又は他の核酸分子(例えば、gDNA)に基づいて、1つ以上の特性を予測することによって、前記試験サンプルが、実際に前記試験対象に由来することを検証することができる。従って、検討する原理では、試験サンプルと前記試験サンプルから得られたcfDNAサンプルとを、互換的に言及することがあることに留意されたい。
前記cfDNAサンプル(又は、より一般的には試験サンプル)が、実際に前記試験対象に由来することを検証するステップは、サンプル・スワップ・エラーを低減することを目的とする。サンプル・スワップ・エラーは、前記試験対象から前記試験サンプルを採取することから、シークエンシング・アッセイを実行する直前までの、多数の接合点において、生じることがある。例えば、サンプルAは、試験対象Aによって採取されたものとして表示されているが、実際には、試験対象Bに由来している可能性があり、本エラーは、臨床医が誤ってラベル付けしたことによる。1つの例示的な検証は、サンプルAについて予測された生物学的な性が、報告された試験対象Aの生物学的な性と、一致するかどうかを評価する。前記サンプルの予測された生物学的な性が、報告された生物学的な性と、一致する場合、前記解析システムは、前記サンプルを有効と検証する(validate)。反対に、前記予測された生物学的な性が、前記報告された生物学的な性と、一致しない場合、前記解析システムは、前記サンプルを無効と検証する(invalidate)。無効と検証されたサンプル(即ち、前記試験対象から起源していないと判定されたサンプル)を、前記解析システムによる任意の更なる解析から除外することがある。前記解析システムは、例えば、医療提供者を介して、前記試験対象由来の新しいサンプルを採取することを、要求することがある。結果的に、試験サンプルを検証することによって、誤った(例えば、スワップされた)試験サンプルから生じる試験対象に、結論を報告すること、を防ぐ。
図3は、1つの実施形態による、cfDNAサンプルが試験対象に由来することを検証するステップに関する、プロセス300を説明するフローチャートを図示する。前記解析システムは、プロセス300を使って、その試験サンプル全体が前記試験対象に由来するものであるかどうかを、より一般的に、検証することができる。前記プロセス300は、前記解析システムによって実行されるものとして記載される;しかしながら、他の実施形態では、他のシステム、及び/又はデバイスが、前記プロセス300中に列挙したステップのうちの1つ以上を、実行することがある。
前記解析システムは、試験対象から試験サンプルを取得し(305)、前記試験対象は、1つ以上の特性を報告する。前記試験サンプルは、少なくともcfDNAサンプルを含む、及び他の核酸分子を更に含むことがある。前記試験サンプルを、医療提供者(例えば、看護師、医師、臨床医など)が採取することがある、又は前記試験対象が自己収集することがある。前記試験対象は、これらの特性を、医療提供者に、調査を介して、別の適切な方法を介して、などによって、報告することがある。
前記解析システムは、前記試験サンプルからcfDNAサンプルを取得する(310)。前記cfDNAサンプルは、複数のcfDNAフラグメントを含む。他の実施形態では、他の核酸分子もまた取得することがある、及びプロセス300の後続のステップで使用することもある。
前記解析システムは、前記cfDNAサンプル中の前記cfDNAフラグメントの配列リード(sequence reads)を取得する(315)。前記配列リード(sequence reads)を、図1Aのプロセス100、及び/又は図2のプロセス200を介して、取得することがある。いくつかの実施形態では、前記解析システムは、例えば、図1Aのプロセス100を介して、前記配列リード(sequence reads)からの前記cfDNAフラグメントの各々についてのメチル化状態ベクトルを、更に取得する。
前記解析システムは、前記cfDNAサンプルの1つ以上の特性を予測する。図3に示す実施形態では、前記解析システムは、生物学的な性の予測320を実施して前記試験サンプルについての生物学的な性を予測する、民族性予測325を実施して少なくとも1つの試験サンプルについての民族性を予測する、年齢予測330を実施して前記試験サンプルについての年齢範囲を予測する、又はそれらの何らかの組合せを実施して予測する。他の実施形態では、前記解析システムは、更なる特性を予測した。前記生物学的な性の予測320を図4で更に説明する。民族性予測325を図5で更に説明する。年齢予測330を図6で更に説明する。
前記解析システムは、1つ以上の予測した特性及び1つ以上の報告された特性に基づいて、前記試験サンプルが試験対象由来であることを検証する(340)。前記検証で評価された各々の特性に対して、前記解析システムは、その予測した特性が報告された特性と一致するかどうかを、予測する。
生物学的な性について、前記解析システムは、前記報告された生物学的な性の特性が、予測した生物学的な性の特性と一致するかどうかを、決定する。例えば、前記試験対象が雌性という生物学的な性の特性を報告した場合、前記解析システムは、予測した生物学的な性の特性も雌性(これは報告された特性に一致する)であるかどうかを評価する。同様に、前記試験対象が雄性という生物学的な性の特性を報告した場合、前記解析システムは、予測した生物学的な性の特性も雄性(これは報告された特性に一致する)であるかどうかを評価する。
民族性について、前記解析システムは、その報告された1つ以上の民族性の特性が予測した1つ以上の民族性の特性と一致するかどうかを、決定する。単一の民族性を報告した試験対象に対して、前記解析システムは、第1のランク付けした予測が報告された民族性と一致するかどうかを決定する。例えば、試験対象はアフリカ系という民族性を報告し、前記解析システムは、予測した民族性の特性もアフリカ系(これは報告された特性に一致する)であるかどうかを評価する。いくつかの実施形態では、前記解析システムは、前記第1のランク付けした予測に加えて、第2のランク付けした予測を提供する。これらの実施形態では、前記解析システムは、前記第1のランク付けした予測又は前記第2のランク付けした予測のいずれかが前記報告された民族性と一致する場合、一致を報告する。2つ以上の民族性を報告する、混じった民族性(即ち、2つ以上の民族性が混合した民族性)であり得る対象に対して、前記解析システムは、前記第1のランク付けした予測及び前記第2のランク付けした予測(又は、後続の予測)が報告された民族性のうちの少なくとも2つに一致するかどうかを、評価することがある。
年齢について、前記解析システムは、その報告された年齢範囲(前記試験対象の年齢を含む)が予測した年齢範囲と一致するかどうかを決定する。例えば、前記試験対象が35歳という年齢の特性(又は、前記試験対象の年齢を含む年齢範囲という年齢の特性)を報告した場合、前記解析システムは、予測した年齢範囲(例えば、30-40という年齢範囲)が35歳という年齢(これは報告された特性に一致する)を包含する(又は、報告された年齢範囲と一致する)かどうかを評価する。
1つの実施形態では、評価した全ての特性は、前記試験サンプルが有効と検証されるために(to be validated)、一致する必要がある。例えば、年齢及び生物学的な性を評価する場合、cfDNAサンプルが前記試験対象に属するものとして検証されるためには、その予測した年齢範囲は、報告された年齢と一致しなければならない、及びその予測した生物学的な性は、報告された生物学的な性と一致しなければならない。他の実施形態では、様々な特性間の多数の一致(consensus)は、前記cfDNAサンプルを、前記試験対象に由来するものとして検証するのに十分である。例えば、年齢、生物学的な性、及び民族性を評価する場合、前記cfDNAサンプルが前記試験対象由来であることを検証するためには、3つの特性のうちの少なくとも2つを満たす必要がある。
II.B.I. 生物学的な性の予測
図4は、1つの実施形態による、cfDNAサンプルについての生物学的な性の予測のプロセス320を説明するフローチャートを図示する。生物学的な性は、個体がそのゲノム中にどの性染色体を有するかを参照する。大多数の個体は、2つのX染色体という生物学的な性(「生物学的な雌性」)、又は1個のX染色体と1個のY染色体という生物学的な性(「生物学的な雄性」)を有する。その大多数から逸脱する性染色体異常を有する個体がいくらか存在する。これらの性染色体異常としては、2つのX染色体及び1つのY染色体(生物学的な雄性として分類される)を有する個体でのクラインフェルター症候群(Klinefelter Syndrome)、1つのX染色体及び1つの欠損又は部分X染色体(生物学的な雌性として分類される)を有する個体でのターナー症候群(Turner Syndrome)、3つのX染色体(生物学的な雌性として分類される)を有する個体でのトリソミーX、4つのX染色体(生物学的な雌性として分類される)を有する個体でのテトラソミーX、が挙げられる。試験対象は、生物学的な性を推定することができる性別を提供するように、求められることがあることに留意されたい。生物学的な性の予測のプロセス320を、前記解析システムが実行するものとして、記載することがある;しかしながら、他の実施形態では、他のシステム、及び/又はデバイスが、前記プロセス320中に列挙したステップのうちの1つ以上を、実行することがある。
前記解析システムは、前記試験対象のcfDNAサンプル中のX染色体上に見出される、且つY染色体上に見出されない(X染色体上に見出される、且つY染色体上に見出されない、そのような遺伝子を、X-特異的な遺伝子と呼ぶことがある)、第1の遺伝子の配列リード(sequence reads)の第1のカウント(first count)を決定する(405)。各々の配列リード(sequence reads)と、前記ヒト・ゲノムとのアライメントを作ることがある、その結果、前記解析システムは、各々の配列リード(sequence reads)がどの遺伝子と重なるかを、決定することができる。前記解析システムは、第1の遺伝子を含む配列リード(sequence reads)を同定する、及び、その同定した配列リード(sequence reads)の第1のカウント(first count)を数える。いくつかの実施形態では、前記解析システムは、X染色体上に見出される、且つY染色体上には見出されない、第3の遺伝子の配列リード(sequence reads)の第3のカウント(third count)も決定し、前記第1のカウント(first count)を裏付ける。
前記解析システムは、前記試験対象のcfDNAサンプル中のY染色体上に見出される、且つX染色体上に見出されない(Y染色体上に見出される、且つX染色体上に見出されない、そのような遺伝子を、Y-特異的な遺伝子と呼ぶことがある)、第2の遺伝子の配列リード(sequence reads)の第2のカウント(second count)を決定する(410)。前記解析システムは、第2の遺伝子を含む配列リード(sequence reads)を同定する、及び、その同定した配列リード(sequence reads)の第2のカウント(second count)を数える。いくつかの実施形態では、前記解析システムは、Y染色体上に見出される、且つX染色体上には見出されない、第4の遺伝子の配列リード(sequence reads)の第4のカウント(forthe count)も決定し、前記第2のカウント(second count)を裏付ける。
前記解析システムは、X染色体シグナルを生成する第1の遺伝子の配列リード(sequence reads)の第1のカウント(first count)、及びY染色体シグナルを生成する第2の遺伝子の配列リード(sequence reads)の第2のカウント(second count)、を正規化する(415)。前記解析システムは、前記cfDNAサンプルのシークエンシング深度(sequencing depth)に従って、正規化することがある。その得られた正規化した第1のカウント(first count)は、前記cfDNAサンプル中のX染色体シグナルである、及びその正規化された第2のカウント(second count)は、前記cfDNAサンプル中のY染色体シグナルである。X-特異的な第3の遺伝子の第3のカウント(third count)、及びY-特異的な第4のカウント(fourth count)がある実施形態では、前記解析システムは、前記第3のカウント(third count)及び前記第4のカウント(fourth count)を、同様に正規化することがある。前記第1のカウント(first count)と前記第3のカウント(third count)との間の平均を、X染色体シグナルとして使用することがある。同様に、前記第2のカウント(second count)と前記第4のカウント(fourth count)との間の平均を、Y染色体シグナルとして使用することがある。前記解析システムは、これらの原理を、X染色体シグナルを導出する任意の数のX-特異的な遺伝子、及びY染色体シグナルを導出する任意の数のY-特異的な遺伝子、に拡張することができる。
1つの実施形態では、前記解析システムは、Y染色体シグナルに基づいて、前記試験サンプルの生物学的な性を予測する(420)。前記解析システムは、閾値Y染色体シグナルを決定し、及び適用し、生物学的な雄性と生物学的な雌性との間で、決定する。閾値Y染色体シグナル以上のY染色体シグナルを有する試験サンプルを、生物学的な雄性であると決定する、及び閾値Y染色体シグナル未満のY染色体シグナルを有する試験サンプルを、生物学的な雌性であると決定する。生物学的な雌性は、有意なY染色体シグナルを持たないはずであるため、閾値Y染色体シグナルを使用することは、うまく機能する。生物学的な雄性である、ある訓練サンプルを、及び生物学的な雌性である、他の訓練サンプルを、備えた1セットの訓練サンプルを使用して、前記閾値Y染色体シグナルを決定することがある。前記解析システムは、各々の訓練サンプルをシークエンシングして、配列リード(sequence reads)を取得する(例えば、プロセス100又はプロセス200を介して)、並びにプロセス320の、ステップ405、410、及び415、を実行する。前記解析システムは、X染色体シグナル及びY染色体シグナルに従って、前記訓練サンプルをプロットする。次いで、前記解析システムは、前記訓練サンプルの前記セット中の全ての生物学的な雄性を捕捉する閾値Y染色体シグナルを、同定することができる。いくつかの実施形態では、前記解析システムは、前記X染色体シグナルに更に基づいて、生物学的な性を、予測する。前記解析システムは、(閾値Y染色体シグナルを同定するために記載した同様なプロセスを介して)閾値X染色体シグナルを同定することができる。前記解析システムは、閾値X染色体シグナルと閾値Y染色体シグナルとの組合せを使用して、試験サンプルの生物学的な性を、予測することができる。
別の実施形態では、前記解析システムは、X染色体シグナルとY染色体シグナルとの間の比を計算する。閾値比を使用して、生物学的な雄性と生物学的な雌性との間で、決定することがある。前記閾値Y染色体シグナルを決定するステップと同様に、前記解析システムは、生物学的な雄性である、ある訓練サンプルを、及び生物学的な雌性である、他の訓練サンプルを、備えた1セットの訓練サンプルを使用することがある。前記解析システムは、各々の訓練サンプルに対して、X染色体シグナル及びY染色体シグナル、を計算する。次いで、前記解析システムは、前記訓練サンプルについて、生物学的な雄性と生物学的な雌性との間で、正確に分類する閾値比を、決定することができる。
他の実施形態では、前記解析システムは、訓練済み生物学的な性の分類子を、X染色体シグナル及びY染色体シグナル、に適用する。前記解析システムは、生物学的な雄性である、ある訓練サンプルを、及び生物学的な雌性である、他の訓練サンプルを、備えた1セットの訓練サンプルを使用して、前記生物学的な性の分類子を訓練する。前記解析システムは、各々の訓練サンプルについて、X染色体シグナル及びY染色体シグナル、を計算する。前記解析システムは、前記訓練サンプルを入力することによって、及び前記生物学的な性の分類子の重みづけを調整することによって、前記生物学的な性の分類子を訓練し、前記訓練サンプルの既知の生物学的な性を正確に予測する。ニューラル・ネットワーク及び他の機械学習アルゴリズムを、生物学的な性の分類子を訓練する際に、実行することがある。
II.B.II. 民族性予測
図5は、1つの実施形態による、cfDNAサンプルに対する、民族性予測のプロセス325を説明するフローチャートを図示する。前記試験対象は、複数の民族性から、1つ以上の民族性であることを報告することがある。民族性予測のプロセス325を、前記解析システムが実行するものとして説明する;しかしながら、他の実施形態では、他のシステム、及び/又はデバイスが、前記プロセス325中に列挙したステップのうちの1つ以上を、実行することがある。前記cfDNAサンプルについて得られた配列リード(sequence reads)は、複数の単一ヌクレオチド多型(SNP)を、カバーする。
前記解析システムは、複数の配列リード(sequence reads)から、複数のSNPの各々についてのアレル頻度(allele frequency)を、決定する(505)。複数のSNPは、1000ゲノム・プロジェクト(「1000Gプロジェクト」とも呼ばれる)からの、ありふれたSNPであってもよい。ありふれたSNPは、少なくとも15というリード深度(read depth)を有する、及び1%以上のマイナー・アレル頻度(Minor Allele Frequency)を有する。前記解析システムは、SNPをカバーし、参照アレルを有する、前記配列リード(sequence reads)の割合をカウントすることによって、前記SNPについての参照アレルのアレル頻度(allele frequency)、を決定する。前記解析システムは更に、前記アレル頻度(allele frequency)から、各々のSNPの遺伝子型を決定することができる。例えば:前記参照アレルのアレル頻度(allele frequency)が、凡そ0である場合、前記遺伝子型を、ホモ接合型の代替と決定することがある;前記参照アレルのアレル頻度(allele frequency)が、凡そ0.5である場合、前記遺伝子型をヘテロ接合型と決定することがある;及び前記参照アレルのアレル頻度(allele frequency)が、凡そ1である場合、前記遺伝子型をホモ接合型の参照と決定することがある。
前記解析システムは、複数の民族性の各々について、複数のSNPの各々について、期待されるアレル頻度を取得する(510)。前記解析システムは、例えば、図1のプロセス100及び図2のプロセス200に従って、cfDNAサンプルに由来する配列リード(sequence reads)を有する個体の訓練セットを取得する。前記個体は、1つ以上の既知の民族性(それは、民族性コホートを確立することができる)を有する。いくつかの実施形態では、1つの民族性を報告する個体のみを、前記訓練セットにおいて使用し、その結果、その個体は混じった民族性ではない。前記解析システムは、各々の民族性に対して、及び各々のSNPに対して、期待されるアレル頻度を決定する。M個の民族性及びN個のSNPを考慮する場合、これによって、M×N個の期待されるアレル頻度が生じる。1つ以上の実施形態では、前記訓練セットを、外部データベースから導き出す。
前記解析システムは、期待されるアレル頻度から、前記SNPの各々の遺伝子型の割合を決定することができる。各々の遺伝子型の平衡状態にある集団の割合を、ハーディ-ワインベルグ(Hardy-Weinberg)方程式を用いて計算することができる。前記ハーディ-ワインベルグ(Hardy-Weinberg)方程式は、以下のように表される:

方程式(1)では:pは、1つのアレル頻度(allele frequency)(例えば、参照アレル頻度(reference allele frequency))を指す、及びqは、他のアレル頻度(allele frequency)(例えば、代替アレル頻度(alternate allele frequency))を指す。各々の遺伝子型の割合を、ホモ接合性の参照は項p2である、ヘテロ接合性は項2pqである、及びホモ接合性の代替は項q2である、というように分解する。
前記解析システムは、複数の染色体のうちの各々の染色体に対して、前記cfDNAサンプルの決定したアレル頻度、及び期待されるアレル頻度、に基づいて、複数の民族性の各々についての民族性確率を計算する(515)。1つの実施形態では、前記解析システムは、ベイズ規則(Bayes rule)に由来するベイズ確率(Bayesian probability)として、各々の染色体上の複数のSNPについて、決定されたアレル頻度(allele frequency)を条件にした、民族性についての民族性確率を計算し、これを、以下として表す:


方程式2では:P(Ex|D)は、前記cfDNAサンプルについてのアレル頻度に基づいて決定された染色体上のSNPs Nについての遺伝子型Dを条件にした、Exとして表される民族性xについての民族性確率である;方程式の右辺は、P(Ex|D)のベイズ確率(Bayesian probability)を表す;P(D|Ex)は、民族性Exの誰かが、前記cfDNAサンプルに一致する染色体上のSNPsについての遺伝子型Dを有する確率である;P(Ex)は、民族性Exである確率である;及びP(D)は、SNPsについての遺伝子型Dを観察する確率である。方程式2の右辺の項を、訓練セットの期待されるアレル頻度で近似することができ、グローバル集団の代表サンプルとなる。
従って、P(D|Ex)を、以下のように計算することができる:

方程式3では:民族性Exのコホートの訓練セットにおける、染色体上のSNPs N全体についての、前記cfDNAサンプルの遺伝子型Diの確率に関する生成演算子として、P(D|Ex)を計算する。項P(Di|Ex)を、ハーディ-ワインベルグ(Hardy-Weinberg)方程式(方程式1)によって、SNP iでの民族性Exのコホートの期待されるアレル頻度を使って、計算することができる。P(Ex)は、単に、民族性Exのコホートの訓練セットの割合である。P(D)を、以下のように計算する:


方程式4では:P(D)は、1からMまで反復する各々の民族性コホートjの訓練セットの割合(proportion)を、方程式3によって計算したP(D|Ej)を掛けながら、全ての民族性Mに関して、和をとる演算子に相当する。
上記計算の結果、前記cfDNAサンプルの複数の染色体の各々(検討下にある)は、各々の民族性についての民族性確率を、有する。例えば、22個の常染色体を考える、及び(東アジア系、南アジア系、ヨーロッパ系、混合があるアメリカ系、アフリカ系)に対して5種の民族性に分類する、場合、染色体1は、東アジア系の民族性確率、南アジア系の民族性確率、ヨーロッパ系の民族性確率、混合があるアメリカ系の民族性確率、及びアフリカ系の民族性確率、を有する。
前記解析システムは、複数の染色体について計算した民族性確率に基づいて、cfDNAサンプルについての1つ以上の民族性を、予測する(520)。前記解析システムは、前記染色体についての民族性確率に基づいて、各々の染色体についての民族性を、ランク付けすることがある。上記段落の例に続いて、前記解析システムは、染色体1についての民族性確率に従って、5種の民族性を、ランク付けする。民族性に関する、あるランクを有する全ての染色体を使用して、前記解析システムは、前記cfDNAサンプルは、全ての染色体にわたって、1という大多数のランクを有する民族性のものである、と予測することがある。例えば、東アジア系の民族性が、22個の染色体のうちの20個にわたって、第1にランク付けされた場合を考えると、前記解析システムは、前記cfDNAサンプルを東アジア系の民族性であると予測する(「第1の予測」とも呼ぶ)。2つ以上の民族性間に結びつきがある場合、前記解析システムは、前記cfDNAサンプルが結びついた民族性のものである、と予測することがある。
いくつかの実施形態では、前記解析システムは、第2の予測(「第2の予測した民族性」とも呼ぶ)を含む。そのような実施形態の1つの例として、前記解析システムは、考慮される全ての染色体にわたって、第1のランク付けされた予測に関して、全一致の一致(consensus)がない場合、第2の予測を含む。前記第2の予測を、異なる第1のランク付けされた予測を有する、異なる染色体から、同定する。言い換えれば、前記第1の予測した民族性は、前記第1の予測した民族性を、第1としてランク付けする染色体の最大数に対応する、及び前記第2の予測した民族性は、前記第2の予測した民族性を、第1としてランク付けする染色体の2番目に最も大きな数に対応する。例えば、16個の染色体がヨーロッパ系を第1としてランク付けした、及び6個の染色体がアフリカ系を第1としてランク付けした。前記解析システムは、多数合意(22個のうち16個)を前提とした、第1の予測としてヨーロッパ系を返す、及び多数合意とは異なる少数(22のうち6)を前提とした、第2の予測としてアフリカ系を返す。第2の予測を利用することは、混じった民族性のcfDNAサンプルが誤って無効と検証(invalidated)されないようにするのに役立つ。更なる実施形態では、染色体にわたる第2のランク付けされた予測を考慮することもある。前記解析システムは、後続の予測した民族性を、第1としてランク付けする染色体の次なる最大数に基づく、後続の予測を、更に含むことがある(例えば、第3の予測した民族性、第4の予測した民族性、など)。
II.B.III. 年齢予測
図6は、1つの実施形態による、cfDNAサンプルの年齢予測のプロセス330を説明するフローチャートを図示する。前記試験対象は、複数の年齢範囲のうちの、ある年齢範囲内にあることを報告することがある。例えば、年齢範囲を、年齢範囲が0-10歳、10-20歳、20-30歳、30-40歳、40-50歳、50-60歳、60-70歳、70-80歳などであるように、1範囲につき10歳で区分することがある。年齢予測のプロセス330を、前記解析システムが実行するものとして説明する;しかしながら、他の実施形態では、他のシステム及び/又はデバイスが、前記プロセス330中に列挙したステップのうちの1つ以上を、実行することがある。年齢予測330は、前記cfDNAサンプルのメチル化シークエンシング・データに依拠する。
前記解析システムは、プロセス330に従って、年齢を予測するための特徴として、1セットのCpG部位を選択する。1つの実施形態では、前記解析システムは、年齢と相関するメチル化密度を有すると判定されたCpG部位を示す、外部システムからの情報を取得する。これは、CpG部位の初期セットとして機能することがある。前記解析システムは、がん予測についての交絡特徴(confounding feature) (例えば、セクションIII.B. がん分類子の訓練、で後述する原理に従って同定した特徴)であるCpG部位を除外する。前記解析システムは、生物学的な性、民族性、他の特性、飲酒、喫煙習慣、他の行動習慣などを制御することもある。がん予測又は他の特性と交絡していない、残りのCpG部位を、年齢予測について回帰をする際に、特徴として、選択的に使用する。
いくつかの実施形態では、前記解析システムは、特徴のセットを更に減らして、より多くの情報があるCpG部位のうちのいくつかを選択する。CpG部位の初期セット中の各々のCpG部位について、前記解析システムは、様々な訓練セットの訓練サンプルを用いて、いくつかの回帰モデルを繰り返し訓練することがある。前記回帰モデルから、前記解析システムは、前記CpG部位に関連付けられた学習係数に従って、CpG部位をランク付けすることができる。学習係数は、前記CpG部位の予測力を表す。より大きな学習係数は、高い予測力を表す、経年でのメチル化密度のより大きな変化を表す。あるいは、小さな学習係数は、低い予測力を表す、経年でのメチル化密度の変化を、ほとんどから全く、示さない。正の学習係数は、メチル化密度と年齢との間の正の相関を表し、即ち、メチル化密度は、年齢が増大することにつれて増大する。負の学習係数は、メチル化密度と年齢との間の負の相関を表し、即ち、メチル化密度は、年齢が増大することにつれて減少する。いくつかの実施形態では、前記解析システムは、前記CpG部位の学習係数の分散で割った、複数の訓練済み回帰モデルにわたる、前記CpG部位の学習係数の絶対平均に従って、各々のCpG部位についての情報スコアを計算する。最上位数のCpG部位を、年齢を予測するために使用する特徴として、ランク付けから、選択することがある。
前記解析システムは、各々のCpG部位(例えば、上記段落に従って選択した特徴)について、前記cfDNAサンプル由来の配列リード(sequence reads)に基づいて、メチル化密度を決定する(605)。いくつかの実施形態では、前記解析システムは、例えば、図1Aのプロセス100に従って、各々の配列リード(sequence reads)からメチル化状態ベクトルを決定する。前記メチル化状態ベクトルは、特定のcfDNAフラグメントによってカバーされる、複数のCpG部位を記載する。前記メチル化状態ベクトルは、各々のカバーされるCpG部位におけるメチル化状態、を含む。前記解析システムは、メチル化されたというメチル化状態を有するメチル化状態ベクトル(前記cfDNAサンプル中のcfDNAフラグメントを表す)の割合を計算することによって、各々のCpG部位についてのメチル化密度を決定する。いくつかの実施形態では、メチル化という状態又は非メチル化という状態を有するメチル化状態ベクトルのみをカウントし、一方、不明という状態を有するメチル化状態ベクトルを除外する。
前記解析システムは、複数のCpG部位について決定したメチル化密度に、訓練済み回帰モデルを適用することによって、前記cfDNAサンプルについての年齢範囲を、予測する(610)。前記訓練済み回帰モデルは、複数のCpG部位についての決定したメチル化密度を入力する、及び複数の年齢範囲の中から、予測した年齢範囲を出力する。前記訓練済み回帰モデルを、cfDNAサンプルの訓練セットを用いて、訓練する(各々のcfDNAサンプルは、複数のCpG部位での既知のメチル化密度、及び既知の年齢、を有する)。1つ以上の実施形態では、前記回帰モデルを訓練するときに、正則化因子を、損失関数に実装する。前記解析システムは、前記損失関数の係数を最小化して、前記訓練セットをモデル化することがある。いくつかの実施形態では、周期的座標降下法(cyclical coordinate descent)、勾配降下(gradient descent)、ニュートン法(Newton’s method)、準ニュートン法(Quasi-Newton methods)、シンプレックス・アルゴリズム(simplex algorithm)、又は他の降下アルゴリズムなどの最適化アルゴリズムを使用して、前記損失関数を最小化することがある。前記解析システムは更に、前記訓練済み回帰モデルを相互検証して、そのモデルの予測の精度を測定することがある。
II.C. 異常フラグメントの同定
前記解析システムは、サンプルのメチル化状態ベクトルを使用して、前記サンプルの異常フラグメントを決定する。サンプル中の各々のフラグメントについて、前記解析システムは、前記フラグメントに対応するメチル化状態ベクトルを使用して、前記フラグメントが異常フラグメントであるかどうかを、決定する。1つの実施形態では、前記解析システムは、各々のメチル化状態ベクトルについてのp-値スコア(これは、そのメチル化状態ベクトルを観察する確率、又は健常コントロール群において、より低い可能性であっても、他のメチル化状態ベクトルを観察する確率、を記載する)を計算する。p-値スコアを計算するためのプロセスを、セクションII.B.iにおいて、以下で更に検討する。
P-値フィルタリング(P-Value Filtering)。前記解析システムは、閾値p-値を下回るメチル化状態ベクトルを有するフラグメントを、異常フラグメントとして決定することがある。別の実施形態では、前記解析システムが更に、高メチル化フラグメント及び低メチル化フラグメントとして、それぞれ、ある閾値割合を超えるメチル化又は非メチル化を有する少なくともいくつかの数のCpG部位で、フラグメントを標識する。高メチル化フラグメント又は低メチル化フラグメントを、極端なメチル化を有する異常なフラグメント(unusual fragment with extreme methylation(UFXM))として、呼ぶことがある。 他の実施形態では、前記解析システムは、異常フラグメントを決定するための様々な他の確率論的モデルを、実装することがある。他の確率論的モデルの例としては、混合モデル(mixture model)、深い確率論的モデル(deep probabilistic model)、などが挙げられる。いくつかの実施形態では、前記解析システムは、異常フラグメントを同定するために、以下に記載するプロセスの任意の組合せを使用することがある。同定した異常フラグメントを使用して、前記解析システムは、他のプロセスにおいて使用するため(例えば、がん分類子を訓練する際に及び配置する際に使用するため)、サンプルのメチル化状態ベクトルのセットを、フィルタリングすることがある。
II.C.I. P-値フィルタリング(P-Value Filtering)
1つの実施形態では、前記解析システムは、健常コントロール群におけるフラグメント由来のメチル化状態ベクトルと比較して、各々のメチル化状態ベクトルについてのp-値スコアを計算する。前記p-値スコアは、前記メチル化状態を観察する確率(これは、そのメチル化状態ベクトルに一致するメチル化状態を観察する確率、又は健常コントロール群において、より低い可能性であっても、他のメチル化状態ベクトルに一致するメチル化状態を観察する確率、を記載する)を記載する。異常にメチル化されているDNAフラグメントを決定するために、前記解析システムは、正常にメチル化されるフラグメントの大部分を有する、健常コントロール群を使用する。異常フラグメントを決定するステップために、この確率論的解析を実行する場合、前記決定は、健常コントロール群を構成するコントロール対象群と比べて、重みを保持する。健常コントロール群における頑健性を確実にするために、前記解析システムは、ある閾値数の健常個体を選択して、DNAフラグメントを含むサンプルを供給する。以下の図7Aは、前記解析システムがp-値スコアを計算するのに使用する、健常コントロール群のデータ構造を生成する方法、を説明する。図7Bは、生成したデータ構造を使用して、p-値スコアを計算する方法、を説明する。
図7Aは、1つの実施形態による、健常コントロール群のデータ構造を生成するステップに関する、プロセス700を説明するフローチャートである。健常コントロール群のデータ構造を生成するために、前記解析システムは、複数の健常な個体から、複数のDNAフラグメント(例えば、cfDNA)を受け取る。メチル化状態ベクトルを、例えば、プロセス100を介して、各々のフラグメントについて、同定する。
各々のフラグメントのメチル化状態ベクトルを使用して、前記解析システムは、前記メチル化状態ベクトルを、CpG部位の文字列に細分する(705)。1つの実施形態では、前記解析システムは、メチル化状態ベクトルを細分し、結果として得られる文字列が全て、所与の長さ未満になる(705)。例えば、長さ11のメチル化状態ベクトルを、3以下の長さの文字列に細分することがある、これを行えば、長さ3の9個の文字列、長さ2の10個の文字列、及び長さ1の11個の文字列がもたらされる。別の例では、長さ7のメチル化状態ベクトルを、4以下の長さの文字列に細分することがある、これを行えば、長さ4の4個の文字列、長さ3の5個の文字列、長さ2の6個の文字列、及び長さ1の7個の文字列がもたらされる。もし、メチル化状態ベクトルが、指定した文字列長より短いか同じ長さの場合、前記メチル化状態ベクトルを、前記ベクトルの全てのCpG部位を含む単一の文字列に変換する。
前記解析システムは、各々の可能性のあるCpG部位及び前記ベクトル中のメチル化状態の可能性について、文字列中の第1のCpG部位として特定したCpG部位を有する、及びメチル化状態の可能性を有する、コントロール群中に存在する文字列の個数を、カウントすることによって、文字列を集計する(710)。例えば、所与のCpG部位において、3という文字列長を考慮すると、2^3個の又は8個の文字列構成が考えられる。この所与のCpG部位において、8個の考えられる文字列構成の各々について、前記解析システムは、前記コントロール群において、各々のメチル化状態ベクトルの可能性が発生する回数を集計する(710)。この事例を続けると、これは、以下の数量を集計することを含むことがある:参照ゲノム中の各々の開始CpG部位xについての< Mx, Mx+1, Mx+2 >, < Mx, Mx+1, Ux+2>, . . ., < Ux, Ux+1, Ux+2 >。前記解析システムは、各々の開始CpG部位及び文字列の可能性についての集計したカウントを格納するデータ構造を生成する(715)。
文字列の長さの上限を設定することには、いくつかの利点がある。まず第1に、文字列の最大の長さに応じて、前記解析システムが生成するデータ構造のサイズは、劇的に増大することがある。例えば、4という最大の文字列の長さは、どのCpG部位も、長さ4 の文字列を集計するために、少なくとも2^4通りの数を有することを意味する。最大の文字列の長さを5に増やすと、どのCpG部位も、集計するために、更に2^4 又は16 通りの数を有することを意味し、前の文字列の長さと比較して、集計する(及び必要とするコンピュータ・メモリーの)数が2倍になる。文字列のサイズを減少させると、計算及び記憶の観点において、データ構造の生成及び性能(例えば、後述するように後でアクセスするための使用)を合理的に保つのに役立つ。そして第2に、最大の文字列の長さを制限することへの統計的な考慮事項は、文字列カウントを使用する下流のモデルをオーバーフィッティングしてしまうことを回避することである。CpG部位の長い文字列が、生物学的には、その結果(例えば、がんの存在を予測する異常という予測)に強い影響を及ぼさない場合、大きな文字列のCpG部位に基づいて確率を計算することは、利用できない大量のデータを必要とし、従って、あまりにも少なくてモデルが適切に実行できなくなり、問題となることがある。例えば、前の100個のCpG部位で調整した、異常/がんの確率を計算することは、長さ100のデータ構造中の文字列のカウントを必要とする(理想的には、前の100個のメチル化状態と正確に一致するものがある)。長さ100の文字列の少ないカウントのみが利用可能な場合、試験サンプル内の100の長さの所与の文字列が異常であるかどうかを決定するのに、存在するデータは不十分であることになる。
図7Bは、1つの実施形態による、個体由来の異常にメチル化されたフラグメントを同定するステップに関する、プロセス720を説明するフローチャートである。プロセス720では、前記解析システムは、前記対象のcfDNAフラグメント由来の100個のメチル化状態ベクトルを生成する。前記解析システムは、各々のメチル化状態ベクトルを、以下のように扱う。
所与のメチル化状態ベクトルについて、前記解析システムは、メチル化状態ベクトル中に同じ開始CpG部位及び同じ長さ(即ち、CpG部位のセット)を有するメチル化状態ベクトルに関する全ての可能性を列挙する(730)。各々のメチル化状態は、一般的に、メチル化されている、又はメチル化されていない、のいずれかであるので、各々のCpG部位には、事実上2つの起こり得る状態がある。従って、メチル化状態ベクトルに関して区別される可能性のカウントは、2のべき乗に依存し、その結果、長さnのメチル化状態ベクトルは、2n通りの可能性のメチル化状態ベクトルに関連付けられる。1つ以上のCpG部位について、不明状態を含むメチル化状態ベクトルを使用して、前記解析システムは、状態を観測したCpG部位のみを考慮して、メチル化状態ベクトルの可能性を列挙することがある(730)。
前記解析システムは、健常コントロール群のデータ構造にアクセスすることによって、同定した開始CpG部位及びメチル化状態ベクトルの長さについての、メチル化状態ベクトルの各々の可能性を観察する確率を計算する(740)。1つの実施形態では、所与の可能性を観測する確率を計算するステップは、マルコフ連鎖確率を使用して、結合確率の計算のモデルを作る。他の実施形態では、マルコフ連鎖確率以外の計算方法を使用して、メチル化状態ベクトルの各々の可能性を観察する確率を決定する。
前記解析システムは、各々の可能性について計算した確率を使用して、メチル化状態ベクトルについてのp-値スコアを計算する(750)。1つの実施形態では、これは、懸案のメチル化状態ベクトルに一致する可能性に対応する、計算された確率を同定するステップを含む。具体的には、これは、前記メチル化状態ベクトルと、同じセットのCpG部位、を有する可能性、又は同様に、同じ開始CpG部位及び長さ、を有する可能性、である。前記解析システムは、同定した確率以下の確率を有する任意の可能性に関する、計算された確率を合計して、p-値スコアを生成する。
このp-値は、前記フラグメントのメチル化状態ベクトルを観察する確率、又は健常コントロール群において、より低い可能性であっても、他のメチル化状態ベクトルを観察する確率、を表す。従って、低いp-値スコアは、一般的に、健常な個体においてまれであり、健常コントロール群と比較して、異常にメチル化したと前記フラグメントをラベルする、メチル化状態ベクトルに対応する。メチル化状態ベクトルに一般的に関する高いp-値スコアは、健常な個体において、相対的な意味で、存在すると予想される。健常コントロール群が非-がん性群である場合、例えば、低いp-値は、前記フラグメントが、非-がん性群と比較して、異常にメチル化されていることを示し、従って、前記試験対象において、がんの存在を示す可能性がある。
上記のように、前記解析システムは、複数のメチル化状態ベクトルの各々についてのp-値スコアを計算する(各々は、前記試験サンプル中のcfDNAフラグメントを表す)。どのフラグメントが異常にメチル化されているかを同定するために、前記解析システムは、メチル化状態ベクトルのセットを、それらのp-値スコアに基づいて、フィルタリングすることがある(760)。1つの実施形態では、フィルタリングは、前記p-値スコアを閾値と比較し、前記閾値未満のそれらのフラグメントのみを保つことによって、実行する。この閾値p-値スコアは、0.1、0.01、0.001、0.0001、又は同様のオーダー、であることがある。
プロセス400からの例示的な結果によれば、前記解析システムは、訓練に際して、がんの無い参加者についての異常なメチル化パターンを有する、2,800(1,500-12,000) のメジアン(範囲)のフラグメント、及び訓練に際して、がんのある参加者についての異常なメチル化パターンを有する、3,000(1,200-220,000) のメジアン(範囲)のフラグメント、をもたらす。これらのフィルタリングした、異常なメチル化パターンを有するフラグメントのセットを、以下のセクションIIIで説明するように、その後の解析に使用することがある。
1つの実施形態では、前記解析システムは、スライディング・ウィンドウ(sliding window)を使用して、メチル化状態ベクトルの可能性を決定し、p-値を計算する(755)。メチル化状態ベクトル全体についての可能性を列挙し、p-値を計算するのではなく、前記解析システムは、連続したCpG部位のウィンドウのみについての可能性を列挙し、p-値を計算する、ここで、前記ウィンドウは、少なくともいくつかのフラグメントよりも(CpG部位の)長さが短い(そうではない場合は、前記ウィンドウは役に立たないであろう)。前記ウィンドウの長さは、静的である、ユーザ決定である、動的である、又は他で選択する、ことがある。
前記ウィンドウよりも大きいメチル化状態ベクトルについてのp-値を計算する際、前記ウィンドウは、前記ベクトル中の第1のCpG部位から始まる前記ウィンドウ内の前記ベクトルから、CpG部位の連続的なセットを、同定する。前記解析システムは、第1のCpG部位を含むウィンドウについてのp-値スコアを計算する。次に、前記解析システムは、前記ウィンドウを、前記ベクトル内の第2のCpG部位に「スライド」する、及び第2のウィンドウについての別のp-値スコアを計算する。従って、ウィンドウ・サイズl及びメチル化ベクトルの長さmについて、各々のメチル化状態ベクトルは、m-l+1個のp-値スコアを生成する。前記ベクトルの各々の部分についてのp-値の計算が完了した後、全てのスライディング・ウィンドウ(sliding window)からの最低p-値スコアを、メチル化状態ベクトルについての全体p-値スコアとする。別の実施形態では、前記解析システムは、メチル化状態ベクトルのp-値スコアを集約して、全体p-値スコアを生成する。
スライディング・ウィンドウ(sliding window)を使用することは、メチル化状態ベクトルに関して列挙される可能性の数、及び別段に実施される必要があるそれらの対応する確率の計算、を低減するのに役立つ。現実的な例を示すために、フラグメントは54個以上の CpG部位を有することが可能である。単一のp-スコアを生成するために2^54(~1.8×10^16)通りの可能性の確率を計算する代わりに、前記解析システムは、サイズ5(例えば)のウィンドウを代わりに使用することができ、その結果、そのフラグメントについてのメチル化状態ベクトルに関して、50個のウィンドウの各々について、50個のp-値を計算することになる。50個の計算の各々は、メチル化状態ベクトルの2^5(32)通りの可能性を列挙し、その総計は、50×2^5(1.6×10^3)個の確率計算をもたらす。この結果、異常フラグメントを正確に同定することに有意な影響を与えることなく、実行するべき計算が大幅に減少することになる。
不明状態がある実施形態では、前記解析システムは、フラグメントのメチル化状態ベクトル内の不明状態であるCpG部位を合計するp-値スコアを計算することがある。前記解析システムは、不明状態を除く、メチル化状態ベクトルの全てのメチル化状態、との一致(consensus)を有する全ての可能性を同定する。前記解析システムは、同定した可能性の確率の合計として、前記メチル化状態ベクトルに確率を割り当てることがある。例として、前記解析システムは、< M1, I2, U3 >というメチル化状態ベクトルの確率を、< M1, M2, U3> 及び < M1, U2, U3 >というメチル化状態ベクトルの可能性についての確率の合計として計算する。なぜなら、CpG部位1及び3のメチル化状態は観察され、CpG部位1及び3でのフラグメントのメチル化状態との一致(consensus)があるからである。不明状態を有するCpG部位を合計するこの方法は、せいぜい2^i通り程度の可能性に関する確率の計算を使用する、ここで、iは、前記メチル化状態ベクトル中の不明状態の数を示す。更なる実施形態では、ダイナミック・プログラミング・アルゴリズム(dynamic programming algorithm)を実装して、1つ以上の不明状態があるメチル化状態ベクトルの確率を計算することがある。有利な点としては、前記ダイナミック・プログラミング・アルゴリズム(dynamic programming algorithm)は、線形的な計算時間で動作する。
1つの実施形態では、確率及び/又はp-値スコアを計算する計算負荷を、少なくともいくつかの計算をキャッシュすることによって、更に減少させることがある。例えば、前記解析システムは、メチル化状態ベクトル(又はそのウィンドウ)の可能性についての確率の計算を、一過性の又は永続的なメモリにキャッシュすることがある。他のフラグメントが同じCpG部位を有する場合、可能性確率をキャッシュすることによって、p-スコア値を、その基礎となる確率を再計算する必要無しに、効率的に計算することが可能になる。同等に、前記解析システムは、ベクトル(又はそのウィンドウ)からCpG部位のセットに関連するメチル化状態ベクトルの可能性の各々について、p-値スコアを計算することがある。前記解析システムは、同じCpG部位を含む他のフラグメントのp-値スコアを決定する際に使用するためのp-値スコアを、キャッシュすることがある。一般的に、同じCpG部位を有するメチル化状態ベクトルの可能性のp-値スコアを使用して、同じCpG部位のセットからの可能性のうちの別の1つのp-値スコアを決定することがある。
II.C.II. 高メチル化フラグメント及び低メチル化フラグメント
別の実施形態では、前記解析システムは閾値を超える数のCpG部位を有する、且つ、メチル化されたCpG部位の閾値割合を超える、又はメチル化されていないCpG部位の閾値割合を超える、フラグメントとして、異常フラグメントを決定する;前記解析システムは、そのようなフラグメントを高メチル化フラグメント又は低メチル化フラグメントとして、同定する。フラグメント(又はCpG部位)の長さについての例示的な閾値としては、3、4、5、6、7、8、9、10を超えるなど、が挙げられる。メチル化又は非メチル化についての例示的な割合閾値としては、80%、85%、90%、若しくは95%超、又は50%-100%の範囲内の任意の他の割合、が挙げられる。
II.D. 例示的な解析システム
図9Aは、1つの実施形態による、核酸サンプルをシークエンシングするステップのためのデバイスのフローチャートである。この例示的なフローチャートは、シークエンサー920及び解析システム900などのデバイスを含む。前記シークエンサー920及び前記解析システム900は、タンデム(tandem)に機能し、図1Aのプロセス100、図7Aのプロセス700、図7Bのプロセス720、及び本出願で説明する他のプロセス、における1つ以上のステップを実行することがある。
様々な実施形態では、前記シークエンサー920は、富化した核酸サンプル910を受け取る。図9Aで示すように、前記シークエンサー920は、特定の作業(例えば、シークエンシングを開始する又は終了する)でのユーザ・インタラクション(user interactions)を可能にする、グラフィカル・ユーザ・インターフェース925、並びに富化したフラグメント・サンプルを含むシークエンシング・カートリッジをローディング(loading)するための、及び/又はそのシークエンシング・アッセイを実行するために必須のバッファーをローディングするための、1つ以上のローディング・ステーション(loading station)930、を含むことがある。従って、前記シークエンサー920のユーザは、前記シークエンサー920のローディング・ステーション930に、必要な試薬及びシークエンシング・カートリッジを供給すると、前記ユーザは、前記シークエンサー920のグラフィカル・ユーザ・インターフェース925とインタラクションすることによって、シークエンシングを開始することができる。開始されると、前記シークエンサー920は、シークエンシングを実行し、核酸サンプル910由来の富化したフラグメントの配列リード(sequence reads)を出力する。
いくつかの実施形態では、前記シークエンサー920を、前記解析システム900と通信可能に共役させる。前記解析システム900は、1つ以上のCpG部位でのメチル化状態の評価、バリアント・コーリング(variant calling)、又は品質管理、などの様々な用途のために、前記配列リード(sequence reads)を処理するために使用する、いくつかの計算デバイスを含む。前記シークエンサー920は、BAMファイル・フォーマットの配列リード(sequence reads)を、前記解析システム900に提供することがある。前記解析システム900を、無線通信技術、有線通信技術、又は無線通信技術と有線通信技術との組合せ、を介して、前記シークエンサー920に通信可能に共役させることがある。一般的に、前記解析システム900は、プロセッサ、及び、前記プロセッサによって実行されると、前記プロセッサに、前記配列リード(sequence reads)を処理させる、又は本出願に開示される方法若しくはプロセスの何れかの1つ以上のステップを実行させる、計算命令を記憶する、非-一過性のコンピュータ可読記憶媒体、で構成される。
いくつかの実施形態では、当該技術分野で公知の方法を用いて(例えば、図1Aでのプロセス100のステップ140を介して)、前記配列リード(sequence reads)を、参照ゲノムに対してアライメントして、アライメント位置の情報を決定することがある。アライメント位置は、一般に、所与の配列リード(sequence reads)の開始ヌクレオチド塩基及び終了ヌクレオチド塩基に対応する、参照ゲノム中の領域の開始位置及び終了位置、を記載することがある。メチル化シークエンシングに対応して、前記アライメント位置の情報を一般化して、前記参照ゲノムに対するアライメントに従って、前記配列リード(sequence reads)に含まれる、最初のCpG部位及び最後のCpG部位を示すことがある。前記アライメント位置情報は、所与の配列リード(sequence reads)中の全てのCpG部位の、メチル化状態及び位置、を更に示すことがある。参照ゲノム中の領域は、遺伝子又は遺伝子のセグメント、に関連することがある;そのようなものとして、前記解析システム900は、配列リード(sequence reads)を、前記配列リード(sequence reads)とのアライメントを作る1つ以上の遺伝子で、ラベル付けすることがある。1つの実施形態では、フラグメント長(又はサイズ)を、開始位置及び終了位置から決定する。
様々な実施形態では、例えば、ペアド-エンド・シークエンシング(paired-end sequencing)のプロセスを使用する場合、配列リード(sequence reads)は、R_1及びR_2として示すリード・ペア(read pair)からなる。例えば、前記第1のリードR_1を、二本鎖DNA(dsDNA)分子の第1の末端からシークエンシングすることがある、一方、前記第2のリードR_2を、二本鎖DNA(dsDNA)の第2の末端からシークエンシングすることがある。従って、第1のリードR_1のヌクレオチド塩基対及び第2のリードR_2のヌクレオチド塩基対を、前記参照ゲノムのヌクレオチド塩と、一致させて(例えば、逆向きに)アライメントを作ることがある。リード・ペアR_1及びR_2から導出されるアライメント位置情報は、第1のリード(例えば、R_1)の末端に対応する参照ゲノム内の開始位置、及び第2のリード(例えば、R_2)の末端に対応する参照ゲノム内の終了位置、を含むことがある。言い換えれば、前記参照ゲノムにおける開始位置及び終了位置は、前記核酸フラグメントが対応する参照ゲノム内の可能性のある位置を表す。SAM (配列アライメント地図)フォーマット又はBAM(バイナリー)フォーマットを有する出力ファイルを生成することがある、及び更なる解析のために出力することがある。
ここで図9Bを参照すると、図9Bは、1つの実施形態による、DNAサンプルをプロセシングするステップのための、解析システム900の構成図である。前記解析システムは、DNAサンプルを解析する際に使用するための、1つ以上の計算デバイスを実装する。前記解析システム900は、配列プロセッサ940、配列データベース945、モデル・データベース955、モデル950、パラメータ・データベース965、及びスコア・エンジン960、を含む。いくつかの実施形態では、前記解析システム900は、図1Aのプロセス100及び図7のプロセス700の、一部又は全部を実行する。
配列プロセッサ940は、サンプル由来のフラグメントについてのメチル化状態ベクトルを生成する。フラグメント上の各々のCpG部位で、前記配列プロセッサ940は、図1Aのプロセス100を介して、前記参照ゲノム中のフラグメントの位置、前記フラグメント中のCpG部位の数、及び前記フラグメント中の各々のCpG部位のメチル化状態(メチル化、非メチル化、又は不明、であるかどうか)、を特定する、各々のフラグメントについてのメチル化状態ベクトルを、生成する。前記配列プロセッサ940は、フラグメントについてのメチル化状態ベクトルを、配列データベース945に、保存することがある。前記配列データベース945内のデータを、編成することがあり、その結果、サンプルからのメチル化状態ベクトルは、お互いに関連付けられる。
更に、多数の様々なモデル950を、モデル・データベース955中に記憶する、又は試験サンプルと共に使用するために取り出すことがある。1つの例では、モデルは、異常フラグメントから導出した特徴ベクトルを使用して、試験サンプルについて、がん予測を決定するステップための、訓練されたがん分類子である。前記がん分類子を訓練するステップ及び使用を、セクションIII.がんを決定するステップのためののがん分類子、と併せて、更に説明する。前記解析システム900は、1つ以上のモデル950を訓練する、及び様々な訓練されたパラメータを、パラメータ・データベース965中に記憶することがある。前記解析システム900は、前記モデル950を、機能と共に、モデル・データベース955中に記憶する。
推論中、前記スコア・エンジン960は、1つ以上のモデル950を使用して、出力を返す。前記スコア・エンジン960は、パラメータ・データベース965からの訓練済みパラメータと共に、モデル・データベース955中のモデル950にアクセスする。各々のモデルによれば、前記スコア・エンジンは、前記モデルについての適切な入力を受け取る、並びに受け取った入力、パラメータ、及び前記入力及び出力とを関連付ける各々のモデルの機能、に基づいて出力を計算する。いくつかの使用事例では、前記スコア・エンジン960は、前記モデルから計算した出力における信頼度に相関する測定基準を更に計算する。他の使用事例では、前記スコア・エンジン960は、前記モデルで使用するための他の中間値を計算する。
III. がんを決定するステップのためのがん分類子
III.A. 概要
前記がん分類子を訓練して、試験サンプルの特徴ベクトルを受け取る、及び前記試験サンプルが、がん、又はより具体的には、特定のがんタイプ、を有する試験対象由来のものであるかどうか、を決定する。前記がん分類子は、複数の分類パラメータ、並びに入力としての特徴ベクトル、と、前記分類パラメータを用いて、その入力特徴ベクトルに対して演算を行う機能によって決定される、出力としてのがん予測、との間の関係を表す機能、を備える。1つの実施形態では、前記がん分類子に入力される特徴ベクトルは、前記試験サンプルから決定する、1セットの異常フラグメント、に基づく。前記異常フラグメントは、図7Bのプロセス720を介して、決定されることがある、又はより具体的には、プロセス720のステップ770を介して決定するような、高メチル化及び低メチル化フラグメントであることがある、又は何らかの他のプロセスに従って決定される異常フラグメントであることがある。前記がん分類子を使用する前に、前記解析システムは、前記がん分類子を訓練する。
III.B. がん分類子の訓練
図8Aは、1つの実施形態による、がん分類子を訓練するステップに関する、プロセス800を説明するフローチャートである。前記解析システムは、各々が1セットの異常フラグメント及びがんタイプのラベルを有する、複数の訓練サンプルを取得する(810)。複数の訓練サンプルは、「非-がん」という一般的なラベルを有する健常な個体由来のサンプル、「がん」という一般的なラベル又は具体的なラベル (例えば、「乳がん」、「肺がん」など)を有する対象由来のサンプル、の任意の組み合わせ、を含む。1つのがんタイプについての対象由来の訓練サンプルを、そのがんタイプについてのコホート、又はがんタイプ・コホート、と呼ぶことがある。
前記解析システムは、各々の訓練サンプルについて、前記訓練サンプルの異常フラグメントのセットに基づいて、特徴ベクトルを決定する(820)。前記解析システムは、CpG部位の初期セット中の各々のCpG部位について、異常スコアを計算する。CpG部位の初期セットは、ヒト・ゲノム又はその一部の中の全てのCpG部位であることがある-これは、104、105、106、107、108などのオーダーであることがある。1つの実施形態では、前記解析システムは、前記CpG部位を包含する異常フラグメントのセット中に異常フラグメントがあるかどうかに基づいた2値のスコアを使って、前記特徴ベクトルについて、異常スコアを定義する。別の実施形態では、前記解析システムは、前記CpG部位と重なる異常フラグメントのカウントに基づいて、異常スコアを定義する。1つの実施形態では、前記解析システムは、異常フラグメントの存在の欠如についての第1のスコア、数個の異常フラグメントの存在についての第2のスコア、及び数個よりも多くの異常フラグメントの存在についての第3のスコア、を割り当てる3値のスコアリングを使用することがある。例えば、前記解析システムは、前記CpG部位と重なるサンプル内の5個の異常フラグメントをカウントする、及び5というカウントに基づいて異常スコアを計算する。
訓練サンプルについて全ての異常スコアを決定すると、前記解析システムは、初期セット中のCpG部位のうちの1つに関連付けた異常スコアのうちの1つを、各々の要素について、含む要素のベクトルとして、特徴ベクトルを決定する。前記解析システムは、前記サンプルの被覆(coverage)に基づいて、前記特徴ベクトルの異常スコアを正規化する。ここで、被覆(coverage)とは、前記分類子で使用されるCpG部位の初期セットがカバーする(cover)、又は所与の訓練サンプルについての異常フラグメントのセットに基づく、全てのCpG部位にわたる、メジアン又は平均シークエンシング深度(sequencing depth)を指す。
例として、ここで、訓練特徴ベクトル822のマトリクスを図示する図8Bに言及する。この例では、前記解析システムは、がん分類子について、特徴ベクトルを生成する際に考慮するために、CpG部位[K]826を同定する。前記解析システムは、訓練サンプル[N]824を選択する。前記解析システムは、訓練サンプル[n1]の特徴ベクトルで使用する第1の任意のCpG部位[k1]について、第1の異常スコア828を決定する。前記解析システムは、異常フラグメントのセット中の各々の異常フラグメントをチェックする。前記解析システムが、第1のCpG部位を含む少なくとも1つの異常フラグメントを同定する場合、次に、前記解析システムは、図8Bに示すように、第1のCpG部位の第1の異常スコア828を、1として決定する。第2の任意のCpG部位[k2]を考慮すると、前記解析システムは、第2のCpG部位[k2]を含む少なくとも1つについて異常フラグメントのセットを同様にチェックする。前記解析システムが、第2のCpG部位を含むそのような異常フラグメントを見つけない場合、前記解析システムは、図8Bに示すように、第2のCpG部位[k2]の第2の異常スコア829を、0であると決定する。前記解析システムは、CpG部位の初期セットについての全ての異常スコアを決定すると、前記解析システムは、第1のCpG部位[k1]についての1という第1の異常スコア828、及び第2のCpG部位[k2] についての0という第2の異常スコア829、並びにその後の異常スコア、を含む特徴ベクトルを有する異常スコアを含む、第1の訓練サンプル[n1]についての特徴ベクトルを決定する、従って、特徴ベクトル[1,0、...]を形成する。
前記解析システムは更に、前記がん分類子での使用のために考慮されるCpG部位を制限することがある。前記解析システムは、CpG部位の初期セット中の各々のCpG部位について、前記訓練サンプルの特徴ベクトルに基づく情報ゲイン(information gain)を計算する(830)。ステップ820から、各々の訓練サンプルは、ヒト・ゲノム中の多くても全てのCpG部位を含むことがある、CpG部位の初期セット中の全てのCpG部位の異常スコアを含むことがある特徴ベクトルを、有する。しかしながら、CpG部位の初期セット中のいくつかのCpG部位は、がんタイプを区別する際に他のものほど情報が無い場合がある、又は他のCpG部位と重複する場合がある。
1つの実施形態では、前記解析システムは、各々のがんタイプについて、及び初期セット中の各々のCpG部位について、そのCpG部位を前記分類子に含めるかどうかを決定するために、情報ゲイン(information gain)を計算する(830)。前記情報ゲインを、他の全てのサンプルと比較して、所与がんタイプを有する訓練サンプルについて、計算する。例えば、2 つのランダム変数'異常フラグメント'('AF')及び'がんタイプ'('CT')を使用する。1つの実施形態では、AFは、上記の異常スコア/特徴ベクトルについて決定したように、所与のサンプル中の所与のCpG部位と重なる異常フラグメントが存在するかどうかを示す、2値の変数である。CTは、前記がんが特定のタイプであるかどうかを示すランダム変数である。前記解析システムは、AFを条件にしたCTに関する相互情報を計算する。即ち、特定のCpG部位に重なる異常フラグメントがあるかどうかが既知であれば、がんタイプに関する情報に関して何ビット(bit)が得られる(gained)か、ということである。
所与のがんタイプについて、前記解析システムは、この情報を使用して、CpG部位を、それらが、どの位がん特異的であるかに基づいて、ランク付けする。この手続きを、検討中の全てのがんタイプに対して繰り返す。特定の領域が、所与のがんの訓練サンプル中では一般に異常にメチル化されているが、他のがんタイプの訓練サンプル中、又は健常の訓練サンプル中、では異常にメチル化されていない場合、それらの異常フラグメントが重なるCpG部位は、所与のがんタイプについての高い情報ゲインを有する傾向がある。各々のがんタイプについてのランク付けされたCpG部位を、CpG部位の選択したセットに、前記がん分類子で使用するためのそれらのランクに基づいて、更に追加する(選択する)(840)。
更なる実施形態では、前記解析システムは、前記がん分類子で使用するための情報があるCpG部位、を選択するための他の選択基準、を考慮することがある。1つの選択基準は、前記選択したCpG部位が、他の選択したCpG部位から分ける閾値を上回ること、であることがある。例えば、前記選択したCpG部位は、任意の他の選択したCpG部位から離れている塩基対の数の閾値(例えば、100塩基対)を超えるものである。その結果、閾値内で離れたCpG部位は、両方ともを、前記がん分類子において検討のために選択するわけではない。
1つの実施形態では、CpG部位の初期セットから選択したセットに従って、前記解析システムは、必要に応じて訓練サンプルの特徴ベクトルを改変することがある(850)。例えば、前記解析システムは、特徴ベクトルの一部を切り、CpG部位の選択したセット中にはないCpG部位、に対応する異常スコアを除去することがある。
前記訓練サンプルの前記特徴ベクトルを使用して、前記解析システムは、多くの方法のうちの何れかで、前記がん分類子を訓練することがある。前記特徴ベクトルは、ステップ820からのCpG部位の初期セット、又はステップ850からのCpG部位の選択したセット、に対応することがある。1つの実施形態では、前記解析システムは、前記訓練サンプルの特徴ベクトルに基づいて、がんと非-がんとを区別するために、2値のがん分類子を訓練する(860)。このようにして、前記解析システムは、健常な個体由来の非-がんサンプル及び対象由来のがんサンプルの両方を含む訓練サンプル、を使用する。各々の訓練サンプルは、「がん」又は「非-がん」の2つのラベルのうちの1つを有する。この実施形態では、前記分類子は、がんの有無の尤度を示すがん予測を出力する。
別の実施形態では、前記解析システムは、多くのがんタイプを区別するためのマルチクラスがん分類子(起源組織(tissue of origin (TOO))ラベルとも呼ぶ)を訓練する(850)。がんタイプは、1種以上がんを含む、及び非-がんタイプを含むことがある(任意の更なる他の疾患又は遺伝子障害などを、含むこともある)。そうするために、前記解析システムは、がんタイプのコホートを使用する、及び非-がんタイプのコホートを含むことも、含まないことも、ある。このマルチ-がんの実施形態では、前記がん分類子を、前記がんタイプの各々を分類する予測値を含む、がん予測(又は、より具体的には、TOO予測)を決定するように訓練する。予測値は、所与の訓練サンプル(及び推論中にあっては、試験サンプル)ががんタイプの各々を有する尤度、に対応することがある。1つの実施では、前記予測値を、0と100の間でスコア付けする、ここで、前記予測値を累和すると100に等しい。例えば、前記がん分類子は、乳がん、肺がん、及び非-がんについての予測値を含むがん予測を返す。例えば、前記分類子は、試験サンプルが、乳がんについて65%の尤度、肺がんについて25%の尤度、及び非-がんについて10%の尤度、であるというがん予測を返すことがある。前記解析システムは、1つ以上のTOOラベル(例えば、最も高い予測値を有する第1のTOOラベル、2番目に高い予測値を有する第2のTOOラベル、など)を示すTOO予測、と呼ぶこともある、前記サンプル中の1種以上がんの存在の予測、を生成するために、予測値を更に評価することがある。上記の例を続いて、及び前記パーセンテージを仮定すると、この例では、前記システムは、乳がんが最も高い尤度を有するということを前提にして、前記サンプルが乳がんを有する、と決定することがある。
両方の実施形態では、前記解析システムは、訓練サンプルのセットを、それらの特徴ベクトルと共に、前記がん分類子に入力するステップによって、及び分類パラメータを調整するステップによって、前記がん分類子を、訓練する。その結果、前記分類子の機能は、前記訓練特徴ベクトルを、それらの対応するラベルに正確に関連付ける。前記解析システムは、前記がん分類子を訓練する反復バッチについて、1つ以上の訓練サンプルのセットの中に、前記訓練サンプルを、まとめることがある。訓練特徴ベクトルを含む訓練サンプルの全てのセットを入力し、前記分類パラメータを調整した後、前記がん分類子を十分に訓練し、試験サンプルを、ある誤差範囲内で、それらの特徴ベクトルに従って、ラベル付けする。前記解析システムは、多くの方法のうちの何れか1つに従って、前記がん分類子を訓練することがある。例として、2値のがん分類子は、対数-損失関数(log-loss function)を用いて訓練される、L2-正則化ロジスティック回帰分類子(L2-regularized logistic regression classifier)であってもよい。別の例として、前記マルチ-がん分類子は、多項ロジスティック回帰(multinomial logistic regression)であってもよい。実際には、がん分類子の何れかのタイプを、他の技術を使用して訓練することがある。これらの技術は、カーネル方法(kernel methods)、ランダム・フォレスト分類子(random forest classifier)、混合モデル(mixture model)、オートエンコーダ・モデル(autoencoder model)、多層ニューラルネットワークなどの機械学習アルゴリズムなどを使用する可能性があり、多数である。
III.C. がん分類子の使用
がん分類子を使用中に、前記解析システムは、がんタイプが分からない対象から、試験サンプルを取得する。前記解析システムは、プロセス100、700、及び720の任意の組合せを用いて、DNA分子からなる試験サンプルを処理して、異常フラグメントのセットを得ることがある。前記解析システムは、前記プロセス800で議論した同様な原理に従って、前記がん分類子が使用する、試験特徴ベクトルを決定する。前記解析システムは、前記がん分類子が使用する際に、複数のCpG部位中の各々のCpG部位について、異常スコアを計算する。例えば、前記がん分類子は、1,000個の選択したCpG部位について、異常スコアを含む特徴ベクトルを、入力として、受け取る。従って、前記解析システムは、異常フラグメントのセットに基づいて、1,000個の選択したCpG部位について、異常スコアを含む試験特徴ベクトルを、決定する。前記解析システムは、前記訓練サンプルと同じ方法で、異常スコアを計算する。1つの実施形態では、前記解析システムは、前記CpG部位を包含する異常フラグメントのセット中に、高メチル化フラグメント又は低メチル化フラグメントが存在するかどうかに基づく、2値のスコアとして、前記異常スコアを定義する。
次に、前記解析システムは、前記試験特徴ベクトルを、前記がん分類子の中に入力する。次に、前記がん分類子の機能によって、プロセス800で訓練した分類パラメータ及び前記試験特徴ベクトルに基づいて、がん予測が生成される。第1の方法では、前記がん予測は2値であり、「がん」又は「非-がん」からなる群より選択される。第2の方法では、前記がん予測は、多くのがんタイプ及び「非-がん」からなる群より選択される。更なる実施形態では、前記がん予測は、多くのがんタイプの各々についての予測値を有する。更に、前記解析システムは、前記試験サンプルが、前記がんタイプのうちの1種である可能性が最も高い、と判定することがある。乳がんについて65%の尤度、肺がんについて25%の尤度、及び非-がんについて10%の尤度、として、試験サンプルについて、前記がん予測をした上記例では、前記解析システムは、前記試験サンプルが乳がんを有する可能性が最も高い、と決定することがある。別の例(前記がん予測が、非-がんについて60%の尤度及びがんについて40%の尤度との2値である)では、前記解析システムは、前記試験サンプルががんを有しない可能性が最も高い、と決定する。更なる実施形態では、最も高い尤度を有するがん予測を、そのがんタイプを有するとして、試験対象をコールする(call)ために、閾値(例えば、40%、50%、60%、70%)と、更に比較することがある。最も高い尤度を有するがん予測が、その閾値を超えない場合、前記解析システムは、不確定な結果を返すことがある。
更なる実施形態では、前記解析システムは、プロセス800のステップ860で訓練したがん分類子を、ステップ870又はプロセス800(step 870 or the process 800)で訓練した別のがん分類子と、紐づける。前記解析システムは、プロセス800のステップ860において、2値の分類子として訓練したがん分類子の中に、前記試験特徴ベクトルを入力する。前記解析システムは、がん予測の出力を受け取る。前記がん予測は、前記試験対象が、がんを有している可能性が高いか、又はがんを有していない可能性が高いか、どうかに関して、2値であることがある。他の実施形態では、前記がん予測は、がんの尤度及び非-がんの尤度を記載する予測値を含む。例えば、前記がん予測は、85%というがん予測値及び15%という非-がん予測値、を有する。前記解析システムは、前記試験対象を、がんを有する可能性が高い、と決定することがある。前記解析システムが、前記試験対象ががんを有する可能性が高い、と決定すると、前記解析システムは、前記試験特徴ベクトルを、様々ながんタイプを区別するように訓練したマルチクラスがん分類子の中に、入力することがある。前記マルチクラスがん分類子は、前記試験特徴ベクトルを受け取り、複数のがんタイプのうちの、あるがんタイプというがん予測を返す。例えば、前記マルチクラスがん分類子は、前記試験対象が卵巣がんを有する可能性が最も高いことを特定するがん予測を、提供する。別の実施態様では、前記マルチクラスがん分類子は、複数のがんタイプのうちの、各々のがんタイプについて、予測値を提供する。例えば、がん予測は、40%という乳がんタイプ予測値、15%という結腸直腸がんタイプ予測値、及び45%という肝臓がん予測値、を含むことがある。
2値のがん分類に関して一般化した実施形態によれば、前記解析システムは、試験サンプルについて、がんスコアを、前記試験サンプルのシークエンシング・データ(例えば、メチル化シークエンシング・データ、SNPシークエンシング・データ、他のDNAシークエンシング・データ、RNAシークエンシング・データなど)に基づいて、決定する。前記解析システムは、前記試験サンプルががんを有する可能性があるかどうかを予測するために、2値の閾値カットオフと、前記試験サンプルのがんスコアとを比較する。前記2値の閾値カットオフを、1つ以上のTOOサブタイプ・クラスに基づいて、TOO閾値を使用して、調整することがある。前記解析システムは、マルチクラスがん分類子で使用するための、前記試験サンプルについて、特徴ベクトルを更に生成して、1種以上の可能性のあるがんタイプを示すがん予測を決定することがある。
IV. 応用
いくつかの実施形態では、本発明の方法、解析システム及び/又は分類子を使用して、がんの存在を検出する、がんの進行又は再発をモニタリングする、治療応答又は効果をモニタリングする、微小残存病変(minimum residual disease(MRD))の存在を決定する、若しくはモニタリングする、又はそれらの任意の組み合わせをする、ことがある。例えば、本出願で記載するように、分類子を使用して、試験特徴ベクトルががんを有する対象由来である尤度を記述する確率スコア(例えば、0から100)を生成することがある。いくつかの実施形態では、前記確率スコアを閾値確率と比較して、前記対象ががんを有するか否かを決定する。他の実施形態では、前記尤度又は確率スコアを、複数の異なる時点(例えば、治療前又は治療後)で評価し、疾患の進行をモニタリングする、又は治療の効果(例えば、治療有効性)をモニタリングする、ことがある。更に他の実施形態では、前記尤度又は確率スコアを使用して、臨床的な判断(例えば、がんの診断、治療選択、治療の効果の評価など)を行う、又はそれに影響を及ぼす、ことがある。例えば、1つの実施形態では、前記確率スコアが閾値を超える場合、医師は、適切な治療を処方することがある。
IV.A. がんの早期発見
いくつかの実施形態では、本発明の方法及び/又は分類子を使用して、がんを有することが疑われる対象におけるがんの有無を検出する。例えば、分類子(例えば、セクションIIIで上述し、セクションVで例示されるよう)を使用して、試験特徴ベクトルががんを有する対象由来である尤度を記述するがん予測を決定する。
1つの実施形態では、がん予測は、前記試験サンプルががんを有するかどうか(即ち、2値の分類)についての尤度(例えば、0と100との間のスコア)である。従って、前記解析システムは、前記試験対象ががんを有するかどうかを決定するために、閾値を決定することがある。例えば、60以上というがん予測は、前記対象ががんを有することを示すことがある。更に他の実施形態では、65以上、70以上、75以上、80以上、85以上、90以上、又は95以上のがん予測は、前記対象ががんを有することを示す。他の実施形態では、前記がん予測は、疾患の重篤度を示すことがある。例えば、80というがん予測は、80未満のがん予測(例えば、70という確率スコア)と比較して、がんに関して、より重篤な形態、又はより後期、を示すことがある。同様に、経時的にがん予測が増加すること(例えば、2つ以上の時点で採取した同じ対象由来の複数のサンプルからの試験特徴ベクトルを分類することによって、決定する)は、疾患の進行を示すことがある、又は経時的にがん予測が減少することは、治療が成功したことを示すことがある。
別の実施形態では、がん予測は、多くの予測値を含む、ここで、複数の分類されているがんタイプ(即ち、マルチクラス分類)の各々は、予測値(例えば、0と100との間のスコア)を有する。前記予測値は、所与の訓練サンプル(及び推論中にあっては、訓練サンプル)が、がんタイプの各々を有する尤度に、対応することがある。前記解析システムは、最も高い予測値を有するがんタイプを同定することがある、及び前記試験対象がそのがんタイプを有する可能性が高いことを示すことがある。他の実施形態では、前記解析システムは、更に、最も高い予測値を閾値(例えば、50、55、60、65、70、75、80、85など)と比較して、前記試験対象がそのがんタイプを有する可能性が高いことを決定する。他の実施形態では、予測値は、疾患の重篤度を示すこともある。例えば、80より大きい予測値は、60という予測値と比較して、がんに関して、より重篤な形態、又はより後期、を示すことがある。同様に、経時的に予測値が増加すること(例えば、2つ以上の時点で採取した同じ対象由来の複数のサンプルからの試験特徴ベクトルを分類することによって、決定する)は、疾患の進行を示すことがある、又は経時的にがん予測が減少することは、治療が成功したことを示すことがある。
本発明の態様によれば、本発明の方法及びシステムを訓練して、複数のがんの症状を検出することがある、又は分類することがある。例えば、本発明の方法、システム及び分類子を使用して、1種以上、2種以上、3種以上、5種以上、10種以上、15種以上、又は20種以上の種々のがんのタイプが存在することを検出することがある。
本発明の方法、システム及び分類子を使用して検出することができるがんの例としては、がん腫(carcinoma)、リンパ腫、芽細胞腫、肉腫、及び白血病又はリンパ系悪性腫瘍、が挙げられる。そのようながんのより具体的な例としては、限定されるものではないが、以下のものが挙げられる:扁平上皮がん(例えば、上皮扁平上皮がん)、皮膚がん腫、黒色腫、小細胞肺がん、非小細胞肺がん(non-small cell lung cancer (“NSCLC”))、肺の腺がん及び肺の扁平上皮がんなどの肺がん、腹膜のがん、消化器がんを含む胃がん(gastric cancer)若しくは胃がん(stomach cancer)、膵臓がん(例えば、膵管腺がん)、子宮頸がん、卵巣がん(例えば、高いグレードの漿液性卵巣がん)、肝臓がん(liver cancer)(例えば、肝臓細胞がん(HCC))、肝臓がん(hepatoma)、肝臓がん腫(hepatic carcinoma)、膀胱がん(例えば、尿路上皮膀胱がん)、精巣(生殖細胞腫瘍)がん、乳がん(例えば、HER2陽性、HER2陰性、及びトリプル・ネガティブ乳がん(triple negative breast cancer))、脳がん(例えば、星状細胞腫、神経膠芽腫(例えば、膠芽腫))、結腸がん、直腸がん、結腸直腸がん、子宮内膜がん腫若しくは子宮体がん腫、唾液腺がん、腎臓がん若しくは腎臓がん(kidney or renal cancer)(例:腎細胞がん、腎芽細胞腫若しくはウィルムス腫瘍など)、前立腺がん、外陰がん、甲状腺がん、肛門がん腫、陰茎がん腫、頭頸部がん、食道がん腫、及び鼻咽頭がん腫(nasopharyngeal carcinoma (NPC))、が挙げられる。がんの更なる例としては、限定されるものではないが、網膜芽細胞腫、卵胞膜細胞腫(thecoma)、男化腫瘍(arrhenoblastoma)、限定されるものではないが、非-ホジキン・リンパ腫(non-Hodgkin's lymphoma (NHL))、多発性骨髄腫、及び急性血液悪性腫瘍などの血液悪性腫瘍、子宮内膜症、線維肉腫、絨毛がん腫、喉頭がん腫(laryngeal carcinomas)、カポジ肉腫、シュワンノーマ(Schwannoma)、オリゴデンドログリオーマ、神経芽腫、横紋筋肉腫(rhabdomyosarcoma)、骨原性肉腫、平滑筋肉腫、並びに尿路がん、が挙げられる。
いくつかの実施形態では、前記がんは、肛門直腸がん、膀胱がん、乳がん、子宮頸がん、結腸直腸がん、食道がん(esophageal cancer)、胃がん(gastric cancer)、頭頸部がん、肝胆道がん(hepatobiliary cancer)、白血病、肺がん、リンパ腫、メラノーマ、多発性骨髄腫、卵巣がん、膵臓がん、前立腺がん、腎臓がん(renal cancer)、甲状腺がん、子宮がん(uterine cancer)、のうちの1腫以上、又はそれらの任意の組合せ、である。
いくつかの実施形態では、1腫以上のがんは、肛門直腸がん、結腸直腸がん、食道がん、頭頸部がん、肝胆道がん、肺がん、卵巣がん、及び膵臓がん、並びにリンパ腫及び多発性骨髄腫などの、「高-シグナル」がん(50%を超える5-年がん特異的死亡率を有するがんとして定義される)であることがある。高-シグナルのがんは、より進行性である傾向がある、及び典型的には、患者から得られた試験サンプル中に、平均を超える無-細胞核酸の濃度を有する。
IV.B. がん及び治療のモニタリング
いくつかの実施形態では、前記がん予測を、複数の異なる時点(例えば、治療前及び治療後)で、評価し、疾患の進行をモニタリングすることがある、又は治療の効果(例えば、治療有効性)をモニタリングすることがある。例えば、本発明は、第1の時点で、がん患者から第1のサンプル(例えば、第1の血漿cfDNAサンプル)を取得するステップ、(本出願に記載されるように)そこから第1のがん予測を決定するステップ、第2の時点で、前記がん患者から第2の試験サンプル(例えば、第2の血漿cfDNAサンプル)を取得するステップ、及び(本出願に記載されるように)そこから第2のがん予測を決定するステップ、を含む方法。を含む。
ある特定の実施形態では、第1の時点は、がん治療の前(例えば、切除手術又は治療的介入の前)である、及び第2の時点は、がん治療の後(例えば、切除手術又は治療的介入の後)である、並びに前記分類子を利用して、治療の効果をモニタリングする。例えば、第2のがん予測が第1のがん予測と比較して減少する場合、前記治療は成功したと考えられる。しかしながら、第2のがん予測が第1のがん予測と比較して増大する場合、前記治療は成功しなかったと考えられる。他の実施形態では、第1及び第2の時点の両方が、がん治療の前(例えば、切除術又は治療的介入の前)である。更に他の実施形態では、第1及び第2の時点の両方が、がん治療の後(例えば、切除術又は治療的介入の後)である。更に他の実施形態では、cfDNAサンプルを、第1及び第2の時点で、がん患者から得て、及び解析をして、例えば、がん進行をモニタリングする、がんが寛解にあるかどうかを決定する(例えば、治療後)、残存疾患若しくは疾患の再発をモニタリングする若しくは検出する、又は治療(treatment)(例えば、治療(therapeutic))有効性をモニタリングする。
当業者は、前記試験サンプルを、時点の任意の所望のセットにわたって、がんの患者から取得することがあること、及び本発明の方法に従って解析して前記患者におけるがん状態をモニタリングすることがあること、を容易に理解するのであろう。いくつかの実施形態では、前記第1及び第2の時点は、約15分から約30年までの範囲の時間量、例えば、約30分、例えば、約1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、若しくは約24時間、例えば、約1、2、3、4、5、10、15、20、25、又は約30日、若しくは例えば、約1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 若しくは 12月、又は例えば、約1, 1.5, 2, 2.5, 3, 3.5, 4, 4.5, 5, 5.5, 6, 6.5, 7, 7.5, 8, 8.5, 9, 9.5, 10, 10.5, 11, 11.5, 12, 12.5, 13, 13.5, 14, 14.5, 15, 15.5, 16, 16.5, 17, 17.5, 18, 18.5, 19, 19.5, 20, 20.5, 21, 21.5, 22, 22.5, 23, 23.5, 24, 24.5, 25, 25.5, 26, 26.5, 27, 27.5, 28, 28.5, 29, 29.5 若しくは約30年、隔たっている。他の実施形態では、試験サンプルを、3ヶ月毎に少なくとも1回、6ヶ月毎に少なくとも1回、1年に少なくとも1回、2年毎に少なくとも1回、3年毎に少なくとも1回、4年毎に少なくとも1回、又は5年毎に少なくとも1回、前記患者から取得することがある。
IV.C. 治療
更に別の実施形態では、前記がん予測を使用して、医学的判断(例えば、がんの診断、治療選択、治療の効果の評価など)を行うことがある、又はそれに影響を及ぼすことがある。例えば、1つの実施形態では、(例えば、がんについて又は特定がんタイプについて)前記がん予測が閾値を超える場合、医師は適切な治療(例えば、切除術、放射線療法、化学療法、及び/又は免疫療法)を処方することがある。
(本出願に記載されるよう)分類子を使用して、サンプル特徴ベクトルががんを有する対象由来である、というがん予測、を決定することがある。1つの実施形態では、がん予測が閾値を超える場合、適切な治療(例えば、切除手術又は治療)を処方する。例えば、1つの実施形態では、前記がん予測が60以上である場合、1つ以上の適切な治療を処方する。別の実施形態では、前記がん予測が65以上、70以上、75以上、80以上、85以上、90以上、又は95以上である場合、1つ以上の適切な治療を処方する。他の実施形態では、前記がん予測が疾患の重篤度を示すことがある。次いで、前記疾患の重篤度に適合する適切な治療を処方することがある。
いくつかの実施形態では、前記治療は、化学療法剤、ターゲット化がん療法剤、分化療法剤(differentiating therapy agent)、ホルモン療法剤、及び免疫療法剤からなる群より選択される、1種以上のがん治療剤である。例えば、前記治療は、アルキル化剤、代謝拮抗剤、アントラサイクリン類、抗-腫瘍抗生物質、細胞骨格破壊剤(タキサン)、トポイソメラーゼ阻害剤、有糸分裂阻害剤、コルチコステロイド、キナーゼ阻害剤、核酸アナログ、白金-ベースの薬剤、及びそれらの組み合わせ、からなる群より選択される、1種以上の化学療法剤であることがある。いくつかの実施形態では、前記治療は、シグナル伝達阻害剤(例えば、チロシン・キナーゼ及び増殖因子レセプター阻害剤など)、ヒストン脱アセチル化酵素(HDAC)阻害剤、レチノイン酸レセプター・アゴニスト、プロテオソーム阻害剤、血管新生阻害剤、及びモノクローナル抗体コンジュゲートからなる群より選択される、1種以上のターゲット化がん療法剤である。いくつかの実施形態では、前記治療は、例えば、トレチノイン(tretinoin)、アリトレチノイン(alitretinoin)及びベキサロテンなどのレチノイドを含む、1種以上の分化療法剤である。いくつかの実施形態では、前記治療は、抗-エストロゲン、アロマターゼ阻害剤、プロゲスチン類、エストロゲン類、抗-アンドロゲン類、及びGnRHアゴニスト又はアナログ、からなる群より選択される1種以上のホルモン療法剤である。1つの実施形態では、前記治療は、例えば、リツキシマブ(RITUXAN)及びアレムツズマブ(CAMPATH)などのモノクローナル抗体療法、例えば、BCG、インターロイキン-2(IL-2)及びインターフェロン-アルファなどの非-特異的な免疫療法及びアジュバント、免疫調節薬、例えば、サリドマイド及びレナリドミド(REVLIMID)、を含む群より選択される1種以上の免疫療法剤である。腫瘍のタイプ、がんのステージ、がん治療又は治療薬剤への過去の暴露、及びがんの他の特性、などの特性に基づいて、適切ながん療法剤を選択することは、熟練した医師又は腫瘍医の能力の範囲内である。
V. がん分類子に関する例示的な結果
V.A. サンプル採取と処理
試験デザイン及びサンプル:CCGA(NCT02889978)は、長期追跡を伴う、前向き、多施設、ケース-コントロール(case-control)、の観察研究である。142のサイト(site)から、約15,000名の参加者から、個人特定をしていない生物試料を採取した。サンプルを訓練(1,785)と試験(1,015)のセットに分けた;サンプルを、各々のコホートにおいて、部位間で、がんタイプ及び非-がんに関して、事前指定した分布を確保するように、選択した、並びに、がん及び非-がんサンプルを、性別で年齢頻度を一致させた。
全-ゲノム・バイスルファイト・シークエンシング:cfDNAを血漿から単離し、全-ゲノム・バイスルファイト・シークエンシング(WGBS;30x 深度)を、cfDNAの解析に用いた。cfDNAを、改変したQIAamp循環核酸キット(modified QIAamp Circulating Nucleic Acid kit)(Qiagen; Germantown, MD)を用いて、患者当たり2本のチューブの血漿(合計10 mlまで)から抽出した。最大75 ngまでの血漿cfDNAを、EZ-96 DNAメチル化キット(Zymo Research、D5003)を用いる、亜硫酸水素塩変換(bisulfite conversion)に供した。変換したcfDNAを使用して、Accel-NGSメチル-Seq DNAライブラリ調製キット(Swift BioSciences; Ann Arbor, MI)を用いて、二重インデックス化シークエンシング・ライブラリを調製した、及び構築したライブラリを、イルミナのプラットフォーム用のKAPAライブラリ定量キット(KAPA Library Quantification Kit for Illumina Platforms )(Kapa Biosystems; Wilmington, MA)を用いて定量した。10% PhiX v3ライブラリ(Illumina、FC-110-3001)と共に4つのライブラリをプールし、Illumina NovaSeq 6000 S2フロー・セル(flow cell)にクラスター化し、続いて150-bpペアド-エンド・シークエンシング(paired-end sequencing)を行った(30x)。
各々のサンプルについて、WGBSフラグメント・セットを、異常なメチル化パターンを有するフラグメントの小さなサブセットにまで、減少させた。更に、高メチル化又は低メチル化cfDNAフラグメントを選択した。cfDNAフラグメントを、異常なメチル化パターンを有する、及び高メチル化又は高メチル化(hyper or hypermethylated)である(即ち、UFXM)、について選択した。がんを有さない、又は不安定なメチル化を有する、個体において、高頻度で起こるフラグメントは、がん状態を分類するための高度に識別可能な特徴を生成する可能性が低い。従って、我々は、前記CCGA研究から、がんを有さない108人の非-喫煙参加者(年齢: 58±14歳、女性79人[73%])(即ち、参照ゲノム)の独立した参照セットを用いて、典型的なフラグメントの統計モデル及びデータ構造、を生成した。これらのサンプルを用いて、セクションII.B.で上述したように、フラグメント内の所与の一連のCpGメチル化状態の尤度を推定するマルコフ-連鎖モデル(次数(order)3)を訓練した。このモデルは、正常なフラグメント範囲(p-値>0.001)内で較正されることが実証され、このモデルを使用して、マルコフ・モデルからのp-値が>=0.001であるフラグメントを、不十分に異常として、拒絶した。
上記のように、更なるデータ減少ステップによって、少なくとも5個のCpGがカバーされた、及び平均メチル化が>0.9(高メチル化)又は<0.1(低メチル化)の何れかである、フラグメントのみを選択した。この手順の結果、訓練に際して、がんのない参加者について、2,800(1,500-12,000) のメジアン(範囲)のUFXMフラグメント、訓練に際して、がんのある参加者について、3,000 (1,200- 220,000) のメジアン(範囲)のUFXMフラグメント、となった。このデータ減少手順は、参照セット・データを使用するのみであったので、この段階を、各々のサンプルに1回だけ適用することが必要であった。
V.B. サンプル・スワップ検証
図10-図21は、サンプル・スワップ検証において使用するための、様々な特性予測の精度を示す多くの図を図示する。図10及び図11は、セクションII.B.i. 生物学的な性の予測、で上述した原理に従った、生物学的な性の予測の精度に関する。図12-16は、セクションII.B.ii. 民族性予測、で上述した原理に従った、民族性予測の精度に関する。図17A、図17B及び図18は、年齢予測に使用する、情報があるCpG部位の特徴選択に関する、及び図19-21は、セクションII.B.iii. 年齢予測、で上述した原理に従った、年齢予測の制度に関する。
図10及び図11は、生物学的な性の予測の精度を示すグラフを図示する。図10のグラフ1000は、CCGA研究からのサンプルを用いた生物学的な性の予測の精度を図示する。検証に使用するサンプルについて、前記解析システムは、生物学的な雄性と生物学的な雌性との間を予測するために、閾値Y染色体シグナルを使用して、図3における生物学的な性の予測についてのプロセス320を実行した。前記解析システムは、計算したX染色体シグナル及び計算したY染色体シグナルに従って、サンプルを図示した。示すように、黒色にしたサンプル(概して、前記グラフ1000の左上にプロットされる値を有する)は、生物学的な雄性であることが既知である、及び、生物学的な雄性であると正確に予測もされた。同様に、白色にしたサンプル(概して、グラフ1000の右下にプロットされる値を有する)は、生物学的な雌性であることが既知である、及び、生物学的な雌性であると正確に予測もされた。斜線を付けて示したサンプルは、あるレベルのコンタミネーション(contamination)を有すると決定された。コンタミネーション(contamination)の相対的なレベルを、そのコンタミネーションがあるサンプルを表す円のサイズで区別する。あるレベルのコンタミネーション(contamination)を有すると決定されたサンプルを別にして、前記解析システムは、100%の精度で、前記試験サンプルを正確に予測した。注目すべきことに、前記解析システムは、更に、性染色体異常を有する4つのサンプルを正確に予測することができた。ターナー症候群を有する1つのサンプル1010(1つのX染色体、及び部分的な又は欠損したX染色体を有する)を、生物学的な雌性として正確に予測した。クラインフェルター症候群(Klinefelter Syndrome) を有する1つのサンプル1020(1つのY染色体及び2つのX染色体を有する)を、生物学的な雄性として正確に予測した。トリソミーXを有する1つのサンプル1030(3つのX染色体を有する)を、生物学的な雌性として正確に予測した。テトラソミーXを有する1つのサンプル1040 (4つのX染色体を有する)を、生物学的な雌性として正確に予測した。
図11のグラフ1100は、Compass Dev E2E研究からのサンプルを用いた、生物学的な性の予測の精度を図示する。検証に使用したサンプルを用いて、前記解析システムは、図3でのプロセス320を実行した。生物学的な雌性と生物学的な雄性との間を予測するために、前記解析システムは、Y染色体閾値シグナルを使用する。前記サンプルを、それらのX染色体シグナル及びそれらのY染色体シグナルに従って、グラフ1100上に、プロットする。黒色の点として表したサンプル(概して、グラフ1100の左上にプロットされる値を有する)は、生物学的な雄性であることが既知である、及び、生物学的な雄性であると正確に予測もされた。白色の点として表したサンプル(概して、グラフ1100の右下にプロットされる値を有する)は、生物学的な雌性であることが既知である、及び、生物学的な雌性であると正確に予測もされた。三角は、ある閾値レベルのコンタミネーション(contamination)を有すると決定されたサンプルを表す。コンタミネーション(contamination)の閾値を有すると決定されたサンプルを別にして、前記生物学的な予測の精度は100%であった。
図12-14は、染色体間の民族性予測の精度を示す表を図示する。図12-14に示されるサンプルについての民族性予測に際して考慮される複数のSNPを、1000ゲノム・プロジェクト(「1000Gプロジェクト」とも呼ばれる)から同定した。サンプルを、1000Gプロジェクトが使用する、以下の民族性に分類した:アフリカ系、混合があるアメリカ系、東アジア系、ヨーロッパ系、及び南アジア系。民族性予測の精度を検証するために用いたサンプルを、CCGA研究から選択した。しかしながら、前記CCGA研究では、以下のうちの1つ以上である民族性を報告することが要求された:アメリカ・インディアン又はアラスカ先住民;アジア人、ハワイ先住民、又は太平洋諸島民;黒人、非-ヒスパニック系;白人、非-ヒスパニック系;及びヒスパニック系。民族性の2つの異なるセットの間で、CCGA研究で使用される各々の民族性のラベルを、以下のように、1000Gプロジェクトの民族性のラベルに、最良にマッピングした:アメリカ・インディアン又はアラスカ先住民を、混合があるアメリカ系にマッピングした;アジア人、ハワイ先住民、又は太平洋諸島民を、東アジア系又は南アジア系のどちからにマッピングした;黒人、非-ヒスパニック系を、アフリカ系にマッピングした;白人、非-ヒスパニック系を、ヨーロッパ系にマッピングした;及びヒスパニック系を、混合があるアメリカ系にマッピングした。このように、民族性の2つの異なるセットの間に最良にマッピングしたにも関わらず、ある報告された民族性に関するいくつかのサンプルは、予測された民族性ラベルのうちの1つ以上で、真に、あり得る。前記解析システムは、図5におけるプロセス325を実行した。これにより、分類された各々の民族性について、各々の常染色体(即ち、染色体1から染色体22)についての民族性確率が得られた。前記解析システムは、更に、計算した民族性確率に基づいて、各々の染色体について、民族性予測をランク付けした。
表1200中に示した第1のサンプルは、白人、非-ヒスパニック系の民族性であることが報告されており、ヨーロッパ系のラベルに最も良くマッピングされている。第1のサンプルについて、全ての染色体には、ヨーロッパ系という第1の予測を有する一致(consensus)があった。結果として、前記解析システムは、ヨーロッパ系という第1のサンプルについての民族性予測を返し、これは、報告があった、白人、非-ヒスパニック系の民族性ラベルに対して、正確であった。
表1300中に示した第2のサンプルについて、前記第2のサンプルは、アジア人、ハワイ先住民、又は太平洋諸島民であると報告され、東アジア系又は南アジア系のいずれかにマッピングした。全ての染色体には、東アジア系という第1の予測を有する一致(consensus)があった。結果として、前記解析システムは、東アジア系という第2のサンプルについての民族性予測を返し、これは、報告があった、アジア人、ハワイ先住民、又は太平洋諸島民の民族性ラベルに対して、正確であった。
第3のサンプルは表1400に示されているが、優勢な民族性としてヒスパニック系が混じった民族性であることが報告され、ヒスパニック系は、混合があるアメリカ系に最も良くマッピングした。染色体のうち14個からは、混合があるアメリカ系という第1の予測がなされ、残りの8個の染色体からは、ヨーロッパ系という第1の予測がなされた。結果として、前記解析システムは、混合があるアメリカ系という第1の民族性予測を、前記第1の予測を支持する14個の染色体と共に返す、及びヨーロッパ系という第2の民族性予測を、前記第2の予測を支持する8個の染色体と共に返す。もし、第4のサンプルが、ヨーロッパ系という第1の予測、及び混合があるアメリカ系という第2の予測を返したとすれば、前記解析システムは、前記サンプルが報告された民族性に一致することを、更に検証したであろう(なぜなら、前記第2の予測が報告された民族性に一致するので)。前記第4のサンプルで見られるように、第1及び第2の予測を返すステップは、混じった民族性のサンプルが、誤って無効と検証(invalidated)されないことを確実にすることを目的とする。
図15及び16は、分類のために使用する民族性の異なるセットを用いた、民族性予測の精度を示す、混同行列(confusing matrices)を図示する。その報告された民族性のラベルは、図12-14に示された結果において上記で使用されたものと、CCGA研究で使用されたものと、同じであった。分類された民族性ラベルは、図12-14に示された結果において上記で使用されたものと、1000Gプロジェクトで使用されたものと、同じであった。図15及び図16の結果は、図5のプロセス325によって達成された。
グラフ1500は、がん状態に対する民族性予測の頑健性を実証する。グラフ1500の結果に到るために、前記解析システムは、365個のがんサンプル及び125個の非-がんサンプルである490個のサンプルのセットを試験した。予測の精度を評価する際に、前記解析システムは、図1におけるプロセス325による上位1つの予測を利用した。アジア人、ハワイ先住民、又は太平洋諸島民という民族性ラベルであると報告されたサンプルは、予想通り、東アジア系又は南アジア系という民族性ラベルであると予測された。アメリカ・インディアン又はアラスカ先住民という民族性ラベルであると報告されたあるサンプルは、予想通り、混合があるアメリカ系という民族性ラベルであると予測された。ヒスパニック系という民族性ラベルであると報告された32個のサンプルのうち、27個のサンプルは、予想通り、混合があるアメリカ系という民族性ラベルであると予測された。しかし、5個は、予想から外れたヨーロッパ系という民族性ラベルであると予測された。白人、非-ヒスパニック系という民族性ラベルであると報告された413個のサンプルのうち、411個のサンプルは、予想通り、ヨーロッパ系という民族性ラベルであると予測された。しかし、2個のサンプルは、予想から外れた混合があるアメリカ系という民族性ラベルであると予測された。黒人、非-ヒスパニック系という民族性ラベルであると報告されたサンプルは、予想通り、アフリカ系という民族性ラベルであると予測された。
グラフ1600は、各々のサンプルにおいて利用可能な異なるアッセイ及び様々なSNPデータにおける頑健性を実証する。グラフ1600の結果に到るために、前記解析システムは、56人の個体からの376個のサンプルのセットを試験した。各々の個体から、1個から16個までの範囲の幾つかのサンプルを採取した。前記サンプルを、複数のアッセイ・プロトコルに従って、アッセイし、各々のサンプルにおいて利用可能な様々なSNPデータを得た。予測の精度を評価する際に、前記解析システムは、図1におけるプロセス325による上位1つの予測を利用した。ヒスパニック系という民族性ラベルであると報告された123個のサンプルのうち、18個は、アフリカ系という民族性ラベルであると予測され、50個は、白人、非-ヒスパニック系という民族性ラベルであると予測され、55個は、混合があるアメリカ系という民族性ラベルであると予測された。CCGA研究で使用された、ヒスパニック系の民族性ラベルは、1000Gプロジェクトの混合があるアメリカ系の民族性ラベルに、最も良くマッピングされた。これらの結果と同様に、CCGA研究で使用された、ヒスパニック系の民族性ラベルのサンプルからは、広範な分布の予測がなされた。これは、2セットの民族性ラベルの間のマッピングが不正確であること、又は単にヒスパニック系には、一般的に、他の民族性が混じっていること、に起因する可能性がある。混じった(mixed)又は混じっている(convoluted)民族性を有するサンプルを、誤って無効と検証してしまうこと(invalidations)を回避するために、前記解析システムは、報告された民族性の特性と比べて、上位2つの民族性予測を返すことがある。
図17A及び17Bは、特徴を選択するための、特徴の性能を示すグラフを図示する。前記解析システムは、様々な研究から年齢と相関することが知られている、44個のCpG部位に関する情報を取得した。前記解析システムは、20種類の異なる回帰モデルにおいて、20セットの訓練サンプルを用いて、年齢を回帰させた。前記20種のモデルによる学習係数を、図17Aにおけるグラフ1700にプロットした。各々の訓練セットには、約500個のサンプルが含まれていた。図17Bにおけるグラフ1750は、分散に対する絶対平均の比率が最も高い、より情報があるCpG部位のうちの7個を同定する。これら7個の最も情報があるCpG部位から、前記解析システムは、特徴の様々な組合せで訓練した回帰モデルについて、年齢予測の精度を評価することがある。
図18は、各々の特徴について、年齢予測の精度を個別に示すグラフを図示する。上位7つの特徴を、図17A及び17Bに記載されたプロセスにより、同定した。上位7個のCpG部位は、グラフ1810に示すCpG部位1272065、グラフ1820に示すCpG部位9182976、グラフ1830に示すCpG部位20182934、グラフ1840に示すCpG部位21301194、グラフ1850に示すCpG部位22945146、グラフ1860に示すCpG部位23313637、及びグラフ1870に示すCpG部位25584978、を含む。グラフの各々は、訓練サンプルの訓練セットについて、x軸上の年齢とy軸上の前記CpG部位におけるメチル化密度との間の相関を示す。各々のグラフはまた、非-がんである訓練サンプルを青色で、がんである訓練サンプルを赤色で、マークをする。全てのグラフは、非-がんの訓練サンプルとがんの訓練サンプルとの間で、一貫性した、強い相関を示す。
図19は、経時的な年齢と決定した年齢との間の相関を示す、グラフ1900を図示する。前記解析システムは、非-がんサンプルとがんサンプルの訓練セットを使って、年齢を予測するための線形回帰モデルを訓練する。種々の研究により年齢に相関することが知られている44個の特徴を、この例示的なモデルを訓練する際に、使用した。前記解析システムは、6.13という中央絶対偏差(median absolute deviation)、0.47というR-2乗、9.53という2乗平均平方根誤差(Root Mean Square Error (RMSE))、及び0.7という10歳以内の予測の精度、をもたらす、訓練済み線形回帰モデルを有効と検証する(validate)。
図20Aは、特徴を選択した及び正則化を実行した(regularized performance)、年齢予測の精度を示すグラフ2000を図示する。前記解析システムは、正則化を実装したGlmnetの回帰解析(Glmnet’s regression with regularization implementation)による、正則化係数を実装する。前記解析システムは、6.22という中央絶対偏差(median absolute deviation)、0.39というR-2乗、10.17というRMSE、及び0.71という10歳以内の予測の精度、をもたらす、正則化した訓練済み回帰モデルを有効と検証する(validate)。図20B、グラフ2050は、回帰解析における変数のGlmnetの正則化を図示する。
図21は、異なるセットの特徴を考慮しながら、年齢予測の精度を比較するグラフを図示する。5つの異なるセットの特徴を、年齢予測に使用して、異なるセット間の予測の精度を実証した。第1のセットは、図17A及び17Bで決定した、上位1番の特徴のみを考慮した。第2のセットは、図17A及び17Bで決定した、上位2番の特徴のみを考慮した。第3のセットは、図17A及び17Bで決定した、上位1番及び上位2番の特徴を考慮した。第4のセットは、図17A及び17Bで決定した、上位7個の特徴を考慮した。第5のセットは、図17A及び17B中の解析システムが取得した、44個の特徴を考慮した。回帰モデルを、特徴の各々のセットを用いて訓練した。各々の訓練済み回帰モデルを、サンプルの多数の試験セットを用いて、検証した。各々の訓練済み回帰モデルについての様々な測定基準を評価し、プロットした。第1のグラフ2110は、中央絶対偏差(median absolute deviation)を示す。第2のグラフ2120は、R-2乗を示す。第3のグラフ2130は、RMSEを示す。第4のグラフ2140は、真の年齢から10歳以内の予測の精度を示す。特に、第2のセットを考慮するように訓練した回帰モデルは、特徴に関して他のセットを用いて訓練した他のものよりも、著しく悪い性能であった。残りのセットは同じ様な性能であった;しかしながら、第4のセット(上位7個の特徴を含む)で訓練した回帰解析は、他よりも、より高いR-2乗、及びより低いRMSEで、僅かに良好な性能であった。
VI. 更なる考慮事項
前述の実施形態の詳細な説明は、本開示の具体的な実施形態を図示する、添付の図面を参照する。異なる構造及び動作を有する他の実施形態は、本開示の範囲から逸脱しない。用語「本発明」等は、この明細書に記載されている本出願人の発明に関する、多くの代替的な態様又は実施形態のある特定の具体例に関連して使用されるものであり、その用語を使用すること、その用語を使用しないこと、の何れも、本出願人の発明の範囲又は本特許請求の範囲の範囲を、限定することを、意図するものではない。
本発明の実施形態は、本出願の演算を実行するための装置に、関係することもある。この装置は、必要とされる目的のために特別に構成されてもよく、及び/又はコンピュータの中に記憶されたコンピュータ・プログラムが、選択的に起動する又は再構成する、汎用の計算デバイスを備えてもよい。そのようなコンピュータ・プログラムは、コンピュータ・システム・バス(computer system bus)に共役することがある、非-一過性、有形のコンピュータ可読記憶媒体の中に、又は電子的な命令を記憶するのに好適な任意のタイプの媒体の中に、記憶されることがある。更に、本明細書の中で言及される任意の計算システムは、単一のプロセッサを含むことがある、又は計算能力を高めるために複数のプロセッサ設計を採用するアーキテクチャであることがある。
前記解析システムによって実行されるものとして、本出願で説明される、任意のステップ、演算、又はプロセスを、1つ以上のハードウェア又は前記装置のソフトウェア・モジュールを用いて、単独で、又は他の計算デバイスとの組合せで、実行することがある、又は実装することがある。1つの実施形態では、説明した、任意の又は全ての、ステップ、演算、又はプロセスを実行するための、コンピュータ・プロセッサによって実行され得る、コンピュータ・プログラム・コードを含むコンピュータ可読媒体を備えるコンピュータ・プログラム製品を用いて、ソフトウェア・モジュールを実装する。

Claims (48)

  1. 無細胞デオキシリボ核酸(cfDNA)サンプルが試験対象由来であることを検証するための方法、ここで、前記方法は、以下のステップを含む:
    試験対象から試験サンプルを取得するステップ、ここで、前記試験対象の生物学的な性は、生物学的な雄性又は生物学的な雌性のうちの1つであることが既知である;
    前記試験サンプルから前記cfDNAサンプルを取得するステップ;
    前記cfDNAサンプルから配列リード(sequence reads)を取得するステップ;
    Y染色体上に見出される、且つX染色体上に見出されない、第1の遺伝子の配列リード(sequence reads)の第1のカウント(first count)を決定するステップ;
    前記第1のカウント(first count)を正規化するステップ;
    第2の遺伝子の配列リード(sequence reads)の正規化した第1のカウント(first count)に基づいて、前記cfDNAサンプルのY染色体シグナルを決定するステップ;
    前記Y染色体シグナルに基づいて、前記cfDNAサンプルの生物学的な性を決定するステップ;及び、
    決定した生物学的な性と既知の生物学的な性とが同じである場合、前記cfDNAサンプルが前記試験対象由来であることを検証するステップ。
  2. 以下のステップを更に含む、請求項1に記載の方法:
    ヒト・ゲノムのX染色体上に見出される、且つヒト・ゲノムのY染色体上に見出されない、第2の遺伝子の配列リード(sequence reads)の第2のカウント(second count)を決定するステップ;
    前記第2のカウント(second count)を正規化するステップ;及び、
    第1の遺伝子の配列リード(sequence reads)の正規化した第2のカウント(second count)に基づいて、前記cfDNAサンプルのX染色体シグナルを決定するステップ;
    ここで、前記cfDNAサンプルの生物学的な性を決定するステップは、前記X染色体シグナルに更に基づく。
  3. 請求項2に記載の方法、ここで、前記第1のカウント(first count)及び前記第2のカウント(second count)を、前記cfDNAサンプルのシークエンシング深度(sequencing depth)に従って正規化する。
  4. 請求項2に記載の方法、ここで、前記cfDNAサンプルの生物学的な性を決定するステップは、以下のステップを含む:
    閾値比と、前記cfDNAサンプルのX染色体シグナルに対する前記cfDNAサンプルのY染色体シグナルの比とを、比較するステップ。
  5. 請求項2に記載の方法、ここで、前記cfDNAサンプルの生物学的な性を決定するステップは、以下のステップを含む:
    前記cfDNAサンプルの生物学的な性を予測するために、生物学的な性の分類子を、前記cfDNAサンプルのX染色体シグナル及び前記cfDNAサンプルのY染色体シグナルに、適用するステップ、ここで、前記生物学的な性の分類子を、訓練サンプルの訓練セットを使って訓練する、ここで、各々の訓練サンプルは、生物学的な雄性又は生物学的な雌性のうちの1つであることが既知である、生物学的な性を有する。
  6. 以下のステップを更に含む、請求項2に記載の方法:
    Y染色体上に見出される、且つX染色体上に見出されない、第3の遺伝子の配列リード(sequence reads)の第3のカウント(third count)を決定するステップ;
    X染色体上に見出される、且つY染色体上に見出されない、第4の遺伝子の配列リード(sequence reads)の第4のカウント(fourth count)を決定するステップ;
    前記第3のカウント(third count)及び前記第4のカウント(fourth count)を正規化するステップ;
    ここで、前記Y染色体シグナルを決定するステップは、その正規化した第3のカウント(third count)に更に基づく;及び、
    ここで、前記X染色体シグナルを決定するステップは、その正規化した第4のカウント(fourth count)に更に基づく。
  7. 請求項6に記載の方法、ここで、前記第1のカウント(first count)、前記第2のカウント(second count)、前記第3のカウント(third count)、及び前記第4のカウント(fourth count)を、前記cfDNAサンプルのシークエンシング深度(sequencing depth)に従って正規化する。
  8. 請求項6に記載の方法、ここで、前記Y染色体シグナルは、前記正規化した第1のカウント(first count)及び前記正規化した第3のカウント(third count)の平均である、並びに、前記X染色体シグナルは、前記正規化した第2のカウント(second count)及び前記正規化した第4のカウント(fourth count)の平均である。
  9. 請求項1に記載の方法、ここで、前記cfDNAサンプルの生物学的な性を決定するステップは、以下のステップを含む:
    前記cfDNAサンプルのY染色体シグナルを、閾値Y染色体シグナルと比較するステップ、
    ここで、前記cfDNAサンプルのY染色体シグナルが閾値Y染色体シグナルを上回る場合、前記cfDNAサンプルは、生物学的な雄性であると決定する、及び、
    ここで、前記cfDNAサンプルのY染色体シグナルが閾値Y染色体シグナルを下回る場合、前記cfDNAサンプルは、生物学的な雌性であると決定する。
  10. 前記cfDNAサンプルを検証するステップに応答して、以下のステップを更に含む、請求項1に記載の方法:
    異常フラグメントのセットを生成するために、前記配列リード(sequence reads)を、p-値フィルタリング(p-value filtering)でフィルタリングするステップ;
    複数のCpG部位の各々について、1つ以上の異常フラグメントが前記CpG部位と重なるかどうかに基づいたスコアを生成することによって、試験特徴ベクトルを生成するステップ;
    前記試験サンプルについてのがん予測を生成するために、前記試験特徴ベクトルを、訓練済みモデルに入力するステップ;及び、
    前記がん予測に従って、前記試験サンプルががんを有する可能性が高いかどうかを決定するステップ。
  11. 請求項1に記載の方法、ここで、前記配列リード(sequence reads)は、前記cfDNAフラグメントのメチル化シークエンシングによって生成された、メチル化シークエンシング・データを含む。
  12. 請求項11に記載の方法、ここで、前記メチル化シークエンシングは、WGBSを含む。
  13. 請求項11に記載の方法、ここで、前記メチル化シークエンシングは、ターゲット化シークエンシング(targeted sequencing)を含む。
  14. ハードウェア・プロセッサ、及び、実行可能な命令(この命令は、前記ハードウェア・プロセッサによって実行される時に、前記プロセッサに、請求項1から13の何れか一項に記載の方法を含む演算を実行させる)を記憶する、非-一過性のコンピュータ-可読記憶媒体、を含むシステム。
  15. 無細胞デオキシリボ核酸(cfDNA)サンプルが試験対象由来であることを検証するための方法、ここで、前記方法は、以下のステップを含む:
    試験対象から試験サンプルを取得するステップ、ここで、前記試験サンプルは、複数の民族性のうちの1つ以上の報告された民族性であると、報告されている;
    前記試験対象から前記cfDNAサンプルを取得するステップ;
    前記cfDNAサンプルから複数の配列リード(sequence reads)を取得するステップ、ここで、前記複数の配列リード(sequence reads)は、複数の単一ヌクレオチド多型(SNP)を含む;
    前記複数の配列リード(sequence reads)から、前記複数のSNPの各々についてのアレル頻度(allele frequency)を決定するステップ;
    訓練セットから決定した複数の民族性の各々についての、前記複数のSNPの各々についての、期待されるアレル頻度を取得するステップ、ここで、前記民族性は、前記訓練セット中の訓練サンプルの各々について、既知である;
    複数の染色体のうちの各々の染色体について:
    前記染色体内のSNPのサブセットについての、決定したアレル頻度(allele frequency)、及び前記染色体内のSNPのサブセットについての、複数の民族性に対して期待されるアレル頻度、に基づいて、複数の民族性の各々についての民族性確率を計算するステップ;
    前記複数の染色体について計算された民族性確率に基づいて、前記cfDNAサンプルについての1つ以上の民族性を予測するステップ;並びに、
    前記cfDNAサンプルの1つ以上の予測した民族性、及び前記試験対象の1つ以上の報告された民族性、に基づいて、前記cfDNAサンプルが前記試験対象由来であることを検証するステップ。
  16. 以下のステップを更に含む、請求項15に記載の方法:
    複数のSNPの各々についての遺伝子型を、前記SNPでのアレル頻度(allele frequency)に基づいて、決定するステップ。
  17. 請求項16に記載の方法、ここで、前記複数の染色体のうちの各々の染色体について、前記複数の民族性の各々についての前記民族性確率を計算するステップは、前記染色体内のSNPの前記サブセットについての、その決定した遺伝子型に、更に基づく。
  18. 請求項17に記載の方法、ここで、前記複数の染色体のうちの各々の染色体について、前記複数の民族性の各々についての前記民族性確率を計算するステップは、前記染色体内のSNPの前記サブセットについての、その決定した遺伝子型に基づいて、ベイズ確率を計算するステップ、を含む。
  19. 以下のステップを更に含む、請求項18に記載の方法:
    前記複数の民族性についての期待されるアレル頻度に基づいて、複数のSNPの各々についての決定した遺伝子型について、前記複数の民族性の各民族性の遺伝子型の割合を決定するステップ、
    ここで、前記ベイズ確率を計算するステップは、その決定した遺伝子型の割合に、更に基づく。
  20. 以下のステップを更に含む、請求項15に記載の方法:
    前記複数の染色体のうちの各々の染色体について、その決定した民族性確率に従って、前記複数の民族性をランク付けするステップ、
    ここで、第1の予測した民族性は、第1の民族性を第1にランク付けする、最大数の染色体に対応する、前記複数の民族性のうちの民族性、を含む。
  21. 請求項20に記載の方法、ここで、第2の予測した民族性は、第2の民族性を第1にランク付けする、2番目に最も大きな数の染色体に対応する、前記複数の民族性のうちの民族性、を含む。
  22. 請求項21に記載の方法、ここで、前記cfDNAサンプルが前記試験対象由来であることを検証するステップは、前記第1の民族性予測及び前記第2の民族性予測のうちの少なくとも1つが、前記1つ以上の報告された民族性のうちの1つに、一致することを決定するステップ、を含む。
  23. 前記cfDNAサンプルを検証するステップに応答して、以下のステップを更に含む、請求項15に記載の方法:
    異常フラグメントのセットを生成するために、前記配列リード(sequence reads)を、p-値フィルタリング(p-value filtering)でフィルタリングするステップ;
    複数のCpG部位の各々について、1つ以上の異常フラグメントが前記CpG部位と重なるかどうかに基づいたスコアを生成することによって、試験特徴ベクトルを生成するステップ;
    前記試験サンプルについてのがん予測を生成するために、前記試験特徴ベクトルを、訓練済みモデルに入力するステップ;及び、
    前記がん予測に従って、前記試験サンプルががんを有する可能性が高いかどうかを決定するステップ。
  24. 請求項15に記載の方法、ここで、前記配列リード(sequence reads)は、前記cfDNAフラグメントのメチル化シークエンシングによって生成されたメチル化シークエンシング・データを含む。
  25. 請求項24に記載の方法、ここで、前記メチル化シークエンシングは、WGBSを含む。
  26. 請求項24に記載の方法、ここで、前記メチル化シークエンシングは、ターゲット化シークエンシング(targeted sequencing)を含む。
  27. ハードウェア・プロセッサ、及び、実行可能な命令(この命令は、前記ハードウェア・プロセッサによって実行される時に、前記プロセッサに、請求項15から26の何れか一項に記載の方法を含む演算を実行させる)を記憶する、非-一過性のコンピュータ-可読記憶媒体、を含むシステム。
  28. 無細胞デオキシリボ核酸(cfDNA)サンプルが試験対象由来であることを検証するための方法、ここで、前記方法は、以下のステップを含む:
    試験対象から試験サンプルを取得するステップ、ここで、前記試験対象の年齢は、複数の年齢範囲のうちの1つの中にあると報告される;
    前記試験サンプルから、前記cfDNAサンプルを受け取るステップ;
    前記cfDNAサンプルから、配列リード(sequence reads)を取得するステップ;
    複数のCpG部位の各々について、前記cfDNAサンプル由来の配列リード(sequence reads)に基づいて、複数のCpG部位の各々におけるメチル化密度を、決定するステップ;
    訓練済み回帰モデルを、前記複数のCpG部位についての決定したメチル化密度に、適用することによって、前記cfDNAサンプルについての年齢範囲を予測するステップ、ここで、前記訓練済み回帰モデルを、訓練セットを用いて、訓練する、ここで、複数のCpG部位の各々についてのメチル化密度、及び年齢は、前記訓練セットの各々の個体について、既知である;
    前記cfDNAサンプルの予測した年齢範囲、及び前記試験対象の報告された年齢範囲、に基づいて、前記cfDNAサンプルが前記試験対象由来であることを検証するステップ。
  29. 請求項28に記載の方法、ここで、前記複数のCpG部位を、年齢と相関することが見出された初期セットのCpG部位から同定する、及び、ここで、前記複数のCpG部位を、がん予測にとって交絡特徴(confounding feature)である、初期セットのCpG部位から、CpG部位を除外するステップによって、同定する。
  30. 請求項29に記載の方法、ここで、前記複数のCpG部位を、生物学的な性及び民族性の、一方又は両方にとって交絡特徴(confounding feature)である、初期セットのCpG部位から、CpG部位を更に除外するステップによって、同定する。
  31. 請求項28に記載の方法、ここで、前記複数のCpG部位を、以下によって同定する:
    複数の回帰モデルを訓練するステップ、ここで、各回帰モデルは、訓練サンプルのセットを訓練することによって訓練される、及び初期セットのCpG部位の各々のCpG部位についての学習係数を含む、ここで、所与のCpG部位についての学習係数は、前記CpG部位の予測力を表す;
    前記初期セットのCpG部位の各々のCpG部位について、複数の回帰モデルに渡るCpG部位の学習係数の平均を、複数の回帰モデルに渡るCpG部位の学習係数の分散で割ったものとして計算される情報スコアを決定するステップ;
    その決定した情報スコアに従って、初期セットのCpG部位のCpG部位をランク付けするステップ;並びに、
    前記ランク付けから、複数のCpG部位を選択するステップ。
  32. 請求項28に記載の方法、ここで、その訓練済み回帰モデルは、線形回帰演算を使用して訓練したものである。
  33. 請求項28に記載の方法、ここで、その訓練済み回帰モデルは、ロジスティック回帰演算を使用して訓練したものである。
  34. 請求項28に記載の方法、ここで、その訓練済み回帰モデルは、正則化(regularization)の実装を伴うGlmnet’s回帰演算を使用して訓練したものである。
  35. 前記cfDNAサンプルを検証するステップに応答して、以下のステップを更に含む、請求項28に記載の方法:
    異常フラグメントのセットを生成するために、前記配列リード(sequence reads)を、p-値フィルタリング(p-value filtering)でフィルタリングするステップ;
    第2の複数のCpG部位の各々について、1つ以上の異常フラグメントが前記CpG部位と重なるかどうかに基づいたスコアを生成することによって、試験特徴ベクトルを生成するステップ;
    前記試験サンプルについてのがん予測を生成するために、前記試験特徴ベクトルを、訓練済みモデルに入力するステップ;及び、
    前記がん予測に従って、前記試験サンプルががんを有する可能性が高いかどうかを決定するステップ。
  36. 請求項28に記載の方法、ここで、前記配列リード(sequence reads)は、前記cfDNAフラグメントのメチル化シークエンシングによって生成されたメチル化シークエンシング・データを含む。
  37. 請求項36に記載の方法、ここで、前記メチル化シークエンシングは、WGBSを含む。
  38. 請求項36に記載の方法、ここで、前記メチル化シークエンシングは、ターゲット化シークエンシング(targeted sequencing)を含む。
  39. 請求項28に記載の方法、ここで、前記複数のCpG部位は、表Aに列挙されたCpG部位を含む。
  40. ハードウェア・プロセッサ、及び、実行可能な命令(この命令は、前記ハードウェア・プロセッサによって実行される時に、前記プロセッサに、請求項27から39の何れか一項に記載の方法を含む演算を実行させる)を記憶する、非-一過性のコンピュータ-可読記憶媒体、を含むシステム。
  41. 無細胞デオキシリボ核酸(cfDNA)サンプルが試験対象由来であることを検証するための方法、ここで、前記方法は、以下のステップを含む:
    試験対象から試験サンプルを取得するステップ、ここで、生物学的な性、民族性、及び複数の年齢範囲のうちの1つの中の年齢、のうちの2つ以上は、前記試験対象から報告されている;
    前記試験サンプルから前記cfDNAサンプルを取得するステップ;
    前記cfDNAサンプルから複数の配列リード(sequence reads)を取得するステップ;
    前記cfDNAサンプルについて、以下のうちの2つ以上を予測するステップ:
    以下に基づいたcfDNAサンプルの生物学的な性:
    ヒト・ゲノムのX染色体上に見出される、且つヒト・ゲノムのY染色体上に見出されない、第1の遺伝子の配列リード(sequence reads)の第1のカウント(first count)、及び、
    前記Y染色体上に見出される、且つ前記X染色体上に見出されない、第2の遺伝子の配列リード(sequence reads)の第2のカウント(first count);
    複数の染色体のうちの各々の染色体について計算された民族性確率に基づいた、cfDNAサンプルの1つ以上の民族性、ここで、所与の染色体についての民族性確率は、所与の染色体にある複数のSNPの各々について、cfDNAサンプルの配列リード(sequence reads)から決定したアレル頻度に基づく;並びに、
    複数のCpG部位の各々について決定したメチル化密度に基づいた、cfDNAサンプルの年齢範囲;並びに、
    前記試験対象の、その予測したcfDNAサンプルの生物学的な性、その1つ以上の予測したcfDNAサンプルの民族性、その予測したcfDNAサンプルの年齢範囲、のうちの2つ以上と、その報告された生物学的な性、その報告された民族性、及びその報告された年齢範囲、のうちの2つ以上とを、比較することに基づいて、前記cfDNAサンプルが前記試験対象由来であることを検証するステップ。
  42. ハードウェア・プロセッサ、及び、実行可能な命令(この命令は、前記ハードウェア・プロセッサによって実行される時に、前記プロセッサに、請求項41に記載の方法を含む演算を実行させる)を記憶する、非-一過性のコンピュータ-可読記憶媒体、を含むシステム。
  43. 無細胞デオキシリボ核酸(cfDNA)サンプルが試験対象由来であることを検証するための方法、ここで、前記方法は、以下のステップを含む:
    試験対象から試験サンプルを取得するステップ、ここで、生物学的な性、及び民族性、は、前記試験対象から報告されている;
    前記試験サンプルから前記cfDNAサンプルを取得するステップ;
    前記cfDNAサンプルから複数の配列リード(sequence reads)を取得するステップ;
    前記cfDNAサンプルについて、以下を予測するステップ:
    以下に基づいたcfDNAサンプルの生物学的な性:
    ヒト・ゲノムのX染色体上に見出される、且つヒト・ゲノムのY染色体上に見出されない、第1の遺伝子の配列リード(sequence reads)の第1のカウント(first count)、及び、
    前記Y染色体上に見出される、且つ前記X染色体上に見出されない、第2の遺伝子の配列リード(sequence reads)の第2のカウント(first count);並びに、
    複数の染色体のうちの各々の染色体について計算された民族性確率に基づいた、cfDNAサンプルの1つ以上の民族性、ここで、所与の染色体についての民族性確率は、所与の染色体にある複数のSNPの各々について、cfDNAサンプルの配列リード(sequence reads)から決定したアレル頻度に基づく;並びに、
    前記試験対象の、その予測したcfDNAサンプルの生物学的な性、及びその1つ以上の予測したcfDNAサンプルの民族性、と、その報告された生物学的な性、及びその報告された民族性、とを、比較することに基づいて、前記cfDNAサンプルが前記試験対象由来であることを検証するステップ。
  44. ハードウェア・プロセッサ、及び、実行可能な命令(この命令は、前記ハードウェア・プロセッサによって実行される時に、前記プロセッサに、請求項43に記載の方法を含む演算を実行させる)を記憶する、非-一過性のコンピュータ-可読記憶媒体、を含むシステム。
  45. 無細胞デオキシリボ核酸(cfDNA)サンプルが試験対象由来であることを検証するための方法、ここで、前記方法は、以下のステップを含む:
    試験対象から試験サンプルを取得するステップ、ここで、生物学的な性、及び複数の年齢範囲のうちの1つの中の年齢、は、前記試験対象から報告されている;
    前記試験サンプルから前記cfDNAサンプルを取得するステップ;
    前記cfDNAサンプルから複数の配列リード(sequence reads)を取得するステップ;
    前記cfDNAサンプルについて、以下を予測するステップ:
    以下に基づいたcfDNAサンプルの生物学的な性:
    ヒト・ゲノムのX染色体上に見出される、且つヒト・ゲノムのY染色体上に見出されない、第1の遺伝子の配列リード(sequence reads)の第1のカウント(first count)、及び、
    前記Y染色体上に見出される、且つ前記X染色体上に見出されない、第2の遺伝子の配列リード(sequence reads)の第2のカウント(first count);並びに、
    複数のCpG部位の各々について決定したメチル化密度に基づいた、cfDNAサンプルの年齢範囲;並びに、
    前記試験対象の、その予測したcfDNAサンプルの生物学的な性、及びその予測したcfDNAサンプルの年齢範囲、と、その報告された生物学的な性、及びその報告された年齢範囲、とを、比較することに基づいて、前記cfDNAサンプルが前記試験対象由来であることを検証するステップ。
  46. ハードウェア・プロセッサ、及び、実行可能な命令(この命令は、前記ハードウェア・プロセッサによって実行される時に、前記プロセッサに、請求項45に記載の方法を含む演算を実行させる)を記憶する、非-一過性のコンピュータ-可読記憶媒体、を含むシステム。
  47. 無細胞デオキシリボ核酸(cfDNA)サンプルが試験対象由来であることを検証するための方法、ここで、前記方法は、以下のステップを含む:
    試験対象から試験サンプルを取得するステップ、ここで、民族性、及び複数の年齢範囲のうちの1つの中の年齢、は、前記試験対象から報告されている;
    前記試験サンプルから前記cfDNAサンプルを取得するステップ;
    前記cfDNAサンプルから複数の配列リード(sequence reads)を取得するステップ;
    前記cfDNAサンプルについて、以下を予測するステップ:
    複数の染色体のうちの各々の染色体について計算された民族性確率に基づいた、cfDNAサンプルの1つ以上の民族性、ここで、所与の染色体についての民族性確率は、所与の染色体にある複数のSNPの各々について、cfDNAサンプルの配列リード(sequence reads)から決定したアレル頻度に基づく;並びに、
    複数のCpG部位の各々について決定したメチル化密度に基づいた、cfDNAサンプルの年齢範囲;並びに、
    前記試験対象の、その1つ以上の予測したcfDNAサンプルの民族性、及びその予測したcfDNAサンプルの年齢範囲、と、その報告された民族性、及びその報告された年齢範囲、とを、比較することに基づいて、前記cfDNAサンプルが前記試験対象由来であることを検証するステップ。
  48. ハードウェア・プロセッサ、及び、実行可能な命令(この命令は、前記ハードウェア・プロセッサによって実行される時に、前記プロセッサに、請求項47に記載の方法を含む演算を実行させる)を記憶する、非-一過性のコンピュータ-可読記憶媒体、を含むシステム。
JP2023513869A 2020-08-28 2021-08-26 がんを分類するためのサンプルの検証 Pending JP2023540257A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202063071951P 2020-08-28 2020-08-28
US63/071,951 2020-08-28
PCT/US2021/047822 WO2022047082A2 (en) 2020-08-28 2021-08-26 Sample validation for cancer classification

Publications (1)

Publication Number Publication Date
JP2023540257A true JP2023540257A (ja) 2023-09-22

Family

ID=77897744

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023513869A Pending JP2023540257A (ja) 2020-08-28 2021-08-26 がんを分類するためのサンプルの検証

Country Status (8)

Country Link
US (1) US20220090211A1 (ja)
EP (1) EP4193360A2 (ja)
JP (1) JP2023540257A (ja)
CN (1) CN116583904A (ja)
AU (1) AU2021334333A1 (ja)
CA (1) CA3188972A1 (ja)
IL (1) IL300487A (ja)
WO (1) WO2022047082A2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114898802B (zh) * 2022-07-14 2022-09-30 臻和(北京)生物科技有限公司 基于血浆游离dna甲基化测序数据的末端序列频率分布特征确定方法、评价方法及装置
WO2024025831A1 (en) * 2022-07-25 2024-02-01 Grail, Llc Sample contamination detection of contaminated fragments with cpg-snp contamination markers
US20240170099A1 (en) * 2022-07-28 2024-05-23 Grail, Llc Methylation-based age prediction as feature for cancer classification

Also Published As

Publication number Publication date
WO2022047082A3 (en) 2022-04-21
EP4193360A2 (en) 2023-06-14
WO2022047082A2 (en) 2022-03-03
AU2021334333A1 (en) 2023-03-16
CA3188972A1 (en) 2022-03-03
US20220090211A1 (en) 2022-03-24
IL300487A (en) 2023-04-01
CN116583904A (zh) 2023-08-11

Similar Documents

Publication Publication Date Title
AU2019229273B2 (en) Ultra-sensitive detection of circulating tumor DNA through genome-wide integration
JP7022188B2 (ja) 無細胞核酸の多重解像度分析のための方法
JP6829211B2 (ja) 癌スクリーニング及び胎児分析のための変異検出
TWI814753B (zh) 用於標靶定序之模型
TWI732771B (zh) Dna混合物中組織之單倍型甲基化模式分析
AU2016293025A1 (en) System and methodology for the analysis of genomic data obtained from a subject
US20210104297A1 (en) Systems and methods for determining tumor fraction in cell-free nucleic acid
JP2023540257A (ja) がんを分類するためのサンプルの検証
JP2023524627A (ja) 核酸のメチル化分析による結腸直腸癌を検出するための方法およびシステム
US20210310075A1 (en) Cancer Classification with Synthetic Training Samples
CA3119328A1 (en) Cancer tissue source of origin prediction with multi-tier analysis of small variants in cell-free dna samples
US20220301654A1 (en) Systems and methods for predicting and monitoring treatment response from cell-free nucleic acids
JP2022527316A (ja) ウィルスに関連した癌のリスクの層別化
US20240055073A1 (en) Sample contamination detection of contaminated fragments with cpg-snp contamination markers
US20230272477A1 (en) Sample contamination detection of contaminated fragments for cancer classification
US20240170099A1 (en) Methylation-based age prediction as feature for cancer classification
US20240021267A1 (en) Dynamically selecting sequencing subregions for cancer classification
Luong Predicting Formalin-fixed Paraffin-embedded (FFPE) Sequencing Artefacts from Breast Cancer Exome Sequencing Data Using Machine Learning