JP2024057050A - 対立遺伝子頻度に基づく機能喪失のコンピューターモデリング - Google Patents

対立遺伝子頻度に基づく機能喪失のコンピューターモデリング Download PDF

Info

Publication number
JP2024057050A
JP2024057050A JP2024027520A JP2024027520A JP2024057050A JP 2024057050 A JP2024057050 A JP 2024057050A JP 2024027520 A JP2024027520 A JP 2024027520A JP 2024027520 A JP2024027520 A JP 2024027520A JP 2024057050 A JP2024057050 A JP 2024057050A
Authority
JP
Japan
Prior art keywords
sample
somatic
probability
nucleic acid
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2024027520A
Other languages
English (en)
Inventor
バルバチオル カタリン
シコラ マーシン
チュドヴァ ダーリヤ
Original Assignee
ガーダント ヘルス, インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ガーダント ヘルス, インコーポレイテッド filed Critical ガーダント ヘルス, インコーポレイテッド
Publication of JP2024057050A publication Critical patent/JP2024057050A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6809Methods for determination or identification of nucleic acids involving differential detection
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/106Pharmacogenomics, i.e. genetic variability in individual responses to drugs and drug metabolism
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers

Abstract

【課題】対立遺伝子頻度に基づく機能喪失のコンピューターモデリングの提供。【解決手段】本開示は、試料中の無細胞DNAから配列決定された遺伝子などの遺伝物質の様々な状態の精度の高い診断のためのコンピューター技術に関する。この状態は、体細胞ホモ接合欠失、体細胞ヘテロ接合欠失、コピー数変異、または他の状態を含んでもよい。コンピューターシステムは、遺伝物質がある特定の状態にある確率を各々出力する競合確率モデルを作成することができる。各モデルは、遺伝物質がそれぞれの状態にある確率を出力するよう設定したトレーニング試料でトレーニングされ得る。一部の実施形態では、コンピューターシステムは、様々な確率分布を使用してモデルを作成することができる。【選択図】なし

Description

関連出願への相互参照
本出願は、すべての目的に関して参照により本明細書に組み込まれる、2019年2月27日に出願した米国仮出願第62/811,159号、および2019年3月25日に出願した米国仮出願第62/823,585号に基づく優先権の利益を主張する。
背景
腫瘍は、細胞の異常な成長である。断片化したDNAは、細胞、例えば腫瘍細胞が死滅すると、体液中に放出されることが多い。よって、体液中の無細胞DNAの一部は、腫瘍のDNAである。腫瘍は、良性であっても悪性であってもよい。悪性腫瘍は、がんと称されることが多い。
がんは、世界中で主要な病因である。各年、世界中で数千万人の人々ががんを有すると診断され、その半分より多くが、最終的にがんが原因で死亡する。多くの国では、がんは、心血管疾患に続く2番目に多い死因として位置付けられる。早期検出は、多くのがんにとって転帰の改善に関連する。
がんは、個体の正常細胞内での突然変異および/またはエピジェネティック変異の蓄積によって引き起こされ、少なくともその一部は不適切に調節された細胞分裂をもたらす。このような突然変異、または遺伝物質の状態は、一般的に、コピー数変異(CNV)、コピー数異常(CNA)、一塩基変異(SNV)、遺伝子融合およびインデルを含み、エピジェネティック変異は、シトシンの6原子環の5番目の原子に対する改変ならびにDNAのクロマチンおよび転写因子との会合を含む。
特定の例では、相同組換え修復(HRR)遺伝子(BRCA1/2)のヘテロ接合性の喪失(LOH)および二対立遺伝子のコピー数喪失は、腫瘍抑制機能の喪失に関連し、がんをもたらす。多くの場合には、目的の遺伝子の特定の状態によって、処置の種類についての情報を得ることができる。例えば、遺伝子の1つの状態は一組の薬物に応答することができるが、一方、その遺伝子の別の状態は応答することができない。よって、がんおよび他の疾患を単に診断することができるだけではなく、疾患の根本原因を特徴付けることができることが、益々重要である。
がんは、腫瘍の生検と、その後の細胞、マーカーまたは細胞から抽出されたDNAの解析によって検出されることが多い。体液の解析に基づいてがんを検出するための研究は、進行中である。成功すれば、これらの検査は、これらが非侵襲的であり、生検によって疑わしいがん細胞を特定することなく実施することができるという利点を有する。しかし、体液中の核酸量が非常に少ないという事実によって、これらの種類の検査を首尾よく完了することは難解である。さらに、体液中の検出可能な腫瘍関連無細胞核酸の量は、無細胞DNAにおけるがんの解析および検出をさらに困難にする可能性がある。言い換えれば、体液中の腫瘍DNAには正常なDNAが夾雑している場合があり、無細胞DNAの試料中の腫瘍の特定原因のコンピューター解析および検出を困難にする。
要旨
本開示は、試料中の無細胞DNAから配列決定された遺伝子などの遺伝物質の様々な状態について、精度の高い診断をもたらすコンピューター技術に関する。この状態は、限定されないが、体細胞ホモ接合欠失、体細胞ヘテロ接合欠失、コピー数変異(「CNV」)(特定コピー数の野生型、増幅、または喪失を含む)などの遺伝子の突然変異状態、および/または他の状態を含み得る。精度の高い診断は、これらの状態の1つまたは複数の確率モデルに基づいてもよい。例えば、コンピューターシステムは、遺伝物質がある特定の状態にある確率を各々出力する競合モデルを作成することができる。
各モデルは、トレーニング試料のセットに関してトレーニングされ、遺伝物質がそれぞれの状態にある確率を出力することができる。例えば、第1のモデルは、遺伝物質が特定の遺伝子の対立遺伝子の体細胞ホモ接合欠失を含む第1の確率に関し、これを出力することができる。第2のモデルは、遺伝物質が特定の遺伝子の対立遺伝子の体細胞ヘテロ接合欠失を含む第2の確率に関し、これを出力することができる。他のモデルは、遺伝物質のCNVなどの他の種類の状態の確率に関し、これを出力することができる。コンピューターシステムは、各競合モデルの出力を比較して、どのモデルがより可能性が高いかを判定することができる。例えば、コンピューターシステムは、競合する第1および第2の確率の対数尤度比を使用して、遺伝物質が体細胞ホモ接合欠失または体細胞ヘテロ接合欠失を含むか否かを判定することができる。
一部の実施形態では、コンピューターシステムは、様々な確率分布を使用して、モデルを作成することができる。例えば、コンピューターシステムは、ベータ-二項分布、二項分布、正規分布(「ガウス分布」とも称される)、および/または他の種類の確率モデリング技法を使用することができる。コンピューターシステムは、トレーニングデータセットに基づいて、状態(特定の状態を支持する対立遺伝子数など)をモデリングして、非正常、または腫瘍の状態のベースライン期待値を設定することができる。例えば、コンピューターシステムは、「正常な」または非腫瘍試料、例えば、体細胞バリアントが観察されない試料において観察された生殖細胞系列一塩基多型(SNP)の位置を特定することができる。これらの試料は、腫瘍非検出(tumor not detected)(TND)試料とも称されるであろう。
TND試料は正常であるため、コンピューターシステムは、生殖細胞系列SNPの位置が非正常状態の原因ではないと仮定することができる。このように、コンピューターシステムは、これらのSNP部位を活用して、この状態の確率的判定のために対立遺伝子数をモデリングするための参照期待値とすることができる。例えば、各SNPの位置において観察されたヌクレオチドコールからの偏差は、このような偏差が、腫瘍または他の非正常状態などの特定の状態の原因である確率を示し得る。したがって、コンピューターシステムは、TND試料の生殖細胞系列SNPからのデータに関する計算結果に由来する期待値に基づいて、モデルをトレーニングすることができる。このような計算されたデータは、各SNP部位に対して:ヘテロ接合性の出現率、MAFの標準偏差、遺伝子型、生殖細胞系列の出現率(事前の)、および/または個体の試料の解析に対して情報を与え得る他のデータを含み得る。
計算された期待値を用いて、コンピューターシステムは、目的の領域、例えば、目的の遺伝子の上流の、下流の、およびそれを含む領域に対してアラインする、検査される個体の試料の配列読み取りデータに基づく状態をモデリングすることができる。一部の実施形態では、個体の試料から得られた分子の配列読み取りデータは、参照ゲノムに対してアラインされ、元の分子が支持する対立遺伝子(突然変異体または野生型)を特定することができる。個体の試料から得られた配列読み取りデータのアライメントに基づき、コンピューターシステムは、代替対立遺伝子を支持する分子の数を特定し、分子の総数を計算することができる。コンピューターシステムは、目的の領域における各生殖細胞系列SNPから計算された期待値データを用いて、個体の試料に由来するこれらのおよび/または他のデータをモデリングすることができる。一部の例では、配列決定は、血漿中無細胞DNA(cfDNA)の標的化配列決定に基づいてもよい。
一態様では、本開示は、遺伝子の生殖細胞系列欠失を示さない試料中の遺伝子の体細胞ホモ接合欠失と体細胞ヘテロ接合欠失とを識別するために改良されたコンピューターシステムに関する。このコンピューターシステムは、第1の確率分布により、遺伝子に関連する1つまたは複数の生殖細胞系列一塩基多型(SNP)の位置に基づいて、体細胞ホモ接合欠失を表す、対立遺伝子数の第1のモデルを作成するようにプログラミングされたプロセッサーを含むことができる。プロセッサーは、第2の確率分布により、1つまたは複数の生殖細胞系列SNPの位置に基づいて、体細胞ヘテロ接合欠失を表す、試料中の対立遺伝子数の第2のモデルをさらに作成することができる。プロセッサーは、第1のモデルの第1の出力と第2のモデルの第2の出力とを比較することができる。プロセッサーは、比較に基づいて、遺伝子に関する体細胞ホモ接合欠失が試料中に存在するという予測を作成することができる。
一部の実施形態では、第1のモデルは、試料が体細胞ホモ接合欠失を含む第1の確率を表すことができ、第2のモデルは、試料が体細胞ヘテロ接合欠失を含む第2の確率を表す。
一部の実施形態では、第1の確率分布は、第2の確率分布と同じ種類の確率分布である。
一部の実施形態では、第1のモデルを作成するために、プロセッサーは、第1の確率分布に対する入力のための1つまたは複数のパラメーターを判定するようにプログラミングされている。
一部の実施形態では、第1の確率分布は、ベータ-二項分布、二項分布、または正規分布を含む。
対立遺伝子数の第1のモデルを作成するための一部の実施形態では、プロセッサーは、第1の確率分布に対する入力のために、試料のトレーニングセットにおいて1つまたは複数の生殖細胞系列SNPのヘテロ接合性の出現率(prevalence)をさらに判定することができる。
一部の実施形態では、試料のトレーニングセットは、腫瘍が検出されない(TND)複数の試料を含んでもよい。
一部の実施形態では、対立遺伝子数の第1のモデルを作成するために、プロセッサーは、第1の確率分布に対する入力のために、試料のトレーニングセットにおいて1つまたは複数の生殖細胞系列SNPのそれぞれと関連するマイナー対立遺伝子頻度(MAF)の標準偏差をさらに判定することができる。
一部の実施形態では、第1のモデルを作成するために、プロセッサーは、第1の確率分布に対する入力のために、変異型対立遺伝子を支持する試料中の分子の数をさらに判定することができる。
一部の実施形態では、第1のモデルを作成するために、プロセッサーは、第1の確率分布に対する入力のために、試料中の分子の総数をさらに判定することができる。
一部の実施形態では、第1のモデルを作成するために、プロセッサーは、体細胞ホモ接合欠失と関連する配列読み取りデータカバレッジに基づいて、体細胞ホモ接合欠失を仮定して、試料中の1つまたは複数の生殖細胞系列SNPの位置の対立遺伝子数の第1の尤度をさらに計算することができる。
一部の実施形態では、第2のモデルを作成するために、プロセッサーは、体細胞ヘテロ接合欠失と関連する配列読み取りデータカバレッジに基づいて、体細胞ヘテロ接合欠失を仮定して、試料中の1つまたは複数の生殖細胞系列SNPの位置の対立遺伝子数の第2の尤度をさらに計算することができる。
一部の実施形態では、第2のモデルを作成するために、プロセッサーは、第2のモデルに関する第2の確率分布に対する入力のために、試料から推定された腫瘍含有率(tumor fraction)の平均をさらに判定することができる。
一部の実施形態では、腫瘍含有率は、配列カバレッジ情報に基づいて推定され得る。
一部の実施形態では、第2のモデルを作成するために、プロセッサーは、第2のモデルに関する第2の確率分布に対する入力のために、試料から推定された腫瘍含有率の標準偏差をさらに判定することができる。
一部の実施形態では、プロセッサーは、さらに、複数の試料にアクセスし、生殖細胞系列欠失を含む複数の試料の中から試料のセットを特定し、複数の試料から試料のセットをフィルタリングして出力し、フィルタリングされた複数の試料の中から、体細胞ホモ接合欠失または体細胞ヘテロ接合欠失の存在を特定することができる。
一部の実施形態では、第1の出力は、体細胞ホモ接合欠失の存在についての第1の確率を含んでもよく、第2の出力は、体細胞ヘテロ接合欠失の存在についての第2の確率を含んでもよい。
一部の実施形態では、第1のモデルの第1の出力と第2のモデルの第2の出力とを比較するために、プロセッサーは、第1の出力と第2の出力とに基づいて、対数尤度関数をさらに実行することができる。
一部の実施形態では、遺伝子は、BRCA1、BRCA2、またはATMを含んでもよい。
別の態様では、本開示は、システムに関する。システムは、試料中の遺伝子が体細胞ホモ接合欠失を含む第1の確率を作成し、試料中の遺伝子が体細胞ヘテロ接合欠失を含む第2の確率を作成し、第1の確率と第2の確率とを比較し、試料が体細胞ホモ接合欠失または体細胞ヘテロ接合欠失を含むか否かの予測を作成するようにプログラミングされたプロセッサーを含んでもよい。
別の態様では、本開示は、システムに関する。システムは、試料中の遺伝物質が第1の状態を含む第1の確率を作成し、試料中の遺伝物質が第2の状態を含む第2の確率を作成し、第1の確率と第2の確率とを比較し、試料が第1の状態または第2の状態を含むか否かの予測を作成するようにプログラミングされたプロセッサーを含んでもよい。
一部の実施形態では、第1の状態は体細胞ホモ接合欠失を含み、第2の状態は体細胞ヘテロ接合欠失を含む。
一部の実施形態では、第1の状態は、第1のコピー数バリアント(CNV)を含んでもよく、第2の状態は、第1のCNVとは異なる第2のCNVを含んでもよい。
一部の実施形態では、第1のCNVおよび/または第2のCNVは、有害な状態に関連し得る。
一部の実施形態では、第1の確率を作成するために、プロセッサーは、さらに、遺伝子に関連する1つまたは複数の生殖細胞系列一塩基多型(SNP)の位置にアクセスし、試料のトレーニングセットにおいて1つまたは複数の生殖細胞系列SNPのそれぞれに関連するマイナー対立遺伝子頻度(MAF)の標準偏差を判定することができる。
一部の実施形態では、第1の確率を作成するために、プロセッサーは、確率分布に対する入力のために、試料のトレーニングセットにおいて1つまたは複数の生殖細胞系列SNPのそれぞれと関連するマイナー対立遺伝子頻度(MAF)の標準偏差をさらに判定することができる。
別の態様では、本開示は、プロセッサーによって実装される方法に関する。本方法は、プロセッサーによって、第1の確率分布により、遺伝子に関連する1つまたは複数の生殖細胞系列一塩基多型(SNP)の位置に基づいて、体細胞ホモ接合欠失を表す、対立遺伝子数の第1のモデルを作成するステップを含んでもよい。本方法は、プロセッサーによって、第2の確率分布により、1つまたは複数の生殖細胞系列SNPの位置に基づいて、体細胞ヘテロ接合欠失を表す、試料中の対立遺伝子数の第2のモデルを作成するステップをさらに含んでもよい。本方法は、プロセッサーによって、第1のモデルの第1の出力と第2のモデルの第2の出力とを比較するステップを含んでもよい。本方法は、プロセッサーによって、比較に基づいて、遺伝子に関する体細胞ホモ接合欠失が試料中に存在するという予測を作成するステップをさらに含んでもよい。
別の態様では、本開示は、プロセッサーによって実装される別の方法に関する。本方法は、プロセッサーによって、試料中の遺伝子が体細胞ホモ接合欠失を含む第1の確率を作成するステップを含んでもよい。本方法は、プロセッサーによって、試料中の遺伝子が体細胞ヘテロ接合欠失を含む第2の確率を作成するステップをさらに含んでもよい。本方法は、プロセッサーによって、第1の確率と第2の確率とを比較するステップをさらに含んでもよい。本方法は、プロセッサーによって、試料が体細胞ホモ接合欠失または体細胞ヘテロ接合欠失を含むか否かの予測を作成するステップをさらに含んでもよい。
別の態様では、本開示は、プロセッサーによって実装される別の方法に関する。
本方法は、プロセッサーによって、試料中の遺伝物質が第1の状態を含む第1の確率を作成するステップを含んでもよい。本方法は、プロセッサーによって、試料中の遺伝物質が第2の状態を含む第2の確率を作成するステップをさらに含んでもよい。本方法は、プロセッサーによって、第1の確率と第2の確率とを比較するステップをさらに含んでもよい。本方法は、プロセッサーによって、試料が第1の状態または第2の状態を含むか否かの予測を作成するステップをさらに含んでもよい。
別の態様では、本開示は、本明細書の開示に基づいて、体細胞ホモ接合欠失を有すると判定された対象に、体細胞ホモ接合欠失に関連するがんを処置するのに有効な治療介入を施与するための方法に関する。
一部の実施形態では、治療介入は、ポリADPリボースポリメラーゼ(PARP)阻害剤を含んでもよい。PARP阻害剤の例としては、とりわけ、OLAPARIB、TALAZOPARIB、RUCAPARIB、NIRAPARIB(商標名ZEJULA)が挙げられる。
一部の実施形態では、治療介入は、塩基除去修復(BER)阻害剤を含んでもよい。例えば、OLAPARIBは、BERを阻害し得る。
別の態様では、本開示は、本明細書の開示に基づいて、特定の状態の遺伝物質を有すると判定された対象に、遺伝物質の状態に関連する疾患を処置するのに有効な治療介入を施与するための方法に関する。
別の態様では、本開示は、本明細書の開示に基づいて、体細胞ホモ接合欠失を有さないと判定された対象に、PARP阻害剤を除外するための治療介入を施与するための方法に関する。
本開示のすべての態様の一部の実施形態では、本明細書に開示されるシステムおよび/または方法の結果は、レポートを作成するための入力として使用される。レポートは、紙であっても電子形式であってもよい。例えば、本明細書に開示される方法またはシステムによって判定される遺伝子および/または遺伝物質の欠失または他の状態に関する情報、および/またはそれに由来する情報を、このようなレポートにおいて示すことができる。本明細書に開示される方法またはシステムは、レポートを、試料が由来する対象または医療従事者などの第3のパーティーに通信するステップをさらに含んでもよい。
本明細書に開示される方法の様々な操作、または本明細書に開示されるシステムによって実行される操作は、同時にもしくは異なる時間に、および/または同じ地理的場所もしくは異なる地理的場所、例えば、国において実行されてもよい。本明細書に開示される方法の様々なステップは、同じ人間または異なる人々によって実施され得る。
図1は、本開示の実施形態に従って、各状態の確率に基づいて、遺伝物質の状態を予測するためにモデルをトレーニングするためのシステムの例を例示する。
図2は、本開示の実施形態に従って、生殖細胞系列SNPに関する対立遺伝子数を判定して、遺伝子の状態を予測する概略図を例示する。
図3は、本開示の実施形態に従って、トレーニングされたモデルに基づいて、体細胞ホモ接合またはヘテロ接合欠失を予測するプロセスを例示する。
図4は、本開示の実施形態に従って、トレーニングされたモデルに基づいて、遺伝物質の状態を予測するプロセスを例示する。
図5は、本開示の実施形態に従って、体細胞欠失の種類を例示する。
図6Aは、本開示の実施形態に従って、BRCA1ホモ接合欠失の例示的プロットを例示する。
図6Bは、本開示の実施形態に従って、BRCA2ヘテロ接合欠失の例示的プロットを例示する。
図7Aは、本開示の実施形態に従って、TND試料中のhet出現率の例示的プロットを例示する。
図7Bは、本開示の実施形態に従って、TND試料にわたるMAFの例示的プロットを例示する。
図8Aは、本開示の実施形態に従って、BRCA1に関するMAF値の例示的プロットを例示する。
図8Bは、本開示の実施形態に従って、BRCA2に関するMAF値の例示的プロットを例示する。
図9Aは、本開示の実施形態に従って、BRCA2パネルに関するベータ-二項モデルと二項モデルのスコア比較の例示的プロットを例示する。
図9Bは、本開示の実施形態に従って、BRCA2パネルに関するベータ-二項モデルとガウス分布モデルのスコア比較の例示的プロットを例示する。
図10Aは、本開示の実施形態に従って、BRCA1陰性試料に関するLLRスコア分布の例示的プロットを例示する。
図10Bは、本開示の実施形態に従って、BRCA2陰性試料に関するLLRスコア分布の例示的プロットを例示する。
図11Aは、本開示の実施形態に従って、BRCA1に関する検出限界(LoD)の欠失の例示的プロットを例示する。
図11Bは、本開示の実施形態に従って、BRCA1に関するLoDのHRRホモ接合欠失の例示的プロットを例示する。
図12Aは、本開示の実施形態に従って、BRCA2に関するLoDの欠失の例示的プロットを例示する。
図12Bは、本開示の実施形態に従って、BRCA2に関するLoDのHRRホモ接合欠失の例示的プロットを例示する。
図13は、本開示の実施形態に従って、がんの種類に対するTFの出現率の例示的プロットを例示する。
図14は、本開示の実施形態に従って、BRCA1およびBRCA2に関するLLRスコアの密度の例示的プロットを例示する。
図15は、本開示の実施形態に従って、BRCA2ホモ接合欠失の出現率の例示的チャートを例示する。
図16は、本開示の実施形態に従って、BRCA1ホモ接合欠失の出現率の例示的チャートを例示する。
図17は、本開示の実施形態に従って、BRCA2のホモ接合欠失と潜在的な臨床的対処可能性(clinical actionability)の例を例示する。
図18Aは、本開示の実施形態に従って、BRCA1ホモ接合欠失の例示的プロットを例示する。
図18Bは、本開示の実施形態に従って、BRCA1ホモ接合欠失の例示的プロットを例示する。
図19Aは、本開示の実施形態に従って、BRCA2ホモ接合欠失の例示的プロットを例示する。
図19Bは、本開示の実施形態に従って、BRCA2ホモ接合欠失の例示的プロットを例示する。
図20Aは、本開示の実施形態に従って、BRCA1二対立遺伝子体細胞コピー数の喪失の例示的プロットを例示する。
図20Bは、本開示の実施形態に従って、BRCA1 LOHの例示的プロットを例示する。
図21Aは、本開示の実施形態に従って、BRCA2二対立遺伝子体細胞コピー数の喪失の例示的プロットを例示する。
図21Bは、本開示の実施形態に従って、BRCA2 LOHの例示的プロットを例示する。
図22は、本開示の実施形態に従って、BRCA1およびBRCA2体細胞欠失の出現率のプロットを例示する。
定義
対象は、動物、例えば、哺乳類種(好ましくはヒト)または鳥類(例えば、トリ)種、または他の生物、例えば、植物を指す。より詳細には、対象は、脊椎動物、例えば、マウス、霊長類、類人猿またはヒトなどの哺乳類であってもよい。動物は、飼育動物、狩猟動物、および愛玩動物を含む。対象は、健康な個体、症状もしくは兆候を有するかまたは疾患もしくは疾患に罹り易い体質を有することが疑われる個体、あるいは治療を必要としているかまたは治療を必要とすることが疑われる個体であってもよい。
遺伝子バリアントは、対象の核酸試料またはゲノムにおける変更、バリアントまたは多型を指す。このような変更、バリアントまたは多型は、種(例えば、ヒトでは、hG19またはhG38)、対象または他の個体の参照ゲノムであり得る参照ゲノムに関するものであってもよい。変異は、1つまたは複数の一塩基変異(SNV)、挿入、欠失、反復、小規模の挿入、小規模の欠失、小規模の反復、構造的バリアント接合、可変長タンデム反復、および/または隣接配列を含み、コピー数バリアント(CNV)、トランスバージョン、遺伝子融合および他の再配列は遺伝的変異の形態でもある。変異は、塩基の変化、挿入、欠失、反復、コピー数変異、トランスバージョン、またはこれらの組合せであってもよい。
がんマーカーは、がんの存在またはがんを発症するリスクに関連する遺伝子バリアントである。がんマーカーは、対象が、がんを有するか、またはがんマーカーを有さない同種の年齢および性別の一致した対象よりもがんを発症するより高いリスクを有することの指標を提供し得る。がんマーカーは、がんの原因であってもなくてもよい。
本明細書で使用される場合、「核酸タグ」は、異なる種類の、または異なる処理を受けた、異なる試料(例えば、試料インデックスを表す)、または同じ試料における異なる核酸分子(例えば、分子バーコードを表す)から、核酸を識別するために使用される短い核酸(例えば、約500ヌクレオチド長、約100ヌクレオチド長、約50ヌクレオチド長、または約10ヌクレオチド長未満)を指す。核酸タグは、所定の、固定された、非ランダム、ランダムまたはセミランダムオリゴヌクレオチド配列を含む。このような核酸タグを使用して、異なる核酸分子または異なる核酸試料もしくはサブ試料を標識することができる。核酸タグは、一本鎖、二本鎖、または少なくとも部分的に二本鎖であってもよい。核酸タグは、必要に応じて、同じ長さまたは変動した長さを有する。核酸タグは、1つもしくは複数の平滑末端を有する二本鎖分子を含んでもよい、5’もしくは3’一本鎖領域(例えば、オーバーハング)を含んでもよい、および/または所与の分子内の他の場所に1つもしくは複数の他の一本鎖領域を含んでもよい。核酸タグは、他の核酸(例えば、増幅および/または配列決定される試料核酸)の一方の末端または両方の末端に結合され得る。核酸タグは、所与の核酸の起源の試料、形態、またはプロセシングなどの情報を明らかにするために解読され得る。例えば、その後に、核酸タグを検出する(例えば、読み取る)ことによって核酸がデコンボリューションされる、異なる分子バーコードおよび/または試料インデックスを保有する核酸を含む複数の試料のプールおよび/または並行処理を可能とするために核酸タグを使用することもできる。核酸タグを、識別子(例えば、分子識別子、試料識別子)とも称することができる。さらに、またはあるいは、核酸タグは、分子識別子として使用することができる(例えば、同じ試料またはサブ試料中の異なる分子または異なる親分子のアンプリコン間を識別するために)。これは、例えば、所与の試料中の異なる核酸分子を固有にタグ付けすること、またはこのような分子を非固有にタグ付けすることを含む。非固有のタグ付けを適用する事例では、異なる分子を、少なくとも1種の分子バーコードと組み合わせて、それらの内在性配列情報(例えば、選択された参照ゲノムに対してマッピングされる開始および/もしくは停止の位置、配列の一方もしくは両方の末端のサブ配列、ならびに/または配列の長さ)に基づいて識別することができるように、限定数のタグ(すなわち、分子バーコード)を使用して、各核酸分子をタグ付けすることができる。典型的には、いずれか2つの分子が、同じ内在性配列情報(例えば、開始および/もしくは停止の位置、配列の一方もしくは両方の末端のサブ配列、ならびに/または長さ)を有する可能性があり、かつ同じ分子バーコードも有する確率が低くなるように(例えば、約10%未満、約5%未満、約1%未満、または約0.1%未満の見込み)、十分な数の異なる分子バーコードが使用される。
アダプターは、試料核酸分子のいずれかまたは両方の末端(各末端に1つのアダプター)への連結のために、通常、少なくとも部分的に二本鎖の短い核酸(例えば、500、100または50ヌクレオチド長未満)である。アダプターは、両末端がアダプターに隣接する核酸分子の増幅を可能にするプライマー結合部位、および/または次世代配列決定(NGS)のためのプライマー結合部位を含む配列決定プライマー結合部位を含むことができる。アダプターはまた、捕捉プローブ、例えば、フローセルの支持体に結合したオリゴヌクレオチドに対する結合部位を含むことができる。アダプターは、上述のようなバーコードも含み得る。バーコードは、好ましくは、バーコードが、核酸分子のアンプリコンおよび配列決定読み取りデータに含まれるように、プライマーおよび配列決定プライマー結合部位に対して位置付けられる。同じまたは異なる配列のアダプターは、核酸分子の各末端に連結され得る。同じアダプターは、バーコードが異なることを除いて、各末端に連結されることが多い。好ましいアダプターは、核酸分子(これもまた平滑末端であるかまたは1つもしくは複数の相補的ヌクレオチドでテール処理されている)への接合のために、一方の末端が本明細書に記載されるように平滑末端であるかまたはテール処理されているY形状アダプターであり、Y形状アダプターの他方の末端は、二本鎖を形成するためにハイブリダイズしない非相補配列を含む。別の好ましいアダプターは、同様に、解析される核酸への接合のための平滑末端またはテール処理された末端を有するベル形状アダプターである。
本明細書で使用される場合、用語「配列決定」は、生体分子、例えば、DNAまたはRNAなどの核酸の配列を決定するために使用されるいくつかの技術のうちのいずれかを指す。例示的な配列決定方法としては、以下に限定されないが、標的化配列決定、単一分子リアルタイム配列決定、エクソン配列決定、電子顕微鏡に基づく配列決定、パネル配列決定、トランジスタ媒介性配列決定、直接的配列決定、ランダムショットガン配列決定、サンガージデオキシ停止配列決定、全ゲノム配列決定、ハイブリダイゼーションによる配列決定、ピロ配列決定、キャピラリー電気泳動、二重鎖配列決定、サイクル配列決定、単一塩基伸長配列決定、固相配列決定、ハイスループット配列決定、超並列シグネチャー配列決定、エマルションPCR、低変性温度-PCR(COLD-PCR)における同時増幅、マルチプレックスPCR、可逆的ダイターミネーターによる配列決定、ペアードエンド配列決定、ニアターム(near-term)配列決定、エキソヌクレアーゼ配列決定、ライゲーションによる配列決定、ショートリード配列決定、単一分子配列決定、合成による配列決定、リアルタイム配列決定、リバースターミネーター配列決定、ナノポア配列決定、454配列決定、Solexa Genome Analyzer配列決定、SOLiD(商標)配列決定、MS-PET配列決定、およびこれらの組合せが挙げられる。一部の実施形態では、配列決定は、例えば、IlluminaまたはApplied Biosystemsから市販されている遺伝子解析器などの遺伝子解析器によって実施することができる。
語句「次世代配列決定」またはNGSは、例えば、一度に数十万の比較的小さな配列読み取りデータを生成する能力を有する、古典的なサンガーおよびキャピラリー電気泳動に基づくアプローチと比較して、増加したスループットを有する配列決定技術を指す。次世代配列決定技法のいくつかの例として、以下に限定されないが、合成による配列決定、ライゲーションによる配列決定、およびハイブリダイゼーションによる配列決定が挙げられる。
DNA(デオキシリボ核酸)は、アデニン(A)、チミン(T)、シトシン(C)、およびグアニン(G)に基づく4種類のヌクレオチドを含むヌクレオチド鎖である。RNA(リボ核酸)は、A、ウラシル(U)、G、およびCに基づく4種類のヌクレオチドを含むヌクレオチド鎖である。ある特定のヌクレオチドの対は、相補的様式で互いに特異的に結合する(相補的塩基対合と称される)。DNAでは、アデニン(A)はチミン(T)と対合し、シトシン(C)はグアニン(G)と対合する。RNAでは、アデニン(A)はウラシル(U)と対合し、シトシン(C)はグアニン(G)と対合する。第1の核酸鎖が、その第1の鎖におけるヌクレオチドに対して相補的であるヌクレオチドから構成される第2の核酸鎖に結合する場合、この2本の鎖が結合して二本鎖を形成する。本明細書で使用される場合、「核酸配列決定データ」、「核酸配列決定情報」、「核酸配列」、「ヌクレオチド配列」、「ゲノム配列」、「遺伝子配列」、または「断片配列」、または「核酸配列決定読み取りデータ」は、DNAまたはRNAなどの核酸の分子(例えば、全ゲノム、全トランスクリプトーム、エキソーム、オリゴヌクレオチド、ポリヌクレオチド、または断片)中のヌクレオチド塩基(例えば、アデニン、グアニン、シトシン、およびチミンまたはウラシル)の順序を示すいずれかの情報またはデータを示す。本発明の教示が、以下に限定されないが:キャピラリー電気泳動、マイクロアレイ、ライゲーションに基づくシステム、ポリメラーゼに基づくシステム、ハイブリダイゼーションに基づくシステム、直接的または間接的ヌクレオチド特定システム、ピロ配列決定、イオンまたはpHに基づく検出システム、および電気的なサインに基づくシステムを含む、すべての利用可能な多種の技法、プラットフォームまたは技術を使用して得られた配列情報を企図することが理解されるべきである。
「ポリヌクレオチド」、「核酸」、「核酸分子」、または「オリゴヌクレオチド」は、ヌクレオシド間の連結によって接合したヌクレオシド(デオキシリボヌクレオシド、リボヌクレオシド、またはこれらのアナログを含む)の線状ポリマーを指す。典型的には、ポリヌクレオチドは、少なくとも3つのヌクレオシドを含む。オリゴヌクレオチドは、数個のモノマー単位、例えば、3~4個から数百個のモノマー単位のサイズの範囲に及ぶことが多い。ポリヌクレオチドが、「ATGCCTG」などの文字の配列によって表される場合には常に、別段に記載されていなければ、ヌクレオチドが、左から右に5’から3’の順であり、「A」はデオキシアデノシンを示し、「C」はデオキシシチジンを示し、「G」はデオキシグアノシンを示し、「T」はチミジンを示すことが理解されるであろう。文字A、C、G、およびTは、当技術分野において標準的であるように、塩基それ自体、ヌクレオシド、または塩基を含むヌクレオチドを指すために使用することができる。
語句「配列読み取りデータカバレッジ」は、参照配列の遺伝子座に対してアラインする配列読み取りデータの数を指す。「配列カバレッジ情報」は、参照配列の所与の遺伝子座の配列読み取りデータカバレッジを伝える情報を指す。配列カバレッジ情報は、遺伝子座に対してアラインする配列読み取りデータの数もしくは同一性および/または遺伝子座における配列読み取りデータカバレッジを示す他の情報を含むことができる。
語句「分子カバレッジ」は、参照配列の遺伝子座をカバーする分子の数を指す。分子は、本明細書に記載の配列読み取りデータおよび分子バーコードに基づいて特定することができる。このように、分子は、遺伝子座に対してアラインする分子から生じた配列読み取りデータに基づいて、参照配列の遺伝子座をカバーするように判定され得る。
参照配列は、実験的に判定された配列と比較するために使用される公知の配列である。例えば、公知の配列は、ゲノム全体、染色体、またはその任意のセグメントであってもよい。参照は、典型的には、少なくとも20;50;100;200;250;300;350;400;450;500;1,000;10,000;100,000;1,000,000;10,000,000;100,000,000;1,000,000,000またはそれを超えるヌクレオチドを含む。参照配列は、ゲノムもしくは染色体の単一の連続配列とアラインしてもよく、またはゲノムもしくは染色体の異なる領域とアラインする非連続セグメントを含んでもよい。参照ヒトゲノムは、例えば、hG19およびhG38を含む。
参照配列における用語「指定の位置」は、参照配列におけるゲノム座標を指す。
第1の一本鎖核酸配列は、ヒト染色体の配列のように、第1の核酸配列またはその相補体および第2の核酸配列またはその相補体が、連続参照配列の、重複するが非同一のセグメントとアラインする場合に、第2の一本鎖配列と重複する。完全にまたは部分的に二本鎖の核酸は、その鎖のいずれかが他の核酸の鎖と重複する場合に、完全にまたは部分的に二本鎖の別の核酸と重複する。
「C」から「T」へのバリアントまたは変換は、参照配列において塩基「C」に占有された座標の位置における、配列決定されたポリヌクレオチドにおける塩基「T」の存在を指す。「G」から「A」へのバリアントまたは変換は、参照配列において塩基「G」に占有された座標の位置における、配列決定されたポリヌクレオチドにおける塩基「A」の存在を指す
核酸分子は、概念上、5’末端側終端、内部部分および3’末端側終端へと分割され得る。末端側終端は、末端から所定の数のヌクレオチドに基づいて指定され得る。例えば、5’末端側終端は、例えば、5’末端への20個の末端ヌクレオチドによって表される。3’末端側終端は、例えば、3’末端への20個の末端ヌクレオチドによって表される。あるいは、核酸分子は、記載したように、末端部分、および残りの部分に分割され得る。
用語「マイナー対立遺伝子頻度」(「MAF」)は、マイナー対立遺伝子(例えば、ほとんどの一般的対立遺伝子ではない)が、試料などの核酸の所与の集団において生じる頻度を指す。
「腫瘍含有率」(TF)は、所与の試料中の腫瘍に関連するDNA分子の割合を指す。TFは、腫瘍細胞におけるバリアント対立遺伝子のカバレッジの低下を検出することに基づいて導出され得る。所与の試料中のTFがより低いことは、所与の試料中の所与のバリアント対立遺伝子のMAF、したがって、所与のバリアント対立遺伝子の検出能に影響を及ぼす可能性がある。
用語「腫瘍非検出」または「TND」は、体細胞一塩基バリアント、挿入-欠失、コピー数バリアント、および融合のいずれもが検出されなかった試料を指す。
用語「処理すること」、「計算すること」、および「比較すること」は、交換可能に使用することができる。この用語は、差異、例えば、数または配列における差異を判定することを指し得る。例えば、遺伝子発現、コピー数変異(CNV)、インデル、および/または一塩基バリアント(SNV)の値または配列を処理することができる。
アダプターは、ライゲーション、ハイブリダイゼーション、および/または増幅を含む任意のアプローチによって、核酸分子またはポリヌクレオチド配列に連結され得る、人工的に合成された配列である。アダプターは、試料核酸分子のいずれかまたは両方の末端への連結のために、通常、少なくとも部分的に二本鎖の短い核酸(例えば、500、100または50ヌクレオチド長未満)である。アダプターは、両末端がアダプターに隣接する核酸分子の増幅を可能にするプライマー結合部位、および/または次世代配列決定(NGS)のためのプライマー結合部位を含む配列決定プライマー結合部位を含むことができる。アダプターはまた、捕捉プローブ、例えば、フローセルの支持体に結合したオリゴヌクレオチドに対する結合部位を含むことができる。アダプターは、上述のようなバーコードも含み得る。タグは、好ましくは、タグが核酸分子のアンプリコンおよび配列決定読み取りデータに含まれるように、プライマーおよび配列決定プライマー結合部位に対する位置である。同じかまたは異なるアダプターは、核酸分子の各末端に連結され得る。同じアダプターは、タグが異なることを除いて、各末端に連結されることが多い。好ましいアダプターは、核酸分子(これもまた平滑末端であるかまたは1つもしくは複数の相補的ヌクレオチドでテール処理されている)への接合のために、一方の末端が本明細書に記載される平滑末端であるかまたはテール処理されているY形状アダプターである。別の好ましいアダプターは、同様に、解析される核酸への接合のための平滑末端またはテール処理された末端を有するベル形状アダプターである。
詳細な説明
図1は、本開示の実施形態に従って、各状態の確率に基づいて、遺伝物質の状態を予測するためにコンピューターモデルをトレーニングおよび使用するためのシステム100の例を示す。システムは、試料101を処理して、1つまたは複数のモデル140(モデル140a・・・nとして例示される)をトレーニングすることができ、モデル140はそれぞれ、検査(IUT)111の下で、個体由来の試料などの遺伝物質が特定の状態にある確率を出力する。一部の例では、試料101は、研究される目的の様々な遺伝子のパネルを含むことができる。
例えば、システムは、モデル140aを使用して、IUT111からの試料が、遺伝子に関連する体細胞ホモ接合欠失を含む確率を判定することができる。システムは、別のモデル140bを使用して、IUT111からの試料が、遺伝子に関連する体細胞ヘテロ接合欠失を含む確率を判定することができる。次いで、システムは、確率を互いに比較して、体細胞ホモ接合欠失または体細胞ヘテロ接合欠失のどちらがより起こりやすいかを判定することができる。システムは、同様に、競合する確率に基づいて、他の種類の精度の高い診断を提供することができる。例えば、システムは、異なるコピー数の確率をモデリングすることによって、CNVをモデリングすることができる。各モデルの出力確率(それぞれ、異なるコピー数予測に対応し得る)の比較に基づいて、システムは、IUT111の試料中のCNVを判定することができる。
システム100は、配列決定システム102、コンピューターシステム110、および/または他のコンポーネントを含むことができる。配列決定システム102とコンピューターシステム110とは、互いに隔離されていてもよく、コンピューターネットワーク(例示されていない)を介して互いに接続されていてもよいことに留意されたい。配列決定システム102は、試料採取および調製パイプライン103、配列決定パイプライン105、および配列決定読み取りデータ記憶109、および/または他のコンポーネントを含むことができる。配列決定パイプライン105は、1つまたは複数の配列決定デバイス107(配列決定デバイス107a・・・nとして図1において例示されている)を含むことができる。
コンピューターシステム110は、配列解析パイプライン112、プロセッサー120、ストレージデバイス122、データ前処理サブシステム124、分類装置130、モデルバリデーター132、および/または他のコンポーネントを含むことができる。
配列解析パイプライン112は、配列品質管理(QC)コンポーネント113、アライメントコンポーネント114、他の解析コンポーネント115、および解析QCコンポーネント116を含むことができる。配列解析パイプライン112からの出力は、解析データ記憶117に記憶され得る。データ前処理サブシステム124は、配列解析パイプライン112からのデータを前処理して、トレーニングデータセット125を作成することができる。例えば、トレーニングデータセット125は、腫瘍が検出されなかったデータ(「TND」)(がんが診断される場合)またはそうでなければ、試料101の中からの正常な試料(他の種類の疾患または状態が診断される場合)のデータを含むことができる。全体を通して開示された例は、例示のためのTND試料を指し得る。
一部の実施形態では、トレーニングデータセット125は、トレーニングデータ記憶126に記憶され得る。プロセッサー120の例示的操作を示すために、図2が参照されよう。図2は、本開示の実施形態に従って、生殖細胞系列SNPに関する対立遺伝子数を判定して、遺伝子201の状態を予測する概略図200を示す。一部の例では、プロセッサー120は、遺伝子201周囲の目的の領域201に関するTND試料の生殖細胞系列SNPを特定することができる。1つのトレーニング例では、生殖細胞系列SNPを28,199個の試料から選択した。これらの試料のうち、5105個の試料(18%)がTNDを有するものとして特定され、これらを、集団対立遺伝子/遺伝子型頻度に対して使用した。以下の条件を満たす生殖細胞系列SNPが選択された:(1)選択された遺伝子(BRCA1、BRCA2、ATMなど)から3Mb以内にある、(2)5105個のTND試料にわたるヘテロ接合性コールの頻度(MAF>25%およびMAF<75%)が5%から95%の間である、および(3)28,199個の試料すべてにおいて、バリアントが体細胞でコールされない。目的の領域203は、遺伝子201の開始から上流のN個の塩基および遺伝子201の末端から下流のM個の塩基を含むことができる。NおよびMの値は、同じであっても異なっていてもよい。一部の例では、NおよびMは、それぞれ、3,000,000ヌクレオチド(3Mb)であってもよい。
図2の例示された例では、SNP部位(i)(SNP(i)として例示される)における参照野生型ヌクレオチドは、「G」であってもよい。TND試料にわたって、その位置でコールされるヌクレオチドは、互いに異なっていてもよい。TND試料が正常であるため、プロセッサー120は、TND試料のSNP(i)と他のSNPの部位は、腫瘍または非正常状態の原因ではないと仮定し得る。このように、これらのSNP部位は、それぞれ、遺伝子の状態の確率的判定のために対立遺伝子数をモデリングするための参照期待値としての役割を果たすことができる。例えば、各SNPの位置において観察されたヌクレオチドコールからの偏差は、このような偏差が、遺伝子201の腫瘍または他の非正常状態のような特定の状態の原因である確率を示し得る。したがって、プロセッサー120は、TND試料の生殖細胞系列SNPからのデータに関する計算に由来する期待値に基づいて、モデル140をトレーニングすることができる。このような計算されたデータは、各SNP部位について、ヘテロ接合性の出現率、マイナー対立遺伝子頻度(MAF)の標準偏差、遺伝子型、生殖細胞系列の出現率(以前の)、および/または他のデータを含むことができる。
計算された期待値を用いて、プロセッサー120は、目的の領域203に対してアラインするIUT111の試料の配列読み取りデータに基づいて、遺伝子201の状態をモデリングすることができる。例えば、プロセッサー120は、遺伝子201が特定の状態にある確率を表す各スコアをそれぞれ出力する競合モデル140を作成することができる。プロセッサー120は、各スコアを比較して予測スコアを計算し、これを閾値スコアと比較して、遺伝子201の状態を判定することができる。プロセッサー120は、以下にさらに記載されるように、トレーニング試料から観察されたデータに基づいて、閾値スコアを計算することができる。
一部の実施形態では、IUT111の試料から作成した分子の配列読み取りデータを参照ゲノムに対してアラインし、元の分子が支持する対立遺伝子(突然変異体または野生型)を特定することができる。IUT111の試料は、試料採取および調製パイプライン103で調製され、配列決定パイプライン105で配列決定され得る。各分子は、配列読み取りデータに関連し得る。IUT111からの試料の分子の数からの配列決定読み取りデータの数は、所与の生殖細胞系列SNP部位をカバーすることができる。
IUT111の試料から作成した配列読み取りデータのアライメントに基づき、プロセッサー120は、SNP対立遺伝子を支持する分子の数を特定し、分子の総数を計算することができる。プロセッサー120は、目的の領域203における生殖細胞系列SNPのそれぞれから計算された期待値データを用いて、IUT111の試料からの、これらのおよび/または他のデータをモデリングすることができる。例えば、プロセッサー120は、遺伝子201の第1の状態の確率を表す対立遺伝子数のモデル140aの第1の出力および遺伝子201の第2の状態の確率を表す対立遺伝子数のモデル140bの第2の出力を作成することができる。
プロセッサー120は、異なる種類の確率分布を実装して、モデル140を作成することができる。さらに、モデル140は、遺伝子201の様々な種類の状態、またはより一般的には、遺伝物質の様々な種類の状態をモデリングすることができる。ここで、モデリングの例およびプロセッサー120によってモデリングされる状態の種類に注意が向けられる。
一般的に言えば、プロセッサー120は、分類装置130を実装し得る(それによってプログラミングされ得る)。あるいは、分類装置130はハードウェアモジュールを含むことができることに留意されたい。いずれかの事象では、分類装置130(プロセッサー120をプログラムすることができる)は、遺伝子に関連する目的の領域において検出された対立遺伝子に基づいて、遺伝子(図2に例示された遺伝子201など)の状態をモデリングすることができる。より詳細には、トレーニングデータセット125に基づいて、分類装置130は、目的の領域(図2に例示された目的の領域203など)における生殖細胞系列一塩基多型(SNP)の位置に基づいて、遺伝子の特定の状態についての1つまたは複数の確率モデル140(モデル140a、140b、・・・、140nとして例示される)を判定することができる。各モデル140は、遺伝子の状態の各確率に対応し得る。SNPの位置は、様々な試料101から配列決定システム102によって作成した配列決定読み取りデータに基づいてもよい。状態は、限定されないが、体細胞ホモ接合欠失、体細胞ヘテロ接合欠失、コピー数変異(「CNV」)(特定コピー数の野生型、獲得、または喪失を含む)、および/または遺伝子の他の状態などの遺伝子の突然変異状態を含むことができる。
様々な実施形態では、分類装置130は、トレーニングデータセット125に基づいて作成され得るモデルを適用して、個体の試料中の遺伝子の状態を判定することができる。例えば、分類装置130は、個体由来のcfDNAの試料中の遺伝子が、体細胞ホモ接合欠失、体細胞ヘテロ接合欠失、および/またはがんなどの疾患もしくは他の健康状態と相関し得る他の状態を含む確率を判定することができる。予測に基づいて、精度の高い処置を個体に適合させることができる。このように、コンピューターシステム110を改良して、cfDNAなどの遺伝物質の非侵襲的解析に基づいて、進歩した診断能力を提供することができる。
本明細書に記載の例は、遺伝子状態を判定することに関係し得るが、染色体、エキソーム、および/または他の遺伝物質などの他の遺伝物質の状態も同様に判定することができることに留意されたい。例えば、CNVは、染色体、エキソーム、および/または他の遺伝物質に対して判定され得る。分類装置130の機能性についての説明を提供したが、ここで、様々なモデル140をトレーニングし、モデル140を使用して、検査下の特定の試料が特定の遺伝子状態を示す確率を予測することによって、遺伝子の状態を判定するより詳細な例に注意が向けられる。
TND試料に基づくモデルのトレーニング
一部の実施形態では、分類装置130は、試料101からのデータを使用する。データは、腫瘍が検出されない試料(「TND」試料)のセットを含むことができる。分類装置130は、TND試料を使用して、TND試料中の各生殖細胞系列SNPのヘテロ接合性の出現率およびTND試料中の各生殖細胞系列SNPのマイナー対立遺伝子頻度(MAF)の標準偏差を判定することができる。本開示全体を通して記載される式および計算において、標準偏差の代わりに分散を使用するこのような計算に対して適当な調整がなされさえすれば、標準偏差の代わりに分散を使用することができることに留意されたい。ヘテロ接合性の出現率および標準偏差は、「正常な」試料、すなわち、疾患状態を示さない試料のベースライン期待値を与え得る。分類装置130は、各部位iに関する生殖細胞系列の出現率(以前の)gを推定することもできる。各生殖細胞系列SNPのヘテロ接合性の出現率の例示的計算は、等式(1)によって与えられ得る:
(式中、
(g)は、各生殖細胞系列SNPのヘテロ接合性の出現率を表し、
ijは、SNP部位iにおいて観察された塩基のセットを表し、
は、SNP部位iにおける遺伝子型(AA/Aa/aa)を表す)。
体細胞ホモ接合欠失のモデリング
分類装置130は、確率分布により、遺伝子に関連する1つまたは複数の生殖細胞系列一塩基多型(SNP)の位置に基づいて、対立遺伝子数についての第1のモデル140aを作成することができる。第1のモデルは、遺伝子の体細胞ホモ接合欠失を表す(例えば、モデリングする)ことができる。例えば、TND試料中の各生殖細胞系列SNPのヘテロ接合性の出現率(式(1))およびTND試料中の各生殖細胞系列SNPのMAFの標準偏差を考慮すると、分類装置130は、個体由来の特定の試料の遺伝子が、体細胞ホモ接合欠失に関連する確率をモデリングすることができる。そうするために、分類装置130は、IUT111の試料の遺伝子における体細胞ホモ接合欠失の存在を支持する分子の数およびIUT111の試料中の分子の総数にアクセスすることができる。例えば、分類装置130は、試料中の遺伝子が体細胞ホモ接合欠失を有する確率を表す、モデル140aなどのモデルを作成することができる。一部の実施形態では、分類装置130は、ベータ-二項確率分布を使用して、モデル140aを作成することができるが、二項確率分布、正規分布(ガウス分布)、および/または他の確率モデリングなどの他の確率分布を使用してもよい。
ベータ-二項分布は、各試行における成功確率が固定されるが、ベータ分布から無作為に導かれるnベルヌーイ試行の二項分布である。ベータ-二項分布は2つのパラメーター:αおよびβ(分布の平均/標準偏差によって固有に判定される)を使用することができる。n=1である場合、分布はベルヌーイ分布に対して低下する。α=β=1では、0からnまでの別々の一様な分布である。
二項分布は、二項ランダム変数の確率分布である。二項ランダム変数は、二項実験のN反復試行における成功回数である。二項分布は、以下の特性を有する:分布の平均(μx)はnPに等しい;分散はn(1-P)によって与えられる;および標準偏差(σx)は式(2)によって与えられる:
正規分布は、正規方程式によって定義され得る:
(式中、
Xは、正規ランダム変数であり、
μは、平均であり、
σは、標準偏差であり、
πは、およそ3.14159であり、
eは、およそ2.71828である)。
ベータ-二項確率分布を適用する例は、ここで、例示目的で記載されることになる。当業者であれば、二項、正規、および/または他の確率分布を、本明細書の開示に基づいて同様に使用することができることを理解するであろう。ベータ-二項確率分布では、分類装置130は、等式(4)に従って、R ProjectのVGAMパッケージにおけるdbetabinom関数を使用することができる:
(式中、
は、SNP部位iにおいてSNP対立遺伝子を支持する分子の数を表し、
は、分子の総数を表し、
(g)は、SNP部位iにおけるヘテロ接合性の出現率を表し、
sd(g)は、MAFの標準偏差を表す)。
分類装置130は、等式(5)に従って、第1のモデル140aの第1の確率出力(L)を作成することができる:
体細胞ヘテロ接合欠失のモデリング
分類装置130は、確率分布により、1つまたは複数の生殖細胞系列SNPの位置に基づいて、試料中の対立遺伝子数の第2のモデル140bを作成することができる。第2のモデル140bは、遺伝子の体細胞ヘテロ接合欠失を表す(例えば、モデリングする)ことができる。ヘテロ接合欠失の検出はTFによって影響を及ぼされる場合があるため、分類装置130は、IUT111の試料中の読み取りデータのカバレッジ(配列読み取りデータカバレッジ)に基づいて、TFの平均、mu.tf(μ.tfと表されてもよい)、および標準偏差、sd.tf(σ.tfと表されてもよい)を判定することができる。
一部の実施形態では、分類装置130は、ベータ-二項確率分布を使用して、モデル140bを作成することができるが、二項確率分布、ガウス分布、および/または他の確率モデリングなどの他の確率分布を使用してもよい。
ベータ-二項確率分布では、分類装置130は、等式(6)に従って、R ProjectのVGAMパッケージにおけるdbetabinom関数を使用してもよい:
(式中、
は、SNP部位iにおいてSNP対立遺伝子を支持する分子の数を表し、
は、分子の総数を表し、
uiは、IUT111の試料について計算されたTFの平均を表し、
sdは、IUT111の試料について計算されたTFの標準偏差を表す)。
分類装置130は、等式(5)に従って、第2のモデル140bの第2の確率出力Lを作成することができる:
式中、
第1のモデル140aおよび第2のモデル140bは、第1のモデル140aおよび第2のモデル140bがそれぞれ確率を出力しさえすれば、同じ確率分布を使用する必要はないことに留意されたい。
分類装置130は、第1のモデル140aの第1の確率出力と第2のモデル140bの第2の確率出力とを比較して、どの確率出力がより可能性が高いかを判定することができる。例えば、分類装置130は、体細胞ホモ接合欠失または体細胞ヘテロ接合欠失がより可能性が高いか否かを判定することができる。特定の例では、分類装置130は、対数尤度比(「LLR」)を使用して、第1の確率出力(体細胞ホモ接合欠失の確率)および第2の確率出力(体細胞ヘテロ接合欠失の確率)に基づいて、LLRスコアを作成することができる。一部の実施形態では、LLRスコアが閾値カットオフスコアを超えなければ、ヌル確率が拒絶されるように、第1または第2の確率出力のうちの一方をヌル確率として使用することができる。例えば、分類装置130は、LLRスコアを閾値カットオフスコアと比較して、第2の確率出力が拒絶されるべきか否かを判定することができる。言い換えれば、LLRスコアが閾値カットオフスコアを超える場合、分類装置130は、第1の確率出力が選択されるべきであることを判定することができる。この例では、分類装置130は、比較に基づいて、遺伝子に関する体細胞ホモ接合欠失が、IUT111の試料中に存在するという予測を作成することができる。
一部の例では、エラーを軽減するために、モデル140Aまたは140Bを使用して、所与の遺伝子と重複する各SNPに関する試料の遺伝子型を判定することができる。生殖細胞系列SNPがヘテロ接合性であることが判定されなければ、所与の遺伝子は「コールなし」と標識されてもよく、体細胞ホモ接合またはヘテロ接合欠失は所与の遺伝子に関連しない。
閾値スコアカットオフの学習
一部の実施形態では、閾値カットオフスコアを、アッセイされる様々な遺伝子または他の遺伝物質に対してカスタマイズすることができる。例えば、BRCA1遺伝子は、BRCA2遺伝子と異なる閾値カットオフスコアに関連し得る。他の遺伝子も同様に、カスタム閾値カットオフスコアに関連し得る。これらの実施形態では、分類装置130をトレーニングして、閾値カットオフスコアを判定することができる。これらの実施形態の一部では、分類装置130をトレーニングして、特定の遺伝子に関する閾値カットオフスコアを判定することができる。例えば、TND試料から開始する体細胞ヘテロ接合欠失のシミュレーションを使用して、分類装置130をトレーニングすることができる。例えば、図10Aおよび10Bを参照して、ブランク限界(LoB)、または最大LLRスコアは、ホモ接合欠失が、BRCA1およびBRCA2陰性試料に対して存在しない場合に見出されることが期待される。図10Aおよび10Bを参照して、TND試料から開始する体細胞ヘテロ接合欠失の100,000の事例がシミュレーションされた。28,000個の試料において観察されたTF分布を、BRCA1およびBRCA2に関するLoBを判定するためのTFとして使用した。例示したように、LLRスコアと比較するための閾値カットオフスコアは、BRCA1およびBRCA2に関して、それぞれ、20.1および0である。よって、BRCA1の体細胞欠失がIUT111の試料において観察され、IUT111の試料中のBRCA1に関するLLRスコアが20.1を超える場合、分類装置130は、体細胞欠失が体細胞ホモ接合欠失であることを予測することができる。同様に、BRCA1の体細胞欠失がIUT111の試料において観察され、IUT111の試料中のBRCA2に関するLLRスコアが0を超える場合、分類装置130は、体細胞欠失が体細胞ホモ接合欠失であることを予測することができる。他の遺伝子を同様にシミュレーションして、閾値カットオフスコアを判定することができることに留意されたい。
一部の実施形態では、モデルバリデーター132は、シミュレーションされたおよび/または臨床データを使用して、モデル140の結果を検証することができる。例えば、モデルバリデーター132は、診断結果データ記憶150および/または臨床結果データ記憶160を調べて、予測を検証することができる。シミュレーションされた結果では、公知の試料のパネルをモデリングして、これらの試料の遺伝物質の状態の予測を作成することができる。これらの結果を使用して、以前の予測および/または将来の予測の結果を検証することができる。
図3は、本開示の実施形態に従って、トレーニングされたモデルに基づいて体細胞ホモ接合またはヘテロ接合欠失を予測するプロセス300を例示する。本明細書に記載の方法を実行するためには種々の方法が存在するため、プロセス300は、例として提供される。プロセス300は、主に、図1に例示されるコンピューターシステム110(プロセッサー120を介する)によって実施されるものとして記載されているが、プロセス300は、他のシステム、またはシステムの組合せによって実行またはそうでなければ実施されてもよい。図3に示される各ブロックは、1つまたは複数のプロセス、方法、またはサブルーチンをさらに表してもよく、ブロックの1つまたは複数は、非一時的なコンピューター可読媒体に保存され、プロセッサーまたは他の種類の処理回路によって実行される機械可読命令を含み、本明細書に記載の1つまたは複数の操作を実施することができる。本明細書に開示されるプロセス300の様々な操作、または本明細書に開示されるシステムによって実行されるブロックは、同一もしくは異なる地理的場所、例えば、国において、および/または同一もしくは異なる人々によって、同時または異なる時間に実行され得る。
操作302では、プロセッサー120は、TND試料を含む試料のセットからの生殖細胞系列SNPデータにアクセスすることができる。操作304では、プロセッサー120は、生殖細胞系列SNPデータに基づいて、ヘテロ接合性の出現率およびMAFのSDを判定することができる。操作306では、プロセッサー120は、個体由来の試料が遺伝子において体細胞ホモ接合欠失を含むという判定を支持する、各生殖細胞系列SNP部位に関する読み取りデータの第1の数を判定することができる。
操作308では、プロセッサー120は、ヘテロ接合性の出現率、MAFの標準偏差(sd)、生殖細胞系列SNPデータ、および読み取りデータの数に基づいて、遺伝子が、体細胞ホモ接合欠失に関連する確率の第1のモデルの第1の出力を作成することができる。操作310では、プロセッサー120は、個体由来の試料に基づいて、TFの平均および標準偏差を判定することができる。操作312では、プロセッサー120は、個体由来の試料が、遺伝子において体細胞ヘテロ接合欠失を含むという判定を支持する、各生殖細胞系列SNP部位に関する読み取りデータの第2の数を判定することができる。操作314では、プロセッサー120は、TFの平均およびSD、生殖細胞系列SNPデータ、および読み取りデータの第2の数に基づいて、遺伝子が体細胞ヘテロ接合欠失に関連する確率の第2のモデルの第2の出力を作成することができる。操作316では、プロセッサー120は、第1の出力と第2の出力とを比較することができる。操作318では、プロセッサー120は、比較に基づいて、第1の出力が選択されるべきか否かを判定することができる。操作320では、プロセッサー120は、第1の出力が選択されるべきか否かの判定に基づいて、遺伝子が体細胞ホモ接合欠失を含む確率を作成することができる。
分類装置130は、遺伝子の状態を予測するために、様々なモデリング技法を適用することができる。分類装置130は、同様に、他のモデリング技法を使用することができる。例えば、図9Aおよび9Bは、異なるモデリング技法の結果の比較を例示する。他の確率技法も同様に使用することができる。
遺伝物質の他の種類の状態のモデリング
分類装置130は、遺伝物質の他の種類の状態をモデリングすることができる。例えば、分類装置130は、CNVなどの遺伝物質の様々な種類の状態を予測することができる。ここで、遺伝物質の状態を予測するプロセス400を例示する図4に対して言及されることになる。本明細書に記載の方法を実行するためには種々の方法が存在し得るため、プロセス400は、例として提供される。方法400は、主に、図1に例示されるコンピューターシステム110(プロセッサー120を介して)によって実施されるものとして記載されるが、プロセス400は、他のシステム、またはシステムの組合せによって実行またはそうでなければ実施され得る。図4に示される各ブロックは、1つまたは複数のプロセス、方法、またはサブルーチンをさらに表してもよく、ブロックの1つまたは複数は、非一時的なコンピューター可読媒体に保存され、プロセッサーまたは他の種類の処理回路によって実行される機械可読命令を含み、本明細書に記載の1つまたは複数の操作を実施することができる。本明細書に開示されるプロセス400の様々な操作、または本明細書に開示されるシステムによって実行されるブロックは、同一もしくは異なる地理的場所、例えば、国において、および/または同一もしくは異なる人々によって、同時または異なる時間に実行され得る。
図4に関して記載される例は、IUT111の試料中のCNVを判定することを含む。より詳細には、例を使用して、IUT111の試料由来の遺伝物質におけるコピー数分散(copy number variance)(増幅など)を判定することができる。しかし、異なる状態の代替の(競合する)確率を使用し、最も可能性の高い確率を選択して、遺伝物質の他の種類の状態を同様にして判定することができる。
操作402では、プロセッサー120は、遺伝物質の第1の状態をモデリングする第1のモデルを作成することができる。第1の状態は、第1のCNVまたは他の状態を含んでもよい。操作404では、プロセッサー120は、遺伝物質の第2の状態をモデリングする第2のモデルを作成することができる。第2の状態は、第2のCNVまたは他の状態を含んでもよい。操作406では、プロセッサー120は、第1のモデルに基づいて、第1のスコアを作成することができる。第1のスコアは、遺伝物質が第1の状態にある確率を示すことができる。
操作408では、プロセッサー120は、第2のモデルに基づいて、第2のスコアを作成することができる。第2のスコアは、遺伝物質が第2の状態にある確率を示すことができる。操作410では、プロセッサー120は、第1のスコアと第2のスコアとを比較することができる。操作412では、プロセッサー120は、比較に基づいて、遺伝物質が第1の状態または第2の状態にあるという予測を作成することができる。
生殖細胞系列SNPに関するMAFを分類装置130によって使用して、体細胞ヘテロ接合欠失および体細胞ホモ接合欠失の確率を作成する方法と同様に、MAFを使用して、CNVの確率を解明することができる。例えば、CNVが検出されなかった試料中の生殖細胞系列SNPのMAFを使用して、試料中の読み取りデータが特定の増幅を支持するか否かを判定することができる。
図5は、本開示の実施形態に従って、体細胞欠失の種類を例示する。体細胞ホモ接合欠失は、2つの方法で生じ得る:(1)生殖系細胞は遺伝子の単一のコピーを有し、体細胞は第2の欠失を獲得する(単一コピー増幅の検出に類似するLoD)。これらは、カバレッジ+重複するヘテロ接合性SNPなしに基づいて検出され得る。一部の例では、これらが観察されなかったとしても、生殖系細胞は遺伝子のコピーを有することができない。(2)体細胞ホモ接合欠失が生じ得る第2の方法は、生殖系細胞が遺伝子の2つのコピーを有し、体細胞が両コピーを失うことである(このシナリオがより高い出現率で観察された)。一部の実施形態では、二対立遺伝子体細胞コピー数の喪失では、生殖系細胞と体細胞の混合物において、生殖細胞系列ヘテロ接合性SNPの参照対立遺伝子頻度は0.5である。体細胞LOHの場合には、参照対立遺伝子ががん細胞において喪失しているかまたは保持されているかどうかに応じて、参照対立遺伝子頻度は0.5-0.5TF(腫瘍含有率)または0.5+0.5TFである。一部の実施形態では、LOHでは、期待された対立遺伝子頻度は、腫瘍細胞の割合に応じて変わり得る。よって、システムは、期待された対立遺伝子頻度0.5と比較して、計算された対立遺伝子頻度に基づいて、LOHと二対立遺伝子コピー数喪失とを識別することができる。
図6Aは、本開示の実施形態に従って、BRCA1ホモ接合欠失の例示的プロット600(A)(1)および600(A)(2)を例示する。図6Bは、本開示の実施形態に従って、BRCA2ヘテロ接合欠失の例示的プロット600(A)(1)および600(A)(2)を示す。プロット600(A)(1)および600(B)(1)を参照して、所与のcfDNA試料に関して、正規化された分子カバレッジ(y軸)は、ゲノムの場所によって選別された標的化プローブ(x軸)にわたって表される。染色体分離は、縦線とプロットのボトムラインに提示した識別子によって表される。体細胞コピー数の変化を伴わない領域は、2に近い分子カバレッジを示すが、一方、体細胞欠失は、2未満の分子カバレッジレベルによって特定され得る。プロット600(B)(1)および600(B)(2)を参照して、同じ試料では、公知の生殖細胞系列SNPのMAF(y軸)は、それらのゲノムの場所(x軸)に対して表される。体細胞欠失は、上の行のカバレッジプロットにおいて観察されるように、50%に近い生殖細胞系列バリアントMAFを明示するが(図6Aに例示されるプロットを参照されたい)、一方、ヘテロ接合性欠失は不均衡な生殖細胞系列バリアントMAFを生じる(図6Bに例示されるプロットを参照されたい)。
図7Aは、本開示の実施形態に従って、TND試料において観察される、ATM、BRCA1およびBRCA2遺伝子と重複する公知の生殖細胞系列SNPに関して、ヘテロ接合性遺伝子型の出現率の例示的プロットを例示する。図7Bは、本開示の実施形態に従って、TND試料にわたるMAFの例示的プロットを例示する。
図8Aは、本開示の実施形態に従って、BRCA1に関するMAF値の例示的プロットを例示する。図8Bは、本開示の実施形態に従って、BRCA2に関するMAF値の例示的プロットを例示する。図8Aおよび8Bは、各SNPの3つの可能な遺伝子型(ホモ接合性代替対立遺伝子/ヘテロ接合性/ホモ接合性参照対立遺伝子)(x軸)に関する9つの公知の生殖細胞系列SNVのMAF(y軸)の例を示す。図9Aは、本開示の実施形態に従って、BRCA2パネルに関するベータ-二項モデルと二項モデルのスコア比較の例示的プロットを例示する。図9Bは、本開示の実施形態に従って、BRCA2パネルに関するベータ-二項モデルとガウス分布モデルのスコア比較の例示的プロットを例示する。図10Aは、本開示の実施形態に従って、BRCA1陰性試料に関するLLRスコア分布の例示的プロットを例示する。図10Bは、本開示の実施形態に従って、BRCA2陰性試料に関するLLRスコア分布の例示的プロットを例示する。
図11Aは、本開示の実施形態に従って、BRCA1に関する欠失のLoDの例示的プロットを例示する。図11Bは、本開示の実施形態に従って、BRCA1に関するヘテロ接合性の喪失(LOH)(本明細書において、交換可能に「ヘテロ接合欠失」と称される)のLoDの例示的プロットを示す。シミュレーション:TND試料から開始するホモ接合体細胞欠失の100kの事例。
使用されたTF=28,199個の試料において観察されたTF分布。LoDは、2つの因子に依存する(2段階アルゴリズム):(1)欠失検出感度(カバレッジのみに基づく):BRCA1増幅/欠失平均カットオフ=0.05;および(2)ホモ接合体細胞欠失とヘテロ接合体細胞欠失とを区別する能力(LLR検査)。
図12Aは、本開示の実施形態に従って、BRCA2に関する欠失のLoDの例示的プロットを例示する。図12Bは、本開示の実施形態に従って、BRCA2に関するLOHのLoDの例示的プロットを例示する。シミュレーション:TND試料から開始するホモ接合体細胞欠失の100kの事例。
使用されたTF=28,199個の試料において観察されたTF分布。
LoDは、2つの因子に依存する(2段階アルゴリズム):(1)欠失検出感度(カバレッジのみに基づく):BRCA2増幅/欠失平均カットオフ=0.09;および(2)ホモ接合体細胞欠失とヘテロ接合体細胞欠失とを区別する能力(LLR検査)。
図13は、本開示の実施形態に従って、がんの種類に対するTFの出現率の例示的プロットを例示する。
図14は、本開示の実施形態に従って、BRCA1およびBRCA2に関するLLRスコアの密度の例示的プロットを例示する。28,000個のトレーニング試料のセットは、ランダムに選択され、2.5および0のカットオフを有し(LoB部分において判定される)、BRCA1/2ホモ接合欠失を有する試料をコールした。387個および994個の試料は、それぞれ、BRCA1およびBRCA2に関する体細胞欠失を示した。これらの試料のうち、49個および60個が、それぞれ、BRCA1およびBRCA2のホモ接合欠失を有することがコールされた。
図15は、本開示の実施形態に従って、複数のがんの種類の集団において観察されたBRCA2ホモ接合欠失の出現率の例示的チャートを例示する。図16は、本開示の実施形態に従って、複数のがんの種類の集団において観察されたBRCA1ホモ接合欠失の出現率の例示的チャートを例示する。図17は、本開示の実施形態に従って、BRCA2のホモ接合欠失と潜在的な臨床的対処可能性の例を例示する。図17に例示したプロットは、参照によりその全体が本明細書に組み込まれる、Robinson D, Van Allen EM, Wu YM, Schultz N, Lonigro RJ, Mosquera JM, Montgomery B, Taplin ME, Pritchard CC, Attard G, et al.(「Robinson」)による”Integrative clinical genomics of advanced prostate cancer,” Cell 161:1215-1228
(2015)からのものである。Robinsonは、BRCA2における体細胞の変更と病原性生殖細胞系列の変更の両方についての統合解析によって、BRCA2を喪失した19/150(12.7%)の事例を特定し、そのおよそ90%が二対立遺伝子の喪失を示したことを示す。これは、概して、体細胞点突然変異およびヘテロ接合性の喪失、ならびにホモ接合欠失の結果であった。非選択のmCRPCに罹患した個体におけるポリ(ADP-リボース)ポリメラーゼ(PARP)阻害を評価する臨床検査は、臨床利益を経験した、この検査における複数の罹患した個体が、二対立遺伝子BRCA2の喪失を保有したことを示しており、臨床的対処可能性のさらなるエビデンスを提供する。
図18Aは、本開示の実施形態に従って、BRCA1ホモ接合欠失の例示的プロットを例示する。図18Bは、本開示の実施形態に従って、BRCA1ホモ接合欠失の例示的プロットを例示する。図19Aは、本開示の実施形態に従って、BRCA2ホモ接合欠失の例示的プロットを例示する。図19Bは、本開示の実施形態に従って、BRCA2ホモ接合欠失の例示的プロットを例示する。図18A、18B、19A、および19Bは、ヒトゲノムに基づくプロットである。
図20Aは、本開示の実施形態に従って、BRCA1二対立遺伝子体細胞コピー数の喪失の例示的プロットを例示する。この開示の目的として、用語「二対立遺伝子体細胞コピー数の喪失」は、「ホモ接合欠失」と交換可能に使用されるであろう。図20Bは、本開示の実施形態に従って、BRCA1 LOHの例示的プロットを例示する。この開示の目的として、用語「LOH」は、「ヘテロ接合欠失」と交換可能に使用されるであろう。図21Aは、本開示の実施形態に従って、BRCA2二対立遺伝子体細胞コピー数の喪失の例示的プロットを例示する。図21Bは、本開示の実施形態に従って、BRCA2 LOHの例示的プロットを例示する。図20A、20B、21A、および21Bは、3つの(ヒト)染色体に基づくプロットである。図22は、本開示の実施形態に従って、BRCA1およびBRCA2体細胞欠失の出現率のプロットを例示する。
コンピューターによる実装
本方法は、湿式化学ステップ以外の本明細書または添付の特許請求の範囲に記載されるステップのいずれかまたはすべてが、好適なプログラミングされたコンピューターにおいて実施され得るように、コンピューターに実装され得る。コンピューターは、メインフレーム、パーソナルコンピューター、タブレット、スマートフォン、クラウド、オンラインデータストレージ、リモートデータストレージなどであってもよい。コンピューターは、1つまたは複数の場所で操作され得る。
本方法の様々な操作は、情報および/またはプログラムを利用することができ、コンピューター可読媒体(例えば、ハードドライブ、補助メモリー、外部メモリー、サーバー;データベース、ポータブルメモリーデバイス(例えば、CD-R、DVD、ZIPディスク、フラッシュメモリーカード)など)に記憶される結果を生じる。
本開示は、実行した場合に、本発明の方法のステップを実装する1つまたは複数のプログラムを含有する機械可読媒体を含む、核酸集団を解析するための製品も含む。
本開示は、ハードウェアおよび/またはソフトウェアに実装され得る。例えば、本開示の異なる態様は、クライアントサイドロジックまたはサーバーサイドロジックのいずれかで実装され得る。本開示またはそのコンポーネントは、適当に設定されたコンピューティングデバイスへとロードされた場合に、そのデバイスに本開示に従って実施させるロジック命令および/またはデータを含有する固定媒体プログラムコンポーネントにおいて具現化され得る。ロジック命令を含有する固定媒体は、ビューアーコンピューターへの物理的ローディングのために、固定媒体上のビューアーに送達されてもよく、またはロジック命令を含有する固定媒体は、ビューアーが、通信媒体を介してアクセスして、プログラムコンポーネントをダウンロードするリモートサーバーに存在してもよい。
本開示は、本開示の方法を実装するようにプログラミングされたコンピューター制御システムを提供する。プロセッサー120は、シングルコアもしくはマルチコアプロセッサー、または並行処理のための複数のプロセッサーを含むことができる。ストレージデバイス122は、ランダムアクセスメモリー、リードオンリーメモリー、フラッシュメモリー、ハードディスク、および/または他の種類のストレージを含んでもよい。コンピューターシステム110は、1つまたは複数の他のシステムと通信するための通信インターフェース(例えば、ネットワークアダプター)、ならびにキャッシュ、他のメモリー、データストレージおよび/または電子ディスプレイアダプターなどの周辺デバイスを含んでもよい。コンピューターシステム110のコンポーネントは、内部通信バス、例えば、マザーボードを介して互いに通信することができる。ストレージデバイス122は、データを記憶するためのデータストレージユニット(またはデータリポジトリー)であってもよい。コンピューターシステム110は、通信インターフェースの助けを借りて、コンピューターネットワーク(「ネットワーク」)に作動可能に連結されていてもよい。ネットワークは、インターネット、インターネットおよび/もしくはエクストラネット、またはインターネットと通信するイントラネットおよび/もしくはエクストラネットであってもよい。ネットワークは、一部の場合には、遠距離通信および/またはデータネットワークである。ネットワークは、ローカルエリアネットワークを含んでもよい。ネットワークは、クラウドコンピューティングなどの分散コンピューティングを可能にし得る、1つまたは複数のコンピューターサーバーを含んでもよい。ネットワークは、コンピューターシステム110の助けを借りる一部の場合には、デバイスを、クライアントまたはサーバーとして機能するコンピューターシステム120に連結可能にし得る、ピアツーピアネットワークを実装し得る。
プロセッサー120は、プログラムまたはソフトウェアにおいて具現化され得る、機械可読命令のシーケンスを実行することができる。命令は、ストレージデバイス122などのメモリーの場所に記憶され得る。命令はプロセッサー120を対象とすることができ、次に、プロセッサー120が本開示の方法を実装するようにプログラミングするかまたはそうでなければ設定することができる。プロセッサー120によって実施された操作の例としては、フェッチ、デコード、実行、およびライトバックが挙げられ得る。
プロセッサー120は、集積回路などの回路の一部であってもよい。システム100の1つまたは複数の他のコンポーネントは、回路に含まれてもよい。一部の場合には、回路は、特定用途向け集積回路(ASIC)を含んでもよい。
ストレージデバイス122は、ファイル、例えば、ドライバー、ライブラリーおよび保存されたプログラムを記憶し得る。ストレージデバイス122は、ユーザーのデータ、例えば、ユーザーの好みの設定およびユーザーのプログラムを記憶し得る。コンピューターシステム110は、一部の事例では、コンピューターシステム110の外部にある、例えば、イントラネットまたはインターネットを介してコンピューターシステム110と通信するリモートサーバーに設置された、1つもしくは複数の追加のデータストレージユニットを含んでもよい。
コンピューターシステム110は、ネットワークを介して1つまたは複数のリモートコンピューターシステムと通信することができる。例えば、コンピューターシステム110は、ユーザーのリモートコンピューターシステムと通信することができる。リモートコンピューターシステムの例としては、パーソナルコンピューター(例えば、ポータブルPC)、スレートまたはタブレットPC(例えば、Apple(登録商標)のiPad(登録商標)、Samsung(登録商標)のGalaxy Tab)、電話機、スマートフォン(例えば、Apple(登録商標)のiPhone(登録商標)、Android(登録商標)対応機種、Blackberry(登録商標))、または携帯情報端末が挙げられる。ユーザーは、ネットワークを介してコンピューターシステム110にアクセスすることができる。
本明細書に記載される方法は、例えば、ストレージデバイス122などのコンピューターシステム110の電子ストレージの場所に記憶された機械(例えば、コンピュータープロセッサー)実行可能コードによって実装され得る。機械実行可能または機械可読コードは、ソフトウェアの形態で提供され得る。使用中、コードは、プロセッサー905によって実行され得る。一部の場合には、コードは、ストレージユニット915から検索され、プロセッサー120によって容易にアクセスするためにストレージデバイス122に記憶され得る。
コードは、コードを実行するために適合させたプロセッサーを有する機械で使用するためにプリコンパイルおよび設定されてもよく、または実行時間中にコンパイルされてもよい。コードは、プリコンパイルまたはコンパイルされた様式で、コードを実行可能にするために選択され得るプログラム言語で供給され得る。
本明細書において提供されるシステムおよび方法の態様、例えば、コンピューターシステム110は、プログラミングによって具現化され得る。技術の様々な態様は、典型的には、ある種の機械可読媒体で実行されるかまたはそこで具現化される機械(またはプロセッサー)実行可能コードおよび/または関連するデータの形態の「プロダクト」または「製品」として考えられ得る。機械実行可能コードは、メモリー(例えば、リードオンリーメモリー、ランダムアクセスメモリー、フラッシュメモリー)またはハードディスクのような電子ストレージユニットに記憶され得る。
「ストレージ」型媒体としては、コンピューター、プロセッサーなど、またはそれらの関連モジュールの有形メモリー、例えばソフトウェアプログラミングのいずれかの時点で非一時的ストレージを提供することができる様々な半導体メモリー、テープドライブ、ディスクドライブなどのいずれかまたはすべてを挙げることができる。ソフトウェアのすべてまたは一部は、インターネットまたは様々な他の遠距離通信ネットワークを介して通信可能であることがある。このような通信は、例えば、一方のコンピューターまたはプロセッサーから別のものへの、例えば、管理サーバーまたはホストコンピューターからアプリケーションサーバーのコンピュータープラットフォームへのソフトウェアのローディングを可能にし得る。よって、ソフトウェアエレメントを保有することができる別の種類の媒体は、ローカルデバイス間の物理的インターフェースを横切って、有線または光地上通信線ネットワークを介しておよび様々なエアリンクを介して使用されるような光波、電波および電磁波を含む。このような波を搬送する物理的エレメント、例えば、有線リンクまたは無線リンク、光リンクなどもソフトウェアを保有する媒体とみなされ得る。本明細書で使用される場合、非一時的な、有形の
「ストレージ」媒体に限定されなければ、コンピューターまたは機械「可読媒体」などの用語は、実行のためにプロセッサーへの命令の提供に関与する任意の媒体を指す。
したがって、コンピューター実行可能コードなどの機械可読媒体は、以下に限定されないが、有形ストレージ媒体、搬送波媒体または物理的な伝送媒体を含む多くの形態をとることができる。不揮発性ストレージ媒体としては、例えば、図面に示されるデータベースなどを実装するために使用することができるような、任意のコンピューターなどにおけるストレージデバイスのいずれかなどの光または磁気ディスクが挙げられる。揮発性ストレージ媒体は、このようなコンピュータープラットフォームのメインメモリーなどの動的メモリーを含む。有形伝送媒体は、同軸ケーブル;コンピューターシステム内にバスを含むワイヤを含む、銅線および光学ファイバーを含む。搬送波伝送媒体は、電気もしくは電磁シグナル、または高周波(RF)赤外(IR)データ通信中に生成されるものなどの音波もしくは光波の形態を取ることができる。したがって、コンピューター可読媒体の一般的な形態は、例えば、フロッピー(登録商標)ディスク、フレキシブルディスク、ハードディスク、磁気テープ、任意の他の磁気媒体、CD-ROM、DVDもしくはDVD-ROM、任意の他の光学媒体、パンチカード、紙テープ、穴のパターンを有する任意の他の物理的ストレージ媒体、RAM、ROM、PROMおよびEPROM、FLASH-EPROM、任意の他のメモリーチップもしくはカートリッジ、搬送波輸送データもしくは命令、このような搬送波を輸送するケーブルもしくはリンク、またはコンピューターがプログラミングコードおよび/もしくはデータを読むことができる任意の他の媒体を含む。コンピューター可読媒体のこれらの形態の多くは、実行のためにプロセッサーに対する1つまたは複数の命令の1つまたは複数の配列の保有に関与し得る。
コンピューターシステム110は、例えば、レポートを提供するためのユーザーインターフェース(UI)を含む電子ディスプレイ935を含むかまたはそれと通信し得る。UIの例としては、限定されないが、グラフィカルユーザーインターフェース(GUI)およびウェブベースのユーザーインターフェースが挙げられる。
本開示の方法およびシステムは、1つまたは複数のアルゴリズムとして実装され得る。アルゴリズムは、プロセッサー120による実行の際に、ソフトウェアとして実装され得る。
試料採取および解析パイプライン
試料101は、対象から単離される任意の生体試料であってもよい。試料としては、身体組織、例えば、公知のまたは疑わしい固形腫瘍、全血、血小板、血清、血漿、便、赤血球細胞、白血球細胞または白血球、内皮細胞、組織生検、脳脊髄液、滑液、リンパ液、腹水液、間質内または細胞外液、歯肉溝液、骨髄、胸水、脳脊髄液、唾液、粘液、痰、精液、汗、尿を含む細胞間の空間における液体を挙げることができる。試料は、好ましくは体液、特に血液およびその画分、および尿である。このような試料は、核酸を含み得る。このような試料は、核酸試料とも称することができる。これらの試料の一部では、核酸は、腫瘍から流出され得る。核酸は、DNAおよびRNAを含んでもよく、二本鎖および/または一本鎖形態であってもよい。核酸がRNAを含む例では、本明細書に記載のシステムおよび方法は、参照遺伝子(GAPDHのような内在性制御遺伝子など)に対する目的の遺伝子の遺伝子発現を、正常な試料から計算されたトレーニングされた閾値と比較することによって、RNAによってコードされた目的の遺伝子における体細胞欠失を判定することができる。試料は、対象から元々単離された形態であってもよく、またはさらなる処理に供されて、細胞などの構成成分を除去または付加するか、1つの構成成分を別のものに対して濃縮するか、または1つの形態の核酸を別のものに、例えば、RNAをDNAに、もしくは一本鎖核酸を二本鎖に変換してもよい。よって、例えば、解析のための体液は、無細胞核酸、例えば、無細胞DNA(cfDNA)を含有する血漿または血清である。
血漿の体積は、配列決定された領域に関する所望の読み深度に応じて変化し得る。例示的体積は、0.4~40ml、5~20ml、10~20mlである。例えば、体積は、0.5ml、1ml、5ml、10ml、20ml、30ml、または40mlであってもよい。サンプリングされた血漿の体積は、5から20mlであってもよい。
試料は、ゲノム等価物を含有する様々な量の核酸を含むことができる。例えば、約30ngのDNAの試料は、約10,000(10)個の半数体ヒトゲノム等価物、cfDNAの場合には、約2000億(2×1011)個の個々のポリヌクレオチド分子を含有し得る。同様に、約100ngのDNAの試料は、約30,000個の半数体ヒトゲノム等価物、cfDNAの場合には、約6000億個の個々の分子を含有し得る。
試料は、異なる供給源由来の、例えば、細胞および無細胞由来の核酸を含んでもよい。試料は、突然変異を有する核酸を含んでもよい。例えば、試料は、生殖細胞系列突然変異および/または体細胞突然変異を有するDNAを含んでもよい。試料は、がん関連突然変異(例えば、がん関連体細胞突然変異)を有するDNAを含んでもよい。
増幅前の試料中の無細胞核酸の例示的な量は、約1fgから約1μg、例えば、1pgから200ng、1ngから100ng、10ngから1000ngの範囲に及ぶ。例えば、量は、最大約600ng、最大約500ng、最大約400ng、最大約300ng、最大約200ng、最大約100ng、最大約50ng、または最大約20ngの無細胞核酸分子であり得る。量は、少なくとも1fg、少なくとも10fg、少なくとも100fg、少なくとも1pg、少なくとも10pg、少なくとも100pg、少なくとも1ng、少なくとも10ng、少なくとも100ng、少なくとも150ng、または少なくとも200ngの無細胞核酸分子であり得る。量は、最大1フェムトグラム(fg)、10fg、100fg、1ピコグラム(pg)、10pg、100pg、1ng、10ng、100ng、150ng、または200ngの無細胞核酸分子であり得る。方法は、1フェムトグラム(fg)から200ngを得るステップを含むことができる。
無細胞核酸試料は、無細胞核酸を含有する対象由来の試料を指す。無細胞核酸は、細胞内に含有されない核酸またはそうでなければ、細胞に結合していない核酸である。例えば、無細胞核酸試料は、無傷細胞を除去した後に試料中に残っている核酸を含むことができる。無細胞核酸は、対象由来の体液(例えば、血液、尿、CSFなど)を供給源とするすべての封入されていない核酸を指し得る。無細胞核酸は、ゲノムDNA、ミトコンドリアDNA、循環DNA、siRNA、miRNA、循環RNA(cRNA)、tRNA、rRNA、核小体低分子RNA(snoRNA)、Piwi相互作用RNA(piRNA)、長鎖ノンコーディングRNA(長鎖ncRNA)を含むDNA(cfDNA)、RNA(cfRNA)、およびそれらのハイブリッド、またはこれらのいずれかの断片を含む。無細胞核酸は、二本鎖、一本鎖、またはこのハイブリッドであってもよい。無細胞核酸は、分泌または細胞死プロセス、例えば、細胞のネクローシスおよびアポトーシスによって体液に放出され得る。一部の無細胞核酸は、がん細胞、例えば、循環腫瘍DNA(ctDNA)から体液に放出される。他のものは、健康な細胞から放出される。ctDNAは、封入されていない腫瘍由来の断片化DNAであり得る。無細胞胎児DNA(cffDNA)は、母体の血流を自由に循環する胎児のDNAである。
無細胞核酸またはそれに関連するタンパク質は、1つまたは複数のエピジェネティック改変を有してもよく、例えば、無細胞核酸は、アセチル化、5-メチル化、ユビキチン化、リン酸化、SUMO化、リボシル化、および/またはシトルリン化されてもよい。
無細胞核酸は、約100~500ヌクレオチドの例示的なサイズ分布を有し、110から約230ヌクレオチドの分子が、分子の約90%に相当し、ヒトにおける最頻値は約168ヌクレオチドであり、第2のマイナーピークは、240から440ヌクレオチドの範囲にある。無細胞核酸は、約160から約180ヌクレオチド、または約320から約360ヌクレオチド、または約440から約480ヌクレオチドであってもよい。
無細胞核酸は、溶液中に見出される無細胞核酸を、無傷細胞および体液の他の不溶性成分から分離する分割ステップによって、体液から単離することができる。分割には、遠心分離または濾過などの技法が含まれ得る。あるいは、体液中の細胞を溶解し、無細胞核酸および細胞核酸を一緒に処理してもよい。一般に、緩衝液の添加および洗浄ステップの後に、無細胞核酸は、アルコールで沈降させることができる。夾雑物または塩を除去するために、シリカベースカラムなどのさらなる清澄化ステップを使用してもよい。手順のある特定の態様、例えば、収率を最適化するために、例えば、非特異的バルク担体核酸を、反応全体にわたり添加してもよい。
そのような処理の後、試料は、二本鎖DNA、一本鎖DNA、および一本鎖RNAを含む、様々な形態の核酸を含むことができる。必要に応じて、一本鎖DNAおよびRNAは、後続の処理および解析ステップに含められるように、二本鎖形態に変換されてもよい。
タグ
一部の実施形態では、核酸分子(ポリヌクレオチドの試料由来)は、試料インデックスおよび/または分子バーコード(一般的に「タグ」と称される)でタグ付けされてもよい。タグは、他の方法の中でもとりわけ、化学合成、ライゲーション(例えば、平滑末端ライゲーションまたは付着末端ライゲーション)、またはオーバーラップ伸長ポリメラーゼ連鎖反応(PCR)によって、アダプターに組み込まれてもよく、またはそうでなければ、アダプターに接合されてもよい。このようなアダプターは、最終的に、標的核酸分子に接合され得る。他の実施形態では、従来の核酸増幅方法を使用して、試料インデックスを核酸分子に導入するために、1回または複数の増幅サイクル(例えば、PCR増幅)が一般的に適用される。増幅は、1種または複数の反応混合物(例えば、アレイにおける複数のマイクロウェル)中で行われてもよい。分子バーコードおよび/または試料インデックスは、同時に、または任意の連続的順序で導入されてもよい。一部の実施形態では、分子バーコードおよび/または試料インデックスは、配列捕捉ステップが実施される前および/または後に導入される。一部の実施形態では、分子バーコードのみがプローブ捕捉の前に導入され、試料インデックスは、配列捕捉ステップが実施された後に導入される。一部の実施形態では、分子バーコードと試料インデックスの両方が、プローブに基づく捕捉ステップを実施する前に導入される。一部の実施形態では、試料インデックスは、配列捕捉ステップが実施された後に導入される。一部の実施形態では、分子バーコードは、ライゲーション(例えば、平滑末端ライゲーションまたは粘着末端ライゲーション)により、アダプターを介して試料中の核酸分子(例えば、cfDNA分子)に組み込まれる。一部の実施形態では、試料インデックスは、オーバーラップ伸長ポリメラーゼ連鎖反応(PCR)によって、試料中の核酸分子(例えば、cfDNA分子)に組み込まれる。典型的には、配列捕捉プロトコールは、標的化核酸配列に対して相補的な一本鎖核酸分子を導入することに関与し、例えば、ゲノム領域およびこのような領域の突然変異のコード配列は、がんの種類に関連する。
一部の実施形態では、タグは、試料核酸分子の一方の末端または両方の末端に位置付けられ得る。一部の実施形態では、タグは、所定のまたはランダムもしくはセミランダム配列のオリゴヌクレオチドである。一部の実施形態では、タグは、約500、200、100、50、20、10、9、8、7、6、5、4、3、2、または1ヌクレオチド長未満であってもよい。タグは、ランダムまたは非ランダムに試料核酸に連結され得る。
一部の実施形態では、各試料は、試料インデックスまたは試料インデックスの組合せで固有にタグ付けされる。一部の実施形態では、試料またはサブ試料の各核酸分子は、分子バーコードまたは分子バーコードの組合せで固有にタグ付けされる。他の実施形態では、分子バーコードが複数(例えば、非固有分子バーコード)の中で互いに必ずしも固有ではないように、複数の分子バーコードを使用することができる。これらの実施形態では、一般的に、分子バーコードとそれが結合し得る配列の組合せが個々に追跡され得る固有の配列を生じるように、分子バーコードは個々の分子に結合される(例えば、ライゲーションによって)。内在性配列情報(例えば、試料中の元の核酸分子の配列に対応する始まり(開始)および/もしくは末端(停止)部分、一方もしくは両方の末端の配列読み取りデータのサブ配列、配列読み取りデータの長さ、ならびに/または試料中の元の核酸分子の長さ)と組み合わせて非固有にタグ付けされた分子バーコードの検出により、典型的には、特定の分子に固有の同一性を割り当てることが可能となる。個々の配列読み取りデータの長さ、または塩基対の数も必要に応じて使用して、所与の分子に固有の同一性を割り当てる。本明細書に記載されるように、固有の同一性が割り当てられた核酸の一本鎖に由来する断片は、それによって、それに続く親鎖に由来する断片、および/または相補鎖の特定を可能にし得る。
一部の実施形態では、分子バーコードは、識別子のセット(例えば、固有または非固有の分子バーコードの組合せ)の予測される比で、試料中の分子に導入される。ある例示的な形式は、標的分子の両末端にライゲーションされた、約2から約1,000,000個の異なる分子バーコード、または約5から約150個の異なる分子バーコード、または約20から約50個の異なる分子バーコードを使用する。あるいは、約25から約1,000,000個の異なる分子バーコードが使用されてもよい。例えば、20~50×20~50個の分子バーコードが使用されてもよい。このような識別子の数は、典型的には、同じ開始点および停止点を有する異なる分子が、異なる組合せの識別子を受容する高い確率(例えば、少なくとも94%、99.5%、99.99%、または99.999%)を有するのに十分である。一部の実施形態では、約80%、約90%、約95%、または約99%の分子が、同じ組合せの分子バーコードを有する。
一部の実施形態では、反応における固有または非固有の分子バーコードの割り当ては、例えば、それぞれが参照によりその全体が本明細書に組み込まれる、米国特許出願第20010053519号、同第20030152490号、および同第20110160078号、ならびに米国特許第6,582,908号、同第7,537,898号、同第9,598,731号、および同第9,902,992号に記載された方法およびシステムを使用して実施される。あるいは、一部の実施形態では、試料の異なる核酸分子は、内在性配列情報(例えば、開始および/もしくは停止位置、配列の一方もしくは両方の末端のサブ配列、ならびに/または長さ)のみを使用して特定されてもよい。
増幅
アダプターが隣接する試料核酸を、PCR、および典型的に、増幅させようとするDNA分子に隣接するアダプターにおけるプライマー結合部位にプライマーが結合することによりプライミングされる他の増幅方法によって増幅することができる。増幅方法は、サーマルサイクリングの結果としての伸長、変性、およびアニーリングのサイクルに関与してもよく、または転写に媒介される増幅におけるような等温のものであってもよい。他の増幅方法としては、リガーゼ連鎖反応、鎖置換増幅、核酸配列ベースの増幅、および自己持続性配列ベースの複製が挙げられる。
従来の核酸増幅方法を使用して、バーコードを核酸分子に導入するために、1回または複数回の増幅を適用することができる。増幅は、1種または複数の反応混合物中で行われてもよい。分子タグおよび試料インデックス/タグは、同時に、または任意の連続的順序で導入されてもよい。分子タグおよび試料インデックス/タグは、配列捕捉の前および/または後に導入されてもよい。一部の場合には、分子タグのみがプローブ捕捉の前に導入され、一方で、試料インデックス/タグは、配列捕捉後に導入される。一部の場合には、分子タグと試料インデックス/タグの両方が、プローブ捕捉の前に導入される。一部の場合には、試料インデックス/タグは、配列捕捉の後に導入される。通常、配列捕捉は、標的化配列、例えば、ゲノム領域のコード配列に相補的な一本鎖核酸分子を導入することに関与し、このような領域の突然変異は、がんの種類と関連している。典型的には、増幅により、200ntから700nt、250ntから350nt、または320ntから550ntの範囲のサイズで、分子タグおよび試料インデックス/タグを有する非固有または固有にタグ付けされた複数の核酸アンプリコンが生成される。一部の実施形態では、アンプリコンは、約300ntのサイズを有する。一部の実施形態では、アンプリコンは、約500ntのサイズを有する。
濃縮
一部の実施形態では、配列は、核酸を配列決定する前に濃縮される。濃縮は、特定の標的領域に対して、または非特異的に、必要に応じて実施される(「標的配列」)。一部の実施形態では、目的の標的化領域は、差次的タイリングおよび捕捉スキームを使用して、1つまたは複数のベイトセットパネルに関して選択される核酸捕捉プローブ(「ベイト」)を用いて濃縮され得る。差次的タイリングおよび捕捉スキームは一般的に、異なる相対濃度のベイトセットを使用して、ベイトと関連するゲノム領域全体に差次的にタイリングし(例えば、異なる「分解能」で)、拘束セット(例えば、シーケンサー拘束、例えば、配列決定ロード、それぞれのベイトの有用性など)に供され、下流配列決定に所望のレベルで、標的化核酸を捕捉する。これらの目的の標的化ゲノム領域は、核酸構築物の天然または合成のヌクレオチド配列を必要に応じて含む。一部の実施形態では、1つまたは複数の目的の領域に対するプローブを有するビオチン標識化ビーズを使用して、標的配列を捕捉し、その後、必要に応じて、目的の領域の濃縮のためにこれらの領域を増幅させることができる。
配列捕捉は、典型的には、標的核酸配列にハイブリダイズするオリゴヌクレオチドプローブの使用に関与する。ある特定の実施形態では、プローブセット戦略は、目的の領域全体にプローブをタイリングすることに関連する。このようなプローブは、例えば、約60から約120ヌクレオチド長であり得る。セットは、約2×、3×、4×、5×、6×、8×、9×、10×、15×、20×、50×、またはそれを上回る深度を有し得る。一般的に、配列捕捉の有効性は、部分的に、プローブの配列に相補的である(またはほぼ相補的である)標的分子内の配列の長さに依存する。一部の実施形態では、濃縮された集団は、配列決定前に増幅されてもよい。
配列決定パイプライン
事前の増幅を用いてまたは用いないで、アダプターに隣接する試料核酸を、例えば、1つまたは複数の配列決定デバイス107による、配列決定に供することができる。配列決定方法としては、例えば、サンガー配列決定、ハイスループット配列決定、ピロ配列決定、合成による配列決定、単一分子配列決定、ナノポア配列決定、半導体配列決定、ライゲーションによる配列決定、ハイブリダイゼーションによる配列決定、RNA-Seq(Illumina)、Digital Gene Expression(Helicos)、次世代配列決定、Single Molecule Sequencing by Synthesis(SMSS)(Helicos)、大規模並列配列決定、Clonal Single Molecule Array(Solexa)、ショットガン配列決定、Ion Torrent、Oxford Nanopore、Roche Genia、Maxim-Gilbert配列決定、プライマーウォーキング、PacBio、SOLiD、Ion Torrent、またはNanoporeプラットフォームを使用する配列決定が挙げられる。配列決定の反応は、複数のレーン、複数のチャネル、複数のウェル、または複数の試料セットを実質的に同時に処理する他の手段であり得る、種々の試料処理ユニットにおいて実施することができる。試料処理ユニットは、複数のランを同時に処理することが可能な複数の試料チャンバーも含んでもよい。
配列決定反応は、がんまたは他の疾患のマーカーを含有することが公知の1つまたは複数の断片の種類に関して実施されてもよい。配列決定反応は、試料中に存在する任意の核酸断片に関して実施されてもよい。配列反応は、少なくとも5%、10%、15%、20%、25%、30%、40%、50%、60%、70%、80%、90%、95%、99%、99.9%または100%のゲノムの配列カバレッジを提供し得る。他の場合には、ゲノムの配列カバレッジは、5%、10%、15%、20%、25%、30%、40%、50%、60%、70%、80%、90%、95%、99%、99.9%または100%未満であり得る。
同時の配列決定反応は、マルチプレックス配列決定を使用して実施されてもよい。一部の場合には、無細胞ポリヌクレオチドは、少なくとも1000、2000、3000、4000、5000、6000、7000、8000、9000、10000、50000、100,000回の配列決定反応で配列決定され得る。他の場合には、無細胞ポリヌクレオチドは、1000、2000、3000、4000、5000、6000、7000、8000、9000、10000、50000、100,000回未満の配列決定反応で配列決定され得る。配列決定反応は、逐次的にまたは同時に実施されてもよい。次のデータ解析は、配列決定反応のすべてまたは一部に関して実施されてもよい。一部の場合には、データ解析は、少なくとも1000、2000、3000、4000、5000、6000、7000、8000、9000、10000、50000、100,000回の配列決定反応で実施されてもよい。他の場合には、データ解析は、1000、2000、3000、4000、5000、6000、7000、8000、9000、10000、50000、100,000回未満の配列決定反応で実施されてもよい。例示的な読み深度は、遺伝子座(塩基)当たり1000~80000個の読み取りデータである。
配列解析パイプライン
一部の実施形態では、試料中の核酸を、同じ核酸分子のいずれか2つのコピーが、両末端に連結したアダプターから分子バーコードの同じ組合せを受容する確率が低くなる(例えば、1または0.1%未満)ように、分子バーコードを含む十分な数のアダプターと接触させることができる。このようなアダプターの使用により、所与の核酸分子から生じる核酸配列(配列読み取りデータ)のファミリーの特定が可能になる。例えば、参照配列に同じ開始および停止点を有し、分子バーコードの同じ組合せに連結した核酸配列は、ファミリーの一部であると考えられ得る。このように、ファミリーは、試料中の所与の核酸分子の増幅産物の配列を表し、ここで、ファミリーメンバーは、増幅産物から得られた配列読み取りデータである。ファミリーメンバーの配列は、平滑末端形成およびアダプター結合によって改変されたように、元の試料中の核酸分子に関するコンセンサスヌクレオチドまたは完全コンセンサス配列を導出するようにコンパイルされ得る。言い換えれば、試料中の核酸の特定の位置を占有するヌクレオチドは、ファミリーメンバーの配列における対応する位置を占有するヌクレオチドのコンセンサスであることが判定される。ファミリーは、二本鎖核酸の一方または両方の鎖の配列を含むことができる。ファミリーのメンバーが、二本鎖核酸由来の両方の鎖の配列を含む場合、一方の鎖の配列は、コンセンサスヌクレオチドまたは配列を導出するためにすべての配列をコンパイルする目的で、それらの相補体に変換される。一部のファミリーは、単一のメンバーの配列のみを含む。この場合には、この配列は、増幅前の試料中の核酸の配列として得ることができる。あるいは、単一のメンバーの配列のみを有するファミリーは、次の解析から排除されてもよい。
配列決定された核酸におけるヌクレオチドの変異は、配列決定された核酸を参照配列と比較することによって、判定することができる。参照配列は、公知の配列、例えば、対象由来の公知の全ゲノム配列または部分的ゲノム配列(例えば、ヒト対象の全ゲノム配列)である場合が多い。参照配列は、例えば、hG19またはhG38であってもよい。配列決定された核酸は、試料中の核酸について直接的に判定された配列、または上記のように、このような核酸の増幅産物の配列のコンセンサスを表し得る。参照配列の1つまたは複数の指定の位置で比較を実施してもよい。各配列が最大限にアラインされた場合に、参照配列の指定の位置に対応する位置を含む、配列決定された核酸のサブセットを特定することができる。このようなサブセット内では、配列決定された核酸が、もしあれば、指定の位置にヌクレオチド変異を含み、必要に応じて、もしあれば、参照ヌクレオチド(すなわち、参照配列におけるものと同じ)を含むことが判定され得る。ヌクレオチドバリアントを含むサブセットにおける配列決定された核酸の数が選択された閾値を超える場合、バリアントヌクレオチドは指定の位置でコールされ得る。閾値は、単一の数値、例えば、ヌクレオチドバリアントを含むサブセット内の少なくとも1、2、3、4、5、6、7、9、または10個の配列決定された核酸であってもよく、または閾値は、比率、例えば、他の確率の中でもとりわけ、ヌクレオチドバリアントを含むサブセット内の配列決定された核酸の少なくとも0.5、1、2、3、4、5、10、15、または20であってもよい。比較は、参照配列における目的のいずれかの指定の位置について反復することができる。時には、比較は、参照配列における少なくとも約20、100、200、または300の連続する位置、例えば、約20~500、または約50~300の連続する位置を占有する指定の位置について実施されてもよい。
本方法を使用して、対象における状態、特にがんを引き起こし得る遺伝的事象の存在または非存在を特定し、状態を特徴付け(例えば、がんの病期分類またはがんの不均一性の判定)、状態の処置に対する応答をモニターし、状態の発症または状態のその後の経過の予後リスクをもたらすことができる。
本発明の方法を使用して、様々ながんを検出することができる。がん細胞は、ほとんどの細胞と同様に、古い細胞が死滅して新しい細胞に置き換わるターンオーバーの速度によって特徴付けることができる。一般的に、所与の対象において脈管構造と接触している死細胞は、DNAまたはDNAの断片を血流中に放出し得る。これは、疾患の様々なステージのがん細胞にも当てはまる。がん細胞は、その疾患のステージに依存して、コピー数変異ならびに稀な突然変異などの様々な遺伝子異常によって、特徴付けることもできる。この現象を使用して、本明細書に記載の方法およびシステムを使用して、個体におけるがんの存在または非存在を検出することができる。
検出され得るがんの種類および数としては、血液のがん、脳のがん、肺がん、皮膚がん、鼻のがん、咽喉がん、肝臓がん、骨がん、リンパ腫、膵がん、皮膚がん、腸がん、直腸がん、甲状腺がん、膀胱がん、腎臓がん、口腔がん、胃がん、固形腫瘍、不均一な腫瘍、均一な腫瘍などを挙げることができる。
がんは、突然変異、稀な突然変異、インデル、コピー数変異、トランスバージョン、転座、逆位、欠失、異数性、部分異数性、倍数性、染色体不安定性、染色体の構造変化、遺伝子融合、染色体融合、遺伝子切断、遺伝子増幅、遺伝子重複、染色体損傷、DNA損傷、核酸化学修飾の異常な変化、エピジェネティックパターンの異常な変化を含む遺伝的変異から検出することができる。
がんの特異的形態を特徴付けるために、遺伝子データを使用することもできる。がんは、組成と病期分類の両方において不均一であることが多い。遺伝子プロファイルデータによって、がんの特異的サブタイプの診断または処置において重要であり得る、その特異的サブタイプの特徴付けが可能になり得る。この情報は、対象または開業医に、特定の種類のがんの予後に関する手掛かりを与え、対象または開業医のいずれかが、疾患の進行と一致した処置選択肢を採用することを可能にもし得る。一部のがんは進行し、より攻撃的かつ遺伝的に不安定になる。他のがんは、良性、不活性または休止状態のままであり得る。本開示のシステムおよび方法は、疾患進行を判定する際に有用であり得る。
本発明の解析は、特定の処置選択肢の有効性を判定する際にも有用である。処置が成功する場合、より多くのがんが死滅し、DNAを流出し得るため、成功する処置選択肢は、対象の血中で検出されるコピー数変異または稀な突然変異の量を増加させ得る。他の例では、これは生じ得ない。別の例では、おそらく、ある特定の処置選択肢は、がんの遺伝子プロファイルと経時的に相関し得る。この相関は、治療を選択する際に有用であり得る。さらに、がんが、処置後に寛解することが観察される場合、本発明の方法を使用して、残りの疾患または疾患の再発をモニターすることができる。
がん以外の状態における遺伝的変異を検出するために本発明の方法を使用することもできる。B細胞などの免疫細胞は、ある特定の疾患が存在すると、急速なクローン増殖を受け得る。クローン増殖は、コピー数変異の検出を使用してモニターすることができ、ある特定の免疫状態がモニターされ得る。この例では、コピー数変異の解析を経時的に実施して、特定の疾患がどのように進行し得るかというプロファイルを作出することができる。コピー数変異またはさらに稀な突然変異の検出を使用して、病原体の集団が、感染の経過中にどのように変化しているかを判定することができる。これは、ウイルスが感染の経過中に生活環状態を変化させ得る、および/またはより毒性の高い形に突然変異し得る、HIV/AIDsまたは肝炎感染などの慢性感染中に特に重要であり得る。本発明の方法は、免疫細胞が移植組織を破壊しようと試みる場合に、宿主の身体の拒絶活性を判定またはプロファイルするために使用され、移植組織の状態をモニターし、および処置の経過または拒絶の予防を変更することができる。
さらに、本開示の方法を使用して、対象における異常な状態の不均一性を特徴付けることができ、本方法は、対象における細胞外ポリヌクレオチドの遺伝子プロファイルを作成するステップであって、遺伝子プロファイルが、コピー数変異および稀な突然変異の解析から得られる複数のデータを含む、ステップを含む。以下に限定されないが、がんを含む一部の場合には、疾患は不均一である場合がある。疾患細胞は、同一でない場合がある。がんの例では、一部の腫瘍は、異なる種類の腫瘍細胞、がんの異なるステージにある一部の細胞を含むことが公知である。他の例では、不均一性は、疾患の複数の病巣を含む場合がある。さらに、がんの例では、1つまたは複数の病巣が、おそらく原発部位から拡がった転移の結果である、複数の腫瘍病巣が存在し得る。
本方法は、不均一な疾患における異なる細胞由来の遺伝子情報の総和であるプロファイル、フィンガープリントまたはデータのセットを作成するために使用することができる。このデータのセットは、コピー数変異および稀な突然変異の解析を単独または組合せで含んでもよい。
本方法は、がんまたは胎児期由来の他の疾患を診断、予測、モニターまたは観察するために使用することができる。すなわち、これらの方法論は、そのDNAおよび他のポリヌクレオチドが母体の分子と共に循環している可能性がある出生前の対象におけるがんまたは他の疾患を診断、予測、モニターまたは観察するために、妊娠中の対象において用いることができる。
精度の高い処置の例
改良されたコンピューターシステム110によって提供される精度の高い診断によって、精度の高い処置計画を得ることができ、これらは、コンピューターシステム110によって特定され得る(および/または医療従事者によって精選され得る)。例えば、1種の精度の高い診断および処置は、相同組換え修復(HRR)経路の遺伝子に関する場合がある。
相同組換えは、ヌクレオチド配列が、2つの、類似するかまたは同一のDNA分子の間で交換される遺伝子組換えの1種である。これは、二本鎖切断(DSB)として公知の、DNAの両方の鎖で起こる有害な切断を正確に修復するために、細胞によって最も広く使用される。HRRは、細胞分裂が起こる前の染色体切断を排除するために、複製された(SおよびG2期)DNAに存在する損傷のエラーを含まない除去に関するメカニズムを提供する。相同組換えが、DNAにおける二本鎖切断をどのように修復するかについての主要なモデルは、二本鎖切断修復(DSBR)経路および合成依存鎖アニーリング(SDSA)経路を媒介する相同組換え修復経路である。相同組換え遺伝子における生殖細胞系列および体細胞の欠陥は、乳がん、卵巣がんおよび前立腺がんに強く関連していた。
試料中のバリアントヌクレオチドの数および種類は、試料を提供する対象の処置、すなわち治療介入の受け易さの指標を提供し得る。例えば、様々なポリADPリボースポリメラーゼ(PARP)阻害剤は、BRCA1またはBRCA2遺伝子における遺伝的突然変異によって引き起こされる乳がん、卵巣がんおよび前立腺がん由来の腫瘍の成長を停止させることが示されてきた。これらの治療剤のいくつかは、HRRの欠陥を補うことができる、塩基除去修復(BER)を阻害することができる。
一方、ある特定のBRCAおよびHRR野生型患者は、PARP阻害剤による処置から臨床利益を達成することができない。さらに、BRCA突然変異を有する卵巣がん患者のすべてが、PARP阻害剤に対して応答する訳ではない。さらに、異なる種類の突然変異は、異なる治療を示し得る。例えば、HRR遺伝子における体細胞ヘテロ接合欠失は、体細胞ホモ接合欠失とは異なる治療を示し得る。よって、遺伝物質の状態は、治療に影響を及ぼし得る。一例では、PARP阻害剤は、HRR遺伝子に体細胞ホモ接合欠失を保有する個体に投与することができるが、HRR遺伝子に野生型対立遺伝子または体細胞ヘテロ接合欠失を保有する個体には投与することができない。
配列決定された核酸におけるヌクレオチド変異は、配列決定された核酸を参照配列と比較することによって判定することができる。参照配列は、公知の配列、例えば、対象由来の公知の全ゲノム配列または部分的ゲノム配列、ヒト対象の全ゲノム配列であることが多い。参照配列は、hG19であってもよい。配列決定された核酸は、試料中の核酸について直接的に判定された配列、または上記のように、このような核酸の増幅産物の配列のコンセンサスを表し得る。参照配列の1つまたは複数の指定の位置で比較を実施してもよい。各配列が最大限にアラインされた場合に、参照配列の指定の位置に対応する位置を含む、配列決定された核酸のサブセットを特定することができる。このようなサブセット内では、配列決定された核酸が、もしあれば、指定の位置にヌクレオチド変異を含み、必要に応じて、もしあれば、参照ヌクレオチド(すなわち、参照配列におけるものと同じ)を含むことが判定され得る。ヌクレオチドバリアントを含むサブセットにおける配列決定された核酸の数が閾値を超える場合、バリアントヌクレオチドは、指定の位置でコールされ得る。閾値は、単一の数値、例えば、ヌクレオチドバリアントを含むサブセット内の少なくとも1、2、3、4、5、6、7、8、9、または10個の配列決定された核酸であってもよく、または閾値は、比率、例えば、他の確率の中でもとりわけ、ヌクレオチドバリアントを含むサブセット内の配列決定された核酸の少なくとも0.5、1、2、3、4、5、10、15、または20であってもよい。比較は、参照配列における目的のいずれかの指定の位置について反復することができる。時には、比較は、参照配列における少なくとも20、100、200、または300の連続する位置、例えば、20~500、または50~300の連続する位置を占有する指定の位置について実施されてもよい。
Guardant Health, Inc.からの73-遺伝子次世代配列決定ctDNAパネルを使用して、配列決定された進行した固形腫瘍を有する28,199名の患者由来の血漿試料に本明細書に記載のモデリングを適用した。
結果の例は、9%~11%の腫瘍含有率を示す試料に対して、BRCA1/2遺伝子の欠失を検出する際に95%の感度を示した。LOHおよび二対立遺伝子のコピー数喪失に関する検出限界は、11%~13%である。観察されたBRCA1体細胞欠失の出現率は、乳がん、結腸直腸がん、前立腺がんおよび子宮内膜がんにおける3%より高い。観察されたBRCA2体細胞欠失の出現率は、乳癌、肺癌、前立腺癌、頭頸部癌(HNSCC)および肝細胞癌における6%より高い。
古典的HRDに関連するがんを有する5,568名の患者のコホートでは、体細胞LOHおよび二対立遺伝子体細胞コピー数の喪失は、BRCA1では試料の2.7%で、およびBRCA2では試料の8.0%で検出され、以前に報告した組織出現率とアラインされる。BRCA1およびBRCA2のLOHは、乳がん、卵巣がん、前立腺がん、および膵臓がんを含む古典的相同組換え欠陥(HRD)がんの2.4%(134/5568)および7.4%(415/5568)で観察された。BRCA1およびBRCA2二対立遺伝子体細胞コピー数の喪失は、HRDがんのこの同じ群の0.3%(19/5568)および0.5%(31/5568)において観察された。BRCA1/2体細胞LOHおよび二対立遺伝子体細胞コピー数の喪失は、本明細書に記載のモデルの適用に基づいて、ctDNAにおいて正確に検出することができる。非侵襲的ctDNA評価による、この治療的に標的可能なゲノム変更を特定する能力は、深部の内臓の場所、主に、乳がんおよび前立腺がんなどの骨および脳への転移のために、特に、その疾患が組織検査を要求する患者において、重要な臨床的意味を有する。
上記または下記において引用したすべての特許出願、ウェブサイト、他の刊行物、受託番号などは、各個別の項目が参照によって組み込まれることが具体的かつ個別に示されたのと同じ程度に、すべての目的に関して参照によりその全体が組み込まれる。配列の異なるバージョンが異なる時間に受託番号に関連付けられている場合、本出願の有効な出願日において受託番号に関連付けられているバージョンを意味する。有効出願日とは、該当する場合、受託番号に関する実際の出願日または優先出願の出願日の早い方を意味する。同様に、刊行物、ウェブサイトなどの異なるバージョンが異なる時間に公開されている場合、別段の指定のない限り、本出願の有効出願日の直近に公開されたバージョンを意味する。特に別段の指定のない限り、本開示の任意の特徴、ステップ、要素、実施形態、または態様は、任意の他のものと組み合わせて使用され得る。本開示は、明瞭さおよび理解のための例示および例によって、いくらか詳細に記載されているが、添付の特許請求の範囲の範囲内にある特定の変化および改変を実践することができることが明らかになろう。
特定の実施形態では、例えば以下の項目が提供される。
(項目1)
遺伝子の生殖細胞系列欠失を示さない試料中の前記遺伝子の体細胞ホモ接合欠失と体細胞ヘテロ接合欠失とを識別するためのコンピューターシステムであって、
第1の確率分布により、前記遺伝子に関連する1つまたは複数の生殖細胞系列一塩基多型(SNP)の位置に基づいて、前記体細胞ホモ接合欠失を表す、対立遺伝子数の第1のモデルを作成し、
第2の確率分布により、前記1つまたは複数の生殖細胞系列SNPの位置に基づいて、前記体細胞ヘテロ接合欠失を表す、前記試料中の対立遺伝子数の第2のモデルを作成し、
前記第1のモデルの第1の出力と前記第2のモデルの第2の出力とを比較し、
前記比較に基づいて、前記遺伝子に関する前記体細胞ホモ接合欠失が前記試料中に存在するという予測を作成する
ようにプログラミングされたプロセッサー
を含む、コンピューターシステム。
(項目2)
前記第1のモデルが、前記試料が前記体細胞ホモ接合欠失を含む第1の確率を表し、前記第2のモデルが、前記試料が前記体細胞ヘテロ接合欠失を含む第2の確率を表す、項目1に記載のコンピューターシステム。
(項目3)
前記第1の確率分布が、前記第2の確率分布と同じ種類の確率分布である、項目1に記載のコンピューターシステム。
(項目4)
前記第1のモデルを作成するために、前記プロセッサーが、前記第1の確率分布に対する入力のための1つまたは複数のパラメーターを判定するようにプログラミングされている、項目1に記載のコンピューターシステム。
(項目5)
前記第1の確率分布が、ベータ-二項分布、二項分布、または正規分布のうちの1つを含む1種の確率分布を含む、項目4に記載のコンピューターシステム。
(項目6)
対立遺伝子数の前記第1のモデルを作成するために、前記プロセッサーが、
前記第1の確率分布に対する入力のために、試料のトレーニングセットにおいて、前記1つまたは複数の生殖細胞系列SNPのヘテロ接合性の出現率を判定する
ようにさらにプログラミングされている、項目4に記載のコンピューターシステム。
(項目7)
試料の前記トレーニングセットが、腫瘍が検出されない(TND)複数の試料を含む、項目6に記載のコンピューターシステム。
(項目8)
対立遺伝子数の前記第1のモデルを作成するために、前記プロセッサーが、
前記第1の確率分布に対する入力のために、試料の前記トレーニングセットにおいて、前記1つまたは複数の生殖細胞系列SNPと関連するマイナー対立遺伝子頻度(MAF)の標準偏差を判定する
ようにさらにプログラミングされている、項目6に記載のコンピューターシステム。
(項目9)
前記第1のモデルを作成するために、前記プロセッサーが、
前記第1の確率分布に対する入力のために、変異型対立遺伝子を支持する前記試料中の分子の数を判定する
ようにさらにプログラミングされている、項目8に記載のコンピューターシステム。
(項目10)
前記第1のモデルを作成するために、前記プロセッサーが、
前記第1の確率分布に対する入力のために、前記試料中の分子の総数を判定する
ようにさらにプログラミングされている、項目9に記載のコンピューターシステム。
(項目11)
前記第1のモデルを作成するために、前記プロセッサーが、
体細胞ホモ接合欠失と関連する分子カバレッジに基づいて、前記体細胞ホモ接合欠失を仮定して、前記試料において、前記1つまたは複数の生殖細胞系列SNPの位置の前記対立遺伝子数の第1の尤度を計算する
ようにさらにプログラミングされている、項目10に記載のコンピューターシステム。
(項目12)
前記第2のモデルを作成するために、前記プロセッサーが、
体細胞ヘテロ接合欠失と関連する分子カバレッジに基づいて、前記体細胞ヘテロ接合欠失を仮定して、前記試料において、前記1つまたは複数の生殖細胞系列SNPの位置の前記対立遺伝子数の第2の尤度を計算する
ようにさらにプログラミングされている、項目11に記載のコンピューターシステム。
(項目13)
前記第2のモデルを作成するために、前記プロセッサーが、
前記第2のモデルに関する前記第2の確率分布に対する入力のために、前記試料から推定された腫瘍含有率の平均を判定する
ようにさらにプログラミングされている、項目4に記載のコンピューターシステム。
(項目14)
前記腫瘍含有率が、配列カバレッジ情報に基づいて推定される、項目13に記載のコンピューターシステム。
(項目15)
前記第2のモデルを作成するために、前記プロセッサーが、
前記第2のモデルに関する前記第2の確率分布に対する入力のために、前記試料から推定される腫瘍含有率の標準偏差を判定する
ようにさらにプログラミングされている、項目13に記載のコンピューターシステム。
(項目16)
前記プロセッサーが、
複数の試料にアクセスし、
生殖細胞系列欠失を含む前記複数の試料の中から試料のセットを特定し、
前記複数の試料から試料の前記セットをフィルタリングして出力し、
前記フィルタリングされた複数の試料の中から、前記体細胞ホモ接合欠失または前記体細胞ヘテロ接合欠失の存在を特定する
ようにさらにプログラミングされている、項目1に記載のコンピューターシステム。
(項目17)
前記第1の出力が、前記体細胞ホモ接合欠失の存在についての第1の確率を含み、前記第2の出力が、前記体細胞ヘテロ接合欠失の存在についての第2の確率を含む、項目1に記載のコンピューターシステム。
(項目18)
前記第1のモデルの前記第1の出力と前記第2のモデルの前記第2の出力とを比較するために、前記プロセッサーが、
前記第1の出力と前記第2の出力とに基づいて、対数尤度関数を実行する
ようにさらにプログラミングされている、項目14に記載のコンピューターシステム。
(項目19)
前記遺伝子が、BRCA1、BRCA2、およびATMのうちの1つを含む、項目1に記載のコンピューターシステム。
(項目20)
試料中の遺伝子が体細胞ホモ接合欠失を含む第1の確率を作成し、
前記試料中の前記遺伝子が体細胞ヘテロ接合欠失を含む第2の確率を作成し、
前記第1の確率と前記第2の確率とを比較し、
前記試料が前記体細胞ホモ接合欠失または前記体細胞ヘテロ接合欠失を含むか否かの予測を作成する
ようにプログラミングされたプロセッサー
を含むシステム。
(項目21)
試料中の遺伝物質が第1の状態を含む第1の確率を作成し、
前記試料中の遺伝物質が第2の状態を含む第2の確率を作成し、
前記第1の確率と前記第2の確率とを比較し、
前記試料が前記第1の状態または前記第2の状態を含むか否かの予測を作成する
ようにプログラミングされたプロセッサー
を含むシステム。
(項目22)
前記第1の状態が、第1のモデルに基づいて判定される体細胞ホモ接合欠失を含み、前記第2の状態が、第2のモデルに基づいて判定される体細胞ヘテロ接合欠失を含む、項目21に記載のシステム。
(項目23)
前記第1の状態が、第1のコピー数バリアント(CNV)を含み、前記第2の状態が、前記第1のCNVとは異なる第2のCNVを含む、項目21に記載のシステム。
(項目24)
前記第1のCNVおよび/または前記第2のCNVが、有害な状態に関連する、項目23に記載のシステム。
(項目25)
前記第1の確率を作成するために、前記プロセッサーが、
遺伝子に関連する1つまたは複数の生殖細胞系列一塩基多型(SNP)の位置にアクセスし、
試料のトレーニングセットにおいて前記1つまたは複数の生殖細胞系列SNPに関連するマイナー対立遺伝子頻度(MAF)の標準偏差を判定する
ようにプログラミングされている、項目23に記載のシステム。
(項目26)
前記第1の確率を作成するために、前記プロセッサーが、
試料の前記トレーニングセットにおいて前記1つまたは複数の生殖細胞系列SNPと関連するマイナー対立遺伝子頻度(MAF)の標準偏差を判定する
ようにプログラミングされている、項目23に記載のシステム。
(項目27)
プロセッサーによって実装される方法であって、
前記プロセッサーによって、第1の確率分布により、遺伝子に関連する1つまたは複数の生殖細胞系列一塩基多型(SNP)の位置に基づいて、体細胞ホモ接合欠失を表す、対立遺伝子数の第1のモデルを作成するステップと、
前記プロセッサーによって、第2の確率分布により、前記1つまたは複数の生殖細胞系列SNPの位置に基づいて、体細胞ヘテロ接合欠失を表す、試料中の対立遺伝子数の第2のモデルを作成するステップと、
前記プロセッサーによって、前記第1のモデルの第1の出力と前記第2のモデルの第2の出力とを比較するステップと、
前記プロセッサーによって、前記比較に基づいて、前記遺伝子に関する前記体細胞ホモ接合欠失が前記試料中に存在するという予測を作成するステップと
を含む、方法。
(項目28)
プロセッサーによって実装される方法であって、
前記プロセッサーによって、試料中の遺伝子が体細胞ホモ接合欠失を含む第1の確率を作成するステップと、
前記プロセッサーによって、前記試料中の前記遺伝子が体細胞ヘテロ接合欠失を含む第2の確率を作成するステップと、
前記プロセッサーによって、前記第1の確率と前記第2の確率とを比較するステップと、
前記プロセッサーによって、前記試料が前記体細胞ホモ接合欠失または前記体細胞ヘテロ接合欠失を含むか否かの予測を、前記比較に基づいて作成するステップと
を含む、方法。
(項目29)
プロセッサーによって実装される方法であって、
前記プロセッサーによって、試料中の遺伝物質が第1の状態を含む第1の確率を作成するステップと、
前記プロセッサーによって、前記試料中の遺伝物質が第2の状態を含む第2の確率を作成するステップと、
前記プロセッサーによって、前記第1の確率と前記第2の確率とを比較するステップと、
前記試料が前記第1の状態または前記第2の状態を含むか否かの予測を、前記比較に基づいて作成するステップと
を含む、方法。
(項目30)
いずれかの先行する項目に基づいて、体細胞ホモ接合欠失を有すると判定された対象に、前記体細胞ホモ接合欠失に関連するがんを処置するのに有効な治療介入を施与するための方法。
(項目31)
前記治療介入が、ポリADPリボースポリメラーゼ(PARP)阻害剤を含む、項目30に記載の方法。
(項目32)
前記治療介入が、塩基除去修復(BER)阻害剤を含む、項目30に記載の方法。
(項目33)
いずれかの先行する項目に基づいて、特定の状態の遺伝物質を有すると判定された対象に、前記遺伝物質の状態に関連する疾患を処置するのに有効な治療介入を施与するための方法。
(項目34)
いずれかの先行する項目に基づいて、体細胞ホモ接合欠失を有さないと判定された対象に、ポリADPリボースポリメラーゼ(PARP)阻害剤を除外するための治療介入を施与するための方法。
(項目35)
前記試料中の前記遺伝子および/または遺伝物質の状態に関する情報、および/またはそれに由来する情報を必要に応じて含むレポートを作成するステップをさらに含む、項目1から29のいずれか一項に記載の方法またはシステム。
(項目36)
前記レポートを、前記試料が由来する前記対象または医療従事者などの第3のパーティーに通信するステップをさらに含む、項目35に記載の方法またはシステム。
(項目37)
試料中の遺伝子の体細胞欠失が、体細胞ホモ接合欠失または体細胞ヘテロ接合欠失であるか否かを判定する方法であって、前記試料が、前記遺伝子の生殖細胞系列欠失を示さず、前記方法が、
a)前記試料中の前記遺伝子における生殖細胞系列一塩基多型(SNP)の参照対立遺伝子頻度を判定するステップと、
b)前記体細胞欠失を
(i)前記試料中の前記生殖細胞系列SNPの前記参照対立遺伝子頻度が、SNPの遺伝子型に応じて、腫瘍非検出(TND)試料において観察される、所定の範囲内にある場合は、体細胞ホモ接合欠失、または
(ii)前記試料中の前記生殖細胞系列SNPの前記参照対立遺伝子頻度が、前記所定の範囲から規定量、逸脱する場合は、体細胞ヘテロ接合欠失
として分類するステップと
を含む、方法。
(項目38)
前記所定の範囲が、0~0.01、0.45~0.55、または0.99~1である、項目37に記載の方法。
(項目39)
前記試料中の推定腫瘍含有率を判定するステップと、
前記推定腫瘍含有率に基づいて、前記規定量を計算するステップと
をさらに含む、項目37に記載の方法。

Claims (1)

  1. 明細書に記載の発明。
JP2024027520A 2019-02-27 2024-02-27 対立遺伝子頻度に基づく機能喪失のコンピューターモデリング Pending JP2024057050A (ja)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
US201962811159P 2019-02-27 2019-02-27
US62/811,159 2019-02-27
US201962823585P 2019-03-25 2019-03-25
US62/823,585 2019-03-25
JP2021549786A JP2022521777A (ja) 2019-02-27 2020-02-27 対立遺伝子頻度に基づく機能喪失のコンピューターモデリング
PCT/US2020/020174 WO2020176775A1 (en) 2019-02-27 2020-02-27 Computational modeling of loss of function based on allelic frequency

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2021549786A Division JP2022521777A (ja) 2019-02-27 2020-02-27 対立遺伝子頻度に基づく機能喪失のコンピューターモデリング

Publications (1)

Publication Number Publication Date
JP2024057050A true JP2024057050A (ja) 2024-04-23

Family

ID=70009412

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2021549786A Pending JP2022521777A (ja) 2019-02-27 2020-02-27 対立遺伝子頻度に基づく機能喪失のコンピューターモデリング
JP2024027520A Pending JP2024057050A (ja) 2019-02-27 2024-02-27 対立遺伝子頻度に基づく機能喪失のコンピューターモデリング

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2021549786A Pending JP2022521777A (ja) 2019-02-27 2020-02-27 対立遺伝子頻度に基づく機能喪失のコンピューターモデリング

Country Status (7)

Country Link
US (3) US20200273538A1 (ja)
EP (1) EP3931831A1 (ja)
JP (2) JP2022521777A (ja)
KR (1) KR20210132139A (ja)
CN (1) CN113748467A (ja)
AU (1) AU2020228058A1 (ja)
WO (1) WO2020176775A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115273966B (zh) * 2022-08-29 2023-03-31 西安交通大学 谱系树中可变剪接模式和染色质状态动态变化的分析方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6582908B2 (en) 1990-12-06 2003-06-24 Affymetrix, Inc. Oligonucleotides
US20030017081A1 (en) 1994-02-10 2003-01-23 Affymetrix, Inc. Method and apparatus for imaging a sample on a device
DE60234464D1 (de) 2001-11-28 2009-12-31 Applied Biosystems Llc Zusammensetzungen und Verfahren zur selektiven Nukleinsäureisolierung
US8835358B2 (en) 2009-12-15 2014-09-16 Cellular Research, Inc. Digital counting of individual molecules by stochastic attachment of diverse labels
IL269097B2 (en) 2012-09-04 2024-01-01 Guardant Health Inc Systems and methods for detecting rare mutations and changes in number of copies
US20160040229A1 (en) 2013-08-16 2016-02-11 Guardant Health, Inc. Systems and methods to detect rare mutations and copy number variation
EP2994847A4 (en) * 2013-05-10 2017-04-19 Foundation Medicine, Inc. Analysis of genetic variants
US20170342477A1 (en) * 2016-05-27 2017-11-30 Sequenom, Inc. Methods for Detecting Genetic Variations
WO2018144782A1 (en) * 2017-02-01 2018-08-09 The Translational Genomics Research Institute Methods of detecting somatic and germline variants in impure tumors
EP3658687A1 (en) * 2017-07-25 2020-06-03 Sophia Genetics S.A. Methods for detecting biallelic loss of function in next-generation sequencing genomic data

Also Published As

Publication number Publication date
AU2020228058A1 (en) 2021-09-23
KR20210132139A (ko) 2021-11-03
CN113748467A (zh) 2021-12-03
WO2020176775A1 (en) 2020-09-03
US20230360727A1 (en) 2023-11-09
US20240029890A1 (en) 2024-01-25
EP3931831A1 (en) 2022-01-05
JP2022521777A (ja) 2022-04-12
US20200273538A1 (en) 2020-08-27

Similar Documents

Publication Publication Date Title
US11193175B2 (en) Normalizing tumor mutation burden
JP2020536509A (ja) 体細胞および生殖細胞系統バリアントを鑑別するための方法およびシステム
JP2024057050A (ja) 対立遺伝子頻度に基づく機能喪失のコンピューターモデリング
JP2023526252A (ja) 相同組換え修復欠損の検出
JP2023540221A (ja) バリアントの起源を予測するための方法およびシステム
WO2022212590A1 (en) Systems and methods for multi-analyte detection of cancer
JP2024056984A (ja) エピジェネティック区画アッセイを較正するための方法、組成物およびシステム
US20240141425A1 (en) Correcting for deamination-induced sequence errors
JP2023517029A (ja) 無細胞核酸において検出された遺伝的突然変異を、腫瘍起源または非腫瘍起源として分類するための方法
JP2022514010A (ja) 核酸分子の回収率を改善するための方法、組成物、およびシステム
US20210398610A1 (en) Significance modeling of clonal-level absence of target variants
US20220068433A1 (en) Computational detection of copy number variation at a locus in the absence of direct measurement of the locus

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20240227