JP2024512372A - オフターゲットポリヌクレオチド配列決定データに基づく腫瘍の存在の検出 - Google Patents

オフターゲットポリヌクレオチド配列決定データに基づく腫瘍の存在の検出 Download PDF

Info

Publication number
JP2024512372A
JP2024512372A JP2023554842A JP2023554842A JP2024512372A JP 2024512372 A JP2024512372 A JP 2024512372A JP 2023554842 A JP2023554842 A JP 2023554842A JP 2023554842 A JP2023554842 A JP 2023554842A JP 2024512372 A JP2024512372 A JP 2024512372A
Authority
JP
Japan
Prior art keywords
segment
determining
computing system
metric
size distribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023554842A
Other languages
English (en)
Inventor
カタリン バルバチオル,
ダーリヤ チュドヴァ,
アレクサンドル アルツィオメンカ,
ダニエル ゲイル,
ハオ ワン,
Original Assignee
ガーダント ヘルス, インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ガーダント ヘルス, インコーポレイテッド filed Critical ガーダント ヘルス, インコーポレイテッド
Publication of JP2024512372A publication Critical patent/JP2024512372A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems

Abstract

本明細書に記載の実施態様において、オフターゲット配列に由来する試料に由来する情報を使用して、腫瘍細胞のコピー数および/または試料の腫瘍割合の推定値を決定することができる。さらに、生殖系列SNPの存在に由来する情報を使用して、腫瘍細胞のコピー数または試料の腫瘍割合の少なくとも1つの推定値を決定することができる。上記決定することは、それぞれが1またはそれを超えるプロセッサおよびメモリを有する1またはそれを超えるコンピューティングデバイスを含むコンピューティングシステムによって行われる。

Description

関連出願の相互参照
本出願は、2021年3月9日に出願された米国仮特許出願第63/158,824号および2021年4月8日に出願された米国仮特許出願第63/173,273号に基づく優先権の利益を主張し、これらの各々は、あらゆる目的のためにその全体が参照により本明細書に組み込まれる。
背景
腫瘍は、細胞の異常な成長である。腫瘍は良性または悪性であり得る。悪性腫瘍はしばしば癌と呼ばれる。癌は、世界中で疾患の主な原因である。毎年、世界中で数千万人が癌と診断され、半数およびそれを超える人が最終的に癌で死亡する。多くの国において、癌は、心血管疾患に続く2番目に一般的な死因にランク付けされている。早期検出は、多くの癌の転帰の改善に関連する。
癌は、腫瘍の生検とそれに続く細胞病理、バイオマーカー、または細胞から抽出されたDNAの分析によって検出されることが多い。従来の生検は、有痛性および侵襲性であり得る。そのような生検はまた、腫瘍から抽出された組織の試料に基づいて対象内の腫瘍細胞の一部のみを調べることができることが多い。したがって、従来の組織生検は、特定の期間に関して腫瘍に関する限られた情報を提供し、常に腫瘍細胞の集団を表すとは限らない。
より最近では、血液または尿等の体液中の無細胞核酸(例えば、循環核酸、循環腫瘍核酸、エキソソーム、アポトーシス細胞および/または壊死細胞由来の核酸)からも癌を検出できることが提案されている(例えば、Siravegna et al.,Nature Reviews,14:531-548(2017)を参照のこと)。DNAは、例えば、正常および/または癌細胞が死亡した場合、無細胞DNAおよび/または循環腫瘍DNAとして、体液中に放出されることが多い。無細胞核酸を測定する試験は、非侵襲性であり、生検を行うために疑わしい癌細胞を同定することなく実施することができ、癌の全ての部分から核酸をサンプリングすることができるという利点を有する。腫瘍の存在を検出するためにそのような試験で得られたデータを分析することは、体液中に放出される核酸の量が少なく、分析可能な形態のそのような流体からの核酸の回収と同様に可変であるという事実によって複雑になり得る。
Siravegna et al.,Nature Reviews,14:531-548(2017)
図面の簡単な説明
本明細書に組み込まれ、本明細書の一部を構成する添付の図面は、特定の実施態様を示し、記載された説明と共に、本明細書に開示された方法、コンピュータ可読媒体、およびシステムの特定の原理を説明するのに役立つ。本明細書で提供される説明は、限定ではなく例として含まれる添付の図面と併せて読めば、よりよく理解される。文脈上別段の指示がない限り、図面全体を通して同様の参照番号は同様のコンポーネントを同定することが理解されよう。図面の一部または全ては、例示の目的のための概略図である場合があり、必ずしも示されている要素の実際の相対的なサイズまたは位置を示すものではないことも理解されよう。
図1は、1またはそれを超える実施態様による、オフターゲットポリヌクレオチドに基づいて対象に関連する腫瘍メトリクスを決定する例示的なアーキテクチャの概略図である。
図2は、1またはそれを超える実施態様による、オンターゲットポリヌクレオチド、オフターゲットポリヌクレオチド、および一塩基多型データに基づいて対象に関連する腫瘍メトリクスを決定するための例示的なプロセスのフローチャートである。
図3は、1またはそれを超える実施態様による、オフターゲットポリヌクレオチドに由来するカバレッジメトリクスに基づいて対象に関連する腫瘍メトリクスを決定するための例示的なプロセスの概略図である。
図4は、1またはそれを超える実施態様による、オフターゲットポリヌクレオチドに由来するサイズ分布メトリクスに基づいて対象に関連する腫瘍メトリクスを決定するための例示的なプロセスの概略図である。
図5は、ビニング動作、1またはそれを超える追加のセグメント化動作、および尤度関数を使用して腫瘍メトリクスを決定する例示的なプロセスの概略図である。
図6は、1またはそれを超える実施態様による、対象に存在する腫瘍の指標を決定するために使用され得る増強された量のオフターゲットポリヌクレオチドを作成するための例示的プロセスのフローチャートである。
図7は、1またはそれを超える実施態様による、参照ヒトゲノムに対する少なくとも1つのセグメント化プロセスを含むオフターゲットポリヌクレオチドに由来する情報に基づいて、対象に関する腫瘍メトリクスを決定する例示的方法のフローチャートである。
図8は、1またはそれを超える実施態様による、参照ヒトゲノムに対する複数のセグメント化プロセスを含むオフターゲットポリヌクレオチドに由来するカバレッジ情報に基づいて、対象に関する腫瘍メトリクスを決定する例示的方法のフローチャートである。
図9は、1またはそれを超える実施態様による、オフターゲットポリヌクレオチドに由来するサイズ分布情報に基づいて対象に関して腫瘍メトリクスを決定するための例示的な方法のフローチャートである。
図10は、シーケンシングデータを作成し、シーケンシングデータからオフターゲット配列表示を決定するための例示的な方法のフローチャートであり、オフターゲット配列表示は、1またはそれを超える実施態様による、オフターゲット配列表示に由来する情報に基づいて対象に関する腫瘍メトリクスを決定するために使用され得る。
図11は、1またはそれを超える例示的な実施態様による、本明細書に記載の任意の1またはそれを超える方法論を実施するために、1またはそれを超えるマシン可読媒体から命令を読み取って実行し得る、コンピュータシステムの形態のマシンのコンポーネントを示すブロック図である。
図12は、1またはそれを超える例示的な実施態様による、本明細書に記載の1またはそれを超えるハードウェアアーキテクチャと共に使用することができる代表的なソフトウェアアーキテクチャを示すブロック図である。
図13Aは、40 Mbサイズ領域に対するオンターゲットデータとオフターゲットデータの組み合わせの使用に関してのみ、オンターゲットデータを使用して増幅が起こる場合にコピー数が「3」または欠失が起こった場合に「1」である状況でのヘテロ接合性の喪失についての検出限界(LoD)の差を示す。オンターゲットデータのみの使用に関してオンターゲットデータとオフターゲットデータの両方が使用される場合、これらの状況で感度を少なくとも約20%改善することができる。
図13Bは、40Mbサイズ領域に対するオンターゲットデータとオフターゲットデータの組み合わせの使用に関連してのみオンターゲットデータを使用して、増幅が起こるときにコピー数が「4」であるか、ホモ接合性欠失について「0」コピーである状況でのヘテロ接合性の喪失についてのLoDの差を示す。
図14は、種々のタイプの癌についての腫瘍割合に関する最大突然変異体対立遺伝子割合(MAF)のプロットを示す。
図15は、本明細書に記載の技術を使用したヒト白血球抗原(HLA)に関連する6番染色体のゲノム領域における観察された欠失を示す。
図16は、HLA領域におけるヘテロ接合性の喪失(LoH)を有すると予測される患者について観察された6番染色体のカバレッジの例を示す。
図17は、様々な癌型におけるHLA LoHの有病率を示す。
図18は、MAFの逆数を決定し、次いでLog base 2変換を適用することによって改変されるいくつかの異なるゲノム位置でのヘテロ接合一塩基多型(SNP)の突然変異体対立遺伝子割合の例を示す。
図19は、図18に示す変換されたSNP MAFデータを使用した、コピー数に基づくセグメント化プロセスの改良例を示す。
図20は、様々な遺伝子の実際のコピー数、ならびにカバレッジデータのみに基づくCBSプロセスの実施態様に従ってセグメント化を使用して推定された遺伝子のコピー数と、図18および図19に示される改良プロセスを使用して推定された遺伝子のコピー数との間の差を示す表を含む。
開示の要旨
いくつかの態様において、方法は、それぞれが1またはそれを超えるプロセッサおよびメモリを有する1またはそれを超えるコンピューティングデバイスを含むコンピューティングシステムによって、試料に含まれるポリヌクレオチド分子に関する配列表示を示す配列データを取得することと、コンピューティングシステムによって、参照ヒトゲノムの一部分に関して少なくとも閾値量の相同性を有する1またはそれを超える配列表示を決定するアラインメントプロセスを実施することによって、のアラインメントされた配列表示のセットを生成することと、コンピューティングシステムにより、参照ヒトゲノムの標的領域に対応しないアラインメントされた配列表示の数の第1の部分を同定することによってオフターゲット配列表示のセットを決定することと、コンピューティングシステムにより、参照ヒトゲノムの標的領域に対応するアラインメントされた配列表示の数の第2の部分を同定することによって、オンターゲット配列表示のセットを決定することと、コンピューティングシステムにより、参照ヒトゲノムの第1のセグメントを決定することであって、第1のセグメントが標的領域を含まない、参照ヒトゲノムの第1のセグメントを決定することと、コンピューティングシステムによって、個々の第1のセグメントに対応するオフターゲット配列表示のセットのそれぞれのサブセットに基づいて個々の第1のセグメントに対する第1の定量的尺度を決定することと、コンピューティングシステムによって、個々の第1のセグメントの追加の定量的尺度に関して個々の第1のセグメントの第1の正規化された定量的尺度を決定することと、コンピューティングシステムによって、個々の第1のセグメントの参照定量的尺度に対して個々の第1の正規化された定量的尺度を調整することによって、個々の第1のセグメントの第2の正規化された定量的尺度を決定することと、コンピューティングシステムによって、参照ヒトゲノムの第2のセグメントを決定することであって、個々の第2のセグメントが、個々の第1のセグメントよりも多数のヌクレオチドを含み、複数の個々の第1のセグメントを含むことと、コンピューティングシステムによって、個々の第2のセグメントに含まれるそれぞれの複数の個々の第1のセグメントの第1の正規化された定量的尺度および第2の正規化された定量的尺度に基づいて、個々の第2のセグメントに対する第2の定量的尺度を決定することと、コンピューティングシステムによって、個々の第2のセグメントに対応する個々の第2の定量的尺度に基づいて、個々の第2のセグメントに関する腫瘍細胞のコピー数の推定値を決定することとを含む。
いくつかの態様において、第1の定量的尺度は、個々の第1のセグメントに対応する試料に含まれるポリヌクレオチド分子のそれぞれの数に基づいて決定される。
いくつかの態様において、第1の定量的尺度は、個々の第1のセグメントに対応する試料に由来する配列決定リードのそれぞれの数に基づいて決定される。
いくつかの態様において、方法は、コンピューティングシステムにより、個々の第1のセグメントに対応する配列表示が、標的領域と少なくとも閾値量の相同性を有すると決定することと、コンピューティングシステムによって、個々の第1のセグメントの第1の定量的尺度が、個々の第2のカバレッジメトリクスを決定することから除外されると決定することと、を含む。
いくつかの態様において、方法は、第2のセグメントを決定する前に、コンピューティングシステムによって、個々の第1のセグメントに対応するオフターゲット配列表示のセットの一部分に含まれるグアニンヌクレオチドおよびシトシンヌクレオチドの数を示すグアニンシトシン(GC)含有量を決定することと、コンピューティングシステムによって、個々の第1のセグメント内のGCコンテンツの複数のパーティションからGC含有量のパーティションに対応する配列表示の頻度を決定することであって、GC含有量の複数のパーティションのGC含有量の各パーティションは、GC含有量の値の異なる範囲に対応することと、コンピューティングシステムによって、個々の第1のセグメント内のGC含有量の複数のパーティションに対応する配列表示の頻度に基づいて、個々の第1のセグメントに対する予想される定量的尺度を決定することと、コンピューティングシステムによって、個々の第1のセグメントの予想される定量的尺度に基づいて、個々の第1のセグメントのGC正規化された定量的尺度を決定することと、を含む。
いくつかの態様において、方法は、コンピューティングシステムによって、個々の第1のセグメントにおける各配列表示についてのマッピング可能性スコアを決定することであって、マッピング可能性スコアが、ヒト参照ゲノムの複数の部分間の相同性の量を示し、ヒト参照ゲノムの複数の部分のうちのヒト参照ゲノムの各部分が、ヒト参照ゲノムの複数の部分のうちのヒト参照ゲノムの追加の部分と少なくとも閾値量の相同性を有することと、コンピューティングシステムにより、個々の第1のセグメントにおけるマッピング可能性スコアの複数のパーティションからのマッピング可能性スコアのパーティションに対応する配列表示の頻度を決定することであって、マッピング可能性スコアの複数のパーティションのマッピング可能性スコアの各パーティションが、マッピング可能性スコアの値の異なる範囲に対応することと、コンピューティングシステムによって、個々の第1のセグメント内のマッピング可能性スコアの複数のパーティションに対応する配列表示の頻度に基づいて、個々の第1のセグメントに対する予想される定量的尺度を決定することと、コンピューティングシステムによって、個々の第1のセグメントの予想される定量的尺度に基づいて、個々の第1のセグメントのマッピング可能性スコア-正規化定量的尺度を決定することと、を含む。
いくつかの態様において、方法は、コンピューティングシステムによって、訓練試料から得られた追加のポリヌクレオチド分子の追加の配列表示を示す訓練配列データを取得することであって、訓練試料が、コピー数の変化が検出されない個体から得られる、訓練試料から得られた追加のポリヌクレオチド分子の追加の配列表示を示すことと、コンピューティングシステムによって、参照ヒトゲノムの一部分に関して少なくとも閾値量の相同性を有する1またはそれを超える追加の配列表示を決定する追加のアラインメントプロセスを実施することによって、多数のアラインメントされた参照配列表示を作成することと、コンピューティングシステムにより、参照ヒトゲノムの標的領域に対応しない追加のアラインメントされた配列表示の数の部分を同定することによってオフターゲット配列表示の追加のセットを決定することと、コンピューティングシステムによって、個々の第1のセグメントに含まれるオフターゲット配列表示の追加のセットの数に基づいて個々の第1のセグメントに対する個々の参照定量的尺度を決定することと、を含む。
いくつかの態様において、方法は、コンピューティングシステムによって、個々の標的領域に対応するオンターゲット配列表示のセットに含まれるオンターゲット配列表示のそれぞれの数を決定することと、コンピューティングシステムによって、個々の標的領域に対応するオンターゲット配列表示のそれぞれの数に基づいて、個々の標的領域に対する個々の更なる定量的尺度を決定することと、を含み、試料に関連する腫瘍細胞のコピー数の推定値は、個々の更なる定量的尺度に基づく。
いくつかの態様において、参照ヒトゲノムの第2のセグメントは、個々の標的領域に対応する個々の追加の定量的尺度に基づいて決定される。
いくつかの態様において、第1の定量的尺度は、個々の第1のセグメントの第1のサイズ分布メトリック(メトリクス)を含み、第1の正規化された定量的尺度または第2の正規化された定量的尺度のうちの少なくとも1つは、正規化されたサイズ分布メトリクスに対応し、参照定量的尺度は、参照サイズ分布メトリクスであり、第2の定量的尺度は、個々の第2のセグメントの第2のサイズ分布メトリクスを含む。
いくつかの態様において、方法は、コンピューティングシステムによって、個々の第1のセグメントの配列表示のための個々のサイズ分布メトリクスを生成するために、個々の第1のセグメントに対応する個々の配列表示に含まれるヌクレオチドの数を決定することと、サイズ分布が、配列表示のサイズのそれぞれの範囲にそれぞれ対応する複数のパーティションを含み、個々の第1のセグメントについての個々のサイズ分布メトリクスが、複数のパーティションの各パーティションに対応する、第1のセグメントに含まれるオフターゲット配列表示のセットの数を示す、個々の第1のセグメントの個々の第1のサイズ分布メトリクスを決定することと、コンピューティングシステムによって、参照サイズ分布メトリクスに関する個々の第1のサイズ分布メトリクスに従って個々の第1のセグメントの正規化されたサイズ分布メトリクスを決定することと、コンピューティングシステムによって、個々の第2のセグメントに含まれるそれぞれの複数の個々の第1のセグメントの正規化されたサイズ分布メトリクスに基づいて個々の第2のセグメントについての第2のサイズ分布メトリクスを決定することと、コンピューティングシステムによって、個々の第2のセグメントに対応する個々の第2のサイズ分布メトリクスに基づいて、個々の第2のセグメントに関する腫瘍細胞のコピー数の追加の推定値を決定することとを含む。
いくつかの態様において、第1の定量的尺度は、個々の第1のセグメントの第1のカバレッジメトリクスを含み、第1の正規化された定量的尺度は、第1の正規化されたカバレッジメトリクスに対応し、第2の正規化された定量的尺度は、第2の正規化されたカバレッジメトリクスに対応し、参照定量的尺度は、参照カバレッジメトリクスであり、第2の定量的尺度は、個々の第2のセグメントの第2のカバレッジメトリクスを含む。
いくつかの態様において、方法は、コンピューティングシステムによって、個々の第1のセグメントの個々の第1のカバレッジメトリクスを生成するために、個々の第1のセグメントに対応する配列表示の数を決定することと、コンピューティングシステムによって、個々の第1のカバレッジメトリクスに従って個々の第1のセグメントの第1の正規化されたカバレッジメトリクスを決定することと、コンピューティングシステムによって、参照カバレッジメトリクスに関する、個々の第1のカバレッジメトリクスに従って個々の第1のセグメントの第2の正規化されたカバレッジメトリクスを決定することと、コンピューティングシステムによって、第1の正規化されたカバレッジメトリクスおよび第2の正規化されたカバレッジメトリクスに基づいて個々の第2のセグメントの第2のカバレッジメトリクスを決定することと、を含み、個々の第2のセグメントに関する腫瘍細胞のコピー数の推定値は、個々の第2のセグメントに対応する個々の第2のカバレッジメトリクスに基づく。
いくつかの態様において、個々の第2のセグメントに関する腫瘍細胞のコピー数の推定値は、個々の第2のセグメントに対応する個々の第2のカバレッジメトリクスに基づく。
いくつかの態様において、定量的尺度は、個々の第1のセグメントの第1のサイズ分布メトリクスおよび第1のカバレッジメトリクスを含み、第1の正規化された定量的尺度および第2の正規化された定量的尺度は、正規化されたサイズ分布メトリクスまたは正規化されたカバレッジメトリクスのうちの少なくとも1つに対応し、参照定量的尺度は、参照サイズ分布メトリクスおよび参照カバレッジメトリクスを含み、第2の定量的尺度は、個々の第2のセグメントの第2のサイズ分布メトリクスおよび第2のカバレッジメトリクスを含む。
いくつかの態様において、方法は、コンピューティングシステムによって、個々の第1のセグメントに対応する個々の配列表示に含まれるヌクレオチドの数を決定することによって、個々の配列表示のサイズを決定することと、コンピューティングシステムによって、個々の配列表示のそれぞれのサイズに基づいて、個々の第1のセグメントの第1のサイズ分布メトリクスを生成することであって、サイズ分布が、配列表示のサイズのそれぞれの範囲にそれぞれ対応する複数のパーティションを含み、個々の第1のセグメントについての個々のサイズ分布メトリクスが、複数のパーティションの各パーティションに対応する、第1のセグメントに含まれるオフターゲット配列表示のセットの数を示す、個々の第1のセグメントの第1のサイズ分布メトリクスを生成することと、コンピューティングシステムによって、参照サイズ分布メトリクスに関する個々の第1のサイズ分布メトリクスに従って個々の第1のセグメントの正規化されたサイズ分布メトリクスを決定することと、コンピューティングシステムによって、個々の第2のセグメントに含まれるそれぞれの複数の個々の第1のセグメントの正規化されたサイズ分布メトリクスに基づいて個々の第2のセグメントについての第2のサイズ分布メトリクスを決定することと、を含む。
いくつかの態様において、方法は、記コンピューティングシステムによって、個々の第1のセグメントの個々の第1のカバレッジメトリクスを生成するために、個々の第1のセグメントに対応する配列表示の数を決定することと、コンピューティングシステムによって、個々の第1のカバレッジメトリクスに従って個々の第1のセグメントの第1の正規化されたカバレッジメトリクスを決定することと、コンピューティングシステムによって、参照カバレッジメトリクスに関する、個々の第1のカバレッジメトリクスに従って個々の第1のセグメントの第2の正規化されたサイズ分布メトリクスを決定することと、コンピューティングシステムによって、第1の正規化されたカバレッジメトリクスおよび第2の正規化されたカバレッジメトリクスに基づいて個々の第2のセグメントの第2のカバレッジメトリクスを決定することと、を含む。
いくつかの態様において、個々の第2のセグメントに関する腫瘍細胞のコピー数の推定値は、コンピューティングシステムにより、第2のサイズ分布メトリクスに基づいて個々の第2のセグメントに対する腫瘍細胞のコピー数の第1の推定値と、第2のカバレッジメトリクスに基づいて個々の第2のセグメントに対する腫瘍細胞のコピー数の第2の推定値とを決定することによって作成される、個々の第2のセグメントに関する腫瘍細胞のコピー数の総推定値である。
いくつかの態様において、方法は、コンピューティングシステムによって、試料に関連する突然変異体対立遺伝子の数に対する試料に関連する野生型対立遺伝子の数の比を決定することと、コンピューティングシステムによって、比に基づいてヘテロ接合一塩基多型(SNP)メトリックを決定することと、を含む。
いくつかの態様において、方法は、コンピューティングシステムによって、SNPメトリックに基づいて試料の腫瘍割合の追加の推定値を決定することと、コンピューティングシステムによって、SNPメトリックに基づいて、試料に関連する腫瘍細胞のコピー数の追加の推定値を決定することとを含む。
いくつかの態様において、方法は、コンピューティングシステムによって、試料に関連する腫瘍細胞のコピー数の推定値を作成する尤度関数に対応するモデルのパラメータを決定することを含み、モデルのパラメータは、個々の第2のセグメントに対する腫瘍細胞のコピー数の個々の推定値の少なくとも一部分に対応し、試料の腫瘍割合の推定値に対応する。
いくつかの態様において、モデルのパラメータは、1またはそれを超えるSNPメトリクスに対応し、1またはそれを超えるSNPメトリクスの個々のSNPメトリクスは、野生型対立遺伝子の数に対する突然変異体対立遺伝子の数のそれぞれの比に関連する。
いくつかの態様において、個々の第1のセグメントの少なくとも一部分は、参照ヒトゲノムの約30,000ヌクレオチド~約150,000ヌクレオチドを含む。
いくつかの態様において、個々の第2のセグメントの少なくとも一部分は、参照ヒトゲノムの少なくとも約100万ヌクレオチド~約1000万ヌクレオチドを含み、第2のセグメントは、1またはそれを超える循環バイナリセグメント化プロセスによって決定される。
いくつかの態様において、試料は対象の組織に由来する。
いくつかの態様において、試料は、対象から得られた流体に由来する。
いくつかの態様において、方法は、コンピューティングシステムによって、個々の第2の定量的メトリクスに基づいて試料の腫瘍割合についての推定値を決定することを含む。
いくつかの態様において、試料の腫瘍割合の推定値および個々の第2のセグメントに対する腫瘍細胞のコピー数の推定値は、観察された定量的尺度=2*(1-TF)+n*TF(式中、nは腫瘍細胞コピー数であり、TFは試料の腫瘍割合である)に基づいて決定され、観察された定量的尺度は、第2の定量的尺度の少なくとも一部分を含む。
いくつかの態様において、方法は、コンピューティングシステムによって、個々の第1のセグメントに対応し、1またはそれを超える一塩基多型(SNP)に対応する配列表示の数を決定することと、コンピューティングシステムによって、個々のSNPに対応する配列表示の数に基づいて、個々のSNPに対する突然変異体対立遺伝子割合を決定することと、を含む。
いくつかの態様において、参照ヒトゲノムの第2のセグメントは、個々の第1のセグメントについての突然突然変異体対立遺伝子割合に基づいて決定される。
いくつかの態様において、1またはそれを超えるSNPは、ヘテロ接合生殖系列SNPに対応する。
いくつかの態様において、1またはそれを超えるSNPは、1またはそれを超える癌のタイプに対するドライバ突然変異に対応する。
いくつかの態様において、方法は、コンピューティングシステムによって、参照ヒトゲノムの第2のセグメントの第1の推定値を決定するために、第2の正規化された定量的尺度に基づいて循環バイナリセグメント化プロセスの第1の実施態様を実施することと、コンピューティングシステムによって、参照ヒトゲノムの第2のセグメントの第2の推定値を決定するために、個々の第1のセグメントの突然変異体対立遺伝子割合に基づいて、循環バイナリセグメント化プロセスの第2の実施態様を実施することと、を含む。
いくつかの態様においてコンピューティングシステムは、1またはそれを超えるハードウェアプロセッサと、1またはそれを超えるハードウェアプロセッサによって実行されると、1またはそれを超えるハードウェアプロセッサに、試料に含まれるポリヌクレオチド分子に関する配列表示を示す配列データを取得することと、参照ヒトゲノムの一部分に関して少なくとも閾値量の相同性を有する1またはそれを超える配列表示を決定するアラインメントプロセスを行うことによって、アラインメントされた配列表示のセットを生成することと、参照ヒトゲノムの標的領域に対応しないアラインメントされた配列表示の数の第1の部分を同定することによってオフターゲット配列表示のセットを決定することと、参照ヒトゲノムの標的領域に対応するアラインメントされた配列表示の数の第2の部分を同定することによって、オンターゲット配列表示のセットを決定することと、参照ヒトゲノムの第1のセグメントを決定することであって、第1のセグメントが標的領域を含まない、参照ヒトゲノムの第1のセグメントを決定することと、個々の第1のセグメントに対応するオフターゲット配列表示のセットのそれぞれのサブセットに基づいて個々の第1のセグメントに対する第1の定量的尺度を決定することと、個々の第1のセグメントの追加の定量的尺度に関して個々の第1のセグメントの第1の正規化された定量的尺度を決定することと、個々の第1のセグメントの参照定量的尺度に対して個々の第1の正規化された定量的尺度を調整することによって、個々の第1のセグメントの第2の正規化された定量的尺度を決定することと、参照ヒトゲノムの第2のセグメントを決定することであって、個々の第2のセグメントが、個々の第1のセグメントよりも多数のヌクレオチドを含み、複数の個々の第1のセグメントを含む、参照ヒトゲノムの第2のセグメントを決定することと、個々の第2のセグメントに含まれるそれぞれの複数の個々の第1のセグメントの第1の正規化された定量的尺度および第2の正規化された定量的尺度に基づいて、個々の第2のセグメントに対する第2の定量的尺度を決定することと、個々の第2のセグメントに対応する個々の第2の定量的尺度に基づいて、個々の第2のセグメントに関する腫瘍細胞のコピー数の推定値を決定することと、を含む動作を実施させる、コンピュータ可読命令を含む、1またはそれを超える非一時的コンピュータ可読記憶媒体を含む。
いくつかの態様において、第1の定量的尺度は、個々の第1のセグメントに対応する試料に含まれるポリヌクレオチド分子のそれぞれの数に基づいて決定される。
いくつかの態様において、第1の定量的尺度は、個々の第1のセグメントに対応する試料に由来する配列決定リードのそれぞれの数に基づいて決定される。
いくつかの態様において、追加の定量的尺度は、第1のセグメントに対する配列表示の中央数に対応する。
いくつかの態様においてコンピューティングシステムの1またはそれを超える非一時的コンピュータ可読記憶媒体は、1またはそれを超えるハードウェアプロセッサによって実行されると、1またはそれを超えるハードウェアプロセッサに、第2のセグメントを決定する前に、個々の第1のセグメントにおける各配列表示についてのマッピング可能性スコアを決定することであって、マッピング可能性スコアが、ヒト参照ゲノムの複数の部分間の相同性の量を示し、ヒト参照ゲノムの複数の部分のうちのヒト参照ゲノムの各部分が、ヒト参照ゲノムの複数の部分のうちのヒト参照ゲノムの追加の部分と少なくとも閾値量の相同性を有することと、個々の第1のセグメントにおけるマッピング可能性スコアの複数のパーティションからのマッピング可能性スコアのパーティションに対応する配列表示の頻度を決定することであって、マッピング可能性スコアの複数のパーティションのマッピング可能性スコアの各パーティションが、マッピング可能性スコアの値の異なる範囲に対応することと、個々の第1のセグメント内のマッピング可能性スコアの複数のパーティションに対応する配列表示の頻度に基づいて、個々の第1のセグメントに対する予想される定量的尺度を決定することと、個々の第1のセグメントの予想される定量的尺度に基づいて、個々の第1のセグメントのマッピング可能性スコア-正規化定量的尺度を決定することと、を含む、追加の動作を実施させる追加のコンピュータ可読命令を含む。
いくつかの態様においてコンピューティングシステムの1またはそれを超える非一時的コンピュータ可読記憶媒体は、1またはそれを超えるハードウェアプロセッサによって実行されると、1またはそれを超えるハードウェアプロセッサに、第2のセグメントを決定する前に、個々の第1のセグメントに対応するオフターゲット配列表示のセットの一部分に含まれるグアニンヌクレオチドおよびシトシンヌクレオチドの数を示すグアニンシトシン(GC)含有量を決定することと、個々の第1のセグメント内のGCコンテンツの複数のパーティションからGC含有量のパーティションに対応する配列表示の頻度を決定することであって、GC含有量の複数のパーティションのGC含有量の各パーティションは、GC含有量の値の異なる範囲に対応することと、個々の第1のセグメント内のGC含有量の複数のパーティションに対応する配列表示の頻度に基づいて、個々の第1のセグメントに対する予想される定量的尺度を決定することと、個々の第1のセグメントの予想される定量的尺度に基づいて、個々の第1のセグメントのGC正規化された定量的尺度を決定することと、を含む、追加の動作を実施させる追加のコンピュータ可読命令を含む。
いくつかの態様においてコンピューティングシステムの1またはそれを超える非一時的コンピュータ可読記憶媒体は、1またはそれを超えるハードウェアプロセッサによって実行されると、1またはそれを超えるハードウェアプロセッサに、個々の第1のセグメントに対応する配列表示が、標的領域と少なくとも閾値量の相同性を有すると決定することと、個々の第1のセグメントの第1の定量的尺度が、個々の第2のカバレッジメトリクスを決定することから除外されると決定することと、を含む追加の動作を実施させる追加のコンピュータ可読命令を含む。
いくつかの態様において、コンピューティングシステムの1またはそれを超える非一時的コンピュータ可読記憶媒体は、1またはそれを超えるハードウェアプロセッサによって実行されると、1またはそれを超えるハードウェアプロセッサに、訓練試料から得られた追加のポリヌクレオチド分子の追加の配列表示を示す訓練配列データを取得することであって、訓練試料が、コピー数の変化が検出されない個体から得られる、訓練試料から得られた追加のポリヌクレオチド分子の追加の配列表示を示すことと、参照ヒトゲノムの一部分に関して少なくとも閾値量の相同性を有する1またはそれを超える追加の配列表示を決定する追加のアラインメントプロセスを行うことによって、多数のアラインメントされた参照配列表示を作成することと、参照ヒトゲノムの標的領域に対応しない追加のアラインメントされた配列表示の数の部分を同定することによってオフターゲット配列表示の追加のセットを決定することと、個々の第1のセグメントに含まれるオフターゲット配列表示の追加のセットの数に基づいて個々の第1のセグメントに対する個々の参照定量的尺度を決定することと、を含む追加の動作を実施させる追加のコンピュータ可読命令を含む。
いくつかの態様において、コンピューティングシステムの1またはそれを超える非一時的コンピュータ可読記憶媒体は、1またはそれを超えるハードウェアプロセッサによって実行されると、1またはそれを超えるハードウェアプロセッサに、個々の標的領域に対応するオンターゲット配列表示のセットに含まれるオンターゲット配列表示のそれぞれの数を決定することと、個々の標的領域に対応するオンターゲット配列表示のそれぞれの数に基づいて、個々の標的領域に対する個々の更なる定量的尺度を決定することと、を含む追加の動作を実施させる追加のコンピュータ可読命令を含み、試料に関連する腫瘍細胞のコピー数の推定値は、個々の更なる定量的尺度に基づく。
いくつかの態様において、参照ヒトゲノムの第2のセグメントは、個々の標的領域に対応する個々の追加の定量的尺度に基づいて決定される。
いくつかの態様において、第1の定量的尺度は、個々の第1のセグメントの第1のサイズ分布メトリクスを含み、第1の正規化された定量的尺度または第2の正規化された定量的尺度のうちの少なくとも1つは、正規化されたサイズ分布メトリクスに対応し、参照定量的尺度は、参照サイズ分布メトリクスであり、第2の定量的尺度は、個々の第2のセグメントの第2のサイズ分布メトリクスを含む。
いくつかの態様においてコンピューティングシステムの1またはそれを超える非一時的コンピュータ可読記憶媒体は、1またはそれを超えるハードウェアプロセッサによって実行されると、1またはそれを超えるハードウェアプロセッサに、個々の第1のセグメントの配列表示のための個々のサイズ分布メトリクスを生成するために、個々の第1のセグメントに対応する個々の配列表示に含まれるヌクレオチドの数を決定することと、サイズ分布が、配列表示のサイズのそれぞれの範囲にそれぞれ対応する複数のパーティションを含み、個々の第1のセグメントについての個々のサイズ分布メトリクスが、複数のパーティションの各パーティションに対応する、第1のセグメントに含まれるオフターゲット配列表示のセットの数を示す、個々の第1のセグメントの個々の第1のサイズ分布メトリクスを決定することと、参照サイズ分布メトリクスに関する個々の第1のサイズ分布メトリクスに従って個々の第1のセグメントの正規化されたサイズ分布メトリクスを決定することと、個々の第2のセグメントに含まれるそれぞれの複数の個々の第1のセグメントの正規化されたサイズ分布メトリクスに基づいて個々の第2のセグメントについての第2のサイズ分布メトリクスを決定することと、コンピューティングシステムによって、個々の第2のセグメントに対応する個々の第2のサイズ分布メトリクスに基づいて、個々の第2のセグメントに関する腫瘍細胞のコピー数の追加の推定値を決定することと、を含む追加の動作を実施させる追加のコンピュータ可読命令を含む。
いくつかの態様において、第1の定量的尺度は、個々の第1のセグメントの第1のカバレッジメトリクスを含み、第1の正規化された定量的尺度は、第1の正規化されたカバレッジメトリクスに対応し、第2の正規化された定量的尺度は、第2の正規化されたカバレッジメトリクスに対応し、参照定量的尺度は、参照カバレッジメトリクスであり、第2の定量的尺度は、個々の第2のセグメントの第2のカバレッジメトリクスを含む。
いくつかの態様においてコンピューティングシステムの1またはそれを超える非一時的コンピュータ可読記憶媒体は、1またはそれを超えるハードウェアプロセッサによって実行されると、1またはそれを超えるハードウェアプロセッサに、個々の第1のセグメントの個々の第1のカバレッジメトリクスを生成するために、個々の第1のセグメントに対応する配列表示の数を決定することと、個々の第1のカバレッジメトリクスに従って個々の第1のセグメントの第1の正規化されたカバレッジメトリクスを決定することと、参照カバレッジメトリクスに関する、個々の第1のカバレッジメトリクスに従って個々の第1のセグメントの第2の正規化されたカバレッジメトリクスを決定することと、第1の正規化されたカバレッジメトリクスおよび第2の正規化されたカバレッジメトリクスに基づいて個々の第2のセグメントの第2のカバレッジメトリクスを決定することと、を含む追加の動作を実施させる追加のコンピュータ可読命令を含み、個々の第2のセグメントに関する腫瘍細胞のコピー数の推定値は、個々の第2のセグメントに対応する個々の第2のカバレッジメトリクスに基づく。
いくつかの態様において、定量的尺度は、個々の第1のセグメントの第1のサイズ分布メトリクスおよび第1のカバレッジメトリクスを含み、第1の正規化された定量的尺度および第2の正規化された定量的尺度は、正規化されたサイズ分布メトリクスまたは正規化されたカバレッジメトリクスのうちの少なくとも1つに対応し、参照定量的尺度は、参照サイズ分布メトリクスおよび参照カバレッジメトリクスを含み、第2の定量的尺度は、個々の第2のセグメントの第2のサイズ分布メトリクスおよび第2のカバレッジメトリクスを含む。
いくつかの態様においてコンピューティングシステムの1またはそれを超える非一時的コンピュータ可読記憶媒体は、1またはそれを超えるハードウェアプロセッサによって実行されると、1またはそれを超えるハードウェアプロセッサに、個々の第1のセグメントに対応する個々の配列表示に含まれるヌクレオチドの数を決定することによって個々の配列表示のサイズを決定することと、個々の配列表示のそれぞれのサイズに基づいて、個々の第1のセグメントの第1のサイズ分布メトリクスを生成することであって、サイズ分布が、配列表示のサイズのそれぞれの範囲にそれぞれ対応する複数のパーティションを含み、個々の第1のセグメントについての個々のサイズ分布メトリクスが、複数のパーティションの各パーティションに対応する、第1のセグメントに含まれるオフターゲット配列表示のセットの数を示す、個々の第1のセグメントの第1のサイズ分布メトリクスを生成することと、参照サイズ分布メトリクスに関する個々の第1のサイズ分布メトリクスに従って個々の第1のセグメントの正規化されたサイズ分布メトリクスを決定することと、個々の第2のセグメントに含まれるそれぞれの複数の個々の第1のセグメントの正規化されたサイズ分布メトリクスに基づいて個々の第2のセグメントについての第2のサイズ分布メトリクスを決定することと、を含む追加の動作を実施させる追加のコンピュータ可読命令を含む。
いくつかの態様においてコンピューティングシステムの1またはそれを超える非一時的コンピュータ可読記憶媒体は、1またはそれを超えるハードウェアプロセッサによって実行されると、1またはそれを超えるハードウェアプロセッサに、個々の第1のセグメントの個々の第1のカバレッジメトリクスを生成するために、個々の第1のセグメントに対応する配列表示の数を決定することと、個々の第1のカバレッジメトリクスに従って個々の第1のセグメントの第1の正規化されたカバレッジメトリクスを決定することと、参照カバレッジメトリクスに関する、個々の第1のカバレッジメトリクスに従って個々の第1のセグメントの第2の正規化されたサイズ分布メトリクスを決定することと、第1の正規化されたカバレッジメトリクスおよび第2の正規化されたカバレッジメトリクスに基づいて個々の第2のセグメントの第2のカバレッジメトリクスを決定することと、を含む追加の動作を実施させる追加のコンピュータ可読命令を含む。
いくつかの態様において、個々の第2のセグメントに関する腫瘍細胞のコピー数の推定値は、コンピューティングシステムにより、第2のサイズ分布メトリクスに基づいて個々の第2のセグメントに対する腫瘍細胞のコピー数の第1の推定値と、第2のカバレッジメトリクスに基づいて個々の第2のセグメントに対する腫瘍細胞のコピー数の第2の推定値とを決定することによって作成される、個々の第2のセグメントに関する腫瘍細胞のコピー数の総推定値である。
いくつかの態様において、コンピューティングシステムの1またはそれを超える非一時的コンピュータ可読記憶媒体は、1またはそれを超えるハードウェアプロセッサによって実行されると、1またはそれを超えるハードウェアプロセッサに、試料に関連する突然変異体対立遺伝子の数に対する試料に関連する野生型対立遺伝子の数の比を決定することと、比に基づいてヘテロ接合一塩基多型(SNP)メトリクスを決定することと、を含む追加の動作を実施させる追加のコンピュータ可読命令を含む。
いくつかの態様においてコンピューティングシステムの1またはそれを超える非一時的コンピュータ可読記憶媒体は、1またはそれを超えるハードウェアプロセッサによって実行されると、1またはそれを超えるハードウェアプロセッサに、SNPメトリックに基づいて試料の腫瘍割合の追加の推定値を決定することと、SNPメトリックに基づいて、試料に関連する腫瘍細胞のコピー数の追加の推定値を決定することと、を含む追加の動作を実施させる追加のコンピュータ可読命令を含む。
いくつかの態様においてコンピューティングシステムの1またはそれを超える非一時的コンピュータ可読記憶媒体は、1またはそれを超えるハードウェアプロセッサによって実行されると、1またはそれを超えるハードウェアプロセッサに、試料に関連する腫瘍細胞のコピー数の推定値を作成する尤度関数に対応するモデルのパラメータを決定することを含む追加の動作を実施させる追加のコンピュータ可読命令を含み、モデルのパラメータは、個々の第2のセグメントに対する腫瘍細胞のコピー数の個々の推定値の少なくとも一部分に対応し、試料の腫瘍割合の推定値に対応する。
いくつかの態様において、モデルのパラメータは、1またはそれを超えるSNPメトリクスに対応し、1またはそれを超えるSNPメトリクスの個々のSNPメトリクスは、野生型対立遺伝子の数に対する突然変異体対立遺伝子の数のそれぞれの比に関連する。
いくつかの態様において、個々の第1のセグメントの少なくとも一部分は、参照ヒトゲノムの約30,000ヌクレオチド~約150,000ヌクレオチドを含む。
いくつかの態様において、個々の第2のセグメントの少なくとも一部分は、参照ヒトゲノムの少なくとも約100万ヌクレオチド~約1000万ヌクレオチドを含み、第2のセグメントは、1またはそれを超える循環バイナリセグメント化プロセスによって決定される。
いくつかの態様において、試料は対象の組織に由来する。
いくつかの態様において、試料は、対象から得られた流体に由来する。
いくつかの態様においてコンピューティングシステムの1またはそれを超える非一時的コンピュータ可読記憶媒体は、1またはそれを超えるハードウェアプロセッサによって実行されると、1またはそれを超えるハードウェアプロセッサに、個々の第2の定量的メトリクスに基づいて試料の腫瘍割合の推定値を決定することを含む追加の動作を実施させる追加のコンピュータ可読命令を含む。
いくつかの態様において、試料の腫瘍割合の推定値および個々の第2のセグメントに対する腫瘍細胞のコピー数の推定値は、観察された定量的尺度=2*(1-TF)+n*TF(式中、nは腫瘍細胞コピー数であり、TFは試料の腫瘍割合である)に基づいて決定され、観察された定量的尺度は、第2の定量的尺度の少なくとも一部分を含む。
いくつかの態様において、コンピューティングシステムの1またはそれを超える非一時的コンピュータ可読記憶媒体は、1またはそれを超えるハードウェアプロセッサによって実行されると、1またはそれを超えるハードウェアプロセッサに、コンピューティングシステムによって、個々の第1のセグメントに対応し、1またはそれを超える一塩基多型(SNP)に対応する配列表示の数を決定することと、コンピューティングシステムによって、個々のSNPに対応する配列表示の数に基づいて、個々のSNPに対する突然変異体対立遺伝子割合を決定することと、を含む、追加の動作を実施させる追加のコンピュータ可読命令を含む。
いくつかの態様において、参照ヒトゲノムの第2のセグメントは、個々の第1のセグメントについての突然突然変異体対立遺伝子割合に基づいて決定される。
いくつかの態様において、1またはそれを超えるSNPは、ヘテロ接合生殖系列SNPに対応する。
いくつかの態様において、1またはそれを超えるSNPは、1またはそれを超える癌のタイプに対するドライバ突然変異に対応する。
いくつかの態様においてコンピューティングシステムの1またはそれを超える非一時的コンピュータ可読記憶媒体は、1またはそれを超えるハードウェアプロセッサによって実行されると、1またはそれを超えるハードウェアプロセッサに、コンピューティングシステムによって、参照ヒトゲノムの第2のセグメントの第1の推定値を決定するために、第2の正規化された定量的尺度に基づいて循環バイナリセグメント化プロセスの第1の実施態様を実施することと、コンピューティングシステムによって、参照ヒトゲノムの第2のセグメントの第2の推定値を決定するために、個々の第1のセグメントの突然変異体対立遺伝子割合に基づいて、循環バイナリセグメント化プロセスの第2の実施態様を実施することと、を含む追加の動作を実施させる追加のコンピュータ可読命令を含む。
いくつかの態様において、1またはそれを超えるコンピュータ可読記憶媒体は、コンピューティングシステムの1またはそれを超えるプロセッサによって実行されると、コンピューティングシステムに、試料に含まれるポリヌクレオチド分子に関する配列表示を示す配列データを取得することと、参照ヒトゲノムの一部分に関して少なくとも閾値量の相同性を有する1またはそれを超える配列表示を決定するアラインメントプロセスを行うことによって、アラインメントされた配列表示のセットを生成することと、参照ヒトゲノムの標的領域に対応しないアラインメントされた配列表示の数の第1の部分を同定することによってオフターゲット配列表示のセットを決定することと、参照ヒトゲノムの標的領域に対応するアラインメントされた配列表示の数の第2の部分を同定することによって、オンターゲット配列表示のセットを決定することと、参照ヒトゲノムの第1のセグメントを決定することであって、第1のセグメントが標的領域を含まない、参照ヒトゲノムの第1のセグメントを決定することと、個々の第1のセグメントに対応するオフターゲット配列表示のセットのそれぞれのサブセットに基づいて個々の第1のセグメントに対する第1の定量的尺度を決定することと、個々の第1のセグメントの追加の定量的尺度に関して個々の第1のセグメントの第1の正規化された定量的尺度を決定することと、個々の第1のセグメントの参照定量的尺度に対して個々の第1の正規化された定量的尺度を調整することによって、個々の第1のセグメントの第2の正規化された定量的尺度を決定することと、参照ヒトゲノムの第2のセグメントを決定することであって、個々の第2のセグメントが、個々の第1のセグメントよりも多数のヌクレオチドを含み、複数の個々の第1のセグメントを含む、参照ヒトゲノムの第2のセグメントを決定することと、個々の第2のセグメントに含まれるそれぞれの複数の個々の第1のセグメントの第1の正規化された定量的尺度および第2の正規化された定量的尺度に基づいて、個々の第2のセグメントに対する第2の定量的尺度を決定することと、個々の第2のセグメントに対応する個々の第2の定量的尺度に基づいて、個々の第2のセグメントに関する腫瘍細胞のコピー数の推定値を決定することと、を含む動作を実施させるコンピュータ可読命令を含む。
いくつかの態様において、第1の定量的尺度は、個々の第1のセグメントに対応する試料に含まれるポリヌクレオチド分子のそれぞれの数に基づいて決定される。
いくつかの態様において、第1の定量的尺度は、個々の第1のセグメントに対応する試料に由来する配列決定リードのそれぞれの数に基づいて決定される。
いくつかの態様において、追加の定量的尺度は、第1のセグメントに対する配列表示の中央数に対応する。
いくつかの態様において、コンピュータ可読記憶媒体は、コンピューティングシステムの1またはそれを超えるプロセッサによって実行されると、コンピューティングシステムに、第2のセグメントを決定する前に、個々の第1のセグメントに対応するオフターゲット配列表示のセットの一部分に含まれるグアニンヌクレオチドおよびシトシンヌクレオチドの数を示すグアニンシトシン(GC)含有量を決定することと、個々の第1のセグメント内のGCコンテンツの複数のパーティションからGC含有量のパーティションに対応する配列表示の頻度を決定することであって、GC含有量の複数のパーティションのGC含有量の各パーティションは、GC含有量の値の異なる範囲に対応することと、個々の第1のセグメント内のGC含有量の複数のパーティションに対応する配列表示の頻度に基づいて、個々の第1のセグメントに対する予想される定量的尺度を決定することと、個々の第1のセグメントの予想される定量的尺度に基づいて、個々の第1のセグメントのGC正規化された定量的尺度を決定することと、を含む動作を実施させるコンピュータ可読命令を含む。
いくつかの態様において、1またはそれを超えるコンピュータ可読記憶媒体は、コンピューティングシステムの1またはそれを超えるプロセッサによって実行されると、コンピューティングシステムに、第2のセグメントを決定する前に、個々の第1のセグメントにおける各配列表示についてのマッピング可能性スコアを決定することであって、マッピング可能性スコアが、ヒト参照ゲノムの複数の部分間の相同性の量を示し、ヒト参照ゲノムの複数の部分のうちのヒト参照ゲノムの各部分が、ヒト参照ゲノムの複数の部分のうちのヒト参照ゲノムの追加の部分と少なくとも閾値量の相同性を有することと、個々の第1のセグメントにおけるマッピング可能性スコアの複数のパーティションからのマッピング可能性スコアのパーティションに対応する配列表示の頻度を決定することであって、マッピング可能性スコアの複数のパーティションのマッピング可能性スコアの各パーティションが、マッピング可能性スコアの値の異なる範囲に対応することと、個々の第1のセグメント内のマッピング可能性スコアの複数のパーティションに対応する配列表示の頻度に基づいて、個々の第1のセグメントに対する予想される定量的尺度を決定することと、個々の第1のセグメントの予想される定量的尺度に基づいて、個々の第1のセグメントのマッピング可能性スコア-正規化定量的尺度を決定することと、を含む動作を実施させるコンピュータ可読命令を含む。
いくつかの態様において、1またはそれを超えるコンピュータ可読記憶媒体は、コンピューティングシステムの1またはそれを超えるプロセッサによって実行されると、コンピューティングシステムに、個々の第1のセグメントに対応する配列表示が、標的領域と少なくとも閾値量の相同性を有すると決定することと、個々の第1のセグメントの第1の定量的尺度が、個々の第2のカバレッジメトリクスを決定することから除外されると決定することと、を含む動作を実施させるコンピュータ可読命令を含む。
いくつかの態様において、1またはそれを超えるコンピュータ可読記憶媒体は、コンピューティングシステムの1またはそれを超えるプロセッサによって実行されると、コンピューティングシステムに、訓練試料から得られた追加のポリヌクレオチド分子の追加の配列表示を示す訓練配列データを取得することであって、訓練試料が、コピー数の変化が検出されない個体から得られる、訓練試料から得られた追加のポリヌクレオチド分子の追加の配列表示を示すことと、参照ヒトゲノムの一部分に関して少なくとも閾値量の相同性を有する1またはそれを超える追加の配列表示を決定する追加のアラインメントプロセスを行うことによって、多数のアラインメントされた参照配列表示を作成することと、参照ヒトゲノムの標的領域に対応しない追加のアラインメントされた配列表示の数の部分を同定することによってオフターゲット配列表示の追加のセットを決定することと、個々の第1のセグメントに含まれるオフターゲット配列表示の追加のセットの数に基づいて個々の第1のセグメントに対する個々の参照定量的尺度を決定することと、を含む動作を実施させるコンピュータ可読命令を含む。
いくつかの態様において、1またはそれを超えるコンピュータ可読記憶媒体は、コンピューティングシステムの1またはそれを超えるプロセッサによって実行されると、コンピューティングシステムに、個々の標的領域に対応するオンターゲット配列表示のセットに含まれるオンターゲット配列表示のそれぞれの数を決定することと、個々の標的領域に対応するオンターゲット配列表示のそれぞれの数に基づいて、個々の標的領域に対する個々の更なる定量的尺度を決定することと、を含む動作を実施させるコンピュータ可読命令を含み、試料に関連する腫瘍細胞のコピー数の推定値は、個々の更なる定量的尺度に基づく。
いくつかの態様において、参照ヒトゲノムの第2のセグメントは、個々の標的領域に対応する個々の追加の定量的尺度に基づいて決定される。
いくつかの態様において、第1の定量的尺度は、個々の第1のセグメントの第1のサイズ分布メトリクスを含み、第1の正規化された定量的尺度または第2の正規化された定量的尺度のうちの少なくとも1つは、正規化されたサイズ分布メトリクスに対応し、参照定量的尺度は、参照サイズ分布メトリクスであり、第2の定量的尺度は、個々の第2のセグメントの第2のサイズ分布メトリクスを含む。
いくつかの態様において、1またはそれを超えるコンピュータ可読記憶媒体は、コンピューティングシステムの1またはそれを超えるプロセッサによって実行されると、コンピューティングシステムに、個々の第1のセグメントの配列表示のための個々のサイズ分布メトリクスを生成するために、個々の第1のセグメントに対応する個々の配列表示に含まれるヌクレオチドの数を決定することと、サイズ分布が、配列表示のサイズのそれぞれの範囲にそれぞれ対応する複数のパーティションを含み、個々の第1のセグメントについての個々のサイズ分布メトリクスが、複数のパーティションの各パーティションに対応する、第1のセグメントに含まれるオフターゲット配列表示のセットの数を示す、個々の第1のセグメントの個々の第1のサイズ分布メトリクスを決定することと、参照サイズ分布メトリクスに関する個々の第1のサイズ分布メトリクスに従って個々の第1のセグメントの正規化されたサイズ分布メトリクスを決定することと、個々の第2のセグメントに含まれるそれぞれの複数の個々の第1のセグメントの正規化されたサイズ分布メトリクスに基づいて個々の第2のセグメントについての第2のサイズ分布メトリクスを決定することと、個々の第2のセグメントに対応する個々の第2のサイズ分布メトリクスに基づいて、個々の第2のセグメントに関する腫瘍細胞のコピー数の追加の推定値を決定することと、を含む動作を実施させるコンピュータ可読命令を含む。
いくつかの態様において、第1の定量的尺度は、個々の第1のセグメントの第1のカバレッジメトリクスを含み、第1の正規化された定量的尺度は、第1の正規化されたカバレッジメトリクスに対応し、第2の正規化された定量的尺度は、第2の正規化されたカバレッジメトリクスに対応し、参照定量的尺度は、参照カバレッジメトリクスであり、第2の定量的尺度は、個々の第2のセグメントの第2のカバレッジメトリクスを含む。
いくつかの態様において、1またはそれを超えるコンピュータ可読記憶媒体は、コンピューティングシステムの1またはそれを超えるプロセッサによって実行されると、コンピューティングシステムに、個々の第1のセグメントの個々の第1のカバレッジメトリクスを生成するために、個々の第1のセグメントに対応する配列表示の数を決定することと、個々の第1のカバレッジメトリクスに従って個々の第1のセグメントの第1の正規化されたカバレッジメトリクスを決定することと、参照カバレッジメトリクスに関する、個々の第1のカバレッジメトリクスに従って個々の第1のセグメントの第2の正規化されたカバレッジメトリクスを決定することと、第1の正規化されたカバレッジメトリクスおよび第2の正規化されたカバレッジメトリクスに基づいて個々の第2のセグメントの第2のカバレッジメトリクスを決定することと、を含む動作を実施させるコンピュータ可読命令を含み、個々の第2のセグメントに関する腫瘍細胞のコピー数の推定値は、個々の第2のセグメントに対応する個々の第2のカバレッジメトリクスに基づく。
いくつかの態様において、個々の第2のセグメントに関する腫瘍細胞のコピー数の推定値は、個々の第2のセグメントに対応する個々の第2のカバレッジメトリクスに基づく。
いくつかの態様において、定量的尺度は、個々の第1のセグメントの第1のサイズ分布メトリクスおよび第1のカバレッジメトリクスを含み、第1の正規化された定量的尺度および第2の正規化された定量的尺度は、正規化されたサイズ分布メトリクスまたは正規化されたカバレッジメトリクスのうちの少なくとも1つに対応し、参照定量的尺度は、参照サイズ分布メトリクスおよび参照カバレッジメトリクスを含み、第2の定量的尺度は、個々の第2のセグメントの第2のサイズ分布メトリクスおよび第2のカバレッジメトリクスを含む。
いくつかの態様において、コンピュータ可読記憶媒体は、コンピューティングシステムの1またはそれを超えるプロセッサによって実行されると、コンピューティングシステムに、個々の第1のセグメントに対応する個々の配列表示に含まれるヌクレオチドの数を決定するによって個々の配列表示のサイズを決定することと、個々の配列表示のそれぞれのサイズに基づいて、個々の第1のセグメントの第1のサイズ分布メトリクスを生成することであって、サイズ分布が、配列表示のサイズのそれぞれの範囲にそれぞれ対応する複数のパーティションを含み、個々の第1のセグメントについての個々のサイズ分布メトリクスが、複数のパーティションの各パーティションに対応する、第1のセグメントに含まれるオフターゲット配列表示のセットの数を示す、個々の第1のセグメントの第1のサイズ分布メトリクスを生成することと、参照サイズ分布メトリクスに関する個々の第1のサイズ分布メトリクスに従って個々の第1のセグメントの正規化されたサイズ分布メトリクスを決定することと、個々の第2のセグメントに含まれるそれぞれの複数の個々の第1のセグメントの正規化されたサイズ分布メトリクスに基づいて個々の第2のセグメントについての第2のサイズ分布メトリクスを決定することと、を含む動作を実施させるコンピュータ可読命令を含む。
いくつかの態様において、コンピュータ可読記憶媒体は、コンピューティングシステムの1またはそれを超えるプロセッサによって実行されると、コンピューティングシステムに、個々の第1のセグメントの個々の第1のカバレッジメトリクスを生成するために、個々の第1のセグメントに対応する配列表示の数を決定することと、個々の第1のカバレッジメトリクスに従って個々の第1のセグメントの第1の正規化されたカバレッジメトリクスを決定することと、参照カバレッジメトリクスに関する、個々の第1のカバレッジメトリクスに従って個々の第1のセグメントの第2の正規化されたサイズ分布メトリクスを決定することと、第1の正規化されたカバレッジメトリクスおよび第2の正規化されたカバレッジメトリクスに基づいて個々の第2のセグメントの第2のカバレッジメトリクスを決定することと、を含む動作を実施させるコンピュータ可読命令を含む。
いくつかの態様において、個々の第2のセグメントに関する腫瘍細胞のコピー数の推定値は、コンピューティングシステムにより、第2のサイズ分布メトリクスに基づいて個々の第2のセグメントに対する腫瘍細胞のコピー数の第1の推定値と、第2のカバレッジメトリクスに基づいて個々の第2のセグメントに対する腫瘍細胞のコピー数の第2の推定値とを決定することによって作成される、個々の第2のセグメントに関する腫瘍細胞のコピー数の総推定値である。
いくつかの態様において、コンピュータ可読記憶媒体は、コンピューティングシステムの1またはそれを超えるプロセッサによって実行されると、コンピューティングシステムに、試料に関連する多数の突然変異体対立遺伝子に対する試料に関連する多数の野生型対立遺伝子の比を決定することと、比に基づいてヘテロ接合一塩基多型(SNP)メトリクスを決定することとを含む動作を実施させるコンピュータ可読命令を含む。
いくつかの態様において、コンピュータ可読記憶媒体は、コンピューティングシステムの1またはそれを超えるプロセッサによって実行された場合に、SNPメトリックに基づいて試料の腫瘍割合の追加の推定値を決定することと、SNPメトリックに基づいて、試料に関連する腫瘍細胞のコピー数の更なる推定値を決定することと、を含む、動作をコンピューティングシステムに実施させるコンピュータ可読命令を含む。
いくつかの態様においてコンピュータ可読記憶媒体は、コンピューティングシステムの1またはそれを超えるプロセッサによって実行されると、試料に関連する腫瘍細胞のコピー数の推定値を作成する尤度関数に対応するモデルのパラメータを決定することを府含む動作をコンピューティングシステムに実施させるコンピュータ可読命令を含み、モデルのパラメータは、個々の第2のセグメントに対する腫瘍細胞のコピー数の個々の推定値の少なくとも一部分に対応し、試料の腫瘍割合の推定値に対応する。
いくつかの態様において、モデルのパラメータは、1またはそれを超えるSNPメトリクスに対応し、1またはそれを超えるSNPメトリクスの個々のSNPメトリクスは、野生型対立遺伝子の数に対する突然変異体対立遺伝子の数のそれぞれの比に関連する。
いくつかの態様において、個々の第1のセグメントの少なくとも一部分は、参照ヒトゲノムの約30,000ヌクレオチド~約150,000ヌクレオチドを含む。
いくつかの態様において、個々の第2のセグメントの少なくとも一部分は、参照ヒトゲノムの少なくとも約100万ヌクレオチド~約1000万ヌクレオチドを含み、第2のセグメントは、1またはそれを超える循環バイナリセグメント化プロセスによって決定される。
いくつかの態様において、コンピュータ可読記憶媒体は、コンピューティングシステムの1またはそれを超えるプロセッサによって実行されると、コンピューティングシステムに、個々の第2の定量的メトリクスに基づいて試料の腫瘍割合の推定値を決定することを含む動作を実施させるコンピュータ可読命令を含む。
いくつかの態様において、試料の腫瘍割合の推定値および個々の第2のセグメントに対する腫瘍細胞のコピー数の推定値は、観察された定量的尺度=2*(1-TF)+n*TF(式中、nは腫瘍細胞コピー数であり、TFは試料の腫瘍割合である)に基づいて決定され、観察された定量的尺度は、第2の定量的尺度の少なくとも一部分を含む。
いくつかの態様において、コンピュータ可読記憶媒体は、コンピューティングシステムの1またはそれを超えるプロセッサによって実行されると、コンピューティングシステムによって、個々の第1のセグメントに対応し、1またはそれを超える一塩基多型(SNP)に対応するいくつかの配列表示を決定することと、コンピューティングシステムにより、個々のSNPに対応する配列表示の数に基づいて、個々のSNPに対する突然変異体対立遺伝子割合を決定することとを含む動作をコンピューティングシステムに実施させるコンピュータ可読命令を含む。
いくつかの態様において、参照ヒトゲノムの第2のセグメントは、個々の第1のセグメントについての突然突然変異体対立遺伝子割合に基づいて決定される。
いくつかの態様において、1またはそれを超えるSNPは、ヘテロ接合生殖系列SNPに対応する。
いくつかの態様において、1またはそれを超えるSNPは、1またはそれを超える癌のタイプに対するドライバ突然変異に対応する。
いくつかの態様においてコンピュータ可読記憶媒体は、コンピューティングシステムの1またはそれを超えるプロセッサによって実行されると、コンピューティングシステムに、コンピューティングシステムによって、参照ヒトゲノムの第2のセグメントの第1の推定値を決定するために、第2の正規化された定量的尺度に基づいて循環バイナリセグメント化プロセスの第1の実施態様を実施することと、参照ヒトゲノムの第2のセグメントの第2の推定値を決定するために、個々の第1のセグメントの突然変異体対立遺伝子割合に基づいて、循環バイナリセグメント化プロセスの第2の実施をコンピューティングシステムによって実施することと、を含む動作を実施させるコンピュータ可読命令を含む。
いくつかの態様において、方法は、それぞれが1またはそれを超えるプロセッサおよびメモリを有する1またはそれを超えるコンピューティングデバイスを含むコンピューティングシステムによって、試料に含まれるポリヌクレオチド分子の配列表示を示す配列データを取得することと、コンピューティングシステムによって、参照ヒトゲノムの一部分に関して少なくとも閾値量の相同性を有する1またはそれを超える配列表示を決定するアラインメントプロセスを行うことによって、多数のアラインメントされた配列表示を作成することと、コンピューティングシステムにより、参照ヒトゲノムの標的領域に対応しないアラインメントされた配列表示の数の部分を同定することによってオフターゲット配列表示のセットを決定することと、コンピューティングシステムによって、複数のセグメント化プロセスを実施して、参照ヒトゲノムのセグメントの数を決定することと、コンピューティングシステムによって、個々のセグメントに対応するオフターゲット配列表示のセットの一部分に基づいて、参照ヒトゲノムの個々のセグメントについての個々の定量的尺度を決定することと、コンピューティングシステムによって、個々の定量的メトリクス、個々のセグメントに対応する腫瘍細胞のコピー数の複数の推定値の個々の推定値に基づいて、試料に関連する腫瘍細胞のコピー数の複数の推定値を決定することと、を含む。
いくつかの態様において、複数のセグメント化プロセスは、コンピューティングシステムにより、参照ヒトゲノムの第1のセグメントを決定することであって、第1のセグメントが標的領域を含まない、参照ヒトゲノムの第1のセグメントを決定することを含む、第1のセグメント化プロセス、およびコンピューティングシステムによって、参照ヒトゲノムの第2のセグメントを決定することであって、個々の第2のセグメントが、個々の第1のセグメントよりも多数のヌクレオチドを含み、複数の個々の第1のセグメントを含む、参照ヒトゲノムの第2のセグメントを決定することを含む第2のセグメント化プロセスを含む。
いくつかの態様において、個々の定量的尺度は、個々のカバレッジメトリクスに対応し、方法は、コンピューティングシステムによって、参照ヒトゲノムの個々の第1のセグメントの個々についての第1のカバレッジメトリクスを、個々の第1のセグメントに含まれるオフターゲットポリヌクレオチド配列表示のセットの数に基づいて決定することと、コンピューティングシステムによって、個々の第1のカバレッジメトリクスに従って個々の第1のセグメントの正規化されたカバレッジメトリクスを決定することと、コンピューティングシステムによって、個々の第2のセグメントに含まれるそれぞれの複数の個々のセグメントの正規化されたカバレッジメトリクスに基づいて、参照ヒトゲノムの個々の第2のセグメントの個々についての第2のカバレッジメトリクスを決定することと、を含む。
いくつかの態様において、正規化されたカバレッジメトリクスは、コンピューティングシステムによって、個々の第1のセグメントの配列表示の中央数に関する個々の第1のカバレッジメトリクスに基づいて、個々の第1のセグメントに対する第1の正規化された定量的尺度を決定することにより決定される。
いくつかの態様において、方法は、コンピューティングシステムによって、個々の第1のセグメントの参照カバレッジメトリクスに関する個々のカバレッジメトリクスに基づいて、個々の第1のセグメントの第2の正規化された定量的尺度を決定することであって、参照カバレッジメトリクスが、コピー数多型が検出されない個体から得られた試料に基づいて決定される、個々の第1のセグメントの第2の正規化された定量的尺度を決定することと、コンピューティングシステムによって、個々の第1のセグメントに対する第2の正規化カバレッジメトリクスに関して個々の第1の正規化された定量的尺度を調整することと、を含む。
いくつかの態様において、試料に関連する腫瘍細胞のコピー数の推定値は、個々の第2のカバレッジメトリクスに基づく。
いくつかの態様において、個々の定量的尺度は、個々のサイズ分布メトリクスに対応し、方法は、コンピューティングシステムによって、個々の第1のセグメントの個々の第1のサイズ分布メトリクスを決定することであって、サイズ分布が、配列表示のサイズのそれぞれの範囲にそれぞれ対応する複数のパーティションを含み、個々の第1のセグメントについての個々のサイズ分布メトリクスが、複数のパーティションの各パーティションに対応する、第1のセグメントに含まれるオフターゲット配列表示のセットの数を示す、個々の第1のセグメントの個々の第1のサイズ分布メトリクスを決定することと、コンピューティングシステムによって、参照サイズ分布メトリクスに関する個々の第1のサイズ分布メトリクスに従って個々の第1のセグメントの正規化されたサイズ分布メトリクスを決定することと、コンピューティングシステムによって、個々の第2のセグメントに含まれるそれぞれの複数の個々の第1のセグメントの正規化されたサイズ分布メトリクスに基づいて、参照ヒトゲノムの個々の第2のセグメントについての個々の第2のサイズ分布メトリクスを決定することと、を含む。
いくつかの態様において、試料に関連する腫瘍細胞のコピー数の推定値は、個々の第2のサイズ分布メトリクスに基づく。
いくつかの態様において、方法は、コンピューティングシステムによって、試料に関連する突然変異体対立遺伝子の数に対する試料に関連する野生型対立遺伝子の数の比を決定することと、コンピューティングシステムによって、比に基づいてヘテロ接合一塩基多型(SNP)メトリクスを決定することと、を含む。
いくつかの態様において、方法は、コンピューティングシステムにより、SNPメトリックに基づいて、試料に関連する腫瘍細胞のコピー数の追加の推定値を決定することを含む。
いくつかの態様において本方法は、コンピューティングシステムによって、個々の定量的尺度に基づいて試料の腫瘍割合の推定値を決定することを含む。
いくつかの態様において、腫瘍細胞のコピー数および試料の腫瘍割合についての推定値は、観察された定量的尺度=2*(1-TF)+n*TF(式中、nは腫瘍細胞コピー数であり、TFは試料の腫瘍割合である)に基づいて決定され、観察された定量的尺度は、定量的尺度の少なくとも一部分を含む。
いくつかの態様においてコンピューティングシステムは、1またはそれを超えるハードウェアプロセッサと、1またはそれを超えるハードウェアプロセッサによって実行されると、1またはそれを超えるハードウェアプロセッサに、試料含まれるポリヌクレオチド分子の配列表示を示すシーケンシングデータを取得することと、参照ヒトゲノムの一部分に関して少なくとも閾値量の相同性を有する1またはそれを超える配列表示を決定するアラインメントプロセスを行うことによって、多数のアラインメントされた配列表示を作成することと、参照ヒトゲノムの標的領域に対応しないアラインメントされた配列表示の数の部分を同定することによってオフターゲット配列表示のセットを決定することと、複数のセグメント化プロセスを実施して、参照ヒトゲノムのセグメントの数を決定することと、個々のセグメントに対応するオフターゲット配列表示のセットの一部分に基づいて、参照ヒトゲノムの個々のセグメントについての個々の定量的尺度を決定することと、個々の定量的メトリクス、個々のセグメントに対応する腫瘍細胞のコピー数の複数の推定値の個々の推定値に基づいて、試料に関連する腫瘍細胞のコピー数の複数の推定値を決定することと、を含む動作を実施させるコンピュータ可読命令を含む1またはそれを超える非一時的コンピュータ可読記憶媒体を含む。
いくつかの態様においてコンピューティングシステムの1またはそれを超える非一時的コンピュータ可読記憶媒体は、1またはそれを超えるハードウェアプロセッサによって実行されると、1またはそれを超えるハードウェアプロセッサに、参照ヒトゲノムの第1のセグメントを決定することを含む第1のセグメント化プロセスを実施することあって、第1のセグメントは標的領域を含まない、第1のセグメント化プロセスを実施することと、参照ヒトゲノムの第2のセグメントであって、個々の第1のセグメントよりも多数のヌクレオチドを含み、複数の個々の第1のセグメントを含む個々の第2のセグメントを決定することを含む、第2のセグメント化プロセスを実施することと、により複数のセグメント化プロセスを実施することを含む動作を実施させる、コンピュータ可読命令を含む。
いくつかの態様において、個々の定量的尺度は個々のカバレッジメトリクスに対応し、コンピューティングシステムの1またはそれを超える非一時的コンピュータ可読記憶媒体は、1またはそれを超えるハードウェアプロセッサによって実行されると、1またはそれを超えるハードウェアプロセッサに、個々の第1のセグメントの配列表示の中央数に関する個々の第1のカバレッジメトリクスに基づいて、個々の第1のセグメントに対する第1の正規化された定量的尺度を決定することにより、正規化されたカバレッジメトリクスを決定することを含む、追加の動作を実施させる追加のコンピュータ可読命令を含む。
いくつかの態様においてコンピューティングシステムの1またはそれを超える非一時的コンピュータ可読記憶媒体は、1またはそれを超えるハードウェアプロセッサによって実行されると、1またはそれを超えるハードウェアプロセッサに、個々の第1のセグメントの参照カバレッジメトリクスに関する個々のカバレッジメトリクスに基づいて、個々の第1のセグメントの第2の正規化された定量的尺度を決定することであって、参照カバレッジメトリクスが、コピー数多型が検出されない個体から得られた試料に基づいて決定される、個々の第1のセグメントの第2の正規化された定量的尺度を決定することと、個々の第1のセグメントに対する第2の正規化カバレッジメトリクスに関して個々の第1の正規化された定量的尺度を調整することと、を含む追加の動作を実施させる追加のコンピュータ可読命令を含む。
いくつかの態様において、試料に関連する腫瘍細胞のコピー数の推定値は、個々の第2のカバレッジメトリクスに基づく。
いくつかの態様において、個々の定量的尺度は個々のサイズ分布メトリクスに対応し、試料に関連する腫瘍細胞のコピー数の推定値は個々の第2のサイズ分布メトリクスに基づく。
いくつかの態様において、コンピューティングシステムの1またはそれを超える非一時的コンピュータ可読記憶媒体は、1またはそれを超えるハードウェアプロセッサによって実行されると、1またはそれを超えるハードウェアプロセッサに、試料に関連する突然変異体対立遺伝子の数に対する試料に関連する野生型対立遺伝子の数の比を決定することと、比に基づいてヘテロ接合一塩基多型(SNP)メトリクスを決定することと、を含む動作を実施させるコンピュータ可読命令を含む。
いくつかの態様においてコンピューティングシステムの1またはそれを超える非一時的コンピュータ可読記憶媒体は、1またはそれを超えるハードウェアプロセッサによって実行されると、1またはそれを超えるハードウェアプロセッサに、SNPメトリックに基づいて、試料に関連する腫瘍細胞のコピー数の追加の推定値を決定することを含む追加の動作を実施させる追加のコンピュータ可読命令を含む。
いくつかの態様においてコンピューティングシステムの1またはそれを超える非一時的コンピュータ可読記憶媒体は、1またはそれを超えるハードウェアプロセッサによって実行されると、1またはそれを超えるハードウェアプロセッサに、個々の定量的尺度に基づいて試料の腫瘍割合の推定値を決定することを含む動作を実施させるコンピュータ可読命令を含む。
いくつかの態様において、腫瘍細胞のコピー数および試料の腫瘍割合についての推定値は、観察された定量的尺度=2*(1-TF)+n*TF(式中、nは腫瘍細胞コピー数であり、TFは試料の腫瘍割合である)に基づいて決定され、観察された定量的尺度は、定量的尺度の少なくとも一部分を含む。
いくつかの態様において、コンピュータ可読記憶媒体は、コンピューティングシステムの1またはそれを超えるプロセッサによって実行されると、コンピューティングシステムに、試料に含まれるポリヌクレオチド分子の配列表示を示す配列データを取得することと、参照ヒトゲノムの一部分に関して少なくとも閾値量の相同性を有する1またはそれを超える配列表示を決定するアラインメントプロセスを行うことによって、多数のアラインメントされた配列表示を作成することと、参照ヒトゲノムの標的領域に対応しないアラインメントされた配列表示の数の部分を同定することによってオフターゲット配列表示のセットを決定することと、複数のセグメント化プロセスを実施して、参照ヒトゲノムのセグメントの数を決定することと、個々のセグメントに対応するオフターゲット配列表示のセットの一部分に基づいて、参照ヒトゲノムの個々のセグメントについての個々の定量的尺度を決定することと、個々の定量的メトリクス、個々のセグメントに対応する腫瘍細胞のコピー数の複数の推定値の個々の推定値に基づいて、試料に関連する腫瘍細胞のコピー数の複数の推定値を決定することと、を含む動作を実施させるコンピュータ可読命令を含む。
いくつかの態様において、コンピュータ可読記憶媒体は、コンピューティングシステムの1またはそれを超えるプロセッサによって実行されると、コンピューティングシステムに、参照ヒトゲノムの第1のセグメントを決定することであって、第1のセグメントが標的領域を含まない、参照ヒトゲノムの第1のセグメントを決定することを含む、第1のセグメント化プロセスを実施すること、および参照ヒトゲノムの第2のセグメントを決定することであって、個々の第2のセグメントが、個々の第1のセグメントよりも多数のヌクレオチドを含み、複数の個々の第1のセグメントを含む、参照ヒトゲノムの第2のセグメントを決定することを含む第2のセグメント化プロセスを実施することによって、複数のセグメント化プロセスを実施することを含む動作を実施させるコンピュータ可読命令を含む。
いくつかの態様において、個々の定量的尺度は個々のカバレッジメトリクスに対応し、コンピューティングシステムの1またはそれを超えるプロセッサによって実行されると、コンピューティングシステムに、参照ヒトゲノムの個々の第1のセグメントの個々についての第1のカバレッジメトリクスを、個々の第1のセグメントに含まれるオフターゲットポリヌクレオチド配列表示のセットの数に基づいて決定することと、個々の第1のカバレッジメトリクスに従って個々の第1のセグメントの正規化されたカバレッジメトリクスを決定することと、個々の第2のセグメントに含まれるそれぞれの複数の個々のセグメントの正規化されたカバレッジメトリクスに基づいて、参照ヒトゲノムの個々の第2のセグメントの個々の第2のカバレッジメトリクスを決定することと、を含む追加の動作を実施させる追加のコンピュータ可読命令を含む。
いくつかの態様において、コンピュータ可読記憶媒体は、コンピューティングシステムの1またはそれを超えるプロセッサによって実行されると、コンピューティングシステムに、個々の第1のセグメントの配列表示の中央数に関する個々の第1のカバレッジメトリクスに基づいて、個々の第1のセグメントに対する第1の正規化された定量的尺度を決定することにより、正規化されたカバレッジメトリクスを決定することを含む動作を実施させるコンピュータ可読命令を含む。
いくつかの態様において、コンピュータ可読記憶媒体は、コンピューティングシステムの1またはそれを超えるプロセッサによって実行されると、コンピューティングシステムに、個々の第1のセグメントの参照カバレッジメトリクスに関する個々のカバレッジメトリクスに基づいて、個々の第1のセグメントの第2の正規化された定量的尺度を決定することであって、参照カバレッジメトリクスが、コピー数多型が検出されない個体から得られた試料に基づいて決定される、個々の第1のセグメントの第2の正規化された定量的尺度を決定することと、個々の第1のセグメントに対する第2の正規化カバレッジメトリクスに関して個々の第1の正規化された定量的尺度を調整することと、を含む動作を実施させるコンピュータ可読命令を含む。
いくつかの態様において、試料に関連する腫瘍細胞のコピー数の推定値は、個々の第2のカバレッジメトリクスに基づく。
いくつかの態様において個々の定量的尺度は個々のサイズ分布メトリクスに対応し、コンピューティングシステムの1またはそれを超えるプロセッサによって実行されると、コンピューティングシステムに、個々の第1のセグメントの個々の第1のサイズ分布メトリクスを決定することであって、サイズ分布が、配列表示のサイズのそれぞれの範囲にそれぞれ対応する複数のパーティションを含み、個々の第1のセグメントについての個々のサイズ分布メトリクスが、複数のパーティションの各パーティションに対応する、第1のセグメントに含まれるオフターゲット配列表示のセットの数を示す、個々の第1のセグメントの個々の第1のサイズ分布メトリクスを決定することと、参照サイズ分布メトリクスに関する個々の第1のサイズ分布メトリクスに従って個々の第1のセグメントの正規化されたサイズ分布メトリクスを決定することと、個々の第2のセグメントに含まれるそれぞれの複数の個々の第1のセグメントの正規化されたサイズ分布メトリクスに基づいて、参照ヒトゲノムの個々の第2のセグメントについての個々の第2のサイズ分布メトリクスを決定することと、を含む追加の動作を実施させる、追加のコンピュータ可読命令を含む。
いくつかの態様において、試料に関連する腫瘍細胞のコピー数の推定値は、個々の第2のサイズ分布メトリクスに基づく。
いくつかの態様において、コンピュータ可読記憶媒体は、コンピューティングシステムの1またはそれを超えるプロセッサによって実行されると、コンピューティングシステムに、試料に関連する多数の突然変異体対立遺伝子に対する試料に関連する多数の野生型対立遺伝子の比を決定することと、比に基づいてヘテロ接合一塩基多型(SNP)メトリクスを決定することとを含む動作を実施させるコンピュータ可読命令を含む。
いくつかの態様において、コンピュータ可読記憶媒体は、コンピューティングシステムの1またはそれを超えるプロセッサによって実行されると、コンピューティングシステムに、SNPメトリックに基づいて、試料に関連する腫瘍細胞のコピー数の追加の推定値を決定することを含む動作を実施させるコンピュータ可読命令を含む。
いくつかの態様において、コンピュータ可読記憶媒体は、コンピューティングシステムの1またはそれを超えるプロセッサによって実行されると、コンピューティングシステムに、個々の定量的尺度に基づいて試料の腫瘍割合の推定値を決定することを含む動作を実施させるコンピュータ可読命令を含む。
いくつかの態様において、腫瘍細胞のコピー数および試料の腫瘍割合についての推定値は、観察された定量的尺度=2*(1-TF)+n*TF(式中、nは腫瘍細胞コピー数であり、TFは試料の腫瘍割合である)に基づいて決定され、観察された定量的尺度は、定量的尺度の少なくとも一部分を含む。
いくつかの態様において、方法は、各々が1またはそれを超えるプロセッサおよびメモリを有する1またはそれを超えるコンピューティングデバイスを含むコンピューティングシステムによって、試料に由来するポリヌクレオチド分子に基づくいくつかの配列決定リードを含むシーケンシングデータを取得することと、コンピューティングシステムによって、参照ヒトゲノムの一部分に関して少なくとも閾値量の相同性を有する配列決定リードの数の1またはそれを超える部分を決定するアラインメントプロセスプロセスを実施することによって、アラインメントされたいくつかの配列決定リードを作成することと、コンピューティングシステムによって参照ヒトゲノムの標的領域に対応しないアラインメントされた配列リードの数の部分を同定することによってオフターゲット配列リードのセットを決定することと、コンピューティングシステムによって、複数のセグメント化プロセスを実施して、参照ヒトゲノムのセグメントの数を決定することと、コンピューティングシステムによって、個々のセグメントに対応するオフターゲット配列決定リードのセットに基づいて、参照ヒトゲノムの個々のセグメントについての定量的尺度を決定することと、コンピューティングシステムによって、個々の定量的尺度、個々のセグメントに対応する腫瘍細胞のコピー数の複数の推定値の個々の推定値に基づいて、試料に関連する腫瘍細胞のコピー数の複数の推定値を決定することと、を含む。
いくつかの態様において、複数のセグメント化プロセスは、コンピューティングシステムにより、参照ヒトゲノムの第1のセグメントを決定することであって、第1のセグメントが標的領域を含まない、参照ヒトゲノムの第1のセグメントを決定することを含む、第1のセグメント化プロセス、およびコンピューティングシステムによって、参照ヒトゲノムの第2のセグメントを決定することであって、個々の第2のセグメントが、個々の第1のセグメントよりも多数のヌクレオチドを含み、複数の個々の第1のセグメントを含む、参照ヒトゲノムの第2のセグメントを決定することを含む第2のセグメント化プロセスを含む。
いくつかの態様において、個々の定量的尺度は、個々のカバレッジメトリクスに対応し、方法は、コンピューティングシステムによって、個々の第1のセグメントに含まれるオフターゲット配列決定リードのセットの数に基づいて、個々の第1のセグメントの個々の第1のカバレッジメトリクスを決定することと、コンピューティングシステムによって、個々の第1のカバレッジメトリクスに従って個々の第1のセグメントの正規化されたカバレッジメトリクスを決定することと、コンピューティングシステムによって、個々の第2のセグメントに含まれるそれぞれの複数の個々のセグメントの正規化されたカバレッジメトリクスに基づいて、個々の第2のセグメントの個々の第2のカバレッジメトリクスを決定することと、を含む。
いくつかの態様において、正規化されたカバレッジメトリクスは、コンピューティングシステムによって、個々の第1のセグメントに関連する配列決定リードの中央数に関する個々の第1のカバレッジメトリクスに基づいて、個々の第1のセグメントに対する第1の正規化された定量的尺度を決定することにより決定される。
いくつかの態様において、方法は、コンピューティングシステムによって、個々の第1のセグメントの参照カバレッジメトリクスに関する個々のカバレッジメトリクスに基づいて、個々の第1のセグメントの第2の正規化された定量的尺度を決定することであって、参照カバレッジメトリクスが、コピー数多型が検出されない個体から得られた試料に基づいて決定される、個々の第1のセグメントの第2の正規化された定量的尺度を決定することと、コンピューティングシステムによって、個々の第1のセグメントに対する第2の正規化カバレッジメトリクスに関して個々の第1の正規化された定量的尺度を調整することと、を含む。
いくつかの態様において、試料に関連する腫瘍細胞のコピー数の推定値は、個々の第2のカバレッジメトリクスに基づく。
いくつかの態様において、個々の定量的尺度は、個々のサイズ分布メトリクスに対応し、方法は、コンピューティングシステムによって、個々の第1のセグメントの個々の第1のサイズ分布メトリクスを決定することであって、サイズ分布が、配列決定リードのサイズのそれぞれの範囲にそれぞれ対応する複数のパーティションを含み、個々の第1のセグメントについての個々のサイズ分布メトリクスが、複数のパーティションの各パーティションに対応する、第1のセグメントに含まれるオフターゲット配列決定リードのセットの数を示す、個々の第1のセグメントの個々の第1のサイズ分布メトリクスを決定することと、コンピューティングシステムによって、参照サイズ分布メトリクスに関する個々の第1のサイズ分布メトリクスに従って個々の第1のセグメントの正規化されたサイズ分布メトリクスを決定することと、コンピューティングシステムによって、個々の第2のセグメントに含まれるそれぞれの複数の個々の第1のセグメントの正規化されたサイズ分布メトリクスに基づいて、参照ヒトゲノムの個々の第2のセグメントについての個々の第2のサイズ分布メトリクスを決定することと、を含む。
いくつかの態様において、試料に関連する腫瘍細胞のコピー数の推定値は、個々の第2のサイズ分布メトリクスに基づく。
いくつかの態様において、方法は、コンピューティングシステムによって、試料に関連する突然変異体対立遺伝子の数に対する試料に関連する野生型対立遺伝子の数の比を決定することと、コンピューティングシステムによって、比に基づいてヘテロ接合一塩基多型(SNP)メトリクスを決定することと、を含む。
いくつかの態様において、方法は、コンピューティングシステムにより、SNPメトリックに基づいて、試料に関連する腫瘍細胞のコピー数の追加の推定値を決定することを含む。
いくつかの態様において本方法は、個々の定量的尺度に基づいて試料の腫瘍割合の推定値を決定することを含む。
いくつかの態様において、腫瘍細胞のコピー数および試料の腫瘍割合についての推定値は、観察された定量的尺度=2*(1-TF)+n*TF(式中、nは腫瘍細胞コピー数であり、TFは試料の腫瘍割合である)に基づいて決定され、観察された定量的尺度は、定量的尺度の少なくとも一部分を含む。
いくつかの態様においてコンピューティングシステムは、1またはそれを超えるハードウェアプロセッサと、1またはそれを超える非一時的コンピュータ可読記憶媒体であって、1またはそれを超えるハードウェアプロセッサによって実行されると、1またはそれを超えるハードウェアプロセッサに、試料に由来するポリヌクレオチド分子に基づく多数の配列決定リードを含むシーケンシングデータを取得することと、参照ヒトゲノムの一部分に関して少なくとも閾値量の相同性を有する配列決定リードの数の1またはそれを超える部分を決定するアラインメントプロセスを実施することによって、アラインメントされた配列決定リードの数を作成することと、参照ヒトゲノムの標的領域に対応しないアラインメントされた配列決定リードの数の部分を同定することによってオフターゲット配列リードのセットを決定することと、複数のセグメント化プロセスを実施して、参照ヒトゲノムのセグメントの数を決定することと、個々のセグメントに対応するオフターゲット配列決定リードのセットに基づいて、参照ヒトゲノムの個々のセグメントについての定量的尺度を決定することと、個々の定量的尺度、個々のセグメントに対応する腫瘍細胞のコピー数の複数の推定値の個々の推定値に基づいて、試料に関連する腫瘍細胞のコピー数の複数の推定値を決定することと、を含む動作を実施させるコンピュータ可読命令を含む、1またはそれを超える非一時的コンピュータ可読記憶媒体とを含む。
いくつかの態様においてコンピューティングシステムの1またはそれを超える非一時的コンピュータ可読記憶媒体は、1またはそれを超えるハードウェアプロセッサによって実行されると、1またはそれを超えるハードウェアプロセッサに、参照ヒトゲノムの第1のセグメントを決定することにより、第1のセグメント化プロセスを実施することあって、第1のセグメントは標的領域を含まない、第1のセグメント化プロセスを実施することと、参照ヒトゲノムの第2のセグメントを決定することにより第2のセグメント化プロセスを実施することであって、個々の第2のセグメントが個々の第1のセグメントよりも多数のヌクレオチドを含み、複数の個々の第1のセグメントを含む、第2のセグメント化プロセスを実施することと、により複数のセグメント化プロセスを実施することを含む追加の動作を実施させる、追加のコンピュータ可読命令を含む。
いくつかの態様において、個々の定量的尺度は個々のカバレッジメトリクスに対応し、コンピューティングシステムの1またはそれを超える非一時的コンピュータ可読記憶媒体は、1またはそれを超えるハードウェアプロセッサによって実行されると、1またはそれを超えるハードウェアプロセッサに、参照ヒトゲノムの個々の第1のセグメントの個々についての第1のカバレッジメトリクスを、個々の第1のセグメントに含まれるオフターゲットポリヌクレオチド配列表示のセットの数に基づいて決定することと、個々の第1のカバレッジメトリクスに従って個々の第1のセグメントの正規化されたカバレッジメトリクスを決定することと、個々の第2のセグメントに含まれるそれぞれの複数の個々のセグメントの正規化されたカバレッジメトリクスに基づいて、参照ヒトゲノムの個々の第2のセグメントの個々の第2のカバレッジメトリクスを決定することと、を含む追加の動作を実施させる追加のコンピュータ可読命令を含む。
いくつかの態様において、コンピューティングシステムの1またはそれを超える非一時的コンピュータ可読記憶媒体は、1またはそれを超えるハードウェアプロセッサによって実行されると、1またはそれを超えるハードウェアプロセッサに、個々の第1のセグメントに関連する配列決定リードの中央数に関する個々の第1のカバレッジメトリクスに基づいて、個々の第1のセグメントに対する第1の正規化された定量的尺度を決定することにより、正規化されたカバレッジメトリクスを決定することを含む、追加の動作を実施させる追加のコンピュータ可読命令を含む。
いくつかの態様においてコンピューティングシステムの1またはそれを超える非一時的コンピュータ可読記憶媒体は、1またはそれを超えるハードウェアプロセッサによって実行されると、1またはそれを超えるハードウェアプロセッサに、個々の第1のセグメントの参照カバレッジメトリクスに関する個々のカバレッジメトリクスに基づいて、個々の第1のセグメントの第2の正規化された定量的尺度を決定することであって、参照カバレッジメトリクスが、コピー数多型が検出されない個体から得られた試料に基づいて決定される、個々の第1のセグメントの第2の正規化された定量的尺度を決定することと、個々の第1のセグメントに対する第2の正規化カバレッジメトリクスに関して個々の第1の正規化された定量的尺度を調整することと、を含む追加の動作を実施させる追加のコンピュータ可読命令を含む。
いくつかの態様において、試料に関連する腫瘍細胞のコピー数の推定値は、個々の第2のカバレッジメトリクスに基づく。
いくつかの態様において、個々の定量的尺度は、個々のサイズ分布メトリクスに対応し、1またはそれを超える非一時的コンピュータ可読記憶媒体は、1またはそれを超えるハードウェアプロセッサによって実行されると、1またはそれを超えるハードウェアプロセッサに、個々の第1のセグメントの個々の第1のサイズ分布メトリクスを決定することであって、サイズ分布が、配列表示のサイズのそれぞれの範囲にそれぞれ対応する複数のパーティションを含み、個々の第1のセグメントについての個々のサイズ分布メトリクスが、複数のパーティションの各パーティションに対応する、第1のセグメントに含まれるオフターゲット配列表示のセットの数を示す、個々の第1のセグメントの個々の第1のサイズ分布メトリクスを決定することと、参照サイズ分布メトリクスに関する個々の第1のサイズ分布メトリクスに従って個々の第1のセグメントの正規化されたサイズ分布メトリクスを決定することと、コンピューティングシステムによって、個々の第2のセグメントに含まれるそれぞれの複数の個々の第1のセグメントの正規化されたサイズ分布メトリクスに基づいて、参照ヒトゲノムの個々の第2のセグメントについての個々の第2のサイズ分布メトリクスを決定することと、を含む追加の動作を実施させる追加のコンピュータ可読命令を含む。
いくつかの態様において、試料に関連する腫瘍細胞のコピー数の推定値は、個々の第2のサイズ分布メトリクスに基づく。
いくつかの態様において、コンピューティングシステムの1またはそれを超える非一時的コンピュータ可読記憶媒体は、1またはそれを超えるハードウェアプロセッサによって実行されると、1またはそれを超えるハードウェアプロセッサに、試料に関連する突然変異体対立遺伝子の数に対する試料に関連する野生型対立遺伝子の数の比を決定することと、比に基づいてヘテロ接合一塩基多型(SNP)メトリクスを決定することと、を含む追加の動作を実施させる追加のコンピュータ可読命令を含む。
いくつかの態様においてコンピューティングシステムの1またはそれを超える非一時的コンピュータ可読記憶媒体は、1またはそれを超えるハードウェアプロセッサによって実行されると、1またはそれを超えるハードウェアプロセッサに、SNPメトリックに基づいて、試料に関連する腫瘍細胞のコピー数の追加の推定値を決定することを含む追加の動作を実施させる追加のコンピュータ可読命令を含む。
いくつかの態様においてコンピューティングシステムの1またはそれを超える非一時的コンピュータ可読記憶媒体は、1またはそれを超えるハードウェアプロセッサによって実行されると、1またはそれを超えるハードウェアプロセッサに、個々の定量的尺度に基づいて試料の腫瘍割合の推定値を決定することを含む追加の動作を実施させる追加のコンピュータ可読命令を含む。
いくつかの態様において、腫瘍細胞のコピー数および試料の腫瘍割合についての推定値は、観察された定量的尺度=2*(1-TF)+n*TF(式中、nは腫瘍細胞コピー数であり、TFは試料の腫瘍割合である)に基づいて決定され、観察された定量的尺度は、定量的尺度の少なくとも一部分を含む。
いくつかの態様において、1またはそれを超えるコンピュータ可読記憶媒体は、コンピューティングシステムの1またはそれを超えるプロセッサによって実行されると、コンピューティングシステムに、試料に由来するポリヌクレオチド分子に基づくいくつかの配列決定リードを含むシーケンシングデータを取得することと、参照ヒトゲノムの一部分に関して少なくとも閾値量の相同性を有する配列決定リードの数の1またはそれを超える部分を決定するアラインメントプロセスを実施することによって、アラインメントされた配列決定リードの数を作成することと、参照ヒトゲノムの標的領域に対応しないアラインメントされた配列リードの数の部分を同定することによってオフターゲット配列リードのセットを決定することと、複数のセグメント化プロセスを実施して、参照ヒトゲノムのセグメントの数を決定することと、個々のセグメントに対応するオフターゲット配列決定リードのセットに基づいて、参照ヒトゲノムの個々のセグメントについての定量的尺度を決定することと、個々の定量的尺度、個々のセグメントに対応する腫瘍細胞のコピー数の複数の推定値の個々の推定値に基づいて、試料に関連する腫瘍細胞のコピー数の複数の推定値を決定することと、を含む動作を実施させるコンピュータ可読命令を含む。
いくつかの態様において、コンピュータ可読記憶媒体は、コンピューティングシステムの1またはそれを超えるプロセッサによって実行されると、コンピューティングシステムに、参照ヒトゲノムの第1のセグメントを決定することであって、第1のセグメントが標的領域を含まない、参照ヒトゲノムの第1のセグメントを決定することを含む、第1のセグメント化プロセスを実施すること、および参照ヒトゲノムの第2のセグメントを決定することであって、個々の第2のセグメントが、個々の第1のセグメントよりも多数のヌクレオチドを含み、複数の個々の第1のセグメントを含む、参照ヒトゲノムの第2のセグメントを決定することを含む第2のセグメント化プロセスを実施することによって、複数のセグメント化プロセスを実施することを含む動作を実施させるコンピュータ可読命令を含む。
いくつかの態様において、個々の定量的尺度は個々のカバレッジメトリクスに対応し、コンピューティングシステムの1またはそれを超えるプロセッサによって実行されると、コンピューティングシステムに、個々の第1のセグメントに含まれるオフターゲット配列リードのセットの数に基づいて、個々の第1のセグメントの個々の第1のカバレッジメトリクスを決定することと、個々の第1のカバレッジメトリクスに従って個々の第1のセグメントの正規化されたカバレッジメトリクスを決定することと、個々の第2のセグメントに含まれるそれぞれの複数の個々のセグメントの正規化されたカバレッジメトリクスに基づいて、個々の第2のセグメントの個々の第2のカバレッジメトリクスを決定することと、を含む追加の動作を実施させる、追加のコンピュータ可読命令を含む。
いくつかの態様において、コンピュータ可読記憶媒体は、コンピューティングシステムの1またはそれを超えるプロセッサによって実行されると、コンピューティングシステムに、個々の第1のセグメントの配列表示の中央数に関する個々の第1のカバレッジメトリクスに基づいて、個々の第1のセグメントに対する第1の正規化された定量的尺度を決定することにより、正規化されたカバレッジメトリクスを決定することを含む動作を実施させるコンピュータ可読命令を含む。
いくつかの態様において、コンピュータ可読記憶媒体は、コンピューティングシステムの1またはそれを超えるプロセッサによって実行されると、コンピューティングシステムに、個々の第1のセグメントの参照カバレッジメトリクスに関する個々のカバレッジメトリクスに基づいて、個々の第1のセグメントの第2の正規化された定量的尺度を決定することであって、参照カバレッジメトリクスが、コピー数多型が検出されない個体から得られた試料に基づいて決定される、個々の第1のセグメントの第2の正規化された定量的尺度を決定することと、個々の第1のセグメントに対する第2の正規化カバレッジメトリクスに関して個々の第1の正規化された定量的尺度を調整することと、を含む動作を実施させるコンピュータ可読命令を含む。
いくつかの態様において、試料に関連する腫瘍細胞のコピー数の推定値は、個々の第2のカバレッジメトリクスに基づく。
いくつかの態様において個々の定量的尺度は個々のサイズ分布メトリクスに対応し、コンピューティングシステムの1またはそれを超えるプロセッサによって実行されると、コンピューティングシステムに、個々の第1のセグメントの個々の第1のサイズ分布メトリクスを決定することであって、サイズ分布が、配列リードのサイズのそれぞれの範囲にそれぞれ対応する複数のパーティションを含み、個々の第1のセグメントについての個々のサイズ分布メトリクスが、複数のパーティションの各パーティションに対応する、第1のセグメントに含まれるオフターゲット配列リードのセットの数を示す、個々の第1のセグメントの個々の第1のサイズ分布メトリクスを決定することと、参照サイズ分布メトリクスに関する個々の第1のサイズ分布メトリクスに従って個々の第1のセグメントの正規化されたサイズ分布メトリクスを決定することと、個々の第2のセグメントに含まれるそれぞれの複数の個々の第1のセグメントの正規化されたサイズ分布メトリクスに基づいて、参照ヒトゲノムの個々の第2のセグメントについての個々の第2のサイズ分布メトリクスを決定することと、を含む追加の動作を実施させる、追加のコンピュータ可読命令を含む。
いくつかの態様において、試料に関連する腫瘍細胞のコピー数の推定値は、個々の第2のサイズ分布メトリクスに基づく。
いくつかの態様において、コンピュータ可読記憶媒体は、コンピューティングシステムの1またはそれを超えるプロセッサによって実行されると、コンピューティングシステムに、試料に関連する多数の突然変異体対立遺伝子に対する試料に関連する多数の野生型対立遺伝子の比を決定することと、比に基づいてヘテロ接合一塩基多型(SNP)メトリクスを決定することとを含む動作を実施させるコンピュータ可読命令を含む。
いくつかの態様において、コンピュータ可読記憶媒体は、コンピューティングシステムの1またはそれを超えるプロセッサによって実行されると、コンピューティングシステムに、SNPメトリックに基づいて、試料に関連する腫瘍細胞のコピー数の追加の推定値を決定することを含む動作を実施させるコンピュータ可読命令を含む。
いくつかの態様において、コンピュータ可読記憶媒体は、コンピューティングシステムの1またはそれを超えるプロセッサによって実行されると、コンピューティングシステムに、個々の定量的尺度に基づいて試料の腫瘍割合の推定値を決定することを含む動作を実施させるコンピュータ可読命令を含む。
いくつかの態様において、腫瘍細胞のコピー数および試料の腫瘍割合についての推定値は、観察された定量的尺度=2*(1-TF)+n*TF(式中、nは腫瘍細胞コピー数であり、TFは試料の腫瘍割合である)に基づいて決定され、観察された定量的尺度は、定量的尺度の少なくとも一部分を含む。
いくつかの態様において方法は、それぞれが1またはそれを超えるプロセッサおよびメモリを有する1またはそれを超えるコンピューティングデバイスを含むコンピューティングシステムによって、試料に含まれるポリヌクレオチド分子示すシーケンシングデータを取得することと、コンピューティングシステムによって、参照ヒトゲノムの一部分に関して少なくとも閾値量の相同性を有する1またはそれを超えるポリヌクレオチド分子を決定するアラインメントプロセスを実施することによって、多数のアラインメントされた配列表示を作成することと、コンピューティングシステムにより、参照ヒトゲノムの標的領域に対応しないアラインメントされたポリヌクレオチド分子数の部分を同定することによってオフターゲットポリヌクレオチド分子のセットを決定することと、コンピューティングシステムによって、複数のセグメント化プロセスを実施して、参照ヒトゲノムのセグメントの数を決定することと、コンピューティングシステムによって、個々のセグメントに対応するオフターゲットポリヌクレオチド分子のセットの一部分に基づいて、参照ヒトゲノムの個々のセグメントについての定量的尺度を決定することと、コンピューティングシステムによって、個々の定量的尺度、個々のセグメントに対応する腫瘍細胞のコピー数の複数の推定値の個々の推定値に基づいて、試料に関連する腫瘍細胞のコピー数の複数の推定値を決定することと、を含む。
いくつかの態様において、複数のセグメント化プロセスは、コンピューティングシステムにより、参照ヒトゲノムの第1のセグメントを決定することであって、第1のセグメントが標的領域を含まない、参照ヒトゲノムの第1のセグメントを決定することを含む、第1のセグメント化プロセス、およびコンピューティングシステムによって、参照ヒトゲノムの第2のセグメントを決定することであって、個々の第2のセグメントが、個々の第1のセグメントよりも多数のヌクレオチドを含み、複数の個々の第1のセグメントを含む、参照ヒトゲノムの第2のセグメントを決定することを含む第2のセグメント化プロセスを含む。
いくつかの態様において、個々の定量的尺度は、個々のカバレッジメトリクスに対応し、方法は、コンピューティングシステムによって、個々の第1のセグメントに含まれるオフターゲットポリヌクレオチド分子のセットの数に基づいて、個々の第1のセグメントの個々の第1のカバレッジメトリクスを決定することと、コンピューティングシステムによって、個々の第1のカバレッジメトリクスに従って個々の第1のセグメントの正規化されたカバレッジメトリクスを決定することと、コンピューティングシステムによって、個々の第2のセグメントに含まれるそれぞれの複数の個々のセグメントの正規化されたカバレッジメトリクスに基づいて、個々の第2のセグメントの個々の第2のカバレッジメトリクスを決定することと、を含む。
いくつかの態様において、正規化されたカバレッジメトリクスは、コンピューティングシステムによって、個々の第1のセグメントに関連するポリヌクレオチド分子の中央数に関する個々の第1のカバレッジメトリクスに基づいて、個々の第1のセグメントに対する第1の正規化された定量的尺度を決定することにより決定される。
いくつかの態様において、方法は、コンピューティングシステムによって、個々の第1のセグメントの参照カバレッジメトリクスに関する個々のカバレッジメトリクスに基づいて、個々の第1のセグメントの第2の正規化された定量的尺度を決定することであって、参照カバレッジメトリクスが、コピー数多型が検出されない個体から得られた試料に基づいて決定される、個々の第1のセグメントの第2の正規化された定量的尺度を決定することと、個々の第1のセグメントに対する第2の正規化カバレッジメトリクスに関して個々の第1の正規化された定量的尺度を調整することと、を含む。
いくつかの態様において、試料に関連する腫瘍細胞のコピー数の推定値は、個々の第2のカバレッジメトリクスに基づく。
いくつかの態様において、個々の定量的尺度は個々のサイズ分布メトリクスに対応し、方法は、コンピューティングシステムによって、個々の第1のセグメントの個々の第1のサイズ分布メトリクスを決定することであって、サイズ分布が、ポリヌクレオチド分子のサイズのそれぞれの範囲にそれぞれ対応する複数のパーティションを含み、個々の第1のセグメントについての個々のサイズ分布メトリクスが、複数のパーティションの各パーティションに対応する、第1のセグメントに含まれるオフターゲットポリヌクレオチド分子のセットの数を示す、個々の第1のセグメントの個々の第1のサイズ分布メトリクスを決定することと、コンピューティングシステムによって、参照サイズ分布メトリクスに関する個々の第1のサイズ分布メトリクスに従って個々の第1のセグメントの正規化されたサイズ分布メトリクスを決定することと、コンピューティングシステムによって、個々の第2のセグメントに含まれるそれぞれの複数の個々の第1のセグメントの正規化されたサイズ分布メトリクスに基づいて、参照ヒトゲノムの個々の第2のセグメントについての個々の第2のサイズ分布メトリクスを決定することと、を含む。
いくつかの態様において、試料に関連する腫瘍細胞のコピー数の推定値は、個々の第2のサイズ分布メトリクスに基づく。
いくつかの態様において、試料に関連する腫瘍細胞のコピー数の推定値は、個々の第2のサイズ分布メトリクスに基づく。
いくつかの態様において、方法は、コンピューティングシステムによって、試料に関連する突然変異体対立遺伝子の数に対する試料に関連する野生型対立遺伝子の数の比を決定することと、コンピューティングシステムによって、比に基づいてヘテロ接合一塩基多型(SNP)メトリクスを決定することと、を含む。
いくつかの態様において、方法は、コンピューティングシステムにより、SNPメトリックに基づいて、試料に関連する腫瘍細胞のコピー数の追加の推定値を決定することを含む。
いくつかの態様において本方法は、コンピューティングシステムによって、個々の定量的尺度に基づいて試料の腫瘍割合の推定値を決定することを含む。
いくつかの態様において、腫瘍細胞のコピー数および試料の腫瘍割合についての推定値は、観察された定量的尺度=2*(1-TF)+n*TF(式中、nは腫瘍細胞コピー数であり、TFは試料の腫瘍割合である)に基づいて決定され、観察された定量的尺度は、定量的尺度の少なくとも一部分を含む。
いくつかの態様においてコンピューティングシステムは、1またはそれを超えるハードウェアプロセッサと、1つ以上のハードウェアプロセッサによって実行されると、1つ以上のハードウェアプロセッサに、いくつかの態様において1またはそれを超えるコンピュータ可読記憶媒体は、試料に含まれるポリヌクレオチド分子を示すシーケンシングデータを取得することと、参照ヒトゲノムの一部分に関して少なくとも閾値量の相同性を有する1またはそれを超えるポリヌクレオチド分子を決定するアラインメントプロセスを実施することによって、いくつかのアラインメントされた配列表示を作成することと、参照ヒトゲノムの標的領域に対応しないアラインメントされたポリヌクレオチド分子数の部分を同定することによってオフターゲットポリヌクレオチド分子のセットを決定することと、複数のセグメント化プロセスを実施して、参照ヒトゲノムのセグメントの数を決定することと、個々のセグメントに対応するオフターゲットポリヌクレオチド分子のセットの一部分に基づいて、参照ヒトゲノムの個々のセグメントについての定量的尺度を決定することと、個々の定量的尺度、個々のセグメントに対応する腫瘍細胞のコピー数の複数の推定値の個々の推定値に基づいて、試料に関連する腫瘍細胞のコピー数の複数の推定値を決定することと、を含む動作を実施させるコンピュータ可読命令を含む1またはそれを超える非一時的コンピュータ可読記憶媒体とを含む。
いくつかの態様においてコンピューティングシステムの1またはそれを超える非一時的コンピュータ可読記憶媒体は、1またはそれを超えるハードウェアプロセッサによって実行されると、1またはそれを超えるハードウェアプロセッサに、参照ヒトゲノムの第1のセグメントを決定することを含む第1のセグメント化プロセスを実施することあって、第1のセグメントは標的領域を含まない、第1のセグメント化プロセスを実施することと、参照ヒトゲノムの第2のセグメントであって、個々の第1のセグメントよりも多数のヌクレオチドを含み、複数の個々の第1のセグメントを含む個々の第2のセグメントを決定することを含む、第2のセグメント化プロセスを実施することと、により複数のセグメント化プロセスを実施することを含む追加の動作を実施させる、追加のコンピュータ可読命令を含む。
いくつかの態様において個々の定量的尺度は、個々のカバレッジメトリクスに対応し、1またはそれを超える非一時的コンピュータ可読記憶媒体は、1またはそれを超えるハードウェアプロセッサによって実行されると、1またはそれを超えるハードウェアプロセッサに、個々の第1のセグメントに含まれるオフターゲットポリヌクレオチド分子のセットの数に基づいて、個々の第1のセグメントの個々の第1のカバレッジメトリクスを決定することと、コンピューティングシステムによって、個々の第1のカバレッジメトリクスに従って個々の第1のセグメントの正規化されたカバレッジメトリクスを決定することと、個々の第2のセグメントに含まれるそれぞれの複数の個々のセグメントの正規化されたカバレッジメトリクスに基づいて、個々の第2のセグメントの個々の第2のカバレッジメトリクスを決定することと、を含む追加の動作を実施させる追加のコンピュータ可読命令を含む。
いくつかの態様において、コンピューティングシステムの1またはそれを超える非一時的コンピュータ可読記憶媒体は、1またはそれを超えるハードウェアプロセッサによって実行されると、1またはそれを超えるハードウェアプロセッサに、個々の第1のセグメントに関連するポリヌクレオチド分子の中央数に関する個々の第1のカバレッジメトリクスに基づいて、個々の第1のセグメントに対する第1の正規化された定量的尺度を決定することにより、正規化されたカバレッジメトリクスを決定することを含む、追加の動作を実施させる追加のコンピュータ可読命令を含む。
いくつかの態様においてコンピューティングシステムの1またはそれを超える非一時的コンピュータ可読記憶媒体は、1またはそれを超えるハードウェアプロセッサによって実行されると、1またはそれを超えるハードウェアプロセッサに、個々の第1のセグメントの参照カバレッジメトリクスに関する個々のカバレッジメトリクスに基づいて、個々の第1のセグメントの第2の正規化された定量的尺度を決定することであって、参照カバレッジメトリクスが、コピー数多型が検出されない個体から得られた試料に基づいて決定される、個々の第1のセグメントの第2の正規化された定量的尺度を決定することと、個々の第1のセグメントに対する第2の正規化カバレッジメトリクスに関して個々の第1の正規化された定量的尺度を調整することと、を含む追加の動作を実施させる追加のコンピュータ可読命令を含む。
いくつかの態様において、試料に関連する腫瘍細胞のコピー数の推定値は、個々の第2のカバレッジメトリクスに基づく。
いくつかの態様において、個々の定量的尺度は、個々のサイズ分布メトリクスに対応し、1またはそれを超える非一時的コンピュータ可読記憶媒体は、1またはそれを超えるハードウェアプロセッサによって実行されると、1またはそれを超えるハードウェアプロセッサに、個々の第1のセグメントの個々の第1のサイズ分布メトリクスを決定することであって、サイズ分布が、ポリヌクレオチド分子のサイズのそれぞれの範囲にそれぞれ対応する複数のパーティションを含み、個々の第1のセグメントについての個々のサイズ分布メトリクスが、複数のパーティションの各パーティションに対応する、第1のセグメントに含まれるオフターゲットポリヌクレオチド分子のセットの数を示す、個々の第1のセグメントの個々の第1のサイズ分布メトリクスを決定することと、参照サイズ分布メトリクスに関する個々の第1のサイズ分布メトリクスに従って個々の第1のセグメントの正規化されたサイズ分布メトリクスを決定することと、コンピューティングシステムによって、個々の第2のセグメントに含まれるそれぞれの複数の個々の第1のセグメントの正規化されたサイズ分布メトリクスに基づいて、参照ヒトゲノムの個々の第2のセグメントについての個々の第2のサイズ分布メトリクスを決定することと、を含む追加の動作を実施させる追加のコンピュータ可読命令を含む。
いくつかの態様において、試料に関連する腫瘍細胞のコピー数の推定値は、個々の第2のサイズ分布メトリクスに基づく。
いくつかの態様において、コンピューティングシステムの1またはそれを超える非一時的コンピュータ可読記憶媒体は、1またはそれを超えるハードウェアプロセッサによって実行されると、1またはそれを超えるハードウェアプロセッサに、試料に関連する突然変異体対立遺伝子の数に対する試料に関連する野生型対立遺伝子の数の比を決定することと、比に基づいてヘテロ接合一塩基多型(SNP)メトリクスを決定することと、を含む追加の動作を実施させる追加のコンピュータ可読命令を含む。
いくつかの態様においてコンピューティングシステムの1またはそれを超える非一時的コンピュータ可読記憶媒体は、1またはそれを超えるハードウェアプロセッサによって実行されると、1またはそれを超えるハードウェアプロセッサに、SNPメトリックに基づいて、試料に関連する腫瘍細胞のコピー数の追加の推定値を決定することを含む追加の動作を実施させる追加のコンピュータ可読命令を含む。
いくつかの態様においてコンピューティングシステムの1またはそれを超える非一時的コンピュータ可読記憶媒体は、1またはそれを超えるハードウェアプロセッサによって実行されると、1またはそれを超えるハードウェアプロセッサに、個々の定量的尺度に基づいて試料の腫瘍割合の推定値を決定することを含む追加の動作を実施させる追加のコンピュータ可読命令を含む。
いくつかの態様において、腫瘍細胞のコピー数および試料の腫瘍割合についての推定値は、観察された定量的尺度=2*(1-TF)+n*TF(式中、nは腫瘍細胞コピー数であり、TFは試料の腫瘍割合である)に基づいて決定され、観察された定量的尺度は、定量的尺度の少なくとも一部分を含む。
いくつかの態様において1またはそれを超えるコンピュータ可読記憶媒体は、試料に含まれるポリヌクレオチド分子を示すシーケンシングデータを取得することと、参照ヒトゲノムの一部分に関して少なくとも閾値量の相同性を有する1またはそれを超えるポリヌクレオチド分子を決定するアラインメントプロセスを実行することによって、多数のアラインメントされた配列表示を作成することと、参照ヒトゲノムの標的領域に対応しないアラインメントされたポリヌクレオチド分子数の部分を同定することによってオフターゲットポリヌクレオチド分子のセットを決定することと、複数のセグメント化プロセスを実施して、参照ヒトゲノムのセグメントの数を決定することと、個々のセグメントに対応するオフターゲットポリヌクレオチド分子のセットの一部分に基づいて、参照ヒトゲノムの個々のセグメントについての定量的尺度を決定することと、個々の定量的尺度、個々のセグメントに対応する腫瘍細胞のコピー数の複数の推定値の個々の推定値に基づいて、試料に関連する腫瘍細胞のコピー数の複数の推定値を決定することと、を含む、コンピュータ可読命令を含む。
いくつかの態様において、コンピュータ可読記憶媒体は、コンピューティングシステムの1またはそれを超えるプロセッサによって実行されると、コンピューティングシステムに、参照ヒトゲノムの第1のセグメントを決定することによって第1のセグメント化プロセスを実施することによって複数のセグメント化を実施することであって、第1のセグメントは標的領域を含まない、複数のセグメント化を実施することと、参照ヒトゲノムの第2のセグメントを決定することによって第2のセグメント化プロセスを実施することであって、個々の第2のセグメントは、個々の第1のセグメントよりも多数のヌクレオチドを含み、複数の個々の第1のセグメントを含む、第2のセグメント化プロセスを実施することと、を含む動作を実施させるコンピュータ可読命令を含む。
いくつかの態様において、個々の定量的尺度は個々のカバレッジメトリクスに対応し、コンピューティングシステムの1またはそれを超えるプロセッサによって実行されると、コンピューティングシステムに、個々の第1のセグメントに含まれるオフターゲットポリヌクレオチド分子のセットの数に基づいて、個々の第1のセグメントの個々の第1のカバレッジメトリクスを決定することと、個々の第1のカバレッジメトリクスに従って個々の第1のセグメントの正規化されたカバレッジメトリクスを決定することと、個々の第2のセグメントに含まれるそれぞれの複数の個々のセグメントの正規化されたカバレッジメトリクスに基づいて、個々の第2のセグメントの個々の第2のカバレッジメトリクスを決定することと、を含む追加の動作を実施させる、追加のコンピュータ可読命令を含む。
いくつかの態様において、コンピュータ可読記憶媒体は、コンピューティングシステムの1またはそれを超えるプロセッサによって実行されると、コンピューティングシステムに、個々の第1のセグメントのポリヌクレオチド分子の中央数に関する個々の第1のカバレッジメトリクスに基づいて、個々の第1のセグメントに対する第1の正規化された定量的尺度を決定することにより、正規化されたカバレッジメトリクスを決定することを含む動作を実施させるコンピュータ可読命令を含む。
いくつかの態様において、コンピュータ可読記憶媒体は、コンピューティングシステムの1またはそれを超えるプロセッサによって実行されると、コンピューティングシステムに、個々の第1のセグメントの参照カバレッジメトリクスに関する個々のカバレッジメトリクスに基づいて、個々の第1のセグメントの第2の正規化された定量的尺度を決定することであって、参照カバレッジメトリクスが、コピー数多型が検出されない個体から得られた試料に基づいて決定される、個々の第1のセグメントの第2の正規化された定量的尺度を決定することと、個々の第1のセグメントに対する第2の正規化カバレッジメトリクスに関して個々の第1の正規化された定量的尺度を調整することと、を含む動作を実施させるコンピュータ可読命令を含む。
いくつかの態様において、試料に関連する腫瘍細胞のコピー数の推定値は、個々の第2のカバレッジメトリクスに基づく。
いくつかの態様において個々の定量的尺度は個々のサイズ分布メトリクスに対応し、コンピューティングシステムの1またはそれを超えるプロセッサによって実行されると、コンピューティングシステムに、個々の第1のセグメントの個々の第1のサイズ分布メトリクスを決定することであって、サイズ分布が、ポリヌクレオチド分子のサイズのそれぞれの範囲にそれぞれ対応する複数のパーティションを含み、個々の第1のセグメントについての個々のサイズ分布メトリクスが、複数のパーティションの各パーティションに対応する、第1のセグメントに含まれるオフターゲットポリヌクレオチド分子のセットの数を示す、個々の第1のセグメントの個々の第1のサイズ分布メトリクスを決定することと、参照サイズ分布メトリクスに関する個々の第1のサイズ分布メトリクスに従って個々の第1のセグメントの正規化されたサイズ分布メトリクスを決定することと、個々の第2のセグメントに含まれるそれぞれの複数の個々の第1のセグメントの正規化されたサイズ分布メトリクスに基づいて、参照ヒトゲノムの個々の第2のセグメントについての個々の第2のサイズ分布メトリクスを決定することと、を含む追加の動作を実施させる、追加のコンピュータ可読命令を含む。
いくつかの態様において、コンピュータ可読記憶媒体は、コンピューティングシステムの1またはそれを超えるプロセッサによって実行されると、コンピューティングシステムに、試料に関連する多数の突然変異体対立遺伝子に対する試料に関連する多数の野生型対立遺伝子の比を決定することと、比に基づいてヘテロ接合一塩基多型(SNP)メトリクスを決定することとを含む動作を実施させるコンピュータ可読命令を含む。
いくつかの態様において、コンピュータ可読記憶媒体は、コンピューティングシステムの1またはそれを超えるプロセッサによって実行されると、コンピューティングシステムに、SNPメトリックに基づいて、試料に関連する腫瘍細胞のコピー数の追加の推定値を決定することを含む動作を実施させるコンピュータ可読命令を含む。
いくつかの態様において、1またはそれを超えるコンピュータ可読記憶媒体は、コンピューティングシステムの1またはそれを超えるプロセッサによって実行されると、コンピューティングシステムに、個々の定量的尺度に基づいて試料の腫瘍割合の推定値を決定することを含む動作を実施させるコンピュータ可読命令を含む。
いくつかの態様において、腫瘍細胞のコピー数および試料の腫瘍割合についての推定値は、観察された定量的尺度=2*(1-TF)+n*TF(式中、nは腫瘍細胞コピー数であり、TFは試料の腫瘍割合である)に基づいて決定され、観察された定量的尺度は、定量的尺度の少なくとも一部分を含む。
定義
本開示をより容易に理解するために、特定の用語を以下で最初に定義する。以下の用語および他の用語の追加の定義は、本明細書を通して説明することができる。以下に記載される用語の定義が、参照により組み込まれる出願または特許における定義と矛盾する場合、本出願に記載される定義は、その用語の意味を理解するために使用されるべきである。
本明細書および添付の特許請求の範囲で使用される場合、単数形「1つの(a)」、「1つの(an)」および「その(the)」は、文脈が明らかにそうでないことを指示しない限り、複数の言及を含む。したがって、例えば、「方法」への言及は、本明細書に記載された種類の、および/または本開示などを読めば当業者には明らかになるであろう1またはそれを超える方法および/または工程を含む。
本明細書で使用される用語は、特定の実施態様を説明することのみを目的としており、限定することを意図していないことも理解されたい。さらに、他に定義されない限り、本明細書で使用される全ての技術用語および科学用語は、本開示が属する技術分野の当業者によって一般的に理解されるのと同じ意味を有する。方法、コンピュータ可読媒体、およびシステムの説明および特許請求において、以下の用語、およびそれらの文法上の変形は、以下に記載される定義に従って使用される。
約:本明細書で使用される場合、1またはそれを超える目的の値または要素に適用される「約」または「およそ」は、記載された参照値または要素と同様の値または要素を指す。特定の実施態様において、「約」または「およそ」という用語は、特に明記しない限り、または文脈から明らかでない限り(そのような数が可能な値または要素の100%を超える場合を除く)、記載された参照値または要素のいずれかの方向(より大きいまたはより小さい)において25%,20%,19%,18%,17%,16%,15%,14%,13%,12%,11%,10%,9%,8%,7%,6%,5%,4%,3%,2%,1%,またはそれ未満に入る値または要素の範囲を指す。
投与する(施す):本明細書で使用される場合、治療剤(例えば、免疫学的治療剤)を対象に「投与する」または「投与すること」は、組成物を対象に与える、付与する、または接触させることを意味する。投与は、例えば、局所、経口、皮下、筋肉内、腹腔内、静脈内、髄腔内および皮内を含むいくつかの経路のいずれかによって達成することができる。
アダプタ:本明細書で使用される場合、「アダプタ」は、少なくとも部分的に二本鎖であり得、所与の試料核酸分子のいずれかまたは両方の末端に連結するために使用され得る短い核酸(例えば、約500ヌクレオチド未満、約100ヌクレオチド未満、または約50ヌクレオチド未満の長さ)を指す。アダプタは、両端にアダプタが隣接する核酸分子の増幅を可能にする核酸プライマー結合部位、および/または配列決定用途、例えば様々な次世代シーケンシング(NGS)用途のためのプライマー結合部位を含む配列決定プライマー結合部位を含み得る。アダプタはまた、フローセル支持体に結合したオリゴヌクレオチドなどの捕捉プローブのための結合部位を含むことができる。アダプタはまた、本明細書に記載の核酸タグを含み得る。核酸タグは、核酸タグが所与の核酸分子のアンプリコンおよび配列リードに含まれるように、増幅プライマーおよびシーケンシングプライマー結合部位に対して配置することができる。同じまたは異なるアダプタを核酸分子のそれぞれの末端に連結することができる。いくつかの実施態様において、核酸タグが異なることを除いて、同じアダプタが核酸分子のそれぞれの末端に連結される。いくつかの実施態様において、アダプタは、核酸分子に結合するために、本明細書に記載のように一端が平滑末端または尾部を有するY字型アダプタであり、これも1またはそれを超える相補的ヌクレオチドによる平滑末端または尾部を有する。更に他の例示的な実施態様において、アダプタは、分析される核酸分子に結合するための平滑末端またはテール末端を含むベル形アダプタである。アダプタの他の例には、TテールアダプタおよびCテールアダプタが含まれる。
アラインメント:本明細書で使用される場合、「アラインメント」または「アラインメントする」は、少なくとも2つの配列表示が少なくとも閾値量の相同性を有するかどうかを決定することを指す。1またはそれを超える例では、相同性の閾値量は、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、少なくとも約99.5%、または少なくとも約99.9%であり得る。2つの配列表示が少なくとも閾値量の相同性を有する状況では、2つの配列表示は「アラインメントされている」と呼ぶことができる。
増幅:本明細書で使用される場合、核酸に関連して「増幅する」または「増幅」とは、少量のポリヌクレオチド(例えば、単一ポリヌクレオチド分子)から始まるポリヌクレオチドまたはポリヌクレオチドの一部分の複数のコピーの生成を指し、増幅産物またはアンプリコンは一般に検出可能である。ポリヌクレオチドの増幅は、様々な化学的および酵素的プロセスを包含する。
バーコード:本明細書で使用される場合、核酸の文脈における「バーコード」または「分子バーコード」は、分子識別子として機能することができる配列を含む核酸分子を指す。例えば、個々の「バーコード」配列は、各リードを最終データ分析の前に同定および選別することができるように、次世代シーケンシング(NGS)ライブラリー調製中に各DNA断片に付加され得る。
癌型:本明細書で使用される場合、「癌型」は、例えば組織病理学によって定義される癌のタイプまたはサブタイプを指す。癌型は、所与の組織における発生に基づいて(例えば、血液癌、中枢神経系(CNS)、脳癌、肺癌(小細胞および非小細胞)、皮膚癌、鼻癌、咽喉癌、肝臓癌、骨癌、リンパ腫、膵臓癌、腸癌、直腸癌、甲状腺癌、膀胱癌、腎臓癌、口腔癌、胃癌、乳癌、前立腺癌、卵巣癌、肺癌、腸癌、軟部組織癌、神経内分泌癌、胃食道癌、頭頸部癌、婦人科癌、結腸直腸癌、尿路上皮癌、固形癌、異種癌、均質癌(homogenous cancer))、未知の一次起源など、および/または同じ細胞系統のもの(例えば、癌腫、肉腫、リンパ腫、胆管癌、白血病、中皮腫、黒色腫または膠芽腫)および/またはHer2、CA15-3、CA19-9、CA-125、CEA、AFP、PSA、HCG、ホルモン受容体およびNMP-22などの癌マーカーを示す癌など、任意の従来の基準によって定義され得る。癌はまた、ステージ(例えば、ステージ1、2、3、または4)および原発性か二次性かによって分類することができる。
搬送波信号:本明細書で使用される場合、「搬送波信号」は、マシン1100による実行のための一時的または非一時的命令1102を記憶、符号化、または搬送することが可能な任意の無形媒体を指し、そのような命令1102の通信を容易にするためのデジタルまたはアナログ通信信号または他の無形媒体を含む。命令1102は、ネットワークインターフェースデバイスを介して一時的または非一時的伝送媒体を使用し、いくつかの周知の転送プロトコルのいずれかを使用して、ネットワーク1134を介して送信または受信することができる。
無細胞核酸:本明細書で使用される場合、「無細胞核酸」は、細胞内に含有されていないか、そうでなければ細胞に結合していない核酸、またはいくつかの実施態様において無傷の細胞の除去後に試料中に残っている核酸を指す。無細胞核酸は、例えば、対象からの体液(例えば、血液、血漿、血清、尿、脳脊髄液(CSF)など)に由来する全ての非カプセル化核酸を含み得る。無細胞核酸には、ゲノムDNA、ミトコンドリアDNA、循環DNA、siRNA、miRNA、循環RNA(cRNA)、tRNA、rRNA、核小体低分子RNA(snoRNA)、Piwi相互作用RNA(piRNA)、長鎖非コードRNA(長鎖ncRNA)、および/またはこれらのいずれかの断片を含む、DNA(cfDNA)、RNA(cfRNA)、およびそれらのハイブリッドが含まれる。無細胞核酸は、二本鎖、一本鎖、またはそれらのハイブリッドであり得る。無細胞核酸は、分泌または細胞死プロセス、例えば細胞壊死、アポトーシスなどを介して体液に放出され得る。いくつかの無細胞核酸は、癌細胞、例えば循環腫瘍DNA(ctDNA)から体液中に放出される。他のものは、健康な細胞から放出される。CtDNAは、非カプセル化腫瘍由来断片化DNAであり得る。無細胞核酸は、1またはそれを超えるエピジェネティック修飾を有することができ、例えば、無細胞核酸は、アセチル化、5-メチル化、ユビキチン化、リン酸化、SUMO化、リボシル化、および/またはシトルリン化され得る。
細胞核酸:本明細書で使用される場合、「細胞核酸」は、少なくとも試料が対象から採取または収集された時点で、1またはそれを超える細胞内に配置されている核酸を意味し、それらの核酸はその後、所与の分析プロセスの一部として除去される。
通信ネットワーク:本明細書で使用される場合、「通信ネットワーク」は、アドホックネットワーク、イントラネット、エクストラネット、仮想プライベートネットワーク(VPN)、ローカルエリアネットワーク(LAN)、無線LAN(WLAN)、ワイドエリアネットワーク(WAN)、無線WAN(WWAN)、メトロポリタンエリアネットワーク(MAN)、インターネット、インターネットの一部分、公衆交換電話網(PSTN)の一部分、プレーンオールド電話サービス(POTS)ネットワーク、携帯電話ネットワーク、無線ネットワーク、Wi-Fi(登録商標)ネットワーク、別のタイプのネットワーク、または2つ以上のそのようなネットワークの組み合わせであり得るネットワーク114、1034の1またはそれを超える部分を指す。例えば、ネットワーク114、1034またはネットワークの一部分は、無線またはセルラネットワークを含んでもよく、結合は、符号分割多元接続(CDMA)接続、グローバル移動体通信システム(GSM(登録商標))接続、または他のタイプのセルラもしくは無線結合であってもよい。この例では、結合は、シングル・キャリア無線伝送技術(1xRTT)、エボリューション・データ・オプティマイズド(EVDO)技術、汎用パケット無線サービス(GPRS)技術、GSM(登録商標)進化型高速データレート(EDGE)技術、3Gを含む第3世代パートナーシップ・プロジェクト(3GPP(登録商標))、第4世代無線(4G)ネットワーク、ユニバーサル移動体通信システム(UMTS)、高速パケット・アクセス(HSPA)、マイクロ波を利用した世界標準の通信方式(WiMAX)、ロング・ターム・エボリューション(LTE)規格、その他様々な規格設定機関によって定義されたもの、その他の長距離プロトコル、またはその他のデータ転送技術のような様々なタイプのデータ転送技術のいずれかを実装し得る。
信頼区間:本明細書で使用される場合、「信頼区間」は、所与のパラメータの値がその値の範囲内にある特定の確率が存在するように定義された値の範囲を意味する。
対照試料:本明細書で使用される場合、「対照試料」または「参照試料」は、既知のコピー数多型のない個体から得られた試料を指す。
コピー数:本明細書で使用される場合、腫瘍細胞または非腫瘍細胞におけるコピー数に対応する整数である「整数コピー数」を含み得る。コピー数はまた、腫瘍細胞と非腫瘍細胞との混合物のコピー数を表す実数である「観察されたコピー数」を含み得る。
コピー数増幅:本明細書で使用される場合、「コピー数増幅」は、対照集団のゲノム内のゲノム領域のリピート数と比較した、個体のゲノム内のゲノム領域のリピート数の増加を指す。
コピー数欠失:本明細書で使用される場合、「コピー数欠失」は、対照集団のゲノム内のゲノム領域のリピート数と比較した、個体のゲノム内のゲノム領域のリピート数の減少を指す。
コピー数変異体:本明細書で使用される場合、「コピー数変異体」、「CNV」または「コピー数多型」は、ゲノムのセクションが繰り返され、ゲノム内の反復の数が、検討中の集団内の個体間で異なり、個体の2つの症状または状況間で異なる現象を指す(例えば、CNVは、治療を受ける前および後に個体において変動し得る)。
カバレッジ:本明細書で使用される場合、「カバレッジ」または「カバレッジメトリクス」は、参照配列の特定のゲノム領域に対応する核酸分子または配列決定リードの数を指す。
デオキシリボ核酸またはリボ核酸:本明細書で使用される場合、「デオキシリボ核酸」または「DNA」は、糖部分の2’位に水素基を有する天然または修飾ヌクレオチドを指す。DNAは、アデニン(A)、チミン(T)、シトシン(C)、およびグアニン(G)の4種類のヌクレオチド塩基を含むヌクレオチドの鎖を含むことができる。本明細書で使用される場合、「リボ核酸」または「RNA」は、糖部分の2’位にヒドロキシル基を有する天然または修飾ヌクレオチドを指す。RNAは、4種類のヌクレオチド:A、ウラシル(U)、GおよびCを含むヌクレオチドの鎖を含み得る。本明細書で使用される場合、「ヌクレオチド」という用語は、天然ヌクレオチドまたは修飾ヌクレオチドを指す。特定のヌクレオチド対は、相補的な様式で互いに特異的に結合する(相補的塩基対合と呼ばれる)。DNAにおいて、アデニン(A)はチミン(T)と対になり、シトシン(C)はグアニン(G)と対になる。RNAでは、アデニン(A)はウラシル(U)と対を形成し、シトシン(C)はグアニン(G)と対を形成する。第1の核酸鎖が、第1の鎖のヌクレオチドに相補的なヌクレオチドからなる第2の核酸鎖に結合すると、2本の鎖が結合して二本鎖を形成する。本明細書で使用される場合、「核酸シーケンシングデータ」、「核酸配列決定情報」、「配列情報」、「配列表示」、「核酸配列」、「ヌクレオチド配列」、「ゲノム配列」、「遺伝子配列」、「フラグメント配列」、「配列決定リード」、または「核酸配列決定リード」は、DNAまたはRNA等の核酸の分子(例えば、全ゲノム、全トランスクリプトーム、エクソーム、オリゴヌクレオチド、ポリヌクレオチドまたはフラグメント)中のヌクレオチド塩基(例えば、アデニン、グアニン、シトシンおよびチミンまたはウラシル)の順序および同一性を示す任意の情報またはデータを意味する。本教示は、キャピラリー電気泳動、マイクロアレイ、ライゲーションに基づくシステム、ポリメラーゼに基づくシステム、ハイブリダイズに基づくシステム、直接的または間接的なヌクレオチド同定システム、パイロシークエンシング、イオンまたはpHに基づく検出システム、および電子シグナル伝達に基づくシステムを含むがこれらに限定されない全ての利用可能な様々な技術、プラットフォームまたは技術を使用して得られた配列情報を企図していることを理解されたい。
ドライバ突然変異:本明細書で使用される場合、「ドライバ突然変異」は、癌の進行を駆動する突然変異を意味する。
免疫療法:本明細書で使用される場合、「免疫療法」は、癌細胞を死滅させるかまたは少なくとも癌細胞の増殖を阻害するように、好ましくは癌の更なる増殖を減少させる、癌のサイズを縮小させる、および/または癌を排除するように免疫系を刺激するように作用する1またはそれを超える薬剤による処置を指す。いくつかのそのような薬剤は、癌細胞上に存在する標的に結合し、いくつかは、免疫細胞上に存在し、癌細胞上に存在しない標的に結合し、いくつかは、癌細胞および免疫細胞の両方に存在する標的に結合する。そのような薬剤には、チェックポイント阻害剤および/または抗体が含まれるが、これらに限定されない。チェックポイント阻害剤は、自己寛容を維持し、末梢組織における生理学的免疫応答の持続時間および振幅を調節して付随する組織損傷を最小限に抑える免疫系の経路の阻害剤である(例えば、Pardoll,Nature Reviews Cancer 12,252-264(2012)を参照)。例示的な薬剤としては、PD-1、PD-2、PD-L1、PD-L2、CTLA-40、OX40、B7.1、B7He、LAG3、CD137、KIR、CCR5、CD27またはCD40のいずれかに対する抗体が挙げられる。他の例示的な薬剤としては、炎症促進性サイトカイン、例えばIL-1β、IL-6およびTNF-αが挙げられる。他の例示的な作用物質は、腫瘍に対して活性化されるT細胞、例えば、T細胞によって認識される腫瘍抗原を標的とするキメラ抗原を発現することによって活性化されるT細胞である。
インデル:本明細書で使用される場合、「インデル」は、対象のゲノム内のヌクレオチドの挿入または欠失を含む突然変異を指す。
検出限界(LoD):本明細書で使用される場合、「検出限界」は、所与のアッセイまたは分析アプローチによって測定することができる試料中の物質(例えば、核酸)の最小量を意味する。
マシン可読媒体:本明細書で使用する場合、「マシン可読媒体」は、命令1102およびデータを一時的または永続的に記憶することができるコンポーネント、デバイス、または他の有形媒体を指し、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、バッファメモリ、フラッシュメモリ、光媒体、磁気媒体、キャッシュメモリ、他の種類の記憶装置(例えば、消去可能プログラマブル読み出し専用メモリ(EEPROM))、および/またはそれらの任意の適切な組み合わせを含み得るが、これらに限定されない。「マシン可読媒体」という用語は、命令1102を記憶することができる単一の媒体または複数の媒体(例えば、集中型もしくは分散型データベース、または関連するキャッシュおよびサーバ)を含むと解釈され得る。「マシン可読媒体」という用語はまた、マシン1100が実行するための命令1102(例えば、コード)を記憶することができる任意の媒体、または複数の媒体の組み合わせを含むと解釈されるべきであり、命令1102は、マシン1100の1またはそれを超えるプロセッサ1104によって実行されると、マシン1100に本明細書に記載の1またはそれを超える方法論のうちのいずれかを実施させる。したがって、「マシン可読媒体」は、単一のストレージ装置またはデバイス、ならびに複数のストレージ装置またはデバイスを含む「クラウドベース」ストレージシステムまたはストレージネットワークを指す。「マシン可読媒体」という用語は、信号自体を除外する。
マッピング可能性スコア::本明細書で使用される場合、「マッピング可能性スコア」は、参照配列の2つの領域間の相同性の量を示す値を指す。2つのそれぞれの領域に対するマッピング可能性スコアは、それぞれの領域間の相同性の量が増加するにつれて、増加する値を有することができる。さらに、2つのそれぞれの領域に対するマッピング可能性スコアは、それぞれの領域間の相同性の量が減少するにつれて減少する値を有することができる。相同性の量は、領域と参照配列との間のミスアラインメントの量を決定することによって決定することができる。マッピング可能性スコアが増加するにつれて、領域がミスアラインメントである確率が低下する。さらに、マッピング可能性スコアが減少するにつれて、領域がミスアラインメントである確率が増加する。
最大MAF:本明細書で使用される場合、「最大MAF(maximum MAF)」または「最大MAF(max MAF)」は、試料中の全ての体細胞性突然変異体の最大MAFを指す。
マイナー対立遺伝子頻度:本明細書で使用される場合、「マイナー対立遺伝子頻度」は、対象から得られた試料等の核酸の所与の集団においてマイナー対立遺伝子(例えば、最も一般的な対立遺伝子ではない)が発生する頻度を指す。マイナー対立遺伝子頻度が低い遺伝的変異体は、試料中に比較的低い頻度で存在することができる。
突然変異体対立遺伝子割合:本明細書で使用される場合、「突然変異体対立遺伝子割合」、「突然変異用量」または「MAF」は、所与の試料中の所与のゲノム位置に対立遺伝子の変化または変異を有する核酸分子の割合を指す。MAFは、一般に、割合またはパーセンテージとして表される。例えば、MAFは、所与の遺伝子座に存在する全ての体細胞性変異体または対立遺伝子の約0.5、0.1、0.05、または0.01未満(すなわち、約50%、10%、5%、または1%未満)であり得る。
突然変異:本明細書で使用される場合、「突然変異」は、既知の参照配列からの変異を指し、例えば、単一ヌクレオチド変異体(SNV)、コピー数多型体または変異(CNV)/異常、挿入または欠失(インデル)、遺伝子融合、トランスバージョン、転座、フレームシフト、重複、反復伸長、およびエピジェネティック変異体等の突然変異を含む。突然変異は、生殖系列または体細胞性の突然変異であり得る。いくつかの例では、比較のための参照配列は、試験試料、典型的にはヒトゲノムを提供する対象の種の野生型ゲノム配列である。
突然変異呼び出し元(caller):本明細書で使用される場合、「突然変異呼び出し元」は、試験試料データ(例えば、対象から得られた配列情報)の突然変異を同定するために使用されるアルゴリズム(ソフトウェアまたは他のコンピュータ実装で具現化される)を意味する。
突然変異カウント:本明細書で使用される場合、「突然変異カウント」または「突然変異のカウント」は、核酸試料の全ゲノムまたはエクソームまたは標的化領域における体細胞性突然変異の数を指す。
新生物:本明細書で使用される場合、「新生物」および「腫瘍」という用語は互換的に使用される。それらは、対象における細胞の異常な成長を指す。新生物または腫瘍は、良性、潜在的に悪性、または悪性であり得る。悪性腫瘍は、癌または癌性腫瘍と呼ばれる。
次世代シーケンシング:本明細書で使用される場合、「次世代シーケンシング」または「NGS」は、例えば、一度に数十万個の比較的小さな配列決定リードを作成する能力を有する、従来のサンガー電気泳動およびキャピラリー電気泳動に基づくアプローチと比較してスループットが向上したシーケンシング技術を指す。次世代シーケンシング技術のいくつかの例には、合成によるシーケンシング、ライゲーションによるシーケンシング、およびハイブリダイゼーションによるシーケンシングが含まれるが、これらに限定されない。
核酸タグ:本明細書で使用される場合、「核酸タグ」は、異なる試料(例えば、試料インデックスを表す)からの核酸、または同じ試料(例えば、分子バーコードを表す)中の異なる核酸分子、異なるタイプ、または異なる処理を受けた核酸を区別するために使用される短い核酸(例えば、約500ヌクレオチド未満、約100ヌクレオチド、約50ヌクレオチドまたは約10ヌクレオチド長)を指す。核酸タグは、所定の固定された非ランダム、ランダムまたはセミランダムオリゴヌクレオチド配列を含む。そのような核酸タグは、異なる核酸分子または異なる核酸試料またはサブ試料を標識するために使用され得る。核酸タグは、一本鎖、二本鎖、または少なくとも部分的に二本鎖であり得る。核酸タグは、必要に応じて同じ長さまたは様々な長さを有する。核酸タグはまた、1またはそれを超える平滑末端を有する二本鎖分子を含むことができ、5’または3’一本鎖領域(例えば、オーバーハング)を含むことができ、および/または所与の分子内の他の位置に1またはそれを超える他の一本鎖領域を含むことができる。核酸タグは、他の核酸(例えば、増幅および/または配列決定される試料核酸)の一端または両端に取り付けることができる。核酸タグを復号して、所与の核酸の起源、形態または処理の試料等の情報を明らかにすることができる。例えば、核酸タグを使用して、異なる分子バーコードおよび/または試料インデックスを有する核酸を含む複数の試料のプール化および/または並列処理を可能にすることもでき、核酸タグを検出する(例えば、読み取り)ことによって、核酸がその後デコンボリューションされる。核酸タグは、識別子(例えば、分子識別子、試料識別子)とも呼ばれ得る。追加的または代替的に、核酸タグを分子識別子(例えば、同じ試料またはサブ試料中の異なる分子または異なる親分子のアンプリコンを区別するために)として使用することができる。これには、例えば、所与の試料中の異なる核酸分子をユニークにタグ付けすること、またはそのような分子をユニークにタグ付けしないことが含まれる。非ユニークなタグ付け用途の場合、少なくとも1つの分子バーコードと組み合わせてそれらの内因性配列情報(例えば、選択された参照配列、配列の一端もしくは両端の部分配列、および/または配列の長さにマッピングする開始位置および/または停止位置)に基づいて異なる分子を区別できるように、限られた数のタグ(すなわち、分子バーコード)を使用して各核酸分子をタグ付けすることができる。任意の2つの分子が同じ内因性配列情報(例えば、開始位置および/または停止位置、配列の一端もしくは両端の部分配列、および/または長さ)を有し、また同じ分子バーコードを有し得る確率が低い(例えば、約10%未満、約5%未満、約1%未満、または約0.1%未満の可能性)ように、十分な数の異なる分子バーコードが使用される。
オフターゲット領域:本明細書で使用される場合、「オフターゲット領域」は、参照配列の標的領域の外側にある参照配列のゲノム領域を指す。例えば、オフターゲット領域は、目的のポリヌクレオチドを捕捉するために使用される1またはそれを超えるプローブに対応する参照配列の領域の外側にある参照配列の領域を含み得る。
オフターゲット配列表示:本明細書で使用される場合、「オフターゲット配列表示」は、参照配列の標的領域の外側にあるゲノム領域に対して少なくとも閾値量の相同性を有するポリヌクレオチド分子または配列決定リードを指す。オフターゲット配列表示は、オフターゲット領域と整列するポリヌクレオチド分子および配列リードを指すことができる。相同性の閾値量は、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、少なくとも約99.5%、または少なくとも約99.9%であり得る。
オンターゲット配列表示:本明細書で使用される場合、「オンターゲット配列表示」は、参照配列の標的領域に関して少なくとも閾値量の相同性を有するポリヌクレオチドまたは配列決定リードを指す。オンターゲット配列表示は、オンターゲット領域と整列するポリヌクレオチド分子および配列リードを指すことができる。相同性の閾値量は、少なくとも約90%、少なくとも約91%、少なくとも約92%、少なくとも約93%、少なくとも約94%、少なくとも約95%、少なくとも約96%、少なくとも約97%、少なくとも約98%、少なくとも約99%、少なくとも約99.5%、または少なくとも約99.9%であり得る。
ポリヌクレオチド:本明細書で使用される場合、「ポリヌクレオチド」、「核酸」、「核酸分子」、「ポリヌクレオチド分子」、または「オリゴヌクレオチド」は、ヌクレオシド間結合によって連結されたヌクレオシド(デオキシリボヌクレオシド、リボヌクレオシド、またはそれらの類似体を含む)の直鎖ポリマーを指す。ポリヌクレオチドは、少なくとも3つのヌクレオシドを含むことができる。オリゴヌクレオチドは、数個のモノマー単位、例えば3~4個から数百個のモノマー単位のサイズの範囲であることが多い。ポリヌクレオチドが「ATGCCTG」などの文字の配列によって表されるときはいつでも、特に断らない限り、ヌクレオチドは左から右に向かって5’→3’の順序であり、DNAの場合、「A」はデオキシアデノシンを表し、「C」はデオキシシチジンを表し、「G」はデオキシグアノシンを表し、「T」はデオキシチミジンを表すことが理解されよう。文字A、C、G、およびTは、当技術分野で標準的であるように、塩基自体、ヌクレオシド、または塩基を含むヌクレオチドを指すために使用され得る。
プローブ::本明細書で使用される場合、「プローブ」は、官能性を含むポリヌクレオチドを指す。官能性は、検出可能な標識(蛍光性)、結合部分(ビオチン)または固体支持体(磁気的に引きつけ可能な粒子またはチップ)であり得る。プローブは、標的核酸配列(例えば、SureSelect(登録商標)プローブ、Agilent Technologies)にハイブリダイズする一本鎖DNA/RNAポリヌクレオチドまたは二本鎖DNAポリヌクレオチドを含み得る。プローブを使用した配列捕捉は、一般に、部分的には、プローブの配列に相補的(またはほぼ相補的)である標的核酸配列の少なくとも一部分における連続ヌクレオチドの数に依存する。いくつかの例では、プローブはドライバ突然変異に対応し得る。
処理:本明細書で使用される場合、「処理する」、「計算する」、および「比較する」という用語は、互換的に使用することができる。特定の用途では、この用語は、差、例えば、数または配列の差を決定することを指す。例えば、遺伝子発現、コピー数多型(CNV)、インデル、および/または単一ヌクレオチド変異体(SNV)の値もしくは配列を処理することができる。
プロセッサ:本明細書で使用される場合、「プロセッサ」は、制御信号(例えば、「コマンド、」、「opコード、」、「マシンコード、」等である。)に従ってデータ値を操作し、マシンを動作させるために適用される対応する出力信号を生成する任意の回路または仮想回路(実際のプロセッサ上で実行される論理によってエミュレートされる物理回路)を指す。プロセッサは、例えば、CPU、RISCプロセッサ、CISCプロセッサ、GPU、DSP、ASIC、RFIC、またはそれらの任意の組み合わせであってもよい。プロセッサは更に、同時に命令を実行し得る2またはそれを超える独立したプロセッサ「コア」を有するマルチコアプロセッサであってもよい。
定量的尺度:本明細書で使用される場合、「定量的測定」は、配列表示の特徴を分析することによって作成される数値を指す。定量的尺度は、カバレッジメトリクスおよびサイズ分布メトリクスを含むことができる。定量的尺度はまた、標的領域に対応する参照配列のゲノム領域に関連する生殖系列一塩基多型の突然変異体対立遺伝子頻度を含み得る。
参照配列:本明細書で使用される場合、「参照配列」は、実験的に決定された配列と比較する目的で使用される既知の配列を指す。例えば、既知の配列は、全ゲノム、染色体、またはそれらの任意のセグメントであり得る。参照配列は、少なくとも約20、少なくとも約50、少なくとも約100、少なくとも約200、少なくとも約250、少なくとも約300、少なくとも約350、少なくとも約400、少なくとも約450、少なくとも約500、少なくとも約1000、またはそれを超えるヌクレオチドを含むことができる。参照配列は、ゲノムもしくは染色体の単一の連続した配列と整列することができ、またはゲノムまたは染色体の異なる領域と整列する不連続なセグメントを含むことができる。例示的な参照配列には、例えば、hG19およびhG38等のヒトゲノム参照配列が含まれる。
試料:本明細書で使用される場合、「試料」は、本明細書に開示される方法および/またはシステムによって分析することができる任意のものを意味する。
感度:本明細書で使用される場合、「感度」は、所与のMAFおよびカバレッジで単一ヌクレオチド変異体、挿入および欠失の存在を検出する確率、ならびに所与の腫瘍割合およびカバレッジでコピー数変異体の存在を検出する確率を意味する。
配列決定:本明細書で使用される場合、「配列決定」は、生体分子、例えばDNAまたはRNA等の核酸の配列(例えば、モノマー単位の同一性および順序)を決定するために使用されるいくつかの技術のいずれかを指す。例示的な配列決定方法としては、限定されないが、標的化シークエンシング、一分子リアルタイムシークエンシング、エクソンまたはエクソームシークエンシング、イントロンシークエンシング、電子顕微鏡ベースのシークエンシング、パネルシークエンシング、トランジスタ媒介シークエンシング、直接シークエンシング、ランダムショットガンシーケンシング、サンガージデオキシ終結シーケンシング、全ゲノムシーケンシング、ハイブリダイゼーションによるシーケンシング、パイロシーケンシング、キャピラリー電気泳動、二本鎖シーケンシング、サイクルシーケンシング、一塩基伸長シーケンシング、固相シーケンシング、ハイスループットシーケンシング、大規模並列シグネチャーシーケンシング、エマルジョンPCR、低変性温度での共増幅-PCR(COLD-PCR)、マルチプレックスPCR、可逆的色素ターミネーターによるシーケンシング、ペアエンドシーケンシング、near-termシーケンシング、エキソヌクレアーゼシーケンシング、ライゲーションによるシーケンシング、ショートリードシーケンシング、単一分子シーケンシング、合成によるシーケンシング、リアルタイムシーケンシング、逆ターミネーターシーケンシング、ナノポアシーケンシング、454シーケンシング、Solexa Genome Analyzerシーケンシング、SOLiD(商標)シーケンシング、MS-PETシーケンシング、およびそれらの組み合わせが挙げられる。いくつかの実施態様において配列決定は、とりわけ、Illumina,Inc.、Pacific Biosciences,Inc.、またはApplied Biosystems/Thermo Fisher Scientificから市販されている遺伝子分析装置等の遺伝子分析装置によって実施することができる。
一塩基多型:本明細書で使用される場合、「一塩基多型」またはSNPは、ゲノムの特定の部分で起こり、所与の表現型を有する集団(例えば、1%)の少なくとも閾値割合に存在する一塩基の突然変異または変異を意味する。生殖系列一塩基多型は、生殖系列SNPが存在する集団の画分の生殖系列に存在する。
一塩基変異体:本明細書で使用される場合、「一塩基変異体」または「SNV」は、ゲノムの特定の位置で起こる一塩基の突然変異または変異を意味する。
サイズ分布メトリクス:本明細書で使用される場合、「サイズ分布メトリクス」は、個々の配列表示のサイズに基づくサイズ分布の個々のパーティションに含まれるいくつかの配列表示を指す。配列表示のサイズは、配列表示で表されるヌクレオチドの数を指すことができる。さらに、サイズ分布の個々のパーティションは、配列表示のサイズの範囲を含むことができる。様々な例において、サイズ分布における2つの隣接するパーティションのサイズの範囲は、重複しなくてもよい。
体細胞性突然変異:本明細書で使用される場合、「体細胞性突然変異」は、受胎後に起こるゲノムの突然変異を意味する。体細胞性突然変異は、生殖細胞を除く身体の任意の細胞で起こり得、したがって子孫には伝えられない。
対象:本明細書で使用される場合、「対象」は、哺乳動物種(例えば、ヒト)もしくは鳥類(例えば、鳥)種などの動物、または植物などの他の生物を指す。より具体的には、対象は、脊椎動物、例えば、マウス、霊長類、サルまたはヒトなどの哺乳動物であり得る。動物には、家畜(例えば、生産用のウシ、乳牛、家禽、ウマ、ブタなど)、スポーツ動物、およびコンパニオンアニマル(例えば、ペットまたはサポート動物)が含まれる。対象は、健康な個体、疾患もしくは疾患の素因を有するもしくは有すると疑われる個体、または療法を必要としているもしくは療法を必要とすると疑われる個体であり得る。「個体」または「患者」という用語は、「対象」と交換可能であることを意図している。
例えば、対象は、癌を有すると診断された、癌療法を受ける予定である、および/または少なくとも1つの癌療法を受けたことがある個体であり得る。対象は、癌の寛解状態にあり得る。別の例として、対象は、自己免疫疾患を有すると診断された個体であり得る。別の例として、対象は、妊娠しているかまたは妊娠を計画している女性個体であり得、疾患、例えば癌、自己免疫疾患を有すると診断されているかまたは疑われ得る者であり得る。
標的領域:本明細書で使用される場合、「標的領域」は、目的のゲノム領域を指す。例えば、目的のゲノム領域は、1またはそれを超える癌型と一致する1またはそれを超える突然変異に対応し得る。さらに、目的のゲノム領域は、1またはそれを超えるプローブによって濃縮され得る。
閾値:本明細書で使用される場合、「閾値」は、閾値との関係に応じて異なる試料に対して同じパラメータの実験的に決定された値を特徴付けるために使用される所定の値を指す。
腫瘍割合:本明細書で使用される場合、「腫瘍割合」は、所与の試料中の腫瘍に由来する核酸分子の割合の推定値を指す。例えば、試料の腫瘍割合は、試料の最大MAFまたは試料の配列決定カバレッジのパターンまたは試料中のcfDNA断片の長さまたは試料の任意の他の選択された特徴に由来する尺度であり得る。場合によっては、試料の腫瘍割合は、試料の最大MAFに等しい。
変異体:本明細書で使用される場合、「変異体」は対立遺伝子と呼ばれ得る。変異体は、対立遺伝子がヘテロ接合性であるかホモ接合性であるかに応じて、通常50%(0.5)または100%(1)の頻度で提示される。例えば、生殖系列変異体は遺伝し、通常0.5または1の頻度を有する。体細胞性変異体;しかし、は後天性変異体であり、通常は<0.5の頻度を有する。遺伝子座の主要および副次対立遺伝子は、遺伝子座が参照配列のヌクレオチドおよび参照配列とは異なる変異体ヌクレオチドによってそれぞれ占有されている遺伝子座を有する核酸を指す。遺伝子座での測定は、対立遺伝子が試料中で観察される頻度を測定する対立遺伝子割合(AF)の形態をとることができる。
詳細な説明
癌は、通常、個体の細胞の遺伝子内の突然変異の蓄積によって引き起こされ、その少なくとも一部は不適切に制御された細胞分裂をもたらす。そのような突然変異には、単一ヌクレオチド変異(SNV)、遺伝子融合、挿入、トランスバージョン、転座および逆位が含まれ得る。これらの突然変異はまた、個体の非癌性細胞と比較して腫瘍ゲノム内の遺伝子のコピー数の増加または減少に対応するコピー数多型を含み得る。試料の無細胞核酸中に存在する突然変異の程度および突然変異無細胞核酸の量は、腫瘍進行を決定し、患者の転帰を予測し、処置選択を精緻化するためのバイオマーカーとして使用することができる。様々な例において、無細胞核酸中に存在する突然変異の程度を、所与の試料に対する腫瘍細胞コピー数および腫瘍割合によって示すことができる。
既存のシステムおよび方法では、参照配列の標的領域に対応する、試料に含まれる無細胞核酸に由来するポリヌクレオチドを同定することができる。試料に由来するオンターゲット配列の量に対応する1またはそれを超える定量的尺度を作成し、所与の試料に対する腫瘍細胞のコピー数および/または腫瘍割合の推定値を決定するために使用することができる。さらに、既存のシステムでは、標的領域の外側にある参照配列の部分とアラインメントされている試料由来のポリヌクレオチドを同定することができる。既存のシステムでは、オフターゲット配列は参照配列のオンターゲット領域に対応しないため、オフターゲット配列表示は、典型的には、腫瘍細胞のコピー数または試料の腫瘍割合の少なくとも1つの推定値を決定するために使用されない。
本明細書に記載される実施態様において、オンターゲット配列表示から導出される情報を超える試料から導出される情報は、試料を提供する対象に関する腫瘍メトリクスを決定するために使用され得る。例えば、オフターゲット配列表示に由来する情報を使用して、腫瘍細胞のコピー数および/または試料の腫瘍割合の推定値を決定することができる。さらに、生殖系列SNPの存在に由来する情報を使用して、腫瘍細胞のコピー数または試料の腫瘍割合の少なくとも1つの推定値を決定することができる。腫瘍細胞のコピー数または試料の腫瘍割合の少なくとも1つの推定値を決定するために、オンターゲット配列表示から得られる情報に加えて情報を使用することにより、既存の技術に関連して、腫瘍細胞のコピー数および/または試料の腫瘍割合の推定値の精度を改善することができる。さらに、腫瘍細胞のコピー数および/または試料の腫瘍割合の推定値の精度の改善は、以前は対象におけるコピー数多型の検出において考慮されず、したがって破棄されたオフターゲット分子に対応する情報を使用した結果である。
1またはそれを超える例示的な例において、いくつかのオフターゲット配列表示は、試料に由来するシーケンシングデータから決定され得る。さらに、参照配列のための第1のセグメントの数を決定する第1のセグメント化プロセスを実施することができる。第1のセグメントの数は、1またはそれを超える例では「ビン」と呼ぶことができる。定量的尺度を、オフターゲット配列表示に関して決定することができる。例えば、配列表示の数を示すカバレッジメトリクスは、個々の第1のセグメントに関連するオフターゲット配列表示に関して決定することができる。カバレッジメトリクスは、コピー数多型が存在しない個体の試料から決定される参照カバレッジメトリクスに関して正規化され得る。様々な例において、第2のセグメント化プロセスを、各第2のセグメントが複数の第1のセグメントを含むように実施することができる。個々の第2のセグメントに対応する第1のセグメントの正規化されたカバレッジメトリクスを使用して、1またはそれを超える第2のセグメントの腫瘍細胞コピー数を決定し、試料の腫瘍割合を決定することができる。1またはそれを超える第2のセグメントに対する腫瘍細胞コピー数および腫瘍割合は、腫瘍細胞コピー数および/または腫瘍割合の値の尤度を決定する最尤推定モデルのパラメータの値として使用することができる。いくつかの実施態様において参照配列のセグメントに対する異なるサイズの配列表示の分布を示すサイズ分布データを使用して、腫瘍割合および腫瘍細胞コピー数等の最尤推定モデルのパラメータの値を決定することもできる。さらに、一塩基多型データを使用して、最尤推定モデルのパラメータの値を決定することができる。
図1は、1またはそれを超える実施態様による、オフターゲット領域から得られた情報に基づいて対象におけるコピー数多型等の腫瘍メトリクスを決定する例示的なアーキテクチャ100の概略図である。1またはそれを超える例では、検討中の疾患は癌の一種である。そのような癌の非限定的な例としては、胆道癌、膀胱癌、移行上皮癌、尿路上皮癌、脳癌、神経膠腫、星状細胞腫、乳癌、化生性癌、子宮頸癌、子宮頸部扁平上皮癌、直腸癌、結腸直腸癌、結腸癌、遺伝性非ポリポーシス結腸直腸癌、結腸直腸腺癌、消化管間質腫瘍(GIST)、子宮内膜癌、子宮内膜間質肉腫、食道癌、食道扁平上皮癌、食道腺癌、眼黒色腫、ブドウ膜黒色腫、胆嚢癌、胆嚢腺癌、腎細胞癌、淡明細胞型腎細胞癌、移行上皮癌、尿路上皮癌、ウィルムス腫瘍、白血病、急性リンパ性白血病(ALL)、急性骨髄性白血病(AML)、慢性リンパ性(CLL)、慢性骨髄性(CML)、慢性骨髄単球性(CMML)、肝臓癌(liver cancer)、肝癌(liver carcinoma)、ヘパトーマ、肝細胞癌、胆管癌、肝芽腫、肺癌、非小細胞肺癌(NSCLC)、中皮腫、B細胞リンパ腫、非ホジキンリンパ腫、びまん性大細胞型B細胞リンパ腫、マントル細胞リンパ腫、T細胞リンパ腫、非ホジキンリンパ腫、前駆体Tリンパ芽球性リンパ腫/白血病、末梢T細胞リンパ腫、多発性骨髄腫、鼻咽頭癌(NPC)、神経芽腫、中咽頭癌、口腔扁平上皮癌、骨肉腫、卵巣癌、膵臓癌、膵管腺癌、偽乳頭新生物、腺房細胞癌が挙げられる。前立腺癌、前立腺腺癌、皮膚癌、黒色腫、悪性黒色腫、皮膚黒色腫、小腸癌、胃癌(stomach cancer)、胃癌(gastric carcinoma)、消化管間質腫瘍(GIST)、子宮癌、または子宮肉腫。
アーキテクチャ100は、シーケンシングマシン102を含むことができる。1またはそれを超える例では、シーケンシングマシン102は、試料104中に存在する核酸を増幅する1またはそれを超える配列決定動作を実施することができるいくつかのシーケンシングマシンのいずれかであり得る。様々な例において、シーケンシングマシン102は次世代シーケンシング動作を実施することができる。1またはそれを超える例では、試料104は、対象から抽出されたある量の少なくとも1つの体液を含み得る。1またはそれを超える追加の例では、試料104は、対象から得られた組織試料を含むことができる。
配列決定の前に、試料104からポリヌクレオチドを抽出することができる。試料104からのポリヌクレオチドの抽出は、試料104に含まれる細胞の膜を切断するために1またはそれを超える細胞溶解技術を実施すること、および試料104に含まれるタンパク質を分解するために1またはそれを超えるプロテアーゼを適用することを含み得る。試料104からのポリヌクレオチドの抽出はまた、試料104に含まれる他の成分からポリヌクレオチドを分離するためのいくつかの洗浄および/または溶出技術を含むことができる。様々な例において、配列決定の前に、数千、最大数百万、最大数十億のポリヌクレオチドを試料104から抽出することができる。さらに、平滑末端ライゲーションを、抽出されたポリヌクレオチドおよびアダプタに対して行うことができ、タグ(例えば、分子バーコード)を、抽出されたポリヌクレオチドに付加することができる。抽出されたポリヌクレオチドはまた、抽出されたポリヌクレオチドと、参照配列の標的領域に対応するプローブとの間でハイブリダイゼーションを引き起こすことによって濃縮され得る。濃縮プロセスは、プローブに関連するオンターゲット領域に対応する数千、数十万、最大数百万のポリヌクレオチドを同定することができる。濃縮プロセス後に、参照配列のオフターゲット領域に対応する数千、最大数百万の濃縮されていないポリヌクレオチドも存在し得る。
濃縮プロセスに続いて、濃縮されたポリヌクレオチドは、1またはそれを超える増幅プロセスに従って増幅され得る。1またはそれを超える増幅プロセスは、数千、最大数百万コピーの個々の濃縮ポリヌクレオチドを生成することができる。1またはそれを超える例において、濃縮されていないポリヌクレオチドの一部分は、場合によっては、増幅され得るが、濃縮されたポリヌクレオチドが増幅される程度までは増幅され得ない。1またはそれを超える増幅プロセスは、1またはそれを超える配列決定動作を受ける増幅産物を作成することができる。試料104に対して1またはそれを超える配列決定動作を実施した後、シーケンシングマシン102はシーケンシングデータ106を生成することができる。
シーケンシングデータ106は、増幅産物に含まれる核酸の英数字表示を含み得る。例えば、シーケンシングデータ106は、増幅産物の個々の核酸について、個々の核酸に対応するヌクレオチドのそれぞれの鎖を表す文字列に対応するデータを含むことができる。
シーケンシングデータ106は、1またはそれを超えるデータファイルに記憶することができる。例えば、シーケンシングデータ106は、生の配列データおよび品質スコアを記憶するテキストベースのシーケンシングデータファイルフォーマットを含むFASTQファイルに記憶することができる。1またはそれを超える更なる例において、シーケンシングデータ106は、バイナリーベースコール(BCL)配列ファイルフォーマットに従ってデータファイルに記憶することができる。1またはそれを超える例では、シーケンシングデータ106をBAMファイルに記憶させることができる。1またはそれを超える例において、シーケンシングデータ106は、少なくとも約1ギガバイト(GB)、少なくとも約2GB、少なくとも約3GB、少なくとも約4GB、少なくとも約5GB、少なくとも約8GB、または少なくとも約10GBを含み得る。シーケンシングデータ106に含まれる個々の配列表示は、本明細書では「リード」または「配列決定リード」と呼ばれる場合がある。様々な例において、試料104に含まれる個々の第1の核酸は、個々の第1の核酸の増幅の結果としてシーケンシングデータ106に含まれる複数の配列表示に対応し得る。1またはそれを超える追加の例では、試料104に含まれる個々の第2の核酸は、個々の第2の核酸の増幅がない結果としてシーケンシングデータ106に含まれる単一の配列表示に対応し得る。
アーキテクチャ100は、シーケンシングマシン102からシーケンシングデータ106を取得し、シーケンシングデータ106を分析するコンピューティングシステム108を含むことができる。例えば、コンピューティングシステム108は、シーケンシングデータ106を分析して、試料104が由来する対象内にコピー数多型が存在する確率を決定することができる。1またはそれを超える追加の例では、コンピューティングシステム108はまた、試料104を提供した対象に腫瘍が存在する確率を決定することができる。コンピューティングシステム108は、1またはそれを超えるコンピューティングデバイス110を含むことができる。1またはそれを超えるコンピューティングデバイス110は、1もしくはそれを超えるデスクトップコンピューティングデバイス、1もしくはそれを超えるモバイルコンピューティングデバイス、または1もしくはそれを超えるサーバコンピューティングデバイスのうちの少なくとも1つを含むことができる。様々な例では、1またはそれを超えるコンピューティングデバイス110の少なくとも一部分は、クラウドコンピューティング環境等のリモートコンピューティング環境に含めることができる。1またはそれを超える例において、コンピューティングシステム108およびシーケンシングマシン102は、単一の組織によって所有、動作、維持および/または制御され得る。1またはそれを超える更なる例において、コンピューティングシステム108およびシーケンシングマシン102は、複数の組織によって所有、動作、維持および/または制御され得る。
動作112において、コンピューティングシステム108は、アラインメントプロセスを実施することができる。アラインメントプロセスは、シーケンシングデータ106に含まれる個々の配列表示の少なくとも一部分が参照配列のゲノム領域に対応すると決定することを含み得る。アラインメントプロセスは、配列データ106に含まれる個々の配列表示と参照配列の部分との間の相同性の量を決定することができる。所与の配列表示と参照配列との間の相同性の量は、所与の配列表示の対応する位置と同じヌクレオチドを有する参照配列の位置の数を示すことができる。コンピューティングシステム108は、配列表示および参照配列の一部分が少なくとも閾値量の相同性を有すると判定することに基づいて、配列表示が参照配列の一部分とアラインメントされると判定することができる。配列表示が参照配列の複数の部分に対して少なくとも閾値量の相同性を有するシナリオでは、配列表示との相同性が最大である参照配列の部分は、配列表示とアラインメントされていると判定することができる。参照配列と少なくとも閾値量の相同性を有する配列表示は、動作112で行われるアラインメントプロセスによって作成される整列配列表示114に含めることができる。
所与の配列表示と参照配列の一部分との間の相同性の量は、Needleman and Wunsch(J.Mol.Biol.48;443-453(1970))のアルゴリズムを使用するデフォルト設定を用いて、BLASTプログラム(基本的な局所アラインメント検索ツール)およびPowerBLASTプログラム(Altschul et al.,J.Mol.Biol.,1990,215,403-410;Zhang and Madden,Genome Res.,1997,7,649-656)を使用して、またはGapプログラム(Wisconsin Sequence Analysis Package,Genetics Computer Group,University Research Park,Madison Wis.)を使用することにより決定することができる。配列表示と参照配列の一部分との間の相同性の量は、Burrows-Wheeler aligner(Li,H.,&Durbin,R.(2009)を使用して決定することもできる。Fast and accurate short read alignment with Burrows-Wheeler transform.Bioinformatics,25(14),1754-1760).
1またはそれを超える実施態様において、個々のアラインメントされた配列表示114は、シーケンシングデータ106に含まれる個々のリードに対応し得る。これらのシナリオでは、アラインメントされた配列表示114は、試料104に含まれる単一ポリヌクレオチドに対応する複数のリードを含み得る。参照配列。1またはそれを超える追加の例では、アラインメントされた配列表示114は、試料104に含まれる個々の核酸に対応することができる。これらの状況において、コンピューティングシステムは、配列決定リードの各群に共通する分子バーコードに基づいて、試料104に含まれる個々の核酸に対応する配列データ106に含まれるリードの群を決定することができる。すなわち、試料104に含まれる個々の核酸は、個々の核酸をユニークに同定する分子バーコードでコード化することができ、少なくともいくつかの場合、個々の核酸は、シーケンシングデータ106に含まれる複数のリードによって表すことができる。したがって、試料104に含まれる単一の核酸に対応する複数の配列表示がシーケンシングデータ106に存在する場合、コンピューティングシステム108は複数の配列表示を一緒にグループ化することができる。様々な例において、試料104に含まれる単一の核酸に対応する配列表示の群は、本明細書では「ファミリー」と呼ばれ得る。さらに、共通の分子バーコードを有するアラインメントされた配列表示114の参照配列に対する開始位置および停止位置を使用して、試料104に含まれる個々の核酸に対応する配列表示をグループ化することができる。1またはそれを超える例示的な例では、試料104に含まれる単一の核酸に対応する配列表示のファミリーを表す個々の配列表示は、本明細書では「コンセンサス配列表示」と呼ばれ得る。
コンピューティングシステム108は、動作116においてアラインメントされた配列表示114を分析することができる。1またはそれを超える例において、アラインメントされた配列表示114を、参照配列のいくつかの標的領域に関して解析することができる。1またはそれを超える例において、標的領域は、試料104内に存在する目的の核酸を同定するために使用されるプローブのポリヌクレオチド配列に対応することができる。コンピューティングシステム108は、アラインメントされた配列表示114を分析して、試料104が得られた対象にコピー数多型が存在するかどうかを決定するために使用することができる配列表示の少なくともサブセットを決定することができる。1またはそれを超える例において、アラインメントされた配列表示114を分析して、アラインメントされた配列表示114に含まれるオンターゲット配列表示118を決定することができる。オンターゲット配列表示118は、参照配列の標的領域と少なくとも閾値量の相同性を有するアラインメントされた配列表示114に含まれる配列表示を含むことができる。
さらに、アラインメントされた配列表示114を分析して、オフターゲット配列表示120を決定することができる。オフターゲット配列表示120は、標的領域に対応しない参照配列の部分とアラインメントさせることができる。1またはそれを超える例において、オフターゲット配列表示120は、参照配列の少なくとも1つの標的領域と重複し得ない。1またはそれを超える追加の例において、オフターゲット配列表示120は、参照配列の少なくとも1つの標的領域と閾値量未満のオーバーラップを有し得る。1またはそれを超える例示的な例において、重複の閾値量は、配列表示と標的領域との間の約10%以下の相同性、配列表示と標的領域との間の約9%以下の相同性、配列表示と標的領域との間の約8%以下の相同性、配列表示と標的領域との間の約7%以下の相同性、配列表示と標的領域との間の約6%以下の相同性、配列表示と標的領域との間の約5%以下の相同性、配列表示と標的領域との間の約4%以下の相同性、配列表示と標的領域との間の約3%以下の相同性、配列表示と標的領域との間の約2%以下の相同性、配列表示と標的領域との間の約1%以下の相同性、配列表示と標的領域との間の約0.5%以下の相同性であり得る、または配列提示と標的領域との間の約0.1%以下の相同性であり得る。
コンピューティングシステム108は、動作122において、シーケンシングデータ106から導出された1またはそれを超える定量的尺度を分析することができる。シーケンシングデータ106から得られた定量的尺度の少なくとも一部分は、オンターゲット配列表示118に関して決定することができる。さらに、シーケンシングデータ106から導出された定量的尺度の少なくとも一部分は、オフターゲット配列表示120に関して決定することができる。1またはそれを超える例において、コンピューティングシステム108は、オンターゲット配列表示118に関する1またはそれを超えるカバレッジメトリクスを決定することができる。例えば、コンピューティングシステム108は、参照配列の個々の標的領域とアラインメントされたオンターゲット配列表示の数を決定して、個々の標的領域に対するそれぞれのカバレッジメトリクスを生成することができる。様々な例において、コンピューティングシステム108は、オンターゲット配列表示118の総数に関連して、または標的領域の群に対応するオンターゲット配列表示118の数に関連して、個々の標的領域に対応するオンターゲット配列表示118のそれぞれの数に基づいて、個々の標的領域についての1またはそれを超える正規化されたカバレッジメトリクスを決定することができる。
さらに、コンピューティングシステム108は、オフターゲット配列表示120に関して1またはそれを超えるカバレッジメトリクスを決定することができる。1またはそれを超える例において、コンピューティングシステム108は、参照配列の複数のセグメントを決定し、複数のセグメントの個々のセグメントに対応するいくつかのオフターゲット配列表示120を決定することができる。1またはそれを超える追加の例において、コンピューティングシステム108は、オフターゲット配列表示120に関する1またはそれを超えるサイズ分布メトリクスを決定することができる。例えば、コンピューティングシステム108は、特定のサイズまたはサイズ範囲を有するいくつかのオフターゲット配列表示120に基づいて、複数のセグメントの個々のセグメントに対応するそれぞれのサイズ分布を決定することができる。1またはそれを超える例示的な例では、個々のオフターゲット配列表示120に含まれるヌクレオチドの数は、本明細書では個々のオフターゲット配列表示120の「サイズ」と呼ぶことができる。1またはそれを超える例において、個々の配列表示のサイズは、個々の配列表示に対応する分子に含まれるいくつかのヌクレオチドを含み得る。1またはそれを超える追加の例では、個々の配列表示のサイズは、アダプタおよび/またはバーコードのヌクレオチド等の1またはそれを超える追加のヌクレオチドに加えて、個々の配列表示に対応する分子に含まれるいくつかのヌクレオチドを含み得る。さらに、サイズ分布は、平均配列表示サイズに基づく、少なくとも8つのパーティションを有する配列表示のサイズの正規分布を含むことができる。パーティションを、平均の上および平均の下に等しく分布させることができる。様々な例では、個々のパーティションを、平均からの1またはそれを超える標準偏差に対応させることができる。
1またはそれを超える例において、コンピューティングシステム108は、参照配列に関して複数のセグメント化プロセスを実施することができる。例えば、コンピューティングシステム108は、参照配列を複数の第1のセグメントにパーティションする第1のセグメント化プロセスを実施することができる。1またはそれを超える実施態様において複数の第1のセグメントを、「ビン」と呼ぶことができる。コンピューティングシステム108はまた、参照配列を複数の第2のセグメントにパーティションする第2のセグメント化プロセスを実施することもできる。様々な例において、複数の第1のセグメントは、複数の第2のセグメントよりも多数のセグメントを含むことができる。例示すると、複数の第2のセグメントは、複数の第1のセグメントを含むことができる。1またはそれを超える例では、コンピューティングシステム108は、複数の第1のセグメントおよび複数の第2のセグメントの両方について、カバレッジメトリクスまたはサイズ分布メトリクスの少なくとも一方等の定量的尺度を決定することができる。例示すると、複数の第1のセグメントに関してコンピューティングシステム108によって決定された定量的尺度は、コンピューティングシステム108によって、複数の第2のセグメントの定量的尺度を決定するために使用され得る。
1またはそれを超える例示的なシナリオでは、コピー数多型がより小さい第1のセグメント内に存在しないため、複数のセグメント化プロセスを実装することができる。したがって、第2のセグメントが、コピー数多型が起こり得るゲノム領域に対応するサイズを有するように、複数の第1のセグメントを含む第2のセグメントを作成する第2のセグメント化プロセスが実装される。さらに、第1のセグメント化プロセスを実施して、存在し得るバイアスを最小にすることができる個々の第1のセグメントの正規化されたデータを作成することができる。したがって、複数のセグメント化プロセスを行うことにより、試料104を提供した対象に対するコピー数多型および/または腫瘍割合をより正確に決定するために使用することができる定量的尺度を作成することができる。
動作122でコンピューティングシステム108によって実施されたオンターゲット配列表示118およびオフターゲット配列表示120から導出された定量的尺度の分析を使用して、1またはそれを超える腫瘍メトリクス124を決定することができる。1またはそれを超える例では、1またはそれを超える腫瘍メトリクス124は、個々の第2のセグメントに対する腫瘍細胞コピー数を含み得る。個々の第2のセグメントの腫瘍細胞コピー数は、1またはそれを超える個々の第2のセグメントに対応するゲノム領域における増幅または欠失の量を示すことができる。様々な例において、腫瘍細胞コピー数は、1またはそれを超える個々の第2のセグメントに対応するゲノム領域のヘテロ接合性の喪失を示し得る。1またはそれを超える追加の例では、1またはそれを超える腫瘍メトリクス124は、試料104に対応する腫瘍割合の推定値を含むことができる。1またはそれを超える例示的な例では、1またはそれを超える腫瘍メトリクス124は、試料104が得られた個体内の腫瘍の成長の進行または後退を示すことができる。さらに、1またはそれを超える腫瘍メトリクス124は、試料104を提供した対象に提供された1またはそれを超える処置の有効性を示すことができる。1またはそれを超える追加の例示的な例では、1またはそれを超える腫瘍メトリクス124をモデルに関して利用して、試料104が得られた対象に腫瘍が存在する確率を作成することができる。1またはそれを超える例示的な例では、1またはそれを超える腫瘍インジケータ124は、試料104が得られた対象の腫瘍細胞コピー数を決定するために実装することができる最尤推定モデルのパラメータに対応することができる。様々な他の例示的な例において、1またはそれを超える腫瘍インジケータ124は、試料104が得られた対象の腫瘍細胞コピー数を決定するために実装することができる期待値最大化モデルのパラメータに対応することができる。
図2は、1またはそれを超える実施態様による、オンターゲット配列表示、オフターゲット配列表示、および一塩基多型データに基づいて、腫瘍細胞コピー数等の対象に関する腫瘍メトリクスを決定する例示的なプロセス200のフローチャートである。プロセス200は、202において、試料に由来するポリヌクレオチドに基づいてシーケンシングデータ204を作成することを含み得る。シーケンシングデータ204は、シーケンシングマシンによって作成されたデータに対応する配列決定リードを含み得る。1またはそれを超える例において、シーケンシングデータ204は、いくつかの配列決定リードが単一ポリヌクレオチドに由来することを示し得る。
動作206において、プロセス200は、シーケンシングデータ204に関してコンピュータによる動作を実施して、1またはそれを超える追加のデータセットを決定することを含み得る。様々な例において、1またはそれを超える追加のデータセットは、シーケンシングデータ204に含まれる配列表示の1またはそれを超えるサブセットを含み得る。1またはそれを超える追加のデータセットは、1またはそれを超える基準に基づいて決定することができる。例えば、動作206は、参照配列の標的領域に対応するシーケンシングデータ204に含まれる配列表示の第1のサブセットを決定することに基づいてオンターゲットデータ208を生成するために実施され得る。さらに、動作206は、標的領域を除外する参照配列の部分に対応するシーケンシングデータ204に含まれる配列表示の第2のサブセットを決定することに基づいてオフターゲットデータ210を生成するために実施され得る。
さらに、動作206を、いくつかの生殖系列SNPに対応するシーケンシングデータ204に含まれる配列表示の同定に基づいて一塩基多型データ212を生成するために実施することができる。様々な例において、SNPデータ212を生成するために使用される生殖系列SNPは、標的領域に対応する参照配列のゲノム領域に含まれる生殖系列SNPを含み得る。1またはそれを超える例では、SNPデータ212は、1またはそれを超えるプローブに対応するそれぞれの生殖系列SNPに対応する位置および変異に関して配列データ204の配列表示を分析することによって決定することができる。1またはそれを超える実施態様においてSNPデータ212は、1またはそれを超える公的に利用可能なデータベースに含まれるいくつかの個々の生殖系列SNPの配列表示を含み得る。1またはそれを超える例では、SNPデータ212は、この文書の提出時のgnomADデータベースの最新バージョン等のgnomADデータベースのバージョンで識別された生殖系列SNPの配列表示を含むことができる。1またはそれを超える更なる例において、配列表示の数は、その多数の配列表示に共通する分子バーコードに従って、また、個々のファミリーに含まれる多数の配列表示のサブセットに対応する元のポリヌクレオチド分子に対する開始位置および停止位置に基づいて、ファミリーにグループ化され得る。試料に由来するSNPに対応する定量的尺度は、個々のSNPに関連する参照ゲノムのそれぞれの部分に整列するファミリーの数に基づいて決定することができる。
動作206に関して実施されるコンピュータによる動作はまた、オフターゲットデータ210を利用して、オフターゲットデータ210に含まれる配列表示に基づいて定量的尺度を決定することもできる。例えば、コンピュータによる動作を実施して、カバレッジデータ214およびサイズ分布データ216を決定することができる。カバレッジデータ214は、参照配列の個々のセグメントに対応するいくつかの配列表示を含むことができる。1またはそれを超える例において、カバレッジデータ214は、参照配列のオフターゲット領域の個々のセグメントに対応する配列表示の数またはカウントを示すことができる。1またはそれを超える更なる例において、カバレッジデータ214は、参照配列のオフターゲット領域の個々のセグメントに対応するポリヌクレオチドの数を示すことができる。
正規化された定量的尺度を、オフターゲットデータ210に関連して決定することもできる。例えば、カバレッジデータ214は、正規化されたカバレッジデータを含むこともできる。1またはそれを超える例示的な例では、正規化されたカバレッジデータは、所与のセグメントから取得された第2のカバレッジメトリクスに関して、参照配列の所与のセグメントから取得された第1のカバレッジメトリクスを示すことができる。1またはそれを超える例示的な例において、第2のカバレッジメトリクスは、コピー数多型が検出されない個体の試料から決定される。様々な例において、第2のカバレッジメトリクスは、参照カバレッジメトリクスとすることができる。参照配列。1またはそれを超える例において、参照配列の所与のセグメントについての参照カバレッジメトリクスに対応する配列表示の数の平均を決定し、正規化されたカバレッジメトリクスを決定するために使用することができる。
さらに、サイズ分布データ216は、参照配列の所与のセグメントに対応する配列表示に関するサイズの分布を示すことができる。様々な例では、配列表示のサイズをグループ化して、それぞれが配列表示のサイズの範囲を含むいくつかのパーティションを形成することができる。配列表示のサイズの分布は、各それぞれのパーティションに対応する配列表示の数を示すことができる。
1またはそれを超える例では、サイズ分布データ216は、正規化されたサイズ分布データを含むことができる。正規化されたサイズ分布データは、コピー数多型が検出されない個体の試料から得られる所与のセグメントに対応する第2の配列表示のサイズの第2の分布に関連して、参照配列の所与のセグメントに対する試料に対応する第1の配列表示のサイズの第1の分布を示すことができる。参照配列。1またはそれを超える例示的な例では、第2の配列表示を使用して、参照サイズ分布メトリクスを決定することができる。これらのシナリオでは、正規化されたサイズ分布データは、第2の配列表示のサイズの第2の分布に対する第1の配列表示のサイズの第1の分布の比を含むことができる。
218において、プロセス200は、対象に存在するコピー数多型の指標を決定するために、参照配列に関して1またはそれを超える追加のデータセットを分析することを含み得る。図2の例示的な例において、オンターゲットデータ208、オフターゲットデータ210、またはSNPデータ212の少なくとも1つを使用して、シーケンシングデータ204が由来する試料に関する腫瘍細胞コピー数220を決定することができる。さらに、オンターゲットデータ208、オフターゲットデータ210、またはSNPデータ212の少なくとも1つを使用して、シーケンシングデータ204を導出するために使用される試料に関連する腫瘍割合222を決定することができる。
腫瘍細胞コピー数220および少なくともいくつかの例では、試料の腫瘍割合222を、以下によって決定することができる。
観察されたカバレッジ=2*(1-TF)+n*TF(式中、nは腫瘍細胞コピー数220であり、TFは試料腫瘍割合222である)。
1またはそれを超える例示的な例では、所与の試料の腫瘍割合220は、所与の試料に含まれる全ての核酸の少なくとも約0.05%、少なくとも約0.1%、少なくとも約0.2%、少なくとも約0.5%、少なくとも約1%、少なくとも約2%、少なくとも約3%、少なくとも約4%、少なくとも約5%、少なくとも約10%、少なくとも約15%、少なくとも約20%、少なくとも約25%、少なくとも約30%、少なくとも約35%、少なくとも約40%、少なくとも約45%、または少なくとも約50%であり得る。
観察されたカバレッジおよび腫瘍割合222を決定するために使用される腫瘍細胞コピー数220は、参照配列に関して1またはそれを超えるセグメント化動作を実施して、参照配列のセグメントの数を決定することによって決定することができる。1またはそれを超える例では、異なるタイプのデータに関連して実施されるセグメント化動作の結果は異なり得る。例えば、カバレッジデータ214を使用して、参照配列の第1のセグメント化を決定することができる。さらに、オンターゲットデータ210およびカバレッジデータ214は、第1のセグメント化とは異なる参照配列の第2のセグメント化を決定するために使用され得るマージされたデータを決定するために使用され得る。
様々な例において、オンターゲットデータ208はいくつかのオンターゲット配列表示を含むことができ、オンターゲットデータ208の観測されたカバレッジは、参照配列の個々の標的領域に対応するオンターゲット配列表示のそれぞれの数を決定することによって、参照配列の個々の標的領域について決定することができる。1またはそれを超える例示的な例において、標的領域の中央領域に関して相同であるいくつかのオンターゲット配列表示を決定して、オンターゲット領域に関して観察されたカバレッジを決定することができる。標的領域の中央領域は、少なくとも1個のヌクレオチド、少なくとも2個のヌクレオチド、少なくとも3個のヌクレオチド、少なくとも4個のヌクレオチド、少なくとも5個のヌクレオチド、少なくとも10個のヌクレオチド、少なくとも15個のヌクレオチド、少なくとも20個のヌクレオチド、または少なくとも25個のヌクレオチドを含み得る。1またはそれを超える更なる例において、オンターゲットデータ208のカバレッジデータは、100kbセグメント等の参照ゲノムのセグメントにわたる標的配列表示の平均カバレッジに対応することができる。
1またはそれを超える更なる例では、オンターゲットデータ208は、参照配列の個々のセグメントに対応するサイズ分布データを含むことができる。1またはそれを超える例において、サイズ分布は、各々が一連のサイズのオンターゲット配列表示を含むいくつかのグラデーションを含むことができる。参照配列の個々のセグメントのサイズ分布は、分布の各グラデーションに含まれるいくつかのオンターゲット配列表示を含むことができる。
加えて、カバレッジデータおよび/またはサイズ分布データに関するオンターゲットデータ208は正規化することができる。様々な例において、オンターゲットデータ208を、腫瘍が存在しない個体から得られた試料の数に基づいて作成されたオンターゲット配列表示に基づいて、参照カバレッジデータまたは参照サイズ分布データの少なくとも一方に関して正規化することができる。オンターゲットカバレッジデータに関するオンターゲットデータ208を、オンターゲット配列表示のカバレッジの中央値に関して正規化することもできる。
腫瘍細胞コピー数220は、参照によりその全体が本明細書に組み込まれる、PCT出願公開番号第2017/106768号および 「Methods to Determine Tumor Gene Copy Number by Analysis of Cell-Free DNA」と題された技法に従って、オンターゲットデータ208に関して決定することができる。少なくともいくつかの実施態様においてオンターゲットデータ208を使用して作成された観察されたカバレッジおよび腫瘍細胞コピー数220を使用して、腫瘍割合222の推定値を決定することができる。オフターゲットデータ210はいくつかのオフターゲット配列表示を含むことができ、オフターゲットデータ210から導出されたカバレッジデータ214の観察されたカバレッジは、参照配列の個々のセグメントに対応するオフターゲット配列表示の数を決定することによって参照配列の個々のセグメントについて決定することができる。腫瘍細胞コピー数220を、参照配列の個々のセグメントについて決定することができる。1またはそれを超える例示的な例において、セグメント化プロセスは、所与のセグメントに対するコピー数がセグメント化プロセスの1またはそれを超える反復後に変化していない参照配列の領域を決定することによってセグメントが作成されるように、カバレッジデータ214を使用して参照配列に関して実施され得る。このようにして、各セグメントに対する腫瘍細胞コピー数220は、少なくともカバレッジデータ214を使用して実施されたセグメント化プロセスの結果に基づいて決定される。カバレッジデータ214を使用して作成された観察されたカバレッジおよび腫瘍細胞コピー数220を使用して、腫瘍割合222の推定値を決定することができる。
さらに、サイズ分布データ216の観測カバレッジは、参照配列の個々のセグメントに対応するオフターゲットデータ210から導出されたサイズ分布に対応することができる。1またはそれを超える例において、サイズ分布は、各々が一連のサイズの配列表示を含むいくつかのグラデーションを含むことができる。参照配列の個々のセグメントのサイズ分布は、分布の各グラデーションに含まれるいくつかのオフターゲット配列表示を含むことができる。腫瘍細胞コピー数220は、参照配列の個々のセグメントのサイズ分布メトリクスに基づいて、参照配列の個々のセグメントについて決定することができる。1またはそれを超える例示的な例において、セグメント化プロセスは、サイズ分布データ216を使用して参照配列に関して実施することができ、それにより、セグメント化プロセスの反復回数後に、その領域に対する腫瘍細胞コピー数220が変化していない参照配列の領域を決定することによってセグメントが作成される。このようにして、各セグメントに対する腫瘍細胞コピー数220は、少なくともサイズ分布データ216を使用して行われたセグメント化プロセスの結果に基づいて決定される。サイズ分布データ216を使用して作成された観察されたカバレッジおよび腫瘍細胞コピー数220を使用して、腫瘍割合220の推定値を決定することができる。
1またはそれを超える更なる例では、オフターゲット配列表示のカバレッジデータ214とオンターゲット配列表示のカバレッジデータとのマージバージョンを使用して、腫瘍細胞コピー数220および/または腫瘍割合222を決定することができる。1またはそれを超える例において、マージされたカバレッジデータは、参照ゲノムの個々の領域に対応するいくつかのオンターゲット配列表示およびいくつかのオフターゲット配列表示に基づいて決定することができる。様々な例において、マージされたカバレッジデータは、オンターゲットデータ208およびオフターゲットデータ210に関して作成された正規化されたカバレッジデータに基づいて決定することができる。1またはそれを超える例示的な例では、マージされたカバレッジデータは、オンターゲットおよびオフターゲットのカバレッジデータが共通の平均に対して分布するように、所与の遺伝子に近接するオンターゲット領域およびオフターゲット領域に基づいてオンターゲットのカバレッジデータをシフトすることによって決定することができる。1またはそれを超える実施態様において、オンターゲット領域およびオフターゲット領域のカバレッジデータの分布は異なり得る。
SNPデータ212を、シーケンシングデータ204に存在する個々のSNPについて突然変異体対立遺伝子頻度(MAF)を決定することによって腫瘍割合222を決定するために使用することができる。参照配列のセグメントに対する腫瘍細胞コピー数220は、SNPデータ212およびChen,Gary et al.,”Precise inference of copy number alternations in tumor samples from SNP arrays”,Bioinformatics 2013 December 1;29(23):2964-2970に記載されているような技術を用いて決定することができる。
オンターゲットデータ208、オフターゲットデータ210、またはSNPデータ212の少なくともいずれか1つを用いて腫瘍細胞コピー数220および腫瘍割合222を決定した後、モデルのパラメータとして腫瘍細胞コピー数220の値および腫瘍割合222の値を用いてモデルを実装することができる。1またはそれを超える実施態様においてオンターゲットデータ208、オフターゲットデータ210、およびSNPデータ212のそれぞれに基づいて決定された腫瘍細胞コピー数220の値および腫瘍割合222の値を組み合わせることができ、組み合わせた値を使用してモデルを実装して、腫瘍細胞コピー数220および腫瘍割合222の推定値の尤度を決定することができる。
図3は、1またはそれを超える実施態様による、オフターゲット配列に由来するカバレッジメトリクスに基づいて対象に関連する腫瘍メトリクスを決定するための例示的なプロセス300の概略図である。プロセス300は、対象から得られた試料に由来する配列表示を含むシーケンシングデータに基づいて、オンターゲット配列表示およびオフターゲット配列表示を決定することを含み得る。1またはそれを超える例において、オンターゲット配列表示およびオフターゲット配列表示は、参照配列302に関して配列表示を分析することによって決定することができる。例示すると、配列表示と例示的な参照配列部分304との間の相同性の量を決定するために、例示的な参照配列部分304などの参照配列302の1またはそれを超える部分に関して配列表示を分析することができる。図3の例示的な例において、例示的な参照配列部分304は標的領域306を含み得る。様々な例において、標的領域306は、ドライバ突然変異に対応する参照配列302の領域に対応し得る。様々な例において、参照配列302は、少なくとも約500個の標的領域、少なくとも約1000個の標的領域、少なくとも約2500個の標的領域、少なくとも約5000個の標的領域、少なくとも約10,000個の標的領域、少なくとも約15,000個の標的領域、少なくとも約20,000個の標的領域、少なくとも約25,000個の標的領域、または少なくとも約30,000個の標的領域を有することができる。標的領域306は、約25ヌクレオチド~約250ヌクレオチド、約50ヌクレオチド~約200ヌクレオチド、または約75ヌクレオチド~約150ヌクレオチドを含むことができる。
さらに、図3の例示的な例では、第1の配列表示308、第2の配列表示310、および第3の配列表示312は、例示的な参照配列部分304に関して解析される。分析に基づいて、第1の配列表示308は、標的領域306とアラインメントされていると決定することができる。これらのシナリオでは、第1の配列表示308はオンターゲット配列として識別され得る。さらに、第2の配列表示310は、標的領域306の外側にある例示的な参照配列部分304の一部分とアラインメントしていると決定することができる。第3の配列表示312はまた、標的領域306の外側にある例示的な参照配列部分304の追加の部分とアラインメントしていると決定され得る。これらの状況では、第2の配列表示310および第3の配列表示312はオフターゲット配列として識別され得る。
試料に由来する配列表示と参照配列302との間のアラインメントプロセスは、オフターゲット配列データ314を作成することができる。オフターゲット配列データ314は、標的領域の外側にある参照配列302の領域とアラインメントされた配列表示を含み得る。例えば、オフターゲット配列データ314は、第2の配列表示310および第3の配列表示312を含み得る。
プロセス300は、動作316において、オフターゲット配列データ314に基づいて実施される第1のセグメント化プロセスを含むことができる。1またはそれを超える例において、オンターゲット配列表示に対応する配列データは、第1のセグメント化プロセス316の間に使用されることから除外される。様々な例において、オンターゲット領域の配列表示の数等のカバレッジ深度は、オフターゲット領域のカバレッジ深度よりも大きくすることができる。オンターゲット領域とオフターゲット領域のカバレッジ深度の間の不一致は、オンターゲット配列表示とオフターゲット配列表示の両方を含む配列データにノイズ量が存在する原因となり得る。ノイズの量は、プロセス300を使用して作成された腫瘍メトリクスの不正確さをもたらす可能性がある。オンターゲット配列データを使用して第1のセグメント化プロセス316を実施するときに存在するノイズを低減し、プロセス300によって作成される腫瘍メトリクスの精度を高めるために、第1のセグメント化プロセス316はオフターゲット配列データ314を使用して実施される。
第1のセグメント化プロセスは、例示的な第1のセグメント318等、参照配列302のいくつかの第1のセグメントを作成することができる。1またはそれを超える例示的な例において、第1のセグメント318は、約200キロベース(kb)以下、約180kb以下、約160kb以下、約140kb以下、約120kb以下、約100kb以下、約80kb以下または約60kb以下を含み得る。1またはそれを超える追加の例示的な例では、第1のセグメント318は、少なくとも約50kb、少なくとも約60kb、少なくとも約70kb、少なくとも約80kb、少なくとも約90kb、少なくとも約100kb、少なくとも約120kb、少なくとも約140kb、少なくとも約160kb、または少なくとも約180kbを含み得る。様々な例において、複数の第1のセグメント318の少なくとも一部分は同じ数のヌクレオチドを有することができ、複数の第1のセグメント318の残りはより少ないヌクレオチドを有することができる。1またはそれを超える例において、第1のセグメント318の第1の数は200kbを有することができ、第1のセグメント318の第2の数は200kb未満を有することができる。1またはそれを超える追加の例では、複数の第1のセグメント318の少なくとも約70%が同じ数のヌクレオチドを有し、複数の第1のセグメント318の少なくとも約75%が同じ数のヌクレオチドを有し、複数の第1のセグメント318の少なくとも約80%が同じ数のヌクレオチドを有し、複数の第1のセグメント318の少なくとも約85%が同じ数のヌクレオチドを有し、複数の第1のセグメント318の少なくとも約90%が同じ数のヌクレオチドを有し、複数の第1のセグメント318の少なくとも約95%が同じ数のヌクレオチドを有し、または複数の第1のセグメント318の少なくとも約99%が同じ数のヌクレオチドを有する。1またはそれを超える更なる例において、参照配列302の第1のセグメント化プロセスは、複数の第1のセグメント318が標的領域を除外するように実施され得る。これらの実施態様において複数の第1のセグメント318は標的領域と重ならない。
参照配列302の第1のセグメント318の数は、少なくとも約7000、少なくとも約8000、少なくとも約9000、少なくとも約10,000、少なくとも約11,000、少なくとも約12,000、少なくとも約13,000、少なくとも約14,000、少なくとも約15,000、少なくとも約16,000、少なくとも約17,000、少なくとも約18,000、少なくとも約19,000、少なくとも約20,000、少なくとも約21,000、少なくとも約22,000、少なくとも約23,000、少なくとも約24,000、少なくとも約25,000、または少なくとも約26,000であり得る。1またはそれを超える例示的な例において、参照配列302の第1のセグメント318の数は、約7000~約35,000、約10,000~約30,000または約12,000~約27,000であり得る。
1またはそれを超える例では、プロセス300は、個々の第1のセグメント318のカバレッジデータ320を決定することを含むことができる。個々の第1のセグメント318のカバレッジデータ320は、個々の第1のセグメント318と少なくとも閾値量の相同性を有するいくつかのオフターゲット配列表示を含み得る。第1のセグメント318について作成されたカバレッジデータは、第1のセグメントカバレッジデータ322を生成するために使用することができる。様々な例において、第1のセグメントカバレッジデータ322は、個々の第1のセグメント318に対応するオフターゲット配列表示の数を含むことができる。1またはそれを超える例示的な例において、個々の第1のセグメント318に対応するオフターゲット配列表示の数は、数百のオフターゲット配列表示のオーダー、最大で数千および数万のオフターゲット配列表示であり得る。
様々な例において、第1のセグメントカバレッジデータ322は、1またはそれを超える第1のセグメント318のカバレッジ情報を除外することができる。このようにして、第1のセグメントカバレッジデータ322を決定するために使用される1またはそれを超える第1のセグメント318をフィルタリングすることができる。第1のセグメント318のフィルタリングは、オフターゲット配列データ314に基づいて行うことができる。1またはそれを超える更なる例において、第1のセグメント318のフィルタリングは、コピー数多型が検出されない個体から得られた参照試料から作成されたオフターゲット配列表示データに基づいて行うことができる。
1またはそれを超える例では、参照中央値カバレッジメトリクスを上回るまたは下回る1標準偏差、2標準偏差、3標準偏差、または4標準偏差のうちの少なくとも1つであるカバレッジ情報を有する第1のセグメント318を、第1のセグメントのカバレッジデータ322から除外することができる。1またはそれを超える例示的な例では、参照試料を使用する訓練プロセス中に、参照中央値カバレッジメトリクスを上回るまたは下回る1標準偏差、2標準偏差、3標準偏差、または4標準偏差のうちの少なくとも1つであるカバレッジ情報を有する第1のセグメント318を、第1のセグメントカバレッジデータ322の決定から除外することができる。1またはそれを超える更なる例では、X染色体および/またはY染色体に対応する1またはそれを超える第1のセグメントを、第1のセグメントカバレッジデータ324から除外することができる。
さらに、参照配列302の標的領域と少なくとも閾値量のオーバーラップを有する第1のセグメント318を決定することができる。1またはそれを超える第1のセグメント318が参照配列302の標的領域と少なくとも閾値量のオーバーラップを有するシナリオでは、1またはそれを超える第1のセグメント318に対応するカバレッジ情報を第1のセグメントカバレッジデータ322から除外することができる。様々な例において、参照配列302の標的領域と1またはそれを超える第1のセグメント318との間の閾値量の重複は、第1のセグメント318の少なくとも約5ヌクレオチドが参照配列302の標的領域と重複すること、第1のセグメント318の少なくとも約10ヌクレオチドが参照配列302の標的領域と重複すること、第1のセグメント318の少なくとも約15ヌクレオチドが参照配列302の標的領域と重複すること、第1のセグメント318の少なくとも約20ヌクレオチドが参照配列302の標的領域と重複すること、または第1のセグメント318の少なくとも約25ヌクレオチドが参照配列302の標的領域と重複することを含み得る。
標的領域と閾値量のオーバーラップを有する第1のセグメント318は、これらの第1のセグメント318からのデータが第1のセグメントカバレッジデータ322に含まれるときに発生し得るノイズの量に起因して、第1のセグメントカバレッジデータ322から除外され得る。1またはそれを超える例では、標的領域と閾値量の重複を有する第1のセグメント318の配列表示の数等のカバレッジ量は、1またはそれを超える標的領域と閾値量の重複を有しない第1のセグメント318のカバレッジ量よりも大きくてもよい。1またはそれを超える例示的な例では、
カバレッジ深度はオフターゲットとオンターゲットとの組み合わせでは異なり、ノイズが多すぎるため、オフターゲットのみを考慮する。平均カバレッジは300~400である。ノイズが多すぎる。オンターゲットとオフターゲットとの間のカバレッジの差。これが、本発明者らが、第2のセグメント化までそれらを一緒にしない理由である。
1またはそれを超える例において、第1のセグメントカバレッジデータ322は、第1のセグメントに関するカバレッジデータといくつかの追加の第1のセグメント318との間の変動量が、コピー数多型が検出されない個体から得られた参照試料から作成されたオフターゲット配列表示データに関する閾値変動量より大きい状況において、1またはそれを超える第1のセグメント318の配列表示を除外することができる。例えば、参照配列表示のカバレッジデータの平均から少なくとも1標準偏差、少なくとも2標準偏差、少なくとも3標準偏差、または少なくとも4標準偏差である参照配列表示のカバレッジの尺度を有する第1のセグメント318は、第1のセグメントのカバレッジデータ318から除外することができる。
1またはそれを超える追加の実施態様において、閾値数より少ない配列表示を有する1またはそれを超える第1のセグメントのカバレッジ情報も、第1のセグメントカバレッジデータ322から除外することができる。1またはそれを超える例示的な例では、第1のセグメントカバレッジデータ322からそれぞれの第1のセグメント318のカバレッジ情報を除外するために第1のセグメント318に存在する配列表示の閾値数は、0、1、2、3、4、5、8、10、12、15、20、25、35、50、75、または100である。様々な例において、それぞれの第1のセグメント318を第1のセグメントカバレッジデータ322の決定から除外するかどうかを決定するために使用されるカバレッジデータは、コピー数多型が検出されない個体から得られた参照試料に対応する第1のセグメント318の参照カバレッジデータに基づくことができる。
さらに、動作324において、プロセス300は、正規化カバレッジデータ326を生成するために第1のセグメントカバレッジデータ322を正規化することを含むことができる。正規化されたカバレッジデータ326は、参照カバレッジデータに対して第1のセグメントカバレッジデータ322を解析することによって作成することができる。1またはそれを超える例において、参照カバレッジデータは、コピー数多型が存在しない個体から得られたいくつかの試料に基づいて作成されたオフターゲット配列に基づいて決定することができる。様々な例において、参照カバレッジデータは、コピー数多型が存在しない個体の参照試料から得られた配列データを分析して、参照配列302の標的領域と整列しない参照試料から作成されたオフターゲット配列表示を決定することによって決定することができる。参照配列302の第1のセグメント318の参照カバレッジデータは、個々の第1のセグメント318に含まれる参照試料から導出されたオフターゲット配列表示のそれぞれの数を決定することによって生成することができる。1またはそれを超える例示的な例において、所与の第1のセグメント318の参照カバレッジデータは、所与の第1のセグメント318に関して複数の参照試料から導出されたオフターゲット配列表示の平均数に基づいて決定することができる。個々の第1のセグメント318について、個々の第1のセグメント318の参照カバレッジデータに対する個々の第1のセグメントカバレッジデータ322に含まれるオフターゲット配列表示の数の比を決定することによって、正規化されたカバレッジデータを作成することができる。正規化されたカバレッジデータ326は、個々の第1のセグメント318の参照カバレッジデータに対する第1のセグメントカバレッジデータ322に含まれるオフターゲット配列表示の数の比を集約することによって生成することができる。
第1のセグメントカバレッジデータ322の正規化は、グアニン-シトシン(G-C)含有量またはマッピング可能性スコアの少なくとも一方に関して行うこともできる。例えば、個々の第1のセグメント318について、個々の第1のセグメント318に対応するオフターゲット配列表示のグアニンヌクレオチドの数およびシトシンヌクレオチドの数を示すG-C含有量を決定することができる。また、複数のパーティションのG-C含有量のパーティションについて、G-C含有量の頻度を判定することができる。G-C含有量の個々のパーティションは、G-C含有量の値の異なる範囲に対応することができる。このようにして、所与の第1のセグメント318のG-C含有量の頻度は、個々の第1のセグメント318のG-C含有量分布によって表すことができる。個々の第1のセグメント318の予想されるカバレッジ量は、個々の第1のセグメント318のG-C含有量の頻度に基づいて決定することができる。正規化されたカバレッジデータ326の少なくとも一部分は、個々の第1のセグメント318の予想カバレッジ量に基づいて決定されるG-C正規化されたカバレッジデータを含むことができる。
さらに、個々の第1のセグメント318に対応する個々の配列表示についてマッピング可能性スコアを決定することができる。個々の第1のセグメント318の複数のパーティションのパーティション内にマッピング可能性スコアを有するいくつかの配列表示に対応する配列表示の頻度を決定することもできる。個々の第1のセグメント318に対する複数のパーティションのマッピング可能性スコアの個々のパーティションは、マッピング可能性スコアの値の異なる範囲に対応し得る。個々の第1のセグメント318に対する予想されるカバレッジは、個々の第1のセグメント318に対するマッピング可能性スコアの頻度に基づいて決定することができる。正規化されたカバレッジデータ326の少なくとも一部分は、個々の第1のセグメント318の予想カバレッジ量に基づいて決定される正規化カバレッジデータをマッピング可能性スコア化することができる。
様々な例において、正規化されたカバレッジデータ326は、G-C含有量正規化データ、マッピング可能性スコア正規化データ、参照カバレッジデータに従って正規化されたカバレッジデータ、または中央値カバレッジデータに従って正規化されたカバレッジデータのうちの少なくとも1つに対応する正規化データの組み合わせを含むことができる。1またはそれを超える例において、第1のデータセットに関連して行われる正規化は、第1のセグメント318のカバレッジメトリクスの最終正規化値を生成するために、1またはそれを超える追加のデータセットに関連して行われる正規化に基づいて調整することができる。例えば、第1のセグメント318の第1の正規化は、複数の第1のセグメント318から作成された中央値カバレッジデータに関して個々の第1のセグメント318の第1のセグメントカバレッジデータ322に対して実施され得る。1またはそれを超える例において、第1の正規化は、個々の第1のセグメント318の第1の比率をもたらすことができる。この例を続けると、いくつかの参照試料から導出された個々の第1のセグメント318の参照カバレッジデータに関して、個々の第1のセグメント318の第1のセグメントカバレッジデータ322に対して第2の正規化を行うことができる。1またはそれを超える追加の例では、第2の正規化は、個々の第1のセグメント318の第2の比率をもたらすことができる。これらの状況では、第1の正規化後に作成された個々の第1のセグメント318に対する第1の正規化されたカバレッジデータは、第2の正規化後に作成された個々の第1のセグメント318に対する第2の正規化されたカバレッジデータに基づいて調整され、第1の調整正規化カバレッジデータを生成することができる。
第3の正規化は、複数の追加の第1のセグメント318(例えば、中央値G-C含有量)のG-C含有量に関連して、または参照試料から導出されたG-C含有量に関連して、個々の第1のセグメント318のG-C含有量に対して行うことができる。第3の正規化の結果は、第3の比率を含むことができる。様々な例において、第2の正規化されたカバレッジデータは、G-C含有量正規化データに基づいて調整され、第2の調整正規化カバレッジデータを生成することができる。さらに、マッピング可能性スコアに関して第4の正規化を実施して、マッピング可能性スコア正規化データを生成することができる。第2の調整正規化カバレッジデータは、マッピング可能性スコア正規化データに基づいて更に調整され、第3の調整正規化カバレッジデータを作成することができる。様々な例において、第1の正規化されたカバレッジデータ、第1の調整正規化カバレッジデータ、第2の調整正規化カバレッジデータ、または第3の調整正規化カバレッジデータのうちの少なくとも1つを、正規化カバレッジデータ326に含めることができる。
1またはそれを超える例では、カバレッジデータを正規化するプロセス324は、第1のセグメントのカバレッジデータ322にスケーリング係数を適用する1またはそれを超える動作を含むことができる。1またはそれを超える追加の例では、スケーリングファクタは、オンターゲットカバレッジデータに適用することができる。スケーリング係数は、所与の第1のセグメント118のカバレッジデータを第1のセグメント318のグループのカバレッジデータの中央値で除算することによって決定することができる。1またはそれを超える例示的な例では、第1のセグメント318の群は、第1のセグメント318の少なくとも約90%、第1のセグメント318の少なくとも約95%、第1のセグメントの少なくとも約99%、第1のセグメント318の少なくとも約99.5%、または第1のセグメント318の少なくとも約99.9%を含むことができる。
プロセス300は、動作328において、参照配列302に関して第2のセグメント化プロセスを実施することを含むことができる。第2のセグメント化プロセスは、参照配列302を例示的な第2のセグメント330等のいくつかの第2のセグメントにパーティションすることができる。個々の第2のセグメント330は、複数の第1のセグメント318を含むことができる。1またはそれを超える例では、個々の第2のセグメント330は、少なくとも30個の第1のセグメント318、少なくとも35個の第1のセグメント318、少なくとも40個の第1のセグメント318、少なくとも45個の第1のセグメント318、少なくとも50個のセグメント318、少なくとも55個の第1のセグメント318、または少なくとも60個の第1のセグメント318を含むことができる。1またはそれを超える例において、個々の第2のセグメント330は、個々の第1のセグメント318よりも多数のヌクレオチドを含むことができる。例えば、個々の第2のセグメント330は、少なくとも約200万ヌクレオチド、少なくとも約300万ヌクレオチド、少なくとも約400万ヌクレオチド、少なくとも約500万ヌクレオチド、少なくとも約600万ヌクレオチド、または少なくとも約700万ヌクレオチドを含むことができる。1またはそれを超える例示的な例では、個々の第2のセグメント330は、約200万ヌクレオチド~約1200万ヌクレオチド、約300万ヌクレオチド~約1000万ヌクレオチド、または約400万ヌクレオチド~約800万ヌクレオチドを含むことができる。様々な例において、少なくとも1またはそれを超える第2のセグメント330は、少なくとも1つの追加の第2のセグメント330の1つとは異なる数のヌクレオチドを有し得る。様々な例において、第2のセグメント化プロセスは、Olshen,Adam et al.,”Circular binary segmentations for the analysis of array-based DNA copy number data”,Biostatistics,2004 October;5(4):557-72に記載されるもの等の1またはそれを超える循環バイナリセグメント化プロセスを含むことができる。
第2のセグメント化プロセスの一部として決定される第2のセグメント330の数は、少なくとも5、少なくとも7、少なくとも10、少なくとも12、少なくとも15、少なくとも16、少なくとも17、少なくとも18、少なくとも19、少なくとも20、少なくとも21、少なくとも22、少なくとも23、少なくとも24、または少なくとも25であり得る。1またはそれを超える例示的な例では、第2のセグメント化プロセスの一部として決定される第2のセグメント330の数は、5~30、10~27、または18~24であり得る。
第2のセグメント化プロセスの完了に続いて、第2のセグメントカバレッジデータ332を決定することができる。個々の第2のセグメント330の第2のセグメントカバレッジデータ332は、個々の第2のセグメント330を含む各第1のセグメント318の正規化されたカバレッジメトリクスを含むことができる。1またはそれを超える例では、個々の第2のセグメント330の第2のセグメントカバレッジデータ332は、第2のセグメント330を含む複数の第1のセグメント318の正規化されたカバレッジメトリクスの合計に対応することができる。動作334において、腫瘍メトリクスは、第2のセグメントのカバレッジデータに基づいて決定され得る。332。例えば、オフターゲット配列表示が由来する試料の腫瘍細胞コピー数は、第2のセグメントカバレッジデータ332に基づいて決定することができる。個々の第2のセグメント330の腫瘍細胞コピー数は、1またはそれを超える個々の第2のセグメント330に対応するゲノム領域の増幅または欠失の量を示すことができる。様々な例において、腫瘍細胞コピー数は、1またはそれを超える個々の第2のセグメント330に対応するゲノム領域のヘテロ接合性の喪失を示し得る。さらに、腫瘍割合は、第2のセグメント化プロセスの完了時に決定することもできる。1またはそれを超える例示的な例では、腫瘍メトリクスは、腫瘍細胞コピー数および腫瘍割合の値の尤度を決定するために使用することができるモデルのパラメータの値を含むことができる。例示すると、第2のセグメント化プロセスは、23個のセグメントをもたらすことができる。これらのシナリオでは、腫瘍メトリクスは、それぞれがそれぞれの第2のセグメント23に対応する23個の腫瘍細胞コピー数を含み得る。23個の腫瘍細胞コピー数は、第2のセグメントカバレッジデータ332に基づいて決定された腫瘍割合と共に、腫瘍細胞コピー数および腫瘍割合の推定値の尤度を決定する最尤推定モデルのパラメータの値を含み得る。
1またはそれを超える例では、第1のセグメント化プロセス316および第2のセグメント化プロセス328は、一つまたは複数の基準を満たさない第2のセグメント330の少なくとも一部分について繰り返すことができる。例えば、1またはそれを超える第2のセグメント330に対する腫瘍細胞コピー数の尤度は、第1のセグメント化プロセス316および第2のセグメント化プロセス328の最初の反復後の最小尤度よりも小さくなり得る。1またはそれを超える更なる例では、1またはそれを超える基準は、腫瘍細胞コピー数の推定値がセグメント化プロセスの1つの反復から次の反復に変化しているか否かに対応することができる。
これらの状況では、第1のセグメント化プロセス316および第2のセグメント化プロセス328は、一つ以上の基準を満たさない一つ以上の第2のセグメントについて繰り返され得るが、第1のセグメント化プロセス316および第2のセグメント化プロセス328は、1またはそれを超える基準を満たす第2のセグメント330については繰り返されない。例示すると、1またはそれを超える基準を満たさない1またはそれを超える第2のセグメント330に対応する参照配列302の部分は、追加の第1のセグメントにセグメント化することができる。様々な例において、第2のセグメント化プロセスは、セグメントの予想されるコピー数に関して同じまたは一貫したコピー数を有する第2のセグメントに関して実施することができる。予想されるコピー数は、それぞれのセグメントに対する参照ゲノムのコピー数に基づき得る。追加の第1のセグメントについて追加のカバレッジデータを決定することができ、追加の第1のセグメントの追加のカバレッジデータに関して1またはそれを超える正規化プロセスを実施することができる。1またはそれを超える例示的な例では、参照カバレッジデータに従って、G-C含有量正規化プロセス、マッピング可能性スコア正規化プロセス、またはカバレッジデータ正規化プロセスのうちの少なくとも1つを実施することによって、追加の正規化カバレッジデータを決定することができる。
追加の正規化されたカバレッジデータを決定した後、1またはそれを超える追加の第2のセグメントを決定するために追加の正規化されたカバレッジデータを使用して、追加の第1のセグメントに関して第2のセグメント化プロセスの追加の実施態様を行うことができる。追加の第2のセグメントカバレッジデータは、追加の正規化されたカバレッジデータの日に基づいて、1またはそれを超える追加の第2のセグメントについて決定することができる。追加の第2のセグメントに対する追加のセグメントカバレッジデータを使用して、追加の第2のセグメントに対する腫瘍細胞コピー数を決定することができる。最初の第2のセグメントの最初の腫瘍細胞コピー数は、追加の腫瘍細胞コピー数と組み合わせて、最尤推定モデルのパラメータとして使用することができる。さらに、最初の第2のセグメントおよび追加の第2のセグメントのカバレッジデータを組み合わせて、試料の腫瘍割合の値を決定することができる。試料の腫瘍割合の値は、最尤推定モデルのパラメータとして使用することもできる。
1またはそれを超える実施態様において第2のセグメント330の腫瘍細胞コピー数の推定値を決定するために、第2のセグメント330の腫瘍細胞コピー数の第1の推定値を、第2のセグメントカバレッジデータ332に基づいて決定することができる。追加の第1のセグメント化プロセスを実施して、追加の第1のセグメントを決定することができる。様々な例において、追加の第1のセグメントの少なくとも一部分は、それぞれの第1のセグメント318と同じ参照ゲノム302のゲノム位置に位置し得る。追加の正規化されたカバレッジデータはまた、追加の第1のセグメントに対応する配列表示のそれぞれの番号に従って決定された追加の第1のセグメントカバレッジデータに基づいて決定することもできる。追加の正規化されたカバレッジデータは、追加の第2のセグメント化プロセスを実施するために使用することができ、追加の第2のセグメントカバレッジデータを決定することができる。1またはそれを超える例において、追加の第2のセグメントの少なくとも一部分は、それぞれの第2のセグメント330と同じ参照ゲノム302のゲノム位置に位置し得る。追加の第2のセグメントカバレッジデータを使用して、追加の第2のセグメントの腫瘍細胞コピー数の第2の推定値を決定することができる。
腫瘍細胞コピー数についての第2の推定値は、腫瘍細胞コピー数についての第1の推定値に関して分析することができる。追加の第2のセグメントの腫瘍細胞コピー数の第2の推定値が、対応する第2のセグメントの腫瘍細胞コピー数の第1の推定値とは異なる状況では、第2の追加の第1のセグメントカバレッジデータ、第2の追加の正規化されたカバレッジデータ、および第2の追加の第2のカバレッジデータの決定とともに、第1のセグメント化プロセスおよび第2のセグメント化プロセスの第3の反復を実施することができる。追加の第2のセグメントの腫瘍細胞コピー数の第2の推定値が、対応する第2のセグメントの腫瘍細胞コピー数の第1の推定値と同じであるシナリオでは、それぞれの第2のセグメントの腫瘍細胞コピー数は不変であり、それぞれの第2のセグメントの腫瘍細胞コピー数の推定値を決定するための1またはそれを超える基準を満たすと決定することができる。1またはそれを超える例示的な例において、第2のセグメントに対する腫瘍細胞コピー数は、腫瘍細胞コピー数に対する推定値が第1のセグメント化プロセスおよび第2のセグメント化プロセスの複数の反復後に同じであるとの決定に応答して変化しないと見なされ得る。様々な例では、第1のセグメント化プロセスおよび第2のセグメント化プロセスの各反復の初期条件は異なり得る。さらに、第2のセグメントの腫瘍細胞コピー数の推定値が不変であると決定することは、1またはそれを超える循環バイナリセグメント化技術に基づくことができる。
図4は、1またはそれを超える実施態様による、オフターゲット配列に由来するサイズ分布メトリクスから決定された腫瘍メトリクスを決定するための例示的なプロセスの概略図である。プロセス400は、対象から得られた試料に由来するポリヌクレオチド配列を含むシーケンシングデータに基づいて、オンターゲット配列表示およびオフターゲット配列表示を決定することを含み得る。1またはそれを超える例において、オンターゲット配列表示およびオフターゲット配列表示は、参照配列402に関して配列表示を分析することによって決定することができる。例示すると、配列表示と例示的な参照配列部分404との間の相同性の量を決定するために、例示的な参照配列部分404等の参照配列402の1またはそれを超える部分に関して配列表示を分析することができる。図4の例示的な例において、例示的な参照配列部分404は、ドライバ突然変異に対応する標的領域406を含み得る。様々な例において、参照配列402は、少なくとも約500個の標的領域、少なくとも約1000個の標的領域、少なくとも約2500個の標的領域、少なくとも約5000個の標的領域、少なくとも約10,000個の標的領域、少なくとも約15,000個の標的領域、少なくとも約20,000個の標的領域、少なくとも約25,000個の標的領域、または少なくとも約30,000個の標的領域を有することができる。標的領域406は、約25ヌクレオチド~約250ヌクレオチド、約50ヌクレオチド~約200ヌクレオチド、または約75ヌクレオチド~約150ヌクレオチドを含むことができる。
さらに、図4の例示的な例では、第1の配列表示408、第2の配列表示410、および第3の配列表示412は、例示的な参照配列部分404に関して解析される。分析に基づいて、第1の配列表示408は、標的領域406の少なくとも一部分に対してアラインメントされる。これらのシナリオでは、第1の配列表示408をオンターゲット配列表示として同定することができる。さらに、第2の配列表示410は、標的領域406の外側にある例示的な参照配列部分404の一部分とアラインメントさせることができる。第3の配列表示412はまた、標的領域406の外側にある例示的な参照配列部分404の追加の部分とアラインメントさせることもできる。これらの状況では、第2の配列表示410および第3の配列表示412をオフターゲット配列表示として同定することができる。
試料に由来する配列表示と参照配列402との間のアラインメントプロセスは、オフターゲット配列データ414を作成することができる。オフターゲット配列データ414は、標的領域の外側にある参照配列402の領域とアラインメントされた配列表示を含み得る。例えば、オフターゲット配列データ414は、第2の配列表示410および第3の配列表示412を含み得る。
プロセス400は、動作416において、オフターゲット配列データ414に基づいて実施される第1のセグメント化プロセスを含むことができる。第1のセグメント化プロセスは、例示的な第1のセグメント418等、参照配列402のいくつかの第1のセグメントを作成することができる。第1のセグメント化プロセスは、参照配列402の第1のセグメント418が閾値数以下のヌクレオチド数を有するように実施される。1またはそれを超える例示的な例において、ヌクレオチドの閾値数は、約200キロベース(kb)以下、約180kb以下、約160kb以下、約140kb以下、約120kb以下、約100kb以下、約80kb以下または約60kb以下であり得る。1またはそれを超える追加の例示的な例では、第1のセグメント318は、少なくとも約50kb、少なくとも約60kb、少なくとも約70kb、少なくとも約80kb、少なくとも約90kb、少なくとも約100kb、少なくとも約120kb、少なくとも約140kb、少なくとも約160kb、または少なくとも約180kbを含み得る。様々な例において、第1のセグメント418の少なくとも一部分は同じ数のヌクレオチドを有することができ、複数の第1のセグメント418の残りはより少ないヌクレオチドを有することができる。1またはそれを超える例において、複数の第1のセグメント418の少なくとも一部分は200kbを有することができ、複数の第1のセグメント418の残りはより少ないヌクレオチドを有することができる。1またはそれを超える追加の例では、複数の第1のセグメント418の少なくとも約70%が同じ数のヌクレオチドを有することができ、複数の第1のセグメント418の少なくとも約75%が同じ数のヌクレオチドを有することができ、複数の第1のセグメント418の少なくとも約80%が同じ数のヌクレオチドを有することができ、複数の第1のセグメント418の少なくとも約85%が同じ数のヌクレオチドを有することができ、複数の第1のセグメント418の少なくとも約90%が同じ数のヌクレオチドを有することができ、複数の第1のセグメント418の少なくとも約95%が同じ数のヌクレオチドを有することができ、または複数の第1のセグメント418の少なくとも約99%が同じ数のヌクレオチドを有することができる。1またはそれを超える更なる例において、参照配列402の第1のセグメント化プロセスは、複数の第1のセグメント418が標的領域を除外するように実施され得る。これらの実施態様において複数の第1のセグメント418は標的領域と重ならない。
参照配列402の第1のセグメント418の数は、少なくとも約7000、少なくとも約8000、少なくとも約9000、少なくとも約10,000、少なくとも約11,000、少なくとも約12,000、少なくとも約13,000、少なくとも約14,000、少なくとも約15,000、少なくとも約16,000、少なくとも約17,000、少なくとも約18,000、少なくとも約19,000、少なくとも約20,000、少なくとも約21,000、少なくとも約22,000、少なくとも約23,000、少なくとも約24,000、少なくとも約25,000、または少なくとも約26,000であり得る。1またはそれを超える例示的な例において、参照配列402の第1のセグメント418の数は、約7000~約35,000、約10,000~約30,000または約12,000~約27,000であり得る。
1またはそれを超える例では、プロセス400は、個々の第1のセグメント418のサイズ分布420を決定することを含むことができる。個々の第1のセグメント418のサイズ分布420は、配列表示サイズの分布のそれぞれのパーティションに含まれるいくつかのオフターゲット配列表示を含むことができる。例えば、サイズ分布420は、それぞれの第1のセグメント418に対応する配列表示のサイズの正規分布を表すことができる。これらのシナリオでは、個々のパーティションは、平均からの標準偏差に関連する配列表示のサイズの範囲に対応することができる。例示すると、分布420の第1のパーティションは、平均よりも1標準偏差大きいサイズを有する配列表示を含むことができ、分布420の第2のパーティションは、平均よりも1標準偏差小さいサイズを有する配列表示を含むことができる。さらに、分布420の第3のパーティションは、平均よりも大きい1標準偏差と2標準偏差との間のサイズを有する配列表示を含むことができ、分布420の第4のパーティションは、平均よりも小さい1標準偏差と2標準偏差との間のサイズを有する配列表示を含むことができる。第1のセグメント418について作成されたサイズ分布データは、配列サイズ分布データ422を生成するために使用することができる。様々な例において、配列サイズ分布データ422は、個々の第1のセグメント418に対応するオフターゲット配列表示のそれぞれのサイズ分布を含むことができる。
様々な例において、配列サイズ分布データ422は、1またはそれを超える第1のセグメント418のカバレッジ情報を除外することができる。このようにして、配列サイズ分布データ422を決定するために使用される1またはそれを超える第1のセグメント418をフィルタリングすることができる。第1のセグメント418のフィルタリングは、オフターゲット配列データ414に基づいて行うことができる。1またはそれを超える更なる例において、第1のセグメント418のフィルタリングは、コピー数多型が存在しない個体から得られた参照試料から作成されたオフターゲット配列表示データに基づいて行うことができる。
さらに、参照配列402の標的領域と少なくとも閾値量のオーバーラップを有する第1のセグメント418を決定することができる。1またはそれを超える第1のセグメント418が参照配列402の標的領域と少なくとも閾値量の重複を有するシナリオでは、1またはそれを超える第1のセグメント418に対応する配列サイズ分布情報を配列サイズ分布データ422から除外することができる。様々な例において、参照配列402の標的領域と1またはそれを超える第1のセグメント418との間の閾値量の重複は、第1のセグメント418の少なくとも約5ヌクレオチドが参照配列402の標的領域と重複すること、第1のセグメント418の少なくとも約10ヌクレオチドが参照配列402の標的領域と重複すること、第1のセグメント418の少なくとも約15ヌクレオチドが参照配列402の標的領域と重複すること、第1のセグメント418の少なくとも約20ヌクレオチドが参照配列402の標的領域と重複すること、または第1のセグメント418の少なくとも約25ヌクレオチドが参照配列402の標的領域と重複することを含み得る。
1またはそれを超える追加の実施態様において、閾値数より少ない配列表示を有する1またはそれを超える第1のセグメント418のサイズ分布情報もまた、配列サイズ分布データ422から除外することができる。1またはそれを超える例示的な例では、配列サイズ分布データ422からそれぞれの第1のセグメント418の配列サイズ分布情報を除外するために第1のセグメント418に存在する配列表示の閾値数は、0、1、2、3、4、5、8、10、12、15、20、25、35、50、75、または100である。様々な例において、それぞれの第1のセグメント418を配列サイズ分布データ422の決定から除外するかどうかを決定するために使用される配列サイズ分布情報は、コピー数多型が検出されない個体から得られた参照試料に対応する第1のセグメント418の参照配列サイズ分布データに基づくことができる。
さらに、動作424において、プロセス400は、正規化されたサイズ分布データ426を生成するために配列サイズ分布データ422を正規化することを含むことができる。正規化されたサイズ分布データ426は、配列サイズ分布データ422を参照サイズ分布データに対して解析することにより作成することができる。1またはそれを超える例では、参照サイズ分布データは、腫瘍が存在しない個体から得られた試料の数に基づいて作成されたオフターゲット配列表示に基づいて決定することができる。様々な例において、参照サイズ分布データは、コピー数多型が存在しない個体の参照試料から得られたシーケンシングデータを分析して、参照配列402の標的領域と整列しない参照試料から作成されたオフターゲット配列表示を決定することによって決定することができる。参照配列402の第1のセグメント418の参照サイズ分布データは、個々の第1のセグメント418に関する分布のそれぞれのパーティションに含まれる参照試料から導出されたオフターゲット配列表示のそれぞれの数を決定することによって生成することができる。1またはそれを超える例示的な例において、所与の第1のセグメント418についての参照サイズ分布データは、所与の第1のセグメント418についての分布の個々のパーティションに関して複数の参照試料から導出されたオフターゲット配列表示の平均数に基づいて決定され得る。個々の第1のセグメント418について、正規化されたサイズ分布データは、個々の第1のセグメント418についての参照サイズ分布データに対する配列サイズ分布データ422から導出された所与の第1のセグメント418からのサイズ分布データの比を決定することによって作成することができる。正規化されたサイズ分布データ426は、個々の第1のセグメント418の参照サイズ分布データに対する配列サイズ分布データ422から導出された所与の第1のセグメント418からのサイズ分布データの比率を集約することによって生成することができる。
図4の例示的な例には示されていないが、プロセス400は、参照配列402に関して第2のセグメント化プロセスを実施することを含むことができる。第2のセグメント化プロセスは、参照配列402をいくつかの第2のセグメントにパーティションすることができる。個々の第2のセグメントは、複数の第1のセグメント418を含むことができる。1またはそれを超える例では、個々の第2のセグメントは、少なくとも30個の第1のセグメント418、少なくとも35個の第1のセグメント418、少なくとも40個の第1のセグメント418、少なくとも45個の第1のセグメント418、少なくとも50個のセグメント418、少なくとも55個の第1のセグメント418、または少なくとも60個の第1のセグメント418を含むことができる。1またはそれを超える例において、個々の第2のセグメントは、個々の第1のセグメント418よりも多数のヌクレオチドを含むことができる。例えば、個々の第2のセグメントは、少なくとも約200万ヌクレオチド、少なくとも約300万ヌクレオチド、少なくとも約400万ヌクレオチド、少なくとも約500万ヌクレオチド、少なくとも約600万ヌクレオチド、または少なくとも約700万ヌクレオチドを含むことができる。1またはそれを超える例示的な例では、個々の第2のセグメントは、約200万ヌクレオチド~約1200万ヌクレオチド、約300万ヌクレオチド~約1000万ヌクレオチド、または約400万ヌクレオチド~約800万ヌクレオチドを含むことができる。様々な例において、少なくとも1またはそれを超える第2のセグメントは、少なくとも1つの追加の第2のセグメントの1つとは異なる数のヌクレオチドを有し得る。様々な例において、第2のセグメント化プロセスは、Olshen,Adam et al.,”Circular binary segmentations for the analysis of array-based DNA copy number data”,Biostatistics,2004 October;5(4):557-72に記載されるもの等の1またはそれを超える循環バイナリセグメント化プロセスを含むことができる。
第2のセグメント化プロセスの一部として決定される第2のセグメントの数は、少なくとも5、少なくとも7、少なくとも10、少なくとも12、少なくとも15、少なくとも16、少なくとも17、少なくとも18、少なくとも19、少なくとも20、少なくとも21、少なくとも22、少なくとも23、少なくとも24、または少なくとも25であり得る。1またはそれを超える例示的な例では、第2のセグメント化プロセスの一部として決定される第2のセグメントの数は、5~30、10~27、または18~24であり得る。
第2のセグメント化プロセスの完了に続いて、第2のサイズ分布データを決定することができる。参照ゲノム402の個々の第2のセグメントについての第2のサイズ分布データは、個々の第2のセグメントを含む各第1のセグメント418についての正規化されたカバレッジメトリクスを含むことができる。1またはそれを超える例示的な例では、個々の第2のセグメントの第2のサイズ分布データは、第2のセグメントを含む複数の第1のセグメント418の正規化されたカバレッジメトリクスの合計に対応し得る。さらに、動作428において、腫瘍メトリクスは、第2のサイズ分布データに基づいて決定され得る。例えば、オフターゲット配列表示が由来する試料の腫瘍細胞コピー数は、第2のサイズ分布データに基づいて決定することができる。個々の第2のセグメントの腫瘍細胞コピー数は、1またはそれを超える個々の第2のセグメントに対応するゲノム領域の増幅または欠失の量を示すことができる。様々な例において、腫瘍細胞コピー数は、1またはそれを超える個々の第2のセグメントに対応するゲノム領域のヘテロ接合性の喪失を示し得る。さらに、腫瘍割合は、第2のセグメント化プロセスの完了時に決定することもできる。1またはそれを超える例示的な例では、腫瘍メトリクスは、腫瘍細胞コピー数および腫瘍割合の値の尤度を決定するために使用することができるモデルのパラメータの値を含むことができる。例示すると、第2のセグメント化プロセスは、23個のセグメントをもたらすことができる。これらのシナリオでは、腫瘍メトリクスは、それぞれがそれぞれの第2のセグメント23に対応する23個の腫瘍細胞コピー数を含み得る。23個の腫瘍細胞コピー数は、第2のサイズ分布データに基づいて決定された腫瘍割合と共に、腫瘍細胞コピー数および腫瘍割合の推定値の尤度を決定する最尤推定モデルのパラメータの値を含み得る。
1またはそれを超える例では、第1のセグメント化プロセス416および第2のセグメント化プロセスは、1またはそれを超える基準を満たさない第2のセグメントの少なくとも一部分について繰り返すことができる。例えば、1またはそれを超える第2のセグメントに対する腫瘍細胞コピー数の尤度は、第1のセグメント化プロセス416および第2のセグメント化プロセスの最初の反復後の最小尤度よりも小さくなり得る。これらの状況では、第1のセグメント化プロセス416および第2のセグメント化プロセスは、1つ以上の基準を満たさない1つ以上の第2のセグメントについて繰り返され得るが、第1のセグメント化プロセス416および第2のセグメント化プロセスは、1またはそれを超える基準を満たす第2のセグメントについては繰り返されない。例示すると、1またはそれを超える基準を満たさない1またはそれを超える第2のセグメントに対応する参照配列402の部分は、追加の第1のセグメントにセグメント化することができる。追加の第1のセグメントについて追加のカバレッジデータを決定することができ、追加の第1のセグメントの追加のカバレッジデータに関して1またはそれを超える正規化プロセスを実施することができる。1またはそれを超える例示的な例では、参照サイズ分布データに従ってサイズ分布データ正規化プロセスを実施することによって、追加の正規化されたカバレッジデータを決定することができる。
追加の正規化されたサイズ分布データを決定した後、1またはそれを超える追加の第2のセグメントを決定するために追加の正規化されたサイズ分布データを使用して、追加の第1のセグメントに関して第2のセグメント化プロセスの追加の実施態様を行うことができる。追加の第2のセグメントサイズ分布データは、追加の正規化されたサイズ分布データの日に基づいて、1またはそれを超える追加の第2のセグメントについて決定することができる。追加の第2のセグメントに対する追加のセグメントサイズ分布データを使用して、追加の第2のセグメントに対する腫瘍細胞コピー数を決定することができる。最初の第2のセグメントの最初の腫瘍細胞コピー数は、追加の腫瘍細胞コピー数と組み合わせて、最尤推定モデルのパラメータとして使用することができる。さらに、最初の第2のセグメントおよび追加の第2のセグメントのサイズ分布データを組み合わせて、試料の腫瘍割合の値を決定することができる。試料の腫瘍割合の値は、最尤推定モデルのパラメータとして使用することもできる。
1またはそれを超える実施態様において、参照ゲノム402の第2のセグメントの腫瘍細胞コピー数の推定値を決定するために、第2のセグメントの腫瘍細胞コピー数の第1の推定値を、第2のセグメントサイズ分布データに基づいて決定することができる。追加の第1のセグメント化プロセスを実施して、追加の第1のセグメントを決定することができる。様々な例において、追加の第1のセグメントの少なくとも一部分は、それぞれの第1のセグメント418同じ参照ゲノム402のゲノム位置に位置し得る。追加の正規化されたサイズ分布データはまた、追加の第1のセグメントに対応する配列表示のそれぞれの番号に従って決定された追加の第1のセグメントサイズ分布データに基づいて決定することもできる。追加の正規化されたサイズ分布データは、追加の第2のセグメント化プロセスを実施するために使用することができ、追加の第2のセグメントサイズ分布データを決定することができる。1またはそれを超える例において、追加の第2のセグメントの少なくとも一部分は、それぞれの第2のセグメントと同じ参照ゲノム402のゲノム位置に位置し得る。追加の第2のセグメントサイズ分布データを使用して、追加の第2のセグメントの腫瘍細胞コピー数の第2の推定値を決定することができる。
腫瘍細胞コピー数についての第2の推定値は、腫瘍細胞コピー数についての第1の推定値に関して分析することができる。追加の第2のセグメントの腫瘍細胞コピー数の第2の推定値が、対応する第2のセグメントの腫瘍細胞コピー数の第1の推定値とは異なる状況では、第2の追加の第1のセグメントサイズ分布データ、第2の追加の正規化されたサイズ分布データ、および第2の追加の第2のサイズ分布データの決定とともに、第1のセグメント化プロセスおよび第2のセグメント化プロセスの第3の反復を実施することができる。追加の第2のセグメントの腫瘍細胞コピー数の第2の推定値が、対応する第2のセグメントの腫瘍細胞コピー数の第1の推定値と同じであるシナリオでは、それぞれの第2のセグメントの腫瘍細胞コピー数は不変であり、それぞれの第2のセグメントの腫瘍細胞コピー数の推定値を決定するための1またはそれを超える基準を満たすと決定することができる。1またはそれを超える例示的な例において、第2のセグメントに対する腫瘍細胞コピー数は、腫瘍細胞コピー数に対する推定値が第1のセグメント化プロセスおよび第2のセグメント化プロセスの複数の反復後に同じであるとの決定に応答して変化しないと見なされ得る。様々な例では、第1のセグメント化プロセスおよび第2のセグメント化プロセスの各反復の初期条件は異なり得る。さらに、第2のセグメントの腫瘍細胞コピー数の推定値が不変であると決定することは、1またはそれを超える循環バイナリセグメント化技術に基づくことができる。
図5は、ビニング動作、1またはそれを超える追加のセグメント化動作、および尤度関数を使用して腫瘍メトリクスを決定する例示的なプロセス500の概略図である。プロセス500は、動作502において、参照ゲノムビニングを含む。参照ゲノムビニングは、参照ゲノムのヌクレオチドの配列に沿ってビンを決定することを含むことができ、ビンはいくつかの核酸から構成される。1またはそれを超える例において、個々のビンは、約200kb以下、約180kb以下、約160kb以下、約140kb以下、約120kb以下、約100kb以下、約80kb以下または約60kb以下を含み得る。1またはそれを超える追加の例示的な例では、第1のセグメント318は、少なくとも約50kb、少なくとも約60kb、少なくとも約70kb、少なくとも約80kb、少なくとも約90kb、少なくとも約100kb、少なくとも約120kb、少なくとも約140kb、少なくとも約160kb、または少なくとも約180kbを含み得る。様々な例では、ビンの少なくとも一部分は同じ数のヌクレオチドを有することができ、ビンの残りはより少ないヌクレオチドを有することができる。1またはそれを超える例示的な例では、第1の数のビンは200kbを有することができ、第2の数のビンは200kb未満を有することができる。1またはそれを超える追加の例では、ビンの少なくとも約70%が同じ数のヌクレオチドを有することができ、ビンの少なくとも約75%が同じ数のヌクレオチドを有することができ、ビンの少なくとも約80%が同じ数のヌクレオチドを有することができ、ビンの少なくとも約85%が同じ数のヌクレオチドを有することができ、ビンの少なくとも約90%が同じ数のヌクレオチドを有することができ、ビンの少なくとも約95%が同じ数のヌクレオチドを有することができ、またはビンの少なくとも約99%が同じ数のヌクレオチドを有することができる。様々な例において、ビンは標的領域を除外することができる。例えば、ビンは、個々のビンが1またはそれを超える標的領域と重複しないように決定することができる。
1またはそれを超える例において、標的領域は、ドライバ突然変異に対応する参照配列の領域に対応し得る。1またはそれを超える例示的な例において、個々のドライバ突然変異は、腫瘍検出診断試験の一部であるプローブに対応し得る。様々な例において、参照配列は、少なくとも約500個の標的領域、少なくとも約1000個の標的領域、少なくとも約2500個の標的領域、少なくとも約5000個の標的領域、少なくとも約10,000個の標的領域、少なくとも約15,000個の標的領域、少なくとも約20,000個の標的領域、少なくとも約25,000個の標的領域、または少なくとも約30,000個の標的領域を有することができる。個々の標的領域は、約25ヌクレオチド~約250ヌクレオチド、約50ヌクレオチド~約200ヌクレオチド、または約75ヌクレオチド~約150ヌクレオチドを含むことができる。1またはそれを超える例において、参照配列はヒト参照配列であり得る。
ビンの数は、少なくとも約7000、少なくとも約8000、少なくとも約9000、少なくとも約10,000、少なくとも約11,000、少なくとも約12,000、少なくとも約13,000、少なくとも約14,000、少なくとも約15,000、少なくとも約16,000、少なくとも約17,000、少なくとも約18,000、少なくとも約19,000、少なくとも約20,000、少なくとも約21,000、少なくとも約22,000、少なくとも約23,000、少なくとも約24,000、少なくとも約25,000、または少なくとも約26,000であり得る。1またはそれを超える例示的な例において、ビンの数は、約7000~約35,000、約10,000~約30,000または約12,000~約27,000であり得る。
動作502で行われる参照ゲノムビニングは、オンターゲット配列表示504およびオフターゲット配列表示506を作成することができる。オンターゲット配列表示504は、参照配列の標的領域とアラインメントされた試料または試料に含まれるヌクレオチド分子に由来する配列リードの少なくとも一方に対応することができる。さらに、オフターゲット配列表示506は、参照ゲノムビニングによって生成されたそれぞれのビンとアラインメントされた試料または試料に含まれるヌクレオチド分子に由来する配列リードの少なくとも一方に対応し得る。
オンターゲット配列表示504およびオフターゲット配列表示506は、カバレッジデータ508を生成するために組み合わせることができる。カバレッジデータ508は、参照ゲノムビニングによって生成された個々のビンに対応する配列表示の定量的尺度および個々の標的領域に対応する配列表示の定量的尺度を示すことができる。カバレッジデータ508に含まれる定量的尺度は、個々のビンまたは個々の標的領域に対応するいくつかの配列表示に対応することができる。1またはそれを超える追加の例において、カバレッジデータ508に含まれる定量的尺度は、個々のビンまたは個々の標的領域に対応する配列表示の総数に対する、個々のビンまたは個々の標的領域に対応する配列表示の数の比に対応することができる。
1またはそれを超える例では、オンターゲット配列表示504またはオフターゲット配列表示506のうちの少なくとも一方をフィルタリングしてカバレッジデータ508を作成することができる。例えば、閾値数未満の配列表示に関連付けられた個々のビンとアラインメントされたオフターゲット配列表示506は、カバレッジデータ508から除外することができる。加えて、オフターゲット配列表示506に含まれる、1またはそれを超える標的領域と少なくとも閾値量のオーバーラップを有する配列表示は、カバレッジデータ508から除外することができる。
カバレッジデータ508は、動作510において実施される追加のセグメント化動作の一部として使用することができる。1またはそれを超える例では、カバレッジデータ508は、動作510で実施される追加のセグメント化動作の一部分として使用される前に、1またはそれを超える正規化技術を受けることができる。1またはそれを超える例示的な例において、カバレッジデータ508は、参照試料カバレッジデータ、G-C含有量、またはマッピング可能性スコアのうちの少なくとも1つに従って正規化することができる。様々な例において、参照試料カバレッジデータは、コピー数多型が存在しない個体から得られた試料から導出された定量的尺度に対応することができる。1またはそれを超えるシナリオにおいて、参照試料カバレッジデータは、コピー数多型が存在しない個体から得られたオフターゲット配列表示から作成され得る。
動作510において実施される追加のセグメント化動作は、動作512においてカバレッジデータ508を使用するセグメント化を含むことができる。動作512において実施されるカバレッジデータを使用するセグメント化は、ビンとは異なる参照配列のセグメントを決定することを含むことができる。1またはそれを超える例において、カバレッジデータ508を使用したセグメント化は、参照配列を少なくとも30個のセグメント、少なくとも35個のセグメント、少なくとも40個のセグメント、少なくとも45個のセグメント、少なくとも50個のセグメント、少なくとも55個のセグメントまたは少なくとも60個のセグメントにパーティションすることができる。1またはそれを超える例において、カバレッジデータデータ514を使用したセグメント化によって生成されたセグメントは、動作502で行われた参照ゲノムビニングの一部として作成されたビンよりも多数のヌクレオチドを含み得る。例えば、動作512で生成された個々のセグメントは、少なくとも約200万ヌクレオチド、少なくとも約300万ヌクレオチド、少なくとも約400万ヌクレオチド、少なくとも約500万ヌクレオチド、少なくとも約600万ヌクレオチド、または少なくとも約700万ヌクレオチドを含むことができる。1またはそれを超える例示的な例では、動作512で生成された個々のセグメントは、約200万ヌクレオチド~約1200万ヌクレオチド、約300万ヌクレオチド~約1000万ヌクレオチド、または約400万ヌクレオチド~約800万ヌクレオチドを含むことができる。様々な例において、少なくとも1またはそれを超える動作512で生成された個々のセグメントは、少なくとも1つの追加の動作512で生成された個々のセグメントの1つとは異なる数のヌクレオチドを有し得る。すなわち、カバレッジデータ508を使用して動作512によって作成された個々のセグメントは、可変数のヌクレオチドを有することができる。さらに、動作512で決定された所与のセグメントに含まれるヌクレオチドの数は、異なる試料間で異なり得る。例示すると、第1の個体から得られた第1の試料について動作512で生成された個々のセグメントに含まれる第1の数のヌクレオチドは、第2の個体から得られた第2の試料について動作512で生成された個々のセグメントに含まれる第2の数のヌクレオチドとは異なり得る。1またはそれを超える実施態様において、試料の所与の群について、動作502で生成されるビンの数および位置は同じであり得るが、動作512で生成されるセグメントの数またはセグメントのサイズの少なくとも一方は変化し得る。様々な例において、第2のセグメント化プロセスは、Olshen,Adam et al.,”Circular binary segmentations for the analysis of array-based DNA copy number data”,Biostatistics,2004 October;5(4):557-72に記載されるもの等の1またはそれを超える循環バイナリセグメント化プロセスを含むことができる。
さらに、動作510における追加のセグメント化動作は、動作514において、生殖系列SNP突然変異体対立遺伝子頻度(MAF)データ516を使用したセグメント化を含むことができる。生殖系列SNP MAFデータ516は、ヘテロ接合生殖系列SNPに対応し得る。1またはそれを超える例において、生殖系列SNP MAFデータ516は、ゲノム集約データベース、バージョン2.1.1を使用して同定されたヘテロ接合生殖系列SNPを含み得る。さらに、生殖系列SNP MAFデータ516は、動作502で生成された個々のビンとアラインメントされた生殖系列SNPに対応することができる。例えば、生殖系列SNPの所定のセットを選択し、参照配列とアラインメントさせることができる。次いで、生殖系列SNPのゲノム位置を個々のビンのゲノム位置と比較することができる。このようにして、動作502での参照ゲノムビニングによって生成された個々のビンの少なくとも一部分は、1またはそれを超える生殖系列SNPを含み得る。生殖系列SNP MAFデータ516に表される生殖系列SNPの数は、少なくとも約100個のSNP、少なくとも約250個のSNP、少なくとも約500個のSNP、少なくとも約1000個のSNP、少なくとも約1500個のSNP、少なくとも約2000個のSNP、少なくとも約3000個のSNP、少なくとも約4000個のSNP、または少なくとも約5000個のSNPであり得る。さらに、生殖系列SNP MAFデータ616に表される生殖系列SNPの数は、約30,000個以下のSNP、約25,000個以下のSNP、約20,000個以下のSNP、約15,000個以下のSNP、約10,000個以下のSNP、または約8000個以下のSNPであり得る。1またはそれを超える例示的な例では、生殖系列SNP MAFデータ616に表される生殖系列SNPの数は、約250個のSNP~約30,000個のSNP、約500個のSNP~約10,000個のSNP、約1000個のSNP~約5000個のSNP、または約2500個のSNP~約8000個のSNPであり得る。様々な例において、生殖系列SNP MAFデータ516に表されるSNPは、個体における少なくとも一種の癌の存在に関連するSNPに対応し得る。1またはそれを超える追加の例では、生殖系列SNP MAFデータ516に表されるSNPは、ドライバ突然変異に対応するSNPに対応し得る。
1またはそれを超える例において、個々の生殖系列SNPに対する突然変異体対立遺伝子割合を決定し、参照配列のセグメントを決定するために使用することができる。動作514で生成された個々のセグメントに含まれるセグメントの数およびヌクレオチドの数は、動作512で生成されたものと同じまたは同様であり得る。例えば、動作514で行われる生殖系列SNP MAFデータ516を使用したセグメント化は、ビンとは異なる参照配列のセグメントを決定することを含み得る。1またはそれを超える例において、生殖系列SNP MAFデータ516を使用したセグメント化は、参照配列を少なくとも30個のセグメント、少なくとも35個のセグメント、少なくとも40個のセグメント、少なくとも45個のセグメント、少なくとも50個のセグメント、少なくとも55個のセグメントまたは少なくとも60個のセグメントにパーティションすることができる。1またはそれを超える例において、生殖系列SNP MAFデータ516を使用したセグメント化によって生成されたセグメントは、動作502で行われた参照ゲノムビニングの一部として作成されたビンよりも多数のヌクレオチドを含み得る。例えば、動作514で生成された個々のセグメントは、少なくとも約200万ヌクレオチド、少なくとも約300万ヌクレオチド、少なくとも約400万ヌクレオチド、少なくとも約500万ヌクレオチド、少なくとも約600万ヌクレオチド、または少なくとも約700万ヌクレオチドを含むことができる。1またはそれを超える例示的な例では、動作514で生成された個々のセグメントは、約200万ヌクレオチド~約1200万ヌクレオチド、約300万ヌクレオチド~約1000万ヌクレオチド、または約400万ヌクレオチド~約800万ヌクレオチドを含むことができる。様々な例において、少なくとも1またはそれを超える動作54で生成された個々のセグメントは、少なくとも1つの追加の動作514で生成された個々のセグメントの1つとは異なる数のヌクレオチドを有し得る。すなわち、生殖系列SNPデータ516を使用して動作514によって作成された個々のセグメントは、可変数のヌクレオチドを有することができる。さらに、動作514で決定された所与のセグメントに含まれるヌクレオチドの数は、異なる試料間で異なり得る。例示すると、第1の個体から得られた第1の試料について動作514で生成された個々のセグメントに含まれる第1の数のヌクレオチドは、第2の個体から得られた第2の試料について動作514で生成された個々のセグメントに含まれる第2の数のヌクレオチドとは異なり得る。1またはそれを超える実施態様において、試料の所与の群について、動作502で生成されるビンの数および位置は同じであり得るが、動作514で生成されるセグメントの数またはセグメントのサイズの少なくとも一方は変化し得る。
様々な例において、生殖系列SNP MAFデータ516は、動作514で使用される前に修正または変換され得る。例えば、生殖系列SNPに対するMAFの逆数を決定することができる。さらに、ログベース2変換を生殖系列SNPの逆数に適用して、参照配列のセグメントを生成するために動作514で使用される修正生殖系列SNP MAFデータ516を作成することができる。1またはそれを超える例において、SNP MAFデータ516は、代替対立遺伝子コピー数変化の影響を除去するために調整され得る。1またはそれを超える例示的な例において、SNP MAFデータ516は、対立遺伝子平衡ベースラインを下回るように調整される。例えば、MAF値がベースライン値を下回るとき、それはその元の値として保持される。MAFがベースライン値を上回る状況では、(1-MAF)×(ベースライン/0.5)となるように下方に反転される。次いで、調整されたMAFをlog2変換し、0.5の元の対立遺伝子平衡MAFがここで0になるように1だけ上方にシフトさせる。
動作512および514によって決定されるセグメントの数は、少なくとも5、少なくとも7、少なくとも10、少なくとも12、少なくとも15、少なくとも16、少なくとも17、少なくとも18、少なくとも19、少なくとも20、少なくとも21、少なくとも22、少なくとも23、少なくとも24、または少なくとも25であり得る。1またはそれを超える例示的な例では、動作512および514によって生成されるセグメントの数は、5~30、10~27、または18~24であり得る。
様々な例において、生殖系列SNP MAFデータ516は、参照配列のセグメントを決定するための1またはそれを超える循環バイナリセグメント化プロセスへの入力として提供され得る。さらに、動作514で実施される生殖系列SNP MAFデータ516を使用したセグメント化は、動作512で実施されるカバレッジデータ508を使用したセグメント化の改良であり得る。1またはそれを超えるシナリオでは、動作512で実施されるカバレッジデータ508を使用したセグメント化は、1またはそれを超える循環バイナリセグメント化プロセスの第1の実施態様とすることができ、動作516で実施される生殖系列SNP MAFデータ516を使用したセグメント化は、1またはそれを超える循環バイナリセグメント化プロセスの第1の実施態様とすることができる。1またはそれを超える例では、動作514によって作成されたセグメントは、動作516への入力として使用され得る。1またはそれを超える例において、カバレッジデータ508は、循環バイナリセグメント化アルゴリズムの第1の実施態様中に使用される循環バイナリセグメント化アルゴリズムの第1の重みに対応することができ、生殖系列SNP MAFデータは、循環バイナリセグメント化アルゴリズムの第2の実施に対応する循環バイナリセグメント化アルゴリズムの第2の重みに対応することができる。
1またはそれを超える実施態様において生殖系列SNP MAFデータ516を使用して動作514において実施されるセグメント化は、動作514において実施されるカバレッジデータ508のみを使用するセグメント化よりも一貫したより正確な参照配列のセグメント化を提供することができる。例示すると、少なくともいくつかの状況では、動作512でカバレッジデータ508を使用したセグメント化後のデータにノイズの量が存在する可能性があり、1またはそれを超える動作512で決定されたセグメントのコピー数を決定することに関してある量の不確定性を引き起こす。動作514で生殖系列SNP MAFデータ516を使用するセグメント化は、存在するノイズの量を低減し、動作512でセグメント化のみが行われる場合よりも参照配列のセグメントのより正確な決定をもたらすことができる。
セグメント化データ518は、510において実施される追加のセグメント化動作によって生成することができる。プロセス500は、動作520において、セグメント化データ518に基づいて1またはそれを超える腫瘍インジケータ522を作成することを含むことができる。腫瘍インジケータ522は、腫瘍細胞コピー数または腫瘍割合の少なくとも一方の推定値を含み得る。セグメント化データ518に含まれる個々のセグメントについての腫瘍細胞コピー数は、1またはそれを超える個々のセグメントに対応するゲノム領域の増幅または欠失の量を示すことができる。様々な例において、腫瘍細胞コピー数は、セグメント化データ518に含まれる1またはそれを超える個々のセグメントに対応するゲノム領域のヘテロ接合性の喪失を示し得る。
動作520で作成された腫瘍インジケータ522は、尤度関数524を使用して決定することができる。尤度関数は、所与のセグメントについての腫瘍細胞コピー数および所与の試料についての腫瘍割合の周りの収束まで、数値のグリッドを尤度関数に個別に供給することによって実施することができる。数値のグリッドは、腫瘍細胞コピー数についてのいくつかの推定値および/または腫瘍割合についてのいくつかの推定値を含み得る。1またはそれを超える例では、尤度関数524は最尤推定モデルを含むことができる。様々な例において、尤度関数524は、腫瘍インジケータコンポーネント526を含むことができる。腫瘍インジケータコンポーネント526は、腫瘍インジケータ522を作成するために使用される尤度関数524のパラメータを含むことができる。
1またはそれを超える追加の実施態様においてカバレッジデータ508および生殖系列SNP MAFデータ516を直接使用して尤度関数524を使用して腫瘍インジケータ522を決定することができる。すなわち、動作510で追加のセグメント化動作を実施することなく、腫瘍インジケータ522を決定することができる。これらのシナリオでは、尤度関数524はセグメント化コンポーネント528を含むことができる。セグメント化コンポーネント528は、参照配列のセグメントを決定するために使用することができる尤度関数524のパラメータを含むことができる。セグメント化コンポーネント528は、腫瘍インジケータコンポーネント526に対応する尤度関数のパラメータとは異なるパラメータを含むことができる。1またはそれを超える例では、カバレッジデータ508は、尤度関数524のセグメント化コンポーネント528によって分析される前に正規化することができる。
1またはそれを超える例において、セグメント化コンポーネント528は、参照配列の少なくとも5個のセグメント、参照配列の少なくとも7個のセグメント、参照配列の少なくとも10個のセグメント、参照配列の少なくとも12個のセグメント、参照配列の少なくとも15個のセグメント、参照配列の少なくとも16個のセグメント、参照配列の少なくとも17個のセグメント、参照配列の少なくとも18個のセグメント、参照配列の少なくとも19個のセグメント、参照配列の少なくとも20個のセグメント、参照配列の少なくとも21個のセグメント、参照配列の少なくとも22個のセグメント、参照配列の少なくとも23個のセグメント、参照配列の少なくとも24個のセグメント、または参照配列の少なくとも25個のセグメントを作成するために使用することができる。1またはそれを超える例示的な例では、尤度関数のセグメント化コンポーネント528を使用して、参照配列の5~30個のセグメント、参照配列の10~27個のセグメント、または参照配列の18~24個のセグメントを作成することができる。1またはそれを超える追加の例示的な例では、尤度関数のセグメント化コンポーネント528を使用して生成される個々のセグメントは、約200万ヌクレオチド~約1200万ヌクレオチド、約300万ヌクレオチド~約1000万ヌクレオチド、または約400万ヌクレオチド~約800万ヌクレオチドを含むことができる。
様々な例において、初期セグメント化は、腫瘍インジケータコンポーネント526に対応する尤度関数524のパラメータの最尤推定量を使用して決定することができる。1またはそれを超える例では、パラメータは、試料の腫瘍細胞コピー数および腫瘍割合の推定値に対応することができる。腫瘍細胞コピー数(CN)は、以下の式を使用して決定することができる:
CN=n*TF+2*(1-TF)(式中、TFは試料腫瘍割合であり、nは腫瘍細胞コピー数である)。
尤度関数のパラメータは、生殖系列SNPの突然変異体対立遺伝子頻度(MAF)にも対応し得る。生殖系列のSNPのMAFは、以下の式を使用して決定することができる:
MAF=(n-1)*TF/(n*TF+2*(1-TF))またはMAF=TF/(nTF+2*(1-TF)).
1またはそれを超える例示的な例では、腫瘍インジケータ522は、腫瘍インジケータコンポーネント526およびセグメント化コンポーネント528の両方を有する尤度関数を使用して、初期セグメント化推定値を提供し、次いで初期セグメントおよび試料腫瘍割合の腫瘍細胞コピー数の最尤推定値を見つけることによって決定することができる。最初のセグメント化は、ヒト参照配列の23本の染色体に対応し得る。1またはそれを超える追加の例では、初期セグメント化は、カバレッジデータ508に基づく循環バイナリセグメント化アルゴリズムの初期実施態様に対応することができる。1またはそれを超える更なる例では、初期セグメント化は、カバレッジデータ508に基づく循環バイナリセグメント化アルゴリズムの初期実施態様、および生殖系列SNPに関する1またはそれを超える循環バイナリセグメント化(CBS)プロセスの初期実施態様に対応することができる。
カバレッジデータ508および生殖系列SNP MAFデータ516を使用して尤度関数524によって実施されるセグメント化は、反復プロセスを使用して実施することができる。反復プロセスは、個々のセグメントに対して複数の動作を実施することを含むことができる。例えば、個々のセグメントについて、循環パーティションを実施することができる。循環パーティションは、セグメントの複数のサブセグメントへの分割を表すことができる。例示すると、セグメントは3つのサブセグメントに分割することができる。セグメントが3つのサブセグメントに分割される状況では、2つの周縁部サブセグメントは同じコピー数に対応することができ、中間サブセグメントは異なるコピー数を有することができる。次いで、循環パーティションを試験して、循環パーティションが、セグメントコピー数および試料腫瘍割合を使用してセグメントと重複するビンおよび生殖系列SNPからカバレッジデータ508に対してより良好な適合を作成するかどうかを決定することができる。循環パーティションの適合は、1またはそれを超える統計的またはマシン学習技術を使用して決定することができる。例示すると、所与のセグメントに対するビンのカバレッジデータに基づいて決定された平均の変動性とヘテロ接合SNP MAFとの間の比を表すF統計量を決定することができる。ビンのカバレッジデータから作成された平均とヘテロ接合SNP MAFとの間の変動の比が、セグメント内のカバレッジデータおよびSNP MAFの変動よりも大きい場合、セグメントデータに対するより良好な適合を決定することができる。様々な例において、F統計量のp値が閾値を下回るとき、循環パーティションのセグメントはより良好に適合し、セグメント化プロセスの次の反復で使用される。1またはそれを超える例示的な例では、F統計量の閾値は、0.005、0.008、0.010、0.015、または0.020未満であり得る。
図6は、1またはそれを超える実施態様による、対象の腫瘍メトリクスを決定するために使用され得る増強された数のオフターゲット配列表示を作成する例示的プロセス600のフローチャートである。プロセス600を、試料602に対して実施することができる。
試料602の第1のアリコート604および試料602の第2のアリコート606を得ることができる。第1のアリコート604は、608で末端修復を実施すること、610で分子バーコードを含むアダプタを付着させること、612でプライマーを付着させること、および614でプローブを使用して断片をプローブにハイブリダイズさせることによって標的領域を濃縮すること等の第1の数の動作を受けることができる。動作614におけるプローブを用いたハイブリダイゼーションの前に、動作608、610および612に供されたポリヌクレオチドの少なくとも一部分を増幅するために、1またはそれを超える増幅動作を行うことができる。動作608、610、612、614は、濃縮試料616をもたらす第1のアリコート604に対して行うことができる。濃縮試料616は、第1のアリコート604に含まれる個々の核酸に対応する配列を同定するために使用することができるバーコードを使用して標識されたいくつかの無細胞核酸を含むことができる。さらに、濃縮試料616は、プローブに対して少なくとも閾値量の相補性を有する第1のアリコート604に含まれる核酸が組み合わされて二本鎖核酸を形成した二本鎖核酸を含むことができる。
第2のアリコート606は、第1のアリコート604に対して行われる第1の数の動作とは異なる第2の数の動作を受けることができる。例えば、第2のアリコート606は、618で末端修復動作、620でアダプタ(分子バーコードを含む)結合動作、および622でプライマー結合動作を受けて、濃縮されていない試料624を作成することができる。濃縮されていない試料624は、ハイブリダイゼーションプロセスに供されていない第2のアリコート606の一本鎖核酸を含み得る。
濃縮試料616および非濃縮試料624は、626で行われる配列決定プロセス中に組み合わせることができる。1またはそれを超える例示的な例では、ハイブリダイズされなかった濃縮試料616に含まれる核酸および非濃縮試料624に含まれる核酸は、配列決定プロセス中に増幅されなくてもよい。第2のアリコート606に含まれる核酸の少なくとも約90%は、配列決定プロセス中に増幅され得ず、第2のアリコート606に含まれる核酸の少なくとも約95%は、配列決定プロセス中に増幅され得ず、第2のアリコート606に含まれる核酸の少なくとも約97%は、配列決定プロセス中に増幅され得ず、第2のアリコート606に含まれる核酸の少なくとも約98%は、配列決定プロセス中に増幅され得ず、または第2のアリコート606に含まれる核酸の少なくとも約99%は、配列決定プロセス中に増幅され得ない。
配列決定産物は、配列決定プロセスの結果として生成され得る。様々な例において、配列決定産物は、配列決定プロセス中に増幅されたハイブリダイズした核酸に対応する核酸を含む増幅産物を含み得る。配列決定産物はまた、ハイブリダイゼーション中に使用されるプローブに関連する参照配列の標的領域に対応しない第1のアリコート604に含まれる核酸等、配列決定プロセス中に増幅されなかった核酸を含み得る。配列決定産物はまた、第2のアリコート606に含まれる核酸を含み得る。
動作628において、プロセス600は、配列決定プロセスによって生成されたポリヌクレオチド配列の配列を参照配列と整列させるアラインメントプロセスを実施することを含むことができる。アラインメントプロセスは、参照配列の標的領域に対応しない配列決定産物に含まれる核酸に関連する配列表示に対応するオフターゲット配列表示を同定することができる。オフターゲット配列表示は、参照配列の標的領域に対応しない濃縮試料616に含まれる核酸および非濃縮試料624に含まれる核酸に由来し得る。強化された量のオフターゲット配列表示630は、濃縮試料616等の単一の供給源に由来するオフターゲット配列表示を同定するのではなく、濃縮試料616と非濃縮試料624の両方に由来するオフターゲット配列表示を含むことから、アラインメントプロセスに基づいて強化された量のオフターゲット配列表示630を作成することができる。
図7は、1またはそれを超える実施態様による、オフターゲット配列表示から導出された情報に基づいて対象における腫瘍メトリクスを決定する例示的な方法700のフローチャートである。動作702において、方法700は、いくつかのオフターゲット配列表示を決定するために、試料から得られた複数の配列を参照配列とアラインメントすることを含み得る。オフターゲット配列表示は、ドライバ突然変異に対応する参照ゲノムの標的領域の外側にある参照ゲノムの領域とアラインメントさせることができる。様々な例において、試料は無細胞DNA分子を含むことができる。
さらに、動作704において、セグメント化プロセスを実施して、参照配列の複数のセグメントを決定することができる。セグメント化プロセスは、1またはそれを超える基準に基づいて参照ゲノムをいくつかのセグメントに分割することを含み得る。1またはそれを超える例では、複数のセグメント化動作を実施することができる。これらのシナリオでは、異なるセグメント化動作に関して異なる基準を適用することができる。例えば、1またはそれを超える第1のセグメント化動作は、1またはそれを超える第1の基準に従って実装することができ、第2のセグメント化プロセスは、1またはそれを超える第2の基準に従って実装することができる。例示すると、第1のセグメント化プロセスは、参照配列を、少なくとも50kb、少なくとも75kb、少なくとも100kb、少なくとも125kb、または少なくとも150kb等の指定されたサイズを有するセグメントに分割することによって実装することができる。様々な例において、セグメントの少なくとも一部分は、同じ数のヌクレオチドを有することができる。さらに、変化していないそれぞれのセグメントの腫瘍細胞コピー数に基づいて参照ゲノムの第2のセグメントを決定する第2のセグメント化プロセスを行うことができる。様々な例において、第2のセグメントは、第1のセグメントよりも大きいサイズを有することができ、いくつかの第1のセグメントを含むことができる。
さらに、動作706において、方法700は、カバレッジメトリクスおよびサイズ分布メトリクス等のオフターゲット配列表示に関する参照配列の複数のセグメントに関する1またはそれを超える定量的尺度を決定することを含むことができる。カバレッジメトリクスは、参照配列の1またはそれを超えるセグメントに対応する配列表示のカウントを示すことができる。サイズ分布メトリクスは、サイズ分布に関してそれぞれのサイズを有するオフターゲット配列表示のカウントを示すことができる。1またはそれを超える例では、サイズ分布は、各々が配列表示のサイズの範囲に対応するいくつかのパーティションを含むことができる。1またはそれを超える例では、正規化された定量的尺度は、1またはそれを超える定量的尺度に基づいて決定することもできる。様々な例において、正規化された定量的尺度は、コピー数多型が存在しない個体から得られる参照試料から導出される参照定量的尺度に基づいて決定され得る。1またはそれを超える更なる例において、正規化された定量的尺度は、第1のセグメントのマッピング可能性スコアまたは第1のセグメントのグアニン-シトシン(G-C)含有量のうちの少なくとも1つに基づいて決定され得る。1またはそれを超える更なる例において、1またはそれを超える定量的尺度は、参照配列の標的領域に対応する一塩基多型(SNP)の定量的尺度に対応し得る。
方法700はまた、試料が得られた対象の腫瘍細胞コピー数を、1またはそれを超える定量的尺度に基づいて決定することを含み得る。1またはそれを超える例において、腫瘍細胞コピー数は、オフターゲット配列表示のカバレッジメトリクスまたはオフターゲット配列表示のサイズ分布メトリクスのうちの少なくとも1つに基づいて決定され得る。様々な例において、腫瘍細胞コピー数はまた、参照配列の標的領域に関連する配列表示から導出される定量的尺度に基づいて決定され得る。さらに、腫瘍細胞コピー数は、参照配列の標的領域に対応する生殖系列SNPの最大対立遺伝子割合に基づいて決定することができる。腫瘍細胞コピー数はまた、オフターゲット配列表示のカバレッジメトリクス、オフターゲット配列表示のサイズ分布メトリクス、参照配列の標的領域に関連する配列表示から導出される定量的尺度、または参照配列の標的領域に対応する生殖系列SNPの最大対立遺伝子割合のうちの少なくとも2つの組み合わせに従って決定され得る。
図8は、1またはそれを超える実施態様による、オフターゲットポリヌクレオチドに由来するカバレッジ情報に基づいて対象に関して腫瘍メトリクスを決定するための例示的な方法800のフローチャートである。方法800は、動作802において、対象に由来する試料に含まれるポリヌクレオチド分子の配列表示を示すシーケンシングデータを得ることを含み得る。対象は、ヒト対象であり得る。配列表示は、試料に関連する配列決定プロセスの一部として作成されている配列決定リードに対応し得る。様々な例において、試料は無細胞DNA分子を含むことができる。
さらに、動作804において、方法800は、参照配列の一部分に対応するそれぞれの配列表示を決定するアラインメントプロセスを実施することを含み得る。アラインメントプロセスは、参照配列のそれぞれの部分に対応する配列表示を決定することができる。1またはそれを超える例において、アラインメントプロセスは、配列決定リードをフィルタリングすることなく、または試料に含まれる初期ポリヌクレオチドに従って配列決定リードをグループ化することなく行われ得る。1またはそれを超える更なる例において、配列決定リードは、試料に含まれる個々のポリヌクレオチド分子に対応する複数の配列決定リードを決定することによってフィルタリングすることができる。これらのシナリオでは、アラインメントプロセスは、試料に含まれる個々のポリヌクレオチド分子に対応する単一の配列表示を使用して実施されるであろう。さらに、動作806において、方法800は、参照配列の標的領域に対応しないアラインメントされた配列表示の数の一部分を同定することによってオフターゲット配列表示のセットを決定することを含み得る。
方法800はまた、動作808において、標的領域を含まない参照配列の第1のセグメントを決定することを含み得る。第1のセグメントは、1またはそれを超える基準に従って参照ゲノムを第1のセグメントの数に分割する第1のセグメント化プロセスの一部として決定され得る。様々な例では、1またはそれを超える基準は、個々の第1のセグメントの最大サイズを含むことができる。1またはそれを超える更なる例において、1またはそれを超える基準は、50kb、75kb、100kb、125kbまたは150kb等のそれぞれのサイズを有する第1のセグメントの数を最大化することを含み得る。
動作810において、プロセス800は、個々の第1のセグメントの第1のカバレッジメトリクスを決定することを含むことができる。第1のカバレッジメトリクスは、個々の第1のセグメントに対応するいくつかの配列表示を示すことができる。1またはそれを超える例示的な例において、第1のカバレッジメトリクスは、個々の第1のセグメントに対応する参照配列の部分と整列する配列表示をカウントすることによって決定することができる。
さらに、動作812において、方法800は、個々の第1のセグメントの正規化されたカバレッジメトリクスを決定することを含むことができる。正規化されたカバレッジメトリクスは、参照カバレッジメトリクスに基づいて決定することができる。1またはそれを超える例において、参照カバレッジメトリクスは、コピー数多型が存在しない個体から得られた参照試料から導出されたカバレッジ情報に基づいて決定することができる。様々な例において、参照カバレッジメトリクスは、参照配列の個々の第1のセグメントと整列する参照試料から導出された配列表示の数を決定することによって決定することができる。正規化されたカバレッジメトリクスは、個々の第1のセグメントとアラインメントされた参照試料から導出された配列表示の数に対する、個々の第1のセグメントとアラインメントされた試料から導出された配列表現の数の比を決定することによって決定することができる。正規化されたカバレッジメトリクスはまた、第1のセグメントの配列表示の平均数に対する、個々の第1のセグメントとアラインメントされた試料から導出された配列表示の数の比を決定することによって決定することができる。
1またはそれを超える追加の例では、正規化されたカバレッジメトリクスは、第1のセグメントのグアニン-シトシン(G-C)含有量に基づいて決定することができる。例示すると、正規化されたカバレッジメトリクスは、個々の第1のセグメントとアラインメントされたG-C残基の頻度を決定することによって決定することができる。次いで、個々の第1のセグメントとアラインメントされたG-C残基の頻度を、個々の第1のセグメントの予想G-C残基数に関して分析して、個々の第1のセグメントの正規化されたG-Cカバレッジメトリクスを決定することができる。
更に別の例では、正規化されたカバレッジメトリクスは、第1のセグメントのマッピング可能性スコアに基づいて決定することができる。例えば、正規化されたカバレッジメトリクスは、追加の個々の第1のセグメントの追加部分に対する個々の第1のセグメントの部分間の相同性の量を決定することによって決定することができる。例示すると、第1のセグメントの一部分を参照配列の追加の部分に関して分析して、第1のセグメントの一部分と参照配列の追加の部分との間の相同性の量を決定して、第1のセグメントの一部分に対するマッピング可能性スコアを作成することができる。個々の第1のセグメントの部分に対するマッピング可能性スコアを、個々の第1のセグメントに対する予想されるマッピング可能性スコアに関して分析して、正規化されたカバレッジメトリクスを決定することができる。
さらに、動作814において、プロセス800は、第1のセグメントよりも多数のヌクレオチドを有する参照ヒトゲノムの第2のセグメントを決定することを含み得る。第2のセグメントは、第1のセグメントを決定するために使用される第1のセグメント化プロセスとは異なる第2のセグメント化プロセスに基づいて決定することができる。1またはそれを超える例では、第2のセグメント化プロセスは、第1のセグメントを決定するために使用される基準とは異なる基準に基づいて第2のセグメントを決定することができる。様々な例において、第2のセグメントは、第1のセグメントよりも多数のヌクレオチドを含むことができ、第2のセグメントは、いくつかの第1のセグメントを含むことができる。さらに、第2のセグメントは、オンターゲット領域を含むことができる。1またはそれを超える例示的な例において、第2のセグメントを判定するために使用される1またはそれを超える基準は、第2のセグメントに対する腫瘍細胞コピー数が変化していないと判定することを含み得る。
動作816において、方法800は、正規化されたカバレッジメトリクスに基づいて個々の第2のセグメントの第2のカバレッジメトリクスを決定することを含むことができる。個々の第2のセグメントの第2のカバレッジメトリクスは、それぞれの第2のセグメントに含まれる個々のビンの正規化されたカバレッジメトリクスを含むことができる。方法800は、動作818において、第2のカバレッジメトリクスに基づいて腫瘍細胞のコピー数の推定値を決定することを含み得る。1またはそれを超える例では、腫瘍細胞コピー数の推定値は、最尤推定モデルのパラメータであり得る。腫瘍細胞のコピー数を使用して、試料を提供した対象に提供された1またはそれを超える介入の有効性を決定することができる。対象の疾患または生物学的症状を処置するために、1またはそれを超える介入を対象に提供することができる。1またはそれを超える例示的な例では、疾患または生物学的症状は癌を含むことができる。さらに、腫瘍細胞のコピー数を使用して、疾患または症状に関する対象の予後を決定することができる。1またはそれを超える更なる例では、第2のカバレッジメトリクスを使用して、対象に対する腫瘍割合を決定することもできる。
図9は、1またはそれを超える実施態様による、オフターゲットポリヌクレオチドに由来するサイズ分布情報に基づいて対象に関して腫瘍メトリクスを決定するための例示的な方法900のフローチャートである。方法900は、動作902において、対象に由来する試料に含まれるポリヌクレオチドの配列表示を示すシーケンシングデータを得ることを含み得る。1またはそれを超える例において、対象はヒト対象であり得る。配列表示は、シーケンシングデータに含まれる配列決定リードに対応し得る。様々な例において、試料は無細胞DNA分子を含むことができる。
動作904において、方法900は、個々の配列表示に対応する参照配列の1またはそれを超える部分を決定するアラインメントプロセスを実施することを含み得る。アラインメントプロセスは、参照配列のそれぞれの部分に対応する配列表示を決定することができる。1またはそれを超える例において、アラインメントプロセスは、配列決定リードをフィルタリングすることなく、または試料に含まれる初期ポリヌクレオチドに従って配列決定リードをグループ化することなく行われ得る。1またはそれを超える更なる例において、配列決定リードは、試料に含まれる個々のポリヌクレオチド分子に対応する複数の配列決定リードを決定することによってフィルタリングすることができる。これらのシナリオでは、アラインメントプロセスは、試料に含まれる個々のポリヌクレオチド分子に対応する単一の配列表示を使用して実施されるであろう。
さらに、方法900は、動作906において、参照配列の標的領域に対応しないアラインメントされ配列の数の一部分を同定することによってオフターゲット分子のセットを決定することを含み得る。さらに、方法900は、動作908において、標的領域を含まない参照配列のセグメントを決定することを含み得る。セグメントは、参照ゲノムを1またはそれを超える基準に従ってセグメントの数に分割するセグメント化プロセスの一部として決定することができる。様々な例では、1またはそれを超える基準は、個々のセグメントの最大サイズを含むことができる。1またはそれを超える更なる例において、1またはそれを超える基準は、50kb、75kb、100kb、125kbまたは150kb等のそれぞれのサイズを有するセグメントの数を最大化することを含み得る。
方法900はまた、動作910において、個々のセグメントの配列サイズ分布メトリクスを決定することを含むことができる。配列サイズ分布メトリクスは、配列表示のサイズの様々な範囲に対応するいくつかの配列表示に対応することができる。例えば、サイズ分布は、個々のセグメントについて決定することができる。サイズ分布は、各パーティションが配列表示のサイズの範囲に対応するいくつかのパーティションを含むことができる。1またはそれを超える例示的な例において、サイズ分布の第1のパーティションは、1ヌクレオチド~40ヌクレオチドを有する配列表示に対応することができ、第2の区分は、41ヌクレオチド~80ヌクレオチドを有する配列表示に対応することができ、第3の区分は、81ヌクレオチド~120ヌクレオチドを有する配列表示に対応することができ、第4の区分は、121ヌクレオチドを超える配列表示に対応することができる。この例を続けると、1またはそれを超えるセグメントのシーケンスサイズ分布メトリクスは、第1のパーティションに対応する第1の数の配列表示、第2のパーティションに対応する第2の数の配列表示、第3のパーティションに対応する第3の数の配列表示、および第4のパーティションに対応する第4の数の配列表示を示すことができる。様々な例において、各パーティションに対応する配列表示のサイズの範囲は、個々のセグメントの配列表示の平均サイズおよび平均からの標準偏差に基づくことができる。
方法900はまた、動作912において、個々のセグメントの正規化された配列サイズ分布メトリクスを決定することを含むことができる。個々のセグメントの正規化された配列サイズ分布メトリクスは、参照サイズ分布メトリクスに基づいて決定することができる。1またはそれを超える例において、参照サイズ分布メトリクスは、コピー数多型が存在しない個体から得られる参照試料から導出される配列サイズ分布情報に基づいて決定され得る。様々な例において、参照サイズ分布メトリクスは、参照配列の個々のセグメントと整列し、サイズ分布の個々のパーティションに対応する、参照試料から導出された配列表示の数を決定することによって決定することができる。正規化されたサイズ分布メトリクスは、個々のセグメントとアラインメントされ、サイズ分布のそれぞれのパーティションに対応する、参照試料から導出された配列表示の数に対する、個々のセグメントとアラインメントされ、サイズ分布のそれぞれのパーティションに対応する、試料から導出された配列表示の数の比を決定することによって決定することができる。正規化されたサイズ分布メトリクスは、サイズ分布のそれぞれのパーティションに対応するセグメントの配列表示の平均数に対する、個々のセグメントとアラインメントされ、サイズ分布のそれぞれの区分に対応する、試料から導出された配列表示の数の比を決定することによって決定することもできる。
さらに、動作914において、方法900は、正規化された配列サイズ分布メトリクスに基づいて腫瘍細胞のコピー数の推定値を決定することを含み得る。1またはそれを超える例では、腫瘍細胞コピー数の推定値は、最尤推定モデルのパラメータであり得る。腫瘍細胞のコピー数を使用して、試料を提供した対象に提供された1またはそれを超える介入の有効性を決定することができる。対象の疾患または生物学的症状を処置するために、1またはそれを超える介入を対象に提供することができる。1またはそれを超える例示的な例では、疾患または生物学的症状は癌を含むことができる。さらに、腫瘍細胞のコピー数を使用して、疾患または症状に関する対象の予後を決定することができる。1またはそれを超える追加の例では、正規化されたサイズ分布メトリクスを使用して、対象に対する腫瘍割合を決定することもできる。
図9に関して説明していないが、プロセス900はまた、正規化されたサイズ分布メトリクスに基づいて第2のサイズ分布メトリクスを決定するために使用される第2のセグメント化プロセスを含むことができる。第2のサイズ分布メトリクスを使用して、腫瘍細胞のコピー数の推定値を決定することができる。1またはそれを超える例では、第2のセグメント化プロセスは、第1のセグメントを決定するために使用される基準とは異なる基準に基づいて第2のセグメントを決定することができる。様々な例において、第2のセグメントは、第1のセグメントよりも多数のヌクレオチドを含むことができ、第2のセグメントは、いくつかの第1のセグメントを含むことができる。さらに、第2のセグメントは、オンターゲット領域を含むことができる。1またはそれを超える例示的な例において、第2のセグメントを判定するために使用される1またはそれを超える基準は、第2のセグメントに対する腫瘍細胞コピー数が変化していないと判定することを含み得る。
図10は、シーケンシングデータを作成し、シーケンシングデータからオフターゲット配列表示を決定するための例示的な方法のフローチャートであり、オフターゲット配列表示は、1またはそれを超える実施態様による、オフターゲット配列表示に由来する情報に基づいて対象に関する腫瘍メトリクスを決定するために使用され得る。方法1000は、1002において、配列決定のために試料に由来するポリヌクレオチドのセットを調製することを含み得る。例えば、平滑末端ライゲーションをポリヌクレオチドのセットに対して行うことができ、分子バーコードをポリヌクレオチドのセットに含まれる個々のポリヌクレオチドに付加することができる。分子バーコードは、個々のポリヌクレオチドを同定するために使用することができる。さらに、ポリヌクレオチドのセットを、ポリヌクレオチドのセットと、参照配列の標的領域に対応するプローブとの間で1またはそれを超えるハイブリダイゼーションプロセスを実施して、ポリヌクレオチドの濃縮セットを生成することによって濃縮することができる。1またはそれを超える例において、濃縮されたポリヌクレオチドのセットは、配列決定の前に増幅され得る。1またはそれを超える更なる例において、プローブとハイブリダイズしないポリヌクレオチドのセットの少なくとも一部分もまた、配列決定の前に増幅され得る。プローブとハイブリダイズしないポリヌクレオチドは、本明細書では「非ハイブリダイズポリヌクレオチド」と呼ばれる場合がある。様々な例において、試料は無細胞DNA分子を含むことができる。
さらに、1004において、方法1000は、シーケンシングデータを作成するためにポリヌクレオチド分子のセットに関して1またはそれを超える配列決定プロセスを実施することを含み得る。シーケンシングデータは、ハイブリダイズしたポリヌクレオチドおよびハイブリダイズしていないポリヌクレオチドに対応する、本明細書では配列表示とも呼ばれるいくつかの配列決定リードを含み得る。配列決定リードは、配列決定されたポリヌクレオチドに関連する英数字配列を示すデータに対応し得る。1またはそれを超える例示的な例において、シーケンシングデータは、ギガバイト、最大テラバイトのデータを含むことができる。
方法1000はまた、1006において、配列データに含まれる複数の配列表示を参照配列と整列させて、いくつかのオフターゲット配列表示を決定することを含み得る。オフターゲット配列表示は、ドライバ突然変異に対応する参照ゲノムの標的領域の外側にある参照ゲノムの領域とアラインメントさせることができる。
さらに、1008において、方法1000は、参照配列の複数のセグメントを決定するためにセグメント化プロセスを行うことを含むことができる。セグメント化プロセスは、1またはそれを超える基準に基づいて参照ゲノムをいくつかのセグメントに分割することを含み得る。1またはそれを超える例では、複数のセグメント化動作を実施することができる。これらのシナリオでは、異なるセグメント化動作に関して異なる基準を適用することができる。例えば、第1のセグメント化動作は、1またはそれを超える第1の基準に関して実装することができ、第2のセグメント化プロセスは、1またはそれを超える第2の基準に関して実装することができる。例示すると、第1のセグメント化プロセスは、参照配列を、少なくとも50kb、少なくとも75kb、少なくとも100kb、少なくとも125kb、または少なくとも150kb等の指定されたサイズを有するビンに分割することによって実装することができる。様々な例において、セグメントの少なくとも一部分は、同じ数のヌクレオチドを有することができる。さらに、変化していないそれぞれのセグメントの腫瘍細胞コピー数に基づいて参照ゲノムの第2のセグメントを決定する第2のセグメント化プロセスを行うことができる。1またはそれを超える例では、第2のセグメントは、第1のセグメントよりも大きいサイズを有することができる。例示すると、第2のセグメントは、いくつかの第1のセグメントを含むことができる。
動作1010において、方法1000は、複数のセグメントに関して1またはそれを超える定量的尺度を決定することを含むことができる。定量的尺度は、カバレッジメトリクスおよびサイズ分布メトリクスを含むことができる。カバレッジメトリクスは、参照配列の1またはそれを超えるセグメントに対応する配列表示のカウントを示すことができる。サイズ分布メトリクスは、サイズ分布に関してそれぞれのサイズを有するオフターゲット配列表示のカウントを示すことができる。1またはそれを超える例では、サイズ分布は、各々が配列表示のサイズの範囲に対応するいくつかのパーティションを含むことができる。1またはそれを超える例では、正規化された定量的尺度は、1またはそれを超える定量的尺度に基づいて決定することもできる。様々な例において、正規化された定量的メトリクスは、コピー数多型が存在しない個体から得られる参照試料から導出される参照定量的尺度に基づいて決定され得る。正規化された定量的尺度はまた、第1のセグメントのG-C含有量または第1のセグメントのマッピング可能性スコアのうちの少なくとも1つに従って決定され得る。1またはそれを超える更なる例において、1またはそれを超える定量的尺度は、参照配列の標的領域に対応する一塩基多型(SNP)の定量的尺度に対応し得る。
さらに、1012において、方法1000は、試料が得られた対象の腫瘍細胞コピー数を、1またはそれを超える定量的尺度に基づいて決定することを含み得る。1またはそれを超える例において、腫瘍細胞コピー数は、オフターゲット配列表示のカバレッジメトリクスまたはオフターゲット配列表示のサイズ分布メトリクスのうちの少なくとも1つに基づいて決定され得る。様々な例において、腫瘍細胞コピー数はまた、参照配列の標的領域に関連する配列表示から導出される定量的尺度に基づいて決定され得る。さらに、腫瘍細胞コピー数は、参照配列の標的領域に対応する生殖系列SNPの最大対立遺伝子割合に基づいて決定することができる。腫瘍細胞コピー数はまた、オフターゲット配列表示のカバレッジメトリクス、オフターゲット配列表示のサイズ分布メトリクス、参照配列の標的領域に関連する配列表示から導出される定量的尺度、または参照配列の標的領域に対応する生殖系列SNPの最大対立遺伝子割合のうちの少なくとも2つの組み合わせに従って決定され得る。
試料
無細胞ポリヌクレオチドの単離および抽出は、様々な技術を使用して試料を収集することによって行われ得る。試料は、対象から単離された任意の生物学的試料であり得る。試料には、身体組織、全血、血小板、血清、血漿、糞便、赤血球、白血球(white blood cells)または白血球(leucocytes)、内皮細胞、組織生検(例えば、既知のまたは疑われる固形腫瘍からの生検)、脳脊髄液、滑液、リンパ液、腹水液、間質液または細胞外液(例えば、細胞間空間からの流体)、歯肉滲出液、溝滲出液(crevicular fluid)、骨髄、胸水、脳脊髄液、唾液、粘膜、痰、精液、汗、尿が含まれ得る。試料は、好ましくは体液、特に血液およびその画分、ならびに尿である。そのような試料には、腫瘍から排出された核酸が含まれる。核酸は、DNAおよびRNAを含むことができ、二本鎖および一本鎖の形態であり得る。試料は、対象から最初に単離された形態であり得るか、または細胞などの成分を除去もしくは添加するか、ある成分を別の成分に対して濃縮するか、またはある形態の核酸を別の形態に、例えばRNAをDNAに、または一本鎖核酸を二本鎖に変換するためのさらなる処理に供されたものであってもよい。したがって、例えば、分析のための体液試料は、無細胞核酸、例えば無細胞DNA(cfDNA)を含有する血漿または血清である。
いくつかの実施態様において、対象から採取された体液の試料体積は、配列決定された領域の所望の読み取り深度に依存する。例示的な体積は、約0.4~40ml、約5~20ml、約10~20mlである。例えば、体積は、約0.5ml、約1ml、約5ml、約10ml、約20ml、約30ml、約40ml、またはそれを超えるミリリットルであり得る。サンプリングされた血液の量は、は約5ml~約20mlであり得る。
試料は、様々な量の核酸を含むことができる。所与の試料中の核酸の量は、複数のゲノム等価物と同等であり得る。例えば、約30ngのDNAの試料は、約10,000(10)個の半数体ヒトゲノム等価物、およびcfDNAの場合、約2000億(2x1011)個の個々のポリヌクレオチド分子を含有し得る。同様に、約100ngのDNAの試料は、約30,000個の半数体ヒトゲノム等価物、およびcfDNAの場合、約6000億個の個々の分子を含有し得る。
いくつかの実施態様において、試料は、異なる供給源、例えば細胞および無細胞供給源(例えば、血液試料など)からの核酸を含む。典型的には、試料は、突然変異を有する核酸を含む。例えば、試料は、生殖系列突然変異および/または体細胞性突然変異を保有するDNAを必要に応じて含む。典型的には、試料は、癌関連突然変異(例えば、癌関連体細胞性突然変異)を保有するDNAを含む。本開示のいくつかの実施態様において、対象における無細胞核酸は、腫瘍に由来し得る。例えば、対象から単離された無細胞DNAは、ctDNAを含むことができる。
増幅前の試料中の無細胞核酸の例示的な量は、典型的には、約1フェムトグラム(fg)~約1マイクログラム(μg)、例えば、約1ピコグラム(pg)~約200ナノグラム(ng)、約1ng~約100ng、約10ng~約1000ngの範囲である。いくつかの実施態様において、試料は、約600ngまで、約500ngまで、約400ngまで、約300ngまで、約200ngまで、約100ngまで、約50ngまで、または約20ngまでの無細胞核酸分子を含む。必要に応じて、その量は、少なくとも約1fg、少なくとも約10fg、少なくとも約100fg、少なくとも約1pg、少なくとも約10pg、少なくとも約100pg、少なくとも約1ng、少なくとも約10ng、少なくとも約100ng、少なくとも約150ng、または少なくとも約200ngの無細胞核酸分子である。特定の実施態様において、その量は、最大約1fg、約10fg、約100fg、約1pg、約10pg、約100pg、約1ng、約10ng、約100ng、約150ngまたは約200ngの無細胞核酸分子である。いくつかの実施態様において、方法は、試料から約1fg~約200ngの無細胞核酸分子を得ることを含む。
無細胞核酸は、典型的には、約100ヌクレオチド長~約500ヌクレオチド長のサイズ分布を有し、約110ヌクレオチド長~約230ヌクレオチド長の分子が試料中の分子の約90%を占め、約168ヌクレオチド長のモードおよび約240~約440ヌクレオチド長の範囲の第2の小ピークを有する。特定の実施態様において、無細胞核酸は、約160~約180ヌクレオチド長、または約320~約360ヌクレオチド長、または約440~約480ヌクレオチド長である。
いくつかの実施態様において、溶液中に見出されるような無細胞核酸が無傷の細胞および体液の他の不溶性成分から分離されるパーティション工程を通して、無細胞核酸を体液から単離する。これらの実施態様のいくつかにおいて、パーティションは、遠心分離または濾過などの技術を含む。あるいは、体液中の細胞を溶解し、無細胞および細胞核酸を一緒に処理する。一般に、緩衝液の添加および洗浄工程の後、無細胞核酸を例えばアルコールで沈殿させる。特定の実施態様において、汚染物質または塩を除去するために、シリカ系カラムなどの追加のクリーンアップステップが使用される。例えば、収率などの例示的な手順の特定の態様を最適化するために、非特異的なバルク担体核酸を反応全体にわたって必要に応じて添加する。そのような処理の後、試料は、典型的には、二本鎖DNA、一本鎖DNAおよび/または一本鎖RNAを含む様々な形態の核酸を含む。必要に応じて、一本鎖DNAおよび/または一本鎖RNAを二本鎖形態に変換して、その後の処理および分析工程に含める。本明細書に開示される方法を実施する際に使用するために必要に応じて適合された、cfDNAパーティションおよびエピジェネティック修飾の関連する分析に関するさらなる詳細は、例えば、2017年12月22日に出願された国際公開第2018/119452号に記載されており、これは参照により組み込まれる。
ii.核酸タグ
特定の実施態様において、分子識別子またはバーコードを提供するタグは、他の方法の中でも、化学合成、ライゲーション、またはオーバーラップ伸長PCRによって、アダプタに組み込まれるか、そうでなければ結合される。いくつかの実施態様において、ユニークもしくは非ユニークな識別子、または反応中の分子バーコードの割り当ては、例えば、米国特許出願第20010053519号、米国特許出願第20030152490号、米国特許出願第20110160078号、および米国特許第6,582,908号、米国特許第7,537,898号および米国特許第9,598,731号に記載されており、これらは各々参照により組み込まれる。
タグは、ランダムまたは非ランダムに試料核酸に連結される(例えば、ライゲートされる)。いくつかの実施態様において、タグは、マイクロウェルに対する識別子(例えば、ユニークなおよび/または非ユニークなバーコードの組み合わせ)の予想される比で導入される。例えば、ゲノム試料あたり約1、2、3、4、5、6、7、8、9、10、20、50、100、500、1000、5000、10000、50,000、100,000、500,000、1,000,000、10,000,000、50,000,000または1,000,000,000個を超える識別子がロードされるように、識別子がロードされ得る。いくつかの実施態様において、識別子は、ゲノム試料あたり約2、3、4、5、6、7、8、9、10、20、50、100、500、1000、5000、10000、50,000、100,000、500,000、1,000,000、10,000,000、50,000,000または1,000,000,000個未満の識別子がロードされるようにロードされる。特定の実施態様において、ゲノム試料あたりにロードされる識別子の平均数は、ゲノム試料あたり約1、2、3、4、5、6、7、8、9、10、20、50、100、500、1000、5000、10000、50,000、100,000、500,000、1,000,000、10,000,000、50,000,000または1,000,000,000の識別子未満またはそれを超える。識別子は、一般にユニークまたは非ユニークである。
1つの例示的なフォーマットは、標的核酸分子の両端に連結された約2~約1,000,000個の異なるタグ、または約5~約150個の異なるタグ、または約20~約50個の異なるタグを使用する。20~50×20~50個のタグの場合、合計400~2500個のタグが作製される。そのような数のタグは、典型的には、同じ開始点および停止点を有する異なる分子が、タグの異なる組み合わせを受信する高い確率(例えば、少なくとも94%、99.5%、99.99%、99.999%)を有するのに十分である。
いくつかの実施態様において、識別子は、予め決定された、ランダムな、または半ランダムな配列オリゴヌクレオチドである。他の実施態様において、複数のバーコードを使用して、バーコードが必ずしも複数のバーコードの中で互いにユニークではないようにしてもよい。これらの実施態様において、バーコードは、一般に、個々の分子に(例えば、ライゲーションまたはPCR増幅によって)結合され、それにより、バーコードおよびそれが結合され得る配列の組み合わせが、個別に追跡され得るユニーク配列を作製する。本明細書に記載されるように、配列リードの開始(スタート)部分および終了(ストップ)部分の配列データと組み合わせた非ユニークにタグ付けされたバーコードの検出は、典型的には、特定の分子に対するユニークな同一性の割り当てを可能にする。個々の配列リードの長さまたは塩基対の数はまた、必要に応じて、所与の分子にユニークな同一性を割り当てるために使用される。本明細書に記載されるように、ユニークな同一性が割り当てられた核酸の一本鎖からの断片は、それにより、親鎖および/または相補鎖からの断片のその後の同定を可能にし得る。
核酸増幅
アダプタに隣接する試料核酸は、典型的には、増幅されるDNA分子に隣接するアダプタ中のプライマー結合部位に結合する核酸プライマーを使用するPCRおよび他の増幅方法によって増幅される。いくつかの実施態様において、増幅方法は、熱サイクリングから生じる伸長、変性およびアニーリングのサイクルを含むか、または例えば転写媒介増幅の場合のように等温であり得る。必要に応じて利用される他の例示的な増幅方法としては、他のアプローチの中でも、リガーゼ連鎖反応、鎖置換増幅、核酸配列に基づく増幅、および自立配列に基づく複製が挙げられる。
従来の核酸増幅法を使用して試料インデックス/タグを核酸分子に導入するために1またはそれを超える増幅サイクルが一般に適用される。増幅は、典型的には、1またはそれを超える反応混合物中で行われる。いくつかの実施態様において、分子タグおよび試料インデックス/タグは、配列捕捉工程が実行される前および/または後に導入される。いくつかの実施態様において、プローブ捕捉の前に分子タグのみを導入し、配列捕捉工程が実施された後に試料インデックス/タグを導入する。特定の実施態様において、分子タグおよび試料インデックス/タグの両方は、プローブベースの捕捉工程を実行する前に導入される。いくつかの実施態様において、試料デックス/タグは、配列捕捉工程(すなわち、核酸の濃縮)が実施された後に導入される。典型的には、配列捕捉プロトコルは、標的化核酸配列、例えばゲノム領域のコード配列および癌型に関連するそのような領域の突然変異に相補的な一本鎖核酸分子を導入することを含む。典型的には、増幅反応は、約200ヌクレオチド(nt)~約700nt、250nt~約350nt、または約320nt~約550ntの範囲のサイズの分子タグおよび試料インデックス/タグを有する複数の非ユニークにまたはユニークにタグ付けされた核酸アンプリコンを作成する。いくつかの実施態様において、アンプリコンは約300ntのサイズを有する。いくつかの実施態様において、アンプリコンは約500ntのサイズを有する。
核酸濃縮
いくつかの実施態様において、核酸を配列決定する前に配列を濃縮する。濃縮は、必要に応じて、特定の標的領域または非特異的に(「標的配列」)行われる。いくつかの実施態様において、標的化された目的の領域は、差分タイリングおよび捕捉スキームを使用して、1またはそれを超えるベイトセットパネルのために選択された核酸捕捉プローブ(「ベイト」で濃縮され得る。差分タイリングおよび捕捉スキームは、一般に、異なる相対濃度のベイトセットを使用して、一連の制約(例えば、シーケンシング負荷、各ベイトの有用性などのシーケンサ制約)に従って、ベイトに関連するゲノムセクションにわたって差次的にタイリングし(例えば、異なる「解消」で)、下流配列決定のために所望のレベルで標的化核酸を捕捉する。目的のこれらの標的化ゲノムセクションは、必要に応じて、核酸コンストラクトの天然または合成ヌクレオチド配列を含む。いくつかの実施態様において、目的の1またはそれを超えるセクションに対するプローブを有するビオチン標識ビーズを使用して、標的配列を捕捉し、必要に応じてその後にそれらのセクションを増幅して、目的の領域を濃縮することができる。
配列捕捉は、典型的には、標的核酸配列にハイブリダイズするオリゴヌクレオチドプローブの使用を含む。特定の実施態様において、プローブセット戦略は、目的のセクションにわたってプローブをタイリングすることを含む。そのようなプローブは、例えば、約60~約120ヌクレオチド長であり得る。セットは、約2×、3×、4×、5×、6×、8×、9×、10×、15×、20×、50×またはそれを超える深度を有することができる。配列捕捉の有効性は、一般に、プローブの配列と相補的(またはほぼ相補的)である標的分子中の配列の長さに部分的に依存する。
核酸配列決定
試料からのcfDNAの抽出および単離の後、工程103および104においてcfDNAが配列決定され得る。事前増幅の有無にかかわらず、必要に応じてアダプタに隣接する試料核酸は、一般に配列決定の対象となる。必要に応じて利用される配列決定方法または市販のフォーマットとしては、例えば、サンガーシーケンシング、ハイスループットシーケンシング、バイサルファイトシーケンシング、パイロシーケンシング、合成によるシーケンシング、単一分子シーケンシング、ナノポアベースのシーケンシング、半導体シーケンシング、ライゲーションによるシーケンシング、ハイブリダイゼーションによるシーケンシング、RNA-Seq(Illumina)、デジタル遺伝子発現(Helicos)、次世代シーケンシング(NGS)、合成による単一分子シーケンシング(SMSS)(Helicos)、大規模並列シーケンシング、クローン単一分子アレイ(Solexa)、ショットガンシーケンシング、Ion Torrent、Oxford Nanopore、Roche Genia、プライマーウォーキング、PacBio、SOLiD、Ion Torrent、またはナノポアプラットフォームを使用したシーケンシングが挙げられる。配列決定反応は、複数のレーン、複数のチャネル、複数のウェル、または複数の試料セットを実質的に同時に処理する他の手段を含み得る様々な試料処理ユニットで実施することができる。試料処理ユニットはまた、複数のランの処理を同時に可能にするために複数の試料チャンバを含むことができる。
配列決定反応を、癌または他の疾患のマーカーを含有することが知られている1またはそれを超える核酸断片タイプまたは断片に対して行うことができる。配列決定反応を、試料中に存在する任意の核酸断片に対して行うこともできる。配列決定反応は、ゲノムの少なくとも約5%、10%、15%、20%、25%、30%、40%、50%、60%、70%、80%、90%、95%、99%、99.9%または100%の配列カバレッジを提供し得る。他の場合では、ゲノムの配列カバレッジは、ゲノムの約5%、10%、15%、20%、25%、30%、40%、50%、60%、70%、80%、90%、95%、99%、99.9%または100%未満であり得る。
同時配列決定反応は、多重配列決定技術を使用して実施され得る。いくつかの実施態様において、無細胞ポリヌクレオチドは、少なくとも約1000、2000、3000、4000、5000、6000、7000、8000、9000、10000、50000、または100,000回の配列決定反応で配列決定される。他の実施態様において、無細胞ポリヌクレオチドは、約1000、2000、3000、4000、5000、6000、7000、8000、9000、10000、50000または100,000未満の配列決定反応で配列決定される。配列決定反応は、典型的には、順次または同時に行われる。その後のデータ分析は、一般に、配列決定反応の全部または一部に対して行われる。いくつかの実施態様において、データ解析は、少なくとも約1000、2000、3000、4000、5000、6000、7000、8000、9000、10000、50000、または100,000回の配列決定反応に対して行われる。他の実施態様において、データ解析は、約1000、2000、3000、4000、5000、6000、7000、8000、9000、10000、50000または100,000未満の配列決定反応に対して行われ得る。例示的なリード深度は、遺伝子座(塩基位置)当たり約1000~約50,000リードである。
いくつかの実施態様において、核酸集団は、一方または両方の末端に一本鎖オーバーハングを有する二本鎖核酸上に平滑末端を酵素的に形成することによって配列決定のために調製される。これらの実施態様において、集団は、典型的には、ヌクレオチド(例えば、A、C、GおよびTまたはU)の存在下で5’-3’DNAポリメラーゼ活性および3’-5’エキソヌクレアーゼ活性を有する酵素で処置される。必要に応じて使用される例示的な酵素またはその触媒断片には、クレノウ大型断片およびT4ポリメラーゼが含まれる。5’オーバーハングでは、酵素は、典型的には、5’末端と同一平面になるまで対向する鎖上の陥凹した3’末端を伸長させて平滑末端を生成する。3’オーバーハングでは、酵素は一般に、3’末端から反対の鎖の5’末端まで、場合によってはそれを超えて消化する。この消化が対向する鎖の5’末端を超えて進行する場合、5’オーバーハングに使用されるのと同じポリメラーゼ活性を有する酵素によってギャップを埋めることができる。二本鎖核酸上の平滑末端の形成は、例えば、アダプタの結合およびその後の増幅を容易にする。
いくつかの実施態様において、核酸集団は、一本鎖核酸の二本鎖への変換および/またはRNAのDNAへの変換などの追加のプロセッシングを受ける。これらの形態の核酸はまた、必要に応じてアダプタに連結され、増幅される。
事前の増幅の有無にかかわらず、上記の平滑末端を形成するプロセスの対象となる核酸、および必要に応じて試料中の他の核酸を配列決定して、配列決定された核酸を生成することができる。配列決定された核酸は、核酸の配列(すなわち、配列情報)またはその配列が決定された核酸のいずれかを指すことができる。配列決定は、試料中の個々の核酸分子の増幅産物のコンセンサス配列から直接的または間接的に、試料中の個々の核酸分子の配列データを提供するように行うことができる。
いくつかの実施態様において、平滑末端形成後の試料中の一本鎖オーバーハングを有する二本鎖核酸は、両端でバーコードを含むアダプタに連結され、配列決定は、核酸配列ならびにアダプタによって導入されたインラインバーコードを決定する。平滑末端DNA分子は、必要に応じて、少なくとも部分的に二本鎖アダプタ(例えば、Y字形またはベル形のアダプタ)の平滑末端に連結される。あるいは、ライゲーション(例えば、粘着末端ライゲーション)を容易にするために、試料核酸およびアダプタの平滑末端を相補的ヌクレオチドでテーリングすることができる。
核酸試料は、典型的には、同じ核酸の任意の2つのコピーが両端で連結されたアダプタからアダプタバーコードの同じ組み合わせを受け取る確率が低くなる(例えば、1%未満または0.1%)ように、十分な数のアダプタと接触される。この様式でのアダプタの使用は、参照核酸上の同じ開始点および停止点を有し、バーコードの同じ組み合わせに連結された核酸配列のファミリーの同定を可能にする。そのようなファミリーは、増幅前の試料中の鋳型/親核酸の増幅産物の配列を表す。ファミリーメンバーの配列は、平滑末端形成およびアダプタ結合によって修飾された、元の試料中の核酸分子のコンセンサスヌクレオチドまたは完全なコンセンサス配列を得るために編集することができる。換言すれば、試料中の核酸の特定の位置を占めるヌクレオチドは、ファミリーメンバー配列中のその対応する位置を占めるヌクレオチドのコンセンサスであると決定される。ファミリーは、二本鎖核酸の一方または両方の鎖の配列を含み得る。ファミリーのメンバーが二本鎖核酸由来の両鎖の配列を含む場合、コンセンサスヌクレオチドまたは配列を得るために全ての配列を編集する目的で、一方の鎖の配列がそれらの相補体に変換される。いくつかのファミリーは、単一のメンバー配列のみを含む。この場合、この配列を増幅前の試料中の核酸の配列とすることができる。あるいは、単一のメンバー配列のみを有するファミリーは、その後の分析から除外され得る。
配列決定された核酸のヌクレオチド変異は、配列決定された核酸を参照配列と比較することによって決定することができる。参照配列は、多くの場合、既知の配列、例えば、対象由来の既知の全ゲノム配列または部分ゲノム配列(例えば、ヒト対象の全ゲノム配列)である。参照配列は、例えば、hG19またはhG38であり得る。配列決定された核酸は、上記のように、試料中の核酸について直接決定された配列、またはそのような核酸の増幅産物の配列のコンセンサスを表すことができる。比較は、参照配列上の1またはそれを超える指定された位置で行うことができる。それぞれの配列が最大限にアラインメントされたときの参照配列の指定された位置に対応する位置を含む配列決定された核酸のサブセットを同定することができる。そのようなサブセット内では、存在する場合、どの配列決定された核酸が、指定された位置にヌクレオチド変異を含むか、そのエンドポイント(すなわち、それは5’および3’末端ヌクレオチドである)が参照配列にマッピングされる場所に基づく所与のcfDNAフラグメントの長さ、cfDNA断片中のゲノム領域の中点からの所与のcfDNA断片の中点のオフセット、ならびに必要に応じて、どれが参照ヌクレオチド(すなわち、参照配列と同じ)を含むかを決定することができる。選択された閾値を超えるヌクレオチド変異体を含むサブセット中の配列決定された核酸の数があれば、指定された位置で変異体ヌクレオチドを呼び出すことができる。閾値は、単純な数、例えばヌクレオチド変異体を含むサブセット内の少なくとも1、2、3、4、5、6、7、9もしくは10個の配列決定された核酸であり得るか、または他の可能性の中でもヌクレオチド変異体を含むサブセット内の少なくとも0.5、1、2、3、4、5、10、15もしくは20個の配列決定された核酸の比率であり得る。比較は、参照配列中の任意の指定された目的の位置について繰り返すことができる。時には、参照配列上の少なくとも約20、100、200または300個の連続した位置、例えば約20~500個または約50~300個の連続した位置を占める指定された位置について比較を行うことができる。
本明細書に記載されるフォーマットおよび用途を含めて、核酸配列決定に関する更なる詳細もまた、例えば、それぞれ参照によりその全体が組み込まれる、Levy et al.,Annual Review of Genomics and Human Genetics,17:95-115(2016)、Liu et al.,J.of Biomedicine and Biotechnology,Volume 2012,Article ID 251364:1-11(2012)、Voelkerding et al.,Clinical Chem.,55:641-658(2009)、MacLean et al.,Nature Rev.Microbiol.,7:287-296(2009)、Astier et al.,J Am Chem Soc.,128(5):1705-10(2006)、米国特許第6,210,891号、米国特許第6,258,568号、米国特許第6,833,246号、米国特許第7,115,400号、米国特許第6,969,488号、米国特許第5,912,148号、米国特許第6,130,073号、米国特許第7,169,560号、米国特許第7,282,337号、米国特許第7,482,120号、米国特許第7,501,245号、米国特許第6,818,395号、米国特許第6,911,345号、米国特許第7,501,245号、米国特許第7,329,492号、米国特許第7,170,050号、米国特許第7,302,146号、米国特許第7,313,308号、および米国特許第7,476,503号において提供される。
シーケンシングパネルSequencing Panel
目的のゲノム領域、および必要に応じて突然変異を示す腫瘍を検出する尤度を改善するために、配列決定されたDNAのセクションは、既知のゲノム領域を含む遺伝子またはゲノムセクションのパネルを含み得る。配列決定のための限定されたセクション(例えば、限定されたパネル)の選択は、必要とされる全配列決定(例えば、配列決定されたヌクレオチドの総量)を減少させることができる。シーケンシングパネルは、例えば、単一の癌、癌のセット、または全ての癌を検出するために、複数の異なる遺伝子または領域を標的とすることができる。あるいは、DNAは、シーケンシングパネルを使用せずに、全ゲノム配列決定(WGS)または他の不偏配列決定方法によって配列決定され得る。パネルに使用するのに適したパネルおよび標的の例は、2019年1月31日に出願された米国仮特許出願第62/799,637号に記載されたエピジェネティック標的に見出すことができ、その全体が参照により組み込まれる。
いくつかの態様において、複数の異なる遺伝子またはゲノム領域(例えば、転写因子結合領域、遠位調節エレメント(DRE)、反復エレメント、イントロン-エクソン接合部、転写開始部位(TSS)など)を標的とするパネルは、癌を有する対象の決定された割合がパネル内の1またはそれを超える異なる遺伝子において遺伝的変異体または腫瘍マーカーを示すように選択される。パネルは、配列決定のための領域を固定数の塩基対に限定するように選択され得る。パネルは、所望の量のDNAを配列決定するように選択され得る。パネルは、所望の配列リード深度を達成するように更に選択され得る。パネルは、ある量の配列決定された塩基対について所望の配列リード深度または配列リードカバレッジを達成するように選択され得る。パネルは、試料中の1またはそれを超える遺伝的変異体を検出するための理論的感度、理論的特異性、および/または理論的精度を達成するように選択され得る。
領域のパネルを検出するためのプローブは、目的のゲノム領域(ホットスポット領域)ならびにヌクレオソーム認識プローブ(例えば、KRASコドン12および13)を検出するためのプローブを含むことができ、ヌクレオソーム結合パターンおよびGC配列組成によって影響を受けるcfDNAカバレッジおよびフラグメントサイズ変動の分析に基づいて捕捉を最適化するように設計され得る。本明細書で使用される領域はまた、ヌクレオソーム位置およびGCモデルに基づいて最適化された非ホットスポット領域を含み得る。パネルは、起源組織(例えば、組織全体で最も多様な転写プロファイルを有する遺伝子を表す50~100ベイトを定義するための公開文献の使用(必ずしもプロモーターではない))を同定するためのサブパネル、全ゲノム骨格(例えば、超保存的ゲノム内容物を同定し、コピー数ベースライニング目的のための一握りのプローブを用いて染色体にわたってまばらにタイリングするため)、転写開始部位(TSS)/CpGアイランド(例えば、腫瘍抑制遺伝子(例えば、結腸直腸癌におけるSEPT9/VIM)のプロモーターにおける差次的メチル化領域(例えば、差次的にメチル化された領域(DMR))を捕捉するため)を含む複数のサブパネルを含むことができる。いくつかの実施態様において、起源の組織に対するマーカーは、組織特異的エピジェネティックマーカーである。
目的のゲノム位置のリストのいくつかの例を表1および表2に見出すことができる。いくつかの実施態様において、本開示の方法で使用されるゲノム位置は、表1の遺伝子の少なくとも5、少なくとも10、少なくとも15、少なくとも20、少なくとも25、少なくとも30、少なくとも35、少なくとも40、少なくとも45、少なくとも50、少なくとも55、少なくとも60、少なくとも65、少なくとも70、少なくとも75、少なくとも80、少なくとも85、少なくとも90、少なくとも95、または97個の少なくとも一部分を含む。いくつかの実施態様において、本開示の方法で使用されるゲノム位置は、表1のSNVの少なくとも5、少なくとも10、少なくとも15、少なくとも20、少なくとも25、少なくとも30、少なくとも35、少なくとも40、少なくとも45、少なくとも50、少なくとも55、少なくとも60、少なくとも65、または70個を含む。いくつかの実施態様において、本開示の方法で使用されるゲノム位置は、表1のCNVの少なくとも1、少なくとも2、少なくとも3、少なくとも4、少なくとも5、少なくとも6、少なくとも7、少なくとも8、少なくとも9、少なくとも10、少なくとも11、少なくとも12、少なくとも13、少なくとも14、少なくとも15、少なくとも16、少なくとも17、または18個を含む。いくつかの実施態様において、本開示の方法で使用されるゲノム位置は、表1の融合物の少なくとも1、少なくとも2、少なくとも3、少なくとも4、少なくとも5、または6個を含む。いくつかの実施態様において、本開示の方法で使用されるゲノム位置は、表1のインデルの少なくとも1、少なくとも2、または3個の少なくとも一部分を含む。いくつかの実施態様において、本開示の方法で使用されるゲノム位置は、表2の遺伝子の少なくとも5、少なくとも10、少なくとも15、少なくとも20、少なくとも25、少なくとも30、少なくとも35、少なくとも40、少なくとも45、少なくとも50、少なくとも55、少なくとも60、少なくとも65、少なくとも70、少なくとも75、少なくとも80、少なくとも85、少なくとも90、少なくとも95、少なくとも100、少なくとも105、少なくとも110、または115個の少なくとも一部分を含む。いくつかの実施態様において、本開示の方法で使用されるゲノム位置は、表2のSNVの少なくとも5、少なくとも10、少なくとも15、少なくとも20、少なくとも25、少なくとも30、少なくとも35、少なくとも40、少なくとも45、少なくとも50、少なくとも55、少なくとも60、少なくとも65、少なくとも70、または73個を含む。いくつかの実施態様において、本開示の方法で使用されるゲノム位置は、表2のCNVの少なくとも1、少なくとも2、少なくとも3、少なくとも4、少なくとも5、少なくとも6、少なくとも7、少なくとも8、少なくとも9、少なくとも10、少なくとも11、少なくとも12、少なくとも13、少なくとも14、少なくとも15、少なくとも16、少なくとも17、または18個を含む。いくつかの実施態様において、本開示の方法で使用されるゲノム位置は、表2の融合物の少なくとも1、少なくとも2、少なくとも3、少なくとも4、少なくとも5、または6個を含む。いくつかの実施態様において、本開示の方法において使用されるゲノム位置は、表2のインデルの少なくとも1、少なくとも2、少なくとも3、少なくとも4、少なくとも5、少なくとも6、少なくとも7、少なくとも8、少なくとも9、少なくとも10、少なくとも11、少なくとも12、少なくとも13、少なくとも14、少なくとも15、少なくとも16、少なくとも17、または18個の少なくとも一部分を含む。これらの目的のゲノム位置のそれぞれは、所与のベイトセットパネルの主鎖領域またはホットスポット領域として同定され得る。1またはそれを超える例において、本開示の方法は、表1および/または表2に含まれる全ての突然変異を使用して実装され得る。
表2
いくつかの実施態様において、パネル内の1またはそれを超える領域は、手術後に残存癌を検出するための1またはそれを超える遺伝子からの1またはそれを超える遺伝子座を含む。この検出は、既存の癌検出方法よりも早く行うことができる。いくつかの実施態様において、パネル内の1またはそれを超えるゲノム位置は、高リスク患者集団において癌を検出するための1またはそれを超える遺伝子からの1またはそれを超える遺伝子座を含む。例えば、喫煙者は、一般集団よりも肺癌の割合がはるかに高い。さらに、喫煙者は、肺における不規則な結節の発生など、癌の検出をより困難にする他の肺症状を発症する可能性がある。いくつかの実施態様において、本明細書に記載の方法は、癌療法に対する患者(特に高リスク患者における)の応答を、癌検出の既存の方法で可能であるよりも早く検出する。
ゲノム位置は、その遺伝子または領域に腫瘍マーカーを有する癌を有するいくつかの対象に基づいて、シーケンシングパネルに含めるために選択され得る。ゲノム位置は、癌およびその遺伝子に存在する腫瘍マーカーを有する対象の有病率に基づいて、シーケンシングパネルに含めるために選択され得る。ある領域における腫瘍マーカーの存在は、対象が癌を有することを示し得る。
場合によっては、パネルは、1またはそれを超えるデータベースからの情報を使用して選択されてもよい。癌に関する情報は、癌腫瘍生検またはcfDNAアッセイに由来し得る。データベースは、配列決定された腫瘍試料の集団を記述する情報を含み得る。データベースは、腫瘍試料におけるmRNA発現に関する情報を含み得る。データベースは、腫瘍試料中の調節エレメントまたはゲノム領域に関する情報を含み得る。配列決定された腫瘍試料に関する情報は、様々な遺伝的変異体の頻度を含み得、遺伝的変異体が存在する遺伝子または領域を記載し得る。遺伝的変異体は腫瘍マーカーであり得る。そのようなデータベースの非限定的な例は、COSMICである。COSMICは、様々な癌に見られる体細胞性突然変異のカタログである。特定の癌について、COSMICは、突然変異の頻度に基づいて遺伝子をランク付けする。遺伝子は、所与の遺伝子内に高頻度の突然変異を有することによって、パネルに含めるために選択され得る。例えば、COSMICは、配列決定された乳癌試料の集団の33%がTP53に突然変異を有し、サンプリングされた乳癌の集団の22%がKRASに突然変異を有することを示す。APCを含む他のランク付けされた遺伝子は、配列決定された乳癌試料の集団の約4%にのみ見られる突然変異を有する。TP53およびKRASは、サンプリングされた乳癌の中で比較的高い頻度(例えば約4%の頻度で起こるAPCと比較して)を有することに基づいてシーケンシングパネルに含められ得る。COSMICが非限定的な例として提供されるが、癌を遺伝子または遺伝子領域に位置する腫瘍マーカーと関連付ける任意のデータベースまたは情報のセットを使用してもよい。別の例では、COSMICによって提供されるように、1156個の胆道癌試料のうち、380個の試料(33%)がTP53に突然変異を保有していた。APCなどのいくつかの他の遺伝子は、全試料の4~8%に突然変異を有する。したがって、胆管癌試料の集団における比較的高い頻度に基づいて、パネルに含めるためにTP53を選択してもよい。
腫瘍マーカーの頻度が所与のバックグラウンド集団に見られるよりもサンプリングされた腫瘍組織または循環腫瘍DNAにおいて有意に大きいパネルについては、遺伝子またはゲノムセクションを選択してもよい。ゲノム位置の組み合わせは、癌を有する対象の少なくとも大多数が、パネル内のゲノム位置または遺伝子の少なくとも1つに存在する腫瘍マーカーまたはゲノム領域を有し得るように、パネルを含めるために選択され得る。ゲノム位置の組み合わせは、特定の癌または癌のセットについて、対象の大部分が1またはそれを超える選択された領域に1またはそれを超える腫瘍マーカーを有することを示すデータに基づいて選択され得る。例えば、癌1を検出するために、領域A、B、Cおよび/またはDを含むパネルは、癌1を有する対象の90%がパネルの領域A、B、Cおよび/またはDに腫瘍マーカーを有することを示すデータに基づいて選択され得る。あるいは、腫瘍マーカーは、組み合わせて、2またはそれを超える領域の腫瘍マーカーが癌を有する対象の集団の大部分に存在するように、癌を有する対象の2またはそれを超える領域で独立して生じることが示され得る。例えば、癌2を検出するために、領域X、YおよびZを含むパネルは、対象の90%が1またはそれを超える領域に腫瘍マーカーを有し、そのような対象の30%では腫瘍マーカーが領域Xでのみ検出され、腫瘍マーカーが、腫瘍マーカーが検出された対象の残りの部分については領域Yおよび/またはZでのみ検出されることを示すデータに基づいて選択され得る。1またはそれを超える癌に関連することが以前に示された1つまたはそれを超えるゲノム位置に存在する腫瘍マーカーは、腫瘍マーカーがそれらの領域の1またはそれを超える領域で50%またはそれを超える時間検出された場合、癌を有する対象を示すかまたは予測することができる。1またはそれを超える領域内の腫瘍マーカーのセットに対する癌頻度を考慮して癌を検出する条件付き確率を用いるモデルなどの計算アプローチを使用して、どの領域が単独でまたは組み合わせて癌を予測し得るかを予測することができる。パネル選択のための他のアプローチは、大きなパネルおよび/または全ゲノム配列決定(WGS、RNA-seq、Chip-seq、バイサルフェートシーケンシング、ATAC-seq等)による腫瘍の包括的ゲノムプロファイリングを用いる研究からの情報を記載するデータベースの使用を含む。文献から収集された情報はまた、特定の癌において一般的に罹患および変異した経路を記載し得る。パネル選択は、遺伝情報を記述するオントロジの使用によって更に通知され得る。
配列決定のためのパネルに含まれる遺伝子は、完全に転写された領域、プロモーター領域、エンハンサー領域、調節エレメントおよび/または下流配列を含み得る。突然変異を示す腫瘍を検出する尤度を更に高めるために、エクソンのみをパネルに含めてもよい。パネルは、選択された遺伝子の全てのエクソン、または選択された遺伝子の1またはそれを超えるエクソンのみ含むことができる。パネルは、複数の異なる遺伝子の各々からのエクソンを含み得る。パネルは、複数の異なる遺伝子の各々からの少なくとも1つのエクソンを含み得る。
いくつかの態様において、複数の異なる遺伝子の各々からのエクソンのパネルは、癌を有する対象の決定された割合がエクソンのパネル内の少なくとも1つのエクソンにおいて遺伝的変異体を示すように選択される。
遺伝子のパネル内の各異なる遺伝子からの少なくとも1つの完全エクソンが配列決定され得る。配列決定されたパネルは、複数の遺伝子からのエクソンを含み得る。パネルは、2~100個の異なる遺伝子、2~70個の遺伝子、2~50個の遺伝子、2~30個の遺伝子、2~15個の遺伝子、または2~10個の遺伝子のエクソンを含み得る。
選択されたパネルは、様々な数のエクソンを含み得る。パネルは、2個~3000個のエクソンを含み得る。パネルは、2個~1000個のエクソンを含み得る。パネルは、2個~500個のエクソンを含み得る。パネルは、2個~100個のエクソンを含み得る。パネルは、2個~50個のエクソンを含み得る。パネルは、300個以下のエクソンを含み得る。パネルは、200個以下のエクソンを含み得る。パネルは、100個以下のエクソンを含み得る。パネルは、50個以下のエクソンを含み得る。パネルは、40個以下のエクソンを含み得る。パネルは、30個以下のエクソンを含み得る。パネルは、25個以下のエクソンを含み得る。パネルは、20個以下のエクソンを含み得る。パネルは、15個以下のエクソンを含み得る。パネルは、10個以下のエクソンを含み得る。パネルは、9個以下のエクソンを含み得る。パネルは、8個以下のエクソンを含み得る。パネルは、7個以下のエクソンを含み得る。
パネルは、複数の異なる遺伝子からの1またはそれを超えるエクソンを含み得る。パネルは、複数の異なる遺伝子の割合の各々からの1またはそれを超えるエクソンを含み得る。パネルは、異なる遺伝子の少なくとも25%、50%、75%または90%の各々からの少なくとも2つのエクソンを含み得る。パネルは、異なる遺伝子の少なくとも25%、50%、75%または90%のそれぞれからの少なくとも3つのエクソンを含み得る。パネルは、異なる遺伝子の少なくとも25%、50%、75%または90%のそれぞれからの少なくとも4つのエクソンを含み得る。
シーケンシングパネルのサイズは変化し得る。シーケンシングパネルは、例えば、パネル内の特定の領域について配列決定されたヌクレオチドの総量または配列決定されたユニークな分子の数を含むいくつかの要因に応じて、(ヌクレオチドサイズに関して)より大きくまたはより小さくすることができる。シーケンシングパネルは、5kb~50kbのサイズであり得る。シーケンシングパネルは、10kb~30kbのサイズであり得る。シーケンシングパネルは、12kb~20kbのサイズであり得る。シーケンシングパネルは、12kb~60kbのサイズであり得る。シーケンシングパネルは、少なくとも10kb、12kb、15kb、20kb、25kb、30kb、35kb、40kb、45kb、50kb、60kb、70kb、80kb、90kb、100kb、110kb、120kb、130kb、140kbまたは150kbのサイズであり得る。シーケンシングパネルは、100kb、90kb、80kb、70kb、60kbまたは50kb未満のサイズであり得る。
配列決定のために選択されたパネルは、少なくとも1、5、10、15、20、25、30、40、50、60、80または100のゲノム位置(例えば、それぞれが目的のゲノム領域を含む)を含み得る。場合によっては、パネル内のゲノム位置は、位置のサイズが比較的小さいように選択される。場合によっては、パネル内の領域は、約10kbもしくはそれ未満、約8kbもしくはそれ未満、約6kbもしくはそれ未満、約5kbもしくはそれ未満、約4kbもしくはそれ未満、約3kbもしくはそれ未満、約2.5kbもしくはそれ未満、約2kbもしくはそれ未満、約1.5kbもしくはそれ未満、または約1kbもしくはそれ未満のサイズを有する。場合によっては、パネル内のゲノム位置は、約0.5kb~約10kb、約0.5kb~約6kb、約1kb~約11kb、約1kb~約15kb、約1kb~約20kb、約0.1kb~約10kb、または約0.2kb~約1kbのサイズを有する。例えば、パネル内の領域は、約0.1kb~約5kbのサイズを有することができる。
本明細書で選択されるパネルは、低頻度の遺伝的変異体(例えば、試料から得られた無細胞核酸分子において)を検出するのに十分なディープシーケンシングを可能にすることができる。試料中の遺伝的変異体の量は、所与の遺伝的変異体のマイナー対立遺伝子頻度に関して言及され得る。突然変異体対立遺伝子頻度は、突然変異体対立遺伝子が試料等の核酸の所与の集団において生じる頻度を指し得る。マイナー対立遺伝子頻度が低い遺伝的変異体は、試料中に比較的低い頻度で存在し得る。場合によっては、パネルは、少なくとも0.0001%、0.001%、0.005%、0.01%、0.05%、0.1%または0.5%のマイナー対立遺伝子頻度での遺伝的変異体の検出を可能にする。パネルは、0.001%またはそれを超えるマイナー対立遺伝子頻度での遺伝的変異体の検出を可能にすることができる。パネルは、0.01%またはそれを超えるマイナー対立遺伝子頻度での遺伝的変異体の検出を可能にすることができる。パネルは、0.01%またはそれを超える突然変異体対立遺伝子頻度での遺伝的変異体の検出を可能にすることができる。パネルは、0.0001%、0.001%、0.005%、0.01%、0.025%、0.05%、0.075%、0.1%、0.25%、0.5%、0.75%、または1.0%という低い頻度で試料中に存在する遺伝的変異体の検出を可能にすることができる。パネルは、少なくとも0.0001%、0.001%、0.005%、0.01%、0.025%、0.05%、0.075%、0.1%、0.25%、0.5%、0.75%、または1.0%の頻度で試料中に存在する腫瘍マーカーの検出を可能にすることができる。パネルは、1.0%という低い頻度で試料中の腫瘍マーカーの検出を可能にすることができる。パネルは、0.75%という低い頻度で試料中の腫瘍マーカーの検出を可能にすることができる。パネルは、0.5%という低い頻度で試料中の腫瘍マーカーの検出を可能にすることができる。パネルは、0.25%という低い頻度で試料中の腫瘍マーカーの検出を可能にすることができる。パネルは、0.1%という低い頻度で試料中の腫瘍マーカーの検出を可能にすることができる。パネルは、0.075%という低い頻度で試料中の腫瘍マーカーの検出を可能にすることができる。パネルは、0.05%という低い頻度で試料中の腫瘍マーカーの検出を可能にすることができる。パネルは、0.025%という低い頻度で試料中の腫瘍マーカーの検出を可能にすることができる。パネルは、0.01%という低い頻度で試料中の腫瘍マーカーの検出を可能にすることができる。パネルは、0.005%という低い頻度で試料中の腫瘍マーカーの検出を可能にすることができる。パネルは、0.001%という低い頻度で試料中の腫瘍マーカーの検出を可能にすることができる。パネルは、0.0001%という低い頻度で試料中の腫瘍マーカーの検出を可能にすることができる。パネルは、配列決定されたcfDNA中の腫瘍マーカーを試料において1.0%~0.0001%という低い頻度で検出することを可能にすることができる。パネルは、配列決定されたcfDNA中の腫瘍マーカーを試料において0.01%~0.0001%という低い頻度で検出することを可能にすることができる。
遺伝的変異体は、疾患(例えば、癌)を有する対象の集団のパーセンテージで示され得る。場合によっては、癌を有する集団の少なくとも1%、2%、3%、5%、10%、20%、30%、40%、50%、60%、70%、80%、90%、95%または99%が、パネルの領域の少なくとも1つにおいて1またはそれを超える遺伝的変異体を示す。例えば、癌を有する集団の少なくとも80%は、パネル内のゲノム位置の少なくとも1つにおいて1またはそれを超える遺伝的変異体を示し得る。
パネルは、1またはそれを超える遺伝子のそれぞれからの目的のゲノム領域を含む1またはそれを超える位置を含むことができる。場合によっては、パネルは、少なくとも1、2、3、4、5、6、7、8、9、10、15、20、25、30、40、50または80個の遺伝子のそれぞれからの目的のゲノム領域を含む1またはそれを超える位置を含み得る。場合によっては、パネルは、最大で1、2、3、4、5、6、7、8、9、10、15、20、25、30、40、50または80個の遺伝子のそれぞれからの目的のゲノム領域を含む1またはそれを超える位置を含み得る。場合によっては、パネルは、約1~約80個、1~約50個、約3~約40個、5~約30個、10~約20個の異なる遺伝子のそれぞれからの目的のゲノム領域を含む1またはそれを超える位置を含み得る。
パネル内のゲノム領域を含む位置は、1またはそれを超えるエピジェネティック修飾領域が検出されるように選択することができる。1またはそれを超えるエピジェネティック修飾領域は、アセチル化、メチル化、ユビキチン化、リン酸化、スモイル化、リボシル化および/またはシトルリン化され得る。例えば、パネル内の領域は、1またはそれを超えるメチル化領域が検出されるように選択することができる。
パネル内の領域は、それらが1またはそれを超える組織にわたって差次的に転写される配列を含むように選択することができる。場合によっては、ゲノム領域を含む位置は、他の組織と比較してより高いレベルで特定の組織において転写された配列を含み得る。例えば、ゲノム領域を含む位置は、特定の組織で転写されるが他の組織では転写されない配列を含み得る。
パネル内のゲノム位置は、コード配列および/または非コード配列を含み得る。例えば、パネル内のゲノム位置は、エクソン、イントロン、プロモーター、3’非翻訳領域、5’非翻訳領域、調節エレメント、転写開始部位、および/またはスプライス部位に1またはそれを超える配列を含み得る。場合によっては、パネル内の領域は、偽遺伝子、反復配列、トランスポゾン、ウイルスエレメントおよびテロメアを含む他の非コード配列を含み得る。場合によっては、パネル内のゲノム位置は、非コードRNA、例えばリボソームRNA、トランスファーRNA、Piwi相互作用RNA、およびマイクロRNA中の配列を含み得る。
パネル内のゲノム位置は、所望のレベルの感度(例えば、1またはそれを超える遺伝的変異体の検出を介して、)で癌を検出(診断)するように選択することができる。例えば、パネル内の領域は、少なくとも50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、96%、97%、98%、99%、99.5%、または99.9%の感度で癌(例えば、1またはそれを超える遺伝的変異体の検出を介して)を検出するように選択することができる。パネル内のゲノム位置は、100%の感度で癌を検出するように選択することができる。
パネル内のゲノム位置は、所望のレベルの特異性(例えば、1またはそれを超える遺伝的変異体の検出を介して)で癌を検出(診断)するように選択することができる。例えば、パネル内のゲノム位置は、少なくとも50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、96%、97%、98%、99%、99.5%または99.9%の特異性で(例えば、1またはそれを超える遺伝的変異体の検出を介して)癌を検出するように選択することができる。パネル内のゲノム位置は、100%の特異性で1またはそれを超える遺伝的変異体を検出するように選択することができる。
パネル内のゲノム位置は、所望の陽性予測値を有する癌を検出(診断)するように選択することができる。陽性予測値は、感度(例えば、実際の陽性が検出される可能性)および/または特異度(例えば、実際の負を正と間違えない可能性)を増加させることによって増加させることができる。非限定的な例として、パネル内のゲノム位置は、少なくとも50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、96%、97%、98%、99%、99.5%、または99.9%の陽性予測値で1またはそれを超える遺伝的変異体を検出するように選択することができる。パネル内の領域は、100%の陽性予測値で1またはそれを超える遺伝的変異体を検出するように選択することができる。
パネル内のゲノム位置は、所望の精度で癌を検出(診断)するように選択することができる。本明細書で使用される場合、「精度」という用語は、疾患症状(例えば、癌)と健康症状とを識別する試験の能力を指し得る。精度は、感度および特異度、予測値、尤度比、ROC曲線下面積、ヨーデンの指標および/または診断オッズ比などの尺度を使用して定量化してもよい。
精度は、正しい結果を与える試験の数と実施された試験の総数との間の比を指すパーセンテージとして提示され得る。パネル内の領域は、少なくとも50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、96%、97%、98%、99%、99.5%、または99.9%の精度で癌を検出するように選択することができる。パネル内のゲノム位置は、癌を100%の精度で検出するように選択することができる。
パネルは、高感度であり、低頻度の遺伝的変異体を検出するように選択され得る。例えば、パネルは、0.01%、0.05%または0.001%という低い頻度で試料中に存在する遺伝的変異体または腫瘍マーカーが、少なくとも50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、96%、97%、98%、99%、99.5%または99.9%の感度で検出され得るように選択され得る。パネル内のゲノム位置は、試料中に1%またはそれ未満の頻度で存在する腫瘍マーカーを70%またはそれを超える感度で検出するように選択され得る。パネルは、少なくとも50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、96%、97%、98%、99%、99.5%または99.9%の感度で、試料中0.1%という低い頻度の腫瘍マーカーを検出するように選択され得る。パネルは、少なくとも50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、96%、97%、98%、99%、99.5%または99.9%の感度で、試料中0.01%という低い頻度の腫瘍マーカーを検出するように選択され得る。パネルは、少なくとも50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、96%、97%、98%、99%、99.5%または99.9%の感度で、試料中0.001%という低い頻度の腫瘍マーカーを検出するように選択され得る。
パネルは、高度に特異的であり、低頻度の遺伝的変異体を検出するように選択され得る。例えば、パネルは、0.01%、0.05%または0.001%という低い頻度で試料中に存在する遺伝的変異体または腫瘍マーカーが、少なくとも50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、96%、97%、98%、99%、99.5%または99.9%の特異性で検出され得るように選択され得る。パネル内のゲノム位置は、試料中に1%またはそれ未満頻度で存在する腫瘍マーカーを70%またはそれを超える特異性で検出するように選択され得る。パネルは、少なくとも70%、75%、80%、85%、90%、95%、96%、97%、98%、0.1%、99.5%、または99.9%の特異性で、99%という低い頻度で試料中の腫瘍マーカーを検出するように選択され得る。パネルは、少なくとも70%、75%、80%、85%、90%、95%、96%、97%、98%、0.01%、99.5%、または99.9%の特異性で、99%という低い頻度で試料中の腫瘍マーカーを検出するように選択され得る。パネルは、少なくとも70%、75%、80%、85%、90%、95%、96%、97%、98%、0.001%、99.5%、または99.9%の特異性で、99%という低い頻度で試料中の腫瘍マーカーを検出するように選択され得る。
パネルは、高精度であり、低頻度の遺伝的変異体を検出するように選択され得る。パネルは、0.01%、0.05%、または0.001%という低い頻度で試料中に存在する遺伝的変異体または腫瘍マーカーが、少なくとも70%、75%、80%、85%、90%、95%、96%、97%、98%、99%、99.5%、または99.9%の精度で検出され得るように選択され得る。パネル内のゲノム位置は、試料中に1%またはそれ未満の頻度で存在する腫瘍マーカーを70%またはそれを超える精度で検出するように選択され得る。パネルは、少なくとも70%、75%、80%、85%、90%、95%、96%、97%、98%、0.1%、99.5%、または99.9%の精度で、試料中の99%という低い頻度で腫瘍マーカーを検出するように選択され得る。パネルは、少なくとも70%、75%、80%、85%、90%、95%、96%、97%、98%、0.01%、99.5%、または99.9%の精度で、試料中の99%という低い頻度で腫瘍マーカーを検出するように選択され得る。パネルは、少なくとも70%、75%、80%、85%、90%、95%、96%、97%、98%、0.001%、99.5%、または99.9%の精度で、試料中の99%という低い頻度で腫瘍マーカーを検出するように選択され得る。
パネルは、高度に予測的であり、低頻度の遺伝的変異体を検出するように選択され得る。パネルは、0.01%、0.05%、または0.001%という低い頻度で試料中に存在する遺伝的変異体または腫瘍マーカーが、少なくとも70%、75%、80%、85%、90%、95%、96%、97%、98%、99%、99.5%、または99.9%の陽性予測値を有し得るように選択され得る。
試料内により多くの核酸分子を捕捉するために、パネルで使用されるプローブまたはベイトの濃度を増加させてもよい(2~6ng/μL)。パネルに使用されるプローブまたはベイトの濃度は、少なくとも2ng/μL、3ng/μL、4ng/μL、5ng/μL、6ng/μLまたはそれを超えてもよい。プローブの濃度は、約2ng/μL~約3ng/μL、約2ng/μL~約4ng/μL、約2ng/μL~約5ng/μL、約2ng/μL~約6ng/μLであり得る。パネルに使用されるプローブまたはベイトの濃度は、2ng/μLまたはそれを超え、6ng/μLまたはそれ未満であり得る。場合によっては、これにより、生物学的内のより多くの分子を分析することが可能になり、それにより、より低い頻度の対立遺伝子を検出することが可能になり得る。
一実施態様において、配列決定後、配列リードに品質スコアを割り当ててもよい。品質スコアは、それらの配列リードが閾値に基づくその後の分析において有用であり得るかどうかを示す配列リードの表現であり得る。場合によっては、いくつかの配列リードは、後続のマッピング工程を実施するのに十分な品質または長さではない。少なくとも90%、95%、99%、99.9%、99.99%または99.999%の品質スコアを有する配列リードは、配列リードのデータセットから除外され得る。他の場合には、少なくとも90%、95%、99%、99.9%、99.99%または99.999%の品質スコアが割り当てられた配列リードは、データセットから除外され得る。特定の品質スコア閾値を満たす配列リードは、参照ゲノムにマッピングされ得る。マッピングアライメントの後、配列リードにマッピングスコアを割り当てもよい。マッピングスコアは、各位置がユニークにマッピング可能であるか否かを示す、参照配列にマッピングして戻された配列リードの表現であり得る。少なくとも90%、95%、99%、99.9%、99.99%または99.999%のマッピングスコアを有する配列リードは、データセットから除外され得る。他の場合では、90%、95%、99%、99.9%、99.99%または99.999%未満のマッピングスコアが割り当てられた配列決定リードは、データセットから除外され得る。
癌および他の疾患
特定の実施形態において、本明細書に開示される方法および態様は、患者の所与の疾患、障害または症状を診断するために使用される。特定の実施形態において、本明細書に開示される方法および態様は、患者の長期モニタリングおよび疾患を有する対象の処置応答の追跡に使用される。典型的には、検討中の疾患は癌の一種である。そのような癌の非限定的な例としては、胆道癌、膀胱癌、移行上皮癌、尿路上皮癌、脳癌、神経膠腫、星状細胞腫、乳癌、化生性癌、子宮頸癌、子宮頸部扁平上皮癌、直腸癌、結腸直腸癌、結腸癌、遺伝性非ポリポーシス結腸直腸癌、結腸直腸腺癌、消化管間質腫瘍(GIST)、子宮内膜癌、子宮内膜間質肉腫、食道癌、食道扁平上皮癌、食道腺癌、眼黒色腫、ブドウ膜黒色腫、胆嚢癌、胆嚢腺癌、腎細胞癌、淡明細胞型腎細胞癌、移行上皮癌、尿路上皮癌、ウィルムス腫瘍、白血病、急性リンパ性白血病(ALL)、急性骨髄性白血病(AML)、慢性リンパ性(CLL)、慢性骨髄性(CML)、慢性骨髄単球性(CMML)、肝臓癌(liver cancer)、肝癌(liver carcinoma)、ヘパトーマ、肝細胞癌、胆管癌、肝芽腫、肺癌、非小細胞肺癌(NSCLC)、中皮腫、B細胞リンパ腫、非ホジキンリンパ腫、びまん性大細胞型B細胞リンパ腫、マントル細胞リンパ腫、T細胞リンパ腫、非ホジキンリンパ腫、前駆体Tリンパ芽球性リンパ腫/白血病、末梢T細胞リンパ腫、多発性骨髄腫、鼻咽頭癌(NPC)、神経芽腫、中咽頭癌、口腔扁平上皮癌、骨肉腫、卵巣癌、膵臓癌、膵管腺癌、偽乳頭新生物、腺房細胞癌が挙げられる。前立腺癌、前立腺腺癌、皮膚癌、黒色腫、悪性黒色腫、皮膚黒色腫、小腸癌、胃癌(stomach cancer)、胃癌(gastric carcinoma)、消化管間質腫瘍(GIST)、子宮癌、または子宮肉腫。
本明細書に開示される方法およびシステムを使用して必要に応じて評価される他の遺伝子ベースの疾患、障害または症状の非限定的な例としては、軟骨無形成症、アルファ1-アンチトリプシン欠損症、抗リン脂質症候群、自閉症、常染色体優性多発性嚢胞腎疾患、シャルコー・マリー・トゥース(CMT)、猫鳴き症候群、クローン病、嚢胞性線維症、デルカム病、ダウン症候群、デュアン症候群、デュシェンヌ型筋ジストロフィー、第V因子ライデン型血小板増加症、家族性高コレステロール血症、家族性髄膜熱、脆弱X症候群、ゴーシェ病、ヘモクロマトーシス、血友病、全前脳症、ハンチントン病、クラインフェルター症候群、マルファン症候群、筋緊張性ジストロフィー、神経線維腫症、ヌーナン症候群、骨形成不全症、パーキンソン病、フェニルケトン尿症、ポーランド症候群(Poland anomaly)、ポルフィリン症、早老症、網膜色素変性症、重症複合免疫不全症(scid)、鎌状赤血球症、脊髄性筋萎縮症、テイ・サックス病、サラセミア、トリメチルアミン尿症、ターナー症候群、軟口蓋心顔面症候群、WAGR症候群、ウィルソン病などが挙げられる。
精密処置
改良されたコンピュータシステム110によって提供される精密診断は、コンピュータシステム110によって識別され得る(および/または医療専門家によって管理され得る)精密処置計画をもたらし得る。例えば、1つのタイプの精密診断および処置は、相同組換え修復(HRR)経路における遺伝子に関連し得る。
相同組換えは、ヌクレオチド配列が2つの類似または同一のDNA分子間で交換される遺伝子組換えの一種である。二本鎖切断(DSB)として知られる、DNAの両鎖に生じる有害な切断を正確に修復するために、細胞によって最も広く使用されている。HRRは、複製されたDNA(S期およびG2期)に存在する損傷を誤りなく除去して、細胞分裂が起こる前に染色体切断を排除する機構を提供する。相同組換えがDNAの二本鎖切断をどのように修復するかについての主要なモデルは、二本鎖切断修復(DSBR)経路および合成依存性鎖アニーリング(SDSA)経路を媒介する相同組換え修復経路である。相同組換え遺伝子における生殖系列および体細胞性の欠損は、乳癌、卵巣癌および前立腺癌と強く関連している。
試料中の変異体ヌクレオチドの数および種類は、処置、すなわち治療的介入に試料を提供する対象の順応性の指標を提供することができる。例えば、様々なポリADPリボースポリメラーゼ(PARP)阻害剤は、BRCA1またはBRCA2遺伝子における遺伝性突然変異によって引き起こされる乳癌、卵巣癌および前立腺癌からの腫瘍の成長を停止させることが示されている。これらの治療薬のいくつかは塩基除去修復(BER)を阻害し得、これによりHRRの欠損が補償され得る。
一方、特定のBRCAおよびHRR野生型患者は、PARP阻害剤による処置から臨床的利益を得られない可能性がある。さらに、BRCA突然変異を有する全ての卵巣癌患者がPARP阻害剤に応答するわけではない。さらに、異なるタイプの突然変異は、異なる治療法を示し得る。例えば、HRR遺伝子における体細胞性ヘテロ接合性欠失は、体細胞性ホモ接合性欠失とは異なる治療法を示し得る。したがって、遺伝物質の状況は治療に影響を及ぼし得る。一例では、PARP阻害剤は、HRR遺伝子に体細胞性ホモ接合性欠失を有する個体に投与され得るが、HRR遺伝子に野生型対立遺伝子または体細胞ヘテロ接合性欠失を有する個体には投与され得ない。
いくつかの実施態様において、開示される方法のいずれかによって決定されるHRDを有する対象に、標的療法を投与してもよい。標的療法は、PARP阻害剤を含み得る。投与され得るPARP阻害剤の例としては、バリパリブ、オラパリブ、タラゾパリブ、ルカパリブ、ニラパリブ、パミパリブ、CEP 9722(Cephalon)、E7016(Eisai)、E7449(Eisai、PARP1/2およびタンキラーゼ1/2阻害剤)、または3-アミノベンズアミドのうちの1またはそれを超えるものが挙げられる。いくつかの実施態様において標的療法は、少なくとも1つの塩基除去修復(BER)阻害剤を含み得る。例えば、オラパリブはBERを抑制しうる。特定の実施態様において標的療法は、PARP阻害剤と放射線療法との組み合わせを含み得る。実施態様において、PARP阻害剤と放射線療法との組み合わせは、PARP阻害剤が腫瘍組織における放射線療法によって作成された一本鎖切断から二本鎖切断の形成をもたらすことを可能にする(例えば、BRCA1/BRCA2突然変異を有する組織)。この組み合わせは、放射線量当たりにより強力な治療を提供することができる。
カスタマイズされた治療および関連する投与
いくつかの実施態様において本明細書に開示される方法は、所与の疾患、障害または症状を有する患者を同定し、治療を投与することに関する。本質的に、任意の癌治療(例えば、外科的治療、放射線療法、化学療法など)が、これらの方法の一部として含まれる。特定の実施態様において対象に投与される治療は、少なくとも1つの化学療法薬を含み得る。いくつかの実施態様において、化学療法薬は、アルキル化剤(例えば、限定されないが、クロラムブシル、シクロホスファミド、シスプラチンおよびカルボプラチン)、ニトロソウレア(例えば、限定されないが、カルムスチンおよびロムスチン)、代謝拮抗剤(例えば、限定されないが、フルオロウラシル、メトトレキサートおよびフルダラビン)、植物アルカロイドおよび天然物(例えば、限定されないが、ビンクリスチン、パクリタキセルおよびトポテカン)、抗腫瘍抗生物質(例えば、限定されないが、ブレオマイシン、ドキソルビシンおよびミトキサントロン)、ホルモン剤(例えば、限定されないが、プレドニゾン、デキサメタゾン、タモキシフェンおよびロイプロリド)および生物学的応答修飾因子(例えば、限定されないが、ハーセプチンおよびアバスチン、アービタックスおよびリツキサン)を含み得る。いくつかの実施態様において対象に投与される化学療法は、FOLFOXまたはFOLFIRIを含み得る。典型的には、療法は、少なくとも1つの免疫療法(または免疫療法剤)を含む。免疫療法は、一般に、所与の癌型に対する免疫応答を増強する方法を指す。特定の実施態様において、免疫療法は、腫瘍または癌に対するT細胞応答を増強する方法を指す。
いくつかの実施態様において、免疫療法剤または免疫療法剤は免疫チェックポイント分子を標的とする。特定の腫瘍は、免疫チェックポイント経路を利用することによって免疫系を回避することができる。したがって、免疫チェックポイントをターゲティングすることは、免疫系を回避する腫瘍の能力に対抗し、特定の癌に対する抗腫瘍免疫を活性化するための有効なアプローチとして浮上している。Pardoll,Nature Reviews Cancer,2012,12:252-264.
特定の実施態様において、免疫チェックポイント分子は、抗原に対するT細胞応答に関与するシグナルを減少させる阻害性分子である。例えば、CTLA4はT細胞上に発現し、抗原提示細胞上のCD80(aka B7.1)またはCD86(aka B7.2)に結合することによってT細胞活性化を下方制御する役割を果たす。PD-1は、T細胞上で発現される別の阻害性チェックポイント分子である。PD-1は、炎症応答中の末梢組織におけるT細胞の活性を制限する。さらに、PD-1のリガンド(PD-L1またはPD-L2)は、多くの異なる腫瘍の表面で一般に上方制御され、腫瘍微小環境における抗腫瘍免疫応答の下方制御をもたらす。特定の実施態様において、阻害性免疫チェックポイント分子は、CTLA4またはPD-1である。他の実施態様において、阻害性免疫チェックポイント分子は、PD-L1またはPD-L2などのPD-1のリガンドである。他の実施態様において、阻害性免疫チェックポイント分子は、CD80またはCD86などのCTLA4のリガンドである。他の実施態様において、阻害性免疫チェックポイント分子は、リンパ球活性化遺伝子3(LAG3)、キラー細胞免疫グロブリン様受容体(KIR)、T細胞膜タンパク質3(TIM3)、ガレクチン9(GAL9)、またはアデノシンA2a受容体(A2aR)である。
これらの免疫チェックポイント分子を標的とするアンタゴニストを使用して、特定の癌に対する抗原特異的T細胞応答を増強することができる。したがって、特定の実施態様において、免疫療法または免疫療法剤は、阻害性免疫チェックポイント分子のアンタゴニストである。特定の実施態様において、阻害性免疫チェックポイント分子はPD-1である。特定の実施態様において、阻害性免疫チェックポイント分子はPD-L1である。特定の実施態様において、阻害性免疫チェックポイント分子のアンタゴニストは、抗体(例えば、モノクローナル抗体)である。特定の実施態様において、抗体またはモノクローナル抗体は、抗CTLA4、抗PD-1、抗PD-L1、または抗PD-L2抗体である。特定の実施態様において、抗体は、モノクローナル抗PD-1抗体である。いくつかの実施態様において、抗体はモノクローナル抗PD-L1抗体である。特定の実施態様において、モノクローナル抗体は、抗CTLA4抗体と抗PD-1抗体、抗CTLA4抗体と抗PD-L1抗体、または抗PD-L1抗体と抗PD-1抗体の組み合わせである。特定の実施態様において、抗PD-1抗体は、ペンブロリズマブ(Keytruda(登録商標))またはニボルマブ(Opdivo(登録商標))のうちの1またはそれを超えるものである。特定の実施態様において、抗CTLA4抗体は、イピリムマブ(Yervoy(登録商標))である。特定の実施態様において、抗PD-L1抗体が、テゾリズマブ(Tecentriq(登録商標))、アベルマブ(Bavencio(登録商標))、またはデュルバルマブ(Imfinzi(登録商標))の1またはそれを超えるものである。
特定の実施態様において、免疫療法または免疫療法剤は、CD80、CD86、LAG3、KIR、TIM3、GAL9またはA2aRに対するアンタゴニスト(例えば抗体)である。他の実施態様において、アンタゴニストは、阻害性免疫チェックポイント分子の可溶性バージョン、例えば阻害性免疫チェックポイント分子の細胞外ドメインおよび抗体のFcドメインを含む可溶性融合タンパク質である。特定の実施態様において、可溶性融合タンパク質は、CTLA 4、PD-1、PD-L1またはPD-L2の細胞外ドメインを含む。いくつかの実施態様において、可溶性融合タンパク質は、CD80、CD86、LAG3、KIR、TIM3、GAL9またはA2aRの細胞外ドメインを含む。一実施態様において、可溶性融合タンパク質は、PD-L2またはLAG3の細胞外ドメインを含む。
特定の実施態様において、免疫チェックポイント分子は、抗原に対するT細胞応答に関与するシグナルを増幅する共刺激分子である。例えば、CD28は、T細胞上に発現される共刺激受容体である。T細胞がそのT細胞受容体を介して抗原に結合すると、CD28は抗原提示細胞上のCD80(aka B7.1)またはCD86(aka B7.2)に結合して、T細胞受容体シグナル伝達を増幅し、T細胞活性化を促進する。CD28はCTLA4と同じリガンド(CD80およびCD86)に結合するので、CTLA4はCD28によって媒介される共刺激シグナル伝達を打ち消すまたは調節することができる。特定の実施態様において、免疫チェックポイント分子は、CD28、誘導性T細胞共刺激因子(ICOS)、CD137、OX40、またはCD27から選択される共刺激分子である。他の実施態様において、免疫チェックポイント分子は、例えば、CD80、CD86、B7RP1、B7-H3、B7-H4、CD137L、OX40L、またはCD70を含む共刺激分子のリガンドである。
これらの共刺激チェックポイント分子を標的とするアゴニストは、特定の癌に対する抗原特異的T細胞応答を増強するために使用することができる。したがって、特定の実施態様において、免疫療法または免疫療法剤は、共刺激チェックポイント分子のアゴニストである。特定の実施態様において、共刺激チェックポイント分子のアゴニストはアゴニスト抗体であり、好ましくはモノクローナル抗体である。特定の実施態様において、アゴニスト抗体またはモノクローナル抗体が抗CD28抗体である。他の実施態様において、アゴニスト抗体またはモノクローナル抗体は、抗ICOS、抗CD137、抗OX40、または抗CD27抗体である。他の実施態様において、アゴニスト抗体またはモノクローナル抗体は、抗CD80、抗CD86、抗B7RP1、抗B7-H3、抗B7-H4、抗CD137L、抗OX40L、または抗CD70抗体である。
癌以外の特定の遺伝子ベースの疾患、障害、または症状を処置するための治療選択肢は、一般に当業者に周知であり、考慮中の特定の疾患、障害、または症状を考慮すると明らかであろう。
特定の実施態様において、本明細書に記載のカスタマイズされた療法は、典型的には非経口的に(例えば、静脈内または皮下)施される。免疫療法剤を含有する医薬組成物は、典型的には静脈内投与される。特定の治療薬は、経口投与される。しかしながら、カスタマイズされた療法(例えば、免疫療法剤など)も、例えば、頬側、舌下、直腸、膣、尿道内、局所、眼内、鼻腔内、および/または耳内を含む当技術分野で公知の任意の方法によって施され得、投与には、錠剤、カプセル剤、顆粒剤、水性懸濁剤、ゲル剤、スプレー剤、坐剤、膏薬、軟膏などが含まれ得る。
図11は、マシン可読媒体(例えば、マシン可読記憶媒体)から命令を読み取り、本明細書で説明する1またはそれを超える方法のうちのいずれかを実施することができる、いくつかの例示的な実施態様による、マシン1100のコンポーネントを示すブロック図である。具体的には、図11は、コンピュータシステムの例示的な形態のマシン1100の概略図を示し、その中で、マシン1100に本明細書で説明する1またはそれを超える方法のうちのいずれかを実施させるための命令1102(例えば、ソフトウェア、プログラム、アプリケーション、アプレット、アプリ、または他の実行可能コード)を実施させてもよい。したがって、命令1102を使用して、本明細書に記載のモジュールまたはコンポーネントを実施することができる。命令1102は、一般的なプログラムされていないマシン1100を行うようにプログラムされた特定のマシン1100に変換する。代替の実施態様において、マシン1100は、スタンドアロンデバイスとして動作するか、または他のマシンに結合されてもよい(例えば、ネットワーク接続されてもよい)。ネットワーク化された配置では、マシン1100は、サーバ-クライアントネットワーク環境におけるサーバマシンまたはクライアントマシンの能力で、またはピアツーピア(または分散)ネットワーク環境におけるピアマシンとして動作することができる。マシン1100は、限定されないが、サーバコンピュータ、クライアントコンピュータ、パーソナルコンピュータ(PC)、タブレットコンピュータ、ラップトップコンピュータ、ネットブック、セットトップボックス(STB)、携帯情報端末(PDA)、娯楽メディアシステム、携帯電話、スマートフォン、モバイルデバイス、ウェアラブルデバイス(例えば、スマートウォッチ)、スマートホームデバイス(例えば、スマートアプライアンス)、他のスマートデバイス、ウェブアプライアンス、ネットワークルータ、ネットワークスイッチ、ネットワークブリッジ、またはマシン1100によって行われるべき動作を指定する命令1102を順次または他の方法で実行することができる任意のマシンを含み得る。さらに、単一のマシン1100のみが示されているが、「マシン」という用語はまた、本明細書で説明される1またはそれを超える方法のうちいずれかを実施するために命令1102を個別にまたは共同で実行するマシンの集合を含むと解釈されるべきである。
マシン1100は、プロセッサ1104、メモリ/ストレージ1106、およびI/Oコンポーネント1108のコンポーネント1108を含むことができ、これらはバス1110等を介して互いに通信するように構成することができる。例示的な実施態様では、プロセッサ1104(例えば、中央処理装置(CPU)、縮小命令セットコンピューティング(RISC)プロセッサ、複合命令セットコンピューティング(CISC)プロセッサ、グラフィックス処理装置(GPU)、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、無線周波数集積回路(RFIC)、別のプロセッサ、またはそれらの任意の適切な組み合わせ)は、例えば、命令1102を実行し得るプロセッサ1112およびプロセッサ1114を含み得る。「プロセッサ」という用語は、同時に命令1102を実行することができる2またはそれを超える独立したプロセッサ(「コア」と呼ばれることもある)を備えることができるマルチコアプロセッサ1104を含むことを意図している。図111は複数のプロセッサ1104を示しているが、マシン1100は、単一のコアを有する単一のプロセッサ1112プロセッサ1112、複数のコア(例えば、マルチコアプロセッサ)を有する単一のプロセッサ1112プロセッサ1112、単一のコアを有する複数のプロセッサ1112、1114、複数のコアを有する複数のプロセッサ1112、1114、またはそれらの任意の組み合わせを含むことができる。
メモリ/ストレージ1106は、両方ともバス1110等を介してプロセッサ1104にアクセス可能な、メインメモリ1116等のメモリ、または他のメモリストレージ、および記憶ユニット1118を含むことができる。記憶ユニット1118およびメインメモリ1116は、本明細書に記載の1またはそれを超える方法または機能のうちのいずれかを具現化する命令1102を記憶する。命令1102はまた、マシン1100によるその実行中に、メインメモリ1116内、記憶ユニット1118内、プロセッサ1104の少なくとも一方内(例えば、プロセッサのキャッシュメモリ内)、またはそれらの任意の適切な組み合わせ内に、完全にまたは部分的に存在してもよい。したがって、メインメモリ1116、記憶ユニット1118、およびプロセッサ1104のメモリは、マシン可読媒体の例である。
I/Oコンポーネント1108のコンポーネント1108は、入力を受信し、出力を提供し、出力を生成し、情報を送信し、情報を交換し、測定値を取得する等のための多種多様なコンポーネントを含むことができる。特定のマシン1100に含まれる特定のI/Oコンポーネント1108のコンポーネント1108は、マシンの種類に依存する。例えば、携帯電話等の携帯機は、タッチ入力デバイスまたは他のそのような入力機構を含む可能性が高いが、ヘッドレスサーバ機は、そのようなタッチ入力デバイスを含まない可能性が高い。I/Oコンポーネント1108のコンポーネント1108は、図10には示されていない多くの他のコンポーネントを含むことができることが理解されよう。I/Oコンポーネント1108のコンポーネント1108は、単に以下の説明を単純化するために機能に従ってグループ化され、グループ化は決して限定的ではない。様々な例示的な実施態様において、I/Oコンポーネント1108のコンポーネント1108は、ユーザ出力コンポーネント1120およびユーザ入力コンポーネント1122を含むことができる。ユーザ出力コンポーネント1120は、視覚コンポーネント(例えば、プラズマディスプレイパネル(PDP)、発光ダイオード(LED)ディスプレイ、液晶ディスプレイ(LCD)、プロジェクタ、または陰極線管(CRT)等のディスプレイ)、音響コンポーネント(例えば、スピーカ)、触覚コンポーネント(例えば、振動モータ、抵抗機構)、他の信号発生器等を含むことができる。ユーザ入力コンポーネント1122は、英数字入力コンポーネント(例えば、キーボード、英数字入力を受け取るように構成されたタッチスクリーン、光キーボード(photo-optical)、または他の英数字入力コンポーネント)、ポイントベースの入力コンポーネント(例えば、マウス、タッチパッド、トラックボール、ジョイスティック、モーションセンサ、または他のポインティング機器)、触覚入力コンポーネント(例えば、物理的ボタン、タッチもしくはタッチジェスチャの位置もしくは力を提供するタッチスクリーン、または他の触知入力コンポーネント)、音声入力コンポーネント(例えば、マイクロフォン)等を含むことができる。
更なる例示的な実施態様において、I/Oコンポーネント1108のコンポーネント1108は、バイオメトリクスコンポーネント1124、運動コンポーネント1126、環境コンポーネント1128、または位置コンポーネント1130を含むことができる。例えば、バイオメトリクスコンポーネント1124は、表情の検出(例えば、手の表情、顔の表情、声の表情、身体のジェスチャ、または視線追跡)、生体信号の測定(例えば、血圧、心拍数、体温、発汗、または脳波)、人物の識別(例えば、音声識別、網膜識別、顔識別、指紋識別、または脳波ベースの識別)等を行うための成分を含んでもよい。運動コンポーネント1126は、加速度センサコンポーネント(例えば、加速度計)、重力センサコンポーネント、回転センサコンポーネント(例えば、ジャイロスコープ)等を含むことができる。環境コンポーネント1128は、例えば、照度センサコンポーネント(例えば、光度計)、温度センサコンポーネント(例えば、周囲温度を検出する1またはそれを超える温度計)、湿度センサコンポーネント、圧力センサコンポーネント(例えば、気圧計)、音響センサコンポーネント(例えば、バックグラウンドノイズを検出する1またはそれを超えるマイクロフォン)、近接センサコンポーネント(例えば、近くの物体を検出する赤外線センサ)、ガスセンサ(例えば、安全のために有害ガスの濃度を検出するため、または大気中の汚染物質を測定するためのガス検出センサ)、または周囲の物理的環境に対応する指示、測定値、もしくは信号を提供することができる他のコンポーネントを含むことができる。位置コンポーネント1130は、位置センサコンポーネント(例えば、GPS受信機コンポーネント)、高度センサコンポーネント(例えば、高度を導出することができる空気圧を検出する高度計または気圧計)、方位センサコンポーネント(例えば、磁力計)等を含むことができる。
通信は、多種多様な技術を使用して実装され得る。I/Oコンポーネント1108のコンポーネント1108は、マシン1100をネットワーク1134またはデバイス1136に結合するように動作可能な通信コンポーネント1132を含むことができる。例えば、通信コンポーネント1132は、ネットワーク1134とインターフェースするためのネットワークインターフェースコンポーネントまたは他の適切なデバイスを含むことができる。更なる例では、通信コンポーネント1132は、有線通信コンポーネント、無線通信コンポーネント、セルラ通信コンポーネント、近距離通信(NFC)コンポーネント、Bluetooth(登録商標)コンポーネント(例えば、Bluetooth(登録商標) Low Energy)、Wi-Fi(登録商標)コンポーネント、および他のモダリティを介した通信を提供するための他の通信コンポーネントを含み得る。デバイス1136は、別のマシン1100または多種多様な周辺デバイス(例えば、USBを介して結合された周辺デバイス)のいずれかであってもよい。
さらに、通信コンポーネント1132は、識別子を検出し得るか、または識別子を検出するように動作可能なコンポーネントを含み得る。例えば、通信コンポーネント1132は、無線周波数識別(RFID)タグリーダコンポーネント、NFCスマートタグ検出コンポーネント、光学リーダコンポーネント(例えば、ユニバーサル製品コード(UPC)バーコード等の一次元バーコード、クイックレスポンス(QR)コード、Aztecコード、データマトリックス、データグリフ、MaxiCode、PDF417、ウルトラコード、UCC RSS-2Dバーコード等の多次元バーコード、および他の光学コードを検出するための光学センサ)、または音響検出コンポーネント(例えば、タグ付けされたオーディオ信号を識別するためのマイクロフォン)を含むことができる。さらに、インターネットプロトコル(IP)ジオロケーションによる位置、Wi-Fi(登録商標)信号三角測量による位置、特定の位置を示し得るNFCビーコン信号の検出による位置等、様々な情報が通信コンポーネント1132を介して導出され得る。
本明細書で使用される場合、「コンポーネント」は、特定の処理または制御機能のパーティションまたはモジュール化を提供する機能またはサブルーチン呼び出し、分岐点、API、または他の技術によって定義された境界を有するデバイス、物理的実体、または論理を指す。コンポーネントは、マシンプロセスを実施するために、それらのインターフェースを介して他のコンポーネントと組み合わせることができる。コンポーネントは、他のコンポーネントおよび関連する機能の特定の機能を通常実施するプログラムの一部と共に使用するように設計されたパッケージ化された機能ハードウェアユニットであってもよい。コンポーネントは、ソフトウェアコンポーネント(例えば、マシン可読媒体上で具現化されたコード)またはハードウェアコンポーネントのいずれかを構成し得る。「ハードウェアコンポーネント」は、特定の動作を実施することができる有形の単位であり、特定の物理的方法で構成または配置され得る。様々な例示的な実施態様において1またはそれを超えるコンピュータシステム(例えば、独立型コンピュータシステム、クライアントコンピュータシステム、またはサーバコンピュータシステム)またはコンピュータシステム(例えば、プロセッサまたはプロセッサのグループ)の1またはそれを超えるハードウェアコンポーネントは、本明細書に記載の特定の動作を実施するように動作するハードウェアコンポーネントとしてソフトウェア(例えば、アプリケーションまたはアプリケーション部分)によって構成されてもよい。
ハードウェアコンポーネントはまた、マシン的に、電子的に、またはそれらの任意の適切な組み合わせで実装されてもよい。例えば、ハードウェアコンポーネントは、特定の動作を実施するように永続的に構成された専用の回路または論理を含むことができる。ハードウェアコンポーネントは、フィールドプログラマブルゲートアレイ(FPGA)またはASIC等の専用プロセッサであってもよい。ハードウェアコンポーネントはまた、特定の動作を実施するようにソフトウェアによって一時的に構成されるプログラマブル論理または回路を含むことができる。例えば、ハードウェアコンポーネントは、汎用プロセッサ1104または他のプログラマブルプロセッサによって実行されるソフトウェアを含むことができる。そのようなソフトウェアによって構成されると、ハードウェアコンポーネントは、構成された機能を実施するように独自に調整された特定のマシン(またはマシン1100の特定のコンポーネント)になり、もはや汎用プロセッサ1104ではない。ハードウェアコンポーネントをマシン的に、専用の恒久的に構成された回路で、または一時的に構成された回路(例えば、ソフトウェアによって構成される)で実装する決定は、コストおよび時間の考慮によって決定され得ることが理解されよう。したがって、「ハードウェアコンポーネント」(または「ハードウェア実装コンポーネント」)という語句は、特定の方法で動作するか、または本明細書に記載の特定の動作を実施するように物理的に構築されるか、恒久的に構成される(例えば、ハードワイヤード)か、または一時的に構成される(例えば、プログラムされている)エンティティである有形のエンティティを包含すると理解されるべきである。ハードウェアコンポーネントが一時的に構成される実施態様(例えば、プログラムされている)を考慮すると、ハードウェアコンポーネントの各々は、いかなる時でも構成またはインスタンス化される必要はない。例えば、ハードウェアコンポーネントが、専用プロセッサになるようにソフトウェアによって構成された汎用プロセッサ1104を含む場合、汎用プロセッサ1104は、異なる時点でそれぞれ異なる専用プロセッサ(例えば、異なるハードウェアコンポーネントを含む)として構成されてもよい。したがって、ソフトウェアは、例えば、ある時点で特定のハードウェアコンポーネントを構成し、異なる時点で異なるハードウェアコンポーネントを構成するように、特定のプロセッサ1112、プロセッサ1112、1114、またはプロセッサ1104を構成する。
ハードウェアコンポーネントは、他のハードウェアコンポーネントに情報を提供し、他のハードウェアコンポーネントから情報を受信することができる。したがって、記載されたハードウェアコンポーネントは、通信可能に結合されていると見なされてもよい。複数のハードウェアコンポーネントが同時に存在する場合、通信は、ハードウェアコンポーネントのうちの2またはそれを超えるものの間の信号伝送(例えば、適切な回路およびバスを介して)によって達成され得る。複数のハードウェアコンポーネントが異なる時間に構成またはインスタンス化される実施態様では、そのようなハードウェアコンポーネント間の通信は、例えば、複数のハードウェアコンポーネントがアクセスするメモリ構造内の情報の記憶および検索によって達成され得る。例えば、1つのハードウェアコンポーネントは、動作を実施し、その動作の出力を、それが通信可能に結合されているメモリデバイスに記憶することができる。その後、更なるハードウェアコンポーネントは、記憶された出力を取り出して処理するためにメモリデバイスにアクセスすることができる。
ハードウェアコンポーネントはまた、入力または出力デバイスとの通信を開始することができ、リソース(例えば、情報の集合)上で動作することができる。本明細書に記載された例示的な方法の様々な動作は、関連する動作を実施するように一時的に(例えば、ソフトウェアによって)または恒久的に構成された1またはそれを超えるプロセッサ1104によって、少なくとも部分的に実施され得る。一時的にまたは恒久的に構成されるかにかかわらず、そのようなプロセッサ1104は、本明細書に記載の1またはそれを超える動作または機能を実施するように動作するプロセッサ実装コンポーネントを構成し得る。本明細書で使用される場合、「プロセッサ実装コンポーネント」は、1またはそれを超えるプロセッサ1104を使用して実装されるハードウェアコンポーネントを指す。同様に、本明細書に記載の方法は、少なくとも部分的にプロセッサ実装されてもよく、特定のプロセッサ1112、プロセッサ1112、1114、またはプロセッサ1104は、ハードウェアの一例である。例えば、方法の動作の少なくとも一部は、1またはそれを超えるプロセッサ1104またはプロセッサ実装コンポーネントによって実施されてもよい。さらに、1またはそれを超えるプロセッサ1104は、「クラウドコンピューティング」環境または「サービスとしてのソフトウェア」(SaaS)として関連動作の実施をサポートするように動作してもよい。例えば、動作の少なくとも一部は、(プロセッサ1104を含むマシン1000の例として)コンピュータのグループによって実施されてもよく、これらの動作は、ネットワーク1134(例えば、インターネット)および1またはそれを超える適切なインターフェース(例えば、API)を介してアクセス可能である。特定の動作の実施は、単一のマシン1100内に存在するだけでなく、いくつかのマシンにわたって展開されたプロセッサ間で分散されてもよい。いくつかの例示的な実施態様において、プロセッサ1104またはプロセッサ実装コンポーネントは、単一の地理的位置(例えば、家庭環境、オフィス環境、またはサーバファーム内)に配置されてもよい。他の例示的な実装において、プロセッサ1104またはプロセッサ実装コンポーネントは、複数の地理的位置にわたって分散されてもよい。
図12は、本明細書で説明される様々なハードウェアアーキテクチャと共に使用され得る例示的なソフトウェアアーキテクチャ1202を含むシステム1200を示すブロック図である。図12は、ソフトウェアアーキテクチャの非限定的な例であり、本明細書に記載の機能を容易にするために多くの他のアーキテクチャが実装され得ることが理解されよう。ソフトウェアアーキテクチャ1202は、とりわけ、プロセッサ1104、メモリ/ストレージ1106、および入出力(I/O)コンポーネント1108を含む図11のマシン1100等のハードウェア上で実行し得る。代表的なハードウェアレイヤ1204が示されており、例えば図11のマシン1100を表すことができる。代表的なハードウェアレイヤ1204は、関連する実行可能命令1208を有する処理ユニット1206を含む。実行可能命令1208は、本明細書に記載の方法、コンポーネント等の実装を含む、ソフトウェアアーキテクチャ1202の実行可能命令を表す。ハードウェアレイヤ1204はまた、実行可能命令1208も有するメモリまたは記憶モジュールメモリ/記憶装置1210の少なくとも一方を含む。ハードウェアレイヤ1204はまた、他のハードウェア1212を備えてもよい。
図12の例示的なアーキテクチャでは、ソフトウェアアーキテクチャ1202は、各レイヤが特定の機能を提供するレイヤのスタックとして概念化することができる。例えば、ソフトウェアアーキテクチャ1202は、オペレーティングシステム1214、ライブラリ1216、フレームワーク/ミドルウェア1218、アプリケーション1220、およびプレゼンテーションレイヤ1222等のレイヤを含むことができる。動作上、アプリケーション1220またはレイヤ内の他のコンポーネントは、ソフトウェアスタックを介してAPI呼び出し1224を呼び出し、API呼び出し1224に応答してメッセージ1226を受信することができる。図示されたレイヤは本質的に代表的なものであり、全てのソフトウェアアーキテクチャが全てのレイヤを有するわけではない。例えば、一部のモバイルまたは専用オペレーティングシステムはフレームワーク/ミドルウェア1218を提供しない場合があるが、他のものはそのようなレイヤを提供することができる。他のソフトウェアアーキテクチャは、追加のレイヤまたは異なるレイヤを含んでもよい。
オペレーティングシステム1214は、ハードウェアリソースを管理し、共通サービスを提供することができる。オペレーティングシステム1214は、例えば、カーネル1228、サービス1230、およびドライバ1232を含むことができる。カーネル1228は、ハードウェアと他のソフトウェアレイヤとの間の抽象化レイヤとして機能することができる。例えば、カーネル1228は、メモリ管理、プロセッサ管理(例えば、スケジューリング)、コンポーネント管理、ネットワーキング、セキュリティ設定等を担当することができる。サービス1230は、他のソフトウェアレイヤに他の共通サービスを提供することができる。ドライバ1232は、基礎となるハードウェアの制御またはインターフェースを担当する。例えば、ドライバ1232は、ハードウェア構成に応じて、ディスプレイドライバ、カメラドライバ、Bluetooth(登録商標)ドライバ、フラッシュメモリドライバ、シリアル通信ドライバ(例えば、ユニバーサルシリアルバス(USB)ドライバ)、Wi-Fi(登録商標)ドライバ、オーディオドライバ、電力管理ドライバ等を含む。
ライブラリ1216は、アプリケーション1220、他のコンポーネント、またはレイヤのうちの少なくとも1つによって使用される共通のインフラストラクチャを提供する。ライブラリ1216は、他のソフトウェアコンポーネントが、基礎となるオペレーティングシステム1214の機能(例えば、カーネル1228、サービス1230、ドライバ1232)と直接インターフェースするよりも容易な方法でタスクを実施することを可能にする機能を提供する。ライブラリ1216は、メモリ割り当て関数、文字列操作関数、数学関数等の関数を提供することができるシステムライブラリ1234(例えば、C標準ライブラリ)を含むことができる。さらに、ライブラリ1216は、メディアライブラリ(例えば、MPEG4、H.264、MP3、AAC、AMR、JPG、PNG等の様々なメディアフォーマットの提示および操作をサポートするライブラリ)、グラフィックスライブラリ(例えば、ディスプレイ上のグラフィックコンテンツにおいて2次元および3次元をレンダリングするために使用され得るOpenGLフレームワーク)、データベースライブラリ(例えば、様々なリレーショナルデータベース機能を提供することができるSQLite)、ウェブライブラリ(例えば、ウェブブラウジング機能を提供することができるWebKit)等のAPIライブラリ1236を含むことができる。ライブラリ1216はまた、アプリケーション1220および他のソフトウェアコンポーネント/モジュールに多くの他のAPIを提供するための多種多様な他のライブラリ1238を含むことができる。
フレームワーク/ミドルウェア1218(ミドルウェアとも呼ばれるは、アプリケーション1220または他のソフトウェアコンポーネント/モジュールによって使用され得る高レベルの共通インフラストラクチャを提供する。例えば、フレームワーク/ミドルウェア1218は、様々なグラフィカルユーザインターフェース機能、高レベルリソース管理、高レベルロケーションサービス等を提供することができる。フレームワーク/ミドルウェア1218は、アプリケーション1220または他のソフトウェアコンポーネント/モジュールによって利用され得る広範囲の他のAPIを提供することができ、その一部は特定のオペレーティングシステム1214またはプラットフォームに固有であり得る。
アプリケーション1220は、内蔵アプリケーション1240およびサードパーティアプリケーション1242を含む。代表的な内蔵アプリケーション1240の例は、連絡先アプリケーション、ブラウザアプリケーション、書籍リーダアプリケーション、ロケーションアプリケーション、メディアアプリケーション、メッセージングアプリケーション、またはゲームアプリケーションを含むことができるが、これらに限定されない。サードパーティアプリケーション1242は、特定のプラットフォームのベンダ以外のエンティティによってANDROID(登録商標)またはIOS(商標)ソフトウェア開発キット(SDK)を使用して開発されたアプリケーションを含んでもよく、IOS(商標)、ANDROID(登録商標)、WINDOWS(登録商標)Phone、または他のモバイルオペレーティングシステム等のモバイルオペレーティングシステム上で実行されるモバイルソフトウェアであってもよい。サードパーティアプリケーション1242は、本明細書に記載された機能を容易にするために、モバイル・オペレーティング・システム(オペレーティングシステム1214等)によって提供されるAPI呼び出し1224を呼び出すことができる。
アプリケーション1220は、内蔵オペレーティングシステム機能(例えば、カーネル1228、サービス1230、ドライバ1232)、ライブラリ1216、およびフレームワーク/ミドルウェア1218を使用して、システムのユーザと対話するUIを作成することができる。代替的または追加的に、いくつかのシステムでは、ユーザとの対話は、プレゼンテーションレイヤ1222等のプレゼンテーションレイヤを介して行われてもよい。これらのシステムでは、アプリケーション/コンポーネント「論理」を、ユーザと対話するアプリケーション/コンポーネントの態様から分離することができる。
本明細書で説明されるプロセスの少なくともいくつかを、プロセスの動作が1またはそれを超えるコンピュータシステムの機能コンポーネントによって部分的または全体的に実施され得るように、1またはそれを超えるプロセッサによって実施するためのコンピュータ可読命令で具現化することができる。したがって、本明細書で説明されるコンピュータ実装プロセスは、いくつかの状況では、例として、それを参照している。しかしながら、他の実施態様において本明細書に記載のコンピュータ実装プロセスの動作の少なくとも一部は、様々な他のハードウェア構成に展開することができる。したがって、本明細書に記載のコンピュータ実装プロセスは、図11および図12に関して説明したシステムおよび構成に限定されることを意図するものではなく、全体的にまたは部分的に、1またはそれを超える追加のシステムおよび/またはコンポーネントによって実装することができる。
本明細書に記載のフローチャートは、動作を順次プロセスとして示すことができるが、動作の多くは、並行してまたは同時に実施することができる。さらに、動作の順序を並べ替えることができる。プロセスは、その動作が完了すると終了する。プロセスは、方法、手順、アルゴリズム等に対応することができる。方法の動作は、全体的または部分的に実施されてもよく、他の方法における動作の一部または全部と併せて実施されてもよく、本明細書に記載のシステム等の任意の数の異なるシステム、またはシステムのいずれかに含まれるプロセッサ等のその任意の部分によって実施されてもよい。
実施例
実施例1
標的化ゲノム領域およびオフターゲットゲノム領域の両方の分子カバレッジを同時に正規化するために確率モデルを利用して、系統的カバレッジバイアスを緩和した。モデルは、100kを超える臨床無細胞DNA(cfDNA)患者試料(Guardant Health、カリフォルニア州)の大規模データベースからのシーケンシングデータによって知らされた。
一貫したコピー数のセグメント化された領域を、循環バイナリセグメント化を利用して同定した。各セグメント内の生殖系列SNPのオン/オフターゲット領域のカバレッジおよび対立遺伝子頻度を組み込んだ確率モデルを、EMアルゴリズムを使用して当てはめた。複合確率モデルは、遺伝子レベルの体細胞性CNA、遺伝子の機能喪失またはゲノムワイド不安定性/LoHの予測を可能にする。
既存のデータで観察されたカバレッジおよび突然変異体対立遺伝子割合(MAF)変動性を使用して、サイズ40Mbの領域の欠失および増幅を有するデータセットをシミュレートした。既存のデータを、液体生検の結果から得た。シミュレーション研究は、「オン+オフターゲット」モデルを「オンターゲット」のみのモデル性能と比較するために、低レベルの増幅および欠(1~4コピー)の検出における感度を比較した。図13Aは、40 Mbサイズ領域に対するオンターゲットデータとオフターゲットデータの組み合わせの使用に関してのみ、オンターゲットデータを使用して増幅が起こる場合にコピー数が「3」または欠失が起こった場合に「1」である状況でのヘテロ接合性の喪失についての検出限界(LoD)の差を示す。オンターゲットデータのみの使用に関してオンターゲットデータとオフターゲットデータの両方が使用される場合、これらの状況で感度を少なくとも約20%改善することができる。
図13Bは、40Mbサイズ領域に対するオンターゲットデータとオフターゲットデータの組み合わせの使用に関連してのみオンターゲットデータを使用して、増幅が起こるときにコピー数が「4」であるか、ホモ接合性欠失について「0」コピーである状況でのヘテロ接合性の喪失についてのLoDの差を示す。オンターゲットデータのみの使用に関してオンターゲットデータとオフターゲットデータの両方が使用される場合、これらの状況で感度を少なくとも約10%改善することができる。40Mbサイズ領域についてのLOH/3コピーまたはhomdel/4コピーの検出におけるLoD。注:コピー数変化の検出における感度は、腫瘍細胞コピー数だけでなく、変化したゲノム領域のサイズの関数であり、ターゲティングパネルにあまり依存しなくなる。
実施例2
図14は、種々のタイプの癌についての予測される腫瘍割合に関する最大突然変異体対立遺伝子割合(MAF)のプロットを示す。予測腫瘍割合は、MLEモデルのパラメータであるゲノムセグメントの組織コピー数を用いた最尤推定(MLE)モデルを使用する本明細書に記載の技術に基づく。高い一致は、ドライバが頻繁にパネルに含まれる癌型で観察された。CRC試料(R=0.75)、胃癌(R=0.63)および膀胱癌(R=0.6)は、ドライバ突然変異がターゲティングパネルに示されていない場合のcfDNAにおける腫瘍脱落レベルをより良好に推定するためのこのメトリクスの使用を示唆する。分析には、様々な癌型の6,000個超の癌試料が含まれ、最も高い対立遺伝子割合を有する体細胞性コールは、所与の癌型に対する既知のドライバ突然変異である。
実施例3
図15は、既存の技術を使用したヒト白血球抗原(HLA)に関連する6番染色体のゲノム領域における観察された欠失を示す。HLA領域における観察された欠失は、5Mb~60Mbの間で変動する。
本発明者らは、HLA LOHを特徴付けることがネオアンチゲン予測を改良し、ネオアンチゲンを標的とする耐性機構および免疫療法アプローチの理解に影響を及ぼし得ることを観察した。ヒト白血球抗原におけるヘテロ接合性の喪失の予測は、GuardantOMNI(登録商標)RUOで処理した異なる癌型の15,618人の癌患者由来の試料に本明細書に記載のモデリングアプローチを適用することによって行った。
図16は、HLA領域におけるヘテロ接合性の喪失(LoH)を有すると予測される患者について観察された6番染色体のカバレッジの例を示す。
図17は、様々な癌型におけるHLA LoHの有病率を示す。膀胱癌、前立腺癌、NSCLCおよびHNSCにおけるHLAにおけるLoHの高い有病率(15%超)が観察され、HLA LOHが免疫療法の有効性を低下させるいくつかの癌型の共通の特徴であるという以前の研究と一致している。
実施例4
図18は、MAFの逆数を決定し、次いでLog base 2変換を適用することによって改変されるいくつかの異なるゲノム位置でのヘテロ接合一塩基多型(SNP)の突然変異体対立遺伝子割合の例を示す。特に、1800は、参照配列のそれぞれのゲノム位置におけるいくつかのSNPについての突然変異体対立遺伝子割合を示す。図18に示されるSNPの少なくとも一部分は、参照配列の標的領域に対応し得る。ヘテロ接合SNPは、対立遺伝子平衡ベースラインを下回るように最初に調整される。すなわち、MAF値がベースライン値を下回るとき、それはその元の値として保持され、MAFがベースライン値を上回る場合、(1-MAF)×(ベースライン/0.5)となるように下方に反転される。このプロセスの結果を1802に示す。次いで、調整されたMAFをlog2変換し、0.5の元の対立遺伝子平衡MAFがここで0になるように1だけ上方にシフトさせる。ログベース2変換の結果を1804に示す。
図19は、図18に示す変換されたSNP MAFデータを使用した、コピー数(シアン等の第1の色のセグメントとして示されている)に基づくセグメント化プロセスの改良例を示す。セグメント化プロセス(青色等の第2の色のセグメントとして示されている)の改良は、参照配列のセグメントに対するコピー数の推定の精度の向上をもたらし得る。例えば、1900は、カバレッジデータのみを使用する循環バイナリセグメント化(CBS)プロセスの第1の実施態様の結果を示す。いくつかの状況では、CBSプロセスの結果は、カバレッジデータのみに基づいてCBSプロセスを使用して決定されたセグメントに基づいてコピー数および/または腫瘍割合を決定するときに、ある量の不正確さをもたらし得るデータノイズを生成し得る。1902は、1900に示すCBSプロセスの実施態様の結果に適用することができる図18の1804に示すログベース2変換の結果を示す。カバレッジデータのみのCBSプロセス、また1902に示すデータからの結果を入力として使用してCBSプロセスの追加の実施態様を実施することによって、CBSプロセスを使用したセグメント化の精度を向上させることができる。
図20は、様々な遺伝子の実際のコピー数、ならびにカバレッジデータのみに基づくCBSプロセスの実施態様に従ってセグメント化を使用して推定された遺伝子のコピー数と、図18および図19に示される改良プロセスを使用して推定された遺伝子のコピー数との間の差を示す表を含む。

Claims (69)

  1. 方法であって、
    それぞれが1またはそれを超えるプロセッサおよびメモリを有する1またはそれを超えるコンピューティングデバイスを含むコンピューティングシステムによって、試料に含まれるポリヌクレオチド分子に関する配列表示を示す配列データを取得することと、
    前記コンピューティングシステムによって、参照ヒトゲノムの一部分に関して少なくとも閾値量の相同性を有する1またはそれを超える前記配列表示を決定するアラインメントプロセスを実施することによって、アラインメントされた配列表示のセットを生成することと、
    前記コンピューティングシステムによって前記参照ヒトゲノムの標的領域に対応しないアラインメントされた配列表示の数の第1の部分を同定することによってオフターゲット配列表示のセットを決定することと、
    前記コンピューティングシステムによって前記参照ヒトゲノムの前記標的領域に対応する前記アラインメントされた配列表示の数の第2の部分を同定することによって、オンターゲット配列表示のセットを決定することと、
    前記コンピューティングシステムによって前記参照ヒトゲノムの第1のセグメントを決定することであって、前記第1のセグメントが前記標的領域を含まないことと、
    前記コンピューティングシステムによって、前記個々の第1のセグメントに対応するオフターゲット配列表示のセットのそれぞれのサブセットに基づいて個々の第1のセグメントに対する第1の定量的尺度を決定することと、
    前記コンピューティングシステムによって、前記個々の第1のセグメントの追加の定量的尺度に関して前記個々の第1のセグメントの第1の正規化された定量的尺度を決定することと、
    前記コンピューティングシステムによって、前記個々の第1のセグメントの参照定量的尺度に対して個々の第1の正規化された定量的尺度を調整することによって、前記個々の第1のセグメントの第2の正規化された定量的尺度を決定することと、
    前記コンピューティングシステムによって、前記参照ヒトゲノムの第2のセグメントを決定することであって、個々の第2のセグメントが、前記個々の第1のセグメントよりも多数のヌクレオチドを含み、複数の前記個々の第1のセグメントを含むことと、
    前記コンピューティングシステムによって、前記個々の第2のセグメントに含まれる前記それぞれの複数の個々の第1のセグメントの前記第1の正規化された定量的尺度および前記第2の正規化された定量的尺度に基づいて、個々の第2のセグメントに対する第2の定量的尺度を決定することと、
    前記コンピューティングシステムによって、前記個々の第2のセグメントに対応する個々の第2の定量的尺度に基づいて、前記個々の第2のセグメントに関する腫瘍細胞のコピー数の推定値を決定することと、を含む、方法。
  2. 前記第1の定量的尺度が、前記個々の第1のセグメントに対応する前記試料に含まれる前記ポリヌクレオチド分子のそれぞれの数に基づいて決定される、請求項1に記載の方法。
  3. 前記第1の定量的尺度が、前記個々の第1のセグメントに対応する前記試料に由来する配列決定リードのそれぞれの数に基づいて決定される、請求項1に記載の方法。
  4. 前記追加の定量的尺度が、前記第1のセグメントに対する配列表示の中央数に対応する、請求項1~3のいずれか1項に記載の方法。
  5. 前記第2のセグメントを決定する前に、
    前記コンピューティングシステムによって、個々の第1のセグメントに対応する前記オフターゲット配列表示のセットの一部分に含まれるグアニンヌクレオチドおよびシトシンヌクレオチドの数を示すグアニンシトシン(GC)含有量を決定することと、
    前記コンピューティングシステムによって、前記個々の第1のセグメント内のGCコンテンツの複数のパーティションからGC含有量のパーティションに対応する配列表示の頻度を決定することであって、GC含有量の前記複数のパーティションのGC含有量の各パーティションは、GC含有量の値の異なる範囲に対応することと、
    前記コンピューティングシステムによって、前記個々の第1のセグメント内のGC含有量の前記複数のパーティションに対応する配列表示の頻度に基づいて、前記個々の第1のセグメントに対する予想される定量的尺度を決定することと、
    前記コンピューティングシステムによって、前記個々の第1のセグメントの前記予想される定量的尺度に基づいて、前記個々の第1のセグメントのGC正規化された定量的尺度を決定することと、を含む、請求項1~4のいずれか1項に記載の方法。
  6. 前記第2のセグメントを決定する前に、
    前記コンピューティングシステムによって、個々の第1のセグメントにおける各配列表示についてのマッピング可能性スコアを決定することであって、前記マッピング可能性スコアが、前記ヒト参照ゲノムの複数の部分間の相同性の量を示し、前記ヒト参照ゲノムの前記複数の部分のうちの前記ヒト参照ゲノムの各部分が、前記ヒト参照ゲノムの前記複数の部分のうちの前記ヒト参照ゲノムの追加の部分と少なくとも閾値量の相同性を有することと、
    前記コンピューティングシステムによって前記個々の第1のセグメントにおけるマッピング可能性スコアの複数のパーティションからのマッピング可能性スコアのパーティションに対応する配列表示の頻度を決定することであって、マッピング可能性スコアの前記複数のパーティションのマッピング可能性スコアの各パーティションが、マッピング可能性スコアの値の異なる範囲に対応することと、
    前記コンピューティングシステムによって、前記個々の第1のセグメント内のマッピング可能性スコアの前記複数のパーティションに対応する配列表示の頻度に基づいて、前記個々の第1のセグメントに対する予想される定量的尺度を決定することと、
    前記コンピューティングシステムによって、前記個々の第1のセグメントの前記予想される定量的尺度に基づいて、前記個々の第1のセグメントのマッピング可能性スコア-正規化定量的尺度を決定することと、を含む、請求項5に記載の方法。
  7. 前記コンピューティングシステムによって個々の第1のセグメントに対応する配列表示が、標的領域と少なくとも閾値量の相同性を有すると決定することと、
    前記コンピューティングシステムによって、前記個々の第1のセグメントの第1の定量的尺度が、前記個々の第2のカバレッジメトリクスを決定することから除外されると決定することと、を含む、請求項1に記載の方法。
  8. 前記コンピューティングシステムによって、訓練試料から得られた追加のポリヌクレオチド分子の追加の配列表示を示す訓練配列データを取得することであって、前記訓練試料が、コピー数の変化が検出されない個体から得られる、訓練試料から得られた追加のポリヌクレオチド分子の追加の配列表示を示すことと、
    前記コンピューティングシステムによって、前記参照ヒトゲノムの一部分に関して少なくとも閾値量の相同性を有する1またはそれを超える前記追加の配列表示を決定する追加のアラインメントプロセスを実施することによって、いくつかのアラインメントされた参照配列表示を作成することと、
    前記コンピューティングシステムによって前記参照ヒトゲノムの前記標的領域に対応しない追加のアラインメントされた配列表示の数の部分を同定することによってオフターゲット配列表示の追加のセットを決定することと、
    前記コンピューティングシステムによって、前記個々の第1のセグメントに含まれる前記オフターゲット配列表示の前記追加のセットの数に基づいて前記個々の第1のセグメントに対する個々の参照定量的尺度を決定することと、を含む、請求項1~7のいずれか1項に記載の方法。
  9. 前記コンピューティングシステムによって、個々の標的領域に対応するオンターゲット配列表示の前記セットに含まれる前記オンターゲット配列表示のそれぞれの数を決定することと、
    前記コンピューティングシステムによって、前記個々の標的領域に対応する前記オンターゲット配列表示のそれぞれの数に基づいて、前記個々の標的領域に対する個々の更なる定量的尺度を決定することと、を含み、
    前記試料に関連する腫瘍細胞の前記コピー数の前記推定値が、前記個々の更なる定量的尺度に基づく、請求項1~8のいずれか1項に記載の方法。
  10. 前記参照ヒトゲノムの前記第2のセグメントが、前記個々の標的領域に対応する前記個々の追加の定量的尺度に基づいて決定される、請求項9に記載の方法。
  11. 前記第1の定量的尺度が、前記個々の第1のセグメントの第1のサイズ分布メトリクスを含み、前記第1の正規化された定量的尺度または前記第2の正規化された定量的尺度のうちの少なくとも1つが、正規化されたサイズ分布メトリクスに対応し、前記参照定量的尺度が、参照サイズ分布メトリクスであり、前記第2の定量的尺度が、前記個々の第2のセグメントの第2のサイズ分布メトリクスを含む、請求項1~10のいずれか1項に記載の方法。
  12. 前記コンピューティングシステムによって、前記個々の第1のセグメントの配列表示のための個々のサイズ分布メトリクスを生成するために、前記個々の第1のセグメントに対応する個々の配列表示に含まれるヌクレオチドの数を決定することであって、前記サイズ分布が、配列表示のサイズのそれぞれの範囲にそれぞれ対応する複数のパーティションを含み、個々の第1のセグメントについての個々のサイズ分布メトリクスが、前記複数のパーティションの各パーティションに対応する、前記第1のセグメントに含まれるオフターゲット配列表示のセットの数を示す、前記個々の第1のセグメントに対応することと、
    前記コンピューティングシステムによって、参照サイズ分布メトリクスに関する前記個々の第1のサイズ分布メトリクスに従って前記個々の第1のセグメントの前記正規化されたサイズ分布メトリクスを決定することと、
    前記コンピューティングシステムによって、前記個々の第2のセグメントに含まれる前記それぞれの複数の個々の第1のセグメントの前記正規化されたサイズ分布メトリクスに基づいて前記個々の第2のセグメントについての前記第2のサイズ分布メトリクスを決定することと、
    前記コンピューティングシステムによって、前記個々の第2のセグメントに対応する前記個々の第2のサイズ分布メトリクスに基づいて、前記個々の第2のセグメントに関する腫瘍細胞の前記コピー数の追加の推定値を決定することと、を含む、請求項11に記載の方法。
  13. 前記第1の定量的尺度が、個々の第1のセグメントの第1のカバレッジメトリクスを含み、前記第1の正規化された定量的尺度が、第1の正規化されたカバレッジメトリクスに対応し、前記第2の正規化された定量的尺度が、第2の正規化されたカバレッジメトリクスに対応し、前記参照定量的尺度が、参照カバレッジメトリクスであり、前記第2の定量的尺度が、前記個々の第2のセグメントの第2のカバレッジメトリクスを含む、請求項1~12のいずれか1項に記載の方法。
  14. 前記コンピューティングシステムによって、前記個々の第1のセグメントの前記個々の第1のカバレッジメトリクスを生成するために、個々の第1のセグメントに対応する前記配列表示の数を決定することと、
    前記コンピューティングシステムによって、前記個々の第1のカバレッジメトリクスに従って前記個々の第1のセグメントの前記第1の正規化されたカバレッジメトリクスを決定することと、
    前記コンピューティングシステムによって、前記参照カバレッジメトリクスに関する、前記個々の第1のカバレッジメトリクスに従って前記個々の第1のセグメントの前記第2の正規化されたカバレッジメトリクスを決定することと、
    前記コンピューティングシステムによって、前記第1の正規化されたカバレッジメトリクスおよび前記第2の正規化されたカバレッジメトリクスに基づいて前記個々の第2のセグメントの前記第2のカバレッジメトリクスを決定することと、を含み、
    個々の第2のセグメントに関する腫瘍細胞の前記コピー数の前記推定値が、前記個々の第2のセグメントに対応する前記個々の第2のカバレッジメトリクスに基づく、請求項13に記載の方法。
  15. 前記定量的尺度が、個々の第1のセグメントの第1のサイズ分布メトリクスおよび第1のカバレッジメトリクスを含み、
    前記第1の正規化された定量的尺度および前記第2の正規化された定量的尺度が、正規化されたサイズ分布メトリクスまたは正規化されたカバレッジメトリクスのうちの少なくとも1つに対応し、
    前記参照定量的尺度が、参照サイズ分布メトリクスおよび参照カバレッジメトリクスを含み、
    前記第2の定量的尺度が、前記個々の第2のセグメントの第2のサイズ分布メトリクスおよび第2のカバレッジメトリクスを含む、請求項1~14のいずれか1項に記載の方法。
  16. 前記コンピューティングシステムによって、前記個々の第1のセグメントに対応する個々の配列表示に含まれるヌクレオチドの数を決定することによって、個々の配列表示のサイズを決定することと、
    前記コンピューティングシステムによって、前記個々の配列表示の前記それぞれのサイズに基づいて、前記個々の第1のセグメントの前記第1のサイズ分布メトリクスを生成することであって、前記サイズ分布が、配列表示のサイズのそれぞれの範囲にそれぞれ対応する複数のパーティションを含み、個々の第1のセグメントについての個々のサイズ分布メトリクスが、前記複数のパーティションの各パーティションに対応する、前記第1のセグメントに含まれるオフターゲット配列表示のセットの数を示すことと、
    前記コンピューティングシステムによって、前記参照サイズ分布メトリクスに関する前記個々の第1のサイズ分布メトリクスに従って前記個々の第1のセグメントの前記正規化されたサイズ分布メトリクスを決定することと、
    前記コンピューティングシステムによって、前記個々の第2のセグメントに含まれる前記それぞれの複数の個々の第1のセグメントの前記正規化されたサイズ分布メトリクスに基づいて前記個々の第2のセグメントについての前記第2のサイズ分布メトリクスを決定することと、を含む、請求項15に記載の方法。
  17. 前記コンピューティングシステムによって、前記個々の第1のセグメントの前記個々の第1のカバレッジメトリクスを生成するために、個々の第1のセグメントに対応する前記配列表示の数を決定することと、
    前記コンピューティングシステムによって、前記個々の第1のカバレッジメトリクスに従って前記個々の第1のセグメントの前記第1の正規化されたカバレッジメトリクスを決定することと、
    前記コンピューティングシステムによって、前記参照カバレッジメトリクスに関する、前記個々の第1のカバレッジメトリクスに従って前記個々の第1のセグメントの前記第2の正規化されたサイズ分布メトリクスを決定することと、
    前記コンピューティングシステムによって、前記第1の正規化されたカバレッジメトリクスおよび前記第2の正規化されたカバレッジメトリクスに基づいて前記個々の第2のセグメントの前記第2のカバレッジメトリクスを決定することと、を含む、請求項16に記載の方法。
  18. 個々の第2のセグメントに関する腫瘍細胞の前記コピー数の前記推定値が、前記コンピューティングシステムによって前記第2のサイズ分布メトリクスに基づいて個々の第2のセグメントに対する腫瘍細胞の前記コピー数の第1の推定値と、前記第2のカバレッジメトリクスに基づいて個々の第2のセグメントに対する腫瘍細胞の前記コピー数の第2の推定値とを決定することによって作成される、個々の第2のセグメントに関する腫瘍細胞の前記コピー数の総推定値である、請求項17に記載の方法。
  19. 前記コンピューティングシステムによって、前記試料に関連する突然変異体対立遺伝子の数に対する前記試料に関連する野生型対立遺伝子の数の比を決定することと、
    前記コンピューティングシステムによって、前記比に基づいてヘテロ接合一塩基多型(SNP)メトリクスを決定することと、を含む、請求項1~18のいずれか1項に記載の方法。
  20. 前記コンピューティングシステムによって、前記SNPメトリックに基づいて前記試料の前記腫瘍割合の追加の推定値を決定することと、
    前記コンピューティングシステムによって、前記SNPメトリックに基づいて、前記試料に関連する腫瘍細胞のコピー数の追加の推定値を決定することと、を含む、請求項19にきさいの方法。
  21. 前記コンピューティングシステムによって、前記試料に関連する前記腫瘍細胞の前記コピー数の前記推定値を作成する尤度関数に対応するモデルのパラメータを決定することを含み、
    前記モデルの前記パラメータが、個々の第2のセグメントに対する腫瘍細胞のコピー数の前記個々の推定値の少なくとも一部分に対応し、前記試料の腫瘍割合の前記推定値に対応する、請求項1~20のいずれか1項に記載の方法。
  22. 前記モデルの前記パラメータが、1またはそれを超えるSNPメトリクスに対応し、前記1またはそれを超えるSNPメトリクスの個々のSNPメトリクスが、野生型対立遺伝子の数に対する突然変異体対立遺伝子の数のそれぞれの比に関連する、請求項21に記載の方法。
  23. 個々の第1のセグメントの少なくとも一部分が、参照ヒトゲノムの約30,000ヌクレオチド~約150,000ヌクレオチドを含む、請求項1~22のいずれか1項に記載の方法。
  24. 前記個々の第2のセグメントの少なくとも一部分が、参照ヒトゲノムの少なくとも約100万ヌクレオチド~約1000万ヌクレオチドを含み、
    前記第2のセグメントが、1またはそれを超える循環バイナリセグメント化プロセスによって決定される、請求項1~25のいずれか1項に記載の方法。
  25. 前記試料が、前記対象の組織に由来する、請求項1~24のいずれか1項に記載の方法。
  26. 前記試料が、前記対象から得られた流体に由来する、請求項1~25のいずれか1項に記載の方法。
  27. 前記コンピューティングシステムによって、前記個々の第2の定量的メトリクススに基づいて前記試料の腫瘍割合の推定値を決定することを含む、請求項1~26のいずれか1項に記載の方法。
  28. 前記試料の前記腫瘍割合の前記推定値および個々の第2のセグメントに対する腫瘍細胞の前記コピー数の前記推定値が、
    観察された定量的尺度=2*(1-TF)+n*TF(式中、nは腫瘍細胞コピー数であり、TFは試料の腫瘍割合である)に基づいて決定され、
    前記観察された定量的尺度が、前記第2の定量的尺度の少なくとも一部分を含む、請求項1~27のいずれか1項に記載の方法。
  29. 前記コンピューティングシステムによって、個々の第1のセグメントに対応し、1またはそれを超える一塩基多型(SNP)に対応する前記配列表示の数を決定することと、
    前記コンピューティングシステムによって、前記個々のSNPに対応する配列表示の前記数に基づいて、前記個々のSNPに対する突然変異体対立遺伝子割合を決定することと、を含む、請求項1~28のいずれか1項に記載の方法。
  30. 前記参照ヒトゲノムの第2のセグメントが、前記個々の第1のセグメントについての突然変異体対立遺伝子割合に基づいて決定される、請求項29に記載の方法。
  31. 前記1またはそれを超えるSNPが、ヘテロ接合生殖系列SNPに対応する、請求項29または請求項30に記載の方法。
  32. 前記1またはそれを超えるSNPが、1またはそれを超える癌のタイプに対するドライバ突然変異に対応する、請求項29~31のいずれか1項に記載の方法。
  33. 前記コンピューティングシステムによって、前記参照ヒトゲノムの前記第2のセグメントの第1の推定値を決定するために、前記第2の正規化された定量的尺度に基づいて循環バイナリセグメント化プロセスの第1の実施態様を実施することと、
    前記コンピューティングシステムによって、前記参照ヒトゲノムの前記第2のセグメントの第2の推定値を決定するために、前記個々の第1のセグメントの前記突然変異体対立遺伝子割合に基づいて、前記循環バイナリセグメント化プロセスの第2の実施態様を実施することと、を含む、請求項29~32のいずれか1項に記載の方法。
  34. 方法であって、
    それぞれが1またはそれを超えるプロセッサおよびメモリを有する1またはそれを超えるコンピューティングデバイスを含むコンピューティングシステムによって、試料に含まれるポリヌクレオチド分子の配列表示を示す配列データを取得することと、
    前記コンピューティングシステムによって、参照ヒトゲノムの一部分に関して少なくとも閾値量の相同性を有する1またはそれを超える配列表示を決定するアラインメントプロセスを行うことによって、いくつかのアラインメントされた配列表示を作成することと、
    前記コンピューティングシステムによって、前記参照ヒトゲノムの標的領域に対応しないアラインメントされた配列表示の数の部分を同定することによってオフターゲット配列表示のセットを決定することと、
    前記コンピューティングシステムによって、複数のセグメント化プロセスを実施して、前記参照ヒトゲノムのセグメントの数を決定することと、
    前記コンピューティングシステムによって、前記個々のセグメントに対応する前記オフターゲット配列表示のセットの一部分に基づいて、前記参照ヒトゲノムの前記個々のセグメントについての個々の定量的尺度を決定することと、
    前記コンピューティングシステムによって、前記個々の定量的メトリクス、個々のセグメントに対応する腫瘍細胞のコピー数の前記複数の推定値の個々の推定値に基づいて、前記試料に関連する腫瘍細胞のコピー数の複数の推定値を決定することと、を含む、方法。
  35. 前記複数のセグメント化プロセスが、
    前記コンピューティングシステムによって前記参照ヒトゲノムの第1のセグメントを決定することであって、前記第1のセグメントが前記標的領域を含まないことを含む、第1のセグメント化プロセス、および
    前記コンピューティングシステムによって、前記参照ヒトゲノムの第2のセグメントを決定することであって、個々の第2のセグメントが、前記個々の第1のセグメントよりも多数のヌクレオチドを含み、複数の前記個々の第1のセグメントを含むことを含む第2のセグメント化プロセスを含む、請求項34に記載の方法。
  36. 前記個々の定量的尺度が、個々のカバレッジメトリクスに対応し、前記方法が、
    前記コンピューティングシステムによって、前記参照ヒトゲノムの個々の第1のセグメントの個々についての第1のカバレッジメトリクスを、前記個々の第1のセグメントに含まれるオフターゲットポリヌクレオチド配列表示のセットの数に基づいて決定することと、
    前記コンピューティングシステムによって、前記個々の第1のカバレッジメトリクスに従って個々の第1のセグメントの正規化されたカバレッジメトリクスを決定することと、
    前記コンピューティングシステムによって、前記個々の第2のセグメントに含まれる前記それぞれの複数の個々のセグメントの前記正規化されたカバレッジメトリクスに基づいて、前記参照ヒトゲノムの個々の第2のセグメントの個々についての第2のカバレッジメトリクスを決定することと、を含む、請求項35に記載の方法。
  37. 前記正規化されたカバレッジメトリクスが、
    前記コンピューティングシステムによって、前記個々の第1のセグメントの配列表示の中央数に関する前記個々の第1のカバレッジメトリクスに基づいて、前記個々の第1のセグメントに対する第1の正規化された定量的尺度を決定することにより決定される、請求項36に記載の方法。
  38. 前記コンピューティングシステムによって、前記個々の第1のセグメントの参照カバレッジメトリクスに関する前記個々のカバレッジメトリクスに基づいて、前記個々の第1のセグメントの第2の正規化された定量的尺度を決定することであって、前記参照カバレッジメトリクスが、コピー数多型が検出されない個体から得られた試料に基づいて決定される、前記個々の第1のセグメントの第2の正規化された定量的尺度を決定することと、
    前記コンピューティングシステムによって、前記個々の第1のセグメントに対する前記第2の正規化カバレッジメトリクスに関して個々の第1の正規化された定量的尺度を調整することと、を含む、
    請求項37に記載の方法。
  39. 前記試料に関連する腫瘍細胞の前記コピー数の推定値が、個々の第2のカバレッジメトリクスに基づく、請求項36に記載の方法。
  40. 前記個々の定量的尺度が個々のサイズ分布メトリクスに対応し、前記方法が、
    前記コンピューティングシステムによって、個々の第1のセグメントの個々の第1のサイズ分布メトリクスを決定することであって、前記サイズ分布が、配列表示のサイズのそれぞれの範囲にそれぞれ対応する複数のパーティションを含み、個々の第1のセグメントについての個々のサイズ分布メトリクスが、前記複数のパーティションの各パーティションに対応する、前記第1のセグメントに含まれるオフターゲット配列表示のセットの数を示す、個々の第1のセグメントの個々の第1のサイズ分布メトリクスを決定することと、
    前記コンピューティングシステムによって、参照サイズ分布メトリクスに関する個々の第1のサイズ分布メトリクスに従って個々の第1のセグメントの正規化されたサイズ分布メトリクスを決定することと、
    前記コンピューティングシステムによって、前記個々の第2のセグメントに含まれる前記それぞれの複数の個々の第1のセグメントの前記正規化されたサイズ分布メトリクスに基づいて、前記参照ヒトゲノムの個々の第2のセグメントについての個々の第2のサイズ分布メトリクスを決定することと、を含む、請求項34に記載の方法。
  41. 前記試料に関連する腫瘍細胞の前記コピー数の推定値が、個々の第2のサイズ分布メトリクスに基づく、請求項40に記載の方法。
  42. 前記コンピューティングシステムによって、前記試料に関連する突然変異体対立遺伝子の数に対する前記試料に関連する野生型対立遺伝子の数の比を決定することと、
    前記コンピューティングシステムによって、前記比に基づいてヘテロ接合一塩基多型(SNP)メトリクスを決定することと、を含む、請求項34~41のいずれか1項に記載の方法。
  43. 前記コンピューティングシステムによって,前記SNPメトリックに基づいて、前記試料に関連する腫瘍細胞のコピー数の追加の推定値を決定することを含む、請求項42に記載の方法。
  44. 前記コンピューティングシステムによって、前記個々の定量的尺度に基づいて前記試料の腫瘍割合の推定値を決定することを含む、請求項34~43のいずれか1項に記載の方法。
  45. 腫瘍細胞の前記コピー数および前記試料の前記腫瘍割合についての前記推定値が、
    観察された定量的尺度=2*(1-TF)+n*TF(式中、nは腫瘍細胞コピー数であり、TFは試料の腫瘍割合である)
    に基づいて決定され、前記観察された定量的尺度が、前記定量的尺度の少なくとも一部分を含む、請求項44に記載の方法。
  46. 方法であって、各々が1またはそれを超えるプロセッサおよびメモリを有する1またはそれを超えるコンピューティングデバイスを含むコンピューティングシステムによって、試料に由来するポリヌクレオチド分子に基づくいくつかの配列決定リードを含むシーケンシングデータを取得することと、
    前記コンピューティングシステムによって、前記参照ヒトゲノムの一部分に関して少なくとも閾値量の相同性を有する前記配列決定リードの数の1またはそれを超える部分を決定するアラインメントプロセスを実施することによって、アラインメントされた配列決定リードの数を作成することと、
    前記コンピューティングシステムによって、前記参照ヒトゲノムの前記標的領域に対応しないアラインメントされた配列リードの数の部分を同定することによってオフターゲット配列リードのセットを決定することと、
    前記コンピューティングシステムによって、複数のセグメント化プロセスを実施して、前記参照ヒトゲノムのセグメントの数を決定することと、
    前記コンピューティングシステムによって、前記個々のセグメントに対応する前記オフターゲット配列決定リードのセットに基づいて、前記参照ヒトゲノムの前記個々のセグメントについての定量的尺度を決定することと、
    前記コンピューティングシステムによって、前記個々の定量的尺度、個々のセグメントに対応する腫瘍細胞のコピー数の前記複数の推定値の個々の推定値に基づいて、前記試料に関連する腫瘍細胞のコピー数の複数の推定値を決定することと、を含む、方法。
  47. 前記複数のセグメント化プロセスが、
    前記コンピューティングシステムによって、前記参照ヒトゲノムの第1のセグメントを決定することであって、前記第1のセグメントが前記標的領域を含まないことを含む、第1のセグメント化プロセス、および
    前記コンピューティングシステムによって、前記参照ヒトゲノムの第2のセグメントを決定することであって、個々の第2のセグメントが、前記個々の第1のセグメントよりも多数のヌクレオチドを含み、複数の前記個々の第1のセグメントを含むことを含む第2のセグメント化プロセスを含む、請求項46に記載の方法。
  48. 前記個々の定量的尺度が、個々のカバレッジメトリクスに対応し、前記方法が、
    前記コンピューティングシステムによって、前記個々の第1のセグメントに含まれるオフターゲット配列決定リードの前記セットの数に基づいて、個々の第1のセグメントの個々の第1のカバレッジメトリクスを決定することと、
    前記コンピューティングシステムによって、個々の第1のカバレッジメトリクスに従って個々の第1のセグメントの正規化されたカバレッジメトリクスを決定することと、
    前記コンピューティングシステムによって、前記個々の第2のセグメントに含まれる前記それぞれの複数の個々のセグメントの前記正規化されたカバレッジメトリクスに基づいて、個々の第2のセグメントの個々の第2のカバレッジメトリクスを決定することと、を含む、請求項47に記載の方法。
  49. 前記正規化されたカバレッジメトリクスが、
    前記コンピューティングシステムによって、前記個々の第1のセグメントに関連する配列決定リードの中央数に関する前記個々の第1のカバレッジメトリクスに基づいて、前記個々の第1のセグメントに対する第1の正規化された定量的尺度を決定することにより決定される、請求項48に記載の方法。
  50. 前記コンピューティングシステムによって、前記個々の第1のセグメントの参照カバレッジメトリクスに関する前記個々のカバレッジメトリクスに基づいて、前記個々の第1のセグメントの第2の正規化された定量的尺度を決定することであって、前記参照カバレッジメトリクスが、コピー数多型が検出されない個体から得られた試料に基づいて決定される、前記個々の第1のセグメントの第2の正規化された定量的尺度を決定することと、
    前記コンピューティングシステムによって、前記個々の第1のセグメントに対する前記第2の正規化カバレッジメトリクスに関して個々の第1の正規化された定量的尺度を調整することと、を含む、
    請求項49に記載の方法;
  51. 前記試料に関連する腫瘍細胞の前記コピー数の推定値が、個々の第2のカバレッジメトリクスに基づく、請求項48に記載の方法。
  52. 前記個々の定量的尺度が個々のサイズ分布メトリクスに対応し、前記方法が、
    前記コンピューティングシステムによって、個々の第1のセグメントの個々の第1のサイズ分布メトリクスを決定することであって、前記サイズ分布が、配列決定リードのサイズのそれぞれの範囲にそれぞれ対応する複数のパーティションを含み、個々の第1のセグメントについての個々のサイズ分布メトリクスが、前記複数のパーティションの各パーティションに対応する、前記第1のセグメントに含まれるオフターゲット配列決定リードのセットの数を示す、個々の第1のセグメントの個々の第1のサイズ分布メトリクスを決定することと、
    前記コンピューティングシステムによって、参照サイズ分布メトリクスに関する個々の第1のサイズ分布メトリクスに従って個々の第1のセグメントの正規化されたサイズ分布メトリクスを決定することと、
    前記コンピューティングシステムによって、前記個々の第2のセグメントに含まれる前記それぞれの複数の個々の第1のセグメントの前記正規化されたサイズ分布メトリクスに基づいて、前記参照ヒトゲノムの個々の第2のセグメントについての個々の第2のサイズ分布メトリクスを決定することと、を含む、請求項46に記載の方法。
  53. 前記試料に関連する腫瘍細胞の前記コピー数の推定値が、個々の第2のサイズ分布メトリクスに基づく、請求項52に記載の方法。
  54. 前記コンピューティングシステムによって、前記試料に関連する突然変異体対立遺伝子の数に対する前記試料に関連する野生型対立遺伝子の数の比を決定することと、
    前記コンピューティングシステムによって、前記比に基づいてヘテロ接合一塩基多型(SNP)メトリクスを決定することと、を含む、請求項46に記載の方法。
  55. 前記コンピューティングシステムによって、前記SNPメトリックに基づいて、前記試料に関連する腫瘍細胞のコピー数の追加の推定値を決定することを含む、請求項54に記載の方法。
  56. 前記コンピューティングシステムによって、前記個々の定量的尺度に基づいて前記試料の腫瘍割合の推定値を決定することを含む、請求項46に記載の方法。
  57. 腫瘍細胞の前記コピー数および前記試料の前記腫瘍割合についての前記推定値が、
    観察された定量的尺度=2*(1-TF)+n*TF(式中、nは腫瘍細胞コピー数であり、TFは試料の腫瘍割合である)
    に基づいて決定され、
    前記観察された定量的尺度が、前記定量的尺度の少なくとも一部分を含む、請求項56に記載の方法。
  58. 方法であって、
    それぞれが1またはそれを超えるプロセッサおよびメモリを有する1またはそれを超えるコンピューティングデバイスを含むコンピューティングシステムによって、試料に含まれるポリヌクレオチド分子示すシーケンシングデータを取得することと、
    前記コンピューティングシステムによって、参照ヒトゲノムの一部分に関して少なくとも閾値量の相同性を有する1またはそれを超えるポリヌクレオチド分子を決定するアラインメントプロセスを実施することによって、いくつかのアラインメントされたポリヌクレオチド分子を作成することと、
    前記コンピューティングシステムによって、前記参照ヒトゲノムの標的領域に対応しないアラインメントされたポリヌクレオチド分子数の部分を同定することによってオフターゲットポリヌクレオチド分子のセットを決定することと、
    前記コンピューティングシステムによって、複数のセグメント化プロセスを実施して、前記参照ヒトゲノムのセグメントの数を決定することと、
    前記コンピューティングシステムによって、前記個々のセグメントに対応する前記オフターゲットポリヌクレオチド分子のセットの一部分に基づいて、前記参照ヒトゲノムの前記個々のセグメントについての定量的尺度を決定することと、
    前記コンピューティングシステムによって、前記個々の定量的尺度、個々のセグメントに対応する腫瘍細胞のコピー数の前記複数の推定値の個々の推定値に基づいて、前記試料に関連する腫瘍細胞のコピー数の複数の推定値を決定することと、を含む方法。
  59. 前記複数のセグメント化プロセスが、
    前記コンピューティングシステムによって、前記参照ヒトゲノムの第1のセグメントを決定することであって、前記第1のセグメントが前記標的領域を含まないことを含む、第1のセグメント化プロセス、および
    前記コンピューティングシステムによって、前記参照ヒトゲノムの第2のセグメントを決定することであって、個々の第2のセグメントが、前記個々の第1のセグメントよりも多数のヌクレオチドを含み、複数の前記個々の第1のセグメントを含むことを含む第2のセグメント化プロセスを含む、請求項58に記載の方法。
  60. 前記個々の定量的尺度が、個々のカバレッジメトリクスに対応し、前記方法が、
    前記コンピューティングシステムによって、前記個々の第1のセグメントに含まれるオフターゲットポリヌクレオチド分子のセットの数に基づいて、個々の第1のセグメントの個々の第1のカバレッジメトリクスを決定することと、
    前記コンピューティングシステムによって、個々の第1のカバレッジメトリクスに従って個々の第1のセグメントの正規化されたカバレッジメトリクスを決定することと、
    前記コンピューティングシステムによって、前記個々の第2のセグメントに含まれる前記それぞれの複数の個々のセグメントの前記正規化されたカバレッジメトリクスに基づいて、個々の第2のセグメントの個々の第2のカバレッジメトリクスを決定することと、を含む、請求項59に記載の方法。
  61. 前記正規化されたカバレッジメトリクスが、
    前記コンピューティングシステムによって、前記個々の第1のセグメントに関連するポリヌクレオチド分子の中央数に関する前記個々の第1のカバレッジメトリクスに基づいて、前記個々の第1のセグメントに対する第1の正規化された定量的尺度を決定することにより決定される、請求項60に記載の方法。
  62. 前記コンピューティングシステムによって、前記個々の第1のセグメントの参照カバレッジメトリクスに関する前記個々のカバレッジメトリクスに基づいて、前記個々の第1のセグメントの第2の正規化された定量的尺度を決定することであって、前記参照カバレッジメトリクスが、コピー数多型が検出されない個体から得られた試料に基づいて決定される、前記個々の第1のセグメントの第2の正規化された定量的尺度を決定することと、
    前記個々の第1のセグメントに対する前記第2の正規化カバレッジメトリクスに関して個々の第1の正規化された定量的尺度を調整することと、を含む、
    請求項61に記載の方法。
  63. 前記試料に関連する腫瘍細胞の前記コピー数の推定値が、個々の第2のカバレッジメトリクスに基づく、請求項62に記載の方法。
  64. 前記個々の定量的尺度が個々のサイズ分布メトリクスに対応し、前記方法が、
    前記コンピューティングシステムによって、個々の第1のセグメントの個々の第1のサイズ分布メトリクスを決定することであって、前記サイズ分布が、ポリヌクレオチド分子のサイズのそれぞれの範囲にそれぞれ対応する複数のパーティションを含み、個々の第1のセグメントについての個々のサイズ分布メトリクスが、前記複数のパーティションの各パーティションに対応する、前記第1のセグメントに含まれるオフターゲットポリヌクレオチド分子のセットの数を示す、個々の第1のセグメントの個々の第1のサイズ分布メトリクスを決定することと、
    前記コンピューティングシステムによって、参照サイズ分布メトリクスに関する個々の第1のサイズ分布メトリクスに従って個々の第1のセグメントの正規化されたサイズ分布メトリクスを決定することと、
    前記コンピューティングシステムによって、前記個々の第2のセグメントに含まれる前記それぞれの複数の個々の第1のセグメントの前記正規化されたサイズ分布メトリクスに基づいて、前記参照ヒトゲノムの個々の第2のセグメントについての個々の第2のサイズ分布メトリクスを決定することと、を含む、請求項59に記載の方法。
  65. 前記試料に関連する腫瘍細胞の前記コピー数の推定値が、個々の第2のサイズ分布メトリクスに基づく、請求項64に記載の方法。
  66. 前記コンピューティングシステムによって、前記試料に関連する突然変異体対立遺伝子の数に対する前記試料に関連する野生型対立遺伝子の数の比を決定することと、
    前記コンピューティングシステムによって、前記比に基づいてヘテロ接合一塩基多型(SNP)メトリクスを決定することと、を含む、請求項58~65のいずれか1項に記載の方法。
  67. 前記コンピューティングシステムによって、前記SNPメトリックに基づいて、前記試料に関連する腫瘍細胞のコピー数の追加の推定値を決定することを含む、請求項66に記載の方法。
  68. 前記コンピューティングシステムによって、前記個々の定量的尺度に基づいて前記試料の腫瘍割合の推定値を決定することを含む、請求項58~67のいずれか1項に記載の方法。
  69. 腫瘍細胞のコピー数および前記試料の前記腫瘍割合についての前記推定値が、
    観察された定量的尺度=2*(1-TF)+n*TF(式中、nは腫瘍細胞コピー数であり、TFは試料の腫瘍割合である)
    に基づいて決定され、
    前記観察された定量的尺度が、前記定量的尺度の少なくとも一部分を含む、請求項68に記載の方法。
JP2023554842A 2021-03-09 2022-03-09 オフターゲットポリヌクレオチド配列決定データに基づく腫瘍の存在の検出 Pending JP2024512372A (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US202163158824P 2021-03-09 2021-03-09
US63/158,824 2021-03-09
US202163173273P 2021-04-09 2021-04-09
US63/173,273 2021-04-09
PCT/US2022/071059 WO2022192889A1 (en) 2021-03-09 2022-03-09 Detecting the presence of a tumor based on off-target polynucleotide sequencing data

Publications (1)

Publication Number Publication Date
JP2024512372A true JP2024512372A (ja) 2024-03-19

Family

ID=80952168

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023554842A Pending JP2024512372A (ja) 2021-03-09 2022-03-09 オフターゲットポリヌクレオチド配列決定データに基づく腫瘍の存在の検出

Country Status (4)

Country Link
US (1) US20220344004A1 (ja)
EP (1) EP4305200A1 (ja)
JP (1) JP2024512372A (ja)
WO (1) WO2022192889A1 (ja)

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6582908B2 (en) 1990-12-06 2003-06-24 Affymetrix, Inc. Oligonucleotides
US20030017081A1 (en) 1994-02-10 2003-01-23 Affymetrix, Inc. Method and apparatus for imaging a sample on a device
ATE226983T1 (de) 1994-08-19 2002-11-15 Pe Corp Ny Gekoppeltes ampflikation- und ligationverfahren
GB9620209D0 (en) 1996-09-27 1996-11-13 Cemu Bioteknik Ab Method of sequencing DNA
GB9626815D0 (en) 1996-12-23 1997-02-12 Cemu Bioteknik Ab Method of sequencing DNA
US6969488B2 (en) 1998-05-22 2005-11-29 Solexa, Inc. System and apparatus for sequential processing of analytes
AR021833A1 (es) 1998-09-30 2002-08-07 Applied Research Systems Metodos de amplificacion y secuenciacion de acido nucleico
US7501245B2 (en) 1999-06-28 2009-03-10 Helicos Biosciences Corp. Methods and apparatuses for analyzing polynucleotide sequences
US6818395B1 (en) 1999-06-28 2004-11-16 California Institute Of Technology Methods and apparatus for analyzing polynucleotide sequences
EP1218543A2 (en) 1999-09-29 2002-07-03 Solexa Ltd. Polynucleotide sequencing
EP1975251A3 (en) 2000-07-07 2009-03-25 Visigen Biotechnologies, Inc. Real-time sequence determination
US7208271B2 (en) 2001-11-28 2007-04-24 Applera Corporation Compositions and methods of selective nucleic acid isolation
US7169560B2 (en) 2003-11-12 2007-01-30 Helicos Biosciences Corporation Short cycle methods for sequencing polynucleotides
CA2579150C (en) 2004-09-17 2014-11-25 Pacific Biosciences Of California, Inc. Apparatus and method for analysis of molecules
US7170050B2 (en) 2004-09-17 2007-01-30 Pacific Biosciences Of California, Inc. Apparatus and methods for optical analysis of molecules
US7482120B2 (en) 2005-01-28 2009-01-27 Helicos Biosciences Corporation Methods and compositions for improving fidelity in a nucleic acid synthesis reaction
US7282337B1 (en) 2006-04-14 2007-10-16 Helicos Biosciences Corporation Methods for increasing accuracy of nucleic acid sequencing
US8835358B2 (en) 2009-12-15 2014-09-16 Cellular Research, Inc. Digital counting of individual molecules by stochastic attachment of diverse labels
KR102028375B1 (ko) 2012-09-04 2019-10-04 가던트 헬쓰, 인크. 희귀 돌연변이 및 카피수 변이를 검출하기 위한 시스템 및 방법
WO2017009372A2 (en) * 2015-07-13 2017-01-19 Cartagenia Nv System and methodology for the analysis of genomic data obtained from a subject
SG11201805119QA (en) 2015-12-17 2018-07-30 Guardant Health Inc Methods to determine tumor gene copy number by analysis of cell-free dna
BR112019012958A2 (pt) 2016-12-22 2019-11-26 Guardant Health Inc métodos e sistemas para análise de moléculas de ácido nucleico
WO2018192967A1 (en) * 2017-04-18 2018-10-25 Agilent Technologies Belgium Nv Use of off-target sequences for dna analysis
AU2021224670A1 (en) * 2020-02-18 2022-09-01 Tempus Ai, Inc. Methods and systems for a liquid biopsy assay

Also Published As

Publication number Publication date
US20220344004A1 (en) 2022-10-27
WO2022192889A1 (en) 2022-09-15
EP4305200A1 (en) 2024-01-17

Similar Documents

Publication Publication Date Title
JP7466519B2 (ja) 腫瘍遺伝子変異量を腫瘍割合およびカバレッジによって調整するための方法およびシステム
JP6680680B2 (ja) 染色体変化の非侵襲性評価のための方法およびプロセス
JP7421474B2 (ja) 腫瘍遺伝子変異量の正規化
US11929145B2 (en) Methods for non-invasive assessment of genetic alterations
JP7237003B2 (ja) 遺伝子片の評価のための方法およびプロセス
JP2020521442A (ja) 無細胞dnaについての体細胞起源または生殖系列起源の識別
JP2024015059A (ja) セルフリー核酸の細胞起源を決定するための方法およびシステム
CN111357054A (zh) 用于区分体细胞变异和种系变异的方法和系统
JP2023526252A (ja) 相同組換え修復欠損の検出
US20220028494A1 (en) Methods and systems for determining the cellular origin of cell-free dna
JP2024512372A (ja) オフターゲットポリヌクレオチド配列決定データに基づく腫瘍の存在の検出
CN115428087A (zh) 克隆水平缺乏靶变体的显著性建模
EP3785268A1 (en) Methods for detecting and suppressing alignment errors caused by fusion events
CN116981782A (zh) 基于脱靶多核苷酸测序数据检测肿瘤的存在
WO2023197004A1 (en) Detecting the presence of a tumor based on methylation status of cell-free nucleic acid molecules
Filges Next generation molecular diagnostics using ultrasensitive sequencing
JP2024513668A (ja) 分子応答を分析するための方法および関連する態様
JP2024056984A (ja) エピジェネティック区画アッセイを較正するための方法、組成物およびシステム