JP2024512372A

JP2024512372A - オフターゲットポリヌクレオチド配列決定データに基づく腫瘍の存在の検出

Info

Publication number: JP2024512372A
Application number: JP2023554842A
Authority: JP
Inventors: カタリンバルバチオル，; ダーリヤチュドヴァ，; アレクサンドルアルツィオメンカ，; ダニエルゲイル，; ハオワン，
Original assignee: ガーダントヘルス，インコーポレイテッド
Priority date: 2021-03-09
Filing date: 2022-03-09
Publication date: 2024-03-19
Also published as: US20220344004A1; WO2022192889A1; EP4305200A1

Abstract

本明細書に記載の実施態様において、オフターゲット配列に由来する試料に由来する情報を使用して、腫瘍細胞のコピー数および／または試料の腫瘍割合の推定値を決定することができる。さらに、生殖系列ＳＮＰの存在に由来する情報を使用して、腫瘍細胞のコピー数または試料の腫瘍割合の少なくとも１つの推定値を決定することができる。上記決定することは、それぞれが１またはそれを超えるプロセッサおよびメモリを有する１またはそれを超えるコンピューティングデバイスを含むコンピューティングシステムによって行われる。

Description

関連出願の相互参照
本出願は、２０２１年３月９日に出願された米国仮特許出願第６３／１５８，８２４号および２０２１年４月８日に出願された米国仮特許出願第６３／１７３，２７３号に基づく優先権の利益を主張し、これらの各々は、あらゆる目的のためにその全体が参照により本明細書に組み込まれる。

背景
腫瘍は、細胞の異常な成長である。腫瘍は良性または悪性であり得る。悪性腫瘍はしばしば癌と呼ばれる。癌は、世界中で疾患の主な原因である。毎年、世界中で数千万人が癌と診断され、半数およびそれを超える人が最終的に癌で死亡する。多くの国において、癌は、心血管疾患に続く２番目に一般的な死因にランク付けされている。早期検出は、多くの癌の転帰の改善に関連する。

癌は、腫瘍の生検とそれに続く細胞病理、バイオマーカー、または細胞から抽出されたＤＮＡの分析によって検出されることが多い。従来の生検は、有痛性および侵襲性であり得る。そのような生検はまた、腫瘍から抽出された組織の試料に基づいて対象内の腫瘍細胞の一部のみを調べることができることが多い。したがって、従来の組織生検は、特定の期間に関して腫瘍に関する限られた情報を提供し、常に腫瘍細胞の集団を表すとは限らない。
より最近では、血液または尿等の体液中の無細胞核酸（例えば、循環核酸、循環腫瘍核酸、エキソソーム、アポトーシス細胞および／または壊死細胞由来の核酸）からも癌を検出できることが提案されている（例えば、Ｓｉｒａｖｅｇｎａｅｔａｌ．，ＮａｔｕｒｅＲｅｖｉｅｗｓ，１４：５３１－５４８（２０１７）を参照のこと）。ＤＮＡは、例えば、正常および／または癌細胞が死亡した場合、無細胞ＤＮＡおよび／または循環腫瘍ＤＮＡとして、体液中に放出されることが多い。無細胞核酸を測定する試験は、非侵襲性であり、生検を行うために疑わしい癌細胞を同定することなく実施することができ、癌の全ての部分から核酸をサンプリングすることができるという利点を有する。腫瘍の存在を検出するためにそのような試験で得られたデータを分析することは、体液中に放出される核酸の量が少なく、分析可能な形態のそのような流体からの核酸の回収と同様に可変であるという事実によって複雑になり得る。

Ｓｉｒａｖｅｇｎａｅｔａｌ．，ＮａｔｕｒｅＲｅｖｉｅｗｓ，１４：５３１－５４８（２０１７）

図面の簡単な説明
本明細書に組み込まれ、本明細書の一部を構成する添付の図面は、特定の実施態様を示し、記載された説明と共に、本明細書に開示された方法、コンピュータ可読媒体、およびシステムの特定の原理を説明するのに役立つ。本明細書で提供される説明は、限定ではなく例として含まれる添付の図面と併せて読めば、よりよく理解される。文脈上別段の指示がない限り、図面全体を通して同様の参照番号は同様のコンポーネントを同定することが理解されよう。図面の一部または全ては、例示の目的のための概略図である場合があり、必ずしも示されている要素の実際の相対的なサイズまたは位置を示すものではないことも理解されよう。

図１は、１またはそれを超える実施態様による、オフターゲットポリヌクレオチドに基づいて対象に関連する腫瘍メトリクスを決定する例示的なアーキテクチャの概略図である。

図２は、１またはそれを超える実施態様による、オンターゲットポリヌクレオチド、オフターゲットポリヌクレオチド、および一塩基多型データに基づいて対象に関連する腫瘍メトリクスを決定するための例示的なプロセスのフローチャートである。

図３は、１またはそれを超える実施態様による、オフターゲットポリヌクレオチドに由来するカバレッジメトリクスに基づいて対象に関連する腫瘍メトリクスを決定するための例示的なプロセスの概略図である。

図４は、１またはそれを超える実施態様による、オフターゲットポリヌクレオチドに由来するサイズ分布メトリクスに基づいて対象に関連する腫瘍メトリクスを決定するための例示的なプロセスの概略図である。

図５は、ビニング動作、１またはそれを超える追加のセグメント化動作、および尤度関数を使用して腫瘍メトリクスを決定する例示的なプロセスの概略図である。

図６は、１またはそれを超える実施態様による、対象に存在する腫瘍の指標を決定するために使用され得る増強された量のオフターゲットポリヌクレオチドを作成するための例示的プロセスのフローチャートである。

図７は、１またはそれを超える実施態様による、参照ヒトゲノムに対する少なくとも１つのセグメント化プロセスを含むオフターゲットポリヌクレオチドに由来する情報に基づいて、対象に関する腫瘍メトリクスを決定する例示的方法のフローチャートである。

図８は、１またはそれを超える実施態様による、参照ヒトゲノムに対する複数のセグメント化プロセスを含むオフターゲットポリヌクレオチドに由来するカバレッジ情報に基づいて、対象に関する腫瘍メトリクスを決定する例示的方法のフローチャートである。

図９は、１またはそれを超える実施態様による、オフターゲットポリヌクレオチドに由来するサイズ分布情報に基づいて対象に関して腫瘍メトリクスを決定するための例示的な方法のフローチャートである。

図１０は、シーケンシングデータを作成し、シーケンシングデータからオフターゲット配列表示を決定するための例示的な方法のフローチャートであり、オフターゲット配列表示は、１またはそれを超える実施態様による、オフターゲット配列表示に由来する情報に基づいて対象に関する腫瘍メトリクスを決定するために使用され得る。

図１１は、１またはそれを超える例示的な実施態様による、本明細書に記載の任意の１またはそれを超える方法論を実施するために、１またはそれを超えるマシン可読媒体から命令を読み取って実行し得る、コンピュータシステムの形態のマシンのコンポーネントを示すブロック図である。

図１２は、１またはそれを超える例示的な実施態様による、本明細書に記載の１またはそれを超えるハードウェアアーキテクチャと共に使用することができる代表的なソフトウェアアーキテクチャを示すブロック図である。

図１３Ａは、４０Ｍｂサイズ領域に対するオンターゲットデータとオフターゲットデータの組み合わせの使用に関してのみ、オンターゲットデータを使用して増幅が起こる場合にコピー数が「３」または欠失が起こった場合に「１」である状況でのヘテロ接合性の喪失についての検出限界（ＬｏＤ）の差を示す。オンターゲットデータのみの使用に関してオンターゲットデータとオフターゲットデータの両方が使用される場合、これらの状況で感度を少なくとも約２０％改善することができる。

図１３Ｂは、４０Ｍｂサイズ領域に対するオンターゲットデータとオフターゲットデータの組み合わせの使用に関連してのみオンターゲットデータを使用して、増幅が起こるときにコピー数が「４」であるか、ホモ接合性欠失について「０」コピーである状況でのヘテロ接合性の喪失についてのＬｏＤの差を示す。

図１４は、種々のタイプの癌についての腫瘍割合に関する最大突然変異体対立遺伝子割合（ＭＡＦ）のプロットを示す。

図１５は、本明細書に記載の技術を使用したヒト白血球抗原（ＨＬＡ）に関連する６番染色体のゲノム領域における観察された欠失を示す。

図１６は、ＨＬＡ領域におけるヘテロ接合性の喪失（ＬｏＨ）を有すると予測される患者について観察された６番染色体のカバレッジの例を示す。

図１７は、様々な癌型におけるＨＬＡＬｏＨの有病率を示す。

図１８は、ＭＡＦの逆数を決定し、次いでＬｏｇｂａｓｅ２変換を適用することによって改変されるいくつかの異なるゲノム位置でのヘテロ接合一塩基多型（ＳＮＰ）の突然変異体対立遺伝子割合の例を示す。

図１９は、図１８に示す変換されたＳＮＰＭＡＦデータを使用した、コピー数に基づくセグメント化プロセスの改良例を示す。

図２０は、様々な遺伝子の実際のコピー数、ならびにカバレッジデータのみに基づくＣＢＳプロセスの実施態様に従ってセグメント化を使用して推定された遺伝子のコピー数と、図１８および図１９に示される改良プロセスを使用して推定された遺伝子のコピー数との間の差を示す表を含む。

開示の要旨
いくつかの態様において、方法は、それぞれが１またはそれを超えるプロセッサおよびメモリを有する１またはそれを超えるコンピューティングデバイスを含むコンピューティングシステムによって、試料に含まれるポリヌクレオチド分子に関する配列表示を示す配列データを取得することと、コンピューティングシステムによって、参照ヒトゲノムの一部分に関して少なくとも閾値量の相同性を有する１またはそれを超える配列表示を決定するアラインメントプロセスを実施することによって、のアラインメントされた配列表示のセットを生成することと、コンピューティングシステムにより、参照ヒトゲノムの標的領域に対応しないアラインメントされた配列表示の数の第１の部分を同定することによってオフターゲット配列表示のセットを決定することと、コンピューティングシステムにより、参照ヒトゲノムの標的領域に対応するアラインメントされた配列表示の数の第２の部分を同定することによって、オンターゲット配列表示のセットを決定することと、コンピューティングシステムにより、参照ヒトゲノムの第１のセグメントを決定することであって、第１のセグメントが標的領域を含まない、参照ヒトゲノムの第１のセグメントを決定することと、コンピューティングシステムによって、個々の第１のセグメントに対応するオフターゲット配列表示のセットのそれぞれのサブセットに基づいて個々の第１のセグメントに対する第１の定量的尺度を決定することと、コンピューティングシステムによって、個々の第１のセグメントの追加の定量的尺度に関して個々の第１のセグメントの第１の正規化された定量的尺度を決定することと、コンピューティングシステムによって、個々の第１のセグメントの参照定量的尺度に対して個々の第１の正規化された定量的尺度を調整することによって、個々の第１のセグメントの第２の正規化された定量的尺度を決定することと、コンピューティングシステムによって、参照ヒトゲノムの第２のセグメントを決定することであって、個々の第２のセグメントが、個々の第１のセグメントよりも多数のヌクレオチドを含み、複数の個々の第１のセグメントを含むことと、コンピューティングシステムによって、個々の第２のセグメントに含まれるそれぞれの複数の個々の第１のセグメントの第１の正規化された定量的尺度および第２の正規化された定量的尺度に基づいて、個々の第２のセグメントに対する第２の定量的尺度を決定することと、コンピューティングシステムによって、個々の第２のセグメントに対応する個々の第２の定量的尺度に基づいて、個々の第２のセグメントに関する腫瘍細胞のコピー数の推定値を決定することとを含む。

いくつかの態様において、第１の定量的尺度は、個々の第１のセグメントに対応する試料に含まれるポリヌクレオチド分子のそれぞれの数に基づいて決定される。

いくつかの態様において、第１の定量的尺度は、個々の第１のセグメントに対応する試料に由来する配列決定リードのそれぞれの数に基づいて決定される。

いくつかの態様において、方法は、コンピューティングシステムにより、個々の第１のセグメントに対応する配列表示が、標的領域と少なくとも閾値量の相同性を有すると決定することと、コンピューティングシステムによって、個々の第１のセグメントの第１の定量的尺度が、個々の第２のカバレッジメトリクスを決定することから除外されると決定することと、を含む。

いくつかの態様において、方法は、第２のセグメントを決定する前に、コンピューティングシステムによって、個々の第１のセグメントに対応するオフターゲット配列表示のセットの一部分に含まれるグアニンヌクレオチドおよびシトシンヌクレオチドの数を示すグアニンシトシン（ＧＣ）含有量を決定することと、コンピューティングシステムによって、個々の第１のセグメント内のＧＣコンテンツの複数のパーティションからＧＣ含有量のパーティションに対応する配列表示の頻度を決定することであって、ＧＣ含有量の複数のパーティションのＧＣ含有量の各パーティションは、ＧＣ含有量の値の異なる範囲に対応することと、コンピューティングシステムによって、個々の第１のセグメント内のＧＣ含有量の複数のパーティションに対応する配列表示の頻度に基づいて、個々の第１のセグメントに対する予想される定量的尺度を決定することと、コンピューティングシステムによって、個々の第１のセグメントの予想される定量的尺度に基づいて、個々の第１のセグメントのＧＣ正規化された定量的尺度を決定することと、を含む。

いくつかの態様において、方法は、コンピューティングシステムによって、個々の第１のセグメントにおける各配列表示についてのマッピング可能性スコアを決定することであって、マッピング可能性スコアが、ヒト参照ゲノムの複数の部分間の相同性の量を示し、ヒト参照ゲノムの複数の部分のうちのヒト参照ゲノムの各部分が、ヒト参照ゲノムの複数の部分のうちのヒト参照ゲノムの追加の部分と少なくとも閾値量の相同性を有することと、コンピューティングシステムにより、個々の第１のセグメントにおけるマッピング可能性スコアの複数のパーティションからのマッピング可能性スコアのパーティションに対応する配列表示の頻度を決定することであって、マッピング可能性スコアの複数のパーティションのマッピング可能性スコアの各パーティションが、マッピング可能性スコアの値の異なる範囲に対応することと、コンピューティングシステムによって、個々の第１のセグメント内のマッピング可能性スコアの複数のパーティションに対応する配列表示の頻度に基づいて、個々の第１のセグメントに対する予想される定量的尺度を決定することと、コンピューティングシステムによって、個々の第１のセグメントの予想される定量的尺度に基づいて、個々の第１のセグメントのマッピング可能性スコア－正規化定量的尺度を決定することと、を含む。

いくつかの態様において、方法は、コンピューティングシステムによって、訓練試料から得られた追加のポリヌクレオチド分子の追加の配列表示を示す訓練配列データを取得することであって、訓練試料が、コピー数の変化が検出されない個体から得られる、訓練試料から得られた追加のポリヌクレオチド分子の追加の配列表示を示すことと、コンピューティングシステムによって、参照ヒトゲノムの一部分に関して少なくとも閾値量の相同性を有する１またはそれを超える追加の配列表示を決定する追加のアラインメントプロセスを実施することによって、多数のアラインメントされた参照配列表示を作成することと、コンピューティングシステムにより、参照ヒトゲノムの標的領域に対応しない追加のアラインメントされた配列表示の数の部分を同定することによってオフターゲット配列表示の追加のセットを決定することと、コンピューティングシステムによって、個々の第１のセグメントに含まれるオフターゲット配列表示の追加のセットの数に基づいて個々の第１のセグメントに対する個々の参照定量的尺度を決定することと、を含む。

いくつかの態様において、方法は、コンピューティングシステムによって、個々の標的領域に対応するオンターゲット配列表示のセットに含まれるオンターゲット配列表示のそれぞれの数を決定することと、コンピューティングシステムによって、個々の標的領域に対応するオンターゲット配列表示のそれぞれの数に基づいて、個々の標的領域に対する個々の更なる定量的尺度を決定することと、を含み、試料に関連する腫瘍細胞のコピー数の推定値は、個々の更なる定量的尺度に基づく。

いくつかの態様において、参照ヒトゲノムの第２のセグメントは、個々の標的領域に対応する個々の追加の定量的尺度に基づいて決定される。

いくつかの態様において、第１の定量的尺度は、個々の第１のセグメントの第１のサイズ分布メトリック（メトリクス）を含み、第１の正規化された定量的尺度または第２の正規化された定量的尺度のうちの少なくとも１つは、正規化されたサイズ分布メトリクスに対応し、参照定量的尺度は、参照サイズ分布メトリクスであり、第２の定量的尺度は、個々の第２のセグメントの第２のサイズ分布メトリクスを含む。

いくつかの態様において、方法は、コンピューティングシステムによって、個々の第１のセグメントの配列表示のための個々のサイズ分布メトリクスを生成するために、個々の第１のセグメントに対応する個々の配列表示に含まれるヌクレオチドの数を決定することと、サイズ分布が、配列表示のサイズのそれぞれの範囲にそれぞれ対応する複数のパーティションを含み、個々の第１のセグメントについての個々のサイズ分布メトリクスが、複数のパーティションの各パーティションに対応する、第１のセグメントに含まれるオフターゲット配列表示のセットの数を示す、個々の第１のセグメントの個々の第１のサイズ分布メトリクスを決定することと、コンピューティングシステムによって、参照サイズ分布メトリクスに関する個々の第１のサイズ分布メトリクスに従って個々の第１のセグメントの正規化されたサイズ分布メトリクスを決定することと、コンピューティングシステムによって、個々の第２のセグメントに含まれるそれぞれの複数の個々の第１のセグメントの正規化されたサイズ分布メトリクスに基づいて個々の第２のセグメントについての第２のサイズ分布メトリクスを決定することと、コンピューティングシステムによって、個々の第２のセグメントに対応する個々の第２のサイズ分布メトリクスに基づいて、個々の第２のセグメントに関する腫瘍細胞のコピー数の追加の推定値を決定することとを含む。

いくつかの態様において、第１の定量的尺度は、個々の第１のセグメントの第１のカバレッジメトリクスを含み、第１の正規化された定量的尺度は、第１の正規化されたカバレッジメトリクスに対応し、第２の正規化された定量的尺度は、第２の正規化されたカバレッジメトリクスに対応し、参照定量的尺度は、参照カバレッジメトリクスであり、第２の定量的尺度は、個々の第２のセグメントの第２のカバレッジメトリクスを含む。

いくつかの態様において、方法は、コンピューティングシステムによって、個々の第１のセグメントの個々の第１のカバレッジメトリクスを生成するために、個々の第１のセグメントに対応する配列表示の数を決定することと、コンピューティングシステムによって、個々の第１のカバレッジメトリクスに従って個々の第１のセグメントの第１の正規化されたカバレッジメトリクスを決定することと、コンピューティングシステムによって、参照カバレッジメトリクスに関する、個々の第１のカバレッジメトリクスに従って個々の第１のセグメントの第２の正規化されたカバレッジメトリクスを決定することと、コンピューティングシステムによって、第１の正規化されたカバレッジメトリクスおよび第２の正規化されたカバレッジメトリクスに基づいて個々の第２のセグメントの第２のカバレッジメトリクスを決定することと、を含み、個々の第２のセグメントに関する腫瘍細胞のコピー数の推定値は、個々の第２のセグメントに対応する個々の第２のカバレッジメトリクスに基づく。

いくつかの態様において、個々の第２のセグメントに関する腫瘍細胞のコピー数の推定値は、個々の第２のセグメントに対応する個々の第２のカバレッジメトリクスに基づく。

いくつかの態様において、定量的尺度は、個々の第１のセグメントの第１のサイズ分布メトリクスおよび第１のカバレッジメトリクスを含み、第１の正規化された定量的尺度および第２の正規化された定量的尺度は、正規化されたサイズ分布メトリクスまたは正規化されたカバレッジメトリクスのうちの少なくとも１つに対応し、参照定量的尺度は、参照サイズ分布メトリクスおよび参照カバレッジメトリクスを含み、第２の定量的尺度は、個々の第２のセグメントの第２のサイズ分布メトリクスおよび第２のカバレッジメトリクスを含む。

いくつかの態様において、方法は、コンピューティングシステムによって、個々の第１のセグメントに対応する個々の配列表示に含まれるヌクレオチドの数を決定することによって、個々の配列表示のサイズを決定することと、コンピューティングシステムによって、個々の配列表示のそれぞれのサイズに基づいて、個々の第１のセグメントの第１のサイズ分布メトリクスを生成することであって、サイズ分布が、配列表示のサイズのそれぞれの範囲にそれぞれ対応する複数のパーティションを含み、個々の第１のセグメントについての個々のサイズ分布メトリクスが、複数のパーティションの各パーティションに対応する、第１のセグメントに含まれるオフターゲット配列表示のセットの数を示す、個々の第１のセグメントの第１のサイズ分布メトリクスを生成することと、コンピューティングシステムによって、参照サイズ分布メトリクスに関する個々の第１のサイズ分布メトリクスに従って個々の第１のセグメントの正規化されたサイズ分布メトリクスを決定することと、コンピューティングシステムによって、個々の第２のセグメントに含まれるそれぞれの複数の個々の第１のセグメントの正規化されたサイズ分布メトリクスに基づいて個々の第２のセグメントについての第２のサイズ分布メトリクスを決定することと、を含む。

いくつかの態様において、方法は、記コンピューティングシステムによって、個々の第１のセグメントの個々の第１のカバレッジメトリクスを生成するために、個々の第１のセグメントに対応する配列表示の数を決定することと、コンピューティングシステムによって、個々の第１のカバレッジメトリクスに従って個々の第１のセグメントの第１の正規化されたカバレッジメトリクスを決定することと、コンピューティングシステムによって、参照カバレッジメトリクスに関する、個々の第１のカバレッジメトリクスに従って個々の第１のセグメントの第２の正規化されたサイズ分布メトリクスを決定することと、コンピューティングシステムによって、第１の正規化されたカバレッジメトリクスおよび第２の正規化されたカバレッジメトリクスに基づいて個々の第２のセグメントの第２のカバレッジメトリクスを決定することと、を含む。

いくつかの態様において、個々の第２のセグメントに関する腫瘍細胞のコピー数の推定値は、コンピューティングシステムにより、第２のサイズ分布メトリクスに基づいて個々の第２のセグメントに対する腫瘍細胞のコピー数の第１の推定値と、第２のカバレッジメトリクスに基づいて個々の第２のセグメントに対する腫瘍細胞のコピー数の第２の推定値とを決定することによって作成される、個々の第２のセグメントに関する腫瘍細胞のコピー数の総推定値である。

いくつかの態様において、方法は、コンピューティングシステムによって、試料に関連する突然変異体対立遺伝子の数に対する試料に関連する野生型対立遺伝子の数の比を決定することと、コンピューティングシステムによって、比に基づいてヘテロ接合一塩基多型（ＳＮＰ）メトリックを決定することと、を含む。

いくつかの態様において、方法は、コンピューティングシステムによって、ＳＮＰメトリックに基づいて試料の腫瘍割合の追加の推定値を決定することと、コンピューティングシステムによって、ＳＮＰメトリックに基づいて、試料に関連する腫瘍細胞のコピー数の追加の推定値を決定することとを含む。

いくつかの態様において、方法は、コンピューティングシステムによって、試料に関連する腫瘍細胞のコピー数の推定値を作成する尤度関数に対応するモデルのパラメータを決定することを含み、モデルのパラメータは、個々の第２のセグメントに対する腫瘍細胞のコピー数の個々の推定値の少なくとも一部分に対応し、試料の腫瘍割合の推定値に対応する。

いくつかの態様において、モデルのパラメータは、１またはそれを超えるＳＮＰメトリクスに対応し、１またはそれを超えるＳＮＰメトリクスの個々のＳＮＰメトリクスは、野生型対立遺伝子の数に対する突然変異体対立遺伝子の数のそれぞれの比に関連する。

いくつかの態様において、個々の第１のセグメントの少なくとも一部分は、参照ヒトゲノムの約３０，０００ヌクレオチド～約１５０，０００ヌクレオチドを含む。

いくつかの態様において、個々の第２のセグメントの少なくとも一部分は、参照ヒトゲノムの少なくとも約１００万ヌクレオチド～約１０００万ヌクレオチドを含み、第２のセグメントは、１またはそれを超える循環バイナリセグメント化プロセスによって決定される。

いくつかの態様において、試料は対象の組織に由来する。

いくつかの態様において、試料は、対象から得られた流体に由来する。

いくつかの態様において、方法は、コンピューティングシステムによって、個々の第２の定量的メトリクスに基づいて試料の腫瘍割合についての推定値を決定することを含む。

いくつかの態様において、試料の腫瘍割合の推定値および個々の第２のセグメントに対する腫瘍細胞のコピー数の推定値は、観察された定量的尺度＝２＊（１－ＴＦ）＋ｎ＊ＴＦ（式中、ｎは腫瘍細胞コピー数であり、ＴＦは試料の腫瘍割合である）に基づいて決定され、観察された定量的尺度は、第２の定量的尺度の少なくとも一部分を含む。

いくつかの態様において、方法は、コンピューティングシステムによって、個々の第１のセグメントに対応し、１またはそれを超える一塩基多型（ＳＮＰ）に対応する配列表示の数を決定することと、コンピューティングシステムによって、個々のＳＮＰに対応する配列表示の数に基づいて、個々のＳＮＰに対する突然変異体対立遺伝子割合を決定することと、を含む。

いくつかの態様において、参照ヒトゲノムの第２のセグメントは、個々の第１のセグメントについての突然突然変異体対立遺伝子割合に基づいて決定される。

いくつかの態様において、１またはそれを超えるＳＮＰは、ヘテロ接合生殖系列ＳＮＰに対応する。

いくつかの態様において、１またはそれを超えるＳＮＰは、１またはそれを超える癌のタイプに対するドライバ突然変異に対応する。

いくつかの態様において、方法は、コンピューティングシステムによって、参照ヒトゲノムの第２のセグメントの第１の推定値を決定するために、第２の正規化された定量的尺度に基づいて循環バイナリセグメント化プロセスの第１の実施態様を実施することと、コンピューティングシステムによって、参照ヒトゲノムの第２のセグメントの第２の推定値を決定するために、個々の第１のセグメントの突然変異体対立遺伝子割合に基づいて、循環バイナリセグメント化プロセスの第２の実施態様を実施することと、を含む。

いくつかの態様においてコンピューティングシステムは、１またはそれを超えるハードウェアプロセッサと、１またはそれを超えるハードウェアプロセッサによって実行されると、１またはそれを超えるハードウェアプロセッサに、試料に含まれるポリヌクレオチド分子に関する配列表示を示す配列データを取得することと、参照ヒトゲノムの一部分に関して少なくとも閾値量の相同性を有する１またはそれを超える配列表示を決定するアラインメントプロセスを行うことによって、アラインメントされた配列表示のセットを生成することと、参照ヒトゲノムの標的領域に対応しないアラインメントされた配列表示の数の第１の部分を同定することによってオフターゲット配列表示のセットを決定することと、参照ヒトゲノムの標的領域に対応するアラインメントされた配列表示の数の第２の部分を同定することによって、オンターゲット配列表示のセットを決定することと、参照ヒトゲノムの第１のセグメントを決定することであって、第１のセグメントが標的領域を含まない、参照ヒトゲノムの第１のセグメントを決定することと、個々の第１のセグメントに対応するオフターゲット配列表示のセットのそれぞれのサブセットに基づいて個々の第１のセグメントに対する第１の定量的尺度を決定することと、個々の第１のセグメントの追加の定量的尺度に関して個々の第１のセグメントの第１の正規化された定量的尺度を決定することと、個々の第１のセグメントの参照定量的尺度に対して個々の第１の正規化された定量的尺度を調整することによって、個々の第１のセグメントの第２の正規化された定量的尺度を決定することと、参照ヒトゲノムの第２のセグメントを決定することであって、個々の第２のセグメントが、個々の第１のセグメントよりも多数のヌクレオチドを含み、複数の個々の第１のセグメントを含む、参照ヒトゲノムの第２のセグメントを決定することと、個々の第２のセグメントに含まれるそれぞれの複数の個々の第１のセグメントの第１の正規化された定量的尺度および第２の正規化された定量的尺度に基づいて、個々の第２のセグメントに対する第２の定量的尺度を決定することと、個々の第２のセグメントに対応する個々の第２の定量的尺度に基づいて、個々の第２のセグメントに関する腫瘍細胞のコピー数の推定値を決定することと、を含む動作を実施させる、コンピュータ可読命令を含む、１またはそれを超える非一時的コンピュータ可読記憶媒体を含む。

いくつかの態様において、追加の定量的尺度は、第１のセグメントに対する配列表示の中央数に対応する。

いくつかの態様においてコンピューティングシステムの１またはそれを超える非一時的コンピュータ可読記憶媒体は、１またはそれを超えるハードウェアプロセッサによって実行されると、１またはそれを超えるハードウェアプロセッサに、第２のセグメントを決定する前に、個々の第１のセグメントにおける各配列表示についてのマッピング可能性スコアを決定することであって、マッピング可能性スコアが、ヒト参照ゲノムの複数の部分間の相同性の量を示し、ヒト参照ゲノムの複数の部分のうちのヒト参照ゲノムの各部分が、ヒト参照ゲノムの複数の部分のうちのヒト参照ゲノムの追加の部分と少なくとも閾値量の相同性を有することと、個々の第１のセグメントにおけるマッピング可能性スコアの複数のパーティションからのマッピング可能性スコアのパーティションに対応する配列表示の頻度を決定することであって、マッピング可能性スコアの複数のパーティションのマッピング可能性スコアの各パーティションが、マッピング可能性スコアの値の異なる範囲に対応することと、個々の第１のセグメント内のマッピング可能性スコアの複数のパーティションに対応する配列表示の頻度に基づいて、個々の第１のセグメントに対する予想される定量的尺度を決定することと、個々の第１のセグメントの予想される定量的尺度に基づいて、個々の第１のセグメントのマッピング可能性スコア－正規化定量的尺度を決定することと、を含む、追加の動作を実施させる追加のコンピュータ可読命令を含む。

いくつかの態様においてコンピューティングシステムの１またはそれを超える非一時的コンピュータ可読記憶媒体は、１またはそれを超えるハードウェアプロセッサによって実行されると、１またはそれを超えるハードウェアプロセッサに、第２のセグメントを決定する前に、個々の第１のセグメントに対応するオフターゲット配列表示のセットの一部分に含まれるグアニンヌクレオチドおよびシトシンヌクレオチドの数を示すグアニンシトシン（ＧＣ）含有量を決定することと、個々の第１のセグメント内のＧＣコンテンツの複数のパーティションからＧＣ含有量のパーティションに対応する配列表示の頻度を決定することであって、ＧＣ含有量の複数のパーティションのＧＣ含有量の各パーティションは、ＧＣ含有量の値の異なる範囲に対応することと、個々の第１のセグメント内のＧＣ含有量の複数のパーティションに対応する配列表示の頻度に基づいて、個々の第１のセグメントに対する予想される定量的尺度を決定することと、個々の第１のセグメントの予想される定量的尺度に基づいて、個々の第１のセグメントのＧＣ正規化された定量的尺度を決定することと、を含む、追加の動作を実施させる追加のコンピュータ可読命令を含む。

いくつかの態様においてコンピューティングシステムの１またはそれを超える非一時的コンピュータ可読記憶媒体は、１またはそれを超えるハードウェアプロセッサによって実行されると、１またはそれを超えるハードウェアプロセッサに、個々の第１のセグメントに対応する配列表示が、標的領域と少なくとも閾値量の相同性を有すると決定することと、個々の第１のセグメントの第１の定量的尺度が、個々の第２のカバレッジメトリクスを決定することから除外されると決定することと、を含む追加の動作を実施させる追加のコンピュータ可読命令を含む。

いくつかの態様において、コンピューティングシステムの１またはそれを超える非一時的コンピュータ可読記憶媒体は、１またはそれを超えるハードウェアプロセッサによって実行されると、１またはそれを超えるハードウェアプロセッサに、訓練試料から得られた追加のポリヌクレオチド分子の追加の配列表示を示す訓練配列データを取得することであって、訓練試料が、コピー数の変化が検出されない個体から得られる、訓練試料から得られた追加のポリヌクレオチド分子の追加の配列表示を示すことと、参照ヒトゲノムの一部分に関して少なくとも閾値量の相同性を有する１またはそれを超える追加の配列表示を決定する追加のアラインメントプロセスを行うことによって、多数のアラインメントされた参照配列表示を作成することと、参照ヒトゲノムの標的領域に対応しない追加のアラインメントされた配列表示の数の部分を同定することによってオフターゲット配列表示の追加のセットを決定することと、個々の第１のセグメントに含まれるオフターゲット配列表示の追加のセットの数に基づいて個々の第１のセグメントに対する個々の参照定量的尺度を決定することと、を含む追加の動作を実施させる追加のコンピュータ可読命令を含む。

いくつかの態様において、コンピューティングシステムの１またはそれを超える非一時的コンピュータ可読記憶媒体は、１またはそれを超えるハードウェアプロセッサによって実行されると、１またはそれを超えるハードウェアプロセッサに、個々の標的領域に対応するオンターゲット配列表示のセットに含まれるオンターゲット配列表示のそれぞれの数を決定することと、個々の標的領域に対応するオンターゲット配列表示のそれぞれの数に基づいて、個々の標的領域に対する個々の更なる定量的尺度を決定することと、を含む追加の動作を実施させる追加のコンピュータ可読命令を含み、試料に関連する腫瘍細胞のコピー数の推定値は、個々の更なる定量的尺度に基づく。

いくつかの態様において、第１の定量的尺度は、個々の第１のセグメントの第１のサイズ分布メトリクスを含み、第１の正規化された定量的尺度または第２の正規化された定量的尺度のうちの少なくとも１つは、正規化されたサイズ分布メトリクスに対応し、参照定量的尺度は、参照サイズ分布メトリクスであり、第２の定量的尺度は、個々の第２のセグメントの第２のサイズ分布メトリクスを含む。

いくつかの態様においてコンピューティングシステムの１またはそれを超える非一時的コンピュータ可読記憶媒体は、１またはそれを超えるハードウェアプロセッサによって実行されると、１またはそれを超えるハードウェアプロセッサに、個々の第１のセグメントの配列表示のための個々のサイズ分布メトリクスを生成するために、個々の第１のセグメントに対応する個々の配列表示に含まれるヌクレオチドの数を決定することと、サイズ分布が、配列表示のサイズのそれぞれの範囲にそれぞれ対応する複数のパーティションを含み、個々の第１のセグメントについての個々のサイズ分布メトリクスが、複数のパーティションの各パーティションに対応する、第１のセグメントに含まれるオフターゲット配列表示のセットの数を示す、個々の第１のセグメントの個々の第１のサイズ分布メトリクスを決定することと、参照サイズ分布メトリクスに関する個々の第１のサイズ分布メトリクスに従って個々の第１のセグメントの正規化されたサイズ分布メトリクスを決定することと、個々の第２のセグメントに含まれるそれぞれの複数の個々の第１のセグメントの正規化されたサイズ分布メトリクスに基づいて個々の第２のセグメントについての第２のサイズ分布メトリクスを決定することと、コンピューティングシステムによって、個々の第２のセグメントに対応する個々の第２のサイズ分布メトリクスに基づいて、個々の第２のセグメントに関する腫瘍細胞のコピー数の追加の推定値を決定することと、を含む追加の動作を実施させる追加のコンピュータ可読命令を含む。

いくつかの態様においてコンピューティングシステムの１またはそれを超える非一時的コンピュータ可読記憶媒体は、１またはそれを超えるハードウェアプロセッサによって実行されると、１またはそれを超えるハードウェアプロセッサに、個々の第１のセグメントの個々の第１のカバレッジメトリクスを生成するために、個々の第１のセグメントに対応する配列表示の数を決定することと、個々の第１のカバレッジメトリクスに従って個々の第１のセグメントの第１の正規化されたカバレッジメトリクスを決定することと、参照カバレッジメトリクスに関する、個々の第１のカバレッジメトリクスに従って個々の第１のセグメントの第２の正規化されたカバレッジメトリクスを決定することと、第１の正規化されたカバレッジメトリクスおよび第２の正規化されたカバレッジメトリクスに基づいて個々の第２のセグメントの第２のカバレッジメトリクスを決定することと、を含む追加の動作を実施させる追加のコンピュータ可読命令を含み、個々の第２のセグメントに関する腫瘍細胞のコピー数の推定値は、個々の第２のセグメントに対応する個々の第２のカバレッジメトリクスに基づく。

いくつかの態様においてコンピューティングシステムの１またはそれを超える非一時的コンピュータ可読記憶媒体は、１またはそれを超えるハードウェアプロセッサによって実行されると、１またはそれを超えるハードウェアプロセッサに、個々の第１のセグメントに対応する個々の配列表示に含まれるヌクレオチドの数を決定することによって個々の配列表示のサイズを決定することと、個々の配列表示のそれぞれのサイズに基づいて、個々の第１のセグメントの第１のサイズ分布メトリクスを生成することであって、サイズ分布が、配列表示のサイズのそれぞれの範囲にそれぞれ対応する複数のパーティションを含み、個々の第１のセグメントについての個々のサイズ分布メトリクスが、複数のパーティションの各パーティションに対応する、第１のセグメントに含まれるオフターゲット配列表示のセットの数を示す、個々の第１のセグメントの第１のサイズ分布メトリクスを生成することと、参照サイズ分布メトリクスに関する個々の第１のサイズ分布メトリクスに従って個々の第１のセグメントの正規化されたサイズ分布メトリクスを決定することと、個々の第２のセグメントに含まれるそれぞれの複数の個々の第１のセグメントの正規化されたサイズ分布メトリクスに基づいて個々の第２のセグメントについての第２のサイズ分布メトリクスを決定することと、を含む追加の動作を実施させる追加のコンピュータ可読命令を含む。

いくつかの態様においてコンピューティングシステムの１またはそれを超える非一時的コンピュータ可読記憶媒体は、１またはそれを超えるハードウェアプロセッサによって実行されると、１またはそれを超えるハードウェアプロセッサに、個々の第１のセグメントの個々の第１のカバレッジメトリクスを生成するために、個々の第１のセグメントに対応する配列表示の数を決定することと、個々の第１のカバレッジメトリクスに従って個々の第１のセグメントの第１の正規化されたカバレッジメトリクスを決定することと、参照カバレッジメトリクスに関する、個々の第１のカバレッジメトリクスに従って個々の第１のセグメントの第２の正規化されたサイズ分布メトリクスを決定することと、第１の正規化されたカバレッジメトリクスおよび第２の正規化されたカバレッジメトリクスに基づいて個々の第２のセグメントの第２のカバレッジメトリクスを決定することと、を含む追加の動作を実施させる追加のコンピュータ可読命令を含む。

いくつかの態様において、コンピューティングシステムの１またはそれを超える非一時的コンピュータ可読記憶媒体は、１またはそれを超えるハードウェアプロセッサによって実行されると、１またはそれを超えるハードウェアプロセッサに、試料に関連する突然変異体対立遺伝子の数に対する試料に関連する野生型対立遺伝子の数の比を決定することと、比に基づいてヘテロ接合一塩基多型（ＳＮＰ）メトリクスを決定することと、を含む追加の動作を実施させる追加のコンピュータ可読命令を含む。

いくつかの態様においてコンピューティングシステムの１またはそれを超える非一時的コンピュータ可読記憶媒体は、１またはそれを超えるハードウェアプロセッサによって実行されると、１またはそれを超えるハードウェアプロセッサに、ＳＮＰメトリックに基づいて試料の腫瘍割合の追加の推定値を決定することと、ＳＮＰメトリックに基づいて、試料に関連する腫瘍細胞のコピー数の追加の推定値を決定することと、を含む追加の動作を実施させる追加のコンピュータ可読命令を含む。

いくつかの態様においてコンピューティングシステムの１またはそれを超える非一時的コンピュータ可読記憶媒体は、１またはそれを超えるハードウェアプロセッサによって実行されると、１またはそれを超えるハードウェアプロセッサに、試料に関連する腫瘍細胞のコピー数の推定値を作成する尤度関数に対応するモデルのパラメータを決定することを含む追加の動作を実施させる追加のコンピュータ可読命令を含み、モデルのパラメータは、個々の第２のセグメントに対する腫瘍細胞のコピー数の個々の推定値の少なくとも一部分に対応し、試料の腫瘍割合の推定値に対応する。

いくつかの態様において、試料は対象の組織に由来する。

いくつかの態様においてコンピューティングシステムの１またはそれを超える非一時的コンピュータ可読記憶媒体は、１またはそれを超えるハードウェアプロセッサによって実行されると、１またはそれを超えるハードウェアプロセッサに、個々の第２の定量的メトリクスに基づいて試料の腫瘍割合の推定値を決定することを含む追加の動作を実施させる追加のコンピュータ可読命令を含む。

いくつかの態様において、コンピューティングシステムの１またはそれを超える非一時的コンピュータ可読記憶媒体は、１またはそれを超えるハードウェアプロセッサによって実行されると、１またはそれを超えるハードウェアプロセッサに、コンピューティングシステムによって、個々の第１のセグメントに対応し、１またはそれを超える一塩基多型（ＳＮＰ）に対応する配列表示の数を決定することと、コンピューティングシステムによって、個々のＳＮＰに対応する配列表示の数に基づいて、個々のＳＮＰに対する突然変異体対立遺伝子割合を決定することと、を含む、追加の動作を実施させる追加のコンピュータ可読命令を含む。

いくつかの態様においてコンピューティングシステムの１またはそれを超える非一時的コンピュータ可読記憶媒体は、１またはそれを超えるハードウェアプロセッサによって実行されると、１またはそれを超えるハードウェアプロセッサに、コンピューティングシステムによって、参照ヒトゲノムの第２のセグメントの第１の推定値を決定するために、第２の正規化された定量的尺度に基づいて循環バイナリセグメント化プロセスの第１の実施態様を実施することと、コンピューティングシステムによって、参照ヒトゲノムの第２のセグメントの第２の推定値を決定するために、個々の第１のセグメントの突然変異体対立遺伝子割合に基づいて、循環バイナリセグメント化プロセスの第２の実施態様を実施することと、を含む追加の動作を実施させる追加のコンピュータ可読命令を含む。

いくつかの態様において、１またはそれを超えるコンピュータ可読記憶媒体は、コンピューティングシステムの１またはそれを超えるプロセッサによって実行されると、コンピューティングシステムに、試料に含まれるポリヌクレオチド分子に関する配列表示を示す配列データを取得することと、参照ヒトゲノムの一部分に関して少なくとも閾値量の相同性を有する１またはそれを超える配列表示を決定するアラインメントプロセスを行うことによって、アラインメントされた配列表示のセットを生成することと、参照ヒトゲノムの標的領域に対応しないアラインメントされた配列表示の数の第１の部分を同定することによってオフターゲット配列表示のセットを決定することと、参照ヒトゲノムの標的領域に対応するアラインメントされた配列表示の数の第２の部分を同定することによって、オンターゲット配列表示のセットを決定することと、参照ヒトゲノムの第１のセグメントを決定することであって、第１のセグメントが標的領域を含まない、参照ヒトゲノムの第１のセグメントを決定することと、個々の第１のセグメントに対応するオフターゲット配列表示のセットのそれぞれのサブセットに基づいて個々の第１のセグメントに対する第１の定量的尺度を決定することと、個々の第１のセグメントの追加の定量的尺度に関して個々の第１のセグメントの第１の正規化された定量的尺度を決定することと、個々の第１のセグメントの参照定量的尺度に対して個々の第１の正規化された定量的尺度を調整することによって、個々の第１のセグメントの第２の正規化された定量的尺度を決定することと、参照ヒトゲノムの第２のセグメントを決定することであって、個々の第２のセグメントが、個々の第１のセグメントよりも多数のヌクレオチドを含み、複数の個々の第１のセグメントを含む、参照ヒトゲノムの第２のセグメントを決定することと、個々の第２のセグメントに含まれるそれぞれの複数の個々の第１のセグメントの第１の正規化された定量的尺度および第２の正規化された定量的尺度に基づいて、個々の第２のセグメントに対する第２の定量的尺度を決定することと、個々の第２のセグメントに対応する個々の第２の定量的尺度に基づいて、個々の第２のセグメントに関する腫瘍細胞のコピー数の推定値を決定することと、を含む動作を実施させるコンピュータ可読命令を含む。

いくつかの態様において、コンピュータ可読記憶媒体は、コンピューティングシステムの１またはそれを超えるプロセッサによって実行されると、コンピューティングシステムに、第２のセグメントを決定する前に、個々の第１のセグメントに対応するオフターゲット配列表示のセットの一部分に含まれるグアニンヌクレオチドおよびシトシンヌクレオチドの数を示すグアニンシトシン（ＧＣ）含有量を決定することと、個々の第１のセグメント内のＧＣコンテンツの複数のパーティションからＧＣ含有量のパーティションに対応する配列表示の頻度を決定することであって、ＧＣ含有量の複数のパーティションのＧＣ含有量の各パーティションは、ＧＣ含有量の値の異なる範囲に対応することと、個々の第１のセグメント内のＧＣ含有量の複数のパーティションに対応する配列表示の頻度に基づいて、個々の第１のセグメントに対する予想される定量的尺度を決定することと、個々の第１のセグメントの予想される定量的尺度に基づいて、個々の第１のセグメントのＧＣ正規化された定量的尺度を決定することと、を含む動作を実施させるコンピュータ可読命令を含む。

いくつかの態様において、１またはそれを超えるコンピュータ可読記憶媒体は、コンピューティングシステムの１またはそれを超えるプロセッサによって実行されると、コンピューティングシステムに、第２のセグメントを決定する前に、個々の第１のセグメントにおける各配列表示についてのマッピング可能性スコアを決定することであって、マッピング可能性スコアが、ヒト参照ゲノムの複数の部分間の相同性の量を示し、ヒト参照ゲノムの複数の部分のうちのヒト参照ゲノムの各部分が、ヒト参照ゲノムの複数の部分のうちのヒト参照ゲノムの追加の部分と少なくとも閾値量の相同性を有することと、個々の第１のセグメントにおけるマッピング可能性スコアの複数のパーティションからのマッピング可能性スコアのパーティションに対応する配列表示の頻度を決定することであって、マッピング可能性スコアの複数のパーティションのマッピング可能性スコアの各パーティションが、マッピング可能性スコアの値の異なる範囲に対応することと、個々の第１のセグメント内のマッピング可能性スコアの複数のパーティションに対応する配列表示の頻度に基づいて、個々の第１のセグメントに対する予想される定量的尺度を決定することと、個々の第１のセグメントの予想される定量的尺度に基づいて、個々の第１のセグメントのマッピング可能性スコア－正規化定量的尺度を決定することと、を含む動作を実施させるコンピュータ可読命令を含む。

いくつかの態様において、１またはそれを超えるコンピュータ可読記憶媒体は、コンピューティングシステムの１またはそれを超えるプロセッサによって実行されると、コンピューティングシステムに、個々の第１のセグメントに対応する配列表示が、標的領域と少なくとも閾値量の相同性を有すると決定することと、個々の第１のセグメントの第１の定量的尺度が、個々の第２のカバレッジメトリクスを決定することから除外されると決定することと、を含む動作を実施させるコンピュータ可読命令を含む。

いくつかの態様において、１またはそれを超えるコンピュータ可読記憶媒体は、コンピューティングシステムの１またはそれを超えるプロセッサによって実行されると、コンピューティングシステムに、訓練試料から得られた追加のポリヌクレオチド分子の追加の配列表示を示す訓練配列データを取得することであって、訓練試料が、コピー数の変化が検出されない個体から得られる、訓練試料から得られた追加のポリヌクレオチド分子の追加の配列表示を示すことと、参照ヒトゲノムの一部分に関して少なくとも閾値量の相同性を有する１またはそれを超える追加の配列表示を決定する追加のアラインメントプロセスを行うことによって、多数のアラインメントされた参照配列表示を作成することと、参照ヒトゲノムの標的領域に対応しない追加のアラインメントされた配列表示の数の部分を同定することによってオフターゲット配列表示の追加のセットを決定することと、個々の第１のセグメントに含まれるオフターゲット配列表示の追加のセットの数に基づいて個々の第１のセグメントに対する個々の参照定量的尺度を決定することと、を含む動作を実施させるコンピュータ可読命令を含む。

いくつかの態様において、１またはそれを超えるコンピュータ可読記憶媒体は、コンピューティングシステムの１またはそれを超えるプロセッサによって実行されると、コンピューティングシステムに、個々の標的領域に対応するオンターゲット配列表示のセットに含まれるオンターゲット配列表示のそれぞれの数を決定することと、個々の標的領域に対応するオンターゲット配列表示のそれぞれの数に基づいて、個々の標的領域に対する個々の更なる定量的尺度を決定することと、を含む動作を実施させるコンピュータ可読命令を含み、試料に関連する腫瘍細胞のコピー数の推定値は、個々の更なる定量的尺度に基づく。

いくつかの態様において、１またはそれを超えるコンピュータ可読記憶媒体は、コンピューティングシステムの１またはそれを超えるプロセッサによって実行されると、コンピューティングシステムに、個々の第１のセグメントの配列表示のための個々のサイズ分布メトリクスを生成するために、個々の第１のセグメントに対応する個々の配列表示に含まれるヌクレオチドの数を決定することと、サイズ分布が、配列表示のサイズのそれぞれの範囲にそれぞれ対応する複数のパーティションを含み、個々の第１のセグメントについての個々のサイズ分布メトリクスが、複数のパーティションの各パーティションに対応する、第１のセグメントに含まれるオフターゲット配列表示のセットの数を示す、個々の第１のセグメントの個々の第１のサイズ分布メトリクスを決定することと、参照サイズ分布メトリクスに関する個々の第１のサイズ分布メトリクスに従って個々の第１のセグメントの正規化されたサイズ分布メトリクスを決定することと、個々の第２のセグメントに含まれるそれぞれの複数の個々の第１のセグメントの正規化されたサイズ分布メトリクスに基づいて個々の第２のセグメントについての第２のサイズ分布メトリクスを決定することと、個々の第２のセグメントに対応する個々の第２のサイズ分布メトリクスに基づいて、個々の第２のセグメントに関する腫瘍細胞のコピー数の追加の推定値を決定することと、を含む動作を実施させるコンピュータ可読命令を含む。

いくつかの態様において、１またはそれを超えるコンピュータ可読記憶媒体は、コンピューティングシステムの１またはそれを超えるプロセッサによって実行されると、コンピューティングシステムに、個々の第１のセグメントの個々の第１のカバレッジメトリクスを生成するために、個々の第１のセグメントに対応する配列表示の数を決定することと、個々の第１のカバレッジメトリクスに従って個々の第１のセグメントの第１の正規化されたカバレッジメトリクスを決定することと、参照カバレッジメトリクスに関する、個々の第１のカバレッジメトリクスに従って個々の第１のセグメントの第２の正規化されたカバレッジメトリクスを決定することと、第１の正規化されたカバレッジメトリクスおよび第２の正規化されたカバレッジメトリクスに基づいて個々の第２のセグメントの第２のカバレッジメトリクスを決定することと、を含む動作を実施させるコンピュータ可読命令を含み、個々の第２のセグメントに関する腫瘍細胞のコピー数の推定値は、個々の第２のセグメントに対応する個々の第２のカバレッジメトリクスに基づく。

いくつかの態様において、コンピュータ可読記憶媒体は、コンピューティングシステムの１またはそれを超えるプロセッサによって実行されると、コンピューティングシステムに、個々の第１のセグメントに対応する個々の配列表示に含まれるヌクレオチドの数を決定するによって個々の配列表示のサイズを決定することと、個々の配列表示のそれぞれのサイズに基づいて、個々の第１のセグメントの第１のサイズ分布メトリクスを生成することであって、サイズ分布が、配列表示のサイズのそれぞれの範囲にそれぞれ対応する複数のパーティションを含み、個々の第１のセグメントについての個々のサイズ分布メトリクスが、複数のパーティションの各パーティションに対応する、第１のセグメントに含まれるオフターゲット配列表示のセットの数を示す、個々の第１のセグメントの第１のサイズ分布メトリクスを生成することと、参照サイズ分布メトリクスに関する個々の第１のサイズ分布メトリクスに従って個々の第１のセグメントの正規化されたサイズ分布メトリクスを決定することと、個々の第２のセグメントに含まれるそれぞれの複数の個々の第１のセグメントの正規化されたサイズ分布メトリクスに基づいて個々の第２のセグメントについての第２のサイズ分布メトリクスを決定することと、を含む動作を実施させるコンピュータ可読命令を含む。

いくつかの態様において、コンピュータ可読記憶媒体は、コンピューティングシステムの１またはそれを超えるプロセッサによって実行されると、コンピューティングシステムに、個々の第１のセグメントの個々の第１のカバレッジメトリクスを生成するために、個々の第１のセグメントに対応する配列表示の数を決定することと、個々の第１のカバレッジメトリクスに従って個々の第１のセグメントの第１の正規化されたカバレッジメトリクスを決定することと、参照カバレッジメトリクスに関する、個々の第１のカバレッジメトリクスに従って個々の第１のセグメントの第２の正規化されたサイズ分布メトリクスを決定することと、第１の正規化されたカバレッジメトリクスおよび第２の正規化されたカバレッジメトリクスに基づいて個々の第２のセグメントの第２のカバレッジメトリクスを決定することと、を含む動作を実施させるコンピュータ可読命令を含む。

いくつかの態様において、コンピュータ可読記憶媒体は、コンピューティングシステムの１またはそれを超えるプロセッサによって実行されると、コンピューティングシステムに、試料に関連する多数の突然変異体対立遺伝子に対する試料に関連する多数の野生型対立遺伝子の比を決定することと、比に基づいてヘテロ接合一塩基多型（ＳＮＰ）メトリクスを決定することとを含む動作を実施させるコンピュータ可読命令を含む。

いくつかの態様において、コンピュータ可読記憶媒体は、コンピューティングシステムの１またはそれを超えるプロセッサによって実行された場合に、ＳＮＰメトリックに基づいて試料の腫瘍割合の追加の推定値を決定することと、ＳＮＰメトリックに基づいて、試料に関連する腫瘍細胞のコピー数の更なる推定値を決定することと、を含む、動作をコンピューティングシステムに実施させるコンピュータ可読命令を含む。

いくつかの態様においてコンピュータ可読記憶媒体は、コンピューティングシステムの１またはそれを超えるプロセッサによって実行されると、試料に関連する腫瘍細胞のコピー数の推定値を作成する尤度関数に対応するモデルのパラメータを決定することを府含む動作をコンピューティングシステムに実施させるコンピュータ可読命令を含み、モデルのパラメータは、個々の第２のセグメントに対する腫瘍細胞のコピー数の個々の推定値の少なくとも一部分に対応し、試料の腫瘍割合の推定値に対応する。

いくつかの態様において、コンピュータ可読記憶媒体は、コンピューティングシステムの１またはそれを超えるプロセッサによって実行されると、コンピューティングシステムに、個々の第２の定量的メトリクスに基づいて試料の腫瘍割合の推定値を決定することを含む動作を実施させるコンピュータ可読命令を含む。

いくつかの態様において、コンピュータ可読記憶媒体は、コンピューティングシステムの１またはそれを超えるプロセッサによって実行されると、コンピューティングシステムによって、個々の第１のセグメントに対応し、１またはそれを超える一塩基多型（ＳＮＰ）に対応するいくつかの配列表示を決定することと、コンピューティングシステムにより、個々のＳＮＰに対応する配列表示の数に基づいて、個々のＳＮＰに対する突然変異体対立遺伝子割合を決定することとを含む動作をコンピューティングシステムに実施させるコンピュータ可読命令を含む。

いくつかの態様においてコンピュータ可読記憶媒体は、コンピューティングシステムの１またはそれを超えるプロセッサによって実行されると、コンピューティングシステムに、コンピューティングシステムによって、参照ヒトゲノムの第２のセグメントの第１の推定値を決定するために、第２の正規化された定量的尺度に基づいて循環バイナリセグメント化プロセスの第１の実施態様を実施することと、参照ヒトゲノムの第２のセグメントの第２の推定値を決定するために、個々の第１のセグメントの突然変異体対立遺伝子割合に基づいて、循環バイナリセグメント化プロセスの第２の実施をコンピューティングシステムによって実施することと、を含む動作を実施させるコンピュータ可読命令を含む。

いくつかの態様において、方法は、それぞれが１またはそれを超えるプロセッサおよびメモリを有する１またはそれを超えるコンピューティングデバイスを含むコンピューティングシステムによって、試料に含まれるポリヌクレオチド分子の配列表示を示す配列データを取得することと、コンピューティングシステムによって、参照ヒトゲノムの一部分に関して少なくとも閾値量の相同性を有する１またはそれを超える配列表示を決定するアラインメントプロセスを行うことによって、多数のアラインメントされた配列表示を作成することと、コンピューティングシステムにより、参照ヒトゲノムの標的領域に対応しないアラインメントされた配列表示の数の部分を同定することによってオフターゲット配列表示のセットを決定することと、コンピューティングシステムによって、複数のセグメント化プロセスを実施して、参照ヒトゲノムのセグメントの数を決定することと、コンピューティングシステムによって、個々のセグメントに対応するオフターゲット配列表示のセットの一部分に基づいて、参照ヒトゲノムの個々のセグメントについての個々の定量的尺度を決定することと、コンピューティングシステムによって、個々の定量的メトリクス、個々のセグメントに対応する腫瘍細胞のコピー数の複数の推定値の個々の推定値に基づいて、試料に関連する腫瘍細胞のコピー数の複数の推定値を決定することと、を含む。

いくつかの態様において、複数のセグメント化プロセスは、コンピューティングシステムにより、参照ヒトゲノムの第１のセグメントを決定することであって、第１のセグメントが標的領域を含まない、参照ヒトゲノムの第１のセグメントを決定することを含む、第１のセグメント化プロセス、およびコンピューティングシステムによって、参照ヒトゲノムの第２のセグメントを決定することであって、個々の第２のセグメントが、個々の第１のセグメントよりも多数のヌクレオチドを含み、複数の個々の第１のセグメントを含む、参照ヒトゲノムの第２のセグメントを決定することを含む第２のセグメント化プロセスを含む。

いくつかの態様において、個々の定量的尺度は、個々のカバレッジメトリクスに対応し、方法は、コンピューティングシステムによって、参照ヒトゲノムの個々の第１のセグメントの個々についての第１のカバレッジメトリクスを、個々の第１のセグメントに含まれるオフターゲットポリヌクレオチド配列表示のセットの数に基づいて決定することと、コンピューティングシステムによって、個々の第１のカバレッジメトリクスに従って個々の第１のセグメントの正規化されたカバレッジメトリクスを決定することと、コンピューティングシステムによって、個々の第２のセグメントに含まれるそれぞれの複数の個々のセグメントの正規化されたカバレッジメトリクスに基づいて、参照ヒトゲノムの個々の第２のセグメントの個々についての第２のカバレッジメトリクスを決定することと、を含む。

いくつかの態様において、正規化されたカバレッジメトリクスは、コンピューティングシステムによって、個々の第１のセグメントの配列表示の中央数に関する個々の第１のカバレッジメトリクスに基づいて、個々の第１のセグメントに対する第１の正規化された定量的尺度を決定することにより決定される。

いくつかの態様において、方法は、コンピューティングシステムによって、個々の第１のセグメントの参照カバレッジメトリクスに関する個々のカバレッジメトリクスに基づいて、個々の第１のセグメントの第２の正規化された定量的尺度を決定することであって、参照カバレッジメトリクスが、コピー数多型が検出されない個体から得られた試料に基づいて決定される、個々の第１のセグメントの第２の正規化された定量的尺度を決定することと、コンピューティングシステムによって、個々の第１のセグメントに対する第２の正規化カバレッジメトリクスに関して個々の第１の正規化された定量的尺度を調整することと、を含む。

いくつかの態様において、試料に関連する腫瘍細胞のコピー数の推定値は、個々の第２のカバレッジメトリクスに基づく。

いくつかの態様において、個々の定量的尺度は、個々のサイズ分布メトリクスに対応し、方法は、コンピューティングシステムによって、個々の第１のセグメントの個々の第１のサイズ分布メトリクスを決定することであって、サイズ分布が、配列表示のサイズのそれぞれの範囲にそれぞれ対応する複数のパーティションを含み、個々の第１のセグメントについての個々のサイズ分布メトリクスが、複数のパーティションの各パーティションに対応する、第１のセグメントに含まれるオフターゲット配列表示のセットの数を示す、個々の第１のセグメントの個々の第１のサイズ分布メトリクスを決定することと、コンピューティングシステムによって、参照サイズ分布メトリクスに関する個々の第１のサイズ分布メトリクスに従って個々の第１のセグメントの正規化されたサイズ分布メトリクスを決定することと、コンピューティングシステムによって、個々の第２のセグメントに含まれるそれぞれの複数の個々の第１のセグメントの正規化されたサイズ分布メトリクスに基づいて、参照ヒトゲノムの個々の第２のセグメントについての個々の第２のサイズ分布メトリクスを決定することと、を含む。

いくつかの態様において、試料に関連する腫瘍細胞のコピー数の推定値は、個々の第２のサイズ分布メトリクスに基づく。

いくつかの態様において、方法は、コンピューティングシステムによって、試料に関連する突然変異体対立遺伝子の数に対する試料に関連する野生型対立遺伝子の数の比を決定することと、コンピューティングシステムによって、比に基づいてヘテロ接合一塩基多型（ＳＮＰ）メトリクスを決定することと、を含む。

いくつかの態様において、方法は、コンピューティングシステムにより、ＳＮＰメトリックに基づいて、試料に関連する腫瘍細胞のコピー数の追加の推定値を決定することを含む。

いくつかの態様において本方法は、コンピューティングシステムによって、個々の定量的尺度に基づいて試料の腫瘍割合の推定値を決定することを含む。

いくつかの態様において、腫瘍細胞のコピー数および試料の腫瘍割合についての推定値は、観察された定量的尺度＝２＊（１－ＴＦ）＋ｎ＊ＴＦ（式中、ｎは腫瘍細胞コピー数であり、ＴＦは試料の腫瘍割合である）に基づいて決定され、観察された定量的尺度は、定量的尺度の少なくとも一部分を含む。

いくつかの態様においてコンピューティングシステムは、１またはそれを超えるハードウェアプロセッサと、１またはそれを超えるハードウェアプロセッサによって実行されると、１またはそれを超えるハードウェアプロセッサに、試料含まれるポリヌクレオチド分子の配列表示を示すシーケンシングデータを取得することと、参照ヒトゲノムの一部分に関して少なくとも閾値量の相同性を有する１またはそれを超える配列表示を決定するアラインメントプロセスを行うことによって、多数のアラインメントされた配列表示を作成することと、参照ヒトゲノムの標的領域に対応しないアラインメントされた配列表示の数の部分を同定することによってオフターゲット配列表示のセットを決定することと、複数のセグメント化プロセスを実施して、参照ヒトゲノムのセグメントの数を決定することと、個々のセグメントに対応するオフターゲット配列表示のセットの一部分に基づいて、参照ヒトゲノムの個々のセグメントについての個々の定量的尺度を決定することと、個々の定量的メトリクス、個々のセグメントに対応する腫瘍細胞のコピー数の複数の推定値の個々の推定値に基づいて、試料に関連する腫瘍細胞のコピー数の複数の推定値を決定することと、を含む動作を実施させるコンピュータ可読命令を含む１またはそれを超える非一時的コンピュータ可読記憶媒体を含む。

いくつかの態様においてコンピューティングシステムの１またはそれを超える非一時的コンピュータ可読記憶媒体は、１またはそれを超えるハードウェアプロセッサによって実行されると、１またはそれを超えるハードウェアプロセッサに、参照ヒトゲノムの第１のセグメントを決定することを含む第１のセグメント化プロセスを実施することあって、第１のセグメントは標的領域を含まない、第１のセグメント化プロセスを実施することと、参照ヒトゲノムの第２のセグメントであって、個々の第１のセグメントよりも多数のヌクレオチドを含み、複数の個々の第１のセグメントを含む個々の第２のセグメントを決定することを含む、第２のセグメント化プロセスを実施することと、により複数のセグメント化プロセスを実施することを含む動作を実施させる、コンピュータ可読命令を含む。

いくつかの態様において、個々の定量的尺度は個々のカバレッジメトリクスに対応し、コンピューティングシステムの１またはそれを超える非一時的コンピュータ可読記憶媒体は、１またはそれを超えるハードウェアプロセッサによって実行されると、１またはそれを超えるハードウェアプロセッサに、個々の第１のセグメントの配列表示の中央数に関する個々の第１のカバレッジメトリクスに基づいて、個々の第１のセグメントに対する第１の正規化された定量的尺度を決定することにより、正規化されたカバレッジメトリクスを決定することを含む、追加の動作を実施させる追加のコンピュータ可読命令を含む。

いくつかの態様においてコンピューティングシステムの１またはそれを超える非一時的コンピュータ可読記憶媒体は、１またはそれを超えるハードウェアプロセッサによって実行されると、１またはそれを超えるハードウェアプロセッサに、個々の第１のセグメントの参照カバレッジメトリクスに関する個々のカバレッジメトリクスに基づいて、個々の第１のセグメントの第２の正規化された定量的尺度を決定することであって、参照カバレッジメトリクスが、コピー数多型が検出されない個体から得られた試料に基づいて決定される、個々の第１のセグメントの第２の正規化された定量的尺度を決定することと、個々の第１のセグメントに対する第２の正規化カバレッジメトリクスに関して個々の第１の正規化された定量的尺度を調整することと、を含む追加の動作を実施させる追加のコンピュータ可読命令を含む。

いくつかの態様において、個々の定量的尺度は個々のサイズ分布メトリクスに対応し、試料に関連する腫瘍細胞のコピー数の推定値は個々の第２のサイズ分布メトリクスに基づく。

いくつかの態様において、コンピューティングシステムの１またはそれを超える非一時的コンピュータ可読記憶媒体は、１またはそれを超えるハードウェアプロセッサによって実行されると、１またはそれを超えるハードウェアプロセッサに、試料に関連する突然変異体対立遺伝子の数に対する試料に関連する野生型対立遺伝子の数の比を決定することと、比に基づいてヘテロ接合一塩基多型（ＳＮＰ）メトリクスを決定することと、を含む動作を実施させるコンピュータ可読命令を含む。

いくつかの態様においてコンピューティングシステムの１またはそれを超える非一時的コンピュータ可読記憶媒体は、１またはそれを超えるハードウェアプロセッサによって実行されると、１またはそれを超えるハードウェアプロセッサに、ＳＮＰメトリックに基づいて、試料に関連する腫瘍細胞のコピー数の追加の推定値を決定することを含む追加の動作を実施させる追加のコンピュータ可読命令を含む。

いくつかの態様においてコンピューティングシステムの１またはそれを超える非一時的コンピュータ可読記憶媒体は、１またはそれを超えるハードウェアプロセッサによって実行されると、１またはそれを超えるハードウェアプロセッサに、個々の定量的尺度に基づいて試料の腫瘍割合の推定値を決定することを含む動作を実施させるコンピュータ可読命令を含む。

いくつかの態様において、コンピュータ可読記憶媒体は、コンピューティングシステムの１またはそれを超えるプロセッサによって実行されると、コンピューティングシステムに、試料に含まれるポリヌクレオチド分子の配列表示を示す配列データを取得することと、参照ヒトゲノムの一部分に関して少なくとも閾値量の相同性を有する１またはそれを超える配列表示を決定するアラインメントプロセスを行うことによって、多数のアラインメントされた配列表示を作成することと、参照ヒトゲノムの標的領域に対応しないアラインメントされた配列表示の数の部分を同定することによってオフターゲット配列表示のセットを決定することと、複数のセグメント化プロセスを実施して、参照ヒトゲノムのセグメントの数を決定することと、個々のセグメントに対応するオフターゲット配列表示のセットの一部分に基づいて、参照ヒトゲノムの個々のセグメントについての個々の定量的尺度を決定することと、個々の定量的メトリクス、個々のセグメントに対応する腫瘍細胞のコピー数の複数の推定値の個々の推定値に基づいて、試料に関連する腫瘍細胞のコピー数の複数の推定値を決定することと、を含む動作を実施させるコンピュータ可読命令を含む。

いくつかの態様において、コンピュータ可読記憶媒体は、コンピューティングシステムの１またはそれを超えるプロセッサによって実行されると、コンピューティングシステムに、参照ヒトゲノムの第１のセグメントを決定することであって、第１のセグメントが標的領域を含まない、参照ヒトゲノムの第１のセグメントを決定することを含む、第１のセグメント化プロセスを実施すること、および参照ヒトゲノムの第２のセグメントを決定することであって、個々の第２のセグメントが、個々の第１のセグメントよりも多数のヌクレオチドを含み、複数の個々の第１のセグメントを含む、参照ヒトゲノムの第２のセグメントを決定することを含む第２のセグメント化プロセスを実施することによって、複数のセグメント化プロセスを実施することを含む動作を実施させるコンピュータ可読命令を含む。

いくつかの態様において、個々の定量的尺度は個々のカバレッジメトリクスに対応し、コンピューティングシステムの１またはそれを超えるプロセッサによって実行されると、コンピューティングシステムに、参照ヒトゲノムの個々の第１のセグメントの個々についての第１のカバレッジメトリクスを、個々の第１のセグメントに含まれるオフターゲットポリヌクレオチド配列表示のセットの数に基づいて決定することと、個々の第１のカバレッジメトリクスに従って個々の第１のセグメントの正規化されたカバレッジメトリクスを決定することと、個々の第２のセグメントに含まれるそれぞれの複数の個々のセグメントの正規化されたカバレッジメトリクスに基づいて、参照ヒトゲノムの個々の第２のセグメントの個々の第２のカバレッジメトリクスを決定することと、を含む追加の動作を実施させる追加のコンピュータ可読命令を含む。

いくつかの態様において、コンピュータ可読記憶媒体は、コンピューティングシステムの１またはそれを超えるプロセッサによって実行されると、コンピューティングシステムに、個々の第１のセグメントの配列表示の中央数に関する個々の第１のカバレッジメトリクスに基づいて、個々の第１のセグメントに対する第１の正規化された定量的尺度を決定することにより、正規化されたカバレッジメトリクスを決定することを含む動作を実施させるコンピュータ可読命令を含む。

いくつかの態様において、コンピュータ可読記憶媒体は、コンピューティングシステムの１またはそれを超えるプロセッサによって実行されると、コンピューティングシステムに、個々の第１のセグメントの参照カバレッジメトリクスに関する個々のカバレッジメトリクスに基づいて、個々の第１のセグメントの第２の正規化された定量的尺度を決定することであって、参照カバレッジメトリクスが、コピー数多型が検出されない個体から得られた試料に基づいて決定される、個々の第１のセグメントの第２の正規化された定量的尺度を決定することと、個々の第１のセグメントに対する第２の正規化カバレッジメトリクスに関して個々の第１の正規化された定量的尺度を調整することと、を含む動作を実施させるコンピュータ可読命令を含む。

いくつかの態様において個々の定量的尺度は個々のサイズ分布メトリクスに対応し、コンピューティングシステムの１またはそれを超えるプロセッサによって実行されると、コンピューティングシステムに、個々の第１のセグメントの個々の第１のサイズ分布メトリクスを決定することであって、サイズ分布が、配列表示のサイズのそれぞれの範囲にそれぞれ対応する複数のパーティションを含み、個々の第１のセグメントについての個々のサイズ分布メトリクスが、複数のパーティションの各パーティションに対応する、第１のセグメントに含まれるオフターゲット配列表示のセットの数を示す、個々の第１のセグメントの個々の第１のサイズ分布メトリクスを決定することと、参照サイズ分布メトリクスに関する個々の第１のサイズ分布メトリクスに従って個々の第１のセグメントの正規化されたサイズ分布メトリクスを決定することと、個々の第２のセグメントに含まれるそれぞれの複数の個々の第１のセグメントの正規化されたサイズ分布メトリクスに基づいて、参照ヒトゲノムの個々の第２のセグメントについての個々の第２のサイズ分布メトリクスを決定することと、を含む追加の動作を実施させる、追加のコンピュータ可読命令を含む。

いくつかの態様において、コンピュータ可読記憶媒体は、コンピューティングシステムの１またはそれを超えるプロセッサによって実行されると、コンピューティングシステムに、ＳＮＰメトリックに基づいて、試料に関連する腫瘍細胞のコピー数の追加の推定値を決定することを含む動作を実施させるコンピュータ可読命令を含む。

いくつかの態様において、コンピュータ可読記憶媒体は、コンピューティングシステムの１またはそれを超えるプロセッサによって実行されると、コンピューティングシステムに、個々の定量的尺度に基づいて試料の腫瘍割合の推定値を決定することを含む動作を実施させるコンピュータ可読命令を含む。

いくつかの態様において、方法は、各々が１またはそれを超えるプロセッサおよびメモリを有する１またはそれを超えるコンピューティングデバイスを含むコンピューティングシステムによって、試料に由来するポリヌクレオチド分子に基づくいくつかの配列決定リードを含むシーケンシングデータを取得することと、コンピューティングシステムによって、参照ヒトゲノムの一部分に関して少なくとも閾値量の相同性を有する配列決定リードの数の１またはそれを超える部分を決定するアラインメントプロセスプロセスを実施することによって、アラインメントされたいくつかの配列決定リードを作成することと、コンピューティングシステムによって参照ヒトゲノムの標的領域に対応しないアラインメントされた配列リードの数の部分を同定することによってオフターゲット配列リードのセットを決定することと、コンピューティングシステムによって、複数のセグメント化プロセスを実施して、参照ヒトゲノムのセグメントの数を決定することと、コンピューティングシステムによって、個々のセグメントに対応するオフターゲット配列決定リードのセットに基づいて、参照ヒトゲノムの個々のセグメントについての定量的尺度を決定することと、コンピューティングシステムによって、個々の定量的尺度、個々のセグメントに対応する腫瘍細胞のコピー数の複数の推定値の個々の推定値に基づいて、試料に関連する腫瘍細胞のコピー数の複数の推定値を決定することと、を含む。

いくつかの態様において、個々の定量的尺度は、個々のカバレッジメトリクスに対応し、方法は、コンピューティングシステムによって、個々の第１のセグメントに含まれるオフターゲット配列決定リードのセットの数に基づいて、個々の第１のセグメントの個々の第１のカバレッジメトリクスを決定することと、コンピューティングシステムによって、個々の第１のカバレッジメトリクスに従って個々の第１のセグメントの正規化されたカバレッジメトリクスを決定することと、コンピューティングシステムによって、個々の第２のセグメントに含まれるそれぞれの複数の個々のセグメントの正規化されたカバレッジメトリクスに基づいて、個々の第２のセグメントの個々の第２のカバレッジメトリクスを決定することと、を含む。

いくつかの態様において、正規化されたカバレッジメトリクスは、コンピューティングシステムによって、個々の第１のセグメントに関連する配列決定リードの中央数に関する個々の第１のカバレッジメトリクスに基づいて、個々の第１のセグメントに対する第１の正規化された定量的尺度を決定することにより決定される。

いくつかの態様において、個々の定量的尺度は、個々のサイズ分布メトリクスに対応し、方法は、コンピューティングシステムによって、個々の第１のセグメントの個々の第１のサイズ分布メトリクスを決定することであって、サイズ分布が、配列決定リードのサイズのそれぞれの範囲にそれぞれ対応する複数のパーティションを含み、個々の第１のセグメントについての個々のサイズ分布メトリクスが、複数のパーティションの各パーティションに対応する、第１のセグメントに含まれるオフターゲット配列決定リードのセットの数を示す、個々の第１のセグメントの個々の第１のサイズ分布メトリクスを決定することと、コンピューティングシステムによって、参照サイズ分布メトリクスに関する個々の第１のサイズ分布メトリクスに従って個々の第１のセグメントの正規化されたサイズ分布メトリクスを決定することと、コンピューティングシステムによって、個々の第２のセグメントに含まれるそれぞれの複数の個々の第１のセグメントの正規化されたサイズ分布メトリクスに基づいて、参照ヒトゲノムの個々の第２のセグメントについての個々の第２のサイズ分布メトリクスを決定することと、を含む。

いくつかの態様において本方法は、個々の定量的尺度に基づいて試料の腫瘍割合の推定値を決定することを含む。

いくつかの態様においてコンピューティングシステムは、１またはそれを超えるハードウェアプロセッサと、１またはそれを超える非一時的コンピュータ可読記憶媒体であって、１またはそれを超えるハードウェアプロセッサによって実行されると、１またはそれを超えるハードウェアプロセッサに、試料に由来するポリヌクレオチド分子に基づく多数の配列決定リードを含むシーケンシングデータを取得することと、参照ヒトゲノムの一部分に関して少なくとも閾値量の相同性を有する配列決定リードの数の１またはそれを超える部分を決定するアラインメントプロセスを実施することによって、アラインメントされた配列決定リードの数を作成することと、参照ヒトゲノムの標的領域に対応しないアラインメントされた配列決定リードの数の部分を同定することによってオフターゲット配列リードのセットを決定することと、複数のセグメント化プロセスを実施して、参照ヒトゲノムのセグメントの数を決定することと、個々のセグメントに対応するオフターゲット配列決定リードのセットに基づいて、参照ヒトゲノムの個々のセグメントについての定量的尺度を決定することと、個々の定量的尺度、個々のセグメントに対応する腫瘍細胞のコピー数の複数の推定値の個々の推定値に基づいて、試料に関連する腫瘍細胞のコピー数の複数の推定値を決定することと、を含む動作を実施させるコンピュータ可読命令を含む、１またはそれを超える非一時的コンピュータ可読記憶媒体とを含む。

いくつかの態様においてコンピューティングシステムの１またはそれを超える非一時的コンピュータ可読記憶媒体は、１またはそれを超えるハードウェアプロセッサによって実行されると、１またはそれを超えるハードウェアプロセッサに、参照ヒトゲノムの第１のセグメントを決定することにより、第１のセグメント化プロセスを実施することあって、第１のセグメントは標的領域を含まない、第１のセグメント化プロセスを実施することと、参照ヒトゲノムの第２のセグメントを決定することにより第２のセグメント化プロセスを実施することであって、個々の第２のセグメントが個々の第１のセグメントよりも多数のヌクレオチドを含み、複数の個々の第１のセグメントを含む、第２のセグメント化プロセスを実施することと、により複数のセグメント化プロセスを実施することを含む追加の動作を実施させる、追加のコンピュータ可読命令を含む。

いくつかの態様において、個々の定量的尺度は個々のカバレッジメトリクスに対応し、コンピューティングシステムの１またはそれを超える非一時的コンピュータ可読記憶媒体は、１またはそれを超えるハードウェアプロセッサによって実行されると、１またはそれを超えるハードウェアプロセッサに、参照ヒトゲノムの個々の第１のセグメントの個々についての第１のカバレッジメトリクスを、個々の第１のセグメントに含まれるオフターゲットポリヌクレオチド配列表示のセットの数に基づいて決定することと、個々の第１のカバレッジメトリクスに従って個々の第１のセグメントの正規化されたカバレッジメトリクスを決定することと、個々の第２のセグメントに含まれるそれぞれの複数の個々のセグメントの正規化されたカバレッジメトリクスに基づいて、参照ヒトゲノムの個々の第２のセグメントの個々の第２のカバレッジメトリクスを決定することと、を含む追加の動作を実施させる追加のコンピュータ可読命令を含む。

いくつかの態様において、コンピューティングシステムの１またはそれを超える非一時的コンピュータ可読記憶媒体は、１またはそれを超えるハードウェアプロセッサによって実行されると、１またはそれを超えるハードウェアプロセッサに、個々の第１のセグメントに関連する配列決定リードの中央数に関する個々の第１のカバレッジメトリクスに基づいて、個々の第１のセグメントに対する第１の正規化された定量的尺度を決定することにより、正規化されたカバレッジメトリクスを決定することを含む、追加の動作を実施させる追加のコンピュータ可読命令を含む。

いくつかの態様において、個々の定量的尺度は、個々のサイズ分布メトリクスに対応し、１またはそれを超える非一時的コンピュータ可読記憶媒体は、１またはそれを超えるハードウェアプロセッサによって実行されると、１またはそれを超えるハードウェアプロセッサに、個々の第１のセグメントの個々の第１のサイズ分布メトリクスを決定することであって、サイズ分布が、配列表示のサイズのそれぞれの範囲にそれぞれ対応する複数のパーティションを含み、個々の第１のセグメントについての個々のサイズ分布メトリクスが、複数のパーティションの各パーティションに対応する、第１のセグメントに含まれるオフターゲット配列表示のセットの数を示す、個々の第１のセグメントの個々の第１のサイズ分布メトリクスを決定することと、参照サイズ分布メトリクスに関する個々の第１のサイズ分布メトリクスに従って個々の第１のセグメントの正規化されたサイズ分布メトリクスを決定することと、コンピューティングシステムによって、個々の第２のセグメントに含まれるそれぞれの複数の個々の第１のセグメントの正規化されたサイズ分布メトリクスに基づいて、参照ヒトゲノムの個々の第２のセグメントについての個々の第２のサイズ分布メトリクスを決定することと、を含む追加の動作を実施させる追加のコンピュータ可読命令を含む。

いくつかの態様においてコンピューティングシステムの１またはそれを超える非一時的コンピュータ可読記憶媒体は、１またはそれを超えるハードウェアプロセッサによって実行されると、１またはそれを超えるハードウェアプロセッサに、個々の定量的尺度に基づいて試料の腫瘍割合の推定値を決定することを含む追加の動作を実施させる追加のコンピュータ可読命令を含む。

いくつかの態様において、１またはそれを超えるコンピュータ可読記憶媒体は、コンピューティングシステムの１またはそれを超えるプロセッサによって実行されると、コンピューティングシステムに、試料に由来するポリヌクレオチド分子に基づくいくつかの配列決定リードを含むシーケンシングデータを取得することと、参照ヒトゲノムの一部分に関して少なくとも閾値量の相同性を有する配列決定リードの数の１またはそれを超える部分を決定するアラインメントプロセスを実施することによって、アラインメントされた配列決定リードの数を作成することと、参照ヒトゲノムの標的領域に対応しないアラインメントされた配列リードの数の部分を同定することによってオフターゲット配列リードのセットを決定することと、複数のセグメント化プロセスを実施して、参照ヒトゲノムのセグメントの数を決定することと、個々のセグメントに対応するオフターゲット配列決定リードのセットに基づいて、参照ヒトゲノムの個々のセグメントについての定量的尺度を決定することと、個々の定量的尺度、個々のセグメントに対応する腫瘍細胞のコピー数の複数の推定値の個々の推定値に基づいて、試料に関連する腫瘍細胞のコピー数の複数の推定値を決定することと、を含む動作を実施させるコンピュータ可読命令を含む。

いくつかの態様において、個々の定量的尺度は個々のカバレッジメトリクスに対応し、コンピューティングシステムの１またはそれを超えるプロセッサによって実行されると、コンピューティングシステムに、個々の第１のセグメントに含まれるオフターゲット配列リードのセットの数に基づいて、個々の第１のセグメントの個々の第１のカバレッジメトリクスを決定することと、個々の第１のカバレッジメトリクスに従って個々の第１のセグメントの正規化されたカバレッジメトリクスを決定することと、個々の第２のセグメントに含まれるそれぞれの複数の個々のセグメントの正規化されたカバレッジメトリクスに基づいて、個々の第２のセグメントの個々の第２のカバレッジメトリクスを決定することと、を含む追加の動作を実施させる、追加のコンピュータ可読命令を含む。

いくつかの態様において個々の定量的尺度は個々のサイズ分布メトリクスに対応し、コンピューティングシステムの１またはそれを超えるプロセッサによって実行されると、コンピューティングシステムに、個々の第１のセグメントの個々の第１のサイズ分布メトリクスを決定することであって、サイズ分布が、配列リードのサイズのそれぞれの範囲にそれぞれ対応する複数のパーティションを含み、個々の第１のセグメントについての個々のサイズ分布メトリクスが、複数のパーティションの各パーティションに対応する、第１のセグメントに含まれるオフターゲット配列リードのセットの数を示す、個々の第１のセグメントの個々の第１のサイズ分布メトリクスを決定することと、参照サイズ分布メトリクスに関する個々の第１のサイズ分布メトリクスに従って個々の第１のセグメントの正規化されたサイズ分布メトリクスを決定することと、個々の第２のセグメントに含まれるそれぞれの複数の個々の第１のセグメントの正規化されたサイズ分布メトリクスに基づいて、参照ヒトゲノムの個々の第２のセグメントについての個々の第２のサイズ分布メトリクスを決定することと、を含む追加の動作を実施させる、追加のコンピュータ可読命令を含む。

いくつかの態様において方法は、それぞれが１またはそれを超えるプロセッサおよびメモリを有する１またはそれを超えるコンピューティングデバイスを含むコンピューティングシステムによって、試料に含まれるポリヌクレオチド分子示すシーケンシングデータを取得することと、コンピューティングシステムによって、参照ヒトゲノムの一部分に関して少なくとも閾値量の相同性を有する１またはそれを超えるポリヌクレオチド分子を決定するアラインメントプロセスを実施することによって、多数のアラインメントされた配列表示を作成することと、コンピューティングシステムにより、参照ヒトゲノムの標的領域に対応しないアラインメントされたポリヌクレオチド分子数の部分を同定することによってオフターゲットポリヌクレオチド分子のセットを決定することと、コンピューティングシステムによって、複数のセグメント化プロセスを実施して、参照ヒトゲノムのセグメントの数を決定することと、コンピューティングシステムによって、個々のセグメントに対応するオフターゲットポリヌクレオチド分子のセットの一部分に基づいて、参照ヒトゲノムの個々のセグメントについての定量的尺度を決定することと、コンピューティングシステムによって、個々の定量的尺度、個々のセグメントに対応する腫瘍細胞のコピー数の複数の推定値の個々の推定値に基づいて、試料に関連する腫瘍細胞のコピー数の複数の推定値を決定することと、を含む。

いくつかの態様において、個々の定量的尺度は、個々のカバレッジメトリクスに対応し、方法は、コンピューティングシステムによって、個々の第１のセグメントに含まれるオフターゲットポリヌクレオチド分子のセットの数に基づいて、個々の第１のセグメントの個々の第１のカバレッジメトリクスを決定することと、コンピューティングシステムによって、個々の第１のカバレッジメトリクスに従って個々の第１のセグメントの正規化されたカバレッジメトリクスを決定することと、コンピューティングシステムによって、個々の第２のセグメントに含まれるそれぞれの複数の個々のセグメントの正規化されたカバレッジメトリクスに基づいて、個々の第２のセグメントの個々の第２のカバレッジメトリクスを決定することと、を含む。

いくつかの態様において、正規化されたカバレッジメトリクスは、コンピューティングシステムによって、個々の第１のセグメントに関連するポリヌクレオチド分子の中央数に関する個々の第１のカバレッジメトリクスに基づいて、個々の第１のセグメントに対する第１の正規化された定量的尺度を決定することにより決定される。

いくつかの態様において、方法は、コンピューティングシステムによって、個々の第１のセグメントの参照カバレッジメトリクスに関する個々のカバレッジメトリクスに基づいて、個々の第１のセグメントの第２の正規化された定量的尺度を決定することであって、参照カバレッジメトリクスが、コピー数多型が検出されない個体から得られた試料に基づいて決定される、個々の第１のセグメントの第２の正規化された定量的尺度を決定することと、個々の第１のセグメントに対する第２の正規化カバレッジメトリクスに関して個々の第１の正規化された定量的尺度を調整することと、を含む。

いくつかの態様において、個々の定量的尺度は個々のサイズ分布メトリクスに対応し、方法は、コンピューティングシステムによって、個々の第１のセグメントの個々の第１のサイズ分布メトリクスを決定することであって、サイズ分布が、ポリヌクレオチド分子のサイズのそれぞれの範囲にそれぞれ対応する複数のパーティションを含み、個々の第１のセグメントについての個々のサイズ分布メトリクスが、複数のパーティションの各パーティションに対応する、第１のセグメントに含まれるオフターゲットポリヌクレオチド分子のセットの数を示す、個々の第１のセグメントの個々の第１のサイズ分布メトリクスを決定することと、コンピューティングシステムによって、参照サイズ分布メトリクスに関する個々の第１のサイズ分布メトリクスに従って個々の第１のセグメントの正規化されたサイズ分布メトリクスを決定することと、コンピューティングシステムによって、個々の第２のセグメントに含まれるそれぞれの複数の個々の第１のセグメントの正規化されたサイズ分布メトリクスに基づいて、参照ヒトゲノムの個々の第２のセグメントについての個々の第２のサイズ分布メトリクスを決定することと、を含む。

いくつかの態様においてコンピューティングシステムは、１またはそれを超えるハードウェアプロセッサと、１つ以上のハードウェアプロセッサによって実行されると、１つ以上のハードウェアプロセッサに、いくつかの態様において１またはそれを超えるコンピュータ可読記憶媒体は、試料に含まれるポリヌクレオチド分子を示すシーケンシングデータを取得することと、参照ヒトゲノムの一部分に関して少なくとも閾値量の相同性を有する１またはそれを超えるポリヌクレオチド分子を決定するアラインメントプロセスを実施することによって、いくつかのアラインメントされた配列表示を作成することと、参照ヒトゲノムの標的領域に対応しないアラインメントされたポリヌクレオチド分子数の部分を同定することによってオフターゲットポリヌクレオチド分子のセットを決定することと、複数のセグメント化プロセスを実施して、参照ヒトゲノムのセグメントの数を決定することと、個々のセグメントに対応するオフターゲットポリヌクレオチド分子のセットの一部分に基づいて、参照ヒトゲノムの個々のセグメントについての定量的尺度を決定することと、個々の定量的尺度、個々のセグメントに対応する腫瘍細胞のコピー数の複数の推定値の個々の推定値に基づいて、試料に関連する腫瘍細胞のコピー数の複数の推定値を決定することと、を含む動作を実施させるコンピュータ可読命令を含む１またはそれを超える非一時的コンピュータ可読記憶媒体とを含む。

いくつかの態様においてコンピューティングシステムの１またはそれを超える非一時的コンピュータ可読記憶媒体は、１またはそれを超えるハードウェアプロセッサによって実行されると、１またはそれを超えるハードウェアプロセッサに、参照ヒトゲノムの第１のセグメントを決定することを含む第１のセグメント化プロセスを実施することあって、第１のセグメントは標的領域を含まない、第１のセグメント化プロセスを実施することと、参照ヒトゲノムの第２のセグメントであって、個々の第１のセグメントよりも多数のヌクレオチドを含み、複数の個々の第１のセグメントを含む個々の第２のセグメントを決定することを含む、第２のセグメント化プロセスを実施することと、により複数のセグメント化プロセスを実施することを含む追加の動作を実施させる、追加のコンピュータ可読命令を含む。

いくつかの態様において個々の定量的尺度は、個々のカバレッジメトリクスに対応し、１またはそれを超える非一時的コンピュータ可読記憶媒体は、１またはそれを超えるハードウェアプロセッサによって実行されると、１またはそれを超えるハードウェアプロセッサに、個々の第１のセグメントに含まれるオフターゲットポリヌクレオチド分子のセットの数に基づいて、個々の第１のセグメントの個々の第１のカバレッジメトリクスを決定することと、コンピューティングシステムによって、個々の第１のカバレッジメトリクスに従って個々の第１のセグメントの正規化されたカバレッジメトリクスを決定することと、個々の第２のセグメントに含まれるそれぞれの複数の個々のセグメントの正規化されたカバレッジメトリクスに基づいて、個々の第２のセグメントの個々の第２のカバレッジメトリクスを決定することと、を含む追加の動作を実施させる追加のコンピュータ可読命令を含む。

いくつかの態様において、コンピューティングシステムの１またはそれを超える非一時的コンピュータ可読記憶媒体は、１またはそれを超えるハードウェアプロセッサによって実行されると、１またはそれを超えるハードウェアプロセッサに、個々の第１のセグメントに関連するポリヌクレオチド分子の中央数に関する個々の第１のカバレッジメトリクスに基づいて、個々の第１のセグメントに対する第１の正規化された定量的尺度を決定することにより、正規化されたカバレッジメトリクスを決定することを含む、追加の動作を実施させる追加のコンピュータ可読命令を含む。

いくつかの態様において、個々の定量的尺度は、個々のサイズ分布メトリクスに対応し、１またはそれを超える非一時的コンピュータ可読記憶媒体は、１またはそれを超えるハードウェアプロセッサによって実行されると、１またはそれを超えるハードウェアプロセッサに、個々の第１のセグメントの個々の第１のサイズ分布メトリクスを決定することであって、サイズ分布が、ポリヌクレオチド分子のサイズのそれぞれの範囲にそれぞれ対応する複数のパーティションを含み、個々の第１のセグメントについての個々のサイズ分布メトリクスが、複数のパーティションの各パーティションに対応する、第１のセグメントに含まれるオフターゲットポリヌクレオチド分子のセットの数を示す、個々の第１のセグメントの個々の第１のサイズ分布メトリクスを決定することと、参照サイズ分布メトリクスに関する個々の第１のサイズ分布メトリクスに従って個々の第１のセグメントの正規化されたサイズ分布メトリクスを決定することと、コンピューティングシステムによって、個々の第２のセグメントに含まれるそれぞれの複数の個々の第１のセグメントの正規化されたサイズ分布メトリクスに基づいて、参照ヒトゲノムの個々の第２のセグメントについての個々の第２のサイズ分布メトリクスを決定することと、を含む追加の動作を実施させる追加のコンピュータ可読命令を含む。

いくつかの態様において１またはそれを超えるコンピュータ可読記憶媒体は、試料に含まれるポリヌクレオチド分子を示すシーケンシングデータを取得することと、参照ヒトゲノムの一部分に関して少なくとも閾値量の相同性を有する１またはそれを超えるポリヌクレオチド分子を決定するアラインメントプロセスを実行することによって、多数のアラインメントされた配列表示を作成することと、参照ヒトゲノムの標的領域に対応しないアラインメントされたポリヌクレオチド分子数の部分を同定することによってオフターゲットポリヌクレオチド分子のセットを決定することと、複数のセグメント化プロセスを実施して、参照ヒトゲノムのセグメントの数を決定することと、個々のセグメントに対応するオフターゲットポリヌクレオチド分子のセットの一部分に基づいて、参照ヒトゲノムの個々のセグメントについての定量的尺度を決定することと、個々の定量的尺度、個々のセグメントに対応する腫瘍細胞のコピー数の複数の推定値の個々の推定値に基づいて、試料に関連する腫瘍細胞のコピー数の複数の推定値を決定することと、を含む、コンピュータ可読命令を含む。

いくつかの態様において、コンピュータ可読記憶媒体は、コンピューティングシステムの１またはそれを超えるプロセッサによって実行されると、コンピューティングシステムに、参照ヒトゲノムの第１のセグメントを決定することによって第１のセグメント化プロセスを実施することによって複数のセグメント化を実施することであって、第１のセグメントは標的領域を含まない、複数のセグメント化を実施することと、参照ヒトゲノムの第２のセグメントを決定することによって第２のセグメント化プロセスを実施することであって、個々の第２のセグメントは、個々の第１のセグメントよりも多数のヌクレオチドを含み、複数の個々の第１のセグメントを含む、第２のセグメント化プロセスを実施することと、を含む動作を実施させるコンピュータ可読命令を含む。

いくつかの態様において、個々の定量的尺度は個々のカバレッジメトリクスに対応し、コンピューティングシステムの１またはそれを超えるプロセッサによって実行されると、コンピューティングシステムに、個々の第１のセグメントに含まれるオフターゲットポリヌクレオチド分子のセットの数に基づいて、個々の第１のセグメントの個々の第１のカバレッジメトリクスを決定することと、個々の第１のカバレッジメトリクスに従って個々の第１のセグメントの正規化されたカバレッジメトリクスを決定することと、個々の第２のセグメントに含まれるそれぞれの複数の個々のセグメントの正規化されたカバレッジメトリクスに基づいて、個々の第２のセグメントの個々の第２のカバレッジメトリクスを決定することと、を含む追加の動作を実施させる、追加のコンピュータ可読命令を含む。

いくつかの態様において、コンピュータ可読記憶媒体は、コンピューティングシステムの１またはそれを超えるプロセッサによって実行されると、コンピューティングシステムに、個々の第１のセグメントのポリヌクレオチド分子の中央数に関する個々の第１のカバレッジメトリクスに基づいて、個々の第１のセグメントに対する第１の正規化された定量的尺度を決定することにより、正規化されたカバレッジメトリクスを決定することを含む動作を実施させるコンピュータ可読命令を含む。

いくつかの態様において個々の定量的尺度は個々のサイズ分布メトリクスに対応し、コンピューティングシステムの１またはそれを超えるプロセッサによって実行されると、コンピューティングシステムに、個々の第１のセグメントの個々の第１のサイズ分布メトリクスを決定することであって、サイズ分布が、ポリヌクレオチド分子のサイズのそれぞれの範囲にそれぞれ対応する複数のパーティションを含み、個々の第１のセグメントについての個々のサイズ分布メトリクスが、複数のパーティションの各パーティションに対応する、第１のセグメントに含まれるオフターゲットポリヌクレオチド分子のセットの数を示す、個々の第１のセグメントの個々の第１のサイズ分布メトリクスを決定することと、参照サイズ分布メトリクスに関する個々の第１のサイズ分布メトリクスに従って個々の第１のセグメントの正規化されたサイズ分布メトリクスを決定することと、個々の第２のセグメントに含まれるそれぞれの複数の個々の第１のセグメントの正規化されたサイズ分布メトリクスに基づいて、参照ヒトゲノムの個々の第２のセグメントについての個々の第２のサイズ分布メトリクスを決定することと、を含む追加の動作を実施させる、追加のコンピュータ可読命令を含む。

いくつかの態様において、１またはそれを超えるコンピュータ可読記憶媒体は、コンピューティングシステムの１またはそれを超えるプロセッサによって実行されると、コンピューティングシステムに、個々の定量的尺度に基づいて試料の腫瘍割合の推定値を決定することを含む動作を実施させるコンピュータ可読命令を含む。

いくつかの態様において、腫瘍細胞のコピー数および試料の腫瘍割合についての推定値は、観察された定量的尺度＝２＊（１－ＴＦ）＋ｎ＊ＴＦ（式中、ｎは腫瘍細胞コピー数であり、ＴＦは試料の腫瘍割合である）に基づいて決定され、観察された定量的尺度は、定量的尺度の少なくとも一部分を含む。
定義

本開示をより容易に理解するために、特定の用語を以下で最初に定義する。以下の用語および他の用語の追加の定義は、本明細書を通して説明することができる。以下に記載される用語の定義が、参照により組み込まれる出願または特許における定義と矛盾する場合、本出願に記載される定義は、その用語の意味を理解するために使用されるべきである。

本明細書および添付の特許請求の範囲で使用される場合、単数形「１つの（ａ）」、「１つの（ａｎ）」および「その（ｔｈｅ）」は、文脈が明らかにそうでないことを指示しない限り、複数の言及を含む。したがって、例えば、「方法」への言及は、本明細書に記載された種類の、および／または本開示などを読めば当業者には明らかになるであろう１またはそれを超える方法および／または工程を含む。

本明細書で使用される用語は、特定の実施態様を説明することのみを目的としており、限定することを意図していないことも理解されたい。さらに、他に定義されない限り、本明細書で使用される全ての技術用語および科学用語は、本開示が属する技術分野の当業者によって一般的に理解されるのと同じ意味を有する。方法、コンピュータ可読媒体、およびシステムの説明および特許請求において、以下の用語、およびそれらの文法上の変形は、以下に記載される定義に従って使用される。

約：本明細書で使用される場合、１またはそれを超える目的の値または要素に適用される「約」または「およそ」は、記載された参照値または要素と同様の値または要素を指す。特定の実施態様において、「約」または「およそ」という用語は、特に明記しない限り、または文脈から明らかでない限り（そのような数が可能な値または要素の１００％を超える場合を除く）、記載された参照値または要素のいずれかの方向（より大きいまたはより小さい）において２５％，２０％，１９％，１８％，１７％，１６％，１５％，１４％，１３％，１２％，１１％，１０％，９％，８％，７％，６％，５％，４％，３％，２％，１％，またはそれ未満に入る値または要素の範囲を指す。

投与する（施す）：本明細書で使用される場合、治療剤（例えば、免疫学的治療剤）を対象に「投与する」または「投与すること」は、組成物を対象に与える、付与する、または接触させることを意味する。投与は、例えば、局所、経口、皮下、筋肉内、腹腔内、静脈内、髄腔内および皮内を含むいくつかの経路のいずれかによって達成することができる。

アダプタ：本明細書で使用される場合、「アダプタ」は、少なくとも部分的に二本鎖であり得、所与の試料核酸分子のいずれかまたは両方の末端に連結するために使用され得る短い核酸（例えば、約５００ヌクレオチド未満、約１００ヌクレオチド未満、または約５０ヌクレオチド未満の長さ）を指す。アダプタは、両端にアダプタが隣接する核酸分子の増幅を可能にする核酸プライマー結合部位、および／または配列決定用途、例えば様々な次世代シーケンシング（ＮＧＳ）用途のためのプライマー結合部位を含む配列決定プライマー結合部位を含み得る。アダプタはまた、フローセル支持体に結合したオリゴヌクレオチドなどの捕捉プローブのための結合部位を含むことができる。アダプタはまた、本明細書に記載の核酸タグを含み得る。核酸タグは、核酸タグが所与の核酸分子のアンプリコンおよび配列リードに含まれるように、増幅プライマーおよびシーケンシングプライマー結合部位に対して配置することができる。同じまたは異なるアダプタを核酸分子のそれぞれの末端に連結することができる。いくつかの実施態様において、核酸タグが異なることを除いて、同じアダプタが核酸分子のそれぞれの末端に連結される。いくつかの実施態様において、アダプタは、核酸分子に結合するために、本明細書に記載のように一端が平滑末端または尾部を有するＹ字型アダプタであり、これも１またはそれを超える相補的ヌクレオチドによる平滑末端または尾部を有する。更に他の例示的な実施態様において、アダプタは、分析される核酸分子に結合するための平滑末端またはテール末端を含むベル形アダプタである。アダプタの他の例には、ＴテールアダプタおよびＣテールアダプタが含まれる。

アラインメント：本明細書で使用される場合、「アラインメント」または「アラインメントする」は、少なくとも２つの配列表示が少なくとも閾値量の相同性を有するかどうかを決定することを指す。１またはそれを超える例では、相同性の閾値量は、少なくとも約９０％、少なくとも約９１％、少なくとも約９２％、少なくとも約９３％、少なくとも約９４％、少なくとも約９５％、少なくとも約９６％、少なくとも約９７％、少なくとも約９８％、少なくとも約９９％、少なくとも約９９．５％、または少なくとも約９９．９％であり得る。２つの配列表示が少なくとも閾値量の相同性を有する状況では、２つの配列表示は「アラインメントされている」と呼ぶことができる。

増幅：本明細書で使用される場合、核酸に関連して「増幅する」または「増幅」とは、少量のポリヌクレオチド（例えば、単一ポリヌクレオチド分子）から始まるポリヌクレオチドまたはポリヌクレオチドの一部分の複数のコピーの生成を指し、増幅産物またはアンプリコンは一般に検出可能である。ポリヌクレオチドの増幅は、様々な化学的および酵素的プロセスを包含する。

バーコード：本明細書で使用される場合、核酸の文脈における「バーコード」または「分子バーコード」は、分子識別子として機能することができる配列を含む核酸分子を指す。例えば、個々の「バーコード」配列は、各リードを最終データ分析の前に同定および選別することができるように、次世代シーケンシング（ＮＧＳ）ライブラリー調製中に各ＤＮＡ断片に付加され得る。

癌型：本明細書で使用される場合、「癌型」は、例えば組織病理学によって定義される癌のタイプまたはサブタイプを指す。癌型は、所与の組織における発生に基づいて（例えば、血液癌、中枢神経系（ＣＮＳ）、脳癌、肺癌（小細胞および非小細胞）、皮膚癌、鼻癌、咽喉癌、肝臓癌、骨癌、リンパ腫、膵臓癌、腸癌、直腸癌、甲状腺癌、膀胱癌、腎臓癌、口腔癌、胃癌、乳癌、前立腺癌、卵巣癌、肺癌、腸癌、軟部組織癌、神経内分泌癌、胃食道癌、頭頸部癌、婦人科癌、結腸直腸癌、尿路上皮癌、固形癌、異種癌、均質癌（ｈｏｍｏｇｅｎｏｕｓｃａｎｃｅｒ））、未知の一次起源など、および／または同じ細胞系統のもの（例えば、癌腫、肉腫、リンパ腫、胆管癌、白血病、中皮腫、黒色腫または膠芽腫）および／またはＨｅｒ２、ＣＡ１５－３、ＣＡ１９－９、ＣＡ－１２５、ＣＥＡ、ＡＦＰ、ＰＳＡ、ＨＣＧ、ホルモン受容体およびＮＭＰ－２２などの癌マーカーを示す癌など、任意の従来の基準によって定義され得る。癌はまた、ステージ（例えば、ステージ１、２、３、または４）および原発性か二次性かによって分類することができる。

搬送波信号：本明細書で使用される場合、「搬送波信号」は、マシン１１００による実行のための一時的または非一時的命令１１０２を記憶、符号化、または搬送することが可能な任意の無形媒体を指し、そのような命令１１０２の通信を容易にするためのデジタルまたはアナログ通信信号または他の無形媒体を含む。命令１１０２は、ネットワークインターフェースデバイスを介して一時的または非一時的伝送媒体を使用し、いくつかの周知の転送プロトコルのいずれかを使用して、ネットワーク１１３４を介して送信または受信することができる。

無細胞核酸：本明細書で使用される場合、「無細胞核酸」は、細胞内に含有されていないか、そうでなければ細胞に結合していない核酸、またはいくつかの実施態様において無傷の細胞の除去後に試料中に残っている核酸を指す。無細胞核酸は、例えば、対象からの体液（例えば、血液、血漿、血清、尿、脳脊髄液（ＣＳＦ）など）に由来する全ての非カプセル化核酸を含み得る。無細胞核酸には、ゲノムＤＮＡ、ミトコンドリアＤＮＡ、循環ＤＮＡ、ｓｉＲＮＡ、ｍｉＲＮＡ、循環ＲＮＡ（ｃＲＮＡ）、ｔＲＮＡ、ｒＲＮＡ、核小体低分子ＲＮＡ（ｓｎｏＲＮＡ）、Ｐｉｗｉ相互作用ＲＮＡ（ｐｉＲＮＡ）、長鎖非コードＲＮＡ（長鎖ｎｃＲＮＡ）、および／またはこれらのいずれかの断片を含む、ＤＮＡ（ｃｆＤＮＡ）、ＲＮＡ（ｃｆＲＮＡ）、およびそれらのハイブリッドが含まれる。無細胞核酸は、二本鎖、一本鎖、またはそれらのハイブリッドであり得る。無細胞核酸は、分泌または細胞死プロセス、例えば細胞壊死、アポトーシスなどを介して体液に放出され得る。いくつかの無細胞核酸は、癌細胞、例えば循環腫瘍ＤＮＡ（ｃｔＤＮＡ）から体液中に放出される。他のものは、健康な細胞から放出される。ＣｔＤＮＡは、非カプセル化腫瘍由来断片化ＤＮＡであり得る。無細胞核酸は、１またはそれを超えるエピジェネティック修飾を有することができ、例えば、無細胞核酸は、アセチル化、５－メチル化、ユビキチン化、リン酸化、ＳＵＭＯ化、リボシル化、および／またはシトルリン化され得る。

細胞核酸：本明細書で使用される場合、「細胞核酸」は、少なくとも試料が対象から採取または収集された時点で、１またはそれを超える細胞内に配置されている核酸を意味し、それらの核酸はその後、所与の分析プロセスの一部として除去される。

通信ネットワーク：本明細書で使用される場合、「通信ネットワーク」は、アドホックネットワーク、イントラネット、エクストラネット、仮想プライベートネットワーク（ＶＰＮ）、ローカルエリアネットワーク（ＬＡＮ）、無線ＬＡＮ（ＷＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）、無線ＷＡＮ（ＷＷＡＮ）、メトロポリタンエリアネットワーク（ＭＡＮ）、インターネット、インターネットの一部分、公衆交換電話網（ＰＳＴＮ）の一部分、プレーンオールド電話サービス（ＰＯＴＳ）ネットワーク、携帯電話ネットワーク、無線ネットワーク、Ｗｉ－Ｆｉ（登録商標）ネットワーク、別のタイプのネットワーク、または２つ以上のそのようなネットワークの組み合わせであり得るネットワーク１１４、１０３４の１またはそれを超える部分を指す。例えば、ネットワーク１１４、１０３４またはネットワークの一部分は、無線またはセルラネットワークを含んでもよく、結合は、符号分割多元接続（ＣＤＭＡ）接続、グローバル移動体通信システム（ＧＳＭ（登録商標））接続、または他のタイプのセルラもしくは無線結合であってもよい。この例では、結合は、シングル・キャリア無線伝送技術（１ｘＲＴＴ）、エボリューション・データ・オプティマイズド（ＥＶＤＯ）技術、汎用パケット無線サービス（ＧＰＲＳ）技術、ＧＳＭ（登録商標）進化型高速データレート（ＥＤＧＥ）技術、３Ｇを含む第３世代パートナーシップ・プロジェクト（３ＧＰＰ（登録商標））、第４世代無線（４Ｇ）ネットワーク、ユニバーサル移動体通信システム（ＵＭＴＳ）、高速パケット・アクセス（ＨＳＰＡ）、マイクロ波を利用した世界標準の通信方式（ＷｉＭＡＸ）、ロング・ターム・エボリューション（ＬＴＥ）規格、その他様々な規格設定機関によって定義されたもの、その他の長距離プロトコル、またはその他のデータ転送技術のような様々なタイプのデータ転送技術のいずれかを実装し得る。

信頼区間：本明細書で使用される場合、「信頼区間」は、所与のパラメータの値がその値の範囲内にある特定の確率が存在するように定義された値の範囲を意味する。

対照試料：本明細書で使用される場合、「対照試料」または「参照試料」は、既知のコピー数多型のない個体から得られた試料を指す。

コピー数：本明細書で使用される場合、腫瘍細胞または非腫瘍細胞におけるコピー数に対応する整数である「整数コピー数」を含み得る。コピー数はまた、腫瘍細胞と非腫瘍細胞との混合物のコピー数を表す実数である「観察されたコピー数」を含み得る。

コピー数増幅：本明細書で使用される場合、「コピー数増幅」は、対照集団のゲノム内のゲノム領域のリピート数と比較した、個体のゲノム内のゲノム領域のリピート数の増加を指す。

コピー数欠失：本明細書で使用される場合、「コピー数欠失」は、対照集団のゲノム内のゲノム領域のリピート数と比較した、個体のゲノム内のゲノム領域のリピート数の減少を指す。

コピー数変異体：本明細書で使用される場合、「コピー数変異体」、「ＣＮＶ」または「コピー数多型」は、ゲノムのセクションが繰り返され、ゲノム内の反復の数が、検討中の集団内の個体間で異なり、個体の２つの症状または状況間で異なる現象を指す（例えば、ＣＮＶは、治療を受ける前および後に個体において変動し得る）。

カバレッジ：本明細書で使用される場合、「カバレッジ」または「カバレッジメトリクス」は、参照配列の特定のゲノム領域に対応する核酸分子または配列決定リードの数を指す。

デオキシリボ核酸またはリボ核酸：本明細書で使用される場合、「デオキシリボ核酸」または「ＤＮＡ」は、糖部分の２’位に水素基を有する天然または修飾ヌクレオチドを指す。ＤＮＡは、アデニン（Ａ）、チミン（Ｔ）、シトシン（Ｃ）、およびグアニン（Ｇ）の４種類のヌクレオチド塩基を含むヌクレオチドの鎖を含むことができる。本明細書で使用される場合、「リボ核酸」または「ＲＮＡ」は、糖部分の２’位にヒドロキシル基を有する天然または修飾ヌクレオチドを指す。ＲＮＡは、４種類のヌクレオチド：Ａ、ウラシル（Ｕ）、ＧおよびＣを含むヌクレオチドの鎖を含み得る。本明細書で使用される場合、「ヌクレオチド」という用語は、天然ヌクレオチドまたは修飾ヌクレオチドを指す。特定のヌクレオチド対は、相補的な様式で互いに特異的に結合する（相補的塩基対合と呼ばれる）。ＤＮＡにおいて、アデニン（Ａ）はチミン（Ｔ）と対になり、シトシン（Ｃ）はグアニン（Ｇ）と対になる。ＲＮＡでは、アデニン（Ａ）はウラシル（Ｕ）と対を形成し、シトシン（Ｃ）はグアニン（Ｇ）と対を形成する。第１の核酸鎖が、第１の鎖のヌクレオチドに相補的なヌクレオチドからなる第２の核酸鎖に結合すると、２本の鎖が結合して二本鎖を形成する。本明細書で使用される場合、「核酸シーケンシングデータ」、「核酸配列決定情報」、「配列情報」、「配列表示」、「核酸配列」、「ヌクレオチド配列」、「ゲノム配列」、「遺伝子配列」、「フラグメント配列」、「配列決定リード」、または「核酸配列決定リード」は、ＤＮＡまたはＲＮＡ等の核酸の分子（例えば、全ゲノム、全トランスクリプトーム、エクソーム、オリゴヌクレオチド、ポリヌクレオチドまたはフラグメント）中のヌクレオチド塩基（例えば、アデニン、グアニン、シトシンおよびチミンまたはウラシル）の順序および同一性を示す任意の情報またはデータを意味する。本教示は、キャピラリー電気泳動、マイクロアレイ、ライゲーションに基づくシステム、ポリメラーゼに基づくシステム、ハイブリダイズに基づくシステム、直接的または間接的なヌクレオチド同定システム、パイロシークエンシング、イオンまたはｐＨに基づく検出システム、および電子シグナル伝達に基づくシステムを含むがこれらに限定されない全ての利用可能な様々な技術、プラットフォームまたは技術を使用して得られた配列情報を企図していることを理解されたい。

ドライバ突然変異：本明細書で使用される場合、「ドライバ突然変異」は、癌の進行を駆動する突然変異を意味する。

免疫療法：本明細書で使用される場合、「免疫療法」は、癌細胞を死滅させるかまたは少なくとも癌細胞の増殖を阻害するように、好ましくは癌の更なる増殖を減少させる、癌のサイズを縮小させる、および／または癌を排除するように免疫系を刺激するように作用する１またはそれを超える薬剤による処置を指す。いくつかのそのような薬剤は、癌細胞上に存在する標的に結合し、いくつかは、免疫細胞上に存在し、癌細胞上に存在しない標的に結合し、いくつかは、癌細胞および免疫細胞の両方に存在する標的に結合する。そのような薬剤には、チェックポイント阻害剤および／または抗体が含まれるが、これらに限定されない。チェックポイント阻害剤は、自己寛容を維持し、末梢組織における生理学的免疫応答の持続時間および振幅を調節して付随する組織損傷を最小限に抑える免疫系の経路の阻害剤である（例えば、Ｐａｒｄｏｌｌ，ＮａｔｕｒｅＲｅｖｉｅｗｓＣａｎｃｅｒ１２，２５２－２６４（２０１２）を参照）。例示的な薬剤としては、ＰＤ－１、ＰＤ－２、ＰＤ－Ｌ１、ＰＤ－Ｌ２、ＣＴＬＡ－４０、ＯＸ４０、Ｂ７．１、Ｂ７Ｈｅ、ＬＡＧ３、ＣＤ１３７、ＫＩＲ、ＣＣＲ５、ＣＤ２７またはＣＤ４０のいずれかに対する抗体が挙げられる。他の例示的な薬剤としては、炎症促進性サイトカイン、例えばＩＬ－１β、ＩＬ－６およびＴＮＦ－αが挙げられる。他の例示的な作用物質は、腫瘍に対して活性化されるＴ細胞、例えば、Ｔ細胞によって認識される腫瘍抗原を標的とするキメラ抗原を発現することによって活性化されるＴ細胞である。

インデル：本明細書で使用される場合、「インデル」は、対象のゲノム内のヌクレオチドの挿入または欠失を含む突然変異を指す。

検出限界（ＬｏＤ）：本明細書で使用される場合、「検出限界」は、所与のアッセイまたは分析アプローチによって測定することができる試料中の物質（例えば、核酸）の最小量を意味する。

マシン可読媒体：本明細書で使用する場合、「マシン可読媒体」は、命令１１０２およびデータを一時的または永続的に記憶することができるコンポーネント、デバイス、または他の有形媒体を指し、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、バッファメモリ、フラッシュメモリ、光媒体、磁気媒体、キャッシュメモリ、他の種類の記憶装置（例えば、消去可能プログラマブル読み出し専用メモリ（ＥＥＰＲＯＭ））、および／またはそれらの任意の適切な組み合わせを含み得るが、これらに限定されない。「マシン可読媒体」という用語は、命令１１０２を記憶することができる単一の媒体または複数の媒体（例えば、集中型もしくは分散型データベース、または関連するキャッシュおよびサーバ）を含むと解釈され得る。「マシン可読媒体」という用語はまた、マシン１１００が実行するための命令１１０２（例えば、コード）を記憶することができる任意の媒体、または複数の媒体の組み合わせを含むと解釈されるべきであり、命令１１０２は、マシン１１００の１またはそれを超えるプロセッサ１１０４によって実行されると、マシン１１００に本明細書に記載の１またはそれを超える方法論のうちのいずれかを実施させる。したがって、「マシン可読媒体」は、単一のストレージ装置またはデバイス、ならびに複数のストレージ装置またはデバイスを含む「クラウドベース」ストレージシステムまたはストレージネットワークを指す。「マシン可読媒体」という用語は、信号自体を除外する。

マッピング可能性スコア：：本明細書で使用される場合、「マッピング可能性スコア」は、参照配列の２つの領域間の相同性の量を示す値を指す。２つのそれぞれの領域に対するマッピング可能性スコアは、それぞれの領域間の相同性の量が増加するにつれて、増加する値を有することができる。さらに、２つのそれぞれの領域に対するマッピング可能性スコアは、それぞれの領域間の相同性の量が減少するにつれて減少する値を有することができる。相同性の量は、領域と参照配列との間のミスアラインメントの量を決定することによって決定することができる。マッピング可能性スコアが増加するにつれて、領域がミスアラインメントである確率が低下する。さらに、マッピング可能性スコアが減少するにつれて、領域がミスアラインメントである確率が増加する。

最大ＭＡＦ：本明細書で使用される場合、「最大ＭＡＦ（ｍａｘｉｍｕｍＭＡＦ）」または「最大ＭＡＦ（ｍａｘＭＡＦ）」は、試料中の全ての体細胞性突然変異体の最大ＭＡＦを指す。

マイナー対立遺伝子頻度：本明細書で使用される場合、「マイナー対立遺伝子頻度」は、対象から得られた試料等の核酸の所与の集団においてマイナー対立遺伝子（例えば、最も一般的な対立遺伝子ではない）が発生する頻度を指す。マイナー対立遺伝子頻度が低い遺伝的変異体は、試料中に比較的低い頻度で存在することができる。

突然変異体対立遺伝子割合：本明細書で使用される場合、「突然変異体対立遺伝子割合」、「突然変異用量」または「ＭＡＦ」は、所与の試料中の所与のゲノム位置に対立遺伝子の変化または変異を有する核酸分子の割合を指す。ＭＡＦは、一般に、割合またはパーセンテージとして表される。例えば、ＭＡＦは、所与の遺伝子座に存在する全ての体細胞性変異体または対立遺伝子の約０．５、０．１、０．０５、または０．０１未満（すなわち、約５０％、１０％、５％、または１％未満）であり得る。

突然変異：本明細書で使用される場合、「突然変異」は、既知の参照配列からの変異を指し、例えば、単一ヌクレオチド変異体（ＳＮＶ）、コピー数多型体または変異（ＣＮＶ）／異常、挿入または欠失（インデル）、遺伝子融合、トランスバージョン、転座、フレームシフト、重複、反復伸長、およびエピジェネティック変異体等の突然変異を含む。突然変異は、生殖系列または体細胞性の突然変異であり得る。いくつかの例では、比較のための参照配列は、試験試料、典型的にはヒトゲノムを提供する対象の種の野生型ゲノム配列である。

突然変異呼び出し元(ｃａｌｌｅｒ)：本明細書で使用される場合、「突然変異呼び出し元」は、試験試料データ（例えば、対象から得られた配列情報）の突然変異を同定するために使用されるアルゴリズム（ソフトウェアまたは他のコンピュータ実装で具現化される）を意味する。

突然変異カウント：本明細書で使用される場合、「突然変異カウント」または「突然変異のカウント」は、核酸試料の全ゲノムまたはエクソームまたは標的化領域における体細胞性突然変異の数を指す。

新生物：本明細書で使用される場合、「新生物」および「腫瘍」という用語は互換的に使用される。それらは、対象における細胞の異常な成長を指す。新生物または腫瘍は、良性、潜在的に悪性、または悪性であり得る。悪性腫瘍は、癌または癌性腫瘍と呼ばれる。

次世代シーケンシング：本明細書で使用される場合、「次世代シーケンシング」または「ＮＧＳ」は、例えば、一度に数十万個の比較的小さな配列決定リードを作成する能力を有する、従来のサンガー電気泳動およびキャピラリー電気泳動に基づくアプローチと比較してスループットが向上したシーケンシング技術を指す。次世代シーケンシング技術のいくつかの例には、合成によるシーケンシング、ライゲーションによるシーケンシング、およびハイブリダイゼーションによるシーケンシングが含まれるが、これらに限定されない。

核酸タグ：本明細書で使用される場合、「核酸タグ」は、異なる試料（例えば、試料インデックスを表す）からの核酸、または同じ試料（例えば、分子バーコードを表す）中の異なる核酸分子、異なるタイプ、または異なる処理を受けた核酸を区別するために使用される短い核酸（例えば、約５００ヌクレオチド未満、約１００ヌクレオチド、約５０ヌクレオチドまたは約１０ヌクレオチド長）を指す。核酸タグは、所定の固定された非ランダム、ランダムまたはセミランダムオリゴヌクレオチド配列を含む。そのような核酸タグは、異なる核酸分子または異なる核酸試料またはサブ試料を標識するために使用され得る。核酸タグは、一本鎖、二本鎖、または少なくとも部分的に二本鎖であり得る。核酸タグは、必要に応じて同じ長さまたは様々な長さを有する。核酸タグはまた、１またはそれを超える平滑末端を有する二本鎖分子を含むことができ、５’または３’一本鎖領域（例えば、オーバーハング）を含むことができ、および／または所与の分子内の他の位置に１またはそれを超える他の一本鎖領域を含むことができる。核酸タグは、他の核酸（例えば、増幅および／または配列決定される試料核酸）の一端または両端に取り付けることができる。核酸タグを復号して、所与の核酸の起源、形態または処理の試料等の情報を明らかにすることができる。例えば、核酸タグを使用して、異なる分子バーコードおよび／または試料インデックスを有する核酸を含む複数の試料のプール化および／または並列処理を可能にすることもでき、核酸タグを検出する（例えば、読み取り）ことによって、核酸がその後デコンボリューションされる。核酸タグは、識別子（例えば、分子識別子、試料識別子）とも呼ばれ得る。追加的または代替的に、核酸タグを分子識別子（例えば、同じ試料またはサブ試料中の異なる分子または異なる親分子のアンプリコンを区別するために）として使用することができる。これには、例えば、所与の試料中の異なる核酸分子をユニークにタグ付けすること、またはそのような分子をユニークにタグ付けしないことが含まれる。非ユニークなタグ付け用途の場合、少なくとも１つの分子バーコードと組み合わせてそれらの内因性配列情報（例えば、選択された参照配列、配列の一端もしくは両端の部分配列、および／または配列の長さにマッピングする開始位置および／または停止位置）に基づいて異なる分子を区別できるように、限られた数のタグ（すなわち、分子バーコード）を使用して各核酸分子をタグ付けすることができる。任意の２つの分子が同じ内因性配列情報（例えば、開始位置および／または停止位置、配列の一端もしくは両端の部分配列、および／または長さ）を有し、また同じ分子バーコードを有し得る確率が低い（例えば、約１０％未満、約５％未満、約１％未満、または約０．１％未満の可能性）ように、十分な数の異なる分子バーコードが使用される。

オフターゲット領域：本明細書で使用される場合、「オフターゲット領域」は、参照配列の標的領域の外側にある参照配列のゲノム領域を指す。例えば、オフターゲット領域は、目的のポリヌクレオチドを捕捉するために使用される１またはそれを超えるプローブに対応する参照配列の領域の外側にある参照配列の領域を含み得る。

オフターゲット配列表示：本明細書で使用される場合、「オフターゲット配列表示」は、参照配列の標的領域の外側にあるゲノム領域に対して少なくとも閾値量の相同性を有するポリヌクレオチド分子または配列決定リードを指す。オフターゲット配列表示は、オフターゲット領域と整列するポリヌクレオチド分子および配列リードを指すことができる。相同性の閾値量は、少なくとも約９０％、少なくとも約９１％、少なくとも約９２％、少なくとも約９３％、少なくとも約９４％、少なくとも約９５％、少なくとも約９６％、少なくとも約９７％、少なくとも約９８％、少なくとも約９９％、少なくとも約９９．５％、または少なくとも約９９．９％であり得る。

オンターゲット配列表示：本明細書で使用される場合、「オンターゲット配列表示」は、参照配列の標的領域に関して少なくとも閾値量の相同性を有するポリヌクレオチドまたは配列決定リードを指す。オンターゲット配列表示は、オンターゲット領域と整列するポリヌクレオチド分子および配列リードを指すことができる。相同性の閾値量は、少なくとも約９０％、少なくとも約９１％、少なくとも約９２％、少なくとも約９３％、少なくとも約９４％、少なくとも約９５％、少なくとも約９６％、少なくとも約９７％、少なくとも約９８％、少なくとも約９９％、少なくとも約９９．５％、または少なくとも約９９．９％であり得る。

ポリヌクレオチド：本明細書で使用される場合、「ポリヌクレオチド」、「核酸」、「核酸分子」、「ポリヌクレオチド分子」、または「オリゴヌクレオチド」は、ヌクレオシド間結合によって連結されたヌクレオシド（デオキシリボヌクレオシド、リボヌクレオシド、またはそれらの類似体を含む）の直鎖ポリマーを指す。ポリヌクレオチドは、少なくとも３つのヌクレオシドを含むことができる。オリゴヌクレオチドは、数個のモノマー単位、例えば３～４個から数百個のモノマー単位のサイズの範囲であることが多い。ポリヌクレオチドが「ＡＴＧＣＣＴＧ」などの文字の配列によって表されるときはいつでも、特に断らない限り、ヌクレオチドは左から右に向かって５’→３’の順序であり、ＤＮＡの場合、「Ａ」はデオキシアデノシンを表し、「Ｃ」はデオキシシチジンを表し、「Ｇ」はデオキシグアノシンを表し、「Ｔ」はデオキシチミジンを表すことが理解されよう。文字Ａ、Ｃ、Ｇ、およびＴは、当技術分野で標準的であるように、塩基自体、ヌクレオシド、または塩基を含むヌクレオチドを指すために使用され得る。

プローブ：：本明細書で使用される場合、「プローブ」は、官能性を含むポリヌクレオチドを指す。官能性は、検出可能な標識（蛍光性）、結合部分（ビオチン）または固体支持体（磁気的に引きつけ可能な粒子またはチップ）であり得る。プローブは、標的核酸配列（例えば、ＳｕｒｅＳｅｌｅｃｔ（登録商標）プローブ、ＡｇｉｌｅｎｔＴｅｃｈｎｏｌｏｇｉｅｓ）にハイブリダイズする一本鎖ＤＮＡ／ＲＮＡポリヌクレオチドまたは二本鎖ＤＮＡポリヌクレオチドを含み得る。プローブを使用した配列捕捉は、一般に、部分的には、プローブの配列に相補的（またはほぼ相補的）である標的核酸配列の少なくとも一部分における連続ヌクレオチドの数に依存する。いくつかの例では、プローブはドライバ突然変異に対応し得る。

処理：本明細書で使用される場合、「処理する」、「計算する」、および「比較する」という用語は、互換的に使用することができる。特定の用途では、この用語は、差、例えば、数または配列の差を決定することを指す。例えば、遺伝子発現、コピー数多型（ＣＮＶ）、インデル、および／または単一ヌクレオチド変異体（ＳＮＶ）の値もしくは配列を処理することができる。

プロセッサ：本明細書で使用される場合、「プロセッサ」は、制御信号（例えば、「コマンド、」、「ｏｐコード、」、「マシンコード、」等である。）に従ってデータ値を操作し、マシンを動作させるために適用される対応する出力信号を生成する任意の回路または仮想回路（実際のプロセッサ上で実行される論理によってエミュレートされる物理回路）を指す。プロセッサは、例えば、ＣＰＵ、ＲＩＳＣプロセッサ、ＣＩＳＣプロセッサ、ＧＰＵ、ＤＳＰ、ＡＳＩＣ、ＲＦＩＣ、またはそれらの任意の組み合わせであってもよい。プロセッサは更に、同時に命令を実行し得る２またはそれを超える独立したプロセッサ「コア」を有するマルチコアプロセッサであってもよい。

定量的尺度：本明細書で使用される場合、「定量的測定」は、配列表示の特徴を分析することによって作成される数値を指す。定量的尺度は、カバレッジメトリクスおよびサイズ分布メトリクスを含むことができる。定量的尺度はまた、標的領域に対応する参照配列のゲノム領域に関連する生殖系列一塩基多型の突然変異体対立遺伝子頻度を含み得る。

参照配列：本明細書で使用される場合、「参照配列」は、実験的に決定された配列と比較する目的で使用される既知の配列を指す。例えば、既知の配列は、全ゲノム、染色体、またはそれらの任意のセグメントであり得る。参照配列は、少なくとも約２０、少なくとも約５０、少なくとも約１００、少なくとも約２００、少なくとも約２５０、少なくとも約３００、少なくとも約３５０、少なくとも約４００、少なくとも約４５０、少なくとも約５００、少なくとも約１０００、またはそれを超えるヌクレオチドを含むことができる。参照配列は、ゲノムもしくは染色体の単一の連続した配列と整列することができ、またはゲノムまたは染色体の異なる領域と整列する不連続なセグメントを含むことができる。例示的な参照配列には、例えば、ｈＧ１９およびｈＧ３８等のヒトゲノム参照配列が含まれる。

試料：本明細書で使用される場合、「試料」は、本明細書に開示される方法および／またはシステムによって分析することができる任意のものを意味する。

感度：本明細書で使用される場合、「感度」は、所与のＭＡＦおよびカバレッジで単一ヌクレオチド変異体、挿入および欠失の存在を検出する確率、ならびに所与の腫瘍割合およびカバレッジでコピー数変異体の存在を検出する確率を意味する。

配列決定：本明細書で使用される場合、「配列決定」は、生体分子、例えばＤＮＡまたはＲＮＡ等の核酸の配列（例えば、モノマー単位の同一性および順序）を決定するために使用されるいくつかの技術のいずれかを指す。例示的な配列決定方法としては、限定されないが、標的化シークエンシング、一分子リアルタイムシークエンシング、エクソンまたはエクソームシークエンシング、イントロンシークエンシング、電子顕微鏡ベースのシークエンシング、パネルシークエンシング、トランジスタ媒介シークエンシング、直接シークエンシング、ランダムショットガンシーケンシング、サンガージデオキシ終結シーケンシング、全ゲノムシーケンシング、ハイブリダイゼーションによるシーケンシング、パイロシーケンシング、キャピラリー電気泳動、二本鎖シーケンシング、サイクルシーケンシング、一塩基伸長シーケンシング、固相シーケンシング、ハイスループットシーケンシング、大規模並列シグネチャーシーケンシング、エマルジョンＰＣＲ、低変性温度での共増幅－ＰＣＲ（ＣＯＬＤ－ＰＣＲ）、マルチプレックスＰＣＲ、可逆的色素ターミネーターによるシーケンシング、ペアエンドシーケンシング、ｎｅａｒ－ｔｅｒｍシーケンシング、エキソヌクレアーゼシーケンシング、ライゲーションによるシーケンシング、ショートリードシーケンシング、単一分子シーケンシング、合成によるシーケンシング、リアルタイムシーケンシング、逆ターミネーターシーケンシング、ナノポアシーケンシング、４５４シーケンシング、ＳｏｌｅｘａＧｅｎｏｍｅＡｎａｌｙｚｅｒシーケンシング、ＳＯＬｉＤ（商標）シーケンシング、ＭＳ－ＰＥＴシーケンシング、およびそれらの組み合わせが挙げられる。いくつかの実施態様において配列決定は、とりわけ、Ｉｌｌｕｍｉｎａ，Ｉｎｃ．、ＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅｓ，Ｉｎｃ．、またはＡｐｐｌｉｅｄＢｉｏｓｙｓｔｅｍｓ／ＴｈｅｒｍｏＦｉｓｈｅｒＳｃｉｅｎｔｉｆｉｃから市販されている遺伝子分析装置等の遺伝子分析装置によって実施することができる。

一塩基多型：本明細書で使用される場合、「一塩基多型」またはＳＮＰは、ゲノムの特定の部分で起こり、所与の表現型を有する集団（例えば、１％）の少なくとも閾値割合に存在する一塩基の突然変異または変異を意味する。生殖系列一塩基多型は、生殖系列ＳＮＰが存在する集団の画分の生殖系列に存在する。

一塩基変異体：本明細書で使用される場合、「一塩基変異体」または「ＳＮＶ」は、ゲノムの特定の位置で起こる一塩基の突然変異または変異を意味する。

サイズ分布メトリクス：本明細書で使用される場合、「サイズ分布メトリクス」は、個々の配列表示のサイズに基づくサイズ分布の個々のパーティションに含まれるいくつかの配列表示を指す。配列表示のサイズは、配列表示で表されるヌクレオチドの数を指すことができる。さらに、サイズ分布の個々のパーティションは、配列表示のサイズの範囲を含むことができる。様々な例において、サイズ分布における２つの隣接するパーティションのサイズの範囲は、重複しなくてもよい。

体細胞性突然変異：本明細書で使用される場合、「体細胞性突然変異」は、受胎後に起こるゲノムの突然変異を意味する。体細胞性突然変異は、生殖細胞を除く身体の任意の細胞で起こり得、したがって子孫には伝えられない。

対象：本明細書で使用される場合、「対象」は、哺乳動物種（例えば、ヒト）もしくは鳥類（例えば、鳥）種などの動物、または植物などの他の生物を指す。より具体的には、対象は、脊椎動物、例えば、マウス、霊長類、サルまたはヒトなどの哺乳動物であり得る。動物には、家畜（例えば、生産用のウシ、乳牛、家禽、ウマ、ブタなど）、スポーツ動物、およびコンパニオンアニマル（例えば、ペットまたはサポート動物）が含まれる。対象は、健康な個体、疾患もしくは疾患の素因を有するもしくは有すると疑われる個体、または療法を必要としているもしくは療法を必要とすると疑われる個体であり得る。「個体」または「患者」という用語は、「対象」と交換可能であることを意図している。

例えば、対象は、癌を有すると診断された、癌療法を受ける予定である、および／または少なくとも１つの癌療法を受けたことがある個体であり得る。対象は、癌の寛解状態にあり得る。別の例として、対象は、自己免疫疾患を有すると診断された個体であり得る。別の例として、対象は、妊娠しているかまたは妊娠を計画している女性個体であり得、疾患、例えば癌、自己免疫疾患を有すると診断されているかまたは疑われ得る者であり得る。

標的領域：本明細書で使用される場合、「標的領域」は、目的のゲノム領域を指す。例えば、目的のゲノム領域は、１またはそれを超える癌型と一致する１またはそれを超える突然変異に対応し得る。さらに、目的のゲノム領域は、１またはそれを超えるプローブによって濃縮され得る。

閾値：本明細書で使用される場合、「閾値」は、閾値との関係に応じて異なる試料に対して同じパラメータの実験的に決定された値を特徴付けるために使用される所定の値を指す。

腫瘍割合：本明細書で使用される場合、「腫瘍割合」は、所与の試料中の腫瘍に由来する核酸分子の割合の推定値を指す。例えば、試料の腫瘍割合は、試料の最大ＭＡＦまたは試料の配列決定カバレッジのパターンまたは試料中のｃｆＤＮＡ断片の長さまたは試料の任意の他の選択された特徴に由来する尺度であり得る。場合によっては、試料の腫瘍割合は、試料の最大ＭＡＦに等しい。

変異体：本明細書で使用される場合、「変異体」は対立遺伝子と呼ばれ得る。変異体は、対立遺伝子がヘテロ接合性であるかホモ接合性であるかに応じて、通常５０％（０．５）または１００％（１）の頻度で提示される。例えば、生殖系列変異体は遺伝し、通常０．５または１の頻度を有する。体細胞性変異体；しかし、は後天性変異体であり、通常は＜０．５の頻度を有する。遺伝子座の主要および副次対立遺伝子は、遺伝子座が参照配列のヌクレオチドおよび参照配列とは異なる変異体ヌクレオチドによってそれぞれ占有されている遺伝子座を有する核酸を指す。遺伝子座での測定は、対立遺伝子が試料中で観察される頻度を測定する対立遺伝子割合（ＡＦ）の形態をとることができる。

詳細な説明
癌は、通常、個体の細胞の遺伝子内の突然変異の蓄積によって引き起こされ、その少なくとも一部は不適切に制御された細胞分裂をもたらす。そのような突然変異には、単一ヌクレオチド変異（ＳＮＶ）、遺伝子融合、挿入、トランスバージョン、転座および逆位が含まれ得る。これらの突然変異はまた、個体の非癌性細胞と比較して腫瘍ゲノム内の遺伝子のコピー数の増加または減少に対応するコピー数多型を含み得る。試料の無細胞核酸中に存在する突然変異の程度および突然変異無細胞核酸の量は、腫瘍進行を決定し、患者の転帰を予測し、処置選択を精緻化するためのバイオマーカーとして使用することができる。様々な例において、無細胞核酸中に存在する突然変異の程度を、所与の試料に対する腫瘍細胞コピー数および腫瘍割合によって示すことができる。

既存のシステムおよび方法では、参照配列の標的領域に対応する、試料に含まれる無細胞核酸に由来するポリヌクレオチドを同定することができる。試料に由来するオンターゲット配列の量に対応する１またはそれを超える定量的尺度を作成し、所与の試料に対する腫瘍細胞のコピー数および／または腫瘍割合の推定値を決定するために使用することができる。さらに、既存のシステムでは、標的領域の外側にある参照配列の部分とアラインメントされている試料由来のポリヌクレオチドを同定することができる。既存のシステムでは、オフターゲット配列は参照配列のオンターゲット領域に対応しないため、オフターゲット配列表示は、典型的には、腫瘍細胞のコピー数または試料の腫瘍割合の少なくとも１つの推定値を決定するために使用されない。

本明細書に記載される実施態様において、オンターゲット配列表示から導出される情報を超える試料から導出される情報は、試料を提供する対象に関する腫瘍メトリクスを決定するために使用され得る。例えば、オフターゲット配列表示に由来する情報を使用して、腫瘍細胞のコピー数および／または試料の腫瘍割合の推定値を決定することができる。さらに、生殖系列ＳＮＰの存在に由来する情報を使用して、腫瘍細胞のコピー数または試料の腫瘍割合の少なくとも１つの推定値を決定することができる。腫瘍細胞のコピー数または試料の腫瘍割合の少なくとも１つの推定値を決定するために、オンターゲット配列表示から得られる情報に加えて情報を使用することにより、既存の技術に関連して、腫瘍細胞のコピー数および／または試料の腫瘍割合の推定値の精度を改善することができる。さらに、腫瘍細胞のコピー数および／または試料の腫瘍割合の推定値の精度の改善は、以前は対象におけるコピー数多型の検出において考慮されず、したがって破棄されたオフターゲット分子に対応する情報を使用した結果である。

１またはそれを超える例示的な例において、いくつかのオフターゲット配列表示は、試料に由来するシーケンシングデータから決定され得る。さらに、参照配列のための第１のセグメントの数を決定する第１のセグメント化プロセスを実施することができる。第１のセグメントの数は、１またはそれを超える例では「ビン」と呼ぶことができる。定量的尺度を、オフターゲット配列表示に関して決定することができる。例えば、配列表示の数を示すカバレッジメトリクスは、個々の第１のセグメントに関連するオフターゲット配列表示に関して決定することができる。カバレッジメトリクスは、コピー数多型が存在しない個体の試料から決定される参照カバレッジメトリクスに関して正規化され得る。様々な例において、第２のセグメント化プロセスを、各第２のセグメントが複数の第１のセグメントを含むように実施することができる。個々の第２のセグメントに対応する第１のセグメントの正規化されたカバレッジメトリクスを使用して、１またはそれを超える第２のセグメントの腫瘍細胞コピー数を決定し、試料の腫瘍割合を決定することができる。１またはそれを超える第２のセグメントに対する腫瘍細胞コピー数および腫瘍割合は、腫瘍細胞コピー数および／または腫瘍割合の値の尤度を決定する最尤推定モデルのパラメータの値として使用することができる。いくつかの実施態様において参照配列のセグメントに対する異なるサイズの配列表示の分布を示すサイズ分布データを使用して、腫瘍割合および腫瘍細胞コピー数等の最尤推定モデルのパラメータの値を決定することもできる。さらに、一塩基多型データを使用して、最尤推定モデルのパラメータの値を決定することができる。

図１は、１またはそれを超える実施態様による、オフターゲット領域から得られた情報に基づいて対象におけるコピー数多型等の腫瘍メトリクスを決定する例示的なアーキテクチャ１００の概略図である。１またはそれを超える例では、検討中の疾患は癌の一種である。そのような癌の非限定的な例としては、胆道癌、膀胱癌、移行上皮癌、尿路上皮癌、脳癌、神経膠腫、星状細胞腫、乳癌、化生性癌、子宮頸癌、子宮頸部扁平上皮癌、直腸癌、結腸直腸癌、結腸癌、遺伝性非ポリポーシス結腸直腸癌、結腸直腸腺癌、消化管間質腫瘍（ＧＩＳＴ）、子宮内膜癌、子宮内膜間質肉腫、食道癌、食道扁平上皮癌、食道腺癌、眼黒色腫、ブドウ膜黒色腫、胆嚢癌、胆嚢腺癌、腎細胞癌、淡明細胞型腎細胞癌、移行上皮癌、尿路上皮癌、ウィルムス腫瘍、白血病、急性リンパ性白血病（ＡＬＬ）、急性骨髄性白血病（ＡＭＬ）、慢性リンパ性（ＣＬＬ）、慢性骨髄性（ＣＭＬ）、慢性骨髄単球性（ＣＭＭＬ）、肝臓癌（ｌｉｖｅｒｃａｎｃｅｒ）、肝癌（ｌｉｖｅｒｃａｒｃｉｎｏｍａ）、ヘパトーマ、肝細胞癌、胆管癌、肝芽腫、肺癌、非小細胞肺癌（ＮＳＣＬＣ）、中皮腫、Ｂ細胞リンパ腫、非ホジキンリンパ腫、びまん性大細胞型Ｂ細胞リンパ腫、マントル細胞リンパ腫、Ｔ細胞リンパ腫、非ホジキンリンパ腫、前駆体Ｔリンパ芽球性リンパ腫／白血病、末梢Ｔ細胞リンパ腫、多発性骨髄腫、鼻咽頭癌（ＮＰＣ）、神経芽腫、中咽頭癌、口腔扁平上皮癌、骨肉腫、卵巣癌、膵臓癌、膵管腺癌、偽乳頭新生物、腺房細胞癌が挙げられる。前立腺癌、前立腺腺癌、皮膚癌、黒色腫、悪性黒色腫、皮膚黒色腫、小腸癌、胃癌（ｓｔｏｍａｃｈｃａｎｃｅｒ）、胃癌（ｇａｓｔｒｉｃｃａｒｃｉｎｏｍａ）、消化管間質腫瘍（ＧＩＳＴ）、子宮癌、または子宮肉腫。

アーキテクチャ１００は、シーケンシングマシン１０２を含むことができる。１またはそれを超える例では、シーケンシングマシン１０２は、試料１０４中に存在する核酸を増幅する１またはそれを超える配列決定動作を実施することができるいくつかのシーケンシングマシンのいずれかであり得る。様々な例において、シーケンシングマシン１０２は次世代シーケンシング動作を実施することができる。１またはそれを超える例では、試料１０４は、対象から抽出されたある量の少なくとも１つの体液を含み得る。１またはそれを超える追加の例では、試料１０４は、対象から得られた組織試料を含むことができる。

配列決定の前に、試料１０４からポリヌクレオチドを抽出することができる。試料１０４からのポリヌクレオチドの抽出は、試料１０４に含まれる細胞の膜を切断するために１またはそれを超える細胞溶解技術を実施すること、および試料１０４に含まれるタンパク質を分解するために１またはそれを超えるプロテアーゼを適用することを含み得る。試料１０４からのポリヌクレオチドの抽出はまた、試料１０４に含まれる他の成分からポリヌクレオチドを分離するためのいくつかの洗浄および／または溶出技術を含むことができる。様々な例において、配列決定の前に、数千、最大数百万、最大数十億のポリヌクレオチドを試料１０４から抽出することができる。さらに、平滑末端ライゲーションを、抽出されたポリヌクレオチドおよびアダプタに対して行うことができ、タグ（例えば、分子バーコード）を、抽出されたポリヌクレオチドに付加することができる。抽出されたポリヌクレオチドはまた、抽出されたポリヌクレオチドと、参照配列の標的領域に対応するプローブとの間でハイブリダイゼーションを引き起こすことによって濃縮され得る。濃縮プロセスは、プローブに関連するオンターゲット領域に対応する数千、数十万、最大数百万のポリヌクレオチドを同定することができる。濃縮プロセス後に、参照配列のオフターゲット領域に対応する数千、最大数百万の濃縮されていないポリヌクレオチドも存在し得る。

濃縮プロセスに続いて、濃縮されたポリヌクレオチドは、１またはそれを超える増幅プロセスに従って増幅され得る。１またはそれを超える増幅プロセスは、数千、最大数百万コピーの個々の濃縮ポリヌクレオチドを生成することができる。１またはそれを超える例において、濃縮されていないポリヌクレオチドの一部分は、場合によっては、増幅され得るが、濃縮されたポリヌクレオチドが増幅される程度までは増幅され得ない。１またはそれを超える増幅プロセスは、１またはそれを超える配列決定動作を受ける増幅産物を作成することができる。試料１０４に対して１またはそれを超える配列決定動作を実施した後、シーケンシングマシン１０２はシーケンシングデータ１０６を生成することができる。

シーケンシングデータ１０６は、増幅産物に含まれる核酸の英数字表示を含み得る。例えば、シーケンシングデータ１０６は、増幅産物の個々の核酸について、個々の核酸に対応するヌクレオチドのそれぞれの鎖を表す文字列に対応するデータを含むことができる。

シーケンシングデータ１０６は、１またはそれを超えるデータファイルに記憶することができる。例えば、シーケンシングデータ１０６は、生の配列データおよび品質スコアを記憶するテキストベースのシーケンシングデータファイルフォーマットを含むＦＡＳＴＱファイルに記憶することができる。１またはそれを超える更なる例において、シーケンシングデータ１０６は、バイナリーベースコール（ＢＣＬ）配列ファイルフォーマットに従ってデータファイルに記憶することができる。１またはそれを超える例では、シーケンシングデータ１０６をＢＡＭファイルに記憶させることができる。１またはそれを超える例において、シーケンシングデータ１０６は、少なくとも約１ギガバイト（ＧＢ）、少なくとも約２ＧＢ、少なくとも約３ＧＢ、少なくとも約４ＧＢ、少なくとも約５ＧＢ、少なくとも約８ＧＢ、または少なくとも約１０ＧＢを含み得る。シーケンシングデータ１０６に含まれる個々の配列表示は、本明細書では「リード」または「配列決定リード」と呼ばれる場合がある。様々な例において、試料１０４に含まれる個々の第１の核酸は、個々の第１の核酸の増幅の結果としてシーケンシングデータ１０６に含まれる複数の配列表示に対応し得る。１またはそれを超える追加の例では、試料１０４に含まれる個々の第２の核酸は、個々の第２の核酸の増幅がない結果としてシーケンシングデータ１０６に含まれる単一の配列表示に対応し得る。

アーキテクチャ１００は、シーケンシングマシン１０２からシーケンシングデータ１０６を取得し、シーケンシングデータ１０６を分析するコンピューティングシステム１０８を含むことができる。例えば、コンピューティングシステム１０８は、シーケンシングデータ１０６を分析して、試料１０４が由来する対象内にコピー数多型が存在する確率を決定することができる。１またはそれを超える追加の例では、コンピューティングシステム１０８はまた、試料１０４を提供した対象に腫瘍が存在する確率を決定することができる。コンピューティングシステム１０８は、１またはそれを超えるコンピューティングデバイス１１０を含むことができる。１またはそれを超えるコンピューティングデバイス１１０は、１もしくはそれを超えるデスクトップコンピューティングデバイス、１もしくはそれを超えるモバイルコンピューティングデバイス、または１もしくはそれを超えるサーバコンピューティングデバイスのうちの少なくとも１つを含むことができる。様々な例では、１またはそれを超えるコンピューティングデバイス１１０の少なくとも一部分は、クラウドコンピューティング環境等のリモートコンピューティング環境に含めることができる。１またはそれを超える例において、コンピューティングシステム１０８およびシーケンシングマシン１０２は、単一の組織によって所有、動作、維持および／または制御され得る。１またはそれを超える更なる例において、コンピューティングシステム１０８およびシーケンシングマシン１０２は、複数の組織によって所有、動作、維持および／または制御され得る。

動作１１２において、コンピューティングシステム１０８は、アラインメントプロセスを実施することができる。アラインメントプロセスは、シーケンシングデータ１０６に含まれる個々の配列表示の少なくとも一部分が参照配列のゲノム領域に対応すると決定することを含み得る。アラインメントプロセスは、配列データ１０６に含まれる個々の配列表示と参照配列の部分との間の相同性の量を決定することができる。所与の配列表示と参照配列との間の相同性の量は、所与の配列表示の対応する位置と同じヌクレオチドを有する参照配列の位置の数を示すことができる。コンピューティングシステム１０８は、配列表示および参照配列の一部分が少なくとも閾値量の相同性を有すると判定することに基づいて、配列表示が参照配列の一部分とアラインメントされると判定することができる。配列表示が参照配列の複数の部分に対して少なくとも閾値量の相同性を有するシナリオでは、配列表示との相同性が最大である参照配列の部分は、配列表示とアラインメントされていると判定することができる。参照配列と少なくとも閾値量の相同性を有する配列表示は、動作１１２で行われるアラインメントプロセスによって作成される整列配列表示１１４に含めることができる。

所与の配列表示と参照配列の一部分との間の相同性の量は、ＮｅｅｄｌｅｍａｎａｎｄＷｕｎｓｃｈ（Ｊ．Ｍｏｌ．Ｂｉｏｌ．４８；４４３－４５３（１９７０））のアルゴリズムを使用するデフォルト設定を用いて、ＢＬＡＳＴプログラム（基本的な局所アラインメント検索ツール）およびＰｏｗｅｒＢＬＡＳＴプログラム（Ａｌｔｓｃｈｕｌｅｔａｌ．，Ｊ．Ｍｏｌ．Ｂｉｏｌ．，１９９０，２１５，４０３－４１０；ＺｈａｎｇａｎｄＭａｄｄｅｎ，ＧｅｎｏｍｅＲｅｓ．，１９９７，７，６４９－６５６）を使用して、またはＧａｐプログラム（ＷｉｓｃｏｎｓｉｎＳｅｑｕｅｎｃｅＡｎａｌｙｓｉｓＰａｃｋａｇｅ，ＧｅｎｅｔｉｃｓＣｏｍｐｕｔｅｒＧｒｏｕｐ，ＵｎｉｖｅｒｓｉｔｙＲｅｓｅａｒｃｈＰａｒｋ，ＭａｄｉｓｏｎＷｉｓ．）を使用することにより決定することができる。配列表示と参照配列の一部分との間の相同性の量は、Ｂｕｒｒｏｗｓ－Ｗｈｅｅｌｅｒａｌｉｇｎｅｒ（Ｌｉ，Ｈ．，＆Ｄｕｒｂｉｎ，Ｒ．（２００９）を使用して決定することもできる。ＦａｓｔａｎｄａｃｃｕｒａｔｅｓｈｏｒｔｒｅａｄａｌｉｇｎｍｅｎｔｗｉｔｈＢｕｒｒｏｗｓ－Ｗｈｅｅｌｅｒｔｒａｎｓｆｏｒｍ．Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ，２５（１４），１７５４－１７６０）．

１またはそれを超える実施態様において、個々のアラインメントされた配列表示１１４は、シーケンシングデータ１０６に含まれる個々のリードに対応し得る。これらのシナリオでは、アラインメントされた配列表示１１４は、試料１０４に含まれる単一ポリヌクレオチドに対応する複数のリードを含み得る。参照配列。１またはそれを超える追加の例では、アラインメントされた配列表示１１４は、試料１０４に含まれる個々の核酸に対応することができる。これらの状況において、コンピューティングシステムは、配列決定リードの各群に共通する分子バーコードに基づいて、試料１０４に含まれる個々の核酸に対応する配列データ１０６に含まれるリードの群を決定することができる。すなわち、試料１０４に含まれる個々の核酸は、個々の核酸をユニークに同定する分子バーコードでコード化することができ、少なくともいくつかの場合、個々の核酸は、シーケンシングデータ１０６に含まれる複数のリードによって表すことができる。したがって、試料１０４に含まれる単一の核酸に対応する複数の配列表示がシーケンシングデータ１０６に存在する場合、コンピューティングシステム１０８は複数の配列表示を一緒にグループ化することができる。様々な例において、試料１０４に含まれる単一の核酸に対応する配列表示の群は、本明細書では「ファミリー」と呼ばれ得る。さらに、共通の分子バーコードを有するアラインメントされた配列表示１１４の参照配列に対する開始位置および停止位置を使用して、試料１０４に含まれる個々の核酸に対応する配列表示をグループ化することができる。１またはそれを超える例示的な例では、試料１０４に含まれる単一の核酸に対応する配列表示のファミリーを表す個々の配列表示は、本明細書では「コンセンサス配列表示」と呼ばれ得る。

コンピューティングシステム１０８は、動作１１６においてアラインメントされた配列表示１１４を分析することができる。１またはそれを超える例において、アラインメントされた配列表示１１４を、参照配列のいくつかの標的領域に関して解析することができる。１またはそれを超える例において、標的領域は、試料１０４内に存在する目的の核酸を同定するために使用されるプローブのポリヌクレオチド配列に対応することができる。コンピューティングシステム１０８は、アラインメントされた配列表示１１４を分析して、試料１０４が得られた対象にコピー数多型が存在するかどうかを決定するために使用することができる配列表示の少なくともサブセットを決定することができる。１またはそれを超える例において、アラインメントされた配列表示１１４を分析して、アラインメントされた配列表示１１４に含まれるオンターゲット配列表示１１８を決定することができる。オンターゲット配列表示１１８は、参照配列の標的領域と少なくとも閾値量の相同性を有するアラインメントされた配列表示１１４に含まれる配列表示を含むことができる。

さらに、アラインメントされた配列表示１１４を分析して、オフターゲット配列表示１２０を決定することができる。オフターゲット配列表示１２０は、標的領域に対応しない参照配列の部分とアラインメントさせることができる。１またはそれを超える例において、オフターゲット配列表示１２０は、参照配列の少なくとも１つの標的領域と重複し得ない。１またはそれを超える追加の例において、オフターゲット配列表示１２０は、参照配列の少なくとも１つの標的領域と閾値量未満のオーバーラップを有し得る。１またはそれを超える例示的な例において、重複の閾値量は、配列表示と標的領域との間の約１０％以下の相同性、配列表示と標的領域との間の約９％以下の相同性、配列表示と標的領域との間の約８％以下の相同性、配列表示と標的領域との間の約７％以下の相同性、配列表示と標的領域との間の約６％以下の相同性、配列表示と標的領域との間の約５％以下の相同性、配列表示と標的領域との間の約４％以下の相同性、配列表示と標的領域との間の約３％以下の相同性、配列表示と標的領域との間の約２％以下の相同性、配列表示と標的領域との間の約１％以下の相同性、配列表示と標的領域との間の約０．５％以下の相同性であり得る、または配列提示と標的領域との間の約０．１％以下の相同性であり得る。

コンピューティングシステム１０８は、動作１２２において、シーケンシングデータ１０６から導出された１またはそれを超える定量的尺度を分析することができる。シーケンシングデータ１０６から得られた定量的尺度の少なくとも一部分は、オンターゲット配列表示１１８に関して決定することができる。さらに、シーケンシングデータ１０６から導出された定量的尺度の少なくとも一部分は、オフターゲット配列表示１２０に関して決定することができる。１またはそれを超える例において、コンピューティングシステム１０８は、オンターゲット配列表示１１８に関する１またはそれを超えるカバレッジメトリクスを決定することができる。例えば、コンピューティングシステム１０８は、参照配列の個々の標的領域とアラインメントされたオンターゲット配列表示の数を決定して、個々の標的領域に対するそれぞれのカバレッジメトリクスを生成することができる。様々な例において、コンピューティングシステム１０８は、オンターゲット配列表示１１８の総数に関連して、または標的領域の群に対応するオンターゲット配列表示１１８の数に関連して、個々の標的領域に対応するオンターゲット配列表示１１８のそれぞれの数に基づいて、個々の標的領域についての１またはそれを超える正規化されたカバレッジメトリクスを決定することができる。

さらに、コンピューティングシステム１０８は、オフターゲット配列表示１２０に関して１またはそれを超えるカバレッジメトリクスを決定することができる。１またはそれを超える例において、コンピューティングシステム１０８は、参照配列の複数のセグメントを決定し、複数のセグメントの個々のセグメントに対応するいくつかのオフターゲット配列表示１２０を決定することができる。１またはそれを超える追加の例において、コンピューティングシステム１０８は、オフターゲット配列表示１２０に関する１またはそれを超えるサイズ分布メトリクスを決定することができる。例えば、コンピューティングシステム１０８は、特定のサイズまたはサイズ範囲を有するいくつかのオフターゲット配列表示１２０に基づいて、複数のセグメントの個々のセグメントに対応するそれぞれのサイズ分布を決定することができる。１またはそれを超える例示的な例では、個々のオフターゲット配列表示１２０に含まれるヌクレオチドの数は、本明細書では個々のオフターゲット配列表示１２０の「サイズ」と呼ぶことができる。１またはそれを超える例において、個々の配列表示のサイズは、個々の配列表示に対応する分子に含まれるいくつかのヌクレオチドを含み得る。１またはそれを超える追加の例では、個々の配列表示のサイズは、アダプタおよび／またはバーコードのヌクレオチド等の１またはそれを超える追加のヌクレオチドに加えて、個々の配列表示に対応する分子に含まれるいくつかのヌクレオチドを含み得る。さらに、サイズ分布は、平均配列表示サイズに基づく、少なくとも８つのパーティションを有する配列表示のサイズの正規分布を含むことができる。パーティションを、平均の上および平均の下に等しく分布させることができる。様々な例では、個々のパーティションを、平均からの１またはそれを超える標準偏差に対応させることができる。

１またはそれを超える例において、コンピューティングシステム１０８は、参照配列に関して複数のセグメント化プロセスを実施することができる。例えば、コンピューティングシステム１０８は、参照配列を複数の第１のセグメントにパーティションする第１のセグメント化プロセスを実施することができる。１またはそれを超える実施態様において複数の第１のセグメントを、「ビン」と呼ぶことができる。コンピューティングシステム１０８はまた、参照配列を複数の第２のセグメントにパーティションする第２のセグメント化プロセスを実施することもできる。様々な例において、複数の第１のセグメントは、複数の第２のセグメントよりも多数のセグメントを含むことができる。例示すると、複数の第２のセグメントは、複数の第１のセグメントを含むことができる。１またはそれを超える例では、コンピューティングシステム１０８は、複数の第１のセグメントおよび複数の第２のセグメントの両方について、カバレッジメトリクスまたはサイズ分布メトリクスの少なくとも一方等の定量的尺度を決定することができる。例示すると、複数の第１のセグメントに関してコンピューティングシステム１０８によって決定された定量的尺度は、コンピューティングシステム１０８によって、複数の第２のセグメントの定量的尺度を決定するために使用され得る。

１またはそれを超える例示的なシナリオでは、コピー数多型がより小さい第１のセグメント内に存在しないため、複数のセグメント化プロセスを実装することができる。したがって、第２のセグメントが、コピー数多型が起こり得るゲノム領域に対応するサイズを有するように、複数の第１のセグメントを含む第２のセグメントを作成する第２のセグメント化プロセスが実装される。さらに、第１のセグメント化プロセスを実施して、存在し得るバイアスを最小にすることができる個々の第１のセグメントの正規化されたデータを作成することができる。したがって、複数のセグメント化プロセスを行うことにより、試料１０４を提供した対象に対するコピー数多型および／または腫瘍割合をより正確に決定するために使用することができる定量的尺度を作成することができる。

動作１２２でコンピューティングシステム１０８によって実施されたオンターゲット配列表示１１８およびオフターゲット配列表示１２０から導出された定量的尺度の分析を使用して、１またはそれを超える腫瘍メトリクス１２４を決定することができる。１またはそれを超える例では、１またはそれを超える腫瘍メトリクス１２４は、個々の第２のセグメントに対する腫瘍細胞コピー数を含み得る。個々の第２のセグメントの腫瘍細胞コピー数は、１またはそれを超える個々の第２のセグメントに対応するゲノム領域における増幅または欠失の量を示すことができる。様々な例において、腫瘍細胞コピー数は、１またはそれを超える個々の第２のセグメントに対応するゲノム領域のヘテロ接合性の喪失を示し得る。１またはそれを超える追加の例では、１またはそれを超える腫瘍メトリクス１２４は、試料１０４に対応する腫瘍割合の推定値を含むことができる。１またはそれを超える例示的な例では、１またはそれを超える腫瘍メトリクス１２４は、試料１０４が得られた個体内の腫瘍の成長の進行または後退を示すことができる。さらに、１またはそれを超える腫瘍メトリクス１２４は、試料１０４を提供した対象に提供された１またはそれを超える処置の有効性を示すことができる。１またはそれを超える追加の例示的な例では、１またはそれを超える腫瘍メトリクス１２４をモデルに関して利用して、試料１０４が得られた対象に腫瘍が存在する確率を作成することができる。１またはそれを超える例示的な例では、１またはそれを超える腫瘍インジケータ１２４は、試料１０４が得られた対象の腫瘍細胞コピー数を決定するために実装することができる最尤推定モデルのパラメータに対応することができる。様々な他の例示的な例において、１またはそれを超える腫瘍インジケータ１２４は、試料１０４が得られた対象の腫瘍細胞コピー数を決定するために実装することができる期待値最大化モデルのパラメータに対応することができる。

図２は、１またはそれを超える実施態様による、オンターゲット配列表示、オフターゲット配列表示、および一塩基多型データに基づいて、腫瘍細胞コピー数等の対象に関する腫瘍メトリクスを決定する例示的なプロセス２００のフローチャートである。プロセス２００は、２０２において、試料に由来するポリヌクレオチドに基づいてシーケンシングデータ２０４を作成することを含み得る。シーケンシングデータ２０４は、シーケンシングマシンによって作成されたデータに対応する配列決定リードを含み得る。１またはそれを超える例において、シーケンシングデータ２０４は、いくつかの配列決定リードが単一ポリヌクレオチドに由来することを示し得る。

動作２０６において、プロセス２００は、シーケンシングデータ２０４に関してコンピュータによる動作を実施して、１またはそれを超える追加のデータセットを決定することを含み得る。様々な例において、１またはそれを超える追加のデータセットは、シーケンシングデータ２０４に含まれる配列表示の１またはそれを超えるサブセットを含み得る。１またはそれを超える追加のデータセットは、１またはそれを超える基準に基づいて決定することができる。例えば、動作２０６は、参照配列の標的領域に対応するシーケンシングデータ２０４に含まれる配列表示の第１のサブセットを決定することに基づいてオンターゲットデータ２０８を生成するために実施され得る。さらに、動作２０６は、標的領域を除外する参照配列の部分に対応するシーケンシングデータ２０４に含まれる配列表示の第２のサブセットを決定することに基づいてオフターゲットデータ２１０を生成するために実施され得る。

さらに、動作２０６を、いくつかの生殖系列ＳＮＰに対応するシーケンシングデータ２０４に含まれる配列表示の同定に基づいて一塩基多型データ２１２を生成するために実施することができる。様々な例において、ＳＮＰデータ２１２を生成するために使用される生殖系列ＳＮＰは、標的領域に対応する参照配列のゲノム領域に含まれる生殖系列ＳＮＰを含み得る。１またはそれを超える例では、ＳＮＰデータ２１２は、１またはそれを超えるプローブに対応するそれぞれの生殖系列ＳＮＰに対応する位置および変異に関して配列データ２０４の配列表示を分析することによって決定することができる。１またはそれを超える実施態様においてＳＮＰデータ２１２は、１またはそれを超える公的に利用可能なデータベースに含まれるいくつかの個々の生殖系列ＳＮＰの配列表示を含み得る。１またはそれを超える例では、ＳＮＰデータ２１２は、この文書の提出時のｇｎｏｍＡＤデータベースの最新バージョン等のｇｎｏｍＡＤデータベースのバージョンで識別された生殖系列ＳＮＰの配列表示を含むことができる。１またはそれを超える更なる例において、配列表示の数は、その多数の配列表示に共通する分子バーコードに従って、また、個々のファミリーに含まれる多数の配列表示のサブセットに対応する元のポリヌクレオチド分子に対する開始位置および停止位置に基づいて、ファミリーにグループ化され得る。試料に由来するＳＮＰに対応する定量的尺度は、個々のＳＮＰに関連する参照ゲノムのそれぞれの部分に整列するファミリーの数に基づいて決定することができる。

動作２０６に関して実施されるコンピュータによる動作はまた、オフターゲットデータ２１０を利用して、オフターゲットデータ２１０に含まれる配列表示に基づいて定量的尺度を決定することもできる。例えば、コンピュータによる動作を実施して、カバレッジデータ２１４およびサイズ分布データ２１６を決定することができる。カバレッジデータ２１４は、参照配列の個々のセグメントに対応するいくつかの配列表示を含むことができる。１またはそれを超える例において、カバレッジデータ２１４は、参照配列のオフターゲット領域の個々のセグメントに対応する配列表示の数またはカウントを示すことができる。１またはそれを超える更なる例において、カバレッジデータ２１４は、参照配列のオフターゲット領域の個々のセグメントに対応するポリヌクレオチドの数を示すことができる。

正規化された定量的尺度を、オフターゲットデータ２１０に関連して決定することもできる。例えば、カバレッジデータ２１４は、正規化されたカバレッジデータを含むこともできる。１またはそれを超える例示的な例では、正規化されたカバレッジデータは、所与のセグメントから取得された第２のカバレッジメトリクスに関して、参照配列の所与のセグメントから取得された第１のカバレッジメトリクスを示すことができる。１またはそれを超える例示的な例において、第２のカバレッジメトリクスは、コピー数多型が検出されない個体の試料から決定される。様々な例において、第２のカバレッジメトリクスは、参照カバレッジメトリクスとすることができる。参照配列。１またはそれを超える例において、参照配列の所与のセグメントについての参照カバレッジメトリクスに対応する配列表示の数の平均を決定し、正規化されたカバレッジメトリクスを決定するために使用することができる。

さらに、サイズ分布データ２１６は、参照配列の所与のセグメントに対応する配列表示に関するサイズの分布を示すことができる。様々な例では、配列表示のサイズをグループ化して、それぞれが配列表示のサイズの範囲を含むいくつかのパーティションを形成することができる。配列表示のサイズの分布は、各それぞれのパーティションに対応する配列表示の数を示すことができる。

１またはそれを超える例では、サイズ分布データ２１６は、正規化されたサイズ分布データを含むことができる。正規化されたサイズ分布データは、コピー数多型が検出されない個体の試料から得られる所与のセグメントに対応する第２の配列表示のサイズの第２の分布に関連して、参照配列の所与のセグメントに対する試料に対応する第１の配列表示のサイズの第１の分布を示すことができる。参照配列。１またはそれを超える例示的な例では、第２の配列表示を使用して、参照サイズ分布メトリクスを決定することができる。これらのシナリオでは、正規化されたサイズ分布データは、第２の配列表示のサイズの第２の分布に対する第１の配列表示のサイズの第１の分布の比を含むことができる。

２１８において、プロセス２００は、対象に存在するコピー数多型の指標を決定するために、参照配列に関して１またはそれを超える追加のデータセットを分析することを含み得る。図２の例示的な例において、オンターゲットデータ２０８、オフターゲットデータ２１０、またはＳＮＰデータ２１２の少なくとも１つを使用して、シーケンシングデータ２０４が由来する試料に関する腫瘍細胞コピー数２２０を決定することができる。さらに、オンターゲットデータ２０８、オフターゲットデータ２１０、またはＳＮＰデータ２１２の少なくとも１つを使用して、シーケンシングデータ２０４を導出するために使用される試料に関連する腫瘍割合２２２を決定することができる。

腫瘍細胞コピー数２２０および少なくともいくつかの例では、試料の腫瘍割合２２２を、以下によって決定することができる。
観察されたカバレッジ＝２＊（１－ＴＦ）＋ｎ＊ＴＦ（式中、ｎは腫瘍細胞コピー数２２０であり、ＴＦは試料腫瘍割合２２２である）。
１またはそれを超える例示的な例では、所与の試料の腫瘍割合２２０は、所与の試料に含まれる全ての核酸の少なくとも約０．０５％、少なくとも約０．１％、少なくとも約０．２％、少なくとも約０．５％、少なくとも約１％、少なくとも約２％、少なくとも約３％、少なくとも約４％、少なくとも約５％、少なくとも約１０％、少なくとも約１５％、少なくとも約２０％、少なくとも約２５％、少なくとも約３０％、少なくとも約３５％、少なくとも約４０％、少なくとも約４５％、または少なくとも約５０％であり得る。

観察されたカバレッジおよび腫瘍割合２２２を決定するために使用される腫瘍細胞コピー数２２０は、参照配列に関して１またはそれを超えるセグメント化動作を実施して、参照配列のセグメントの数を決定することによって決定することができる。１またはそれを超える例では、異なるタイプのデータに関連して実施されるセグメント化動作の結果は異なり得る。例えば、カバレッジデータ２１４を使用して、参照配列の第１のセグメント化を決定することができる。さらに、オンターゲットデータ２１０およびカバレッジデータ２１４は、第１のセグメント化とは異なる参照配列の第２のセグメント化を決定するために使用され得るマージされたデータを決定するために使用され得る。

様々な例において、オンターゲットデータ２０８はいくつかのオンターゲット配列表示を含むことができ、オンターゲットデータ２０８の観測されたカバレッジは、参照配列の個々の標的領域に対応するオンターゲット配列表示のそれぞれの数を決定することによって、参照配列の個々の標的領域について決定することができる。１またはそれを超える例示的な例において、標的領域の中央領域に関して相同であるいくつかのオンターゲット配列表示を決定して、オンターゲット領域に関して観察されたカバレッジを決定することができる。標的領域の中央領域は、少なくとも１個のヌクレオチド、少なくとも２個のヌクレオチド、少なくとも３個のヌクレオチド、少なくとも４個のヌクレオチド、少なくとも５個のヌクレオチド、少なくとも１０個のヌクレオチド、少なくとも１５個のヌクレオチド、少なくとも２０個のヌクレオチド、または少なくとも２５個のヌクレオチドを含み得る。１またはそれを超える更なる例において、オンターゲットデータ２０８のカバレッジデータは、１００ｋｂセグメント等の参照ゲノムのセグメントにわたる標的配列表示の平均カバレッジに対応することができる。

１またはそれを超える更なる例では、オンターゲットデータ２０８は、参照配列の個々のセグメントに対応するサイズ分布データを含むことができる。１またはそれを超える例において、サイズ分布は、各々が一連のサイズのオンターゲット配列表示を含むいくつかのグラデーションを含むことができる。参照配列の個々のセグメントのサイズ分布は、分布の各グラデーションに含まれるいくつかのオンターゲット配列表示を含むことができる。

加えて、カバレッジデータおよび／またはサイズ分布データに関するオンターゲットデータ２０８は正規化することができる。様々な例において、オンターゲットデータ２０８を、腫瘍が存在しない個体から得られた試料の数に基づいて作成されたオンターゲット配列表示に基づいて、参照カバレッジデータまたは参照サイズ分布データの少なくとも一方に関して正規化することができる。オンターゲットカバレッジデータに関するオンターゲットデータ２０８を、オンターゲット配列表示のカバレッジの中央値に関して正規化することもできる。

腫瘍細胞コピー数２２０は、参照によりその全体が本明細書に組み込まれる、ＰＣＴ出願公開番号第２０１７／１０６７６８号および「ＭｅｔｈｏｄｓｔｏＤｅｔｅｒｍｉｎｅＴｕｍｏｒＧｅｎｅＣｏｐｙＮｕｍｂｅｒｂｙＡｎａｌｙｓｉｓｏｆＣｅｌｌ－ＦｒｅｅＤＮＡ」と題された技法に従って、オンターゲットデータ２０８に関して決定することができる。少なくともいくつかの実施態様においてオンターゲットデータ２０８を使用して作成された観察されたカバレッジおよび腫瘍細胞コピー数２２０を使用して、腫瘍割合２２２の推定値を決定することができる。オフターゲットデータ２１０はいくつかのオフターゲット配列表示を含むことができ、オフターゲットデータ２１０から導出されたカバレッジデータ２１４の観察されたカバレッジは、参照配列の個々のセグメントに対応するオフターゲット配列表示の数を決定することによって参照配列の個々のセグメントについて決定することができる。腫瘍細胞コピー数２２０を、参照配列の個々のセグメントについて決定することができる。１またはそれを超える例示的な例において、セグメント化プロセスは、所与のセグメントに対するコピー数がセグメント化プロセスの１またはそれを超える反復後に変化していない参照配列の領域を決定することによってセグメントが作成されるように、カバレッジデータ２１４を使用して参照配列に関して実施され得る。このようにして、各セグメントに対する腫瘍細胞コピー数２２０は、少なくともカバレッジデータ２１４を使用して実施されたセグメント化プロセスの結果に基づいて決定される。カバレッジデータ２１４を使用して作成された観察されたカバレッジおよび腫瘍細胞コピー数２２０を使用して、腫瘍割合２２２の推定値を決定することができる。

さらに、サイズ分布データ２１６の観測カバレッジは、参照配列の個々のセグメントに対応するオフターゲットデータ２１０から導出されたサイズ分布に対応することができる。１またはそれを超える例において、サイズ分布は、各々が一連のサイズの配列表示を含むいくつかのグラデーションを含むことができる。参照配列の個々のセグメントのサイズ分布は、分布の各グラデーションに含まれるいくつかのオフターゲット配列表示を含むことができる。腫瘍細胞コピー数２２０は、参照配列の個々のセグメントのサイズ分布メトリクスに基づいて、参照配列の個々のセグメントについて決定することができる。１またはそれを超える例示的な例において、セグメント化プロセスは、サイズ分布データ２１６を使用して参照配列に関して実施することができ、それにより、セグメント化プロセスの反復回数後に、その領域に対する腫瘍細胞コピー数２２０が変化していない参照配列の領域を決定することによってセグメントが作成される。このようにして、各セグメントに対する腫瘍細胞コピー数２２０は、少なくともサイズ分布データ２１６を使用して行われたセグメント化プロセスの結果に基づいて決定される。サイズ分布データ２１６を使用して作成された観察されたカバレッジおよび腫瘍細胞コピー数２２０を使用して、腫瘍割合２２０の推定値を決定することができる。

１またはそれを超える更なる例では、オフターゲット配列表示のカバレッジデータ２１４とオンターゲット配列表示のカバレッジデータとのマージバージョンを使用して、腫瘍細胞コピー数２２０および／または腫瘍割合２２２を決定することができる。１またはそれを超える例において、マージされたカバレッジデータは、参照ゲノムの個々の領域に対応するいくつかのオンターゲット配列表示およびいくつかのオフターゲット配列表示に基づいて決定することができる。様々な例において、マージされたカバレッジデータは、オンターゲットデータ２０８およびオフターゲットデータ２１０に関して作成された正規化されたカバレッジデータに基づいて決定することができる。１またはそれを超える例示的な例では、マージされたカバレッジデータは、オンターゲットおよびオフターゲットのカバレッジデータが共通の平均に対して分布するように、所与の遺伝子に近接するオンターゲット領域およびオフターゲット領域に基づいてオンターゲットのカバレッジデータをシフトすることによって決定することができる。１またはそれを超える実施態様において、オンターゲット領域およびオフターゲット領域のカバレッジデータの分布は異なり得る。

ＳＮＰデータ２１２を、シーケンシングデータ２０４に存在する個々のＳＮＰについて突然変異体対立遺伝子頻度（ＭＡＦ）を決定することによって腫瘍割合２２２を決定するために使用することができる。参照配列のセグメントに対する腫瘍細胞コピー数２２０は、ＳＮＰデータ２１２およびＣｈｅｎ，Ｇａｒｙｅｔａｌ．，”ＰｒｅｃｉｓｅｉｎｆｅｒｅｎｃｅｏｆｃｏｐｙｎｕｍｂｅｒａｌｔｅｒｎａｔｉｏｎｓｉｎｔｕｍｏｒｓａｍｐｌｅｓｆｒｏｍＳＮＰａｒｒａｙｓ”，Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ２０１３Ｄｅｃｅｍｂｅｒ１；２９（２３）：２９６４－２９７０に記載されているような技術を用いて決定することができる。

オンターゲットデータ２０８、オフターゲットデータ２１０、またはＳＮＰデータ２１２の少なくともいずれか１つを用いて腫瘍細胞コピー数２２０および腫瘍割合２２２を決定した後、モデルのパラメータとして腫瘍細胞コピー数２２０の値および腫瘍割合２２２の値を用いてモデルを実装することができる。１またはそれを超える実施態様においてオンターゲットデータ２０８、オフターゲットデータ２１０、およびＳＮＰデータ２１２のそれぞれに基づいて決定された腫瘍細胞コピー数２２０の値および腫瘍割合２２２の値を組み合わせることができ、組み合わせた値を使用してモデルを実装して、腫瘍細胞コピー数２２０および腫瘍割合２２２の推定値の尤度を決定することができる。

図３は、１またはそれを超える実施態様による、オフターゲット配列に由来するカバレッジメトリクスに基づいて対象に関連する腫瘍メトリクスを決定するための例示的なプロセス３００の概略図である。プロセス３００は、対象から得られた試料に由来する配列表示を含むシーケンシングデータに基づいて、オンターゲット配列表示およびオフターゲット配列表示を決定することを含み得る。１またはそれを超える例において、オンターゲット配列表示およびオフターゲット配列表示は、参照配列３０２に関して配列表示を分析することによって決定することができる。例示すると、配列表示と例示的な参照配列部分３０４との間の相同性の量を決定するために、例示的な参照配列部分３０４などの参照配列３０２の１またはそれを超える部分に関して配列表示を分析することができる。図３の例示的な例において、例示的な参照配列部分３０４は標的領域３０６を含み得る。様々な例において、標的領域３０６は、ドライバ突然変異に対応する参照配列３０２の領域に対応し得る。様々な例において、参照配列３０２は、少なくとも約５００個の標的領域、少なくとも約１０００個の標的領域、少なくとも約２５００個の標的領域、少なくとも約５０００個の標的領域、少なくとも約１０，０００個の標的領域、少なくとも約１５，０００個の標的領域、少なくとも約２０，０００個の標的領域、少なくとも約２５，０００個の標的領域、または少なくとも約３０，０００個の標的領域を有することができる。標的領域３０６は、約２５ヌクレオチド～約２５０ヌクレオチド、約５０ヌクレオチド～約２００ヌクレオチド、または約７５ヌクレオチド～約１５０ヌクレオチドを含むことができる。

さらに、図３の例示的な例では、第１の配列表示３０８、第２の配列表示３１０、および第３の配列表示３１２は、例示的な参照配列部分３０４に関して解析される。分析に基づいて、第１の配列表示３０８は、標的領域３０６とアラインメントされていると決定することができる。これらのシナリオでは、第１の配列表示３０８はオンターゲット配列として識別され得る。さらに、第２の配列表示３１０は、標的領域３０６の外側にある例示的な参照配列部分３０４の一部分とアラインメントしていると決定することができる。第３の配列表示３１２はまた、標的領域３０６の外側にある例示的な参照配列部分３０４の追加の部分とアラインメントしていると決定され得る。これらの状況では、第２の配列表示３１０および第３の配列表示３１２はオフターゲット配列として識別され得る。

試料に由来する配列表示と参照配列３０２との間のアラインメントプロセスは、オフターゲット配列データ３１４を作成することができる。オフターゲット配列データ３１４は、標的領域の外側にある参照配列３０２の領域とアラインメントされた配列表示を含み得る。例えば、オフターゲット配列データ３１４は、第２の配列表示３１０および第３の配列表示３１２を含み得る。

プロセス３００は、動作３１６において、オフターゲット配列データ３１４に基づいて実施される第１のセグメント化プロセスを含むことができる。１またはそれを超える例において、オンターゲット配列表示に対応する配列データは、第１のセグメント化プロセス３１６の間に使用されることから除外される。様々な例において、オンターゲット領域の配列表示の数等のカバレッジ深度は、オフターゲット領域のカバレッジ深度よりも大きくすることができる。オンターゲット領域とオフターゲット領域のカバレッジ深度の間の不一致は、オンターゲット配列表示とオフターゲット配列表示の両方を含む配列データにノイズ量が存在する原因となり得る。ノイズの量は、プロセス３００を使用して作成された腫瘍メトリクスの不正確さをもたらす可能性がある。オンターゲット配列データを使用して第１のセグメント化プロセス３１６を実施するときに存在するノイズを低減し、プロセス３００によって作成される腫瘍メトリクスの精度を高めるために、第１のセグメント化プロセス３１６はオフターゲット配列データ３１４を使用して実施される。

第１のセグメント化プロセスは、例示的な第１のセグメント３１８等、参照配列３０２のいくつかの第１のセグメントを作成することができる。１またはそれを超える例示的な例において、第１のセグメント３１８は、約２００キロベース（ｋｂ）以下、約１８０ｋｂ以下、約１６０ｋｂ以下、約１４０ｋｂ以下、約１２０ｋｂ以下、約１００ｋｂ以下、約８０ｋｂ以下または約６０ｋｂ以下を含み得る。１またはそれを超える追加の例示的な例では、第１のセグメント３１８は、少なくとも約５０ｋｂ、少なくとも約６０ｋｂ、少なくとも約７０ｋｂ、少なくとも約８０ｋｂ、少なくとも約９０ｋｂ、少なくとも約１００ｋｂ、少なくとも約１２０ｋｂ、少なくとも約１４０ｋｂ、少なくとも約１６０ｋｂ、または少なくとも約１８０ｋｂを含み得る。様々な例において、複数の第１のセグメント３１８の少なくとも一部分は同じ数のヌクレオチドを有することができ、複数の第１のセグメント３１８の残りはより少ないヌクレオチドを有することができる。１またはそれを超える例において、第１のセグメント３１８の第１の数は２００ｋｂを有することができ、第１のセグメント３１８の第２の数は２００ｋｂ未満を有することができる。１またはそれを超える追加の例では、複数の第１のセグメント３１８の少なくとも約７０％が同じ数のヌクレオチドを有し、複数の第１のセグメント３１８の少なくとも約７５％が同じ数のヌクレオチドを有し、複数の第１のセグメント３１８の少なくとも約８０％が同じ数のヌクレオチドを有し、複数の第１のセグメント３１８の少なくとも約８５％が同じ数のヌクレオチドを有し、複数の第１のセグメント３１８の少なくとも約９０％が同じ数のヌクレオチドを有し、複数の第１のセグメント３１８の少なくとも約９５％が同じ数のヌクレオチドを有し、または複数の第１のセグメント３１８の少なくとも約９９％が同じ数のヌクレオチドを有する。１またはそれを超える更なる例において、参照配列３０２の第１のセグメント化プロセスは、複数の第１のセグメント３１８が標的領域を除外するように実施され得る。これらの実施態様において複数の第１のセグメント３１８は標的領域と重ならない。

参照配列３０２の第１のセグメント３１８の数は、少なくとも約７０００、少なくとも約８０００、少なくとも約９０００、少なくとも約１０，０００、少なくとも約１１，０００、少なくとも約１２，０００、少なくとも約１３，０００、少なくとも約１４，０００、少なくとも約１５，０００、少なくとも約１６，０００、少なくとも約１７，０００、少なくとも約１８，０００、少なくとも約１９，０００、少なくとも約２０，０００、少なくとも約２１，０００、少なくとも約２２，０００、少なくとも約２３，０００、少なくとも約２４，０００、少なくとも約２５，０００、または少なくとも約２６，０００であり得る。１またはそれを超える例示的な例において、参照配列３０２の第１のセグメント３１８の数は、約７０００～約３５，０００、約１０，０００～約３０，０００または約１２，０００～約２７，０００であり得る。

１またはそれを超える例では、プロセス３００は、個々の第１のセグメント３１８のカバレッジデータ３２０を決定することを含むことができる。個々の第１のセグメント３１８のカバレッジデータ３２０は、個々の第１のセグメント３１８と少なくとも閾値量の相同性を有するいくつかのオフターゲット配列表示を含み得る。第１のセグメント３１８について作成されたカバレッジデータは、第１のセグメントカバレッジデータ３２２を生成するために使用することができる。様々な例において、第１のセグメントカバレッジデータ３２２は、個々の第１のセグメント３１８に対応するオフターゲット配列表示の数を含むことができる。１またはそれを超える例示的な例において、個々の第１のセグメント３１８に対応するオフターゲット配列表示の数は、数百のオフターゲット配列表示のオーダー、最大で数千および数万のオフターゲット配列表示であり得る。

様々な例において、第１のセグメントカバレッジデータ３２２は、１またはそれを超える第１のセグメント３１８のカバレッジ情報を除外することができる。このようにして、第１のセグメントカバレッジデータ３２２を決定するために使用される１またはそれを超える第１のセグメント３１８をフィルタリングすることができる。第１のセグメント３１８のフィルタリングは、オフターゲット配列データ３１４に基づいて行うことができる。１またはそれを超える更なる例において、第１のセグメント３１８のフィルタリングは、コピー数多型が検出されない個体から得られた参照試料から作成されたオフターゲット配列表示データに基づいて行うことができる。

１またはそれを超える例では、参照中央値カバレッジメトリクスを上回るまたは下回る１標準偏差、２標準偏差、３標準偏差、または４標準偏差のうちの少なくとも１つであるカバレッジ情報を有する第１のセグメント３１８を、第１のセグメントのカバレッジデータ３２２から除外することができる。１またはそれを超える例示的な例では、参照試料を使用する訓練プロセス中に、参照中央値カバレッジメトリクスを上回るまたは下回る１標準偏差、２標準偏差、３標準偏差、または４標準偏差のうちの少なくとも１つであるカバレッジ情報を有する第１のセグメント３１８を、第１のセグメントカバレッジデータ３２２の決定から除外することができる。１またはそれを超える更なる例では、Ｘ染色体および／またはＹ染色体に対応する１またはそれを超える第１のセグメントを、第１のセグメントカバレッジデータ３２４から除外することができる。

さらに、参照配列３０２の標的領域と少なくとも閾値量のオーバーラップを有する第１のセグメント３１８を決定することができる。１またはそれを超える第１のセグメント３１８が参照配列３０２の標的領域と少なくとも閾値量のオーバーラップを有するシナリオでは、１またはそれを超える第１のセグメント３１８に対応するカバレッジ情報を第１のセグメントカバレッジデータ３２２から除外することができる。様々な例において、参照配列３０２の標的領域と１またはそれを超える第１のセグメント３１８との間の閾値量の重複は、第１のセグメント３１８の少なくとも約５ヌクレオチドが参照配列３０２の標的領域と重複すること、第１のセグメント３１８の少なくとも約１０ヌクレオチドが参照配列３０２の標的領域と重複すること、第１のセグメント３１８の少なくとも約１５ヌクレオチドが参照配列３０２の標的領域と重複すること、第１のセグメント３１８の少なくとも約２０ヌクレオチドが参照配列３０２の標的領域と重複すること、または第１のセグメント３１８の少なくとも約２５ヌクレオチドが参照配列３０２の標的領域と重複することを含み得る。

標的領域と閾値量のオーバーラップを有する第１のセグメント３１８は、これらの第１のセグメント３１８からのデータが第１のセグメントカバレッジデータ３２２に含まれるときに発生し得るノイズの量に起因して、第１のセグメントカバレッジデータ３２２から除外され得る。１またはそれを超える例では、標的領域と閾値量の重複を有する第１のセグメント３１８の配列表示の数等のカバレッジ量は、１またはそれを超える標的領域と閾値量の重複を有しない第１のセグメント３１８のカバレッジ量よりも大きくてもよい。１またはそれを超える例示的な例では、

カバレッジ深度はオフターゲットとオンターゲットとの組み合わせでは異なり、ノイズが多すぎるため、オフターゲットのみを考慮する。平均カバレッジは３００～４００である。ノイズが多すぎる。オンターゲットとオフターゲットとの間のカバレッジの差。これが、本発明者らが、第２のセグメント化までそれらを一緒にしない理由である。

１またはそれを超える例において、第１のセグメントカバレッジデータ３２２は、第１のセグメントに関するカバレッジデータといくつかの追加の第１のセグメント３１８との間の変動量が、コピー数多型が検出されない個体から得られた参照試料から作成されたオフターゲット配列表示データに関する閾値変動量より大きい状況において、１またはそれを超える第１のセグメント３１８の配列表示を除外することができる。例えば、参照配列表示のカバレッジデータの平均から少なくとも１標準偏差、少なくとも２標準偏差、少なくとも３標準偏差、または少なくとも４標準偏差である参照配列表示のカバレッジの尺度を有する第１のセグメント３１８は、第１のセグメントのカバレッジデータ３１８から除外することができる。

１またはそれを超える追加の実施態様において、閾値数より少ない配列表示を有する１またはそれを超える第１のセグメントのカバレッジ情報も、第１のセグメントカバレッジデータ３２２から除外することができる。１またはそれを超える例示的な例では、第１のセグメントカバレッジデータ３２２からそれぞれの第１のセグメント３１８のカバレッジ情報を除外するために第１のセグメント３１８に存在する配列表示の閾値数は、０、１、２、３、４、５、８、１０、１２、１５、２０、２５、３５、５０、７５、または１００である。様々な例において、それぞれの第１のセグメント３１８を第１のセグメントカバレッジデータ３２２の決定から除外するかどうかを決定するために使用されるカバレッジデータは、コピー数多型が検出されない個体から得られた参照試料に対応する第１のセグメント３１８の参照カバレッジデータに基づくことができる。

さらに、動作３２４において、プロセス３００は、正規化カバレッジデータ３２６を生成するために第１のセグメントカバレッジデータ３２２を正規化することを含むことができる。正規化されたカバレッジデータ３２６は、参照カバレッジデータに対して第１のセグメントカバレッジデータ３２２を解析することによって作成することができる。１またはそれを超える例において、参照カバレッジデータは、コピー数多型が存在しない個体から得られたいくつかの試料に基づいて作成されたオフターゲット配列に基づいて決定することができる。様々な例において、参照カバレッジデータは、コピー数多型が存在しない個体の参照試料から得られた配列データを分析して、参照配列３０２の標的領域と整列しない参照試料から作成されたオフターゲット配列表示を決定することによって決定することができる。参照配列３０２の第１のセグメント３１８の参照カバレッジデータは、個々の第１のセグメント３１８に含まれる参照試料から導出されたオフターゲット配列表示のそれぞれの数を決定することによって生成することができる。１またはそれを超える例示的な例において、所与の第１のセグメント３１８の参照カバレッジデータは、所与の第１のセグメント３１８に関して複数の参照試料から導出されたオフターゲット配列表示の平均数に基づいて決定することができる。個々の第１のセグメント３１８について、個々の第１のセグメント３１８の参照カバレッジデータに対する個々の第１のセグメントカバレッジデータ３２２に含まれるオフターゲット配列表示の数の比を決定することによって、正規化されたカバレッジデータを作成することができる。正規化されたカバレッジデータ３２６は、個々の第１のセグメント３１８の参照カバレッジデータに対する第１のセグメントカバレッジデータ３２２に含まれるオフターゲット配列表示の数の比を集約することによって生成することができる。

第１のセグメントカバレッジデータ３２２の正規化は、グアニン－シトシン（Ｇ－Ｃ）含有量またはマッピング可能性スコアの少なくとも一方に関して行うこともできる。例えば、個々の第１のセグメント３１８について、個々の第１のセグメント３１８に対応するオフターゲット配列表示のグアニンヌクレオチドの数およびシトシンヌクレオチドの数を示すＧ－Ｃ含有量を決定することができる。また、複数のパーティションのＧ－Ｃ含有量のパーティションについて、Ｇ－Ｃ含有量の頻度を判定することができる。Ｇ－Ｃ含有量の個々のパーティションは、Ｇ－Ｃ含有量の値の異なる範囲に対応することができる。このようにして、所与の第１のセグメント３１８のＧ－Ｃ含有量の頻度は、個々の第１のセグメント３１８のＧ－Ｃ含有量分布によって表すことができる。個々の第１のセグメント３１８の予想されるカバレッジ量は、個々の第１のセグメント３１８のＧ－Ｃ含有量の頻度に基づいて決定することができる。正規化されたカバレッジデータ３２６の少なくとも一部分は、個々の第１のセグメント３１８の予想カバレッジ量に基づいて決定されるＧ－Ｃ正規化されたカバレッジデータを含むことができる。

さらに、個々の第１のセグメント３１８に対応する個々の配列表示についてマッピング可能性スコアを決定することができる。個々の第１のセグメント３１８の複数のパーティションのパーティション内にマッピング可能性スコアを有するいくつかの配列表示に対応する配列表示の頻度を決定することもできる。個々の第１のセグメント３１８に対する複数のパーティションのマッピング可能性スコアの個々のパーティションは、マッピング可能性スコアの値の異なる範囲に対応し得る。個々の第１のセグメント３１８に対する予想されるカバレッジは、個々の第１のセグメント３１８に対するマッピング可能性スコアの頻度に基づいて決定することができる。正規化されたカバレッジデータ３２６の少なくとも一部分は、個々の第１のセグメント３１８の予想カバレッジ量に基づいて決定される正規化カバレッジデータをマッピング可能性スコア化することができる。

様々な例において、正規化されたカバレッジデータ３２６は、Ｇ－Ｃ含有量正規化データ、マッピング可能性スコア正規化データ、参照カバレッジデータに従って正規化されたカバレッジデータ、または中央値カバレッジデータに従って正規化されたカバレッジデータのうちの少なくとも１つに対応する正規化データの組み合わせを含むことができる。１またはそれを超える例において、第１のデータセットに関連して行われる正規化は、第１のセグメント３１８のカバレッジメトリクスの最終正規化値を生成するために、１またはそれを超える追加のデータセットに関連して行われる正規化に基づいて調整することができる。例えば、第１のセグメント３１８の第１の正規化は、複数の第１のセグメント３１８から作成された中央値カバレッジデータに関して個々の第１のセグメント３１８の第１のセグメントカバレッジデータ３２２に対して実施され得る。１またはそれを超える例において、第１の正規化は、個々の第１のセグメント３１８の第１の比率をもたらすことができる。この例を続けると、いくつかの参照試料から導出された個々の第１のセグメント３１８の参照カバレッジデータに関して、個々の第１のセグメント３１８の第１のセグメントカバレッジデータ３２２に対して第２の正規化を行うことができる。１またはそれを超える追加の例では、第２の正規化は、個々の第１のセグメント３１８の第２の比率をもたらすことができる。これらの状況では、第１の正規化後に作成された個々の第１のセグメント３１８に対する第１の正規化されたカバレッジデータは、第２の正規化後に作成された個々の第１のセグメント３１８に対する第２の正規化されたカバレッジデータに基づいて調整され、第１の調整正規化カバレッジデータを生成することができる。

第３の正規化は、複数の追加の第１のセグメント３１８（例えば、中央値Ｇ－Ｃ含有量）のＧ－Ｃ含有量に関連して、または参照試料から導出されたＧ－Ｃ含有量に関連して、個々の第１のセグメント３１８のＧ－Ｃ含有量に対して行うことができる。第３の正規化の結果は、第３の比率を含むことができる。様々な例において、第２の正規化されたカバレッジデータは、Ｇ－Ｃ含有量正規化データに基づいて調整され、第２の調整正規化カバレッジデータを生成することができる。さらに、マッピング可能性スコアに関して第４の正規化を実施して、マッピング可能性スコア正規化データを生成することができる。第２の調整正規化カバレッジデータは、マッピング可能性スコア正規化データに基づいて更に調整され、第３の調整正規化カバレッジデータを作成することができる。様々な例において、第１の正規化されたカバレッジデータ、第１の調整正規化カバレッジデータ、第２の調整正規化カバレッジデータ、または第３の調整正規化カバレッジデータのうちの少なくとも１つを、正規化カバレッジデータ３２６に含めることができる。

１またはそれを超える例では、カバレッジデータを正規化するプロセス３２４は、第１のセグメントのカバレッジデータ３２２にスケーリング係数を適用する１またはそれを超える動作を含むことができる。１またはそれを超える追加の例では、スケーリングファクタは、オンターゲットカバレッジデータに適用することができる。スケーリング係数は、所与の第１のセグメント１１８のカバレッジデータを第１のセグメント３１８のグループのカバレッジデータの中央値で除算することによって決定することができる。１またはそれを超える例示的な例では、第１のセグメント３１８の群は、第１のセグメント３１８の少なくとも約９０％、第１のセグメント３１８の少なくとも約９５％、第１のセグメントの少なくとも約９９％、第１のセグメント３１８の少なくとも約９９．５％、または第１のセグメント３１８の少なくとも約９９．９％を含むことができる。

プロセス３００は、動作３２８において、参照配列３０２に関して第２のセグメント化プロセスを実施することを含むことができる。第２のセグメント化プロセスは、参照配列３０２を例示的な第２のセグメント３３０等のいくつかの第２のセグメントにパーティションすることができる。個々の第２のセグメント３３０は、複数の第１のセグメント３１８を含むことができる。１またはそれを超える例では、個々の第２のセグメント３３０は、少なくとも３０個の第１のセグメント３１８、少なくとも３５個の第１のセグメント３１８、少なくとも４０個の第１のセグメント３１８、少なくとも４５個の第１のセグメント３１８、少なくとも５０個のセグメント３１８、少なくとも５５個の第１のセグメント３１８、または少なくとも６０個の第１のセグメント３１８を含むことができる。１またはそれを超える例において、個々の第２のセグメント３３０は、個々の第１のセグメント３１８よりも多数のヌクレオチドを含むことができる。例えば、個々の第２のセグメント３３０は、少なくとも約２００万ヌクレオチド、少なくとも約３００万ヌクレオチド、少なくとも約４００万ヌクレオチド、少なくとも約５００万ヌクレオチド、少なくとも約６００万ヌクレオチド、または少なくとも約７００万ヌクレオチドを含むことができる。１またはそれを超える例示的な例では、個々の第２のセグメント３３０は、約２００万ヌクレオチド～約１２００万ヌクレオチド、約３００万ヌクレオチド～約１０００万ヌクレオチド、または約４００万ヌクレオチド～約８００万ヌクレオチドを含むことができる。様々な例において、少なくとも１またはそれを超える第２のセグメント３３０は、少なくとも１つの追加の第２のセグメント３３０の１つとは異なる数のヌクレオチドを有し得る。様々な例において、第２のセグメント化プロセスは、Ｏｌｓｈｅｎ，Ａｄａｍｅｔａｌ．，”Ｃｉｒｃｕｌａｒｂｉｎａｒｙｓｅｇｍｅｎｔａｔｉｏｎｓｆｏｒｔｈｅａｎａｌｙｓｉｓｏｆａｒｒａｙ－ｂａｓｅｄＤＮＡｃｏｐｙｎｕｍｂｅｒｄａｔａ”，Ｂｉｏｓｔａｔｉｓｔｉｃｓ，２００４Ｏｃｔｏｂｅｒ；５（４）：５５７－７２に記載されるもの等の１またはそれを超える循環バイナリセグメント化プロセスを含むことができる。

第２のセグメント化プロセスの一部として決定される第２のセグメント３３０の数は、少なくとも５、少なくとも７、少なくとも１０、少なくとも１２、少なくとも１５、少なくとも１６、少なくとも１７、少なくとも１８、少なくとも１９、少なくとも２０、少なくとも２１、少なくとも２２、少なくとも２３、少なくとも２４、または少なくとも２５であり得る。１またはそれを超える例示的な例では、第２のセグメント化プロセスの一部として決定される第２のセグメント３３０の数は、５～３０、１０～２７、または１８～２４であり得る。

第２のセグメント化プロセスの完了に続いて、第２のセグメントカバレッジデータ３３２を決定することができる。個々の第２のセグメント３３０の第２のセグメントカバレッジデータ３３２は、個々の第２のセグメント３３０を含む各第１のセグメント３１８の正規化されたカバレッジメトリクスを含むことができる。１またはそれを超える例では、個々の第２のセグメント３３０の第２のセグメントカバレッジデータ３３２は、第２のセグメント３３０を含む複数の第１のセグメント３１８の正規化されたカバレッジメトリクスの合計に対応することができる。動作３３４において、腫瘍メトリクスは、第２のセグメントのカバレッジデータに基づいて決定され得る。３３２。例えば、オフターゲット配列表示が由来する試料の腫瘍細胞コピー数は、第２のセグメントカバレッジデータ３３２に基づいて決定することができる。個々の第２のセグメント３３０の腫瘍細胞コピー数は、１またはそれを超える個々の第２のセグメント３３０に対応するゲノム領域の増幅または欠失の量を示すことができる。様々な例において、腫瘍細胞コピー数は、１またはそれを超える個々の第２のセグメント３３０に対応するゲノム領域のヘテロ接合性の喪失を示し得る。さらに、腫瘍割合は、第２のセグメント化プロセスの完了時に決定することもできる。１またはそれを超える例示的な例では、腫瘍メトリクスは、腫瘍細胞コピー数および腫瘍割合の値の尤度を決定するために使用することができるモデルのパラメータの値を含むことができる。例示すると、第２のセグメント化プロセスは、２３個のセグメントをもたらすことができる。これらのシナリオでは、腫瘍メトリクスは、それぞれがそれぞれの第２のセグメント２３に対応する２３個の腫瘍細胞コピー数を含み得る。２３個の腫瘍細胞コピー数は、第２のセグメントカバレッジデータ３３２に基づいて決定された腫瘍割合と共に、腫瘍細胞コピー数および腫瘍割合の推定値の尤度を決定する最尤推定モデルのパラメータの値を含み得る。

１またはそれを超える例では、第１のセグメント化プロセス３１６および第２のセグメント化プロセス３２８は、一つまたは複数の基準を満たさない第２のセグメント３３０の少なくとも一部分について繰り返すことができる。例えば、１またはそれを超える第２のセグメント３３０に対する腫瘍細胞コピー数の尤度は、第１のセグメント化プロセス３１６および第２のセグメント化プロセス３２８の最初の反復後の最小尤度よりも小さくなり得る。１またはそれを超える更なる例では、１またはそれを超える基準は、腫瘍細胞コピー数の推定値がセグメント化プロセスの１つの反復から次の反復に変化しているか否かに対応することができる。

これらの状況では、第１のセグメント化プロセス３１６および第２のセグメント化プロセス３２８は、一つ以上の基準を満たさない一つ以上の第２のセグメントについて繰り返され得るが、第１のセグメント化プロセス３１６および第２のセグメント化プロセス３２８は、１またはそれを超える基準を満たす第２のセグメント３３０については繰り返されない。例示すると、１またはそれを超える基準を満たさない１またはそれを超える第２のセグメント３３０に対応する参照配列３０２の部分は、追加の第１のセグメントにセグメント化することができる。様々な例において、第２のセグメント化プロセスは、セグメントの予想されるコピー数に関して同じまたは一貫したコピー数を有する第２のセグメントに関して実施することができる。予想されるコピー数は、それぞれのセグメントに対する参照ゲノムのコピー数に基づき得る。追加の第１のセグメントについて追加のカバレッジデータを決定することができ、追加の第１のセグメントの追加のカバレッジデータに関して１またはそれを超える正規化プロセスを実施することができる。１またはそれを超える例示的な例では、参照カバレッジデータに従って、Ｇ－Ｃ含有量正規化プロセス、マッピング可能性スコア正規化プロセス、またはカバレッジデータ正規化プロセスのうちの少なくとも１つを実施することによって、追加の正規化カバレッジデータを決定することができる。

追加の正規化されたカバレッジデータを決定した後、１またはそれを超える追加の第２のセグメントを決定するために追加の正規化されたカバレッジデータを使用して、追加の第１のセグメントに関して第２のセグメント化プロセスの追加の実施態様を行うことができる。追加の第２のセグメントカバレッジデータは、追加の正規化されたカバレッジデータの日に基づいて、１またはそれを超える追加の第２のセグメントについて決定することができる。追加の第２のセグメントに対する追加のセグメントカバレッジデータを使用して、追加の第２のセグメントに対する腫瘍細胞コピー数を決定することができる。最初の第２のセグメントの最初の腫瘍細胞コピー数は、追加の腫瘍細胞コピー数と組み合わせて、最尤推定モデルのパラメータとして使用することができる。さらに、最初の第２のセグメントおよび追加の第２のセグメントのカバレッジデータを組み合わせて、試料の腫瘍割合の値を決定することができる。試料の腫瘍割合の値は、最尤推定モデルのパラメータとして使用することもできる。

１またはそれを超える実施態様において第２のセグメント３３０の腫瘍細胞コピー数の推定値を決定するために、第２のセグメント３３０の腫瘍細胞コピー数の第１の推定値を、第２のセグメントカバレッジデータ３３２に基づいて決定することができる。追加の第１のセグメント化プロセスを実施して、追加の第１のセグメントを決定することができる。様々な例において、追加の第１のセグメントの少なくとも一部分は、それぞれの第１のセグメント３１８と同じ参照ゲノム３０２のゲノム位置に位置し得る。追加の正規化されたカバレッジデータはまた、追加の第１のセグメントに対応する配列表示のそれぞれの番号に従って決定された追加の第１のセグメントカバレッジデータに基づいて決定することもできる。追加の正規化されたカバレッジデータは、追加の第２のセグメント化プロセスを実施するために使用することができ、追加の第２のセグメントカバレッジデータを決定することができる。１またはそれを超える例において、追加の第２のセグメントの少なくとも一部分は、それぞれの第２のセグメント３３０と同じ参照ゲノム３０２のゲノム位置に位置し得る。追加の第２のセグメントカバレッジデータを使用して、追加の第２のセグメントの腫瘍細胞コピー数の第２の推定値を決定することができる。

腫瘍細胞コピー数についての第２の推定値は、腫瘍細胞コピー数についての第１の推定値に関して分析することができる。追加の第２のセグメントの腫瘍細胞コピー数の第２の推定値が、対応する第２のセグメントの腫瘍細胞コピー数の第１の推定値とは異なる状況では、第２の追加の第１のセグメントカバレッジデータ、第２の追加の正規化されたカバレッジデータ、および第２の追加の第２のカバレッジデータの決定とともに、第１のセグメント化プロセスおよび第２のセグメント化プロセスの第３の反復を実施することができる。追加の第２のセグメントの腫瘍細胞コピー数の第２の推定値が、対応する第２のセグメントの腫瘍細胞コピー数の第１の推定値と同じであるシナリオでは、それぞれの第２のセグメントの腫瘍細胞コピー数は不変であり、それぞれの第２のセグメントの腫瘍細胞コピー数の推定値を決定するための１またはそれを超える基準を満たすと決定することができる。１またはそれを超える例示的な例において、第２のセグメントに対する腫瘍細胞コピー数は、腫瘍細胞コピー数に対する推定値が第１のセグメント化プロセスおよび第２のセグメント化プロセスの複数の反復後に同じであるとの決定に応答して変化しないと見なされ得る。様々な例では、第１のセグメント化プロセスおよび第２のセグメント化プロセスの各反復の初期条件は異なり得る。さらに、第２のセグメントの腫瘍細胞コピー数の推定値が不変であると決定することは、１またはそれを超える循環バイナリセグメント化技術に基づくことができる。

図４は、１またはそれを超える実施態様による、オフターゲット配列に由来するサイズ分布メトリクスから決定された腫瘍メトリクスを決定するための例示的なプロセスの概略図である。プロセス４００は、対象から得られた試料に由来するポリヌクレオチド配列を含むシーケンシングデータに基づいて、オンターゲット配列表示およびオフターゲット配列表示を決定することを含み得る。１またはそれを超える例において、オンターゲット配列表示およびオフターゲット配列表示は、参照配列４０２に関して配列表示を分析することによって決定することができる。例示すると、配列表示と例示的な参照配列部分４０４との間の相同性の量を決定するために、例示的な参照配列部分４０４等の参照配列４０２の１またはそれを超える部分に関して配列表示を分析することができる。図４の例示的な例において、例示的な参照配列部分４０４は、ドライバ突然変異に対応する標的領域４０６を含み得る。様々な例において、参照配列４０２は、少なくとも約５００個の標的領域、少なくとも約１０００個の標的領域、少なくとも約２５００個の標的領域、少なくとも約５０００個の標的領域、少なくとも約１０，０００個の標的領域、少なくとも約１５，０００個の標的領域、少なくとも約２０，０００個の標的領域、少なくとも約２５，０００個の標的領域、または少なくとも約３０，０００個の標的領域を有することができる。標的領域４０６は、約２５ヌクレオチド～約２５０ヌクレオチド、約５０ヌクレオチド～約２００ヌクレオチド、または約７５ヌクレオチド～約１５０ヌクレオチドを含むことができる。

さらに、図４の例示的な例では、第１の配列表示４０８、第２の配列表示４１０、および第３の配列表示４１２は、例示的な参照配列部分４０４に関して解析される。分析に基づいて、第１の配列表示４０８は、標的領域４０６の少なくとも一部分に対してアラインメントされる。これらのシナリオでは、第１の配列表示４０８をオンターゲット配列表示として同定することができる。さらに、第２の配列表示４１０は、標的領域４０６の外側にある例示的な参照配列部分４０４の一部分とアラインメントさせることができる。第３の配列表示４１２はまた、標的領域４０６の外側にある例示的な参照配列部分４０４の追加の部分とアラインメントさせることもできる。これらの状況では、第２の配列表示４１０および第３の配列表示４１２をオフターゲット配列表示として同定することができる。

試料に由来する配列表示と参照配列４０２との間のアラインメントプロセスは、オフターゲット配列データ４１４を作成することができる。オフターゲット配列データ４１４は、標的領域の外側にある参照配列４０２の領域とアラインメントされた配列表示を含み得る。例えば、オフターゲット配列データ４１４は、第２の配列表示４１０および第３の配列表示４１２を含み得る。

プロセス４００は、動作４１６において、オフターゲット配列データ４１４に基づいて実施される第１のセグメント化プロセスを含むことができる。第１のセグメント化プロセスは、例示的な第１のセグメント４１８等、参照配列４０２のいくつかの第１のセグメントを作成することができる。第１のセグメント化プロセスは、参照配列４０２の第１のセグメント４１８が閾値数以下のヌクレオチド数を有するように実施される。１またはそれを超える例示的な例において、ヌクレオチドの閾値数は、約２００キロベース（ｋｂ）以下、約１８０ｋｂ以下、約１６０ｋｂ以下、約１４０ｋｂ以下、約１２０ｋｂ以下、約１００ｋｂ以下、約８０ｋｂ以下または約６０ｋｂ以下であり得る。１またはそれを超える追加の例示的な例では、第１のセグメント３１８は、少なくとも約５０ｋｂ、少なくとも約６０ｋｂ、少なくとも約７０ｋｂ、少なくとも約８０ｋｂ、少なくとも約９０ｋｂ、少なくとも約１００ｋｂ、少なくとも約１２０ｋｂ、少なくとも約１４０ｋｂ、少なくとも約１６０ｋｂ、または少なくとも約１８０ｋｂを含み得る。様々な例において、第１のセグメント４１８の少なくとも一部分は同じ数のヌクレオチドを有することができ、複数の第１のセグメント４１８の残りはより少ないヌクレオチドを有することができる。１またはそれを超える例において、複数の第１のセグメント４１８の少なくとも一部分は２００ｋｂを有することができ、複数の第１のセグメント４１８の残りはより少ないヌクレオチドを有することができる。１またはそれを超える追加の例では、複数の第１のセグメント４１８の少なくとも約７０％が同じ数のヌクレオチドを有することができ、複数の第１のセグメント４１８の少なくとも約７５％が同じ数のヌクレオチドを有することができ、複数の第１のセグメント４１８の少なくとも約８０％が同じ数のヌクレオチドを有することができ、複数の第１のセグメント４１８の少なくとも約８５％が同じ数のヌクレオチドを有することができ、複数の第１のセグメント４１８の少なくとも約９０％が同じ数のヌクレオチドを有することができ、複数の第１のセグメント４１８の少なくとも約９５％が同じ数のヌクレオチドを有することができ、または複数の第１のセグメント４１８の少なくとも約９９％が同じ数のヌクレオチドを有することができる。１またはそれを超える更なる例において、参照配列４０２の第１のセグメント化プロセスは、複数の第１のセグメント４１８が標的領域を除外するように実施され得る。これらの実施態様において複数の第１のセグメント４１８は標的領域と重ならない。

参照配列４０２の第１のセグメント４１８の数は、少なくとも約７０００、少なくとも約８０００、少なくとも約９０００、少なくとも約１０，０００、少なくとも約１１，０００、少なくとも約１２，０００、少なくとも約１３，０００、少なくとも約１４，０００、少なくとも約１５，０００、少なくとも約１６，０００、少なくとも約１７，０００、少なくとも約１８，０００、少なくとも約１９，０００、少なくとも約２０，０００、少なくとも約２１，０００、少なくとも約２２，０００、少なくとも約２３，０００、少なくとも約２４，０００、少なくとも約２５，０００、または少なくとも約２６，０００であり得る。１またはそれを超える例示的な例において、参照配列４０２の第１のセグメント４１８の数は、約７０００～約３５，０００、約１０，０００～約３０，０００または約１２，０００～約２７，０００であり得る。

１またはそれを超える例では、プロセス４００は、個々の第１のセグメント４１８のサイズ分布４２０を決定することを含むことができる。個々の第１のセグメント４１８のサイズ分布４２０は、配列表示サイズの分布のそれぞれのパーティションに含まれるいくつかのオフターゲット配列表示を含むことができる。例えば、サイズ分布４２０は、それぞれの第１のセグメント４１８に対応する配列表示のサイズの正規分布を表すことができる。これらのシナリオでは、個々のパーティションは、平均からの標準偏差に関連する配列表示のサイズの範囲に対応することができる。例示すると、分布４２０の第１のパーティションは、平均よりも１標準偏差大きいサイズを有する配列表示を含むことができ、分布４２０の第２のパーティションは、平均よりも１標準偏差小さいサイズを有する配列表示を含むことができる。さらに、分布４２０の第３のパーティションは、平均よりも大きい１標準偏差と２標準偏差との間のサイズを有する配列表示を含むことができ、分布４２０の第４のパーティションは、平均よりも小さい１標準偏差と２標準偏差との間のサイズを有する配列表示を含むことができる。第１のセグメント４１８について作成されたサイズ分布データは、配列サイズ分布データ４２２を生成するために使用することができる。様々な例において、配列サイズ分布データ４２２は、個々の第１のセグメント４１８に対応するオフターゲット配列表示のそれぞれのサイズ分布を含むことができる。

様々な例において、配列サイズ分布データ４２２は、１またはそれを超える第１のセグメント４１８のカバレッジ情報を除外することができる。このようにして、配列サイズ分布データ４２２を決定するために使用される１またはそれを超える第１のセグメント４１８をフィルタリングすることができる。第１のセグメント４１８のフィルタリングは、オフターゲット配列データ４１４に基づいて行うことができる。１またはそれを超える更なる例において、第１のセグメント４１８のフィルタリングは、コピー数多型が存在しない個体から得られた参照試料から作成されたオフターゲット配列表示データに基づいて行うことができる。

さらに、参照配列４０２の標的領域と少なくとも閾値量のオーバーラップを有する第１のセグメント４１８を決定することができる。１またはそれを超える第１のセグメント４１８が参照配列４０２の標的領域と少なくとも閾値量の重複を有するシナリオでは、１またはそれを超える第１のセグメント４１８に対応する配列サイズ分布情報を配列サイズ分布データ４２２から除外することができる。様々な例において、参照配列４０２の標的領域と１またはそれを超える第１のセグメント４１８との間の閾値量の重複は、第１のセグメント４１８の少なくとも約５ヌクレオチドが参照配列４０２の標的領域と重複すること、第１のセグメント４１８の少なくとも約１０ヌクレオチドが参照配列４０２の標的領域と重複すること、第１のセグメント４１８の少なくとも約１５ヌクレオチドが参照配列４０２の標的領域と重複すること、第１のセグメント４１８の少なくとも約２０ヌクレオチドが参照配列４０２の標的領域と重複すること、または第１のセグメント４１８の少なくとも約２５ヌクレオチドが参照配列４０２の標的領域と重複することを含み得る。

１またはそれを超える追加の実施態様において、閾値数より少ない配列表示を有する１またはそれを超える第１のセグメント４１８のサイズ分布情報もまた、配列サイズ分布データ４２２から除外することができる。１またはそれを超える例示的な例では、配列サイズ分布データ４２２からそれぞれの第１のセグメント４１８の配列サイズ分布情報を除外するために第１のセグメント４１８に存在する配列表示の閾値数は、０、１、２、３、４、５、８、１０、１２、１５、２０、２５、３５、５０、７５、または１００である。様々な例において、それぞれの第１のセグメント４１８を配列サイズ分布データ４２２の決定から除外するかどうかを決定するために使用される配列サイズ分布情報は、コピー数多型が検出されない個体から得られた参照試料に対応する第１のセグメント４１８の参照配列サイズ分布データに基づくことができる。

さらに、動作４２４において、プロセス４００は、正規化されたサイズ分布データ４２６を生成するために配列サイズ分布データ４２２を正規化することを含むことができる。正規化されたサイズ分布データ４２６は、配列サイズ分布データ４２２を参照サイズ分布データに対して解析することにより作成することができる。１またはそれを超える例では、参照サイズ分布データは、腫瘍が存在しない個体から得られた試料の数に基づいて作成されたオフターゲット配列表示に基づいて決定することができる。様々な例において、参照サイズ分布データは、コピー数多型が存在しない個体の参照試料から得られたシーケンシングデータを分析して、参照配列４０２の標的領域と整列しない参照試料から作成されたオフターゲット配列表示を決定することによって決定することができる。参照配列４０２の第１のセグメント４１８の参照サイズ分布データは、個々の第１のセグメント４１８に関する分布のそれぞれのパーティションに含まれる参照試料から導出されたオフターゲット配列表示のそれぞれの数を決定することによって生成することができる。１またはそれを超える例示的な例において、所与の第１のセグメント４１８についての参照サイズ分布データは、所与の第１のセグメント４１８についての分布の個々のパーティションに関して複数の参照試料から導出されたオフターゲット配列表示の平均数に基づいて決定され得る。個々の第１のセグメント４１８について、正規化されたサイズ分布データは、個々の第１のセグメント４１８についての参照サイズ分布データに対する配列サイズ分布データ４２２から導出された所与の第１のセグメント４１８からのサイズ分布データの比を決定することによって作成することができる。正規化されたサイズ分布データ４２６は、個々の第１のセグメント４１８の参照サイズ分布データに対する配列サイズ分布データ４２２から導出された所与の第１のセグメント４１８からのサイズ分布データの比率を集約することによって生成することができる。

図４の例示的な例には示されていないが、プロセス４００は、参照配列４０２に関して第２のセグメント化プロセスを実施することを含むことができる。第２のセグメント化プロセスは、参照配列４０２をいくつかの第２のセグメントにパーティションすることができる。個々の第２のセグメントは、複数の第１のセグメント４１８を含むことができる。１またはそれを超える例では、個々の第２のセグメントは、少なくとも３０個の第１のセグメント４１８、少なくとも３５個の第１のセグメント４１８、少なくとも４０個の第１のセグメント４１８、少なくとも４５個の第１のセグメント４１８、少なくとも５０個のセグメント４１８、少なくとも５５個の第１のセグメント４１８、または少なくとも６０個の第１のセグメント４１８を含むことができる。１またはそれを超える例において、個々の第２のセグメントは、個々の第１のセグメント４１８よりも多数のヌクレオチドを含むことができる。例えば、個々の第２のセグメントは、少なくとも約２００万ヌクレオチド、少なくとも約３００万ヌクレオチド、少なくとも約４００万ヌクレオチド、少なくとも約５００万ヌクレオチド、少なくとも約６００万ヌクレオチド、または少なくとも約７００万ヌクレオチドを含むことができる。１またはそれを超える例示的な例では、個々の第２のセグメントは、約２００万ヌクレオチド～約１２００万ヌクレオチド、約３００万ヌクレオチド～約１０００万ヌクレオチド、または約４００万ヌクレオチド～約８００万ヌクレオチドを含むことができる。様々な例において、少なくとも１またはそれを超える第２のセグメントは、少なくとも１つの追加の第２のセグメントの１つとは異なる数のヌクレオチドを有し得る。様々な例において、第２のセグメント化プロセスは、Ｏｌｓｈｅｎ，Ａｄａｍｅｔａｌ．，”Ｃｉｒｃｕｌａｒｂｉｎａｒｙｓｅｇｍｅｎｔａｔｉｏｎｓｆｏｒｔｈｅａｎａｌｙｓｉｓｏｆａｒｒａｙ－ｂａｓｅｄＤＮＡｃｏｐｙｎｕｍｂｅｒｄａｔａ”，Ｂｉｏｓｔａｔｉｓｔｉｃｓ，２００４Ｏｃｔｏｂｅｒ；５（４）：５５７－７２に記載されるもの等の１またはそれを超える循環バイナリセグメント化プロセスを含むことができる。

第２のセグメント化プロセスの一部として決定される第２のセグメントの数は、少なくとも５、少なくとも７、少なくとも１０、少なくとも１２、少なくとも１５、少なくとも１６、少なくとも１７、少なくとも１８、少なくとも１９、少なくとも２０、少なくとも２１、少なくとも２２、少なくとも２３、少なくとも２４、または少なくとも２５であり得る。１またはそれを超える例示的な例では、第２のセグメント化プロセスの一部として決定される第２のセグメントの数は、５～３０、１０～２７、または１８～２４であり得る。

第２のセグメント化プロセスの完了に続いて、第２のサイズ分布データを決定することができる。参照ゲノム４０２の個々の第２のセグメントについての第２のサイズ分布データは、個々の第２のセグメントを含む各第１のセグメント４１８についての正規化されたカバレッジメトリクスを含むことができる。１またはそれを超える例示的な例では、個々の第２のセグメントの第２のサイズ分布データは、第２のセグメントを含む複数の第１のセグメント４１８の正規化されたカバレッジメトリクスの合計に対応し得る。さらに、動作４２８において、腫瘍メトリクスは、第２のサイズ分布データに基づいて決定され得る。例えば、オフターゲット配列表示が由来する試料の腫瘍細胞コピー数は、第２のサイズ分布データに基づいて決定することができる。個々の第２のセグメントの腫瘍細胞コピー数は、１またはそれを超える個々の第２のセグメントに対応するゲノム領域の増幅または欠失の量を示すことができる。様々な例において、腫瘍細胞コピー数は、１またはそれを超える個々の第２のセグメントに対応するゲノム領域のヘテロ接合性の喪失を示し得る。さらに、腫瘍割合は、第２のセグメント化プロセスの完了時に決定することもできる。１またはそれを超える例示的な例では、腫瘍メトリクスは、腫瘍細胞コピー数および腫瘍割合の値の尤度を決定するために使用することができるモデルのパラメータの値を含むことができる。例示すると、第２のセグメント化プロセスは、２３個のセグメントをもたらすことができる。これらのシナリオでは、腫瘍メトリクスは、それぞれがそれぞれの第２のセグメント２３に対応する２３個の腫瘍細胞コピー数を含み得る。２３個の腫瘍細胞コピー数は、第２のサイズ分布データに基づいて決定された腫瘍割合と共に、腫瘍細胞コピー数および腫瘍割合の推定値の尤度を決定する最尤推定モデルのパラメータの値を含み得る。

１またはそれを超える例では、第１のセグメント化プロセス４１６および第２のセグメント化プロセスは、１またはそれを超える基準を満たさない第２のセグメントの少なくとも一部分について繰り返すことができる。例えば、１またはそれを超える第２のセグメントに対する腫瘍細胞コピー数の尤度は、第１のセグメント化プロセス４１６および第２のセグメント化プロセスの最初の反復後の最小尤度よりも小さくなり得る。これらの状況では、第１のセグメント化プロセス４１６および第２のセグメント化プロセスは、１つ以上の基準を満たさない１つ以上の第２のセグメントについて繰り返され得るが、第１のセグメント化プロセス４１６および第２のセグメント化プロセスは、１またはそれを超える基準を満たす第２のセグメントについては繰り返されない。例示すると、１またはそれを超える基準を満たさない１またはそれを超える第２のセグメントに対応する参照配列４０２の部分は、追加の第１のセグメントにセグメント化することができる。追加の第１のセグメントについて追加のカバレッジデータを決定することができ、追加の第１のセグメントの追加のカバレッジデータに関して１またはそれを超える正規化プロセスを実施することができる。１またはそれを超える例示的な例では、参照サイズ分布データに従ってサイズ分布データ正規化プロセスを実施することによって、追加の正規化されたカバレッジデータを決定することができる。

追加の正規化されたサイズ分布データを決定した後、１またはそれを超える追加の第２のセグメントを決定するために追加の正規化されたサイズ分布データを使用して、追加の第１のセグメントに関して第２のセグメント化プロセスの追加の実施態様を行うことができる。追加の第２のセグメントサイズ分布データは、追加の正規化されたサイズ分布データの日に基づいて、１またはそれを超える追加の第２のセグメントについて決定することができる。追加の第２のセグメントに対する追加のセグメントサイズ分布データを使用して、追加の第２のセグメントに対する腫瘍細胞コピー数を決定することができる。最初の第２のセグメントの最初の腫瘍細胞コピー数は、追加の腫瘍細胞コピー数と組み合わせて、最尤推定モデルのパラメータとして使用することができる。さらに、最初の第２のセグメントおよび追加の第２のセグメントのサイズ分布データを組み合わせて、試料の腫瘍割合の値を決定することができる。試料の腫瘍割合の値は、最尤推定モデルのパラメータとして使用することもできる。

１またはそれを超える実施態様において、参照ゲノム４０２の第２のセグメントの腫瘍細胞コピー数の推定値を決定するために、第２のセグメントの腫瘍細胞コピー数の第１の推定値を、第２のセグメントサイズ分布データに基づいて決定することができる。追加の第１のセグメント化プロセスを実施して、追加の第１のセグメントを決定することができる。様々な例において、追加の第１のセグメントの少なくとも一部分は、それぞれの第１のセグメント４１８同じ参照ゲノム４０２のゲノム位置に位置し得る。追加の正規化されたサイズ分布データはまた、追加の第１のセグメントに対応する配列表示のそれぞれの番号に従って決定された追加の第１のセグメントサイズ分布データに基づいて決定することもできる。追加の正規化されたサイズ分布データは、追加の第２のセグメント化プロセスを実施するために使用することができ、追加の第２のセグメントサイズ分布データを決定することができる。１またはそれを超える例において、追加の第２のセグメントの少なくとも一部分は、それぞれの第２のセグメントと同じ参照ゲノム４０２のゲノム位置に位置し得る。追加の第２のセグメントサイズ分布データを使用して、追加の第２のセグメントの腫瘍細胞コピー数の第２の推定値を決定することができる。

腫瘍細胞コピー数についての第２の推定値は、腫瘍細胞コピー数についての第１の推定値に関して分析することができる。追加の第２のセグメントの腫瘍細胞コピー数の第２の推定値が、対応する第２のセグメントの腫瘍細胞コピー数の第１の推定値とは異なる状況では、第２の追加の第１のセグメントサイズ分布データ、第２の追加の正規化されたサイズ分布データ、および第２の追加の第２のサイズ分布データの決定とともに、第１のセグメント化プロセスおよび第２のセグメント化プロセスの第３の反復を実施することができる。追加の第２のセグメントの腫瘍細胞コピー数の第２の推定値が、対応する第２のセグメントの腫瘍細胞コピー数の第１の推定値と同じであるシナリオでは、それぞれの第２のセグメントの腫瘍細胞コピー数は不変であり、それぞれの第２のセグメントの腫瘍細胞コピー数の推定値を決定するための１またはそれを超える基準を満たすと決定することができる。１またはそれを超える例示的な例において、第２のセグメントに対する腫瘍細胞コピー数は、腫瘍細胞コピー数に対する推定値が第１のセグメント化プロセスおよび第２のセグメント化プロセスの複数の反復後に同じであるとの決定に応答して変化しないと見なされ得る。様々な例では、第１のセグメント化プロセスおよび第２のセグメント化プロセスの各反復の初期条件は異なり得る。さらに、第２のセグメントの腫瘍細胞コピー数の推定値が不変であると決定することは、１またはそれを超える循環バイナリセグメント化技術に基づくことができる。

図５は、ビニング動作、１またはそれを超える追加のセグメント化動作、および尤度関数を使用して腫瘍メトリクスを決定する例示的なプロセス５００の概略図である。プロセス５００は、動作５０２において、参照ゲノムビニングを含む。参照ゲノムビニングは、参照ゲノムのヌクレオチドの配列に沿ってビンを決定することを含むことができ、ビンはいくつかの核酸から構成される。１またはそれを超える例において、個々のビンは、約２００ｋｂ以下、約１８０ｋｂ以下、約１６０ｋｂ以下、約１４０ｋｂ以下、約１２０ｋｂ以下、約１００ｋｂ以下、約８０ｋｂ以下または約６０ｋｂ以下を含み得る。１またはそれを超える追加の例示的な例では、第１のセグメント３１８は、少なくとも約５０ｋｂ、少なくとも約６０ｋｂ、少なくとも約７０ｋｂ、少なくとも約８０ｋｂ、少なくとも約９０ｋｂ、少なくとも約１００ｋｂ、少なくとも約１２０ｋｂ、少なくとも約１４０ｋｂ、少なくとも約１６０ｋｂ、または少なくとも約１８０ｋｂを含み得る。様々な例では、ビンの少なくとも一部分は同じ数のヌクレオチドを有することができ、ビンの残りはより少ないヌクレオチドを有することができる。１またはそれを超える例示的な例では、第１の数のビンは２００ｋｂを有することができ、第２の数のビンは２００ｋｂ未満を有することができる。１またはそれを超える追加の例では、ビンの少なくとも約７０％が同じ数のヌクレオチドを有することができ、ビンの少なくとも約７５％が同じ数のヌクレオチドを有することができ、ビンの少なくとも約８０％が同じ数のヌクレオチドを有することができ、ビンの少なくとも約８５％が同じ数のヌクレオチドを有することができ、ビンの少なくとも約９０％が同じ数のヌクレオチドを有することができ、ビンの少なくとも約９５％が同じ数のヌクレオチドを有することができ、またはビンの少なくとも約９９％が同じ数のヌクレオチドを有することができる。様々な例において、ビンは標的領域を除外することができる。例えば、ビンは、個々のビンが１またはそれを超える標的領域と重複しないように決定することができる。

１またはそれを超える例において、標的領域は、ドライバ突然変異に対応する参照配列の領域に対応し得る。１またはそれを超える例示的な例において、個々のドライバ突然変異は、腫瘍検出診断試験の一部であるプローブに対応し得る。様々な例において、参照配列は、少なくとも約５００個の標的領域、少なくとも約１０００個の標的領域、少なくとも約２５００個の標的領域、少なくとも約５０００個の標的領域、少なくとも約１０，０００個の標的領域、少なくとも約１５，０００個の標的領域、少なくとも約２０，０００個の標的領域、少なくとも約２５，０００個の標的領域、または少なくとも約３０，０００個の標的領域を有することができる。個々の標的領域は、約２５ヌクレオチド～約２５０ヌクレオチド、約５０ヌクレオチド～約２００ヌクレオチド、または約７５ヌクレオチド～約１５０ヌクレオチドを含むことができる。１またはそれを超える例において、参照配列はヒト参照配列であり得る。

ビンの数は、少なくとも約７０００、少なくとも約８０００、少なくとも約９０００、少なくとも約１０，０００、少なくとも約１１，０００、少なくとも約１２，０００、少なくとも約１３，０００、少なくとも約１４，０００、少なくとも約１５，０００、少なくとも約１６，０００、少なくとも約１７，０００、少なくとも約１８，０００、少なくとも約１９，０００、少なくとも約２０，０００、少なくとも約２１，０００、少なくとも約２２，０００、少なくとも約２３，０００、少なくとも約２４，０００、少なくとも約２５，０００、または少なくとも約２６，０００であり得る。１またはそれを超える例示的な例において、ビンの数は、約７０００～約３５，０００、約１０，０００～約３０，０００または約１２，０００～約２７，０００であり得る。

動作５０２で行われる参照ゲノムビニングは、オンターゲット配列表示５０４およびオフターゲット配列表示５０６を作成することができる。オンターゲット配列表示５０４は、参照配列の標的領域とアラインメントされた試料または試料に含まれるヌクレオチド分子に由来する配列リードの少なくとも一方に対応することができる。さらに、オフターゲット配列表示５０６は、参照ゲノムビニングによって生成されたそれぞれのビンとアラインメントされた試料または試料に含まれるヌクレオチド分子に由来する配列リードの少なくとも一方に対応し得る。

オンターゲット配列表示５０４およびオフターゲット配列表示５０６は、カバレッジデータ５０８を生成するために組み合わせることができる。カバレッジデータ５０８は、参照ゲノムビニングによって生成された個々のビンに対応する配列表示の定量的尺度および個々の標的領域に対応する配列表示の定量的尺度を示すことができる。カバレッジデータ５０８に含まれる定量的尺度は、個々のビンまたは個々の標的領域に対応するいくつかの配列表示に対応することができる。１またはそれを超える追加の例において、カバレッジデータ５０８に含まれる定量的尺度は、個々のビンまたは個々の標的領域に対応する配列表示の総数に対する、個々のビンまたは個々の標的領域に対応する配列表示の数の比に対応することができる。

１またはそれを超える例では、オンターゲット配列表示５０４またはオフターゲット配列表示５０６のうちの少なくとも一方をフィルタリングしてカバレッジデータ５０８を作成することができる。例えば、閾値数未満の配列表示に関連付けられた個々のビンとアラインメントされたオフターゲット配列表示５０６は、カバレッジデータ５０８から除外することができる。加えて、オフターゲット配列表示５０６に含まれる、１またはそれを超える標的領域と少なくとも閾値量のオーバーラップを有する配列表示は、カバレッジデータ５０８から除外することができる。

カバレッジデータ５０８は、動作５１０において実施される追加のセグメント化動作の一部として使用することができる。１またはそれを超える例では、カバレッジデータ５０８は、動作５１０で実施される追加のセグメント化動作の一部分として使用される前に、１またはそれを超える正規化技術を受けることができる。１またはそれを超える例示的な例において、カバレッジデータ５０８は、参照試料カバレッジデータ、Ｇ－Ｃ含有量、またはマッピング可能性スコアのうちの少なくとも１つに従って正規化することができる。様々な例において、参照試料カバレッジデータは、コピー数多型が存在しない個体から得られた試料から導出された定量的尺度に対応することができる。１またはそれを超えるシナリオにおいて、参照試料カバレッジデータは、コピー数多型が存在しない個体から得られたオフターゲット配列表示から作成され得る。

動作５１０において実施される追加のセグメント化動作は、動作５１２においてカバレッジデータ５０８を使用するセグメント化を含むことができる。動作５１２において実施されるカバレッジデータを使用するセグメント化は、ビンとは異なる参照配列のセグメントを決定することを含むことができる。１またはそれを超える例において、カバレッジデータ５０８を使用したセグメント化は、参照配列を少なくとも３０個のセグメント、少なくとも３５個のセグメント、少なくとも４０個のセグメント、少なくとも４５個のセグメント、少なくとも５０個のセグメント、少なくとも５５個のセグメントまたは少なくとも６０個のセグメントにパーティションすることができる。１またはそれを超える例において、カバレッジデータデータ５１４を使用したセグメント化によって生成されたセグメントは、動作５０２で行われた参照ゲノムビニングの一部として作成されたビンよりも多数のヌクレオチドを含み得る。例えば、動作５１２で生成された個々のセグメントは、少なくとも約２００万ヌクレオチド、少なくとも約３００万ヌクレオチド、少なくとも約４００万ヌクレオチド、少なくとも約５００万ヌクレオチド、少なくとも約６００万ヌクレオチド、または少なくとも約７００万ヌクレオチドを含むことができる。１またはそれを超える例示的な例では、動作５１２で生成された個々のセグメントは、約２００万ヌクレオチド～約１２００万ヌクレオチド、約３００万ヌクレオチド～約１０００万ヌクレオチド、または約４００万ヌクレオチド～約８００万ヌクレオチドを含むことができる。様々な例において、少なくとも１またはそれを超える動作５１２で生成された個々のセグメントは、少なくとも１つの追加の動作５１２で生成された個々のセグメントの１つとは異なる数のヌクレオチドを有し得る。すなわち、カバレッジデータ５０８を使用して動作５１２によって作成された個々のセグメントは、可変数のヌクレオチドを有することができる。さらに、動作５１２で決定された所与のセグメントに含まれるヌクレオチドの数は、異なる試料間で異なり得る。例示すると、第１の個体から得られた第１の試料について動作５１２で生成された個々のセグメントに含まれる第１の数のヌクレオチドは、第２の個体から得られた第２の試料について動作５１２で生成された個々のセグメントに含まれる第２の数のヌクレオチドとは異なり得る。１またはそれを超える実施態様において、試料の所与の群について、動作５０２で生成されるビンの数および位置は同じであり得るが、動作５１２で生成されるセグメントの数またはセグメントのサイズの少なくとも一方は変化し得る。様々な例において、第２のセグメント化プロセスは、Ｏｌｓｈｅｎ，Ａｄａｍｅｔａｌ．，”Ｃｉｒｃｕｌａｒｂｉｎａｒｙｓｅｇｍｅｎｔａｔｉｏｎｓｆｏｒｔｈｅａｎａｌｙｓｉｓｏｆａｒｒａｙ－ｂａｓｅｄＤＮＡｃｏｐｙｎｕｍｂｅｒｄａｔａ”，Ｂｉｏｓｔａｔｉｓｔｉｃｓ，２００４Ｏｃｔｏｂｅｒ；５（４）：５５７－７２に記載されるもの等の１またはそれを超える循環バイナリセグメント化プロセスを含むことができる。

さらに、動作５１０における追加のセグメント化動作は、動作５１４において、生殖系列ＳＮＰ突然変異体対立遺伝子頻度（ＭＡＦ）データ５１６を使用したセグメント化を含むことができる。生殖系列ＳＮＰＭＡＦデータ５１６は、ヘテロ接合生殖系列ＳＮＰに対応し得る。１またはそれを超える例において、生殖系列ＳＮＰＭＡＦデータ５１６は、ゲノム集約データベース、バージョン２．１．１を使用して同定されたヘテロ接合生殖系列ＳＮＰを含み得る。さらに、生殖系列ＳＮＰＭＡＦデータ５１６は、動作５０２で生成された個々のビンとアラインメントされた生殖系列ＳＮＰに対応することができる。例えば、生殖系列ＳＮＰの所定のセットを選択し、参照配列とアラインメントさせることができる。次いで、生殖系列ＳＮＰのゲノム位置を個々のビンのゲノム位置と比較することができる。このようにして、動作５０２での参照ゲノムビニングによって生成された個々のビンの少なくとも一部分は、１またはそれを超える生殖系列ＳＮＰを含み得る。生殖系列ＳＮＰＭＡＦデータ５１６に表される生殖系列ＳＮＰの数は、少なくとも約１００個のＳＮＰ、少なくとも約２５０個のＳＮＰ、少なくとも約５００個のＳＮＰ、少なくとも約１０００個のＳＮＰ、少なくとも約１５００個のＳＮＰ、少なくとも約２０００個のＳＮＰ、少なくとも約３０００個のＳＮＰ、少なくとも約４０００個のＳＮＰ、または少なくとも約５０００個のＳＮＰであり得る。さらに、生殖系列ＳＮＰＭＡＦデータ６１６に表される生殖系列ＳＮＰの数は、約３０，０００個以下のＳＮＰ、約２５，０００個以下のＳＮＰ、約２０，０００個以下のＳＮＰ、約１５，０００個以下のＳＮＰ、約１０，０００個以下のＳＮＰ、または約８０００個以下のＳＮＰであり得る。１またはそれを超える例示的な例では、生殖系列ＳＮＰＭＡＦデータ６１６に表される生殖系列ＳＮＰの数は、約２５０個のＳＮＰ～約３０，０００個のＳＮＰ、約５００個のＳＮＰ～約１０，０００個のＳＮＰ、約１０００個のＳＮＰ～約５０００個のＳＮＰ、または約２５００個のＳＮＰ～約８０００個のＳＮＰであり得る。様々な例において、生殖系列ＳＮＰＭＡＦデータ５１６に表されるＳＮＰは、個体における少なくとも一種の癌の存在に関連するＳＮＰに対応し得る。１またはそれを超える追加の例では、生殖系列ＳＮＰＭＡＦデータ５１６に表されるＳＮＰは、ドライバ突然変異に対応するＳＮＰに対応し得る。

１またはそれを超える例において、個々の生殖系列ＳＮＰに対する突然変異体対立遺伝子割合を決定し、参照配列のセグメントを決定するために使用することができる。動作５１４で生成された個々のセグメントに含まれるセグメントの数およびヌクレオチドの数は、動作５１２で生成されたものと同じまたは同様であり得る。例えば、動作５１４で行われる生殖系列ＳＮＰＭＡＦデータ５１６を使用したセグメント化は、ビンとは異なる参照配列のセグメントを決定することを含み得る。１またはそれを超える例において、生殖系列ＳＮＰＭＡＦデータ５１６を使用したセグメント化は、参照配列を少なくとも３０個のセグメント、少なくとも３５個のセグメント、少なくとも４０個のセグメント、少なくとも４５個のセグメント、少なくとも５０個のセグメント、少なくとも５５個のセグメントまたは少なくとも６０個のセグメントにパーティションすることができる。１またはそれを超える例において、生殖系列ＳＮＰＭＡＦデータ５１６を使用したセグメント化によって生成されたセグメントは、動作５０２で行われた参照ゲノムビニングの一部として作成されたビンよりも多数のヌクレオチドを含み得る。例えば、動作５１４で生成された個々のセグメントは、少なくとも約２００万ヌクレオチド、少なくとも約３００万ヌクレオチド、少なくとも約４００万ヌクレオチド、少なくとも約５００万ヌクレオチド、少なくとも約６００万ヌクレオチド、または少なくとも約７００万ヌクレオチドを含むことができる。１またはそれを超える例示的な例では、動作５１４で生成された個々のセグメントは、約２００万ヌクレオチド～約１２００万ヌクレオチド、約３００万ヌクレオチド～約１０００万ヌクレオチド、または約４００万ヌクレオチド～約８００万ヌクレオチドを含むことができる。様々な例において、少なくとも１またはそれを超える動作５４で生成された個々のセグメントは、少なくとも１つの追加の動作５１４で生成された個々のセグメントの１つとは異なる数のヌクレオチドを有し得る。すなわち、生殖系列ＳＮＰデータ５１６を使用して動作５１４によって作成された個々のセグメントは、可変数のヌクレオチドを有することができる。さらに、動作５１４で決定された所与のセグメントに含まれるヌクレオチドの数は、異なる試料間で異なり得る。例示すると、第１の個体から得られた第１の試料について動作５１４で生成された個々のセグメントに含まれる第１の数のヌクレオチドは、第２の個体から得られた第２の試料について動作５１４で生成された個々のセグメントに含まれる第２の数のヌクレオチドとは異なり得る。１またはそれを超える実施態様において、試料の所与の群について、動作５０２で生成されるビンの数および位置は同じであり得るが、動作５１４で生成されるセグメントの数またはセグメントのサイズの少なくとも一方は変化し得る。

様々な例において、生殖系列ＳＮＰＭＡＦデータ５１６は、動作５１４で使用される前に修正または変換され得る。例えば、生殖系列ＳＮＰに対するＭＡＦの逆数を決定することができる。さらに、ログベース２変換を生殖系列ＳＮＰの逆数に適用して、参照配列のセグメントを生成するために動作５１４で使用される修正生殖系列ＳＮＰＭＡＦデータ５１６を作成することができる。１またはそれを超える例において、ＳＮＰＭＡＦデータ５１６は、代替対立遺伝子コピー数変化の影響を除去するために調整され得る。１またはそれを超える例示的な例において、ＳＮＰＭＡＦデータ５１６は、対立遺伝子平衡ベースラインを下回るように調整される。例えば、ＭＡＦ値がベースライン値を下回るとき、それはその元の値として保持される。ＭＡＦがベースライン値を上回る状況では、（１－ＭＡＦ）×（ベースライン／０．５）となるように下方に反転される。次いで、調整されたＭＡＦをｌｏｇ２変換し、０．５の元の対立遺伝子平衡ＭＡＦがここで０になるように１だけ上方にシフトさせる。

動作５１２および５１４によって決定されるセグメントの数は、少なくとも５、少なくとも７、少なくとも１０、少なくとも１２、少なくとも１５、少なくとも１６、少なくとも１７、少なくとも１８、少なくとも１９、少なくとも２０、少なくとも２１、少なくとも２２、少なくとも２３、少なくとも２４、または少なくとも２５であり得る。１またはそれを超える例示的な例では、動作５１２および５１４によって生成されるセグメントの数は、５～３０、１０～２７、または１８～２４であり得る。

様々な例において、生殖系列ＳＮＰＭＡＦデータ５１６は、参照配列のセグメントを決定するための１またはそれを超える循環バイナリセグメント化プロセスへの入力として提供され得る。さらに、動作５１４で実施される生殖系列ＳＮＰＭＡＦデータ５１６を使用したセグメント化は、動作５１２で実施されるカバレッジデータ５０８を使用したセグメント化の改良であり得る。１またはそれを超えるシナリオでは、動作５１２で実施されるカバレッジデータ５０８を使用したセグメント化は、１またはそれを超える循環バイナリセグメント化プロセスの第１の実施態様とすることができ、動作５１６で実施される生殖系列ＳＮＰＭＡＦデータ５１６を使用したセグメント化は、１またはそれを超える循環バイナリセグメント化プロセスの第１の実施態様とすることができる。１またはそれを超える例では、動作５１４によって作成されたセグメントは、動作５１６への入力として使用され得る。１またはそれを超える例において、カバレッジデータ５０８は、循環バイナリセグメント化アルゴリズムの第１の実施態様中に使用される循環バイナリセグメント化アルゴリズムの第１の重みに対応することができ、生殖系列ＳＮＰＭＡＦデータは、循環バイナリセグメント化アルゴリズムの第２の実施に対応する循環バイナリセグメント化アルゴリズムの第２の重みに対応することができる。

１またはそれを超える実施態様において生殖系列ＳＮＰＭＡＦデータ５１６を使用して動作５１４において実施されるセグメント化は、動作５１４において実施されるカバレッジデータ５０８のみを使用するセグメント化よりも一貫したより正確な参照配列のセグメント化を提供することができる。例示すると、少なくともいくつかの状況では、動作５１２でカバレッジデータ５０８を使用したセグメント化後のデータにノイズの量が存在する可能性があり、１またはそれを超える動作５１２で決定されたセグメントのコピー数を決定することに関してある量の不確定性を引き起こす。動作５１４で生殖系列ＳＮＰＭＡＦデータ５１６を使用するセグメント化は、存在するノイズの量を低減し、動作５１２でセグメント化のみが行われる場合よりも参照配列のセグメントのより正確な決定をもたらすことができる。

セグメント化データ５１８は、５１０において実施される追加のセグメント化動作によって生成することができる。プロセス５００は、動作５２０において、セグメント化データ５１８に基づいて１またはそれを超える腫瘍インジケータ５２２を作成することを含むことができる。腫瘍インジケータ５２２は、腫瘍細胞コピー数または腫瘍割合の少なくとも一方の推定値を含み得る。セグメント化データ５１８に含まれる個々のセグメントについての腫瘍細胞コピー数は、１またはそれを超える個々のセグメントに対応するゲノム領域の増幅または欠失の量を示すことができる。様々な例において、腫瘍細胞コピー数は、セグメント化データ５１８に含まれる１またはそれを超える個々のセグメントに対応するゲノム領域のヘテロ接合性の喪失を示し得る。

動作５２０で作成された腫瘍インジケータ５２２は、尤度関数５２４を使用して決定することができる。尤度関数は、所与のセグメントについての腫瘍細胞コピー数および所与の試料についての腫瘍割合の周りの収束まで、数値のグリッドを尤度関数に個別に供給することによって実施することができる。数値のグリッドは、腫瘍細胞コピー数についてのいくつかの推定値および／または腫瘍割合についてのいくつかの推定値を含み得る。１またはそれを超える例では、尤度関数５２４は最尤推定モデルを含むことができる。様々な例において、尤度関数５２４は、腫瘍インジケータコンポーネント５２６を含むことができる。腫瘍インジケータコンポーネント５２６は、腫瘍インジケータ５２２を作成するために使用される尤度関数５２４のパラメータを含むことができる。

１またはそれを超える追加の実施態様においてカバレッジデータ５０８および生殖系列ＳＮＰＭＡＦデータ５１６を直接使用して尤度関数５２４を使用して腫瘍インジケータ５２２を決定することができる。すなわち、動作５１０で追加のセグメント化動作を実施することなく、腫瘍インジケータ５２２を決定することができる。これらのシナリオでは、尤度関数５２４はセグメント化コンポーネント５２８を含むことができる。セグメント化コンポーネント５２８は、参照配列のセグメントを決定するために使用することができる尤度関数５２４のパラメータを含むことができる。セグメント化コンポーネント５２８は、腫瘍インジケータコンポーネント５２６に対応する尤度関数のパラメータとは異なるパラメータを含むことができる。１またはそれを超える例では、カバレッジデータ５０８は、尤度関数５２４のセグメント化コンポーネント５２８によって分析される前に正規化することができる。

１またはそれを超える例において、セグメント化コンポーネント５２８は、参照配列の少なくとも５個のセグメント、参照配列の少なくとも７個のセグメント、参照配列の少なくとも１０個のセグメント、参照配列の少なくとも１２個のセグメント、参照配列の少なくとも１５個のセグメント、参照配列の少なくとも１６個のセグメント、参照配列の少なくとも１７個のセグメント、参照配列の少なくとも１８個のセグメント、参照配列の少なくとも１９個のセグメント、参照配列の少なくとも２０個のセグメント、参照配列の少なくとも２１個のセグメント、参照配列の少なくとも２２個のセグメント、参照配列の少なくとも２３個のセグメント、参照配列の少なくとも２４個のセグメント、または参照配列の少なくとも２５個のセグメントを作成するために使用することができる。１またはそれを超える例示的な例では、尤度関数のセグメント化コンポーネント５２８を使用して、参照配列の５～３０個のセグメント、参照配列の１０～２７個のセグメント、または参照配列の１８～２４個のセグメントを作成することができる。１またはそれを超える追加の例示的な例では、尤度関数のセグメント化コンポーネント５２８を使用して生成される個々のセグメントは、約２００万ヌクレオチド～約１２００万ヌクレオチド、約３００万ヌクレオチド～約１０００万ヌクレオチド、または約４００万ヌクレオチド～約８００万ヌクレオチドを含むことができる。

様々な例において、初期セグメント化は、腫瘍インジケータコンポーネント５２６に対応する尤度関数５２４のパラメータの最尤推定量を使用して決定することができる。１またはそれを超える例では、パラメータは、試料の腫瘍細胞コピー数および腫瘍割合の推定値に対応することができる。腫瘍細胞コピー数（ＣＮ）は、以下の式を使用して決定することができる：
ＣＮ＝ｎ＊ＴＦ＋２＊（１－ＴＦ）（式中、ＴＦは試料腫瘍割合であり、ｎは腫瘍細胞コピー数である）。
尤度関数のパラメータは、生殖系列ＳＮＰの突然変異体対立遺伝子頻度（ＭＡＦ）にも対応し得る。生殖系列のＳＮＰのＭＡＦは、以下の式を使用して決定することができる：
ＭＡＦ＝（ｎ－１）＊ＴＦ／（ｎ＊ＴＦ＋２＊（１－ＴＦ））またはＭＡＦ＝ＴＦ／（ｎＴＦ＋２＊（１－ＴＦ））．

１またはそれを超える例示的な例では、腫瘍インジケータ５２２は、腫瘍インジケータコンポーネント５２６およびセグメント化コンポーネント５２８の両方を有する尤度関数を使用して、初期セグメント化推定値を提供し、次いで初期セグメントおよび試料腫瘍割合の腫瘍細胞コピー数の最尤推定値を見つけることによって決定することができる。最初のセグメント化は、ヒト参照配列の２３本の染色体に対応し得る。１またはそれを超える追加の例では、初期セグメント化は、カバレッジデータ５０８に基づく循環バイナリセグメント化アルゴリズムの初期実施態様に対応することができる。１またはそれを超える更なる例では、初期セグメント化は、カバレッジデータ５０８に基づく循環バイナリセグメント化アルゴリズムの初期実施態様、および生殖系列ＳＮＰに関する１またはそれを超える循環バイナリセグメント化（ＣＢＳ）プロセスの初期実施態様に対応することができる。

カバレッジデータ５０８および生殖系列ＳＮＰＭＡＦデータ５１６を使用して尤度関数５２４によって実施されるセグメント化は、反復プロセスを使用して実施することができる。反復プロセスは、個々のセグメントに対して複数の動作を実施することを含むことができる。例えば、個々のセグメントについて、循環パーティションを実施することができる。循環パーティションは、セグメントの複数のサブセグメントへの分割を表すことができる。例示すると、セグメントは３つのサブセグメントに分割することができる。セグメントが３つのサブセグメントに分割される状況では、２つの周縁部サブセグメントは同じコピー数に対応することができ、中間サブセグメントは異なるコピー数を有することができる。次いで、循環パーティションを試験して、循環パーティションが、セグメントコピー数および試料腫瘍割合を使用してセグメントと重複するビンおよび生殖系列ＳＮＰからカバレッジデータ５０８に対してより良好な適合を作成するかどうかを決定することができる。循環パーティションの適合は、１またはそれを超える統計的またはマシン学習技術を使用して決定することができる。例示すると、所与のセグメントに対するビンのカバレッジデータに基づいて決定された平均の変動性とヘテロ接合ＳＮＰＭＡＦとの間の比を表すＦ統計量を決定することができる。ビンのカバレッジデータから作成された平均とヘテロ接合ＳＮＰＭＡＦとの間の変動の比が、セグメント内のカバレッジデータおよびＳＮＰＭＡＦの変動よりも大きい場合、セグメントデータに対するより良好な適合を決定することができる。様々な例において、Ｆ統計量のｐ値が閾値を下回るとき、循環パーティションのセグメントはより良好に適合し、セグメント化プロセスの次の反復で使用される。１またはそれを超える例示的な例では、Ｆ統計量の閾値は、０．００５、０．００８、０．０１０、０．０１５、または０．０２０未満であり得る。

図６は、１またはそれを超える実施態様による、対象の腫瘍メトリクスを決定するために使用され得る増強された数のオフターゲット配列表示を作成する例示的プロセス６００のフローチャートである。プロセス６００を、試料６０２に対して実施することができる。

試料６０２の第１のアリコート６０４および試料６０２の第２のアリコート６０６を得ることができる。第１のアリコート６０４は、６０８で末端修復を実施すること、６１０で分子バーコードを含むアダプタを付着させること、６１２でプライマーを付着させること、および６１４でプローブを使用して断片をプローブにハイブリダイズさせることによって標的領域を濃縮すること等の第１の数の動作を受けることができる。動作６１４におけるプローブを用いたハイブリダイゼーションの前に、動作６０８、６１０および６１２に供されたポリヌクレオチドの少なくとも一部分を増幅するために、１またはそれを超える増幅動作を行うことができる。動作６０８、６１０、６１２、６１４は、濃縮試料６１６をもたらす第１のアリコート６０４に対して行うことができる。濃縮試料６１６は、第１のアリコート６０４に含まれる個々の核酸に対応する配列を同定するために使用することができるバーコードを使用して標識されたいくつかの無細胞核酸を含むことができる。さらに、濃縮試料６１６は、プローブに対して少なくとも閾値量の相補性を有する第１のアリコート６０４に含まれる核酸が組み合わされて二本鎖核酸を形成した二本鎖核酸を含むことができる。

第２のアリコート６０６は、第１のアリコート６０４に対して行われる第１の数の動作とは異なる第２の数の動作を受けることができる。例えば、第２のアリコート６０６は、６１８で末端修復動作、６２０でアダプタ（分子バーコードを含む）結合動作、および６２２でプライマー結合動作を受けて、濃縮されていない試料６２４を作成することができる。濃縮されていない試料６２４は、ハイブリダイゼーションプロセスに供されていない第２のアリコート６０６の一本鎖核酸を含み得る。

濃縮試料６１６および非濃縮試料６２４は、６２６で行われる配列決定プロセス中に組み合わせることができる。１またはそれを超える例示的な例では、ハイブリダイズされなかった濃縮試料６１６に含まれる核酸および非濃縮試料６２４に含まれる核酸は、配列決定プロセス中に増幅されなくてもよい。第２のアリコート６０６に含まれる核酸の少なくとも約９０％は、配列決定プロセス中に増幅され得ず、第２のアリコート６０６に含まれる核酸の少なくとも約９５％は、配列決定プロセス中に増幅され得ず、第２のアリコート６０６に含まれる核酸の少なくとも約９７％は、配列決定プロセス中に増幅され得ず、第２のアリコート６０６に含まれる核酸の少なくとも約９８％は、配列決定プロセス中に増幅され得ず、または第２のアリコート６０６に含まれる核酸の少なくとも約９９％は、配列決定プロセス中に増幅され得ない。

配列決定産物は、配列決定プロセスの結果として生成され得る。様々な例において、配列決定産物は、配列決定プロセス中に増幅されたハイブリダイズした核酸に対応する核酸を含む増幅産物を含み得る。配列決定産物はまた、ハイブリダイゼーション中に使用されるプローブに関連する参照配列の標的領域に対応しない第１のアリコート６０４に含まれる核酸等、配列決定プロセス中に増幅されなかった核酸を含み得る。配列決定産物はまた、第２のアリコート６０６に含まれる核酸を含み得る。

動作６２８において、プロセス６００は、配列決定プロセスによって生成されたポリヌクレオチド配列の配列を参照配列と整列させるアラインメントプロセスを実施することを含むことができる。アラインメントプロセスは、参照配列の標的領域に対応しない配列決定産物に含まれる核酸に関連する配列表示に対応するオフターゲット配列表示を同定することができる。オフターゲット配列表示は、参照配列の標的領域に対応しない濃縮試料６１６に含まれる核酸および非濃縮試料６２４に含まれる核酸に由来し得る。強化された量のオフターゲット配列表示６３０は、濃縮試料６１６等の単一の供給源に由来するオフターゲット配列表示を同定するのではなく、濃縮試料６１６と非濃縮試料６２４の両方に由来するオフターゲット配列表示を含むことから、アラインメントプロセスに基づいて強化された量のオフターゲット配列表示６３０を作成することができる。

図７は、１またはそれを超える実施態様による、オフターゲット配列表示から導出された情報に基づいて対象における腫瘍メトリクスを決定する例示的な方法７００のフローチャートである。動作７０２において、方法７００は、いくつかのオフターゲット配列表示を決定するために、試料から得られた複数の配列を参照配列とアラインメントすることを含み得る。オフターゲット配列表示は、ドライバ突然変異に対応する参照ゲノムの標的領域の外側にある参照ゲノムの領域とアラインメントさせることができる。様々な例において、試料は無細胞ＤＮＡ分子を含むことができる。

さらに、動作７０４において、セグメント化プロセスを実施して、参照配列の複数のセグメントを決定することができる。セグメント化プロセスは、１またはそれを超える基準に基づいて参照ゲノムをいくつかのセグメントに分割することを含み得る。１またはそれを超える例では、複数のセグメント化動作を実施することができる。これらのシナリオでは、異なるセグメント化動作に関して異なる基準を適用することができる。例えば、１またはそれを超える第１のセグメント化動作は、１またはそれを超える第１の基準に従って実装することができ、第２のセグメント化プロセスは、１またはそれを超える第２の基準に従って実装することができる。例示すると、第１のセグメント化プロセスは、参照配列を、少なくとも５０ｋｂ、少なくとも７５ｋｂ、少なくとも１００ｋｂ、少なくとも１２５ｋｂ、または少なくとも１５０ｋｂ等の指定されたサイズを有するセグメントに分割することによって実装することができる。様々な例において、セグメントの少なくとも一部分は、同じ数のヌクレオチドを有することができる。さらに、変化していないそれぞれのセグメントの腫瘍細胞コピー数に基づいて参照ゲノムの第２のセグメントを決定する第２のセグメント化プロセスを行うことができる。様々な例において、第２のセグメントは、第１のセグメントよりも大きいサイズを有することができ、いくつかの第１のセグメントを含むことができる。

さらに、動作７０６において、方法７００は、カバレッジメトリクスおよびサイズ分布メトリクス等のオフターゲット配列表示に関する参照配列の複数のセグメントに関する１またはそれを超える定量的尺度を決定することを含むことができる。カバレッジメトリクスは、参照配列の１またはそれを超えるセグメントに対応する配列表示のカウントを示すことができる。サイズ分布メトリクスは、サイズ分布に関してそれぞれのサイズを有するオフターゲット配列表示のカウントを示すことができる。１またはそれを超える例では、サイズ分布は、各々が配列表示のサイズの範囲に対応するいくつかのパーティションを含むことができる。１またはそれを超える例では、正規化された定量的尺度は、１またはそれを超える定量的尺度に基づいて決定することもできる。様々な例において、正規化された定量的尺度は、コピー数多型が存在しない個体から得られる参照試料から導出される参照定量的尺度に基づいて決定され得る。１またはそれを超える更なる例において、正規化された定量的尺度は、第１のセグメントのマッピング可能性スコアまたは第１のセグメントのグアニン－シトシン（Ｇ－Ｃ）含有量のうちの少なくとも１つに基づいて決定され得る。１またはそれを超える更なる例において、１またはそれを超える定量的尺度は、参照配列の標的領域に対応する一塩基多型（ＳＮＰ）の定量的尺度に対応し得る。

方法７００はまた、試料が得られた対象の腫瘍細胞コピー数を、１またはそれを超える定量的尺度に基づいて決定することを含み得る。１またはそれを超える例において、腫瘍細胞コピー数は、オフターゲット配列表示のカバレッジメトリクスまたはオフターゲット配列表示のサイズ分布メトリクスのうちの少なくとも１つに基づいて決定され得る。様々な例において、腫瘍細胞コピー数はまた、参照配列の標的領域に関連する配列表示から導出される定量的尺度に基づいて決定され得る。さらに、腫瘍細胞コピー数は、参照配列の標的領域に対応する生殖系列ＳＮＰの最大対立遺伝子割合に基づいて決定することができる。腫瘍細胞コピー数はまた、オフターゲット配列表示のカバレッジメトリクス、オフターゲット配列表示のサイズ分布メトリクス、参照配列の標的領域に関連する配列表示から導出される定量的尺度、または参照配列の標的領域に対応する生殖系列ＳＮＰの最大対立遺伝子割合のうちの少なくとも２つの組み合わせに従って決定され得る。

図８は、１またはそれを超える実施態様による、オフターゲットポリヌクレオチドに由来するカバレッジ情報に基づいて対象に関して腫瘍メトリクスを決定するための例示的な方法８００のフローチャートである。方法８００は、動作８０２において、対象に由来する試料に含まれるポリヌクレオチド分子の配列表示を示すシーケンシングデータを得ることを含み得る。対象は、ヒト対象であり得る。配列表示は、試料に関連する配列決定プロセスの一部として作成されている配列決定リードに対応し得る。様々な例において、試料は無細胞ＤＮＡ分子を含むことができる。

さらに、動作８０４において、方法８００は、参照配列の一部分に対応するそれぞれの配列表示を決定するアラインメントプロセスを実施することを含み得る。アラインメントプロセスは、参照配列のそれぞれの部分に対応する配列表示を決定することができる。１またはそれを超える例において、アラインメントプロセスは、配列決定リードをフィルタリングすることなく、または試料に含まれる初期ポリヌクレオチドに従って配列決定リードをグループ化することなく行われ得る。１またはそれを超える更なる例において、配列決定リードは、試料に含まれる個々のポリヌクレオチド分子に対応する複数の配列決定リードを決定することによってフィルタリングすることができる。これらのシナリオでは、アラインメントプロセスは、試料に含まれる個々のポリヌクレオチド分子に対応する単一の配列表示を使用して実施されるであろう。さらに、動作８０６において、方法８００は、参照配列の標的領域に対応しないアラインメントされた配列表示の数の一部分を同定することによってオフターゲット配列表示のセットを決定することを含み得る。

方法８００はまた、動作８０８において、標的領域を含まない参照配列の第１のセグメントを決定することを含み得る。第１のセグメントは、１またはそれを超える基準に従って参照ゲノムを第１のセグメントの数に分割する第１のセグメント化プロセスの一部として決定され得る。様々な例では、１またはそれを超える基準は、個々の第１のセグメントの最大サイズを含むことができる。１またはそれを超える更なる例において、１またはそれを超える基準は、５０ｋｂ、７５ｋｂ、１００ｋｂ、１２５ｋｂまたは１５０ｋｂ等のそれぞれのサイズを有する第１のセグメントの数を最大化することを含み得る。

動作８１０において、プロセス８００は、個々の第１のセグメントの第１のカバレッジメトリクスを決定することを含むことができる。第１のカバレッジメトリクスは、個々の第１のセグメントに対応するいくつかの配列表示を示すことができる。１またはそれを超える例示的な例において、第１のカバレッジメトリクスは、個々の第１のセグメントに対応する参照配列の部分と整列する配列表示をカウントすることによって決定することができる。

さらに、動作８１２において、方法８００は、個々の第１のセグメントの正規化されたカバレッジメトリクスを決定することを含むことができる。正規化されたカバレッジメトリクスは、参照カバレッジメトリクスに基づいて決定することができる。１またはそれを超える例において、参照カバレッジメトリクスは、コピー数多型が存在しない個体から得られた参照試料から導出されたカバレッジ情報に基づいて決定することができる。様々な例において、参照カバレッジメトリクスは、参照配列の個々の第１のセグメントと整列する参照試料から導出された配列表示の数を決定することによって決定することができる。正規化されたカバレッジメトリクスは、個々の第１のセグメントとアラインメントされた参照試料から導出された配列表示の数に対する、個々の第１のセグメントとアラインメントされた試料から導出された配列表現の数の比を決定することによって決定することができる。正規化されたカバレッジメトリクスはまた、第１のセグメントの配列表示の平均数に対する、個々の第１のセグメントとアラインメントされた試料から導出された配列表示の数の比を決定することによって決定することができる。

１またはそれを超える追加の例では、正規化されたカバレッジメトリクスは、第１のセグメントのグアニン－シトシン（Ｇ－Ｃ）含有量に基づいて決定することができる。例示すると、正規化されたカバレッジメトリクスは、個々の第１のセグメントとアラインメントされたＧ－Ｃ残基の頻度を決定することによって決定することができる。次いで、個々の第１のセグメントとアラインメントされたＧ－Ｃ残基の頻度を、個々の第１のセグメントの予想Ｇ－Ｃ残基数に関して分析して、個々の第１のセグメントの正規化されたＧ－Ｃカバレッジメトリクスを決定することができる。

更に別の例では、正規化されたカバレッジメトリクスは、第１のセグメントのマッピング可能性スコアに基づいて決定することができる。例えば、正規化されたカバレッジメトリクスは、追加の個々の第１のセグメントの追加部分に対する個々の第１のセグメントの部分間の相同性の量を決定することによって決定することができる。例示すると、第１のセグメントの一部分を参照配列の追加の部分に関して分析して、第１のセグメントの一部分と参照配列の追加の部分との間の相同性の量を決定して、第１のセグメントの一部分に対するマッピング可能性スコアを作成することができる。個々の第１のセグメントの部分に対するマッピング可能性スコアを、個々の第１のセグメントに対する予想されるマッピング可能性スコアに関して分析して、正規化されたカバレッジメトリクスを決定することができる。

さらに、動作８１４において、プロセス８００は、第１のセグメントよりも多数のヌクレオチドを有する参照ヒトゲノムの第２のセグメントを決定することを含み得る。第２のセグメントは、第１のセグメントを決定するために使用される第１のセグメント化プロセスとは異なる第２のセグメント化プロセスに基づいて決定することができる。１またはそれを超える例では、第２のセグメント化プロセスは、第１のセグメントを決定するために使用される基準とは異なる基準に基づいて第２のセグメントを決定することができる。様々な例において、第２のセグメントは、第１のセグメントよりも多数のヌクレオチドを含むことができ、第２のセグメントは、いくつかの第１のセグメントを含むことができる。さらに、第２のセグメントは、オンターゲット領域を含むことができる。１またはそれを超える例示的な例において、第２のセグメントを判定するために使用される１またはそれを超える基準は、第２のセグメントに対する腫瘍細胞コピー数が変化していないと判定することを含み得る。

動作８１６において、方法８００は、正規化されたカバレッジメトリクスに基づいて個々の第２のセグメントの第２のカバレッジメトリクスを決定することを含むことができる。個々の第２のセグメントの第２のカバレッジメトリクスは、それぞれの第２のセグメントに含まれる個々のビンの正規化されたカバレッジメトリクスを含むことができる。方法８００は、動作８１８において、第２のカバレッジメトリクスに基づいて腫瘍細胞のコピー数の推定値を決定することを含み得る。１またはそれを超える例では、腫瘍細胞コピー数の推定値は、最尤推定モデルのパラメータであり得る。腫瘍細胞のコピー数を使用して、試料を提供した対象に提供された１またはそれを超える介入の有効性を決定することができる。対象の疾患または生物学的症状を処置するために、１またはそれを超える介入を対象に提供することができる。１またはそれを超える例示的な例では、疾患または生物学的症状は癌を含むことができる。さらに、腫瘍細胞のコピー数を使用して、疾患または症状に関する対象の予後を決定することができる。１またはそれを超える更なる例では、第２のカバレッジメトリクスを使用して、対象に対する腫瘍割合を決定することもできる。

図９は、１またはそれを超える実施態様による、オフターゲットポリヌクレオチドに由来するサイズ分布情報に基づいて対象に関して腫瘍メトリクスを決定するための例示的な方法９００のフローチャートである。方法９００は、動作９０２において、対象に由来する試料に含まれるポリヌクレオチドの配列表示を示すシーケンシングデータを得ることを含み得る。１またはそれを超える例において、対象はヒト対象であり得る。配列表示は、シーケンシングデータに含まれる配列決定リードに対応し得る。様々な例において、試料は無細胞ＤＮＡ分子を含むことができる。

動作９０４において、方法９００は、個々の配列表示に対応する参照配列の１またはそれを超える部分を決定するアラインメントプロセスを実施することを含み得る。アラインメントプロセスは、参照配列のそれぞれの部分に対応する配列表示を決定することができる。１またはそれを超える例において、アラインメントプロセスは、配列決定リードをフィルタリングすることなく、または試料に含まれる初期ポリヌクレオチドに従って配列決定リードをグループ化することなく行われ得る。１またはそれを超える更なる例において、配列決定リードは、試料に含まれる個々のポリヌクレオチド分子に対応する複数の配列決定リードを決定することによってフィルタリングすることができる。これらのシナリオでは、アラインメントプロセスは、試料に含まれる個々のポリヌクレオチド分子に対応する単一の配列表示を使用して実施されるであろう。

さらに、方法９００は、動作９０６において、参照配列の標的領域に対応しないアラインメントされ配列の数の一部分を同定することによってオフターゲット分子のセットを決定することを含み得る。さらに、方法９００は、動作９０８において、標的領域を含まない参照配列のセグメントを決定することを含み得る。セグメントは、参照ゲノムを１またはそれを超える基準に従ってセグメントの数に分割するセグメント化プロセスの一部として決定することができる。様々な例では、１またはそれを超える基準は、個々のセグメントの最大サイズを含むことができる。１またはそれを超える更なる例において、１またはそれを超える基準は、５０ｋｂ、７５ｋｂ、１００ｋｂ、１２５ｋｂまたは１５０ｋｂ等のそれぞれのサイズを有するセグメントの数を最大化することを含み得る。

方法９００はまた、動作９１０において、個々のセグメントの配列サイズ分布メトリクスを決定することを含むことができる。配列サイズ分布メトリクスは、配列表示のサイズの様々な範囲に対応するいくつかの配列表示に対応することができる。例えば、サイズ分布は、個々のセグメントについて決定することができる。サイズ分布は、各パーティションが配列表示のサイズの範囲に対応するいくつかのパーティションを含むことができる。１またはそれを超える例示的な例において、サイズ分布の第１のパーティションは、１ヌクレオチド～４０ヌクレオチドを有する配列表示に対応することができ、第２の区分は、４１ヌクレオチド～８０ヌクレオチドを有する配列表示に対応することができ、第３の区分は、８１ヌクレオチド～１２０ヌクレオチドを有する配列表示に対応することができ、第４の区分は、１２１ヌクレオチドを超える配列表示に対応することができる。この例を続けると、１またはそれを超えるセグメントのシーケンスサイズ分布メトリクスは、第１のパーティションに対応する第１の数の配列表示、第２のパーティションに対応する第２の数の配列表示、第３のパーティションに対応する第３の数の配列表示、および第４のパーティションに対応する第４の数の配列表示を示すことができる。様々な例において、各パーティションに対応する配列表示のサイズの範囲は、個々のセグメントの配列表示の平均サイズおよび平均からの標準偏差に基づくことができる。

方法９００はまた、動作９１２において、個々のセグメントの正規化された配列サイズ分布メトリクスを決定することを含むことができる。個々のセグメントの正規化された配列サイズ分布メトリクスは、参照サイズ分布メトリクスに基づいて決定することができる。１またはそれを超える例において、参照サイズ分布メトリクスは、コピー数多型が存在しない個体から得られる参照試料から導出される配列サイズ分布情報に基づいて決定され得る。様々な例において、参照サイズ分布メトリクスは、参照配列の個々のセグメントと整列し、サイズ分布の個々のパーティションに対応する、参照試料から導出された配列表示の数を決定することによって決定することができる。正規化されたサイズ分布メトリクスは、個々のセグメントとアラインメントされ、サイズ分布のそれぞれのパーティションに対応する、参照試料から導出された配列表示の数に対する、個々のセグメントとアラインメントされ、サイズ分布のそれぞれのパーティションに対応する、試料から導出された配列表示の数の比を決定することによって決定することができる。正規化されたサイズ分布メトリクスは、サイズ分布のそれぞれのパーティションに対応するセグメントの配列表示の平均数に対する、個々のセグメントとアラインメントされ、サイズ分布のそれぞれの区分に対応する、試料から導出された配列表示の数の比を決定することによって決定することもできる。

さらに、動作９１４において、方法９００は、正規化された配列サイズ分布メトリクスに基づいて腫瘍細胞のコピー数の推定値を決定することを含み得る。１またはそれを超える例では、腫瘍細胞コピー数の推定値は、最尤推定モデルのパラメータであり得る。腫瘍細胞のコピー数を使用して、試料を提供した対象に提供された１またはそれを超える介入の有効性を決定することができる。対象の疾患または生物学的症状を処置するために、１またはそれを超える介入を対象に提供することができる。１またはそれを超える例示的な例では、疾患または生物学的症状は癌を含むことができる。さらに、腫瘍細胞のコピー数を使用して、疾患または症状に関する対象の予後を決定することができる。１またはそれを超える追加の例では、正規化されたサイズ分布メトリクスを使用して、対象に対する腫瘍割合を決定することもできる。

図９に関して説明していないが、プロセス９００はまた、正規化されたサイズ分布メトリクスに基づいて第２のサイズ分布メトリクスを決定するために使用される第２のセグメント化プロセスを含むことができる。第２のサイズ分布メトリクスを使用して、腫瘍細胞のコピー数の推定値を決定することができる。１またはそれを超える例では、第２のセグメント化プロセスは、第１のセグメントを決定するために使用される基準とは異なる基準に基づいて第２のセグメントを決定することができる。様々な例において、第２のセグメントは、第１のセグメントよりも多数のヌクレオチドを含むことができ、第２のセグメントは、いくつかの第１のセグメントを含むことができる。さらに、第２のセグメントは、オンターゲット領域を含むことができる。１またはそれを超える例示的な例において、第２のセグメントを判定するために使用される１またはそれを超える基準は、第２のセグメントに対する腫瘍細胞コピー数が変化していないと判定することを含み得る。

図１０は、シーケンシングデータを作成し、シーケンシングデータからオフターゲット配列表示を決定するための例示的な方法のフローチャートであり、オフターゲット配列表示は、１またはそれを超える実施態様による、オフターゲット配列表示に由来する情報に基づいて対象に関する腫瘍メトリクスを決定するために使用され得る。方法１０００は、１００２において、配列決定のために試料に由来するポリヌクレオチドのセットを調製することを含み得る。例えば、平滑末端ライゲーションをポリヌクレオチドのセットに対して行うことができ、分子バーコードをポリヌクレオチドのセットに含まれる個々のポリヌクレオチドに付加することができる。分子バーコードは、個々のポリヌクレオチドを同定するために使用することができる。さらに、ポリヌクレオチドのセットを、ポリヌクレオチドのセットと、参照配列の標的領域に対応するプローブとの間で１またはそれを超えるハイブリダイゼーションプロセスを実施して、ポリヌクレオチドの濃縮セットを生成することによって濃縮することができる。１またはそれを超える例において、濃縮されたポリヌクレオチドのセットは、配列決定の前に増幅され得る。１またはそれを超える更なる例において、プローブとハイブリダイズしないポリヌクレオチドのセットの少なくとも一部分もまた、配列決定の前に増幅され得る。プローブとハイブリダイズしないポリヌクレオチドは、本明細書では「非ハイブリダイズポリヌクレオチド」と呼ばれる場合がある。様々な例において、試料は無細胞ＤＮＡ分子を含むことができる。

さらに、１００４において、方法１０００は、シーケンシングデータを作成するためにポリヌクレオチド分子のセットに関して１またはそれを超える配列決定プロセスを実施することを含み得る。シーケンシングデータは、ハイブリダイズしたポリヌクレオチドおよびハイブリダイズしていないポリヌクレオチドに対応する、本明細書では配列表示とも呼ばれるいくつかの配列決定リードを含み得る。配列決定リードは、配列決定されたポリヌクレオチドに関連する英数字配列を示すデータに対応し得る。１またはそれを超える例示的な例において、シーケンシングデータは、ギガバイト、最大テラバイトのデータを含むことができる。

方法１０００はまた、１００６において、配列データに含まれる複数の配列表示を参照配列と整列させて、いくつかのオフターゲット配列表示を決定することを含み得る。オフターゲット配列表示は、ドライバ突然変異に対応する参照ゲノムの標的領域の外側にある参照ゲノムの領域とアラインメントさせることができる。

さらに、１００８において、方法１０００は、参照配列の複数のセグメントを決定するためにセグメント化プロセスを行うことを含むことができる。セグメント化プロセスは、１またはそれを超える基準に基づいて参照ゲノムをいくつかのセグメントに分割することを含み得る。１またはそれを超える例では、複数のセグメント化動作を実施することができる。これらのシナリオでは、異なるセグメント化動作に関して異なる基準を適用することができる。例えば、第１のセグメント化動作は、１またはそれを超える第１の基準に関して実装することができ、第２のセグメント化プロセスは、１またはそれを超える第２の基準に関して実装することができる。例示すると、第１のセグメント化プロセスは、参照配列を、少なくとも５０ｋｂ、少なくとも７５ｋｂ、少なくとも１００ｋｂ、少なくとも１２５ｋｂ、または少なくとも１５０ｋｂ等の指定されたサイズを有するビンに分割することによって実装することができる。様々な例において、セグメントの少なくとも一部分は、同じ数のヌクレオチドを有することができる。さらに、変化していないそれぞれのセグメントの腫瘍細胞コピー数に基づいて参照ゲノムの第２のセグメントを決定する第２のセグメント化プロセスを行うことができる。１またはそれを超える例では、第２のセグメントは、第１のセグメントよりも大きいサイズを有することができる。例示すると、第２のセグメントは、いくつかの第１のセグメントを含むことができる。

動作１０１０において、方法１０００は、複数のセグメントに関して１またはそれを超える定量的尺度を決定することを含むことができる。定量的尺度は、カバレッジメトリクスおよびサイズ分布メトリクスを含むことができる。カバレッジメトリクスは、参照配列の１またはそれを超えるセグメントに対応する配列表示のカウントを示すことができる。サイズ分布メトリクスは、サイズ分布に関してそれぞれのサイズを有するオフターゲット配列表示のカウントを示すことができる。１またはそれを超える例では、サイズ分布は、各々が配列表示のサイズの範囲に対応するいくつかのパーティションを含むことができる。１またはそれを超える例では、正規化された定量的尺度は、１またはそれを超える定量的尺度に基づいて決定することもできる。様々な例において、正規化された定量的メトリクスは、コピー数多型が存在しない個体から得られる参照試料から導出される参照定量的尺度に基づいて決定され得る。正規化された定量的尺度はまた、第１のセグメントのＧ－Ｃ含有量または第１のセグメントのマッピング可能性スコアのうちの少なくとも１つに従って決定され得る。１またはそれを超える更なる例において、１またはそれを超える定量的尺度は、参照配列の標的領域に対応する一塩基多型（ＳＮＰ）の定量的尺度に対応し得る。

さらに、１０１２において、方法１０００は、試料が得られた対象の腫瘍細胞コピー数を、１またはそれを超える定量的尺度に基づいて決定することを含み得る。１またはそれを超える例において、腫瘍細胞コピー数は、オフターゲット配列表示のカバレッジメトリクスまたはオフターゲット配列表示のサイズ分布メトリクスのうちの少なくとも１つに基づいて決定され得る。様々な例において、腫瘍細胞コピー数はまた、参照配列の標的領域に関連する配列表示から導出される定量的尺度に基づいて決定され得る。さらに、腫瘍細胞コピー数は、参照配列の標的領域に対応する生殖系列ＳＮＰの最大対立遺伝子割合に基づいて決定することができる。腫瘍細胞コピー数はまた、オフターゲット配列表示のカバレッジメトリクス、オフターゲット配列表示のサイズ分布メトリクス、参照配列の標的領域に関連する配列表示から導出される定量的尺度、または参照配列の標的領域に対応する生殖系列ＳＮＰの最大対立遺伝子割合のうちの少なくとも２つの組み合わせに従って決定され得る。
試料

無細胞ポリヌクレオチドの単離および抽出は、様々な技術を使用して試料を収集することによって行われ得る。試料は、対象から単離された任意の生物学的試料であり得る。試料には、身体組織、全血、血小板、血清、血漿、糞便、赤血球、白血球（ｗｈｉｔｅｂｌｏｏｄｃｅｌｌｓ）または白血球（ｌｅｕｃｏｃｙｔｅｓ）、内皮細胞、組織生検（例えば、既知のまたは疑われる固形腫瘍からの生検）、脳脊髄液、滑液、リンパ液、腹水液、間質液または細胞外液（例えば、細胞間空間からの流体）、歯肉滲出液、溝滲出液（ｃｒｅｖｉｃｕｌａｒｆｌｕｉｄ）、骨髄、胸水、脳脊髄液、唾液、粘膜、痰、精液、汗、尿が含まれ得る。試料は、好ましくは体液、特に血液およびその画分、ならびに尿である。そのような試料には、腫瘍から排出された核酸が含まれる。核酸は、ＤＮＡおよびＲＮＡを含むことができ、二本鎖および一本鎖の形態であり得る。試料は、対象から最初に単離された形態であり得るか、または細胞などの成分を除去もしくは添加するか、ある成分を別の成分に対して濃縮するか、またはある形態の核酸を別の形態に、例えばＲＮＡをＤＮＡに、または一本鎖核酸を二本鎖に変換するためのさらなる処理に供されたものであってもよい。したがって、例えば、分析のための体液試料は、無細胞核酸、例えば無細胞ＤＮＡ（ｃｆＤＮＡ）を含有する血漿または血清である。

いくつかの実施態様において、対象から採取された体液の試料体積は、配列決定された領域の所望の読み取り深度に依存する。例示的な体積は、約０．４～４０ｍｌ、約５～２０ｍｌ、約１０～２０ｍｌである。例えば、体積は、約０．５ｍｌ、約１ｍｌ、約５ｍｌ、約１０ｍｌ、約２０ｍｌ、約３０ｍｌ、約４０ｍｌ、またはそれを超えるミリリットルであり得る。サンプリングされた血液の量は、は約５ｍｌ～約２０ｍｌであり得る。

試料は、様々な量の核酸を含むことができる。所与の試料中の核酸の量は、複数のゲノム等価物と同等であり得る。例えば、約３０ｎｇのＤＮＡの試料は、約１０，０００（１０^４）個の半数体ヒトゲノム等価物、およびｃｆＤＮＡの場合、約２０００億（２ｘ１０^１１）個の個々のポリヌクレオチド分子を含有し得る。同様に、約１００ｎｇのＤＮＡの試料は、約３０，０００個の半数体ヒトゲノム等価物、およびｃｆＤＮＡの場合、約６０００億個の個々の分子を含有し得る。

いくつかの実施態様において、試料は、異なる供給源、例えば細胞および無細胞供給源（例えば、血液試料など）からの核酸を含む。典型的には、試料は、突然変異を有する核酸を含む。例えば、試料は、生殖系列突然変異および／または体細胞性突然変異を保有するＤＮＡを必要に応じて含む。典型的には、試料は、癌関連突然変異（例えば、癌関連体細胞性突然変異）を保有するＤＮＡを含む。本開示のいくつかの実施態様において、対象における無細胞核酸は、腫瘍に由来し得る。例えば、対象から単離された無細胞ＤＮＡは、ｃｔＤＮＡを含むことができる。

増幅前の試料中の無細胞核酸の例示的な量は、典型的には、約１フェムトグラム（ｆｇ）～約１マイクログラム（μｇ）、例えば、約１ピコグラム（ｐｇ）～約２００ナノグラム（ｎｇ）、約１ｎｇ～約１００ｎｇ、約１０ｎｇ～約１０００ｎｇの範囲である。いくつかの実施態様において、試料は、約６００ｎｇまで、約５００ｎｇまで、約４００ｎｇまで、約３００ｎｇまで、約２００ｎｇまで、約１００ｎｇまで、約５０ｎｇまで、または約２０ｎｇまでの無細胞核酸分子を含む。必要に応じて、その量は、少なくとも約１ｆｇ、少なくとも約１０ｆｇ、少なくとも約１００ｆｇ、少なくとも約１ｐｇ、少なくとも約１０ｐｇ、少なくとも約１００ｐｇ、少なくとも約１ｎｇ、少なくとも約１０ｎｇ、少なくとも約１００ｎｇ、少なくとも約１５０ｎｇ、または少なくとも約２００ｎｇの無細胞核酸分子である。特定の実施態様において、その量は、最大約１ｆｇ、約１０ｆｇ、約１００ｆｇ、約１ｐｇ、約１０ｐｇ、約１００ｐｇ、約１ｎｇ、約１０ｎｇ、約１００ｎｇ、約１５０ｎｇまたは約２００ｎｇの無細胞核酸分子である。いくつかの実施態様において、方法は、試料から約１ｆｇ～約２００ｎｇの無細胞核酸分子を得ることを含む。

無細胞核酸は、典型的には、約１００ヌクレオチド長～約５００ヌクレオチド長のサイズ分布を有し、約１１０ヌクレオチド長～約２３０ヌクレオチド長の分子が試料中の分子の約９０％を占め、約１６８ヌクレオチド長のモードおよび約２４０～約４４０ヌクレオチド長の範囲の第２の小ピークを有する。特定の実施態様において、無細胞核酸は、約１６０～約１８０ヌクレオチド長、または約３２０～約３６０ヌクレオチド長、または約４４０～約４８０ヌクレオチド長である。

いくつかの実施態様において、溶液中に見出されるような無細胞核酸が無傷の細胞および体液の他の不溶性成分から分離されるパーティション工程を通して、無細胞核酸を体液から単離する。これらの実施態様のいくつかにおいて、パーティションは、遠心分離または濾過などの技術を含む。あるいは、体液中の細胞を溶解し、無細胞および細胞核酸を一緒に処理する。一般に、緩衝液の添加および洗浄工程の後、無細胞核酸を例えばアルコールで沈殿させる。特定の実施態様において、汚染物質または塩を除去するために、シリカ系カラムなどの追加のクリーンアップステップが使用される。例えば、収率などの例示的な手順の特定の態様を最適化するために、非特異的なバルク担体核酸を反応全体にわたって必要に応じて添加する。そのような処理の後、試料は、典型的には、二本鎖ＤＮＡ、一本鎖ＤＮＡおよび／または一本鎖ＲＮＡを含む様々な形態の核酸を含む。必要に応じて、一本鎖ＤＮＡおよび／または一本鎖ＲＮＡを二本鎖形態に変換して、その後の処理および分析工程に含める。本明細書に開示される方法を実施する際に使用するために必要に応じて適合された、ｃｆＤＮＡパーティションおよびエピジェネティック修飾の関連する分析に関するさらなる詳細は、例えば、２０１７年１２月２２日に出願された国際公開第２０１８／１１９４５２号に記載されており、これは参照により組み込まれる。
ｉｉ．核酸タグ

特定の実施態様において、分子識別子またはバーコードを提供するタグは、他の方法の中でも、化学合成、ライゲーション、またはオーバーラップ伸長ＰＣＲによって、アダプタに組み込まれるか、そうでなければ結合される。いくつかの実施態様において、ユニークもしくは非ユニークな識別子、または反応中の分子バーコードの割り当ては、例えば、米国特許出願第２００１００５３５１９号、米国特許出願第２００３０１５２４９０号、米国特許出願第２０１１０１６００７８号、および米国特許第６，５８２，９０８号、米国特許第７，５３７，８９８号および米国特許第９，５９８，７３１号に記載されており、これらは各々参照により組み込まれる。

タグは、ランダムまたは非ランダムに試料核酸に連結される（例えば、ライゲートされる）。いくつかの実施態様において、タグは、マイクロウェルに対する識別子（例えば、ユニークなおよび／または非ユニークなバーコードの組み合わせ）の予想される比で導入される。例えば、ゲノム試料あたり約１、２、３、４、５、６、７、８、９、１０、２０、５０、１００、５００、１０００、５０００、１００００、５０，０００、１００，０００、５００，０００、１，０００，０００、１０，０００，０００、５０，０００，０００または１，０００，０００，０００個を超える識別子がロードされるように、識別子がロードされ得る。いくつかの実施態様において、識別子は、ゲノム試料あたり約２、３、４、５、６、７、８、９、１０、２０、５０、１００、５００、１０００、５０００、１００００、５０，０００、１００，０００、５００，０００、１，０００，０００、１０，０００，０００、５０，０００，０００または１，０００，０００，０００個未満の識別子がロードされるようにロードされる。特定の実施態様において、ゲノム試料あたりにロードされる識別子の平均数は、ゲノム試料あたり約１、２、３、４、５、６、７、８、９、１０、２０、５０、１００、５００、１０００、５０００、１００００、５０，０００、１００，０００、５００，０００、１，０００，０００、１０，０００，０００、５０，０００，０００または１，０００，０００，０００の識別子未満またはそれを超える。識別子は、一般にユニークまたは非ユニークである。

１つの例示的なフォーマットは、標的核酸分子の両端に連結された約２～約１，０００，０００個の異なるタグ、または約５～約１５０個の異なるタグ、または約２０～約５０個の異なるタグを使用する。２０～５０×２０～５０個のタグの場合、合計４００～２５００個のタグが作製される。そのような数のタグは、典型的には、同じ開始点および停止点を有する異なる分子が、タグの異なる組み合わせを受信する高い確率（例えば、少なくとも９４％、９９．５％、９９．９９％、９９．９９９％）を有するのに十分である。

いくつかの実施態様において、識別子は、予め決定された、ランダムな、または半ランダムな配列オリゴヌクレオチドである。他の実施態様において、複数のバーコードを使用して、バーコードが必ずしも複数のバーコードの中で互いにユニークではないようにしてもよい。これらの実施態様において、バーコードは、一般に、個々の分子に（例えば、ライゲーションまたはＰＣＲ増幅によって）結合され、それにより、バーコードおよびそれが結合され得る配列の組み合わせが、個別に追跡され得るユニーク配列を作製する。本明細書に記載されるように、配列リードの開始（スタート）部分および終了（ストップ）部分の配列データと組み合わせた非ユニークにタグ付けされたバーコードの検出は、典型的には、特定の分子に対するユニークな同一性の割り当てを可能にする。個々の配列リードの長さまたは塩基対の数はまた、必要に応じて、所与の分子にユニークな同一性を割り当てるために使用される。本明細書に記載されるように、ユニークな同一性が割り当てられた核酸の一本鎖からの断片は、それにより、親鎖および／または相補鎖からの断片のその後の同定を可能にし得る。
核酸増幅

アダプタに隣接する試料核酸は、典型的には、増幅されるＤＮＡ分子に隣接するアダプタ中のプライマー結合部位に結合する核酸プライマーを使用するＰＣＲおよび他の増幅方法によって増幅される。いくつかの実施態様において、増幅方法は、熱サイクリングから生じる伸長、変性およびアニーリングのサイクルを含むか、または例えば転写媒介増幅の場合のように等温であり得る。必要に応じて利用される他の例示的な増幅方法としては、他のアプローチの中でも、リガーゼ連鎖反応、鎖置換増幅、核酸配列に基づく増幅、および自立配列に基づく複製が挙げられる。

従来の核酸増幅法を使用して試料インデックス／タグを核酸分子に導入するために１またはそれを超える増幅サイクルが一般に適用される。増幅は、典型的には、１またはそれを超える反応混合物中で行われる。いくつかの実施態様において、分子タグおよび試料インデックス／タグは、配列捕捉工程が実行される前および／または後に導入される。いくつかの実施態様において、プローブ捕捉の前に分子タグのみを導入し、配列捕捉工程が実施された後に試料インデックス／タグを導入する。特定の実施態様において、分子タグおよび試料インデックス／タグの両方は、プローブベースの捕捉工程を実行する前に導入される。いくつかの実施態様において、試料デックス／タグは、配列捕捉工程（すなわち、核酸の濃縮）が実施された後に導入される。典型的には、配列捕捉プロトコルは、標的化核酸配列、例えばゲノム領域のコード配列および癌型に関連するそのような領域の突然変異に相補的な一本鎖核酸分子を導入することを含む。典型的には、増幅反応は、約２００ヌクレオチド（ｎｔ）～約７００ｎｔ、２５０ｎｔ～約３５０ｎｔ、または約３２０ｎｔ～約５５０ｎｔの範囲のサイズの分子タグおよび試料インデックス／タグを有する複数の非ユニークにまたはユニークにタグ付けされた核酸アンプリコンを作成する。いくつかの実施態様において、アンプリコンは約３００ｎｔのサイズを有する。いくつかの実施態様において、アンプリコンは約５００ｎｔのサイズを有する。
核酸濃縮

いくつかの実施態様において、核酸を配列決定する前に配列を濃縮する。濃縮は、必要に応じて、特定の標的領域または非特異的に（「標的配列」）行われる。いくつかの実施態様において、標的化された目的の領域は、差分タイリングおよび捕捉スキームを使用して、１またはそれを超えるベイトセットパネルのために選択された核酸捕捉プローブ（「ベイト」で濃縮され得る。差分タイリングおよび捕捉スキームは、一般に、異なる相対濃度のベイトセットを使用して、一連の制約（例えば、シーケンシング負荷、各ベイトの有用性などのシーケンサ制約）に従って、ベイトに関連するゲノムセクションにわたって差次的にタイリングし（例えば、異なる「解消」で）、下流配列決定のために所望のレベルで標的化核酸を捕捉する。目的のこれらの標的化ゲノムセクションは、必要に応じて、核酸コンストラクトの天然または合成ヌクレオチド配列を含む。いくつかの実施態様において、目的の１またはそれを超えるセクションに対するプローブを有するビオチン標識ビーズを使用して、標的配列を捕捉し、必要に応じてその後にそれらのセクションを増幅して、目的の領域を濃縮することができる。

配列捕捉は、典型的には、標的核酸配列にハイブリダイズするオリゴヌクレオチドプローブの使用を含む。特定の実施態様において、プローブセット戦略は、目的のセクションにわたってプローブをタイリングすることを含む。そのようなプローブは、例えば、約６０～約１２０ヌクレオチド長であり得る。セットは、約２×、３×、４×、５×、６×、８×、９×、１０×、１５×、２０×、５０×またはそれを超える深度を有することができる。配列捕捉の有効性は、一般に、プローブの配列と相補的（またはほぼ相補的）である標的分子中の配列の長さに部分的に依存する。
核酸配列決定

試料からのｃｆＤＮＡの抽出および単離の後、工程１０３および１０４においてｃｆＤＮＡが配列決定され得る。事前増幅の有無にかかわらず、必要に応じてアダプタに隣接する試料核酸は、一般に配列決定の対象となる。必要に応じて利用される配列決定方法または市販のフォーマットとしては、例えば、サンガーシーケンシング、ハイスループットシーケンシング、バイサルファイトシーケンシング、パイロシーケンシング、合成によるシーケンシング、単一分子シーケンシング、ナノポアベースのシーケンシング、半導体シーケンシング、ライゲーションによるシーケンシング、ハイブリダイゼーションによるシーケンシング、ＲＮＡ－Ｓｅｑ（Ｉｌｌｕｍｉｎａ）、デジタル遺伝子発現（Ｈｅｌｉｃｏｓ）、次世代シーケンシング（ＮＧＳ）、合成による単一分子シーケンシング（ＳＭＳＳ）（Ｈｅｌｉｃｏｓ）、大規模並列シーケンシング、クローン単一分子アレイ（Ｓｏｌｅｘａ）、ショットガンシーケンシング、ＩｏｎＴｏｒｒｅｎｔ、ＯｘｆｏｒｄＮａｎｏｐｏｒｅ、ＲｏｃｈｅＧｅｎｉａ、プライマーウォーキング、ＰａｃＢｉｏ、ＳＯＬｉＤ、ＩｏｎＴｏｒｒｅｎｔ、またはナノポアプラットフォームを使用したシーケンシングが挙げられる。配列決定反応は、複数のレーン、複数のチャネル、複数のウェル、または複数の試料セットを実質的に同時に処理する他の手段を含み得る様々な試料処理ユニットで実施することができる。試料処理ユニットはまた、複数のランの処理を同時に可能にするために複数の試料チャンバを含むことができる。

配列決定反応を、癌または他の疾患のマーカーを含有することが知られている１またはそれを超える核酸断片タイプまたは断片に対して行うことができる。配列決定反応を、試料中に存在する任意の核酸断片に対して行うこともできる。配列決定反応は、ゲノムの少なくとも約５％、１０％、１５％、２０％、２５％、３０％、４０％、５０％、６０％、７０％、８０％、９０％、９５％、９９％、９９．９％または１００％の配列カバレッジを提供し得る。他の場合では、ゲノムの配列カバレッジは、ゲノムの約５％、１０％、１５％、２０％、２５％、３０％、４０％、５０％、６０％、７０％、８０％、９０％、９５％、９９％、９９．９％または１００％未満であり得る。

同時配列決定反応は、多重配列決定技術を使用して実施され得る。いくつかの実施態様において、無細胞ポリヌクレオチドは、少なくとも約１０００、２０００、３０００、４０００、５０００、６０００、７０００、８０００、９０００、１００００、５００００、または１００，０００回の配列決定反応で配列決定される。他の実施態様において、無細胞ポリヌクレオチドは、約１０００、２０００、３０００、４０００、５０００、６０００、７０００、８０００、９０００、１００００、５００００または１００，０００未満の配列決定反応で配列決定される。配列決定反応は、典型的には、順次または同時に行われる。その後のデータ分析は、一般に、配列決定反応の全部または一部に対して行われる。いくつかの実施態様において、データ解析は、少なくとも約１０００、２０００、３０００、４０００、５０００、６０００、７０００、８０００、９０００、１００００、５００００、または１００，０００回の配列決定反応に対して行われる。他の実施態様において、データ解析は、約１０００、２０００、３０００、４０００、５０００、６０００、７０００、８０００、９０００、１００００、５００００または１００，０００未満の配列決定反応に対して行われ得る。例示的なリード深度は、遺伝子座（塩基位置）当たり約１０００～約５０，０００リードである。

いくつかの実施態様において、核酸集団は、一方または両方の末端に一本鎖オーバーハングを有する二本鎖核酸上に平滑末端を酵素的に形成することによって配列決定のために調製される。これらの実施態様において、集団は、典型的には、ヌクレオチド（例えば、Ａ、Ｃ、ＧおよびＴまたはＵ）の存在下で５’－３’ＤＮＡポリメラーゼ活性および３’－５’エキソヌクレアーゼ活性を有する酵素で処置される。必要に応じて使用される例示的な酵素またはその触媒断片には、クレノウ大型断片およびＴ４ポリメラーゼが含まれる。５’オーバーハングでは、酵素は、典型的には、５’末端と同一平面になるまで対向する鎖上の陥凹した３’末端を伸長させて平滑末端を生成する。３’オーバーハングでは、酵素は一般に、３’末端から反対の鎖の５’末端まで、場合によってはそれを超えて消化する。この消化が対向する鎖の５’末端を超えて進行する場合、５’オーバーハングに使用されるのと同じポリメラーゼ活性を有する酵素によってギャップを埋めることができる。二本鎖核酸上の平滑末端の形成は、例えば、アダプタの結合およびその後の増幅を容易にする。

いくつかの実施態様において、核酸集団は、一本鎖核酸の二本鎖への変換および／またはＲＮＡのＤＮＡへの変換などの追加のプロセッシングを受ける。これらの形態の核酸はまた、必要に応じてアダプタに連結され、増幅される。

事前の増幅の有無にかかわらず、上記の平滑末端を形成するプロセスの対象となる核酸、および必要に応じて試料中の他の核酸を配列決定して、配列決定された核酸を生成することができる。配列決定された核酸は、核酸の配列（すなわち、配列情報）またはその配列が決定された核酸のいずれかを指すことができる。配列決定は、試料中の個々の核酸分子の増幅産物のコンセンサス配列から直接的または間接的に、試料中の個々の核酸分子の配列データを提供するように行うことができる。

いくつかの実施態様において、平滑末端形成後の試料中の一本鎖オーバーハングを有する二本鎖核酸は、両端でバーコードを含むアダプタに連結され、配列決定は、核酸配列ならびにアダプタによって導入されたインラインバーコードを決定する。平滑末端ＤＮＡ分子は、必要に応じて、少なくとも部分的に二本鎖アダプタ（例えば、Ｙ字形またはベル形のアダプタ）の平滑末端に連結される。あるいは、ライゲーション（例えば、粘着末端ライゲーション）を容易にするために、試料核酸およびアダプタの平滑末端を相補的ヌクレオチドでテーリングすることができる。

核酸試料は、典型的には、同じ核酸の任意の２つのコピーが両端で連結されたアダプタからアダプタバーコードの同じ組み合わせを受け取る確率が低くなる（例えば、１％未満または０．１％）ように、十分な数のアダプタと接触される。この様式でのアダプタの使用は、参照核酸上の同じ開始点および停止点を有し、バーコードの同じ組み合わせに連結された核酸配列のファミリーの同定を可能にする。そのようなファミリーは、増幅前の試料中の鋳型／親核酸の増幅産物の配列を表す。ファミリーメンバーの配列は、平滑末端形成およびアダプタ結合によって修飾された、元の試料中の核酸分子のコンセンサスヌクレオチドまたは完全なコンセンサス配列を得るために編集することができる。換言すれば、試料中の核酸の特定の位置を占めるヌクレオチドは、ファミリーメンバー配列中のその対応する位置を占めるヌクレオチドのコンセンサスであると決定される。ファミリーは、二本鎖核酸の一方または両方の鎖の配列を含み得る。ファミリーのメンバーが二本鎖核酸由来の両鎖の配列を含む場合、コンセンサスヌクレオチドまたは配列を得るために全ての配列を編集する目的で、一方の鎖の配列がそれらの相補体に変換される。いくつかのファミリーは、単一のメンバー配列のみを含む。この場合、この配列を増幅前の試料中の核酸の配列とすることができる。あるいは、単一のメンバー配列のみを有するファミリーは、その後の分析から除外され得る。

配列決定された核酸のヌクレオチド変異は、配列決定された核酸を参照配列と比較することによって決定することができる。参照配列は、多くの場合、既知の配列、例えば、対象由来の既知の全ゲノム配列または部分ゲノム配列（例えば、ヒト対象の全ゲノム配列）である。参照配列は、例えば、ｈＧ１９またはｈＧ３８であり得る。配列決定された核酸は、上記のように、試料中の核酸について直接決定された配列、またはそのような核酸の増幅産物の配列のコンセンサスを表すことができる。比較は、参照配列上の１またはそれを超える指定された位置で行うことができる。それぞれの配列が最大限にアラインメントされたときの参照配列の指定された位置に対応する位置を含む配列決定された核酸のサブセットを同定することができる。そのようなサブセット内では、存在する場合、どの配列決定された核酸が、指定された位置にヌクレオチド変異を含むか、そのエンドポイント（すなわち、それは５’および３’末端ヌクレオチドである）が参照配列にマッピングされる場所に基づく所与のｃｆＤＮＡフラグメントの長さ、ｃｆＤＮＡ断片中のゲノム領域の中点からの所与のｃｆＤＮＡ断片の中点のオフセット、ならびに必要に応じて、どれが参照ヌクレオチド（すなわち、参照配列と同じ）を含むかを決定することができる。選択された閾値を超えるヌクレオチド変異体を含むサブセット中の配列決定された核酸の数があれば、指定された位置で変異体ヌクレオチドを呼び出すことができる。閾値は、単純な数、例えばヌクレオチド変異体を含むサブセット内の少なくとも１、２、３、４、５、６、７、９もしくは１０個の配列決定された核酸であり得るか、または他の可能性の中でもヌクレオチド変異体を含むサブセット内の少なくとも０．５、１、２、３、４、５、１０、１５もしくは２０個の配列決定された核酸の比率であり得る。比較は、参照配列中の任意の指定された目的の位置について繰り返すことができる。時には、参照配列上の少なくとも約２０、１００、２００または３００個の連続した位置、例えば約２０～５００個または約５０～３００個の連続した位置を占める指定された位置について比較を行うことができる。

本明細書に記載されるフォーマットおよび用途を含めて、核酸配列決定に関する更なる詳細もまた、例えば、それぞれ参照によりその全体が組み込まれる、Ｌｅｖｙｅｔａｌ．，ＡｎｎｕａｌＲｅｖｉｅｗｏｆＧｅｎｏｍｉｃｓａｎｄＨｕｍａｎＧｅｎｅｔｉｃｓ，１７：９５－１１５（２０１６）、Ｌｉｕｅｔａｌ．，Ｊ．ｏｆＢｉｏｍｅｄｉｃｉｎｅａｎｄＢｉｏｔｅｃｈｎｏｌｏｇｙ，Ｖｏｌｕｍｅ２０１２，ＡｒｔｉｃｌｅＩＤ２５１３６４：１－１１（２０１２）、Ｖｏｅｌｋｅｒｄｉｎｇｅｔａｌ．，ＣｌｉｎｉｃａｌＣｈｅｍ．，５５：６４１－６５８（２００９）、ＭａｃＬｅａｎｅｔａｌ．，ＮａｔｕｒｅＲｅｖ．Ｍｉｃｒｏｂｉｏｌ．，７：２８７－２９６（２００９）、Ａｓｔｉｅｒｅｔａｌ．，ＪＡｍＣｈｅｍＳｏｃ．，１２８（５）：１７０５－１０（２００６）、米国特許第６，２１０，８９１号、米国特許第６，２５８，５６８号、米国特許第６，８３３，２４６号、米国特許第７，１１５，４００号、米国特許第６，９６９，４８８号、米国特許第５，９１２，１４８号、米国特許第６，１３０，０７３号、米国特許第７，１６９，５６０号、米国特許第７，２８２，３３７号、米国特許第７，４８２，１２０号、米国特許第７，５０１，２４５号、米国特許第６，８１８，３９５号、米国特許第６，９１１，３４５号、米国特許第７，５０１，２４５号、米国特許第７，３２９，４９２号、米国特許第７，１７０，０５０号、米国特許第７，３０２，１４６号、米国特許第７，３１３，３０８号、および米国特許第７，４７６，５０３号において提供される。
シーケンシングパネルＳｅｑｕｅｎｃｉｎｇＰａｎｅｌ

目的のゲノム領域、および必要に応じて突然変異を示す腫瘍を検出する尤度を改善するために、配列決定されたＤＮＡのセクションは、既知のゲノム領域を含む遺伝子またはゲノムセクションのパネルを含み得る。配列決定のための限定されたセクション（例えば、限定されたパネル）の選択は、必要とされる全配列決定（例えば、配列決定されたヌクレオチドの総量）を減少させることができる。シーケンシングパネルは、例えば、単一の癌、癌のセット、または全ての癌を検出するために、複数の異なる遺伝子または領域を標的とすることができる。あるいは、ＤＮＡは、シーケンシングパネルを使用せずに、全ゲノム配列決定（ＷＧＳ）または他の不偏配列決定方法によって配列決定され得る。パネルに使用するのに適したパネルおよび標的の例は、２０１９年１月３１日に出願された米国仮特許出願第６２／７９９，６３７号に記載されたエピジェネティック標的に見出すことができ、その全体が参照により組み込まれる。

いくつかの態様において、複数の異なる遺伝子またはゲノム領域（例えば、転写因子結合領域、遠位調節エレメント（ＤＲＥ）、反復エレメント、イントロン－エクソン接合部、転写開始部位（ＴＳＳ）など）を標的とするパネルは、癌を有する対象の決定された割合がパネル内の１またはそれを超える異なる遺伝子において遺伝的変異体または腫瘍マーカーを示すように選択される。パネルは、配列決定のための領域を固定数の塩基対に限定するように選択され得る。パネルは、所望の量のＤＮＡを配列決定するように選択され得る。パネルは、所望の配列リード深度を達成するように更に選択され得る。パネルは、ある量の配列決定された塩基対について所望の配列リード深度または配列リードカバレッジを達成するように選択され得る。パネルは、試料中の１またはそれを超える遺伝的変異体を検出するための理論的感度、理論的特異性、および／または理論的精度を達成するように選択され得る。

領域のパネルを検出するためのプローブは、目的のゲノム領域（ホットスポット領域）ならびにヌクレオソーム認識プローブ（例えば、ＫＲＡＳコドン１２および１３）を検出するためのプローブを含むことができ、ヌクレオソーム結合パターンおよびＧＣ配列組成によって影響を受けるｃｆＤＮＡカバレッジおよびフラグメントサイズ変動の分析に基づいて捕捉を最適化するように設計され得る。本明細書で使用される領域はまた、ヌクレオソーム位置およびＧＣモデルに基づいて最適化された非ホットスポット領域を含み得る。パネルは、起源組織（例えば、組織全体で最も多様な転写プロファイルを有する遺伝子を表す５０～１００ベイトを定義するための公開文献の使用（必ずしもプロモーターではない））を同定するためのサブパネル、全ゲノム骨格（例えば、超保存的ゲノム内容物を同定し、コピー数ベースライニング目的のための一握りのプローブを用いて染色体にわたってまばらにタイリングするため）、転写開始部位（ＴＳＳ）／ＣｐＧアイランド（例えば、腫瘍抑制遺伝子（例えば、結腸直腸癌におけるＳＥＰＴ９／ＶＩＭ）のプロモーターにおける差次的メチル化領域（例えば、差次的にメチル化された領域（ＤＭＲ））を捕捉するため）を含む複数のサブパネルを含むことができる。いくつかの実施態様において、起源の組織に対するマーカーは、組織特異的エピジェネティックマーカーである。

目的のゲノム位置のリストのいくつかの例を表１および表２に見出すことができる。いくつかの実施態様において、本開示の方法で使用されるゲノム位置は、表１の遺伝子の少なくとも５、少なくとも１０、少なくとも１５、少なくとも２０、少なくとも２５、少なくとも３０、少なくとも３５、少なくとも４０、少なくとも４５、少なくとも５０、少なくとも５５、少なくとも６０、少なくとも６５、少なくとも７０、少なくとも７５、少なくとも８０、少なくとも８５、少なくとも９０、少なくとも９５、または９７個の少なくとも一部分を含む。いくつかの実施態様において、本開示の方法で使用されるゲノム位置は、表１のＳＮＶの少なくとも５、少なくとも１０、少なくとも１５、少なくとも２０、少なくとも２５、少なくとも３０、少なくとも３５、少なくとも４０、少なくとも４５、少なくとも５０、少なくとも５５、少なくとも６０、少なくとも６５、または７０個を含む。いくつかの実施態様において、本開示の方法で使用されるゲノム位置は、表１のＣＮＶの少なくとも１、少なくとも２、少なくとも３、少なくとも４、少なくとも５、少なくとも６、少なくとも７、少なくとも８、少なくとも９、少なくとも１０、少なくとも１１、少なくとも１２、少なくとも１３、少なくとも１４、少なくとも１５、少なくとも１６、少なくとも１７、または１８個を含む。いくつかの実施態様において、本開示の方法で使用されるゲノム位置は、表１の融合物の少なくとも１、少なくとも２、少なくとも３、少なくとも４、少なくとも５、または６個を含む。いくつかの実施態様において、本開示の方法で使用されるゲノム位置は、表１のインデルの少なくとも１、少なくとも２、または３個の少なくとも一部分を含む。いくつかの実施態様において、本開示の方法で使用されるゲノム位置は、表２の遺伝子の少なくとも５、少なくとも１０、少なくとも１５、少なくとも２０、少なくとも２５、少なくとも３０、少なくとも３５、少なくとも４０、少なくとも４５、少なくとも５０、少なくとも５５、少なくとも６０、少なくとも６５、少なくとも７０、少なくとも７５、少なくとも８０、少なくとも８５、少なくとも９０、少なくとも９５、少なくとも１００、少なくとも１０５、少なくとも１１０、または１１５個の少なくとも一部分を含む。いくつかの実施態様において、本開示の方法で使用されるゲノム位置は、表２のＳＮＶの少なくとも５、少なくとも１０、少なくとも１５、少なくとも２０、少なくとも２５、少なくとも３０、少なくとも３５、少なくとも４０、少なくとも４５、少なくとも５０、少なくとも５５、少なくとも６０、少なくとも６５、少なくとも７０、または７３個を含む。いくつかの実施態様において、本開示の方法で使用されるゲノム位置は、表２のＣＮＶの少なくとも１、少なくとも２、少なくとも３、少なくとも４、少なくとも５、少なくとも６、少なくとも７、少なくとも８、少なくとも９、少なくとも１０、少なくとも１１、少なくとも１２、少なくとも１３、少なくとも１４、少なくとも１５、少なくとも１６、少なくとも１７、または１８個を含む。いくつかの実施態様において、本開示の方法で使用されるゲノム位置は、表２の融合物の少なくとも１、少なくとも２、少なくとも３、少なくとも４、少なくとも５、または６個を含む。いくつかの実施態様において、本開示の方法において使用されるゲノム位置は、表２のインデルの少なくとも１、少なくとも２、少なくとも３、少なくとも４、少なくとも５、少なくとも６、少なくとも７、少なくとも８、少なくとも９、少なくとも１０、少なくとも１１、少なくとも１２、少なくとも１３、少なくとも１４、少なくとも１５、少なくとも１６、少なくとも１７、または１８個の少なくとも一部分を含む。これらの目的のゲノム位置のそれぞれは、所与のベイトセットパネルの主鎖領域またはホットスポット領域として同定され得る。１またはそれを超える例において、本開示の方法は、表１および／または表２に含まれる全ての突然変異を使用して実装され得る。
表２

いくつかの実施態様において、パネル内の１またはそれを超える領域は、手術後に残存癌を検出するための１またはそれを超える遺伝子からの１またはそれを超える遺伝子座を含む。この検出は、既存の癌検出方法よりも早く行うことができる。いくつかの実施態様において、パネル内の１またはそれを超えるゲノム位置は、高リスク患者集団において癌を検出するための１またはそれを超える遺伝子からの１またはそれを超える遺伝子座を含む。例えば、喫煙者は、一般集団よりも肺癌の割合がはるかに高い。さらに、喫煙者は、肺における不規則な結節の発生など、癌の検出をより困難にする他の肺症状を発症する可能性がある。いくつかの実施態様において、本明細書に記載の方法は、癌療法に対する患者（特に高リスク患者における）の応答を、癌検出の既存の方法で可能であるよりも早く検出する。

ゲノム位置は、その遺伝子または領域に腫瘍マーカーを有する癌を有するいくつかの対象に基づいて、シーケンシングパネルに含めるために選択され得る。ゲノム位置は、癌およびその遺伝子に存在する腫瘍マーカーを有する対象の有病率に基づいて、シーケンシングパネルに含めるために選択され得る。ある領域における腫瘍マーカーの存在は、対象が癌を有することを示し得る。

場合によっては、パネルは、１またはそれを超えるデータベースからの情報を使用して選択されてもよい。癌に関する情報は、癌腫瘍生検またはｃｆＤＮＡアッセイに由来し得る。データベースは、配列決定された腫瘍試料の集団を記述する情報を含み得る。データベースは、腫瘍試料におけるｍＲＮＡ発現に関する情報を含み得る。データベースは、腫瘍試料中の調節エレメントまたはゲノム領域に関する情報を含み得る。配列決定された腫瘍試料に関する情報は、様々な遺伝的変異体の頻度を含み得、遺伝的変異体が存在する遺伝子または領域を記載し得る。遺伝的変異体は腫瘍マーカーであり得る。そのようなデータベースの非限定的な例は、ＣＯＳＭＩＣである。ＣＯＳＭＩＣは、様々な癌に見られる体細胞性突然変異のカタログである。特定の癌について、ＣＯＳＭＩＣは、突然変異の頻度に基づいて遺伝子をランク付けする。遺伝子は、所与の遺伝子内に高頻度の突然変異を有することによって、パネルに含めるために選択され得る。例えば、ＣＯＳＭＩＣは、配列決定された乳癌試料の集団の３３％がＴＰ５３に突然変異を有し、サンプリングされた乳癌の集団の２２％がＫＲＡＳに突然変異を有することを示す。ＡＰＣを含む他のランク付けされた遺伝子は、配列決定された乳癌試料の集団の約４％にのみ見られる突然変異を有する。ＴＰ５３およびＫＲＡＳは、サンプリングされた乳癌の中で比較的高い頻度（例えば約４％の頻度で起こるＡＰＣと比較して）を有することに基づいてシーケンシングパネルに含められ得る。ＣＯＳＭＩＣが非限定的な例として提供されるが、癌を遺伝子または遺伝子領域に位置する腫瘍マーカーと関連付ける任意のデータベースまたは情報のセットを使用してもよい。別の例では、ＣＯＳＭＩＣによって提供されるように、１１５６個の胆道癌試料のうち、３８０個の試料（３３％）がＴＰ５３に突然変異を保有していた。ＡＰＣなどのいくつかの他の遺伝子は、全試料の４～８％に突然変異を有する。したがって、胆管癌試料の集団における比較的高い頻度に基づいて、パネルに含めるためにＴＰ５３を選択してもよい。

腫瘍マーカーの頻度が所与のバックグラウンド集団に見られるよりもサンプリングされた腫瘍組織または循環腫瘍ＤＮＡにおいて有意に大きいパネルについては、遺伝子またはゲノムセクションを選択してもよい。ゲノム位置の組み合わせは、癌を有する対象の少なくとも大多数が、パネル内のゲノム位置または遺伝子の少なくとも１つに存在する腫瘍マーカーまたはゲノム領域を有し得るように、パネルを含めるために選択され得る。ゲノム位置の組み合わせは、特定の癌または癌のセットについて、対象の大部分が１またはそれを超える選択された領域に１またはそれを超える腫瘍マーカーを有することを示すデータに基づいて選択され得る。例えば、癌１を検出するために、領域Ａ、Ｂ、Ｃおよび／またはＤを含むパネルは、癌１を有する対象の９０％がパネルの領域Ａ、Ｂ、Ｃおよび／またはＤに腫瘍マーカーを有することを示すデータに基づいて選択され得る。あるいは、腫瘍マーカーは、組み合わせて、２またはそれを超える領域の腫瘍マーカーが癌を有する対象の集団の大部分に存在するように、癌を有する対象の２またはそれを超える領域で独立して生じることが示され得る。例えば、癌２を検出するために、領域Ｘ、ＹおよびＺを含むパネルは、対象の９０％が１またはそれを超える領域に腫瘍マーカーを有し、そのような対象の３０％では腫瘍マーカーが領域Ｘでのみ検出され、腫瘍マーカーが、腫瘍マーカーが検出された対象の残りの部分については領域Ｙおよび／またはＺでのみ検出されることを示すデータに基づいて選択され得る。１またはそれを超える癌に関連することが以前に示された１つまたはそれを超えるゲノム位置に存在する腫瘍マーカーは、腫瘍マーカーがそれらの領域の１またはそれを超える領域で５０％またはそれを超える時間検出された場合、癌を有する対象を示すかまたは予測することができる。１またはそれを超える領域内の腫瘍マーカーのセットに対する癌頻度を考慮して癌を検出する条件付き確率を用いるモデルなどの計算アプローチを使用して、どの領域が単独でまたは組み合わせて癌を予測し得るかを予測することができる。パネル選択のための他のアプローチは、大きなパネルおよび／または全ゲノム配列決定（ＷＧＳ、ＲＮＡ－ｓｅｑ、Ｃｈｉｐ－ｓｅｑ、バイサルフェートシーケンシング、ＡＴＡＣ－ｓｅｑ等）による腫瘍の包括的ゲノムプロファイリングを用いる研究からの情報を記載するデータベースの使用を含む。文献から収集された情報はまた、特定の癌において一般的に罹患および変異した経路を記載し得る。パネル選択は、遺伝情報を記述するオントロジの使用によって更に通知され得る。

配列決定のためのパネルに含まれる遺伝子は、完全に転写された領域、プロモーター領域、エンハンサー領域、調節エレメントおよび／または下流配列を含み得る。突然変異を示す腫瘍を検出する尤度を更に高めるために、エクソンのみをパネルに含めてもよい。パネルは、選択された遺伝子の全てのエクソン、または選択された遺伝子の１またはそれを超えるエクソンのみ含むことができる。パネルは、複数の異なる遺伝子の各々からのエクソンを含み得る。パネルは、複数の異なる遺伝子の各々からの少なくとも１つのエクソンを含み得る。

いくつかの態様において、複数の異なる遺伝子の各々からのエクソンのパネルは、癌を有する対象の決定された割合がエクソンのパネル内の少なくとも１つのエクソンにおいて遺伝的変異体を示すように選択される。

遺伝子のパネル内の各異なる遺伝子からの少なくとも１つの完全エクソンが配列決定され得る。配列決定されたパネルは、複数の遺伝子からのエクソンを含み得る。パネルは、２～１００個の異なる遺伝子、２～７０個の遺伝子、２～５０個の遺伝子、２～３０個の遺伝子、２～１５個の遺伝子、または２～１０個の遺伝子のエクソンを含み得る。

選択されたパネルは、様々な数のエクソンを含み得る。パネルは、２個～３０００個のエクソンを含み得る。パネルは、２個～１０００個のエクソンを含み得る。パネルは、２個～５００個のエクソンを含み得る。パネルは、２個～１００個のエクソンを含み得る。パネルは、２個～５０個のエクソンを含み得る。パネルは、３００個以下のエクソンを含み得る。パネルは、２００個以下のエクソンを含み得る。パネルは、１００個以下のエクソンを含み得る。パネルは、５０個以下のエクソンを含み得る。パネルは、４０個以下のエクソンを含み得る。パネルは、３０個以下のエクソンを含み得る。パネルは、２５個以下のエクソンを含み得る。パネルは、２０個以下のエクソンを含み得る。パネルは、１５個以下のエクソンを含み得る。パネルは、１０個以下のエクソンを含み得る。パネルは、９個以下のエクソンを含み得る。パネルは、８個以下のエクソンを含み得る。パネルは、７個以下のエクソンを含み得る。

パネルは、複数の異なる遺伝子からの１またはそれを超えるエクソンを含み得る。パネルは、複数の異なる遺伝子の割合の各々からの１またはそれを超えるエクソンを含み得る。パネルは、異なる遺伝子の少なくとも２５％、５０％、７５％または９０％の各々からの少なくとも２つのエクソンを含み得る。パネルは、異なる遺伝子の少なくとも２５％、５０％、７５％または９０％のそれぞれからの少なくとも３つのエクソンを含み得る。パネルは、異なる遺伝子の少なくとも２５％、５０％、７５％または９０％のそれぞれからの少なくとも４つのエクソンを含み得る。

シーケンシングパネルのサイズは変化し得る。シーケンシングパネルは、例えば、パネル内の特定の領域について配列決定されたヌクレオチドの総量または配列決定されたユニークな分子の数を含むいくつかの要因に応じて、（ヌクレオチドサイズに関して）より大きくまたはより小さくすることができる。シーケンシングパネルは、５ｋｂ～５０ｋｂのサイズであり得る。シーケンシングパネルは、１０ｋｂ～３０ｋｂのサイズであり得る。シーケンシングパネルは、１２ｋｂ～２０ｋｂのサイズであり得る。シーケンシングパネルは、１２ｋｂ～６０ｋｂのサイズであり得る。シーケンシングパネルは、少なくとも１０ｋｂ、１２ｋｂ、１５ｋｂ、２０ｋｂ、２５ｋｂ、３０ｋｂ、３５ｋｂ、４０ｋｂ、４５ｋｂ、５０ｋｂ、６０ｋｂ、７０ｋｂ、８０ｋｂ、９０ｋｂ、１００ｋｂ、１１０ｋｂ、１２０ｋｂ、１３０ｋｂ、１４０ｋｂまたは１５０ｋｂのサイズであり得る。シーケンシングパネルは、１００ｋｂ、９０ｋｂ、８０ｋｂ、７０ｋｂ、６０ｋｂまたは５０ｋｂ未満のサイズであり得る。

配列決定のために選択されたパネルは、少なくとも１、５、１０、１５、２０、２５、３０、４０、５０、６０、８０または１００のゲノム位置（例えば、それぞれが目的のゲノム領域を含む）を含み得る。場合によっては、パネル内のゲノム位置は、位置のサイズが比較的小さいように選択される。場合によっては、パネル内の領域は、約１０ｋｂもしくはそれ未満、約８ｋｂもしくはそれ未満、約６ｋｂもしくはそれ未満、約５ｋｂもしくはそれ未満、約４ｋｂもしくはそれ未満、約３ｋｂもしくはそれ未満、約２．５ｋｂもしくはそれ未満、約２ｋｂもしくはそれ未満、約１．５ｋｂもしくはそれ未満、または約１ｋｂもしくはそれ未満のサイズを有する。場合によっては、パネル内のゲノム位置は、約０．５ｋｂ～約１０ｋｂ、約０．５ｋｂ～約６ｋｂ、約１ｋｂ～約１１ｋｂ、約１ｋｂ～約１５ｋｂ、約１ｋｂ～約２０ｋｂ、約０．１ｋｂ～約１０ｋｂ、または約０．２ｋｂ～約１ｋｂのサイズを有する。例えば、パネル内の領域は、約０．１ｋｂ～約５ｋｂのサイズを有することができる。

本明細書で選択されるパネルは、低頻度の遺伝的変異体（例えば、試料から得られた無細胞核酸分子において）を検出するのに十分なディープシーケンシングを可能にすることができる。試料中の遺伝的変異体の量は、所与の遺伝的変異体のマイナー対立遺伝子頻度に関して言及され得る。突然変異体対立遺伝子頻度は、突然変異体対立遺伝子が試料等の核酸の所与の集団において生じる頻度を指し得る。マイナー対立遺伝子頻度が低い遺伝的変異体は、試料中に比較的低い頻度で存在し得る。場合によっては、パネルは、少なくとも０．０００１％、０．００１％、０．００５％、０．０１％、０．０５％、０．１％または０．５％のマイナー対立遺伝子頻度での遺伝的変異体の検出を可能にする。パネルは、０．００１％またはそれを超えるマイナー対立遺伝子頻度での遺伝的変異体の検出を可能にすることができる。パネルは、０．０１％またはそれを超えるマイナー対立遺伝子頻度での遺伝的変異体の検出を可能にすることができる。パネルは、０．０１％またはそれを超える突然変異体対立遺伝子頻度での遺伝的変異体の検出を可能にすることができる。パネルは、０．０００１％、０．００１％、０．００５％、０．０１％、０．０２５％、０．０５％、０．０７５％、０．１％、０．２５％、０．５％、０．７５％、または１．０％という低い頻度で試料中に存在する遺伝的変異体の検出を可能にすることができる。パネルは、少なくとも０．０００１％、０．００１％、０．００５％、０．０１％、０．０２５％、０．０５％、０．０７５％、０．１％、０．２５％、０．５％、０．７５％、または１．０％の頻度で試料中に存在する腫瘍マーカーの検出を可能にすることができる。パネルは、１．０％という低い頻度で試料中の腫瘍マーカーの検出を可能にすることができる。パネルは、０．７５％という低い頻度で試料中の腫瘍マーカーの検出を可能にすることができる。パネルは、０．５％という低い頻度で試料中の腫瘍マーカーの検出を可能にすることができる。パネルは、０．２５％という低い頻度で試料中の腫瘍マーカーの検出を可能にすることができる。パネルは、０．１％という低い頻度で試料中の腫瘍マーカーの検出を可能にすることができる。パネルは、０．０７５％という低い頻度で試料中の腫瘍マーカーの検出を可能にすることができる。パネルは、０．０５％という低い頻度で試料中の腫瘍マーカーの検出を可能にすることができる。パネルは、０．０２５％という低い頻度で試料中の腫瘍マーカーの検出を可能にすることができる。パネルは、０．０１％という低い頻度で試料中の腫瘍マーカーの検出を可能にすることができる。パネルは、０．００５％という低い頻度で試料中の腫瘍マーカーの検出を可能にすることができる。パネルは、０．００１％という低い頻度で試料中の腫瘍マーカーの検出を可能にすることができる。パネルは、０．０００１％という低い頻度で試料中の腫瘍マーカーの検出を可能にすることができる。パネルは、配列決定されたｃｆＤＮＡ中の腫瘍マーカーを試料において１．０％～０．０００１％という低い頻度で検出することを可能にすることができる。パネルは、配列決定されたｃｆＤＮＡ中の腫瘍マーカーを試料において０．０１％～０．０００１％という低い頻度で検出することを可能にすることができる。

遺伝的変異体は、疾患（例えば、癌）を有する対象の集団のパーセンテージで示され得る。場合によっては、癌を有する集団の少なくとも１％、２％、３％、５％、１０％、２０％、３０％、４０％、５０％、６０％、７０％、８０％、９０％、９５％または９９％が、パネルの領域の少なくとも１つにおいて１またはそれを超える遺伝的変異体を示す。例えば、癌を有する集団の少なくとも８０％は、パネル内のゲノム位置の少なくとも１つにおいて１またはそれを超える遺伝的変異体を示し得る。

パネルは、１またはそれを超える遺伝子のそれぞれからの目的のゲノム領域を含む１またはそれを超える位置を含むことができる。場合によっては、パネルは、少なくとも１、２、３、４、５、６、７、８、９、１０、１５、２０、２５、３０、４０、５０または８０個の遺伝子のそれぞれからの目的のゲノム領域を含む１またはそれを超える位置を含み得る。場合によっては、パネルは、最大で１、２、３、４、５、６、７、８、９、１０、１５、２０、２５、３０、４０、５０または８０個の遺伝子のそれぞれからの目的のゲノム領域を含む１またはそれを超える位置を含み得る。場合によっては、パネルは、約１～約８０個、１～約５０個、約３～約４０個、５～約３０個、１０～約２０個の異なる遺伝子のそれぞれからの目的のゲノム領域を含む１またはそれを超える位置を含み得る。

パネル内のゲノム領域を含む位置は、１またはそれを超えるエピジェネティック修飾領域が検出されるように選択することができる。１またはそれを超えるエピジェネティック修飾領域は、アセチル化、メチル化、ユビキチン化、リン酸化、スモイル化、リボシル化および／またはシトルリン化され得る。例えば、パネル内の領域は、１またはそれを超えるメチル化領域が検出されるように選択することができる。

パネル内の領域は、それらが１またはそれを超える組織にわたって差次的に転写される配列を含むように選択することができる。場合によっては、ゲノム領域を含む位置は、他の組織と比較してより高いレベルで特定の組織において転写された配列を含み得る。例えば、ゲノム領域を含む位置は、特定の組織で転写されるが他の組織では転写されない配列を含み得る。

パネル内のゲノム位置は、コード配列および／または非コード配列を含み得る。例えば、パネル内のゲノム位置は、エクソン、イントロン、プロモーター、３’非翻訳領域、５’非翻訳領域、調節エレメント、転写開始部位、および／またはスプライス部位に１またはそれを超える配列を含み得る。場合によっては、パネル内の領域は、偽遺伝子、反復配列、トランスポゾン、ウイルスエレメントおよびテロメアを含む他の非コード配列を含み得る。場合によっては、パネル内のゲノム位置は、非コードＲＮＡ、例えばリボソームＲＮＡ、トランスファーＲＮＡ、Ｐｉｗｉ相互作用ＲＮＡ、およびマイクロＲＮＡ中の配列を含み得る。

パネル内のゲノム位置は、所望のレベルの感度（例えば、１またはそれを超える遺伝的変異体の検出を介して、）で癌を検出（診断）するように選択することができる。例えば、パネル内の領域は、少なくとも５０％、５５％、６０％、６５％、７０％、７５％、８０％、８５％、９０％、９５％、９６％、９７％、９８％、９９％、９９．５％、または９９．９％の感度で癌（例えば、１またはそれを超える遺伝的変異体の検出を介して）を検出するように選択することができる。パネル内のゲノム位置は、１００％の感度で癌を検出するように選択することができる。

パネル内のゲノム位置は、所望のレベルの特異性（例えば、１またはそれを超える遺伝的変異体の検出を介して）で癌を検出（診断）するように選択することができる。例えば、パネル内のゲノム位置は、少なくとも５０％、５５％、６０％、６５％、７０％、７５％、８０％、８５％、９０％、９５％、９６％、９７％、９８％、９９％、９９．５％または９９．９％の特異性で（例えば、１またはそれを超える遺伝的変異体の検出を介して）癌を検出するように選択することができる。パネル内のゲノム位置は、１００％の特異性で１またはそれを超える遺伝的変異体を検出するように選択することができる。

パネル内のゲノム位置は、所望の陽性予測値を有する癌を検出（診断）するように選択することができる。陽性予測値は、感度（例えば、実際の陽性が検出される可能性）および／または特異度（例えば、実際の負を正と間違えない可能性）を増加させることによって増加させることができる。非限定的な例として、パネル内のゲノム位置は、少なくとも５０％、５５％、６０％、６５％、７０％、７５％、８０％、８５％、９０％、９５％、９６％、９７％、９８％、９９％、９９．５％、または９９．９％の陽性予測値で１またはそれを超える遺伝的変異体を検出するように選択することができる。パネル内の領域は、１００％の陽性予測値で１またはそれを超える遺伝的変異体を検出するように選択することができる。

パネル内のゲノム位置は、所望の精度で癌を検出（診断）するように選択することができる。本明細書で使用される場合、「精度」という用語は、疾患症状（例えば、癌）と健康症状とを識別する試験の能力を指し得る。精度は、感度および特異度、予測値、尤度比、ＲＯＣ曲線下面積、ヨーデンの指標および／または診断オッズ比などの尺度を使用して定量化してもよい。

精度は、正しい結果を与える試験の数と実施された試験の総数との間の比を指すパーセンテージとして提示され得る。パネル内の領域は、少なくとも５０％、５５％、６０％、６５％、７０％、７５％、８０％、８５％、９０％、９５％、９６％、９７％、９８％、９９％、９９．５％、または９９．９％の精度で癌を検出するように選択することができる。パネル内のゲノム位置は、癌を１００％の精度で検出するように選択することができる。

パネルは、高感度であり、低頻度の遺伝的変異体を検出するように選択され得る。例えば、パネルは、０．０１％、０．０５％または０．００１％という低い頻度で試料中に存在する遺伝的変異体または腫瘍マーカーが、少なくとも５０％、５５％、６０％、６５％、７０％、７５％、８０％、８５％、９０％、９５％、９６％、９７％、９８％、９９％、９９．５％または９９．９％の感度で検出され得るように選択され得る。パネル内のゲノム位置は、試料中に１％またはそれ未満の頻度で存在する腫瘍マーカーを７０％またはそれを超える感度で検出するように選択され得る。パネルは、少なくとも５０％、５５％、６０％、６５％、７０％、７５％、８０％、８５％、９０％、９５％、９６％、９７％、９８％、９９％、９９．５％または９９．９％の感度で、試料中０．１％という低い頻度の腫瘍マーカーを検出するように選択され得る。パネルは、少なくとも５０％、５５％、６０％、６５％、７０％、７５％、８０％、８５％、９０％、９５％、９６％、９７％、９８％、９９％、９９．５％または９９．９％の感度で、試料中０．０１％という低い頻度の腫瘍マーカーを検出するように選択され得る。パネルは、少なくとも５０％、５５％、６０％、６５％、７０％、７５％、８０％、８５％、９０％、９５％、９６％、９７％、９８％、９９％、９９．５％または９９．９％の感度で、試料中０．００１％という低い頻度の腫瘍マーカーを検出するように選択され得る。

パネルは、高度に特異的であり、低頻度の遺伝的変異体を検出するように選択され得る。例えば、パネルは、０．０１％、０．０５％または０．００１％という低い頻度で試料中に存在する遺伝的変異体または腫瘍マーカーが、少なくとも５０％、５５％、６０％、６５％、７０％、７５％、８０％、８５％、９０％、９５％、９６％、９７％、９８％、９９％、９９．５％または９９．９％の特異性で検出され得るように選択され得る。パネル内のゲノム位置は、試料中に１％またはそれ未満頻度で存在する腫瘍マーカーを７０％またはそれを超える特異性で検出するように選択され得る。パネルは、少なくとも７０％、７５％、８０％、８５％、９０％、９５％、９６％、９７％、９８％、０．１％、９９．５％、または９９．９％の特異性で、９９％という低い頻度で試料中の腫瘍マーカーを検出するように選択され得る。パネルは、少なくとも７０％、７５％、８０％、８５％、９０％、９５％、９６％、９７％、９８％、０．０１％、９９．５％、または９９．９％の特異性で、９９％という低い頻度で試料中の腫瘍マーカーを検出するように選択され得る。パネルは、少なくとも７０％、７５％、８０％、８５％、９０％、９５％、９６％、９７％、９８％、０．００１％、９９．５％、または９９．９％の特異性で、９９％という低い頻度で試料中の腫瘍マーカーを検出するように選択され得る。

パネルは、高精度であり、低頻度の遺伝的変異体を検出するように選択され得る。パネルは、０．０１％、０．０５％、または０．００１％という低い頻度で試料中に存在する遺伝的変異体または腫瘍マーカーが、少なくとも７０％、７５％、８０％、８５％、９０％、９５％、９６％、９７％、９８％、９９％、９９．５％、または９９．９％の精度で検出され得るように選択され得る。パネル内のゲノム位置は、試料中に１％またはそれ未満の頻度で存在する腫瘍マーカーを７０％またはそれを超える精度で検出するように選択され得る。パネルは、少なくとも７０％、７５％、８０％、８５％、９０％、９５％、９６％、９７％、９８％、０．１％、９９．５％、または９９．９％の精度で、試料中の９９％という低い頻度で腫瘍マーカーを検出するように選択され得る。パネルは、少なくとも７０％、７５％、８０％、８５％、９０％、９５％、９６％、９７％、９８％、０．０１％、９９．５％、または９９．９％の精度で、試料中の９９％という低い頻度で腫瘍マーカーを検出するように選択され得る。パネルは、少なくとも７０％、７５％、８０％、８５％、９０％、９５％、９６％、９７％、９８％、０．００１％、９９．５％、または９９．９％の精度で、試料中の９９％という低い頻度で腫瘍マーカーを検出するように選択され得る。

パネルは、高度に予測的であり、低頻度の遺伝的変異体を検出するように選択され得る。パネルは、０．０１％、０．０５％、または０．００１％という低い頻度で試料中に存在する遺伝的変異体または腫瘍マーカーが、少なくとも７０％、７５％、８０％、８５％、９０％、９５％、９６％、９７％、９８％、９９％、９９．５％、または９９．９％の陽性予測値を有し得るように選択され得る。

試料内により多くの核酸分子を捕捉するために、パネルで使用されるプローブまたはベイトの濃度を増加させてもよい（２～６ｎｇ／μＬ）。パネルに使用されるプローブまたはベイトの濃度は、少なくとも２ｎｇ／μＬ、３ｎｇ／μＬ、４ｎｇ／μＬ、５ｎｇ／μＬ、６ｎｇ／μＬまたはそれを超えてもよい。プローブの濃度は、約２ｎｇ／μＬ～約３ｎｇ／μＬ、約２ｎｇ／μＬ～約４ｎｇ／μＬ、約２ｎｇ／μＬ～約５ｎｇ／μＬ、約２ｎｇ／μＬ～約６ｎｇ／μＬであり得る。パネルに使用されるプローブまたはベイトの濃度は、２ｎｇ／μＬまたはそれを超え、６ｎｇ／μＬまたはそれ未満であり得る。場合によっては、これにより、生物学的内のより多くの分子を分析することが可能になり、それにより、より低い頻度の対立遺伝子を検出することが可能になり得る。

一実施態様において、配列決定後、配列リードに品質スコアを割り当ててもよい。品質スコアは、それらの配列リードが閾値に基づくその後の分析において有用であり得るかどうかを示す配列リードの表現であり得る。場合によっては、いくつかの配列リードは、後続のマッピング工程を実施するのに十分な品質または長さではない。少なくとも９０％、９５％、９９％、９９．９％、９９．９９％または９９．９９９％の品質スコアを有する配列リードは、配列リードのデータセットから除外され得る。他の場合には、少なくとも９０％、９５％、９９％、９９．９％、９９．９９％または９９．９９９％の品質スコアが割り当てられた配列リードは、データセットから除外され得る。特定の品質スコア閾値を満たす配列リードは、参照ゲノムにマッピングされ得る。マッピングアライメントの後、配列リードにマッピングスコアを割り当てもよい。マッピングスコアは、各位置がユニークにマッピング可能であるか否かを示す、参照配列にマッピングして戻された配列リードの表現であり得る。少なくとも９０％、９５％、９９％、９９．９％、９９．９９％または９９．９９９％のマッピングスコアを有する配列リードは、データセットから除外され得る。他の場合では、９０％、９５％、９９％、９９．９％、９９．９９％または９９．９９９％未満のマッピングスコアが割り当てられた配列決定リードは、データセットから除外され得る。
癌および他の疾患

特定の実施形態において、本明細書に開示される方法および態様は、患者の所与の疾患、障害または症状を診断するために使用される。特定の実施形態において、本明細書に開示される方法および態様は、患者の長期モニタリングおよび疾患を有する対象の処置応答の追跡に使用される。典型的には、検討中の疾患は癌の一種である。そのような癌の非限定的な例としては、胆道癌、膀胱癌、移行上皮癌、尿路上皮癌、脳癌、神経膠腫、星状細胞腫、乳癌、化生性癌、子宮頸癌、子宮頸部扁平上皮癌、直腸癌、結腸直腸癌、結腸癌、遺伝性非ポリポーシス結腸直腸癌、結腸直腸腺癌、消化管間質腫瘍（ＧＩＳＴ）、子宮内膜癌、子宮内膜間質肉腫、食道癌、食道扁平上皮癌、食道腺癌、眼黒色腫、ブドウ膜黒色腫、胆嚢癌、胆嚢腺癌、腎細胞癌、淡明細胞型腎細胞癌、移行上皮癌、尿路上皮癌、ウィルムス腫瘍、白血病、急性リンパ性白血病（ＡＬＬ）、急性骨髄性白血病（ＡＭＬ）、慢性リンパ性（ＣＬＬ）、慢性骨髄性（ＣＭＬ）、慢性骨髄単球性（ＣＭＭＬ）、肝臓癌（ｌｉｖｅｒｃａｎｃｅｒ）、肝癌（ｌｉｖｅｒｃａｒｃｉｎｏｍａ）、ヘパトーマ、肝細胞癌、胆管癌、肝芽腫、肺癌、非小細胞肺癌（ＮＳＣＬＣ）、中皮腫、Ｂ細胞リンパ腫、非ホジキンリンパ腫、びまん性大細胞型Ｂ細胞リンパ腫、マントル細胞リンパ腫、Ｔ細胞リンパ腫、非ホジキンリンパ腫、前駆体Ｔリンパ芽球性リンパ腫／白血病、末梢Ｔ細胞リンパ腫、多発性骨髄腫、鼻咽頭癌（ＮＰＣ）、神経芽腫、中咽頭癌、口腔扁平上皮癌、骨肉腫、卵巣癌、膵臓癌、膵管腺癌、偽乳頭新生物、腺房細胞癌が挙げられる。前立腺癌、前立腺腺癌、皮膚癌、黒色腫、悪性黒色腫、皮膚黒色腫、小腸癌、胃癌（ｓｔｏｍａｃｈｃａｎｃｅｒ）、胃癌（ｇａｓｔｒｉｃｃａｒｃｉｎｏｍａ）、消化管間質腫瘍（ＧＩＳＴ）、子宮癌、または子宮肉腫。

本明細書に開示される方法およびシステムを使用して必要に応じて評価される他の遺伝子ベースの疾患、障害または症状の非限定的な例としては、軟骨無形成症、アルファ１－アンチトリプシン欠損症、抗リン脂質症候群、自閉症、常染色体優性多発性嚢胞腎疾患、シャルコー・マリー・トゥース（ＣＭＴ）、猫鳴き症候群、クローン病、嚢胞性線維症、デルカム病、ダウン症候群、デュアン症候群、デュシェンヌ型筋ジストロフィー、第Ｖ因子ライデン型血小板増加症、家族性高コレステロール血症、家族性髄膜熱、脆弱Ｘ症候群、ゴーシェ病、ヘモクロマトーシス、血友病、全前脳症、ハンチントン病、クラインフェルター症候群、マルファン症候群、筋緊張性ジストロフィー、神経線維腫症、ヌーナン症候群、骨形成不全症、パーキンソン病、フェニルケトン尿症、ポーランド症候群（Ｐｏｌａｎｄａｎｏｍａｌｙ）、ポルフィリン症、早老症、網膜色素変性症、重症複合免疫不全症（ｓｃｉｄ）、鎌状赤血球症、脊髄性筋萎縮症、テイ・サックス病、サラセミア、トリメチルアミン尿症、ターナー症候群、軟口蓋心顔面症候群、ＷＡＧＲ症候群、ウィルソン病などが挙げられる。
精密処置

改良されたコンピュータシステム１１０によって提供される精密診断は、コンピュータシステム１１０によって識別され得る（および／または医療専門家によって管理され得る）精密処置計画をもたらし得る。例えば、１つのタイプの精密診断および処置は、相同組換え修復（ＨＲＲ）経路における遺伝子に関連し得る。

相同組換えは、ヌクレオチド配列が２つの類似または同一のＤＮＡ分子間で交換される遺伝子組換えの一種である。二本鎖切断（ＤＳＢ）として知られる、ＤＮＡの両鎖に生じる有害な切断を正確に修復するために、細胞によって最も広く使用されている。ＨＲＲは、複製されたＤＮＡ（Ｓ期およびＧ２期）に存在する損傷を誤りなく除去して、細胞分裂が起こる前に染色体切断を排除する機構を提供する。相同組換えがＤＮＡの二本鎖切断をどのように修復するかについての主要なモデルは、二本鎖切断修復（ＤＳＢＲ）経路および合成依存性鎖アニーリング（ＳＤＳＡ）経路を媒介する相同組換え修復経路である。相同組換え遺伝子における生殖系列および体細胞性の欠損は、乳癌、卵巣癌および前立腺癌と強く関連している。

試料中の変異体ヌクレオチドの数および種類は、処置、すなわち治療的介入に試料を提供する対象の順応性の指標を提供することができる。例えば、様々なポリＡＤＰリボースポリメラーゼ（ＰＡＲＰ）阻害剤は、ＢＲＣＡ１またはＢＲＣＡ２遺伝子における遺伝性突然変異によって引き起こされる乳癌、卵巣癌および前立腺癌からの腫瘍の成長を停止させることが示されている。これらの治療薬のいくつかは塩基除去修復（ＢＥＲ）を阻害し得、これによりＨＲＲの欠損が補償され得る。

一方、特定のＢＲＣＡおよびＨＲＲ野生型患者は、ＰＡＲＰ阻害剤による処置から臨床的利益を得られない可能性がある。さらに、ＢＲＣＡ突然変異を有する全ての卵巣癌患者がＰＡＲＰ阻害剤に応答するわけではない。さらに、異なるタイプの突然変異は、異なる治療法を示し得る。例えば、ＨＲＲ遺伝子における体細胞性ヘテロ接合性欠失は、体細胞性ホモ接合性欠失とは異なる治療法を示し得る。したがって、遺伝物質の状況は治療に影響を及ぼし得る。一例では、ＰＡＲＰ阻害剤は、ＨＲＲ遺伝子に体細胞性ホモ接合性欠失を有する個体に投与され得るが、ＨＲＲ遺伝子に野生型対立遺伝子または体細胞ヘテロ接合性欠失を有する個体には投与され得ない。

いくつかの実施態様において、開示される方法のいずれかによって決定されるＨＲＤを有する対象に、標的療法を投与してもよい。標的療法は、ＰＡＲＰ阻害剤を含み得る。投与され得るＰＡＲＰ阻害剤の例としては、バリパリブ、オラパリブ、タラゾパリブ、ルカパリブ、ニラパリブ、パミパリブ、ＣＥＰ９７２２（Ｃｅｐｈａｌｏｎ）、Ｅ７０１６（Ｅｉｓａｉ）、Ｅ７４４９（Ｅｉｓａｉ、ＰＡＲＰ１／２およびタンキラーゼ１／２阻害剤）、または３－アミノベンズアミドのうちの１またはそれを超えるものが挙げられる。いくつかの実施態様において標的療法は、少なくとも１つの塩基除去修復（ＢＥＲ）阻害剤を含み得る。例えば、オラパリブはＢＥＲを抑制しうる。特定の実施態様において標的療法は、ＰＡＲＰ阻害剤と放射線療法との組み合わせを含み得る。実施態様において、ＰＡＲＰ阻害剤と放射線療法との組み合わせは、ＰＡＲＰ阻害剤が腫瘍組織における放射線療法によって作成された一本鎖切断から二本鎖切断の形成をもたらすことを可能にする（例えば、ＢＲＣＡ１／ＢＲＣＡ２突然変異を有する組織）。この組み合わせは、放射線量当たりにより強力な治療を提供することができる。
カスタマイズされた治療および関連する投与

いくつかの実施態様において本明細書に開示される方法は、所与の疾患、障害または症状を有する患者を同定し、治療を投与することに関する。本質的に、任意の癌治療（例えば、外科的治療、放射線療法、化学療法など）が、これらの方法の一部として含まれる。特定の実施態様において対象に投与される治療は、少なくとも１つの化学療法薬を含み得る。いくつかの実施態様において、化学療法薬は、アルキル化剤（例えば、限定されないが、クロラムブシル、シクロホスファミド、シスプラチンおよびカルボプラチン）、ニトロソウレア（例えば、限定されないが、カルムスチンおよびロムスチン）、代謝拮抗剤（例えば、限定されないが、フルオロウラシル、メトトレキサートおよびフルダラビン）、植物アルカロイドおよび天然物（例えば、限定されないが、ビンクリスチン、パクリタキセルおよびトポテカン）、抗腫瘍抗生物質（例えば、限定されないが、ブレオマイシン、ドキソルビシンおよびミトキサントロン）、ホルモン剤（例えば、限定されないが、プレドニゾン、デキサメタゾン、タモキシフェンおよびロイプロリド）および生物学的応答修飾因子（例えば、限定されないが、ハーセプチンおよびアバスチン、アービタックスおよびリツキサン）を含み得る。いくつかの実施態様において対象に投与される化学療法は、ＦＯＬＦＯＸまたはＦＯＬＦＩＲＩを含み得る。典型的には、療法は、少なくとも１つの免疫療法（または免疫療法剤）を含む。免疫療法は、一般に、所与の癌型に対する免疫応答を増強する方法を指す。特定の実施態様において、免疫療法は、腫瘍または癌に対するＴ細胞応答を増強する方法を指す。

いくつかの実施態様において、免疫療法剤または免疫療法剤は免疫チェックポイント分子を標的とする。特定の腫瘍は、免疫チェックポイント経路を利用することによって免疫系を回避することができる。したがって、免疫チェックポイントをターゲティングすることは、免疫系を回避する腫瘍の能力に対抗し、特定の癌に対する抗腫瘍免疫を活性化するための有効なアプローチとして浮上している。Ｐａｒｄｏｌｌ，ＮａｔｕｒｅＲｅｖｉｅｗｓＣａｎｃｅｒ，２０１２，１２：２５２－２６４．

特定の実施態様において、免疫チェックポイント分子は、抗原に対するＴ細胞応答に関与するシグナルを減少させる阻害性分子である。例えば、ＣＴＬＡ４はＴ細胞上に発現し、抗原提示細胞上のＣＤ８０（ａｋａＢ７．１）またはＣＤ８６（ａｋａＢ７．２）に結合することによってＴ細胞活性化を下方制御する役割を果たす。ＰＤ－１は、Ｔ細胞上で発現される別の阻害性チェックポイント分子である。ＰＤ－１は、炎症応答中の末梢組織におけるＴ細胞の活性を制限する。さらに、ＰＤ－１のリガンド（ＰＤ－Ｌ１またはＰＤ－Ｌ２）は、多くの異なる腫瘍の表面で一般に上方制御され、腫瘍微小環境における抗腫瘍免疫応答の下方制御をもたらす。特定の実施態様において、阻害性免疫チェックポイント分子は、ＣＴＬＡ４またはＰＤ－１である。他の実施態様において、阻害性免疫チェックポイント分子は、ＰＤ－Ｌ１またはＰＤ－Ｌ２などのＰＤ－１のリガンドである。他の実施態様において、阻害性免疫チェックポイント分子は、ＣＤ８０またはＣＤ８６などのＣＴＬＡ４のリガンドである。他の実施態様において、阻害性免疫チェックポイント分子は、リンパ球活性化遺伝子３（ＬＡＧ３）、キラー細胞免疫グロブリン様受容体（ＫＩＲ）、Ｔ細胞膜タンパク質３（ＴＩＭ３）、ガレクチン９（ＧＡＬ９）、またはアデノシンＡ２ａ受容体（Ａ２ａＲ）である。

これらの免疫チェックポイント分子を標的とするアンタゴニストを使用して、特定の癌に対する抗原特異的Ｔ細胞応答を増強することができる。したがって、特定の実施態様において、免疫療法または免疫療法剤は、阻害性免疫チェックポイント分子のアンタゴニストである。特定の実施態様において、阻害性免疫チェックポイント分子はＰＤ－１である。特定の実施態様において、阻害性免疫チェックポイント分子はＰＤ－Ｌ１である。特定の実施態様において、阻害性免疫チェックポイント分子のアンタゴニストは、抗体（例えば、モノクローナル抗体）である。特定の実施態様において、抗体またはモノクローナル抗体は、抗ＣＴＬＡ４、抗ＰＤ－１、抗ＰＤ－Ｌ１、または抗ＰＤ－Ｌ２抗体である。特定の実施態様において、抗体は、モノクローナル抗ＰＤ－１抗体である。いくつかの実施態様において、抗体はモノクローナル抗ＰＤ－Ｌ１抗体である。特定の実施態様において、モノクローナル抗体は、抗ＣＴＬＡ４抗体と抗ＰＤ－１抗体、抗ＣＴＬＡ４抗体と抗ＰＤ－Ｌ１抗体、または抗ＰＤ－Ｌ１抗体と抗ＰＤ－１抗体の組み合わせである。特定の実施態様において、抗ＰＤ－１抗体は、ペンブロリズマブ（Ｋｅｙｔｒｕｄａ（登録商標））またはニボルマブ（Ｏｐｄｉｖｏ（登録商標））のうちの１またはそれを超えるものである。特定の実施態様において、抗ＣＴＬＡ４抗体は、イピリムマブ（Ｙｅｒｖｏｙ（登録商標））である。特定の実施態様において、抗ＰＤ－Ｌ１抗体が、テゾリズマブ（Ｔｅｃｅｎｔｒｉｑ（登録商標））、アベルマブ（Ｂａｖｅｎｃｉｏ（登録商標））、またはデュルバルマブ（Ｉｍｆｉｎｚｉ（登録商標））の１またはそれを超えるものである。

特定の実施態様において、免疫療法または免疫療法剤は、ＣＤ８０、ＣＤ８６、ＬＡＧ３、ＫＩＲ、ＴＩＭ３、ＧＡＬ９またはＡ２ａＲに対するアンタゴニスト（例えば抗体）である。他の実施態様において、アンタゴニストは、阻害性免疫チェックポイント分子の可溶性バージョン、例えば阻害性免疫チェックポイント分子の細胞外ドメインおよび抗体のＦｃドメインを含む可溶性融合タンパク質である。特定の実施態様において、可溶性融合タンパク質は、ＣＴＬＡ４、ＰＤ－１、ＰＤ－Ｌ１またはＰＤ－Ｌ２の細胞外ドメインを含む。いくつかの実施態様において、可溶性融合タンパク質は、ＣＤ８０、ＣＤ８６、ＬＡＧ３、ＫＩＲ、ＴＩＭ３、ＧＡＬ９またはＡ２ａＲの細胞外ドメインを含む。一実施態様において、可溶性融合タンパク質は、ＰＤ－Ｌ２またはＬＡＧ３の細胞外ドメインを含む。

特定の実施態様において、免疫チェックポイント分子は、抗原に対するＴ細胞応答に関与するシグナルを増幅する共刺激分子である。例えば、ＣＤ２８は、Ｔ細胞上に発現される共刺激受容体である。Ｔ細胞がそのＴ細胞受容体を介して抗原に結合すると、ＣＤ２８は抗原提示細胞上のＣＤ８０（ａｋａＢ７．１）またはＣＤ８６（ａｋａＢ７．２）に結合して、Ｔ細胞受容体シグナル伝達を増幅し、Ｔ細胞活性化を促進する。ＣＤ２８はＣＴＬＡ４と同じリガンド（ＣＤ８０およびＣＤ８６）に結合するので、ＣＴＬＡ４はＣＤ２８によって媒介される共刺激シグナル伝達を打ち消すまたは調節することができる。特定の実施態様において、免疫チェックポイント分子は、ＣＤ２８、誘導性Ｔ細胞共刺激因子（ＩＣＯＳ）、ＣＤ１３７、ＯＸ４０、またはＣＤ２７から選択される共刺激分子である。他の実施態様において、免疫チェックポイント分子は、例えば、ＣＤ８０、ＣＤ８６、Ｂ７ＲＰ１、Ｂ７－Ｈ３、Ｂ７－Ｈ４、ＣＤ１３７Ｌ、ＯＸ４０Ｌ、またはＣＤ７０を含む共刺激分子のリガンドである。

これらの共刺激チェックポイント分子を標的とするアゴニストは、特定の癌に対する抗原特異的Ｔ細胞応答を増強するために使用することができる。したがって、特定の実施態様において、免疫療法または免疫療法剤は、共刺激チェックポイント分子のアゴニストである。特定の実施態様において、共刺激チェックポイント分子のアゴニストはアゴニスト抗体であり、好ましくはモノクローナル抗体である。特定の実施態様において、アゴニスト抗体またはモノクローナル抗体が抗ＣＤ２８抗体である。他の実施態様において、アゴニスト抗体またはモノクローナル抗体は、抗ＩＣＯＳ、抗ＣＤ１３７、抗ＯＸ４０、または抗ＣＤ２７抗体である。他の実施態様において、アゴニスト抗体またはモノクローナル抗体は、抗ＣＤ８０、抗ＣＤ８６、抗Ｂ７ＲＰ１、抗Ｂ７－Ｈ３、抗Ｂ７－Ｈ４、抗ＣＤ１３７Ｌ、抗ＯＸ４０Ｌ、または抗ＣＤ７０抗体である。

癌以外の特定の遺伝子ベースの疾患、障害、または症状を処置するための治療選択肢は、一般に当業者に周知であり、考慮中の特定の疾患、障害、または症状を考慮すると明らかであろう。

特定の実施態様において、本明細書に記載のカスタマイズされた療法は、典型的には非経口的に（例えば、静脈内または皮下）施される。免疫療法剤を含有する医薬組成物は、典型的には静脈内投与される。特定の治療薬は、経口投与される。しかしながら、カスタマイズされた療法（例えば、免疫療法剤など）も、例えば、頬側、舌下、直腸、膣、尿道内、局所、眼内、鼻腔内、および／または耳内を含む当技術分野で公知の任意の方法によって施され得、投与には、錠剤、カプセル剤、顆粒剤、水性懸濁剤、ゲル剤、スプレー剤、坐剤、膏薬、軟膏などが含まれ得る。

図１１は、マシン可読媒体（例えば、マシン可読記憶媒体）から命令を読み取り、本明細書で説明する１またはそれを超える方法のうちのいずれかを実施することができる、いくつかの例示的な実施態様による、マシン１１００のコンポーネントを示すブロック図である。具体的には、図１１は、コンピュータシステムの例示的な形態のマシン１１００の概略図を示し、その中で、マシン１１００に本明細書で説明する１またはそれを超える方法のうちのいずれかを実施させるための命令１１０２（例えば、ソフトウェア、プログラム、アプリケーション、アプレット、アプリ、または他の実行可能コード）を実施させてもよい。したがって、命令１１０２を使用して、本明細書に記載のモジュールまたはコンポーネントを実施することができる。命令１１０２は、一般的なプログラムされていないマシン１１００を行うようにプログラムされた特定のマシン１１００に変換する。代替の実施態様において、マシン１１００は、スタンドアロンデバイスとして動作するか、または他のマシンに結合されてもよい（例えば、ネットワーク接続されてもよい）。ネットワーク化された配置では、マシン１１００は、サーバ－クライアントネットワーク環境におけるサーバマシンまたはクライアントマシンの能力で、またはピアツーピア（または分散）ネットワーク環境におけるピアマシンとして動作することができる。マシン１１００は、限定されないが、サーバコンピュータ、クライアントコンピュータ、パーソナルコンピュータ（ＰＣ）、タブレットコンピュータ、ラップトップコンピュータ、ネットブック、セットトップボックス（ＳＴＢ）、携帯情報端末（ＰＤＡ）、娯楽メディアシステム、携帯電話、スマートフォン、モバイルデバイス、ウェアラブルデバイス（例えば、スマートウォッチ）、スマートホームデバイス（例えば、スマートアプライアンス）、他のスマートデバイス、ウェブアプライアンス、ネットワークルータ、ネットワークスイッチ、ネットワークブリッジ、またはマシン１１００によって行われるべき動作を指定する命令１１０２を順次または他の方法で実行することができる任意のマシンを含み得る。さらに、単一のマシン１１００のみが示されているが、「マシン」という用語はまた、本明細書で説明される１またはそれを超える方法のうちいずれかを実施するために命令１１０２を個別にまたは共同で実行するマシンの集合を含むと解釈されるべきである。

マシン１１００は、プロセッサ１１０４、メモリ／ストレージ１１０６、およびＩ／Ｏコンポーネント１１０８のコンポーネント１１０８を含むことができ、これらはバス１１１０等を介して互いに通信するように構成することができる。例示的な実施態様では、プロセッサ１１０４（例えば、中央処理装置（ＣＰＵ）、縮小命令セットコンピューティング（ＲＩＳＣ）プロセッサ、複合命令セットコンピューティング（ＣＩＳＣ）プロセッサ、グラフィックス処理装置（ＧＰＵ）、デジタル信号プロセッサ（ＤＳＰ）、特定用途向け集積回路（ＡＳＩＣ）、無線周波数集積回路（ＲＦＩＣ）、別のプロセッサ、またはそれらの任意の適切な組み合わせ）は、例えば、命令１１０２を実行し得るプロセッサ１１１２およびプロセッサ１１１４を含み得る。「プロセッサ」という用語は、同時に命令１１０２を実行することができる２またはそれを超える独立したプロセッサ（「コア」と呼ばれることもある）を備えることができるマルチコアプロセッサ１１０４を含むことを意図している。図１１１は複数のプロセッサ１１０４を示しているが、マシン１１００は、単一のコアを有する単一のプロセッサ１１１２プロセッサ１１１２、複数のコア（例えば、マルチコアプロセッサ）を有する単一のプロセッサ１１１２プロセッサ１１１２、単一のコアを有する複数のプロセッサ１１１２、１１１４、複数のコアを有する複数のプロセッサ１１１２、１１１４、またはそれらの任意の組み合わせを含むことができる。

メモリ／ストレージ１１０６は、両方ともバス１１１０等を介してプロセッサ１１０４にアクセス可能な、メインメモリ１１１６等のメモリ、または他のメモリストレージ、および記憶ユニット１１１８を含むことができる。記憶ユニット１１１８およびメインメモリ１１１６は、本明細書に記載の１またはそれを超える方法または機能のうちのいずれかを具現化する命令１１０２を記憶する。命令１１０２はまた、マシン１１００によるその実行中に、メインメモリ１１１６内、記憶ユニット１１１８内、プロセッサ１１０４の少なくとも一方内（例えば、プロセッサのキャッシュメモリ内）、またはそれらの任意の適切な組み合わせ内に、完全にまたは部分的に存在してもよい。したがって、メインメモリ１１１６、記憶ユニット１１１８、およびプロセッサ１１０４のメモリは、マシン可読媒体の例である。

Ｉ／Ｏコンポーネント１１０８のコンポーネント１１０８は、入力を受信し、出力を提供し、出力を生成し、情報を送信し、情報を交換し、測定値を取得する等のための多種多様なコンポーネントを含むことができる。特定のマシン１１００に含まれる特定のＩ／Ｏコンポーネント１１０８のコンポーネント１１０８は、マシンの種類に依存する。例えば、携帯電話等の携帯機は、タッチ入力デバイスまたは他のそのような入力機構を含む可能性が高いが、ヘッドレスサーバ機は、そのようなタッチ入力デバイスを含まない可能性が高い。Ｉ／Ｏコンポーネント１１０８のコンポーネント１１０８は、図１０には示されていない多くの他のコンポーネントを含むことができることが理解されよう。Ｉ／Ｏコンポーネント１１０８のコンポーネント１１０８は、単に以下の説明を単純化するために機能に従ってグループ化され、グループ化は決して限定的ではない。様々な例示的な実施態様において、Ｉ／Ｏコンポーネント１１０８のコンポーネント１１０８は、ユーザ出力コンポーネント１１２０およびユーザ入力コンポーネント１１２２を含むことができる。ユーザ出力コンポーネント１１２０は、視覚コンポーネント（例えば、プラズマディスプレイパネル（ＰＤＰ）、発光ダイオード（ＬＥＤ）ディスプレイ、液晶ディスプレイ（ＬＣＤ）、プロジェクタ、または陰極線管（ＣＲＴ）等のディスプレイ）、音響コンポーネント（例えば、スピーカ）、触覚コンポーネント（例えば、振動モータ、抵抗機構）、他の信号発生器等を含むことができる。ユーザ入力コンポーネント１１２２は、英数字入力コンポーネント（例えば、キーボード、英数字入力を受け取るように構成されたタッチスクリーン、光キーボード（ｐｈｏｔｏ－ｏｐｔｉｃａｌ）、または他の英数字入力コンポーネント）、ポイントベースの入力コンポーネント（例えば、マウス、タッチパッド、トラックボール、ジョイスティック、モーションセンサ、または他のポインティング機器）、触覚入力コンポーネント（例えば、物理的ボタン、タッチもしくはタッチジェスチャの位置もしくは力を提供するタッチスクリーン、または他の触知入力コンポーネント）、音声入力コンポーネント（例えば、マイクロフォン）等を含むことができる。

更なる例示的な実施態様において、Ｉ／Ｏコンポーネント１１０８のコンポーネント１１０８は、バイオメトリクスコンポーネント１１２４、運動コンポーネント１１２６、環境コンポーネント１１２８、または位置コンポーネント１１３０を含むことができる。例えば、バイオメトリクスコンポーネント１１２４は、表情の検出（例えば、手の表情、顔の表情、声の表情、身体のジェスチャ、または視線追跡）、生体信号の測定（例えば、血圧、心拍数、体温、発汗、または脳波）、人物の識別（例えば、音声識別、網膜識別、顔識別、指紋識別、または脳波ベースの識別）等を行うための成分を含んでもよい。運動コンポーネント１１２６は、加速度センサコンポーネント（例えば、加速度計）、重力センサコンポーネント、回転センサコンポーネント（例えば、ジャイロスコープ）等を含むことができる。環境コンポーネント１１２８は、例えば、照度センサコンポーネント（例えば、光度計）、温度センサコンポーネント（例えば、周囲温度を検出する１またはそれを超える温度計）、湿度センサコンポーネント、圧力センサコンポーネント（例えば、気圧計）、音響センサコンポーネント（例えば、バックグラウンドノイズを検出する１またはそれを超えるマイクロフォン）、近接センサコンポーネント（例えば、近くの物体を検出する赤外線センサ）、ガスセンサ（例えば、安全のために有害ガスの濃度を検出するため、または大気中の汚染物質を測定するためのガス検出センサ）、または周囲の物理的環境に対応する指示、測定値、もしくは信号を提供することができる他のコンポーネントを含むことができる。位置コンポーネント１１３０は、位置センサコンポーネント（例えば、ＧＰＳ受信機コンポーネント）、高度センサコンポーネント（例えば、高度を導出することができる空気圧を検出する高度計または気圧計）、方位センサコンポーネント（例えば、磁力計）等を含むことができる。

通信は、多種多様な技術を使用して実装され得る。Ｉ／Ｏコンポーネント１１０８のコンポーネント１１０８は、マシン１１００をネットワーク１１３４またはデバイス１１３６に結合するように動作可能な通信コンポーネント１１３２を含むことができる。例えば、通信コンポーネント１１３２は、ネットワーク１１３４とインターフェースするためのネットワークインターフェースコンポーネントまたは他の適切なデバイスを含むことができる。更なる例では、通信コンポーネント１１３２は、有線通信コンポーネント、無線通信コンポーネント、セルラ通信コンポーネント、近距離通信（ＮＦＣ）コンポーネント、Ｂｌｕｅｔｏｏｔｈ（登録商標）コンポーネント（例えば、Ｂｌｕｅｔｏｏｔｈ（登録商標）ＬｏｗＥｎｅｒｇｙ）、Ｗｉ－Ｆｉ（登録商標）コンポーネント、および他のモダリティを介した通信を提供するための他の通信コンポーネントを含み得る。デバイス１１３６は、別のマシン１１００または多種多様な周辺デバイス（例えば、ＵＳＢを介して結合された周辺デバイス）のいずれかであってもよい。

さらに、通信コンポーネント１１３２は、識別子を検出し得るか、または識別子を検出するように動作可能なコンポーネントを含み得る。例えば、通信コンポーネント１１３２は、無線周波数識別（ＲＦＩＤ）タグリーダコンポーネント、ＮＦＣスマートタグ検出コンポーネント、光学リーダコンポーネント（例えば、ユニバーサル製品コード（ＵＰＣ）バーコード等の一次元バーコード、クイックレスポンス（ＱＲ）コード、Ａｚｔｅｃコード、データマトリックス、データグリフ、ＭａｘｉＣｏｄｅ、ＰＤＦ４１７、ウルトラコード、ＵＣＣＲＳＳ－２Ｄバーコード等の多次元バーコード、および他の光学コードを検出するための光学センサ）、または音響検出コンポーネント（例えば、タグ付けされたオーディオ信号を識別するためのマイクロフォン）を含むことができる。さらに、インターネットプロトコル（ＩＰ）ジオロケーションによる位置、Ｗｉ－Ｆｉ（登録商標）信号三角測量による位置、特定の位置を示し得るＮＦＣビーコン信号の検出による位置等、様々な情報が通信コンポーネント１１３２を介して導出され得る。

本明細書で使用される場合、「コンポーネント」は、特定の処理または制御機能のパーティションまたはモジュール化を提供する機能またはサブルーチン呼び出し、分岐点、ＡＰＩ、または他の技術によって定義された境界を有するデバイス、物理的実体、または論理を指す。コンポーネントは、マシンプロセスを実施するために、それらのインターフェースを介して他のコンポーネントと組み合わせることができる。コンポーネントは、他のコンポーネントおよび関連する機能の特定の機能を通常実施するプログラムの一部と共に使用するように設計されたパッケージ化された機能ハードウェアユニットであってもよい。コンポーネントは、ソフトウェアコンポーネント（例えば、マシン可読媒体上で具現化されたコード）またはハードウェアコンポーネントのいずれかを構成し得る。「ハードウェアコンポーネント」は、特定の動作を実施することができる有形の単位であり、特定の物理的方法で構成または配置され得る。様々な例示的な実施態様において１またはそれを超えるコンピュータシステム（例えば、独立型コンピュータシステム、クライアントコンピュータシステム、またはサーバコンピュータシステム）またはコンピュータシステム（例えば、プロセッサまたはプロセッサのグループ）の１またはそれを超えるハードウェアコンポーネントは、本明細書に記載の特定の動作を実施するように動作するハードウェアコンポーネントとしてソフトウェア（例えば、アプリケーションまたはアプリケーション部分）によって構成されてもよい。

ハードウェアコンポーネントはまた、マシン的に、電子的に、またはそれらの任意の適切な組み合わせで実装されてもよい。例えば、ハードウェアコンポーネントは、特定の動作を実施するように永続的に構成された専用の回路または論理を含むことができる。ハードウェアコンポーネントは、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）またはＡＳＩＣ等の専用プロセッサであってもよい。ハードウェアコンポーネントはまた、特定の動作を実施するようにソフトウェアによって一時的に構成されるプログラマブル論理または回路を含むことができる。例えば、ハードウェアコンポーネントは、汎用プロセッサ１１０４または他のプログラマブルプロセッサによって実行されるソフトウェアを含むことができる。そのようなソフトウェアによって構成されると、ハードウェアコンポーネントは、構成された機能を実施するように独自に調整された特定のマシン（またはマシン１１００の特定のコンポーネント）になり、もはや汎用プロセッサ１１０４ではない。ハードウェアコンポーネントをマシン的に、専用の恒久的に構成された回路で、または一時的に構成された回路（例えば、ソフトウェアによって構成される）で実装する決定は、コストおよび時間の考慮によって決定され得ることが理解されよう。したがって、「ハードウェアコンポーネント」（または「ハードウェア実装コンポーネント」）という語句は、特定の方法で動作するか、または本明細書に記載の特定の動作を実施するように物理的に構築されるか、恒久的に構成される（例えば、ハードワイヤード）か、または一時的に構成される（例えば、プログラムされている）エンティティである有形のエンティティを包含すると理解されるべきである。ハードウェアコンポーネントが一時的に構成される実施態様（例えば、プログラムされている）を考慮すると、ハードウェアコンポーネントの各々は、いかなる時でも構成またはインスタンス化される必要はない。例えば、ハードウェアコンポーネントが、専用プロセッサになるようにソフトウェアによって構成された汎用プロセッサ１１０４を含む場合、汎用プロセッサ１１０４は、異なる時点でそれぞれ異なる専用プロセッサ（例えば、異なるハードウェアコンポーネントを含む）として構成されてもよい。したがって、ソフトウェアは、例えば、ある時点で特定のハードウェアコンポーネントを構成し、異なる時点で異なるハードウェアコンポーネントを構成するように、特定のプロセッサ１１１２、プロセッサ１１１２、１１１４、またはプロセッサ１１０４を構成する。

ハードウェアコンポーネントは、他のハードウェアコンポーネントに情報を提供し、他のハードウェアコンポーネントから情報を受信することができる。したがって、記載されたハードウェアコンポーネントは、通信可能に結合されていると見なされてもよい。複数のハードウェアコンポーネントが同時に存在する場合、通信は、ハードウェアコンポーネントのうちの２またはそれを超えるものの間の信号伝送（例えば、適切な回路およびバスを介して）によって達成され得る。複数のハードウェアコンポーネントが異なる時間に構成またはインスタンス化される実施態様では、そのようなハードウェアコンポーネント間の通信は、例えば、複数のハードウェアコンポーネントがアクセスするメモリ構造内の情報の記憶および検索によって達成され得る。例えば、１つのハードウェアコンポーネントは、動作を実施し、その動作の出力を、それが通信可能に結合されているメモリデバイスに記憶することができる。その後、更なるハードウェアコンポーネントは、記憶された出力を取り出して処理するためにメモリデバイスにアクセスすることができる。

ハードウェアコンポーネントはまた、入力または出力デバイスとの通信を開始することができ、リソース（例えば、情報の集合）上で動作することができる。本明細書に記載された例示的な方法の様々な動作は、関連する動作を実施するように一時的に（例えば、ソフトウェアによって）または恒久的に構成された１またはそれを超えるプロセッサ１１０４によって、少なくとも部分的に実施され得る。一時的にまたは恒久的に構成されるかにかかわらず、そのようなプロセッサ１１０４は、本明細書に記載の１またはそれを超える動作または機能を実施するように動作するプロセッサ実装コンポーネントを構成し得る。本明細書で使用される場合、「プロセッサ実装コンポーネント」は、１またはそれを超えるプロセッサ１１０４を使用して実装されるハードウェアコンポーネントを指す。同様に、本明細書に記載の方法は、少なくとも部分的にプロセッサ実装されてもよく、特定のプロセッサ１１１２、プロセッサ１１１２、１１１４、またはプロセッサ１１０４は、ハードウェアの一例である。例えば、方法の動作の少なくとも一部は、１またはそれを超えるプロセッサ１１０４またはプロセッサ実装コンポーネントによって実施されてもよい。さらに、１またはそれを超えるプロセッサ１１０４は、「クラウドコンピューティング」環境または「サービスとしてのソフトウェア」（ＳａａＳ）として関連動作の実施をサポートするように動作してもよい。例えば、動作の少なくとも一部は、（プロセッサ１１０４を含むマシン１０００の例として）コンピュータのグループによって実施されてもよく、これらの動作は、ネットワーク１１３４（例えば、インターネット）および１またはそれを超える適切なインターフェース（例えば、ＡＰＩ）を介してアクセス可能である。特定の動作の実施は、単一のマシン１１００内に存在するだけでなく、いくつかのマシンにわたって展開されたプロセッサ間で分散されてもよい。いくつかの例示的な実施態様において、プロセッサ１１０４またはプロセッサ実装コンポーネントは、単一の地理的位置（例えば、家庭環境、オフィス環境、またはサーバファーム内）に配置されてもよい。他の例示的な実装において、プロセッサ１１０４またはプロセッサ実装コンポーネントは、複数の地理的位置にわたって分散されてもよい。

図１２は、本明細書で説明される様々なハードウェアアーキテクチャと共に使用され得る例示的なソフトウェアアーキテクチャ１２０２を含むシステム１２００を示すブロック図である。図１２は、ソフトウェアアーキテクチャの非限定的な例であり、本明細書に記載の機能を容易にするために多くの他のアーキテクチャが実装され得ることが理解されよう。ソフトウェアアーキテクチャ１２０２は、とりわけ、プロセッサ１１０４、メモリ／ストレージ１１０６、および入出力（Ｉ／Ｏ）コンポーネント１１０８を含む図１１のマシン１１００等のハードウェア上で実行し得る。代表的なハードウェアレイヤ１２０４が示されており、例えば図１１のマシン１１００を表すことができる。代表的なハードウェアレイヤ１２０４は、関連する実行可能命令１２０８を有する処理ユニット１２０６を含む。実行可能命令１２０８は、本明細書に記載の方法、コンポーネント等の実装を含む、ソフトウェアアーキテクチャ１２０２の実行可能命令を表す。ハードウェアレイヤ１２０４はまた、実行可能命令１２０８も有するメモリまたは記憶モジュールメモリ／記憶装置１２１０の少なくとも一方を含む。ハードウェアレイヤ１２０４はまた、他のハードウェア１２１２を備えてもよい。

図１２の例示的なアーキテクチャでは、ソフトウェアアーキテクチャ１２０２は、各レイヤが特定の機能を提供するレイヤのスタックとして概念化することができる。例えば、ソフトウェアアーキテクチャ１２０２は、オペレーティングシステム１２１４、ライブラリ１２１６、フレームワーク／ミドルウェア１２１８、アプリケーション１２２０、およびプレゼンテーションレイヤ１２２２等のレイヤを含むことができる。動作上、アプリケーション１２２０またはレイヤ内の他のコンポーネントは、ソフトウェアスタックを介してＡＰＩ呼び出し１２２４を呼び出し、ＡＰＩ呼び出し１２２４に応答してメッセージ１２２６を受信することができる。図示されたレイヤは本質的に代表的なものであり、全てのソフトウェアアーキテクチャが全てのレイヤを有するわけではない。例えば、一部のモバイルまたは専用オペレーティングシステムはフレームワーク／ミドルウェア１２１８を提供しない場合があるが、他のものはそのようなレイヤを提供することができる。他のソフトウェアアーキテクチャは、追加のレイヤまたは異なるレイヤを含んでもよい。

オペレーティングシステム１２１４は、ハードウェアリソースを管理し、共通サービスを提供することができる。オペレーティングシステム１２１４は、例えば、カーネル１２２８、サービス１２３０、およびドライバ１２３２を含むことができる。カーネル１２２８は、ハードウェアと他のソフトウェアレイヤとの間の抽象化レイヤとして機能することができる。例えば、カーネル１２２８は、メモリ管理、プロセッサ管理（例えば、スケジューリング）、コンポーネント管理、ネットワーキング、セキュリティ設定等を担当することができる。サービス１２３０は、他のソフトウェアレイヤに他の共通サービスを提供することができる。ドライバ１２３２は、基礎となるハードウェアの制御またはインターフェースを担当する。例えば、ドライバ１２３２は、ハードウェア構成に応じて、ディスプレイドライバ、カメラドライバ、Ｂｌｕｅｔｏｏｔｈ（登録商標）ドライバ、フラッシュメモリドライバ、シリアル通信ドライバ（例えば、ユニバーサルシリアルバス（ＵＳＢ）ドライバ）、Ｗｉ－Ｆｉ（登録商標）ドライバ、オーディオドライバ、電力管理ドライバ等を含む。

ライブラリ１２１６は、アプリケーション１２２０、他のコンポーネント、またはレイヤのうちの少なくとも１つによって使用される共通のインフラストラクチャを提供する。ライブラリ１２１６は、他のソフトウェアコンポーネントが、基礎となるオペレーティングシステム１２１４の機能（例えば、カーネル１２２８、サービス１２３０、ドライバ１２３２）と直接インターフェースするよりも容易な方法でタスクを実施することを可能にする機能を提供する。ライブラリ１２１６は、メモリ割り当て関数、文字列操作関数、数学関数等の関数を提供することができるシステムライブラリ１２３４（例えば、Ｃ標準ライブラリ）を含むことができる。さらに、ライブラリ１２１６は、メディアライブラリ（例えば、ＭＰＥＧ４、Ｈ．２６４、ＭＰ３、ＡＡＣ、ＡＭＲ、ＪＰＧ、ＰＮＧ等の様々なメディアフォーマットの提示および操作をサポートするライブラリ）、グラフィックスライブラリ（例えば、ディスプレイ上のグラフィックコンテンツにおいて２次元および３次元をレンダリングするために使用され得るＯｐｅｎＧＬフレームワーク）、データベースライブラリ（例えば、様々なリレーショナルデータベース機能を提供することができるＳＱＬｉｔｅ）、ウェブライブラリ（例えば、ウェブブラウジング機能を提供することができるＷｅｂＫｉｔ）等のＡＰＩライブラリ１２３６を含むことができる。ライブラリ１２１６はまた、アプリケーション１２２０および他のソフトウェアコンポーネント／モジュールに多くの他のＡＰＩを提供するための多種多様な他のライブラリ１２３８を含むことができる。

フレームワーク／ミドルウェア１２１８（ミドルウェアとも呼ばれるは、アプリケーション１２２０または他のソフトウェアコンポーネント／モジュールによって使用され得る高レベルの共通インフラストラクチャを提供する。例えば、フレームワーク／ミドルウェア１２１８は、様々なグラフィカルユーザインターフェース機能、高レベルリソース管理、高レベルロケーションサービス等を提供することができる。フレームワーク／ミドルウェア１２１８は、アプリケーション１２２０または他のソフトウェアコンポーネント／モジュールによって利用され得る広範囲の他のＡＰＩを提供することができ、その一部は特定のオペレーティングシステム１２１４またはプラットフォームに固有であり得る。

アプリケーション１２２０は、内蔵アプリケーション１２４０およびサードパーティアプリケーション１２４２を含む。代表的な内蔵アプリケーション１２４０の例は、連絡先アプリケーション、ブラウザアプリケーション、書籍リーダアプリケーション、ロケーションアプリケーション、メディアアプリケーション、メッセージングアプリケーション、またはゲームアプリケーションを含むことができるが、これらに限定されない。サードパーティアプリケーション１２４２は、特定のプラットフォームのベンダ以外のエンティティによってＡＮＤＲＯＩＤ（登録商標）またはＩＯＳ（商標）ソフトウェア開発キット（ＳＤＫ）を使用して開発されたアプリケーションを含んでもよく、ＩＯＳ（商標）、ＡＮＤＲＯＩＤ（登録商標）、ＷＩＮＤＯＷＳ（登録商標）Ｐｈｏｎｅ、または他のモバイルオペレーティングシステム等のモバイルオペレーティングシステム上で実行されるモバイルソフトウェアであってもよい。サードパーティアプリケーション１２４２は、本明細書に記載された機能を容易にするために、モバイル・オペレーティング・システム（オペレーティングシステム１２１４等）によって提供されるＡＰＩ呼び出し１２２４を呼び出すことができる。

アプリケーション１２２０は、内蔵オペレーティングシステム機能（例えば、カーネル１２２８、サービス１２３０、ドライバ１２３２）、ライブラリ１２１６、およびフレームワーク／ミドルウェア１２１８を使用して、システムのユーザと対話するＵＩを作成することができる。代替的または追加的に、いくつかのシステムでは、ユーザとの対話は、プレゼンテーションレイヤ１２２２等のプレゼンテーションレイヤを介して行われてもよい。これらのシステムでは、アプリケーション／コンポーネント「論理」を、ユーザと対話するアプリケーション／コンポーネントの態様から分離することができる。

本明細書で説明されるプロセスの少なくともいくつかを、プロセスの動作が１またはそれを超えるコンピュータシステムの機能コンポーネントによって部分的または全体的に実施され得るように、１またはそれを超えるプロセッサによって実施するためのコンピュータ可読命令で具現化することができる。したがって、本明細書で説明されるコンピュータ実装プロセスは、いくつかの状況では、例として、それを参照している。しかしながら、他の実施態様において本明細書に記載のコンピュータ実装プロセスの動作の少なくとも一部は、様々な他のハードウェア構成に展開することができる。したがって、本明細書に記載のコンピュータ実装プロセスは、図１１および図１２に関して説明したシステムおよび構成に限定されることを意図するものではなく、全体的にまたは部分的に、１またはそれを超える追加のシステムおよび／またはコンポーネントによって実装することができる。

本明細書に記載のフローチャートは、動作を順次プロセスとして示すことができるが、動作の多くは、並行してまたは同時に実施することができる。さらに、動作の順序を並べ替えることができる。プロセスは、その動作が完了すると終了する。プロセスは、方法、手順、アルゴリズム等に対応することができる。方法の動作は、全体的または部分的に実施されてもよく、他の方法における動作の一部または全部と併せて実施されてもよく、本明細書に記載のシステム等の任意の数の異なるシステム、またはシステムのいずれかに含まれるプロセッサ等のその任意の部分によって実施されてもよい。

実施例
実施例１
標的化ゲノム領域およびオフターゲットゲノム領域の両方の分子カバレッジを同時に正規化するために確率モデルを利用して、系統的カバレッジバイアスを緩和した。モデルは、１００ｋを超える臨床無細胞ＤＮＡ（ｃｆＤＮＡ）患者試料（ＧｕａｒｄａｎｔＨｅａｌｔｈ、カリフォルニア州）の大規模データベースからのシーケンシングデータによって知らされた。

一貫したコピー数のセグメント化された領域を、循環バイナリセグメント化を利用して同定した。各セグメント内の生殖系列ＳＮＰのオン／オフターゲット領域のカバレッジおよび対立遺伝子頻度を組み込んだ確率モデルを、ＥＭアルゴリズムを使用して当てはめた。複合確率モデルは、遺伝子レベルの体細胞性ＣＮＡ、遺伝子の機能喪失またはゲノムワイド不安定性／ＬｏＨの予測を可能にする。

既存のデータで観察されたカバレッジおよび突然変異体対立遺伝子割合（ＭＡＦ）変動性を使用して、サイズ４０Ｍｂの領域の欠失および増幅を有するデータセットをシミュレートした。既存のデータを、液体生検の結果から得た。シミュレーション研究は、「オン＋オフターゲット」モデルを「オンターゲット」のみのモデル性能と比較するために、低レベルの増幅および欠（１～４コピー）の検出における感度を比較した。図１３Ａは、４０Ｍｂサイズ領域に対するオンターゲットデータとオフターゲットデータの組み合わせの使用に関してのみ、オンターゲットデータを使用して増幅が起こる場合にコピー数が「３」または欠失が起こった場合に「１」である状況でのヘテロ接合性の喪失についての検出限界（ＬｏＤ）の差を示す。オンターゲットデータのみの使用に関してオンターゲットデータとオフターゲットデータの両方が使用される場合、これらの状況で感度を少なくとも約２０％改善することができる。

図１３Ｂは、４０Ｍｂサイズ領域に対するオンターゲットデータとオフターゲットデータの組み合わせの使用に関連してのみオンターゲットデータを使用して、増幅が起こるときにコピー数が「４」であるか、ホモ接合性欠失について「０」コピーである状況でのヘテロ接合性の喪失についてのＬｏＤの差を示す。オンターゲットデータのみの使用に関してオンターゲットデータとオフターゲットデータの両方が使用される場合、これらの状況で感度を少なくとも約１０％改善することができる。４０Ｍｂサイズ領域についてのＬＯＨ／３コピーまたはｈｏｍｄｅｌ／４コピーの検出におけるＬｏＤ。注：コピー数変化の検出における感度は、腫瘍細胞コピー数だけでなく、変化したゲノム領域のサイズの関数であり、ターゲティングパネルにあまり依存しなくなる。
実施例２

図１４は、種々のタイプの癌についての予測される腫瘍割合に関する最大突然変異体対立遺伝子割合（ＭＡＦ）のプロットを示す。予測腫瘍割合は、ＭＬＥモデルのパラメータであるゲノムセグメントの組織コピー数を用いた最尤推定（ＭＬＥ）モデルを使用する本明細書に記載の技術に基づく。高い一致は、ドライバが頻繁にパネルに含まれる癌型で観察された。ＣＲＣ試料（Ｒ^２＝０．７５）、胃癌（Ｒ^２＝０．６３）および膀胱癌（Ｒ^２＝０．６）は、ドライバ突然変異がターゲティングパネルに示されていない場合のｃｆＤＮＡにおける腫瘍脱落レベルをより良好に推定するためのこのメトリクスの使用を示唆する。分析には、様々な癌型の６，０００個超の癌試料が含まれ、最も高い対立遺伝子割合を有する体細胞性コールは、所与の癌型に対する既知のドライバ突然変異である。
実施例３

図１５は、既存の技術を使用したヒト白血球抗原（ＨＬＡ）に関連する６番染色体のゲノム領域における観察された欠失を示す。ＨＬＡ領域における観察された欠失は、５Ｍｂ～６０Ｍｂの間で変動する。

本発明者らは、ＨＬＡＬＯＨを特徴付けることがネオアンチゲン予測を改良し、ネオアンチゲンを標的とする耐性機構および免疫療法アプローチの理解に影響を及ぼし得ることを観察した。ヒト白血球抗原におけるヘテロ接合性の喪失の予測は、ＧｕａｒｄａｎｔＯＭＮＩ（登録商標）ＲＵＯで処理した異なる癌型の１５，６１８人の癌患者由来の試料に本明細書に記載のモデリングアプローチを適用することによって行った。

図１７は、様々な癌型におけるＨＬＡＬｏＨの有病率を示す。膀胱癌、前立腺癌、ＮＳＣＬＣおよびＨＮＳＣにおけるＨＬＡにおけるＬｏＨの高い有病率（１５％超）が観察され、ＨＬＡＬＯＨが免疫療法の有効性を低下させるいくつかの癌型の共通の特徴であるという以前の研究と一致している。
実施例４

図１８は、ＭＡＦの逆数を決定し、次いでＬｏｇｂａｓｅ２変換を適用することによって改変されるいくつかの異なるゲノム位置でのヘテロ接合一塩基多型（ＳＮＰ）の突然変異体対立遺伝子割合の例を示す。特に、１８００は、参照配列のそれぞれのゲノム位置におけるいくつかのＳＮＰについての突然変異体対立遺伝子割合を示す。図１８に示されるＳＮＰの少なくとも一部分は、参照配列の標的領域に対応し得る。ヘテロ接合ＳＮＰは、対立遺伝子平衡ベースラインを下回るように最初に調整される。すなわち、ＭＡＦ値がベースライン値を下回るとき、それはその元の値として保持され、ＭＡＦがベースライン値を上回る場合、（１－ＭＡＦ）×（ベースライン／０．５）となるように下方に反転される。このプロセスの結果を１８０２に示す。次いで、調整されたＭＡＦをｌｏｇ２変換し、０．５の元の対立遺伝子平衡ＭＡＦがここで０になるように１だけ上方にシフトさせる。ログベース２変換の結果を１８０４に示す。

図１９は、図１８に示す変換されたＳＮＰＭＡＦデータを使用した、コピー数（シアン等の第１の色のセグメントとして示されている）に基づくセグメント化プロセスの改良例を示す。セグメント化プロセス（青色等の第２の色のセグメントとして示されている）の改良は、参照配列のセグメントに対するコピー数の推定の精度の向上をもたらし得る。例えば、１９００は、カバレッジデータのみを使用する循環バイナリセグメント化（ＣＢＳ）プロセスの第１の実施態様の結果を示す。いくつかの状況では、ＣＢＳプロセスの結果は、カバレッジデータのみに基づいてＣＢＳプロセスを使用して決定されたセグメントに基づいてコピー数および／または腫瘍割合を決定するときに、ある量の不正確さをもたらし得るデータノイズを生成し得る。１９０２は、１９００に示すＣＢＳプロセスの実施態様の結果に適用することができる図１８の１８０４に示すログベース２変換の結果を示す。カバレッジデータのみのＣＢＳプロセス、また１９０２に示すデータからの結果を入力として使用してＣＢＳプロセスの追加の実施態様を実施することによって、ＣＢＳプロセスを使用したセグメント化の精度を向上させることができる。

Claims

方法であって、
それぞれが１またはそれを超えるプロセッサおよびメモリを有する１またはそれを超えるコンピューティングデバイスを含むコンピューティングシステムによって、試料に含まれるポリヌクレオチド分子に関する配列表示を示す配列データを取得することと、
前記コンピューティングシステムによって、参照ヒトゲノムの一部分に関して少なくとも閾値量の相同性を有する１またはそれを超える前記配列表示を決定するアラインメントプロセスを実施することによって、アラインメントされた配列表示のセットを生成することと、
前記コンピューティングシステムによって前記参照ヒトゲノムの標的領域に対応しないアラインメントされた配列表示の数の第１の部分を同定することによってオフターゲット配列表示のセットを決定することと、
前記コンピューティングシステムによって前記参照ヒトゲノムの前記標的領域に対応する前記アラインメントされた配列表示の数の第２の部分を同定することによって、オンターゲット配列表示のセットを決定することと、
前記コンピューティングシステムによって前記参照ヒトゲノムの第１のセグメントを決定することであって、前記第１のセグメントが前記標的領域を含まないことと、
前記コンピューティングシステムによって、前記個々の第１のセグメントに対応するオフターゲット配列表示のセットのそれぞれのサブセットに基づいて個々の第１のセグメントに対する第１の定量的尺度を決定することと、
前記コンピューティングシステムによって、前記個々の第１のセグメントの追加の定量的尺度に関して前記個々の第１のセグメントの第１の正規化された定量的尺度を決定することと、
前記コンピューティングシステムによって、前記個々の第１のセグメントの参照定量的尺度に対して個々の第１の正規化された定量的尺度を調整することによって、前記個々の第１のセグメントの第２の正規化された定量的尺度を決定することと、
前記コンピューティングシステムによって、前記参照ヒトゲノムの第２のセグメントを決定することであって、個々の第２のセグメントが、前記個々の第１のセグメントよりも多数のヌクレオチドを含み、複数の前記個々の第１のセグメントを含むことと、
前記コンピューティングシステムによって、前記個々の第２のセグメントに含まれる前記それぞれの複数の個々の第１のセグメントの前記第１の正規化された定量的尺度および前記第２の正規化された定量的尺度に基づいて、個々の第２のセグメントに対する第２の定量的尺度を決定することと、
前記コンピューティングシステムによって、前記個々の第２のセグメントに対応する個々の第２の定量的尺度に基づいて、前記個々の第２のセグメントに関する腫瘍細胞のコピー数の推定値を決定することと、を含む、方法。
前記第１の定量的尺度が、前記個々の第１のセグメントに対応する前記試料に含まれる前記ポリヌクレオチド分子のそれぞれの数に基づいて決定される、請求項１に記載の方法。
前記第１の定量的尺度が、前記個々の第１のセグメントに対応する前記試料に由来する配列決定リードのそれぞれの数に基づいて決定される、請求項１に記載の方法。
前記追加の定量的尺度が、前記第１のセグメントに対する配列表示の中央数に対応する、請求項１～３のいずれか１項に記載の方法。
前記第２のセグメントを決定する前に、
前記コンピューティングシステムによって、個々の第１のセグメントに対応する前記オフターゲット配列表示のセットの一部分に含まれるグアニンヌクレオチドおよびシトシンヌクレオチドの数を示すグアニンシトシン（ＧＣ）含有量を決定することと、
前記コンピューティングシステムによって、前記個々の第１のセグメント内のＧＣコンテンツの複数のパーティションからＧＣ含有量のパーティションに対応する配列表示の頻度を決定することであって、ＧＣ含有量の前記複数のパーティションのＧＣ含有量の各パーティションは、ＧＣ含有量の値の異なる範囲に対応することと、
前記コンピューティングシステムによって、前記個々の第１のセグメント内のＧＣ含有量の前記複数のパーティションに対応する配列表示の頻度に基づいて、前記個々の第１のセグメントに対する予想される定量的尺度を決定することと、
前記コンピューティングシステムによって、前記個々の第１のセグメントの前記予想される定量的尺度に基づいて、前記個々の第１のセグメントのＧＣ正規化された定量的尺度を決定することと、を含む、請求項１～４のいずれか１項に記載の方法。
前記第２のセグメントを決定する前に、
前記コンピューティングシステムによって、個々の第１のセグメントにおける各配列表示についてのマッピング可能性スコアを決定することであって、前記マッピング可能性スコアが、前記ヒト参照ゲノムの複数の部分間の相同性の量を示し、前記ヒト参照ゲノムの前記複数の部分のうちの前記ヒト参照ゲノムの各部分が、前記ヒト参照ゲノムの前記複数の部分のうちの前記ヒト参照ゲノムの追加の部分と少なくとも閾値量の相同性を有することと、
前記コンピューティングシステムによって前記個々の第１のセグメントにおけるマッピング可能性スコアの複数のパーティションからのマッピング可能性スコアのパーティションに対応する配列表示の頻度を決定することであって、マッピング可能性スコアの前記複数のパーティションのマッピング可能性スコアの各パーティションが、マッピング可能性スコアの値の異なる範囲に対応することと、
前記コンピューティングシステムによって、前記個々の第１のセグメント内のマッピング可能性スコアの前記複数のパーティションに対応する配列表示の頻度に基づいて、前記個々の第１のセグメントに対する予想される定量的尺度を決定することと、
前記コンピューティングシステムによって、前記個々の第１のセグメントの前記予想される定量的尺度に基づいて、前記個々の第１のセグメントのマッピング可能性スコア－正規化定量的尺度を決定することと、を含む、請求項５に記載の方法。
前記コンピューティングシステムによって個々の第１のセグメントに対応する配列表示が、標的領域と少なくとも閾値量の相同性を有すると決定することと、
前記コンピューティングシステムによって、前記個々の第１のセグメントの第１の定量的尺度が、前記個々の第２のカバレッジメトリクスを決定することから除外されると決定することと、を含む、請求項１に記載の方法。
前記コンピューティングシステムによって、訓練試料から得られた追加のポリヌクレオチド分子の追加の配列表示を示す訓練配列データを取得することであって、前記訓練試料が、コピー数の変化が検出されない個体から得られる、訓練試料から得られた追加のポリヌクレオチド分子の追加の配列表示を示すことと、
前記コンピューティングシステムによって、前記参照ヒトゲノムの一部分に関して少なくとも閾値量の相同性を有する１またはそれを超える前記追加の配列表示を決定する追加のアラインメントプロセスを実施することによって、いくつかのアラインメントされた参照配列表示を作成することと、
前記コンピューティングシステムによって前記参照ヒトゲノムの前記標的領域に対応しない追加のアラインメントされた配列表示の数の部分を同定することによってオフターゲット配列表示の追加のセットを決定することと、
前記コンピューティングシステムによって、前記個々の第１のセグメントに含まれる前記オフターゲット配列表示の前記追加のセットの数に基づいて前記個々の第１のセグメントに対する個々の参照定量的尺度を決定することと、を含む、請求項１～７のいずれか１項に記載の方法。
前記コンピューティングシステムによって、個々の標的領域に対応するオンターゲット配列表示の前記セットに含まれる前記オンターゲット配列表示のそれぞれの数を決定することと、
前記コンピューティングシステムによって、前記個々の標的領域に対応する前記オンターゲット配列表示のそれぞれの数に基づいて、前記個々の標的領域に対する個々の更なる定量的尺度を決定することと、を含み、
前記試料に関連する腫瘍細胞の前記コピー数の前記推定値が、前記個々の更なる定量的尺度に基づく、請求項１～８のいずれか１項に記載の方法。
前記参照ヒトゲノムの前記第２のセグメントが、前記個々の標的領域に対応する前記個々の追加の定量的尺度に基づいて決定される、請求項９に記載の方法。
前記第１の定量的尺度が、前記個々の第１のセグメントの第１のサイズ分布メトリクスを含み、前記第１の正規化された定量的尺度または前記第２の正規化された定量的尺度のうちの少なくとも１つが、正規化されたサイズ分布メトリクスに対応し、前記参照定量的尺度が、参照サイズ分布メトリクスであり、前記第２の定量的尺度が、前記個々の第２のセグメントの第２のサイズ分布メトリクスを含む、請求項１～１０のいずれか１項に記載の方法。
前記コンピューティングシステムによって、前記個々の第１のセグメントの配列表示のための個々のサイズ分布メトリクスを生成するために、前記個々の第１のセグメントに対応する個々の配列表示に含まれるヌクレオチドの数を決定することであって、前記サイズ分布が、配列表示のサイズのそれぞれの範囲にそれぞれ対応する複数のパーティションを含み、個々の第１のセグメントについての個々のサイズ分布メトリクスが、前記複数のパーティションの各パーティションに対応する、前記第１のセグメントに含まれるオフターゲット配列表示のセットの数を示す、前記個々の第１のセグメントに対応することと、
前記コンピューティングシステムによって、参照サイズ分布メトリクスに関する前記個々の第１のサイズ分布メトリクスに従って前記個々の第１のセグメントの前記正規化されたサイズ分布メトリクスを決定することと、
前記コンピューティングシステムによって、前記個々の第２のセグメントに含まれる前記それぞれの複数の個々の第１のセグメントの前記正規化されたサイズ分布メトリクスに基づいて前記個々の第２のセグメントについての前記第２のサイズ分布メトリクスを決定することと、
前記コンピューティングシステムによって、前記個々の第２のセグメントに対応する前記個々の第２のサイズ分布メトリクスに基づいて、前記個々の第２のセグメントに関する腫瘍細胞の前記コピー数の追加の推定値を決定することと、を含む、請求項１１に記載の方法。
前記第１の定量的尺度が、個々の第１のセグメントの第１のカバレッジメトリクスを含み、前記第１の正規化された定量的尺度が、第１の正規化されたカバレッジメトリクスに対応し、前記第２の正規化された定量的尺度が、第２の正規化されたカバレッジメトリクスに対応し、前記参照定量的尺度が、参照カバレッジメトリクスであり、前記第２の定量的尺度が、前記個々の第２のセグメントの第２のカバレッジメトリクスを含む、請求項１～１２のいずれか１項に記載の方法。
前記コンピューティングシステムによって、前記個々の第１のセグメントの前記個々の第１のカバレッジメトリクスを生成するために、個々の第１のセグメントに対応する前記配列表示の数を決定することと、
前記コンピューティングシステムによって、前記個々の第１のカバレッジメトリクスに従って前記個々の第１のセグメントの前記第１の正規化されたカバレッジメトリクスを決定することと、
前記コンピューティングシステムによって、前記参照カバレッジメトリクスに関する、前記個々の第１のカバレッジメトリクスに従って前記個々の第１のセグメントの前記第２の正規化されたカバレッジメトリクスを決定することと、
前記コンピューティングシステムによって、前記第１の正規化されたカバレッジメトリクスおよび前記第２の正規化されたカバレッジメトリクスに基づいて前記個々の第２のセグメントの前記第２のカバレッジメトリクスを決定することと、を含み、
個々の第２のセグメントに関する腫瘍細胞の前記コピー数の前記推定値が、前記個々の第２のセグメントに対応する前記個々の第２のカバレッジメトリクスに基づく、請求項１３に記載の方法。
前記定量的尺度が、個々の第１のセグメントの第１のサイズ分布メトリクスおよび第１のカバレッジメトリクスを含み、
前記第１の正規化された定量的尺度および前記第２の正規化された定量的尺度が、正規化されたサイズ分布メトリクスまたは正規化されたカバレッジメトリクスのうちの少なくとも１つに対応し、
前記参照定量的尺度が、参照サイズ分布メトリクスおよび参照カバレッジメトリクスを含み、
前記第２の定量的尺度が、前記個々の第２のセグメントの第２のサイズ分布メトリクスおよび第２のカバレッジメトリクスを含む、請求項１～１４のいずれか１項に記載の方法。
前記コンピューティングシステムによって、前記個々の第１のセグメントに対応する個々の配列表示に含まれるヌクレオチドの数を決定することによって、個々の配列表示のサイズを決定することと、
前記コンピューティングシステムによって、前記個々の配列表示の前記それぞれのサイズに基づいて、前記個々の第１のセグメントの前記第１のサイズ分布メトリクスを生成することであって、前記サイズ分布が、配列表示のサイズのそれぞれの範囲にそれぞれ対応する複数のパーティションを含み、個々の第１のセグメントについての個々のサイズ分布メトリクスが、前記複数のパーティションの各パーティションに対応する、前記第１のセグメントに含まれるオフターゲット配列表示のセットの数を示すことと、
前記コンピューティングシステムによって、前記参照サイズ分布メトリクスに関する前記個々の第１のサイズ分布メトリクスに従って前記個々の第１のセグメントの前記正規化されたサイズ分布メトリクスを決定することと、
前記コンピューティングシステムによって、前記個々の第２のセグメントに含まれる前記それぞれの複数の個々の第１のセグメントの前記正規化されたサイズ分布メトリクスに基づいて前記個々の第２のセグメントについての前記第２のサイズ分布メトリクスを決定することと、を含む、請求項１５に記載の方法。
前記コンピューティングシステムによって、前記個々の第１のセグメントの前記個々の第１のカバレッジメトリクスを生成するために、個々の第１のセグメントに対応する前記配列表示の数を決定することと、
前記コンピューティングシステムによって、前記個々の第１のカバレッジメトリクスに従って前記個々の第１のセグメントの前記第１の正規化されたカバレッジメトリクスを決定することと、
前記コンピューティングシステムによって、前記参照カバレッジメトリクスに関する、前記個々の第１のカバレッジメトリクスに従って前記個々の第１のセグメントの前記第２の正規化されたサイズ分布メトリクスを決定することと、
前記コンピューティングシステムによって、前記第１の正規化されたカバレッジメトリクスおよび前記第２の正規化されたカバレッジメトリクスに基づいて前記個々の第２のセグメントの前記第２のカバレッジメトリクスを決定することと、を含む、請求項１６に記載の方法。
個々の第２のセグメントに関する腫瘍細胞の前記コピー数の前記推定値が、前記コンピューティングシステムによって前記第２のサイズ分布メトリクスに基づいて個々の第２のセグメントに対する腫瘍細胞の前記コピー数の第１の推定値と、前記第２のカバレッジメトリクスに基づいて個々の第２のセグメントに対する腫瘍細胞の前記コピー数の第２の推定値とを決定することによって作成される、個々の第２のセグメントに関する腫瘍細胞の前記コピー数の総推定値である、請求項１７に記載の方法。
前記コンピューティングシステムによって、前記試料に関連する突然変異体対立遺伝子の数に対する前記試料に関連する野生型対立遺伝子の数の比を決定することと、
前記コンピューティングシステムによって、前記比に基づいてヘテロ接合一塩基多型（ＳＮＰ）メトリクスを決定することと、を含む、請求項１～１８のいずれか１項に記載の方法。
前記コンピューティングシステムによって、前記ＳＮＰメトリックに基づいて前記試料の前記腫瘍割合の追加の推定値を決定することと、
前記コンピューティングシステムによって、前記ＳＮＰメトリックに基づいて、前記試料に関連する腫瘍細胞のコピー数の追加の推定値を決定することと、を含む、請求項１９にきさいの方法。
前記コンピューティングシステムによって、前記試料に関連する前記腫瘍細胞の前記コピー数の前記推定値を作成する尤度関数に対応するモデルのパラメータを決定することを含み、
前記モデルの前記パラメータが、個々の第２のセグメントに対する腫瘍細胞のコピー数の前記個々の推定値の少なくとも一部分に対応し、前記試料の腫瘍割合の前記推定値に対応する、請求項１～２０のいずれか１項に記載の方法。
前記モデルの前記パラメータが、１またはそれを超えるＳＮＰメトリクスに対応し、前記１またはそれを超えるＳＮＰメトリクスの個々のＳＮＰメトリクスが、野生型対立遺伝子の数に対する突然変異体対立遺伝子の数のそれぞれの比に関連する、請求項２１に記載の方法。
個々の第１のセグメントの少なくとも一部分が、参照ヒトゲノムの約３０，０００ヌクレオチド～約１５０，０００ヌクレオチドを含む、請求項１～２２のいずれか１項に記載の方法。
前記個々の第２のセグメントの少なくとも一部分が、参照ヒトゲノムの少なくとも約１００万ヌクレオチド～約１０００万ヌクレオチドを含み、
前記第２のセグメントが、１またはそれを超える循環バイナリセグメント化プロセスによって決定される、請求項１～２５のいずれか１項に記載の方法。
前記試料が、前記対象の組織に由来する、請求項１～２４のいずれか１項に記載の方法。
前記試料が、前記対象から得られた流体に由来する、請求項１～２５のいずれか１項に記載の方法。
前記コンピューティングシステムによって、前記個々の第２の定量的メトリクススに基づいて前記試料の腫瘍割合の推定値を決定することを含む、請求項１～２６のいずれか１項に記載の方法。
前記試料の前記腫瘍割合の前記推定値および個々の第２のセグメントに対する腫瘍細胞の前記コピー数の前記推定値が、
観察された定量的尺度＝２＊（１－ＴＦ）＋ｎ＊ＴＦ（式中、ｎは腫瘍細胞コピー数であり、ＴＦは試料の腫瘍割合である）に基づいて決定され、
前記観察された定量的尺度が、前記第２の定量的尺度の少なくとも一部分を含む、請求項１～２７のいずれか１項に記載の方法。
前記コンピューティングシステムによって、個々の第１のセグメントに対応し、１またはそれを超える一塩基多型（ＳＮＰ）に対応する前記配列表示の数を決定することと、
前記コンピューティングシステムによって、前記個々のＳＮＰに対応する配列表示の前記数に基づいて、前記個々のＳＮＰに対する突然変異体対立遺伝子割合を決定することと、を含む、請求項１～２８のいずれか１項に記載の方法。
前記参照ヒトゲノムの第２のセグメントが、前記個々の第１のセグメントについての突然変異体対立遺伝子割合に基づいて決定される、請求項２９に記載の方法。
前記１またはそれを超えるＳＮＰが、ヘテロ接合生殖系列ＳＮＰに対応する、請求項２９または請求項３０に記載の方法。
前記１またはそれを超えるＳＮＰが、１またはそれを超える癌のタイプに対するドライバ突然変異に対応する、請求項２９～３１のいずれか１項に記載の方法。
前記コンピューティングシステムによって、前記参照ヒトゲノムの前記第２のセグメントの第１の推定値を決定するために、前記第２の正規化された定量的尺度に基づいて循環バイナリセグメント化プロセスの第１の実施態様を実施することと、
前記コンピューティングシステムによって、前記参照ヒトゲノムの前記第２のセグメントの第２の推定値を決定するために、前記個々の第１のセグメントの前記突然変異体対立遺伝子割合に基づいて、前記循環バイナリセグメント化プロセスの第２の実施態様を実施することと、を含む、請求項２９～３２のいずれか１項に記載の方法。
方法であって、
それぞれが１またはそれを超えるプロセッサおよびメモリを有する１またはそれを超えるコンピューティングデバイスを含むコンピューティングシステムによって、試料に含まれるポリヌクレオチド分子の配列表示を示す配列データを取得することと、
前記コンピューティングシステムによって、参照ヒトゲノムの一部分に関して少なくとも閾値量の相同性を有する１またはそれを超える配列表示を決定するアラインメントプロセスを行うことによって、いくつかのアラインメントされた配列表示を作成することと、
前記コンピューティングシステムによって、前記参照ヒトゲノムの標的領域に対応しないアラインメントされた配列表示の数の部分を同定することによってオフターゲット配列表示のセットを決定することと、
前記コンピューティングシステムによって、複数のセグメント化プロセスを実施して、前記参照ヒトゲノムのセグメントの数を決定することと、
前記コンピューティングシステムによって、前記個々のセグメントに対応する前記オフターゲット配列表示のセットの一部分に基づいて、前記参照ヒトゲノムの前記個々のセグメントについての個々の定量的尺度を決定することと、
前記コンピューティングシステムによって、前記個々の定量的メトリクス、個々のセグメントに対応する腫瘍細胞のコピー数の前記複数の推定値の個々の推定値に基づいて、前記試料に関連する腫瘍細胞のコピー数の複数の推定値を決定することと、を含む、方法。
前記複数のセグメント化プロセスが、
前記コンピューティングシステムによって前記参照ヒトゲノムの第１のセグメントを決定することであって、前記第１のセグメントが前記標的領域を含まないことを含む、第１のセグメント化プロセス、および
前記コンピューティングシステムによって、前記参照ヒトゲノムの第２のセグメントを決定することであって、個々の第２のセグメントが、前記個々の第１のセグメントよりも多数のヌクレオチドを含み、複数の前記個々の第１のセグメントを含むことを含む第２のセグメント化プロセスを含む、請求項３４に記載の方法。
前記個々の定量的尺度が、個々のカバレッジメトリクスに対応し、前記方法が、
前記コンピューティングシステムによって、前記参照ヒトゲノムの個々の第１のセグメントの個々についての第１のカバレッジメトリクスを、前記個々の第１のセグメントに含まれるオフターゲットポリヌクレオチド配列表示のセットの数に基づいて決定することと、
前記コンピューティングシステムによって、前記個々の第１のカバレッジメトリクスに従って個々の第１のセグメントの正規化されたカバレッジメトリクスを決定することと、
前記コンピューティングシステムによって、前記個々の第２のセグメントに含まれる前記それぞれの複数の個々のセグメントの前記正規化されたカバレッジメトリクスに基づいて、前記参照ヒトゲノムの個々の第２のセグメントの個々についての第２のカバレッジメトリクスを決定することと、を含む、請求項３５に記載の方法。
前記正規化されたカバレッジメトリクスが、
前記コンピューティングシステムによって、前記個々の第１のセグメントの配列表示の中央数に関する前記個々の第１のカバレッジメトリクスに基づいて、前記個々の第１のセグメントに対する第１の正規化された定量的尺度を決定することにより決定される、請求項３６に記載の方法。
前記コンピューティングシステムによって、前記個々の第１のセグメントの参照カバレッジメトリクスに関する前記個々のカバレッジメトリクスに基づいて、前記個々の第１のセグメントの第２の正規化された定量的尺度を決定することであって、前記参照カバレッジメトリクスが、コピー数多型が検出されない個体から得られた試料に基づいて決定される、前記個々の第１のセグメントの第２の正規化された定量的尺度を決定することと、
前記コンピューティングシステムによって、前記個々の第１のセグメントに対する前記第２の正規化カバレッジメトリクスに関して個々の第１の正規化された定量的尺度を調整することと、を含む、
請求項３７に記載の方法。
前記試料に関連する腫瘍細胞の前記コピー数の推定値が、個々の第２のカバレッジメトリクスに基づく、請求項３６に記載の方法。
前記個々の定量的尺度が個々のサイズ分布メトリクスに対応し、前記方法が、
前記コンピューティングシステムによって、個々の第１のセグメントの個々の第１のサイズ分布メトリクスを決定することであって、前記サイズ分布が、配列表示のサイズのそれぞれの範囲にそれぞれ対応する複数のパーティションを含み、個々の第１のセグメントについての個々のサイズ分布メトリクスが、前記複数のパーティションの各パーティションに対応する、前記第１のセグメントに含まれるオフターゲット配列表示のセットの数を示す、個々の第１のセグメントの個々の第１のサイズ分布メトリクスを決定することと、
前記コンピューティングシステムによって、参照サイズ分布メトリクスに関する個々の第１のサイズ分布メトリクスに従って個々の第１のセグメントの正規化されたサイズ分布メトリクスを決定することと、
前記コンピューティングシステムによって、前記個々の第２のセグメントに含まれる前記それぞれの複数の個々の第１のセグメントの前記正規化されたサイズ分布メトリクスに基づいて、前記参照ヒトゲノムの個々の第２のセグメントについての個々の第２のサイズ分布メトリクスを決定することと、を含む、請求項３４に記載の方法。
前記試料に関連する腫瘍細胞の前記コピー数の推定値が、個々の第２のサイズ分布メトリクスに基づく、請求項４０に記載の方法。
前記コンピューティングシステムによって、前記試料に関連する突然変異体対立遺伝子の数に対する前記試料に関連する野生型対立遺伝子の数の比を決定することと、
前記コンピューティングシステムによって、前記比に基づいてヘテロ接合一塩基多型（ＳＮＰ）メトリクスを決定することと、を含む、請求項３４～４１のいずれか１項に記載の方法。
前記コンピューティングシステムによって，前記ＳＮＰメトリックに基づいて、前記試料に関連する腫瘍細胞のコピー数の追加の推定値を決定することを含む、請求項４２に記載の方法。
前記コンピューティングシステムによって、前記個々の定量的尺度に基づいて前記試料の腫瘍割合の推定値を決定することを含む、請求項３４～４３のいずれか１項に記載の方法。
腫瘍細胞の前記コピー数および前記試料の前記腫瘍割合についての前記推定値が、
観察された定量的尺度＝２＊（１－ＴＦ）＋ｎ＊ＴＦ（式中、ｎは腫瘍細胞コピー数であり、ＴＦは試料の腫瘍割合である）
に基づいて決定され、前記観察された定量的尺度が、前記定量的尺度の少なくとも一部分を含む、請求項４４に記載の方法。
方法であって、各々が１またはそれを超えるプロセッサおよびメモリを有する１またはそれを超えるコンピューティングデバイスを含むコンピューティングシステムによって、試料に由来するポリヌクレオチド分子に基づくいくつかの配列決定リードを含むシーケンシングデータを取得することと、
前記コンピューティングシステムによって、前記参照ヒトゲノムの一部分に関して少なくとも閾値量の相同性を有する前記配列決定リードの数の１またはそれを超える部分を決定するアラインメントプロセスを実施することによって、アラインメントされた配列決定リードの数を作成することと、
前記コンピューティングシステムによって、前記参照ヒトゲノムの前記標的領域に対応しないアラインメントされた配列リードの数の部分を同定することによってオフターゲット配列リードのセットを決定することと、
前記コンピューティングシステムによって、複数のセグメント化プロセスを実施して、前記参照ヒトゲノムのセグメントの数を決定することと、
前記コンピューティングシステムによって、前記個々のセグメントに対応する前記オフターゲット配列決定リードのセットに基づいて、前記参照ヒトゲノムの前記個々のセグメントについての定量的尺度を決定することと、
前記コンピューティングシステムによって、前記個々の定量的尺度、個々のセグメントに対応する腫瘍細胞のコピー数の前記複数の推定値の個々の推定値に基づいて、前記試料に関連する腫瘍細胞のコピー数の複数の推定値を決定することと、を含む、方法。
前記複数のセグメント化プロセスが、
前記コンピューティングシステムによって、前記参照ヒトゲノムの第１のセグメントを決定することであって、前記第１のセグメントが前記標的領域を含まないことを含む、第１のセグメント化プロセス、および
前記コンピューティングシステムによって、前記参照ヒトゲノムの第２のセグメントを決定することであって、個々の第２のセグメントが、前記個々の第１のセグメントよりも多数のヌクレオチドを含み、複数の前記個々の第１のセグメントを含むことを含む第２のセグメント化プロセスを含む、請求項４６に記載の方法。
前記個々の定量的尺度が、個々のカバレッジメトリクスに対応し、前記方法が、
前記コンピューティングシステムによって、前記個々の第１のセグメントに含まれるオフターゲット配列決定リードの前記セットの数に基づいて、個々の第１のセグメントの個々の第１のカバレッジメトリクスを決定することと、
前記コンピューティングシステムによって、個々の第１のカバレッジメトリクスに従って個々の第１のセグメントの正規化されたカバレッジメトリクスを決定することと、
前記コンピューティングシステムによって、前記個々の第２のセグメントに含まれる前記それぞれの複数の個々のセグメントの前記正規化されたカバレッジメトリクスに基づいて、個々の第２のセグメントの個々の第２のカバレッジメトリクスを決定することと、を含む、請求項４７に記載の方法。
前記正規化されたカバレッジメトリクスが、
前記コンピューティングシステムによって、前記個々の第１のセグメントに関連する配列決定リードの中央数に関する前記個々の第１のカバレッジメトリクスに基づいて、前記個々の第１のセグメントに対する第１の正規化された定量的尺度を決定することにより決定される、請求項４８に記載の方法。
前記コンピューティングシステムによって、前記個々の第１のセグメントの参照カバレッジメトリクスに関する前記個々のカバレッジメトリクスに基づいて、前記個々の第１のセグメントの第２の正規化された定量的尺度を決定することであって、前記参照カバレッジメトリクスが、コピー数多型が検出されない個体から得られた試料に基づいて決定される、前記個々の第１のセグメントの第２の正規化された定量的尺度を決定することと、
前記コンピューティングシステムによって、前記個々の第１のセグメントに対する前記第２の正規化カバレッジメトリクスに関して個々の第１の正規化された定量的尺度を調整することと、を含む、
請求項４９に記載の方法；
前記試料に関連する腫瘍細胞の前記コピー数の推定値が、個々の第２のカバレッジメトリクスに基づく、請求項４８に記載の方法。
前記個々の定量的尺度が個々のサイズ分布メトリクスに対応し、前記方法が、
前記コンピューティングシステムによって、個々の第１のセグメントの個々の第１のサイズ分布メトリクスを決定することであって、前記サイズ分布が、配列決定リードのサイズのそれぞれの範囲にそれぞれ対応する複数のパーティションを含み、個々の第１のセグメントについての個々のサイズ分布メトリクスが、前記複数のパーティションの各パーティションに対応する、前記第１のセグメントに含まれるオフターゲット配列決定リードのセットの数を示す、個々の第１のセグメントの個々の第１のサイズ分布メトリクスを決定することと、
前記コンピューティングシステムによって、参照サイズ分布メトリクスに関する個々の第１のサイズ分布メトリクスに従って個々の第１のセグメントの正規化されたサイズ分布メトリクスを決定することと、
前記コンピューティングシステムによって、前記個々の第２のセグメントに含まれる前記それぞれの複数の個々の第１のセグメントの前記正規化されたサイズ分布メトリクスに基づいて、前記参照ヒトゲノムの個々の第２のセグメントについての個々の第２のサイズ分布メトリクスを決定することと、を含む、請求項４６に記載の方法。
前記試料に関連する腫瘍細胞の前記コピー数の推定値が、個々の第２のサイズ分布メトリクスに基づく、請求項５２に記載の方法。
前記コンピューティングシステムによって、前記試料に関連する突然変異体対立遺伝子の数に対する前記試料に関連する野生型対立遺伝子の数の比を決定することと、
前記コンピューティングシステムによって、前記比に基づいてヘテロ接合一塩基多型（ＳＮＰ）メトリクスを決定することと、を含む、請求項４６に記載の方法。
前記コンピューティングシステムによって、前記ＳＮＰメトリックに基づいて、前記試料に関連する腫瘍細胞のコピー数の追加の推定値を決定することを含む、請求項５４に記載の方法。
前記コンピューティングシステムによって、前記個々の定量的尺度に基づいて前記試料の腫瘍割合の推定値を決定することを含む、請求項４６に記載の方法。
腫瘍細胞の前記コピー数および前記試料の前記腫瘍割合についての前記推定値が、
観察された定量的尺度＝２＊（１－ＴＦ）＋ｎ＊ＴＦ（式中、ｎは腫瘍細胞コピー数であり、ＴＦは試料の腫瘍割合である）
に基づいて決定され、
前記観察された定量的尺度が、前記定量的尺度の少なくとも一部分を含む、請求項５６に記載の方法。
方法であって、
それぞれが１またはそれを超えるプロセッサおよびメモリを有する１またはそれを超えるコンピューティングデバイスを含むコンピューティングシステムによって、試料に含まれるポリヌクレオチド分子示すシーケンシングデータを取得することと、
前記コンピューティングシステムによって、参照ヒトゲノムの一部分に関して少なくとも閾値量の相同性を有する１またはそれを超えるポリヌクレオチド分子を決定するアラインメントプロセスを実施することによって、いくつかのアラインメントされたポリヌクレオチド分子を作成することと、
前記コンピューティングシステムによって、前記参照ヒトゲノムの標的領域に対応しないアラインメントされたポリヌクレオチド分子数の部分を同定することによってオフターゲットポリヌクレオチド分子のセットを決定することと、
前記コンピューティングシステムによって、複数のセグメント化プロセスを実施して、前記参照ヒトゲノムのセグメントの数を決定することと、
前記コンピューティングシステムによって、前記個々のセグメントに対応する前記オフターゲットポリヌクレオチド分子のセットの一部分に基づいて、前記参照ヒトゲノムの前記個々のセグメントについての定量的尺度を決定することと、
前記コンピューティングシステムによって、前記個々の定量的尺度、個々のセグメントに対応する腫瘍細胞のコピー数の前記複数の推定値の個々の推定値に基づいて、前記試料に関連する腫瘍細胞のコピー数の複数の推定値を決定することと、を含む方法。
前記複数のセグメント化プロセスが、
前記コンピューティングシステムによって、前記参照ヒトゲノムの第１のセグメントを決定することであって、前記第１のセグメントが前記標的領域を含まないことを含む、第１のセグメント化プロセス、および
前記コンピューティングシステムによって、前記参照ヒトゲノムの第２のセグメントを決定することであって、個々の第２のセグメントが、前記個々の第１のセグメントよりも多数のヌクレオチドを含み、複数の前記個々の第１のセグメントを含むことを含む第２のセグメント化プロセスを含む、請求項５８に記載の方法。
前記個々の定量的尺度が、個々のカバレッジメトリクスに対応し、前記方法が、
前記コンピューティングシステムによって、前記個々の第１のセグメントに含まれるオフターゲットポリヌクレオチド分子のセットの数に基づいて、個々の第１のセグメントの個々の第１のカバレッジメトリクスを決定することと、
前記コンピューティングシステムによって、個々の第１のカバレッジメトリクスに従って個々の第１のセグメントの正規化されたカバレッジメトリクスを決定することと、
前記コンピューティングシステムによって、前記個々の第２のセグメントに含まれる前記それぞれの複数の個々のセグメントの前記正規化されたカバレッジメトリクスに基づいて、個々の第２のセグメントの個々の第２のカバレッジメトリクスを決定することと、を含む、請求項５９に記載の方法。
前記正規化されたカバレッジメトリクスが、
前記コンピューティングシステムによって、前記個々の第１のセグメントに関連するポリヌクレオチド分子の中央数に関する前記個々の第１のカバレッジメトリクスに基づいて、前記個々の第１のセグメントに対する第１の正規化された定量的尺度を決定することにより決定される、請求項６０に記載の方法。
前記コンピューティングシステムによって、前記個々の第１のセグメントの参照カバレッジメトリクスに関する前記個々のカバレッジメトリクスに基づいて、前記個々の第１のセグメントの第２の正規化された定量的尺度を決定することであって、前記参照カバレッジメトリクスが、コピー数多型が検出されない個体から得られた試料に基づいて決定される、前記個々の第１のセグメントの第２の正規化された定量的尺度を決定することと、
前記個々の第１のセグメントに対する前記第２の正規化カバレッジメトリクスに関して個々の第１の正規化された定量的尺度を調整することと、を含む、
請求項６１に記載の方法。
前記試料に関連する腫瘍細胞の前記コピー数の推定値が、個々の第２のカバレッジメトリクスに基づく、請求項６２に記載の方法。
前記個々の定量的尺度が個々のサイズ分布メトリクスに対応し、前記方法が、
前記コンピューティングシステムによって、個々の第１のセグメントの個々の第１のサイズ分布メトリクスを決定することであって、前記サイズ分布が、ポリヌクレオチド分子のサイズのそれぞれの範囲にそれぞれ対応する複数のパーティションを含み、個々の第１のセグメントについての個々のサイズ分布メトリクスが、前記複数のパーティションの各パーティションに対応する、前記第１のセグメントに含まれるオフターゲットポリヌクレオチド分子のセットの数を示す、個々の第１のセグメントの個々の第１のサイズ分布メトリクスを決定することと、
前記コンピューティングシステムによって、参照サイズ分布メトリクスに関する個々の第１のサイズ分布メトリクスに従って個々の第１のセグメントの正規化されたサイズ分布メトリクスを決定することと、
前記コンピューティングシステムによって、前記個々の第２のセグメントに含まれる前記それぞれの複数の個々の第１のセグメントの前記正規化されたサイズ分布メトリクスに基づいて、前記参照ヒトゲノムの個々の第２のセグメントについての個々の第２のサイズ分布メトリクスを決定することと、を含む、請求項５９に記載の方法。
前記試料に関連する腫瘍細胞の前記コピー数の推定値が、個々の第２のサイズ分布メトリクスに基づく、請求項６４に記載の方法。
前記コンピューティングシステムによって、前記試料に関連する突然変異体対立遺伝子の数に対する前記試料に関連する野生型対立遺伝子の数の比を決定することと、
前記コンピューティングシステムによって、前記比に基づいてヘテロ接合一塩基多型（ＳＮＰ）メトリクスを決定することと、を含む、請求項５８～６５のいずれか１項に記載の方法。
前記コンピューティングシステムによって、前記ＳＮＰメトリックに基づいて、前記試料に関連する腫瘍細胞のコピー数の追加の推定値を決定することを含む、請求項６６に記載の方法。
前記コンピューティングシステムによって、前記個々の定量的尺度に基づいて前記試料の腫瘍割合の推定値を決定することを含む、請求項５８～６７のいずれか１項に記載の方法。
腫瘍細胞のコピー数および前記試料の前記腫瘍割合についての前記推定値が、
観察された定量的尺度＝２＊（１－ＴＦ）＋ｎ＊ＴＦ（式中、ｎは腫瘍細胞コピー数であり、ＴＦは試料の腫瘍割合である）
に基づいて決定され、
前記観察された定量的尺度が、前記定量的尺度の少なくとも一部分を含む、請求項６８に記載の方法。