JP7123975B2

JP7123975B2 - 無細胞ｄｎａについての体細胞起源または生殖系列起源の識別

Info

Publication number: JP7123975B2
Application number: JP2019563118A
Authority: JP
Inventors: リチャードビー．ランマン，; ジェフリーアール．オックスナード，
Original assignee: ガーダントヘルス，インコーポレイテッド; デイナファーバーキャンサーインスティチュート，インコーポレイテッド
Priority date: 2017-05-16
Filing date: 2018-05-16
Publication date: 2022-08-23
Anticipated expiration: 2038-05-16
Also published as: WO2018213498A1; CN110914450A; JP2022110013A; EP3625341A1; US20200202224A1; JP2020521442A; EP3625341A4

Description

相互参照
本出願は、その全体が参照により本明細書に組み込まれる、２０１７年５月１６日出願の米国仮出願第６２／５０７，１２７号の利益を主張するものである。

背景
対象のゲノムと参照ゲノム（例えば、ＧＲＣｈ３８．ｐ４）の比較により、一般には、塩基の約０．０１％に差異（遺伝子変異）が示される。生殖系列の遺伝子変異体は、通常の遺伝または生殖細胞突然変異によって伝達されるＳＮＰであり得る。変異は、ホモ接合性形態またはヘテロ接合性形態で存在する。

がんなどのある特定の病理学的状態は、生殖系列ゲノムと比較した病的細胞のゲノムの遺伝子変異を特徴とする。これらの変異は、体細胞性突然変異に起因し、体細胞突然変異と称される。

体細胞突然変異を有するポリヌクレオチドは、無細胞ＤＮＡ（ｃｆＤＮＡ）において検出することができ、ｃｆＤＮＡでは体細胞突然変異を有するポリヌクレオチドは生殖系列ゲノムを有する細胞由来のＤＮＡと混在する。ｃｆＤＮＡ中に大きなバックグラウンド（生殖系列）が存在する場合、コンピュータにより実行されるプロセスでは生殖系列変異体と体細胞突然変異を自動的に弁別することができない。その代わりに、従来のシステムは、体細胞突然変異を生殖系列突然変異と区別するために、個々のヒト専門家または専門家の共同体（いずれの場合もＴｕｍｏｒＢｏａｒｄと称される）の専門知識に依拠している。

ノイズおよび偏りが存在しない場合、生殖系列変異体は、対立遺伝子画分が５０％（ヘテロ接合性（ｈｅｔ）遺伝子座の場合）または１００％（ホモ接合性（ｈｏｍｏ）遺伝子座の場合）のものになる。しかし、実際には、システムにノイズおよび偏りが存在することにより、これらの明快な数字が不明確になる。言い換えれば、ｈｅｔまたはｈｏｍｏ遺伝子座は、正確に５０％または１００％では検出されないが、その代わりに、ｈｅｔカテゴリーおよびｈｏｍｏカテゴリーのそれぞれについて信頼度の上下限の間で検出される。例えば、ｈｅｔ遺伝子座は４０％～６０％の範囲であり得、一方、ｈｏｍｏ遺伝子座は９８％～１００％の範囲であり得る。

要旨
本開示の単に例示的な実施形態が示され、説明されている以下の詳細な説明から本開示の追加的な態様および利点が当業者には容易に明らかになろう。理解される通り、本開示は、他の異なる実施形態でも可能であり、そのいくつかの詳細は全て本開示から逸脱することなく種々の明白な点で改変可能である。したがって、図および説明は、実際に例示的であり、限定的なものではないとみなされるべきである。

一態様では、本開示は、対象由来の無細胞ＤＮＡ（ｃｆＤＮＡ）における複数のゲノム遺伝子座のそれぞれについて体細胞起源であると識別するための方法であって、前記対象由来の前記ｃｆＤＮＡからのシーケンシング情報を受け取るステップであって、前記シーケンシング情報が、前記複数のゲノム遺伝子座由来のｃｆＤＮＡシーケンシングリードを含む、ステップと、前記複数のゲノム遺伝子座のそれぞれについての定量的対立遺伝子画分（ＡＦ）値（ｑｕａｎｔｉｔａｔｉｖｅａｌｌｅｌｅｆｒａｃｔｉｏｎ（ＡＦ）ｍｅａｓｕｒｅ）を前記ｃｆＤＮＡシーケンシングリードに基づいて決定するステップと、前記ＡＦ値（ＡＦｍｅａｓｕｒｅ）のそれぞれについて標準偏差（ＳＴＤＥＶ）を決定するステップと、ＳＴＤＥＶ閾値およびＡＦ閾値を提供するステップと、前記ＡＦ値のそれぞれのＳＴＤＥＶが前記ＳＴＤＥＶ閾値を上回るかまたは下回るかを決定するステップと、前記ＡＦ値のそれぞれが前記ＡＦ閾値を上回るかまたは下回るかを決定するステップと、ＳＴＤＥＶが前記ＳＴＤＥＶ閾値を下回り、かつＡＦ値が前記ＡＦ閾値を下回る各遺伝子座を、体細胞起源であると分類するステップとを含む方法を提供する。

一態様では、本開示は、対象由来の無細胞ＤＮＡ（ｃｆＤＮＡ）における複数のゲノム遺伝子座のそれぞれについて生殖系列起源であると識別するための方法であって、前記対象由来の前記ｃｆＤＮＡからのシーケンシング情報を受け取るステップであって、前記シーケンシング情報が、前記複数のゲノム遺伝子座由来のｃｆＤＮＡシーケンシングリードを含む、ステップと、前記複数のゲノム遺伝子座のそれぞれについての定量的対立遺伝子画分（ＡＦ）値を前記ｃｆＤＮＡシーケンシングリードに基づいて決定するステップと、前記ＡＦ値のそれぞれについて標準偏差（ＳＴＤＥＶ）を決定するステップと、ＳＴＤＥＶ閾値およびＡＦ閾値を提供するステップと、前記ＡＦ値のそれぞれのＳＴＤＥＶが前記ＳＴＤＥＶ閾値を上回るかまたは下回るかを決定するステップと、前記ＡＦ値のそれぞれが前記ＡＦ閾値を上回るかまたは下回るかを決定するステップと、ＳＴＤＥＶが前記ＳＴＤＥＶ閾値を下回り、かつＡＦ値が前記ＡＦ閾値を上回る各遺伝子座を、生殖系列起源であると分類するステップとを含む方法を提供する。

一部の実施形態では、ゲノム遺伝子座についてのＡＦ値が前記ＳＴＤＥＶ閾値を下回ることにより、前記ゲノム遺伝子座に関して低いコピー数多型（ＣＮＶ）が示される。

一部の実施形態では、ゲノム遺伝子座についてのＡＦ値が前記ＳＴＤＥＶ閾値を上回ることにより、関連するゲノム遺伝子座に関して高いコピー数多型（ＣＮＶ）が示される。

一部の実施形態では、ＡＦ閾値は、経験的に決定される。

一態様では、本開示は、がんを有する対象由来の無細胞ＤＮＡ（ｃｆＤＮＡ）における複数のゲノム遺伝子座のそれぞれについて体細胞起源であると識別するための方法であって、がん治療薬を用いた処置前の第１の時点で前記対象由来の前記ｃｆＤＮＡからのシーケンシング情報を受け取るステップであって、前記シーケンシング情報が、前記複数のゲノム遺伝子座由来のｃｆＤＮＡシーケンシングリードの第１のセットを含む、ステップと、がん治療薬を用いた処置後の第２の時点で前記対象由来の前記ｃｆＤＮＡからのシーケンシング情報を受け取るステップであって、前記シーケンシング情報が、前記複数のゲノム遺伝子座由来のｃｆＤＮＡシーケンシングリードの第２のセットを含む、ステップと、前記複数のゲノム遺伝子座のそれぞれについての定量的対立遺伝子画分（ＡＦ）値を、前記第１の時点の前記ｃｆＤＮＡシーケンシングリード、および前記第２の時点の前記ｃｆＤＮＡシーケンシングリードに基づいて決定するステップと、前記第１の時点の前記ＡＦ値と前記第２の時点の前記ＡＦ値を比較するステップであって、前記がんが、前記がん治療薬に対して応答性である、ステップと、ゲノム遺伝子座のＡＦ値が前記第１の時点と前記第２の時点の間に低減する場合、前記ゲノム遺伝子座を体細胞起源であると識別するステップとを含む方法を提供する。

一態様では、本開示は、がんを有する対象由来の無細胞ＤＮＡ（ｃｆＤＮＡ）における複数のゲノム遺伝子座のそれぞれについて生殖系列起源であると識別するための方法であって、がん治療薬を用いた処置前の第１の時点で前記対象由来の前記ｃｆＤＮＡからのシーケンシング情報を受け取るステップであって、前記シーケンシング情報が、前記複数のゲノム遺伝子座由来のｃｆＤＮＡシーケンシングリードの第１のセットを含む、ステップと、がん治療薬を用いた処置後の第２の時点で前記対象由来の前記ｃｆＤＮＡからのシーケンシング情報を受け取るステップであって、前記シーケンシング情報が、前記複数のゲノム遺伝子座由来のｃｆＤＮＡシーケンシングリードの第２のセットを含む、ステップと、前記複数のゲノム遺伝子座のそれぞれについての定量的対立遺伝子画分（ＡＦ）値を、前記第１の時点の前記ｃｆＤＮＡシーケンシングリード、および前記第２の時点の前記ｃｆＤＮＡシーケンシングリードに基づいて決定するステップと、前記第１の時点の前記ＡＦ値と前記第２の時点の前記ＡＦ値を比較するステップであって、前記がんが、前記がん治療薬に対して応答性である、ステップと、ゲノム遺伝子座のＡＦ値が前記第１の時点と前記第２の時点の間に低減しない場合、前記ゲノム遺伝子座を生殖系列起源であると識別するステップとを含む方法を提供する。

一態様では、本開示は、対象由来の無細胞ＤＮＡ（ｃｆＤＮＡ）における複数のゲノム遺伝子座のそれぞれについて体細胞起源または生殖系列起源であると識別するための方法であって、第１の時点で集められた前記対象由来の前記ｃｆＤＮＡからのシーケンシング情報を受け取るステップであって、前記シーケンシング情報が、第１のｃｆＤＮＡシーケンシングリードを含む、ステップと、前記複数のゲノム遺伝子座からの配列情報を提供するステップと、前記複数のゲノム遺伝子座のそれぞれのビニングを実施するステップであって、前記ビニングが、前記複数のゲノム遺伝子座内の各ゲノム遺伝子座に最初の分類を割り当てることを含み、前記最初の分類が、ａ）推定体細胞起源；ｂ）推定生殖系列起源；またはｃ）起源不確定からなる群から選択され、それにより、推定体細胞起源であるゲノム遺伝子座を含む第１のビン、推定生殖系列起源であるゲノム遺伝子座を含む第２のビン、および起源不確定であるゲノム遺伝子座を含む第３のビンを生成する、ステップと、前記第１のビン、前記第２のビン、および前記第３のビン内の前記ゲノム領域のそれぞれについて、定量的対立遺伝子画分（ＡＦ）値を前記第１のｃｆＤＮＡシーケンシングリードに基づいて決定して、それぞれ第１のＡＦセット、第２のＡＦセット、および第３のＡＦセットを生成するステップと、前記第１のＡＦセットに基づく第１の度数分布および前記第２のＡＦセットに基づく第２の度数分布を生成するステップであって、前記第１の度数分布と前記第２の度数分布の間に重複が存在しない、ステップと、ＡＦ閾値を前記第１および第２の度数分布に基づいて識別するステップであって、ＡＦ閾値が、（ｉ）前記第１のＡＦセットの中で最大の定量的ＡＦ値以上かつ（ｉｉ）前記第２のＡＦセットの中で最小の定量的ＡＦ値以下である、ステップと、前記ゲノム遺伝子座の第３のビンのそれぞれに最終的な分類を割り当てるステップであって、最終的な分類が、（Ａ）前記ゲノム遺伝子座の定量的ＡＦ値が前記ＡＦ閾値以下の場合、推定体細胞起源であり、または（Ｂ）前記ゲノム領域の定量的ＡＦ値が前記ＡＦ閾値以上の場合、推定生殖系列起源である、ステップとを含む方法を提供する。

一態様では、本開示は、対象由来の無細胞ＤＮＡ（ｃｆＤＮＡ）における複数のゲノム遺伝子座のそれぞれについて体細胞起源または生殖系列起源であると識別するための方法であって、第１の時点で集められた前記対象由来の前記ｃｆＤＮＡからのシーケンシング情報を受け取るステップであって、前記シーケンシング情報が、第１のｃｆＤＮＡシーケンシングリードを含む、ステップと、前記複数のゲノム遺伝子座からの配列情報を提供するステップと、前記複数のゲノム遺伝子座における前記複数のゲノム遺伝子座のそれぞれのビニングを実施するステップであって、前記ビニングが、前記複数のゲノム遺伝子座内の各ゲノム遺伝子座に最初の分類を割り当てることを含み、前記最初の分類が、ａ）推定体細胞起源；ｂ）推定生殖系列起源；またはｃ）起源不確定からなる群から選択され、それにより、推定体細胞起源であるゲノム遺伝子座を含む第１のビン、推定生殖系列起源であるゲノム遺伝子座を含む第２のビン、および起源不確定であるゲノム遺伝子座を含む第３のビンを生成する、ステップと、前記第１のビン、前記第２のビン、および前記第３のビン内の前記ゲノム領域のそれぞれについて、定量的対立遺伝子画分（ＡＦ）値を前記第１のｃｆＤＮＡシーケンシングリードに基づいて決定して、それぞれ第１のＡＦセット、第２のＡＦセット、および第３のＡＦセットを生成するステップと、前記第１のＡＦセットに基づく第１の度数分布および前記第２のＡＦセットに基づく第２の度数分布を生成するステップであって、前記第１の度数分布と前記第２の度数分布の間に重複が存在する、ステップと、第１のＡＦ閾値を前記第１および第２の度数分布に基づいて識別するステップであって、第１のＡＦ閾値が、前記第１のＡＦセットの中で最大の定量的ＡＦ値である、ステップと、第２のＡＦ閾値を前記第１および第２の度数分布に基づいて識別するステップであって、第２のＡＦ閾値が、前記第２のＡＦセットの中で最小の定量的ＡＦ値である、ステップと、前記複数のゲノム遺伝子座のそれぞれに最終的な分類を割り当てるステップであって、前記最終的な分類が、（Ａ）前記ゲノム領域の定量的ＡＦ値が前記第１のＡＦ閾値以下の場合、推定体細胞起源であり、（Ｂ）前記ゲノム領域の定量的ＡＦ値が前記第２のＡＦ閾値以上の場合、推定生殖系列起源であり、または（Ｃ）前記ゲノム領域の定量的ＡＦ値が前記第１のＡＦ閾値を超え、かつ前記第２のＡＦ閾値未満の場合、不明確である、ステップとを含む方法を提供する。

一態様では、本開示は、対象由来の無細胞ＤＮＡ（ｃｆＤＮＡ）における複数のゲノム遺伝子座のそれぞれについて体細胞起源であると識別するための方法であって、前記対象由来の前記ｃｆＤＮＡからのシーケンシング情報を受け取るステップであって、前記シーケンシング情報が、前記複数のゲノム遺伝子座由来のｃｆＤＮＡシーケンシングリードのセットを含む、ステップと、定量的対立遺伝子画分（ＡＦ）値の第１のセットを決定するステップであって、前記ＡＦ値の第１のセットが、前記ｃｆＤＮＡシーケンシングリードに基づく前記複数のゲノム遺伝子座のそれぞれについてのＡＦ値を含む、ステップと、ＡＦ値の第２のセットを提供するステップであって、前記ＡＦ値の第２のセットが、１つまたは複数の既知の体細胞変異体のそれぞれについてのＡＦ値を含む、ステップと、前記ＡＦ値の第１のセット由来のゲノム遺伝子座のＡＦ値と前記ＡＦ値の第２のセット由来のＡＦ値を比較するステップと、ゲノム遺伝子座についての前記ＡＦ値の第１のセット由来の前記ＡＦ値と前記ＡＦ値の第２のセット由来の前記ＡＦ値の差異が１０％またはそれ未満である場合、ゲノム遺伝子座を体細胞起源であると識別するステップとを含む方法を提供する。

一部の実施形態では、前記ＡＦ値の第２のセットは、前記ｃｆＤＮＡシーケンシングリードに基づく第２の複数のゲノム遺伝子座のＡＦ値を含む。

一部の実施形態では、前記ＡＦ値の第２のセットは、複数の対照の対象由来のｃｆＤＮＡの複数のゲノム遺伝子座のＡＦ値を含む。

一態様では、本開示は、対象由来の無細胞ＤＮＡ（ｃｆＤＮＡ）における複数のゲノム遺伝子座のそれぞれについて生殖系列起源であると識別するための方法であって、前記対象由来の前記ｃｆＤＮＡからのシーケンシング情報を受け取るステップであって、前記シーケンシング情報が、前記複数のゲノム遺伝子座由来のｃｆＤＮＡシーケンシングリードのセットを含む、ステップと、定量的対立遺伝子画分（ＡＦ）値の第１のセットを決定するステップであって、前記ＡＦ値の第１のセットが、前記ｃｆＤＮＡシーケンシングリードに基づく前記複数のゲノム遺伝子座のそれぞれについてのＡＦ値を含む、ステップと、ＡＦ値の第２のセットを提供するステップであって、前記ＡＦ値の第２のセットが、１つまたは複数の既知の体細胞変異体のそれぞれについてのＡＦ値を含む、ステップと、前記ＡＦ値の第１のセット由来のゲノム遺伝子座のＡＦ値と前記ＡＦ値の第２のセット由来のＡＦ値を比較するステップと、ゲノム遺伝子座についての前記ＡＦ値の第１のセット由来の前記ＡＦ値と前記ＡＦ値の第２のセット由来の前記ＡＦ値の差異が１０％を超える場合、ゲノム遺伝子座を生殖系列起源であると識別するステップとを含む方法を提供する。

一態様では、本開示は、対象由来の無細胞ＤＮＡ（ｃｆＤＮＡ）における複数のゲノム遺伝子座のそれぞれについて生殖系列起源であると識別するための方法であって、前記対象由来の前記ｃｆＤＮＡからのシーケンシング情報を受け取るステップであって、前記シーケンシング情報が、前記複数のゲノム遺伝子座由来のｃｆＤＮＡシーケンシングリードのセットを含む、ステップと、定量的対立遺伝子画分（ＡＦ）値の第１のセットを決定するステップであって、前記ＡＦ値の第１のセットが、前記ｃｆＤＮＡシーケンシングリードに基づく前記複数のゲノム遺伝子座のそれぞれについてのＡＦ値を含む、ステップと、ＡＦ値の第２のセットを提供するステップであって、前記ＡＦ値の第２のセットが、１つまたは複数の既知の生殖系列変異体のそれぞれについてのＡＦ値を含む、ステップと、前記ＡＦ値の第１のセット由来のゲノム遺伝子座のＡＦ値と前記ＡＦ値の第２のセット由来のＡＦ値を比較するステップと、ゲノム遺伝子座についての前記ＡＦ値の第１のセット由来の前記ＡＦ値と前記ＡＦ値の第２のセット由来の前記ＡＦ値の差異が１０％またはそれ未満である場合、ゲノム遺伝子座を生殖系列起源であると識別するステップとを含む方法を提供する。

一態様では、本開示は、対象由来の無細胞ＤＮＡ（ｃｆＤＮＡ）における複数のゲノム遺伝子座のそれぞれについて体細胞起源であると識別するための方法であって、前記対象由来の前記ｃｆＤＮＡからのシーケンシング情報を受け取るステップであって、前記シーケンシング情報が、前記複数のゲノム遺伝子座由来のｃｆＤＮＡシーケンシングリードのセットを含む、ステップと、定量的対立遺伝子画分（ＡＦ）値の第１のセットを決定するステップであって、前記ＡＦ値の第１のセットが、前記ｃｆＤＮＡシーケンシングリードに基づく前記複数のゲノム遺伝子座のそれぞれについてのＡＦ値を含む、ステップと、ＡＦ値の第２のセットを提供するステップであって、前記ＡＦ値の第２のセットが、１つまたは複数の既知の生殖系列変異体のそれぞれについてのＡＦ値を含む、ステップと、前記ＡＦ値の第１のセット由来のゲノム遺伝子座のＡＦ値と前記ＡＦ値の第２のセット由来のＡＦ値を比較するステップと、ゲノム遺伝子座についての前記ＡＦ値の第１のセット由来の前記ＡＦ値と前記ＡＦ値の第２のセット由来の前記ＡＦ値の差異が１０％を超える場合、ゲノム遺伝子座を体細胞起源であると識別するステップとを含む方法を提供する。

一部の実施形態では、前記ゲノム遺伝子座の１つまたは複数は、ＢＲＣＡ遺伝子座である。

一態様では、本開示は、ａ）ｃｆＤＮＡ分子の配列リードのセットを提供するステップであって、前記配列リードが、参照ゲノムの選択されたゲノム領域（例えば、遺伝子、エクソン、イントロン、遺伝子の一部分（例えば、少なくとも１００ヌクレオチド、少なくとも５００ヌクレオチド、または少なくとも１０００ヌクレオチド））にマッピングされる、ステップと、ｂ）ゲノム領域内の複数の遺伝子変異体（例えば、参照配列とは異なるヌクレオチド）を含むセットの対立遺伝子頻度を決定するステップであって、セットが、目的の変異体を含む、ステップと、ｃ）セット内の遺伝子変異体の対立遺伝子頻度の変動性値（ｍｅａｓｕｒｅｏｆｖａｒｉａｂｉｌｉｔｙ）（例えば、標準偏差または分散）を決定するステップと、ｄ）変動性値閾値および対立遺伝子頻度閾値を提供するステップと、ｅ）変動性値が変動性閾値を下回るかどうかを決定するステップと、ｆ）変動性値が変動性閾値を下回る場合、（ｉ）目的の変異体の対立遺伝子頻度が対立遺伝子頻度閾値を上回る場合には目的の変異体を、生殖系列起源を有するとコールし、（ｉｉ）目的の変異体の対立遺伝子頻度が対立遺伝子頻度閾値を下回る場合には目的の変異体が、体細胞起源を有するとコールするステップとを含む方法を提供する。

参照による組込み
本明細書において言及されている全ての刊行物、特許および特許出願は、個々の刊行物、特許、または特許出願が、具体的にかつ個別に参照により組み込まれることが示されたものと同じく参照により本明細書に組み込まれる。参照により組み込まれている刊行物および特許または特許出願が本明細書に含有される本開示と矛盾する限りでは、本明細書は、あらゆるそのような矛盾する材料に取って代わり、かつ／またはそれに優先するものとする。

本開示の新規の特徴は、添付の特許請求の範囲において詳細に記載されている。本開示の原理が利用される例示的な実施形態が記載されている以下の詳細な説明およびその付属図を参照することにより、本開示の特徴および利点のよりよい理解が得られる。
特定の実施形態では、例えば以下の項目が提供される。
（項目１）
対象由来の無細胞ＤＮＡ（ｃｆＤＮＡ）における複数のゲノム遺伝子座のそれぞれについて体細胞起源であると識別するための方法であって、
前記対象由来の前記ｃｆＤＮＡからのシーケンシング情報を受け取るステップであって、前記シーケンシング情報が、前記複数のゲノム遺伝子座由来のｃｆＤＮＡシーケンシングリードを含む、ステップと、
前記複数のゲノム遺伝子座のそれぞれについての定量的対立遺伝子画分（ＡＦ）値を前記ｃｆＤＮＡシーケンシングリードに基づいて決定するステップと、
前記ＡＦ値のそれぞれについて標準偏差（ＳＴＤＥＶ）を決定するステップと、
ＳＴＤＥＶ閾値およびＡＦ閾値を提供するステップと、
前記ＡＦ値のそれぞれのＳＴＤＥＶが前記ＳＴＤＥＶ閾値を上回るかまたは下回るかを決定するステップと、
前記ＡＦ値のそれぞれが前記ＡＦ閾値を上回るかまたは下回るかを決定するステップと、
ＳＴＤＥＶが前記ＳＴＤＥＶ閾値を下回り、かつＡＦ値が前記ＡＦ閾値を下回る各遺伝子座を、体細胞起源であると分類するステップと
を含む方法。
（項目２）
対象由来の無細胞ＤＮＡ（ｃｆＤＮＡ）における複数のゲノム遺伝子座のそれぞれについて生殖系列起源であると識別するための方法であって、
前記対象由来の前記ｃｆＤＮＡからのシーケンシング情報を受け取るステップであって、前記シーケンシング情報が、前記複数のゲノム遺伝子座由来のｃｆＤＮＡシーケンシングリードを含む、ステップと、
前記複数のゲノム遺伝子座のそれぞれについての定量的対立遺伝子画分（ＡＦ）値を前記ｃｆＤＮＡシーケンシングリードに基づいて決定するステップと、
前記ＡＦ値のそれぞれについて標準偏差（ＳＴＤＥＶ）を決定するステップと、
ＳＴＤＥＶ閾値およびＡＦ閾値を提供するステップと、
前記ＡＦ値のそれぞれのＳＴＤＥＶが前記ＳＴＤＥＶ閾値を上回るかまたは下回るかを決定するステップと、
前記ＡＦ値のそれぞれが前記ＡＦ閾値を上回るかまたは下回るかを決定するステップと、
ＳＴＤＥＶが前記ＳＴＤＥＶ閾値を下回り、かつＡＦ値が前記ＡＦ閾値を上回る各遺伝子座を、生殖系列起源であると分類するステップと
を含む方法。
（項目３）
ゲノム遺伝子座についてのＡＦ値が前記ＳＴＤＥＶ閾値を下回ることにより、前記ゲノム遺伝子座に関して低いコピー数多型（ＣＮＶ）が示される、項目１または２に記載の方法。
（項目４）
ゲノム遺伝子座についてのＡＦ値が前記ＳＴＤＥＶ閾値を上回ることにより、関連するゲノム遺伝子座に関して高いコピー数多型（ＣＮＶ）が示される、項目１または２に記載の方法。
（項目５）
前記ＡＦ閾値が、経験的に決定される、項目１または２に記載の方法。
（項目６）
がんを有する対象由来の無細胞ＤＮＡ（ｃｆＤＮＡ）における複数のゲノム遺伝子座のそれぞれについて体細胞起源であると識別するための方法であって、
がん治療薬を用いた処置前の第１の時点で前記対象由来の前記ｃｆＤＮＡからのシーケンシング情報を受け取るステップであって、前記シーケンシング情報が、前記複数のゲノム遺伝子座由来のｃｆＤＮＡシーケンシングリードの第１のセットを含む、ステップと、
がん治療薬を用いた処置後の第２の時点で前記対象由来の前記ｃｆＤＮＡからのシーケンシング情報を受け取るステップであって、前記シーケンシング情報が、前記複数のゲノム遺伝子座由来のｃｆＤＮＡシーケンシングリードの第２のセットを含む、ステップと、
前記複数のゲノム遺伝子座のそれぞれについての定量的対立遺伝子画分（ＡＦ）値を、前記第１の時点の前記ｃｆＤＮＡシーケンシングリード、および前記第２の時点の前記ｃｆＤＮＡシーケンシングリードに基づいて決定するステップと、
前記第１の時点の前記ＡＦ値と前記第２の時点の前記ＡＦ値を比較するステップであって、前記がんが、前記がん治療薬に対して応答性である、ステップと、
ゲノム遺伝子座のＡＦ値が前記第１の時点と前記第２の時点の間に低減する場合、前記ゲノム遺伝子座を体細胞起源であると識別するステップと
を含む方法。
（項目７）
がんを有する対象由来の無細胞ＤＮＡ（ｃｆＤＮＡ）における複数のゲノム遺伝子座のそれぞれについて生殖系列起源であると識別するための方法であって、
がん治療薬を用いた処置前の第１の時点で前記対象由来の前記ｃｆＤＮＡからのシーケンシング情報を受け取るステップであって、前記シーケンシング情報が、前記複数のゲノム遺伝子座由来のｃｆＤＮＡシーケンシングリードの第１のセットを含む、ステップと、
がん治療薬を用いた処置後の第２の時点で前記対象由来の前記ｃｆＤＮＡからのシーケンシング情報を受け取るステップであって、前記シーケンシング情報が、前記複数のゲノム遺伝子座由来のｃｆＤＮＡシーケンシングリードの第２のセットを含む、ステップと、
前記複数のゲノム遺伝子座のそれぞれについての定量的対立遺伝子画分（ＡＦ）値を、前記第１の時点の前記ｃｆＤＮＡシーケンシングリード、および前記第２の時点の前記ｃｆＤＮＡシーケンシングリードに基づいて決定するステップと、
前記第１の時点の前記ＡＦ値と前記第２の時点の前記ＡＦ値を比較するステップであって、前記がんが、前記がん治療薬に対して応答性である、ステップと、
ゲノム遺伝子座からのＡＦ値が前記第１の時点と前記第２の時点の間に低減しない場合、前記ゲノム遺伝子座を生殖系列起源であると識別するステップと
を含む方法。
（項目８）
対象由来の無細胞ＤＮＡ（ｃｆＤＮＡ）における複数のゲノム遺伝子座のそれぞれについて体細胞起源または生殖系列起源であると識別するための方法であって、
第１の時点で集められた前記対象由来の前記ｃｆＤＮＡからのシーケンシング情報を受け取るステップであって、前記シーケンシング情報が、第１のｃｆＤＮＡシーケンシングリードを含む、ステップと、
前記複数のゲノム遺伝子座からの配列情報を提供するステップと、
前記複数のゲノム遺伝子座のそれぞれのビニングを実施するステップであって、前記ビニングが、前記複数のゲノム遺伝子座内の各ゲノム遺伝子座に最初の分類を割り当てることを含み、前記最初の分類が、
ａ）推定体細胞起源；
ｂ）推定生殖系列起源；または
ｃ）起源不確定
からなる群から選択され、
それにより、推定体細胞起源であるゲノム遺伝子座を含む第１のビン、推定生殖系列起源であるゲノム遺伝子座を含む第２のビン、および起源不確定であるゲノム遺伝子座を含む第３のビンを生成するステップと、
前記第１のビン、前記第２のビン、および前記第３のビン内の前記ゲノム領域のそれぞれについて、定量的対立遺伝子画分（ＡＦ）値が前記第１のｃｆＤＮＡシーケンシングリードに基づき、それぞれ第１のＡＦセット、第２のＡＦセット、および第３のＡＦセットを生成するステップと、
前記第１のＡＦセットに基づく第１の度数分布および前記第２のＡＦセットに基づく第２の度数分布を生成するステップであって、前記第１の度数分布と前記第２の度数分布の間に重複が存在しない、ステップと、
ＡＦ閾値を前記第１および第２の度数分布に基づいて識別するステップであって、このＡＦ閾値が、（ｉ）前記第１のＡＦセットの中で最大の定量的ＡＦ値以上かつ（ｉｉ）前記第２のＡＦセットの中で最小の定量的ＡＦ値以下である、ステップと、
前記ゲノム遺伝子座の第３のビンのそれぞれに最終的な分類を割り当てるステップであって、この最終的な分類が、（Ａ）前記ゲノム遺伝子座の定量的ＡＦ値が前記ＡＦ閾値以下の場合、推定体細胞起源であり、または（Ｂ）前記ゲノム領域の定量的ＡＦ値が前記ＡＦ閾値以上の場合、推定生殖系列起源である、ステップと
を含む方法。
（項目９）
対象由来の無細胞ＤＮＡ（ｃｆＤＮＡ）における複数のゲノム遺伝子座のそれぞれについて体細胞起源または生殖系列起源であると識別するための方法であって、
第１の時点で集められた前記対象由来の前記ｃｆＤＮＡからのシーケンシング情報を受け取るステップであって、前記シーケンシング情報が、第１のｃｆＤＮＡシーケンシングリードを含む、ステップと、
前記複数のゲノム遺伝子座からの配列情報を提供するステップと、
前記複数のゲノム遺伝子座における前記複数のゲノム遺伝子座のそれぞれのビニングを実施するステップであって、前記ビニングが、前記複数のゲノム遺伝子座内の各ゲノム遺伝子座に最初の分類を割り当てることを含み、前記最初の分類が、
ａ）推定体細胞起源；
ｂ）推定生殖系列起源；または
ｃ）起源不確定
からなる群から選択され、
それにより、推定体細胞起源であるゲノム遺伝子座を含む第１のビン、推定生殖系列起源であるゲノム遺伝子座を含む第２のビン、および起源不確定であるゲノム遺伝子座を含む第３のビンを生成するステップと、
前記第１のビン、前記第２のビン、および前記第３のビン内の前記ゲノム領域のそれぞれについて、定量的対立遺伝子画分（ＡＦ）値が前記第１のｃｆＤＮＡシーケンシングリードに基づき、それぞれ第１のＡＦセット、第２のＡＦセット、および第３のＡＦセットを生成するステップと、
前記第１のＡＦセットに基づく第１の度数分布および前記第２のＡＦセットに基づく第２の度数分布を生成するステップであって、前記第１の度数分布と前記第２の度数分布の間に重複が存在する、ステップと、
第１のＡＦ閾値を前記第１および第２の度数分布に基づいて識別するステップであって、この第１のＡＦ閾値が、前記第１のＡＦセットの中で最大の定量的ＡＦ値である、ステップと、
第２のＡＦ閾値を前記第１および第２の度数分布に基づいて識別するステップであって、この第２のＡＦ閾値が、前記第２のＡＦセットの中で最小の定量的ＡＦ値である、ステップと、
前記複数のゲノム遺伝子座のそれぞれに最終的な分類を割り当てるステップであって、前記最終的な分類が、（Ａ）前記ゲノム領域の定量的ＡＦ値が前記第１のＡＦ閾値以下の場合、推定体細胞起源であり、（Ｂ）前記ゲノム領域の定量的ＡＦ値が前記第２のＡＦ閾値以上の場合、推定生殖系列起源であり、または（Ｃ）前記ゲノム領域の定量的ＡＦ値が前記第１のＡＦ閾値を超え、かつ前記第２のＡＦ閾値未満の場合、不明確である、ステップと
を含む方法。
（項目１０）
対象由来の無細胞ＤＮＡ（ｃｆＤＮＡ）における複数のゲノム遺伝子座のそれぞれについて体細胞起源であると識別するための方法であって、
前記対象由来の前記ｃｆＤＮＡからのシーケンシング情報を受け取るステップであって、前記シーケンシング情報が、前記複数のゲノム遺伝子座由来のｃｆＤＮＡシーケンシングリードのセットを含む、ステップと、
定量的対立遺伝子画分（ＡＦ）値の第１のセットを決定するステップであって、前記ＡＦ値の第１のセットが、前記ｃｆＤＮＡシーケンシングリードに基づく前記複数のゲノム遺伝子座のそれぞれについてのＡＦ値を含む、ステップと、
ＡＦ値の第２のセットを提供するステップであって、前記ＡＦ値の第２のセットが、１つまたは複数の既知の体細胞変異体のそれぞれについてのＡＦ値を含む、ステップと、
前記ＡＦ値の第１のセット由来のゲノム遺伝子座からのＡＦ値と前記ＡＦ値の第２のセット由来のＡＦ値を比較するステップと、
ゲノム遺伝子座についての前記ＡＦ値の第１のセット由来の前記ＡＦ値と前記ＡＦ値の第２のセット由来の前記ＡＦ値の差異が１０％またはそれ未満である場合、ゲノム遺伝子座を体細胞起源であると識別するステップと
を含む方法。
（項目１１）
前記ＡＦ値の第２のセットが、前記ｃｆＤＮＡシーケンシングリードに基づく第２の複数のゲノム遺伝子座のＡＦ値を含む、項目１０に記載の方法。
（項目１２）
前記ＡＦ値の第２のセットが、複数の対照の対象由来のｃｆＤＮＡからの複数のゲノム遺伝子座からのＡＦ値を含む、項目１０に記載の方法。
（項目１３）
対象由来の無細胞ＤＮＡ（ｃｆＤＮＡ）における複数のゲノム遺伝子座のそれぞれについて生殖系列起源であると識別するための方法であって、
前記対象由来の前記ｃｆＤＮＡからのシーケンシング情報を受け取るステップであって、前記シーケンシング情報が、前記複数のゲノム遺伝子座由来のｃｆＤＮＡシーケンシングリードのセットを含む、ステップと、
定量的対立遺伝子画分（ＡＦ）値の第１のセットを決定するステップであって、前記ＡＦ値の第１のセットが、前記ｃｆＤＮＡシーケンシングリードに基づく前記複数のゲノム遺伝子座のそれぞれについてのＡＦ値を含む、ステップと、
ＡＦ値の第２のセットを提供するステップであって、前記ＡＦ値の第２のセットが、１つまたは複数の既知の体細胞変異体のそれぞれについてのＡＦ値を含む、ステップと、
前記ＡＦ値の第１のセット由来のゲノム遺伝子座のＡＦ値と前記ＡＦ値の第２のセット由来のＡＦ値を比較するステップと、
ゲノム遺伝子座についての前記ＡＦ値の第１のセット由来の前記ＡＦ値と前記ＡＦ値の第２のセット由来の前記ＡＦ値の差異が１０％を超える場合、ゲノム遺伝子座を生殖系列起源であると識別するステップと
を含む方法。
（項目１４）
前記ＡＦ値の第２のセットが、前記ｃｆＤＮＡシーケンシングリードに基づく第２の複数のゲノム遺伝子座からのＡＦ値を含む、項目１３に記載の方法。
（項目１５）
前記ＡＦ値の第２のセットが、複数の対照の対象由来のｃｆＤＮＡからの複数のゲノム遺伝子座からのＡＦ値を含む、項目１３に記載の方法。
（項目１６）
対象由来の無細胞ＤＮＡ（ｃｆＤＮＡ）における複数のゲノム遺伝子座のそれぞれについて生殖系列起源であると識別するための方法であって、
前記対象由来の前記ｃｆＤＮＡからのシーケンシング情報を受け取るステップであって、前記シーケンシング情報が、前記複数のゲノム遺伝子座由来のｃｆＤＮＡシーケンシングリードのセットを含む、ステップと、
定量的対立遺伝子画分（ＡＦ）値の第１のセットを決定するステップであって、前記ＡＦ値の第１のセットが、前記ｃｆＤＮＡシーケンシングリードに基づく前記複数のゲノム遺伝子座のそれぞれについてのＡＦ値を含む、ステップと、
ＡＦ値の第２のセットを提供するステップであって、前記ＡＦ値の第２のセットが、１つまたは複数の既知の生殖系列変異体のそれぞれについてのＡＦ値を含む、ステップと、
前記ＡＦ値の第１のセット由来のゲノム遺伝子座のＡＦ値と前記ＡＦ値の第２のセット由来のＡＦ値を比較するステップと、
ゲノム遺伝子座についての前記ＡＦ値の第１のセット由来の前記ＡＦ値と前記ＡＦ値の第２のセット由来の前記ＡＦ値の差異が１０％またはそれ未満である場合、ゲノム遺伝子座を生殖系列起源であると識別するステップと
を含む方法。
（項目１７）
前記ＡＦ値の第２のセットが、前記ｃｆＤＮＡシーケンシングリードに基づく第２の複数のゲノム遺伝子座のＡＦ値を含む、項目１６に記載の方法。
（項目１８）
前記ＡＦ値の第２のセットが、複数の対照の対象由来のｃｆＤＮＡからの複数のゲノム遺伝子座からのＡＦ値を含む、項目１６に記載の方法。
（項目１９）
対象由来の無細胞ＤＮＡ（ｃｆＤＮＡ）における複数のゲノム遺伝子座のそれぞれについて体細胞起源であると識別するための方法であって、
前記対象由来の前記ｃｆＤＮＡからのシーケンシング情報を受け取るステップであって、前記シーケンシング情報が、前記複数のゲノム遺伝子座由来のｃｆＤＮＡシーケンシングリードのセットを含む、ステップと、
定量的対立遺伝子画分（ＡＦ）値の第１のセットを決定するステップであって、前記ＡＦ値の第１のセットが、前記ｃｆＤＮＡシーケンシングリードに基づく前記複数のゲノム遺伝子座のそれぞれについてのＡＦ値を含む、ステップと、
ＡＦ値の第２のセットを提供するステップであって、前記ＡＦ値の第２のセットが、１つまたは複数の既知の生殖系列変異体のそれぞれについてのＡＦ値を含む、ステップと、
前記ＡＦ値の第１のセット由来のゲノム遺伝子座のＡＦ値と前記ＡＦ値の第２のセット由来のＡＦ値を比較するステップと、
ゲノム遺伝子座についての前記ＡＦ値の第１のセット由来の前記ＡＦ値と前記ＡＦ値の第２のセット由来の前記ＡＦ値の差異が１０％を超える場合、ゲノム遺伝子座を体細胞起源であると識別するステップと
を含む方法。
（項目２０）
前記ＡＦ値の第２のセットが、前記ｃｆＤＮＡシーケンシングリードに基づく第２の複数のゲノム遺伝子座のＡＦ値を含む、項目１９に記載の方法。
（項目２１）
前記ＡＦ値の第２のセットが、複数の対照の対象由来のｃｆＤＮＡの複数のゲノム遺伝子座からのＡＦ値を含む、項目１９に記載の方法。
（項目２２）
前記ゲノム遺伝子座の１つまたは複数が、ＢＲＣＡ遺伝子座である、前記項目のいずれか一項に記載の方法。
（項目２３）
ａ）ｃｆＤＮＡ分子の配列リードのセットを提供するステップであって、前記配列リードが、参照ゲノムの選択されたゲノム領域（例えば、遺伝子、エクソン、イントロン、遺伝子の一部分（例えば、少なくとも１００ヌクレオチド、少なくとも５００ヌクレオチド、または少なくとも１０００ヌクレオチド））にマッピングされる、ステップと、
ｂ）前記ゲノム領域内の複数の遺伝子変異体（例えば、参照配列とは異なるヌクレオチド）を含むセットの対立遺伝子頻度を決定するステップであって、前記セットが、目的の変異体を含む、ステップと、
ｃ）前記セット内の前記遺伝子変異体の前記対立遺伝子頻度の変動性値（例えば、標準偏差または分散）を決定するステップと、
ｄ）変動性値閾値および対立遺伝子頻度閾値を提供するステップと、
ｅ）前記変動性値が前記変動性閾値を下回るかどうかを決定するステップと、
ｆ）前記変動性値が前記変動性閾値を下回る場合、
（ｉ）前記目的の変異体の前記対立遺伝子頻度が前記対立遺伝子頻度閾値を上回る場合には前記目的の変異体が生殖系列起源を有するとコールし、
（ｉｉ）前記目的の変異体の前記対立遺伝子頻度が前記対立遺伝子頻度閾値を下回る場合には前記目的の変異体が体細胞起源を有するとコールするステップと
を含む、方法。

図１は、本明細書で提供される方法を実行するようにプログラミングされたまたは他のやり方で設定されたコンピュータ制御システムを示す図である。

図２Ａは、生殖系列Ｔ７９０Ｍ突然変異（２０１－黒色のドット）が体細胞Ｔ７９０Ｍ突然変異（２０２－灰色のドット）と同様の濃度であるが、より高い対立遺伝子画分（ＡＦ）で存在することを示すグラフである。

図２Ｂは、処置時の患者４名において体細胞ＥＧＦＲ突然変異の濃度は低下するが、生殖系列ＥＧＦＲＴ７９０Ｍの濃度は一定のままであることを示すグラフである（２０３はＥＧＦＲドライバー突然変異を表し、２０４はＥＧＦＲＴ７９０Ｍを表す）。

図２Ｃは、９５０事例に関する血漿ＮＧＳ結果にわたるＥＧＦＲＴ７９０Ｍ（下のプロット）についてのＡＦ分布が、ＥＧＦＲドライバー突然変異（上のプロット）でも見られる体細胞性ピーク、ならびに共通のＳＮＰ（ＥＧＦＲＱ７８７Ｑ、真ん中のプロット）でもより明白に見られるヘテロ接合性ピーク（矢印）を含むことを示すグラフである。

図３Ａは、全て生殖系列ＥＧＦＲＴ７９０Ｍ陽性である、最初の３事例由来の処置前および処置時の血漿検体についての血漿ＮＧＳを示すグラフである。３群の変異体が、検出された全てのコード変異体および非コード変異体の間で明白であり、これは、ホモ接合性変異体、ヘテロ接合性変異体、および腫瘍由来変異体の予測ＡＦに対応する。腫瘍由来群の変異体は、治療時に応答したが、ホモ接合性群およびヘテロ接合性群の変異体ではＡＦは比較的一定のままであった。

図３Ｂは、追加で１０２事例、合計で１０５事例についての血漿ＮＧＳ結果を示すグラフである。１０５事例にわたって検出された全てのコード変異体および非コード変異体について、０％付近（おそらく腫瘍由来）、４９％付近（おそらくヘテロ接合性）、および１００％付近（おそらくホモ接合性）にピークを有する３峰性分布が見られた。

図３Ｃは、ミスセンス変異体およびナンセンス変異体に関して、腫瘍由来変異体が見いだされると予測される低ＡＦで富化が見られた（矢印）ことを示すグラフである。対照的に、良性生殖系列多型を反映する可能性がある同義の変異体はおよそ５０％ＡＦおよび１００％ＡＦで富化された。

図４Ａは、ＥＧＦＲ突然変異について陽性の１０５事例の血漿ＮＧＳにおいて見いだされた全ての変異体のＡＦを、ＥＧＦＲドライバー突然変異ＡＦが低い方から順に示し（４０１－黒色のドット）、それと共に共通のＥＧＦＲＳＮＰを示す（４０２－より大きな灰色のドット）グラフである。

図４Ｂは、２５％から７５％の間の変異体ＡＦに関して、標準偏差および事例と集団平均の間の絶対的な差異が、ＥＧＦＲドライバーＡＦが増加するにつれて増大することを示すグラフである。

図５は、低いコピー数多型を有する事例におけるヘテロ接合性コード変異体と腫瘍由来コード変異体の間の区別を示すグラフである。図５は、より低いコピー数多型が存在する場合、いずれの事例の生殖系列ＥＧＦＲＴ７９０Ｍ（５０１）が生殖系列である可能性が高いかを視覚的に区別することが可能であることも示す。

図６Ａは、ＮＧＳ結果により、３１，４１４名の固有のがん患者のデータベースからの４８名（０．１５％）のがん患者が、生殖系列ＥＧＦＲＴ７９０Ｍ突然変異を有し、これらの患者では非扁平上皮非小細胞肺がん（ＮＳＣＬＣ）が優性の診断になることが見いだされたことが明らかになることを示す表である。

図６Ｂは、参照コホートにおける生殖系列ＥＧＦＲＴ７９０Ｍの集団有病率と比較して（０．００８％）、非扁平上皮ＮＳＣＬＣを有する対象における有病率は高い（０．３４％）が、他のがんを有する対象では高くなく（０．０３％、ｐ＝０．０６）、これにより、生殖系列ＥＧＦＲＴ７９０Ｍが肺がんのリスク変異体であることが示唆されることを示すグラフである。

図７は、３つの時点で検出されたコード変異体および非コード変異体のＡＦプロット（時点２におけるＴＰ５３突然変異のＡＦを０％とした）を示すグラフである。ＥＧＦＲＴ７９０Ｍ突然変異が共通のＳＮＰ（ＥＧＦＲＱ７８７Ｑ）を含む変異体のバンド内に見られ、これは偶発的に検出された生殖系列ＥＧＦＲＴ７９０Ｍの疑いがある。

図８Ａは、外れ値が存在するが、曲線を標準偏差に当てはめることができることを示すグラフである。

図８Ｂは、外れ値が存在するが、曲線を平均値に当てはめることができることを示すグラフである。

図９は、低いコピー数多型および高ＡＦのＥＧＦＲＴ７９０Ｍを有するものと示される血漿ＮＧＳの１１事例（コホートＡ）（左側）の中で、１１事例全てが生殖系列であることが確認された（１００％陽性的中率）ことを示すグラフである。高いコピー数多型および高ＡＦのＥＧＦＲＴ７９０Ｍを有する１０事例（コホートＢ）の中では（右側）、１事例が生殖系列Ｔ７９０Ｍ突然変異について陽性であった。

詳細な説明
本明細書で使用される節の見出しは、単に組織化する目的のものであり、記載されている主題を多少なりとも限定するものとは解釈されない。

この種々の実施形態の詳細な説明では、説明のために、多数の特定の詳細を記載して、開示される実施形態の詳細な理解を提供する。しかし、これらの種々の実施形態はこれらの特定の詳細を用いても用いなくても実施できることが当業者には理解されよう。他の場合では、構造およびデバイスがブロック図の形態で示されている。さらに、当業者は、方法が提示され実施されている特定の順序は例示的なものであり、その順序は、変動させることができ、それでもなお、本明細書に開示される種々の実施形態の主旨および範囲内に留まることが意図されていることを容易に理解することができる。

これだけに限定されないが、特許、特許出願、論文、書籍、専門書、およびインターネットウェブページを含めた、本出願において引用されている文献および類似した材料は全て、あらゆる目的に関して明白にその全体が参照により組み込まれる。別段の記載がなければ、本明細書において使用される全ての科学技術用語は、本明細書に記載の種々の実施形態が属する当業者に一般に理解されている意味を有する。

本教示において考察されている温度、濃度、時間、塩基の数、カバレッジなどの前には含意的に「約」が存在し、したがって、軽微なほんのわずかな等価物が本教示の範囲内に入ることが理解されよう。本出願では、単数の使用は、他に特に指定がなければ複数を含む。また、「含む（ｃｏｍｐｒｉｓｅ）」、「含む（ｃｏｍｐｒｉｓｅｓ）」、「含む（ｃｏｍｐｒｉｓｉｎｇ）」、「含有する（ｃｏｎｔａｉｎ）」、「含有する（ｃｏｎｔａｉｎｓ）」、「含有する（ｃｏｎｔａｉｎｉｎｇ）」、「含む（ｉｎｃｌｕｄｅ）」、「含む（ｉｎｃｌｕｄｅｓ）」、および「含む（ｉｎｃｌｕｄｉｎｇ）」の使用は、限定するものではない。前述の一般的な説明および以下の詳細な説明はどちらも、単に例示的かつ説明的なものであり、本教示を制限するものではないことが理解されるべきである。

本明細書で使用される場合、「１つの（ａ）」または「１つの（ａｎ）」は、「少なくとも１つの（ａｔｌｅａｓｔｏｎｅ）」または「１つまたは複数の（ｏｎｅｏｒｍｏｒｅ）」も指す場合がある。また、「または（ｏｒ）」の使用は包括的なものであり、したがって、「ＡまたはＢ（ＡｏｒＢ）」という句は、「Ａ」が真の場合、「Ｂ」が真の場合、または「Ａ」および「Ｂ」の両方が真の場合に、真である。

さらに、文脈により必要とされない限り、単数の用語は、複数を含むものとし、複数の用語は、単数を含むものとする。一般に、本明細書に記載の細胞および組織培養、分子生物学、ならびにタンパク質およびオリゴヌクレオチドまたはポリヌクレオチド化学およびハイブリダイゼーションに関連して利用される命名法、およびそれらの技法は、当技術分野で周知であり、一般に使用されるものである。標準の技法は、例えば、核酸の精製および調製、化学的分析、組換え核酸、およびオリゴヌクレオチド合成のために使用される。酵素反応および精製技法は、製造者の仕様書に従って、または当技術分野において一般に実現される通りまたは本明細書に記載の通り実施される。本明細書に記載の技法および手順は、一般に、当技術分野で周知であり、また、本明細書全体を通して引用され、考察されている種々の一般的なおよびより詳細な参考文献に記載されている通り従来の方法に従って実施される。例えば、Sambrookら、Molecular Cloning: A Laboratory Manual（第３版、Cold Spring Harbor Laboratory Press、Cold Spring Harbor、N.Y. ２０００年）を参照されたい。本明細書に関連して利用される命名法、および本明細書に記載の実験手順および技法は、当技術分野で周知であり、一般に使用されるものである。

「システム」とは、全体を構成する実際のまたは抽象的な構成要素のセットであって、全体の中で各構成要素が少なくとも１つの他の構成要素と相互作用するまたは関連する、構成要素のセットを説明する。

「生体分子」は、タンパク質、多糖、脂質、および核酸（ＤＮＡおよびＲＮＡ）などの大きなポリマー分子、ならびに一次代謝産物、二次代謝産物、および他の天然物などの小分子を含めた、生物学的な生物体によって産生される任意の分子を指し得る。

本明細書で使用される場合、「シーケンシング」という用語は、生体分子、例えば、ＤＮＡまたはＲＮＡなどの核酸の配列を決定するために使用されるいくつもの技術のうちのいずれかを指す。例示的なシーケンシング法としては、これだけに限定されないが、標的化シーケンシング、単一分子リアルタイムシーケンシング、エクソンシーケンシング、電子顕微鏡に基づくシーケンシング、パネルシーケンシング、トランジスタ媒介性シーケンシング、ダイレクトシーケンシング、ランダムショットガンシーケンシング、サンガージデオキシターミネーションシーケンシング、全ゲノムシーケンシング、ハイブリダイゼーションによるシーケンシング、パイロシーケンシング、キャピラリー電気泳動、ゲル電気泳動、２重鎖シーケンシング、サイクルシーケンシング、一塩基伸長シーケンシング、固相シーケンシング、ハイスループットシーケンシング、大規模並列処理シグネチャーシーケンシング、エマルジョンＰＣＲ、低変性温度での共増幅－ＰＣＲ（ＣＯＬＤ－ＰＣＲ）、多重ＰＣＲ、可逆的ダイターミネーターによるシーケンシング、ペアエンドシーケンシング、短期シーケンシング、エキソヌクレアーゼシーケンシング、ライゲーションによるシーケンシング、ショートリードシーケンシング、単一分子シーケンシング、合成によるシーケンシング、リアルタイムシーケンシング、リバース－ターミネーターシーケンシング、ナノポアシーケンシング、４５４シーケンシング、ＳｏｌｅｘａＧｅｎｏｍｅＡｎａｌｙｚｅｒシーケンシング、ＳＯＬｉＤ（商標）シーケンシング、ＭＳ－ＰＥＴシーケンシング、およびこれらの組合せが挙げられる。一部の実施形態では、シーケンシングは、例えば、ＩｌｌｕｍｉｎａまたはＡｐｐｌｉｅｄＢｉｏｓｙｓｔｅｍｓから市販されている遺伝子分析機器などの遺伝子分析機器によって実施することができる。

「次世代シーケンシング」またはＮＧＳという句は、従来のサンガー法に基づく手法およびキャピラリー電気泳動に基づく手法と比較してスループットが増大しており、例えば、何十万の比較的小さな配列リードを一度に生成する能力を有するシーケンシング技術を指す。次世代シーケンシング技法のいくつかの例として、これだけに限定されないが、合成によるシーケンシング、ライゲーションによるシーケンシング、およびハイブリダイゼーションによるシーケンシングが挙げられる。

「シーケンシング実行」という句は、少なくとも１つの生体分子（例えば、ＤＮＡまたはＲＮＡなどの核酸分子）に関するいくつかの情報を決定するために実施されるシーケンシング実験の任意のステップまたは部分を指す。

ＤＮＡ（デオキシリボ核酸）は、４種のヌクレオチド；アデニン（Ａ）、チミン（Ｔ）、シトシン（Ｃ）、およびグアニン（Ｇ）を含むヌクレオチドの鎖である。ＲＮＡ（リボ核酸）は、４種のヌクレオチド；Ａ、ウラシル（Ｕ）、Ｇ、およびＣを含むヌクレオチドの鎖である。ある特定のヌクレオチドの対は、互いと相補的に特異的に結合する（相補塩基対合と称される）。ＤＮＡでは、アデニン（Ａ）とチミン（Ｔ）が対になり、シトシン（Ｃ）とグアニン（Ｇ）が対になる。ＲＮＡでは、アデニン（Ａ）とウラシル（Ｕ）が対になり、シトシン（Ｃ）とグアニン（Ｇ）が対になる。第１の核酸鎖が、第１の鎖内のヌクレオチドと相補的なヌクレオチドで構成される第２の核酸鎖と結合する場合、これらの２つの鎖が結合して二本鎖を形成する。本明細書で使用される場合、「核酸シーケンシングデータ」、「核酸シーケンシング情報」、「核酸配列」、「ヌクレオチド配列」、「ゲノム配列」、「遺伝子配列」、もしくは「断片配列」、または「核酸シーケンシングリード」は、ＤＮＡまたはＲＮＡなどの核酸の分子（例えば、全ゲノム、全トランスクリプトーム、エキソーム、オリゴヌクレオチド、ポリヌクレオチド、または断片）内のヌクレオチド塩基（例えば、アデニン、グアニン、シトシン、およびチミンまたはウラシル）の順序を示すあらゆる情報またはデータを示す。本教示は、これだけに限定されないが、キャピラリー電気泳動、マイクロアレイ、ライゲーションに基づくシステム、ポリメラーゼに基づくシステム、ハイブリダイゼーションに基づくシステム、直接または間接的なヌクレオチド識別システム、パイロシーケンシング、イオンに基づくまたはｐＨに基づく検出システム、および電子署名に基づくシステムを含めた全ての利用可能な様々な技法、プラットフォームまたは技術を使用して得られた配列情報を意図していることが理解されるべきである。

「ポリヌクレオチド」、「核酸」、または「オリゴヌクレオチド」は、ヌクレオシド間連結によって接合したヌクレオシド（デオキシリボヌクレオシド、リボヌクレオシド、またはその類似体を含む）の直鎖状ポリマーを指す。一般には、ポリヌクレオチドは、少なくとも３つのヌクレオシドを含む。オリゴヌクレオチドは、多くの場合、サイズが数単量体単位、例えば３～４から、数百単量体単位までにわたる。ポリヌクレオチドが「ＡＴＧＣＣＴＧ」などの文字の配列で表されるときは必ず、特に断りのない限り、ヌクレオチドは左から右に５’→３’の順であること、および「Ａ」はデオキシアデノシンを示し、「Ｃ」はデオキシシチジンを示し、「Ｇ」はデオキシグアノシンを示し、および「Ｔ」はチミジンを示すことが理解されよう。文字Ａ、Ｃ、Ｇ、およびＴは、当技術分野における標準である通り、塩基自体、ヌクレオシド、または塩基を含むヌクレオチドを指すために使用することができる。

「アダプター（単数または複数）（ａｄａｐｔｏｒ（ｓ））」、「アダプター（単数または複数）（ａｄａｐｔｅｒ（ｓ））」および「タグ（単数または複数）」という用語は、本明細書全体を通して同義に使用される。アダプターまたはタグは、「タグ付けされる」ポリヌクレオチド配列に、ライゲーション、ハイブリダイゼーション、または他の手法を含めた任意の手法によってカップリングすることができる。

本明細書で使用される場合、一般的な変異体は少なくとも５％のＧＭＡＦ（全マイナー対立遺伝子頻度）を有し、一方、低頻度変異体は約０．１～５％のＧＭＡＦを有し、稀な変異体は０．５％またはそれ未満のＧＭＡＦを有し、ここで、ＧＭＡＦは、所与の集団内で最小の共通対立遺伝子が存在する頻度である。

本明細書で使用される場合、「遺伝子型」は、１つまたは複数の生殖系列染色体上の遺伝子座における対立遺伝子の同一性を指す。これは、遺伝子座（「対立遺伝子の名称」）におけるホモ接合性またはヘテロ接合性の決定を含め、完全な遺伝子型（全ての染色体上の対立遺伝子の同一性）、部分的な遺伝子型（少なくとも１つの染色体上の対立遺伝子の同一性）およびヌル遺伝子型（１つまたは複数または全ての染色体上に存在しない対立遺伝子（単数または複数））を含む。

本明細書で使用される場合、体細胞変異体とは、供給源ががん性組織であるものを示す。本明細書で使用される場合、体細胞起源の遺伝子変異体とは、体細胞において最初に生じ、生殖系列において生じたものではない遺伝子変異体を指す。これは、正常な細胞が供給源である生殖系列変異体とは対照的である。変異は有糸分裂を通じて娘細胞に移り得る。その結果、生物体の残りの細胞との遺伝的差異を有する細胞の群が生じ得る。さらに、変異は生殖系列細胞では生じないので、突然変異は後代生物体に遺伝しない。

ＳＮＰは、通常、生殖系列変異体に関して、集団における一塩基多型または変異を指し得るが、ＳＮＶは、一塩基変異体を指し得、ＳＳＮＶは、体細胞一塩基変異体を指し得る（通常、がん関連変異体に関して使用される）。個体に対して、ＳＮＶという用語は、体細胞（がん性）ｃｆＤＮＡおよび生殖系列（正常な）ｃｆＤＮＡのどちらでも検出される変異に使用される。

ＣＮＶは、コピー数変異体（遺伝子レベルコピー数突然変異、通常は重複事象に起因する）を指し得る。

がんを有する対象由来の無細胞ＤＮＡ（ｃｆＤＮＡ）は、生殖系列ゲノムを有する細胞由来のＤＮＡ（例えば、「健康な細胞」由来）（「生殖系列ＤＮＡ」）、および、一般には体細胞突然変異を有するがん細胞由来のＤＮＡ（「がんＤＮＡ」）の両方を含む。無細胞ＤＮＡ試料中の生殖系列ＤＮＡおよびがんＤＮＡの相対量は、がんがどのくらい進行しているかに依存する。初期では、ほんの少量のＤＮＡが、がんＤＮＡである。これは、例えば、総ＤＮＡの約１％～５％であり得る。したがって、少量（例えば、試料中のｃｆＤＮＡの約１％～５％）の遺伝子変異体、マイナー対立遺伝子などの検出により、体細胞突然変異、したがって、がんＤＮＡの存在が示され得る。しかし、疾患が進行し、腫瘍が増大するにつれ、無細胞ＤＮＡ試料中のがんＤＮＡの量が有意に、例えば総無細胞ＤＮＡの２５％を超えるまでに増加し得る。遺伝子変異体を有するＤＮＡ分子のパーセンテージが高レベルに達すると、変異体ががん細胞に由来する体細胞突然変異を表すものなのか、または生殖系列ＤＮＡにおけるヘテロ接合性を表すものなのかが不明確になり得る。

血漿ｃｆＤＮＡのゲノム解析は、ゲノムによる発見のため、および高精度のがん薬の送達を補助するためのツールになり得るが、がん由来ＤＮＡの血漿への放出は、高度に変動し得、がんのステージ、転移性拡散の程度、および、がんが応答するのかまたは進行するのかに依存する。さらに、体細胞性ゲノム変更の血漿中レベルは治療に応答して高度に動的であり得、時々２週間以内に検出不可能になる。結果として、多くの患者において、大多数の血漿ｃｆＤＮＡが生殖系列ＤＮＡであり、大部分は良性の造血細胞または内皮細胞から放出されるものである。本開示は、ｃｆＤＮＡ次世代シーケンシング（ＮＧＳ）プロファイル内で生殖系列変異体をがん由来の体細胞変異体と区別することができ、したがって、治療選択のための腫瘍の遺伝子型決定ならびに遺伝リスクを評価するための生殖系列の特徴付けの両方を単一のアッセイでもたらす手法を提供する。

本開示によって提供される手法には、いくつもの適用がある。血漿ＮＧＳにより、時々、がん患者において、患者およびその家族に対して潜在的な臨床的意味がある偶発的な生殖系列突然変異が識別される。本明細書に記載のある特定の生殖系列ＥＧＦＲ突然変異は遺伝性がんリスクに関連すると考えられている稀なリスク対立遺伝子であり、また、本明細書に記載の手法を他の生殖系列突然変異に適用することもできる。他のがんに関連する遺伝子（例えば、ＴＰ５３またはＢＲＣＡ１／２およびミスマッチ修復遺伝子）も血漿ＮＧＳを用いてシーケンシングすることができ、これらの遺伝子の生殖系列突然変異は重大な臨床的意味を有し得る。本開示は、確認された生殖系列突然変異について、判定試験のための重要な診断能特性である陽性的中率が高く予測されたバイオインフォマティクスアルゴリズムを使用した、疑わしい生殖系列突然変異の存在について記載する。

血漿ｃｆＤＮＡ中の生殖系列と体細胞変異体の識別は、がん生物学の理解にも影響を及ぼし得る。腫瘍ＮＧＳでは、癌遺伝子における有意性が不明の変異体が潜在的なドライバー突然変異を表すものなのか、または生殖系列多型を表すものなのかを決定することが難しい場合がある。高いコピー数多型を伴わない血漿ＮＧＳ事例では、本開示により、これらの２つの型のゲノム変更を単一の（血液）試料で弁別し、それにより、生殖系列多型が誤って治療標的とされるリスクを低下させることが可能になる。さらに、段階的な血漿遺伝子型決定を経時的に使用して治療に対する応答および抵抗性をモニタリングする例では、血漿ｃｆＤＮＡ中の生殖系列と体細胞変異体を区別できることにより、腫瘍ＤＮＡレベルの正確な追跡を容易にすることができる。

腫瘍突然変異負荷量（ＴＭＢ）は、免疫チェックポイント阻害剤に対する感受性および耐性を理解するための新興のバイオマーカーである。がん内の突然変異が多いほど、免疫賦活のための細胞表面新抗原がより多く導かれ得る。しかし、腫瘍ＮＧＳを使用して突然変異性負荷量を算出することは難しい可能性があり、これは、生殖系列多型が潜在的に抗原性の体細胞突然変異と間違えられる可能性があるからである。本開示は、この難題を克服し、それにより、生殖系列変異体と体細胞変異体をバイオインフォマティクスにより区別し、抗原性体細胞変異体をより明白に識別し、それにより、生殖系列多型が潜在的に抗原性の体細胞突然変異と間違えられることを減少させる能力を提供する。

対象の生殖系列ＤＮＡは、いずれの遺伝子座においてもホモ接合性またはヘテロ接合性であり得る。遺伝子座における測定値は、試料中で対立遺伝子が観察される頻度を測定するものである対立遺伝子画分（ＡＦ）の形態をとり得る。種々の理由で（例えば、ＤＮＡシーケンシングのエラーを含む）、非がん対象のｃｆＤＮＡから生成される配列リードのセットにおいて、対象がそれに関してホモ接合性である遺伝子座にマッピングされる対立遺伝子形態（例えば、ＳＮＶ）についてのリード計数は正確に１００％ではない可能性がある。同様に、対象がそれに関してヘテロ接合性である遺伝子座にマッピングされる対立遺伝子形態についてのリード計数は正確に５０％ではない可能性がある。個体が生殖系列における遺伝子変異体に関してホモ接合性である場合（参照ゲノム内の対立遺伝子と一致しない、遺伝子変異体を有するベースコールのパーセンテージは、一般には、コールの１００％と常に同一ではないがその付近になる。同様に、個体が生殖系列における遺伝子変異体についてヘテロ接合性である場合、遺伝子変異体を有するベースコールのパーセンテージは、一般には、５０％付近になるが、例えば、３０％から７０％までにわたり得る。この範囲内の測定値は遺伝子座におけるヘテロ接合性と一致する。しかし、この測定値により決定が不明確になる可能性がある。この場合、遺伝子座における遺伝子型を、ある特定のレベルの信頼度または確率を伴ってヘテロ接合性またはホモ接合性とコールすることができる。

したがって、対象ががんを有し、遺伝子座における遺伝子変異体がヘテロ接合性と一致する範囲に入ると測定される場合、変異体が体細胞突然変異に起因することの信頼度は、ホモ接合性とヘテロ接合性の間の範囲内の測定値と比較して低下し得る。例えば、測定値が５％～２０％の範囲内であることにより、遺伝子座が遺伝子変異体をホモ接合性によって説明されるには高すぎヘテロ接合性によって説明されるには低すぎる量で含有することが示され得る。したがって、測定値が体細胞突然変異の結果である可能性がある。対照的に、測定値が約４０％であることにより、ヘテロ接合性が示され得る、または体細胞突然変異を含有するＤＮＡの存在量が示され得る（例えば、その体細胞突然変異により、試料に対して大きな相対量のＤＮＡを寄与した腫瘍が引き起こされた場合）。

本開示は、とりわけ、無細胞ＤＮＡ試料中で検出された遺伝子変異体の起源が生殖系列である（例えば、生殖系列におけるヘテロ接合性を表すものである）可能性が高いのか、または体細胞性（例えば、がん由来）である可能性が高いのかを決定する方法を提供する。特に、本開示は、ＡＦを利用してこの決定を行う方法を提供する。

一部の実施形態では、本開示は、遺伝子座における変異体が生殖系列起源であるのか、または体細胞起源であるのかを決定するために使用することができる１つまたは複数の閾値を用いて、対象由来の無細胞ＤＮＡ（ｃｆＤＮＡ）における複数のゲノム遺伝子座のそれぞれについて生殖系列であることまたは体細胞起源であることを識別するための方法を提供する。使用することができる１つの例示的な閾値は、標準偏差（ＳＴＤＥＶ）閾値である。例えば、当業者は、ゲノム遺伝子座についての定量的対立遺伝子画分（ＡＦ）を決定した後、ＡＦ値についてのＳＴＤＥＶを決定することができる。コピー数多型（ＣＮＶ）が増加するにつれ、ＳＴＤＥＶも同様に増大すると予測される。したがって、低ＳＴＤＥＶは低ＣＮＶを有すると仮定することができ、これにより、これらのデータを処理しやすくなる。ＳＴＤＥＶ閾値を使用して高ＣＮＶと低ＣＮＶを分離し、それにより、方法の予測力を増大させることができる。ＡＦについての第２の閾値をＣＮＶ閾値と組み合わせてまたはその代わりに使用することができる。ＡＦ値は生殖系列由来の変異体において体細胞変異体よりも高くなることが予測されるので、ＡＦ閾値を上回るＡＦ値を生殖系列由来に分類することができ、ＡＦ閾値を下回るＡＦ値を体細胞由来に分類することができる。例示的なＡＦ閾値としては、これだけに限定されないが、約１０％、約１１％、約１２％、約１３％、約１４％、約１５％、約１６％、約１７％、約１８％、約１９％、約２０％、約２１％、約２２％、約２３％、約２４％、約２５％、約２６％、約２７％、約２８％、約２９％、約３０％、約３１％、約３２％、約３３％、約３４％、および約３５％が挙げられる。一部の実施形態では、ＡＦ閾値は、経験的に決定される。

本明細書に記載の方法は、ｃｆＤＮＡ由来の遺伝子座が生殖系列起源のものであるのか、または体細胞起源のものであるのかを、処置に対する応答に基づいて決定するために使用することもできる。例えば、配列情報を、がんを有する対象から、がん治療薬を用いた処置前および処置後に得ることができる。がんががん治療薬に対して応答性であり、かつ、がん関連遺伝子座における変異体が体細胞起源のものである場合、そのＡＦは低下するはずである。したがって、ＡＦを処置前および処置後に測定し、それらの値を比較して、体細胞起源であるのか、または生殖系列起源であるのかを決定することができる。ＡＦ値が低減する場合、変異体を体細胞起源のものであると識別することができる。ＡＦ値が低減しない（すなわち、同じままであるまたは増大する）場合、変異体を生殖系列起源のものであると識別することができる。

一部の実施形態では、本明細書に記載の方法を使用して、遺伝子座を、推定体細胞起源、推定生殖系列起源、または起源不確定であるという最初の分類に従ってビニングすることにより、ｃｆＤＮＡ由来の遺伝子座が生殖系列起源のものであるのか、または体細胞起源のものであるのかを決定することができる。次いで、各ビンの遺伝子座について定量的ＡＦ値を決定してＡＦセットを生成し、その後それを使用して、推定体細胞起源または生殖系列起源の遺伝子座についての度数分布を生成することができる。分布を使用して、ＡＦ閾値、例えば、「推定体細胞性」ＡＦセットの中で最大の定量的ＡＦ値以上であり、かつ「推定生殖系列」ＡＦセットの中で最小の定量的ＡＦ値以下である閾値を設定することができる。したがって、「起源不確定」遺伝子座を、遺伝子座のＡＦがＡＦ閾値を上回る（したがって、生殖系列である）のか、またはＡＦ閾値を下回る（したがって、体細胞性である）のかに基づいて、生殖系列または体細胞性に分類することができる。あるいは、「推定体細胞性」ＡＦ値についての度数分布と「推定生殖系列」ＡＦ値についての度数分布の間に重複がある場合、２つの閾値を決定することができ、したがって、第１のＡＦ閾値は「推定体細胞性」ＡＦセットの中で最大の定量的ＡＦ値であり、第２のＡＦ閾値は「推定生殖系列」ＡＦセットの中で最小の定量的ＡＦ値である。そのような実施形態では、定量的ＡＦ値が「推定体細胞性」閾値を下回る遺伝子座は体細胞性に分類され、定量的ＡＦ値が「推定生殖系列」閾値を上回る遺伝子座は生殖系列に分類され、定量的ＡＦ値が２つの閾値の間である遺伝子座は不明確に分類される。次いで、これらの不明確遺伝子座に、例えば、それらが生殖系列起源のものであるのか、または体細胞起源のものであるのかについての確率を、度数分布内のそれらのＡＦ値の位置に基づいて割り当てることができる。

一部の実施形態では、本開示は、ｃｆＤＮＡにおける体細胞起源であるかまたは生殖系列起源であるゲノム遺伝子座を、試料中のゲノム遺伝子座のＡＦ値と既知の体細胞変異体または生殖系列変異体からの１つまたは複数のＡＦ値を比較することによって識別するための方法を提供する。例えば、既知の体細胞変異体からのＡＦ値を使用する場合、ＡＦ値が同様である（例えば、３０％以内、２５％以内、２０％以内、１５％以内、１０％以内、９％以内、８％以内、７％以内、６％以内、５％以内、４％以内、３％以内、２％以内、１％以内、または０．１％以内である）ゲノム遺伝子座を体細胞起源であると分類することができ、ＡＦ値が同様でない（例えば、３０％以内でない、２５％以内でない、２０％以内でない、１５％以内でない、１０％以内でない、９％以内でない、８％以内でない、７％以内でない、６％以内でない、５％以内でない、４％以内でない、３％以内でない、２％以内でない、１％以内でない、または０．１％以内でない）ゲノム遺伝子座を生殖系列起源であると分類することができる。同様に、既知の生殖系列変異体からのＡＦ値を使用する場合、ＡＦ値が同様である（例えば、３０％以内、２５％以内、２０％以内、１５％以内、１０％以内、９％以内、８％以内、７％以内、６％以内、５％以内、４％以内、３％以内、２％以内、１％以内、または０．１％以内である）ゲノム遺伝子座を生殖系列起源であると分類することができ、ＡＦ値が同様でない（例えば、３０％以内でない、２５％以内でない、２０％以内でない、１５％以内でない、１０％以内でない、９％以内でない、８％以内でない、７％以内でない、６％以内でない、５％以内でない、４％以内でない、３％以内でない、２％以内でない、１％以内でない、または０．１％以内でない）ゲノム遺伝子座を体細胞起源であると分類することができる。既知の体細胞変異体または生殖系列変異体からのＡＦ値は、試験される対象由来または複数の対照の対象由来のｃｆＤＮＡシーケンシングリードからのものであってよい。

一部の実施形態では、対象由来の無細胞ＤＮＡをシーケンシングし、１種または複数種の遺伝子変異体を検出し、数量化する。例えば、変異体を含有する遺伝子座にマッピングされる総リードの相対量（リード計数の数）を決定する。相対量がホモ接合性と一致する場合、変異体が生殖系列に存在することの高い信頼度を有し得る。そのような量は、例えば、９５％を上回る、９６％を上回る、９７％を上回る、９８％を上回る、９９％を上回る、または１００％のものであり得る。このコールを、確認のために、決定された遺伝子型と比較することができる。

相対量が当該遺伝子座におけるホモ接合性遺伝子型またはヘテロ接合性遺伝子型と相反する場合、変異体が体細胞突然変異の結果であり、生殖系列には存在しないことの高い信頼度を有し得る。そのような量は、例えば、３０％を下回る、２５％を下回る、２０％を下回る、１５％を下回る、１０％を下回る、９％を下回る、８％を下回る、７％を下回る、６％を下回る、５％を下回る、４％を下回る、３％を下回る、２％を下回る、または１％を下回るものであり得る。重ねて、このコールを、確認のために、決定された遺伝子型と比較することができる。

あるいは、相対量は、当該遺伝子座におけるヘテロ接合性と一致し得る。そのような量は、例えば、３０％から７０％の間、例えば、４０％から６０％の間、４５％から５５％の間、４６％から５４％の間、４７％から５３％の間、４８％から５２％の間、または４９％から５１％の間であり得る。一部の実施形態では、当該遺伝子座における対象の推定される生殖系列遺伝子型（例えば、ｇＤＮＡから得られる）を決定する。一部の実施形態では、遺伝子型を、無細胞ＤＮＡにおいて見いだされる変異体の同一性と比較する。ある特定の実施形態では、遺伝子型がホモ接合性である場合、変異体が体細胞突然変異を表すものであると高い信頼度で結論づけることができ、高量では最も可能性が高い。遺伝子型がヘテロ接合性であると決定され、変異体がヘテロ接合性対立遺伝子の一方と一致する場合、変異体は体細胞突然変異ではなく、生殖系列遺伝子型のヘテロ接合性を表すものであると結論づけることができる。

一部の実施形態では、ホモ接合性遺伝子型は高い信頼度で除外することができるが、ヘテロ接合性遺伝子型は高い信頼度で決定することができず、その結果、潜在的に不明確な遺伝子型が生じる。例えば、変異体は、ゲノムＤＮＡで範囲の最も端、例えば、３０％で測定される場合がある。そのような場合では、ｃｆＤＮＡにおいて検出された変異体の量が体細胞突然変異または生殖系列ヘテロ接合性を表す可能性が高いのか、または表さない可能性が高いのかを高い信頼度で決定することができない可能性がある。そのような測定値は、例えば、迅速な腫瘍細胞の成長に起因して試料中の体細胞突然変異を含有するＤＮＡの存在量がある場合に生じ得る。いずれの測定されたレベルでも、ゲノムＤＮＡにおいて検出される変異体がヘテロ接合性を表すものでない確率がいくらかあり得ることに留意するべきである。しかし、生殖系列において変異体が３０％から７０％の間で検出されることは、ヘテロ接合性を表すことが最も可能性が高く、ｃｆＤＮＡにおいて検出される変異体をこれに対して測定することができる。

そのような場合では、他の情報をベイズ法様式で使用して、ｃｆＤＮＡにおける変異体が体細胞突然変異または生殖系列におけるヘテロ接合性を表す確率を上昇または低下させることができる。例えば、集団研究により、種々の群の生殖系列における変異体の有病率を、例えば、遺伝的祖先に基づいて示すことができる。したがって、例えば、個体におけるヘテロ接合性遺伝子型のコールの信頼度が低く、変異体が対象の遺伝的祖先を共有する人において高い発生率で見いだされる場合、当該人が、実際にヘテロ接合性であること、およびｃｆＤＮＡにおける変異体が体細胞突然変異を表すものではないことを、より高い信頼度で決定することができる。逆に、変異体が対象の遺伝的祖先を共有する人において非常に低い発生率でしか見いだされない場合、当該人がヘテロ接合性ではないこと、およびｃｆＤＮＡにおける変異体が体細胞突然変異を表すものであることを、より高い信頼度で決定することができる。

本開示は、量（例えば、リード計数の量）がヘテロ接合性遺伝子型と一致するかまたは相反するかを決定するためのいくつかのやり方を意図している。一部の実施形態では、カットオフ値を使用する。例えば、遺伝子座における特定の遺伝子変異体の総リード計数の３０％であるカットオフを設定することができる。一部の実施形態では、カットオフ量を下回る値は、体細胞突然変異を表すと推定される。一部の実施形態では、カットオフ量を上回り、かつ、一般には、ホモ接合性についてのカットオフを下回る値は、ヘテロ接合性と一致すると推定することができ、したがって、変異体を体細胞突然変異であるとコールする前に、さらなる分析が必要である。

一部の実施形態では、確率関数（例えば、ベイズ関数）を使用して、量がヘテロ接合性を表す確率を算出する。ある特定のレベルを上回る確率により、比較遺伝子型が誘発され得る。

一部の実施形態では、遺伝子型の決定は、分析の常套的部分として行われる。一部の実施形態では、変異体の存在量がヘテロ接合性の解釈と一致する場合にのみ、遺伝子型の決定を行う。

一部の実施形態では、本開示の方法により、がんに関連する新規のゲノム変更を確実に検出するために必要なものよりも高い桁になり得るエラー率および偏りが低減する。一部の実施形態では、当該方法では、まず、遺伝子材料の供給源として体液試料（とりわけ、血液、唾液、汗）を採取し、その後、材料のシーケンシングを行うことによって遺伝情報を捕捉する。例えば、試料中のポリヌクレオチドのシーケンシングを行い、それにより、複数の配列リードを生じさせることができる。ポリヌクレオチドを含む試料中の腫瘍量を、試料から生成される配列リードの総数に対する変異体を有する配列リードの相対数として推定することができる。また、コピー数変異体の場合では、腫瘍量を、試験遺伝子座および対照遺伝子座における配列リードの総数の相対的過剰（遺伝子重複の場合）または相対的不足（遺伝子削減の場合）として推定することができる。したがって、例えば、実行により、癌遺伝子遺伝子座にマッピングされる１０００個のリードが生じ得、そのうち９００個が野生型に対応し、１００個ががん突然変異体に対応し、これにより、この遺伝子におけるコピー数変異体が示される。次に、遺伝情報を処理し、遺伝子変異体を識別する。遺伝子変異体は、配列変異体、コピー数変異体およびヌクレオチド修飾変異体を含む。配列変異体は、遺伝学的なヌクレオチド配列における変異である。コピー数変異体は、ゲノムの一部分のコピー数の野生型からの偏差である。遺伝子変異体としては、例えば、一塩基変異（ＳＮＰ）、挿入、欠失、反転、塩基転換、転座、遺伝子融合、染色体融合、遺伝子短縮、コピー数多型（例えば、異数性、部分的異数性、倍数性、遺伝子増幅）、核酸化学修飾の異常な変化、エピジェネティックパターンの異常な変化および核酸メチル化の異常な変化が挙げられる。次いで、プロセスにより、遺伝子材料を含有する試料中の遺伝子変異体の頻度を決定する。このプロセスはノイズが多いので、プロセスにより情報をノイズから分離する。

シーケンシング法にはエラー率がある。例えば、ＩｌｌｕｍｉｎａのｍｙＳｅｑシステムでは、１桁台前半のパーセントエラー率が生じる可能性がある。したがって、遺伝子座にマッピングされた配列リード１０００個について、約５０個のリード（約５％）がエラーを含むと予測することができる。ＷＯ２０１４／１４９１３４（TalasazおよびEltoukhy）に記載されているものなどのある特定の方法体系では、エラー率を有意に低下させることができる。エラーにより、試料中に低レベルで存在するがんからのシグナルを不明瞭にし得るノイズが生じる。したがって、試料の腫瘍量が、およそシーケンシングシステムのエラー率、例えば、およそ０．１％～５％のレベルである場合、がんに起因する遺伝子変異体に対応するシグナルをノイズに起因するものと区別することが難しい可能性がある。

がんの診断は、ノイズの存在下であっても、遺伝子変異体を分析することによって行うことができる。この分析は、配列変異体の頻度またはＣＮＶのレベルに基づくものであり、また、ノイズ範囲内の遺伝子変異体を検出するための診断信頼度指示またはレベルを確立することができる。次に、プロセスにより、診断信頼度を増大させる。これは、診断の信頼度を増大させるために複数の測定値を使用して行うこともでき、あるいは、がんが進行しているのか、寛解の状態にあるのか、または安定化しているのかを決定するために複数の時点での測定値を使用して行うこともできる。診断信頼度を使用して、病態を識別することができる。例えば、対象から取得した無細胞ポリヌクレオチドは、正常な細胞に由来するポリヌクレオチド、ならびにがん細胞などの患部細胞に由来するポリヌクレオチドを含み得る。がん細胞由来のポリヌクレオチドは、体細胞突然変異およびコピー数変異体などの遺伝子変異体を有し得る。対象由来の試料からの無細胞ポリヌクレオチドのシーケンシングを行う場合、これらのがんポリヌクレオチドは、配列変異体としてまたはコピー数変異体として検出される。無細胞ポリヌクレオチドの試料中の腫瘍ポリヌクレオチドの相対量は、「腫瘍量」と称される。

パラメータの測定値、それらがノイズ範囲内に入るか否かは、信頼区間を用いて提示することができる。経時的に試験して、信頼区間を経時的に比較することにより、がんが進行しているのか、安定化しているのか、または寛解の状態にあるのかを決定することができる。信頼区間が重複しない場合、これにより、疾患の方向が示される。

次に、プロセスにより、遺伝的報告／診断を生成する。プロセスにより、生殖系列ＳＮＰおよび体細胞性がん突然変異を受け取り、体細胞性がん突然変異に印を付け、報告を生成してヒト腫瘍委員会分析と同様の体細胞突然変異をアノテートし、研究所長により精査および認可された処置選択肢を提供する。

ここで腫瘍委員会の推奨を生成するためのプロセスに目を向けると、一部の実施形態では、システムにＧＨ２．７における６８種の遺伝子についてのｃＢｉｏポータルＳＮＶからのデータを使用し、ここで、ＧＨ２．７は、ＧｕａｒｄａｎｔＨｅａｌｔｈのパネルおよび２０１５年２月に公開された関連する試験プロセス（Ｇｕａｒｄａｎｔ３６０ｔｅｓｔ）パネルである。ｃＢｉｏＰｏｒｔａｌｆｏｒＣａｎｃｅｒＧｅｎｏｍｉｃｓ（http://cbioportal.org）により、多次元がんゲノミクスデータを探索、可視化、および解析するためのＷｅｂリソースが提供されている。ポータルにより、がん組織および細胞株からの分子プロファイリングデータを、容易に理解可能な遺伝学的事象、エピジェネティック事象、遺伝子発現事象、およびプロテオミクス事象にまとめる。クエリインタフェースとカスタマイズされたデータ記憶の組合せにより、研究者が試料、遺伝子、および経路にわたって遺伝的変更を相互作用的に探究し、基礎をなすデータに利用可能な場合、これらを臨床転帰に関連付けることが可能になる。ポータルにより、多数のプラットフォームからの遺伝子レベルデータの図式的要約、ネットワーク可視化および解析、生存分析、患者中心のクエリ、およびソフトウェアプログラムアクセスがもたらされる。システムにより、管理者３が試験を徹底的に精査すべきかどうかの決定において変異体レベルのコールならびに試料レベルのコールがもたらされる。

本明細書に記載の方法およびシステムを使用して多数のがんを検出することができる。がん細胞は、大多数の細胞と同様に、古い細胞が死に、新しい細胞で置き換えられるターンオーバーの速度によって特徴付けることができる。一般に、死細胞は、所与の対象における脈管構造と接触して、ＤＮＡまたはＤＮＡの断片を血流中に放出し得る。これは、疾患の種々のステージの間のがん細胞にも当てはまる。がん細胞は、疾患の病期に応じて、コピー数多型ならびに突然変異などの種々の遺伝子異常によって特徴付けることもできる。この現象を、本明細書に記載の方法およびシステムを使用して個体にがんが存在するかしないかを検出するために使用することができる。

一部の実施形態では、本開示の方法を、がんまたは炎症性の状態などの疾患または状態を診断するために使用することができる。「診断」という用語は、本明細書で使用される場合、患者が所与の疾患または状態に罹患しているか否かを当業者が推定および／または決定することができる方法を指す。一部の実施形態では、本開示の方法を、がんまたは炎症性の状態などの疾患または状態の予後判定において使用することができる。「予後判定」という用語は、本明細書で使用される場合、疾患または状態の再発を含めた、疾患または状態の増悪の可能性を指す。一部の実施形態では、本開示の方法を、がんまたは炎症性の状態などの疾患または状態が発症するリスクを評価するために使用することができる。一部の実施形態では、本開示の方法を、がんまたは炎症性の状態などの疾患または状態の処置の有効性を評価するために使用することができる。例えば、本開示の方法を、疾患または状態を有する患者を処置する前後（例えば、化学療法剤などの薬物を投与する前後）に使用することができる。一部の実施形態では、本開示の方法を、がんまたは炎症性の状態などの疾患または状態の増悪または退縮をモニタリングするために使用することができる。例えば、本開示の方法を異なる時点において実施して、増悪または退縮をモニタリングすることができる。一部の実施形態では、本開示の方法を、がんまたは炎症性の状態などの疾患または状態を好転させるまたは処置するための化合物を識別するために使用することができる。例えば、本開示の方法を、化合物を投与する前後に使用して、化合物により疾患が好転するまたは処置されるかどうかを決定することができる。

本明細書で使用される場合、疾患または状態を「処置すること（ｔｒｅａｔｉｎｇ）」は、臨床結果を含めた有益なまたは所望の結果を得るためのステップを取ることを指す。有益なまたは所望の臨床結果としては、これだけに限定されないが、疾患または状態に付随する１つまたは複数の症状の緩和または好転が挙げられる。本明細書で使用される場合、化合物または作用因子を対象に「投与すること（ａｄｍｉｎｉｓｔｅｒｉｎｇ）」または化合物または作用因子の対象への「投与（ａｄｍｉｎｉｓｔｒａｔｉｏｎ）」は、当業者に公知の種々の方法のうちの１つを使用して行うことができる。例えば、化合物または作用因子を、静脈内に、動脈に、皮内に、筋肉内に、腹腔内に、静脈内に、皮下に、眼に、舌下に、経口的に（経口摂取によって）、鼻腔内に（吸入によって）、脊髄内に、脳内に、および経皮的に（例えば、皮膚管を通じた吸収によって）投与することができる。化合物または作用因子を、再装填可能もしくは生分解性ポリマーデバイスもしくは他のデバイス、例えば、パッチおよびポンプ、または、化合物または作用因子の長期の、緩徐な、または制御された放出をもたらす製剤によって適切に導入することもできる。投与することはまた、例えば、１回、複数回、および／または１つもしくは複数の長期間にわたって実施することができる。一部の態様では、投与は、自己投与を含めた直接投与、および、薬物を処方する行為を含めた間接投与のどちらも含む。例えば、本明細書で使用される場合、患者に、薬物を自己投与するように、もしくは別の人に薬物を投与してもらうよう指示する医師および／または患者に薬物を処方する医師が、薬物を患者に投与することになる。一部の実施形態では、化合物または作用因子を経口的に、例えば、対象に経口摂取によって、または静脈内に、例えば、対象に注射によって投与する。一部の実施形態では、経口投与される化合物または作用因子は、長期放出もしくは緩効性製剤である、または、そのような緩徐もしくは長期放出のためのデバイスを使用して投与される。

一部の実施形態では、がんのリスクがある対象由来の血液を抜き出し、本明細書に記載の通り調製して、無細胞ポリヌクレオチドの集団を生成することができる。一例では、これは、無細胞ＤＮＡであり得る。本開示のシステムおよび方法を使用して、存在するある特定のがんに存在し得る突然変異またはコピー数多型を検出することができる。当該方法は、疾患の症状または他の特質が存在しないにもかかわらず体内のがん性細胞の存在を検出することに役立ち得る。

本明細書で使用される場合、「がん」という用語は、これだけに限定されないが、種々の型の悪性新生物を含み、その大部分は、周囲の組織に浸潤する可能性があり、また、異なる部位に転移する可能性がある（例えば、その全体があらゆる目的に関して参照により本明細書に組み込まれるPDR Medical Dictionary、第１版（１９９５年）を参照されたい）。「新生物」および「腫瘍」という用語は、細胞増殖によって正常組織よりも急速に成長し、増殖を開始させる刺激が取り除かれた後にも成長し続ける異常な組織を指す。そのような異常な組織は、構造的組織化および正常な組織との機能的協調の部分的なまたは完全な欠如を示し、良性（例えば、良性腫瘍など）または悪性（例えば、悪性腫瘍など）であり得る。がんの一般的なカテゴリーの例としては、これだけに限定されないが、癌腫（例えば、一般形態の乳がん、前立腺がん、肺がんおよび結腸がんなどの上皮細胞に由来する悪性腫瘍）、肉腫（結合組織または間葉細胞に由来する悪性腫瘍）、リンパ腫（造血細胞に由来する悪性病変）、白血病（造血細胞に由来する悪性病変）、ならびに胚細胞性腫瘍（精巣または卵巣において見いだされることが多い、成人における全能性細胞に由来する腫瘍；体の正中線、特に尾骨の先端に見いだされることが多い、胎児、乳児および若年小児における全能性細胞に由来する腫瘍）、芽細胞腫瘍（一般には、未成熟または胚組織に似た悪性腫瘍）などが挙げられる。本開示に包含されることが意図されている新生物の型の例としては、これだけに限定されないが、神経組織、血液形成組織、乳房、皮膚、骨、前立腺、卵巣、子宮、子宮頸部、肝臓、肺、脳、喉頭、胆嚢、膵臓、直腸、副甲状腺、甲状腺、副腎、免疫系、頭頸部、結腸、胃、気管支、および／または腎臓のがんに関連する新生物が挙げられる。特定の実施形態では、検出することができるがんの型および数としては、これだけに限定されないが、血液がん、脳がん、肺がん、皮膚がん、鼻のがん、咽喉がん、肝がん、骨がん、リンパ腫、膵がん、皮膚がん、腸がん、直腸がん、甲状腺がん、膀胱がん、腎がん、口腔がん（ｍｏｕｔｈｃａｎｃｅｒ）、胃がん、固形状態の腫瘍、異種腫瘍、同種腫瘍などが挙げられる。

一部の実施形態では、システムおよび方法を、がんを引き起こすまたはがんに起因する可能性がある任意の数の遺伝子異常を検出するために使用することができる。これらとしては、これだけに限定されないが、突然変異、突然変異、インデル、コピー数多型、塩基転換、転座、反転、欠失、異数性、部分的異数性、倍数性、染色体不安定性、染色体構造変更、遺伝子融合、染色体融合、遺伝子短縮、遺伝子増幅、遺伝子重複、染色体病変、ＤＮＡ病変、核酸化学修飾の異常な変化、エピジェネティックパターンの異常な変化、核酸メチル化の異常な変化、感染およびがんを挙げることができる。

さらに、本明細書に記載のシステムおよび方法を、ある特定のがんの特徴付けを補助するために使用することもできる。本開示のシステムおよび方法によってもたらされる遺伝子データにより、実践者が特異的ながんの形態のより良好な特徴付けを補助することが可能になり得る。多くの場合、がんは、組成および病期分類のどちらも不均一である。遺伝子プロファイルデータにより、特定の亜型のがんの診断または処置において重要であり得る、当該特定の亜型を特徴付けることが可能になり得る。この情報により、対象または実践者に特定の型のがんの予後に関する手がかりももたらされ得る。

一部の実施形態では、本明細書で提供されるシステムおよび方法を、特定の対象におけるあらかじめ分かっているがん、または他の疾患をモニタリングするために使用する。これにより、対象または実践者が疾患の進行に応じて処置選択肢を適合させることが可能になり得る。この例では、本明細書に記載のシステムおよび方法を、疾患の過程の特定の対象の遺伝子プロファイルを構築するために使用することができる。一部の例では、がんは、進行し、より侵攻性になり、遺伝的に不安定になる可能性がある。他の例では、がんは、良性、不活動性または休眠状態のまま留まる可能性がある。本開示のシステムおよび方法は、疾患増悪の決定において有用であり得る。

さらに、本明細書に記載のシステムおよび方法は、特定の処置選択肢の有効性を決定することにおいて有用であり得る。一部の実施形態では、処置が上首尾の場合、より多くのがんが死滅し、ＤＮＡを放出し得るので、上首尾の処置選択肢により、対象の血液中で検出されるコピー数多型または突然変異の量が実際に増加し得る。他の実施形態では、これは起こらない可能性がある。一部の実施形態では、ある特定の処置選択肢は、がんの遺伝子プロファイルと経時的に相関する。この相関は、治療の選択において有用であり得る。さらに、がんが、処置後に寛解の状態になることが観察される場合、本明細書に記載のシステムおよび方法は、残留する疾患または疾患の再発のモニタリングにおいて有用であり得る。

本明細書に記載の方法およびシステムは、がんだけに関連する突然変異およびコピー数多型の検出に限定されない。種々の他の疾患および感染により、早期検出およびモニタリングに適する可能性がある他の型の状態が生じ得る。例えば、ある特定の場合では、遺伝障害または感染症により、対象内である特定の遺伝的モザイク現象が引き起こされる可能性がある。この遺伝的モザイク現象により、観察することができるコピー数多型および突然変異が引き起こされる可能性がある。一部の実施形態では、本開示のシステムおよび方法を、体内の免疫細胞のゲノムをモニタリングするために使用することもできる。Ｂ細胞などの免疫細胞は、ある特定の疾患が存在すると迅速なクローン性増大を受ける可能性がある。クローン性増大を、コピー数多型の検出を使用してモニタリングすることができ、ある特定の免疫の状態をモニタリングすることができる。この例では、コピー数多型解析を経時的に実施して、特定の疾患がどのように進行し得るかのプロファイルを生成することができる。

一部の実施形態では、本開示の方法は、自己免疫性または免疫関連疾患または状態に適用可能である。本明細書で使用される場合、「自己免疫性または免疫関連疾患または状態」とは、免疫系に影響を及ぼすまたは免疫系に関連する任意の疾患、障害、または状態を指し得る。自己免疫性または免疫関連疾患または状態の例としては、これだけに限定されないが、炎症、抗リン脂質症候群、全身性エリテマトーデス、関節リウマチ、自己免疫性血管炎、小児脂肪便症、自己免疫性甲状腺炎、輸血後免疫、母体胎児不適合、輸血反応、ＩｇＡ欠損などの免疫欠損、分類不能型免疫不全症、薬剤誘発性ループス、真性糖尿病、１型糖尿病、２型糖尿病、若年発症糖尿病、若年性関節リウマチ、乾癬性関節炎、多発性硬化症、免疫不全、アレルギー、喘息、乾癬、アトピー性皮膚炎、アレルギー性接触皮膚炎、慢性皮膚疾患、筋萎縮性側索硬化症、化学療法誘発性傷害、移植片対宿主病、骨髄移植拒絶反応、強直性脊椎炎、アトピー性の湿疹、天疱瘡、ベーチェット病、慢性疲労症候群、線維筋痛症、化学療法誘発性傷害、重症筋無力症、糸球体腎炎、アレルギー性網膜炎、全身性硬化症、亜急性皮膚エリテマトーデス、凍瘡状エリテマトーデスを含めた皮膚エリテマトーデス、シェーグレン症候群、自己免疫性腎炎、自己免疫性血管炎、自己免疫性肝炎、自己免疫性心炎、自己免疫性脳炎、自己免疫性媒介血液病、ｌｃ－ＳＳｃ（限局皮膚硬化型の強皮症）、ｄｃ－ＳＳｃ（びまん皮膚硬化型の強皮症）、自己免疫性甲状腺炎（ＡＴ）、グレーブス病（ＧＤ）、重症筋無力症、多発性硬化症（ＭＳ）、強直性脊椎炎、移植片拒絶（ｔｒａｎｓｐｌａｎｔｒｅｊｅｃｔｉｏｎ）、免疫老化、リウマチ性／自己免疫疾患、混合性結合組織病、脊椎関節症、乾癬、乾癬性関節炎、筋炎、強皮症、皮膚筋炎、自己免疫性血管炎、混合性結合組織病、特発性血小板減少性紫斑病、クローン病、ヒトアジュバント病、変形性関節症、若年性慢性関節炎、脊椎関節症、特発性炎症性筋疾患、全身性血管炎、サルコイドーシス、自己免疫性溶血性貧血、自己免疫性血小板減少症、甲状腺炎、免疫媒介性腎疾患、中枢神経系または末梢神経系の脱髄性疾患、特発性脱髄性多発性神経障害、ギラン・バレー症候群、慢性炎症性脱髄性多発ニューロパチー、肝胆道疾患、感染性のまたは自己免疫性慢性活動性肝炎、原発性胆汁性肝硬変、肉芽腫性の肝炎、硬化性胆管炎、炎症性腸疾患、グルテン過敏性腸症、ウィップル病、自己免疫性または免疫媒介性皮膚疾患、水疱性皮膚症、多形性紅斑、アレルギー性鼻炎、アトピー性皮膚炎、食物過敏症、蕁麻疹、肺の免疫学的疾患、好酸球性肺炎、特発性肺線維症、過敏性肺臓炎、移植関連疾患、移植片拒絶（ｇｒａｆｔｒｅｊｅｃｔｉｏｎ）または移植片対宿主病、乾癬性関節炎、乾癬、皮膚炎、多発性筋炎／皮膚筋炎、中毒性表皮壊死融解症、全身性強皮症および硬化症、炎症性腸疾患に関連する応答、クローン病、潰瘍性大腸炎、呼吸窮迫症候群、成人呼吸窮迫症候群（ＡＲＤＳ）、髄膜炎、脳炎、ぶどう膜炎、大腸炎、糸球体腎炎、アレルギー性状態、湿疹、喘息、Ｔ細胞の浸潤および慢性炎症性応答を伴う状態、アテローム性動脈硬化症、自己免疫性心筋炎、白血球接着不全症、アレルギー性脳脊髄炎、サイトカインおよびＴリンパ球によって媒介される急性過敏症および遅延型過敏症に関連する免疫応答、結核、サルコイドーシス、ウェゲナー肉芽腫症を含めた肉芽腫症、顆粒球減少症、血管炎（ＡＮＣＡを含む）、再生不良性貧血、ダイアモンド・ブラックファン貧血、自己免疫性溶血性貧血（ＡＩＨＡ）を含めた免疫性溶血性貧血、悪性貧血、赤芽球ろう（ＰＲＣＡ）、第ＶＩＩＩ因子欠乏症、血友病Ａ、自己免疫性好中球減少症、汎血球減少、白血球減少症、白血球漏出を伴う疾患、中枢神経系（ＣＮＳ）炎症性障害、多臓器傷害症候群、重症筋無力症、抗原抗体複合体媒介性疾患、抗糸球体基底膜抗体病、抗リン脂質抗体症候群、アレルギー性神経炎、ベーチェット疾患、キャッスルマン症候群、グッドパスチャー症候群、ランバート・イートン症候群、レイノー症候群、シェーグレン症候群、スティーブンス・ジョンソン症候群、水疱性類天疱瘡、天疱瘡、自己免疫性多腺性内分泌障害、ライター病、スティフ・マン症候群、巨細胞性動脈炎、免疫複合体腎炎、ＩｇＡ腎症、ＩｇＭ多発ニューロパチーまたはＩｇＭ媒介性ニューロパチー、特発性血小板減少性紫斑病（ＩＴＰ）、血栓性血小板減少性紫斑病（ＴＴＰ）、自己免疫性血小板減少症、自己免疫性精巣炎および卵巣炎を含めた精巣および卵巣の自己免疫疾患、原発性甲状腺機能低下症、自己免疫性甲状腺炎を含めた自己免疫性内分泌疾患、慢性甲状腺炎（橋本甲状腺炎）、亜急性甲状腺炎、特発性甲状腺機能低下症、アジソン病、グレーブス病、自己免疫性多腺性症候群（または多腺性内分泌疾患症候群）、シーハン症候群、自己免疫性肝炎、リンパ性間質性肺炎（ＨＩＶ）、閉塞性細気管支炎（非移植）ｖｓＮＳＩＰ、ギラン・バレー症候群、大型血管炎（リウマチ性多発筋痛および巨細胞（高安）動脈炎を含む）、中型血管炎（川崎病および結節性多発性動脈炎を含む）、強直性脊椎炎、ベルジェ病（ＩｇＡ腎症）、急速進行性糸球体腎炎、原発性胆汁性肝硬変、セリアックスプルー（グルテン腸症）、寒冷グロブリン血症、および筋萎縮性側索硬化症（ＡＬＳ）が挙げられる。ある特定の実施形態では、本開示の方法は、これだけに限定されないが、喘息、多発性硬化症（例えば、再発寛解型多発性硬化症および二次性進行型多発性硬化症）、関節炎（例えば、関節リウマチ、変形性関節症、および乾癬性関節炎）、エリテマトーデス、および乾癬を含めた炎症性の状態に適用可能である。

一部の実施形態では、本開示のシステムおよび方法を、細菌またはウイルスなどの病原体によって引き起こされる可能性がある全身性感染自体をモニタリングするために使用することができる。コピー数多型またはさらには突然変異を検出することを使用して、感染の過程中に病原体の集団がどのように変化するかを決定することができる。これは、感染の過程中ウイルスが生活環の状態を変化させ、かつ／またはより毒性の強い形態に突然変異する可能性があるＨＩＶ／ＡＩＤＳまたは肝炎感染などの慢性感染の間、特に重要であり得る。

一部の実施形態では、本開示のシステムおよび方法を、移植対象をモニタリングするために使用することができる。一般に、移植される組織は、移植時に体によってある特定の程度の拒絶反応を受ける。本開示の方法を、免疫細胞が移植された組織を破壊しようとするにしたがって、宿主である体の拒絶反応の活動性を決定またはプロファイリングするために使用することができる。これは、移植された組織の状態をモニタリングすることならびに拒絶反応の処置または予防の過程を変更することにおいて有用であり得る。

さらに、一部の実施形態では、本開示の方法を、対象における異常な状態の不均一性を特徴付けるために使用することができ、方法は、対象における細胞外ポリヌクレオチドの遺伝子プロファイルを生成するステップであって、遺伝子プロファイルが、コピー数多型および突然変異分析によってもたらされた複数のデータを含むステップを含む。一部の場合では、これだけに限定されないが、がんを含め、疾患は不均一性であり得る。疾患細胞は同一でない場合がある。がんの例では、一部の腫瘍は、異なる型の腫瘍細胞、異なるステージのがんにおけるいくつかの細胞を含むことが公知である。一部の実施形態では、不均一性は、疾患の多数の病巣を含む。再度、がんの例では、多数の腫瘍病巣が存在し得、その場合、おそらく、１つまたは複数の病巣は主要な部位から拡散した転移の結果である。

本開示の方法を、不均一性疾患における異なる細胞に由来する遺伝情報の合計であるプロファイル、指紋、またはデータのセットを生成するために使用することができる。このデータのセットは、コピー数多型および突然変異分析を単独でまたは組合せで含み得る。

さらに、本開示のシステムおよび方法を、胎児起源のがんまたは他の疾患を診断する、予後判定する、モニタリングするまたは観察するために使用することができる。すなわち、これらの方法体系を妊娠中の対象において使用して、ＤＮＡおよび他のポリヌクレオチドが母体分子と共循環している可能性がある、まだ生まれていない対象のがんまたは他の疾患を診断する、予後判定する、モニタリングするまたは観察することができる。一部の実施形態では、システムおよび方法は、出生前疾患または妊娠に関連する疾患または状態を診断する、予後判定する、モニタリングするまたは観察するために有用である。本明細書で使用される場合、「出生前疾患または妊娠に関連する疾患または状態」という用語は、妊娠中の女性、胚、または胎児に影響を及ぼす任意の疾患、障害、または状態を指す。出生前のまたは妊娠に関連する状態は、妊娠に付随するまたは妊娠の結果として直接または間接的に生じる任意の疾患、障害、または状態も指し得る。これらの疾患または状態は、任意のかつ全ての先天性欠損、先天性の状態、または遺伝性の疾患または状態を含み得る。出生前疾患または妊娠に関連する疾患例としては、これだけに限定されないが、Ｒｈ血液型不適合、新生児の溶血性疾患、ベータサラセミア、性別決定、妊娠の決定、遺伝性メンデル遺伝障害、染色体異常、胎児染色体異数性、胎児染色体トリソミー、胎児染色体モノソミー、８トリソミー、１３トリソミー（パトー症候群）、１６トリソミー、１８トリソミー（エドワーズ症候群）、２１トリソミー（ダウン症候群）、Ｘ染色体連鎖障害、Ｘトリソミー（ＸＸＸ症候群）、Ｘモノソミー（ターナー症候群）、ＸＸＹ症候群、ＸＹＹ症候群、ＸＹＹ症候群、ＸＸＸＹ症候群、ＸＸＹＹ症候群、ＸＹＹＹ症候群、ＸＸＸＸＸ症候群、ＸＸＸＸＹ症候群、ＸＸＸＹＹ症候群、ＸＸＹＹＹ症候群、脆弱Ｘ症候群、胎児発育遅延、嚢胞性線維症、異常ヘモグロビン症、胎児死亡、胎児アルコール症候群、鎌状赤血球貧血、血友病、クラインフェルター症候群、ｄｕｐ（１７）（ｐ１１．２ｐ１．２）症候群、子宮内膜症、ペリツェウス・メルツバッヘル病、ｄｕｐ（２２）（ｑ１１．２ｑ１１．２）症候群、ネコ眼症候群、ネコ鳴き症候群、ウォルフ・ヒルシュホーン症候群、ウィリアムズ・ビューレン症候群、シャルコー・マリー・トゥース病、圧迫性麻痺に罹患しやすいニューロパチー、スミス・マゲニス症候群、神経線維腫症、アラジール症候群、口蓋心臓顔面症候群、ディジョージ症候群、ステロイドスルファターゼ欠損症、プラダー・ウィリー症候群、カルマン症候群、線状皮膚欠損を伴う小眼球症、副腎低形成、グリセロールキナーゼ欠損症、ペリツェウス・メルツバッヘル病、Ｙ染色体精巣決定因子、無精子症（ａ因子）、無精子症（ｂ因子）、無精子症（ｃ因子）、１ｐ３６欠失、フェニルケトン尿症、テイ・サックス病、副腎皮質過形成症、ファンコニー貧血、脊髄性筋萎縮症、デュシェンヌ型筋ジストロフィー、ハンチントン病、筋緊張性ジストロフィー、ロバートソン転座、アンジェルマン症候群、結節性硬化症、毛細血管拡張性運動失調症、開放性二分脊椎、神経管欠損、腹壁欠損、胎内発育遅延、先天性のサイトメガロウイルス、軟骨無形成症、マルファン症候群、先天性甲状腺機能低下症、先天性トキソプラズマ症、ビオチニダーゼ欠損症、ガラクトース血症、メープルシロップ尿症、ホモシスチン尿症、中鎖アシルＣｏ－Ａデヒドロゲナーゼ欠損症、構造的先天性欠損症、心臓欠損、四肢異常、内反足、無脳症、無嗅脳症／全前脳症、水頭症、無眼球症／小眼球症、無耳症／小耳症、大血管転位症、ファロー四徴症、左心低形成症候群、大動脈縮窄症、口唇裂を伴わない口蓋裂、口蓋裂を伴うまたは伴わない口唇裂、食道閉鎖症／瘻孔を伴うまたは伴わない狭窄症、小腸閉鎖症／狭窄症、肛門直腸閉鎖症／狭窄症、尿道下裂、半陰陽、腎無発生、嚢胞腎、軸前多指症、肢欠損、横隔膜ヘルニア、失明、白内障、視覚の問題、聴力損失、聴覚消失、Ｘ連鎖副腎白質ジストロフィー、レット症候群、リソソーム障害、脳性麻痺、自閉症、無舌症、白皮症、眼白子症、眼皮膚白皮症、妊娠糖尿病、アーノルド・キアリ奇形、チャージ症候群、先天性横隔膜ヘルニア、短指、無虹彩症、裂足および裂手、異色症、ドワーニアン耳症（Ｄｗａｒｎｉａｎｅａｒ）、エーラース・ダンロス症候群、表皮水疱症、ゴーラム病、橋本症候群、胎児水腫、筋緊張低下、クリッペル・ファイル症候群、筋ジストロフィー、骨形成不全症、早老症、スミス・レムリ・オピッツ症候群、色盲、Ｘ連鎖リンパ増殖性疾患、臍帯ヘルニア、腹壁破裂、子癇前症、子癇、早期分娩、早産、流産、子宮内発育遅延、子宮外妊娠、妊娠悪阻、早朝嘔吐、または上首尾の分娩誘発の可能性が挙げられる。

さらに、一部の実施形態では、報告書が提出され、インターネット経由で電子的にアクセスされる。ある特定の実施形態では、対象の所在地以外の場所で配列データの解析を行う。報告書を作成し、対象の所在地に伝達する。対象はインターネット接続可能なコンピュータを介して自身の腫瘍量を反映する報告書にアクセスする。

アノテートされた情報は、健康管理提供者が他の薬物処置選択肢を選択するためおよび／または薬物処置選択肢に関する情報を保険会社に提供するために使用することができる。方法は、例えば、ＮＣＣＮＣｌｉｎｉｃａｌＰｒａｃｔｉｃｅＧｕｉｄｅｌｉｎｅｓｉｎＯｎｃｏｌｏｇｙｏｒｔｈｅＡｍｅｒｉｃａｎＳｏｃｉｅｔｙｏｆＣｌｉｎｉｃａｌＯｎｃｏｌｏｇｙ（ＡＳＣＯ）診療ガイドライン中の状態に対して薬物処置選択肢をアノテートするステップを含み得る。

追加的な薬物処置選択肢の一覧表を作成することにより、報告書中に層別化される薬物処置選択肢を報告書中にアノテートすることができる。追加的な薬物処置は、適応外使用に関してＦＤＡに認可された薬物であってよい。１９９３ＯｍｎｉｂｕｓＢｕｄｇｅｔＲｅｃｏｎｃｉｌｉａｔｉｏｎＡｃｔ（ＯＢＲＡ）の条項では、標準の医学的大要に含まれる抗がん薬の適応外使用を包含するメディケアが要求されている。一覧へのアノテートのために使用する薬物は、ＮａｔｉｏｎａｌＣｏｍｐｒｅｈｅｎｓｉｖｅＣａｎｃｅｒＮｅｔｗｏｒｋ（ＮＣＣＮ）ＤｒｕｇｓａｎｄＢｉｏｌｏｇｉｃｓＣｏｍｐｅｎｄｉｕｍｍ」、ＴｈｏｍｓｏｎＭｉｃｒｏｍｅｄｅｘＤｒｕｇＤｅｘ（登録商標）、ＥｌｓｅｖｉｅｒＧｏｌｄＳｔａｎｄａｒｄ’ｓＣｌｉｎｉｃａｌＰｈａｒｍａｃｏｌｏｇｙｃｏｍｐｅｎｄｉｕｍ、およびＡｍｅｒｉｃａｎＨｏｓｐｉｔａｌＦｏｒｍｕｌａｒｙＳｅｒｖｉｃｅ－ＤｒｕｇＩｎｆｏｒｍａｔｉｏｎＣｏｍｐｅｎｄｉｕｍ（登録商標）を含めた、ＣＭＳに認可された大要に見いだすことができる。

特定の状態の１つまたは複数の分子マーカーを用いてがんを処置することにおいて有用であり得る実験薬の一覧表を作成することにより、薬物処置選択肢をアノテートすることができる。実験薬は、ｉｎｖｉｔｒｏデータ、ｉｎｖｉｖｏデータ、動物モデルデータ、前臨床試験データ、または臨床試験データが入手可能な薬物であってよい。データは、例えば、American Journal of Medicine、Annals of Internal Medicine、Annals of Oncology、Annals of Surgical Oncology、Biology of Blood and Marrow Transplantation、Blood、Bone Marrow Transplantation、British Journal of Cancer、British Journal of Hematology、British Medical Journal、Cancer、Clinical Cancer Research、Drugs、European Journal of Cancer (以前はthe European Journal of Cancer and Clinical Oncology)、Gynecologic Oncology、International Journal of Radiation, Oncology, Biology, and Physics、The Journal of the American Medical Association、Journal of Clinical Oncology、Journal of the National Cancer Institute、Journal of the National Comprehensive Cancer Network (NCCN)、Journal of Urology、Lancet、Lancet Oncology、Leukemia、The New England Journal of Medicine、およびRadiation Oncologyを含めた、CMS Medicare Benefit Policy Manualに列挙されている雑誌において見いだされる査読された医学文献において公開されているものであってよい。

列挙された薬物を薬物に関する科学的情報と結び付ける電子に基づく報告書のリンクを提供することにより、薬物処置選択肢をアノテートすることができる。例えば、薬物に対する臨床試験に関する情報（clinicaltrials.gov）に対するリンクを提供することができる。報告書がコンピュータまたはコンピュータウェブサイトを介して提供される場合、リンクは、情報を伴うフットノート、ウェブサイトへのハイパーリンク、ポップアップボックス、またはフライオーバーボックスなどであってよい。報告書およびアノテートされた情報は、印刷された形態で提供することができ、アノテーションは、例えば、参照へのフットノートであってよい。

報告書中の１つまたは複数の薬物処置選択肢をアノテートするための情報は、科学的情報を保管している商業的実体によりもたらされるものであってよい。健康管理提供者は、がん患者などの対象を、アノテートされた情報に列挙されている実験薬を用いて処置することができ、健康管理提供者は、アノテートされた薬物処置選択肢にアクセスし、科学的情報を検索し（例えば、医学学術論文を印刷し）、それ（例えば、印刷された学術論文）を薬物処置の提供に対する償還の要求と一緒に保険会社に提出することができる。医師は、償還を可能にするために種々の診断関連群（ＤＲＧ）コードのいずれかを使用することができる。

報告書中の薬物処置選択肢に、薬物が影響を及ぼす経路内の他の分子成分に関する情報（例えば、薬物標的である細胞表面受容体の下流のキナーゼを標的とする薬物に関する情報）をアノテートすることもできる。薬物処置選択肢に、１つまたは複数の他の分子経路成分を標的とする薬物に関する情報をアノテートすることができる。経路に関連する情報の識別および／またはアノテーションを別の会社に外注または下請けにだすことができる。

アノテートされた情報は、例えば、薬物の名称（例えば、適応外使用についてＦＤＡに認可された薬物；ＣＭＳに認可された大要に見いだされる薬物、および／または科学（医学）学術論文に記載されている薬物）、１つまたは複数の薬物処置選択肢に関する科学的情報、１つまたは複数の薬物に関する科学的情報への１つまたは複数のリンク、１つまたは複数の薬物に関する臨床試験情報（例えば、clinicaltrials.gov/からの情報）、薬物に関する科学的情報についての引用への１つまたは複数のリンクなどであってよい。

アノテートされた情報は、報告書の任意の箇所に挿入することができる。アノテートされた情報は、報告書の多数の箇所に挿入することができる。アノテートされた情報は、報告書に、層別化された薬物処置選択肢に関する節の近くに挿入することができる。アノテートされた情報は、報告書に、層別化された薬物処置選択肢とは離れた頁に挿入することができる。層別化された薬物処置選択肢を含有しない報告書に情報をアノテートすることができる。

システムは、対象（例えばがん患者）から単離された試料（例えば、腫瘍細胞）に対する薬物の影響に関する報告書も含み得る。種々の技法を使用し、がん患者由来の腫瘍を使用したｉｎｖｉｔｒｏ培養物を確立することができる。システムは、前記ｉｎｖｉｔｒｏ培養物および／または異種移植モデルを使用し、ＦＤＡに認可された適応外薬物または実験薬のハイスループットなスクリーニングを行うことも含み得る。システムは、腫瘍抗原を再発検出に関してモニタリングすることも含み得る。

システムは、がんを有する対象に関する報告書のインターネット接続可能なアクセスを提供することができる。システムには、手持ち型ＤＮＡシーケンサーを使用することもでき、デスクトップＤＮＡシーケンサーを使用することもできる。ＤＮＡシーケンサーは、ＤＮＡシーケンシングプロセスを自動化するために使用される科学的機器である。ＤＮＡの試料を考えると、ＤＮＡシーケンサーを使用して、４種の塩基アデニン、グアニン、シトシン、およびチミンの順序を決定する。ＤＮＡ塩基の順序は、リードと称される文字列として報告される。一部のＤＮＡシーケンサーは、ヌクレオチドに付着した蛍光色素由来の光信号を分析するものであるので、光学機器とも考えることができる。

ＤＮＡシーケンサーには、ＤＮＡの化学修飾、その後の特定の塩基における切断に基づくジルベールのシーケンシング法を適用することもでき、ジデオキシヌクレオチド連鎖終止反応に基づくサンガー技法を適用することもできる。サンガー法は、効率が上昇しており、放射活性が低いことに起因して人気になった。ＤＮＡシーケンサーには、シーケンシング前の試料調製のスピードが上がり、エラーが減少する、ＤＮＡ増幅（ポリメラーゼ連鎖反応－ＰＣＲ）を必要としない技法を使用することができる。さらに、シーケンシングデータが、相補鎖へのヌクレオチドの付加によって引き起こされる反応からリアルタイムで収集される。例えば、ＤＮＡシーケンサーに、蛍光色素を含有する酵素によってヌクレオチドが相補鎖に付加されると放出される光（カメラによって捕捉される）によってシーケンシングデータがもたらされる、単一分子リアルタイム（ＳＭＲＴ）と称される方法を利用することができる。あるいは、ＤＮＡシーケンサーにナノポアセンシング技術に基づく電子システムを使用することができる。

データは、処理のために、ＤＮＡシーケンサーにより直接接続によってまたはインターネットを通じてコンピュータに送信される。システムのデータ処理面は、デジタル電子回路網で、またはコンピュータハードウェア、ファームウェア、ソフトウェアで、またはそれらを組み合わせて実行することができる。本開示のデータ処理機器をプログラム可能なプロセッサによる実行のために機械可読記憶デバイスに明確に具体化されたコンピュータプログラム製品で実行することができ、本開示のデータ処理法ステップを指示のプログラムを実行するプログラム可能なプロセッサによって実施して、入力データを操作し、出力を生成することによって本開示の機能を実施することができる。本開示のデータ処理面は、データ記憶システムからデータおよび指示を受信するため、ならびにデータ記憶システムにデータおよび指示を送信するためにカップリングした少なくとも１つのプログラム可能なプロセッサ、少なくとも１つの入力デバイス、および少なくとも１つの出力デバイスを含むプログラム可能なシステムで実行可能な１つまたは複数のコンピュータプログラムで有利に実行することができる。各コンピュータプログラムは、所望であれば、高水準手続き型またはオブジェクト指向プログラミング言語で、またはアセンブリ言語もしくは機械言語で実行することができ、いずれの場合でも、言語は、コンパイルまたは解釈された言語であってよい。適切なプロセッサとしては、例として、汎用マイクロプロセッサおよび特殊用途のマイクロプロセッサが挙げられる。一般に、プロセッサは、リードオンリーメモリおよび／またはランダムアクセスメモリから指示およびデータを受信する。コンピュータプログラム指示およびデータを明確に具体化するために適する記憶デバイスとしては、例としてＥＰＲＯＭ、ＥＥＰＲＯＭ、およびフラッシュメモリデバイスなどの半導体メモリデバイスを含めた全形態の不揮発性メモリ；内臓ハードディスクおよびリムーバブルディスクなどの磁気ディスク；光磁気ディスク；ならびにＣＤ－ＲＯＭディスクが挙げられる。前述のいずれも、ＡＳＩＣ（特定用途向け集積回路）によって補足することまたはそれに組み入れることができる。

使用者との相互作用をもたらすために、本開示を、情報を使用者にディスプレイするためのモニターまたはＬＣＤ（液晶ディスプレイ）スクリーンなどのディスプレイデバイスおよびキーボード、マウスもしくはトラックボールなどの２次元ポインティングデバイス、またはデータグローブもしくはジャイロスコープマウスなどの３次元ポインティングデバイスなどの、使用者がコンピュータシステムへの入力をもたらすことができる入力デバイスを有するコンピュータシステムを使用して実行することができる。それを通じてコンピュータプログラムが使用者と相互作用するグラフィカルユーザインタフェースがもたらされるようにコンピュータシステムをプログラミングすることができる。仮想の現実、３次元ディスプレイインタフェースがもたらされるようにコンピュータシステムをプログラミングすることができる。
試験試料

本明細書に開示される方法は、１つまたは複数のポリヌクレオチドを単離するステップを含み得る。

ポリヌクレオチドは、ＤＮＡおよび／またはＲＮＡなどの任意の型の核酸を含み得る。例えば、ポリヌクレオチドがＤＮＡの場合、ゲノムＤＮＡ、相補ＤＮＡ（ｃＤＮＡ）、または任意の他のデオキシリボ核酸であってよい。ポリヌクレオチドは、無細胞ＤＮＡ（ｃｆＤＮＡ）などの無細胞核酸であってもよい。例えば、ポリヌクレオチドは、循環ｃｆＤＮＡであってよい。循環ｃｆＤＮＡは、アポトーシスまたは壊死によって体細胞から放出されたＤＮＡを含み得る。アポトーシスまたは壊死によって放出されたｃｆＤＮＡは、正常な体細胞が起源であり得る。例えば、がんに関してなど、異常な組織成長がある場合には腫瘍ＤＮＡが放出される可能性がある。循環ｃｆＤＮＡは、循環腫瘍ＤＮＡ（ｃｔＤＮＡ）を含み得る。本明細書に記載の通り、本開示の方法により、当業者が、遺伝子座（例えば、遺伝子座における変異体）の起源が生殖系列であるのかまたはｃｆＤＮＡ由来の体細胞性であるのかを、ゲノムＤＮＡからの別々の配列情報を必要とせずに決定することが可能になる。

ポリヌクレオチドは、二本鎖であっても一本鎖であってもよい。あるいは、ポリヌクレオチドは、二本鎖部分と一本鎖部分の組合せを含んでよい。

試料は、対象から単離される任意の生体試料であってよい。例えば、試料は、これだけに限定することなく、体液、全血、血小板、血清、血漿、便、赤血球、白血球（ｗｈｉｔｅｂｌｏｏｄｃｅｌｌｏｒｌｅｕｋｏｃｙｔｅ）、内皮細胞、組織生検材料、滑液、リンパ液、腹水、間質液もしくは細胞外液、歯肉溝滲出液を含めた細胞間の空間中の流体、骨髄、脳脊髄液、唾液、粘液、喀痰、精液、汗、尿、鼻ブラッシングによる流体、ｐａｐスメアによる流体、または任意の他の体液を含み得る。体液は、唾液、血液、または血清を含み得る。例えば、ポリヌクレオチドは、体液、例えば、血液または血清から単離された無細胞ＤＮＡであってよい。試料は、対象から、これだけに限定されないが、静脈穿刺、排泄物、射精、マッサージ、生検、針穿刺吸引、洗浄、擦過、外科的切開、または介入または他の手法を含めた種々の手法によって得ることができる腫瘍試料であってもよい。試料は、無細胞試料（例えば、いかなる細胞も含まない）であってよい。

試料は、無細胞ＤＮＡ分子を含有するある体積の血漿を含み得る。試料は、所与のリードの深さを実現するために十分な体積の血漿を含み得る。試料採取された血漿の体積は、少なくとも０．５ミリリットル（ｍＬ）、１ｍＬ、５ｍＬ、１０ｍＬ、２０ｍＬ、３０ｍＬ、または４０ｍＬであり得る。試料採取された血漿の体積は、最大で０．５ｍＬ、１ｍＬ、５ｍＬ、１０ｍＬ、２０ｍＬ、３０ｍＬ、または４０ｍＬであり得る。試料採取された血漿の体積は、５～２０ｍＬであり得る。試料採取された血漿の体積は、１０ｍｌ～２０ｍＬであり得る。

試料は、ゲノム当量を含有する種々の核酸の量を含み得る。例えば、ＤＮＡ約３０ｎｇの試料は、約１０，０００（１０^４）一倍体ヒトゲノム当量を含有し得、ｃｆＤＮＡの場合では、個々のポリヌクレオチド分子を約２０００億（２×１０^１１）個含有し得る。同様に、ＤＮＡ約１００ｎｇの試料は、約３０，０００一倍体ヒトゲノム当量を含有し得、ｃｆＤＮＡの場合では、個々の分子を約６０００億個含有し得る。

試料は、異なる供給源からの核酸を含み得る。例えば、試料は、生殖系列ＤＮＡまたは体細胞ＤＮＡを含み得る。試料は、突然変異を有する核酸を含み得る。例えば、試料は、生殖系列突然変異および／または体細胞突然変異を有するＤＮＡを含み得る。試料はまた、がん関連突然変異（例えば、がん関連体細胞突然変異）を有するＤＮＡも含み得る。一部の実施形態では、試料は、一塩基置換、コピー数多型、インデル、遺伝子融合、塩基転換、転座、反転、欠失、異数性、部分的異数性、倍数性、染色体不安定性、染色体構造変更、染色体融合、遺伝子短縮、遺伝子増幅、遺伝子重複、染色体病変、ＤＮＡ病変、核酸化学修飾の異常な変化、エピジェネティックパターンの異常な変化、ゲノム領域にわたる核酸（例えば、ｃｆＤＮＡ）断片の分布の異常な変化、核酸（例えば、ｃｆＤＮＡ）断片の長さの分布の異常な変化、および核酸メチル化の異常な変化のうちの１つまたは複数を含む。

本発明の方法は、ある特定の量の核酸分子、例えば、無細胞核酸分子を試料から得るステップを含み得る。例えば、方法は、約６００ｎｇに至るまで、約５００ｎｇに至るまで、約４００ｎｇに至るまで、約３００ｎｇに至るまで、約２００ｎｇに至るまで、約１００ｎｇに至るまで、約５０ｎｇに至るまで、または約２０ｎｇに至るまでの無細胞核酸分子を試料から得るステップを含み得る。方法は、少なくとも１フェムトグラム（ｆｇ）、少なくとも１０ｆｇ、少なくとも１００ｆｇ、少なくとも１ピコグラム（ｐｇ）、少なくとも１０ｐｇ、少なくとも１００ｐｇ、少なくとも１ｎｇ、少なくとも１０ｎｇ、少なくとも１００ｎｇ、少なくとも１５０ｎｇ、または少なくとも２００ｎｇの無細胞核酸分子を得るステップを含み得る。方法は、最大で１フェムトグラム（ｆｇ）、最大で１０ｆｇ、最大で１００ｆｇ、最大で１ピコグラム（ｐｇ）、最大で１０ｐｇ、最大で１００ｐｇ、最大で１ｎｇ、最大で１０ｎｇ、最大で１００ｎｇ、最大で１５０ｎｇ、または最大で２００ｎｇの無細胞核酸分子を得るステップを含み得る。方法は、１フェムトグラム（ｆｇ）～２００ｎｇ、１ピコグラム（ｐｇ）～２００ｎｇ、１ｎｇ～１００ｎｇ、１０ｎｇ～１５０ｎｇ、１０ｎｇ～２００ｎｇ、１０ｎｇ～３００ｎｇ、１０ｎｇ～４００ｎｇ、１０ｎｇ～５００ｎｇ、１０ｎｇ～６００ｎｇ、１０ｎｇ～７００ｎｇ、１０ｎｇ～８００ｎｇ、１０ｎｇ～９００ｎｇ、または１０ｎｇ～１０００ｎｇの無細胞核酸分子を得るステップを含み得る。無細胞核酸分子の量は、一倍体ゲノムコピーの数と同等であり得る。一倍体ゲノムコピーの質量は約３．３ピコグラム（ｐｇ）であるので、無細胞核酸分子の各ナノグラム（ｎｇ）は約３００一倍体ゲノムコピーと同等であり得る。例えば、無細胞核酸分子５ｎｇは、１，５００ゲノムコピーと同等であり得る。

無細胞核酸は、細胞に付着していない任意の細胞外核酸であり得る。無細胞核酸は、血液中を循環している核酸であり得る。あるいは、無細胞核酸は、本明細書に開示される他の体液、例えば、尿中の核酸であり得る。無細胞核酸は、デオキシリボ核酸（「ＤＮＡ」）、例えば、ゲノムＤＮＡ、ミトコンドリアＤＮＡ、またはその断片であり得る。無細胞核酸は、リボ核酸（「ＲＮＡ」）、例えば、ｍＲＮＡ、低分子干渉ＲＮＡ（ｓｉＲＮＡ）、マイクロＲＮＡ（ｍｉＲＮＡ）、循環ＲＮＡ（ｃＲＮＡ）、転移ＲＮＡ（ｔＲＮＡ）、リボソームＲＮＡ（ｒＲＮＡ）、低分子核小体ＲＮＡ（ｓｎｏＲＮＡ）、Ｐｉｗｉ相互作用ＲＮＡ（ｐｉＲＮＡ）、高分子非コードＲＮＡ（高分子ｎｃＲＮＡ）、またはその断片であり得る。一部の場合では、無細胞核酸は、ＤＮＡ／ＲＮＡハイブリッドである。無細胞核酸は、二本鎖、一本鎖、またはそれらのハイブリッドであり得る。無細胞核酸は、分泌または細胞死プロセス、例えば、細胞壊死およびアポトーシスによって体液中に放出され得る。

無細胞核酸は、１つまたは複数のエピジェネティックな修飾を含み得る。例えば、無細胞核酸は、アセチル化されていてよく、メチル化されていてよく、ユビキチン化されていてよく、リン酸化されていてよく、ＳＵＭＯ化されていてよく、リボシル化されていてよく、かつ／またはシトルリン化されていてよい。例えば、無細胞核酸は、メチル化無細胞ＤＮＡであってよい。

無細胞ＤＮＡは、一般には、約１１０～約２３０ヌクレオチドのサイズ分布を有し、最頻値は約１６８ヌクレオチドである。第２に、無細胞核酸分子の長さを数量化するアッセイにおいて検出される小さいピークは、２４０～４４０ヌクレオチドの範囲を有する。追加的な高次のヌクレオチドピークもより長い長さにおいて存在する。

本開示の一部の実施形態では、無細胞核酸は、最大で１，０００ヌクレオチド（ｎｔ）の長さ、最大で５００ヌクレオチドの長さ、最大で４００ヌクレオチドの長さ、最大で３００ヌクレオチドの長さ、最大で２５０ヌクレオチドの長さ、最大で２２５ヌクレオチドの長さ、最大で２００ヌクレオチドの長さ、最大で１９０ヌクレオチドの長さ、最大で１８０ヌクレオチドの長さ、最大で１７０ヌクレオチドの長さ、最大で１６０ヌクレオチドの長さ、最大で１５０ヌクレオチドの長さ、最大で１４０ヌクレオチドの長さ、最大で１３０ヌクレオチドの長さ、最大で１２０ヌクレオチドの長さ、最大で１１０ヌクレオチドの長さ、または最大で１００ヌクレオチドの長さであり得る。

本開示の一部の実施形態では、無細胞核酸は、少なくとも１，０００ヌクレオチドの長さ、少なくとも５００ヌクレオチドの長さ、少なくとも４００ヌクレオチドの長さ、少なくとも３００ヌクレオチドの長さ、少なくとも２５０ヌクレオチドの長さ、少なくとも２２５ヌクレオチドの長さ、少なくとも２００ヌクレオチドの長さ、少なくとも１９０ヌクレオチドの長さ、少なくとも１８０ヌクレオチドの長さ、少なくとも１７０ヌクレオチドの長さ、少なくとも１６０ヌクレオチドの長さ、少なくとも１５０ヌクレオチドの長さ、少なくとも１４０ヌクレオチドの長さ、少なくとも１３０ヌクレオチドの長さ、少なくとも１２０ヌクレオチドの長さ、少なくとも１１０ヌクレオチドの長さ、または少なくとも１００ヌクレオチドの長さであり得る。無細胞核酸は、１４０ヌクレオチドから１８０ヌクレオチドまでの長さであり得る。

本開示の一部の実施形態では、対象における無細胞核酸は、腫瘍に由来するものであり得る。例えば、対象から単離された無細胞ＤＮＡは、循環腫瘍ＤＮＡ、（ｃｔＤＮＡ）を含み得る。次世代シーケンシングにより、稀な突然変異の検出および測定が可能になる。無細胞ＤＮＡの画分中の生殖系列配列と相対的な突然変異の検出により、ｃｔＤＮＡの存在が示され、したがって、腫瘍の存在が示され得る。無細胞ＤＮＡのシーケンシングを行うことにより、がんの存在を示すことが分かっている遺伝子変異体の検出が可能になり得る。例えば、無細胞ＤＮＡのシーケンシングを行うことにより、がん関連遺伝子の突然変異を検出することが可能になり得る。
単離および抽出

無細胞ポリヌクレオチドは、胎児起源のもの（妊娠中の対象から取得した流体を介したもの）であり得る、または対象自体の組織に由来するものであり得る。無細胞ポリヌクレオチドは、健康な組織、腫瘍組織などの患部組織、または移植器官に由来するものであり得る。

一部の実施形態では、無細胞ポリヌクレオチドは、血液試料またはその画分に由来するものである。例えば、血液試料（例えば、約１０～約３０ｍｌ）を対象から取得し、遠心分離して細胞を除去し、得られた血漿をｃｆＤＮＡ抽出のために使用することができる。

ポリヌクレオチドの単離および抽出は、様々な技法を使用した体液の採取によって実施することができる。一部の場合では、採取は、シリンジを使用して対象から体液を吸引することを含む。他の場合では、採取は、ピペット操作または採取容器への流体の直接採取を含み得る。

体液採取後、当技術分野において利用される様々な技法を使用してポリヌクレオチドを単離し、抽出することができる。一部の場合では、ＱｉａｇｅｎＱｉａｍｐ（登録商標）ＣｉｒｃｕｌａｔｉｎｇＮｕｃｌｅｉｃＡｃｉｄＫｉｔｐｒｏｔｏｃｏｌなどの市販のキットを使用して無細胞ＤＮＡを単離し、抽出し、調製することができる。他の例では、ＱｉａｇｅｎＱｕｂｉｔ（商標）ｄｓＤＮＡＨＳＡｓｓａｙｋｉｔｐｒｏｔｏｃｏｌ、Ａｇｉｌｅｎｔ（商標）ＤＮＡ１０００ｋｉｔ、またはＴｒｕＳｅｑ（商標）ＳｅｑｕｅｎｃｉｎｇＬｉｂｒａｒｙＰｒｅｐａｒａｔｉｏｎ；Ｌｏｗ－Ｔｈｒｏｕｇｈｐｕｔ（ＬＴ）ｐｒｏｔｏｃｏｌを使用することができる。

一般に、無細胞ポリヌクレオチドは、無細胞ＤＮＡが溶液中に見いだされると細胞および体液の他の不溶性成分から分離される分割ステップによって体液から抽出し、単離することができる。分割としては、これだけに限定されないが、遠心分離または濾過などの技法を挙げることができる。他の場合では、細胞をまず無細胞ＤＮＡから分割するのではなく、溶解させることができる。例えば、インタクトな細胞のゲノムＤＮＡは、選択的沈殿によって分割することができる。試料分割は、識別子（例えば、バーコードを含む識別子など）でタグ付けされた核酸と組み合わせることもでき、識別子を使用しない方法で実施することもできる。試料を分割に分けることができ、したがって、各分割に独立にバーコードを付すことができ（例えば、分割当たり１つの固有のバーコードを用いて）、分割からのシーケンシングデータを後で再度組み合わせることができる。試料を分割に分け、分割内または分割間で核酸分子に互いに対して非固有にタグ付けすることができる。一部の実施形態では、試料を、識別子を使用せずに分割に分けることができる。一例では、ｃｆＤＮＡ試料を４つまたはそれよりも多くの分割に分け、ここで、各分割は空間的にアドレス可能なロケーションである。試料の調製およびシーケンシングを空間的にアドレス可能な分割それぞれに対して実施し、アドレス可能なロケーションをバイオインフォマティクスで利用して、固有の分子をさらに識別することができる。一例では、核酸分子は、例えば、異なる型の核酸分子（例えば、ＤＮＡなどの二本鎖核酸ならびに／またはＲＮＡおよび／もしくは一本鎖ＤＮＡなどの一本鎖核酸）を含有する分割に分けることができる。ＤＮＡを含めた無細胞ポリヌクレオチドは、可溶性のままであり得、不溶性ゲノムＤＮＡから分離し、抽出することができる。一般に、異なるキットに特異的な緩衝剤の添加および他の洗浄ステップの後、イソプロパノール沈殿を使用してＤＮＡを沈殿させることができる。シリカに基づくカラムまたはビーズ（例えば、磁気ビーズなど）などのさらなる浄化ステップを使用して、夾雑物または塩を除去することができる。一般的なステップを特定の適用のために最適化することができる。例えば、収率などの手順のある特定の側面を最適化するために、反応全体を通して非特異的なバルクキャリアポリヌクレオチドを添加することができる。

一部の実施形態では、血漿試料を処理してプロテイナーゼＫを分解し、イソプロパノールを用いてＤＮＡを沈殿させ、その後、Ｑｉａｇｅｎカラムで捕捉する。次いで、ＤＮＡを溶出させることができる（例えば、水またはＴｒｉｓ－ＥＤＴＡ（ＴＥ）溶出緩衝剤などの溶離液１００マイクロリットル（μｌ）を使用して）。一部の実施形態では、ＤＮＡの一部分を、例えば、ＡｇｅｎＣｏｕｒｔ（登録商標）ＡＭＰｕｒｅ（登録商標）ビーズなどの固相可逆的固定化（ＳＰＲＩ）ビーズを使用し、サイズに基づいて選択することができる（例えば、５００ヌクレオチドまたはそれ未満の長さのＤＮＡ）。一部の実施形態では、ＤＮＡをより小さな体積、例えば、水３０μｌなどに再懸濁させ、ＤＮＡのサイズ分布をチェックすることができる（例えば、１６６ヌクレオチドにおける主要なピークおよび３３０ヌクレオチドにおける小さいピークをチェックするため）。ＤＮＡおよそ５ｎｇは約１５００一倍体ゲノム当量（「ＨＧＥ」）と同等であり得る。

抽出後、試料から、１マイクログラム（μｇ）までのＤＮＡ、８００ｎｇまでのＤＮＡ、５００ｎｇまでのＤＮＡ、３００ｎｇまでのＤＮＡ、２５０ｎｇまでのＤＮＡ、２００ｎｇまでのＤＮＡ、１８０ｎｇまでのＤＮＡ、１６０ｎｇまでのＤＮＡ、１４０ｎｇまでのＤＮＡ、１２０ｎｇまでのＤＮＡ、１００ｎｇまでのＤＮＡ、９０ｎｇまでのＤＮＡ、８０ｎｇまでのＤＮＡ、７０ｎｇまでのＤＮＡ、６０ｎｇまでのＤＮＡ、５０ｎｇまでのＤＮＡ、４０ｎｇまでのＤＮＡ、３０ｎｇまでのＤＮＡ、２０ｎｇまでのＤＮＡ、１０ｎｇまでのＤＮＡ、９ｎｇまでのＤＮＡ、８ｎｇまでのＤＮＡ、７ｎｇまでのＤＮＡ、６ｎｇまでのＤＮＡ、５ｎｇまでのＤＮＡ、４ｎｇまでのＤＮＡ、３ｎｇまでのＤＮＡ、２ｎｇまでのＤＮＡ、または１ｎｇまでのＤＮＡが生じ得る。

抽出後、試料から、少なくとも１ｎｇのＤＮＡ、少なくとも３ｎｇのＤＮＡ、少なくとも５ｎｇのＤＮＡ、少なくとも７ｎｇのＤＮＡ、少なくとも１０ｎｇのＤＮＡ、少なくとも２０ｎｇのＤＮＡ、少なくとも３０ｎｇのＤＮＡ、少なくとも４０ｎｇのＤＮＡ、少なくとも５０ｎｇのＤＮＡ、少なくとも７０ｎｇのＤＮＡ、少なくとも１００ｎｇのＤＮＡ、少なくとも１５０ｎｇのＤＮＡ、少なくとも２００ｎｇのＤＮＡ、少なくとも２５０ｎｇのＤＮＡ、少なくとも３００ｎｇのＤＮＡ、少なくとも４００ｎｇのＤＮＡ、少なくとも５００ｎｇのＤＮＡ、または少なくとも７００ｎｇのＤＮＡが生じ得る。

無細胞核酸の１つまたは複数を試料中の細胞断片から単離することができる。一部の場合では、無細胞核酸の１つまたは複数を、膜、細胞小器官、ヌクレオソーム、エキソソーム、または核、ミトコンドリア、粗面小胞体、リボソーム、滑面小胞体、葉緑体、ゴルジ装置、ゴルジ体、糖タンパク質、糖脂質、槽、リポソーム、ペルオキシソーム、グリオキシソーム、中心粒、細胞骨格、リソソーム、絨毛、鞭毛、収縮胞、小胞、核膜、液胞、微小管、核小体、原形質膜、エンドソーム、クロマチン、またはこれらの組合せから単離する。無細胞核酸の１つまたは複数を、１つまたは複数のエキソソームから単離することができる。一部の場合では、無細胞核酸の１つまたは複数を、１つまたは複数の細胞表面結合核酸から単離する。

無細胞ＤＮＡの精製は、これだけに限定されないが、例えばＳｉｇｍａＡｌｄｒｉｃｈ、ＬｉｆｅＴｅｃｈｎｏｌｏｇｉｅｓ、Ｐｒｏｍｅｇａ、Ａｆｆｙｍｅｔｒｉｘ、ＩＢＩなどの会社から提供される市販のキットおよびプロトコールの使用を含めた任意の方法体系を使用して実現することができる。キットおよびプロトコールは、市販されていないものであってもよい。

単離後、一部の場合では、無細胞ポリヌクレオチドを、１つまたは複数の試薬（例えば、リガーゼ、プロテアーゼ、ポリメラーゼ）などの１つまたは複数の追加的な材料と予備混合した後、シーケンシングを行ってもよい。

試料中の頻度が０．０００５％ほどの低さの遺伝子変異体を検出するための十分なリードの深さで無細胞ＤＮＡのシーケンシングを行うことができる。試料中の頻度が０．００１％ほどの低さの遺伝子変異体を検出するために十分なリードの深さで無細胞ＤＮＡのシーケンシングを行うことができる。試料中の頻度が１．０％、０．７５％、０．５％、０．２５％、０．１％、０．０７５％、０．０５％、０．０２５％、０．０１％、または０．００５％ほどの低さの遺伝子変異体を検出するために十分なリードの深さで無細胞ＤＮＡのシーケンシングを行うことができる。したがって、無細胞ＤＮＡのシーケンシングを行うことにより、対象におけるがんの非常に高感度の検出が可能になる。

本発明の方法を、対象におけるがんを検出するために使用することができる。がんを有することが分かっていない、またはがんを有する疑いがある対象において、がんが存在するかしないかを診断するために、無細胞ＤＮＡのシーケンシングを行うことができる。無細胞ＤＮＡのシーケンシングを行うことにより、がんの早期検出のため、または、既知のがんの「生検」のための非侵襲的方法がもたらされる。がんと診断された対象において、がんに関する情報をもたらすために、無細胞ＤＮＡのシーケンシングを行うことができる。処置の有効性を決定するために、対象においてがんの処置前および処置後に無細胞ＤＮＡのシーケンシングを行うことができる。

対象は、がんを有する疑いがある場合もあり、がんを有する疑いがない場合もある。対象は、がんの診断と一致した症状を経験している場合がある。対象は、いかなる症状も経験していない場合がある、またはがんと一致しない症状を示している場合がある。対象は、生物学的イメージング法に基づいてがんを有すると診断されている場合がある。対象は、イメージング法によって検出可能ながんを有さない場合がある。イメージング法は、陽電子放出断層撮影、磁気共鳴画像法、Ｘ線、コンピュータ化軸方向断層撮影、超音波、またはこれらの組合せであり得る。

対象は、がんを示す場合がある。あるいは、対象は、がんを検出可能に示さない場合がある。一部の場合では、がんを検出可能に示さない対象は、がんを有し得るが、検出可能な症状を有さない。がんを有することが分かっていない、またはがんを有する疑いがある対象は、種々のがんスクリーニング方法を使用して検出可能でないがんを有し得る。種々のイメージング法を使用してがんが検出されない場合がある。イメージング法としては、例えば、陽電子放出断層撮影、磁気共鳴画像法、Ｘ線、コンピュータ化軸方向断層撮影、内視鏡検査、超音波、またはこれらの組合せを挙げることができる。がんを有することまたはがんを有する疑いがあることが分かっていない対象に関しては、組織生検、骨髄穿刺、ｐａｐ試験、便潜血反応検査、タンパク質バイオマーカー検出、例えば、前立腺特異的抗原検査、アルファ－フェトプロテイン血液検査、またはＣＡ－１２５検査、またはこれらの組合せなどの検査により、対象ががんを有さないことが示され得る、例えば、対象に関してがんが検出されない。他の場合では、がんを検出可能に示していない対象は、いかなるがんも有さない可能性がある。

対象は、がんを有するリスクが一般集団よりも高い場合がある。対象は、がんの家族歴を有し得る。対象は、がんリスクの既知の遺伝源を有し得る。対象は、がんリスクを上昇させるまたは引き起こすことが公知の環境条件に曝露されていた場合がある。対象は、がんの危険因子が年齢および／または性別だけの患者であり得る。対象は、既知のがん危険因子を有さない場合がある。

対象は、がんと診断されている場合がある。がんは、初期または後期であり得る。がんは、転移性の場合もあり、転移性でない場合もある。対象が診断を受けた可能性があるがんの型としては、これだけに限定されないが、癌腫、肉腫、リンパ腫、白血病、胚細胞性腫瘍および芽細胞腫が挙げられる。対象が診断を受けた可能性があるがんの型としては、これだけに限定されないが、急性リンパ芽球性白血病（ＡＬＬ）、急性骨髄性白血病、副腎皮質癌、成人急性骨髄性白血病、成人原発部位不明癌、成人悪性中皮腫、ＡＩＤＳ関連がん、ＡＩＤＳ関連リンパ腫、肛門がん、虫垂がん、星状細胞腫、小児期小脳または大脳基底細胞癌、胆管がん、膀胱がん、骨腫瘍、骨肉腫／悪性線維性組織球腫、脳がん、脳幹神経膠腫、乳がん、気管支腺腫／カルチノイド、バーキットリンパ腫、カルチノイド腫瘍、原発不明癌、中枢神経系リンパ腫、小脳星状細胞腫、大脳星状細胞腫／悪性神経膠腫、子宮頸がん、小児期急性骨髄性白血病、小児期原発部位不明がん、小児期がん、小児期大脳星状細胞腫、小児期中皮腫、軟骨肉腫、慢性リンパ球性白血病、慢性骨髄性白血病、慢性骨髄増殖性疾患、結腸がん、皮膚Ｔ細胞リンパ腫、線維形成性小円形細胞腫瘍、子宮体がん、子宮内膜がん、上衣腫、類上皮血管内皮腫（ＥＨＥ）、食道がん、ユーイングファミリー腫瘍肉腫、ユーイングファミリー腫瘍中のユーイング肉腫、頭蓋外胚細胞性腫瘍、性腺外胚細胞性腫瘍、肝外胆管がん、眼がん、眼内黒色腫、胆嚢がん、胃がん（Ｇａｓｔｒｉｃ（ｓｔｏｍａｃｈ）ｃａｎｃｅｒ）、胃カルチノイド、消化管カルチノイド腫瘍、消化管間質腫瘍（ＧＩＳＴ）、妊娠性絨毛性腫瘍、脳幹の神経膠腫、神経膠腫、ヘアリー細胞白血病、頭頸部がん、心臓がん、肝細胞（肝）がん、ホジキンリンパ腫、下咽頭がん、視床下部および視経路神経膠腫、膵島細胞癌（膵内分泌部）、カポジ肉腫、腎がん（腎細胞がん）、喉頭がん、急性リンパ性白血病（Ｌｅｕｋａｅｍｉａ、ａｃｕｔｅｌｙｍｐｈｏｂｌａｓｔｉｃ）（急性リンパ性白血病（ａｃｕｔｅｌｙｍｐｈｏｃｙｔｉｃｌｅｕｋａｅｍｉａ）とも称される）、急性骨髄性白血病（Ｌｅｕｋａｅｍｉａ、ａｃｕｔｅｍｙｅｌｏｉｄ）（急性骨髄性白血病（ａｃｕｔｅｍｙｅｌｏｇｅｎｏｕｓｌｅｕｋｅｍｉａ）とも称される）、慢性リンパ性白血病（Ｌｅｕｋａｅｍｉａ、ｃｈｒｏｎｉｃｌｙｍｐｈｏｃｙｔｉｃ）（慢性リンパ性白血病（ｃｈｒｏｎｉｃｌｙｍｐｈｏｃｙｔｉｃｌｅｕｋｅｍｉａ）とも称される）、白血病、慢性骨髄性白血病（Ｌｅｕｋｅｍｉａ、ｃｈｒｏｎｉｃｍｙｅｌｏｇｅｎｏｕｓ）（慢性骨髄性白血病（ｃｈｒｏｎｉｃｍｙｅｌｏｉｄｌｅｕｋｅｍｉａ）とも称される）、白血病、ヘアリー細胞、口唇・口腔がん、脂肪肉腫、肝がん（原発性）、肺がん、非小細胞、肺がん、小細胞、リンパ腫（ＡＩＤＳ関連）、リンパ腫、マクログロブリン血症、ワルデンシュトレーム、男性乳がん、骨の悪性線維性組織球腫／骨肉腫、髄芽腫、黒色腫、メルケル細胞がん、原発不明転移性扁平上皮性頸部がん、口腔がん（ｍｏｕｔｈｃａｎｃｅｒ）、多発性内分泌腫瘍症候群、小児期、多発性骨髄腫（骨髄のがん）、多発性骨髄腫／形質細胞新生物、菌状息肉腫、骨髄異形成症候群、骨髄異形成の／骨髄増殖性疾患、慢性骨髄性白血病（ｍｙｅｌｏｇｅｎｏｕｓｌｅｕｋｅｍｉａ、ｃｈｒｏｎｉｃ）、粘液腫、鼻腔・副鼻腔がん、上咽頭癌、神経芽細胞腫、非ホジキンリンパ腫、非小細胞肺がん、乏枝神経膠腫、口腔がん（ｏｒａｌｃａｎｃｅｒ）、中咽頭がん、骨肉腫／骨の悪性線維性組織球腫、卵巣がん、卵巣上皮がん（表層上皮性・間質性腫瘍）、卵巣胚細胞性腫瘍、卵巣低悪性度腫瘍、膵がん、膵がん、膵島細胞、副鼻腔および鼻腔がん、副甲状腺がん、陰茎がん、咽頭がん、褐色細胞腫、松果体星状細胞腫、松果体胚細胞腫、松果体芽腫およびテント上原始神経外胚葉性腫瘍、下垂体腺腫、形質細胞新形成／多発性骨髄腫、胸膜肺芽腫、原発性中枢神経系リンパ腫、前立腺がん、直腸がん、腎細胞癌（腎がん）、腎盤および尿管移行上皮がん、網膜芽細胞腫、横紋筋肉腫、唾液腺がん、セザリー症候群、皮膚がん（黒色腫）、皮膚がん（非黒色腫性の）、皮膚癌、メルケル細胞、小細胞肺がん、小腸がん、軟部肉腫、扁平上皮細胞癌、転移性原発不明扁平上皮性頸部がん、胃がん、テント上原始神経外胚葉性腫瘍、皮膚Ｔ細胞リンパ腫、精巣がん、咽喉がん、胸腺腫および胸腺癌、胸腺腫、甲状腺がん、腎盤および尿管の移行上皮がん、尿管および腎盤の移行上皮がん、尿道がん、子宮肉腫、膣がん、視覚路および視床下部神経膠腫、視覚路および視床下部神経膠腫、小児期、外陰がん、ワルデンシュトレームマクログロブリン血症、およびウィルムス腫瘍（腎がん）が挙げられる。

対象は、がんに対する処置を以前に受けていてよい。対象は、外科的処置、放射線処置、化学療法、標的化がん治療薬またはがん免疫療法を受けていてよい。対象は、がんワクチンを用いた処置を受けていてよい。対象は、実験的ながん処置を用いた処置を受けていてよい。対象は、がん処置を受けていなくてよい。対象は、がんからの寛解の状態にあってよい。対象は、がんに対する処置を以前に受けており、いかなる症状も検出可能に示していなくてよい。
遺伝子解析

ある特定のＤＮＡシーケンシング法では、配列捕捉を使用して、目的の配列を富化させる。配列捕捉は、一般には、目的の配列とハイブリダイズするオリゴヌクレオチドプローブの使用を伴う。プローブセット戦略は、目的の領域にわたってプローブをタイリングすることを伴い得る。そのようなプローブは、例えば、約６０～１２０塩基長であってよい。セットの深さは、約２×、３×、４×、５×、６×、８×、９×、１０×、１５×、２０×、５０×またはそれよりも深くてよい。配列捕捉の効果は、プローブの配列と相補的（またはほぼ相補的）である標的分子内の配列の長さに一部依存する。富化された核酸分子は、５，０００塩基よりも多くのヒトゲノム、１０，０００塩基よりも多くのヒトゲノム、１５，０００塩基よりも多くのヒトゲノム、２０，０００塩基よりも多くのヒトゲノム、２５，０００塩基よりも多くのヒトゲノム、３０，０００塩基よりも多くのヒトゲノム、３５，０００塩基よりも多くのヒトゲノム、４０，０００塩基よりも多くのヒトゲノム、４５，０００塩基よりも多くのヒトゲノム、５０，０００塩基よりも多くのヒトゲノム、５５，０００塩基よりも多くのヒトゲノム、６０，０００塩基よりも多くのヒトゲノム、６５，０００塩基よりも多くのヒトゲノム、７０，０００塩基よりも多くのヒトゲノム、７５，０００塩基よりも多くのヒトゲノム、８０，０００塩基よりも多くのヒトゲノム、８５，０００塩基よりも多くのヒトゲノム、９０，０００塩基よりも多くのヒトゲノム、９５，０００塩基よりも多くのヒトゲノム、または１００，０００塩基よりも多くのヒトゲノムを表し得る。富化された核酸分子は、５，０００塩基以下のヒトゲノム、１０，０００塩基以下のヒトゲノム、１５，０００塩基以下のヒトゲノム、２０，０００塩基以下のヒトゲノム、２５，０００塩基以下のヒトゲノム、３０，０００塩基以下のヒトゲノム、３５，０００塩基以下のヒトゲノム、４０，０００塩基以下のヒトゲノム、４５，０００塩基以下のヒトゲノム、５０，０００塩基以下のヒトゲノム、５５，０００塩基以下のヒトゲノム、６０，０００塩基以下のヒトゲノム、６５，０００塩基以下のヒトゲノム、７０，０００塩基以下のヒトゲノム、７５，０００塩基以下のヒトゲノム、８０，０００塩基以下のヒトゲノム、８５，０００塩基以下のヒトゲノム、９０，０００塩基以下のヒトゲノム、９５，０００塩基以下のヒトゲノム、または１００，０００塩基以下のヒトゲノムを表し得る。富化された核酸分子は、５，０００～１００，０００塩基のヒトゲノム、５，０００～５０，０００塩基のヒトゲノム、５，０００～３０，０００塩基のヒトゲノム、１０，０００～１００，０００塩基のヒトゲノム、１０，０００～５０，０００塩基のヒトゲノム、または１０，０００～３０，０００塩基のヒトゲノムを表し得る。富化された核酸分子は、ヌクレオチド変異体（ＳＮＶ）、コピー数変異体（ＣＮＶ）、挿入または欠失（例えば、インデル）、がんに関連するヌクレオソーム領域、遺伝子融合、および反転などの遺伝子変異体を含めた種々の核酸特徴を表し得る。

一般に、本明細書で提供される方法およびシステムは、下流適用シーケンシング反応のための無細胞ポリヌクレオチド配列を調製するために有用である。シーケンシング法は、大規模並列処理シーケンシング、すなわち、少なくとも１００個、１０００個、１０，０００個、１００，０００個、１００万個、１０００万個、１億個、１０億個、または１００億個のいずれかのポリヌクレオチド分子を同時に（または立て続けに）シーケンシングするものであってよい。シーケンシング法としては、これだけに限定されないが、ハイスループットシーケンシング、パイロシーケンシング、合成によるシーケンシング、単一分子シーケンシング、ナノポアシーケンシング、半導体シーケンシング、ライゲーションによるシーケンシング、ハイブリダイゼーションによるシーケンシング、ＲＮＡ－Ｓｅｑ（Ｉｌｌｕｍｉｎａ）、ＤｉｇｉｔａｌＧｅｎｅＥｘｐｒｅｓｓｉｏｎ（Ｈｅｌｉｃｏｓ）、次世代シーケンシング、単一分子合成によるシーケンシング（ＳＭＳＳ）（Ｈｅｌｉｃｏｓ）、大規模並列処理シーケンシング、ＣｌｏｎａｌＳｉｎｇｌｅＭｏｌｅｃｕｌｅＡｒｒａｙ（Ｓｏｌｅｘａ）、ショットガンシーケンシング、マクサム・ギルバートまたはサンガーシーケンシング、プライマーウォーキング、ＰａｃＢｉｏ、ＳＯＬｉＤ、ＩｏｎＴｏｒｒｅｎｔ、またはＮａｎｏｐｏｒｅプラットフォームを使用したシーケンシングおよび当技術分野で公知の任意の他のシーケンシング法を挙げることができる。

ゲノム核酸試料（例えば、ゲノムＤＮＡ試料）中の個々のポリヌクレオチド断片を、非固有識別子でタグ付けすること、例えば、個々のポリヌクレオチド断片を非固有にタグ付けすることによって固有に識別することができる。
シーケンシングパネル

腫瘍を示す突然変異の検出の可能性を改善するために、シーケンシングされたＤＮＡの領域は、遺伝子またはゲノム領域のパネルを含み得る。限定された領域（例えば、限定されたパネル）をシーケンシングのために選択することにより、必要な総シーケンシング（例えば、シーケンシングするヌクレオチドの総量）を減少させることができる。シーケンシングパネルにより、複数の異なる遺伝子または領域を標的として、単一のがん、がんのセット、または全てのがんを検出することができる。

一部の態様では、複数の異なる遺伝子またはゲノム領域を標的とするパネルを選択し、したがって、決定されるがんを有する対象の割合により、パネル内の１つまたは複数の異なる遺伝子またはゲノム領域における遺伝子変異体または腫瘍マーカーが示される。パネルを、シーケンシングの領域が固定数の塩基対に限定されるように選択することができる。パネルを、所望の量のＤＮＡがシーケンシングされるように選択することができる。パネルを、所望の配列リードの深さが実現されるようにさらに選択することができる。パネルを、ある量のシーケンシングされる塩基対に対して所望の配列リードの深さまたは配列リードカバレッジが実現されるように選択することができる。パネルを、試料中の１種または複数種の遺伝子変異体を検出するための理論的感度、理論的特異度および／または理論的正確度が実現されるように選択することができる。

領域のパネルを検出するためのプローブは、ホットスポット領域を検出するためのプローブならびにヌクレオソーム認識プローブ（例えば、ＫＲＡＳコドン１２および１３）を含んでよく、ヌクレオソーム結合パターンおよびＧＣ配列組成の影響を受けるｃｆＤＮＡカバレッジおよび断片サイズ変動の分析に基づく捕捉が最適化されるように設計することができる。本明細書で使用される領域は、ヌクレオソームの位置およびＧＣモデルに基づいて最適化された非ホットスポット領域も含んでよい。パネルは、例えば腫瘍抑制因子遺伝子（例えば、結腸直腸がんにおけるＳＥＰＴ９／ＶＩＭ））のプロモーターにおける、起源組織（例えば、組織にわたって最も多様な転写プロファイルを有する遺伝子を表す５０～１００のベイト（必ずしもプロモーターではない）を定義するための、公開文献の使用）、全ゲノム足場（例えば、コピー数に基づいて並べるために少数のプローブを用いて染色体にわたって超保存的ゲノム含有量を識別し、低密度にタイリングするため）、転写開始点（ＴＳＳ）／ＣｐＧアイランド（例えば、示差的なメチル化領域（例えば、示差的にメチル化された領域（ＤＭＲ）を捕捉するため）を識別するためのサブパネルを含めた複数のサブパネルを含んでよい。一部の実施形態では、起源組織についてのマーカーは、組織特異的エピジェネティックマーカーである。

目的のゲノム上の位置の例示的な一覧表は、表１および表２において見ることができる。一部の実施形態では、本開示の方法において使用されるゲノム領域は、表１の遺伝子のうちの少なくとも５種、少なくとも１０種、少なくとも１５種、少なくとも２０種、少なくとも２５種、少なくとも３０種、少なくとも３５種、少なくとも４０種、少なくとも４５種、少なくとも５０種、少なくとも５５種、少なくとも６０種、少なくとも６５種、少なくとも７０種、少なくとも７５種、少なくとも８０種、少なくとも８５種、少なくとも９０種、少なくとも９５種、または９７種の少なくとも一部分を含む。一部の実施形態では、本開示の方法において使用されるゲノム領域は、表１のＳＮＶのうちの少なくとも５種、少なくとも１０種、少なくとも１５種、少なくとも２０種、少なくとも２５種、少なくとも３０種、少なくとも３５種、少なくとも４０種、少なくとも４５種、少なくとも５０種、少なくとも５５種、少なくとも６０種、少なくとも６５種、または７０種を含む。一部の実施形態では、本開示の方法において使用されるゲノム領域は、表１のＣＮＶのうちの少なくとも１種、少なくとも２種、少なくとも３種、少なくとも４種、少なくとも５種、少なくとも６種、少なくとも７種、少なくとも８種、少なくとも９種、少なくとも１０種、少なくとも１１種、少なくとも１２種、少なくとも１３種、少なくとも１４種、少なくとも１５種、少なくとも１６種、少なくとも１７種、または１８種を含む。一部の実施形態では、本開示の方法において使用されるゲノム領域は、表１の融合物のうちの少なくとも１種、少なくとも２種、少なくとも３種、少なくとも４種、少なくとも５種、または６種を含む。一部の実施形態では、本開示の方法において使用されるゲノム領域は、表１のインデルのうちの少なくとも１種、少なくとも２種、または３種の少なくとも一部分を含む。一部の実施形態では、本開示の方法において使用されるゲノム領域は表２の遺伝子の、少なくとも５種、少なくとも１０種、少なくとも１５種、少なくとも２０種、少なくとも２５種、少なくとも３０種、少なくとも３５種、少なくとも４０種、少なくとも４５種、少なくとも５０種、少なくとも５５種、少なくとも６０種、少なくとも６５種、少なくとも７０種、少なくとも７５種、少なくとも８０種、少なくとも８５種、少なくとも９０種、少なくとも９５種、少なくとも１００種、少なくとも１０５種、少なくとも１１０種、または１１５種の少なくとも一部分を含む。一部の実施形態では、本開示の方法において使用されるゲノム領域は、表２のＳＮＶの少なくとも５種、少なくとも１０種、少なくとも１５種、少なくとも２０種、少なくとも２５種、少なくとも３０種、少なくとも３５種、少なくとも４０種、少なくとも４５種、少なくとも５０種、少なくとも５５種、少なくとも６０種、少なくとも６５種、少なくとも７０種、または７３種を含む。一部の実施形態では、本開示の方法において使用されるゲノム領域は、表２のＣＮＶの少なくとも１種、少なくとも２種、少なくとも３種、少なくとも４種、少なくとも５種、少なくとも６種、少なくとも７種、少なくとも８種、少なくとも９種、少なくとも１０種、少なくとも１１種、少なくとも１２種、少なくとも１３種、少なくとも１４種、少なくとも１５種、少なくとも１６種、少なくとも１７種、または１８種を含む。一部の実施形態では、本開示の方法において使用されるゲノム領域は、表２の融合物のうちの少なくとも１種、少なくとも２種、少なくとも３種、少なくとも４種、少なくとも５種、または６種を含む。一部の実施形態では、本開示の方法において使用されるゲノム領域は、表２のインデルのうちの少なくとも１種、少なくとも２種、少なくとも３種、少なくとも４種、少なくとも５種、少なくとも６種、少なくとも７種、少なくとも８種、少なくとも９種、少なくとも１０種、少なくとも１１種、少なくとも１２種、少なくとも１３種、少なくとも１４種、少なくとも１５種、少なくとも１６種、少なくとも１７種、または１８種の少なくとも一部分を含む。これらの目的のゲノム上の位置のそれぞれを、所与のベイトセットパネルについての骨格領域またはホットスポット領域として識別することができる。目的のホットスポットのゲノム上の位置の例示的な一覧表は、表３において見ることができる。一部の実施形態では、本開示の方法において使用されるゲノム領域は、表３の遺伝子のうちの少なくとも１種、少なくとも２種、少なくとも３種、少なくとも４種、少なくとも５種、少なくとも６種、少なくとも７種、少なくとも８種、少なくとも９種、少なくとも１０種、少なくとも１１種、少なくとも１２種、少なくとも１３種、少なくとも１４種、少なくとも１５種、少なくとも１６種、少なくとも１７種、少なくとも１８種、少なくとも１９種、または少なくとも２０種の少なくとも一部分を含む。各ホットスポットゲノム領域が、関連する遺伝子、それが存在する染色体、遺伝子座を表すゲノムの開始位置および終止位置、塩基対内の遺伝子座の長さ、遺伝子に包含されるエクソン、ならびに目的の所与のゲノム領域が捕捉しようとし得る重要な特徴（例えば、突然変異の型）を含めたいくつかの特性と共に列挙されている。

一部の実施形態では、パネル内の１つまたは複数の領域は、外科手術後の残存がんを検出するための１種または複数種の遺伝子由来の１種または複数種の遺伝子座を含む。この検出は、がん検出の既存の方法で可能なものよりも早い可能性がある。一部の実施形態では、パネル内の１つまたは複数の領域は、高リスク患者集団においてがんを検出するための１種または複数種の遺伝子由来の１種または複数種の遺伝子座を含む。例えば、喫煙者は、肺がんの率が一般集団よりもはるかに高い。さらに、喫煙者では、肺内の不規則な小結節の発生などの、がん検出をより難しくする他の肺の状態が発症する可能性がある。一部の実施形態では、本明細書に記載の方法により、高リスク患者において、がん検出の既存の方法で可能なものよりも早くがんが検出される。

領域を、その遺伝子または領域内に腫瘍マーカーを有するがんを有する対象の数に基づいて、シーケンシングパネルに含めるために選択することができる。領域を、がんを有する対象の有病率およびその遺伝子内に存在する腫瘍マーカーに基づいて、シーケンシングパネルに含めるために選択することができる。領域内に腫瘍マーカーが存在することにより、がんを有する対象が示され得る。

一部の例では、パネルを、１つまたは複数のデータベースからの情報を使用して選択することができる。がんに関する情報は、がん腫瘍生検またはｃｆＤＮＡアッセイから得ることができる。データベースは、シーケンシングされる腫瘍試料の集団を説明する情報を含み得る。データベースは、腫瘍試料中のｍＲＮＡ発現に関する情報を含み得る。データベースは、腫瘍試料中の調節エレメントに関する情報を含み得る。シーケンシングされる腫瘍試料に関する情報は、種々の遺伝子変異体の頻度を含み、遺伝子変異体が存在する遺伝子または領域を記載するものであり得る。遺伝子変異体は、腫瘍マーカーであり得る。そのようなデータベースの非限定的な例は、ＣＯＳＭＩＣである。ＣＯＳＭＩＣは、種々のがんにおいて見いだされる体細胞突然変異のカタログである。特定のがんに関して、ＣＯＳＭＩＣでは、遺伝子が突然変異の頻度に基づいて順位付けされている。遺伝子を、所与の遺伝子内の突然変異の頻度が高いことにより、パネルに含めるために選択することができる。例えば、ＣＯＳＭＩＣでは、シーケンシングされた乳がん試料の集団の３３％がＴＰ５３に突然変異を有し、試料採取された乳がんの集団の２２％がＫＲＡＳに突然変異を有することが示されている。ＡＰＣを含めた他の順位付けされた遺伝子は、シーケンシングされた乳がん試料の集団の約４％にしか見いだされない突然変異を有する。ＴＰ５３およびＫＲＡＳを、試料採取された乳がんの中で頻度が比較的高いこと（例えば、約４％の頻度で生じるＡＰＣと比較して）に基づいて、シーケンシングパネルに含めることができる。ＣＯＳＭＩＣは、非限定的な例として提示したものであるが、遺伝子または遺伝子領域内に位置する腫瘍マーカーを有するがんと関連する任意のデータベースまたは情報のセットを使用することができる。別の例では、ＣＯＳＭＩＣによって提供される通り、１１５６の胆道がん試料のうち、３８０の試料（３３％）がＴＰ５３に突然変異を有した。ＡＰＣなどのいくつかの他の遺伝子は、全ての試料の４～８％において突然変異を有する。したがって、ＴＰ５３を、胆道がん試料の集団における頻度が比較的高いことに基づいて、パネルに含めるために選択することができる。

試料採取された腫瘍組織または循環腫瘍ＤＮＡにおける腫瘍マーカーの頻度が所与のバックグラウンド集団において見いだされるよりも有意に高い遺伝子または領域をパネルに選択することができる。がんを有する対象の少なくとも大多数がパネル内の領域または遺伝子のうちの少なくとも１つに存在する腫瘍マーカーを有するような領域の組合せをパネルに含めるために選択することができる。特定のがんまたはがんのセットに関して、大多数の対象が、選択された領域の１つまたは複数に１種または複数種の腫瘍マーカーを有することを示すデータに基づいて領域の組合せを選択することができる。例えば、がん１を検出するために、領域Ａ、Ｂ、Ｃ、および／またはＤを含むパネルを、がん１を有する対象の９０％がパネルの領域Ａ、Ｂ、Ｃ、および／またはＤに腫瘍マーカーを有することを示すデータに基づいて選択することができる。あるいは、腫瘍マーカーががんを有する対象内の２つまたはそれよりも多くの領域内に独立に存在し、したがって、併せて、２つまたはそれよりも多くの領域内の腫瘍マーカーががんを有する対象の集団の大多数に存在することが示される場合がある。例えば、がん２を検出するために、領域Ｘ、Ｙ、およびＺを含むパネルを、対象の９０％が１つまたは複数の領域に腫瘍マーカーを有し、そのような対象の３０％では、腫瘍マーカーが領域Ｘにおいてのみ検出され、一方、腫瘍マーカーが検出された残りの対象については腫瘍マーカーが領域Ｙおよび／またはＺにおいてのみ検出されることを示すデータに基づいて選択することができる。１種または複数種のがんに関連することが以前示された１つまたは複数の領域内に存在する腫瘍マーカーは、腫瘍マーカーがこれらの領域の１つまたは複数において５０％またはそれよりも高い確率で検出される場合、がんを有する対象を示すものまたは予測するものであり得る。１つまたは複数の領域内の腫瘍マーカーのセットについて既知のがんの頻度を考慮してがんの検出の条件付き確率を使用するモデルなどのコンピュータによる手法を使用して、いずれの領域が、単独でまたは組合せで、がんを予測するものであるかを予測することができる。パネル選択のための他の手法は、大きなパネルを用いた腫瘍の包括的なゲノムプロファイリングおよび／または全ゲノムシーケンシング（ＷＧＳ、ＲＮＡ－ｓｅｑ、Ｃｈｉｐ－ｓｅｑ、重硫酸塩シーケンシング、ＡＴＡＣ－ｓｅｑ、およびその他）を使用した研究からの情報が記載されているデータベースの使用を伴う。文献から収集される情報にも、ある特定のがんにおいて一般に影響を受け、突然変異した経路が記載されている可能性がある。遺伝情報が記載されているオントロジーを使用することにより、パネル選択にさらに情報を与えることができる。

シーケンシングのためにパネルに含める遺伝子は、完全に転写された領域、プロモーター領域、エンハンサー領域、調節エレメント、および／または下流の配列を含み得る。腫瘍を示す突然変異の検出の可能性をさらに増大させるために、エクソンのみをパネルに含めることができる。パネルは、選択された遺伝子の全てのエクソンまたは選択された遺伝子のエクソンの１つまたは複数のみを含み得る。パネルは、複数の異なる遺伝子のそれぞれ由来のエクソンを含み得る。パネルは、複数の異なる遺伝子のそれぞれ由来の少なくとも１つのエクソンを含み得る。

一部の態様では、複数の異なる遺伝子のそれぞれ由来のエクソンのパネルを、決定されるがんを有する対象の割合により、エクソンのパネル内の少なくとも１つのエクソンにおける遺伝子変異体が示されるように選択する。

遺伝子のパネル内の異なる遺伝子それぞれ由来の少なくとも１つの完全なエクソンのシーケンシングを行うことができる。シーケンシングされるパネルは、複数の遺伝子由来のエクソンを含み得る。パネルは、２種から１００種までの異なる遺伝子、２種から７０種までの遺伝子、２種から５０種までの遺伝子、２種から３０種までの遺伝子、２種から１５種までの遺伝子、または２種から１０種までの遺伝子由来のエクソンを含み得る。

選択されたパネルは、様々な数のエクソンを含み得る。パネルは、２種から３０００種までのエクソンを含み得る。パネルは、２種から１０００種までのエクソンを含み得る。パネルは、２種から５００種までのエクソンを含み得る。パネルは、２種から１００種までのエクソンを含み得る。パネルは、２種から５０種までのエクソンを含み得る。パネルは、３００種以下のエクソンを含み得る。パネルは、２００種以下のエクソンを含み得る。パネルは、１００種以下のエクソンを含み得る。パネルは、５０種以下のエクソンを含み得る。パネルは、４０種以下のエクソンを含み得る。パネルは、３０種以下のエクソンを含み得る。パネルは、２５種以下のエクソンを含み得る。パネルは、２０種以下のエクソンを含み得る。パネルは、１５種以下のエクソンを含み得る。パネルは、１０種以下のエクソンを含み得る。パネルは、９種以下のエクソンを含み得る。パネルは、８種以下のエクソンを含み得る。パネルは、７種以下のエクソンを含み得る。

パネルは、複数の異なる遺伝子由来の１つまたは複数のエクソンを含み得る。パネルは、ある割合の複数の異なる遺伝子のそれぞれ由来の１つまたは複数のエクソンを含み得る。パネルは、異なる遺伝子の少なくとも２５％、５０％、７５％または９０％のそれぞれ由来の少なくとも２種のエクソンを含み得る。パネルは、異なる遺伝子の少なくとも２５％、５０％、７５％または９０％のそれぞれ由来の少なくとも３つのエクソンを含み得る。パネルは、異なる遺伝子の少なくとも２５％、５０％、７５％または９０％のそれぞれ由来の少なくとも４つのエクソンを含み得る。

シーケンシングパネルのサイズは変動し得る。シーケンシングパネルは、例えば、パネル内のシーケンシングされたヌクレオチドまたは特定の領域についてシーケンシングされたいくつもの固有の分子総量を含めたいくつかの因子に応じて、より大きくまたはより小さく作製することができる（ヌクレオチドサイズを単位として）。シーケンシングパネルのサイズは、５ｋｂ～５０ｋｂであり得る。シーケンシングパネルは、１０ｋｂ～３０ｋｂのサイズであり得る。シーケンシングパネルは、１２ｋｂ～２０ｋｂのサイズであり得る。シーケンシングパネルは、１２ｋｂ～６０ｋｂのサイズであり得る。シーケンシングパネルは、少なくとも１０ｋｂ、１２ｋｂ、１５ｋｂ、２０ｋｂ、２５ｋｂ、３０ｋｂ、３５ｋｂ、４０ｋｂ、４５ｋｂ、５０ｋｂ、６０ｋｂ、７０ｋｂ、８０ｋｂ、９０ｋｂ、１００ｋｂ、１１０ｋｂ、１２０ｋｂ、１３０ｋｂ、１４０ｋｂ、または１５０ｋｂのサイズであり得る。シーケンシングパネルは、１００ｋｂ未満、９０ｋｂ未満、８０ｋｂ未満、７０ｋｂ未満、６０ｋｂ未満、または５０ｋｂ未満のサイズであり得る。

シーケンシングのために選択されたパネルは、少なくとも１種、５種、１０種、１５種、２０種、２５種、３０種、４０種、５０種、６０種、８０種、または１００種の領域を含み得る。一部の場合では、パネル内の領域は、領域のサイズが比較的小さくなるように選択する。一部の場合では、パネル内の領域のサイズは、約１０ｋｂまたはそれ未満、約８ｋｂまたはそれ未満、約６ｋｂまたはそれ未満、約５ｋｂまたはそれ未満、約４ｋｂまたはそれ未満、約３ｋｂまたはそれ未満、約２．５ｋｂまたはそれ未満、約２ｋｂまたはそれ未満、約１．５ｋｂまたはそれ未満、または約１ｋｂまたはそれ未満またはそれ未満である。一部の場合では、パネル内の領域のサイズは、約０．５ｋｂから約１０ｋｂまで、約０．５ｋｂから約６ｋｂまで、約１ｋｂから約１１ｋｂまで、約１ｋｂから約１５ｋｂまで、約１ｋｂから約２０ｋｂまで、約０．１ｋｂから約１０ｋｂまで、または約０．２ｋｂから約１ｋｂまでである。例えば、パネル内の領域のサイズは、約０．１ｋｂから約５ｋｂまでであり得る。

本発明において選択されるパネルにより、低頻度遺伝子変異体を検出する（例えば、試料から得られた無細胞核酸分子中の）ために十分なディープシーケンシングが可能になり得る。試料中の遺伝子変異体の量は、所与の遺伝子変異体についてのマイナー対立遺伝子頻度の点から言及することができる。マイナー対立遺伝子頻度は、マイナー対立遺伝子（例えば、最も一般的なものではない対立遺伝子）が試料などの所与の核酸の集団内に存在する頻度を指し得る。低マイナー対立遺伝子頻度の遺伝子変異体は、試料中の存在が比較的低頻度であり得る。一部の場合では、パネルにより、少なくとも０．０００１％、０．００１％、０．００５％、０．０１％、０．０５％、０．１％、または０．５％のマイナー対立遺伝子頻度の遺伝子変異体の検出が可能になる。パネルにより、０．００１％またはそれよりも大きなマイナー対立遺伝子頻度の遺伝子変異体の検出が可能になり得る。パネルにより、０．０１％またはそれよりも大きなマイナー対立遺伝子頻度の遺伝子変異体の検出が可能になり得る。パネルにより、試料中に０．０００１％、０．００１％、０．００５％、０．０１％、０．０２５％、０．０５％、０．０７５％、０．１％、０．２５％、０．５％、０．７５％、または１．０％ほどの低さの頻度で存在する遺伝子変異体の検出が可能になり得る。パネルにより、試料中に少なくとも０．０００１％、０．００１％、０．００５％、０．０１％、０．０２５％、０．０５％、０．０７５％、０．１％、０．２５％、０．５％、０．７５％、または１．０％の頻度で存在する腫瘍マーカーの検出が可能になり得る。パネルにより、試料中の頻度が１．０％ほどの低さの腫瘍マーカーの検出が可能になり得る。パネルにより、試料中の頻度が０．７５％ほどの低さの腫瘍マーカーの検出が可能になり得る。パネルにより、試料中の頻度が０．５％ほどの低さの腫瘍マーカーの検出が可能になり得る。パネルにより、試料中の頻度が０．２５％ほどの低さの腫瘍マーカーの検出が可能になり得る。パネルにより、試料中の頻度が０．１％ほどの低さの腫瘍マーカーの検出が可能になり得る。パネルにより、試料中の頻度が０．０７５％ほどの低さの腫瘍マーカーの検出が可能になり得る。パネルにより、試料中の頻度が０．０５％ほどの低さの腫瘍マーカーの検出が可能になり得る。パネルにより、試料中の頻度が０．０２５％ほどの低さの腫瘍マーカーの検出が可能になり得る。パネルにより、試料中の頻度が０．０１％ほどの低さの腫瘍マーカーの検出が可能になり得る。パネルにより、試料中の頻度が０．００５％ほどの低さの腫瘍マーカーの検出が可能になり得る。パネルにより、試料中の頻度が０．００１％ほどの低さの腫瘍マーカーの検出が可能になり得る。パネルにより、試料中の頻度が０．０００１％ほどの低さの腫瘍マーカーの検出が可能になり得る。パネルにより、試料中の頻度が１．０％～０．０００１％ほどの低さの、シーケンシングされたｃｆＤＮＡ中の腫瘍マーカーの検出が可能になり得る。パネルにより、試料中の頻度が０．０１％～０．０００１％ほどの低さの、シーケンシングされたｃｆＤＮＡ中の腫瘍マーカーの検出が可能になり得る。

遺伝子変異体は、疾患（例えば、がん）を有する対象の集団のパーセンテージで示すことができる。一部の場合では、がんを有する集団の少なくとも１％、２％、３％、５％、１０％、２０％、３０％、４０％、５０％、６０％、７０％、８０％、９０％、９５％、または９９％が、パネル内の領域のうちの少なくとも１つにおける１種または複数種の遺伝子変異体を示す。例えば、がんを有する集団の少なくとも８０％が、パネル内の領域のうちの少なくとも１つにおける１種または複数種の遺伝子変異体を示し得る。

パネルは、１種または複数種の遺伝子のそれぞれ由来の１つまたは複数の領域を含み得る。一部の場合では、パネルは、少なくとも１種、２種、３種、４種、５種、６種、７種、８種、９種、１０種、１５種、２０種、２５種、３０種、４０種、５０種、または８０種の遺伝子のそれぞれ由来の１つまたは複数の領域を含み得る。一部の場合では、パネルは、最大で１種、２種、３種、４種、５種、６種、７種、８種、９種、１０種、１５種、２０種、２５種、３０種、４０種、５０種、または８０種の遺伝子のそれぞれ由来の１つまたは複数の領域を含み得る。一部の場合では、パネルは、約１種から約８０種まで、１種から約５０種まで、約３種から約４０種まで、５種から約３０種まで、１０種から約２０種までの異なる遺伝子のそれぞれ由来の１つまたは複数の領域を含み得る。

パネル内の領域は、１つまたは複数のエピジェネティック的に修飾された領域が検出されるように選択することができる。１つまたは複数のエピジェネティック的に修飾された領域は、アセチル化されていてよく、メチル化されていてよく、ユビキチン化されていてよく、リン酸化されていてよく、ＳＵＭＯ化されていてよく、リボシル化されていてよく、かつ／またはシトルリン化されていてよい。例えば、パネル内の領域は、１つまたは複数のメチル化領域が検出されるように選択することができる。

パネル内の領域は、それらが１つまたは複数の組織にわたって示差的に転写された配列を含むように選択することができる。一部の場合では、領域は、ある特定の組織において、他の組織と比較して高いレベルで転写される配列を含み得る。例えば、領域は、ある特定の組織では転写されるが他の組織では転写されない配列を含み得る。

パネル内の領域は、コード配列および／または非コード配列を含み得る。例えば、パネル内の領域は、エクソン、イントロン、プロモーター、３’非翻訳領域、５’非翻訳領域、調節エレメント、転写開始点、および／またはスプライス部位内の１つまたは複数の配列を含み得る。一部の場合では、パネル内の領域は、偽遺伝子、リピート配列、トランスポゾン、ウイルス性エレメント、およびテロメアを含めた他の非コード配列を含み得る。一部の場合では、パネル内の領域は、非コードＲＮＡ、例えば、リボソームＲＮＡ、転移ＲＮＡ、Ｐｉｗｉ相互作用ＲＮＡ、およびマイクロＲＮＡ内の配列を含み得る。

パネル内の領域を、所望のレベルの感度でがんが検出（診断）されるように（例えば、１種または複数種の遺伝子変異体の検出を通じて）選択することができる。例えば、パネル内の領域を、少なくとも５０％、５５％、６０％、６５％、７０％、７５％、８０％、８５％、９０％、９５％、９６％、９７％、９８％、９９％、９９．５％、または９９．９％の感度でがんが検出されるように（例えば、１種または複数種の遺伝子変異体の検出を通じて）選択することができる。パネル内の領域を、１００％の感度でがんが検出されるように選択することができる。

パネル内の領域を、所望のレベルの特異度でがんが検出（診断）されるように（例えば、１種または複数種の遺伝子変異体の検出を通じて）選択することができる。例えば、パネル内の領域を、少なくとも５０％、５５％、６０％、６５％、７０％、７５％、８０％、８５％、９０％、９５％、９６％、９７％、９８％、９９％、９９．５％、または９９．９％の特異度でがんが検出されるように（例えば、１種または複数種の遺伝子変異体の検出を通じて）選択することができる。パネル内の領域を、１００％の特異度で１種または複数種の遺伝子変異体が検出されるように選択することができる。

パネル内の領域を、所望の陽性的中率でがんが検出（診断）されるように選択することができる。陽性的中率は、感度（例えば、実際の陽性が検出される見込み）および／または特異度（例えば、実際の陰性が陽性と間違えられない見込み）を増大させることによって上昇させることができる。非限定的な例として、パネル内の領域を、少なくとも５０％、５５％、６０％、６５％、７０％、７５％、８０％、８５％、９０％、９５％、９６％、９７％、９８％、９９％、９９．５％、または９９．９％の陽性的中率で１種または複数種の遺伝子変異体が検出されるように選択することができる。パネル内の領域を、１００％の陽性的中率で１種または複数種の遺伝子変異体が検出されるように選択することができる。

パネル内の領域を、所望の正確度でがんが検出（診断）されるように選択することができる。本明細書で使用される場合、「正確度」という用語は、疾患状態（例えば、がん）と健康を識別するための検査の能力を指し得る。正確度は、感度および特異度、的中率、尤度比、ＲＯＣ曲線下面積、ヨーデン指標および／または診断オッズ比などの尺度を使用して数量化することができる。

正確度は、正しい結果をもたらす検査の数と実施される検査の総数の比を指すパーセンテージとして提示することができる。パネル内の領域を、少なくとも５０％、５５％、６０％、６５％、７０％、７５％、８０％、８５％、９０％、９５％、９６％、９７％、９８％、９９％、９９．５％、または９９．９％の正確度でがんが検出されるように選択することができる。パネル内の領域を、１００％の正確度でがんが検出されるように選択することができる。

パネルを、感度が高く、低頻度の遺伝子変異体が検出されるように選択することができる。例えば、パネルを、試料中に０．０１％、０．０５％、または０．００１％ほどの低さの頻度で存在する遺伝子変異体または腫瘍マーカーを少なくとも５０％、５５％、６０％、６５％、７０％、７５％、８０％、８５％、９０％、９５％、９６％、９７％、９８％、９９％、９９．５％、または９９．９％の感度で検出することができるように選択することができる。パネル内の領域を、試料中に１％またはそれ未満の頻度で存在する腫瘍マーカーが７０％またはそれよりも大きな感度で検出されるように選択することができる。パネルを、試料中の頻度が０．１％ほどの低さの腫瘍マーカーが少なくとも５０％、５５％、６０％、６５％、７０％、７５％、８０％、８５％、９０％、９５％、９６％、９７％、９８％、９９％、９９．５％、または９９．９％の感度で検出されるように選択することができる。パネルを、試料中の頻度が０．０１％ほどの低さの腫瘍マーカーが少なくとも５０％、５５％、６０％、６５％、７０％、７５％、８０％、８５％、９０％、９５％、９６％、９７％、９８％、９９％、９９．５％、または９９．９％の感度で検出されるように選択することができる。パネルを、試料中の頻度が０．００１％ほどの低さの腫瘍マーカーが少なくとも５０％、５５％、６０％、６５％、７０％、７５％、８０％、８５％、９０％、９５％、９６％、９７％、９８％、９９％、９９．５％、または９９．９％の感度で検出されるように選択することができる。

パネルを、特異度が高く、低頻度の遺伝子変異体が検出されるように選択することができる。例えば、パネルを、試料中に０．０１％、０．０５％、または０．００１％ほどの低さの頻度で存在する遺伝子変異体または腫瘍マーカーを少なくとも５０％、５５％、６０％、６５％、７０％、７５％、８０％、８５％、９０％、９５％、９６％、９７％、９８％、９９％、９９．５％、または９９．９％の特異度で検出することができるように選択することができる。パネル内の領域を、試料中に１％またはそれ未満の頻度で存在する腫瘍マーカーが７０％またはそれよりも大きな特異度で検出されるように選択することができる。パネルを、試料中の頻度が０．１％ほどの低さの腫瘍マーカーが少なくとも７０％、７５％、８０％、８５％、９０％、９５％、９６％、９７％、９８％、９９％、９９．５％、または９９．９％の特異度で検出されるように選択することができる。パネルを、試料中の頻度が０．０１％ほどの低さの腫瘍マーカーが少なくとも７０％、７５％、８０％、８５％、９０％、９５％、９６％、９７％、９８％、９９％、９９．５％、または９９．９％の特異度で検出されるように選択することができる。パネルを、試料中の頻度が０．００１％ほどの低さの腫瘍マーカーが少なくとも７０％、７５％、８０％、８５％、９０％、９５％、９６％、９７％、９８％、９９％、９９．５％、または９９．９％の特異度で検出されるように選択することができる。

パネルを、正確度が高く、低頻度の遺伝子変異体が検出されるように選択することができる。パネルを、試料中に０．０１％、０．０５％、または０．００１％ほどの低さの頻度で存在する遺伝子変異体または腫瘍マーカーを少なくとも７０％、７５％、８０％、８５％、９０％、９５％、９６％、９７％、９８％、９９％、９９．５％、または９９．９％の正確度で検出することができるように選択することができる。パネル内の領域を、試料中に１％またはそれ未満の頻度で存在する腫瘍マーカーが７０％またはそれよりも大きな正確度で検出されるように選択することができる。パネルを、試料中の頻度が０．１％ほどの低さの腫瘍マーカーが少なくとも７０％、７５％、８０％、８５％、９０％、９５％、９６％、９７％、９８％、９９％、９９．５％、または９９．９％の正確度で検出されるように選択することができる。パネルを、試料中の頻度が０．０１％ほどの低さの腫瘍マーカーが少なくとも７０％、７５％、８０％、８５％、９０％、９５％、９６％、９７％、９８％、９９％、９９．５％、または９９．９％の正確度で検出されるように選択することができる。パネルを、試料中の頻度が０．００１％ほどの低さの腫瘍マーカーが少なくとも７０％、７５％、８０％、８５％、９０％、９５％、９６％、９７％、９８％、９９％、９９．５％、または９９．９％の正確度で検出されるように選択することができる。

パネルを、高度に予測的であり、低頻度の遺伝子変異体が検出されるように選択することができる。パネルを、試料中に０．０１％、０．０５％、または０．００１％ほどの低さの頻度で存在する遺伝子変異体または腫瘍マーカーの陽性的中率が少なくとも７０％、７５％、８０％、８５％、９０％、９５％、９６％、９７％、９８％、９９％、９９．５％、または９９．９％になるように選択することができる。

パネルに使用されるプローブまたはベイトの濃度を上昇させて（２～６ｎｇ／μＬ）、試料中のより多くの核酸分子を捕捉することができる。パネルに使用されるプローブまたはベイトの濃度は、少なくとも２ｎｇ／μＬ、３ｎｇ／μＬ、４ｎｇ／μＬ、５ｎｇ／μＬ、６ｎｇ／μＬ、またはそれよりも大きな濃度であり得る。プローブの濃度は、約２ｎｇ／μＬ～約３ｎｇ／μＬ、約２ｎｇ／μＬ～約４ｎｇ／μＬ、約２ｎｇ／μＬ～約５ｎｇ／μＬ、約２ｎｇ／μＬ～約６ｎｇ／μＬであり得る。パネルに使用されるプローブまたはベイトの濃度は、２ｎｇ／μＬまたはそれよりも大きな濃度～６ｎｇ／μＬまたはそれ未満の濃度であり得る。一部の例では、これにより、生物学的製剤中のより多くの分子を分析し、それにより、より低い頻度の対立遺伝子を検出できるようにすることが可能になり得る。
シーケンシングの深さ

試料中の低頻度の遺伝子変異体を検出するために、ｃｆＤＮＡ分子の試料から富化させたＤＮＡについて種々のリードの深さでシーケンシングを行うことができる。所与の位置について、リードの深さは、ある位置にマッピングされる、元の分子および元の分子を増幅することによって生成する分子を含めた試料由来の全ての分子からの全リードの数を指し得る。したがって、例えば、リードの深さ５０，０００リードは、分子当たり１０リードで５，０００分子からのリードの数を指し得る。ある位置にマッピングされる元の分子は固有であり、非冗長性であり得る（例えば、増幅されなかった、試料ｃｆＤＮＡ）。

所与の位置における試料分子のリードの深さを評価するために、試料分子を追跡することができる。分子追跡技法は、試料中のＤＮＡ分子を固有に識別するためにバーコードをタグ付けすることなどの、ＤＮＡ分子を標識するための種々の技法を含み得る。例えば、１つまたは複数の固有のバーコード配列を試料ｃｆＤＮＡ分子の１つまたは複数の末端に付着させることができる。所与の位置におけるリードの深さの決定において、その位置にマッピングされるバーコードがタグ付けされた別個のｃｆＤＮＡ分子の数により、その位置におけるリードの深さが示され得る。別の例では、８つのバーコード配列のうちの１つを用い、試料ｃｆＤＮＡ分子の両末端にタグ付けすることができる。所与の位置におけるリードの深さは、例えば、増幅からの冗長性であるリードをコラプス（ｃｏｌｌａｐｓｅ）し、バーコードタグおよび内在性配列情報に基づいて固有の分子を識別することにより所与の位置における元のｃｆＤＮＡ分子の数を数量化することによって決定することができる。

１塩基当たり少なくとも３，０００リード、１塩基当たり少なくとも４，０００リード、１塩基当たり少なくとも５，０００リード、１塩基当たり少なくとも６，０００リード、１塩基当たり少なくとも７，０００リード、１塩基当たり少なくとも８，０００リード、１塩基当たり少なくとも９，０００リード、１塩基当たり少なくとも１０，０００リード、１塩基当たり少なくとも１５，０００リード、１塩基当たり少なくとも２０，０００リード、１塩基当たり少なくとも２５，０００リード、１塩基当たり少なくとも３０，０００リード、１塩基当たり少なくとも４０，０００リード、１塩基当たり少なくとも５０，０００リード、１塩基当たり少なくとも６０，０００リード、１塩基当たり少なくとも７０，０００リード、１塩基当たり少なくとも８０，０００リード、１塩基当たり少なくとも９０，０００リード、１塩基当たり少なくとも１００，０００リード、１塩基当たり少なくとも１１０，０００リード、１塩基当たり少なくとも１２０，０００リード、１塩基当たり少なくとも１３０，０００リード、１塩基当たり少なくとも１４０，０００リード、１塩基当たり少なくとも１５０，０００リード、１塩基当たり少なくとも１６０，０００リード、１塩基当たり少なくとも１７０，０００リード、１塩基当たり少なくとも１８０，０００リード、１塩基当たり少なくとも１９０，０００リード、１塩基当たり少なくとも２００，０００リード、１塩基当たり少なくとも２５０，０００リード、１塩基当たり少なくとも５００，０００リード、１塩基当たり少なくとも１，０００，０００リード、または１塩基当たり少なくとも２，０００，０００リードであるリードの深さまでＤＮＡのシーケンシングを行うことができる。１塩基当たり約３，０００リード、１塩基当たり約４，０００リード、１塩基当たり約５，０００リード、１塩基当たり約６，０００リード、１塩基当たり約７，０００リード、１塩基当たり約８，０００リード、１塩基当たり約９，０００リード、１塩基当たり約１０，０００リード、１塩基当たり約１５，０００リード、１塩基当たり約２０，０００リード、１塩基当たり約２５，０００リード、１塩基当たり約３０，０００リード、１塩基当たり約４０，０００リード、１塩基当たり約５０，０００リード、１塩基当たり約６０，０００リード、１塩基当たり約７０，０００リード、１塩基当たり約８０，０００リード、１塩基当たり約９０，０００リード、１塩基当たり約１００，０００リード、１塩基当たり約１１０，０００リード、１塩基当たり約１２０，０００リード、１塩基当たり約１３０，０００リード、１塩基当たり約１４０，０００リード、１塩基当たり約１５０，０００リード、１塩基当たり約１６０，０００リード、１塩基当たり約１７０，０００リード、１塩基当たり約１８０，０００リード、１塩基当たり約１９０，０００リード、１塩基当たり約２００，０００リード、１塩基当たり約２５０，０００リード、１塩基当たり約５００，０００リード、１塩基当たり約１，０００，０００リード、または１塩基当たり約２，０００，０００リードであるリードの深さまでＤＮＡのシーケンシングを行うことができる。１塩基当たり約１０，０００から約３０，０００リードまで、１塩基当たり１０，０００から約５０，０００リードまで、１塩基当たり１０，０００から約５，０００，０００リードまで、１塩基当たり５０，０００から約３，０００，０００リードまで、１塩基当たり１００，０００から約２，０００，０００リードまで、または１塩基当たり約５００，０００から約１，０００，０００リードまでのリードの深さまでＤＮＡのシーケンシングを行うことができる。一部の実施形態では、７０，０００塩基未満、６５，０００塩基未満、６０，０００塩基未満、５５，０００塩基未満、５０，０００塩基未満、４５，０００塩基未満、４０，０００塩基未満、３５，０００塩基未満、３０，０００塩基未満、２５，０００塩基未満、２０，０００塩基未満、１５，０００塩基未満、１０，０００塩基未満、５，０００塩基未満、および１，０００塩基未満から選択されるパネルサイズで上記のリードの深さのいずれかまで、ＤＮＡのシーケンシングを行うことができる。例えば、パネルに対するリードの総数は、６００，０００（１，０００塩基に対して１塩基当たり３，０００リード）ほどの低さおよび１．４×１０^１１（７０，０００塩基に対して１塩基当たり２，０００，０００リード）ほどの高さであり得る。一部の実施形態では、５，０００塩基～７０，０００塩基、５，０００塩基～６０，０００塩基、１０，０００塩基～７０，０００塩基、または１０，０００塩基～７０，０００塩基から選択されるパネルサイズで上記のリードの深さのいずれかまで、ＤＮＡのシーケンシングを行うことができる。

リードカバレッジは、核酸分子の一方の鎖または両方の鎖からのリードを含み得る。例えば、リードカバレッジは、パネルの各ヌクレオチドにマッピングされた、少なくとも５，０００、少なくとも１０，０００、少なくとも１５，０００、少なくとも２０，０００、少なくとも２５，０００、少なくとも３０，０００、少なくとも３５，０００、少なくとも４０，０００、少なくとも４５，０００、または少なくとも５０，０００の試料由来ＤＮＡ分子の両方の鎖からのリードを含み得る。

パネルを、固定量の塩基リードがもたらされる所望のリードの深さに最適化されるように選択することができる。
タグ付け

本開示の一部の実施形態では、シーケンシング前に核酸ライブラリーを調製する。例えば、ゲノム核酸試料（例えば、ゲノムＤＮＡ試料）中の個々のポリヌクレオチド断片を、非固有識別子でタグ付けすること、例えば、個々のポリヌクレオチド断片を非固有にタグ付けすることによって固有に識別することができる。一部の実施形態では、核酸分子に、互いに関して非固有にタグ付けする。

本明細書に開示されるポリヌクレオチドにタグ付けすることができる。例えば、二本鎖ポリヌクレオチドに、二本鎖分子の相補鎖（すなわち、「ワトソン」鎖および「クリック」鎖）を違うように標識するタグである二重タグを用いてタグ付けすることができる。一部の場合では、二重タグは、相補部分および非相補部分を有するポリヌクレオチドである。

タグは、これだけに限定されないが、核酸、化学化合物、蛍光プローブ、または放射性プローブを含めた、ポリヌクレオチドに付着する任意の型の分子であってよい。タグは、オリゴヌクレオチド（例えば、ＤＮＡまたはＲＮＡ）であってもよい。タグは、既知配列、未知配列、またはその両方を含み得る。タグは、ランダム配列、所定の配列、またはその両方を含み得る。タグは、二本鎖であっても一本鎖であってもよい。二本鎖タグは、二重タグであってよい。二本鎖タグは、２つの相補鎖を含み得る。あるいは、二本鎖タグは、ハイブリダイズ部分および非ハイブリダイズ部分を含み得る。二本鎖タグは、Ｙ形であり得、例えば、ハイブリダイズ部分がタグの一方の末端にあり、非ハイブリダイズ部分がタグの逆の末端にある。そのような例の１つは、Ｉｌｌｕｍｉｎａシーケンシングにおいて使用される「Ｙアダプター」である。他の例としては、ヘアピン形状アダプターまたは気泡形状アダプターが挙げられる。気泡形状アダプターは、相補配列が両面に隣接する非相補配列を有する。一部の実施形態では、Ｙ形アダプターは、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２１、２２、２３、２４、２５、２６、２７、２８、２９、３０、３１、または３２ヌクレオチドの長さのバーコードを含む。一部の組合せでは。これを平滑末端修復およびライゲーションと組み合わせることができる。

異なるタグの数は、試料中の分子の推定されるまたは所定の数よりも多くてよい。例えば、固有タグ付けに関しては、試料中の分子の推定されるまたは所定の数よりも少なくとも２倍多くの異なるタグを使用することができる。

集合内の分子にタグ付けするために使用される異なる識別用タグの数は、例えば、範囲の下端２個、３個、４個、５個、６個、７個、８個、９個、１０個、１６個、１７個、１８個、１９個、２０個、２１個、２２個、２３個、２４個、２５個、２６個、２７個、２８個、２９個、３０個、３１個、３２個、３３個、３４個、３５個、３６個、３７個、３８個、３９個、４０個、４１個、４２個、４３個、４４個、４５個、４６個、４７個、４８個、または４９個のいずれかから、範囲の上端５０個、１００個、５００個、１０００個、５０００個および１０，０００個のいずれかまでの範囲であり得る。集合内の分子にタグ付けするために使用される識別用タグの数は、少なくとも２個、３個、４個、５個、６個、７個、８個、９個、１０個、１５個、２０個、２５個、３０個、３５個、４０個、４５個、５０個、５５個、６０個またはそれよりも多くであり得る。したがって、例えば、１０００億個から１兆個までの分子の集合に、４個から１００個までの異なる識別用タグを用いてタグ付けすることができる。１０００億個から１兆個までの分子の集合に、８個から１０，０００個までの異なる識別用タグを用いてタグ付けすることができる。１０００億個から１兆個までの分子の集合に、１６個から１０，０００個までの異なる識別用タグを用いてタグ付けすることができる。１０００億個から１兆個までの分子の集合に、１６個から５，０００個までの異なる識別用タグを用いてタグ付けすることができる。１０００億個から１兆個までの分子の集合に、１６個から１，０００個までの異なる識別用タグを用いてタグ付けすることができる。

分子の集合は、集合内に分子がタグよりも多く存在する場合、「非固有にタグ付けされた」とみなすことができる。分子の集合は、集合内の分子の少なくとも１％、少なくとも５％、少なくとも１０％、少なくとも１５％、少なくとも２０％、少なくとも２５％、少なくとも３０％、少なくとも３５％、少なくとも４０％、少なくとも４５％、または少なくともまたは約５０％のそれぞれが集合内の少なくとも１つの他の分子に共有される識別用タグ（「非固有タグ」または「非固有識別子」）を有する場合、非固有にタグ付けされたとみなすことができる。識別子は、単一のバーコードまたは２種のバーコードを含み得る。集団内の核酸分子の総数よりも少ないタグを用いて核酸分子をタグ付けすることにより、核酸分子の集団を非固有にタグ付けすることができる。集団に非固有にタグ付けするためには、分子の１％以下、５％以下、１０％以下、１５％以下、２０％以下、２５％以下、３０％以下、３５％以下、４０％以下、４５％以下、または５０％以下に、固有にタグ付けすることができる。一部の実施形態では、核酸分子を非固有タグと配列リードからの開始および終止位置または配列の組合せによって識別する。一部の実施形態では、シーケンシングされる核酸分子の数は、識別子と開始および終止位置または配列の組合せの数よりも少ないまたはそれと等しい。

一部の例では、本発明のタグは、分子バーコードを含む。そのような分子バーコードを使用して、試料中のポリヌクレオチドを弁別することができる。分子バーコードは、互いに異なるものであり得る。例えば、分子バーコードは、それらの間に、所定の編集距離またはハミング距離によって特徴付けることができる差異を有し得る。一部の例では、本発明の分子バーコードは、最小編集距離が１、２、３、４、５、６、７、８、９、または１０である。タグ付けされていない分子からタグ付けした分子への変換（例えば、タグ付け）の効率をさらに改善するために、短いタグを利用する。例えば、ライブラリーアダプタータグは、６５ヌクレオチド塩基まで、６０ヌクレオチド塩基まで、５５ヌクレオチド塩基まで、５０ヌクレオチド塩基まで、４５ヌクレオチド塩基まで、４０ヌクレオチド塩基まで、または３５ヌクレオチド塩基までの長さであってよい。そのような短いライブラリーバーコードの集合は、いくつもの異なる分子バーコード、例えば、最小編集距離が１、２、３またはそれよりも大きい、少なくとも２種、４種、６種、８種、１０種、１２種、１４種、１６種、１８種または２０種の異なるバーコードを含み得る。

したがって、分子の集合は、１つまたは複数のタグを含み得る。一部の例では、集合内の一部の分子は、集合内の他の分子のいずれにも共有されない分子バーコードなどの識別用タグ（「識別子」）を有し得る。例えば、分子の集合の一部の例では、集合内の分子の１００％または少なくとも５０％、６０％、７０％、８０％、９０％、９５％、９７％、９８％、または９９％は、集合内の他の分子のいずれにも共有されない識別子または分子バーコードを含み得る。本明細書で使用される場合、分子の集合は、集合内の分子の少なくとも９５％のそれぞれが、集合内の他の分子のいずれにも共有されない識別子（「固有タグ」または「固有の識別子」）を有する場合、「固有にタグ付けされた」とみなされる。一部の実施形態では、核酸分子は、互いに対して固有にタグ付けされる。分子の集合は、集合内の分子の少なくとも１％、５％、１０％、１５％、２０％、２５％、３０％、３５％、４０％、４５％、または５０％のそれぞれが、集合内の少なくとも１つの他の分子に共有される識別用タグまたは分子バーコード（「非固有タグ」または「非固有識別子」）を有する場合、「非固有にタグ付けされた」とみなされる。一部の実施形態では、核酸分子は、互いに対して非固有にタグ付けされる。したがって、非固有にタグ付けされた集団では、分子の１％以下が固有にタグ付けされる。例えば、非固有にタグ付けされた集団では、分子の１％以下、５％以下、１０％以下、１５％以下、２０％以下、２５％以下、３０％以下、３５％以下、４０％以下、４５％以下、または５０％以下に、固有にタグ付けすることができる。

試料中の推定される分子の数に基づいて、いくつもの異なるタグを使用することができる。一部のタグ付け方法では、異なるタグの数は、試料中の推定される分子の数と少なくとも同じであってよい。他のタグ付け方法では、異なるタグの数は、試料中の推定される分子の数の少なくとも２倍、３倍、４倍、５倍、６倍、７倍、８倍、９倍、１０倍、１００倍または１，０００倍であってよい。固有タグ付けでは、試料中の推定される分子の数の少なくとも２倍（またはそれよりも多く）の異なるタグを使用することができる。

ポリヌクレオチド断片（タグ付け前）は、任意の長さの配列を含み得る。例えば、ポリヌクレオチド断片（タグ付け前）は、少なくとも５０、５５、６０、６５、７０、７５、８０、８５、９０、９５、１００、１０５、１１０、１１５、１２０、１２５、１３０、１３５、１４０、１４５、１５０、１５５、１６０、１６５、１７０、１７５、１８０、１８５、１９０、１９５、２００、２０５、２１０、２１５、２２０、２２５、２３０、２３５、２４０、２４５、２５０、２５５、２６０、２６５、２７０、２７５、２８０、２８５、２９０、２９５、３００、４００、５００、６００、７００、８００、９００、１０００、１１００、１２００、１３００、１４００、１５００、１６００、１７００、１８００、１９００、２０００またはそれよりも多くのヌクレオチドの長さを含み得る。ポリヌクレオチド断片は、およそ無細胞ＤＮＡの平均長であってよい。例えば、ポリヌクレオチド断片は、約１６０塩基の長さを含み得る。ポリヌクレオチド断片は、より大きな断片から約１６０塩基の長さのより小さな断片に断片化することもできる。

二重または同類のポリヌクレオチドの少なくとも一部が互いに対して固有の識別子を有する、すなわち、異なるタグを有する限りはシーケンシングの改善を実現することができる。しかし、ある特定の実施形態では、使用するタグの数を、任意の１つの位置で開始する全ての二重分子が固有の識別子を有する見込みが少なくとも９５％になるように選択する。例えば、約１０，０００一倍体ヒトゲノム当量の断片化されたゲノムＤＮＡ、例えば、ｃｆＤＮＡを含む試料では、ｚは２から８の間になることが予測される。そのような集団に、約１０種から１００種の間の異なる識別子、例えば、約２種の識別子、約４種の識別子、約９種の識別子、約１６種の識別子、約２５種の識別子、約３６種の異なる識別子、約４９種の異なる識別子、約６４種の異なる識別子、約８１種の異なる識別子、または約１００種の異なる識別子を用いてタグ付けすることができる。

分子バーコードを含めた識別可能な配列を有する核酸バーコードをタグ付けのために使用することができる。例えば、複数のＤＮＡバーコードは、種々の数の、ヌクレオチドの配列を含み得る。２種、３種、４種、５種、６種、７種、８種、９種、１０種、１１種、１２種、１３種、１４種、１５種、１６種、１７種、１８種、１９種、２０種、２１種、２２種、２３種、２４種、２５種、２６種、２７種、２８種、２９種、３０種またはそれよりも多くの識別可能なヌクレオチドの配列を有する複数のＤＮＡバーコードを使用することができる。ポリヌクレオチドの一方の末端のみに付着させる場合、複数のＤＮＡバーコードにより、２種、３種、４種、５種、６種、７種、８種、９種、１０種、１１種、１２種、１３種、１４種、１５種、１６種、１７種、１８種、１９種、２０種、２１種、２２種、２３種、２４種、２５種、２６種、２７種、２８種、２９種、３０種またはそれよりも多くの異なる識別子をもたらすことができる。あるいは、ポリヌクレオチドの両末端に付着させる場合、複数のＤＮＡバーコードにより、４種、９種、１６種、２５種、３６種、４９種、６４種、８１種、１００種、１２１種、１４４種、１６９種、１９６種、２２５種、２５６種、２８９種、３２４種、３６１種、４００種またはそれよりも多くの異なる識別子をもたらすことができる（ポリヌクレオチドの一方の末端のみにＤＮＡバーコードを付着させる場合の２）。一例では、６種、７種、８種、９種または１０種の識別可能なヌクレオチドの配列を有する複数のＤＮＡバーコードを使用することができる。ポリヌクレオチドの両末端に付着させる場合、それぞれ３６種、４９種、６４種、８１種または１００種の可能な異なる識別子がもたらされる。特定の例では、複数のＤＮＡバーコードは、８種の識別可能なヌクレオチドの配列を含み得る。ポリヌクレオチドの一方の末端のみに付着させる場合、複数のＤＮＡバーコードにより、８種の異なる識別子をもたらすことができる。あるいは、ポリヌクレオチドの両末端に付着させる場合、複数のＤＮＡバーコードにより、６４種の異なる識別子をもたらすことができる。そのようにタグ付けされた試料は、約１０ｎｇから約２００ｎｇ、約１μｇ、約１０μｇのいずれかまでの範囲の断片化されたポリヌクレオチド、例えば、ゲノムＤＮＡ、例えば、ｃｆＤＮＡを有するものになり得る。

ポリヌクレオチドを種々のやり方で固有に識別することができる。ポリヌクレオチドを固有のバーコードによって固有に識別することができる。例えば、試料中の任意の２つのポリヌクレオチドに２つの異なるバーコードを付着させる。バーコードは、ＤＮＡバーコードまたはＲＮＡバーコードであってよい。例えば、バーコードは、ＤＮＡバーコードであってよい。

あるいは、ポリヌクレオチドを、バーコードとポリヌクレオチドの１つまたは複数の内在性配列の組合せによって固有に識別することができる。バーコードは非固有タグであっても固有タグであってもよい。一部の場合では、バーコードは、非固有タグである。例えば、試料中の任意の２つのポリヌクレオチドに同じバーコードで構成されるバーコードを付着させることができるが、それでも異なる内在性配列によって２つのポリヌクレオチドを識別することができる。２つのポリヌクレオチドを、異なる内在性配列内の情報によって識別することができる。そのような情報としては、内在性配列またはその一部分の配列、内在性配列の長さ、内在性配列の場所、内在性配列の１つまたは複数のエピジェネティック修飾、または内在性配列の任意の他の特徴が挙げられる。一部の実施形態では、ポリヌクレオチドを、識別子（１種のバーコードを含むまたは２種のバーコードを含む）を配列リードからの開始配列および終止配列と組み合わせることによって識別することができる。

非固有タグと内在性配列情報の組合せを使用して、核酸分子を明確に検出することができる。例えば、試料由来の非固有にタグ付けされた核酸分子（「親ポリヌクレオチド」）を増幅させて、後代ポリヌクレオチドを生成することができる。次いで、親ポリヌクレオチドおよび後代ポリヌクレオチドのシーケンシングを行って、配列リードを生じさせることができる。エラーを減少させるために、配列リードをコラプスして、コンセンサス配列のセットを生成する。コンセンサス配列を生成するために、配列リードを、配列リードの最初の領域の配列情報、配列リードの末端領域の配列情報、および配列リードの長さを含めた、非固有タグ内の配列情報および内在性配列情報に基づいてコラプスすることができる。一部の実施形態では、コンセンサス配列を、ローリングサークルで同じ核酸鎖を多数回シーケンシングしてコンセンサス配列を得る、循環シーケンシングによって生成する。コンセンサス配列は、分子ごとに決定することもでき（塩基のひと続きにわたってコンセンサス配列を決定する）、塩基ごとに決定することもできる（所与の位置の塩基についてコンセンサスヌクレオチドを決定する）。一部の実施形態では、増幅およびシーケンシングエラープロファイルをモデル化するために確率的モデルを構築し、分子の各位置における真のヌクレオチドの確率を推定するために使用する。一部の実施形態では、確率的モデルパラメータ推定値を、個々の試料または一緒に処理される試料のバッチまたは試料の参照セットにおいて観察されるエラープロファイルに基づいて更新する。一部の実施形態では、コンセンサス配列を、対象由来の個々のｃｆＮＡ（例えば、ｃｆＤＮＡ）分子のタグとなるバーコードを使用して決定する。

内在性配列は、ポリヌクレオチドの末端にあってよい。例えば、内在性配列は、付着させたバーコードに隣接していてよい（例えば、間の塩基）。一部の例では、内在性配列は、少なくとも２塩基、４塩基、６塩基、８塩基、１０塩基、２０塩基、３０塩基、４０塩基、５０塩基、６０塩基、７０塩基、８０塩基、９０塩基、または１００塩基の長さであってよい。内在性配列は、分析される断片／ポリヌクレオチドの末端配列であってよい。内在性配列は、配列の長さであってよい。例えば、８種の異なるバーコードを含む複数のバーコードを試料中の各ポリヌクレオチドの両末端に付着させることができる。試料中の各ポリヌクレオチドは、バーコードとポリヌクレオチドの末端の約１０塩基対の内在性配列の組合せによって識別することができる。理論に束縛されることなく、ポリヌクレオチドの内在性配列は、ポリヌクレオチド配列全体の場合もある。

タグ付けされたポリヌクレオチドの組成物も本明細書に開示される。タグ付けされたポリヌクレオチドは、一本鎖であり得る。あるいは、タグ付けされたポリヌクレオチドは、二本鎖（例えば、二重タグ付けされたポリヌクレオチド）であり得る。したがって、本開示は、二重タグ付けされたポリヌクレオチドの組成物も提供する。ポリヌクレオチドは、任意の型の核酸（ＤＮＡおよび／またはＲＮＡ）を含み得る。ポリヌクレオチドは、本明細書に開示される任意の型のＤＮＡを含む。例えば、ポリヌクレオチドは、ＤＮＡ、例えば、断片化されたＤＮＡまたはｃｆＤＮＡを含み得る。ゲノム内のマッピング可能な塩基位置にマッピングされる組成物中のポリヌクレオチドのセットに非固有にタグ付けすることができる、すなわち、異なる識別子の数は少なくとも２、かつマッピング可能な塩基位置にマッピングされるポリヌクレオチドの数よりも少ないものであってよい。異なる識別子の数は、少なくとも３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２１、２２、２３、２４、２５、かつマッピング可能な塩基位置にマッピングされるポリヌクレオチドの数よりも少ないものであってもよい。

一部の例では、組成物が約１ｎｇから約１０μｇまたはそれよりも多くまでになるにしたがい、異なる分子バーコードのより大きなセットを使用することができる。例えば、５種から１００種の間の異なるライブラリーアダプターを使用して、ｃｆＤＮＡ試料中のポリヌクレオチドにタグ付けすることができる。

分子バーコードを本開示に開示されている任意の型のポリヌクレオチドに割り当てることができる。例えば、分子バーコードを無細胞ポリヌクレオチド（例えば、ｃｆＤＮＡ）に割り当てることができる。多くの場合、本明細書に開示される識別子は、ポリヌクレオチドへのタグ付けに使用されるバーコードオリゴヌクレオチドであってよい。バーコード識別子は、核酸オリゴヌクレオチド（例えば、ＤＮＡオリゴヌクレオチド）であってよい。バーコード識別子は、一本鎖であってよい。あるいは、バーコード識別子は、二本鎖であってよい。バーコード識別子は、本明細書に開示される任意の方法を使用してポリヌクレオチドに付着させることができる。例えば、バーコード識別子は、ポリヌクレオチドに酵素を使用したライゲーションによって付着させることができる。バーコード識別子は、ＰＣＲによってポリヌクレオチドに組み入れることもできる。他の場合では、反応は、分析物に直接、または同位元素で標識されたプローブによってのいずれかで金属同位元素を付加することを含み得る。一般に、本開示の反応における固有または非固有識別子または分子バーコードの割り当ては、例えば、そのそれぞれが完全に参照により本明細書に組み込まれる、米国特許出願第２００１／００５３５１９号、第２００３／０１５２４９０号、第２０１１／０１６００７８号および米国特許第６，５８２，９０８号に記載されている方法およびシステムに従うことができる。

本明細書で使用される識別子または分子バーコードは、完全に内在性であってよく、それにより、個々の断片の環状ライゲーションを実施し、その後、ランダムなせん断または標的化増幅を行うことができる。この場合、分子の新しい開始点および終止点と元の分子内ライゲーション点の組合せにより、特異的な識別子を形成することができる。

本明細書で使用される識別子または分子バーコードは、任意の型のオリゴヌクレオチドを含み得る。一部の場合では、識別子は、所定の、ランダムな、またはセミランダムな配列のオリゴヌクレオチドであってよい。識別子は、バーコードであってよい。例えば、複数のバーコードを、バーコードが複数の中で必ずしも互いに固有ではなくなるように使用することができる。あるいは、複数のバーコードを、各バーコードが複数の中の任意の他のバーコードに対して固有になるように使用することができる。バーコードは、個別に追跡することができる特定の配列（例えば、所定の配列）を含み得る。さらに、バーコードを、バーコードと配列の組合せをライゲーションして、個別に追跡することができる特定の配列を創出することができるように個々の分子に付着させることができる（例えば、ライゲーションによって）。本明細書に記載の通り、バーコードの検出と配列リードの最初の（開始）および／または最後の（終止）位置の配列データの組合せにより、固有の同一性を特定の分子に割り当てることが可能になり得る。個々の配列リードの塩基対の長さまたは数を使用して固有の同一性をそのような分子に割り当てることもできる。本明細書に記載の通り、その結果、固有の同一性が割り当てられた核酸の一本鎖由来の断片により、その後の、親鎖由来の断片の識別が可能になる。このように、試料中のポリヌクレオチドに固有にまたは実質的に固有にタグ付けすることができる。二重タグは、縮重または半縮重ヌクレオチド配列、例えば、ランダム縮重配列を含んでよい。ヌクレオチド配列は、任意の数のヌクレオチドを含んでよい。例えば、ヌクレオチド配列は、１個（非天然ヌクレオチドを使用する場合）、２個、３個、４個、５個、６個、７個、８個、９個、１０個、１１個、１２個、１３個、１４個、１５個、１６個、１７個、１８個、１９個、２０個、２１個、２２個、２３個、２４個、２５個、２６個、２７個、２８個、２９個、３０個、３１個、３２個、３３個、３４個、３５個、３６個、３７個、３８個、３９個、４０個、４１個、４２個、４３個、４４個、４５個、４６個、４７個、４８個、４９個、５０個またはそれよりも多くのヌクレオチドを含んでよい。特定の例では、配列は、７個のヌクレオチドを含んでよい。別の例では、配列は、８個のヌクレオチドを含んでよい。配列は、９個のヌクレオチドを含んでもよい。配列は、１０個のヌクレオチドを含んでよい。

バーコードは、連続したまたは連続していない配列を含み得る。少なくとも１個、２個、３個、４個、５個またはそれよりも多くのヌクレオチドを含むバーコードは、連続した配列または連続していない配列である。４つのヌクレオチドが他のヌクレオチドのいずれにも遮られていない場合。例えば、バーコードが配列ＴＴＧＣを含む場合、バーコードがＴＴＧＣであれば、バーコードは連続したものである。他方では、バーコードがＴＴＸＧＣ（Ｘは核酸塩基である）であれば、バーコードは連続していないものである。

識別子または分子バーコードは、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２１、２２、２３、２４、２５、２６、２７、２８、２９、３０、３１、３２、３３、３４、３５、３６、３７、３８、３９、４０、４１、４２、４３、４４、４５、４６、４７、４８、４９、５０またはそれよりも多くのヌクレオチドの長さであり得るｎ－ｍｅｒの配列を有し得る。本発明のタグは、任意の範囲のヌクレオチドの長さを含み得る。例えば、配列は、２～１００ヌクレオチド、１０～９０ヌクレオチド、２０～８０ヌクレオチド、３０～７０ヌクレオチド、４０～６０ヌクレオチド、または約５０ヌクレオチドの長さであり得る。バーコードの集団は、長さが同じまたは長さが異なるバーコードを含み得る。

タグは、識別子または分子バーコードの下流の二本鎖固定参照配列を含み得る。あるいは、タグは、識別子または分子バーコードの上流または下流の二本鎖固定参照配列を含み得る。二本鎖固定参照配列の各鎖は、例えば、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２１、２２、２３、２４、２５、２６、２７、２８、２９、３０、３１、３２、３３、３４、３５、３６、３７、３８、３９、４０、４１、４２、４３、４４、４５、４６、４７、４８、４９、５０ヌクレオチドの長さであり得る。

本明細書に開示されるタグ付けは、任意の方法を使用して実施することができる。ポリヌクレオチドに、アダプターをハイブリダイゼーションによってタグ付けすることができる。例えば、アダプターは、ポリヌクレオチドの配列の少なくとも一部分と相補的なヌクレオチド配列を有し得る。代替として、ポリヌクレオチドにアダプターをライゲーションによってタグ付けすることができる。

バーコードまたはタグは、様々な技法を使用して付着させることができる。付着は、例えば、ライゲーション（平滑末端もしくは粘着末端）またはアニーリング最適化分子反転プローブを含めた方法によって実施することができる。例えば、タグ付けは１つまたは複数の酵素を使用することを含み得る。酵素はリガーゼであってよい。リガーゼはＤＮＡリガーゼであってよい。例えば、ＤＮＡリガーゼは、Ｔ４ＤＮＡリガーゼ、Ｅ．ｃｏｌｉＤＮＡリガーゼ、および／または哺乳動物リガーゼであってよい。哺乳動物リガーゼは、ＤＮＡリガーゼＩ、ＤＮＡリガーゼＩＩＩ、またはＤＮＡリガーゼＩＶであってよい。リガーゼは、熱安定性リガーゼも含み得る。タグをポリヌクレオチドの平滑末端にライゲーションすることができる（平滑末端ライゲーション）。あるいは、タグをポリヌクレオチドの粘着末端にライゲーションすることができる（粘着末端ライゲーション）。種々の条件を最適化することによってライゲーションの効率を上昇させることができる。ライゲーションの反応時間を最適化することによってライゲーションの効率を上昇させることができる。例えば、ライゲーションの反応時間は、１時間未満、２時間未満、３時間未満、４時間未満、５時間未満、６時間未満、７時間未満、８時間未満、９時間未満、１０時間未満、１１時間未満、１２時間未満、１３時間未満、１４時間未満、１５時間未満、１６時間未満、１７時間未満、１８時間未満、１９時間未満、または２０時間未満であり得る。特定の例では、ライゲーションの反応時間は、２０時間未満である。反応におけるリガーゼ濃度を最適化することによってライゲーションの効率を上昇させることができる。例えば、リガーゼ濃度は、少なくとも１０、５０、１００、１５０、２００、２５０、３００、４００、５００、または６００単位／マイクロリットルであってよい。ライゲーションに適した酵素、酵素補助因子もしくは他の添加剤を添加するもしくはその濃度を変動させること、および／または酵素を有する溶液の温度を最適化することによって効率を最適化することもできる。反応の種々の成分を添加する順序を変動させることによって効率を最適化することもできる。ライゲーション効率を上昇させるためにタグ配列の末端にジヌクレオチドを含めることができる。タグが非相補部分（例えば、Ｙ形アダプター）を含む場合、タグアダプターの相補部分の配列は、ライゲーション効率を促進する１つまたは複数の選択された配列を含み得る。そのような配列は、タグの末端に位置する。そのような配列は、１つ、２つ、３つ、４つ、５つ、または６つの末端塩基を含み得る。粘度が高い（例えば、レイノルズ数が低い）反応溶液を使用してライゲーション効率を上昇させることもできる。例えば、溶液のレイノルズ数は、３０００未満、２０００未満、１０００未満、９００未満、８００未満、７００未満、６００未満、５００未満、４００未満、３００未満、２００未満、１００未満、５０未満、２５未満、または１０未満であってよい。大まかに統合された断片の分布（例えば、厳密な標準偏差）を使用してライゲーション効率を上昇させることができることも意図されている。例えば、断片サイズの変動は、２０％未満、１５％未満、１０％未満、５％未満、または１％未満だけ変動し得る。タグ付けは、例えばポリメラーゼ連鎖反応（ＰＣＲ）によるプライマー伸長も含み得る。タグ付けは、ライゲーションに基づくＰＣＲ、多重ＰＣＲ、一本鎖ライゲーション、または一本鎖環状化も含み得る。タグ付け（例えば、ライゲーションによるもの）の効率を、少なくとも２０％、少なくとも３０％、少なくとも４０％、少なくとも５０％、少なくとも６０％、少なくとも７０％、少なくとも８０％、少なくとも９０％、少なくとも９５％、または少なくとも９８％である分子のタグ付けの効率（変換効率）に上昇させることができる。

試料中の親ポリヌクレオチドをｙ種の異なるバーコードオリゴヌクレオチド（ｙ＝ｎの平方根）を含む反応混合物と混和するライゲーション反応を実施することができる。ライゲーションにより、試料中の親ポリヌクレオチドへのバーコードオリゴヌクレオチドのランダムな付着がもたらされる。次いで、反応混合物を、試料の親ポリヌクレオチドへのバーコードオリゴヌクレオチドのライゲーションをもたらすために十分なライゲーション条件下でインキュベートすることができる。一部の実施形態では、ｙ種の異なるバーコードオリゴヌクレオチドから選択されたランダムなバーコードを親ポリヌクレオチドの両末端にライゲーションする。親ポリヌクレオチドの一方の末端または両方の末端へのｙ種のバーコードのランダムなライゲーションにより、ｙ^２種の固有の識別子がもたらされる。例えば、約１０，０００一倍体ヒトゲノム当量のｃｆＤＮＡを含む試料に約３６種の固有の識別子を用いてタグ付けすることができる。固有の識別子は、６種の固有のＤＮＡバーコードを含み得る。ポリヌクレオチドの両末端への６種の固有のバーコードのライゲーションにより、３６種の可能性のある固有の識別子が生じ得る。

一部の実施形態では、約１０，０００一倍体ヒトゲノム当量のＤＮＡを含む試料に、固有のバーコードのセットを親ポリヌクレオチドの両末端にライゲーションすることによって生じたいくつもの固有の識別子をタグ付けする。例えば、８種の固有のバーコードを親ポリヌクレオチドの両末端にライゲーションすることにより、６４種の固有の識別子を生じさせることができる。同様に、１０種の固有のバーコードを親ポリヌクレオチドの両末端にライゲーションすることにより、１００種の固有の識別子を生じさせることができる、１５種の固有のバーコードを親ポリヌクレオチドの両末端にライゲーションすることにより、２２５種の固有の識別子を生じさせることができる、２０種の固有のバーコードを親ポリヌクレオチドの両末端にライゲーションすることにより、４００種の固有の識別子を生じさせることができる、２５種の固有のバーコードを親ポリヌクレオチドの両末端にライゲーションすることにより、６２５種の固有の識別子を生じさせることができる、３０種の固有のバーコードを親ポリヌクレオチドの両末端にライゲーションすることにより、９００種の固有の識別子を生じさせることができる、３５種の固有のバーコードを親ポリヌクレオチドの両末端にライゲーションすることにより、１２２５種の固有の識別子を生じさせることができる、４０種の固有のバーコードを親ポリヌクレオチドの両末端にライゲーションすることにより、１６００種の固有の識別子を生じさせることができる、４５種の固有のバーコードを親ポリヌクレオチドの両末端にライゲーションすることにより、２０２５種の固有の識別子を生じさせることができる、および５０種の固有のバーコードを親ポリヌクレオチドの両末端にライゲーションすることにより、２５００種の固有の識別子を生じさせることができる。反応のライゲーション効率は、１０％を超え得る、２０％を超え得る、３０％を超え得る、４０％を超え得る、５０％を超え得る、６０％を超え得る、７０％を超え得る、８０％を超え得る、または９０％を超え得る。ライゲーション条件は、断片のいずれかの末端に結合することができ、なお増幅可能である双方向アダプターの使用を含み得る。ライゲーション条件は、少なくとも１ヌクレオチド塩基の突出部をそれぞれが有する粘着末端ライゲーションアダプターを含み得る。一部の例では、ライゲーション条件は、ライゲーション効率を上昇させるために異なる塩基突出部を有するアダプターを含み得る。非限定的な例として、ライゲーション条件は、一塩基シトシン（Ｃ）突出部（すなわち、Ｃ尾部アダプター）、一塩基チミン（Ｔ）突出部（Ｔ尾部アダプター）、一塩基アデニン（Ａ）突出部（Ａ尾部アダプター）、および／または一塩基グアニン（Ｇ）突出部（Ｇ尾部アダプター）を有するアダプターを含み得る。ライゲーション条件は、尾部付加とは対照的に、平滑末端ライゲーションを含み得る。ライゲーション条件はアダプターおよび／またはバーコードオリゴヌクレオチドの量の慎重な設定を含み得る。ライゲーション条件は、反応混合物中の親ポリヌクレオチド断片の量と比較して２×を超える、５×を超える、１０×を超える、２０×を超える、４０×を超える、６０×を超える、８０×を超える（例えば、約１００×）モル過剰のアダプターおよび／またはバーコードオリゴヌクレオチドの使用を含み得る。ライゲーション条件は、Ｔ４ＤＮＡリガーゼ（例えば、ＮＥＢＮＥｘｔＵｌｔｒａＬｉｇａｔｉｏｎＭｏｄｕｌｅ）の使用を含み得る。ある例では、リガーゼマスターミックス１８マイクロリットルをライゲーション９０マイクロリットル（９０のうちの１８部分）およびライゲーションエンハンサーと共に使用する。したがって、親ポリヌクレオチドにｎ種の固有の識別子を用いてタグ付けすることは、数ｙの異なるバーコードの使用を含み得る（ｙ＝ｎの平方根）。そのようにタグ付けされた試料は、約１０ｎｇ～約１００ｎｇ、約２００ｎｇ、約３００ｎｇ、約４００ｎｇ、約５００ｎｇ、約１μｇ、または約１０μｇのいずれかの範囲の断片化されたポリヌクレオチド、例えば、ゲノムＤＮＡ、例えば、ｃｆＤＮＡを有するものであり得る。試料中の親ポリヌクレオチドを識別するために使用するバーコードの数ｙは、試料中の核酸の量に依存する場合がある。

変換効率を上昇させる１つの方法は、ＴｈｅｒｍｏＰｈａｇｅ一本鎖ＤＮＡ（ｓｓＤＮＡ）リガーゼ誘導体などの一本鎖ＤＮＡに対する最適な反応性のために工学的に操作されたリガーゼの使用を伴う。そのようなリガーゼは、中間の浄化ステップに起因する不十分な効率および／または喪失の蓄積を有し得る末端修復およびＡ尾部付加というライブラリー調製における従来のステップを迂回し、センスまたはアンチセンス開始ポリヌクレオチドのいずれかが適切にタグ付けされたポリヌクレオチドに変換される確率を２倍にすることが可能である。そのようなリガーゼにより、典型的な末端修復反応により十分に平滑末端になっていない突出部を有する二本鎖ポリヌクレオチドも変換される。このｓｓＤＮＡ反応のための最適な反応条件は、１×反応緩衝剤（５０ミリモル（ｍＭ）のＭＯＰＳ（ｐＨ７．５）、１ｍＭのＤＴＴ、５ｍＭのＭｇＣｌ２、１０ｍＭのＫＣｌ）である。５０ｍＭのＡＴＰ、２５ｍｇ／ｍｌのＢＳＡ、２．５ｍＭのＭｎＣｌ２、２００ｐｍｏｌの８５ｎｔｓｓＤＮＡオリゴマーおよび５ＵのｓｓＤＮＡリガーゼと共に６５℃で１時間インキュベートする。その後のＰＣＲを使用した増幅により、タグ付けされた一本鎖ライブラリーを二本鎖ライブラリーにさらに変換し、２０％を優に上回る全体的な変換効率を得ることができる。変換速度を、例えば、１０％を上回るまで上昇させる他の方法としては、例えば、単独でまたは組合せで、以下のいずれかが挙げられる：アニーリング最適化分子反転プローブ、十分に制御されたポリヌクレオチドサイズ範囲での平滑末端ライゲーション、高効率ポリメラーゼの選択、融合プライマーの使用を伴うまたは伴わない粘着末端ライゲーションまたは最前線の多重増幅ステップ、標的配列内の末端塩基の最適化、反応条件（反応時間を含む）の最適化、およびライゲーションの間に反応物（例えば、望ましくない核酸断片）を浄化するための１つまたは複数のステップの導入、および緩衝剤条件の温度の最適化。粘着末端ライゲーションは、多数のヌクレオチド突出部を使用して実施することができる。粘着末端ライゲーションは、Ａ、Ｔ、Ｃ、またはＧ塩基を含む一塩基突出部を使用して実施することができる。

本開示は、タグ付けされたポリヌクレオチドの組成物も提供する。ポリヌクレオチドは、断片化されたＤＮＡ、例えば、ｃｆＤＮＡを含み得る。ゲノム内のマッピング可能な塩基位置にマッピングされる組成物中のポリヌクレオチドのセットに非固有にタグ付けすることができる、すなわち、異なる識別子の数は、少なくとも少なくとも２、かつマッピング可能な塩基位置にマッピングされるポリヌクレオチドの数よりも少ないものであり得る。約１０ｎｇ～約１０μｇ（例えば、約１０ｎｇ～１μｇ、約１０ｎｇ～１００ｎｇ、約１００ｎｇ～１０μｇ、約１００ｎｇ～１μｇ、約１μｇ～１０μｇのいずれか）の組成物は、２種、５種、１０種、５０種または１００種のいずれか～１００種、１０００種、１０，０００種または１００，０００種のいずれかの異なる識別子を有し得る。例えば、５種から１００種までの異なる識別子を使用して、そのような組成物中のポリヌクレオチドにタグ付けすることができる。
シーケンシング

タグ付けされたポリヌクレオチドのシーケンシングを行って配列リードを生成することができる。例えば、タグ付けされた２重鎖ポリヌクレオチドのシーケンシングを行うことができる。配列リードは、タグ付けされた２重鎖ポリヌクレオチドの一方の鎖のみから生成することができる。あるいは、タグ付けされた２重鎖ポリヌクレオチドの両方の鎖により、配列リードを生成することができる。タグ付けされた２重鎖ポリヌクレオチドの２つの鎖は、同じタグを含み得る。あるいは、タグ付けされた２重鎖ポリヌクレオチドの２つの鎖は、異なるタグを含み得る。タグ付けされた２重鎖ポリヌクレオチドの２つの鎖を違うようにタグ付けし、一方の鎖（例えば、ワトソン鎖）から生成された配列リードと他方の鎖（例えば、クリック鎖）から生成された配列リードを区別することができる。シーケンシングは、各分子について多数の配列リードを生成することを伴い得る。これは、例えば、例えばＰＣＲによるシーケンシングプロセスの間の個々のポリヌクレオチド鎖の増幅の結果として起こる。

本明細書に開示される方法は、ポリヌクレオチドを増幅させることを含み得る。増幅は、タグ付けの前、タグ付けの後、またはその両方で実施することができる。ポリヌクレオチド増幅の結果、核酸分子またはプライマーへのヌクレオチドの組み入れをもたらし、それにより、鋳型核酸と相補的な新しい核酸分子を形成することができる。新たに形成されたポリヌクレオチド分子およびその鋳型を、追加的なポリヌクレオチドを合成するための鋳型として使用することができる。増幅されるポリヌクレオチドは、任意の核酸、例えば、ゲノムＤＮＡ、ｃＤＮＡ（相補ＤＮＡ）、ｃｆＤＮＡ、および循環腫瘍ＤＮＡ（ｃｔＤＮＡ）を含めたデオキシリボ核酸であってよい。増幅されるポリヌクレオチドは、ＲＮＡであってもよい。本明細書で使用される場合、１つの増幅反応は多くのラウンドのＤＮＡ複製を含み得る。ＤＮＡ増幅反応としては、例えば、ポリメラーゼ連鎖反応（ＰＣＲ）を挙げることができる。１つのＰＣＲ反応は、２～１００「サイクル」のＤＮＡ分子の変性、アニーリング、および合成を含み得る。例えば、増幅ステップの間に２～７、５～１０、６～１１、７～１２、８～１３、９～１４、１０～１５、１１～１６、１２～１７、１３～１８、１４～１９、または１５～２０サイクルを実施することができる。プライマーを含め、配列のＧＣ含量に基づいてＰＣＲの条件を最適化することができる。増幅プライマーを、目的の標的配列が選択されるように選択することができる。プライマーを、変換効率が最適化されるまたは最大になるように設計することができる。一部の実施形態では、プライマーは、小さな目的の領域を引き出すために、プライマー間に短い配列を含有する。一部の実施形態では、プライマーはヌクレオソーム領域を標的とし、したがって、プライマーは、ヌクレオソーム間の領域とは対照的にヌクレオソームが存在する領域にハイブリダイズし、これは、ヌクレオソーム間の領域がより高度に切断され、したがって、標的として存在する可能性が低いからである。

一部の実施形態では、がん細胞、腫瘍微小環境、または免疫系成分（顆粒球、腫瘍浸潤性リンパ球など）においてヌクレオソームおよび他の調節機構によって示差的に保護されるゲノムの領域を標的とする。一部の実施形態では、腫瘍細胞において安定であり、かつ／または示差的に調節されない他の領域を標的とする。これらの領域内で、カバレッジ、切断部位、断片の長さ、配列の内容、断片の終点における配列の内容、または近くのゲノムの状況での配列の内容の差異を使用して、がん細胞のある特定の分類（例えば、ＥＧＦＲ突然変異体、ＫＲＡＳ突然変異体、ＥＲＢｂ２増幅、もしくはＰＤ－１発現がん）、またはがんの型（例えば、肺腺癌、乳房、もしくは結腸直腸がん）が存在するかしないかを推測することができる。そのような標的化により、ある特定の部位におけるカバレッジまたは捕捉の確率を増強することによってアッセイの感度および／または特異度を増強することもできる。これらの原理は、これだけに限定されないが、ライゲーションとそれに加えてハイブリッド捕捉に基づく富化、増幅に基づく富化、配列／ゲノム位置に特異的な開始プライマーを用いたローリングサークルに基づく富化、および他の方法を含めた、標的化の方法に当てはまる。そのような方法およびその後の分析を用いて標的化することができる領域としては、これだけに限定されないが、イントロン領域、エクソン領域、プロモーター領域、ＴＳＳ領域、遠位調節エレメント、エンハンサー領域、およびスーパーエンハンサー領域および／または前述のものの接合部が挙げられる。これらの方法はまた、腫瘍の起源組織および／または腫瘍量の値を推測するために、試料中に含有される変異体（例えば、生殖系列または体細胞変異体）を決定するための本明細書に記載の他の技法と組み合わせて使用することもできる。例えば、生殖系列変異体により、特定の型のがんに対する素因を決定することができ、一方、体細胞変異体は、特に、影響を受ける遺伝子、経路および変異体のパーセンテージに基づいて、特定の型のがんに相関させることができる。次いで、この情報を、調節機構ならびに／または、例えば、メチル化、ヒドロキシメチル化、アセチル化、および／もしくはＲＮＡなどの化学修飾に関するエピジェネティックなシグネチャーと組み合わせて使用することができる。核酸ライブラリーは、がん、がんの型、特定の疾患において活性化される分子経路、起源組織ならびに腫瘍量に対応する値を検出するための感度および特異度を増強するために、ＤＮＡ、ＤＮＡ修飾およびＲＮＡの組合せ分析を伴い得る。上記のそれぞれを分析するための手法は、他の箇所で概説されており、試料を種々の身体検体から得ることができる同じ患者由来の単一または多数の試料の分析と組み合わせることができる。

核酸増幅技法を本明細書に記載のアッセイと共に使用することができる。一部の増幅技法は、これだけに限定されないが、溶液ＰＣＲおよびｉｎｓｉｔｕＰＣＲを含み得るＰＣＲ方法体系である。例えば、増幅は、ＰＣＲに基づく増幅を含み得る。あるいは、増幅は、ＰＣＲに基づかない増幅を含み得る。鋳型核酸の増幅は、１つまたは複数のポリメラーゼの使用を含み得る。例えば、ポリメラーゼは、ＤＮＡポリメラーゼまたはＲＮＡポリメラーゼであり得る。一部の場合では、例えば、忠実度の高いポリメラーゼ（例えば、Ｐｈｕｓｉｏｎ（登録商標）Ｈｉｇｈ－ＦｉｄｅｌｉｔｙＤＮＡＰｏｌｙｍｅｒａｓｅ）またはＰＣＲプロトコールを用いて、忠実度の高い増幅を実施する。一部の場合では、ポリメラーゼは、忠実度の高いポリメラーゼであってよい。例えば、ポリメラーゼは、ＫＡＰＡＨｉＦｉＤＮＡポリメラーゼであってよい。ポリメラーゼは、ＰｈｕｓｉｏｎＤＮＡポリメラーゼまたはＵｌｔｒａＩＩポリメラーゼであってもよい。ポリメラーゼは、例えば断片の長さおよび／またはＧＣ含量に起因する増幅の偏りが低減するまたは最小限になる反応条件下で使用することができる。

ＰＣＲによるポリヌクレオチドの一本鎖の増幅により、その鎖およびその相補物の両方のコピーが生成する。シーケンシングの間、鎖およびその相補物の両方から配列リードが生成する。しかし、例えばワトソン鎖の相補物から生成した配列リードは、元のワトソン鎖にタグ付けされた二重タグの部分の相補物を有するので、そのように識別することができる。対照的に、クリック鎖またはその増幅産物から生成した配列リードは、元のクリック鎖にタグ付けされた二重タグの部分を有する。このように、ワトソン鎖の相補物の増幅産物から生成した配列リードを元の分子のクリック鎖の増幅産物から生成した相補配列リードと区別することができる。

ＰＣＲ増幅などの増幅は、一般には、ラウンドで実施される。増幅の例示的なラウンドは、１、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２５、３０、またはそれよりも多くのラウンドの増幅を含む。例えば緩衝剤条件ならびにポリメラーゼの型および条件に関して、増幅条件を最適化することができる。例えば、非特異的な増幅の偏り、ＧＣ含量の偏り、およびサイズの偏りを低減することによって試料処理における偏りが低減するように、増幅を改変することもできる。

一部の実施形態では、シーケンシングの前に配列を富化させることができる。富化は、特異的な標的領域に対して行うこともでき、非特異的に行うこともできる。一部の実施形態では、標的化される目的のゲノム領域を、示差的なタイリングおよび捕捉スキームを使用し、１つまたは複数のベイトセットパネルに関して選択された捕捉プローブ（「ベイト」）を用いて富化することができる。示差的なタイリングおよび捕捉スキームでは、種々の相対的濃度のベイトセットを使用して、ベイトに関連するゲノム領域にわたって示差的にタイリングし（例えば、異なる「分解能」で）、制約のセット（例えば、シーケンシング負荷量、各ベイトの有用性などのシーケンサー制約）に供し、それらを下流のシーケンシングのために所望のレベルで捕捉する。これらの標的化される目的のゲノム領域は、一塩基変異体（ＳＮＶ）およびインデル（すなわち、挿入または欠失）を含み得る。標的化される目的のゲノム領域は、目的の骨格ゲノム領域（「骨格領域」）または目的のホットスポットゲノム領域（「ホットスポット領域（hot-spot region）」もしくは「ホットスポット領域（hotspot region）」もしくは「ホットスポット（hot-spot）」もしくは「ホットスポット（hotspot）」）を含み得る。「ホットスポット」は、配列変異体に関連する特定の遺伝子座を指し得るが、「骨格」領域は、それぞれが１つまたは複数の潜在的な配列変異体を有し得る、より大きなゲノム領域を指し得る。例えば、骨格領域は１種または複数種のがん関連突然変異を含有する領域であり得るが、ホットスポットは、再発性がんに関連する特定の突然変異を有する遺伝子座またはがんに関連する特定の再発性突然変異を有する遺伝子座であり得る。目的の骨格領域およびホットスポットゲノム領域はどちらも、一般にリキッドバイオプシーアッセイに含められる、がんを有する対象において１つまたは複数の変異体が見られることが予測され得る腫瘍関連マーカー遺伝子（例えば、ＢＲＡＦ、ＢＲＣＡ１／２、ＥＧＦＲ、ＫＲＡＳ、ＰＩＫ３ＣＡ、ＲＯＳ１、ＴＰ５３、およびその他）を含み得る。一部の実施形態では、目的の１つまたは複数の領域に対するプローブを伴うビオチン標識されたビーズを使用して標的配列を捕捉することができ、必要に応じて、その後、これらの領域を増幅して目的の領域を富化する。

試料から得ることができるシーケンシングデータの量は有限であり、核酸鋳型の質、標的配列の数、特異的な配列の希少性、シーケンシング技法の限定、ならびに時間および費用などの実用的考察などの因子によって制約される。したがって、「リードバジェット（ｒｅａｄｂｕｄｇｅｔ）」は、試料から抽出することができる遺伝情報の量を概念化する１つのやり方である。シーケンシング実験において所定量のＤＮＡを含む試験試料に割り当てられる塩基リードの総数を識別する、試料当たりのリードバジェットを選択することができる。リードバジェットは、例えば、増幅によって生じる冗長性リードを含めた、生じる総リードに基づくものであり得る。あるいは、リードバジェットは、試料中で検出される固有の分子の数に基づくものであり得る。ある特定の実施形態では、リードバジェットは、遺伝子座におけるコールのための二本鎖支持体の量を反映するものであり得る。すなわち、リードがＤＮＡ分子の両方の鎖に由来する遺伝子座のパーセンテージを検出する。

リードバジェットの因子は、リードの深さおよびパネルの長さを含む。例えば、３，０００，０００，０００リードのリードバジェットは、２０，０００リード／塩基の平均のリードの深さにおける１５０，０００塩基として割り当てることができる。リードの深さは、遺伝子座においてリードを生じさせる分子の数を指し得る。本開示では、各塩基におけるリードを、パネルの骨格領域内の塩基間に、パネルのホットスポット領域内の第１の平均のリードの深さおよび塩基で、より深いリードの深さで割り当てることができる。一部の実施形態では、試料を、試料中に存在する核酸の量によって決定されるリードの深さまでシーケンシングする。一部の実施形態では、試料を、設定されたリードの深さまでシーケンシングし、したがって、異なる量の核酸を含む試料が同じリードの深さまでシーケンシングされる。例えば、核酸３００ｎｇを含む試料を、核酸の３０ｎｇを含む試料の１／１０のリードの深さまでシーケンシングすることができる。一部の実施形態では、２またはそれよりも多くの異なる対象由来の核酸を、対象のそれぞれから得られる核酸の量に基づいて比率で一緒に添加することができる。

非限定的な例として、リードバジェットが所与の試料について１００，０００リード計数からなる場合、それらの１００，０００リード計数を骨格領域のリードとホットスポット領域のリードに分けることができる。これらのリードの多数（例えば、９０，０００リード）を骨格領域に割り当てた結果、リードの少数（例えば、残りの１０，０００リード）がホットスポット領域に割り当てられる。逆に、リードの多数（例えば、９０，０００リード）をホットスポット領域に割り当てた結果、リードの少数（例えば、残りの１０，０００リード）が骨格領域に割り当てられる。したがって、当業者は、リードバジェットを割り当てて、所望のレベルの感度および特異度をもたらすことができる。ある特定の実施形態では、リードバジェットは、例えば、２０，０００塩基～１００，０００塩基にわたって、１００，０００，０００リードから１００，０００，０００，０００リードの間、例えば、５００，０００，０００リードから５０，０００，０００，０００リードの間、または約１，０００，０００，０００リードから５，０００，０００，０００リードの間であり得る。

全てのポリヌクレオチド（例えば、増幅したポリヌクレオチド）をシーケンシングのためにシーケンシングデバイスにかけることができる。あるいは、増幅したポリヌクレオチドの全ての試料採取またはサブセットをシーケンシングのためにシーケンシングデバイスにかける。任意の元の二本鎖ポリヌクレオチドに関して、シーケンシングに関して３つの結果があり得る。第１に、配列リードは、元の分子の両方の相補鎖から（すなわち、ワトソン鎖からおよびクリック鎖からの両方）生成し得る。第２に、配列リードを、２つの相補鎖のうちの一方のみから（すなわち、ワトソン鎖からまたはクリック鎖からのいずれか、両方ではない）生成し得る。第３に、２つの相補鎖のいずれからも配列リードが生成されない場合がある。したがって、遺伝子座にマッピングされる固有の配列リードを計数することにより、遺伝子座にマッピングされる元の試料中の二本鎖ポリヌクレオチドの数が実際よりも小さく推定される。目に見えず計数されないポリヌクレオチドを推定する方法が本明細書に記載される。

シーケンシング法は、大規模並列処理シーケンシング、すなわち、少なくとも１００個、１０００個、１０，０００個、１００，０００個、１００万個、１０００万個、１億個、または１０億個のポリヌクレオチド分子のいずれかを同時に（または立て続けに）シーケンシングするものであり得る。

シーケンシング法としては、これだけに限定されないが、ハイスループットシーケンシング、パイロシーケンシング、合成によるシーケンシング、単一分子シーケンシング、ナノポアシーケンシング、半導体シーケンシング、ライゲーションによるシーケンシング、ハイブリダイゼーションによるシーケンシング、ＲＮＡ－Ｓｅｑ（Ｉｌｌｕｍｉｎａ）、ＤｉｇｉｔａｌＧｅｎｅＥｘｐｒｅｓｓｉｏｎ（Ｈｅｌｉｃｏｓ）、次世代シーケンシング、単一分子合成によるシーケンシング（ＳＭＳＳ）（Ｈｅｌｉｃｏｓ）、大規模並列処理シーケンシング、ＣｌｏｎａｌＳｉｎｇｌｅＭｏｌｅｃｕｌｅＡｒｒａｙ（Ｓｏｌｅｘａ）、ショットガンシーケンシング、マクサム・ギルバートまたはサンガーシーケンシング、プライマーウォーキング、ＰａｃＢｉｏ、ＳＯＬｉＤ、ＩｏｎＴｏｒｒｅｎｔ、またはＮａｎｏｐｏｒｅプラットフォームを使用したシーケンシングおよび当技術分野で公知の任意の他のシーケンシング法を挙げることができる。

方法は、少なくとも１００万、１０００万、１億、５億、１０億、１１億、１２億、１５億、２０億、２５億、３０億、３５億、４０億、４５億、５０億、５５億、６０億、６５億、７０億、８０億、９０億または１００億の塩基対をシーケンシングすることを含み得る。一部の場合では、方法は、約１０億から約７０億まで、約１１億から約６８億まで、約１２億から約６５億まで、約１１億から約６４億まで、約１５億から約７０億まで、約２０億から約６０億まで、約２５億から約５５億まで、約３０億から約５０億までの塩基対をシーケンシングすることを含み得る。例えば、方法は、約１２億から約６５億までの塩基対をシーケンシングすることを含み得る。
腫瘍マーカー

腫瘍マーカーは、１種または複数種のがんに関連する遺伝子変異体である。腫瘍マーカーは、いくつかのリソースまたは方法のいずれかを使用して決定することができる。腫瘍マーカーは、以前に発見されている場合もあり、実験または疫学的技法を使用して新規に発見される可能性もある。腫瘍マーカーががんと高度に相関する場合、腫瘍マーカーの検出により、がんが示され得る。領域または遺伝子内の腫瘍マーカーが所与のバックグラウンド集団またはデータセットについての頻度よりも大きな頻度で存在する場合、腫瘍マーカーの検出により、がんが示され得る。

科学文献およびデータベースなどの公的に入手可能なリソースに、がんに関連することが見いだされた遺伝子変異体が詳細に記載されている可能性がある。科学文献には、１種または複数種の遺伝子変異体をがんと関連付ける実験またはゲノムワイド関連解析（ＧＷＡＳ）が記載されている可能性がある。データベースには、１種または複数種の腫瘍マーカーを決定するためのより包括的なリソースを提供するために科学文献などの供給源から収集された情報が集積されている可能性がある。データベースの非限定的な例としては、ＦＡＮＴＯＭ、ＧＴｅｘ、ＧＥＯ、ＢｏｄｙＡｔｌａｓ、ＩＮＳｉＧＨＴ、ＯＭＩＭ（ＯｎｌｉｎｅＭｅｎｄｅｌｉａｎＩｎｈｅｒｉｔａｎｃｅｉｎＭａｎ、omim.org）、ｃＢｉｏＰｏｒｔａｌ（cbioportal.org）、ＣＩＶｉＣ（ＣｌｉｎｉｃａｌＩｎｔｅｒｐｒｅｔａｔｉｏｎｓｏｆＶａｒｉａｎｔｓｉｎＣａｎｃｅｒ、civic.genome.wustl.edu）、ＤＯＣＭ（ＤａｔａｂａｓｅｏｆＣｕｒａｔｅｄＭｕｔａｔｉｏｎｓ、docm.genome.wustl.edu）、およびＩＣＧＣＤａｔａＰｏｒｔａｌ（dcc.icgc.org）が挙げられる。さらなる例では、ＣＯＳＭＩＣ（ＣａｔａｌｏｇｕｅｏｆＳｏｍａｔｉｃＭｕｔａｔｉｏｎｓｉｎＣａｎｃｅｒ）データベースでは、腫瘍マーカーをがん、遺伝子、または突然変異型によって検索することが可能である。症例対照研究または関連研究（例えば、ゲノムワイド関連解析）などの実験を行うことにより、新規の腫瘍マーカーを決定することもできる。

１種または複数種の腫瘍マーカーをシーケンシングパネルにおいて検出することができる。腫瘍マーカーは、がんに関連する１種または複数種の遺伝子変異体であり得る。腫瘍マーカーは、一塩基変異体（ＳＮＶ）、コピー数変異体（ＣＮＶ）、挿入または欠失（例えば、インデル）、遺伝子融合および反転から選択することができる。腫瘍マーカーは、タンパク質のレベルに影響を及ぼし得る。腫瘍マーカーは、プロモーターまたはエンハンサーに存在する可能性があり、遺伝子の転写を変更し得る。腫瘍マーカーは、遺伝子の転写および／または翻訳の有効性に影響を及ぼし得る。腫瘍マーカーは、転写されたｍＲＮＡの安定性に影響を及ぼし得る。腫瘍マーカーは、翻訳されるタンパク質のアミノ酸配列の変化をもたらし得る。腫瘍マーカーは、スプライシングに影響を及ぼし得る、特定のコドンによってコードされるアミノ酸を変化させ得る、フレームシフトをもたらし得る、または中途終止コドンをもたらし得る。腫瘍マーカーは、アミノ酸の保存的置換をもたらし得る。１種または複数種の腫瘍マーカーが、アミノ酸の保存的置換をもたらし得る。１種または複数種の腫瘍マーカーは、アミノ酸の非保存的置換をもたらし得る。

腫瘍マーカーの１つまたは複数は、ドライバー突然変異であり得る。ドライバー突然変異は、腫瘍細胞に、その生存または再生のいずれかを増大させることによりその微小環境における選択的利点をもたらす突然変異である。腫瘍マーカーのいずれもドライバー突然変異ではない可能性がある。腫瘍マーカーの１つまたは複数は、パッセンジャー突然変異であり得る。パッセンジャー突然変異は、腫瘍細胞の適応度には影響を及ぼさないが、ドライバー突然変異と同じゲノム内に存在することからクローン性増大に関連する可能性がある突然変異である。

腫瘍マーカーの頻度は、０．００１％ほどの低さであり得る。腫瘍マーカーの頻度は、０．００５％ほどの低さであり得る。腫瘍マーカーの頻度は、０．０１％ほどの低さであり得る。腫瘍マーカーの頻度は、０．０２％ほどの低さであり得る。腫瘍マーカーの頻度は、０．０３％ほどの低さであり得る。腫瘍マーカーの頻度は、０．０５％ほどの低さであり得る。腫瘍マーカーの頻度は、０．１％ほどの低さであり得る。腫瘍マーカーの頻度は、１％ほどの低さであり得る。

単一の腫瘍マーカーは、がんを有する対象の５０％よりも多くには存在しない可能性がある。単一の腫瘍マーカーは、がんを有する対象の４０％よりも多くには存在しない可能性がある。単一の腫瘍マーカーは、がんを有する対象の３０％よりも多くには存在しない可能性がある。単一の腫瘍マーカーは、がんを有する対象の２０％よりも多くには存在しない可能性がある。単一の腫瘍マーカーは、がんを有する対象の１０％よりも多くには存在しない可能性がある。単一の腫瘍マーカーは、がんを有する対象の５％よりも多くには存在しない可能性がある。単一の腫瘍マーカーは、がんを有する対象の０．００１％～５０％に存在する可能性がある。単一の腫瘍マーカーは、がんを有する対象の０．０１％～５０％に存在する可能性がある。単一の腫瘍マーカーは、がんを有する対象の０．０１％～３０％に存在する可能性がある。単一の腫瘍マーカーは、がんを有する対象の０．０１％～２０％に存在する可能性がある。単一の腫瘍マーカーは、がんを有する対象の０．０１％～１０％に存在する可能性がある。単一の腫瘍マーカーは、がんを有する対象の０．１％～１０％に存在する可能性がある。単一の腫瘍マーカーは、がんを有する対象の０．１％～５％に存在する可能性がある。

腫瘍マーカーの検出により、１種または複数種のがんの存在を示すことができる。検出により、卵巣がん、膵がん、乳がん、結腸直腸がん、非小細胞肺癌（例えば、扁平上皮細胞癌、または腺癌）または任意の他のがんで構成される群から選択されるがんの存在を示すことができる。検出により、卵巣がん、膵がん、乳がん、結腸直腸がん、非小細胞肺癌（扁平上皮細胞もしくは腺癌）または任意の他のがんで構成される群から選択される任意のがんの存在を示すことができる。検出により、卵巣がん、膵がん、乳がん、結腸直腸がんおよび非小細胞肺癌（扁平上皮細胞もしくは腺癌）、または任意の他のがんで構成される群から選択される複数のがんのいずれかの存在を示すことができる。検出により、本出願で言及される任意のがんの１つまたは複数の存在を示すことができる。

１種または複数種のがんは、パネル内の少なくとも１つのエクソンにおいて腫瘍マーカーを示し得る。卵巣がん、膵がん、乳がん、結腸直腸がん、非小細胞肺癌（扁平上皮細胞または腺癌）、または任意の他のがんで構成される群から選択される１種または複数種のがんのそれぞれが、パネル内の少なくとも１つのエクソンにおいて腫瘍マーカーを示す。少なくとも３種のがんのそれぞれが、パネル内の少なくとも１つのエクソンにおいて腫瘍マーカーを示し得る。少なくとも４種のがんのそれぞれが、パネル内の少なくとも１つのエクソンにおいて腫瘍マーカーを示し得る。少なくとも５種のがんのそれぞれが、パネル内の少なくとも１つのエクソンにおいて腫瘍マーカーを示し得る。少なくとも８種のがんのそれぞれが、パネル内の少なくとも１つのエクソンにおいて腫瘍マーカーを示し得る。少なくとも１０種のがんのそれぞれが、パネル内の少なくとも１つのエクソンにおいて腫瘍マーカーを示し得る。がんの全てが、パネル内の少なくとも１つのエクソンにおいて腫瘍マーカーを示し得る。

対象ががんを有する場合、対象は、パネル内の少なくとも１つのエクソンまたは遺伝子において腫瘍マーカーを示し得る。がんを有する対象の少なくとも８５％が、パネル内の少なくとも１つのエクソンまたは遺伝子において腫瘍マーカーを示し得る。がんを有する対象の少なくとも９０％が、パネル内の少なくとも１つのエクソンまたは遺伝子において腫瘍マーカーを示し得る。がんを有する対象の少なくとも９２％が、パネル内の少なくとも１つのエクソンまたは遺伝子において腫瘍マーカーを示し得る。がんを有する対象の少なくとも９５％が、パネル内の少なくとも１つのエクソンまたは遺伝子において腫瘍マーカーを示し得る。がんを有する対象の少なくとも９６％が、パネル内の少なくとも１つのエクソンまたは遺伝子において腫瘍マーカーを示し得る。がんを有する対象の少なくとも９７％が、パネル内の少なくとも１つのエクソンまたは遺伝子において腫瘍マーカーを示し得る。がんを有する対象の少なくとも９８％が、パネル内の少なくとも１つのエクソンまたは遺伝子において腫瘍マーカーを示し得る。がんを有する対象の少なくとも９９％が、パネル内の少なくとも１つのエクソンまたは遺伝子において腫瘍マーカーを示し得る。がんを有する対象の少なくとも９９．５％が、パネル内の少なくとも１つのエクソンまたは遺伝子において腫瘍マーカーを示し得る。

対象ががんを有する場合、対象は、パネル内の少なくとも１つの領域において腫瘍マーカーを示し得る。がんを有する対象の少なくとも８５％が、パネル内の少なくとも１つの領域において腫瘍マーカーを示し得る。がんを有する対象の少なくとも９０％が、パネル内の少なくとも１つの領域において腫瘍マーカーを示し得る。がんを有する対象の少なくとも９２％が、パネル内の少なくとも１つの領域において腫瘍マーカーを示し得る。がんを有する対象の少なくとも９５％が、パネル内の少なくとも１つの領域において腫瘍マーカーを示し得る。がんを有する対象の少なくとも９６％が、パネル内の少なくとも１つの領域において腫瘍マーカーを示し得る。がんを有する対象の少なくとも９７％が、パネル内の少なくとも１つの領域において腫瘍マーカーを示し得る。がんを有する対象の少なくとも９８％が、パネル内の少なくとも１つの領域において腫瘍マーカーを示し得る。がんを有する対象の少なくとも９９％が、パネル内の少なくとも１つの領域において腫瘍マーカーを示し得る。がんを有する対象の少なくとも９９．５％が、パネル内の少なくとも１つの領域において腫瘍マーカーを示し得る。

検出を高感度および／または高特異度で実施することができる。感度は、正確に陽性と識別される陽性の割合の尺度を指し得る。一部の場合では、感度は、存在する全ての腫瘍マーカーの、検出されるもののパーセンテージを指す。一部の場合では、感度は、ある特定の疾患を有すると正確に識別される病人のパーセンテージを指す。特異度は、正確に陰性と識別される陰性の割合の尺度を指し得る。一部の場合では、特異度は、正確に識別される変更されていない塩基の割合を指す。一部の場合では、特異度は、ある特定の疾患を有さないと正確に識別される健康な人のパーセンテージを指す。以前に記載の非固有タグ付け方法により、増幅およびシーケンシングのエラーによって生成するノイズが減少することによって検出の特異度が有意に増大し、これにより、偽陽性の頻度が低減する。検出を少なくとも９５％、９７％、９８％、９９％、９９．５％、もしくは９９．９％の感度および／または少なくとも８０％、９０％、９５％、９７％、９８％もしくは９９％の特異度で実施することができる。検出を少なくとも９０％、９５％、９７％、９８％、９９％、９９．５％、９９．６％、９９．９８％、９９．９％または９９．９５％の感度で実施することができる。検出を少なくとも９０％、９５％、９７％、９８％、９９％、９９．５％、９９．６％、９９．９８％、９９．９％または９９．９５％の特異度で実施することができる。検出を少なくとも７０％の特異度および少なくとも７０％の感度、少なくとも７５％の特異度および少なくとも７５％の感度、少なくとも８０％の特異度および少なくとも８０％の感度、少なくとも８５％の特異度および少なくとも８５％の感度、少なくとも９０％の特異度および少なくとも９０％の感度、少なくとも９５％の特異度および少なくとも９５％の感度、少なくとも９６％の特異度および少なくとも９６％の感度、少なくとも９７％の特異度および少なくとも９７％の感度、少なくとも９８％の特異度および少なくとも９８％の感度、少なくとも９９％の特異度および少なくとも９９％の感度、または１００％の特異度および１００％の感度で実施することができる。一部の場合では、方法により、腫瘍マーカーを約８０％またはそれよりも大きな感度で検出することができる。一部の場合では、方法により、腫瘍マーカーを約９５％またはそれよりも大きな感度で検出することができる。一部の場合では、方法により、腫瘍マーカーを約８０％またはそれよりも大きな感度、および約９５％またはそれよりも大きな感度で検出することができる。

検出は、高度に正確であり得る。正確度は、無細胞ＤＮＡにおける腫瘍マーカーの識別、および／またはがんの診断に適用することができる。上記の共変量分析などの統計学的ツールを使用して、正確度を増大させるおよび／または測定することができる。方法により、腫瘍マーカーを少なくとも８０％、９０％、９５％、９７％、９８％または９９％、９９．５％、９９．６％、９９．９８％、９９．９％、または９９．９５％の正確度で検出することができる。一部の場合では、方法により、腫瘍マーカーを少なくとも９５％またはそれよりも大きな正確度で検出することができる。
検出限界／ノイズ範囲

ポリヌクレオチドのコピーおよび／または読み取りにおけるエラーによってノイズが導入され得る。例えば、シーケンシングプロセスでは、単一のポリヌクレオチドがまず増幅に供され得る。増幅によりエラーが導入される可能性があり、したがって、増幅したポリヌクレオチドのサブセットは、特定の遺伝子座に、その遺伝子座の元の塩基と同じではない塩基を含有する可能性がある。さらに、読み取りプロセスでは、任意の特定の遺伝子座の塩基が不正確に読み取られる可能性がある。結果として、配列リードの集合は、遺伝子座において、元の塩基と同じではないある特定のパーセンテージのベースコールを含む可能性がある。典型的なシーケンシング技術では、このエラー率は、一桁、例えば、２％～３％であり得る。一部の例では、エラー率は、約１０％まで、約９％まで、約８％まで、約７％まで、約６％まで、約５％まで、約４％まで、約３％まで、約２％まで、または約１％までであり得る。全て同じ配列を有すると推定される分子の集合のシーケンシングを行う場合、このノイズは、元の塩基を高い信頼度で識別することができるのに十分に小さくなり得る。

しかし、親ポリヌクレオチドの集合が特定の遺伝子座において変動するポリヌクレオチドのサブセットを含む場合、ノイズは有意な問題になり得る。例えば、無細胞ＤＮＡが生殖系列ＤＮＡだけでなく、胎児のＤＮＡまたはがん細胞由来のＤＮＡなどの別の供給源由来のＤＮＡを含む場合に、そうであり得る。この場合、配列変異体を有する分子の頻度が、シーケンシングプロセスによって導入されるエラーの頻度と同じ範囲内に入る可能性がある場合、真の配列変異体はノイズと区別可能でない可能性がある。これは、例えば、試料中の配列変異体の検出に干渉し得る。例えば、配列の塩基当たりのエラー率は０．５～１％であり得る。増幅の偏りおよびシーケンシングのエラーにより、最終的なシーケンシング産物にノイズが導入される。このノイズにより、検出の感度が低下する可能性がある。非限定的な例として、頻度がシーケンシングエラー率よりも低い配列変異体はノイズと間違えられる可能性がある。

ノイズ範囲または検出限界は、配列変異体を有する分子の頻度がシーケンシングプロセスによって導入されるエラーの頻度と同じ範囲内に入る例を指す。「検出限界」は、検出される変異体に対して少なすぎる変異体を有する分子がシーケンシングされる例も指し得る。配列変異体を有する分子の頻度は、少量の核酸分子の結果としてのエラーの頻度と同じ範囲に入り得る。非限定的な例として、核酸の試料採取される量、例えば１００ｎｇは、比較的少数の無細胞核酸分子、例えば循環腫瘍ＤＮＡ分子を含む可能性があり、したがって、配列変異体の頻度は、変異体が大多数の循環腫瘍ＤＮＡ分子に存在し得るにもかかわらず、低い可能性がある。あるいは、配列変異体は、稀であるまたは非常に少量の試料採取された核酸にしか存在しない可能性があり、したがって、検出された変異体はノイズおよび／またはシーケンシングエラーと区別できない。非限定的な例として、特定の遺伝子座において、腫瘍マーカーは、その遺伝子座における全てのリードの０．１％～５％にしか検出されない可能性がある。

シーケンシングプロセスにおいて、シグナル強度、例えば、親集団内の分子によって同じ頻度で生じる配列リードの総数の差異として歪みが顕在化する可能性がある。歪みは、例えば、増幅の偏り、ＧＣの偏り、またはシーケンシングの偏りを通じて導入される可能性がある。これは、試料中のコピー数多型の検出に干渉する可能性がある。ＧＣの偏りにより、配列の読み取りにおけるＧＣ含量が豊富であるまたは乏しい領域の一様でない表示がもたらされる。また、配列のリードが集団内のそれらの実数値よりも多いまたは少ない量でもたらされることにより、増幅の偏りによりコピー数多型の測定値が歪められる。

単一の個々の分子からまたは分子のアンサンブルからのノイズおよび／または歪みを低減するための１つのやり方は、配列リードを元の個々の分子に由来するファミリーに群分けして、単一の個々の分子からまたは分子のアンサンブルからのノイズおよび／または歪みを低減することである。最初の遺伝子材料の個々の試料中のポリヌクレオチドを、シーケンスの準備ができたタグ付けされた親ポリヌクレオチドに効率的に変換することにより、最初の遺伝子材料の個々の試料中のポリヌクレオチドがシーケンスの準備ができた試料中に表される確率を上昇させることができる。これにより、最初の試料中のより多くのポリヌクレオチドに関する配列情報をもたらすことができる。さらに、タグ付けされた親ポリヌクレオチドから増幅させた後代ポリヌクレオチドを高率で試料採取すること、および、生成された配列リードを、タグ付けされた親ポリヌクレオチドの配列を表すコンセンサス配列にコラプスすることによってタグ付けされた親ポリヌクレオチドについてのコンセンサス配列を高収率で生成することにより、増幅の偏りおよび／またはシーケンシングのエラーによって導入されるノイズを低減することができ、また、検出の感度を増大させることができる。配列リードをコンセンサス配列にコラプスすることは、１つの分子から受け取られるメッセージにおけるノイズを低減するための１つのやり方である。受け取られた頻度を、増幅およびシーケンシングエラープロファイルの定義された推定値を使用し、可能性のある真のヌクレオチドのそれぞれの尤度または後の推定値に変換する確率関数を使用することが、ノイズおよび／または歪みを低減するための別のやり方である。分子のアンサンブルに関して、リードをファミリーに群分けし、ファミリーの定量値を決定することにより、例えば、複数の異なる遺伝子座のそれぞれにおける分子の数量の歪みが低減する。再度、異なるファミリーの配列リードをコンセンサス配列にコラプスすることにより、増幅および／またはシーケンシングエラーによって導入されるエラーが排除される。さらに、ファミリー情報から導き出される確率に基づいてベースコールの頻度を決定することによっても、分子のアンサンブルから受け取られるメッセージのノイズが低減する。複数の参照配列およびカバレッジ観察を使用して頻度の報告または腫瘍マーカーのコールを行うこともでき、それにより、ある位置における腫瘍マーカーを観察するための頻度が決定される。参照配列は、健康な個体由来またはがんなどの疾患または状態を有する個体由来の配列またはマーカープロファイルを含み得る。「既知の」参照試料からの頻度を使用して、マーカー検出コールを行うための閾値頻度を設定することができる。例えば、ある特定の位置に「Ａ」を有するヌクレオチドに対して、試験対象のその位置において塩基「Ａ」がコールされるか否かを決定するための閾値として０．１％の頻度を使用することができる。例えば、少なくとも２０種、少なくとも５０種、少なくとも１００種、少なくとも５００種、少なくとも１，０００種、少なくとも２，０００種、少なくとも３，０００種、少なくとも４，０００種、少なくとも５，０００種、少なくとも６，０００種、少なくとも７，０００種、少なくとも８，０００種、少なくとも９，０００種、少なくとも１０，０００種、少なくとも１１，０００種、少なくとも１２，０００種、少なくとも１３，０００種、少なくとも１４，０００種、少なくとも１５，０００種、少なくとも１６，０００種、少なくとも１７，０００種、少なくとも１８，０００種、少なくとも１９，０００種、少なくとも２０，０００種、少なくとも３０，０００種、少なくとも４０，０００種、少なくとも５０，０００種、少なくとも６０，０００種、少なくとも７０，０００種、少なくとも８０，０００種、少なくとも９０，０００種、または少なくとも１００，０００種の参照配列を使用することができる。

分子のタグ付けおよび位置情報を処理される試料内でまたは試料のバッチにわたって観察される分子の集合と比較することによって他の処理された試料からの混入分子を識別するにより、ノイズおよび／または歪みをさらに低減することができる。配列リードにおける遺伝子変異を他の配列リードの遺伝子変異と比較することにより、ノイズおよび／または歪みをさらに低減することができる。１つの配列リードにおいて観察され、他の配列リードにおいてもまた観察される遺伝子変異により、検出された変異体が実際に腫瘍マーカーであり、単なるシーケンシングエラーまたはノイズではない確率が上昇する。非限定的な例として、遺伝子変異が第１の配列リードにおいて観察され、第２の配列リードにおいても観察される場合、変異が実際に遺伝子変異であり、シーケンシングエラーではないかどうかに関してベイズ法による推測を行うことができる。

変異体が繰り返し検出されることにより、その変異体が正確に検出される確率、尤度、および／または信頼度が増大し得る。変異体は、遺伝子データまたは遺伝子変異の２つまたはそれよりも多くのセットを比較することによって繰り返し検出され得る。遺伝子変異の２つまたはそれよりも多くのセットは、両方の試料において多数の時点で、および異なる試料において同時点で（例えば、再分析される血液試料）検出され得る。ノイズ範囲内またはノイズ閾値未満での変異体の検出では、再試料採取または低頻度の変異体の繰返し検出により、変異体が実際に変異体であり、シーケンシングエラーではない可能性がより高くなる。再試料採取は、再分析または再実行される試料などの同じ試料からのものであってもよく、異なる時点の試料からのものであってもよい。

共変量検出により、変異体が正確に検出される確率、尤度、および／または信頼度を増大させることができる。共変量腫瘍マーカーに関しては、１つの腫瘍マーカーの存在が１つまたは複数の他の腫瘍マーカーの存在と関連する。関連する遺伝子変異が検出限界未満で存在する場合であっても、共変量遺伝子変異の検出に基づいて関連する共変量遺伝子変異の存在を推測することが可能であり得る。あるいは、共変量遺伝子変異の検出に基づいて、関連する遺伝子変異を示す診断信頼度を増大させることができる。さらに、共変量変異体を検出する一部の例では、検出限界未満で検出される共変量変異体の検出閾値を低下させることができる。共変量変異または遺伝子の非限定的な例としては、ドライバー突然変異および耐性突然変異、ドライバー突然変異およびパッセンジャー突然変異が挙げられる。共変異体または遺伝子の具体的な例は、肺がんにおいて見いだされるＥＧＦＲＬ８５８Ｒ活性化突然変異およびＥＧＦＲＴ７９０Ｍ耐性突然変異である。多数の他の共変量変異体および遺伝子が種々の耐性突然変異と関連付けられ、当業者には理解されよう。

１つの実行では、実質的に一度にまたは複数の時点にわたって採取された複数の試料からの測定値を使用し、各変異体に対する診断信頼度指示を調整して、コピー数多型（ＣＮＶ）または突然変異または腫瘍マーカーの観察の予測の信頼度を指し示すことができる。がんが進行しているのか、寛解の状態にあるのか、または安定化しているのかを決定するために、複数の時点での測定値を使用することによって信頼度を増大させることができる。診断信頼度指示は、いくつもの統計学的な方法のいずれかによって割り当てることができ、また、ある期間にわたって測定値が観察される頻度に少なくとも一部基づくことができる。例えば、最新の結果と前の結果の統計学的相関付けを行うことができる。あるいは、各診断に対して、隠れマルコフモデルを構築することができ、したがって、複数の測定値または時点からの特定の試験事象の存在の頻度に基づいて最尤法または最大帰納的決定を行うことができる。このモデルの一部として、特定の決定についてのエラーの確率および結果得られる診断信頼度指示も出力することができる。このように、パラメータの測定値、それらがノイズ範囲内に入るか否かを、信頼区間と共にもたらすことができる。経時的に試験して、信頼区間を経時的に比較することにより、がんが進行しているのか、安定化しているのか、または寛解の状態にあるのかについての予測信頼度を増大させることができる。２つの試料採取時点は、少なくとも約１マイクロ秒、１ミリ秒、１秒、１０秒、３０秒、１分、１０分、３０分、１時間、１２時間、１日、１週間、２週間、３週間、１カ月、または１年隔てられていてよい。２つの時点は、約１カ月～約１年、約１年～約５年、または約３カ月以下、約２カ月以下、約１カ月以下、約３週間以下、約２週間以下、約１週間以下、約１日以下、または約１２時間以下隔てられていてよい。一部の実施形態では、２つの時点は、処置の施行または外科手技の実施などの治療事象によって隔てられていてよい。２つの時点が治療事象によって隔てられている場合、検出されるＣＮＶまたは突然変異を事象の前後で比較することができる。

無細胞ポリヌクレオチド配列のシーケンシングデータを収集した後、１つまたは複数のバイオインフォマティクスプロセスを配列データに適用して、調節エレメント、ヌクレオソーム間隔／ヌクレオソーム結合パターン、核酸の化学修飾、コピー数多型、ならびに、これだけに限定されないが、メチル化プロファイルを含めたエピジェネティックマーカーの突然変異または変化、ならびにＳＮＶ、ＣＮＶ、インデル、および／または融合などの遺伝子変異体に関するｃｆＤＮＡ特性などの遺伝的特徴または変異を検出することができる。コピー数多型解析が望まれる一部の場合では、配列データを、１）参照ゲノムを用いてアラインメントし、個々の分子にマッピングすることができ、２）濾過することができ、４）配列のウインドウまたはビンに分割することができ、５）各ウインドウについてカバレッジリードおよび分子を計数することができ、６）次いで、カバレッジ分子を統計学的モデリングアルゴリズムを使用して正規化することができ、７）ゲノム内の種々の位置における別個のコピー数の状態を反映する出力ファイルを生成することができる。一部の場合では、参照ゲノムの特定の遺伝子座にアラインメントされるカバレッジリード／分子または正規化されたカバレッジリードの数を計数する。突然変異分析が望まれる他の場合では、配列データを、１）参照ゲノムを用いてアラインメントし、個々の分子にマッピングすることができ、２）濾過することができ、４）変異体塩基の頻度をその特定の塩基のカバレッジリードに基づいて算出することができ、５）変異体塩基頻度を、確率論的、統計学的または確率的モデリングアルゴリズムを使用して正規化することができ、６）ゲノム内の種々の位置における突然変異の状態を反映する出力ファイルを生成することができる。マッピングのための参照ゲノムは、任意の目的の種のゲノムを含み得る。参照として有用なヒトゲノム配列は、ｈｇ１９アセンブリ、ＧＲＣｈ３８．ｐ４、または任意の以前のもしくは入手可能なｈｇアセンブリを含み得る。そのような配列は、genome.ucsc.edu/index.htmlにおいて利用可能なゲノムブラウザを使用して調べることができる。他の種のゲノムとしては、例えば、ＰａｎＴｒｏ２（チンパンジー）およびｍｍ９（マウス）が挙げられる。

一部の場合では、識別子（例えば、バーコードを含むものなど）を使用して、突然変異分析の間に配列リードを群分けすることができる。一部の場合では、配列リードを、例えば、識別子または識別子と開始／終止位置もしくは配列の組合せを使用することによってファミリーに群分けする。一部の場合では、１つまたは複数のファミリー内のヌクレオチドを参照配列と比較し、１）各ファミリー内、および２）ファミリーと参照配列の間で特定の塩基の頻度を決定することにより、ベースコールを行うことができる。ヌクレオチドベースコールは、ある位置に塩基を有するファミリーのパーセンテージなどの判断基準に基づいて行うことができる。一部の場合では、ベースコールの頻度が、複数の参照配列（例えば、健康な個体由来の配列）における頻度によって決定されるノイズ閾値よりも大きい場合に、ベースコールを報告する。患者または対象の最新の分析および前の分析からの時間的情報を使用して、分析および決定を増強する。一部の実施形態では、患者または対象からの配列情報を、健康な個体のコホート、がん患者のコホート、または患者もしくは対象由来の生殖系列ＤＮＡから得られた配列情報と比較する。生殖系列ＤＮＡは、これだけに限定することなく、体液、全血、血小板、血清、血漿、便、赤血球、白血球（ｗｈｉｔｅｂｌｏｏｄｃｅｌｌｏｒｌｅｕｋｏｃｙｔｅ）、内皮細胞、組織生検材料、滑液、リンパ液、腹水、間質液もしくは細胞外液、歯肉溝滲出液を含めた細胞間の空間中の流体、骨髄、脳脊髄液、唾液、粘液、喀痰、精液、汗、尿、または任意の他の体液から得ることができる。がん患者のコホートは、患者または対象と同じ型のがんを有する場合もあり、患者または対象と同じステージのがんを有する場合もあり、その両方を有する場合もあり、どちらも有さない場合もある。一部の実施形態では、がん患者のコホート、健康な個体のコホート、または対象由来の生殖系列ＤＮＡを使用して、ある位置における塩基のベースライン頻度をもたらし、そのベースライン頻度を、対象におけるベースコールを行うのに使用する。これだけに限定することなく、健康な個体のコホート、または対象由来の生殖系列ＤＮＡにおけるある位置における塩基の頻度を対象由来の配列リードの間で検出された塩基の頻度と比較することができる。

一部の実施形態では、本開示の方法およびシステムを使用して、０．０２５％またはそれ未満、０．０５％またはそれ未満、０．０７５％またはそれ未満、または０．１％またはそれ未満のマイナー対立遺伝子頻度（ＭＡＦ）を検出することができる。コピー数多型を（１）試験試料中の遺伝子についての固有の分子計数（ＵＭＣ）の（２）参照試料（例えば、対照試料）中のその遺伝子についてのＵＭＣに対する比として測定することができる。一部の実施形態では、本開示の方法およびシステムを使用して、コピー数増幅（ＣＮＡ）であるコピー数多型を検出することができる。一部の実施形態では、本開示の方法およびシステムを使用して、少なくとも１．５、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２５、３０、３５、４０、４５、５０、５５、６０、またはそれよりも多くのＣＮＡを検出することができる。一部の実施形態では、本開示の方法およびシステムを使用して、コピー数減少（ＣＮＬ）であるコピー数多型を検出することができる。一部の実施形態では、本開示の方法およびシステムを使用して、０．９未満、０．８未満、０．７未満、０．６未満、０．５未満、０．４未満、０．３未満、０．２未満、０．１未満、または０．０５未満のＣＮＬを検出することができる。

これだけに限定されないが、核酸シーケンシング、核酸数量化、シーケンシング最適化、遺伝子発現の検出、遺伝子発現の数量化、ゲノムプロファイリング、がんプロファイリング、または発現されたマーカーの分析を含めた種々の異なる反応および／操作を本明細書に開示されるシステムおよび方法内で行うことができる。さらに、システムおよび方法には、多数の医学的適用がある。例えば、システムおよび方法を、がんを含めた種々の遺伝子疾患および障害ならびに非遺伝子疾患および障害の識別、検出、診断、処置、モニタリング、病期分類、またはリスク予測のために使用することができる。システムおよび方法を、遺伝子疾患および非遺伝子疾患の異なる処置に対する対象の応答を評価するため、または疾患の増悪および予後に関する情報をもたらすために使用することができる。
コンピュータ制御システム

本開示は、本開示の方法を実行するようにプログラミングされたコンピュータ制御システムを提供する。図１は、シーケンシングデータを解析し、腫瘍マーカーを検出し、がんの状態を決定するようにプログラミングされたまたは他のやり方で設定されたコンピュータシステム１０１を示す。コンピュータシステム１０１により、例えば、データを既知配列および変異体に対応させることなどの本開示の配列解析の種々の態様を調節することができる。コンピュータシステム１０１は、使用者の電子デバイスであってもよく、電子デバイスとは離れた場所にあるコンピュータシステムであってもよい。電子デバイスは可動性電子デバイスであってよい。

コンピュータシステム１０１は、シングルコアプロセッサもしくはマルチコアプロセッサ、または並行処理用の複数のプロセッサであってよい中央処理装置（ＣＰＵ、また本明細書では「プロセッサ」および「コンピュータプロセッサ」）１０５を含む。コンピュータシステム１０１はまた、メモリまたはメモリ位置１１０（例えば、ランダムアクセスメモリ、リードオンリーメモリ、フラッシュメモリ）、電子記憶装置１１５（例えば、ハードディスク）、１つまたは複数の他のシステムと通信するための通信インタフェース１２０（例えば、ネットワークアダプター）、ならびにキャッシュ、他のメモリ、データ記憶装置および／または電子ディスプレイアダプターなどの周辺機器１２５も含む。メモリ１１０、記憶装置１１５、インタフェース１２０および周辺機器１２５は、マザーボードなどの通信バス（実線）を通じてＣＰＵ１０５と通信する。記憶装置１１５は、データを保管するためのデータ記憶装置（またはデータリポジトリ）であってよい。コンピュータシステム１０１をコンピュータネットワーク（「ネットワーク」）１３０に通信インタフェース１２０を用いて作動可能にカップリングすることができる。ネットワーク１３０は、インターネット、インターネットおよび／もしくはエクストラネット、またはインターネットと通信するイントラネットおよび／もしくはエクストラネットであってよい。ネットワーク１３０は、一部の場合では、電気通信および／またはデータネットワークである。ネットワーク１３０は、クラウドコンピューティングなどの、分散コンピューティングを可能にすることができる１つまたは複数のコンピュータサーバーを含み得る。ネットワーク１３０は、一部の場合では、コンピュータシステム１０１を用いて、コンピュータシステム１０１とカップリングしたデバイスをクライアントまたはサーバーとして動作させることを可能にするピアツーピアネットワークを実行することができる。

ＣＰＵ１０５により、プログラムまたはソフトウェアに具体化することができる一連の機械可読指示を実行することができる。指示をメモリ１１０などのメモリ位置に保管することができる。指示をＣＰＵ１０５に方向付けることができ、それをその後、プログラムまたは他のやり方で設定することができる。本開示の方法を実行するためのＣＰＵ１０５。ＣＰＵ１０５によって実施される操作の例としては、フェッチ、復号、実行、およびライトバックを挙げることができる。

ＣＰＵ１０５は、集積回路などの回路の一部であってよい。システム１０１の１つまたは複数の他の成分を回路に含めることができる。一部の場合では、回路は、特定用途向け集積回路（ＡＳＩＣ）である。

記憶装置１１５には、ドライバー、ライブラリーおよび保存されたプログラムなどのファイルを保管することができる。記憶装置１１５には、使用者データ、例えば、使用者選好および使用者プログラムを保管することができる。コンピュータシステム１０１は、一部の場合では、イントラネットまたはインターネットを通じてコンピュータシステム１０１と通信する遠隔サーバー上に位置するものなどの、コンピュータシステム１０１の外部の１つまたは複数の追加的なデータ記憶装置を含み得る。

コンピュータシステム１０１は、ネットワーク１３０を通じて１つまたは複数の遠隔コンピュータシステムと通信することができる。例えば、コンピュータシステム１０１は、使用者（例えば、医師）の遠隔コンピュータシステムと通信することができる。遠隔コンピュータシステムの例としては、パーソナルコンピュータ（例えば、携帯型ＰＣ）、スレートまたはタブレットＰＣ（例えば、Ａｐｐｌｅ（登録商標）ｉＰａｄ（登録商標）、Ｓａｍｓｕｎｇ（登録商標）ＧａｌａｘｙＴａｂ）、電話機、スマートフォン（例えば、Ａｐｐｌｅ（登録商標）ｉＰｈｏｎｅ（登録商標）、Ａｎｄｒｏｉｄ利用可能デバイス、Ｂｌａｃｋｂｅｒｒｙ（登録商標））、または携帯情報端末が挙げられる。使用者はネットワーク９３０を介してコンピュータシステム１０１にアクセスすることができる。

本明細書に記載の方法は、コンピュータシステム１０１の電子保管場所、例えば、メモリ１１０または電子記憶装置１１５などに保管されたコードを実行可能な機械（例えば、コンピュータプロセッサ）によって実行することができる。機械実行可能または機械可読コードはソフトウェアの形態で提供することができる。使用中、プロセッサ１０５によりコードを実行することができる。一部の場合では、記憶装置１１５からコードを検索し、メモリ１１０上に保管し、プロセッサ１０５からのアクセスに対する準備をすることができる。一部の状況では、電子記憶装置１１５を除外し、機械実行可能な指示をメモリ１１０に保管する。

コードは、コードを実行するように適合させたプロセッサを有する機械で使用するためにプリコンパイルし、設定することもでき、実行時間の間にコンパイルすることもできる。コードは、コードがプリコンパイル様式またはアズコンパイル様式で実行されることが可能になるように選択することができるプログラミング言語で供給することができる。

コンピュータシステム１０１などの、本明細書で提供されるシステムおよび方法の態様は、プログラミングにおいて具体化することができる。当該技術の種々の態様は、一般には、機械可読媒体の一種で実行または具体化される、機械（またはプロセッサ）実行可能コードおよび／または関連するデータの形態で「製品」または「製造品」と考えられる。機械実行可能コードは、メモリ（例えば、リードオンリーメモリ、ランダムアクセスメモリ、フラッシュメモリ）またはハードディスクなどの電子記憶装置に保管することができる。「保管」型媒体は、ソフトウェアプログラミングのために任意の時点で非一時的保管をもたらす、コンピュータ、プロセッサなど、またはその関連モジュールの有形メモリ、例えば、種々の半導体メモリ、テープドライブ、ディスクドライブなどのいずれかまたは全てを含み得る。ソフトウェアの全てまたは一部は、時々、インターネットまたは種々の他の電気通信ネットワークを通じて通信することができる。そのような通信により、例えば、ソフトウェアを１つのコンピュータまたはプロセッサから別のコンピュータまたはプロセッサに、例えば、管理サーバーまたはホストコンピュータからアプリケーションサーバーのコンピュータプラットフォームにローディングすることを可能にすることができる。したがって、ソフトウェア要素を有し得る別の型の媒体は、例えばローカルデバイス間の物理的インタフェースを渡って、有線および光ランドラインネットワークを通じて、および種々のエアリンクを通じて使用される光波、電波および電磁波を含む。有線または無線リンク、光リンクなどの、そのような波を有する物理的要素も、ソフトウェアを有する媒体とみなされる。本明細書で使用される場合、非一時的な有形「保管」媒体に制限しなければ、コンピュータまたは機械「可読媒体」などの用語は、実行のためのプロセッサへの指示の提供に関与するあらゆる媒体を指す。

したがって、コンピュータで実行可能なコードなどの機械可読媒体は、これだけに限定されないが、有形記憶媒体、搬送波媒体または物理的伝達媒体を含めた多くの形態をとり得る。非揮発性記憶媒体としては、例えば、光学または磁気ディスク、例えば任意のコンピュータ（単数または複数）記憶デバイスのいずれかなど、例えば、図に示されているデータベースなどを実行するために使用することができるものなどが挙げられる。揮発性記憶媒体としては、そのようなコンピュータプラットフォームのメインメモリなどのダイナミックメモリが挙げられる。有形伝達媒体としては、同軸ケーブル；コンピュータシステム内のバスを含むワイヤーを含めた銅線および光ファイバーが挙げられる。搬送波伝達媒体は、高周波（ＲＦ）および赤外（ＩＲ）データ通信中に生成されるものなどの、電気もしくは電磁気シグナル、または音波もしくは光波の形態をとり得る。したがって、コンピュータ可読媒体の一般形態として、例えば、フロッピー（登録商標）ディスク、フレシキブルディスク、ハードディスク、磁気テープ、任意の他の磁気媒体、ＣＤ－ＲＯＭ、ＤＶＤもしくはＤＶＤ－ＲＯＭ、任意の他の光学媒体、パンチカード紙テープ、空孔のパターンを有する任意の他の物理的記憶媒体、ＲＡＭ、ＲＯＭ、ＰＲＯＭおよびＥＰＲＯＭ、ＦＬＡＳＨ－ＥＰＲＯＭ、任意の他のメモリチップもしくはカートリッジ、搬送波伝達データもしくは指示、そのような搬送波を運ぶケーブルもしくはリンク、またはコンピュータがプログラミングコードおよび／もしくはデータを読み取ることができる任意の他の媒体が挙げられる。これらの形態のコンピュータ可読媒体の多くは、１つまたは複数の指示の１つまたは複数の連続を実行のためにプロセッサに運ぶことに関与し得る。

コンピュータシステム１０１は、例えば、がん診断に関する情報をもたらすためのユーザインタフェース（ＵＩ）１４０を含む電子ディスプレイ１３５を含み得るまたはそれと通信し得る。ＵＩの例としては、限定することなく、グラフィカルユーザインタフェース（ＧＵＩ）およびウェブに基づくユーザインタフェースが挙げられる。

一態様では、プロセッサおよびコンピュータメモリを含むコンピュータを含むシステムであって、コンピュータが、通信ネットワークと通信し、コンピュータメモリが、プロセッサによって実行されると（１）通信ネットワークから配列データをコンピュータメモリに受信し、（２）配列データ中の遺伝子変異体が生殖系列突然変異体を表すものであるかまたは体細胞突然変異体を表すものであるかを、本明細書に記載の方法を使用して決定し、（３）決定を、通信ネットワークを通じて報告するコードを含む、システムが本明細書で提供される。

通信ネットワークは、インターネットに接続する任意の利用可能なネットワークであってよい。通信ネットワークは、例えば、これだけに限定することなく、電力線ブロードバンド（ＢＰＬ）、ケーブルモデム、デジタル加入者回線（ＤＳＬ）、ファイバー、サテライト、および無線を含めた高速伝達ネットワークを利用することができる。

一態様では、ローカルエリアネットワーク；ローカルエリアネットワークに接続された、ＤＮＡ配列データを保管するように設定されたコンピュータメモリを含む１つまたは複数のＤＮＡシーケンサー；コンピュータがローカルエリアネットワークに接続された、コンピュータメモリおよびプロセッサを含むバイオインフォマティクスコンピュータを含むシステムであって、コンピュータが、実行されると、ＤＮＡシーケンサーに保管されているＤＮＡ配列データをコピーし、コピーされたデータをバイオインフォマティクスコンピュータ内のメモリに書き込み、本明細書に記載のステップを実施するコードをさらに含む、システムが本明細書で提供される。

本開示の方法およびシステムは、１つまたは複数のアルゴリズムによって実行することができる。アルゴリズムは、中央処理装置１０５によって実行された際にソフトウェアによって実行することができる。アルゴリズムにより、例えば、がんが存在するかどうかおよび／または進行しているかどうかを決定することができる。

本明細書において言及される全ての刊行物および特許出願は、各個々の刊行物または特許出願が具体的にかつ個別に、参照により組み込まれることが示されたものと同じく参照により本明細書に組み込まれる。

前述のことから、本明細書には例示する目的で本開示の特定の実施形態が記載されているが、本開示の主旨および範囲から逸脱することなく種々の改変を行うことができることが理解されよう。したがって、本開示は添付の特許請求の範囲以外には限定されない。

本開示の好ましい実施形態が本明細書において示され、記載されているが、そのような実施形態は単に例として提供されていることは当業者には明白であろう。本開示は、本明細書の中で提供される特定の例によって限定されるものではない。本開示は上述の明細書を参照して説明されているが、本明細書の実施形態の説明および図表は、限定の意味で解釈されることを意図していない。当業者は、本開示から逸脱することなく多数の変形、変化および置換をすぐに思いつくであろう。さらに、本開示の全ての態様は、種々の条件および変数に依存する本明細書に記載の特定の描写、構成または相対的な割合に限定されないことが理解されるべきである。本明細書に記載されている本開示の実施形態に対する種々の代替を本開示の実施に使用できることが理解されるべきである。したがって、本開示は、そのような代替、改変、変形または等価物のいずれをも包含するものとすることが意図される。以下の特許請求の範囲は本開示の範囲を定義するものであること、およびこれらの特許請求の範囲内に入る方法および構造ならびにそれらの等価物が包含されることが意図されている。

（実施例１）
初期がん患者においてｃｔＤＮＡを検出するための次世代シーケンシングアッセイ
臨床循環腫瘍ＤＮＡ試験（表２の７３種の遺伝子）を受けている１０２８８名の進行がん患者（ｐｔｓ）からの匿名化ｃｆＤＮＡシーケンシングデータをこの試験に含めた。ｃｆＤＮＡを血漿から抽出し、数量化した。ＤＮＡライブラリーを調製し、平均のリードの深さ１５，０００×までシーケンシングした。ＩｎｇｅｎｕｉｔｙＶａｒｉａｎｔＡｎａｌｙｓｉｓを使用して、生殖系列起源である疑いがある（対立遺伝子画分４０～６０％）点突然変異および小さなインデルを、ＡｍｅｒｉｃａｎＣｏｌｌｅｇｅｏｆＭｅｄｉｃａｌＧｅｎｅｔｉｃｓａｎｄＧｅｎｏｍｉｃｓガイドラインに従って分類した。肺（４０％）、乳房（２０％）、結腸直腸がん（ＣＲＣ）（８％）、前立腺（６％）、および膵臓（３％）を含めた５０種を超えるがんの型を試験した。対象の平均年齢は６３．６歳（１８～９５歳の範囲）であり、４２％が男性であった。識別された推定上の生殖系列変異体３４，８７３種のうち、５２０種（１．５％）が病原性またはおそらく病原性（ＰＶ）であり、１６，９３９種（４９％）が意義不明であり、１７，４１４種（５０％）が良性またはおそらく良性であった。遺伝性がん症候群遺伝子ＰＶを有する対象２５０名（２．４％）のうち、８３名が高レベルの体細胞性腫瘍量に起因して除外され、１６７名（１．６％）が推定上の生殖系列ＰＶのまま残った；率は、５０歳未満の患者において、５０歳またはそれよりも上の患者全体よりも（３．３％対１．４％、ｐ＝０．０２）および乳がん患者において（４．３％対１．５％、ｐ＝０．０３）高かった。結果を表４に示す。

付随的に識別された推定上の生殖系列ＰＶの観察された頻度は、真の生殖系列率よりも低かったが、これらの所見から、ｃｆＤＮＡからの検出が臨床的に実行可能であることが例示される。重要なことに、付随的な生殖系列の所見は、腫瘍処置計画（例えば、ＢＲＣＡ１／２突然変異に対するＰＡＲＰ阻害剤）に影響を及ぼす可能性があり、また、サーベイランス／一次予防の増大によって家族の利益になる可能性がある。
（実施例２）
無細胞ＤＮＡにおける生殖系列ＥＧＦＲＴ７９０Ｍ突然変異の識別

血漿ｃｆＤＮＡのゲノム解析により、腫瘍遺伝子型決定と生殖系列遺伝子型決定が、腫瘍由来変異体と生殖系列変異体の正確な分解能で同時に可能になるかどうかに対処するために、ＮＳＣＬＣ患者の１０～２０％に存在する既知の生殖系列変異体および発がん性突然変異の群を含めたＥＧＦＲ遺伝子の体細胞変異体および生殖系列変異体を試験した。ＥＧＦＲ突然変異の１つ、Ｔ７９０Ｍは、生殖系列変異体として稀に検出される場合があり、その存在が家族性肺がんに関連付けられている。ＥＧＦＲＴ７９０Ｍは、より一般には、ＮＳＣＬＣの患者にＥＧＦＲチロシンキナーゼ阻害剤（ＴＫＩ）に対する耐性が生じた後、後天性体細胞突然変異として見られる。最初の治療後にＴ７９０Ｍ媒介性耐性を有する肺がんは、第３世代ＥＧＦＲＴＫＩであるオシメルチニブに対する感受性を示す。

４９歳、肺がんの家族歴を有する喫煙経験のない非喫煙者が、第２世代ＥＧＦＲチロシンキナーゼ阻害剤（ＴＫＩ）であるアファチニブで一時増悪を伴う転移性肺腺癌を示した。最初の組織遺伝子型決定により、ＥＧＦＲＬ８５８ＲおよびＴ７９０Ｍ突然変異、ならびにＣＤＫＮ２Ａ、ＴＰ５３、およびＣＴＮＮＢ１における他の体細胞性変更が示された。ＥＧＦＲにおけるＬ８５８Ｒ突然変異に起因して、第一選択のアファチニブを開始した。しかし、患者は、治療のたった２カ月後に進行性脳転移に戻った。表５に示されている通り、照会時、血漿次世代シーケンシング（ＮＧＳ）により、以前に観察されたＥＧＦＲＬ８５８Ｒ、ＴＰ５３、およびＣＴＮＮＢ１変異体が１．４～５．３％対立遺伝子画分（ＡＦ）で実証されたが、ＥＧＦＲＴ７９０Ｍ対立遺伝子は５０．９％ＡＦで検出された。

患者に最初のＥＧＦＲＴＫＩに対するＥＧＦＲＴ７９０Ｍ媒介性耐性の状況で活性なＥＧＦＲチロシンキナーゼ阻害剤（ＴＫＩ）であるオシメルチニブを開始し、スキャンにより肺における初期増悪が示された時点で臨床的有用性が９カ月続いていた。反復血漿ＮＧＳより、ＥＧＦＲＬ８５８Ｒ変異体が０．６％ＡＦで示されたが、Ｔ７９０Ｍは４９．２％ＡＦで比較的安定であった（図７、７０１はＥＧＦＲＬ８５８Ｒであり、７０２は、ＥＧＦＲＴ７９０Ｍであり、７０３は、ＥＧＦＲＱ７８７Ｑであり、７０４は、ＴＰ５３Ｐ２７８Ｒである）。次いで、患者は、臨床試験中の治験治療を受け、さらなる疾患増悪が生じた。この時点で反復血漿ＮＧＳにより、ＥＧＦＲＬ８５８Ｒ、１８％ＡＦ、Ｔ７９０Ｍ、５４％ＡＦ、およびオシメルチニブに対する獲得耐性を媒介する第３のＥＧＦＲ突然変異であるＣ７９７Ｓ、１．３％ＡＦのレベルの上昇が実証された。この突然変異は、オシメルチニブに対する獲得耐性を媒介し得、肺がんの最初の診断時にＥＧＦＲＴ７９０Ｍ突然変異が存在することにより、ｃｆＤＮＡ解析におけるそのＡＦが高いこと、および肺がんの家族歴と共に、ＥＧＦＲＴ７９０Ｍ突然変異により生殖系列リスク対立遺伝子が表された可能性があるという疑いが増す。
ドロップレットデジタルＰＣＲ

血液（６～１０ｍＬ）をＥＤＴＡラベンダーキャップバキュテイナ管に採取し、１２００ｇで１０分間遠心分離した。血漿上清を３０００ｇで１０分間遠心分離することによってさらに清澄化した。第２の上清をクリオスタット管中、使用するまで－８０℃で保管した。無細胞ＤＮＡを、ＱＩＡｍｐＣｉｒｃｕｌａｔｉｎｇＮｕｃｌｅｉｃＡｃｉｄＫｉｔ（Ｑｉａｇｅｎ）を使用して単離し、ドロップレットデジタルＰＣＲ（ｄｄＰＣＲ）を実施した。簡単に述べると、各アッセイについて、ＴａｑＭａｎＰＣＲ反応混合物を２×ｄｄＰＣＲＭａｓｔｅｒｍｉｘ（Ｂｉｏ－Ｒａｄ）からアセンブリし、４０×ＴａｑＭａｎプローブ／プライマーを作製した。自動化ドロップレット発生装置（Ｂｉｏ－ＲＡＤ）を使用してドロップレットを生成した。ＰＣＲをエンドポイントまで実施した。ＰＣＲの後、ドロップレットをＱＸ１００またはＱＸ２００ドロップレットリーダー（Ｂｉｏ－Ｒａｄ）のいずれかで読み取った。ＱｕａｎｔａＳｏｆｔａｎａｌｙｓｉｓｓｏｆｔｗａｒｅ（Ｂｉｏ－Ｒａｄ）を用いてｄｄＰＣＲデータの解析を実施した。全てのｄｄＰＣＲ試薬をＢｉｏ－Ｒａｄに注文した。全てのプライマーおよびプローブをＬｉｆｅＴｅｃｈｎｏｌｏｇｉｅｓに特注した。プライマーおよび条件は以下の通りであった。

ＥＧＦＲＬ８５８Ｒフォワードプライマー、５’－ＧＣＡＧＣＡＴＧＴＣＡＡＧＡＴＣＡＣＡＧＡＴＴ－３’（配列番号１）；リバースプライマー、５’－ＣＣＴＣＣＴＴＣＴＧＣＡＴＧＧＴＡＴＴＣＴＴＴＣＴ－３’（配列番号２）；プローブ配列：５’－ＶＩＣ－ＡＧＴＴＴＧＧＣＣＡＧＣＣＣＡＡ－ＭＧＢ－ＮＦＱ－３’（配列番号３）、５’－ＦＡＭ－ＡＧＴＴＴＧＧＣＣＣＧＣＣＣＡＡ－ＭＧＢ－ＮＦＱ－３’（配列番号４）。サイクル条件：９５℃×１０分（１サイクル）、９４℃×３０秒および５８℃×１分を４０サイクル、ならびに１０℃での保持。

ＥＧＦＲｄｅｌ１９フォワードプライマー、５’－ＧＴＧＡＧＡＡＡＧＴＴＡＡＡＡＴＴＣＣＣＧＴＣ－３’（配列番号５）；リバースプライマー、５’－ＣＡＣＡＣＡＧＣＡＡＡＧＣＡＧＡＡＡＣ－３’（配列番号６）；プローブ配列：５’－ＶＩＣ－ＡＴＣＧＡＧＧＡＴＴＴＣＣＴＴＧＴＴＧ－ＭＧＢ－ＮＦＱ－３’（配列番号７）、５’－ＦＡＭ－ＡＧＧＡＡＴＴＡＡＧＡＧＡＡＧＣＡＡＣＡＴＣ－ＭＧＢ－ＮＦＱ－３’（配列番号８）。サイクル条件：９５℃×１０分（１サイクル）、９４℃×３０秒および５５℃×１分を４０サイクル、その後、１０℃で保持。

ＥＧＦＲＴ７９０Ｍ、フォワードプライマー、５’－ＧＣＣＴＧＣＴＧＧＧＣＡＴＣＴＧ－３’（配列番号９）、リバースプライマー、５’－ＴＣＴＴＴＧＴＧＴＴＣＣＣＧＧＡＣＡＴＡＧＴＣ－３’（配列番号１０）；プローブ配列：５’－ＶＩＣ－ＡＴＧＡＧＣＴＧＣＧＴＧＡＴＧＡＧ－ＭＧＢ－ＮＦＱ－３’（配列番号１１）、５’－ＦＡＭ－ＡＴＧＡＧＣＴＧＣＡＴＧＡＴＧＡＧ－ＭＧＢ－ＮＦＱ－３’（配列番号１２）。サイクル条件：９５℃×１０分（１サイクル）、９４℃×３０秒および５８℃×１分を４０サイクル、その後、１０℃で保持。
血漿次世代シーケンシング

無細胞ＤＮＡ管に採血した全血１０ｍｌからｃｆＤＮＡを単離し、７０種の遺伝子のエクソンおよび６種の遺伝子の重要なイントロンを標的とするハイブリッド捕捉によって富化させ、ＩｌｌｕｍｉｎａＮｅｘｔＳｅｑ５００シーケンサーで平均深さ約１５，０００×までシーケンシングを行った。
生殖系列シーケンシング

選択された事例に関して、匿名化された軟膜検体を提供し、ＥＧＦＲのサンガーシーケンシングのためにゲノムＤＮＡを抽出した。
統計解析

変異体のヘテロ接合性群内のＥＧＦＲドライバー突然変異のＡＦとコピー数多型の値の関係を、線形回帰を使用して解析した。個々の事例についての標準偏差および平均ＡＦの分布の確率密度関数を、ガウス近似を使用して推定し、チューキー法を使用して外れ値を識別した。目的の診断それぞれにおけるＥＧＦＲＴ７９０Ｍ有病率についての９５％信頼区間を決定した。両側フィッシャーの正確確率検定を使用して異なる診断の間で有病率を比較した。
結果

ＥＧＦＲＴ７９０Ｍ突然変異を有する、進行ＮＳＣＬＣを有する患者８５名のうち、３名は、以前の生殖系列シーケンシングに基づいて生殖系列ＥＧＦＲＴ７９０Ｍ突然変異を有することが既知であったが、残りの患者は、ＴＫＩ処置後に後天性ＥＧＦＲＴ７９０Ｍを有した。Ｔ７９０Ｍ対立遺伝子の絶対濃度を血漿１ｍＬ当たりのコピー数の単位で試験することにより、体細胞性Ｔ７９０Ｍを有する一部の事例は、生殖系列ＥＧＦＲＴ７９０Ｍを有する３事例よりもいっそう高濃度の血漿中突然変異体Ｔ７９０Ｍ対立遺伝子を有した（図２Ａ）。対照的に、その遺伝子座における全ての突然変異体または野生型変異体のうちの突然変異体Ｔ７９０Ｍのコピーの割合として算出されるＴ７９０ＭのＡＦを用いると、生殖系列の３事例のＡＦはおよそ５０％を前後し、体細胞性Ｔ７９０Ｍ事例のＡＦよりも高かった（図２Ａ）。次いで、オシメルチニブなどの第３世代ＥＧＦＲＴＫＩを用いた処置での血漿ｃｆＤＮＡにおける体細胞性ＥＧＦＲ突然変異のレベルの変化と生殖系列ＥＧＦＲ突然変異のレベルの変化を試験した。第１世代ＴＫＩ耐性後に後天性ＥＧＦＲＴ７９０Ｍを有する患者では、ＥＧＦＲＴ７９０Ｍ突然変異とドライバー突然変異（例えば、Ｌ８５８Ｒまたはエクソン１９欠失）のどちらの濃度も治療に応答して劇的に低下した（図２Ｂ）。対照的に、生殖系列ＥＧＦＲＴ７９０Ｍ突然変異を有する患者では、ＥＧＦＲドライバー突然変異は治療に応答したが、ＥＧＦＲＴ７９０Ｍレベルは比較的安定なままであった（図２Ｂ）。これらのデータから、血漿ｃｆＤＮＡ中の変異体レベルの定量化を使用して、体細胞起源と生殖系列起源の腫瘍関連突然変異を識別することができるという概念実証がもたらされた。

次世代シーケンシング（ＮＧＳ）は、いくつものがんに関連する遺伝子にわたって広範囲の変異体を捕捉する潜在性を有する。血漿ｃｆＤＮＡにおける生殖系列ＥＧＦＲ突然変異および体細胞ＥＧＦＲ突然変異の挙動をさらに調査するために、７０種の癌遺伝子および腫瘍抑制因子遺伝子のエクソン領域、および腫瘍形成再構成が生じる６種の遺伝子のイントロン領域のシーケンシングを行った。体細胞ＥＧＦＲ突然変異および生殖系列ＥＧＦＲ突然変異の分布を試験するために臨床的血漿ＮＧＳの結果のデータベースを照会し、その結果、以下：既知の体細胞突然変異（Ｌ８５８Ｒおよびエクソン１９欠失）、ＥＧＦＲチロシンキナーゼドメイン内の一般的な生殖系列一塩基多型（ＳＮＰ）（Ｑ７８７Ｑ）（１７）、およびＴ７９０Ｍのそれぞれについて９５０の連続したＮＳＣＬＣ試料の試験セットが識別され、それぞれのＡＦ分布をプロットした（図２Ｃ）。既知のＳＮＰの分布は、ＡＦ５０％および１００％に集中した２つの別個の正規分布した確率分布で構成され、これは、Ｑ７８７Ｑ対立遺伝子のヘテロ接合性およびホモ接合性と矛盾しなかった。既知の体細胞性変更であるＬ８５８Ｒおよびエクソン１９欠失の分布については、対照的に、アッセイの検出限界から始まり、９０％を超えるＡＦまで伸長する長い尾部を有する指数関数的減衰分布が実証され、これは、実質的に変動したが、一般に低いものであった（＜５％）体細胞ＡＦと矛盾しなかった。Ｔ７９０Ｍの分布は、主にこの同じ体細胞性分布と一致した。しかし、軽微であるが別個の、正規分布した亜集団が５０％ＡＦに集中した（図２Ｃ）。このパターンは、ｃｆＤＮＡにおける変異体ＡＦの試験を、生殖系列起源または体細胞起源のいずれかであり得るＥＧＦＲＴ７９０Ｍのような変異体をカテゴリー化するための方法として支持するものである。

がんにおいてＥＧＦＲドライバー突然変異を有することが公知の生殖系列ＥＧＦＲＴ７９０Ｍを有する３事例（２事例はＬ８５８Ｒ、１事例はＬ８６１Ｑ）からの処置前の血漿検体および処置時の血漿検体に対して血漿ＮＧＳを実施することによってＡＦ分布をさらに試験した。血漿ＮＧＳで識別された全てのコード変異体および非コード変異体のＡＦを試験することにより、３群の変異体が明白に可視化された（図３Ａ、３０１はＥＧＦＲＴ７９０Ｍであり、３０２はＥＧＦＲドライバー突然変異であり、３０３はＴＰ５３突然変異であり、３０４は他の変更であり、３０５はホモ接合性バンドであり、３０６はヘテロ接合性バンドであり、３０７は腫瘍バンドである）。最低ＡＦ群の変異体は、ＥＧＦＲドライバーおよびＴＰ５３突然変異を含み、これは、がん由来変異体を表す。最高ＡＦ群の変異体は、１００％ＡＦ付近に集中し、これは、ホモ接合性生殖系列変異体を表す。最後に、中間群の変異体は、５０％付近に集中し、これは、既知の生殖系列ＥＧＦＲＴ７９０Ｍ突然変異を含み、ヘテロ接合性生殖系列変異体を表すものであった。第３世代ＥＧＦＲＴＫＩを用いた処置時には（２事例はオシメルチニブを用いて、１事例はＡＳＰ７２８３を用いて）、低ＡＦのがん由来変異体は減少したかまたは検出不可能になり（２４％→０．２％、３．７％→ＮＤ、１．１％→ＮＤ）、低ＡＦがん由来変異体は減少したかまたは検出不可能になった。対照的に、中間群のヘテロ接合性生殖系列変異体はわずかに変化し、５０％ＡＦ付近に集中したままであった（５６％→４９％、５２％→４９％、４９％→５０％）。興味深いことに、これらのヘテロ接合性変異体の一部はがんが治療に応答するにしたがってＡＦが上昇したが、その他はＡＦが低下したように思われた。処置時のヘテロ接合性群におけるこれらの変化は、ｃｆＤＮＡにおける変異体ＡＦの変化を導く腫瘍由来コピー数多型の減少を表す可能性がある。

次いで、上記の最初の事例の血漿ＮＧＳからの全てのコード変異体および非コード変異体を調査した（表５）。これにより、試験した生殖系列ＥＧＦＲＴ７９０Ｍ事例と同様のパターンが明らかになり、患者のＥＧＦＲＴ７９０Ｍ突然変異は変異体のヘテロ接合性群に入り、およびＡＦは治療時にＥＧＦＲＬ８５８Ｒ突然変異と比較して最小に変化した（図７）。

ｃｆＤＮＡにおける腫瘍含有量とヘテロ接合性コピー数多型の関係をさらに試験するために、追加的な、ＥＧＦＲＴ７９０Ｍについて陽性であった血漿ＮＧＳ６３事例およびＴ７９０Ｍを伴わないＥＧＦＲドライバー突然変異について陽性であった血漿ＮＧＳ３９事例についてデータベースを照会した。これらの１０５事例はそれぞれ、検出された１０７種のコード変異体および非コード変異体の中央値を有した。全部で１０，７０２種の変異体全てのＡＦ分布について調べることにより（図３Ｂ）、約０％、４９％、および１００％に３つのＡＦピークを有する３峰性分布が明白に見られた。低ＡＦ群の変異体では、非コードエクソンおよびイントロン変異体と比較してコードミスセンス変異体およびナンセンス変異体に富み（図３Ｃ）、これは、低ＡＦ群の変異体ががん由来変異体の群を表すことと一致した。

潜在的な生殖系列と体細胞変異体の関係を試験するために、各血漿ＮＧＳ事例を個別にＥＧＦＲドライバー突然変異の低ＡＦから高ＡＦの順にプロットした（図４Ａ、４０１（黒色のドット）はＥＧＦＲドライバー突然変異であり、４０２（大きな灰色のドット）はＥＧＦＲＱ７８７Ｑ（既知のＳＮＰ）であり、４０３はヘテロ接合性バンドの平均であり、４０４（中間サイズの灰色のドット）は、他のコード変更であり、４０５（小さな灰色のドット）は非コード変更である）。ドライバー突然変異のＡＦはｃｆＤＮＡにおける腫瘍含有量の完全な尺度ではないが（一部の場合ではＥＧＦＲ遺伝子増幅が存在するかしないかに起因する）、コホートにわたるｃｆＤＮＡにおける腫瘍含有量の推定としての機能を果し得る。ヘテロ接合性群における変異体ＡＦの分布を試験することにより、全ての変異体が２５％から７５％の間のＡＦを有し、ＥＧＦＲドライバー突然変異のＡＦが上昇するにしたがって分布が変化することが示された。ＥＧＦＲドライバーＡＦの上昇は、ヘテロ接合性群の標準偏差の増大（図４Ｂ）ならびに事例と集団平均の間の絶対的な差異の増大と関連し、これらはどちらも、がん由来のコピー数多型の存在を示唆するものである。ヘテロ接合性群の変異体のＡＦの標準偏差を試験することにより、正規分布が９４事例に当てはまったが、１１事例は外れ値特性を有した（図８Ａ）。同様に、ヘテロ接合性群の変異体についてＡＦの中央値を試験することにより、正規分布が９４事例に当てはまったが、１１事例は外れ値特性を有した（図８Ｂ）。これらの外れ値集団は重複したので、全部で１６事例が、２つの外れ値特性のうちの１つを示し、ｃｆＤＮＡにおける高いコピー数多型というエビデンスを伴い、これは、生殖系列変異体のＡＦの変動性を引き起こす高レベルの腫瘍ＤＮＡに起因している可能性がある。

高いコピー数多型により、生殖系列変異体のＡＦに予測される５０％からの実質的な偏差が生じ得るので、これらの外れ値事例では生殖系列－体細胞性識別が損なわれる可能性がある。したがって、これらの外れ値の１６事例は、外れ値特性を有さない８９事例とは分離された（図５）。外れ値事例のコード変異体についての視覚的考察では、生殖系列ヘテロ接合性変異体と体細胞性がん由来変異体の明白な分離を区別することは困難であるが、対照的に、高いコピー数多型のこれらの特性を有さない事例のコード変異体についての視覚的考察では（図５、５０１（大きな灰色のドット）はＥＧＦＲＴ７９０Ｍであり、５０２（黒色のドット）はＥＧＦＲドライバー突然変異であり、５０３（小さな灰色のドット）は他のコード変更である）、ＡＦが３０％を下回るがん由来変異体の群と重複しない３５～６０％の範囲内のＡＦを有するヘテロ接合性変異体の群の明白な区別が可能になる。したがって、高いコピー数多型（したがって、高腫瘍含有量）を有する血漿ＮＧＳ事例を除外することにより、血漿ＮＧＳの結果を、がん由来群内の体細胞変異体に正確に弁別し、ヘテロ接合性群内の生殖系列リスク対立遺伝子を付随的に識別することができる。

これらの概念実証試験の論理に従って、統合バイオインフォマティクスアルゴリズムを開発し、評価して、血漿ＮＧＳを使用してアッセイした７０種の遺伝子にわたって生殖系列と体細胞性変更を分離した。このアルゴリズムでは、まず、既知の生殖系列および体細胞変異体（病原性および良性）の内部および外部データベースを含めた経験的知見を使用して変異体を推定生殖系列または体細胞起源に割り当てた。例えば、ＥＧＦＲＱ７８７Ｑ変更は、ＥｘＡＣデータベース（http://exac.broadinstitute.org/）において生殖系列エキソームの約５２％に存在する良性多型であり、これにより、ＥＧＦＲＱ７８７Ｑ変更を対立遺伝子画分にかかわらず推定生殖系列起源と指定することが可能になる。逆に、ＥＧＦＲＬ８５８Ｒ変更はＮＳＣＬＣにおいて比較的一般的な発がん性突然変異であるが、生殖系列データベースでは見られず、これにより、ＥＧＦＲＬ８５８Ｒ変更を推定体細胞起源であると指定することが可能になる。そのような経験的ビニングの結果、通常、事例当たり中央値７８種の変異体が生殖系列と割り当てられ、これにより、上記の試験で記載されている通り変異体ＡＦによってヘテロ接合性確率分布を構築することが可能になる。全ての推定体細胞突然変異（一般に、より少ない数）がこのヘテロ接合性生殖系列分布の下限未満に存在する場合、残りの割り当てられていない変異体の生殖系列－体細胞性識別は、経験的変異体分類によって記載された生殖系列分布と比べたそれらのＡＦに従って進行する。しかし、推定体細胞変異体のＡＦがヘテロ接合性生殖系列分布の下限のＡＦを超える、または極度の染色体不安定性が検出される（見かけのゲノムの二倍体画分によって評価して）場合、生殖系列／体細胞性識別は、重複する領域内の残りの変異体に関しては不確実になると思われ、また、変異体は体細胞性起源であると推定され、そのように報告される。この手法により、疑わしい生殖系列変異体を高い陽性的中率で識別することが可能になり、生殖系列起源の変異体に対する感度が高腫瘍ＤＮＡ含有量の状況では低下することが理解される。

次いで、このアルゴリズムを、血漿ＮＧＳで高ＡＦ（３０％～７５％）ＥＧＦＲＴ７９０Ｍ突然変異が検出された、２１事例の前向きに採取された臨床試料に適用した（図９、９０１（大きな灰色のドット）はＥＧＦＲＴ７９０Ｍであり、９０２（黒色のドット）はＥＧＦＲドライバー突然変異であり、９０３（小さな灰色のドット）は他のコード変更である）。事例を上記のＥＧＦＲＴ７９０Ｍの生殖系列－体細胞性分離に基づいて２つのコホートに分離した。コホートＡには、体細胞性由来変異体の分布と生殖系列由来変異体の分布により、生殖系列Ｔ７９０Ｍ突然変異が存在するという予測が導かれる１１事例が含まれた。コホートＢには、生殖系列と体細胞性の決定が高いコピー数多型および広範なヘテロ接合性群により複雑であった１０事例が含まれた。次いで、各試料のゲノムＤＮＡ含有細胞画分を不可逆的に匿名化し、二重盲検様式でのＥＧＦＲシーケンシングのためにＣＬＩＡ認定臨床検査室に提出し、したがって、生殖系列の結果は個々の患者のいずれについても追跡不可能であった。コホートＡの１１事例は全て、生殖系列ＥＧＦＲＴ７９０Ｍを有することが確認された（陽性的中率１００％、１１／１１）。コホートＢの１０事例のうち１事例が生殖系列であることが見いだされ、感度９２％（１１／１２）および全体的な正確度９５％（２０／２１）がもたらされた。コホートＢにおける生殖系列試料の存在は、高腫瘍含有量を有し、したがって、推定体細胞突然変異のＡＦがヘテロ接合性生殖系列分布と重複する事例であることが疑われ、これにより、生殖系列変異体を確実に識別することが難しくなった。

生殖系列ＥＧＦＲＴ７９０Ｍを有する血漿ＮＧＳ事例を識別するための方法が検証されたので、既存の血漿ＮＧＳデータを使用して、特定のがんの型を有する生殖系列変異体の関連に関して学習した。多種多様な成人固形腫瘍型を表す３１，４１４名の継続的な固有の患者の臨床試験データベースを照会して、ＥＧＦＲＴ７９０Ｍについて陽性の９１１事例を識別し、そのうち４８事例が、上記の方法体系によって判定して生殖系列起源であった。非扁平上皮ＮＳＣＬＣは患者コホート全体では少数におけるがん診断であったが（４１％）、これは、生殖系列ＥＧＦＲＴ７９０Ｍを有する患者では４８名のうち４３名におけるがん診断であった（９０％、図６Ａ）。さらに、残りの５名の生殖系列ＥＧＦＲＴ７９０Ｍを有する患者のうち、３名が関連する診断（扁平上皮ＮＳＣＬＣ、小細胞肺がん、原発不明癌）を有した。非扁平上皮ＮＳＣＬＣを有する患者における生殖系列ＥＧＦＲＴ７９０Ｍの集団内頻度（４３／１２，７７４、０．３４％）は、別のがん診断を有する患者において見られたものよりも実質的に高く（５／１８，６４０、０．０３％、図６Ｂ）、後者は、一般集団のシーケンシングの試みによって報告されたものよりも中程度にだけ高かった（例えば、ＥｘＡＣの対立遺伝子頻度中央値０．００８２％）。これらの知見は、生殖系列Ｔ７９０Ｍを有する患者が特にＮＳＣＬＣに対してリスクが高いという概念と一致し、また、この対立遺伝子は、肺がんに加えて他のがんに対する実質的なリスクの上昇は付与するものではないことが示唆される。

上記の分析から、生殖系列がんリスク対立遺伝子を調査するためのツールとしてのｃｆＤＮＡゲノミクスの能力が実証される。進行中の臨床的研究の試みからの既存のデータおよび試料を使用して、ｃｆＤＮＡＮＧＳプロファイル内の生殖系列変異体とがん由来の体細胞変異体を区別するためのバイオインフォマティクスアルゴリズムを開発し、検証し、それにより、治療選択ならびに遺伝リスク対立遺伝子のスクリーニングのための腫瘍遺伝子型に関する洞察をもたらすことができる単一のアッセイをもたらした。臨床試験データベースを照会して、稀な生殖系列対立遺伝子であるＥＧＦＲＴ７９０Ｍを探究し、非扁平上皮ＮＳＣＬＣを有する患者におけるこの突然変異の富化が観察された。上記のデータから、現在のところ生殖系列変異体を検出し、ある特定の状況では、それらを体細胞変異体と弁別するために、常套的な臨床ケアに使用されている血漿遺伝子型決定の能力が強調される。

Claims

ａ）ｃｆＤＮＡ分子の配列リードのセットを提供するステップであって、前記配列リードが、参照ゲノムの選択されたゲノム領域にマッピングされる、ステップと、
ｂ）前記ゲノム領域内の複数の遺伝子変異体を含むセットの対立遺伝子頻度を決定するステップであって、前記セットが、目的の変異体を含む、ステップと、
ｃ）前記セット内の前記遺伝子変異体の前記対立遺伝子頻度の変動性値を決定するステップであって、前記変動性値は、標準偏差または分散である、ステップと、
ｄ）変動性値閾値および対立遺伝子頻度閾値を提供するステップと、
ｅ）前記変動性値が前記変動性閾値を下回るかどうかを決定するステップと、
ｆ）前記変動性値が前記変動性閾値を下回る場合、
（ｉ）前記目的の変異体の前記対立遺伝子頻度が前記対立遺伝子頻度閾値を上回る場合には前記目的の変異体が生殖系列起源を有するとコールし、
（ｉｉ）前記目的の変異体の前記対立遺伝子頻度が前記対立遺伝子頻度閾値を下回る場合には前記目的の変異体が体細胞起源を有するとコールするステップと
を含む、方法。
変動性値および目的の変異体の対立遺伝子頻度を、
（ｉ）がんまたは炎症性の状態などの疾患または状態、
（ｉｉ）がんまたは炎症性の状態などの疾患または状態の予後、
（ｉｉｉ）がんまたは炎症性の状態などの疾患または状態の処置の有効性、および／または
（ｉｖ）がんまたは炎症性の状態などの疾患または状態の増悪または退縮
の指標とする方法であって、前記方法は、
ａ）ｃｆＤＮＡ分子の配列リードのセットを提供するステップであって、前記配列リードが、参照ゲノムの選択されたゲノム領域にマッピングされる、ステップと、
ｂ）前記ゲノム領域内の複数の遺伝子変異体を含むセットの対立遺伝子頻度を決定するステップであって、前記セットが、目的の変異体を含む、ステップと、
ｃ）前記セット内の前記遺伝子変異体の前記対立遺伝子頻度の変動性値を決定するステップであって、前記変動性値は、標準偏差または分散である、ステップと、
ｄ）変動性値閾値および対立遺伝子頻度閾値を提供するステップと、
ｅ）前記変動性値が前記変動性閾値を下回るかどうかを決定するステップと、
ｆ）前記変動性値が前記変動性閾値を下回る場合、
（ｉ）前記目的の変異体の前記対立遺伝子頻度が前記対立遺伝子頻度閾値を上回る場合には前記目的の変異体が生殖系列起源を有するとコールし、
（ｉｉ）前記目的の変異体の前記対立遺伝子頻度が前記対立遺伝子頻度閾値を下回る場合には前記目的の変異体が体細胞起源を有するとコールするステップと
を含み、前記変動性値と前記変動性閾値との間の比較、および前記目的の変異体の対立遺伝子頻度と前記対立遺伝子頻度閾値との間の比較が、
（ｉ）がんまたは炎症性の状態などの疾患または状態、
（ｉｉ）がんまたは炎症性の状態などの疾患または状態の予後、
（ｉｉｉ）がんまたは炎症性の状態などの疾患または状態の処置の有効性、および／または
（ｉｖ）がんまたは炎症性の状態などの疾患または状態の増悪または退縮
を示す、方法。
前記選択されたゲノム領域が、遺伝子、エクソン、イントロン、または遺伝子の一部分である、請求項１または請求項２に記載の方法。
前記選択されたゲノム領域が、少なくとも１００ヌクレオチドである、請求項３に記載の方法。
前記対立遺伝子頻度閾値が、１０％である、請求項１から４のいずれか一項に記載の方法。
前記対立遺伝子頻度閾値が、経験的に決定される、請求項１から５のいずれか一項に記載の方法。
前記変動性値が標準偏差であり、前記変動性閾値が標準偏差（ＳＴＤＥＶ）閾値である、請求項１から６のいずれか一項に記載の方法。
前記ＳＴＤＥＶ閾値を下回るゲノム遺伝子座についての対立遺伝子画分値が、前記ゲノム遺伝子座に関して低いコピー数多型（ＣＮＶ）を示す、請求項７に記載の方法。
前記ＳＴＤＥＶ閾値を上回るゲノム遺伝子座についての対立遺伝子画分値が、関連するゲノム遺伝子座に関して高いコピー数多型（ＣＮＶ）を示す、請求項７に記載の方法。
前記ゲノム領域が、１種または複数種のゲノム領域であり、前記ゲノム領域が、
（ｉ）ＡＫＴ１、ＡＬＫ、ＡＰＣ、ＡＲ、ＡＲＡＦ、ＡＲＩＤ１Ａ、ＡＴＭ、ＢＲＡＦ、ＢＲＣＡ１、ＢＲＣＡ２、ＣＣＮＤ１、ＣＣＮＤ２、ＣＣＮＥ１、ＣＤＨ１、ＣＤＫ４、ＣＤＫ６、ＣＤＫＮ２Ａ、ＣＤＫＮ２Ｂ、ＣＴＮＮＢ１、ＥＧＦＲ、ＥＲＢＢ２、ＥＳＲ１、ＥＺＨ２、ＦＢＸＷ７、ＦＧＦＲ１、ＦＧＦＲ２、ＦＧＦＲ３、ＧＡＴＡ３、ＧＮＡ１１、ＧＮＡＱ、ＧＮＡＳ、ＨＮＦ１Ａ、ＨＲＡＳ、ＩＤＨ１、ＩＤＨ２、ＪＡＫ２、ＪＡＫ３、ＫＩＴ、ＫＲＡＳ、ＭＡＰ２Ｋ１、ＭＡＰ２Ｋ２、ＭＥＴ、ＭＬＨ１、ＭＰＬ、ＭＹＣ、ＮＦ１、ＮＦＥ２Ｌ２、ＮＯＴＣＨ１、ＮＰＭ１、ＮＲＡＳ、ＮＴＲＫ１、ＮＴＲＫ１、ＰＤＧＦＲＡ、ＰＩＫ３ＣＡ、ＰＴＥＮ、ＰＴＰＮ１１、ＲＡＦ１、ＲＢ１、ＲＥＴ、ＲＨＥＢ、ＲＨＯＡ、ＲＩＴ１、ＲＯＳ１、ＳＭＡＤ４、ＳＭＯ、ＳＲＣ、ＳＴＫ１１、ＴＥＲＴ、ＴＰ５３、ＴＳＣ１およびＶＨＬからなる群より選択される遺伝子のうちの少なくとも５種のそれぞれ１つのヌクレオチド配列の少なくとも一部分、
（ｉｉ）ＡＫＴ１、ＡＬＫ、ＡＰＣ、ＡＲ、ＡＲＡＦ、ＡＲＩＤ１Ａ、ＡＴＭ、ＢＲＡＦ、ＢＲＣＡ１、ＢＲＣＡ２、ＣＣＮＤ１、ＣＣＮＤ２、ＣＣＮＥ１、ＣＤＨ１、ＣＤＫ４、ＣＤＫ６、ＣＤＫＮ２Ａ、ＣＴＮＮＢ１、ＤＤＲ２、ＥＧＦＲ、ＥＲＢＢ２、ＥＳＲ１、ＥＺＨ２、ＦＢＸＷ７、ＦＧＦＲ１、ＦＧＦＲ２、ＦＧＦＲ３、ＧＡＴＡ３、ＧＮＡ１１、ＧＮＡＱ、ＧＮＡＳ、ＨＮＦ１Ａ、ＨＲＡＳ、ＩＤＨ１、ＩＤＨ２、ＪＡＫ２、ＪＡＫ３、ＫＩＴ、ＫＲＡＳ、ＭＡＰ２Ｋ１、ＭＡＰ２Ｋ２、ＭＡＰＫ１、ＭＡＰＫ３、ＭＥＴ、ＭＬＨ１、ＭＰＬ、ＭＴＯＲ、ＭＹＣ、ＮＦ１、ＮＦＥ２Ｌ２、ＮＯＴＣＨ１、ＮＰＭ１、ＮＲＡＳ、ＮＴＲＫ１、ＮＴＲＫ３、ＰＤＧＦＲＡ、ＰＩＫ３ＣＡ、ＰＴＥＮ、ＰＴＰＮ１１、ＲＡＦ１、ＲＢ１、ＲＥＴ、ＲＨＥＢ、ＲＨＯＡ、ＲＩＴ１、ＲＯＳ１、ＳＭＡＤ４、ＳＭＯ、ＳＴＫ１１、ＴＥＲＴ、ＴＰ５３、ＴＳＣ１およびＶＨＬからなる群より選択される遺伝子のうちの、少なくとも５種のそれぞれ１つのヌクレオチド配列の少なくとも一部分、または
（ｉｉｉ）ＡＬＫ、ＢＲＡＦ、ＣＴＮＮＢ１、ＥＧＦＲ、ＥＲＢＢ２、ＥＳＲ１、ＦＧＦＲ２、ＧＡＴＡ３、ＧＮＡＳ、ＩＤＨ１、ＩＤＨ２、ＫＩＴ、ＫＲＡＳ、ＭＥＴ、ＮＲＡＳ、ＰＩＫ３ＣＡ、ＰＴＥＮ、ＳＭＡＤ４、ＴＥＲＴおよびＴＰ５３からなる群より選択される遺伝子のうちの少なくとも１種のそれぞれ１つのヌクレオチド配列の少なくとも一部分
を含む、請求項１から９のいずれか一項に記載の方法。
前記ｃｆＤＮＡ分子が、体液から単離され、前記体液は血液または血清である、請求項１から１０のいずれか一項に記載の方法。
前記ｃｆＤＮＡ分子が、循環腫瘍ＤＮＡを含む、請求項１から１１のいずれか一項に記載の方法。
ｃｆＤＮＡ分子の配列リードのセットを提供するステップが、対象由来のｃｆＤＮＡをシーケンシングし、１種または複数種の遺伝子変異体を検出し、数量化するステップを含む、請求項１から１２のいずれか一項に記載の方法。
核酸ライブラリーがシーケンシング前に調製される、請求項１３に記載の方法。
ｃｆＤＮＡ分子が、バーコードとポリヌクレオチドの１つまたは複数の内在性配列の組合せによって固有に識別される、請求項１４に記載の方法。