JP7304852B2

JP7304852B2 - 脱アミノ化に誘導される配列エラーの補正

Info

Publication number: JP7304852B2
Application number: JP2020524480A
Authority: JP
Inventors: マーシンシコラ，; アンドリューケネディ，; アリエルジャイモビッチ，; ダーリヤチュドヴァ，; スティーブンフェアクロー，
Original assignee: ガーダントヘルス，インコーポレイテッド
Priority date: 2017-11-03
Filing date: 2018-11-02
Publication date: 2023-07-07
Anticipated expiration: 2038-11-02
Also published as: CA3079252A1; US20240141425A1; EP3704265A1; WO2019090147A1; US20200377941A1; JP2021502072A; JP2023060046A; US11008616B2; US20210395816A1; CN111542616A; US11718873B2; EP3704265A4

Description

相互参照
本出願は、２０１７年１１月３日に出願された米国仮出願第６２／５８１，３０９号に基づく優先権を主張し、そのような仮出願は、参照によりすべての目的で本明細書に全体的に組み込まれる。

背景
腫瘍は、細胞の異常な増殖である。細胞、例えば、腫瘍細胞が死滅すると、断片化ＤＮＡが体液中に放出されることが多い。よって、体液中の無細胞ＤＮＡの一部は、腫瘍ＤＮＡである。腫瘍は、良性である場合も悪性である場合もある。悪性腫瘍は、がんと称されることが多い。

がんは、全世界で、疾患の主要な原因である。年々、数千万人の人々が、世界中でがんを有すると診断され、半数より多くが、最終的にがんを原因として死亡する。多くの国では、がんは、心血管疾患に続いて２番目の共通死亡原因として位置付けられる。多くのがんでは、早期検出がアウトカムの改善と関連する。

がんは、個体の正常な細胞内の変異および／またはエピジェネティックな変動の蓄積によって引き起こされ、これらのうちの少なくとも一部は、細胞分裂の不適切な制御をもたらす。そのような変異としては、一般に、コピー数多型（ＣＮＶ）、コピー数異常（ＣＮＡ）、一塩基多型（ＳＮＶ）、遺伝子融合、および挿入欠失が挙げられ、エピジェネティックな変動としては、シトシンの６原子環の５番目の原子に対する改変、ならびにＤＮＡのクロマチンおよび転写因子との会合が挙げられる。

がんは、腫瘍の生検に続いて、細胞、マーカー、または細胞から抽出されたＤＮＡの分析によって検出されることが多い。しかしながら、最近では、がんを、体液、例えば、血液または尿中の無細胞核酸から検出することもできることが提案されている（例えば、Ｓｉｒａｖｅｇｎａｅｔａｌ．，ＮａｔｕｒｅＲｅｖｉｅｗｓ２０１７を参照されたい）。そのような検査は、非侵襲的であり、生検によって疑わしいがん細胞を識別することなく行うことができるという利点を有する。しかしながら、そのような検査は、体液中の核酸の量が非常に少なく、何の核酸が存在しているかにより、シーケンシングが行われ得る前に、より均質な形態にプロセシングする必要があるという事実によって、複雑なものとなっている。

要旨
本開示の一態様は、核酸の集団においてバリアントヌクレオチドを識別するための方法であって、（ａ）一方または両方の末端に一本鎖オーバーハングを有する二本鎖分子を含む核酸の集団を、５’－３’ポリメラーゼ活性および３’－５’エキソヌクレアーゼ活性を有するタンパク質と接触させるステップであって、タンパク質が、一方または両方の末端において、３’オーバーハングを消化し、５’オーバーハングを相補的な核酸で充填して、二本鎖平滑末端化核酸を生成する、ステップと、（ｂ）シーケンシングされた核酸を得るために、二本鎖平滑末端化核酸の配列を決定するステップと、（ｃ）参照配列におけるそれぞれの指定位置について、（ｉ）指定位置を含む、シーケンシングされた核酸のサブセットを識別するステップ、そして（ｉｉ）指定位置がバリアントヌクレオチドによって占有されているサブセット内のシーケンシングされた核酸を識別するステップと、および（ｄ）変動を有するサブセット内のシーケンシングされた核酸がコールをサポートするそれぞれの指定位置におけるバリアントヌクレオチドの存在をコールするステップであって、ただし、指定位置におけるバリアントヌクレオチドの存在は、（ｉ）バリアントが、参照ヌクレオチドと比較して、ＣからＴまたはＧからＡへの変動である場合、および（ｉｉ）バリアントヌクレオチドが、（１）指定位置の周囲のヌクレオチドコンテキスト、および／または（２）サブセット内のシーケンシングされた核酸の５’末端から、指定位置におけるＣからＴへの変動の距離、またはサブセット内のシーケンシングされた核酸の３’末端から、指定位置におけるＧからＡへの変動までの距離に基づいて、脱アミノ化エラーとして分類される場合には、コールされないことを除く、ステップとを含む、方法に関する。

一部の実施形態では、ステップ（ｃ）の（ｉｉ）は、指定位置がバリアントヌクレオチドによって占有されているサブセット内のコンセンサス配列の数を識別し、ステップ（ｄ）の（ｉ）および（ｉｉ）で指定される場合を除き、変動を有するサブセット内のコンセンサス配列の数が閾値に合致すると、それぞれの指定位置におけるバリアントヌクレオチドの存在が、コールされる。

一部の実施形態では、バリアントヌクレオチドは、サブセット内のシーケンシングされた核酸において５’末端の規定される近接度内にある指定位置におけるＣからＴへの変動の出現、またはサブセット内のシーケンシングされた核酸において３’末端の規定される近接度内にある指定位置におけるＧからＡへの変動の出現に基づいて、脱アミノ化エラーとして分類される。

一部の実施形態では、（ｃ）の（ｉｉ）は、指定位置が参照ヌクレオチドによって占有されているサブセット内のシーケンシングされた核酸の数を識別することをさらに含む。

一部の実施形態では、（ｂ）は、二本鎖平滑末端化核酸の両方の鎖の配列を決定することを含む。

一部の実施形態では、（ｃ）は、少なくとも１つの指定位置について行われ、ここで、変動を有するサブセット内のシーケンシングされた核酸は、二本鎖平滑末端化核酸のシーケンシングされた核酸の両方の鎖の配列を含む。

一部の実施形態では、（ｂ）は、鎖の両方の末端から配列を決定することを含む。

一部の実施形態では、本方法は、二本鎖平滑末端化核酸を、バーコードを含むアダプターに連結させ、アダプターに結合するプライマー分子からプライミングされる核酸を増幅させるステップをさらに含み、ここで、（ｂ）は、増幅した核酸分子の配列を決定し、増幅した核酸分子の配列をファミリーに分類し、ファミリーのメンバーが、核酸上の同じ開始点および終止点ならびに同じバーコードを有し、ファミリーについて、そのそれぞれのメンバーの配列から、複数の位置のそれぞれにおけるコンセンサスヌクレオチドを決定することを含む。コンセンサス配列は、１つのみのメンバーを有するファミリーについては、決定されない。

一部の実施形態では、核酸の集団は、対象の無細胞核酸試料に由来する。無細胞核酸試料は、がんを有するかまたはがんを有することに一致する徴候または症状を有する対象の体液に由来し得る。体液は、血液、血漿、唾液、尿、および脳脊髄液からなる群から選択され得る。血液および血液産物（例えば、血漿および血清）は、本明細書に記載される使用に特に有用な無細胞核酸を含有する。

一部の実施形態では、指定位置におけるＣからＴへの変動は、その出現が、指定位置が５’末端の規定される近接度内にあるサブセットの第１の比率において少なくとも５０％である場合に、脱アミノ化エラーとして分類されるか、または指定位置におけるＧからＡへの変動は、その出現が、指定位置が３’末端の規定される近接度内にあるサブセットの第２の比率において少なくとも５０％である場合に、脱アミノ化エラーとして分類される。指定位置におけるＣからＴへの変動は、変動が、指定位置が５’末端の規定される近接度内にあるサブセットの第１の比率において、サブセット内の他のシーケンシングされた核酸におけるものよりも少なくとも２倍の出現を有することに基づいて、脱アミノ化エラーとして分類され得るか、または指定位置におけるＧからＡへの変動は、変動が、指定位置が３’末端の規定される近接度内にあるサブセットの第２の比率において、サブセット内の他のシーケンシングされた核酸におけるものよりも少なくとも２倍の出現を有することに基づいて、脱アミノ化エラーとして分類される。

一部の実施形態では、閾値は、変動が、サブセット内のシーケンシングされた核酸の少なくとも１％で存在することである。

一部の実施形態では、ＣからＴまたはＧからＡへの変動は、少なくとも、周囲のコンテキストがＴＣＧからＴＴＧまたはＣＧＡからＣＡＡであることに基づいて、脱アミノ化エラーとして分類される。

一部の実施形態では、５’末端への規定される近接度は、５’末端まで２０ヌクレオチド以内であるか、またはそれよりも少ない数のヌクレオチド以内であるとして規定され、３’末端への規定される近接度は、３’末端まで２０ヌクレオチド以内であるか、またはそれよりも少ない数のヌクレオチド以内であるとして規定される。５’末端への規定される近接度は、５’末端まで２０ヌクレオチド以内であるとして規定され得、３’末端への規定される近接度は、３’末端まで２０ヌクレオチド以内であるとして規定される。

一部の実施形態では、タンパク質は、クレノウである。

一部の実施形態では、（ｃ）および（ｄ）は、これらのステップを実行するコンピューターにより作動されるシステムなどにおいて行われる。これらの実施形態では、したがって、本開示は、核酸の集団においてバリアントヌクレオチドを識別するためのコンピューターにより実施される方法に関する。

一部の実施形態では、参照配列は、ヒトゲノムの配列である。参照配列は、ヒト染色体の配列であってもよい。参照配列は、ヒトゲノムの非連続領域を含み得る。

一部の実施形態では、コールされるバリアントヌクレオチドのうちの少なくとも１つは、がんと関連していることが既知である。

一部の実施形態では、本方法は、がんを有するかまたはがんを有することが疑われる対象の集団から得られた試料に由来する核酸集団に行うことができ、ここで、集団内の対象は、その後に、個々の対象においてどのバリアントヌクレオチドがコールされたかに応じて、異なる処置を受容する。

一部の実施形態では、脱アミノ化エラーとして分類されるバリアントヌクレオチドは、コールされたバリアントヌクレオチドのうちの少なくとも１％である。

一部の実施形態では、脱アミノ化エラーとして分類されるバリアントヌクレオチドは、コールされたバリアントヌクレオチドのうちの少なくとも１０％である。

一部の実施形態では、バリアントの存在は、少なくとも５個のバリアントヌクレオチドが脱アミノ化エラーとして分類される場合、コールされない。

一部の実施形態では、核酸の集団は、固形組織に由来する。

一部の実施形態では、体液は、血漿である。

一部の実施形態では、５’末端に連結されるバーコードを含むアダプターは、３’末端に連結されるバーコードを含むアダプターとは異なる。

一部の実施形態では、脱アミノ化エラーの頻度は、少なくとも１％である。

一部の実施形態では、脱アミノ化エラーの頻度は、少なくとも１０％である。

一部の実施形態では、バリアントヌクレオチドは、サブセット内のシーケンシングされた核酸の５’末端から、指定位置におけるＣからＴへの変動の平均距離が、指定位置における参照ヌクレオチドの平均距離よりも小さいこと、またはサブセット内のシーケンシングされた核酸の３’末端から、指定位置におけるＧからＡへの変動が、指定位置における参照ヌクレオチドの平均距離よりも小さいことに基づいて、脱アミノ化エラーとして分類される。

一部の実施形態では、バリアントヌクレオチドは、単一ヌクレオチドバリアント（ＳＮＶ）である。

本開示の一態様は、核酸においてバリアントヌクレオチドを識別する方法であって、（ａ）一本鎖オーバーハングを有する二本鎖核酸を、５’－３’ポリメラーゼ活性および３’－５’エキソヌクレアーゼ活性を有するタンパク質と接触させるステップであって、それによって、二本鎖平滑末端化核酸を産生するステップと、（ｂ）二本鎖平滑末端化核酸の配列を決定するステップと、（ｃ）決定した配列を、参照配列と比較するステップであって、決定した配列が、決定した配列の５’末端の２０ヌクレオチドまたはそれ未満以内の少なくとも１つの指定位置における少なくとも１つのＣからＴへの変動、または決定した配列の３’末端の２０ヌクレオチドまたはそれ未満以内における少なくとも１つのＧからＡへの変動を含む、ステップと、（ｄ）核酸の配列を、決定した配列としてコールするステップであって、ただし、ＣからＴへの変動が決定した配列の５’末端の２０ヌクレオチドまたはそれ未満以内に存在するか、またはＧからＡへの変動が決定した配列の３’末端の２０ヌクレオチドまたはそれ未満以内に存在する位置のうちの少なくとも１つにおいては、参照配列を占有しているヌクレオチドが、指定位置でコールされることを除く、ステップとを含む、方法に関する。

一部の実施形態では、ＣからＴまたはＧからＡへの変動は、ＴＣＧからＴＴＧまたはＣＧＡからＣＡＡの周囲コンテキストにおいて生じる。

本開示の一態様は、核酸の集団においてバリアントヌクレオチドを識別する方法であって、（ａ）少なくとも１つが一方または両方の末端に一本鎖オーバーハングを有する二本鎖分子である、オーバーラップする配列の核酸の集団を、５’－３’ポリメラーゼ活性および３’－５’エキソヌクレアーゼ活性を有するタンパク質と接触させるステップであって、タンパク質が、３’オーバーハングを消化し、５’オーバーハングを充填して、二本鎖平滑末端化核酸を生成する、ステップと、（ｂ）二本鎖平滑末端化核酸を、バーコードを含むアダプターに連結させ、アダプターに結合するプライマー分子からプライミングされる核酸を増幅させるステップと、（ｃ）増幅した核酸分子の配列を決定し、および増幅した核酸分子の配列をファミリーに分類し、ファミリーのメンバーが、核酸上の同じ開始点および終止点ならびに同じアダプターを有し、ファミリーについて、そのそれぞれのメンバーの配列から、コンセンサス配列を決定する、ステップと、（ｄ）参照配列におけるそれぞれの指定位置について、指定位置を含むコンセンサス配列を有するファミリーのサブセットを決定し、指定位置がバリアントヌクレオチドによって占有されているコンセンサス配列を識別する、ステップと、（ｅ）バリアントヌクレオチドを有するサブセット内のコンセンサス配列が、コールをサポートするそれぞれの指定位置におけるバリアントヌクレオチドの存在をコールするステップであって、ただし、指定位置におけるバリアントヌクレオチドの存在は、（ｉ）バリアントヌクレオチドが、参照ヌクレオチドと比較して、ＣからＴまたはＧからＡへの変動である場合、および（ｉｉ）バリアントヌクレオチドが、（１）指定位置の周囲のヌクレオチドコンテキスト、および／または（２）５’末端から、サブセット内のコンセンサス配列の指定位置におけるＣからＴへの変動の距離、または３’末端から、コンセンサス配列の指定位置におけるＧからＡへの変動の距離に基づいて、脱アミノ化エラーとして分類される場合には、コールされないことを除く、ステップとを含む、方法に関する。

一部の実施形態では、ステップ（ｃ）は、指定位置がバリアントヌクレオチドによって占有されているサブセット内のコンセンサス配列の数を識別し、ステップ（ｄ）の（ｉ）および（ｉｉ）で指定される場合を除き、変動を有するサブセット内のコンセンサス配列の数が閾値に合致すると、それぞれの指定位置におけるバリアントヌクレオチドの存在がコールされる。

一態様では、本開示は、核酸の集団において偽陽性バリアントヌクレオチドを識別するための方法であって、（ａ）少なくとも１つが一方または両方の末端に一本鎖オーバーハングを有する二本鎖分子である、配列がオーバーラップする核酸の集団を、５’－３’ポリメラーゼ活性および３’－５’エキソヌクレアーゼ活性を有するタンパク質と接触させるステップであって、タンパク質が、一方または両方の末端において、３’オーバーハングを消化し、５’オーバーハングを相補的な核酸で充填して、二本鎖平滑末端化核酸を生成する、ステップと、（ｂ）シーケンシングされた核酸を得るために、二本鎖平滑末端化核酸の配列を決定するステップと、（ｃ）参照配列におけるそれぞれの指定位置について、指定位置を含むシーケンシングされた核酸のサブセットを識別し、指定位置が参照ヌクレオチドによって占有されているサブセット内のシーケンシングされた核酸、および指定位置がバリアントヌクレオチドによって占有されているサブセット内のシーケンシングされた核酸を識別する、ステップと、（ｄ）指定位置でＣからＴまたはＧからＡへの変動を有するシーケンシングされた核酸がコールをサポートするそれぞれの指定位置における偽陽性バリアントヌクレオチドの存在をコールするステップであって、、変動が、（１）指定位置の周囲のヌクレオチドコンテキスト、および／または（２）指定位置が５’末端の規定される近接度内にあるサブセットの第１の比率内のシーケンシングされた核酸におけるＣからＴへの変換の過剰出現、もしくは指定位置が３’末端の規定される近接度内にあるサブセットの第２の比率内のシーケンシングされた核酸におけるＧからＡへの変換の過剰出現に基づいて、脱アミノ化エラーとして分類される、ステップとを含む、方法に関する。

一態様では、本開示は、参照配列内の指定位置における「Ｃ」から「Ｔ」または「Ｇ」から「Ａ」へのバリアントのマイナー対立遺伝子頻度を、指定位置にマッピングされるシーケンシングされた核酸の集団において決定する方法であって、マイナー対立遺伝子頻度が、バリアントを含む指定位置にマッピングされるシーケンシングされた核酸の数（「バリアント数」）を、指定位置にマッピングされるシーケンシングされた核酸の総数と比較し、この方法は、脱アミノ化エラーの確率について、指定位置におけるＴまたはＡバリアントのバリアント数を調節するステップを含み、エラーの確率が、「Ｔ」の場合には分子の５’末端からおよび「Ａ」の場合には分子の３’末端からのバリアントの距離の関数である方法に関する。

一部の実施形態では、シーケンシングされたポリヌクレオチドの５’末端から選択された距離内に位置するＣからＴへのバリアント、またはシーケンシングされた核酸の３’末端から選択された距離内に位置するＧからＡへのバリアントは、バリアント数にカウントされない。

一部の実施形態では、シーケンシングされたポリヌクレオチドの５’末端から選択された距離内に位置するＣからＴへのバリアントの、シーケンシングされた核酸の５’末端から選択された距離外に位置するＣからＴへのバリアントに対する比が、所定の比を上回る（例えば、５０％を上回る）場合、またはシーケンシングされた核酸の３’末端から選択された距離内に位置するＧからＡへのバリアントの、シーケンシングされた核酸の３’末端から選択された距離外に位置するＧからＡへのバリアントに対する比が、所定の比を上回る（例えば、５０％を上回る）場合、すべてのＣからＴへのバリアントは、バリアント数からディスカウントされる。

一部の実施形態では、バリアント数は、それぞれのＣからＴへのバリアントまたはそれぞれのＧからＡへのバリアントが、真のバリアントである確率の合計として決定される。

一態様では、本開示は、前述の項目のいずれかに記載の方法によって、がんマーカーを有することが決定された対象に、がんマーカーにより特徴付けられるがんを処置するのに有効な治療介入を投与することを含む、方法に関する。

本開示は、さらに、先行する項目のいずれかに記載の方法を行うことによって、対象の無細胞核酸における１つまたは複数のバリアントヌクレオチドの同一性に関するデータを受容するステップと、１つまたは複数のバリアントヌクレオチドから、がんマーカーの存在を決定するステップと、がんマーカーにより特徴付けられるがんを処置するのに有効な治療介入を投与するステップとを含む、方法を提供する。

別の態様では、本開示は、システムに関する。
（１）１つのそのようなシステムは、
（２）核酸シーケンサーによって生成されたシーケンシングリードを、通信ネットワークを通じて受容する通信インターフェースと、
（３）通信インターフェースと通信するコンピューターであって、１つまたは複数のコンピュータープロセッサと、１つまたは複数のコンピュータープロセッサによる実行の際に、
（ａ）核酸シーケンサーによって生成されたシーケンシングリードを、通信ネットワークを通じて受容するステップと、
（ｂ）参照配列におけるそれぞれの指定位置について、
（ｉ）指定位置を含む、シーケンシングリードのサブセットを識別し、
（ｉｉ）指定位置がバリアントヌクレオチドによって占有されているサブセット内のシーケンシングリードを識別する、ステップと、
（ｃ）変動を有するサブセット内のシーケンシングリードがコールをサポートするそれぞれの指定位置におけるバリアントヌクレオチドの存在をコールするステップであって、ただし、指定位置におけるバリアントヌクレオチドの存在は、
（ｉ）バリアントが、参照ヌクレオチドと比較して、ＣからＴまたはＧからＡへの変動である場合、および
（ｉｉ）バリアントヌクレオチドが、
（１）指定位置の周囲のヌクレオチドコンテキスト、および／または
（２）サブセット内のシーケンシングされた核酸の５’末端から、指定位置におけるＣからＴへの変動の距離、またはサブセット内のシーケンシングされた核酸の３’末端から、指定位置におけるＧからＡへの変動の距離に基づいて、脱アミノ化エラーとして分類される場合にはコールされないことを除く、ステップと
を含む方法を実施するマシン実行可能コードを含むコンピューター可読媒体とを含む、コンピューターと
を含む。

本開示は、さらに、
（１）核酸シーケンサーによって生成されたシーケンシングリードを、通信ネットワークを通じて受容する通信インターフェースと、
（２）通信インターフェースと通信するコンピューターであって、１つまたは複数のコンピュータープロセッサと、１つまたは複数のコンピュータープロセッサによる実行の際に、
（ａ）核酸シーケンサーによって生成されたシーケンシングリードを、通信ネットワークを通じて受容するステップと、
（ｂ）決定した配列を、参照配列と比較するステップであって、決定した配列が、決定した配列の５’末端の２０ヌクレオチドまたはそれ未満以内の少なくとも１つの指定位置における少なくとも１つのＣからＴへの変動、または決定した配列の３’末端の２０ヌクレオチドまたはそれ未満以内における少なくとも１つのＧからＡへの変動を含む、ステップと、
（ｃ）核酸の配列を、決定した配列としてコールするステップであって、ただし、ＣからＴへの変動が決定した配列の５’末端の２０ヌクレオチドまたはそれ未満以内に存在するか、またはＧからＡへの変動が決定した配列の３’末端の２０ヌクレオチドまたはそれ未満以内に存在する位置のうちの少なくとも１つにおいては、参照配列を占有しているヌクレオチドが、指定位置でコールされることを除く、ステップとを含む方法を実施するマシン実行可能コードを含むコンピューター可読媒体とを含む、コンピューターとを含む、システムを提供する。

本開示は、さらに、
（１）核酸シーケンサーによって生成されたシーケンシングリードを、通信ネットワークを通じて受容する通信インターフェースと、
（２）通信インターフェースと通信するコンピューターであって、１つまたは複数のコンピュータープロセッサと、１つまたは複数のコンピュータープロセッサによる実行の際に、
（ａ）核酸シーケンサーによって生成されたシーケンシングリードを、通信ネットワークを通じて受容するステップと、
（ｂ）シーケンシングリードの配列をファミリーに分類するステップであって、ファミリーのメンバーが、核酸上の同じ開始点および終止点ならびに同じアダプターを有し、ファミリーについて、そのそれぞれのメンバーの配列から、コンセンサス配列を決定する、ステップと、
（ｃ）参照配列におけるそれぞれの指定位置について、指定位置を含むコンセンサス配列を有するファミリーのサブセットを決定し、指定位置がバリアントヌクレオチドによって占有されているコンセンサス配列を識別する、ステップと、
（ｄ）それぞれの指定位置におけるバリアントヌクレオチドの存在をコールするステップであって、バリアントヌクレオチドを有するサブセット内のコンセンサス配列が、コールをサポートするが、指定位置におけるバリアントヌクレオチドの存在は、
（ｉ）バリアントヌクレオチドが、参照ヌクレオチドと比較して、ＣからＴまたはＧからＡへの変動である場合、および
（ｉｉ）バリアントヌクレオチドが、
（１）指定位置の周囲のヌクレオチドコンテキスト、および／または
（２）５’末端から、サブセット内のコンセンサス配列の指定位置におけるＣからＴへの変動の距離、または３’末端から、コンセンサス配列の指定位置におけるＧからＡへの変動の距離に基づいて、脱アミノ化エラーとして分類される場合
には、コールされないことを除く、ステップと
を含む方法を実施するマシン実行可能コードを含むコンピューター可読媒体とを含む、コンピューターと
を含む、システムを提供する。

本開示は、さらに、
（１）核酸シーケンサーによって生成されたシーケンシングリードを、通信ネットワークを通じて受容する通信インターフェースと、
（２）通信インターフェースと通信するコンピューターであって、１つまたは複数のコンピュータープロセッサと、１つまたは複数のコンピュータープロセッサによる実行の際に、
（ａ）核酸シーケンサーによって生成されたシーケンシングリードを、通信ネットワークを通じて受容するステップと、
（ｂ）参照配列におけるそれぞれの指定位置について、指定位置を含むシーケンシングリードのサブセットを識別し、指定位置が参照ヌクレオチドによって占有されているサブセット内のシーケンシングされた核酸、および指定位置がバリアントヌクレオチドによって占有されているサブセット内のシーケンシングされた核酸を識別する、ステップと、
（ｃ）指定位置にＣからＴまたはＧからＡへの変動指定位置でＣからＴまたはＧからＡへの変動を有するシーケンシングされた核酸がコールをサポートするそれぞれの指定位置における偽陽性バリアントヌクレオチドの存在をコールするステップであって、変動が、
（１）指定位置の周囲のヌクレオチドコンテキスト、および／または
（２）指定位置が５’末端の規定される近接度内にあるサブセットの第１の比率内のシーケンシングされた核酸におけるＣからＴへの変換の過剰出現、もしくは指定位置が３’末端の規定される近接度内にあるサブセットの第２の比率内のシーケンシングされた核酸におけるＧからＡへの変換の過剰出現
に基づいて、脱アミノ化エラーとして分類される、ステップと
を含む方法を実施するマシン実行可能コードを含むコンピューター可読媒体とを含む、コンピューターと
を含む、システムを提供する。

本開示は、さらに、
（１）核酸シーケンサーによって生成されたシーケンシングリードを、通信ネットワークを通じて受容する通信インターフェースと、
（２）通信インターフェースと通信するコンピューターであって、１つまたは複数のコンピュータープロセッサと、１つまたは複数のコンピュータープロセッサによる実行の際に、
（ａ）核酸シーケンサーによって生成されたシーケンシングリードを、通信ネットワークを通じて受容するステップと、
（ｂ）脱アミノ化エラーの確率に基づいてシーケンシングリードにおけるＴまたはＡバリアントの数を調節するステップであって、エラーの確率が、「Ｔ」の場合には分子の５’末端からおよび「Ａ」の場合には分子の３’末端からのバリアントの距離の関数である、ステップとを含む方法を実施するマシン実行可能コードを含むコンピューター可読媒体とを含む、コンピューターとを含む、システムを提供する。

上述のシステムのいずれも、核酸シーケンサーをさらに含んでもよい。必要に応じて、核酸シーケンサーは、対象に由来する無細胞ＤＮＡ分子から得られたシーケンシングライブラリーがシーケンシングし、ここで、シーケンシングライブラリーは、無細胞ＤＮＡ分子およびアダプターを含み、アダプターは、バーコードを含む。必要に応じて、核酸シーケンサーは、シーケンシングライブラリーにシーケンシングバイシンセシスを行って、シーケンシングリードを生成する。必要に応じて、核酸シーケンサーは、シーケンシングライブラリーにパイロシーケンシング、単分子シーケンシング、ナノポアシーケンシング、半導体シーケンシング、シーケンシングバイライゲーション、またはシーケンシングバイハイブリダイゼーションを行って、シーケンシングリードを生成する。必要に応じて、核酸シーケンサーは、シーケンシングライブラリーに由来するクローン単一分子アレイを使用して、シーケンシングリードを生成する。必要に応じて、核酸シーケンサーは、シーケンシングライブラリーをシーケンシングしてシーケンシングリードを生成するための、マイクロウェルのアレイを有するチップを含む。

一部のシステムにおいて、コンピューター可読媒体は、メモリー、ハードドライブ、またはコンピューターサーバーを含む。一部のシステムにおいて、通信ネットワークは、遠隔通信ネットワーク、インターネット、エクストラネット、またはイントラネットを含む。一部のシステムにおいて、通信ネットワークは、分散コンピューティング、例えば、クラウドコンピューティングの可能な１つまたは複数のコンピューターサーバーを含む。一部のシステムにおいて、コンピューターは、核酸シーケンサーから遠隔設置されているコンピューターサーバー上に設置されている。一部のシステムにおいて、シーケンシングライブラリーは、試料を、１つまたは複数の試料と区別する試料バーコードをさらに含む。

一部のシステムは、ネットワークを通じてコンピューターと通信する、電子ディスプレイであって、（ａ）～（ｃ）を実施した際の結果を表示するためのユーザーインターフェース、例えば、グラフィカルユーザーインターフェース（ＧＵＩ）またはウェブベースユーザーインターフェースを含む、電子ディスプレイをさらに含む。一部のシステムにおいて、電子ディスプレイは、パーソナルコンピューターにおいて存在する。一部のシステムにおいて、電子ディスプレイは、必要に応じてコンピューターから遠隔した位置にある、インターネット対応コンピューターにおいて存在する。

一部の実施形態では、本明細書で開示されたシステムおよび方法の結果は、インプットとして使用され、紙形式でレポートが作成される。例えば、このレポートは、コールされたバリアントおよび／または脱アミノ化のエラーと考えられるバリアントのインジケーションを提供することができる。

本明細書で開示された方法の様々なステップ、または本明細書で開示されたシステムによって実行されるステップは、同一もしくは異なる時間に、同一もしくは異なる地理的位置、例えば、国において、および／または同一もしくは異なる人々によって実行され得る。

図１は、クレノウポリメラーゼによる末端修復の概要を示す。

図２は、ＣからＴへの脱アミノ化スキームを示す。

図３は、分子の５’末端におけるＣからＴへの変換および分子の３’末端におけるＧからＡへの変換の優先度を示す。

図４は、ＣからＴおよびＧからＡへの変動のエラーの頻度および他の変動のものを比較するプロットを、分子の末端からの距離とともに示す。ＣからＴおよびＧからＡへの変動のエラー頻度は、分子の末端の付近ではより高いが、一方で、他の変動のものは、分子の末端に対する位置から独立している。「ＣからＴまたはＧからＡ」と標識された点は、５’末端からの測定距離により層別化したＣからＴのエラー率および３’末端からの測定距離により層別化したＧからＡのエラー率の平均を示し、「他のエラー」と標識された点は、５’末端からの測定距離によって層別化したＣからＡ＋ＣからＧのエラー率および３’末端からの測定距離によって層別化したＧからＴ＋ＧからＣのエラー率の平均を示す。

図５は、コンピューターシステムを示す。

図６は、脱アミノ化エラーとして分類されるＧからＡへの置換を含む、５つのシーケンシングファミリーを示す。

図７は、真実の変異として分類されるＧからＡへの置換を含む、５つのシーケンシングファミリーを示す。

定義
対象は、動物、例えば、哺乳動物種（好ましくは、ヒト）もしくは鳥類（例えば、鳥）種、または他の生物、例えば、植物を指す。より具体的には、対象は、脊椎動物、例えば、哺乳動物、例えば、マウス、霊長類、サル、またはヒトであり得る。動物には、家畜動物、競技動物、およびペットが含まれる。対象は、健康な個体、症状もしくは徴候を有するか、または疾患もしくは疾患の傾向を有することが疑われる個体、または治療を必要とするかもしくは治療を必要とすることが疑われる個体であり得る。

遺伝子バリアントは、対象の核酸試料またはゲノムにおける、変更、バリアント、または多型を指す。そのような変更、バリアント、または多型は、参照ゲノムに対するものであり得、これは、種（例えば、ヒトについては、ｈＧ１９もしくはｈＧ３８）、対象、または他の個体の参照ゲノムであり得る。変動としては、１つまたは複数の一塩基多型（ＳＮＶ）、挿入、欠失、リピート、短い挿入、短い欠失、短いリピート、構造バリアントジャンクション、可変長タンデムリピート、および／またはフランキング配列が挙げられ、コピー数バリアント（ＣＮＶ）、塩基転換、遺伝子融合、および他の再配列もまた、遺伝子変動の形態である。変動は、塩基の変化、挿入、欠失、リピート、コピー数多型、塩基転換、またはこれらの組合せであり得る。

がんマーカーは、がんの存在またはそれを発症する危険性と関連付けられた、遺伝子バリアントである。がんマーカーは、対象が、がんを有するか、またはがんを発症する危険性が、年齢および性別が一致し、がんマーカーを有さない同じ種の対象よりも高いことという指標を提供することができる。がんマーカーは、がんの原因である場合もそうでない場合もある。

バーコードは、短い核酸（例えば、５００未満、１００未満、５０未満、または１０未満のヌクレオチド長）であり、核酸を、異なる種類または異なるプロセシングを受けた、異なる試料（例えば、試料インデックスを提示する）、または同じ試料中の異なる核酸分子（例えば、バーコードを提示する）と区別するために、核酸分子を標識するのに使用される。タグは、一本鎖、二本鎖、または少なくとも部分的に二本鎖であり得る。タグは、同じ長さを有してもよく、または変動した長さを有してもよい。タグは、平滑末端であってもよく、またはオーバーハングを有してもよい。タグは、核酸の一方の末端または両方の末端に結合され得る。バーコードは、デコードされると、核酸の起源試料、形態、またはプロセシングなどの情報を示し得る。タグを使用して、異なるバーコードおよび／または試料インデックスを有する核酸を含む複数の試料のプールおよび並行したプロセシングを可能にすることができ、核酸は、後でバーコードを読み取ることによりデコンボリューションされる。バーコードはまた、分子識別子、試料識別子、インデックスタグ、および／またはタグとも称され得る。追加または代替として、バーコードは、同じ試料中の異なる分子を区別するために使用することができる。これは、試料中のそれぞれの異なる分子を固有にバーコーディングすること、またはそれぞれの分子を非固有にバーコーディングすることを含む。非固有バーコーディングの場合には、異なる分子が、少なくとも１つのタグと組み合わせて、参照ゲノム上にマッピングされるそれらの開始／終止位置に基づいて区別され得るように、限られた数のバーコードを使用して、それぞれの分子をバーコーディングしてもよい。そのため、典型的には、同じ開始／終止を有する任意の２つの分子が、同じバーコードも有する確率が低くなるように（例えば、１０％未満、５％未満、１％未満、または０．１％未満）、十分な数の異なるバーコードが使用される。一部のバーコードは、複数の試料、１つの試料内の複数の分子形態、ならびに同じ開始点および終止点を有する１つの形態内の複数の分子を標識するための複数の分子識別子を含む。そのようなバーコードは、形式Ａ１ｉで存在し得、ここで、文字は、試料の種類を示し、アラビア数字は、試料内の分子の形態を示し、ローマ数字は、形態内の分子を示す。

アダプターは、通常、試料核酸分子のいずれか一端または両端への連結のために少なくとも部分的に二重鎖の短い核酸（例えば、５００、１００または５０ヌクレオチド未満の長さ）である。アダプターは、両端においてアダプターに隣接する核酸分子の増幅を可能とするプライマー結合部位、および／または次世代シーケンシング（ＮＧＳ）に対するプライマー結合部位を含むシーケンシングプライマー結合部位を含み得る。アダプターは、フローセル支持体に付着したオリゴヌクレオチドなどの捕捉用プローブに対する結合部位も含み得る。アダプターは、上述のバーコードも含み得る。好ましくは、バーコードは、核酸分子のアンプリコンおよびシーケンシングリードに含まれるように、プライマーおよびシーケンシングプライマー結合部位に対して配置される。核酸分子の各末端に、同一または異なるアダプターを連結することができる。同一のアダプターは、バーコードが異なることを除いて、各末端に連結されることがある。好ましいアダプターは、一端が、１つまたは複数の相補的ヌクレオチドに関しても平滑末端またはテイルである核酸分子に接合するために、本明細書に記載されているように平滑末端またはテイルである、Ｙ型アダプターである。別の好ましいアダプターは、解析される核酸に接合するために平滑またはテイル末端を同様に有する、釣鐘型アダプターである。

本明細書で使用される場合、用語「シーケンシング」は、生体分子、例えば、ＤＮＡまたはＲＮＡなどの核酸分子の配列を決定するために使用されるいくつかの技術のうちのいずれかを指す。例示的なシーケンシング方法として、これらに限定されないが、ターゲットシーケンシング、単分子リアルタイムシーケンシング、エクソンシーケンシング、電子顕微鏡に基づくシーケンシング、パネルシーケンシング、トランジスター媒介型シーケンシング、直接シーケンシング、ランダムショットガンシーケンシング、サンガーのジデオキシ末端シーケンシング、全ゲノムシーケンシング、ハイブリダイゼーションによるシーケンシング、パイロシーケンシング、キャピラリー電気泳動、ゲル電気泳動、デュプレックスシーケンシング、サイクルシーケンシング、一塩基伸長シーケンシング、固相シーケンシング、ハイスループットシーケンシング、超並列署名シーケンシング、エマルジョンＰＣＲ、低変性温度における共増幅ＰＣＲ（ＣＯＬＤ－ＰＣＲ）、マルチプレックスＰＣＲ、可逆的色素ターミネーターによるシーケンシング、ペアドエンドシーケンシング、短期シーケンシング、エクソヌクレアーゼシーケンシング、ライゲーションによるシーケンシング、短リードシーケンシング、単分子シーケンシング、シーケンシングバイシンセシス、リアルタイムシーケンシング、リバースターミネーターシーケンシング、ナノポアシーケンシング、４５４シーケンシング、Ｓｏｌｅｘａゲノムアナライザーシーケンシング、ＳＯＬｉＤ（商標）シーケンシング、ＭＳ－ＰＥＴシーケンシング、およびこれらの組合せが挙げられる。一部の実施形態では、シーケンシングは、例えば、ＩｌｌｕｍｉｎａまたはＡｐｐｌｉｅｄＢｉｏｓｙｓｔｅｍｓから市販されている遺伝子アナライザーなどの遺伝子アナライザーにより実施することができる。

表現「次世代シーケンシング」またはＮＧＳは、従来のサンガーおよびキャピラリー電気泳動に基づく手法と比較してスループットが増加したシーケンシング技術を指し、例えば、一度に数十万もの比較的小さな配列リードを作成する能力を有する。次世代シーケンシング技法のいくつかの例として、これらに限定されないが、シーケンシングバイシンセシス、シーケンシングバイライゲーション、およびシーケンシングバイハイブリダイゼーションが挙げられる。

表現「シーケンシングラン」は、少なくとも１つの生体分子（例えば、ＤＮＡまたはＲＮＡなどの核酸分子）に関する一部の情報を決定するために実施されるシーケンシング実験の任意のステップまたは部分を指す。

ＤＮＡ（デオキシリボ核酸）は、４種のヌクレオチド；アデニン（Ａ）、チミン（Ｔ）、シトシン（Ｃ）、およびグアニン（Ｇ）を含むヌクレオチド鎖である。ＲＮＡ（リボ核酸）は、４種のヌクレオチド；Ａ、ウラシル（Ｕ）、Ｇ、およびＣを含むヌクレオチド鎖である。特定のヌクレオチド対は、相補的様式で互いに特異的に結合する（相補的塩基対合と称される）。ＤＮＡでは、アデニン（Ａ）はチミン（Ｔ）と対合し、シトシン（Ｃ）はグアニン（Ｇ）と対合する。ＲＮＡでは、アデニン（Ａ）はウラシル（Ｕ）と対合し、シトシン（Ｃ）はグアニン（Ｇ）と対合する。第１の核酸鎖が、第１の鎖におけるヌクレオチドと相補的であるヌクレオチドから構成される第２の核酸鎖に結合する場合、２つの鎖は結合して二本鎖を形成する。本明細書で使用される場合、「核酸シーケンシングデータ」、「核酸シーケンシング情報」、「核酸配列」、「ヌクレオチド配列」、「ゲノム配列」、「遺伝子配列」、または「断片配列」、または「核酸シーケンシングリード」は、ＤＮＡまたはＲＮＡなどの核酸分子（例えば、全ゲノム、全トランスクリプトーム、エキソーム、オリゴヌクレオチド、ポリヌクレオチド、または断片）におけるヌクレオチド塩基（例えば、アデニン、グアニン、シトシン、およびチミンまたはウラシル）の順序を表示する任意の情報またはデータを示す。本発明の教示によって、これらに限定されないが、キャピラリー電気泳動、マイクロアレイ、ライゲーションに基づくシステム、ポリメラーゼに基づくシステム、ハイブリダイゼーションに基づくシステム、直接的または間接的なヌクレオチド同定システム、パイロシーケンシング、イオンまたはｐＨベース検出システム、および電子署名ベースのシステムを含む技法、プラットフォームまたは技術のすべての利用可能な変形を使用して得られた配列情報が考慮されることが理解されるべきである。

「ポリヌクレオチド」、「核酸」、「核酸分子」、または「オリゴヌクレオチド」は、ヌクレオシド間の連結によって接合されたヌクレオシド（デオキシリボヌクレオシド、リボヌクレオシド、またはその類似体を含む）の線状ポリマーを指す。典型的には、ポリヌクレオチドは、少なくとも３つのヌクレオシドを含む。オリゴヌクレオチドのサイズは、少数のモノマー単位、例えば、３～４から数百のモノマー単位の範囲である場合が多い。ポリヌクレオチドが、「ＡＴＧＣＣＴＧ」などの文字配列で表される場合は常に、ヌクレオチドは、別段に注記されていなければ、左から右への５’から３’の順であり、「Ａ」はデオキシアデノシンを示し、「Ｃ」はデオキシシチジンを示し、「Ｇ」はデオキシグアノシンを示し、「Ｔ」はチミジンを示すことが理解されよう。当技術分野の標準であるように、塩基自体、塩基を含むヌクレオシド、またはヌクレオチドを指すために、文字Ａ、Ｃ、Ｇ、およびＴを使用することができる。

参照配列は、実験的に決定された配列と比較するために使用される既知の配列である。例えば、既知の配列は、ゲノム全体、染色体、またはその任意のセグメントであり得る。参照は、典型的には、少なくとも２０、５０、１００、２００、２５０、３００、３５０、４００、４５０、５００、１０００、またはそれより多いヌクレオチドを含む。参照配列は、ゲノムもしくは染色体の単一の連続配列と整列させることができるか、またはゲノムもしくは染色体の異なる領域と整列させられている非連続的セグメントを含むことができる。参照ヒトゲノムとして、例えば、ｈＧ１９およびｈＧ３８が挙げられる。

参照配列における「指定位置」という用語は、参照配列におけるゲノム座標を指す。

第１の核酸配列またはその相補体と第２の核酸配列またはその相補体が、ヒト染色体の配列などの連続参照配列の非相同セグメントを除いて、重複して整列される場合、第１の単鎖核酸配列は、第２の単鎖核酸配列と重複する。全体的にまたは部分的に二本鎖の核酸は、その鎖のいずれかが他の核酸の鎖と重複する場合、別の全体的にまたは部分的に二本鎖の核酸と重複する。

「Ｃ」から「Ｔ」へのバリアントまたは変換は、参照配列では塩基「Ｃ」によって占有されている座標位置における、シーケンシングされたポリヌクレオチドでの塩基「Ｔ」の存在を指す。「Ｇ」から「Ａ」へのバリアントまたは変換は、参照配列では塩基「Ｇ」によって占有されている座標位置における、シーケンシングされたポリヌクレオチドでの塩基「Ａ」の存在を指す。

核酸分子は、概念として、５’末端、内部部分、および３’末端に分割することができる。末端は、末端から所定数のヌクレオチドに基づいて表記することができる。例えば、５’末端は、例えば、５’末端までの２０個の末端ヌクレオチドで表される。３’末端は、例えば、３’末端までの２０個の末端ヌクレオチドで表される。あるいは、核酸分子は、記載されるような末端部分と、残部とに分割してもよい。

「マイナー対立遺伝子頻度」という用語は、所与の核酸集団、例えば、試料において、マイナー対立遺伝子（例えば、もっとも一般的な対立遺伝子ではないもの）が生じる頻度を指す。低いマイナー対立遺伝子頻度の遺伝子バリアントは、試料における比較的低い存在頻度を有し得る。

「マイナー対立遺伝子比率」（ＭＡＦ）は、所与の試料における対立遺伝子変更を有するＤＮＡ分子の比率を指す。体細胞バリアントのＭＡＦは、０．５未満、０．１未満、０．０５未満、または０．０１未満であり得る。例えば、体細胞バリアントのＭＡＦは、０．０５未満である。

用語「プロセシングすること」、「算出すること」、および「比較すること」は、交換可能に使用される。この用語は、差、例えば、数または配列の差を決定することを指すことができる。例えば、遺伝子発現、コピー数変動（ＣＮＶ）、インデル、および／または単一ヌクレオチド変異（ＳＮＶ）値または配列をプロセシングすることができる。

アダプターは、ライゲーション、ハイブリダイゼーション、および／または増幅を含む、任意のアプローチによって、核酸分子またはポリヌクレオチド配列に連結することができる、人工的に合成された配列である。アダプターは、通常、試料核酸分子のいずれかの末端または両方の末端への連結のために、少なくとも部分的に二本鎖になっている、短い核酸（例えば、５００ヌクレオチド長未満、１００ヌクレオチド長未満、または５０ヌクレオチド長未満）である。アダプターは、両方の末端においてアダプターが隣接した核酸分子の増幅を可能にするプライマー結合部位、および／または次世代シーケンシング（ＮＧＳ）のためのプライマー結合部位を含むシーケンシングプライマー結合部位を含み得る。アダプターはまた、捕捉用プローブ、例えば、フローセル支持体に結合したオリゴヌクレオチドの結合部位も含み得る。アダプターはまた、上述のようなバーコードも含み得る。タグがアンプリコンおよび核酸分子のシーケンシングリードに含まれるように、タグは、好ましくは、プライマーおよびシーケンシングプライマー結合部位に対して位置付けられる。同じかまたは異なるアダプターが、核酸分子のそれぞれの末端に連結され得る。同じアダプターが、それぞれの末端に連結されることがあるが、ただし、タグは異なる。好ましいアダプターは、Ｙ字型アダプターであり、その場合、一方の末端が、平滑末端であるかまたは本明細書に記載されるように核酸分子への結合のための尾部があり、この核酸分子もまた、平滑末端であるかまたは１つもしくは複数の相補的ヌクレオチドを有する尾部を有する。別の好ましいアダプターは、釣鐘型アダプターであり、同様に、平滑末端または分析しようとする核酸への結合のための尾部を有する末端を有する。
Ｉ．概要

核酸をシーケンシングすることにより、疾患の存在、易罹患性、または予後と関連する変動を識別することができる。しかしながら、そのような情報に関する値は、シーケンシングのための核酸を調製することを含むシーケンシングプロセスまたは他の因子、例えば、輸送および／もしくは最初の研究室でのプロセシング中に核酸試料の品質に影響を及ぼす環境条件によって導入されるエラーによって、被害を受ける可能性がある。品質に影響を及ぼす環境条件としては、温度およびプロセシング前の保管期間の長さが挙げられる。本開示は、ある特定の態様において、試料中の核酸における一本鎖オーバーハングを平滑化することが、核酸鎖の５’末端においてシトシン（Ｃ）がチミン（Ｔ）に変化し、その結果相補的核酸鎖の３’末端においてグアニン（Ｇ）からアデニン（Ａ）への相補的塩基の変化が生じる、脱アミノ化に誘導されるシーケンシングエラーが導入される重大な傾向を有するという観察を根拠としている。本開示は、そのような脱アミノ化に誘導されるシーケンシングエラーを識別し、それらを、がんまたは他の疾患と関連し得る実際の配列変動と区別する方法を提供する。
ＩＩ．脱アミノ化に誘導されるエラーを識別し、補正する方法

核酸は、塩基「Ｃ」が塩基「Ｔ」に変換される脱アミノ化に供され得る。この場合、二本鎖分子において、一方の鎖は、「Ｔ」を有し、相補鎖は、「Ｇ」を有することになる。そのようなエラーは、異なる鎖の配列を追跡すれば、シーケンシングにより検出することができる。

本方法は、少なくとも一本鎖オーバーハングを有する部分的に二本鎖である任意の核酸、またはそのような核酸を含む集団に、行うことができる。典型的に、本方法は、集団の少なくとも一部が、一方または両方の末端に一本鎖オーバーハングを有する部分的に二本鎖である核酸の集団に行われる。本方法は、例えば、少なくとも２個、１０，０００個、１，０００，０００個、１，０００，０００，０００個、１０，０００，０００，０００個、またはそれよりも多くの異なるそのような核酸を含む集団に、行うことができる。通常、集団における、一本鎖オーバーハングを有するものを含む少なくとも一部の核酸は、オーバーラップする配列のものである。そのような集団は、天然に存在し得るかもしくは試料の調製中の断片化の結果として存在し得るか、または酵素により、例えば、部分的な制限消化によって、生成され得る。

核酸集団の好ましい形態は、無細胞核酸、例えば、血液および他の体液中に存在するものである。そのような核酸は、典型的に、一方または両方の末端に一本鎖オーバーハングを有する二本鎖ＤＮＡ、ならびに一本鎖ＤＮＡおよびＲＮＡを含む、不均質な形態にある。二本鎖平滑末端化ＤＮＡもまた、存在し得る。

核酸集団は、一方または両方の末端に一本鎖オーバーハングを有する二本鎖核酸の酵素による平滑末端化によって、シーケンシングのために調製することができる。集団は、ヌクレオチド（例えば、Ａ、Ｃ、Ｇ、およびＴまたはＵ）の存在下において、５’－３’ＤＮＡポリメラーゼ活性および３’－５’エキソヌクレアーゼ活性を有するタンパク質で処置され得る。例示的なタンパク質は、ＤＮＡポリメラーゼ、例えば、クレノウ大型断片およびＴ４ＤＮＡポリメラーゼである。５’オーバーハングにおいて、タンパク質は、相補鎖における凹んだ３’末端を、５’末端と同じになるまで延ばし、平滑末端が得られる。３’オーバーハングにおいて、タンパク質は、３’末端から、反対側の鎖の５’末端まで、およびときには５’末端を越えて、消化する。消化が、反対側の鎖の５’末端を越えて進行した場合、ギャップが、５’オーバーハングのように、ポリメラーゼ活性によって充填され得る。二本鎖核酸の平滑末端化により、アダプターの結合および後続の増幅が容易となる。

しかしながら、平滑末端化プロセスにより、図１～３に示されるように、脱アミノ化エラーも導入され得る。図１は、クレノウ酵素が、５’オーバーハングを充填し、３’オーバーハングを消化する、スキームを示す。図２および３は、Ｃ－Ｔ脱アミノ化に誘導されるエラーが、ワトソン鎖の５’末端に導入され、相補的なＧ－Ａエラーが相補的なクリック鎖の３’末端に導入される、スキームを示す。脱アミノ化に誘導されるＣからＴへの変換は、丸で囲んだＴによって示される。丸で囲んだＡは、相補鎖における対応する変化を表す。５’ワトソン鎖における脱アミノ化に誘導されるエラーは、ワトソン鎖の５’オーバーハングに基づく３’末端の伸長、例えば、ワトソン鎖におけるＣからＴへの変換およびクリック鎖におけるＧからＡへの変換に起因して、相補的ヌクレオチドとしてクリック鎖の３’末端に再現される。二本鎖領域における脱アミノ化に誘導されるエラーは、充填または消化プロセスによって再現されず、２つの鎖は、その位置またはヌクレオチドにおいて、非相補的ヌクレオチドを有する。ワトソン鎖の３’末端における脱アミノ化に誘導されるエラーは、消化により除去される。クリック鎖の５’末端付近の脱アミノ化により誘導されるエラーは、ワトソン鎖の３’末端が、脱アミノ化に誘導されるエラーに相補的なヌクレオチドの充填を必要とするように、消化して戻される場合、保持され得る。一部の実施形態では、鎖の５’末端におけるＣからＴへの変動および鎖の３’末端におけるＧからＡへの変動のみが、核酸分子の両方の鎖に出現する。

したがって、末端修復された二本鎖分子の場合、もとの分子のワトソン鎖における５’オーバーハングに位置する「Ｃ」から「Ｔ」への変換は、Ｔエラーで表され、すべての増幅された分子において、相補鎖におけるＡとして伝播される。もとの分子の二本鎖部分に位置する「Ｃ」から「Ｔ」への変換は、一方の鎖においてＧで表され、相補鎖においてはＡとして表される。増幅の際に、エラーは、一方の鎖、例えば、ワトソン鎖において「Ｔ」として、および相補鎖、例えば、クリック鎖の同じ位置において「Ａ」および「Ｇ」の混合物として伝播される可能性が高い。もとの分子のワトソン鎖において３’オーバーハングに位置する「Ｃ」から「Ｔ」への変換は、消化され、オーバーハングから排除されて、平滑末端化二本鎖分子が形成される。ワトソン鎖に３’オーバーハングを有する分子のクリック鎖の５’末端付近に位置する「Ｃ」から「Ｔ」への変換は、５’オーバーハングが消化して戻されており、充填されると、ワトソン／クリック鎖において、Ｔ／Ａとして出現し得る。これは、すべての増幅された分子において、Ｔ／Ａとして伝播される可能性が高い。したがって、シーケンシングすると、もとのワトソン鎖からのリードは、Ｔを含むが、もとのクリック鎖からのリードは、Ｇを含むため、もとの分子の二本鎖部分における「Ｃ」から「Ｔ」への変換は、エラーとして検出され得る。対照的に、もとの分子のワトソン鎖における５’オーバーハングに位置する「Ｃ」から「Ｔ」への変換は、ワトソン／クリック鎖において、それぞれ、相補的なＴ／Ａをもたらす。したがって、５’および３’両方のオーバーハングにおけるヌクレオチドの変換は、典型的に、自明のエラーも、二本鎖によるサポート、例えば、Ａ／Ｔ（ワトソン／クリック）またはＣ／Ｇ（ワトソン／クリック）も、提供しない。

核酸集団は、一本鎖核酸から二本鎖への変換、および／またはＲＮＡからＤＮＡへの変換といった、さらなるプロセシングに供することができる。これらの形態の核酸もまた、アダプターに連結させ、増幅させることができる。

前の増幅の有無にかかわらず、上述のように平滑末端化に供される核酸、および必要に応じて試料中の他の核酸を、シーケンシングして、シーケンシングされた核酸が得られる。シーケンシングされた核酸は、核酸を冗長的にシーケンシングした後に（例えば、単一分子の増幅もしくは再リーディングによって）産生された配列リードを含む、核酸の配列、または配列が決定された核酸のいずれかを指し得る。シーケンシングは、試料中の個々の核酸分子の配列データが、直接的または間接的のいずれかで、試料中の個々の核酸分子の増幅産物のコンセンサス配列から得られるように、行われる。

一部の方法では、平滑末端化を行った後の試料中の一本鎖オーバーハングを有する二本鎖核酸は、両方の末端において、バーコードまたはタグを含むアダプターに連結され（ライゲーションもしくはプライマー伸長によって結合される）、シーケンシングによって、核酸配列、ならびにアダプター内のバーコードが決定される。平滑末端化されたＤＮＡ分子は、平滑末端が、少なくとも部分的に二本鎖のアダプター（例えば、Ｙ字型または釣鐘型のアダプター）の平滑末端とライゲーションされ得る。あるいは、試料核酸およびアダプターの平滑末端は、ライゲーションを容易にするために相補的なヌクレオチドが尾部にあってもよい。例えば、アダプターは、尾部、例えば、鎖のうちの一方に結合または連結された少なくとも１つのヌクレオチドを有してもよく、少なくとも１つのヌクレオチドは、目的の核酸分子に導入されるオーバーハングに対して相補的である。アダプターの尾部は、ヌクレオチドＡ、Ｔ、Ｃ、またはＧのうちのいずれか１つまたは複数であり得る。

試料は、同じ核酸の任意の２つのインスタンスが、一方の末端または両方の末端に連結されたアダプターから、同じバーコードの組合せを受容する確率が低くなるように（例えば、１％未満または０．１％未満）十分な数のアダプターと接触され得る。アダプターをこの様式で使用することにより、参照核酸上の同じ開始点および終止点を有し、同じバーコードの組合せに連結された配列を、同じもとの分子から生成されたリードのファミリーにグループ分けすることが可能となる。そのようなファミリーは、増幅前の試料中の核酸の増幅産物の配列を提示する。ファミリーメンバーの配列をコンパイルして、平滑末端化およびアダプター結合によって改変された、もとの試料中の核酸分子のコンセンサスヌクレオチドまたは完全なコンセンサス配列を導出することができる。換言すると、試料中の核酸の特定の位置を占有しているヌクレオチドは、ファミリーメンバー配列においてその対応する位置を占有しているヌクレオチドのコンセンサスであると決定される。コンセンサスヌクレオチドは、２つの方法を挙げると、投票または信頼性スコアなどの方法によって、決定することができる。ファミリーには、二本鎖核酸の一方の鎖または両方の鎖の配列が含まれ得る。ファミリーのメンバーが、二本鎖核酸由来の両方の鎖の配列を含む場合、一方の鎖の配列を、すべての配列をコンパイルする目的でそれらの相補物に変換して、コンセンサスヌクレオチドまたは配列を導出する。一部のファミリーは、単一メンバー配列のみを含み得る。この場合には、この配列は、増幅前の試料中の核酸の配列として解釈され得る。あるいは、単一メンバー配列のみを有するファミリーは、後続の分析から排除してもよい。

シーケンシングされた核酸におけるヌクレオチド変動は、シーケンシングされた核酸を参照配列と比較することによって、決定することができる。参照配列は、公知の配列、例えば、ある対象由来の公知の全体的または部分的ゲノム配列、ヒト対象の全ゲノム配列であることが多い。参照配列は、ｈＧ１９であってもよい。シーケンシングされた核酸は、試料中の核酸について直接的に決定された配列、または上述のように、そのような核酸の増幅産物の配列のコンセンサスを提示し得る。比較は、参照配列における１つまたは複数の指定位置で行われ得る。それぞれの配列を最大にアライメントしたときに、参照配列の指定位置に対応する位置を含む、シーケンシングされた核酸のサブセットを、識別することができる。そのようなサブセット内で、あるとすればどのシーケンシングされた核酸が、指定位置にヌクレオチド変動を含むか、ならびに必要に応じて、あるとすればどれが参照ヌクレオチド（すなわち、参照配列におけるものと同じもの）を含むか、および／または参照ヌクレオチドを含むサブセット内の配列の数を、決定することができる。ヌクレオチド変動を含むシーケンシングされた核酸によってサポートされる場合に、バリアントがコールされ得る。例えば、ヌクレオチドバリアントを含むサブセット内のシーケンシングされた核酸の数が、閾値を超えた場合、バリアントヌクレオチドが、指定位置においてコールされ得る。閾値は、単純な数字、例えば、少なくとも１、２、３、４、５、６、７、８、９、もしくは１０個の、ヌクレオチドバリアントを含むサブセット内のシーケンシングされた核酸であってもよく、または閾値は、比、例えば、他の可能性の中でもとりわけ、少なくとも０．５、１、２、３、４、５、１０、１５、もしくは２０％の、ヌクレオチドバリアントを含むサブセット内のシーケンシングされた核酸であってもよい。比較は、参照配列における任意の目的とされる指定位置について、繰り返すことができる。しばしば、比較は、参照配列上の少なくとも２０個、１００個、２００個、または３００個の連続した位置、例えば、２０～５００個または５０～３００個の連続した位置を占有する指定位置について、行われ得る。他の変動をコールするのに使用した同じ信頼性を有するサブセット内のシーケンシングされた核酸によってサポートされるＣからＴまたはＧからＡへの変動は、それにもかかわらず、脱アミノ化に誘導されるシーケンシングエラーを含み得る。

脱アミノ化により誘導されるシーケンシングエラーは、コールされるバリアントヌクレオチドからそれらを排除するための措置をとらない限り、意図せずともコールされるバリアントヌクレオチドに含まれてしまう。脱アミノ化に誘導されるエラーは、２つの基本的な基準のうちのいずれかまたは両方によって認識することができる。第１に、脱アミノ化エラーは、コンテキスト依存性である。シトシンからチミンへの脱アミノ化は、シトシンに、チミンおよびグアニンが隣接している場合に（すなわち、ＴＣＧとして）、他のヌクレオチドが隣接している場合よりも多く生じる。同様に、（相補鎖における）グアニンからアデニンへの変動は、グアニンに、ＣＧＡとしてＣおよびＡが隣接している場合に、他のヌクレオチドが隣接している場合よりも高い頻度で生じる。したがって、脱アミノ化に誘導されるエラーは、ＣからＴまたはＧからＡへの変動が、それぞれ、ＴＣＧからＴＴＧまたはＣＧＡからＣＡＡのコンテキストで生じる場合に、コールされ得る。一部の方法では、脱アミノ化エラーのうちの約９０％は、これらのコンテキストで生じる。

第２に、脱アミノ化に誘導されるエラーは、指定位置と、シーケンシングされた核酸の末端との間の距離、すなわち換言すると、これらの位置間のヌクレオチドの数に依存する。例えば、配列の内部部分で生じる脱アミノ化に誘導されるエラーは、一方の鎖からのリードでは「Ｔ」として、相補鎖からのリードでは「Ｇ」として検出可能である可能性が高い。しかしながら、シーケンシングされている核酸の端部（末端）の近傍で生じる脱アミノ化に誘導されるエラーは、そのようなエラーが、平滑末端修復のプロセスによって導入され、２つの完全に相補的な鎖が生じ得るため、明白ではない可能性がある。より具体的には、シトシンからチミンへの脱アミノ化を含む配列リードは、シーケンシングされた核酸の５’末端の近傍において、より高頻度で生じ得、グアニンからアデニンへの脱アミノ化は、３’末端の近傍において、より高頻度で生じ得る。したがって、指定位置において脱アミノ化により生じるＣからＴへの変動とシーケンシングされた核酸の５’末端との間の平均距離は、指定位置における参照ヌクレオチドとシーケンシングされた核酸の５’末端との間の平均距離よりも短い。同様に、指定位置において脱アミノ化により生じるＧからＡへの変動とシーケンシングされた核酸の３’末端との間の平均距離は、指定位置における参照ヌクレオチドとシーケンシングされた核酸の３’末端との間の平均距離よりも短い。平均距離の差が大きいほど、脱アミノ化エラーの確率が高い。対照的に、指定位置におけるＧからＡまたはＣからＴへの変動が、シーケンシングエラーではなく実際の変動を表す場合、これらの変動とシーケンシングされた核酸の末端との平均距離と、指定位置における参照ヌクレオチドのものとの比較において、ランダムな因子に起因して生じ得る体系的な差はないはずである。

ある特定の態様では、参照配列内の指定位置における「Ｃ」から「Ｔ」または「Ｇ」から「Ａ」へのバリアントのマイナー対立遺伝子頻度を、指定位置にマッピングされるシーケンシングされたポリヌクレオチドの集団において決定する方法であって、マイナー対立遺伝子頻度が、バリアントを含む指定位置にマッピングされるシーケンシングされたポリヌクレオチドの数（「バリアント数」）を、指定位置にマッピングされるシーケンシングされたポリヌクレオチドの総数と比較するものであり、この方法が、脱アミノ化エラーの確率について、ゲノム座標におけるＴまたはＡバリアントのバリアント数を調節するステップを含み、エラーの確率が、「Ｔ」の場合には分子の５’末端から、および「Ａ」の場合には分子の３’末端からのバリアントの距離の関数である、方法が、本明細書に提供される。

図４に示されるように、脱アミノ化エラーにより分子において「Ｔ」バリアントが生じる可能性は、バリアントがある位置の分子の５’末端からの距離の関数である。より具体的には、バリアントが分子の５’末端に近いほど、バリアントがＣからＴへの塩基転換である可能性が高い。これは、充填される５’オーバーハングがある場所にエラーが伝播され、５’末端におけるオーバーハングが短い方が、長いオーバーハングよりもその可能性が高いためである。同様に、分子の３’末端におけるＧからＡへのバリアントは、同様の理由から、位置が分子の３’末端に近いほど、可能性が高い。

任意の試料において、分子の末端からの距離の関数として、ＣからＴへのバリアントの統計学的決定を行うことができる。この関数は、分子の一部の内部距離において、漸近線に達する。漸近量は、全般的な脱アミノ化率を表す。この比率は、試料ごとに変動し得る。

脱アミノ化に誘導されるエラーが生じる可能性が高いシーケンシングされた核酸の末端への関連近接度は、シーケンシングされている核酸集団における一本鎖オーバーハングの長さにほぼ対応しているが、相補鎖の末端を越える消化およびそれに続く充填に起因して、３’オーバーハングの場合には、わずかに長い場合がある。近接度は、例えば、シーケンシングされた核酸鎖の３’または５’末端から、３０ヌクレオチドもしくはそれ未満、２５ヌクレオチドもしくはそれ未満、２０ヌクレオチドもしくはそれ未満、１５ヌクレオチドもしくはそれ未満、１０ヌクレオチドもしくはそれ未満、または５ヌクレオチドもしくはそれ未満として規定され得る（「末端近接度」）。近接度は、３’末端または５’末端で同じかまたは異なって規定されてもよい。

前述のように、それぞれの配列を最大にアライメントしたときに、参照配列の指定位置に対応する位置を含む、シーケンシングされた核酸のサブセットが、識別される。このサブセット内のシーケンシングされた核酸のうちの一部は、５’末端の規定される近接度以内に生じる指定位置を有する。これらのシーケンシングされた核酸は、サブセットの第１の比率と称され得る。サブセット内のシーケンシングされた核酸のうちの一部は、３’末端の規定される近接度内に生じる指定位置を有する。これらのシーケンシングされた核酸は、サブセットの第２の比率と称され得る。「Ｃ」から「Ｔ」への変換は、次いで、第１の比率を構成するシーケンシングされた核酸におけるその出現によって認識され得、「Ｇ」から「Ａ」への変換は、第２の比率を構成するシーケンシングされた核酸におけるその出現によって認識され得る。出現は、単純に、関連する比率内の指定位置におけるＣからＴまたはＧからＡへの変動を含む、存在するシーケンシングされた核酸の数として規定され得る。例えば、ＣからＴへの脱アミノ化エラーは、第１の比率のある特定の数の、例えば、少なくとも１、２、３、４、５、または６つのシーケンシングされた核酸が、指定位置にＣからＴへの変動を含む場合に、コールされ得る。同様に、ＧからＡへの脱アミノ化エラーは、第２の比率のある特定の数の、例えば、少なくとも１、２、３、４、５、または６つのシーケンシングされた核酸が、指定位置にＧからＡへの変動を含む場合に、コールされ得る。

出現は、それぞれ第１の比率または第２の比率の外側の割合と比較した、指定位置でＣからＴまたはＧからＡへの変動を含む第１または第２の比率内の核酸の割合によって規定することもできる。例えば、脱アミノ化エラーは、関連する比率の指定位置におけるＣからＴまたはＧからＡへの変動の出現が、関連する比率内のシーケンシングされた核酸のうちの少なくとも２５、３０、４０、５０、６０、または７０％である場合に、コールされ得る。過剰出現は、指定位置でＣからＴまたはＧからＡへの変動を有する関連比率内のシーケンシングされた核酸の、同じサブセット内であるが比率の外側にあるＣからＴまたはＧからＡへの変動を有するシーケンシングされた核酸の対応する割合と比較した、相対的な割合によって規定することもできる。関連する比率内のＣからＴまたはＧからＡへの変動を有するシーケンシングされた核酸の出現が、比率の外部よりも高いことは、変動が脱アミノ化エラーであるという指標である。例えば、サブセットの第１の比率内のシーケンシングされた核酸のうちの５０％、およびサブセット内ではあるが比率の外部の核酸のうちの１％のみ（指定位置が５’末端の規定される近接度内にない場合）が、指定位置にＣからＴへの転位を含む場合、ＣからＴへの転位は、おそらくは、脱アミノ化に誘導されるエラーである。

マイナー対立遺伝子比率を決定することは、指定位置にマッピングされる特定のバリアントを含む分子の、指定位置にマッピングされる全分子に対する比を計算することを含み得る。そのため、例えば、１００個の分子が、ゲノム座標にマッピングされ、そのうちの１３個が、バリアントを含む場合、マイナー対立遺伝子頻度は、１３％として計算することができる。しかしながら、ある特定のバリアントが、脱アミノ化エラーの結果であると考えられる場合、これらは、カウントからディスカウントされ得る。そのため、例えば、１３個のバリアントのうちの７個が、エラーとして指定される場合、比率は、６／９３、または６．４％として計算され得る。ある特定の事例では、例えば、分子の５’末端に位置する座標におけるバリアントの比が、座標におけるすべてのバリアントのうちの５０％よりも多くを占める場合、指定位置におけるすべてのバリアントが、ディスカウントされ得る。

脱アミノ化に誘導されるエラーは、コンテキストもしくは出現のいずれかまたは両方に基づいて、分類することができる。例えば、ＣからＴまたはＧからＡの転位が、上記に示される脱アミノ化エラーを示唆するコンテキストで生じる場合、転位を脱アミノ化エラーとして分類するのに必要なサブセットの関連比率における過剰出現の程度は、分類が過剰出現単独に基づいて行われる場合に必要とされるであろうものと比較して、低減され得る。

見かけのバリアントが脱アミノ化エラーとしてコールされるかどうかは、いくつかの因子に基づき得る。バリアント分子の絶対数が、ある特定の閾値（または比もしくは割合）を上回る場合、ある遺伝子座におけるバリアントの存在が、該当し得る。また、バリアントの存在は、対立遺伝子比率（バリアントを有する遺伝子座にマッピングされる分子のパーセント）が、例えば、対照試料において予測される比率によって決定される、閾値を上回る場合、外して報告され得る。外して報告される場合、バリアントの存在およびバリアントのマイナー対立遺伝子比率の両方が、外して報告され得る。外して報告する際、脱アミノ化エラーは、いくつかの異なる様式のうちのいずれかで処理され得る。一実施形態では、所定の末端近接度内に位置する任意の「Ｔ」バリアントは、単純に、エラーに帰属し、ディスカウントされ得る。この場合には、所定の末端近接度外の「Ｔ」バリアントのみが、実際のバリアントとしてカウントされ、報告要件の対象となる。別の方法では、所定の末端近接度内に位置する「Ｔ」バリアントの、所定の末端近接度外に位置するものに対する比率が、決定される。その量が、ある特定の閾値量を上回る場合、例えば、２０％を上回る、３０％を上回る、４０％を上回る、５０％を上回る場合、エラー率は、その位置におけるバリアントを報告しないのに十分に高いと考えられる。量が閾値レベルよりも低い場合、バリアントは、通常の報告要件の対象となる。別の方法では、マイナー対立遺伝子比率が、予測される全般エラー率を上回る場合、バリアントは、エラーの存在に関係なく外して報告され、エラーは補正されてもよく、またはされなくてもよい。別の実施形態では、選択された位置（すべてが近傍ゾーン内にあってもよく、または近傍ゾーン外のバリアントを含んでもよい）において、「Ｔ」バリアントは、バリアントの確率がエラーであるとしてスコアされ、すべての位置におけるスコアを加算して、マイナー対立遺伝子比率に組み込まれる数が得られる。そのため、例えば、最初の（末端の）５’ヌクレオチドにおけるバリアントが真のバリアントである可能性は、５０％であり得る。１０番目の５’ヌクレオチドにおけるバリアントの可能性は、７５％であり得る。２０番目を越える５’ヌクレオチドにおけるバリアントの可能性は、９５％であり得る。試料が、１位に１つ、１０位に１つ、および５０位に１つのバリアントを示す場合、これらは、０．５＋０．７５＋０．９５＝２．２としてスコア付けすることができ、マイナー対立遺伝子比率に対して２．２のバリアントでカウントされる。そのような確率は、例えば、少なくとも１０個、少なくとも５０個、少なくとも１００個、または少なくとも５００個の対照試料を試験することによって、経験的に決定することができる。

シーケンシングが、もとの試料中の単一のシーケンシングされた核酸の増幅したコピーを提示するファミリーを識別することによって行われる場合、典型的に、もとの試料中の核酸の両方の鎖を提示するファミリーを含む、ファミリー内のそれぞれのファミリーメンバーは、脱アミノ化エラーを含む。異なる鎖が、異なるヌクレオチドを有する場合、エラーは、自明である。

バリアントヌクレオチドが特定の試料において脱アミノ化エラーとして分類される、参照配列における指定位置の数は、変動し得る。例えば、そのような指定位置の数は、他の可能性の中でもとりわけ、少なくとも１、２、３、４、５、６、７、８、９、または１０であり得る。
ＩＩＩ．コンピューター実施

本方法は、湿式化学のステップ以外の本明細書または添付の特許請求の範囲に記載されたステップのいずれかまたはすべてが、好適なプログラムされたコンピューターで実施され得るように、コンピューターで実施することができる。コンピューターは、メインフレーム、パーソナルコンピューター、タブレット、スマートフォン、クラウド、オンラインデータストレージ、リモートデータストレージなどであり得る。コンピューターは、１つまたは複数の位置で操作することができる。

核酸集団を分析するためのコンピュータープログラムは、本明細書または添付の特許請求の範囲に記載される、湿式化学以外のステップのいずれかを行うためのコード、例えば、二本鎖平滑末端化核酸の配列を決定して、シーケンシングされた核酸を得るためのコード；指定位置を含む、シーケンシングされた核酸のサブセットを識別し、指定位置が、参照配列におけるそれぞれの指定位置において、バリアントヌクレオチドによって占有されているサブセット内のシーケンシングされた核酸の数を識別するためのコード；ならびに変動を有するサブセット内のシーケンシングされた核酸の数が閾値に合致すると、それぞれの指定位置におけるバリアントヌクレオチドの存在をコールするためのコードであって、指定位置におけるバリアントヌクレオチドの存在は、（ｉ）バリアントが、参照ヌクレオチドと比較して、ＣからＴまたはＧからＡへの変動である場合、および（ｉｉ）バリアントヌクレオチドが、（１）指定位置の周囲のヌクレオチドコンテキスト、および／または（２）サブセット内のシーケンシングされた核酸の５’末端から、指定位置におけるＣからＴへの変動の距離、またはサブセット内のシーケンシングされた核酸の３’末端から、指定位置におけるＧからＡへの変動の距離に基づいて、脱アミノ化エラーとして分類される場合には、コールされないことを除く、コードを含み得る。コンピュータープログラムはまた、データベースまたはシーケンシング装置から配列データを受容し、計算されたデータ、例えば、バリアントヌクレオチドまたは脱アミノ化に誘導されるシーケンシングエラーを、ディスプレイまたはプリンターに出力するためのコードも含み得る。

本方法は、核酸集団を分析するためのシステム（例えば、データ処理システム）において実施され得る。システムはまた、本明細書または添付の特許請求の範囲に記載されるステップ、例えば、以下の：二本鎖平滑末端化核酸の配列を決定して、シーケンシングされた核酸を得るステップ；指定位置を含む、シーケンシングされた核酸のサブセットを識別し、指定位置が、参照配列におけるそれぞれの指定位置において、バリアントヌクレオチドによって占有されているサブセット内のシーケンシングされた核酸の数を識別する、ステップ；ならびに変動を有するサブセット内のシーケンシングされた核酸の数が、閾値に合致すると、それぞれの指定位置におけるバリアントヌクレオチドの存在をコールするステップであって、指定位置におけるバリアントヌクレオチドの存在は、（ｉ）バリアントが、参照ヌクレオチドと比較して、ＣからＴまたはＧからＡへの変動である場合、および（ｉｉ）バリアントヌクレオチドが、（１）指定位置の周囲のヌクレオチドコンテキスト、および／または（２）サブセット内のシーケンシングされた核酸の５’末端から、指定位置におけるＣからＴへの変動の距離、またはサブセット内のシーケンシングされた核酸の３’末端から、指定位置におけるＧからＡへの変動の距離に基づいて、脱アミノ化エラーとして分類される場合には、コールされないことを除く、ステップのうちの１つまたは複数を行うための、互いに連結されたプロセッサ、システムバス、主メモリー、および必要に応じて補助メモリーも含み得る。システムはまた、他の付属機器の中でもとりわけ、結果、例えば、バリアントヌクレオチドおよび脱アミノ化に誘導されるエラーを出力するためのディスプレイまたはプリンター、ユーザー入力を提供するため、例えば、閾値または規定される近接性を設定するためのキーボードおよび／またはポインターも含み得る。システムはまた、未加工のシーケンシングデータを提供するために、メモリーに連結されたシーケンシング装置を含み得る。

本方法の様々なステップは、コンピューター可読媒体（例えば、ハードドライブ、補助メモリー、外部メモリー、サーバー；データベース、ポータブルメモリーデバイス（例えば、ＣＤ－Ｒ、ＤＶＤ、ＺＩＰディスク、フラッシュメモリーカード）などに記憶された、情報および／またはプログラムを利用し、結果を生成することができる。例えば、コンピューター可読媒体に記憶され得る、本方法に使用される情報および本方法によって生成される結果としては、参照配列、ヌクレオチドバリアントもしくは脱アミノ化に誘導されるエラーのコールのための閾値または規定される近接度、未加工のシーケンシングデータ、シーケンシングされた核酸、バリアントヌクレオチドおよびそれらの疾患との関連付け、ならびに脱アミノ化に誘導されるエラーが挙げられる。

本開示はまた、核酸集団を分析するための製品であって、実行されると、本方法のステップを実施する、１つまたは複数のプログラムを含む、マシン可読媒体を含む、製品も含む。

本開示は、ハードウェアおよび／またはソフトウェアで実施することができる。例えば、本開示の異なる態様は、クライアントサイドロジックまたはサーバーサイドロジックのいずれかで実施することができる。本開示またはその構成成分は、適切に設定されたコンピューティングデバイス中にロードされた場合に、そのデバイスに、本開示に従って実施させるロジック命令および／またはデータを含有する固定媒体プログラムコンポーネントにおいて具現化することができる。ロジック命令を含有する固定媒体は、ビューワーのコンピューターに物理的にローディングするために固定媒体のビューワーに送達され得るか、またはロジック命令を含有する固定媒体は、ビューワーが、プログラムコンポーネントをダウンロードするために通信媒体を介してアクセスするリモートサーバーに存在してもよい。

本開示は、本開示の方法を実施するためにプログラミングされたコンピューターコントロールシステムを提供する。図５は、本開示の方法を実施するためにプログラミングされたか、またはそうでなければ本開示の方法を実施するよう構成されたコンピューターシステム９０１を示す。コンピューターシステム９０１は、セントラルプロセシングユニット（ＣＰＵ、本明細書ではまた「プロセッサー」および「コンピュータープロセッサー」）９０５（シングルコアもしくはマルチコアプロセッサー、または並行プロセシングのための複数のプロセッサーであってもよい）を含む。コンピューターシステム９０１は、メモリーまたはメモリー位置９１０（例えば、ランダムアクセスメモリー、リードオンリーメモリー、フラッシュメモリー）、電子保存ユニット９１５（例えば、ハードディスク）、１つまたは複数の他のシステムと通信するための通信インターフェース９２０（例えばネットワークアダプタ）、ならびにキャッシュメモリー、他のメモリー、データストレージ、および／または電子ディスプレイアダプターなどの周辺デバイス９２５も含む。メモリー９１０、保存ユニット９１５、インターフェース９２０および周辺デバイス９２５は、

マザーボードなどの通信バス（実線）通じてＣＰＵ９０５と通信する。保存ユニット９１５は、データを保存するためのデータ保存ユニット（またはデータ保管庫）であり得る。コンピューターシステム９０１は、通信インターフェース９２０の補助により、コンピューターネットワーク（「ネットワーク」）９３０に作動可能に接続され得る。ネットワーク９３０は、インターネット、インターネットおよび／もしくはエクストラネット、またはインターネットと通信するイントラネットおよび／もしくはエクストラネットであり得る。一部の事例では、ネットワーク９３０は、電気通信および／またはデータネットワークである。ネットワーク９３０は、ローカルエリアネットワークであり得る。ネットワーク９３０は、クラウドコンピューティングなどの分散コンピューティングを可能にし得る１つまたは複数のコンピューターサーバーを含み得る。ネットワーク９３０は、一部の事例では、コンピューターシステム９０１の補助により、コンピューターシステム９０１に接続されたデバイスがクライアントまたはサーバーとして機能することを可能にし得るピアツーピアネットワークを実施することができる。

ＣＰＵ９０５は、プログラムまたはソフトウェアにおいて具現化され得るマシン可読命令のシーケンスを実行することができる。命令は、メモリー９１０などのメモリー位置に保存され得る。命令は、ＣＰＵ９０５を対象とすることができ、これは、次にＣＰＵ９０５が本開示の方法を実施するようにプログラムするか、またはそうでなければ本開示の方法を実施するように構成することができる。ＣＰＵ９０５により実施される動作の例としては、取り出し、デコード、実行、および書き戻しを挙げることができる。

ＣＰＵ９０５は、回路、例えば、集積回路の一部であり得る。システム９０１の１つまたは複数の他のコンポーネントは、回路に含まれ得る。一部の事例では、回路は、アプリケーション特異的集積回路（ＡＳＩＣ）である。

保存ユニット９１５は、ドライバ、ライブラリー、および保存済みプログラムなどのファイルを保存することができる。保存ユニット９１５は、ユーザーデータ、例えば、ユーザープリファレンスおよびユーザープログラムを保存することができる。コンピューターシステム９０１は、一部の事例では、イントラネットまたはインターネットを通じてコンピューターシステム９０１と通信するリモートサーバー上に位置するなど、コンピューターシステム９０１の外部の１つまたは複数の追加のデータ保存ユニットを含み得る。

コンピューターシステム９０１は、ネットワーク９３０を通じて、１つまたは複数のリモートコンピューターシステムと通信することができる。例えば、コンピューターシステム９０１は、ユーザーのリモートコンピューターシステムと通信することができる。リモートコンピューターシステムの例としては、パーソナルコンピューター（例えば、ポータブルＰＣ）、スレートまたはタブレットＰＣ（例えば、Ａｐｐｌｅ（登録商標）のｉＰａｄ（登録商標）、Ｓａｍｓｕｎｇ（登録商標）のＧａｌａｘｙＴａｂ）、電話、スマートフォン（例えば、Ａｐｐｌｅ（登録商標）のｉＰｈｏｎｅ（登録商標）、アンドロイド（登録商標）使用可能デバイス、Ｂｌａｃｋｂｅｒｒｙ（登録商標））、または携帯情報端末が挙げられる。ユーザーは、ネットワーク９３０を介してコンピューターシステム９０１にアクセスすることができる。

本明細書に記載されている方法は、コンピューターシステム９０１の電子保存場位置、例えば、メモリー９１０または電子保存ユニット９１５上に保存されたマシン（例えば、コンピュータープロセッサー）実行可能コードにより実施され得る。マシン実行可能またはマシン可読コードはソフトウェアの形態で提供され得る。使用中、コードはプロセッサー９０５によって実行され得る。一部の事例では、コードは、保存ユニット９１５から検索され、プロセッサー９０５によって容易にアクセスするためにメモリー９１０上に保存され得る。一部の状況では、電子保存ユニット９１５は除外されてもよく、マシン実行可能命令がメモリー９１０上に保存される。

コードは予めコンパイルされ、コードを実行するように適応されたプロセッサーを有するマシンで使用するために構成され得るか、またはランタイム中にコンパイルされ得る。コードは、コードが予めコンパイルされたかまたはコンパイルされてすぐの様式で実行することを可能にするように選択され得るプログラム言語で供給され得る。

コンピューターシステム９０１などの本明細書において提供されるシステムおよび方法の態様は、プログラミングにおいて具現化され得る。技術の様々な態様は、典型的には、一種のマシン可読媒体において保有または具現化されるマシン（またはプロセッサー）実行可能コードおよび／または関連データの形態で、「製品」または「製造物品」として考えられ得る。マシン実行可能コードは、電子保存ユニット、例えば、メモリー（例えば、リードオンリーメモリー、ランダムアクセスメモリー、フラッシュメモリー）、またはハードディスク上に保存され得る。

「保存」式媒体は、コンピューター、プロセッサーなどの有形メモリーのいずれかもしくはすべて、またはそれらの関連モジュール（様々な半導体メモリー、テープドライブ、ディスクドライブなど）を含み得、これは常にソフトウェアプログラミングの非一時的な保存を提供することができる。ソフトウェアのすべてまたは一部は、時折、インターネットまたは様々な他の電気通信ネットワークを通じて通信され得る。例えば、このような通信は、１つのコンピューターまたはプロセッサーから別のコンピューターまたはプロセッサーに、例えば、管理サーバーまたはホストコンピューターからアプリケーションサーバーのコンピュータープラットフォームへのソフトウェアの読み込みを可能にし得る。よって、ソフトウェア要素を有し得る別の種類の媒体は、有線および光学地上通信ネットワークを通して、ならびに様々な無線リンク上で、ローカルデバイス間の物理インターフェースなどにわたって使用される光学波、電波および電磁波を含む。有線またはワイヤレスリンク、光学リンクなどのこのような波を運ぶ物理的要素もソフトウェアを保有する媒体と考えることができる。本明細書で使用される場合、非一時的な有形

「保存」媒体に限定されない限り、コンピューターまたはマシン「可読媒体」などの用語は、実行のための命令をプロセッサーに提供する際に関与する任意の媒体を指す。

よって、コンピューター実行可能コードなどのマシン可読媒体は、有形保存媒体、搬送波媒体または物理伝送媒体を含むが、これらに限定されない多くの形態を取ることができる。不揮発性保存媒体は、例えば、図面に示されるデータベースなどを実施するために使用され得る任意のコンピューターなどの保存デバイスのいずれかなどの光学または磁気ディスクを含む。揮発性保存媒体は、このようなコンピュータープラットフォームのメインメモリーなどの動的メモリーを含む。有形伝送媒体は、同軸ケーブル；コンピューターシステム内にバスを含むワイヤを含む、銅線および光学ファイバを含む。搬送波伝送媒体は、電気もしくは電磁シグナル、または高周波（ＲＦ）赤外（ＩＲ）データ通信中に生成されるものなどの音もしくは光波の形態を取ることができる。したがって、コンピューター可読媒体の一般的な形態は、例えば、フロッピー（登録商標）ディスク、フレキシブルディスク、ハードディスク、磁気テープ、任意の他の磁気媒体、ＣＤ－ＲＯＭ、ＤＶＤもしくはＤＶＤ－ＲＯＭ、任意の他の光学媒体、パンチカード、紙テープ、穴のパターンを有する任意の他の物理的保存媒体、ＲＡＭ、ＲＯＭ、ＰＲＯＭおよびＥＰＲＯＭ、ＦＬＡＳＨ（登録商標）－ＥＰＲＯＭ、任意の他のメモリーチップもしくはカートリッジ、搬送波輸送データもしくは命令、このような搬送波などを輸送するケーブルもしくはリンク、またはコンピューターがプログラミングコードおよび／もしくはデータを読むことができる任意の他の媒体を含む。コンピューター可読媒体のこれらの形態の多くは、実行のためにプロセッサーに対する１つまたは複数の命令の１つまたは複数のシーケンスの保有に関与し得る。

コンピューターシステム９０１は、例えば、レポートを提供するための、ユーザーインターフェース（ＵＩ）９４０を含む、電子ディスプレイ９３５を含み得るか、またはそれと通信し得る。ＵＩの例としては、グラフィカルユーザーインターフェース（ＧＵＩ）およびウェブベースユーザーインターフェースが挙げられるが、これらに限定されない。

本開示の方法およびシステムは、１つまたは複数のアルゴリズムを用いて実施することができる。アルゴリズムは、中央処理装置９０５により実行すると、ソフトウェアによって実施され得る。
ＩＶ．方法の一般的な特徴
１．試料

試料は、対象から単離された任意の生物学的試料であり得る。試料としては、体組織、例えば、公知または疑いのある固形腫瘍、全血、血小板、血清、血漿、糞便、赤血球、白血球（ｗｈｉｔｅｂｌｏｏｄｃｅｌｌ）もしくは白血球（ｌｅｕｃｏｃｙｔｅ）、内皮細胞、組織生検、脳脊髄液、関節液、リンパ液、腹水、間質液もしくは細胞外液、細胞間の空間の流体が挙げられ、歯肉溝滲出液、骨髄、胸水、脳脊髄液、唾液、粘液、喀痰、精液、汗、尿が挙げられる。試料は、好ましくは、体液、特に、血液およびその比率、ならびに尿である。そのような試料には、腫瘍から流出した核酸が含まれる。核酸としては、ＤＮＡおよびＲＮＡを挙げることができ、二本鎖形態および／または一本鎖形態であり得る。試料は、対象からもともと単離した形態であってもよく、または成分、例えば、細胞を除去もしくは追加するため、１つの成分を別の成分と比べて濃縮するため、もしくは１つの形態の核酸を別のものに、例えば、ＲＮＡからＤＮＡに、もしくは一本鎖核酸から二本鎖に変換するために、さらなるプロセシングに供されていてもよい。したがって、例えば、分析のための体液は、無細胞核酸、例えば、無細胞ＤＮＡ（ｃｆＤＮＡ）を含む、血漿または血清である。

血漿の体積は、シーケンシングされる領域の所望されるリード深度に依存し得る。例示的な体積は、０．４～４０ｍｌ、５～２０ｍｌ、１０～２０ｍｌである。例えば、体積は、０．５ｍｌ、１ｍｌ、５ｍｌ、１０ｍｌ、２０ｍｌ、３０ｍｌ、または４０ｍｌであり得る。サンプリングされる血漿の体積は、５～２０ｍｌであり得る。

試料は、ゲノム等価物を含む様々な量の核酸を含み得る。例えば、約３０ｎｇのＤＮＡの試料は、約１０，０００（１０^４）個のハプロイドヒトゲノム等価物を含み得、ｃｆＤＮＡの場合には、約２０００億（２×１０^４）個の個々のポリヌクレオチド分子を含み得る。同様に、約１００ｎｇのＤＮＡの試料は、約３０，０００個のハプロイドヒトゲノム等価物を含み得、ｃｆＤＮＡの場合には、約６０００億個の個々の分子を含み得る。

試料は、異なる源、例えば、細胞および無細胞に由来する核酸を含み得る。試料は、変異を有する核酸を含み得る。例えば、試料は、生殖細胞系列変異および／または体細胞変異を有するＤＮＡを含み得る。試料は、がん関連変異（例えば、がん関連体細胞変異）を有するＤＮＡを含み得る。

増幅前の試料中の無細胞核酸の例示的な量は、約１ｆｇ～約１μｇ、例えば、１ｐｇ～２００ｎｇ、１ｎｇ～１００ｎｇ、１０ｎｇ～１０００ｎｇの範囲である。例えば、量は、最大約６００ｎｇ、最大約５００ｎｇ、最大約４００ｎｇ、最大約３００ｎｇ、最大約２００ｎｇ、最大約１００ｎｇ、最大約５０ｎｇ、または最大約２０ｎｇの無細胞核酸分子であり得る。量は、少なくとも１ｆｇ、少なくとも１０ｆｇ、少なくとも１００ｆｇ、少なくとも１ｐｇ、少なくとも１０ｐｇ、少なくとも１００ｐｇ、少なくとも１ｎｇ、少なくとも１０ｎｇ、少なくとも１００ｎｇ、少なくとも１５０ｎｇ、または少なくとも２００ｎｇの無細胞核酸分子であり得る。量は、最大１フェムトグラム（ｆｇ）、１０ｆｇ、１００ｆｇ、１ピコグラム（ｐｇ）、１０ｐｇ、１００ｐｇ、１ｎｇ、１０ｎｇ、１００ｎｇ、１５０ｎｇ、または２００ｎｇの無細胞核酸分子であり得る。本方法は、１フェムトグラム（ｆｇ）～２００ｎｇを得ることを含み得る。

無細胞核酸試料は、無細胞核酸を含む試料を指す。無細胞核酸は、細胞内に含まれていないかもしくは細胞に結合していない核酸、または換言すると、インタクトな細胞を除去した試料中に残存している核酸である。無細胞核酸は、対象に由来する体液（例えば、血液、尿、ＣＳＦなど）から得られたすべての非封入核酸を指し得る。無細胞核酸としては、ＤＮＡ（ｃｆＤＮＡ）、ＲＮＡ（ｃｆＲＮＡ）、およびそれらのハイブリッドが挙げられ、ゲノムＤＮＡ、ミトコンドリアＤＮＡ、循環ＤＮＡ、ｓｉＲＮＡ、ｍｉＲＮＡ、循環ＲＮＡ（ｃＲＮＡ）、ｔＲＮＡ、ｒＲＮＡ、核小体ＲＮＡ（ｓｎｏＲＮＡ）、Ｐｉｗｉ相互作用ＲＮＡ（ｐｉＲＮＡ）、長い非コーディングＲＮＡ（長いｎｃＲＮＡ）、またはこれらのうちのいずれかの断片が含まれる。無細胞核酸は、二本鎖であっても、一本鎖であっても、それらのハイブリッドであってもよい。無細胞核酸は、分泌または細胞死プロセス、例えば、細胞壊死およびアポトーシスを通じて、体液中に放出され得る。一部の無細胞核酸、例えば、循環腫瘍ＤＮＡ（ｃｔＤＮＡ）は、がん細胞から、体液中に放出される。その他のものは、健常細胞から放出される。ｃｔＤＮＡは、非カプセル化腫瘍由来断片化ＤＮＡであり得る。無細胞胎児ＤＮＡ（ｃｆｆＤＮＡ）は、母体血流中に自由に循環している胎児ＤＮＡである。

無細胞核酸またはそれに関連するタンパク質は、１つまたは複数のエピジェネティックな改変を有し得る。例えば、無細胞核酸は、アセチル化、５－メチル化、ユビキチン化、リン酸化、ＳＵＭＯ化、リボシル化、および／またはシトルリン化され得る。

無細胞核酸は、約１００～５００ヌクレオチドの例示的なサイズ分布を有し、１１０～約２３０ヌクレオチドの分子が、分子の約９０％に相当し、ヒトにおける最頻値は約１６８ヌクレオチドであり、第２のマイナーピークは、２４０～４４０ヌクレオチドの範囲にある。無細胞核酸は、約１６０～約１８０ヌクレオチド、または約３２０～約３６０ヌクレオチド、または約４４０～約４８０ヌクレオチドであり得る。

無細胞核酸は、溶液中に見出される無細胞核酸を、インタクトな細胞および体液の他の不溶性成分から分離する、分割ステップによって、体液から単離することができる。分割には、遠心分離または濾過などの技法が含まれ得る。あるいは、体液中の細胞を、溶解し、無細胞核酸および細胞核酸を、一緒にプロセシングしてもよい。一般に、緩衝液の添加および洗浄ステップの後に、無細胞核酸は、アルコールで沈降させることができる。混入物質または塩を除去するために、シリカベースカラムなどのさらなる洗浄ステップを使用してもよい。手順のある特定の態様、例えば、収率を最適化するために、例えば、非特異的バルク担体核酸を、反応全体にわたり添加してもよい。

そのようなプロセシングの後、試料は、二本鎖ＤＮＡ、一本鎖ＤＮＡ、および一本鎖ＲＮＡを含む、様々な形態の核酸を含み得る。必要に応じて、一本鎖ＤＮＡおよびＲＮＡは、後続のプロセシングおよび分析ステップに含められるように、二本鎖形態に変換してもよい。
２．増幅

アダプターが隣接する試料核酸を、ＰＣＲ、および典型的に、増幅させようとするＤＮＡ分子に隣接するアダプターにおけるプライマー結合部位にプライマーが結合することによりプライミングされる他の増幅方法によって増幅させることができる。増幅方法は、サーマルサイクリングの結果としての伸長、変性、およびアニーリングのサイクルを含み得るか、または転写に媒介される増幅にあるような等温のものであってもよい。他の増幅方法としては、リガーゼ連鎖反応、鎖置換増幅、核酸配列に基づく増幅、および自己持続性配列に基づく複製が挙げられる。

従来的な核酸増幅方法を使用して、核酸分子にバーコードを導入するために、１回または複数回の増幅を適用することができる。増幅は、１つまたは複数の反応混合物中で行うことができる。分子タグおよび試料インデックス／タグは、同時、または任意の連続的順序で導入することができる。分子タグおよび試料インデックス／タグは、配列捕捉の前および／または後に導入することができる。一部の場合には、分子タグのみが、プローブ捕捉の前に導入され、一方で試料インデックス／タグは、配列捕捉の後に導入される。一部の場合には、分子タグおよび試料インデックス／タグの両方が、プローブ捕捉の前に導入される。一部の場合には、試料インデックス／タグは、配列捕捉の後に導入される。通常、配列捕捉は、標的配列、例えば、ゲノム領域のコーディング配列に相補的な一本鎖核酸分子を導入することを含み、そのような領域の変異は、がん型と関連している。典型的に、増幅により、２００ｎｔ～７００ｎｔ、２５０ｎｔ～３５０ｎｔ、または３２０ｎｔ～５５０ｎｔの範囲のサイズで、分子タグおよび試料インデックス／タグを有する非固有または固有にタグ付けされた複数の核酸アンプリコンが生成される。一部の実施形態では、アンプリコンは、約３００ｎｔのサイズを有する。一部の実施形態では、アンプリコンは、約５００ｎｔのサイズを有する。
３．バーコード

バーコードは、他の方法の中でもとりわけ、化学合成、ライゲーション、オーバーラップ伸長ＰＣＲによって、アダプターに組み込まれ得るか、またはそれ以外では結合され得る。一般に、反応における固有または非固有のバーコードの割当ては、米国特許出願第２００１００５３５１９号、同第２０１１０１６００７８号、ならびに米国特許第６，５８２，９０８号および同第７，５３７，８９８号およびＵＳ９，５９８，７３１に記載される方法およびシステムに従う。

タグは、ランダムまたは非ランダムで、試料核酸に連結され得る。一部の場合には、それらは、予測される識別子比（例えば、バーコードの組合せ）で、マイクロウェルに導入される。バーコード集団は、固有であってもよく、例えば、すべてのバーコードが、同じヌクレオチド配列を有する。バーコード集団は、非固有であってもよく、例えば、バーコードのうちの一部が、同じヌクレオチド配列を有し、バーコードのうちの一部が、異なるヌクレオチド配列を有する。例えば、ゲノム試料当たり１個を上回る、２個を上回る、３個を上回る、４個を上回る、５個を上回る、６個を上回る、７個を上回る、８個を上回る、９個を上回る、１０個を上回る、２０個を上回る、５０個を上回る、１００個を上回る、５００個を上回る、１０００個を上回る、５０００個を上回る、１００００個を上回る、５０，０００個を上回る、１００，０００個を上回る、５００，０００個を上回る、１，０００，０００個を上回る、１０，０００，０００個を上回る、５０，０００，０００個を上回る、または１，０００，０００，０００個を上回る識別子がロードされるように、識別子がロードされ得る。一部の場合には、ゲノム試料当たり２個を下回る、３個を下回る、４個を下回る、５個を下回る、６個を下回る、７個を下回る、８個を下回る、９個を下回る、１０個を下回る、２０個を下回る、５０個を下回る、１００個を下回る、５００個を下回る、１０００個を下回る、５０００個を下回る、１００００個を下回る、５０，０００個を下回る、１００，０００個を下回る、５００，０００個を下回る、１，０００，０００個を下回る、１０，０００，０００個を下回る、５０，０００，０００個を下回る、または１，０００，０００，０００個を下回る識別子がロードされるように、識別子がロードされ得る。一部の場合には、試料ゲノム当たりのロードされる識別子の平均数は、ゲノム試料当たり約１個、２個、３個、４個、５個、６個、７個、８個、９個、１０個、２０個、５０個、１００個、５００個、１０００個、５０００個、１００００個、５０，０００個、１００，０００個、５００，０００個、１，０００，０００個、１０，０００，０００個、５０，０００，０００個、または１，０００，０００，０００個の識別子を下回るか、または上回る。

好ましい形式は、標的分子の両方の末端にライゲーションされる２０～５０個の異なるタグを使用し、２０～５０×２０～５０個のタグ、例えば、４００～２５００個のタグが作製される。そのような数のタグは、同じ開始点および終止点を有する異なる分子が、高い確率（例えば、少なくとも９４％、９９．５％、９９．９９％、９９．９９９％）で異なる組合せのタグを受容するのに十分である。

一部の場合には、識別子は、所定のまたはランダムなまたはセミランダムな配列のオリゴヌクレオチドであり得る。他の場合には、バーコードが複数の中で必ずしも互いに固有とならないような、複数のバーコードが使用されてもよい。この例では、バーコードは、バーコードおよびそれが結合され得る配列の組合せが、個別にトラッキングすることができる固有の配列を作製するように、（例えば、ライゲーションまたはＰＣＲ増幅によって）個々の分子に結合され得る。本明細書に記載されるように、配列リードの最初の（開始）点および終わりの（終止）部分の配列データと組み合わせて非固有にタグ付けされたバーコードの検出により、特定の分子に固有の同一性を割り当てることが可能となり得る。個々の配列リードの長さまたは塩基対の数もまた、そのような分子に固有の同一性を割り当てるために使用することができる。本明細書に記載されるように、固有の同一性が割り当てられた核酸の一本鎖に由来する断片は、それによって、それに続く親鎖に由来する断片および／または相補鎖の識別を可能にし得る。
４．シーケンシング

前の増幅の有無にかかわらず、アダプターが隣接している試料核酸は、シーケンシングに供することができる。シーケンシング方法としては、例えば、サンガーシーケンシング、高スループットシーケンシング、パイロシーケンシング、シーケンシングバイシンセシス、単分子シーケンシング、ナノポアシーケンシング、半導体シーケンシング、シーケンシングバイライゲーション、シーケンシングバイハイブリダイゼーション、ＲＮＡ－Ｓｅｑ（Ｉｌｌｕｍｉｎａ）、ＤｉｇｉｔａｌＧｅｎｅＥｘｐｒｅｓｓｉｏｎ（Ｈｅｌｉｃｏｓ）、次世代シーケンシング、合成による単分子シーケンシング（ＳＭＳＳ）（Ｈｅｌｉｃｏｓ）、大規模並列シーケンシング、クローン単一分子アレイ（Ｓｏｌｅｘａ）、ショットガンシーケンシング、ＩｏｎＴｏｒｒｅｎｔ、ＯｘｆｏｒｄＮａｎｏｐｏｒｅ、ＲｏｃｈｅＧｅｎｉａ、Ｍａｘｉｍ－Ｇｉｌｂｅｒｔシーケンシング、プライマーウォーキング、ＰａｃＢｉｏ、ＳＯＬｉＤ、ＩｏｎＴｏｒｒｅｎｔ、またはＮａｎｏｐｏｒｅプラットフォームを使用したシーケンシングが挙げられる。シーケンシング反応は、様々な試料プロセシングユニットで行うことができ、これは、複数レーン、複数チャネル、複数ウェル、または複数の試料セットを実質的に同時にプロセシングする他の手段であり得る。試料プロセシングユニットにはまた、複数の実行を同時にプロセシングすることを可能にする複数の試料チャンバが含まれ得る。

シーケンシング反応は、他の疾患のがんのマーカーを含むことが既知の１つまたは複数の断片型に行うことができる。シーケンシング反応はまた、試料中に存在する任意の核酸断片に行うこともできる。シーケンシング反応は、少なくとも５％、１０％、１５％、２０％、２５％、３０％、４０％、５０％、６０％、７０％、８０％、９０％、９５％、９９％、９９．９％、または１００％のゲノムの配列カバレッジを提供し得る。他の場合には、ゲノムの配列カバレッジは、５％未満、１０％未満、１５％未満、２０％未満、２５％未満、３０％未満、４０％未満、５０％未満、６０％未満、７０％未満、８０％未満、９０％未満、９５％未満、９９％未満、９９．９％未満、または１００％未満であり得る。

多重シーケンシングを使用して、同時のシーケンシング反応を行ってもよい。一部の場合には、無細胞ポリヌクレオチドは、少なくとも１０００回、２０００回、３０００回、４０００回、５０００回、６０００回、７０００回、８０００回、９０００回、１００００回、５００００回、１００，０００回のシーケンシング反応でシーケンシングされ得る。他の事例では、無細胞ポリヌクレオチドは、１０００回未満、２０００回未満、３０００回未満、４０００回未満、５０００回未満、６０００回未満、７０００回未満、８０００回未満、９０００回未満、１００００回未満、５００００回未満、１００，０００回未満のシーケンシング反応でシーケンシングされ得る。シーケンシング反応は、逐次的に行われてもよく、または同時に行われてもよい。後続のデータ分析は、シーケンシング反応のすべてまたは一部に行われ得る。一部の場合には、データ分析は、少なくとも１０００回、２０００回、３０００回、４０００回、５０００回、６０００回、７０００回、８０００回、９０００回、１００００回、５００００回、１００，０００回のシーケンシング反応に行われ得る。他の場合には、データ分析は、１０００回未満、２０００回未満、３０００回未満、４０００回未満、５０００回未満、６０００回未満、７０００回未満、８０００回未満、９０００回未満、１００００回未満、５００００回未満、１００，０００回未満のシーケンシング反応に行われ得る。例示的なリード深度は、遺伝子座（塩基）１つ当たり１０００～５００００リードである。
５．分析

本方法は、対象における状態、特に、がんの存在を診断するため、状態を特徴付ける（例えば、がんのステージを決定するかもしくはがんの不均質性を決定する）ため、状態の処置に対する応答をモニタリングするため、状態を発症する危険性または状態の後続の経過の予後診断を達成するために、使用することができる。

様々ながんを、本方法を使用して検出することができる。がん細胞は、ほとんどの細胞と同様に、古い細胞が死亡し新しい細胞に置き換わる、代謝回転率によって特徴付けることができる。一般に、死亡した細胞は、所与の対象において脈管構造と接触すると、ＤＮＡまたはＤＮＡの断片を血流中に放出し得る。これは、疾患の様々なステージにあるがん細胞についても当てはまる。がん細胞はまた、疾患のステージに応じて、様々な遺伝子の異常、例えば、コピー数多型ならびにまれな変異によって、特徴付けることができる。この現象は、本明細書に記載される方法およびシステムを使用して、個体におけるがんの存在または不在を検出するために使用することができる。

検出することができるがんの型および数としては、血液のがん、脳のがん、肺がん、皮膚がん、鼻のがん、喉のがん、肝臓がん、骨がん、リンパ腫、膵臓がん、皮膚がん、大腸がん、直腸がん、甲状腺がん、膀胱がん、腎臓がん、口腔がん、胃がん、固形状態の腫瘍、不均質腫瘍、均質腫瘍などを挙げることができる。

がんは、変異、まれな変異、挿入欠失、コピー数多型、塩基転換、転位、逆転、欠失、異数性、部分異数性、倍数性、染色体不安定性、染色体構造変更、遺伝子融合、染色体融合、遺伝子短縮、遺伝子増幅、遺伝子重複、染色体病変、ＤＮＡ病変、核酸化学改変における異常な変化、エピジェネティックパターンにおける異常な変化を含む、遺伝子変動により検出することができる。

遺伝子データはまた、がんの特定の形態を特徴付けるためにも使用することができる。がんは、組成およびステージ決定の両方において、不均質であることが多い。遺伝子プロファイルデータにより、特定のサブタイプの診断または処置に重要であり得るその特定のサブタイプのがんの特徴付けが可能となり得る。この情報はまた、対象または従事者に特定のがん型の予後に関する手がかりを提供し、対象または従事者のいずれかが、処置選択肢を疾患の進行に合わせて適合させることを可能にし得る。一部のがんは、進行すると、より侵攻的かつ遺伝子的に不安定になる。他のがんは、良性、不活性、または休眠状態のままであり得る。本開示のシステムおよび方法は、疾患の進行を決定するのに有用であり得る。

本分析はまた、特定の処置選択肢の有効性を決定するのにも有用である。奏功処置選択肢は、処置が成功している場合、より多くのがんが死滅し、ＤＮＡが流出し得るため、対象の血液中に検出されるコピー数多型またはまれな変異の量が増加し得る。他の例では、これは生じない場合がある。別の例では、おそらくはある特定の処置選択肢は、時間とともに、がんの遺伝子プロファイルと相関し得る。この相関性は、治療法を選択するのに有用であり得る。加えて、がんが、処置後に寛解状態にあることが観察された場合、本方法を使用して、残存疾患または疾患の再発をモニタリングすることができる。

本方法はまた、がん以外の状態における遺伝子変動を検出するためにも使用することができる。免疫細胞、例えば、Ｂ細胞は、ある特定の疾患の存在時には、急速なクローン増殖を受け得る。クローン増殖は、コピー数多型検出を使用してモニタリングすることができ、ある特定の免疫状態をモニタリングすることができる。この例では、コピー数多型分析を、経時的に行って、特定の疾患がどのように進行し得るかのプロファイルを得ることができる。コピー数多型またはさらにはまれな変異の検出でさえも、病原体の集団が、感染の過程においてどのように変化しているかを決定するために使用することができる。これは、慢性感染症、例えば、ＨＩＶ／ＡＩＤｓまたは肝炎感染症では、特に重要であり得、それによって、ウイルスは、生命サイクル状態を変化させる、および／または感染の過程においてより悪性な形態へと変異し得る。本方法は、免疫細胞が移植組織を破壊しようとする場合の宿主身体の拒絶活性を決定またはプロファイリングして、移植組織の状態をモニタリングするため、ならびに処置過程の変更または拒絶の予防に使用することができる。

さらに、本開示の方法は、対象における異常な状態の不均質性を特徴付けるために使用することができ、この方法は、対象における細胞外ポリヌクレオチドの遺伝子プロファイルを生成することを含み、ここで、遺伝子プロファイルは、コピー数多型およびまれな変異の分析から得られる複数のデータを含む。一部の場合には、がんを含むがこれに限定されない、疾患は、不均質であり得る。疾患細胞は、同一ではない場合がある。がんの例では、一部の腫瘍は、異なる型の腫瘍細胞を含むことが既知であり、一部の細胞は、がんの異なるステージにある。他の例では、不均質性は、複数病巣の疾患を構成し得る。さらに、がんの例では、おそらくは、１つまたは複数の病巣が、原発部位から拡がった転移の結果である、複数の腫瘍病巣が存在し得る。

本方法は、不均質性疾患における異なる細胞に由来する遺伝子情報のまとめであるデータのプロファイル、フィンガープリント、またはセットを生成するために使用することができる。このデータのセットは、コピー数多型およびまれな変異分析を、単独または組合せで含み得る。

本方法は、がんまたは胎児起源の他の疾患を診断、予後診断、モニタリング、または観察するために使用することができる。すなわち、これらの手法は、ＤＮＡおよび他のポリヌクレオチドが母体分子とともに共循環していてもよい、出生前の対象におけるがんまたは他の疾患を診断、予後診断、モニタリング、または観察するために、妊娠している対象において用いることができる。
６．処置

試料中のバリアントヌクレオチドの数および種類は、試料を提供した対象の、処置、すなわち、治療介入に対する適合性に関する指標を提供し得る。例えば、多数のバリアントヌクレオチドの存在は、そのような変異の存在が、免疫療法の標的を形成しているネオエピトープと関連しているため、免疫療法の肯定的な指標である。免疫療法には、他の処置の中でもとりわけ、ＰＤ－１、ＰＤ－２、ＰＤ－Ｌ１、ＰＤ－Ｌ２、ＣＴＬＡ－４０、ＯＸ４０、Ｂ７．１、Ｂ７Ｈｅ、ＬＡＧ３、ＣＤ１３７、ＫＩＲ、ＣＣＲ５、ＣＤ２７、またはＣＤ４０のいずれかに対する抗体の使用が含まれ得る。免疫療法のための他の例示的な作用物質としては、炎症促進性サイトカイン、例えば、ＩＬ－１β、ＩＬ－６、およびＴＮＦ－αが挙げられる。他の例示的な作用物質としては、腫瘍に対する活性化されたＴ細胞、例えば、Ｔ細胞からの腫瘍抗原を標的とするキメラ抗原の発現によるものである。免疫療法は、変異の存在によって野生型対応物とは区別される、腫瘍抗原を攻撃するように、免疫系を刺激する。

他のバリアントヌクレオチドは、既存の薬物の標的を提供するか、またはそのような薬物に対する耐性を示す。脱アミノ化に誘導されるシーケンシングエラーに起因する偽陽性を排除することにより、バリアントヌクレオチドの数および種類を決定することができる正確さが増加する。したがって、本方法によって分析される対象は、続いて、発見されたヌクレオチドバリアントに応じて、異なる処置レジメンに供され得る。したがって、例えば、決定されたバリアントヌクレオチドの数が、閾値にあるかまたは閾値を上回る対象では、決定されたバリアントヌクレオチドの数が閾値を下回る対象よりも、免疫療法を受容し得る割合が多い。

シーケンシングされた核酸におけるヌクレオチドの変異は、シーケンシングされた核酸を参照配列と比較することによって決定することができる。参照配列は、既知の配列、例えば、目的物由来の既知の全ゲノム配列または部分的ゲノム配列、ヒト対象の全ゲノム配列であることが多い。参照配列は、ｈＧ１９であってもよい。シーケンシングされた核酸は、上述のように、試料中の核酸に対して直接的に決定される配列、またはこのような核酸の増幅産物の配列のコンセンサスを示すことができる。比較は、参照配列の１つまたは複数の指定された位置で実施することができる。参照配列の指定された位置に対応する位置を含むシーケンシングされた核酸のサブセットは、各配列が最大限に配列された場合に特定することができる。このようなサブセット内で、存在する場合、どのシーケンシングされた核酸が指定された位置にヌクレオチド変異を含むか、および必要に応じて、存在する場合、どれが参照ヌクレオチドを含むか（すなわち、参照配列におけるものと同じか）を決定することができる。ヌクレオチド変異を含むサブセットにおけるシーケンシングされた核酸の数が閾値を超える場合、バリアントヌクレオチドが指定された位置でコールされ得る。閾値は、単純な数、例えば、ヌクレオチドバリアントを含むサブセット内の少なくとも１、２、３、４、５、６、７、８、９、または１０個のシーケンシングされた核酸であってもよく、または比、例えば、少なくとも０．５であってもよく、サブセット内のシーケンシングされた核酸のうちの１、２、３、４、５、１０、１５、または２０個は、他の可能性の中で、ヌクレオチドバリアントを含む。比較は、参照配列における目的の任意の指定された位置に対して繰り返すことができる。比較は、参照配列における少なくとも２０、１００、２００、または３００の連続する位置、例えば、２０～５００、または５０～３００の連続する位置を占める指定された位置に対して実施できることもある。

上記または下記で引用されるすべての特許出願、ウェブサイト、他の刊行物、受託番号などは、各個別の項目が参照によってそのように組み込まれることが具体的かつ個別に示されているのと同程度に、すべての目的で、参照によりその全体が組み込まれる。様々な配列バージョンが、異なる時点の受託番号に関連する場合、この出願の有効出願日の受託番号に関連するバージョンを意味する。有効出願日は、該当する場合、実際の出願日または受託番号に言及する優先出願の出願日の早いほうを意味する。同様に、刊行物、ウェブサイトなどの異なるバージョンが異なる時点で公開されている場合、別段示されていなければ、本出願の有効出願日に最も近く公開されたバージョンを意味する。本開示の任意の構成、ステップ、エレメント、実施形態、または態様は、別段具体的に示されていなければ、いずれかの他のものと組み合わせて使用することができる。本開示は、明確化および理解を目的として、例証および実施例によって幾分詳細に記載されているが、特定の変更および修正が添付の特許請求の範囲の範囲内で実践され得ることは明らかであろう。

（実施例１）
図６は、無細胞ＤＮＡのシーケンシングリードファミリーを示す。シーケンシングリードは、ヒト染色体２のＡＬＫ遺伝子（ＣＤ２４６）の様々なセグメントにマッピングされる。ＡＬＫ遺伝子の関連領域の参照配列は、図の下部に示されている（配列中のギャップは、図面の簡潔さのために示されていない追加のヌクレオチドを表す）。この図は、上から下に、それぞれ、２、３、６、３、および６つのリードを有する、５つのシーケンシングリードファミリーを示す。一方の向きからのリードを、黒色で示し、他方の向きからのリードを、白色で示す。ファミリーのそれぞれは、ファミリーのそれぞれのリードにおいて、ＧからＡへのミスマッチを示す。別々に見ると、これらのシーケンシングリードファミリーは、ＧからＡへの変異をコールするのに十分な根拠を提供する。しかしながら、この図は、ＧからＡへの変異の位置が、配列リードの３’末端に対して、以下：
（１）ファミリー１：第１の鎖：２つのリード、第２の鎖：リードなし、ＧからＡへの変異は、３’末端から７０塩基に位置している
（２）ファミリー２：第１の鎖：リードなし、第２の鎖：３つのリード、ＧからＡへの変異は、３’末端から２塩基に位置している
（３）ファミリー３：第１の鎖：２つのリード、第２の鎖：４つのリード、ＧからＡへの変異は、３’末端から６塩基に位置している
（４）ファミリー４：第１の鎖：１つのリード、第２の鎖：２つのリード、ＧからＡへの変異は、３’末端から１塩基に位置している
（５）ファミリー５：第１の鎖：５つのリード、第２の鎖：１つのリード、ＧからＡへの変異は、３’末端から３塩基に位置している
とみなされる場合に変化する。

ＧからＡへの置換が見られた５つのファミリーのうちの４つ（８０％）において、置換は、シーケンシングリードの３’末端から２０塩基以内に生じている。８０％という数字は、シーケンシングリードの３’末端から２０塩基以内に置換を有するＧからＡへの置換を有するファミリーの５０％を上回る。したがって、置換は、真実の変異（これは、がんの診断または予後診断に関係を有し得る）以外は、機能的有意性のない脱アミノ化に誘導されるエラーとして分類される。
（実施例２）

図７は、図６と同様の形式で提示されており、それぞれ、８、４、２、５、および４つのメンバーを有する５つのファミリーからのシーケンシングリードを示す。ここでも、５つのファミリーのそれぞれは、そのリードのそれぞれに、見かけのＧからＡへの置換を有する。しかしながら、この場合には、シーケンシングリードの３’末端への置換の相対的な位置は、以下に示されるように異なっている。
（１）ファミリー１：第１の鎖：８つリード、第２の鎖：リードなし、ＧからＡへの変異は、３’末端から６２塩基に位置している
（２）ファミリー２：第１の鎖：２つのリード、第２の鎖：２つのリード、ＧからＡへの変異は、３’末端から２塩基に位置している
（３）ファミリー３：第１の鎖：２つのリード、第２の鎖：リードなし、ＧからＡへの変異は、３’末端から７２塩基に位置している
（４）ファミリー４：第１の鎖：１つのリード、第２の鎖：４つのリード、ＧからＡへの変異は、３’末端から６３塩基に位置している
（５）ファミリー５：第１の鎖：リードなし、第２の鎖：４つのリード、ＧからＡへの変異は、３’末端から７９塩基に位置している

この事例では、５つのファミリーのうちの１つ（２０％）のみが、そのシーケンシングリードの３’末端から２０塩基以内に見かけのＧからＡへの置換を有する。２０％は、変異を脱アミノ化エラーとして分類するための５０％のカットオフを上回っていない。したがって、見かけのＧからＡへの置換は、真実の変異として分類される。
本発明は、例えば、以下の項目を提供する。
(項目１)
核酸の集団におけるバリアントヌクレオチドを識別するための方法であって、
（ａ）一方または両方の末端に一本鎖オーバーハングを有する二本鎖分子を含む核酸の集団を、５’－３’ポリメラーゼ活性および３’－５’エキソヌクレアーゼ活性を有するタンパク質と接触させるステップであって、前記タンパク質が、一方または両方の末端において、３’オーバーハングを消化し、５’オーバーハングを相補的な核酸で充填して、二本鎖平滑末端化核酸を生成する、ステップと、
（ｂ）シーケンシングされた核酸を得るために、前記二本鎖平滑末端化核酸の配列を決定するステップと、
（ｃ）参照配列におけるそれぞれの指定位置について、
（ｉ）前記指定位置を含む、シーケンシングされた核酸のサブセットを識別し、
（ｉｉ）前記指定位置がバリアントヌクレオチドによって占有されている前記サブセット内のシーケンシングされた核酸を識別する、ステップと、
（ｄ）ステップ（ｃ）の（ｉｉ）における前記シーケンシングされた核酸が、前記コールをサポートするそれぞれの指定位置におけるバリアントヌクレオチドの存在をコールするステップであって、ただし、指定位置におけるバリアントヌクレオチドの存在は、
（ｉ）前記バリアントが、前記参照ヌクレオチドと比較して、ＣからＴまたはＧからＡへの変動である場合、および
（ｉｉ）前記バリアントヌクレオチドが、
（１）前記指定位置の周囲のヌクレオチドコンテキスト、および／または
（２）前記サブセット内のシーケンシングされた核酸の５’末端から、前記指定位置における前記ＣからＴへの変動の距離、または前記サブセット内のシーケンシングされた核酸の３’末端から、前記指定位置における前記ＧからＡへの変動の距離に基づいて、脱アミノ化エラーとして分類される場合には、コールされないことを除く、ステップと
を含む、方法。
(項目２)
ステップ（ｃ）の（ｉｉ）が、前記指定位置がバリアントヌクレオチドによって占有されている前記サブセット内の核酸の数を識別し、ステップ（ｄ）の（ｉ）および（ｉｉ）で指定される場合を除き、前記変動を有する前記サブセット内のシーケンシングされた核酸の数が閾値に合致すると、それぞれの指定位置におけるバリアントヌクレオチドの存在がコールされる、項目１に記載の方法。
(項目３)
前記バリアントヌクレオチドが、前記サブセット内のシーケンシングされた核酸において５’末端の規定される近接度内にある前記指定位置における前記ＣからＴへの変動の出現、または前記サブセット内のシーケンシングされた核酸において３’末端の規定される近接度内にある前記指定位置における前記ＧからＡへの変動の出現に基づいて、脱アミノ化エラーとして分類される、項目１に記載の方法。
(項目４)
ステップ（ｃ）の（ｉｉ）が、前記指定位置が参照ヌクレオチドによって占有されている前記サブセット内のシーケンシングされた核酸の数を識別することをさらに含む、先行する項目のいずれかに記載の方法。
(項目５)
ステップ（ｂ）が、前記二本鎖平滑末端化核酸の両方の鎖の配列を決定することを含む、先行する項目のいずれかに記載の方法。
(項目６)
ステップ（ｃ）が、少なくとも１つの指定位置について行われ、前記変動を有する前記サブセット内の前記シーケンシングされた核酸が、前記二本鎖平滑末端化核酸のシーケンシングされた核酸の両方の鎖の配列を含む、項目５に記載の方法。
(項目７)
ステップ（ｂ）が、鎖の両方の末端から配列を決定することを含む、先行する項目のいずれかに記載の方法。
(項目８)
前記二本鎖平滑末端化核酸を、バーコードを含むアダプターに連結させること、前記アダプターに結合するプライマー分子からプライミングされる前記核酸を増幅させることをさらに含み、
ステップ（ｂ）が、増幅した核酸分子の配列を決定すること、および前記増幅した核酸分子の配列をファミリーにグループ分けすることであって、ファミリーのメンバーが、前記核酸上の同じ開始点および終止点ならびに同じバーコードを有し、前記ファミリーについて、そのそれぞれのメンバーの配列から、複数の位置のそれぞれにおけるコンセンサスヌクレオチドを決定することを含む、先行する項目のいずれかに記載の方法。
(項目９)
前記核酸の集団が、対象の無細胞核酸を含む試料に由来する、先行する項目のいずれかに記載の方法。
(項目１０)
前記無細胞核酸が、がんを有するかまたはがんを有することに一致する徴候または症状を有する対象の体液に由来する、項目９に記載の方法。
(項目１１)
前記体液が、血液、血漿、唾液、尿、および脳脊髄液からなる群から選択される、項目１０に記載の方法。
(項目１２)
前記指定位置における前記ＣからＴへの変動は、その出現が、前記指定位置が前記５’末端の規定される近接度内にある前記サブセットの第１の比率において少なくとも５０％である場合に、脱アミノ化エラーとして分類されるか、または前記指定位置における前記ＧからＡへの変動は、その出現が、前記指定位置が前記３’末端の規定される近接度内にある前記サブセットの第２の比率において少なくとも５０％である場合に、脱アミノ化エラーとして分類される、先行する項目のいずれかに記載の方法。
(項目１３)
前記指定位置における前記ＣからＴへの変動は、前記変動が、前記指定位置が前記５’末端の規定される近接度内にある前記サブセットの第１の比率において、前記サブセット内の他のシーケンシングされた核酸におけるよりも少なくとも２倍の出現を有することに基づいて、脱アミノ化エラーとして分類されるか、または前記指定位置における前記ＧからＡへの変動は、前記変動が、前記指定位置が前記３’末端の規定される近接度内にある前記サブセットの第２の比率において、前記サブセット内の他のシーケンシングされた核酸におけるよりも少なくとも２倍の出現を有することに基づいて、脱アミノ化エラーとして分類される、項目１２に記載の方法。
(項目１４)
前記閾値は、前記変動が、前記サブセット内のシーケンシングされた核酸の少なくとも１％で存在することである、先行する項目のいずれかに記載の方法。
(項目１５)
前記ＣからＴまたはＧからＡへの変動が、少なくとも、前記周囲のコンテキストがＴＣＧからＴＴＧまたはＣＧＡからＣＡＡであることに基づいて、脱アミノ化エラーとして分類される、先行する項目のいずれかに記載の方法。
(項目１６)
前記５’末端へま前記規定される近接度が、前記５’末端まで２０ヌクレオチド以内であるか、またはそれよりも少ない数のヌクレオチド以内であるとして規定され、前記３’末端への前記規定される近接度が、前記３’末端まで２０ヌクレオチド以内であるか、またはそれよりも少ない数のヌクレオチド以内であるとして規定される、項目３に記載の方法。
(項目１７)
前記５’末端への前記規定される近接度が、前記５’末端まで２０ヌクレオチド以内であるとして規定され、前記３’末端への前記規定される近接度が、前記３’末端まで２０ヌクレオチド以内であるとして規定される、項目１６に記載の方法。
(項目１８)
前記タンパク質が、クレノウである、先行する項目のいずれかに記載の方法。
(項目１９)
ステップ（ｃ）および（ｄ）が、これらのステップを実行するコンピューターにより作動されるシステムなどにおいて行われる、先行する項目のいずれかに記載の方法。
(項目２０)
前記参照配列が、ヒトゲノムの配列である、先行する項目のいずれかに記載の方法。
(項目２１)
前記参照配列が、ヒト染色体の配列である、項目２０に記載の方法。
(項目２２)
前記参照配列が、前記ヒトゲノムの非連続領域を含む、項目２０に記載の方法。
(項目２３)
前記コールされるバリアントヌクレオチドのうちの少なくとも１つが、がんと関連していることが既知である、先行する項目のいずれかに記載の方法。
(項目２４)
がんを有するかまたはがんを有することが疑われる対象の集団の試料に由来する核酸集団に行われ、前記集団内の対象が、その後に、前記個々の対象においてどのバリアントヌクレオチドがコールされたかに応じて、異なる処置を受容する、先行する項目のいずれかに記載の方法。
(項目２５)
脱アミノ化エラーとして分類されるバリアントヌクレオチドが、前記コールされたバリアントヌクレオチドのうちの少なくとも１％である、先行する項目のいずれかに記載の方法。
(項目２６)
脱アミノ化エラーとして分類されるバリアントヌクレオチドが、前記コールされたバリアントヌクレオチドのうちの少なくとも１０％である、先行する項目のいずれかに記載の方法。
(項目２７)
バリアントの存在は、少なくとも５個のバリアントヌクレオチドが脱アミノ化エラーとして分類される場合、コールされない、先行する項目のいずれかに記載の方法。
(項目２８)
前記核酸の集団が、固形組織に由来する、先行する項目のいずれかに記載の方法。
(項目２９)
前記体液が、血漿である、項目１１に記載の方法。
(項目３０)
前記５’末端に連結されるバーコードを含む前記アダプターが、前記３’末端に連結されるバーコードを含む前記アダプターとは異なる、項目８に記載の方法。
(項目３１)
前記脱アミノ化エラーの頻度が、少なくとも１％である、先行する項目のいずれかに記載の方法。
(項目３２)
前記脱アミノ化エラーの頻度が、少なくとも１０％である、先行する項目のいずれかに記載の方法。
(項目３３)
前記バリアントヌクレオチドは、前記サブセット内のシーケンシングされた核酸の５’末端から、前記指定位置における前記ＣからＴへの変動の平均距離が、前記指定位置における前記参照ヌクレオチドの平均距離よりも小さいこと、または前記サブセット内のシーケンシングされた核酸の３’末端から、前記指定位置における前記ＧからＡへの変動が、前記指定位置における前記参照ヌクレオチドの平均距離よりも小さいことに基づいて、脱アミノ化エラーとして分類される、先行する項目のいずれかに記載の方法。
(項目３４)
前記バリアントヌクレオチドが、単一バリアント（ＳＮＶ）である、先行する項目のいずれかに記載の方法。
(項目３５)
核酸においてバリアントヌクレオチドを識別する方法であって、
（ａ）一本鎖オーバーハングを有する二本鎖核酸を、５’－３’ポリメラーゼ活性および３’－５’エキソヌクレアーゼ活性を有するタンパク質と接触させるステップであって、それによって、二本鎖平滑末端化核酸を産生するステップと、
（ｂ）前記二本鎖平滑末端化核酸の配列を決定するステップと、
（ｃ）前記決定した配列を参照配列と比較するステップであって、前記決定した配列が、前記決定した配列の５’末端の２０ヌクレオチドまたはそれ未満以内の少なくとも１つの指定位置における少なくとも１つのＣからＴへの変動、または前記決定した配列の３’末端の２０ヌクレオチドまたはそれ未満以内における少なくとも１つのＧからＡへの変動を含む、ステップと、
（ｄ）前記核酸の配列を、前記決定した配列としてコールするステップであって、ただし、ＣからＴへの変動が前記決定した配列の５’末端の２０ヌクレオチドまたはそれ未満以内に存在するか、またはＧからＡへの変動が前記決定した配列の３’末端の２０ヌクレオチドまたはそれ未満以内に存在する前記位置のうちの少なくとも１つにおいて、前記参照配列を占有しているヌクレオチドが、前記指定位置でコールされることを除く、ステップと
を含む、方法。
(項目３６)
前記ＣからＴまたはＧからＡへの変動が、ＴＣＧからＴＴＧまたはＣＧＡからＣＡＡの周囲コンテキストにおいて生じる、項目３５に記載の方法。
(項目３７)
核酸の集団においてバリアントヌクレオチドを識別する方法であって、
（ａ）少なくとも１つが一方または両方の末端に一本鎖オーバーハングを有する二本鎖分子である、オーバーラップする配列の核酸の集団を、５’－３’ポリメラーゼ活性および３’－５’エキソヌクレアーゼ活性を有するタンパク質と接触させるステップであって、前記タンパク質が、３’オーバーハングを消化し、５’オーバーハングを充填して、二本鎖平滑末端化核酸を生成する、ステップと、
（ｂ）前記二本鎖平滑末端化核酸を、バーコードを含むアダプターに連結させ、前記アダプターに結合するプライマー分子からプライミングされる前記核酸を増幅させるステップと、
（ｃ）増幅した核酸分子の配列を決定し、前記増幅した核酸分子の配列をファミリーに分類し、ファミリーのメンバーが、前記核酸上の同じ開始点および終止点ならびに同じバーコードを有し、前記ファミリーについて、そのそれぞれのメンバーの配列から、コンセンサス配列を決定するステップと、
（ｄ）参照配列におけるそれぞれの指定位置について、前記指定位置を含むコンセンサス配列を有するファミリーのサブセットを決定するステップであって、前記指定位置がバリアントヌクレオチドによって占有されている前記サブセット内のコンセンサス配列を識別する、ステップと、
（ｅ）前記バリアントヌクレオチドを有する前記サブセット内の前記コンセンサス配列が前記コールをサポートする指定位置におけるバリアントヌクレオチドの存在をコールするステップであって、ただし、指定位置におけるバリアントヌクレオチドの存在は、
（ｉ）前記バリアントヌクレオチドが、前記参照ヌクレオチドと比較して、ＣからＴまたはＧからＡへの変動である場合、および
（ｉｉ）前記バリアントヌクレオチドが、
（１）前記指定位置の周囲のヌクレオチドコンテキスト、および／または
（２）前記５’末端から、前記サブセット内のコンセンサス配列の前記指定位置における前記ＣからＴへの変動の距離、または前記３’末端から、コンセンサス配列の前記指定位置における前記ＧからＡへの変動の距離に基づいて、脱アミノ化エラーとして分類される場合
には、コールされないことを除く、ステップと
を含む、方法。
(項目３８)
ステップ（ｃ）の（ｉｉ）が、前記指定位置がバリアントヌクレオチドによって占有されている前記サブセット内の核酸の数を識別し、ステップ（ｄ）の（ｉ）および（ｉｉ）で指定される場合を除き、前記変動を有する前記サブセット内のシーケンシングされた核酸の数が閾値に合致するとき、それぞれの指定位置におけるバリアントヌクレオチドの存在がコールされる、項目３７に記載の方法。
(項目３９)
核酸の集団において偽陽性バリアントヌクレオチドを識別するための方法であって、
（ａ）少なくとも１つが一方または両方の末端に一本鎖オーバーハングを有する二本鎖分子である、配列がオーバーラップする核酸の集団を、５’－３’ポリメラーゼ活性および３’－５’エキソヌクレアーゼ活性を有するタンパク質と接触させるステップであって、前記タンパク質が、一方または両方の末端において、３’オーバーハングを消化し、５’オーバーハングを相補的な核酸で充填して、二本鎖平滑末端化核酸を生成する、ステップと、
（ｂ）シーケンシングされた核酸を得るために、前記二本鎖平滑末端化核酸の配列を決定するステップと、
（ｃ）参照配列におけるそれぞれの指定位置について、前記指定位置を含むシーケンシングされた核酸のサブセットを識別し、そして前記指定位置が参照ヌクレオチドによって占有されている前記サブセット内のシーケンシングされた核酸、および前記指定位置がバリアントヌクレオチドによって占有されている前記サブセット内のシーケンシングされた核酸の数を識別する、ステップと、
（ｄ）前記指定位置にＣからＴまたはＧからＡへの変動指定位置でＣからＴまたはＧからＡへの変動を有する前記シーケンシングされた核酸が、前記コールに合致してサポートするそれぞれの指定位置における偽陽性バリアントヌクレオチドの存在をコールするステップであって、そして前記変動が、
（１）前記指定位置の周囲のヌクレオチドコンテキスト、および／または
（２）前記指定位置が前記５’末端の規定される近接度内にある前記サブセットの第１の比率内のシーケンシングされた核酸における前記ＣからＴへの変換の過剰出現、もしくは前記指定位置が前記３’末端の規定される近接度内にある、前記サブセットの第２の比率内のシーケンシングされた核酸における前記ＧからＡへの変換の過剰出現に基づいて、脱アミノ化エラーとして分類される、ステップと
を含む、方法。
(項目４０)
ステップ（ｃ）の（ｉｉ）が、前記指定位置がバリアントヌクレオチドによって占有されている前記サブセット内の核酸の数を識別し、ステップ（ｄ）の（ｉ）および（ｉｉ）で指定される場合を除き、前記変動を有する前記サブセット内のシーケンシングされた核酸の数が閾値に合致するとき、それぞれの指定位置におけるバリアントヌクレオチドの存在がコールされる、項目３９に記載の方法。
(項目４１)
参照配列内の指定位置における「Ｃ」から「Ｔ」または「Ｇ」から「Ａ」へのバリアントのマイナー対立遺伝子頻度を、前記指定位置にマッピングされるシーケンシングされた核酸の集団において決定する方法であって、マイナー対立遺伝子頻度が、前記バリアントを含む前記指定位置にマッピングされるシーケンシングされた核酸の数（「バリアント数」）を、前記指定位置にマッピングされるシーケンシングされた核酸の総数と比較し、前記方法が、脱アミノ化エラーの確率について、前記指定位置におけるＴまたはＡバリアントの数を調節するステップを含み、エラーの確率が、「Ｔ」の場合には分子の５’末端からおよび「Ａ」の場合には分子の３’末端からの前記バリアントの距離の関数である、方法。
(項目４２)
シーケンシングされたポリヌクレオチドの５’末端から選択された距離内に位置する「Ｔ」バリアント、またはシーケンシングされた核酸の３’末端から選択された距離内に位置する「Ａ」バリアントが、前記バリアント数にカウントされない、項目４１に記載の方法。
(項目４３)
シーケンシングされたポリヌクレオチドの５’末端から選択された距離内に位置する「Ｔ」バリアントの、シーケンシングされた核酸の５’末端から前記選択された距離外に位置する「Ｔ」バリアントに対する比が、所定の比を上回る（例えば、５０％を上回る）場合、またはシーケンシングされた核酸の３’末端から選択された距離内に位置する「Ａ」バリアントの、シーケンシングされた核酸の３’末端から前記選択された距離外に位置する「Ａ」バリアントに対する比が、所定の比を上回る（例えば、５０％を上回る）場合、すべての「Ｔ」バリアントは、前記バリアント数からディスカウントされる、項目４１に記載の方法。
(項目４４)
前記バリアント数が、それぞれの「Ｔ」バリアントまたはそれぞれの「Ａ」バリアントが、真のバリアントである確率の合計として決定される、項目４１に記載の方法。
(項目４５)
先行する項目のいずれかに記載の方法によって、がんマーカーを有することが決定された対象に、前記がんマーカーにより特徴付けられるがんを処置するのに有効な治療介入を投与することを含む、方法。
(項目４６)
項目１から４５のいずれか１項に記載の方法を行うことによって、対象の無細胞核酸における１つまたは複数のバリアントヌクレオチドの同一性に関するデータを受容するステップと、
前記１つまたは複数のバリアントヌクレオチドから、がんマーカーの存在を決定するステップと、
前記がんマーカーにより特徴付けられるがんを処置するのに有効な治療介入を投与するステップとを含む、方法。
(項目４７)
核酸シーケンサーによって生成されたシーケンシングリードを、通信ネットワークを通じて受容する通信インターフェースと、
前記通信インターフェースと通信するコンピューターであって、１つまたは複数のコンピュータープロセッサと、前記１つまたは複数のコンピュータープロセッサによる実行の際に、
（ａ）前記核酸シーケンサーによって生成された前記シーケンシングリードを、前記通信ネットワークを通じて受容するステップと、
（ｂ）参照配列におけるそれぞれの指定位置について、
（ｉ）前記指定位置を含む、シーケンシングリードのサブセットを識別し、
（ｉｉ）前記指定位置がバリアントヌクレオチドによって占有されている、前記サブセット内のシーケンシングリードを識別する、ステップと、
（ｃ）前記変動を有する前記サブセット内の前記シーケンシングリードが、前記コールをサポートするそれぞれの指定位置におけるバリアントヌクレオチドの存在をコールするステップであって、ただし、指定位置におけるバリアントヌクレオチドの存在は、
（ｉ）前記バリアントが、前記参照ヌクレオチドと比較して、ＣからＴまたはＧからＡへの変動である場合、および
（ｉｉ）前記バリアントヌクレオチドが、
（１）前記指定位置の周囲のヌクレオチドコンテキスト、および／または
（２）前記サブセット内のシーケンシングされた核酸の５’末端から、前記指定位置における前記ＣからＴへの変動の距離、または前記サブセット内のシーケンシングされた核酸の３’末端から、前記指定位置における前記ＧからＡへの変動の距離に基づいて、脱アミノ化エラーとして分類される場合には、コールされないことを除く、ステップと
を含む方法を実施するマシン実行可能コードを含むコンピューター可読媒体とを含む、コンピューターと
を含む、システム。
(項目４８)
ステップ（ｃ）の（ｉｉ）が、前記指定位置がバリアントヌクレオチドによって占有されている前記サブセット内の核酸の数を識別し、ステップ（ｄ）の（ｉ）および（ｉｉ）で指定される場合を除き、前記変動を有する前記サブセット内のシーケンシングされた核酸の数が閾値に合致すると、それぞれの指定位置におけるバリアントヌクレオチドの存在がコールされる、項目４７に記載のシステム。
(項目４９)
核酸シーケンサーによって生成されたシーケンシングリードを、通信ネットワークを通じて受容する通信インターフェースと、
前記通信インターフェースと通信するコンピューターであって、１つまたは複数のコンピュータープロセッサと、前記１つまたは複数のコンピュータープロセッサによる実行の際に、
（ａ）前記核酸シーケンサーによって生成された前記シーケンシングリードを、前記通信ネットワークを通じて受容するステップと、
（ｂ）前記決定した配列を、参照配列と比較するステップであって、前記決定した配列が、前記決定した配列の５’末端の２０ヌクレオチドまたはそれ未満以内の少なくとも１つの指定位置における少なくとも１つのＣからＴへの変動、または前記決定した配列の３’末端の２０ヌクレオチドまたはそれ未満以内における少なくとも１つのＧからＡへの変動を含む、ステップと、
（ｃ）前記核酸の配列を前記決定した配列としてコールするステップであって、ただし、ＣからＴへの変動が前記決定した配列の５’末端の２０ヌクレオチドまたはそれ未満以内に存在するか、またはＧからＡへの変動が前記決定した配列の３’末端の２０ヌクレオチドまたはそれ未満以内に存在する前記位置のうちの少なくとも１つにおいては、前記参照配列を占有しているヌクレオチドが、前記指定位置でコールされることを除く、ステップとを含む方法を実施するマシン実行可能コードを含むコンピューター可読媒体とを含む、コンピューターとを含む、システム。
(項目５０)
核酸シーケンサーによって生成されたシーケンシングリードを、通信ネットワークを通じて受容する通信インターフェースと、
前記通信インターフェースと通信するコンピューターであって、１つまたは複数のコンピュータープロセッサと、前記１つまたは複数のコンピュータープロセッサによる実行の際に、
（ａ）前記核酸シーケンサーによって生成された前記シーケンシングリードを、前記通信ネットワークを通じて受容するステップと、
（ｂ）前記シーケンシングリードの配列をファミリーにグループ分けするステップであって、ファミリーのメンバーが、前記核酸上の同じ開始点および終止点ならびに同じバーコードを有し、前記ファミリーについて、そのそれぞれのメンバーの配列から、コンセンサス配列を決定する、ステップと、
（ｃ）参照配列におけるそれぞれの指定位置について、前記指定位置を含むコンセンサス配列を有するファミリーのサブセットを決定し、前記指定位置がバリアントヌクレオチドによって占有されている、前記コンセンサス配列を識別するステップと、
（ｄ）前記バリアントヌクレオチドを有する前記サブセット内の前記コンセンサス配列がそれぞれの指定位置におけるバリアントヌクレオチドの存在をコールするステップであって、ただし、前記コールをサポートするが、指定位置におけるバリアントヌクレオチドの存在は、
（ｉ）前記バリアントヌクレオチドが、前記参照ヌクレオチドと比較して、ＣからＴまたはＧからＡへの変動である場合、および
（ｉｉ）前記バリアントヌクレオチドが、
（１）前記指定位置の周囲のヌクレオチドコンテキスト、および／または
（２）５’末端から、前記サブセット内のコンセンサス配列内の前記指定位置における前記ＣからＴへの変動の距離、または３’末端から、コンセンサス配列の前記指定位置における前記ＧからＡへの変動の距離に基づいて、脱アミノ化エラーとして分類される場合には、コールされないことを除く、ステップと
を含む方法を実施するマシン実行可能コードを含むコンピューター可読媒体とを含む、コンピューターとを含む、システム。
(項目５１)
ステップ（ｃ）が、前記指定位置がバリアントヌクレオチドによって占有されている前記サブセット内のコンセンサス配列の数を識別し、ステップ（ｄ）の（ｉ）および（ｉｉ）で指定される場合を除き、前記変動を有する前記サブセット内のコンセンサス配列の数が閾値に合致すると、それぞれの指定位置におけるバリアントヌクレオチドの存在がコールされる、項目５０に記載のシステム。
(項目５２)
核酸シーケンサーによって生成されたシーケンシングリードを、通信ネットワークを通じて受容する通信インターフェースと、
前記通信インターフェースと通信するコンピューターであって、１つまたは複数のコンピュータープロセッサと、前記１つまたは複数のコンピュータープロセッサによる実行の際に、
（ａ）前記核酸シーケンサーによって生成された前記シーケンシングリードを、前記通信ネットワークを通じて受容するステップと、
（ｂ）参照配列におけるそれぞれの指定位置について、前記指定位置を含むシーケンシングリードのサブセットを識別し、前記指定位置が参照ヌクレオチドによって占有されている前記サブセット内のシーケンシングされた核酸、および前記指定位置がバリアントヌクレオチドによって占有されている前記サブセット内のシーケンシングされた核酸の数を識別する、ステップと、
（ｃ）前記指定位置でＣからＴまたはＧからＡへの変動を有する前記シーケンシングされた核酸が前記コールをサポートするそれぞれの指定位置における偽陽性バリアントヌクレオチドの存在をコールするステップであって、前記変動が、
（１）前記指定位置の周囲のヌクレオチドコンテキスト、および／または
（２）前記指定位置が５’末端の規定される近接度内にある、前記サブセットの第１の比率内のシーケンシングされた核酸における前記ＣからＴへの変換の過剰出現、もしくは前記指定位置が３’末端の規定される近接度内にある前記サブセットの第２の比率内のシーケンシングされた核酸における前記ＧからＡへの変換の過剰出現に基づいて、脱アミノ化エラーとして分類される、ステップとを含む方法を実施するマシン実行可能コードを含むコンピューター可読媒体とを含む、コンピューターとを含む、システム。
(項目５３)
核酸シーケンサーによって生成されたシーケンシングリードを、通信ネットワークを通じて受容する通信インターフェースと、
前記通信インターフェースと通信するコンピューターであって、１つまたは複数のコンピュータープロセッサと、前記１つまたは複数のコンピュータープロセッサによる実行の際に、
（ａ）前記核酸シーケンサーによって生成された前記シーケンシングリードを、前記通信ネットワークを通じて受容するステップと、
（ｂ）脱アミノ化エラーの確率に基づいて前記シーケンシングリードにおけるＴまたはＡバリアントの数を調節するステップであって、エラーの確率が、「Ｔ」の場合には分子の５’末端からおよび「Ａ」の場合には前記分子の３’末端からの前記バリアントの距離の関数である、ステップとを含む方法を実施するマシン実行可能コードを含むコンピューター可読媒体とを含む、コンピューターとを含む、システム。
(項目５４)
前記核酸シーケンサーをさらに含む、項目４７から５３のいずれか１項に記載のシステム。
(項目５５)
前記核酸シーケンサーが、対象に由来する無細胞ＤＮＡ分子から生成されたシーケンシングライブラリーをシーケンシングし、前記シーケンシングライブラリーが、前記無細胞ＤＮＡ分子およびバーコードを含むアダプターを含む、項目４７から５３のいずれか１項に記載のシステム。
(項目５６)
前記核酸シーケンサーが、前記シーケンシングライブラリーにシーケンシングバイシンセシスを行って、前記シーケンシングリードを生成する、項目４７から５３のいずれか１項に記載のシステム。
(項目５７)
前記核酸シーケンサーが、前記シーケンシングライブラリーにパイロシーケンシング、単分子シーケンシング、ナノポアシーケンシング、半導体シーケンシング、シーケンシングバイライゲーション、またはシーケンシングバイハイブリダイゼーションを行って、前記シーケンシングリードを生成する、項目４７から５３のいずれか１項に記載のシステム。
(項目５８)
前記核酸シーケンサーが、前記シーケンシングライブラリーに由来するクローン単一分子アレイを使用して、前記シーケンシングリードを生成する、項目４７から５３のいずれか１項に記載のシステム。
(項目５９)
前記核酸シーケンサーが、前記シーケンシングライブラリーをシーケンシングして前記シーケンシングリードを生成するための、マイクロウェルのアレイを有するチップを含む、項目４７から５３のいずれか１項に記載のシステム。
(項目６０)
前記コンピューター可読媒体が、メモリー、ハードドライブ、またはコンピューターサーバーを含む、項目４７から５３のいずれか１項に記載のシステム。
(項目６１)
前記通信ネットワークが、遠隔通信ネットワーク、インターネット、エクストラネット、またはイントラネットを含む、項目４７から５３のいずれか１項に記載のシステム。
(項目６２)
前記通信ネットワークが、分散コンピューティングの可能な１つまたは複数のコンピューターサーバーを含む、項目４７から５３のいずれか１項に記載のシステム。
(項目６３)
分散コンピューティングが、クラウドコンピューティングである、項目６４に記載のシステム。
(項目６４)
前記コンピューターが、前記核酸シーケンサーから遠隔設置されているコンピューターサーバー上に設置されている、項目４７から５３のいずれか１項に記載のシステム。
(項目６５)
前記シーケンシングライブラリーが、試料を、１つまたは複数の試料と区別する試料バーコードをさらに含む、項目６４に記載のシステム。
(項目６６)
ネットワークを通じて前記コンピューターと通信する、電子ディスプレイであって、（ａ）～（ｃ）を実施した際の結果を表示するためのユーザーインターフェースを含む、電子ディスプレイをさらに含む、項目４７から５３のいずれか１項に記載のシステム。
(項目６７)
前記ユーザーインターフェースが、グラフィカルユーザーインターフェース（ＧＵＩ）またはウェブベースユーザーインターフェースである、項目６６に記載のシステム。
(項目６８)
前記電子ディスプレイが、パーソナルコンピューターにおいて存在する、項目６６に記載のシステム。
(項目６９)
前記電子ディスプレイが、インターネット対応コンピューターにおいて存在する、項目６６に記載のシステム。
(項目７０)
前記インターネット対応コンピューターが、前記コンピューターから遠隔した位置に設置されている、項目６９に記載のシステム。

Claims

無細胞核酸の集団におけるバリアントヌクレオチドを識別するための方法であって、
（ａ）一方または両方の末端に一本鎖オーバーハングを有する二本鎖分子を含む無細胞核酸の集団を、５’－３’ポリメラーゼ活性および３’－５’エキソヌクレアーゼ活性を有するタンパク質と接触させるステップであって、前記タンパク質が、一方または両方の末端において、３’オーバーハングを消化し、５’オーバーハングを相補的な核酸で充填して、二本鎖平滑末端化核酸を生成する、ステップと、
（ｂ）シーケンシングされた核酸を得るために、前記二本鎖平滑末端化核酸の配列を決定するステップと、
（ｃ）参照配列におけるそれぞれの指定位置について、
（ｉ）前記指定位置を含む、シーケンシングされた核酸のサブセットを識別し、
（ｉｉ）前記指定位置がバリアントヌクレオチドによって占有されている前記サブセット内のシーケンシングされた核酸を識別する、ステップと、
（ｄ）ステップ（ｃ）の（ｉｉ）における前記シーケンシングされた核酸が閾値に合致するそれぞれの指定位置におけるバリアントヌクレオチドの存在をコールするステップであって、ただし、指定位置におけるバリアントヌクレオチドの存在は、
（ｉ）前記バリアントが、前記参照ヌクレオチドと比較して、ＣからＴまたはＧからＡへの変動である場合、および
（ｉｉ）前記バリアントヌクレオチドが、
（１）前記指定位置の周囲のヌクレオチドコンテキスト、および／または
（２）前記サブセット内のシーケンシングされた核酸の５’末端から、前記指定位置における前記ＣからＴへの変動の距離、または前記サブセット内のシーケンシングされた核酸の３’末端から、前記指定位置における前記ＧからＡへの変動の距離
に基づいて、脱アミノ化エラーとして分類される場合には、コールされないことを除く、ステップと
を含む、方法。
前記指定位置が参照ヌクレオチドによって占有されている前記サブセット内のシーケンシングされた核酸の数を識別することをさらに含む、請求項１に記載の方法。
ステップ（ｂ）が、
（ａ）前記二本鎖平滑末端化核酸の両方の鎖の配列を決定することを含み、ステップ（ｃ）が、少なくとも１つの指定位置について行われ、前記変動を有する前記サブセット内の前記シーケンシングされた核酸が、前記二本鎖平滑末端化核酸のシーケンシングされた核酸の両方の鎖の配列を含み、および／または
（ｂ）鎖の両方の末端から配列を決定することを含む、
請求項１または２に記載の方法。
（ａ）前記バリアントヌクレオチドが、前記サブセット内のシーケンシングされた核酸において５’末端の規定される近接度内にある前記指定位置における前記ＣからＴへの変動の出現、または前記サブセット内のシーケンシングされた核酸において３’末端の規定される近接度内にある前記指定位置における前記ＧからＡへの変動の出現に基づいて、脱アミノ化エラーとして分類され、前記５’末端へ前記規定される近接度が、前記５’末端まで２０ヌクレオチド以内であるか、またはそれよりも少ない数のヌクレオチド以内であるとして規定され、前記３’末端への前記規定される近接度が、前記３’末端まで２０ヌクレオチド以内であるか、またはそれよりも少ない数のヌクレオチド以内であるとして規定され、
（ｂ）前記ＣからＴまたはＧからＡへの変動が、少なくとも、前記周囲のコンテキストがＴＣＧからＴＴＧまたはＣＧＡからＣＡＡであることに基づいて、脱アミノ化エラーとして分類され、
（ｃ）前記バリアントヌクレオチドは、前記サブセット内のシーケンシングされた核酸の５’末端から、前記指定位置における前記ＣからＴへの変動の平均距離が、前記指定位置における前記参照ヌクレオチドの平均距離よりも小さいこと、または前記サブセット内のシーケンシングされた核酸の３’末端から、前記指定位置における前記ＧからＡへの変動が、前記指定位置における前記参照ヌクレオチドの平均距離よりも小さいことに基づいて、脱アミノ化エラーとして分類され、および／または
（ｄ）前記指定位置における前記ＣからＴへの変動は、その出現が、前記指定位置が前記５’末端の規定される近接度内にある前記サブセットの第１の比率において少なくとも５０％である場合に、脱アミノ化エラーとして分類されるか、または前記指定位置における前記ＧからＡへの変動は、その出現が、前記指定位置が前記３’末端の規定される近接度内にある前記サブセットの第２の比率において少なくとも５０％である場合に、脱アミノ化エラーとして分類され、
（ｉ）前記指定位置における前記ＣからＴへの変動は、前記変動が、前記指定位置が前記５’末端の規定される近接度内にある前記サブセットの第１の比率において、前記サブセット内の他のシーケンシングされた核酸におけるよりも少なくとも２倍の出現を有することに基づいて、脱アミノ化エラーとして分類されるか、もしくは
（ｉｉ）前記指定位置における前記ＧからＡへの変動は、前記変動が、前記指定位置が前記３’末端の規定される近接度内にある前記サブセットの第２の比率において、前記サブセット内の他のシーケンシングされた核酸におけるよりも少なくとも２倍の出現を有することに基づいて、脱アミノ化エラーとして分類される、
請求項１～３のいずれか一項に記載の方法。
前記二本鎖平滑末端化核酸を、バーコードを含むアダプターに連結させること、前記アダプターに結合するプライマー分子からプライミングされる前記核酸を増幅させることをさらに含み、
ステップ（ｂ）が、増幅した核酸分子の配列を決定すること、および前記増幅した核酸分子の配列をファミリーにグループ分けすることであって、ファミリーのメンバーが、前記核酸上の同じ開始点および終止点ならびに同じバーコードを有し、前記ファミリーについて、そのそれぞれのメンバーの配列から、複数の位置のそれぞれにおけるコンセンサスヌクレオチドを決定することを含む、
請求項１～４のいずれか一項に記載の方法。
前記無細胞核酸が、体液に由来し、前記体液が、血液、血漿、唾液、尿、および脳脊髄液からなる群から選択される、請求項１～５のいずれか一項に記載の方法。
前記タンパク質が、クレノウである、および／または前記バリアントヌクレオチドが、単一ヌクレオチドバリアント（ＳＮＶ）である、請求項１～６のいずれか一項に記載の方法。
前記参照配列が、ヒトゲノム、またはヒト染色体の配列、または前記ヒトゲノムの非連続領域を含む、請求項１～７のいずれか一項に記載の方法。
前記コールされるバリアントヌクレオチドのうちの少なくとも１つが、がんと関連していることが既知である、請求項１～８のいずれか一項に記載の方法。
がんを有するかまたはがんを有することが疑われる対象の集団の試料に由来する核酸集団に行われ、前記個々の対象においてコールされたバリアントヌクレオチドの数および種類が、前記集団における対象に投与される異なる処置を示す、請求項１～９のいずれか一項に記載の方法。
脱アミノ化エラーとして分類されるバリアントヌクレオチドが、前記コールされたバリアントヌクレオチドのうちの少なくとも１％または少なくとも１０％である、請求項１～１０のいずれか一項に記載の方法。
バリアントの存在は、少なくとも５個のバリアントヌクレオチドが脱アミノ化エラーとして分類される場合、コールされない、請求項１～１１のいずれか一項に記載の方法。
前記脱アミノ化エラーの頻度が、少なくとも１％または少なくとも１０％である、請求項１～１２のいずれか一項に記載の方法。
前記閾値は、前記変動が、前記サブセット内のシーケンシングされた核酸の少なくとも１％で存在することである、請求項１に記載の方法。
核酸シーケンサーによって生成されたシーケンシングリードを、通信ネットワークを通じて受容する通信インターフェースと、
前記通信インターフェースと通信するコンピューターであって、１つまたは複数のコンピュータープロセッサと、前記１つまたは複数のコンピュータープロセッサによる実行の際に、
（ａ）前記核酸シーケンサーによって生成された前記シーケンシングリードを、前記通信ネットワークを通じて受容するステップであって、前記核酸シーケンサーが、対象に由来する無細胞ＤＮＡ分子から生成されたシーケンシングライブラリーをシーケンシングし、前記シーケンシングライブラリーが、前記無細胞ＤＮＡ分子およびバーコードを含むアダプターを含む、ステップと、
（ｂ）参照配列におけるそれぞれの指定位置について、
（ｉ）前記指定位置を含む、シーケンシングリードのサブセットを識別し、
（ｉｉ）前記指定位置がバリアントヌクレオチドによって占有されている、前記サブセット内のシーケンシングリードを識別する、ステップと、
（ｃ）前記変動を有する前記サブセット内の前記シーケンシングリードが、前記コールをサポートするそれぞれの指定位置におけるバリアントヌクレオチドの存在をコールするステップであって、ただし、指定位置におけるバリアントヌクレオチドの存在は、
（ｉ）前記バリアントが、前記参照ヌクレオチドと比較して、ＣからＴまたはＧからＡへの変動である場合、および
（ｉｉ）前記バリアントヌクレオチドが、
（１）前記指定位置の周囲のヌクレオチドコンテキスト、および／または
（２）前記サブセット内のシーケンシングされた核酸の５’末端から、前記指定位置における前記ＣからＴへの変動の距離、または前記サブセット内のシーケンシングされた核酸の３’末端から、前記指定位置における前記ＧからＡへの変動の距離に基づいて、脱アミノ化エラーとして分類される場合には、コールされないことを除く、ステップと
を含む方法を実施するマシン実行可能コードを含むコンピューター可読媒体とを含む、コンピューターと
を含む、システム。
（ａ）前記核酸シーケンサーをさらに含む、
（ｂ）前記核酸シーケンサーが、前記シーケンシングライブラリーにシーケンシングバイシンセシスを行って、前記シーケンシングリードを生成する、
（ｃ）前記核酸シーケンサーが、前記シーケンシングライブラリーにパイロシーケンシング、単分子シーケンシング、ナノポアシーケンシング、半導体シーケンシング、シーケンシングバイライゲーション、またはシーケンシングバイハイブリダイゼーションを行って、前記シーケンシングリードを生成する、
（ｄ）前記核酸シーケンサーが、前記シーケンシングライブラリーに由来するクローン単一分子アレイを使用して、前記シーケンシングリードを生成する、
（ｅ）前記核酸シーケンサーが、前記シーケンシングライブラリーをシーケンシングして前記シーケンシングリードを生成するための、マイクロウェルのアレイを有するチップを含む、
（ｆ）前記コンピューター可読媒体が、メモリー、ハードドライブ、またはコンピューターサーバーを含む、
（ｇ）前記通信ネットワークが、遠隔通信ネットワーク、インターネット、エクストラネット、またはイントラネットを含む、
（ｈ）前記通信ネットワークが、分散コンピューティングの可能な１つまたは複数のコンピューターサーバーを含む、
（ｉ）前記コンピューターが、前記核酸シーケンサーから遠隔設置されているコンピューターサーバー上に設置されている、
（ｊ）前記シーケンシングライブラリーが、試料を、１つまたは複数の試料と区別する試料バーコードをさらに含む、および／または
（ｋ）ネットワークを通じて前記コンピューターと通信する、電子ディスプレイであって、（ａ）～（ｃ）を実施した際の結果を表示するためのグラフィカルもしくはウェブベースのユーザーインターフェース、パーソナルコンピューター、またはインターネット対応コンピューターを含む、電子ディスプレイをさらに含み、前記インターネット対応コンピューターが、前記コンピューターから遠隔した位置に設置されている、
請求項１５に記載のシステム。