JP2021191280A

JP2021191280A - 癌検出のための血漿中ｄｎａの突然変異解析

Info

Publication number: JP2021191280A
Application number: JP2021131682A
Authority: JP
Inventors: クンロサチウワイ; Kwun Rossa Chiu Wai; ユク−ミンデニスロ; Dennis Lo Yuk-Ming; クワンチーチャン; Kwan Chee Chan; ペイヨンジアーン; Peiyong Jiang
Original assignee: Chinese University of Hong Kong CUHK
Current assignee: Chinese University of Hong Kong CUHK
Priority date: 2012-06-21
Filing date: 2021-08-12
Publication date: 2021-12-16
Anticipated expiration: 2033-06-14
Also published as: CN107779506A; HUE056915T2; JP2024026360A; AU2022209294A1; KR20150032708A; KR20210040464A; AU2020200122B2; AU2013278994A1; CA2876327C; ES2894479T3; EP3456843A1; KR101884909B1; DK2864501T3; MX2014016058A; EA202092900A3; TW202122796A; HK1246830A1; KR20220038181A; KR102096611B1; CN104662168A

Abstract

【課題】癌の広範なスクリーニング、検出、または評価を行うための新規技術を提供すること。【解決手段】癌のスクリーニングまたはモニターを行う対象の生物試料（例えば、血漿または血清）中の体細胞突然変異の頻度は、前記同じ対象の構成的ＤＮＡ中のものと比較され得る。パラメーターは、これらの頻度から得ることができ、癌レベルの分類の決定のために使用され得る。偽陽性は、異型配列リード（タグ）の少なくとも特定数を有するため、いずれかの異型座位を必要とすることにより、選別され得、それゆえ、より正確なパラメーターが提供され得る。種々の異型座位の相対的頻度は、患者の腫瘍不均一性レベルを決定するため、解析され得る。【選択図】図１

Description

関連出願
本出願は、２０１２年７月２０日に出願された２０１２年６月２１日に出願された米国特許仮出願第６１／６６２，８７８号、発明の名称「癌検出のための血漿中ＤＮＡの突然変異解析」；２０１２年８月１３日に出願された米国特許仮出願第６１／６８２，７２５号、発明の名称「癌検出のための血漿中ＤＮＡの突然変異解析」；２０１２年８月３１日に出願された米国特許仮出願第６１／６９５，７９５号、発明の名称「癌検出のための血漿中ＤＮＡの突然変異解析」；および２０１２年１０月８日に出願された米国特許仮出願第６１／７１１，１７２号、発明の名称「癌検出のための血漿中ＤＮＡの突然変異解析」の優先権の利益を主張し、これらの出願は、全目的のためにその全文を参照することにより本明細書に組み入れられる。

腫瘍由来ＤＮＡが、癌患者の無細胞血漿／血清中に存在することが示されている（Chen XQ et al. Nat Med 1996; 2: 1033-1035）。現行法は、癌に関連していると知られている突然変異の直接的解析に基づいている（Diehl F et al. Proc Natl Acad Sci 2005; 102: 16368-16373；Forshew T et al. Sci Transl Med 2012; 4: 136ra68）。別の方法で、血漿中ＤＮＡのランダムシークエンシングにより検出される癌関連コピー数変異が研究された（Loらによる米国特許公開第２０１３／００４０８２４号）。

経時的に、１つ以上の癌細胞が、増殖優位性を獲得し、娘細胞の複数のクローンを産生することが知られている。最終的に、腫瘍増殖および／またはその転移巣は、クローンの癌細胞群の集合体を含むことになる。この現象は、典型的に、腫瘍不均一性と言われる（Gerlinger M et al. N Engl J Med 2012; 366: 883-892；Yap TA et al. Sci Transl Med 2012; 4: 127ps10）。

癌は、高度に不均一、すなわち、同組織型癌突然変異プロファイルが広く変化し得ることが知られている。したがって、特定突然変異の直接的解析は、通常、それらの特異的突然変異と関連すると知られている特定癌型内の場合のサブセットのみを検出され得る。加えて、腫瘍由来ＤＮＡは、通常、ヒト血漿中ＤＮＡの少数の種であり；血漿中ＤＮＡの絶対濃度が低い。したがって、血漿中または血清中の癌関連突然変異の１群または小さい群の直接的検出は、標的突然変異を抱えていると分かっている癌を有する患者の中でさえ、低分析感度しか得られない。さらに、単一腫瘍内でさえ、突然変異の面から、有意に腫瘍内不均一性であることが示されている。突然変異は、腫瘍細胞の亜集団のみに発見され得る。原発性腫瘍と転移性病変との間の突然変異プロファイルの違いは、なおさら大きい。腫瘍内および原発性転移不均一性の一例は、結腸直腸癌を患っている患者のＫＲＡＳ、ＢＲＡＦおよびＰＩＫ３ＣＡ遺伝子である（Baldus et al. Clin Cancer Research 2010. 16:790-9.）。

患者が、原発性腫瘍（ＫＲＡＳ突然変異を保因するが、ＰＩＫ３ＣＡを保因しない）および隠れた転移性病変（ＰＩＫ３ＣＡを保因するが、ＫＲＡＳ突然変異を保因しない）を有するシナリオでは、もし、原発性腫瘍のＫＲＡＳ突然変異の検出に着目したならば、隠れた転移性病変は検出されない。しかしながら、もし、両方の突然変異を分析したならば、原発性腫瘍および隠れた転移性病変の両方が検出され得る。それゆえ、両方の突然変異に関する評価は、残った腫瘍組織の検出に高感度を有することになる。そのような単純な例は、癌をスクリーニングしているとき、および起こり得る突然変異の型がほとんどまたは全く見当がつかないとき、より複雑になる。

従って、癌の広範なスクリーニング、検出、または評価を行うための新規技術を提供することが望まれている。

概要
実施形態は、同対象の構成的ＤＮＡのものと比較したときに、癌のスクリーニングまたはモニターを行う対象の生物試料（例えば、血漿または血清）の体細胞突然変異の発生頻度を観察し得る。ランダムシークエンシングは、これらの発生頻度を測定するために使用され得る。パラメーターは、これらの発生頻度から算出され、癌レベルの分類決定のために使用され得る。偽陽性は、異型配列リード（タグ）の少なくとも特定数を有するいずれかの異型座位を必要とすることにより選別され、それゆえ、より正確なパラメーターが得られ得る。種々の異型座位の相対的発生頻度は、患者の腫瘍不均一性レベルを決定するために、解析され得る。

ひとつの実施形態では、該パラメーターは、癌を有しない、または癌のリスクの低い対象群由来の同パラメーターと比較され得る。テスト対象および癌を有しない、または癌のリスクの低い対象群から得られたパラメーターの有意差は、テスト対象が、癌または前癌性状態を有する、または将来癌を発症するかもしれないリスクの増加を示し得る。したがって、ひとつの実施形態では、血漿中ＤＮＡ解析は、事前の腫瘍ゲノム情報なしで実行され得る。したがって、そのような実施形態は、特に、癌スクリーニングに有用である。

別の実施形態では、実施形態は、治療後の癌患者のモニターおよび残存腫瘍がないか、または腫瘍再発がないかを見るためにも使用され得る。例えば、残存腫瘍を有するまたは腫瘍再発した患者は、残存腫瘍がない、または腫瘍再発が観察されない者より、体細胞突然変異が高頻度に発生することになる。該モニターは、体液中または血漿もしくは血清などの無細胞核酸を有する他試料中の腫瘍関連遺伝子異常の時間的変化を確認するための処置に続く、複数時点での癌患者から得られる試料を含み得る。

ひとつの実施形態に従えば、方法は、対象の癌または前癌性変化を検出する。該対象の構成的遺伝子が得られる。１つ以上の配列タグは、該対象の生物試料中の複数のＤＮＡフラグメントの各々に対して受け入れられ、該生物試料は、無細胞性ＤＮＡを含む。ゲノム位置は、配列タグに対して決定される。該配列タグは、第一座位の第一数を決定するために構成的ゲノムと比較される。各第一座位で、該構成的ゲノムと比べた配列異型を有する該配列タグ数は、カットオフ値より上であり、該カットオフ値は、１より大きい。パラメーターは、該第一座位の配列異型を有する配列タグのカウントに基づいて決定される。該パラメーターは、該対象の癌レベルの分類決定のため、閾値と比較される。

別の実施形態に従って、方法は、対象の１つ以上の腫瘍不均一性を解析する。該対象の構成的ゲノムが得られる。１つ以上の配列タグは、該対象の生物試料の複数のＤＮＡフラグメントの各々に対して、受け入れられ、該生物試料は、無細胞性ＤＮＡを含む。ゲノム位置は、配列タグに対して決定される。配列タグは、第一座位の第一数を決定するために、構成的ゲノムと比較される。各第一座位で、構成的ゲノムと比べた配列異型を有する配列タグ数は、カットオフ値より上であり、該カットオフ値は１より大きい。１対上の腫瘍の不均一性の測定は、第一遺伝子位置セットの各第一数に基づいて、算出される。

別の実施形態に従えば、方法は、無細胞性ＤＮＡを含む生物試料中の腫瘍ＤＮＡの分画濃度を決定する。１つ以上の配列タグは、生物試料中の複数のＤＮＡフラグメントの各々に対して受け入れられる。ゲノム位置は、配列タグに対して決定される。複数のゲノム領域の各々に対して、ゲノム領域内のＤＮＡフラグメントの各量は、ゲノム領域内のゲノム位置を有する配列タグから決定される。該各量は、各密度を得るために正規化される。該各密度は、ゲノム領域が、１コピー欠失または１コピー獲得を示しているか確認するために、参考密度と比較される。第一密度は、１コピー欠失を示すと確認された各密度から、または１コピー獲得を示すと確認された各密度から、算出される。該分画濃度は、差を得るために該第一密度を別の密度と比較することにより算出され、該差は参考密度で正規化される。

他の実施形態は、本明細書に記載の方法と関連したシステムおよびコンピューター読み取り可能媒体に関する。

本発明の特徴および優位性は、次の詳細な説明および付随する図を参照することにより、より理解され得る。

本発明の実施形態に従った、対象の癌または前癌性変化を検出する方法１００のフローチャートである。本発明の実施形態に従った、試料ゲノム（ＳＧ）を直接、構成的ゲノム（ＣＧ）と比較する方法のフローチャートを示す。本発明の実施形態に従った、参照ゲノム（ＲＧ）を使用して、試料ゲノム（ＳＧ）を構成的ゲノム（ＣＧ）と比較する方法３００のフローチャートを示す。試料中の腫瘍由来のＤＮＡの分画濃度が１０％であると推定されるとき、突然変異が、本発明の実施形態に従った試料中に存在すると分類する判断基準として、異なる発生数を使用して、正確に確認された癌関連一ヌクレオチド突然変異数を示す表４００である。試料中の腫瘍由来ＤＮＡの分画濃度が、５％であると推定されるとき、偽陽性座位の期待数および確認された突然変異期待数を示す表である。１０％および２０％の腫瘍由来のＤＮＡの血漿中分画濃度を有する血漿中の癌関連突然変異の検出率を示し、潜在的癌関連突然変異を誘発する目安として４および６の発生率（ｒ値）を使用したグラフ６００である。シークエンス深度に対する発生率（ｒ値）４、５、６および７の基準を使用して、ヌクレオチド変化を有するときに誤って分類されたヌクレオチド配列部位の期待値を示すグラフ６５０である。試料中の腫瘍由来ＤＮＡの分画濃度が、５％であると推定されるときに、真の癌関連部位および異なるシークエンス深度を有する偽陽性部位の数を示すグラフ７００である。全ゲノム（ＷＧ）および全エクソンの解析を伴う偽陽性部位の予測数を示すグラフ７５０である。本発明の実施形態に従った、血漿中腫瘍由来ＤＮＡの分画濃度を含む、治療前後の４ＨＣＣ患者の結果を示す表８００である。本発明の実施形態に従った、１６の健康な対照群のＨＣＣ関連ＳＮＶの検出を示す表９００である。本発明の実施形態に従った、ＨＣＣ患者の腫瘍試料の配列リード密度の分布プロットを示す。本発明の実施形態に従った、ＨＣＣ患者の血漿中全ビンのｚスコアの分布プロット１０５０を示す。本発明の実施形態に従った、ＨＣＣ患者の血漿のｚスコアの分布プロット１１００を示す。本発明の実施形態に従った、無細胞性ＤＮＡを含む生物試料の腫瘍ＤＮＡの分画濃度を測定する方法１２００のフローチャートである。本発明の実施形態に従った、診断時の卵巣癌および乳癌を有する患者の血漿中突然変異解析の表１３００を示す。本発明の実施形態に従った、腫瘍切除後の両側性卵巣癌および乳癌を有する患者の血漿中突然変異解析の表１３５０を示す。ＨＣＣ１の血漿中ＤＮＡの一ヌクレオチド変異の検出を示す表１４００である。ＨＣＣ２の血漿中ＤＮＡの一ヌクレオチド変異の検出を示す表１４５０である。ＨＣＣ３の血漿中ＤＮＡの一ヌクレオチド変異の検出を示す表１５００である。ＨＣＣ４の血漿中ＤＮＡの一ヌクレオチド変異の検出を示す表１５５０である。卵巣癌（および乳癌）を有する患者の血漿中ＤＮＡの一ヌクレオチド変異の検出を示す表１６００である。発生率およびシークエンス深度の異なる必要予測感度を示す表１７００である。異なるカットオフおよび異なるシークエンス深度の偽陽性座位の予測数を示す表１８００である。異なる腫瘍部位で検出された突然変異数を図解する３つのダイアグラムを示す。治療前および治療後の血漿試料の腫瘍由来突然変異を保因するフラグメント数を示す表２０００である。単一腫瘍部位で検出された突然変異および全４腫瘍部位で検出された突然変異の血漿中発生率分布を示すグラフ２１００である。不均一腫瘍から発生する突然変異の血漿中発生率予測分布を示すグラフ２２００である。１６の健康な対照群の実施形態の特異性が回復されることを示す。本発明の実施形態に従って、対象の１つ以上の腫瘍の不均一性を解析する方法２４００のフローチャートである。本発明の実施形態に従ったシステムおよび方法で有用な例のコンピューターシステム２５００のブロックダイアグラムを示す。

定義
本明細書において使用される場合、「座位（ｌｏｃｕｓ）」またはその複数形の「座位（ｌｏｃｉ）」という用語は、ゲノム上で変異を有することがあり得るあらゆる長さのヌクレオチド（または塩基対）の位置またはアドレスである。「ビン」はゲノム中の所定の長さの領域である。複数のビンが同一の第１の長さ（解像度）を有してもよく、異なる複数のビンが同一の第２の長さを有してもよい。１つの実施形態において、ビンは互いに重複しない。

「ランダムシークエンシング」という用語は、本明細書において使用される場合、配列決定する核酸断片であって、シークエンシング術の前に具体的に特定または予め決定されていない核酸断片を配列決定することを指す。特定の遺伝子の座位を標的とする配列特異的プライマーは必要ではない。「ユニバーサルシークエンシング」という用語は、あらゆる断片に対して開始することができるシークエンシングを指す。１つの実施形態において、アダプターを断片の末端に付加し、シークエンシング用のプライマーがそれらのアダプターに結合する。したがって、あらゆる断片を同一のプライマーにより配列決定することができ、したがって、そのシークエンシングはランダムであり得る。

「配列タグ」（配列リードとも呼ぶ）という用語は、本明細書において使用される場合、核酸分子のいずれかの部分または全体に由来する、配列決定されたヌクレオチド鎖を指す。例えば、配列決定されたタグは核酸断片から配列決定された（例えば、約３０個の）ヌクレオチドからなる短鎖、核酸断片の両端部分のヌクレオチドからなる短鎖、または生物学的試料に存在する核酸断片全体の配列決定であり得る。核酸断片はより大きい核酸分子のいずれかの部分である。断片（例えば、遺伝子）はより大きい核酸分子の他の部分と別れて（すなわち、結合されずに）存在し得る。

「構成的ゲノム」（ＣＧとも呼ぶ）という用語はゲノム中の座位におけるコンセンサスヌクレオチドから構成され、したがって、コンセンサス配列と見なされ得る。ＣＧは対象のゲノム全体（例えば、ヒトゲノム）、またはゲノムの部分のみを範囲とすることができる。細胞のＤＮＡならびに（例えば、血漿中に見出され得るような）無細胞性ＤＮＡから構成的ゲノム（ＣＧ）を獲得することができる。理想的には、コンセンサスヌクレオチドは、ある座位が１つのアレルについてホモ接合性であり、または２つのアレルについてヘテロ接合性であることを示す方がよい。ヘテロ接合性座位は通常はある遺伝的多型のメンバーである２つのアレルを含有する。例として、ある座位に整列させられたリードのうちに２つのアレルがそれぞれ少なくとも所定のパーセンテージ（例えば、３０％または４０％）で現れる閾値が、その座位がヘテロ接合性であるか決定するための判定基準であり得る。１種類のヌクレオチドが充分なパーセンテージ（例えば、７０％以上）で現れる場合、その座位はＣＧ中でホモ接合性であると判断され得る。１つの健常細胞のゲノムは細胞分裂の間に自然に起こる無作為突然変異のために別の健常細胞のゲノムと異なることがあり得るが、このようなコンセンサスが使用されるとき、ＣＧは変化しないはずである。幾つかの細胞はゲノム再構成したゲノムを有することがあり得、例えば、抗体およびＴ細胞受容体遺伝子に関係するＢリンパ球およびＴリンパ球がそうである。そのような大規模な差異はそれでも血液中の有核細胞集団のうちの比較的に小さい集団であり、したがって、血液細胞の充分な試料採取（例えば、シークエンス深度）により、そのような再構成が構成的ゲノムの決定に影響を与えることはない。口腔細胞、皮膚細胞、毛包、または様々な正常な体組織の生検組織を含む他の細胞種もＣＧ源として役立ち得る。

「構成的ＤＮＡ」という用語は、対象が持って生まれた遺伝的構成を反映するあらゆる起源のＤＮＡを指す。対象について、構成的ＤＮＡを得ることができる「構成的試料」の例には健常な血液細胞ＤＮＡ、口腔細胞ＤＮＡおよび毛根ＤＮＡが含まれる。これらの健常細胞に由来するＤＮＡが対象のＣＧを定義する。それらの細胞は様々な方法で、例えば、ある人が癌を有していないと知られているとき、または癌細胞もしくは前腫瘍細胞（例えば、肝臓癌が疑われるときの毛根ＤＮＡ）を含む可能性が無い組織から試料を得ることができるときに健常であると特定され得る。別の例として、患者に癌が無いときに血漿試料を得ることができ、決定された構成的ＤＮＡをその後の（例えば、１年以上後の）血漿試料から得られた結果と比較する。別の実施形態において、５０％未満の腫瘍ＤＮＡを含有する単一の生物試料を構成的ゲノムと腫瘍関連遺伝的変化の推測のために使用することができる。そのような試料では、腫瘍関連一ヌクレオチド突然変異の濃度はＣＧ中のヘテロ接合性ＳＮＰの各アレルの濃度よりも低い。そのような試料は下に記載される試料ゲノムの決定のために使用される生物試料と同一のものであり得る。

「生物試料」という用語は、本明細書において使用される場合、対象（例えば、ヒト、癌を有する人、癌を有すると疑われる人、または他の生物）から採られ、且つ、１種類以上の目的の無細胞性核酸分子を含有するあらゆる試料を指す。生物試料には無細胞性ＤＮＡが含まれる場合があり得、それらのうちの幾らかは健常細胞に、幾らかは腫瘍細胞に起源を有し得る。例えば、腫瘍ＤＮＡは血液または他の液体、例えば、尿、胸膜液、腹水、腹腔液、唾液、涙または脳脊髄液の中に見出され得る。非液体例は大便試料であり、それは下痢状の液体と混ぜ合わされていてもよい。そのような試料のうちの幾つかについて、非侵襲的に生物試料を得ることができる。いくつかの実施形態において、生物試料を構成的試料として使用することができる。

「試料ゲノム」（ＳＧとも呼ぶ）という用語はゲノム（例えば、ヒトゲノム）の位置に対して整列させられた配列リードのコレクションである。試料ゲノム（ＳＧ）はコンセンサス配列ではないが、充分な数のリード（例えば、少なくとも２または３、またはそれより高いカットオフ値）でのみ現れ得るヌクレオチドを含む。アレルが充分な回数で現れず、ＣＧの一部ではない（すなわち、コンセンサス配列の一部ではない）場合、そのアレルは「一ヌクレオチド突然変異」（ＳＮＭとも呼ぶ）を表し得る。本発明を用いて、例えば、（例えば、マイクロサテライト中のタンデムリピート単位の数または単なるタンデムリピートの多型に影響する）２つ以上のヌクレオチドが関わる突然変異、（染色体内または染色体間であり得る）染色体転座、および配列逆位を含む他の種類の突然変異も検出され得る。

「基準ゲノム」（ＲＧとも呼ぶ）という用語は生物試料に由来する配列リードおよび構成的試料を整列させることができ、比較することができる半数体ゲノムまたは二倍体ゲノムを指す。半数体ゲノムについて、各座位にただ１つのヌクレオチドが存在する。二倍体ゲノムについて、ヘテロ接合性座位が特定されることがあり得、そのような座位は２つのアレルを有し、どちらかのアレルが座位へのアラインメントで合致し得る。

「癌のレベル」という用語は、癌が存在するかどうか、癌のステージ、腫瘍のサイズ、および／または癌の重症度についての他の尺度を指し得る。癌のレベルは数または他の記号であり得る。そのレベルはゼロであり得る。癌のレベルは突然変異または多数の突然変異に伴う前腫瘍または前癌病態（状態）も含む。癌のレベルは様々な方法で用いられ得る。例えば、癌を有していると以前は知られていない者に癌が存在するか、スクリーニングによりチェックすることができる。癌を有していると診断された者を評価して検査することができる。検出は「スクリーニング」を意味することがあり得、または癌を思わせる特徴（例えば、症状または他の陽性試験）により誰かが癌を有しているかチェックすることを意味することがあり得る。
詳細な説明

腫瘍から直接的に採取されておらず、且つ、無細胞性核酸を含む生物試料（例えば、血液血漿／血清試料）の分析による癌の検出について実施形態が提供される。無細胞性核酸は体中の様々な種類の組織に起源を有し得る。この方法では、様々な癌の検出のための広範な分析が実施され得る。

（一ヌクレオチド突然変異、欠失、増幅、および再構成を含む）遺伝的変化は癌の発生の際に腫瘍細胞において蓄積する。実施形態において、癌を検出およびモニターするために大量平行シークエンシングを用いて体液（例えば、血漿、血清、唾液、腹水、胸膜液および脳脊髄液）の中で一ヌクレオチド変異（ＳＮＶ）とも呼ばれる一ヌクレオチド突然変異（ＳＮＭ）を検出および定量することができる。ＳＮＭ（または他の種類の突然変異）数の定量はスクリーニング試験の一部として初期ステージの癌を特定するための機序を提供することができる。様々な実施形態において、（例えば、複数のＳＮＭ、例えば、少なくとも３、４、または５事例のＳＮＭが特定の座位において特定されることを必要とすることにより）シークエンシングエラーを区別し、健常細胞において生じる自然突然変異を識別するために注意が払われる。

幾つかの実施形態により、同一の腫瘍内の細胞に関わることがあり得る腫瘍の不均一性（すなわち、腫瘍内の不均一性）または体の（同一部位または異なる部位の）異なる腫瘍に由来する細胞に関わることがあり得る腫瘍の不均一性を分析するための非侵襲的方法も提供される。例えば、各突然変異を含有する相対的腫瘍細胞量の推定を含む、そのように不均一な腫瘍のクローン構造の非侵襲的な分析を行うことができる。高い相対的濃度で存在する突然変異ほど体内でより多くの数の悪性腫瘍細胞、例えば、体の中でも他の悪性腫瘍細胞と比べて腫瘍形成過程中の速い時期に生じた細胞に存在する(Welch JS et al. Cell 2012; 150: 264-278)。そのような突然変異は、比較的に多く存在するため、比較的に少ない突然変異よりも癌ＤＮＡを検出するより高い診断感度を示すことが予期される。突然変異の相対的存在量の変化を連続的にモニタリングすれば、疾患の進行により自然に生じるか、治療へ応答して生じる腫瘍のクローン構造の変化を非侵襲的にモニターすることが可能になる。そのような情報は予後の評価または治療に対する腫瘍耐性の早期検出に有用になる。

Ｉ．序論
突然変異はＤＮＡ複製および／またはＤＮＡ修復のエラーのため、細胞分裂中に生じ得る。１つの種類のそのような突然変異は一ヌクレオチドの変化を伴い、その変化はゲノムの様々な部分の複数の配列に関わり得る。癌は増殖優位性を獲得した単一癌細胞のクローン増殖に起因すると一般に考えられている。このクローン増殖は祖先癌細胞を起源とする全ての癌細胞において突然変異（例えば、一ヌクレオチド突然変異）の蓄積をもたらすことになる。これらの子孫腫瘍細胞は一組の突然変異（例えば、一ヌクレオチド突然変異）を共有する。本明細書に記載されるように、癌関連一ヌクレオチド突然変異は癌患者の血漿／血清において検出可能である。

幾つかの実施形態により生物試料（例えば、血漿または血清）における全ての突然変異を効果的にスクリーニングすることができる。突然変異の数が固定されていない（様々な亜集団の腫瘍細胞に由来する数百、数千、または数百万の癌関連突然変異が検出され得る）ので、実施形態により特定の突然変異を検出する技術よりも良い感度が提供され得る。突然変異の数を用いて癌を検出することができる。

多数または全ての突然変異のそのようなスクリーニングを実施するため、実施形態により、腫瘍由来ＤＮＡを含有している可能性がある生物試料（例えば、血漿および血清を含む体液）中における遺伝的変異の検索（例えば、無作為検索）を実施することができる。試料、例えば血漿の使用は腫瘍または癌の侵襲的生検を実施する必要性を不要にする。また、スクリーニングがゲノムの全領域または広い領域を範囲とすることができるとき、そのスクリーニングは列挙可能であり、且つ、公知のどのような突然変異にも限定されず、あらゆる突然変異の存在を用いることができる。また、突然変異の数はゲノムの全領域または広い領域にわたって合計されるので、より高い感度を得ることができる。

しかしながら、ヒトゲノムには一ヌクレオチド多型（ＳＮＰ）を含む多型性部位が存在し、その部位は突然変異に数えられるべきではない。実施形態により、検出された遺伝的変異が癌関連突然変異である可能性があるのか、またはゲノム中の多型であるのか確認することができる。例えば、癌関連突然変異とゲノム中の多型の間の決定の一部として、実施形態により構成的ゲノムを決定することができ、その構成的ゲノムは多型を含むことがあり得る。構成的ゲノム（ＣＧ）の多型はシークエンシングデータ中に充分に高いパーセンテージ（例えば、３０〜４０％）で示される多型に限定され得る。

そこで、生物試料から得られた配列を構成的ゲノムに整列させることができ、一ヌクレオチド突然変異（ＳＮＭ）または他の種類の突然変異である変異を特定することができる。これらのＳＮＭは公知の多型に含まれない変異であり、したがって、癌関連であり、構成的ゲノムの一部ではないと表示され得る。健常な人は、例えば、細胞分裂の間に生じた健常な細胞での無作為突然変異のためにある特定の数のＳＮＭを有することがあり得るが、癌を有する人であればより多数のＳＮＭを有するであろう。

例えば、癌を有する人にとっては、体液において検出可能なＳＮＭの数は同一人物の構成的ゲノムに存在する多型よりも多いことになる。腫瘍由来ＤＮＡを含有する体液試料と主として構成的ＤＮＡを含有するＤＮＡ試料において検出される変異の量の間で比較を行うことができる。１つの実施形態において、「主として」という用語は９０％超を意味することになる。別の好ましい実施形態において、「主として」という用語は９５超、９７％超、９８％超、または９９％超を意味するだろう。体液における変異の量が主として構成的ＤＮＡの試料の変異の量を超えるとき、体液が腫瘍由来ＤＮＡを含有する可能性の上昇が存在する。

ＤＮＡ試料における変異を無作為に検索するために用いられ得る一つの方法は（例えば、大量平行シークエンシングを用いる）ランダムシークエンシングまたはショットガンシークエンシングである。シークエンシング・バイ・ライゲーションプラットフォーム（例えば、ＬｉｆｅＴｅｃｈｎｏｌｏｇｉｅｓ社のＳＯＬｉＤプラットフォーム）、ＩｏｎＴｏｒｒｅｎｔ／ＩｏｎＰｒｏｔｏｎ、半導体シークエンシング、Ｒｏｃｈｅ４５４、一分子シークエンシングプラットフォーム（例えば、Ｈｅｌｉｃｏｓ社、ＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅｓ社およびナノポア社）を含むあらゆる大量平行シークエンシングプラットフォームを用いることができる。しかし、シークエンシングエラーが生じることがあり得、それが構成的ＤＮＡ中の変異として、または腫瘍ＤＮＡに由来する突然変異として誤解釈され得ることが知られている。したがって、我々の提唱するアプローチの特異度を改善するため、例えば、ある座位で検出される少なくとも特定の数（例えば、２または３）のアレルがＳＮＭとして数えられることを必要とすることと共に適切なシークエンス深度を用いることによってシークエンシングエラーまたは分析エラーの他の要素が起こる見込みを考慮することができる。

本明細書に記載されるように、無作為に検出された試料中に存在する遺伝的変異の量が構成的ＤＮＡと分析エラー（例えば、シークエンシングエラー）のために不注意にも検出されることがあり得る変異について予期される遺伝的変化の量を超えるとき、実施形態により、生物試料（例えば、体液）中の腫瘍由来ＤＮＡの存在についての証拠が提供され得る。その情報を癌のスクリーニング、診断、予後予測およびモニタリングのために用いることもできる。以降の節において、我々は、血漿／血清または他の試料（例えば、体液）における一ヌクレオチド突然変異の検出のために使用され得る分析ステップを説明する。体液には血漿、血清、脳脊髄液、胸膜液、腹水、乳頭分泌物、唾液、気管支肺胞洗浄液、痰、涙、汗、および尿が含まれ得ることになる。大便試料は大腸癌由来の腫瘍ＤＮＡを含有することが示されているので(Berger BM, Ahlquist DA. Pathology 2012; 44: 80-88)、その技術を体液に加えて大便試料にも適用することができる。

ＩＩ．一般的なスクリーニング法
図１は本発明の実施形態に従って対象において癌または前癌変化を検出するための方法１００のフローチャートである。実施形態により、対象に由来する生物試料中の無細胞性ＤＮＡを分析して腫瘍の結果生じる可能性がある無細胞性ＤＮＡ中の変異を検出することができる。その分析は、健常細胞の一部である多型を考慮するために対象の構成的ゲノムを使用することができ、シークエンシングエラーを考慮することができる。１種類以上のプロセッサーを含むコンピューターシステムを使用して方法１００と本明細書に記載される方法のうちのいずれかを全体的または部分的に実行することができる。

ステップ１１０では、対象の構成的ゲノムを得る。試験対象の構成的ＤＮＡから構成的ゲノム（ＣＧ）を決定することができる。様々な実施形態において、メモリーからＣＧを読むことができ、または、例えば、無細胞性ＤＮＡを含む試料に由来する細胞中にあり得る構成的ＤＮＡの配列リードを分析することにより能動的にＣＧを決定することができる。例えば、非血液腫瘍が疑われるときに血液細胞を分析して対象の構成的ＤＮＡを決定することができる。

様々な実施形態において、大量平行シークエンシング、アレイベース・ハイブリダイゼーション、プローブベース・インソリューション・ハイブリダイゼーション、ライゲーションベース・アッセイ、プライマー伸長反応アッセイ、およびマススペクトロメトリーを用いると構成的ＤＮＡの分析を実施することができる。１つの実施形態において、対象の生涯のある時点、例えば、生誕時、または出生前期においてさえ（それは胎児細胞を用いて、または無細胞性ＤＮＡ断片を介して実施され得ることになる。米国特許出願公開第２０１１／０１０５３５３号明細書を参照のこと）ＣＧを決定することができ、その後、ＣＧは対象の生涯の他の時点で体液または他の試料を得たときのものに対して参照され得る。したがって、コンピューターメモリーからＣＧを単に読んでもよい。構成的ゲノムが基準ゲノムと異なる座位のリストとして構成的ゲノムを読むことができる。

ステップ１２０では、対象の生物試料中の複数のＤＮＡ断片のそれぞれについて１種類以上の配列タグが受領され、その場合、その生物試料は無細胞性ＤＮＡを含む。１つの実施形態において、生物試料中のＤＮＡ断片のランダムシークエンシングから１種類以上の配列タグを作製する。ペアドエンド（ｐａｉｒｅｄ−ｅｎｄ）シークエンシングが実施されると１つより多くの配列タグを得ることができる。１種類のタグはＤＮＡ断片の各末端に対応することになる。

試料（例えば、血漿、血清または他の体液）中の無細胞性ＤＮＡを分析して遺伝的変異を検索することができる。構成的ＤＮＡを分析するのに使用したのと同じ分析プラットフォームを用いて無細胞性ＤＮＡを分析することができる。あるいは、異なる分析プラットフォームを用いることだってできる。例えば、大量平行シークエンシングを用いて無細胞性ＤＮＡ試料の配列を決定することができ、または大量平行シークエンシングの前にゲノムの部分を捕捉または濃縮することだってできる。濃縮を用いる場合、例えば、選択された部分のゲノムの溶液相捕捉または固相捕捉を用いることだってできる。その後、捕捉したＤＮＡについて大量平行シークエンシングを行うことができる。

ステップ１３０では、配列タグのゲノム上の位置を決定する。１つの実施形態において、配列タグが、１種類以上の他の対象から得られる基準ゲノムに対して整列させられる。別の実施形態において、ゲノム配列タグが試験対象の構成的ゲノムに対して整列させられる。当業者に知られている技法を用いて、例えば、基礎局所的アラインメント検索ツール（ＢＬＡＳＴ）を使用してアラインメントを実施することができる。

ステップ１４０では、少なくともＮ個の配列タグが構成的ゲノム（ＣＧ）と比べて配列異型を有する場合に第１座位数が決定される。Ｎは２以上である。下でより詳細に考察するように、２、３、４、５、またはそれより多くのＮを有することにより、シークエンシングエラーならびに細胞中で（例えば、細胞分裂のために）無作為に生じる体細胞突然変異を除去することができる。異型を有するが、（例えば、ちょうど１種類の異型配列タグのように）１種類以上の判定基準を満たすことがない座位は潜在的または仮想突然変異と呼ばれるが、１種類以上の特定の判定基準を満たす座位を突然変異（異型）または突然変異座位（異型座位）として特定することができる。配列異型はちょうど１つのヌクレオチドまたは複数のヌクレオチドの異型であることだってあり得る。

Ｎは、絶対値と対照的に、ある座位の全タグのパーセンテージとして決定され得る。例えば、異型リードから推定される腫瘍ＤＮＡの分画濃度が１０％（または他のあるパーセンテージ）以上であると判断されると、異型座位が特定され得る。言い換えると、２００配列リードで座位がカバーされるとき、異型アレルを示す少なくとも１０個の配列リードという判定基準がその異型を突然変異として定義するために必要とされ得る。１０配列リードの異型アレルと１９０リードの野生型アレルであれば１０％（２×１０／（１０＋１９０））という腫瘍ＤＮＡの分画濃度を示す。

１つの実施形態において、配列タグ（集合的に試料ゲノムと呼ばれる）を直接的にＣＧと比較して異型を決定することができる。別の実施形態において、基準ゲノム（ＲＧ）を介して試料ゲノム（ＳＧ）をＣＧと比較して異型を決定する。例えば、ＣＧとＳＧの両方をＲＧと比較して異型を示す座位のそれぞれの数（例えば、セット）を決定することができ、その後、第１座位数を得るために差分をとることができる。その第１数を数として簡単に得ることができ、またはその第１数は座位の特定のセットに対応することがあり得、その第１数は第１座位における配列タグからパラメーターを決定するためにさらに分析され得る。

１つの実施形態において、構成的ＤＮＡと血漿中ＤＮＡのシークエンシングの結果を比較して一ヌクレオチド突然変異が血漿中ＤＮＡに存在するか決定する。構成的ＤＮＡがホモ接合性である領域を分析することができる。例示目的に、特定の座位の遺伝子型が構成的ＤＮＡにおいてホモ接合性であり、ＡＡであると仮定しよう。その場合、血漿中にＡ以外のアレルが存在すると特定の座位に一ヌクレオチド突然変異（ＳＮＭ）が存在する可能性を示す。ＳＮＭの存在の可能性を示す座位はステップ１４０において第１座位数を形成し得る。

１つの実施形態において、特定の種類の癌または特定の集団のサブセットで突然変異を特に受けやすいと知られているゲノムの部分を標的にすることが有用であることがあり得る。後者の態様との関連で、実施形態により、特定の人種で特に普遍的な種々の突然変異、例えば、（肝臓癌について）Ｂ型肝炎ウイルスまたは（子宮頸部癌について）ヒトパピローマウイルスを担持する対象、または体細胞突然変異を生じやすい遺伝的素質を有する対象、またはＤＮＡミスマッチ修復遺伝子に生殖細胞系突然変異を有する対象に特に共通する突然変異を探し求めることができる。その技術はＢＲＣＡ１突然変異またはＢＲＣＡ２突然変異を有する対象における卵巣癌および乳癌の中の突然変異をスクリーニングすることにも有用であるだろう。その技術はＡＰＣ突然変異を有する対象における大腸癌の中の突然変異をスクリーニングすることにも同様に有用であるだろう。

ステップ１５０では、第１座位に配列異型を有する配列タグの数に基づいてパラメーターを決定する。一例では、そのパラメーターは、少なくともＮ個のＤＮＡ断片がある座位において構成的ゲノムと比べて配列異型を有する場合の第１座位数である。したがって、ある座位がその第１数に含まれる前に特定されたＮコピーより多くの特定の異型を有することを確実にするためにその配列タグの数を単純に使用することができる。別の実施形態において、そのパラメーターは第１座位において構成的ゲノムと比べて配列異型を有する配列タグの総数であり得る、またはその総数を含み得る。

ステップ１６０では、対象についてのパラメーターを（例えば、１つ以上の他の対象に由来する）閾値と比べてその対象におけるある分類の癌のレベルを決定する。癌のレベルの例には対象が癌または前癌状態を有しているか、または癌を発生する可能性が上昇しているかが含まれる。１つの実施形態において、その閾値はその対象から以前に得られた試料から決定され得る。

別の実施形態において、前記の１つ以上の他の対象は癌を有していない、または癌の低いリスクを有すると判断され得る。したがって、閾値は正常値、正常範囲であり得、または正常値または正常範囲からの統計的に有意な偏差を示し得る。例えば、試験対象において検出された突然変異の数が正常であるか決定するために、癌を有しないまたは癌の低いリスクを有する対象の血漿において検出可能である、特定の対象のＣＧと比べた突然変異の数を正常範囲として使用することができる。別の実施形態において、前期の他の対象は癌を有していると知られていてもよく、したがって、同様の数の突然変異が癌を表し得る。

１つの実施形態において、前期の他の対象は、試験対象の臨床的特徴、例えば、性別、年齢、食習慣、喫煙習慣、薬歴、既往症、家族健康歴、選択されたゲノム座位の遺伝子型、ウイルス感染（例えば、Ｂ型肝炎ウイルスまたはＣ型肝炎ウイルスまたはヒトパピローマウイルスまたはヒト免疫不全ウイルスまたはエプスタイン・バールウイルスの感染）または（細菌（例えば、ヘリコバクター・ピロリ）および寄生生物（例えば、肝臓ジストマ（Ｃｌｏｎｏｒｃｈｉｓｓｉｎｅｎｓｉｓ））などのような）他の感染因子の感染の状態に合致する臨床的特徴を有するように選択され得る。例えば、Ｂ型肝炎ウイルスまたはＣ型肝炎ウイルスを保持する対象は肝細胞癌を発生する上昇したリスクを有する。したがって、Ｂ型肝炎またはＣ型肝炎と同様の突然変異の数またはパターンを有する試験対象は肝細胞癌を発生する上昇したリスクを有するとみなされ得る。一方、別の肝炎患者よりも多くの突然変異を示すＢ型肝炎またはＣ型肝炎の患者は、適切なベースライン（すなわち、別の肝炎患者と比べたもの）を使用するので、より高い分類の癌のレベルを有すると適切に特定され得る。同様に、ヒトパピローマウイルス感染を保持する対象は子宮頸部癌および頭頚部癌の上昇したリスクを有する。エプスタイン・バールウイルスの感染は鼻咽頭癌、胃癌、ホジキンリンパ腫および非ホジキンリンパ腫と関連している。ヘリコバクター・ピロリの感染は胃癌と関連している。肝臓ジストマの感染は胆管癌と関連している。

癌の進行と治療応答のモニタリングに様々な時点における突然変異の数の変化のモニタリングを用いることができる。前癌状態の進行、または対象が癌を発生するリスクの変化を詳細に記録するためにそのようなモニタリングを用いることもできる。

モニタリングに変異を示す配列タグの量を用いることもできる。例えば、ある座位における異型リードの分画濃度を使用することができる。１つの実施形態において、連続的モニタリング中の試料における腫瘍関連遺伝的変化の分画濃度の上昇は、疾患の進行または切迫した疾患の再発を表し得る。同様に、連続的モニタリング中の試料における腫瘍関連遺伝的変化の分画濃度の低下は、治療に対する応答、および／または疾患の寛解、および／または良好な予後を表し得る。

ＩＩＩ．ゲノムの決定
以下に、上で考察した様々なゲノムをさらに詳細に説明する。例えば、基準ゲノム、構成的ゲノム、および試料ゲノムを考察する。

Ａ．基準ゲノム
基準ゲノム（ＲＧ）は対象の半数体ゲノムまたは二倍体ゲノムまたは集団のコンセンサスを指す。基準ゲノムは公知であり、したがって、新しい患者に由来するシークエンシングリードを比較するために使用され得る。患者の試料に由来する配列リードを整列および比較してＲＧに由来するリード中の変異を特定することができる。半数体ゲノムについては各座位にたった１つのヌクレオチドが存在し、したがって、各座位をヘミ接合性とみなすことができる。二倍体ゲノムについてはヘテロ接合性座位が特定され得、そのような座位は２つのアレルを有し、どちらかのアレルがアラインメントで前記の座位に合致し得る。

ある集団の対象の間で基準ゲノムが同一であり得る。患者の分類（例えば、癌を有するか否か）のために使用される適切な閾値を決定するためにこの同一の基準ゲノムを健常対象に使用することができる。しかしながら、異なる集団、例えば、異なる民族に、または異なる家族にも異なる基準ゲノムを使用することができる。

Ｂ．構成的ゲノム
対象（例えば、ヒトまたは他の二倍体生物）の構成的ゲノム（ＣＧ）はその対象の二倍体ゲノムを指す。ＣＧは、第１アレルが第１ハプロタイプに由来し、異なる第２アレルが第２ハプロタイプに由来する場合にヘテロ接合性座位を表し得る。２つのヘテロ接合性座位をカバーする２つのハプロタイプの構造は公知である必要がないこと、すなわち、一方のヘテロ接合性座位上のどのアレルが別のヘテロ接合性座位のアレルと同一のハプロタイプであるか公知である必要がないことに留意されたい。各ヘテロ接合性座位における２つのアレルの存在そのものが充分であり得る。

多型のためにＣＧはＲＧと異なり得る。例えば、ＲＧ上の座位はＴでホモ接合性であり得るが、ＣＧはＴ／Ａでヘテロ接合性である。したがって、ＣＧはこの座位において変異を示すことになる。（例えば、家族内で受け継がれる）遺伝性突然変異または（胎児において生じるが、その親には存在しない）新規突然変異のためにＣＧはＲＧと異なることもあり得る。遺伝性突然変異は通常は「生殖細胞系突然変異」と呼ばれる。そのような突然変異のうちの幾つかは家族内で受け継がれるＢＲＣＡ１突然変異のような癌体質と関連する。そのような突然変異は人の生存期間中の細胞分裂に起因して生じることがあり、癌になる途中で細胞とその子孫を押しやることがある「体細胞突然変異」とは異なる。

ＣＧ決定の目標は、体細胞突然変異を特定するためにそのような生殖細胞系突然変異と新規突然変異を試料ゲノム（ＳＧ）の突然変異から除去することである。その後、対象における癌の可能性を評価するためにＳＧにおける体細胞突然変異の量を使用することができる。シークエンシングエラーを除去し、可能性としては滅多に起こらない（例えば、１リードしか異型を示さない）体細胞突然変異であって、したがって癌に関連しそうにない体細胞突然変異を除去するために、これらの体細胞突然変異をさらにフィルターにかけることができる。

１つの実施形態において、細胞（バフィーコートＤＮＡ）を使用してＣＧを決定することができる。しかしながら、無細胞性ＤＮＡ（例えば、血漿または血清）から同様にＣＧを決定することもできる。細胞の大半が非悪性腫瘍である種類の試料、例えば、健常対象に由来するバフィーコートについて、大部分のゲノムまたはコンセンサスゲノムがＣＧである。そのＣＧでは、各ゲノム座位は、試料抽出された組織中の細胞の大部分によって保持されるＤＮＡ配列からなる。シークエンス深度は、構成的ゲノム内のヘテロ接合性部位を解明するのに充分であるべきである。

別の例として、ＣＧを決定するための構成的試料として血漿を使用することができる。例えば、血漿中の腫瘍ＤＮＡが５０％未満であり、ＳＮＭがヘテロ接合性状態である、例えば、突然変異が新しいアレルの付加である場合では、その新しいアレルは２５％未満の濃度を有し得る。一方、ＣＧ中のＳＮＰのヘテロ接合性アレルの濃度は約５０％に達するはずである。こうして、ＣＧの体細胞突然変異と多型の間で区別をつけることができる。１つの実施形態において、適切なカットオフは、血漿、または著しい腫瘍濃度を有する他の混合物を使用するときに多型から体細胞突然変異を決定するために３０〜４０％の間であり得る。血漿中の腫瘍ＤＮＡが５０％未満であることを確実にするために腫瘍ＤＮＡ濃度の測定が有用であり得る。腫瘍ＤＮＡ濃度の決定の例は本明細書に記載されている。

Ｃ．試料ゲノム
試料ゲノム（ＳＧ）はＲＧとＣＧの場合のように単に半数体ゲノムまたは二倍体ゲノムというわけではない。ＳＧは試料に由来するリードのコレクションであり、ＣＧに相当する構成的ＤＮＡに由来するリード、腫瘍ＤＮＡに由来するリード、（例えば、細胞分裂により生じる突然変異に起因する）ＣＧと比べた無作為突然変異を示す健常細胞に由来するリード、およびシークエンシングエラーを示す健常細胞に由来するリードを含み得る。どのリードがＳＧに含まれているのか正確に管理するために様々なパラメーターを使用することができる。例えば、あるアレルが少なくとも５リードを示すことを必要とすることにより、ＳＧ中に存在するシークエンシングエラーを減少させることができ、ならびに無作為突然変異に起因するリードを減少させることができる。

例として、対象が健康であり、すなわち、癌を有しないと仮定しよう。例示目的に、１０００細胞に由来するＤＮＡがこの対象から得られた１ｍｌの血漿中にある（すなわち、１０００ゲノム等量のＤＮＡ）。血漿ＤＮＡは通常は約１５０ｂｐのＤＮＡ断片からなる。ヒトゲノムは３×１０⁹ｂｐであるので、半数体ゲノム当たり約２×１０⁷ＤＮＡ断片が存在することになる。ヒトゲノムは二倍体であるので、１ｍｌの血漿当たり約４×１０⁷ＤＮＡ断片が存在することになる。

数百万〜数十億の細胞が単位時間当たりに血漿中にそれらのＤＮＡを放出しており、これらの細胞に由来する断片が循環中に混合することから、４×１０⁷ＤＮＡ断片が４×１０⁷個の異なる細胞に由来することができただろう。これらの細胞が互いに（遠い、例えば、元の接合子と対照的な）最近のクローン関係を保持しない場合（すなわち、それらの細胞が最近の祖先細胞を共有しない場合）、これらの断片の間で１回よりも多く突然変異が見られることが無い可能性が統計的に存在する。

一方、１ｍｌの血漿中ＤＮＡ当たり１０００ゲノム等量の中に最近の祖先細胞を共有するある特定のパーセンテージの細胞が存在する場合（すなわち、それらの細胞がクローン的に互いに関連する場合）、その血漿中ＤＮＡにおいて優先的に代表される（例えば、血漿中のクローン性突然変異プロファイルを示す）このクローンに由来する突然変異を見ることができるだろう。そのようなクローン的に関連する細胞は癌細胞であり得、または癌になる途中であるが、まだそこまで至っていない（すなわち、前癌状態の）細胞であり得る。したがって、突然変異が１回より多く現れることを必要とすることにより、試料中に特定された「突然変異」の中のこの自然分散を取り除くことができ、それにより癌細胞または前癌細胞に関連するより多くの突然変異を残すことができ、そうして癌または前癌状態の検出、特に早期検出を可能にする。

おおまかにいうと、各細胞分裂の後に平均的に１事例の突然変異がゲノムに蓄積することが述べられている。これまでの研究により、血漿中ＤＮＡの大半が造血細胞に由来することが示されている (Lui YY et al. Clin Chem 2002: 48: 421-427)。造血幹細胞は２５〜５０週毎に１回複製すると推定されている (Catlin SN, et al. Blood 2011; 117: 4460-4466)。したがって、単純化しておおまかにいうと、健康な４０歳の対象であれば造血幹細胞当たり約４０〜８０事例の突然変異を蓄積しているだろう。

この人物の血漿中に１ｍｌ当たり１０００ゲノム等量が存在し、且つ、これらの細胞のそれぞれが異なる造血幹細胞に由来する場合、４×１０¹⁰ＤＮＡ断片（すなわち、ゲノム当たり４×１０⁷ＤＮＡ断片、および１ｍｌの血漿当たり１０００ゲノム等量）の中に４０，０００〜８０，０００事例の突然変異が期待され得る。しかしながら、各突然変異が１回見られるので、（例えば、カットオフ値Ｎが１よりも大きい場合に）各突然変異はまだ検出限界未満であり得、したがって、これらの突然変異がフィルタリングで除外されることがあり得、それによって癌状態の結果である可能性がより高い突然変異に分析を集中することが可能になる。カットオフ値は１よりも大きいあらゆる値（整数または非整数）であり得、且つ、異なる座位および領域で変動し得る。シークエンス深度と腫瘍ＤＮＡの分画濃度も癌細胞または前癌細胞から突然変異を検出する感度（例えば、検出可能な突然変異のパーセンテージ）に影響し得る。

ＩＶ．ＣＧとの直接比較
幾つかの実施形態により、ＣＧはホモ接合性であるがＳＧ中の少数の種（すなわち、腫瘍ＤＮＡ）はヘテロ接合性であるヌクレオチド位置を特定することができる。高い深度（例えば、５０倍を超えるカバー度）で位置をシークエンシングすると、健常細胞および癌細胞のＤＮＡ混合物においてその位置に１または２つのアレルが存在するか検出することができる。２つのアレルがそこで検出されるとき、（１）ＣＧがヘテロ接合性であるか、または（２）ＣＧがホモ接合性であるが、ＳＧがヘテロ接合性であるかのどちらかである。これらの２つのシナリオは主要なアレルと少数派のアレルの相対的な数を調べることによって区別され得る。前者のシナリオであれば、それらの２つのアレルは同様なカウント数であるが、後者のシナリオであれば、それらのカウント数に大きな差が存在する。試験試料に由来するリードの相対的アレル数のこの比較は構成的ゲノムに対して配列タグを比較する１つの実施形態である。方法１００の第１座位は、アレルの数が上限閾値（ＣＧにおける多型に対応する閾値）よりも小さく、下限閾値（エラー、および癌状態と関連しないほど充分に低い割合で生じる体細胞突然変異に対応する閾値）よりも大きい場合の座位として決定され得る。したがって、構成的ゲノムと第１座位は同時に決定され得る。

別の実施形態において、突然変異を特定するための過程により、ＣＧを最初に決定し、次にＣＧと比べて充分な数の突然変異を有する座位を決定することができる。ＣＧは試験試料と異なる構成的試料から決定され得る。

図２は、本発明の実施形態に従って試料ゲノム（ＳＧ）を直接的に構成的ゲノム（ＣＧ）と比較する方法２００のフローチャートを示す。ブロック２１０において、対象の構成的ゲノムを獲得する。構成的ゲノムは、例えば、以前の時点で採取された試料または方法２００が実施される直前に入手および分析される構成的試料から獲得され得る。

ブロック２２０において、対象の生物試料中の複数のＤＮＡ断片のそれぞれについて１種類以上の配列タグが受領される。本明細書において記述されるような様々な技法を用いてシークエンシングを実施することができる。配列タグは、断片の配列がそうであると信じられているものの測定値である。しかし、配列タグの１種類以上の塩基がエラーであり得る。

ブロック２３０において、配列タグの少なくとも一部を構成的ゲノムと整列させる。そのアラインメントはＣＧが様々な座位においてヘテロ接合性であることを考慮することがあり得る。そのアラインメントは完全一致を必要としないので、異型が検出されるだろう。

ブロック２４０において、構成的ゲノムと比べてある座位において配列異型を有する配列タグが特定される。配列タグは１つよりも多くの異型を有することができただろう。各座位と各配列タグについての異型を追跡することができる。異型は、ＣＧ中に無いあらゆるアレルであり得る。例えば、ＣＧはＡ／Ｔでヘテロ接合性であり、異型はＧまたはＣであり得る。

ブロック２５０において、コンピューターシステムは異型を有する各座位について、その座位に整列し、且つ、その座位において配列異型を有する配列タグの各第１数を数えることができる。したがって、各座位はその座位において見られる異型の関連するカウント数を有し得る。典型的には、例えば、５０％未満である腫瘍ＤＮＡ濃度のためにある座位において、ＣＧに対応する配列タグと比べて、より少ない数の異型が見られる。しかしながら、幾つかの試料は５０％よりも高い腫瘍ＤＮＡの濃度を有し得る。

ブロック２６０において、各第１数に基づいてパラメーターを決定する。１つの実施形態において、各数がカットオフ値よりも大きい（例えば、２よりも大きい）場合、その各数を合計に加えることができ、その合計がパラメーターである、またはそのパラメーターを決定するために使用される。別の実施形態において、カットオフ値よりも大きい各数を有する座位の数をパラメーターとして使用する。

ブロック２７０において、癌のレベルを分類するためにパラメーターを閾値と比較する。上に記載したように、他の対象に由来する試料の分析から閾値を決定することができる。これらの他の対象の健常状態または癌状態に応じて分類を決定することができる。例えば、前期の他の対象がステージ４の癌を有していて、現在のパラメーターが前期の他の対象から得られたパラメーターの値に近かった（例えば、特定の範囲内にあった）場合、現在の対象はステージ４の癌を有すると分類された可能性がある。しかしながら、パラメーターが閾値を超える（すなわち、どのようにパラメーターが定義されるかに応じて、閾値よりも大きい、または小さい）場合、その分類はステージ４未満であると特定され得る。前期の他の対象が癌を有していないときに同様の分析を行うことができる。

各閾値が異なるセットの対象から決定される場合に複数の閾値を使用して分類を決定することができる。各セットの対象は共通する癌のレベルを有することがあり得る。したがって、現在のパラメーターを各セットの対象の値と比較することができ、それらのセットのうちの１つに対しての一致を提供することができ、またはある範囲を提供することができる。例えば、そのパラメーターは前癌状態またはステージ２の対象について得られたパラメーターとほぼ等しい可能性がある。別の例として、現在のパラメーターは幾つかの異なる癌のレベルにおそらく一致し得る範囲にあり得る。したがって、その分類は１よりも高い癌のレベルを含み得る。

Ｖ．基準ゲノムの使用
構成的ＤＮＡと生物試料由来のＤＮＡの両方のゲノム配列をヒト基準ゲノムと比較することができる。基準ゲノムと比べて構成的ＤＮＡよりも多くの変化が血漿試料に存在するとき、癌が生じるより高い見込みがある。１つの実施形態において、基準ゲノム中のホモ接合性座位を試験する。構成的ＤＮＡと生物試料由来のＤＮＡの両方におけるヘテロ接合性座位の量を比較する。生物試料のＤＮＡから検出されたヘテロ接合性部位の量が構成的ＤＮＡから検出されたヘテロ接合性部位の量を超えるとき、癌が生じるより高い見込みがある。

その分析は、ＣＧにおいてホモ接合性である座位に限定されることもあり得る。ＳＮＭはヘテロ接合性座位についても定義され得るが、これは一般に第３の異型の生成を必要とすることになる。言い換えると、ヘテロ接合性座位がＡ／Ｔである場合、新しい異型はＣまたはＧのどちらかであることになる。ホモ接合性座位についてＳＮＭを特定することが一般的により簡単である。

構成的ＤＮＡと比べた生物試料ＤＮＡにおけるヘテロ接合性座位の量の増加の程度は、健常対象において見られる変化の割合と比較されると、癌状態または前癌状態を示唆し得る。例えば、そのような部位における増加の程度が健常対象において観察される増加の程度をある特定の閾値で超える場合、癌状態または前癌状態を示唆するとそのデータをみなすことができる。１つの実施形態において、癌を有しない対象における突然変異の分布が確認され、ある特定の数の標準偏差（例えば、２倍または３倍の標準偏差）として閾値を採ることができる。

１つの実施形態は、ある座位における少なくとも特定の数の異型をその座位が数えられる前に必要とし得る。別の実施形態は一度変化を見ることに基づくデータに関しての試験でさえ提供する。例えば、血漿中に見られる変異（エラー＋本当の突然変異または多型）の総数が構成的ＤＮＡにおける変異の総数よりも統計的に有意に大きいとき、癌の証拠が存在する。

図３は、本発明の実施形態に従って基準ゲノム（ＲＧ）を使用して試料ゲノム（ＳＧ）を構成的ゲノム（ＣＧ）と比較する方法３００のフローチャートを示す。方法３００は、ＲＧが既に獲得されていると考え、且つ、生物試料についての配列タグが既に受領されているものと考える。

ブロック３１０において、配列タグの少なくとも一部を基準ゲノムに整列させる。そのアラインメントは、変異が検出されているとミスマッチを認めることができる。基準ゲノムは対象と類似の集団に由来し得る。整列させられた配列タグは試料ゲノム（ＳＧ）を有効に含む。

ブロック３２０において、可能性がある異型、例えば、一ヌクレオチド突然変異（ＳＮＭ）の第１数（Ａ）が特定される。それらの可能性があるＳＮＭは、ＳＧの配列タグがＲＧと異なるヌクレオチドを示す座位である。例えば、変異を示す配列タグの数がカットオフ値よりも大きくなくてはならないこと、およびＲＧにおいてある座位がホモ接合性であるかどうかということのような他の判定基準を使用することができる。特定の座位がメモリーの中にそれらの座位を保存することにより特定され、追跡されるときに可能性があるＳＮＭのセットをセットＡと表すことができる。それらの特定の座位を決定することができ、または単にそのようなＳＮＭの数を決定することができる。

ブロック３３０において、構成的試料に由来するＤＮＡ断片を配列決定することによって得られた配列タグを基準ゲノムに整列させることにより構成的ゲノムを決定する。以前のあらゆる時点で、および以前のあらゆる時点で得られた構成的試料を用いてこのステップを実施することができただろう。アラインメントを以前に実施した場合は、メモリーからＣＧを単に読むことができる。１つの実施形態において、構成的試料は血液細胞であり得る。

ブロック３４０において、ＣＧの整列させられた配列タグが基準ゲノムと比べてある座位において異型（例えば、ＳＮＭ）を有する場合の座位の第２数（Ｂ）が特定される。一組の座位が特異的に追跡される場合、Ｂはただの数と対照的にそのセットを表し得る。

ブロック３５０において、試料ゲノム中に存在するがＣＧには存在しない異型（ＳＮＭ）を特定するためにセットＡからセットＢを減算する。１つの実施形態において、ＣＧがホモ接合性であるヌクレオチド位置にＳＮＭのセットが限定され得る。このフィルタリングを達成するために、ＣＧがホモ接合性である特定の座位がセットＣにおいて特定され得る。別の実施形態において、ＣＧがある座位においてホモ接合性ではない場合にその座位は第１数Ａまたは第２数Ｂの中に数えられない。別の実施形態において、あらゆる公知の多型を（例えば、ＳＮＰデータベースにおけるその存在により）フィルタリングで除外することができる。

１つの実施形態において、ブロック３５０における減算は単に数の減算であり得、したがって、特定の潜在的なＳＮＭは除去されず、単に値が減算される。別の実施形態において、その減算は（例えば、セットＢがセットＡのサブセットである場合に）セットＡとセットＢの間の差をとってセットＢに存在しない特定のＳＮＭを特定する。論理値では、これは［ＡＡＮＤＮＯＴ（Ｂ）］と表現され得る。結果生じた特定された異型のセットをＣとラベル付けすることができる。パラメーターを数Ｃとして決定することができ、またはセットＣから決定することができる。

いくつかの実施形態において、突然変異の性質を考慮することができ、異なる荷重が異なる種類の突然変異によるものとされる。例えば、一般に癌と関連する突然変異により大きな加重（座位の相対的加重について言及するとき、重要度値とも呼ばれる）を与えることができる。そのような突然変異は腫瘍関連突然変異のデータベース、例えば、癌における体細胞突然変異カタログ（ＣＯＳＭＩＣ）(www.sanger.ac.uk/genetics/CGP/cosmic/)の中に見出され得る。別の例として、非同義変化に関連する突然変異により大きな加重を与えることができる。

したがって、ある座位において異型を示すタグの数が別の座位におけるタグの数と異なる加重を有し得る場合にその第１数Ａは加重された合計として決定され得るだろう。その第１数Ａはこの加重合計を反映し得る。同様の計算をＢに実施することができ、したがって、数Ｃとパラメーターがこの加重を反映し得る。別の実施形態において、特定の座位のセットＣが決定されるときにそれらの加重が考慮される。例えば、加重合計がセットＣの座位の数について決定され得る。他の本明細書に記載される方法にそのような加重を使用することができる。

よって、癌のレベルの分類を決定するために閾値と比較されるパラメーターはＲＧと比べたＳＧとＣＧの変異を示す座位の数であり得る。他の実施形態において、変異を示す（配列タグを介して数えられた）ＤＮＡ断片の総数を数えることができる。他の実施形態において、パラメーターを得るために別の処理法でそのような数を使用することができる。

１つの実施形態において、各座位における異型の濃度がパラメーターであり得、閾値と比較され得る。ある座位が（異型を示す特定の数のリードのカットオフに加えて）潜在的異型座位であるか、数えられるべき座位を有しているか決定するためにこの閾値を使用することができる。その濃度もＳＮＭの合計における加重係数として使用され得るだろう。

ＶＩ．カットオフ値を使用する偽陽性の減少
上で述べたように、前記のアプローチの感度を改善するために大きなゲノム領域（例えば、ゲノム全体）または多数のゲノム領域について多数の無細胞性ＤＮＡ断片（例えば、血漿中の循環ＤＮＡ）の中で一ヌクレオチド突然変異を調査することができる。しかしながら、シークエンシングエラーなどの分析エラーがこのアプローチの実現性、正確性、および特異性に影響し得る。ここで、我々はシークエンシングエラーの重要性を例示するために例として大量平行シークエンシングプラットフォームを用いる。Ｉｌｌｕｍｉｎａシークエンシング・バイ・シンセシス（ｓｅｑｕｅｎｃｉｎｇ−ｂｙ−ｓｙｎｔｈｅｓｉｓ）プラットフォームのシークエンシングエラー率は配列決定されたシークエンシングヌクレオチド当たり約０．１％〜０．３％である(Minoche et al. Genome Biol 2011, 12:R112)。シークエンシング・バイ・ライゲーションプラットフォーム（例えば、ＬｉｆｅＴｅｃｈｎｏｌｏｇｉｅｓ社のＳＯＬｉＤプラットフォーム）、ＩｏｎＴｏｒｒｅｎｔ／ＩｏｎＰｒｏｔｏｎ、半導体シークエンシング、Ｒｏｃｈｅ４５４、一分子シークエンシングプラットフォーム（例えば、Ｈｅｌｉｃｏｓ社、ＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅｓ社およびｎａｎｏｐｏｒｅ社）を含むあらゆる大量平行シークエンシングプラットフォームを用いることができる。

肝細胞癌についての以前の研究において、癌ゲノム全体について約３，０００の一ヌクレオチド突然変異が存在することが示された (Tao Y et al. 2011 Proc Natl Acad Sci USA; 108: 12042-12047)。循環している全ＤＮＡのうちのわずかに１０％が腫瘍細胞に由来し、且つ、我々は平均して１倍の半数体ゲノムカバー度のシークエンス深度で血漿中ＤＮＡを配列決定すると仮定すると、我々はシークエンシングエラーのために９００万（３×１０⁹×０．３％）の一ヌクレオチド変異（ＳＮＶ）に出会うことになる。しかしながら、それらの一ヌクレオチド突然変異の大半は２本の相同染色体のうちのわずかに１本において生じることが予期される。１００％腫瘍ＤＮＡを有する試料について１倍の半数体ゲノムカバー度のシークエンス深度で、我々は３，０００突然変異のうちのわずかに半分、すなわち、１，５００突然変異を検出すると予期する。我々が１倍の半数体ゲノムカバー度で１０％の腫瘍由来ＤＮＡを含有する血漿試料を配列決定するとき、我々はわずかに１５０（１，５００×１０％）癌関連一ヌクレオチド突然変異を検出すると予期する。したがって、癌関連突然変異の検出についてのシグナルノイズ比は６０，０００中の１である。この非常に低いシグナルノイズ比は、正常事例と癌事例を区別するためにこのアプローチを用いることの的確性は、我々が生物試料（例えば、血漿）における全ての一ヌクレオチド変化をパラメーターとして単純に使用した場合に非常に低いことを示唆する。

シークエンシング技術の進歩により、継続的なシークエンシングエラー率の低下があると予期される。１種類よりも多くのシークエンシングプラットフォームを用い、且つ、相互プラットフォームシークエンシングの結果の比較を介して同一の試料を分析し、シークエンシングエラーに影響されている可能性があるリードを正確に示すこともできる。別のアプローチは、同一の対象から異なる時点で採られた２つの試料を分析することである。しかしながら、そのようなアプローチは時間がかかる。

１つの実施形態において、癌患者の血漿中の一ヌクレオチド突然変異の検出においてシグナルノイズ比を増強する１つの方法は、試料中において同一の突然変異が複数回生じている場合にのみその突然変異を数えることである。選択されたシークエンシングプラットフォームにおいて、特定のヌクレオチド置換を伴うシークエンシングエラーはより一般的である可能性があり、試験対象と対照被検者の両方の試験試料と構成的ＤＮＡ試料のシークエンシングの結果に影響することになる。しかしながら、一般に、シークエンシングエラーは無作為に生じる。

シークエンシングエラーを有する機会は、複数のＤＮＡ断片中の同一のヌクレオチド位置において同一の変化を観察するとき、指数関数的に低くなる。一方、試料中において本当の癌関連突然変異性変化を検出する機会はシークエンス深度と試料中の腫瘍ＤＮＡの分画濃度によって影響を受ける。複数のＤＮＡ断片においてその突然変異を観察する機会はシークエンス深度と腫瘍ＤＮＡの分画濃度と共に増加することになる。（血漿中のもののような）無細胞性腫瘍ＤＮＡを有する試料を使用する様々な実施形態において、その分画濃度は５％、１０％、２０％、および３０％であり得る。１つの実施形態において、その分画濃度は５０％未満である。

図４は、本発明の実施形態に従って突然変異を試料中に存在するものと分類するための判定基準として異なる出現回数を使用して正確に特定された癌関連一ヌクレオチド突然変異の数を示す表４００である。同一の分類基準に基づいて、シークエンシングエラーのために突然変異を有していると誤って特定されたヌクレオチド位置の数も示されている。シークエンシングエラー率は０．１％であると考えられる (Minoche et al. Genome Bio 2011, 12:R112)。試料中の腫瘍由来ＤＮＡの分画濃度は１０％であると考えられる。

図４は、試料中の腫瘍由来ＤＮＡの分画濃度が１０％であると考えられるときに血漿中において検出された癌関連突然変異の数と偽陽性コールの数との間の比率が、試料において同一の変化が見られる回数であって、突然変異を定義するための回数の増加と共に指数関数的に上昇することになることを示している。言い換えると、癌突然変異検出の感度と特異度の両方が改善することになる。さらに、癌関連突然変異の検出感度はシークエンス深度によって影響を受ける。１００倍の半数体ゲノムカバー度のシークエンシングにより、３，０００突然変異のうちの２，２０５（７３．５％）が、試料中の少なくとも４ＤＮＡ断片における特定の突然変異の出現頻度の判定基準を用いても検出され得る。最小数の断片についての他の値、例えば、３、５、８、１０、および１０よりも大きい数を使用してもよい。

図５は、試料中の腫瘍由来ＤＮＡの分画濃度が５％であると考えられるときに特定された偽陽性座位の予期される数と突然変異の予期される数を示す表５００である。試料中の腫瘍由来ＤＮＡの分画濃度が低いほど癌関連突然変異の同一の検出感度を達成するために高いシークエンス深度が必要とされることになる。特異度を維持するためにより厳しい判定基準が必要とされることにもなる。例えば、１０％の腫瘍ＤＮＡ分画の状況で試料中に少なくとも４回出現するという判定基準の代わりに少なくとも５ＤＮＡ断片において特定の突然変異が出現するという判定基準を用いることが必要とされることになる。表４００と表５００は、本明細書に記載されるように仮定または測定され得るカバー度の倍率と腫瘍ＤＮＡ濃度の前提で使用するためのカットオフ値についてのガイダンスを提供する。

突然変異を定義するために一ヌクレオチド変化を１回より多く検出するという判定基準を用いることの別の利点は、この基準によって非悪性腫瘍組織における一ヌクレオチド変化に起因する偽陽性の検出を最小にすることが予期されることである。正常細胞の体細胞分裂の際にヌクレオチド変化が生じ得るので、体の中の各健常細胞は多数の一ヌクレオチド変化を保持することがあり得る。これらの変化が偽陽性の結果になる可能性があり得る。しかしながら、細胞のそれらの変化は細胞が死んだときに血漿／血清中に存在することになる。異なる正常細胞が異なるセットの突然変異を保持することが予期される一方、１つの細胞で生じた突然変異が血漿／血清中において多数のコピーで存在する可能性はない。このことは、腫瘍増殖は本質的にクローン性であるので複数のコピーが血漿／血清中で見られることが予期される腫瘍細胞内での突然変異と対照的である。したがって、あるクローンに由来する複数の細胞が死に、それらのクローンを表すシグネチャ突然変異を放出することになる。

１つの実施形態において、シークエンシングの前に特定のゲノム領域について標的濃縮を実施することができる。この標的濃縮ステップは、実施されるシークエンシングの総量は同一で目的の領域のシークエンス深度を増大させることができる。さらに別の実施形態において、比較的に低いシークエンス深度を用いる１ラウンドのシークエンシングを最初に実施することができる。次に、少なくとも１つの一ヌクレオチド変化を示す領域を、より高い倍率のカバー度を有する第２ラウンドのシークエンシングのために濃縮することができる。その後、標的濃縮を用いたシークエンシングの結果について突然変異を定義するために複数回の出現という判定基準を適用することができる。

ＶＩＩ．ダイナミック・カットオフ
上に記載したように、ある座位が数えられるべき突然変異（例えば、ＳＮＭ）として適格であるか決定するために異型（可能性がある突然変異）を裏付けるリードの数に対するカットオフ値Ｎを使用することができる。そのようなカットオフを使用することにより偽陽性を減らすことができる。以下の考察は異なる座位に対するカットオフの選択の方法を提供する。以下の実施形態において、我々は１つの優勢な癌クローンが存在すると仮定する。様々な量の腫瘍ＤＮＡを血漿に放出する複数の癌細胞クローンを含むシナリオのために同様の分析を実施することができる。

Ａ．血漿中で検出される癌関連突然変異の数
血漿中で検出可能な癌関連突然変異の数は、多数のパラメーター、例えば、（１）腫瘍組織中に存在する突然変異の総数が患者の血漿中で検出可能な腫瘍関連突然変異の最大数である、腫瘍組織中の突然変異の数（Ｎ_T）；（２）血漿中の腫瘍由来ＤＮＡの分画濃度が高いほど血漿中で腫瘍関連突然変異を検出する機会が高くなる、血漿中の腫瘍由来ＤＮＡの分画濃度（ｆ）；（３）シークエンス深度とは、配列決定された領域が配列リードによってカバーされる回数のことであり、例えば、１０倍の平均シークエンス深度とは配列決定された領域内の各ヌクレオチドが平均して１０配列リードによってカバーされるという意味であり、シークエンス深度が増加すると癌関連突然変異を検出する機会が増大することになる、シークエンス深度（Ｄ）；および（４）本当の癌関連突然変異とシークエンシングエラーを区別するために使用されるカットオフ値である、潜在的癌関連突然変異としてヌクレオチド変化を定義するために血漿中において検出されるそのヌクレオチド変化の最小の回数（ｒ）によって影響を受けることがあり得る。

１つの実施形態において、血漿中において検出される癌関連突然変異の数を予想するためにポアソン分布を使用する。ある突然変異が２本の相同染色体のうちの１本の上のヌクレオチド位置に存在すると考えると、Ｄというシークエンス深度で突然変異が血漿に存在する予期される回数（Ｍ_P）は、Ｍ_P＝Ｄ×ｆ／２として計算される。

特定の突然変異部位において血漿中でその突然変異を検出する確率（Ｐｂ）は、

として計算され、その式では、ｒ（カットオフ値）は、潜在的腫瘍関連突然変異としてヌクレオチド変化を定義するために血漿中において見られるそのヌクレオチド変化の回数であり；Ｐｏｉｓｓｏｎ（ｉ，Ｍ_P）は平均でＭ_P回検出する場合にｉ回検出するときのポアソン分布確率である。

血漿中において検出されることが予期される癌関連突然変異の総数（ＮＰ）は、Ｎ_P＝Ｎ_T×Ｐｂとして計算され得、その式では、Ｎ_Tは腫瘍組織中に存在する突然変異の数である。以下のグラフは、潜在的突然変異を呼び出すための出現回数（ｒ）の様々な判定基準および様々なシークエンス深度を用いて血漿中において検出されることが予期される腫瘍関連突然変異のパーセンテージを示す。

図６Ａは、腫瘍由来ＤＮＡの１０％および２０％の血漿分画濃度を有する血漿における、可能性がある癌関連突然変異を呼び出すための判定基準として４回および６回の出現回数（ｒ）を使用した癌関連突然変異の検出率を示すグラフ６００である。同一のｒを使用すると、血漿中の腫瘍由来ＤＮＡの分画濃度が高いほど血漿中で検出可能な癌関連突然変異の数が大きくなるという結果になる。血漿中の腫瘍由来ＤＮＡの同一の分画濃度を使用すると、ｒが大きくなるほど検出される突然変異の数が小さくなるという結果になる。

Ｂ．エラーのために検出される偽陽性一ヌクレオチド変化の数
血漿中ＤＮＡシークエンシングデータ中の一ヌクレオチド変化はシークエンシングエラーとアラインメントエラーに起因して生じ得る。偽陽性一ヌクレオチド変化を有するヌクレオチド位置の数は二項分布に基づいて数学的に予想され得る。偽陽性部位（Ｎ_FP）の数に影響するパラメーターには、（１）シークエンシングエラー率が不正確な配列決定されたヌクレオチドの割合として定義される、シークエンシングエラー率（Ｅ）；（２）高いシークエンス深度を用いるほど、シークエンシングエラーを示すヌクレオチド位置の数が増加することになる、シークエンス深度（Ｄ）；（３）潜在的癌関連突然変異を定義するための同一のヌクレオチド変化の最小の出現回数（ｒ）；および（４）目的の領域内のヌクレオチド位置の総数（Ｎ_I）が含まれ得る。

突然変異の発生は無作為な過程として一般にみなされ得る。それ故、潜在的突然変異を定義するための出現の判定基準が上昇すると、偽陽性ヌクレオチド位置の数がｒと共に指数関数的に減少することになる。既存のシークエンシングプラットフォームのうちの幾つかでは、ある特定の配列関係はよりシークエンシングエラーを有する傾向にある。そのようなシークエンシング関係の例にはＧＧＣモチーフ、ホモポリマー（例えば、ＡＡＡＡＡＡＡ）、および単純リピート（例えば、ＡＴＡＴＡＴＡＴＡＴ）が含まれる。これらの配列関係は一ヌクレオチド変化または挿入／欠失人為産物を実質的に増加させる(Nakamura K et al. Nucleic Acids Res 2011;39,e90 および Minoche AE et al. Genome Biol 2011;12,R112)。さらに、反復配列、例えばホモポリマーおよび単純リピートは計算的にはアラインメントにあいまいさを持ち込むことになり、したがって、一ヌクレオチド変異について偽陽性の結果になる。

目的の領域が大きいほど、より大きい数の偽陽性ヌクレオチド位置が観察されることになる。ゲノム全体において突然変異を探している場合、目的の領域はゲノム全体になり、関係するヌクレオチドの数は３０億になる。一方、エクソンに焦点を当てている場合、エクソンをコードするヌクレオチドの数、すなわち、約４５００万が目的の領域になる。

シークエンシングエラーに関係する偽陽性ヌクレオチド位置の数は次の計算に基づいて決定され得る。シークエンシングエラーのために同一の位置において同一のヌクレオチド変化を有する確率（Ｐ_Er）は、

として計算され得、その式では、

は総計でＤ要素からｒ要素を選択するための可能な組合せの数であり、ｒは潜在的突然変異を定義するための出現回数であり、Ｄはシークエンス深度であり、およびＥはシークエンシングエラー率である。

は、

として計算され得る。

突然変異について偽陽性であるヌクレオチド位置（ＮＦＰ）の数は、

として計算され得、その式では、Ｎ_Iは目的の領域におけるヌクレオチド位置の総数である。

図６Ｂは、４回、５回、６回および７回の出現（ｒ）という判定基準とシークエンス深度を用いてヌクレオチド変化を有していると誤って分類されるヌクレオチド位置の予期される数を示すグラフ６５０である。目的の領域はこの計算ではゲノム全体（３０億のヌクレオチド位置）であると考えられる。シークエンシングエラー率は配列決定されたヌクレオチドのうちの０．３％であると考えられる。理解できるように、ｒの値は偽陽性に対して大きな影響を有する。しかし、図６Ａからわかるように、少なくとも有意により高いシークエンス深度が使用されるまでｒの値が大きいほど検出される突然変異の数も減る。

Ｃ．最小出現数（ｒ）の選択
上で考察したように、本当の癌関連突然変異部位とシークエンシングエラーに起因する偽陽性部位の数はシークエンス深度と共に増加することになる。しかしながら、それらの増加率は異なる。それ故、偽陽性部位の数を低い値に保ちつつ本当の癌関連突然変異の検出を最大化するためにシークエンス深度とｒの値の選択を利用することが可能である。

図７Ａは、異なるシークエンス深度での本当の癌関連突然変異部位と偽陽性部位の数を示すグラフ７００である。腫瘍組織における癌関連突然変異の総数は３，０００であると考えられ、血漿中における腫瘍由来ＤＮＡの分画濃度は１０％であると考えられる。シークエンシングエラー率は０．３％であると考えられる。図の説明において、ＴＰは対応する突然変異が腫瘍組織に存在する真の陽性部位を表し、ＦＰは対応する突然変異が腫瘍組織に存在せず、シークエンシングデータ中に存在するヌクレオチド変化がシークエンシングエラーに起因する偽陽性部位を表す。

グラフ７００より、我々が潜在的突然変異部位を定義するために血漿中における６という最小出現回数（ｒ＝６）を判定基準として用いる場合、１１０倍のシークエンス深度で約１，４１０事例の本当の癌関連突然変異が検出されることになる。この判定基準を用いると、わずかに約２０偽陽性部位が検出されることになる。我々が潜在的突然変異を定義するために７回という最小出現回数（ｒ＝７）を判定基準として用いる場合、検出され得る癌関連突然変異の数は４７０〜約９４０だけ減少することになる。それ故、ｒ＝６という判定基準は血漿における癌関連突然変異の検出感度をより高くすることになる。

一方、可能性がある突然変異を定義するために我々が６および７という最小出現回数（ｒ）の判定基準を用いる場合、２００倍のシークエンス深度で検出される本当の癌関連突然変異の数はそれぞれ約２，８００と２，６００になる。これらの２つのｒの値を用いると、偽陽性部位の数はそれぞれ約７４０と２０になる。それ故、２００倍のシークエンス深度では潜在的突然変異を定義するためにｒ＝７というより厳しい判定基準を用いることにより、本当の癌関連突然変異の検出感度に著しく悪影響を与えることなく偽陽性部位の数を大いに減少させることができる。

Ｄ．血漿中において可能性がある突然変異を定義するためのシークエンシングデータのダイナミック・カットオフ
目的の領域内において各ヌクレオチドのシークエンス深度は異なる。我々が血漿中において潜在的突然変異を定義するためのヌクレオチド変化の出現回数に固定カットオフ値を適用する場合、より多くの配列リード（すなわち、より高いシークエンス深度）によりカバーされるヌクレオチドが、より低いシークエンス深度を有するヌクレオチドと比較して、腫瘍組織にそのような変化が無い状態でシークエンシングエラーのためにヌクレオチド変異を有すると誤って分類されるより高い確率を有することになる。この問題を克服するための１つの実施形態は、特定のヌクレオチド位置の実際のシークエンス深度および偽陽性変異を呼び出す確率の所望の上限に応じてｒのダイナミック・カットオフ値を異なるヌクレオチド位置に適用することである。

１つの実施形態において、最大許容可能偽陽性率は１．５×１０⁸ヌクレオチド位置中の１位置に固定され得る。この最大許容可能偽陽性率を用いると、ゲノム全体において特定される偽陽性部位の総数は２０未満になる。図６Ｂにおいて示される曲線に従って異なるシークエンス深度に対するｒの値を決定することができ、且つ、これらのカットオフは表１に示されている。他の実施形態において、他の異なる最大許容可能偽陽性率、例えば、３×１０⁸分の１、１０⁸分の１または６×１０⁷分の１を使用することができる。偽陽性部位の対応する総数はそれぞれ１０未満、３０未満および５０未満になる。

Ｅ．標的濃縮シークエンシング
図７Ａに示されるように、より大きいｒの値を用いることを許容することにより、シークエンス深度が高いほど偽陽性部位の数を低く保ちつつ癌関連突然変異の検出感度がより良くなり得る。例えば、１１０倍のシークエンス深度では６というｒ値を用いて１，４１０事例の本当の癌関連突然変異が血漿中において検出され得るが、一方、シークエンス深度が２００倍まで増加し、７というｒ値が適用されると、検出される本当の癌関連突然変異の数は２，６００になる。２セットのデータは約２０という偽陽性部位の期待数を示すことになる。

２００倍の深度までのゲノム全体のシークエンシングは現時点では比較的に費用がかかるが、そのようなシークエンス深度を達成する一つの可能な方法はより小さい目的の領域に集中することである。例えば、限定されないが、ハイブリダイゼーションにより目的のゲノム領域を捕捉ためにＤＮＡバイトまたはＲＮＡバイトを使用することによって標的領域の分析を達成することができる。次に、捕捉した領域を、例えば、磁気的手段によりプルダウンし、その後にシークエンシングの対象とする。例えば、ＡｇｉｌｅｎｔＳｕｒｅＳｅｌｅｃｔ標的濃縮システム、ＲｏｃｈｅＮｉｍｂｌｅｇｅｎ標的濃縮システムおよびＩｌｌｕｍｉｎａ標的化再シークエンシングシステムを使用してそのような標的捕捉を実施することができる。別のアプローチは、標的領域のＰＣＲ増幅を行い、その後にシークエンシングを実施することである。１つの実施形態において、目的の領域エクソームである。そのような実施形態において、血漿中ＤＮＡに対して全てのエクソンの標的捕捉を実施することができ、次にエクソン領域について濃縮された血漿中ＤＮＡを配列決定することができる。

より高いシークエンス深度を有することに加え、ゲノム全体を分析する代わりに特定の領域に集中することでサーチ領域内のヌクレオチド位置の数を著しく減少させることになり、且つ、同一のシークエンシングエラー率の前提で偽陽性部位の数を減少させることになる。

図７Ｂは、ゲノム全体（ＷＧ）と全てのエクソンの分析を伴う偽陽性部位の予想数を示すグラフ７５０である。各種の分析について、ｒの２つの異なる値である５と６を使用する。２００倍のシークエンス深度では、血漿中において突然変異を定義するためにｒ＝５を用いる場合、偽陽性部位の予想数はゲノム全体と全てのエクソンについてそれぞれ約２３，０００と２３０である。血漿中において突然変異を定義するためにｒ＝６を用いる場合、偽陽性部位の予想数はそれぞれ７５０と７である。それ故、目的の領域におけるヌクレオチドの数の限度により、血漿突然変異分析における偽陽性の数を著しく減少させることができる。

エクソン捕捉シークエンシングにおいて、またはエクソーム捕捉シークエンシングにおいてさえも、サーチ領域内におけるヌクレオチドの数が減少する。それ故、我々が癌関連突然変異の検出のより高い偽陽性率を許容しても、偽陽性部位の絶対数は比較的に低いレベルに保たれ得る。より高い偽陽性率を許容することで血漿中において一ヌクレオチド変異を定義するための最小出現回数（ｒ）について厳しさが少ない判定基準を用いることを許すことになる。これにより、本当の癌関連突然変異を検出するためのより高い感度が生じることになる。

１つの実施形態において、我々は１．５×１０⁶という最大許容可能偽陽性率を用いることができる。この偽陽性率により、標的とされたエクソン内の偽陽性部位の総数はわずかに２０になる。１．５×１０⁶という最大許容可能偽陽性率を用いる異なるシークエンス深度に対するｒの値が表２に示されている。他の実施形態において、他の異なる最大許容可能偽陽性率、例えば、３×１０⁶分の１、１０⁶分の１または６×１０⁵分の１を用いることができる。偽陽性部位の対応する総数はそれぞれ１０未満、３０未満および５０未満になる。１つの実施形態において、上に記載されたように異なる加重は異なる部類の突然変異に帰するものであり得る。

ＶＩＩＩ．癌の検出
上で述べたように、異型座位における配列タグの数を様々な方法で用いてパラメーターを決定することができ、そのパラメーターを閾値と比較して癌のレベルを分類する。ある座位または多数の座位における全てのリードに対する異型リードの分画濃度が、使用することができる別のパラメーターである。以下にパラメーターと閾値を計算する幾つかの例がある。

Ａ．パラメーターの決定
特定の座位においてＣＧが第１アレルについてホモ接合性であり、異型アレルが生物試料（例えば、血漿）において見られる場合、分画濃度は２ｐ／（ｐ＋ｑ）として計算され得、その式では、ｐは異型アレルを有する配列タグの数であり、ｑはＣＧの第１アレルを有する配列タグの数である。この式は、腫瘍のハプロタイプのうちのわずかに１つが、典型的な事例であるだろうことに、異型を有するということを仮定する。したがって、各ホモ接合性座位について分画濃度を計算することができる。分画濃度の平均をとることができる。別の実施形態において、分画濃度を決定するために数ｐはそれらの座位の全てについての配列タグの数を含むことができ、数ｑについても同様である。次に例を説明する。

４人のＨＣＣ患者の血漿における腫瘍由来一ヌクレオチド異型（ＳＮＶ）のゲノムワイド検出を調査した。我々は腫瘍ＤＮＡとバフィーコートＤＮＡをそれぞれ２９．５倍（２７倍〜３３倍の範囲）および４３倍（３９倍〜４６倍の範囲）の半数体ゲノムカバー度の平均深度でシークエンシングした。４人のＨＣＣ患者のそれぞれに由来する腫瘍ＤＮＡとバフィーコートＤＮＡからのＭＰＳデータを比較し、腫瘍ＤＮＡ中には存在するが、バフィーコートＤＮＡ中には存在しないＳＮＶを厳しいバイオインフォマティクスアルゴリズムで掘り当てた。このアルゴリズムは仮想ＳＮＶが少なくとも閾値数の、それが本当のＳＮＶとして分類される前に配列決定された腫瘍ＤＮＡ断片の中（すなわち、対応する配列決定されたタグの中）に存在することを必要とした。例えば、本明細書に記載されるような特定のヌクレオチドのシークエンス深度とシークエンシングエラー率を考慮することにより閾値数が決定された。

図８は、本発明の実施形態に従って血漿中における腫瘍由来ＤＮＡの分画濃度を含む、治療前後の４人のＨＣＣ患者の結果を示す表８００である。腫瘍関連ＳＮＶの数は４人のＨＣＣの事例で１，３３４から３，１７１までの範囲であった。血漿中において検出可能であったそのようなＳＮＶの割合は治療前後に記載される。治療前に腫瘍関連ＳＮＶのうちの１５％〜９４％が血漿中において検出された。治療後に、そのパーセンテージは１．５％〜５．５％の間であった。したがって、検出されるＳＮＶの数は癌のレベルとまさに相関する。このことは、癌のレベルを分類するためのパラメーターとしてＳＮＶの数を用いることができる事を示している。

血漿中における腫瘍由来ＤＮＡの分画濃度が全（すなわち、突然変異型および野生型）配列に対する突然変異型の分画数により決定された。その式は２ｐ／（ｐ＋ｑ）であり、その式では、２は腫瘍で突然変異形成されるただ１つのハプロタイプに対応する。これらの分画濃度はゲノムワイド凝集性アレル喪失（ＧＡＡＬ）分析によって決定された分画濃度とよく相関し (Chan KC et al. Clin Chem 2013;59:211-24) 、且つ、手術の後に低下した。したがって、その分画濃度も癌のレベルの決定に有用なパラメーターであることが示される。

ＳＮＶ分析に由来する分画濃度は腫瘍負荷量を伝えることができる。より高い腫瘍負荷量（例えば、より高い推定分画濃度）を有する癌患者がより低い腫瘍負荷量を有する者よりも高い頻度の体細胞突然変異を有する。したがって、実施形態を予後予測に用いることもできる。一般に、より高い腫瘍負荷量を有する癌患者はより低い腫瘍負荷量を有する者よりも悪い予後を有する。前者の群は、したがって、その疾患のために死亡するより高い見込みを有することになる。いくつかの実施形態において、（例えば、リアルタイムＰＣＲまたは蛍光分析法を用いて）生物試料、例えば、血漿におけるＤＮＡの絶対濃度を決定することができる場合、腫瘍関連遺伝的変化の絶対濃度を決定することができ、臨床的検出および／またはモニタリングおよび／または予後予測に用いることができる。

Ｂ．閾値の決定
閾値を決定するために表８００を使用することができる。上で述べたように、ＳＮＶ分析により決定されたＳＮＶの数と分画濃度は癌のレベルに相関する。個別にその閾値を決定することができる。例えば、閾値を決定するために治療前の値を用いることができる。様々な実施形態において、閾値は絶対値の治療前からの相対的変化であり得る。適切な閾値はＳＮＶの数または分画濃度が５０％減少した値であり得る。そのような閾値は、表８００中の事例のそれぞれについてより低い癌のレベルの分類を提供することになる。そのような閾値はシークエンス深度に左右され得ることに留意されたい。

１つの実施形態において、複数の試料にある閾値を使用することだってでき、そのパラメーターの治療前の値を考慮してもしなくてもよい。例えば、癌を有しない、または低い癌のレベルを有すると対象を分類するために１００個のＳＮＶという閾値を使用することだってできる。１００個のＳＮＶというこの閾値は表８００の中の４つの事例のそれぞれによって満たされる。パラメーターとして分画濃度が使用された場合は、１．０％という閾値がＨＣＣ１〜ＨＣＣ３を実際に０レベルの癌と分類することになり、１．５％という第２閾値がＨＣＣ４を低い癌のレベルと分類することになる。したがって、１より大きい閾値を使用して２つより多くの分類を得ることができる。

他の可能な閾値を例示するため、我々は腫瘍関連ＳＮＶについて健常対照の血漿を分析した。複数回の測定を健常対象に行って構成的ゲノムと比べて生物試料からどれくらい多くの範囲の変異が予想されるか決定することができる。

図９は、本発明の実施形態に従う１６人健常な対照被検者におけるＨＣＣ関連ＳＮＶの検出を示す表９００である。ＳＮＶ分析アプローチの特異度を推定するために表９００を用いることができる。１６人の健常対照は異なる行として記載されている。列は特定のＨＣＣ患者について検出されたＳＮＶを調べ、異型アレルを有する異型座位における配列リードの数と野生型アレル（すなわち、ＣＧに由来するアレル）を有する配列リードの数を示す。例えば、ＨＣＣ１について、対照Ｃ０１はそのような異型座位において４０異型リードを有したが、３１，２６１リードの野生型アレルを有した。最後の列はＨＣＣ１患者のＳＮＶの全てにまたがる総分画濃度を示す。ＨＣＣ関連ＳＮＶはＨＣＣ患者に特異的であったので、ＨＣＣ関連ＳＮＶの存在は偽陽性を表す。あるカットオフ値が本明細書に記載されるようにこれらの見かけの配列異型に適応される場合、これらの偽陽性の全てがフィルタリングで除外されることになる。

１６人の健常対照の血漿における少数のこれらの仮想腫瘍関連突然変異の存在がこの方法の「確率的ノイズ」を表し、シークエンシングエラーに起因するようであった。そのようなノイズから推定される平均分画濃度は０．３８％であった。これらの値は健常対象についての範囲を示す。したがって、最も高い分画濃度が０．４３％であったので、ＨＣＣについての０レベルの癌の分類の閾値は約０．５％であり得た。したがって、全ての癌細胞がＨＣＣ患者から除去される場合、これらの低い分画濃度が予期されることになる。

表８００を参照し直して、０．５％を０レベルの癌の閾値として使用した場合、ＨＣＣ１とＨＣＣ３の治療後血漿データがＳＮＶ分析に基づいて０レベルを有すると決定されることになる。ＨＣＣ２は０よりも高いあるレベルとして分類される可能性がある。ＨＣＣ４も０よりも高いあるレベルまたはいくらかより高いレベルとして分類される可能性があるが、治療前試料と比較して未だに比較的に低いレベルに分類される可能性がある。

パラメーターが異型座位の数に対応する１つの実施形態において、閾値は０であり得る（すなわち、１つの異型座位が非０レベルの癌を示すことがあり得る）。しかしながら、（例えば、深度の）多数の設定を用いると、閾値はより高くなり、例えば、５または１０の絶対値になる。治療後に人がモニターされる１つの実施形態において、閾値は使用中に現れる（腫瘍を直接的に分析することにより特定された）ある特定のパーセンテージのＳＮＶであり得る。ある座位において必要とされる異型リードの数のカットオフ値が充分に大きい場合、１つの異型座位を有することだけで非０レベルの癌を示す可能性がある。

したがって、生物試料（例えば、血漿）に由来するＤＮＡ中の変異（例えば、一ヌクレオチド変異）の定量的分析を癌の診断、モニタリングおよび予後予測に用いることができる。癌の検出のために試験対象の血漿中において検出される一ヌクレオチド変異の数を一群の健常対象のそれと比較することができる。健常対象では、血漿中における見かけの一ヌクレオチド変異はシークエンシングエラー、血液細胞に由来する非クローン性突然変異、および他の器官に由来する非クローン性突然変異に起因し得る。表９００に示されるように、正常な健常対象の細胞が少数の突然変異を担持することが示されている (Conrad DF et al. Nat Genet 2011;43:712-4)。したがって、試験した患者が非０レベルの癌に対応する異常に多数の一ヌクレオチド変異を血漿中に有するか決定するための基準範囲として一群の見たところ健康な対象の血漿における見かけの一ヌクレオチド変異の総数を用いることができる。

基準範囲を構築するために使用される健常対象は年齢と性別に関して試験対象と一致し得る。これまでの研究において、体細胞における突然変異の数は年齢と共に増加することが示されている(Cheung NK et al, JAMA 2012;307:1062-71)。したがって、我々は歳をとるにつれ、大半の時間で細胞が比較的に良性であっても、それらの細胞のクローンを蓄積することが人にとって「正常」になり、または臨床的に重要になるのに非常に長い時間がかかることになる。１つの実施形態において、異なる対象群、例えば、異なる年齢、性別、民族、および他のパラメーター（例えば、喫煙の状況、肝炎の状況、アルコール歴、薬歴）について基準レベルを作成することができる。

基準範囲は使用するカットオフ値（すなわち、ある座位において必要とされる異型配列タグの数）、ならびに考えられる偽陽性率と他の変数（例えば、年齢）に基づいて変わり得る。したがって、特定のセットの１種類以上の判定基準について基準範囲を決定することができ、同一の判定基準を用いてある試料のパラメーターが決定されることになる。その後、同一の判定基準を用いて両方が決定されたのでそのパラメーターを基準範囲と比較することができる。

上で述べたように、実施形態は、癌のレベルを決定するために複数の閾値を用いることができる。例えば、第１レベルは、閾値よりも低いパラメーターについて癌の兆候を判定することはできず、且つ、前癌レベルであり得る少なくとも第１癌のレベルを判定することができた。他のレベルは異なるステージの癌に対応することがあり得た。

Ｃ．実験変数に対する依存度
シークエンシングの深度は少数派（例えば、腫瘍）ゲノムの最小検出閾値の構築にとって重要であり得る。例えば、１０半数体ゲノムのシークエンス深度を使用する場合、シークエンシング技術を用いてもエラー無しで検出できるだろう最小腫瘍ＤＮＡ濃度は１／５、すなわち、２０％である。一方、１００半数体ゲノムのシークエンス深度を使用する場合、２％にまで落ちることがあり得る。この分析は、たった１つの突然変異座位が分析されているシナリオを指している。しかしながら、より多くの突然変異座位が分析されているときに最小腫瘍ＤＮＡ濃度はより低いことがあり得、且つ、二項確率関数によって管理される。例えば、シークエンス深度が１０倍であり、且つ、腫瘍ＤＮＡの分画濃度が２０％である場合、突然変異を検出する機会は１０％である。しかしながら、我々が１０事例の突然変異を有する場合、少なくとも１事例の突然変異を検出する機会は１−（１−１０％）¹⁰＝６５％であるだろう。

幾つかの効果がシークエンス深度の増大について存在する。シークエンス深度が高いほど、より多くのシークエンシングエラーが見られることになる。図４および５を参照のこと。しかしながら、シークエンシングエラーはゲノム中で無作為に生じるが、突然変異は所与の集団の細胞について同一の位置で生じるので、より高いシークエンス深度ほど、シークエンシングエラーを細胞（例えば、癌細胞）の亜集団のクローン増殖に起因する突然変異と区別することができる。

シークエンス深度が高いほど、「健常細胞」に由来するより多くの突然変異を特定することになる。しかしながら、これらの健常細胞のクローン増殖が無く、且つ、それらの突然変異プロファイルが異なるとき、これらの健常細胞における突然変異は血漿中におけるそれらの出現頻度によって前記の突然変異と区別され得る（例えば、突然変異を示す所望の数のリードに対するカットオフＮを用いることにより、例えば２、３、４、５、またはそれより多くのＮを有することにより）。

上で述べたように、閾値は、クローン増殖し、したがって、他の機構ではフィルタリングで除外され得ないだろう健常細胞における突然変異の量に依存し得る。予期されるこの分散は健常対象を分析することにより獲得され得る。クローン増殖が時間と共に起こるので、患者の年齢が健常対象において見られる分散に影響することがあり得、したがって、閾値は年齢に依存し得る。

Ｄ．標的化アプローチとの組合せ
いくつかの実施形態において、標的化アプローチと組合せてランダムシークエンシングを用いることができる。例えば、癌患者を提示して血漿試料のランダムシークエンシングを実施することができる。コピー数の変化およびＳＮＶについて血漿中ＤＮＡのシークエンシングデータを分析することができる。変化（例えば、増幅／欠失または高密度のＳＮＶ）を示す領域は連続的モニタリング目的のために標的とされ得る。一つの方法として効果的にそのモニタリングを一定の期間にわたって行うことができ、またはランダムシークエンシングの直後に行うことができる。標的化分析については、非侵襲的出生前診断用に血漿中ＤＮＡを濃縮するために溶液相ハイブリダイゼーションベースの捕捉アプローチをうまく利用した (Liao GJ et al. Clin Chem 2011;57:92-101)。そのような技術が上述されている。したがって、癌の検出とモニタリングのために標的化アプローチとランダムアプローチを併用することができる。

したがって、突然変異形成した可能性があることが上述した非標的化ゲノムワイドアプローチを用いてわかった座位の標的化シークエンシングを実施することができる。そのような標的化シークエンシングは、（例えば、ＡｇｉｌｅｎｔＳｕｒｅＳｅｌｅｃｔ、ＮｉｍｂｌｅＧｅｎＳｅｑｕｅｎｃｅＣａｐｔｕｒｅ、またはＩｌｌｕｍｉｎａ標的化再シークエンシングシステムを用いる）溶液相ハイブリダイゼーション技術または固相ハイブリダイゼーション技術とそれに続く大量平行シークエンシングを用いて実施され得る。別のアプローチは標的化シークエンシングのために（例えば、ＰＣＲベースの）増幅システムを実行することである (Forshew T et al. Sci Transl Med 2012; 4: 135ra68)。

ＩＸ．分画濃度
ある座位が突然変異として特定される前にその座位における所望の数の変異に対するカットオフ値を決定するために腫瘍ＤＮＡの分画濃度を用いることができる。例えば、分画濃度が比較的に高いと知られていた場合、本当のＳＮＶについて比較的に大きい数の異型リードが存在するはずであることが知られているので、高カットオフを用いてより多くの偽陽性をフィルタリングで除外することができるだろう。一方、分画濃度が低かった場合、より低いカットオフが必要とされることがあり得、それで幾つかのＳＮＶを見落とすことはない。この場合、分画濃度がパラメーターとして用いられるＳＮＶ分析と異なる方法によって分画濃度が決定されることになる。

分画濃度の決定に様々な技術を用いることができ、それらのうちの幾つかは本明細書に記載されている。混合物、例えば、腫瘍細胞と非腫瘍細胞の混合物を含有する生検試料、または腫瘍細胞から放出されたＤＮＡと非腫瘍細胞から放出されたＤＮＡを含有する癌患者由来の血漿試料における腫瘍由来ＤＮＡの分画濃度を決定するためにこれらの技術を用いることができる。

Ａ．ＧＡＡＬ
ゲノムワイド凝集性アレル喪失（ＧＡＡＬ）はヘテロ接合性を失った座位を分析する (Chan KC et al. Clin Chem 2013;59:211-24)。ヘテロ接合性である構成的ゲノムＣＧの部位に関して、腫瘍はアレルのうちの一方の欠質を有する座位を多くの場合に有する。したがって、そのような座位の配列リードは別のアレルよりも一方のアレルからより多くのものを示し、その場合にその差異は試料中の腫瘍ＤＮＡの分画濃度に比例する。そのような計算の例が以下に示される。

ＨＣＣ患者のバフィーコートと腫瘍組織から抽出されたＤＮＡについてＡｆｆｙｍｅｔｒｉｘゲノムワイドヒトＳＮＰアレイ６．０システムを用いて遺伝子型を決定した。Ａｆｆｙｍｅｔｒｉｘジェノタイピングコンソール第４．１版を用いてマイクロアレイデータを処理した。Ｂｉｒｄｓｅｅｄ第２版アルゴリズムを用いて遺伝子型分析と一ヌクレオチド多型（ＳＮＰ）コーリングを実施した。ヘテロ接合性喪失（ＬＯＨ）領域の特定とコピー数分析の実施のためにバフィーコートと腫瘍組織の遺伝子型解析データを用いた。前記のジェノタイピングコンソールをＡｆｆｙｍｅｔｒｉｘからの初期パラメーターおよび１００ｂｐという最小ゲノム断片サイズおよびその断片内の最小で５遺伝子マーカーと共に用いてコピー数分析を実施した。

ＬＯＨを有する領域が、腫瘍組織では１コピーを有し、且つ、バフィーコートでは２コピーを有する領域として特定され、これらの領域内のＳＮＰはバフィーコートではヘテロ接合性であり、腫瘍組織ではホモ接合性であった。腫瘍組織においてＬＯＨを示すゲノム領域について、バフィーコートでは存在するが腫瘍組織では存在しないか、強度が低下しているＳＮＰアレルは染色体領域の欠質した断片上のアレルであると考えられた。バフィーコートと腫瘍組織の両方で存在するアレルは染色体領域の欠質していない断片に由来するとみなされた。腫瘍において１コピー喪失を有する全ての染色体領域について欠質アレルと非欠質アレルを担持する配列リードの総数を計数した。これらの２つの値の差異を用い、次の等式を用いて試料中の腫瘍由来ＤＮＡの分画濃度（Ｆ_GAAL）を推測した：

式中、Ｎ_non-delは非欠質アレルを担持する配列リードの総数を表し、Ｎ_delは欠質アレルを担持する配列リードの総数を表す。

Ｂ．ゲノム表現を用いる推定
ＧＡＡＬ技術の問題は、特定の座位（すなわち、ＬＯＨを示す座位）が特定され、そのような座位に整列する配列リードが使用されることである。そのような要求が追加のステップと、したがって、追加コストを加える場合があり得る。コピー数、例えば、配列リード密度だけを使用する実施形態を今から説明する。

染色体変化、例えば、増幅および欠失は癌ゲノムにおいて頻繁に観察される。癌組織において観察されるそれらの染色体変化は通常は染色体小領域に関係し、これらの変化は１Ｍｂよりも短いことがあり得る。そして、癌関連染色体変化異なる患者において異質であり、したがって、異なる患者で異なる領域が影響を受けることがあり得る。数十、数百、または数千ものコピー数の変化が癌ゲノムに見つかることも珍しくはない。これらの要因の全てが腫瘍ＤＮＡ濃度の決定を困難なものにしている。

実施形態は、腫瘍関連染色体変化の結果生じる定量的変化の分析を伴う。１つの実施形態において、例えば、ＩｌｌｕｍｉｎａＨｉＳｅｑ２０００シークエンシングプラットフォームによる大量平行シークエンシングを用いて癌細胞と正常細胞に由来するＤＮＡを含有するＤＮＡ試料のシークエンシングを行う。得られたＤＮＡは血漿または他の適切な生物試料中の無細胞性ＤＮＡであり得る。

腫瘍組織において増幅される染色体領域は増加した配列決定される確率を有し、腫瘍組織において欠質される領域は減少した配列決定される確率を有することになる。結果として、増幅領域に整列する配列リードの密度が増加することになり、欠質領域へのその整列が減少することになる。変異の程度はＤＮＡ混合物における腫瘍由来ＤＮＡの分画濃度に比例する。腫瘍組織に由来するＤＮＡの割合が高いほど、染色体変化によってより大きい変化が引き起こされることになる。

１．高い腫瘍濃度を有する試料における評価
４人の肝細胞癌患者の腫瘍組織からＤＮＡを抽出した。ＣｏｖａｒｉａＤＮＡ超音波処理システムを用いてそのＤＮＡを断片化し、記載される (Chan KC et al. Clin Chem 2013;59:211-24)ようにＩｌｌｕｍｉｎａＨｉＳｅｑ２０００プラットフォームを用いてそのＤＮＡの配列を決定した。それらの配列リードをヒト基準ゲノム（ｈｇ１８）に対して整列させた。その後、ゲノムを１Ｍｂのビン（領域）に分割し、記載される(Chen EZ et al. PLoS One. 2011;6:e21791) ようにＧＣバイアスを調整した後に各ビンについて配列リード密度を計算した。

配列リードを基準ゲノムに対して整列させた後に様々な領域について配列リード密度を計算することができる。１つの実施形態において、配列リード密度は、基準ゲノムに（例えば、基準ゲノム中の唯一の位置に）対して整列させることができる総配列リード数で除算された特定のビン（例えば、１Ｍｂ領域）にマップされるリードの数として決定される割合である。腫瘍組織において増幅される染色体領域と重なるビンはそのような重複を有しないビンのものよりも高い配列リード密度を有することが予期される。一方、欠質した染色体領域と重なるビンはそのような重複を有しないビンのものよりも低い配列リード密度を有することが予期される。染色体変化を有する領域と有しない領域の間の配列リード密度の差の大きさは試料中の腫瘍由来ＤＮＡの割合と腫瘍細胞における増幅／欠失の程度によって主に影響を受ける。

異なる種類の染色体変化に対応する配列リード密度を有するビンを特定するために様々な統計的モデルを用いることができる。１つの実施形態において、正規混合モデル (Finite mixture models、 2004年中のMcLachlan G and Peel D. のMultvariate normal mixtures. 81〜116頁。 John Wiley & Sons Press) を用いることができる。他の統計的モデル、例えば、二項混合モデルおよびポアソン回帰モデル (Finite mixture models、 2004年中のMcLachlan G and Peel D. Mixtures with non-normal components、135〜174頁。 John Wiley & Sons Press)も用いることができる。

バフィーコートＤＮＡのシークエンシングから決定されたのと同一のビンの配列リード密度を用いてあるビンについての配列リード密度を正規化することができる。異なるビンの配列リード密度は特定の染色体領域の配列関係によって影響を受けることがあり得、したがって、正規化は変化を示す領域をより正確に特定することに役立ち得る。例えば、異なる染色体領域のマップ可能性（ある配列をその元の位置に戻って配列させる確率を指す）は異なることがあり得る。さらに、コピー数の多型（すなわち、コピー数変異）もそれらのビンの配列リード密度に影響することになる。それ故、バフィーコートＤＮＡを用いる正規化は、異なる染色体領域間の配列関係の差異に関連する変異を最小にする可能性があり得る。

図１０Ａは、本発明の実施形態に従うＨＣＣ患者の腫瘍試料の配列リード密度の分布プロット１０００を示す。ＨＣＣ患者からの外科的切除の後に腫瘍組織を得た。ｘ軸は患者の腫瘍組織とバフィーコートの間の配列リード密度の比率（Ｒ）のｌｏｇ₂を表す。ｙ軸はビンの数を表す。

欠失を有する領域、増幅を有する領域、および染色体変化を有しない領域を表すために正規混合モデルを用いてピークを分布曲線にフィットさせることができる。１つの実施形態において、異なる推算値にまたがって赤池情報量基準（ＡＩＣ）によりピークの数を決定することができる。ｌｏｇ₂Ｒ＝０（すなわち、Ｒ＝１）での中央ピークはどのような染色体変化も有しない領域を表す。左側のピーク（中央ピークと比べて）は１コピー喪失を有する領域を表す。右側のピーク（中央ピークと比べて）は１コピー増幅を有する領域を表す。

腫瘍由来ＤＮＡの分画濃度は増幅領域と欠質領域を表すピーク間の距離によって反映され得る。その距離が大きいほど試料中の腫瘍由来ＤＮＡの分画濃度が高くなる。試料中の腫瘍由来ＤＮＡの分画濃度は次の等式を用いてＦ_GRとして表されるこのゲノム表現アプローチによって決定され得る：

式中、Ｒ_rightは右側ピークのＲ値であり、Ｒ_leftは左側ピークのＲ値である。最大の差異は、１００％に対応する１である。ＨＣＣ患者から得られた腫瘍試料中の腫瘍由来ＤＮＡの分画濃度は６６％であると推定され、その場合にＲ_rightとＲ_leftの値はそれぞれ１．３７６と０．７１２である。

この結果を検証するためにゲノムワイド凝集性アレル喪失（ＧＡＡＬ）分析を用いる別の方法も用いて腫瘍ＤＮＡの割合の分画濃度を独自に決定した (Chan KC et al. Clin Chem 2013;59:211-24)。表３は４人のＨＣＣ患者の腫瘍組織における腫瘍由来ＤＮＡのゲノム表現（Ｆ_GR）とＧＡＡＬ（Ｆ_GAAL）アプローチを用いた分画濃度を示す。これらの２つの異なるアプローチによって決定された値は互いによく合致する。

２．低腫瘍濃度を有する試料における評価
試料ＤＮＡのうちの５０％より多くが腫瘍由来であるとき、すなわち、腫瘍ＤＮＡが大部分であるとき、腫瘍ＤＮＡの分画濃度を測定するために我々のゲノム表現方法を用いることができることが上記の分析により示された。以前の分析において我々は、腫瘍由来ＤＮＡが小さな割合（すなわち、５０％未満）を表す試料にこの方法を適用することもできることを示した。小さな割合の腫瘍ＤＮＡを含有し得る試料には癌患者の血液、血漿、血清、尿、胸膜液、脳脊髄液、涙、唾液、腹水および糞便が含まれるが、これらに限定されない。幾つかの試料では腫瘍由来ＤＮＡの分画濃度は４９％、４０％、３０％、２０％、１０％、５％、２％、１％、０．５％、０．１％またはそれ未満であり得る。

そのような試料にとって、増幅および欠失を有する領域を表す配列リード密度のピークは、上で例示したように比較的に高濃度の腫瘍由来ＤＮＡを含有する試料におけるほど明確ではないことがあり得る。１つの実施形態において、癌細胞中の染色体変化を有する領域は、癌ＤＮＡを含有しないことが知られている基準試料との比較をおこなうことにより特定され得る。例えば、癌を有しない対象の血漿を基準として用いてそれらの染色体領域の配列リード密度の規範的範囲を決定することができる。試験対象の配列リード密度を基準群の値と比較することができる。１つの実施形態において、配列リード密度の平均値と標準偏差（ＳＤ）を決定することができる。各ビンについて、試験対象の配列リード密度を基準群の平均値と比較して次の式を用いてｚスコア（ｚ−ｓｃｏｒｅ）を決定する：

式中、ＧＲ_testは癌患者の配列リード密度を表し、

は基準対象の平均配列リード密度を表し、且つ、

は基準対象の配列リード密度のＳＤを表す。

３以下のｚスコアを有する領域は癌患者における特定のビンの配列リード密度の著しい出現不足を表し、腫瘍組織における欠失の存在を示唆する。３より大きいｚスコアを有する領域は癌患者における特定のビンの配列リード密度の過剰出現を意味し、腫瘍組織における増幅の存在を示唆する。

次に、全てのビンのｚスコアの分布を構築して異なる数のコピー獲得とコピー喪失、例えば、１または２コピーの染色体の欠失、および１コピー、２コピー、３コピーおよび４コピー追加の染色体という結果になる増幅に関係する領域を特定することができる。幾つかの事例では、１コピーより多くの染色体または１コピーより多くの染色体の領域が関わり得る。

図１０Ｂは、本発明の実施形態に従うＨＣＣ患者の血漿における全てのビンのｚスコアの分布プロット１０５０を示す。（左から右へ）１コピー喪失、コピー変化無し、１コピー獲得、および２コピー獲得を表すピークをｚスコア分布にフィットさせる。次に、例えば、上に記載されたように正規混合モデルを用いて異なる種類の染色体変化を有する領域が特定され得る。

次に、１コピー獲得または１コピー喪失を示すビンの配列リード密度から試料中の癌ＤＮＡの分画濃度（Ｆ）を推測することができる。特定のビンについて決定される分画濃度は、

として計算され得る。これを、

と表現することもでき、それを、

と書き直すこともでき、式中、ＣＶは基準対象の配列リード密度の測定のための変異の係数であり、

である。

１つの実施形態において、それらのビンに由来する結果を組み合わせる。例えば、１コピー獲得を示すビンのｚスコアの平均を計算することができ、または結果生じるＦ値の平均を計算することができる。別の実施形態において、Ｆを推測するために用いられるｚスコアの値が統計的モデルにより決定され、且つ、図１０Ｂおよび図１１において示されるピークにより表される。１コピー獲得を示す領域の分画濃度を決定するために、例えば、右側のピークのｚスコアを用いることができる。

別の実施形態において、３以下のｚスコアと３より大きいｚスコアを有する全てのビンはそれぞれ１コピー喪失および１コピー獲得を有する領域に属することがあり得る。なぜなら、これらの２種類の染色体変化は最も一般的だからである。染色体変化を有するビンの数が比較的に小さく、且つ、正規分布のフィッティングが正確ではないことがあり得るとき、この近似は非常に有用である。

図１１は、本発明の実施形態に従うＨＣＣ患者の血漿のｚスコアの分布プロット１１００を示す。染色体変化と重なるビンの数は比較的に小さいが、３以下のｚスコアと３より大きいｚスコアを有する全てのビンをそれぞれ１コピー喪失と１コピー獲得の正規分布にフィットさせた。

ＧＡＡＬ分析とこのＧＲベースのアプローチを用いて４人のＨＣＣ患者の血漿における腫瘍由来ＤＮＡの分画濃度を決定した。結果が表４に示されている。理解できるように、推定分画表示はＧＡＡＬ分析とＧＲ分析の間でよく相関する。

Ｃ．分画濃度の決定方法
図１２は、無細胞性ＤＮＡを含む生物試料中の腫瘍ＤＮＡの分画濃度を本発明の実施形態に従って決定する方法１２００のフローチャートである。上記の実施形態を含む様々な実施形態を通して方法１２００を実施することができる。

ブロック１２１０において、１種類以上の配列タグが生物試料中の複数のＤＮＡ断片のそれぞれについて受領される。他の方法に対して本明細書に記載されるようにブロック１２１０を実施することができる。例えば、血漿試料からＤＮＡ断片の一端の配列を決定することができる。別の実施形態において、ＤＮＡ断片の両端の配列を決定することができ、それによってその断片の長さを推定することができる。

ブロック１２２０において、配列タグについてゲノム上の位置を決定する。それらのゲノム上の位置は、例えば、本明細書に記載されるように、それらの配列タグを基準ゲノムに対して整列させることにより決定され得る。断片の両端の配列が決定される場合、対になったタグを、特定の距離、例えば、５００塩基または１，０００塩基より短くさせられている２つのタグの間の距離を有する対として整列させることができる。

ブロック１２３０において、複数のゲノム領域のそれぞれについて、ゲノム領域内にゲノム上の位置を有する配列タグからゲノム領域内のＤＮＡ断片のそれぞれの量を決定する。それらのゲノム領域は基準ゲノムにおける等しい長さの非重複性ビンであり得る。１つの実施形態において、あるビンに整列する多数のタグを計数することができる。したがって、各ビンは整列したタグの対応する数を有することがあり得る。ビンがある特定の数の整列したタグを有する頻度を示すヒストグラムを計算することができる。方法１２００は、それぞれ同じ長さを有するゲノム領域（例えば、１Ｍｂのビン）であって、非重複性の領域に対して実施され得る。他の実施形態において、考慮され得る、異なる長さを用いることができ、それらの領域は重なってもよい。

ブロック１２４０において、それぞれの密度を得るために前記のそれぞれの量が正規化される。１つの実施形態において、それぞれの密度を得るために前記のそれぞれの量を正規化することは、前記のそれぞれの密度と基準密度を決定するために同一の整列した基準タグの総数を用いることを含む。別の実施形態において、前記のそれぞれの量を整列した基準タグの総数で除算することができる。

ブロック１２５０において、ゲノム領域が１コピー喪失を示すのか、または１コピー獲得を示すのか特定するために前記のそれぞれの密度を基準密度と比較する。１つの実施形態において、前記のそれぞれの密度と基準密度の間で（例えば、ｚスコアの決定の一部として）差を計算し、その差をカットオフ値と比較する。様々な実施形態において、健常細胞の（例えば、バフィーコートに由来する）試料から、または前記のそれぞれの量それら自体（例えば、大半の領域が喪失または獲得を示さないという仮定で中央値または平均値をとることにより）から基準密度を得ることができる。

ブロック１２６０において、１コピー喪失を示すと特定された１つ以上のそれぞれの密度から、または１コピー獲得を示すと特定された１つ以上のそれぞれの密度から第１密度を計算する。第１密度はちょうど１つのゲノム領域に対応し得る、または複数のゲノム領域の密度から決定され得る。例えば、第１密度は１コピー喪失を有するそれぞれの密度から計算され得る。それらのそれぞれの密度は、腫瘍濃度を与えられて、腫瘍における領域の欠質の結果生じる密度の差異の量の測定値を提供する。同様に、第１密度が１コピー獲得を有するそれぞれの密度に由来するものである場合、腫瘍における領域の二倍化の結果生じる密度の差異の量の測定値を得ることができる。上記の節は、第１密度に使用される平均密度を決定するために複数の領域の密度をどのように用いることができるかということの様々な例を説明している。

ブロック１２７０において、差異を得るために第１密度を別の密度と比較することにより分画濃度を計算する。その差異を基準密度で正規化し、それはブロック１２７０において実行され得る。例えば、差異を基準密度で除算することにより差異を基準密度で正規化することができる。別の実施形態において、それより前のブロックにおいて差異を正規化することができる。

１つの実施形態において、前記の別の密度は、例えば、２つ上の節で述べたような基準密度である。したがって、分画濃度の計算は前記の差異を２で乗算することを含むことがあり得る。別の実施形態において、別の密度は、例えば、１つ上の節で述べたような、１コピー喪失を示すと特定されたそれぞれの密度から計算される第２密度である（その場合に、第１密度は、１コピー獲得を示すと特定されたそれぞれの密度を用いて計算される）。この場合、第１密度と基準密度の第１比率（例えば、Ｒ_right）を計算すること、および第２密度と基準密度の第２比率（Ｒ_left）を計算することによって正規化された差異を決定することができ、その場合に、差異は第１比率と第２比率の間にある。上に記載したように、前記のそれぞれの密度のヒストグラムの分布曲線にピークをフィットさせることによって１コピー喪失または１コピー獲得を示すゲノム領域の特定を実行することができる。

まとめると、実施形態は、腫瘍組織において染色体領域が増幅または欠質されているか、および、領域が増幅または欠質されているか同時に決定するために異なる染色体領域における血漿中ＤＮＡのゲノム表現を分析して腫瘍由来ＤＮＡの分画濃度を推定するためにそのゲノム表現を用いることができる。幾つかの実施形態は、異なる種類の変化、すなわち、１コピー、２コピー、３コピーまたは４コピーの獲得、および１コピーまたは２コピーの喪失に関連するゲノム表現を決定するために、異なる領域のゲノム表現の包括的分布を分析する正規混合モデルを用いる。

実施形態は他の方法、例えば、ゲノムワイド凝集性アレル喪失（ＧＡＡＬ）アプローチ (米国特許出願公開第１３／３０８，４７３号明細書； Chan KC et al. Clin Chem 2013;59:211-24)および腫瘍関連一ヌクレオチド突然変異の分析(Forshew T et al. Sci Transl Med. 2012;4:136ra68)に対して幾つかの利点を有する。染色体変化を有する領域に位置する全ての配列リードを、その領域の配列リード密度を決定するために用いることができ、したがって、それらの配列リードは腫瘍ＤＮＡの分画濃度に関して情報を与える。一方、ＧＡＡＬ分析では、個体においてヘテロ接合性であり、且つ、染色体獲得または染色体喪失を有する染色体領域内に位置する一ヌクレオチドをカバーする配列リードだけが情報を与えることになる。同様に、癌関連突然変異の分析にとって、突然変異をカバーする配列リードだけが腫瘍ＤＮＡ濃度の推定に有用になる。したがって、他のアプローチと比較したときに腫瘍由来ＤＮＡの分画濃度の評価において同一の程度の正確性を達成するために比較的に少ないシークエンシングリードが必要とされ得るので、実施形態がシークエンシングデータのより費用効果がある使用法を許容することがあり得る。

Ｘ．代替方法
特定の突然変異が、座位が真の突然変異であると確認されるための基準（それによって、陽性予測値を調製する）として配列タグ上で見られる時の数の使用は別として、癌性突然変異が確認される高予測値を提供するカットオフ値の使用の代わりに、またはそれに加えて、他の技術を採用できる。例えば、シークエンスデータをプロセシングするとき、例えば、配列決定したヌクレオチドの品質スコアを考慮に入れることにより、異なるストリンジェンシーのバイオインフォマティクスのフィルターを使用し得る。ひとつの実施形態では、ＤＮＡシークエンサーおよび種々のシークエンスエラープロファイルを用いたシークエンシング化学を使用できる。低シークエンスエラー比率を用いたシークエンサーおよび化学は、高陽性予測値を得ることになる。シークエンシング精度を上げるために、同じＤＮＡフラグメントのシークエンシングの反復も使用され得る。ひとつの可能な解析戦略は、パシフィックバイオサイエンスのサーキュラーコンセンサスシークエンシング戦略である。

別の実施形態では、配列決定したフラグメントのサイズ情報を、データ解釈に組み入れることができる。腫瘍由来ＤＮＡは、血漿中非腫瘍由来ＤＮＡより短いので（米国特許出願第１３／３０８，４７３号参照）、潜在的腫瘍由来突然変異を含むより短い血漿中ＤＮＡフラグメントの陽性予測値は、より長い血漿中ＤＮＡフラグメントより高いであろう。サイズデータは、もし、血漿中ＤＮＡのペアエンドシークエンシングを実施したならば、容易に得られるだろう。別の方法として、長いリード長を用いたＤＮＡシークエンサーを使用し、それゆえ、血漿中ＤＮＡフラグメントの完全長を得られ得る。ＤＮＡシークエンシング前に、血漿中ＤＮＡ試料のサイズ分画も実施できる。サイズ分画を使用できる方法の例としては、ゲル電気泳動法、マイクロフルイディクス法（例えば、ＣａｌｉｐｅｒＬａｂＣｈｉｐＸＴシステム）およびサイズ排除スピンカラムの使用が挙げられる。

さらに別の実施形態では、非造血系癌を有する患者の血漿中腫瘍関連突然変異の分画濃度は、もし、血漿中のより短いＤＮＡフラグメントに注目するならば、増加すると予想されることになる。ひとつの実施では、２つ以上の異なるサイズ分布のＤＮＡフラグメントの血漿中腫瘍関連突然変異の分画濃度を比較し得る。非血液学的癌を有する患者は、より長いフラグメントと比較したとき、より短いフラグメントの腫瘍関連突然変異のより高分画濃度を有するだろう。

いくつかの実施形態では、２つ以上の同血液試料アリコットから、または同じ機会または異なる機会に採取した２つ以上の血液試料からのシークエンス結果を１つに合わせることができる。１つ以上のアリコットまたは試料に見られる潜在的突然変異は、腫瘍関連突然変異の高陽性予測値を有することになる。該陽性予測値は、そのような突然変異を示す試料数に比例して増加することになる。異なる時点で採取した血漿試料中に存在する潜在的突然変異は、潜在的突然変異と見なされ得る。

ＸＩ．実施例
次は、技術およびデータの例であり、本発明の実施形態に限定すると考えるべきでない。
Ａ．材料および方法
試料収集に関して、肝細胞癌（ＨＣＣ）患者、慢性Ｂ型肝炎保因者、および乳癌および卵巣癌を同時に患っている患者を募集した。全ＨＣＣ患者は、バルセロナクリニック肝臓癌ステージＡ１の疾病を有していた。全被験者からの末梢血液を、ＥＤＴＡ含有チューブに収集した。ＨＣＣ患者の腫瘍組織を、その癌切除手術中に得た。

末梢血液試料を、４℃で１０分間、１，６００ｇで遠心分離した。血漿部を、４℃で１０分間、１６，０００ｇで再遠心分離して、それから、８０℃で貯蔵した。４．８ｍＬの血漿から無細胞性ＤＮＡ分子を、ＱＩＡａｍｐＤＳＰＤＮＡＢｌｏｏｄミニキット（キアゲン社）の血液および体液プロトコルに従って抽出した。血漿中ＤＮＡを、ＳｐｅｅｄＶａｃ濃縮装置（ＳａｖａｎｔＤＮＡ１２０；サーモサイエンティフィック社）を用いて、ＤＮＡシークエンスライブラリーの後に続く調製のための容器当たり４０μｌの最終容量に濃縮した。

ゲノムＤＮＡを、ＱＩＡａｍｐＤＳＰＤＮＡＢｌｏｏｄミニキットの血液および体液プロトコルに従って、患者のバフィーコート試料から抽出した。ＤＮＡを、ＱＩＡａｍｐＤＮＡミニキット（キアゲン社）を用いて、腫瘍組織から抽出した。

ゲノムＤＮＡ試料のシークエンスライブラリーは、製造者の指示書に従って、ペアエンド試料調製キット（イルミナ社）で構築した。手短に言えば、ゲノムＤＮＡの１〜５マイクログラムを、コバリス社Ｓ２２０超音波破砕機を用いて、２００ｂｐフラグメントへ、最初に剪断した。その後、ＤＮＡ分子を、Ｔ４ＤＮＡポリメラーゼおよびクレノウポリメラーゼで末端修復し；それから、Ｔ４ポリヌクレオチドキナーゼを、その５’末端をリン酸化するために使用した。３’オーバーハングを、３’末端から５’末端方向のエキソヌクレアーゼ欠乏のクレノウフラグメントを用いて生成した。イルミナ社アダプターオリゴヌクレオチドを、粘着末端にライゲートした。アダプターをライゲートしたＤＮＡを、１２サイクルのＰＣＲで濃縮した。血漿中ＤＮＡ分子が短いフラグメントであり、血漿試料の全ＤＮＡ量が、比較的小さかったので、断片化工程を省略し、血漿試料からＤＮＡライブラリーを構築するとき、１５サイクルのＰＣＲを使用した。

アジレント２１００バイオアナライザー（アジレントテクノロジーズ社）を、アダプターをライゲートしたＤＮＡライブラリーの品質およびサイズを確認するために使用した。それから、ＤＮＡライブラリーを、製造者の指示書に従って、カパライブラリークオリフィケーションキット（カパバイオシステムズ社）により、測定した。ＤＮＡライブラリーを希釈し、ペアエンドシークエンシングフロー細胞にハイブリダイズした。ＤＮＡクラスターを、ＴｒｕＳｅｑＰＥクラスター形成キットバージョン２（イルミナ社）を用いて、ｃＢｏｔクラスター形成システム（イルミナ社）上に形成し、ＴｒｕＳｅｑＳＢＳキットバージョン２（イルミナ社）を用いて、ＨｉＳｅｑ２０００システム（イルミナ社）上に、５１＿２サイクルまたは７６＿２サイクルを配列決定した。

ペアエンドシークエンスデータを、短いオリゴヌクレオチドアライメントプログラム２（ＳＯＡＰ２）の方法により、ペアエンド法で解析した。各ペアエンドリードのため、各末端から５０ｂｐまたは７０ｂｐを、非反復マスクした参照ヒトゲノム（ｈｇ１８）にアライメントした。２ヌクレオチドまでのミスマッチを、各末端のアライメントで許容した。それから、２末端のこれらの可能なアライメントのゲノム座標を、いずれもの組み合わせが、正しい配向性を有する、６００ｂｐより小さいまたは等しい挿入サイズにまたがっている、および参照ヒトゲノムの単一の位置にマッピングされている同じ染色体にアライメントされる２末端を可能にするかどうかを確認するために、解析した。複製リードは、インサートＤＮＡ分子がヒトゲノム中の特定された開始および終止位置を示すペアエンドリードとして定義され；該複製リードは、前述したように、除去された（Lo et al. Sci Transl Med 2010; 2: 61ra91）。

いくつかの実施形態では、対の腫瘍および構成的ＤＮＡ試料を、腫瘍関連一ヌクレオチド異型（ＳＮＶ）を確認するために、配列決定した。いくつかの実施では、構成的ＤＮＡ（この例では、バフィコートＤＮＡである）のヘテロ接合性部位におけるＳＮＶの発生に着目した。原則的に、構成的ＤＮＡ中にないが、腫瘍組織のシークエンスデータで検出されたいずれものヌクレオチド変異は、潜在的突然変異（すなわち、ＳＮＶ）になり得た。しかしながら、シークエンスエラー（配列決定されたヌクレオチドの０．１％〜０．３％）のため、多くの偽陽性は、もし、腫瘍組織のシークエンスデータのいずれかのヌクレオチド変化の単一発生が腫瘍関連ＳＮＶと見なされたならば、ゲノム中に確認されることになる。偽陽性の数を減じるひとつの方法は、腫瘍関連ＳＮＶが誘発する前に、腫瘍組織中のシークエンスデータの同じヌクレオチド変化の複数の発生の観察の判断基準を策定することであろう。

シークエンスエラーの発生が確率過程であるので、シークエンスエラーによる偽陽性の数は、腫瘍関連ＳＮＶと見なされる観察されたＳＮＶに必要な発生数の増加に対して、指数関数的に比例して減少することになる。他方では、偽陽性数は、シークエンス深度の増加に比例して増加することになる。これらの関係性を、ポアソンおよび二項式分布関数で予測できる。実施形態は、観察されたＳＮＶを関連する腫瘍と見なすための発生の動的カットオフを決定し得る。実施形態は、腫瘍シークエンスデータ中の特定ヌクレオチドの実際範囲、シークエンスエラー比率、可能な最大偽陽性比率、および所望の突然変異検出感度を考慮し得る。

いくつかの例では、偽陽性を低減する非常にストリンジェントな判断基準を指定した。例えば、突然変異は、構成的ＤＮＡシークエンシング中に完全に存在しないことが必要であり得、特定のヌクレオチド位置のシークエンス深度は、２０倍である必要があった。いくつかの実施形態では、発生のカットオフは、１０^-7以下の偽陽性検出率を達成した。いくつかの例では、アライメントの人為的結果のため、偽陽性を最小限にするセントロメアの、テロメアの、および低複雑度領域内であるＳＮＶを除去もした。加えて、ｄｂＳＮＰビルド１３５データベースの既知ＳＮＰへの仮想ＳＮＶマッピングも、除去された。
Ｂ．切除前および切除後

図１３Ａは、本発明の実施形態に従った診断時の卵巣癌および乳癌を有する患者の血漿中突然変異解析の表１３００を示す。ここに、両側性卵巣癌および乳癌を有する患者の例を示す。血漿のシークエンスデータを、該患者（バフィコート）の構成的ＤＮＡのシークエンシング結果と比較した。血漿中に存在するが、構成的ＤＮＡ中に存在しない一ヌクレオチド変化を、潜在的突然変異と見なした。該患者の右側および左側の卵巣癌を各々、２つの部位で試料採取し、全４つの腫瘍試料を作成した。腫瘍突然変異は、４つの異なる部位における全４つの卵巣腫瘍組織で検出した突然変異であった。

３．６百万個以上の一ヌクレオチド変化を、シークエンシングにより、少なくとも１回の血漿中で検出した。これらの変化内で、２，０６４個のみも、０．０６％の陽性予測値を得る腫瘍組織で検出した。血漿中少なくとも２回検出される判断基準を使用して、潜在的突然変異の数は、有意に、９９．５％減少し、１８，８８５となった。腫瘍突然変異の数は、３％減少したのみで、２，００３となり、陽性予測値は、増加して、１１％となった。

血漿中、少なくとも５回検出の判断基準を使用して、２，５７２潜在的突然変異を検出し、それらの中で、１，８１４が、全腫瘍組織中で検出された突然変異であり、従って、７１％の陽性予測値を得た。発生数（例えば、２、３、４、６、７、８、９、１０、その他）の他の判断基準は、感度および必要な陽性予測値に依存する潜在的突然変異を定義するために使用され得る。より高い発生数が、基準として使用されるほど、感度低減で、陽性予測値がより高くなることになる。

図１３Ｂは、本発明の実施形態に従った腫瘍切除後の両側性卵巣癌および乳癌を有する患者の血漿中突然変異解析の表１３５０を示す。患者の切除手術を行った。血液試料を、卵巣腫瘍および乳癌の切除後１日目で採取した。それから、血漿中ＤＮＡを、配列決定した。この試料では、卵巣癌からの突然変異のみ解析した。３百万以上の潜在的突然変異を、血漿中試料で、少なくとも１回検出した。しかしながら、少なくとも５回発生する判断基準を使用して、潜在的突然変異数は、２３８に減少した。有意な減少が、診断で採取した試料の潜在的突然変異数と比較したとき、および５つの突然変異の同基準を使用したとき、観察された。

ひとつの実施形態では、血漿中で検出された一ヌクレオチド変化数は、検出、モニターおよび癌患者の予後判定のためのパラメーターとして使用され得る。発生の異なる数は、所望の感度および特異度を達成するための判断基準として使用され得る。より高い腫瘍量、それゆえより悪い予後を有する患者は、血漿中に見られるより高い突然変異量を有すると予想されるだろう。

そのような解析では、癌の異なる型の突然変異量プロファイルを確証できる。モニターの目的では、治療に応答する患者の血漿中の突然変異量が減少することを知ることになる。もし、腫瘍が再発したならば、例えば、再発の間に、突然変異量が、増加することが予想されるだろう。そのようなモニターは、患者の選択された治療方法の有効性のモニター、および特定治療に対する耐性発現の検知を可能にするだろう。

血漿中ＤＮＡシークエンシングの結果中に見ることができる特定突然変異解析を通して、感度を予測する標的（例えば、上皮成長因子受容体遺伝子の突然変異およびチロシンキナーゼ阻害剤治療の応答）および特定標的治療耐性（例えば、結腸直腸癌のＫＲＡＳ突然変異およびパニツムマブおよびセツキシマブによる治療耐性）を確認もでき、治療レジメ計画を導くことができる。

上記例は、両側性卵巣癌のものである。乳癌の突然変異についても同解析が実行でき、その結果、血漿中のこれらの癌型の両方の突然変異を追跡できるはずである。原発性癌の突然変異およびその転移（単数または複数）を追跡するため、同様な戦略も使用し得る。

実施形態は、明らかに健康な対象または特定のリスク要因を有する対象（例えば、喫煙状態、ウイルス状態（例えば、肝炎ウイルス保因者、ヒトパピローマウイルス感染対象など））の癌スクリーニングに有用であるはずである。そのような対象の血漿中に見ることができる突然変異量は、対象が特定時間枠内に症候性癌を発症するリスクを示すはずである。したがって、より高い血漿中突然変異量を有する対象は、より低い突然変異量を有するものより、より高いリスクを有すると予想されることになる。さらに、そのような血漿中突然変異量の一過性プロファイルは、リスクの強力な指標にもなるだろう。例えば、もし、対象が、各年に実行した１つの血漿中突然変異量を有し、且つ、もし、該突然変異量が、だんだんと増加しているならば、その結果、この対象は、追加の癌スクリーニング法、例えば、胸部Ｘ線、超音波、コンピューター断層撮影、磁気共鳴画像法またはポジトロン放出断層撮影を勧められるべきである。
Ｃ．血漿シークエンシングから突然変異を推定するための動的カットオフ

肝細胞癌（ＨＣＣ）を有する４人の患者および卵巣癌および乳癌を有する１人の患者を、この研究のために募集した。後者の患者では、卵巣癌の解析に着目した。血液試料を、腫瘍切除手術の前後に、各患者から収集した。切除した腫瘍組織も集めた。腫瘍組織から抽出したＤＮＡ、術前血液試料の白血球および手術前および手術後血漿試料を、ＨｉＳｅｑ２０００シークエンシングシステム（イルミナ社）を用いて、配列決定した。シークエンスデータを、短いオリゴヌクレオチド解析パッケージ２（ＳＯＡＰ２）（Li R et al. Bioinformatics 2009; 25: 1966-1967）を用いて、参照ヒトゲノム配列（ｈｇ１８）にアライメントした。白血球細胞のＤＮＡ配列を、各研究対象の構成的ＤＮＡと見なした。

この例では、腫瘍関連ＳＮＭを、血漿中ＤＮＡシークエンスデータおよび腫瘍組織を参照しないＣＧから、最初推定した。それから、血漿からの推定結果を、該推定結果の正確度を確認するために、該腫瘍組織（客観的基準として）から得たシークエンスデータと比較した。その際、該客観的基準は、該腫瘍組織の突然変異を決定するために、該腫瘍組織からのシークエンスデータおよび該構成的配列を比較することにより作成した。この解析で、研究対象の構成的ＤＮＡが、ホモ接合性であるヌクレオチド位置に着目した。
１．非標的全ゲノム解析

白血球のシークエンス深度、腫瘍組織および各患者の血漿中ＤＮＡを、表５に示す。

表１に示された血漿突然変異定義の最小発生率の動的カットオフ（ｒ）は、各患者の血漿中の突然変異を確定するために使用される。各座位のシークエンス深度が変わり得るので、これは、該カットオフは変わり得、座位のリード全数に対するカットオフの依存度を、効果的に提供する。例えば、該深度メディアンが５０未満であるが（表５）個別の座位のシークエンス深度は、大きく変わり、１００回以上にわたり得る。

シークエンスエラーに加え、エラーの別原因は、アライメントエラーであろう。このタイプのエラーを最小限にするために、突然変異を有する配列リードは、ボウタイアライメントプログラム（Langmead B et al. Genome Biol 2009, 10:R25）を使用して、参照ゲノムに再アライメントされた。ＳＯＡＰ２により参照ゲノムの独自位置にアライメントされ得たリードのみおよびボウタイを、血漿突然変異のダウンストリーム解析に使用した。異なるアルゴリズムに基づいて、アライメントソフトウェアパッケージの他の組み合わせも使用した。

実際のシークエンスデータのシークエンスエラーおよびアライメントエラーをさらに最小化するために、配列リードの一ヌクレオチド変異を示すヌクレオチド位置を呼び出す２つの追加フィルタリングアルゴリズムを適用した：（１）突然変異を有する≧７０％の配列リードは、マッピング品質≧Ｑ２０（すなわち、ミスアライメント確率＜１％）を有するボウタイを用いて、同じゲノム座標に再アライメントし得た；（２）突然変異を有する≧７０％の配列リードは、該配列リードの両末端（すなわち、５’末端および３’末端）の５ｂｐ以内でなかった。シークエンスエラーが配列リードの両末端でより高頻度に見られるので、このフィルタリング規則を研究した。

腫瘍ゲノムの予備知識なしで、腫瘍の推定に影響する因子も研究した。そのようなひとつのパラメーターは、血漿中腫瘍由来ＤＮＡの分画濃度であった。このパラメーターを、別の客観的標準パラメーターと見なし、ＧＡＡＬを使用して、該腫瘍ゲノムの予備知識で参照目的のため推定できる。

表６は、治療前および治療に渡って、血漿中に検出されたヌクレオチド変化を示す。ＨＣＣ１では、該腫瘍ゲノムの予備知識なしで、全９６１一ヌクレオチド変異を検出した。血漿中に検出されたこれらのヌクレオチド変化の中で、８２８は、癌関連突然変異であった。ＨＣＣの切除手術後、ヌクレオチド変化の全数を、４３に減少し、癌関連突然変異は、それらの中になかった。

参照目的では、術前血漿中腫瘍由来ＤＮＡの分画濃度は、５３％であり、該腫瘍ゲノムの予備知識で推定した。ＨＣＣ２、ＨＣＣ３およびＨＣＣ４では、該腫瘍ゲノムの予備知識なしで、血漿中一ヌクレオチド変異の数は、術前血漿試料で２７〜３２の範囲と推定した。これらの結果は、約２０倍のシークエンス深度を用いて、癌関連突然変異の非常に低いパーセンテージを血漿中で検出でき、血漿中で検出されたほとんどの配列変化がシークエンスエラーのためであるという、数学的予測に適合している。腫瘍切除後、検出された配列変化の数に有意な変化はなかった。参照目的では、血漿中腫瘍由来ＤＮＡの分画濃度を、２．１％〜５％の範囲と推定し、該腫瘍ゲノムの予備知識で推定した。

２．エクソンの標的濃縮

上記の通り、解析対象領域のシークエンス深度の増加は、血漿中癌関連突然変異を特定するための感度および特異度の両方を増加させ、それゆえ、癌患者と非癌患者との間の識別力を増加させ得る。全ゲノムのシークエンス深度を増加すると、今もなお非常に費用がかかるが、代替方法は、シークエンシングの特定領域を強化する。ひとつの実施形態では、選択されたエクソンまたは本当に全エクソンを、シークエンシングするため、多くを標的化し得る。この方法は、配列リードの全量を増加することなく、標的領域のシークエンス深度を有意に増加し得る。

ＨＣＣ患者および卵巣癌（および乳癌）を有する患者の血漿中ＤＮＡのシークエンスライブラリーを、エクソンの標的エンリッチメントのアジレントＳｕｒｅＳｅｌｅｃｔ全エキソンキットを使用して、捕獲した。それから、エクソンを多く含むシークエンスライブラリーを、ＨｉＳｅｑ２０００シークエンシングシステムを使用して、配列決定した。配列リードを、ヒト参照ゲノム（ｈｇ１８）にアライメントした。アライメント後、エクソンに一意的にマッピングした配列リードを、一ヌクレオチド変異に関して解析した。エクソームキャプチャー解析で血漿中一ヌクレオチド変異を同定するため、表２に示した動的カットオフ値を使用した。

図１４Ａは、ＨＣＣ１の血漿中ＤＮＡの一ヌクレオチド変異の検出を示す表１４００である。腫瘍ゲノムの予備知識なしで、標的化シークエンスデータから、血漿中の５７個の一ヌクレオチド変異の全てを推定した。腫瘍組織から得られたシークエンスデータから、引き続き検証するとき、５５個は、真の腫瘍関連突然変異であると分かった。前述のように、術前血漿中腫瘍由来ＤＮＡの分画濃度は、５３％であった。腫瘍切除後、一ヌクレオチド変異は、血漿から得られた標的化シークエンスデータで検出されなかった。これらの結果は、血漿中一ヌクレオチド変異数の定量的解析が、癌患者の疾病進行のモニターに使用され得ることを示している。

図１４Ｂは、ＨＣＣ２の血漿中ＤＮＡの一ヌクレオチド変異の検出を示す表１４５０である。腫瘍ゲノムの予備知識なしで、標的化シークエンスデータから、血漿中の１８個の一ヌクレオチド変異の全てを推定した。これらの突然変異全ては、腫瘍組織で発見された。前述のように、術前血漿中腫瘍由来ＤＮＡの分画濃度は、５％であった。腫瘍切除後、一ヌクレオチド変異は、血漿から得られた標的化シークエンスデータで検出されなかった。血漿中腫瘍由来ＤＮＡの高分画濃度を有するＨＣＣ１と比較して、ＨＣＣ２を有する症例の血漿中では、ほとんど一ヌクレオチド変異を検出しなかった。これらの結果は、血漿中腫瘍由来ＤＮＡ濃度が、腫瘍量と正の相関関係があることが分かっている（Chan KC et al. Clin Chem 2005;51:2192-5）ので、血漿中一ヌクレオチド変異数が、血漿中腫瘍由来ＤＮＡの分画濃度、それゆえ、患者の腫瘍量に反映するパラメーターとして使用され得ることを示唆している。

図１５Ａは、ＨＣＣ３の血漿中ＤＮＡの一ヌクレオチド変異の検出を示す表１５００である。腫瘍ゲノムの予備知識なしで、標的化シークエンスデータから、切除前および切除後両方の血漿試料中に一ヌクレオチド変異を観察しなかった。これは、たぶん、この患者の血漿中腫瘍由来ＤＮＡの比較的低い分画濃度（２．１％）のせいであると思われる。シークエンス深度のさらなる増加は、腫瘍由来ＤＮＡの低分画濃度を有する症例での癌関連突然変異を検出するための感度の改善を予測される。

図１５Ｂは、ＨＣＣ４の血漿中ＤＮＡの一ヌクレオチド変異の検出を示す表１５５０である。腫瘍ゲノムの予備知識なしで、標的化シークエンスデータから、血漿中の３個の一ヌクレオチド変異の全てを推定した。これらの突然変異全ては、腫瘍組織で発見された。血漿中腫瘍由来ＤＮＡの高分画濃度を有するＨＣＣ１およびＨＣＣ２と比較して、２％の血漿中分画腫瘍ＤＮＡを有するＨＣＣ４症例の血漿中で、ほとんど一ヌクレオチド変異は検出されなかった。これらの結果は、血漿中一ヌクレオチド変異数が、血漿中腫瘍由来ＤＮＡの分画濃度および患者の腫瘍量を反映するパラメーターとして使用され得ることを示唆している。

図１６は、卵巣癌（および乳癌）を有する患者の血漿中ＤＮＡの一ヌクレオチド変異の検出を示す表１６００である。腫瘍ゲノムの予備知識なしで、血漿中の標的化シークエンスデータから、６４個の一ヌクレオチド変異の全てを推定した。これらの中で、５９個が卵巣腫瘍組織で発見された。血漿中卵巣腫瘍由来ＤＮＡの推定分画濃度は、６４％であった。一ヌクレオチド変異の全数の有意な減少は、卵巣癌の切除後血漿中で検出された。

ＳｕｒｅＳｅｌｅｃｔ標的エンリッチメントシステム（アジレント社）の使用に加えて、シークエンシングのため、エクソンから配列を濃縮するために、ニンブルジェンＳｅｑＣａｐＥＺエクソーム＋ＵＴＲ標的エンリッチメントシステム（ロシェ社）も使用した。ニンブルジェンＳｅｑＣａｐシステムは、５’および３’非翻訳領域だけでなく、ゲノムのエクソン領域を対象にする。４人のＨＣＣ患者の治療前血漿試料、２人の健康な対照群および２人の癌を有しない慢性Ｂ型肝炎保因者を解析した（表７）。他の実施形態では、他の標的エンリッチメントシステム、これに限定されないが、溶液相または固相ハイブリダイゼーションを使用するものが、使用され得る。

２人の癌を有しない慢性Ｂ型肝炎保因者および２人の健康な対照群では、動的カットオフ基準値を満たす１つ以下の一ヌクレオチド変異を検出した（表８）。４人のＨＣＣ患者のうち３人では、動的カットオフ要求を満たす血漿中に検出された配列変化数は、少なくとも８個であった。ＨＣＣ３では、動的カットオフを満たすＳＮＶは、検出されなかった。この試料では、重複のない配列決定されたリード数が低く導かれる配列決定されたリード中のＰＣＲ重複リードが高比率であった。血漿中で検出可能なＳＮＶの著しい減少を、腫瘍切除手術後に観察した。

ＸＩＩ．腫瘍不均一性

生物試料（例えば、血漿／血清）中の一ヌクレオチド突然変異の定量も、腫瘍不均一性、腫瘍内および腫瘍間不均一性の解析に有用である。腫瘍内不均一性は、同じ腫瘍内の腫瘍細胞の複数のクローンの存在に関係する。腫瘍間不均一性は、同組織型だが、異なる部位（同器官あるいは異器官）に存在する２つ以上の腫瘍の腫瘍細胞の複数のクローンの存在に関係する。特定型腫瘍では、腫瘍不均一性の存在は、悪い予後指標である（Yoon HH et al. J Clin Oncol 2012; 30: 3932-3938；Merlo LMF et al. Cancer Prev Res 2010; 3: 1388-1397）。特定の型の腫瘍では、腫瘍不均一性程度が高いほど、腫瘍進行の機会または標的治療に続く耐性クローンの発達がより高くなるはずである。

癌は、１つの腫瘍細胞のクローン増殖から生じると思われているが、癌の増殖および進化は、癌の異なる部分での新規の様々な突然変異の集積をもたらすはずである。例えば、癌患者が、転移を発症するとき、最初の器官にある腫瘍および転移性腫瘍は、多くの突然変異を共有するはずである。しかしながら、２つの部位の癌細胞も、他腫瘍部位に存在しない独自突然変異セットを保因するはずである。該２つの部位により共有される突然変異は、１つの腫瘍部位で観察されるだけの突然変異よりも、高濃度に存在すると予測される。
Ａ．実施例

両側性卵巣癌および乳癌を有する患者の血漿を解析した。両方の卵巣腫瘍は、重篤な腺癌であった。最長寸法で、左側は６ｃｍ、右側は１２ｃｍあった。結腸および網に複数の転移性病変もあった。白血球から抽出したＤＮＡを、平均４４倍ハプロイドゲノム包括度まで、イルミナ社の合成時解読プラットフォームを使用して、配列決定した。１つのアレルのみ示す、すなわちホモ接合性のヌクレオチド位置を、さらに、血漿の一ヌクレオチド突然変異で解析した。

ＤＮＡを、左側および右側腫瘍の４つの異なる部位から抽出し、イルミナ社シークエンシングプラットフォームを使用して、配列決定した。２つの部位（部位ＡおよびＢ）は、右腫瘍から、他の２つの部位（部位ＣおよびＤ）は、左腫瘍からであった。部位ＡおよびＢは、ほぼ４ｃｍ離れていた。部位ＣおよびＤ間の距離も、ほぼ４ｃｍであった。血漿試料を、卵巣腫瘍切除手術前後で、患者から採取した。それから、ＤＮＡを、患者の血漿から抽出した。血漿試料だけでなく、部位Ａ、Ｂ、ＣおよびＤからの腫瘍のシークエンス深度を表９に示す。

現在の例では、単一腫瘍関連一ヌクレオチド突然変異を定義するために、ヌクレオチド位置を、少なくとも、腫瘍組織で２０回、構成的ＤＮＡで３０回、配列決定する。他の実施形態では、他のシークエンス深度は、例えば、３５倍、４０倍、４５倍、５０倍、６０倍、７０倍、８０倍、９０倍、１００倍および＞１００倍で、使用され得る。シークエンシング費用低下は、もっとより容易に実行される深度の増加を可能にすることになる。ヌクレオチド位置は、構成的ＤＮＡで、ホモ接合性であるのに対して、ヌクレオチド変化は、腫瘍組織で観察される。腫瘍組織中のヌクレオチド変化発生率の基準は、腫瘍組織中の特定のヌクレオチド位置の全シークエンス深度に依存する。２０〜３０倍のヌクレオチド包括度では、ヌクレオチド変化発生率（カットオフ値）は、少なくとも５倍である。３１〜５０倍の包括度では、ヌクレオチド変化発生率は、少なくとも６倍である。５１〜７０倍の包括度では、発生率は、少なくとも７倍である。これらの基準は、真の突然変異検出感度の予測およびポアソン分布を使用した偽陽性座位の予測数から導かれる。

図１７は、発生率およびシークエンス深度の異なる必要予測感度を示す表１７００である。感度は、特定のカットオフを使用して特定倍の深度で検出した真変異数に対応するはずである。より高いシークエンス深度ほど、より多くの突然変異配列リードが得られるように、変異が、所与のカットオフで、より検出され易い。より高いカットオフ値では、判定基準が、より厳密であるので、突然変異体は検出されにくくなる。

図１８は、異なるカットオフおよび異なるシークエンス深度の偽陽性座位の予測数を示す表１８００である。偽陽性数は、より多くの配列リードが得られるので、シークエンス深度増加とともに増加する。しかしながら、偽陽性は、７０までのシークエンス深度でさえ、５以上のカットオフ値で予測されない。他の実施形態では、発生率の異なる基準は、所望の感度および特異性を達成するために使用され得る。

図１９は、異なる腫瘍部位で検出された突然変異数を図解する３つのダイアグラムを示す。該突然変異を、直接腫瘍をシークエンシングすることにより決定した。部位Ａは、その腫瘍に特有の７１個の突然変異を有し、部位Ｂは、４ｃｍしか離れていないにもかかわらず、１２２個の部位特有の突然変異を有する。部位ＡおよびＢの両方で、１０個の突然変異が見られた。部位Ｃは、その腫瘍に特有の１６８個の突然変異を有し、部位Ｄは、４ｃｍしか離れていないにもかかわらず、２４８個の部位特有の突然変異を有する。部位ＣおよびＤの両方で、１２個の突然変異が見られた。該異なる腫瘍部位の突然変異プロファイルに、有意な不均一性がある。例えば、２４８個の突然変異は、部位Ｄでのみ検出されたが、他の３つの腫瘍部位では検出されなかった。総数２，１２９個の突然変異が、全部位に渡って見られた。したがって、多くの突然変異が、異なる腫瘍の中で共有された。したがって、７つのＳＮＶ群があった。コピー数異常に関して、これらの４領域の中で違いは観察されなかった。

図２０は、治療前および治療後の血漿試料の腫瘍由来突然変異を保因するフラグメント数を示す表２０００である。各突然変異を保因する腫瘍由来ＤＮＡの推定分画濃度も示した。突然変異カテゴリーは、突然変異が検出される腫瘍部位を表す。例えば、カテゴリーＡ突然変異は、部位Ａにのみ存在する突然変異を表すが、カテゴリーＡＢＣＤ突然変異は、４つの腫瘍部位の全てで存在する突然変異を表す。

全４腫瘍部位に存在する該２，１２９個の突然変異では、２，１０５個（９８．９％）が、少なくとも１つの血漿中ＤＮＡフラグメント中で検出可能であった。他方で、４腫瘍部位の１つのみに存在する該６０９個の突然変異では、７７個（１２．６％）のみが、少なくとも１つの血漿中ＤＮＡフラグメント中で検出可能であった。したがって、血漿中一ヌクレオチド突然変異の定量は、腫瘍組織中の相対的に大量のこれらの突然変異を反映するために使用され得る。この情報は、癌不均一性の研究に有用であるはずである。この例では、潜在的突然変異は、一旦、シークエンスデータで見られたら、コールされる。

循環腫瘍ＤＮＡの分画濃度を、各ＳＮＶ群で決定した。術前および術後の血漿中腫瘍ＤＮＡの分画濃度は、全４領域（すなわち群ＡＢＣＤ）により共有されたＳＮＶにより決定されるとき、それぞれ、４６％および０．１８％であった。これらの後者のパーセンテージは、ＧＡＡＬ解析で得られたものとよく相関があり、４６％および０．６６％であった。全４領域（すなわち群ＡＢＣＤ）により共有された突然変異は、最も高い腫瘍由来ＤＮＡ分画濃度を、血漿に提供した。

ＡＢ群およびＣＤ群からのＳＮＶで決定した術前血漿中腫瘍由来ＤＮＡの分画濃度は、それぞれ、９．５％および１．１％であった。これらの濃度は、右側および左側卵巣腫瘍の相対的サイズと一致した。領域特有のＳＮＶ（すなわち、Ａ、Ｂ、Ｃ、およびＤ群のもの）で決定された腫瘍由来ＤＮＡの分画濃度は、概して低かった。これらのデータは、癌患者の全腫瘍量の正確な測定のために、全ゲノムショットガン法の使用が、標的特異性腫瘍関連突然変異のより従来型の方法と比較して、より代表的な実態を提供し得ることを示唆している。後者のアプローチでは、もし、腫瘍細胞のサブセットのみが標的化された突然変異を有するならば、標的化された突然変異を有しない腫瘍細胞が原因で、切迫した再発または疾病進行に関する重要な情報を見逃し得、または治療耐性クローン発生を見逃し得る。

図２１は、単一腫瘍部位で検出された突然変異および全４腫瘍部位で検出された突然変異の血漿中発生率分布を示すグラフ２１００である。棒グラフ２１００は、２つのタイプの突然変異：（１）１つの部位のみに検出される突然変異および（２）全４腫瘍部位に検出される突然変異のデータを示す。横軸は、突然変異が血漿中に検出される回数である。縦軸は、横軸の特定値に対応する突然変異％を示す。例えば、タイプ（１）突然変異の約８８％が、血漿中に１回のみ見られた。ご覧の通り、１つの部位で見られる突然変異は、ほとんど１回検出され、４回以上検出されなかった。単一腫瘍部位に存在する突然変異は、全４腫瘍部位に存在する突然変異と比較して、血漿中で、ずっと少なくしか検出されなかった。

この技術の１つの応用は、臨床医が、種々の分類の突然変異を保因する腫瘍細胞量を予測することを可能にするはずである。これらの突然変異の比率は、潜在的に、標的薬剤を用いて治療可能であるはずである。腫瘍細胞のより高比率で保因する突然変異を標的とする薬剤は、より顕著な治療効果を有すると期待されるだろう。

図２２は、不均一腫瘍から発生する突然変異の血漿中発生率予測分布を示すグラフ２２００である。該腫瘍は、２群の突然変異を含む。ひとつの群の突然変異は、全腫瘍細胞に存在し、他群の突然変異は、２部位が各卵巣腫瘍の代表的である近似に基づいて、腫瘍細胞の４分の１にのみ存在する。血漿中腫瘍由来ＤＮＡの全分画濃度を、４０％であると仮定する。血漿試料を、ヌクレオチド位置当たり５０回の平均深度まで配列決定されると仮定する。この血漿中発生率予測分布に従って、全腫瘍組織に存在する突然変異は、血漿中それらの発生率による４分の１の腫瘍細胞に存在するのみの突然変異と、差別化され得る。例えば、６回の発生は、カットオフとして使用され得る。全腫瘍細胞に存在する突然変異では、９２．３％の突然変異は、少なくとも６回、血漿中に存在することになる。対照的に、４分の１の腫瘍細胞に存在する突然変異では、１２．４％のみの突然変異は、少なくとも６回、血漿中に存在することになる。

図２３は、１６の健康な対照群の実施形態の特異性が回復されることを示す。それらの血漿中ＤＮＡ試料を、３０倍包括度のメディアンまで配列決定した。上記卵巣癌患者の血漿中に存在する突然変異の検出を、これらの健康な対象中で実行した。卵巣癌患者の腫瘍に存在する突然変異は、健康な対照群の血漿中シークエンスデータにあまり頻繁に検出されず、突然変異カテゴリーが、＞１％の明白な分画濃度を有するものはなかった。これらの結果は、この検出方法が高度に特異性であることを示す。
Ｂ．方法

図２４は、本発明の実施形態に従って、対象の１つ以上の腫瘍の不均一性を解析する方法２４００のフローチャートである。方法２４００の特定の工程は、本明細書に記載された通りに実行され得る。

ブロック２４００で、対象の構成的ゲノムが得られる。ブロック２４２０で、１つ以上の配列タグは、対象の生物試料の複数のＤＮＡフラグメントの各々のために受けられ、該生物試料は、無細胞性ＤＮＡを含む。ブロック２４３０で、ゲノム位置は、配列タグのために決定される。ブロック２４４０で、該配列タグは、第一座位の第一数を決定するために、該構成的ゲノムと比較される。各第一座位で、該構成的ゲノムと比べた配列異型を有する配列タグの数は、カットオフ値より上であり、該カットオフ値は、１より大きい。

ブロック２４５０で、１つ以上の腫瘍の不均一性の測度は、第一遺伝子位置のセットの各第一数に基づいて算出される。ひとつの態様では、該測度は、腫瘍により共有されない突然変異数に比較して、腫瘍により共有される突然変異数を表す値を提供し得る。ここで、様々な腫瘍は、該物内に異なる腫瘍を有する単一物として存在し得、これは、通常、腫瘍内不均一性と呼ばれるものを表し得る。該測度はまた、いくつかの突然変異が、多くのまたはほとんどの腫瘍中にある突然変異と比較した１つまたは数個の腫瘍中にかるかどうかも関係し得る。不均一性の１つ以上の測度は、算出され得る。

ブロック２４６０で、該不均一性測度は、不均一性レベルの分類を決定する閾値と比較され得る。測定した１つ以上は、様々な方法で使用され得る。例えば、１つ以上の不均一性測度の手段は、腫瘍進行の変化を予測するために使用され得る。いくつかの腫瘍では、より不均一性であるほど、進行の機会がより高く、治療（例えば、標的治療）後の耐性クローンの発生機会が高い。
Ｃ．腫瘍不均一性測度

不均一性測度の１例は、血漿中突然変異の異なる群の「濃縮バンド」の数である。例えば、もし、患者内の２つの優位型腫瘍クローンがあるならば、且つ、もし、これらのクローンが、異なる濃度で存在するならば、そのとき、血漿中に異なる濃度を有する２つの異なる突然変異を見ることを期待するはずである。これらの異なる値は、各セットが腫瘍の１つに対応する、異なる突然変異セットの分画濃度を決定することにより、コンピューターで計算され得る。

これらの濃度の各々は、「濃縮バンド」または「濃縮クラス」と呼ばれ得る。もし、患者がより多くのクローンを有しているならば、そのとき、より多くの濃縮バンド／クラスが見られるだろう。したがって、バンドがより多いほど、不均一性は、より大きい。濃縮バンド数を、様々な突然変異の分画濃度をプロットすることにより見ることができる。ヒストグラムを、様々な濃度で作成でき、異なるピークが、異なる腫瘍（または１つの腫瘍の異なるクローン）に対応する。大きなピークは、おそらく、全てまたはいくつかの腫瘍（または腫瘍クローン）により、共有される突然変異のものであろう。これらのピークは、大きなピークを決定するために、どのより小さなピークが合わされているかを決定するために解析され得る。例えば、図１０Ｂおよび図１１のフィッティング手順と同様な、フィッティング手順が使用され得る。

ひとつの実行では、該ヒストグラムは、Ｙ軸に、座位の量（例えば、数または比率）を、Ｘ軸に、分画濃度をプロットしている。全てまたはいくつかの腫瘍により共有される突然変異は、高分画濃度をもたらすはずである。該ピークサイズは、特定の分画濃度増加につながる座位の量を表すことになる。低濃度および高濃度でのピークの相対的サイズは、腫瘍（または腫瘍クローン）の不均一性程度を反映するはずである。高濃度での大きなピークは、ほとんどの腫瘍が、ほとんどまたは全ての腫瘍（または腫瘍クローン）により共有されることを反映し、腫瘍不均一性程度が低いことを示している。もし、低濃度でのピークが大きいならば、そのとき、ほとんどの突然変異は、少数の腫瘍（または少数の腫瘍クローン）により共有される。これは、腫瘍不均一性程度が高いことを示していることになる。

存在するピークがより多いほど、より多くの部位特有突然変異がある。各ピークは、突然変異の異なるセットに対応し得、該突然変異セットは、腫瘍のサブセット（例えば、上記例示のように、ちょうど１つか２つの腫瘍）からのものである。図１９の例では、おそらく最小濃度を有する４部位のみのピーク（腫瘍の相対的サイズに依存する）、ＡＢ部位およびＣＤ部位の２ピーク、および全部位に共有される突然変異のピークで、全７ピークがあり得る。

ピーク位置は、腫瘍の相対的サイズも提供し得る。大きな濃度は、大きな腫瘍が、より多くの腫瘍ＤＮＡを試料中に、例えば、血漿中に放出するので、大きな腫瘍に相関があるはずである。

不均一性測度の別の例では、相対的に高い異型リード（例えば、９〜１３）を有する突然変異リード比率と比較して、相対的に少数の異型リード（例えば、４、５、または６）を有する突然変異部位比率である。図２２に戻って参照すれば、種雄特有突然変異が、ほとんど異型リードを有しない（結果として、より小さい分画濃度にもなる）ことを知り得る。共有突然変異は、より多くの異型リード（結果として、より大きい分画濃度にもなる）を有する。第一比率６（より少数）を第二比率１０（より多数）により割った比は、不均一性測度を伝える。もし、該比が小さいならば、そのとき、部位特有である突然変異はほとんどなく、従って、不均一性レベルは低い。もし、該比が大きい（または少なくとも、既知試料から校正した値より大きい）ならば、そのとき、不均一性レベルはより大きい。
Ｄ．閾値決定

閾値は、不均一性レベルを直接決定するために、その腫瘍が生検される（例えば、上記のように）対象から決定され得る。該レベルは、共有される突然変異に対する部位特有突然変異の比など、様々な方法で定義され得る。生体試料（例えば、血漿試料）は、それから、不均一性測度を決定するために解析され得、生体試料からの不均一性測度は、直接腫瘍細胞を解析することにより決定した不均一性レベルに関連付けされ得る。

そのような手順は、不均一性レベルに関係する閾値の校正を提供し得る。もし、テストの不均一性測度が、２つの閾値の間に位置するならば、そのとき、不均一性レベルは、該閾値に対応するレベル間にあると予測され得る。

ひとつの実施形態では、校正曲線は、生検から決定された不均一性レベルと血漿試料（または他試料）から決定された対応する不均一性測度との間で算出され得る。そのような例では、該不均一性レベルは、数値で表され、これらの数値レベルは、種々の分類に対応し得る。数値レベルの異なる範囲は、異なる診断、例えば、異なる癌状態などに対応し得る。
Ｅ．ゲノム表現から分画濃度を使用する方法

腫瘍不均一性は、分画濃度、例えば、方法１２００の実施形態を使用して決定したものなどを使用しても、解析され得る。１つのコピー欠失を示すゲノム領域は、異なる腫瘍に由来し得る。したがって、様々なゲノム領域で決定された分画濃度は、増幅（または１コピー欠失の削除）が１つだけの腫瘍または複数の腫瘍中に存在するかどうかに依存して、異なり得る。したがって、同じ不均一性測度は、方法１２００の実施形態を経て決定された分画濃度のために使用され得る。

例えば、１つのゲノム領域は、１コピー欠失に対応すると見なされ得、分画濃度は、そのゲノム領域での各密度（該各密度は、分画濃度として使用できる）からだけ決定され得る。ヒストグラムは、様々な密度を有する領域数をカウントすることにより、様々な各密度から決定され得る。もし、１つだけの腫瘍または１つの腫瘍クローンまたは１つの腫瘍沈着物が、特定領域中に増加を有するならば、そのとき、その領域の密度は、複数の腫瘍または複数の腫瘍クローンまたは複数の腫瘍沈着物中に増加を有する領域の密度（すなわち、共有領域中の腫瘍ＤＮＡの分画濃度が、部位特有領域より大きい）より小さいことになる。したがって、上記不均一性測度は、ちょうど、異なる部位の分画濃度が、分画濃度分布を示すように、様々な領域中のコピー数獲得または欠失を使用して、同定されるピークに応用され得る。

ひとつの実行では、もし、各密度がヒストグラムに使用されるならば、別々になって獲得および欠失を有することになる。獲得を示す領域は、獲得だけのヒストグラムを作成することにより別々に解析でき、別のヒストグラムは、欠失だけのために作成され得る。もし、分画濃度が使用されるならば、そのとき、欠失および獲得のピークは、一緒に解析され得る。例えば、分画濃度は、参照密度に対する差（例えば、絶対値）を使用し、従って、獲得および欠失の分画濃度は、同じピークに寄与する。
ＸＩＩＩ．コンピューターシステム

本明細書中で述べたいずれのコンピューターシステムも、いずれかの適当な数のサブシステムを利用し得る。そのようなサブシステムの例を、コンピューター装置２５００の図２５に示す。いくつかの実施形態では、コンピューターシステムは、ひとつのコンピューター装置を含み、サブシステムは、コンピューター装置のコンポーネントであり得る。他の実施形態では、コンピューターシステムは、複数のコンピューター装置を含み得、各々は、内部コンポーネントを有するサブシステムである。

図２５に示すサブシステムは、システムバス２５７５を介して相互接続されている。プリンター２５７４、キーボード２５７８、固定ディスク２５７９、ディスプレイアダプター２５８２に接続されたモニター２５７６、および他などの追加サブシステムを示す。周辺機器およびＩ／Ｏコントローラー２５７１に接続したインプット／アウトプット（Ｉ／Ｏ）機器を、シリアルポート２５７７などの、当業者に周知のいくつもの手段によりコンピューターシステムに結合し得る。例えば、シリアルポート２５７７または外部インターフェース２５８１（例えば、イーサネット、ＷｉＦｉ、他）を、コンピューターシステム２５００を、インターネットなどの広域ネットワークに接続するために使用し得る。システムバス２５７５を介する相互接続は、中央演算装置２５７３を、サブシステム間の情報交換だけでなく、各サブシステムと通信およびシステムメモリー２５７２または固定ディスク２５７９からの実行命令を制御することを可能にする。システムメモリー２５７２および／または固定ディスク２５７９は、コンピューター読み取り可能媒体を収納し得る。本明細書で述べた値のいずれも、１つのコンポーネントから別のコンポーネントにアウトプットし得、使用者にアウトプットし得る。

コンピューターシステムは、例えば、外部インターフェース２５８１または内部インターフェースにより一緒に接続した複数の同じコンポーネントまたはサブシステムを含み得る。いくつかの実施形態では、コンピューターシステム、サブシステム、または装置は、ネットワーク上で通信し得る。そのような場合には、１つのコンピューターを、クライアントと考え、別のコンピューターをサーバーと考え得、各々は、同じコンピューターシステムの部分であり得る。クライアントおよびサーバーは、各々、複数のシステム、サブシステム、またはコンポーネントを含み得る。

本発明の実施形態のいずれも、ハードウェア（例えば、特定用途向け集積回路またはフィールドプログラマブルゲートアレイ）を使用しておよび／または、一般的に、モデュールまたは一体でプログラマブルプロセッサを用いたコンピューターソフトウェアを使用して、制御論理の形態で実行し得ると理解すべきである。本明細書で使用するとき、プロセッサーは、同じ集積チップ上のマルチコアプロセッサまたはひとつの回路基板上またはネットワーク上の複数の処理装置を含む。本明細書で提供する開示および教示に基づいて、当業者は、ハードウェアならびにハードウェアおよびソフトウェアの組み合わせを使用して、本発明の実施形態を実行するための他の手段および／または方法を知り、認識するだろう。

本出願に記載のいずれものシフトウェアコンポーネントまたは機能は、例えば、従来技術またはオブジェクト指向技術を使用する、例えば、Ｊａｖａ、Ｃ＋＋またはＰｅｒｌなどのいずれかの適当なコンピューター言語を使用して、プロセッサーにより実行されるソフトウェアコードとして実行され得る。該ソフトウェアコードは、一連の命令またはコマンドとして、記憶および／または伝送用コンピューター読み取り可能媒体上に記憶され得、適当な媒体としては、ランダムアクセスメモリー（ＲＡＭ）、読み出し専用メモリー（ＲＯＭ）、ハードディスクまたはフロッピーディスクなどの磁気媒体、またはコンパクトディスク（ＣＤ）またはＤＶＤ（デジタルバーサタイルディスク）などの光学媒体、フラッシュメモリー、および同様のものが挙げられる。コンピューター読み取り可能媒体は、そのような記憶装置または伝送装置のいずれかの組み合わせであり得る。

そうようなプログラムは、インターネットを含む、様々なプロトコルに従う有線、光、および／または無線ネットワークを介して伝送に適合したキャリア信号を使用して、コード化および送信もされ得る。それ自体として、本発明の実施形態に従ったコンピューター読み取り可能媒体は、そのようなプログラムでコードしたデータ信号を使用して、作成され得る。プログラムコードでコードされたコンピューター読み取り可能媒体は、互換デバイスでパッケージ化され得、他のデバイス（例えば、インターネットダウンロードを介して）から別々に提供され得る。そのようなコンピューター読み取り可能媒体はいずれも、ひとつのコンピュータープログラム製品（例えば、ハードドライブ、ＣＤ、または全コンピューターシステム）上または内に存在し得、システムまたはネットワーク内の異なるコンピュータープログラム製品上または内に存在し得る。コンピューターシステムは、本明細書で述べたいずれの結果も、使用者に提供するために、モニター、プリンター、または他の適当なディスプレイを含み得る。

本明細書に記載の方法のいずれも、１つ以上のプロセッサーを有するコンピューターシステムを用いて全部または部分的に実行され得、これは、工程実行のため、構成され得る。したがって、実施形態は、潜在的に、各工程または各工程群を実行する種々のコンポーネントを有する、本明細書に記載のいずれもの方法の工程を実行するために構成されたコンピューターシステムに関し得る。番号が付された工程として表されているが、本明細書中の方法の工程を、同時に、または異なる順番で実施し得る。加えて、これらの工程の部分を、他の方法から他の工程の部分と一緒に使用し得る。また、ある工程の全てまたは部分を任意に選択もし得る。加えて、いずれもの方法の工程のいずれも、モデュール、回路、またはこれらの工程を実行するための他手段で実行し得る。

特定の実施形態の具体的詳細は、本発明の実施形態の精神と範囲から逸脱することなく、いずれもの適切な方法で組み合わせ得る。しかしながら、本発明の他の実施形態は、各個々の態様、またはこれらの個々の態様の特定の組み合わせに関係する特定の実施形態に関し得る。

本発明の例示となる実施形態の上記説明は、例示および説明の目的のために表されている。本発明を全て網羅しているわけではなく、記載されたそのままの形態に本発明を限定するものではなく、上記教示に照らして、多くの修正および変化は可能である。実施形態は、本発明の原理およびその実際的用途を最も良く説明し、それにより、他の当業者が、様々な実施形態で、および企図される特定用途に適するように様々な修正を行って、本発明を最良に利用できるように、選択され説明された。

「ひとつの（a）」、「ひとつの（an）」または「該（the）」は、特にそれとは反対の指示がない限り、「１つ以上の」を意味することを意図している。

全ての特許、特許出願、文献および本明細書で述べた説明は、全ての目的で、その全文を参照することにより組み入れられる。先行技術と認められるものはない。

Claims

対象の癌または前癌性変化を検出する方法であって、
前記対象の構成的ゲノムを取得し；
前記対象の生物試料の複数のＤＮＡフラグメントの各々の１つ以上の配列タグを受け入れ、前記生物試料が無細胞性ＤＮＡを含み；
前記配列タグのゲノム位置を決定し；
第一座位の第一数を決定するために、前記配列タグを、構成的ゲノムと比較し、ここで、
各第一座位において、構成的ゲノムと比べた配列異型を有する配列タグ数が、カットオフ値より上で、前記カットオフ値が１より大きい；
前記第一座位における配列異型を有する配列タグのカウントに基づいてパラメーターを決定し；および
前記対象の癌レベルの分類を決定するために、前記パラメーターを、閾値と比較すること、
を含む、方法。
前記閾値が、１つ以上の他の対象からの１つ以上の試料から決定される、請求項１に記載の方法。
前記座位の前記カットオフ値が、前記座位におけるゲノム位置を有する配列タグの全数に依存する、請求項１に記載の方法。
異なるカットオフ値が、少なくとも２つの前記第一座位に使用される、請求項１に記載の方法。
前記第一座位の１つの第一カットオフ値を動的に決定し、前記１つの座位が第一領域内に属することをさらに含む、請求項４に記載の方法。
前記第一カットオフ値が、前記第一座位の前記１つのシークエンス深度に基づいて決定される、請求項５に記載の方法。
前記第一カットオフ値が、シーケンスエラー率、前記第一領域のシークエンス深度、および前記第一領域のヌクレオチド位置数に依存する偽陽性率に基づいて決定される、請求項５に記載の方法。
前記第一カットオフ値が、前記第一領域の真位置数に基づいて決定される、請求項７に記載の方法。
前記生物試料のシークエンス深度Ｄおよび腫瘍由来ＤＮＡの分画濃度ｆに基づいて、前記第一カットオフ値の真位置数を算出することをさらに含む、請求項８に記載の方法。
前記真位置数の算出が、式：

（式中、Ｐｂは、真位置を検出する確率であり、ｒは、前記第一カットオフ値であり、Ｍｐ＝Ｄｘｆ／２である）
に従ったポアソン分布確率を使用する、請求項９に記載の方法。
前記第一カットオフ値が、次の基準：
前記シークエンス深度が５０より小さいならば、前記第一カットオフ値が５である、
前記シークエンス深度が５０〜１１０ならば、前記第一カットオフ値が６である、
前記シークエンス深度が１１１〜２００ならば、前記第一カットオフ値が７であり、
前記シークエンス深度が２０１〜３１０ならば、前記第一カットオフ値が８であり、
前記シークエンス深度が３１１〜４５０ならば、前記第一カットオフ値が９であり、
前記シークエンス深度が４５１〜６２０ならば、前記第一カットオフ値が１０であり、
前記シークエンス深度が６２１〜８００ならば、前記第一カットオフ値が１０である、
のいずれか１つを使用して決定される、請求項５に記載の方法。
前記パラメーターが、第一座位の前記第一数の加重和であり、各第一座位の分布が、前記各第一座位に割り当てられる重要度値に基づいて、重み付けされる、請求項１に記載の方法。
前記パラメーターが、第一座位の前記第一数における配列異型を示す前記配列タグの和を含む、請求項１に記載の方法。
前記和が加重和であり、１つの前記第一座位が、第二前記第一座位の第二重みより異なる第一重みを有する、請求項１３に記載の方法。
前記第一重みが、前記第二重みより大きく、１つの第一座位が、癌と関連し、前記第二前記第一座位が、癌と関連しない、請求項１４に記載の方法。
前記パラメーターが、第一座位の前記第一数である、請求項１に記載の方法。
配列タグのゲノム位置の決定が：
前記配列タグの少なくとも１つの位置を、参照ゲノムにアライメントさせ、前記配列タグのアライメントが、前記配列タグと前記構成的ゲノムとの間の１つ以上のミスマッチを可能にすること
を含む、請求項１に記載の方法。
前記構成的ゲノムに対する前記配列タグの比較が、
前記参照ゲノムと比べた異型を有する第二座位の第二数を決定するために、前記構成的ゲノムを、前記参照ゲノムと比較し；
前記アライメントに基づいて、第三座位の第三数を決定し：
各第三座位において、前記参照ゲノムと関する配列異型を有する前記配列タグの数が、カットオフ値より上であり；および
第一座位の前記第一数を得るために、前記第三数と前記第二数の差を得ること
を含む、請求項１７に記載の方法。
前記第三数と前記第二数の前記差を得ることが、前記第一座位の前記特定の座位を特定する、請求項１８に記載の方法。
前記パラメーターの決定が、
第一座位の前記第一数の各座位のために、
前記座位にアライメントし、前記座位に配列異型を有する配列タグをカウントし；および
前記各カウントに基づいて前記パラメーターを決定すること
を含む、請求項１９に記載の方法。
前記構成的ゲノムが、５０％以上の構成的ＤＮＡを含む前記対象からの構成的試料に由来する、請求項１に記載の方法。
配列タグのゲノム位置の決定が、
前記配列タグの少なくとも１つの位置を、前記構成的ゲノムにアライメントさせ、配列タグの前記アライメントが、前記配列タグと前記構成的ゲノムとの間の１つ以上のミスマッチを可能にすること
を含む、請求項１に記載の方法。
前記構成的ゲノムへの前記配列タグの比較が、
前記アライメントに基づいて、前記対象の前記構成的ゲノムと関連する遺伝子位置において、配列異型を有する配列タグを特定し；
各遺伝子位置に、配列異型を示し；
前記遺伝子位置にアライメントし、前記遺伝子位置において配列異型を有する配列タグの各第一数をカウントし；
前記各第一数に基づいて、パラメーターを決定すること
を含む、請求項２２に記載の方法。
前記各第一数に基づいて、前記パラメーターが、
第一和を得るために、前記各第一数を加算し；および
前記パラメーターを決定するために、前記第一和を使用すること
を含む、請求項２３に記載の方法。
前記パラメーターを決定するために、前記第一和の使用が、配列異型を示す遺伝子位置の前記数を、前記第一和から引くことを含む、請求項２４に記載の方法。
前記パラメーターを決定するために、前記第一和の使用が、アライメントされた配列タグの量に基づいて、前記第一和を正規化することを含む、請求項２４に記載の方法。
９０％以上の構成的ＤＮＡを含む前記対象の構成的試料を取得し；
前記構成的試料の複数のＤＮＡフラグメントの各々の１つ以上の第二配列タグを得るために、前記構成的試料のＤＮＡフラグメントのランダムシークエンシングを行い；
参照ゲノムに、前記第二配列タグの少なくとも１つの部分をアライメントさせ、前記第二配列タグの前記アライメントが、前記第二配列タグとＭまたはより小さい遺伝子位置における前記構成的ゲノムとの間のミスマッチを可能にし、Ｍが、１と等しいまたは大きい整数であり；および
前記第二配列タグおよび前記アライメントに基づいて、前記構成的ゲノムを構築すること
をさらに含む、請求項１に記載の方法。
前記構成的試料が、前記生物試料であり、前記構成的ゲノムの構築が、
ホモ接合性座位または２つのアレルを有するヘテロ接合性座位の決定を含む共通配列を決定し；および
前記構成的ゲノムにおいて、前記共通配列を使用すること
を含む、請求項２７に記載の方法。
前記対象の前記生物試料を受け；および
前記生物試料中の複数のＤＮＡフラグメントの各々の前記１つ以上の配列タグを生成するために、前記生物試料中のＤＮＡフラグメントの前記ランダムシークエンシングを行うこと
をさらに含む、請求項１に記載の方法。
前記１つ以上の配列タグが、前記生物試料中のＤＮＡフラグメントのランダムシークエンシングから生成される、請求項１に記載の方法。
前記生物試料が、尿、胸水、腹水（ascitic fluid）、腹水（peritoneal fluid）、唾液、脳脊髄液、または便試料である、請求項１に記載の方法。
前記パラメーターが、腫瘍由来ＤＮＡの分画濃度である、請求項１に記載の方法。
方法１を実行するために、コンピューターシステム制御実行されたときの複数の指示を保存している固定コンピューター読み取り可能媒体を含むコンピューター製品。
対象の１つ以上の腫瘍の不均一性を解析する方法であって、
前記対象の構成的ゲノムを取得し；
前記対象の生物試料中の複数のＤＮＡフラグメントの各々の１つ以上の配列タグを受け、前記生物試料が、無細胞性ＤＮＡを含み；
前記配列タグのゲノム位置を決定し；
第一座位の第一数を決定するために、前記配列タグを、前記構成的ゲノムと比較し：
各第一座位において、前記構成的ゲノムに関する配列異型を有する前記配列タグの数が、カットオフ値より上であり、前記カットオフ値が１より大きく；および
第一遺伝子位置の前記セットの前記各第一数に基づいて、前記１つ以上の腫瘍の不均一性の測度を算出すること、
を含む方法。
不均一性レベルの分類を決定するために、前記不均一性測度を、１つ以上の閾値と比較することをさらに含む、請求項３４に記載の方法。
前記１つ以上の閾値が、その腫瘍が生検を行われ、不均一性レベル測定のための生検された腫瘍中の突然変異を決定するために解析された１つ以上の他の対象から決定され、および１つ以上の他の対象の無細胞性ＤＮＡを含む生物試料からの不均一性測度が、閾値を決定するために使用される、請求項３５に記載の方法。
１つ以上の閾値に対する前記不均一性測度の比較が、前記不均一性測度に基づいて、不均一性レベルをアウトプットする校正機能に、前記不均一性測度をインプットすることを含む、請求項３６に記載の方法。
前記１つ以上の測度が、１つ以上のＤＮＡフラグメントが、その遺伝子位置における配列異型を有する間に、前記構成的ＤＮＡにアライメントされた第一ゲノム位置の全数を含む、請求項３４に記載の方法。
複数の不均一性測度が算出され、不均一性測度の算出が、
各第一座位で、配列変異を有する配列タグの比率を算出し；
前記比率の値の、第一座位の数のヒストグラムを作成し；および
前記ヒストグラム中の複数のピークを特定すること
を含む、請求項３４に記載の方法。
不均一性測度が、特定したピークの前記数に対応する、請求項３９に記載の方法。
不均一性測度が、２つのピーク高さの比を含む、請求項３９に記載の方法。
前記比率各々が、特定の第一座位で測定した腫瘍ＤＮＡの分画濃度を表す、請求項３９に記載の方法。
前記不均一性測度が、配列変異を有する配列タグの第一特定量を有する第一座位の第一比率および配列変異を有する配列タグの第二特定量を有する第一座位の第二比率の比に対応する、請求項３４に記載の方法。
前記第一特定量が、前記第二特定量より小さい、請求項４３に記載の方法。
前記第一特定量が、第一範囲および前記第二特定量が、第二範囲であり、前記第一範囲が、前記第二範囲より下である、請求項４４に記載の方法。
前記第一特定量および前記第二特定量が、分画濃度または配列変異を有する配列タグの絶対数に対応する、請求項４３に記載の方法。
前記不均一性測度が、前記各第一数の各々に対応する第一座位の数のヒストグラムから決定される、請求項３４に記載の方法。
第一特定遺伝子位置の前記セットが、第一サブセットおよび第二サブセットを含み、前記１つ以上の測度が、前記第一サブセットに対応する前記各第一数の第一ヒストグラムおよび前記第二サブセットに対応する前記各第二数の第二ヒストグラムを含む、請求項４７に記載の方法。
前記不均一性測度が、特定値以上の対応する第一数を有する第一座位の比率を含む、請求項３４に記載の方法。
無細胞性ＤＮＡを含む生物試料中の腫瘍ＤＮＡの分画濃度を決定する方法であって、
前記生物試料中の複数のＤＮＡフラグメントの各々の１つ以上の配列タグを受け；
前記配列タグのゲノム位置を決定し；
複数のゲノム領域の各々の：
前記ゲノム領域内のゲノム位置を有する配列タグから、前記ゲノム領域内のＤＮＡフラグメントの各量を決定し；
各密度を得るために、前記各量を正規化し；および
前記ゲノム領域が、１コピー欠失または１コピー獲得を示しているかどうか確認するために、参照密度に対して前記各密度を比較し；
１コピー欠失が示すと確認された１つ以上の各密度から、または１コピー獲得が示すと確認された１つ以上の各密度から第一密度を算出し；および
前記分画濃度を：
微分を得るために、別の密度に対して前記第一密度を比較し、前記微分を、前記参照密度で正規化することにより算出すること、
を含む方法。
様々な各密度を有するゲノム領域の数のヒストグラムを作成し；
前記ヒストグラムの複数のピークを特定し；および
１つ以上の第二ピークのゲノム領域の前記数に対する、１つ以上の第一ピークのゲノム領域の前記数の比から不均一性測度を算出すること、
をさらに含む、請求項５０に記載の方法。
前記ヒストグラムが、前記ヒストグラムを作成中に、各ゲノム領域を個別に決定された分画濃度値を使用する、請求項５１に記載の方法。
前記第一ピークが、第一特定量の各密度を有し、前記第二ピークが、第二特定量の各密度を有する、請求項５１に記載の方法。
前記第一特定量が、第一範囲であり、前記第二特定量が、第二範囲であり、前記第一範囲が、前記第二範囲より小さい、請求項５３に記載の方法。
前記ゲノム領域が、１コピー欠失または１コピー獲得を示しているかどうか確認するために、前記参照密度に対する前記各密度の比較が、
前記各密度と前記参照密度との間の差をコンピューターで計算し；および
前記差を、カットオフ値と比較すること、
を含む、請求項５０に記載の方法。
前記微分が、前記微分を、前記参照密度で割ることにより前記参照密度で正規化される、請求項５０に記載の方法。
前記別の密度が、前記参照密度である、請求項５０に記載の方法。
前記分画濃度の算出が、前記微分を２で掛けることをさらに含む、請求項５７に記載の方法。
前記第一密度が、１コピー獲得を示すと確認された各密度を使用して算出され、前記別の密度が、１コピー欠失を示すと確認された各密度から算出された第二密度である、請求項５０に記載の方法。
前記微分が、
前記第一密度および前記参照密度の第一比をコンピューターで計算し；
前記第二密度および前記参照密度の第二比をコンピューターで計算し、前記微分が、前記第一比および前記第二比との間であること
により前記参照密度で正規化される、請求項５９に記載の方法。
ゲノム領域が１コピー欠失または１コピー獲得を示しているかどうか確認するために、前記参照密度に対する前記各密度の比較が、
前記各密度のヒストグラムの分布曲線に、ピークを当てはめ、前記第一密度が、第一ピークに対応し、前記第二密度が、第二ピークに対応すること
を含む、請求項５９に記載の方法。
前記参照密度に関する前記各密度で、統計的に有意な増加を示すために決定された全ゲノム領域が、１コピー獲得を示すと確認される、請求項５０に記載の方法。
各密度を得るために、前記各量の正規化が、前記各密度および前記参照密度を決定するために、アライメントした参照タグの同じ全数を使用することを含む、請求項５０に記載の方法。
各密度を得るために、前記各量の正規化が、アライメントした参照タグの全数により、前記各量を割ることを含む、請求項５０に記載の方法。
前記複数のゲノム領域が各々、同じ長さを有する、請求項５０に記載の方法。
前記ゲノム領域が、重複がない、請求項５０に記載の方法。