JP2023554509A

JP2023554509A - サンプルを臨床関連カテゴリーに分類する方法

Info

Publication number: JP2023554509A
Application number: JP2023537605A
Authority: JP
Inventors: ジョージコームバリス; アチレスアチロス; アレクシアエリーデス; チャラランボスロズィデス; キリアコスツァンガラス; マリオスイオニーデス; フィリッポスパトゥサリス; エレナキプリ
Original assignee: メディカバーバイオテックリミテッド
Priority date: 2020-12-18
Filing date: 2021-12-16
Publication date: 2023-12-27
Also published as: US20240052424A1; EP4263867A1; AU2021399917A1; CA3202038A1; WO2022129370A1; KR20230132785A; MX2023007268A; AU2021399917A9; CN116829736A; IL303827A

Abstract

本開示は、臨床関連カテゴリーへの生物学的サンプルの分類のための方法及びキットを提供する。本方法は、無細胞腫瘍ＤＮＡを含むものとしてサンプルを分類する方法であって、（ｉ）複数の無細胞ＤＮＡ（ｃｆＤＮＡ）断片を含むサンプルにおいて、少なくとも１００，０００ｃｆＤＮＡ断片の開始及び／又は停止の配列座標を参照配列へのアライメントによって決定するステップと、（ｉｉ）ａ）（ｉ）で決定された各開始及び／又は停止配列座標に対して内側の、ただしそれに隣接する１～５塩基対の範囲内、及び／又はｂ）（ｉ）で決定された各開始及び／又は停止配列座標に対して外側の、ただしそれに隣接する１～５塩基対の範囲内において、トリヌクレオチド、テトラヌクレオチド及びペンタヌクレオチドで構成されるすべての核酸モチーフを参照配列中で決定するステップと、（ｉｉｉ）ａ）サンプルに含まれる複数のｃｆＤＮＡ断片における、（ｉ）で決定された各配列座標＋及び／又は－１塩基対、ｂ）サンプルに含まれる複数のｃｆＤＮＡ断片における、（ｉｉ）ａ）及びｂ）で決定された核酸モチーフの各々の頻度を決定するステップと、（ｉｖ）対応する参照頻度に対する、（ｉｉｉ）ａ）及びｂ）で決定された頻度の各々の比を計算するステップと、（ｖ）ステップ（ｉｖ）で決定された各比について別々に診断スコアを計算するステップであって、前記スコアは、ステップ（ｉｖ）のすべてのそれぞれの頻度比のそれぞれの加重和である、ステップと、（ｖｉ）（ｖ）で決定された診断スコアの少なくとも２つ以上から組合せ診断スコアを計算するステップであって、前記スコアは、（ｖ）で決定された前記２つ以上の診断スコアの加重和である、ステップと、（ｖｉｉ）組合せ診断スコアと参照スコアとを比較することにより、サンプルの分類を決定するステップとを含み、ＮＩＰＤＧＥＮＥＴＩＣＳＰＵＢＬＩＣＣＯＭＰＡＮＹＬＩＭＩＴＥＤＣＨＫｉｌｇｅｒＡｎｗａｌｔｓｐａｒｔｎｅｒｓｃｈａｆｔｍｂＢＣｙｐｒｕｓＦａｓａｎｅｎｓｔｒａｓｅ２９ＯｕｒＲｅｆ．：Ｂ２８１－００２９ＷＯ１１０７１９Ｂｅｒｌｉｎ、サンプルは、組合せ診断スコア値が参照スコアの平均よりも参照スコアの少なくとも１標準偏差だけ高い場合、腫瘍ｃｆＤＮＡを含むものとして分類され、参照スコアは、１つ以上の参照値から計算される、方法である。

Description

本発明は、生物学、医学及び化学の分野、特に分子生物学の分野、より特に分子診断の分野におけるものである。

真核生物ゲノムは、クロマチン中に組織化され、それにより、ＤＮＡのコンパクト化だけでなく、ＤＮＡ代謝（複製、転写、修復、組換え）のレギュレーションも可能になる。真核生物のクロマチン構造のシグネチャー、特にヌクレオソーム配置は、真核生物に存在する複合混合物中の稀有な核酸断片を同定するために使用可能であることが示されている（ＨｅｉｔｚｅｒＥ．ｅｔａｌ．，Ｎａｔ．Ｒｅｖ．Ｇｅｎｅｔ．，２０１９，２０（２）：７１－８８）。

ヌクレオソームによるＤＮＡの保護は、近くのゲノミック位置と比較したとき、特異的サイズ分布の核酸断片の末端が予想よりも高い頻度で発生することが見出される、ゲノム中の領域として定義される非ランダム断片化のホットスポット（ＨＳＮＲＦ）の存在に関与するという仮説が立てられている。

癌は、ヒト身体の容易にアクセス可能でない位置に見出されることが多い。癌の診断のための「ゴールドスタンダード」の侵襲的外科的生検は、出血及び感染をはじめとする有意な臨床的リスクを課す。かかる侵襲的手順の欠点には、腫瘍組織から採取されたサンプルが、手順が行われたときからの空間的に限定された表現のみであるという事実が含まれる。しかしながら、癌は、静的状態のままであるわけではなく、連続変化を受けて腫瘍内において且つ原発癌及び転移癌間でジェネティックヘテロジニアス性をもたらす。癌の診断、モニタリング及び療法ガイダンスのための非侵襲的／最小侵襲的方法の開発に多くの労力が払われてきた。母体血漿からの無細胞ＤＮＡを用いて数値異常の非侵襲的出生前検査に成功した技術開発も、癌の診断のためにバイオマーカーの発見に使用可能であった。血漿中の循環腫瘍ＤＮＡの発見は、癌処置への応答の検出、予後及び予測のために、侵襲的外科的手順に関連するリスクに対処する必要もなく、それをバイオマーカーとして利用して液状生検検査を採用する可能性を提供してきた。この技術は、癌をその早期ステージで検出して回復の成功の可能性を増加させ、最も適切な療法の選択を支援することにより癌患者に利益を与え、且つさらに処置経過後に微小残留疾患の検出を促進して、臨床医が必要な医学的介入を行うことを支援する。合併症のリスクを有する現在の侵襲的検査方法と異なり、液状生検は、血液、尿、痰などのサンプルを使用するため、患者にとって本質的に安全である。

これまで、予後バイオマーカー、療法への応答及び／又は抵抗性並びに疾患の再発のインジケーターとして無細胞腫瘍ＤＮＡ（ｃｆｔＤＮＡ）を使用するために、血漿中に見出される無細胞ＤＮＡ（ｃｆＤＮＡ）の合計量への腫瘍由来寄与の推定値の提供を試みるごく限られた数の方法が記載されてきたにすぎない（ＳｍｉｔｈＣ．Ｇ．ｅｔａｌ．，ＧｅｎｏｍｅＭｅｄ．，２０２０，１２（１）：２３、ＰｅｉｙｏｎｇＪｉａｎｇｅｔａｌ．，ＰＮＡＳ，２０１８，１１５（４６）：Ｅ１０９２５－Ｅ１０９３３、ＣｒｉｓｔｉａｎｏＳ．ｅｔａｌ．Ｎａｔｕｒｅ，２０１９，５７０：３８５－３８９、Ｍｏｕｌｉｅｒｅｅｔａｌ．，Ｓｃｉ．Ｔｒａｎｓｌ．Ｍｅｄ．，２０１８，１０（４６６）：ｅａａｔ４９２１、ＮｅｗｍａｎＡ．ｅｔａｌ．，Ｎａｔ．Ｍｅｄ．，２０１４，２０（５）：５４８－５５４）。

現在の液状生検ベース検査は、複雑であるうえに感度及び特異度が限られるため、精度のよいオンコロジーのニーズを満たすことができない（ＤｅＲｕｂｉｓＧ．ｅｔａｌ．，ＴｒｅｎｄｓＰｈａｒｍａｃｏｌＳｃｉ．，２０１９，４０（３）：１７２－１８６、ＰｅｉｙｏｎｇＪｉａｎｇｅｔａｌ．，ＣａｎｃｅｒＤｉｓｃｏｖ．，２０２０，ＣＤ－１９－０６２２）。そのため、かかる方法の確度は、十分に高くなく、誤解を招く結果を生じさせる可能性がある。

本発明は、循環腫瘍ＤＮＡ（ｃｔＤＮＡ）のシーケンシングから抽出可能な情報の範囲を拡大して新規マルチパラメーター戦略を実現し、臨床関連カテゴリーへのサンプルの分類のためのロバストで感度のよい特異的液状生検アッセイを確立することにより、従来技術の液状生検アプローチが直面する限界への解決策を提供する。

本発明は、他の液状生検アプローチが現在直面する確度限界への解決策を提供する。本発明は、無細胞腫瘍ＤＮＡ又はｃｔＤＮＡのシーケンシングから抽出可能な情報の範囲を拡大して新規マルチパラメーター戦略を実現し、臨床関連カテゴリーへのサンプルの分類のためのロバストで感度のよい特異的液状生検アッセイを確立することにより、前記確度限界を克服する。

一実施形態では、本発明は、無細胞腫瘍ＤＮＡを含むものとしてサンプルを分類する方法に関し、本方法は、
（ｉ）複数の無細胞ＤＮＡ（ｃｆＤＮＡ）断片を含むサンプルにおいて、少なくとも１００，０００ｃｆＤＮＡ断片の開始及び／又は停止の配列座標を参照配列へのアライメントによって決定するステップと、
（ｉｉ）ａ）（ｉ）で決定された各開始及び／又は停止配列座標に対して内側の、ただしそれに隣接する１～５塩基対の範囲内、及び／又は
ｂ）（ｉ）で決定された各開始及び／又は停止配列座標に対して外側の、ただしそれに隣接する１～５塩基対の範囲内
において、トリヌクレオチド、テトラヌクレオチド及びペンタヌクレオチドで構成されるすべての核酸モチーフを参照配列中で決定するステップと、
（ｉｉｉ）ａ）サンプルに含まれる複数のｃｆＤＮＡ断片における、（ｉ）で決定された各配列座標＋及び／又は－１塩基対、
ｂ）サンプルに含まれる複数のｃｆＤＮＡ断片における、（ｉｉ）ａ）及びｂ）で決定された核酸モチーフの各々
の頻度を決定するステップと、
（ｉｖ）対応する参照頻度に対する、（ｉｉｉ）ａ）及びｂ）で決定された頻度の各々の比を計算するステップと、
（ｖ）ステップ（ｉｖ）で決定された各比について別々に診断スコアを計算するステップであって、前記スコアは、ステップ（ｉｖ）のすべてのそれぞれの頻度比のそれぞれの加重和である、ステップと、
（ｖｉ）（ｖ）で決定された診断スコアの少なくとも２つ以上から組合せ診断スコアを計算するステップであって、前記スコアは、（ｖ）で決定された前記２つ以上の診断スコアの加重和である、ステップと、
（ｖｉｉ）組合せ診断スコアと参照スコアとを比較することにより、サンプルの分類を決定するステップと
を含み、サンプルは、組合せ診断スコア値が参照スコアの平均よりも参照スコアの少なくとも１標準偏差だけ高い場合、腫瘍ｃｆＤＮＡを含むものとして分類され、参照スコアは、１つ以上の参照値から計算される。

一実施形態では、組合せ診断スコアは、上記の方法のステップ（ｖ）で計算された各比について計算された診断スコアのすべてから計算される。

一実施形態では、本発明は、無細胞腫瘍ＤＮＡを含むものとしてサンプルを分類する方法に関し、本方法は、
（ｉ）複数の無細胞ＤＮＡ（ｃｆＤＮＡ）断片を含むサンプルにおいて、少なくとも１００，０００ｃｆＤＮＡ断片の開始及び／又は停止並びに開始及び／又は停止＋及び／又は－１塩基対の配列座標を参照配列へのアライメントによって決定するステップと、
（ｉｉ）サンプルに含まれる複数のｃｆＤＮＡ断片における、（ｉ）で決定された各座標の頻度を決定するステップと、
（ｉｉｉ）対応する参照頻度に対する、（ｉｉ）で決定された各座標の頻度の比を計算するステップと、
（ｉｖ）（ｉｉｉ）で決定されたすべての比から診断スコアを計算するステップであって、前記スコアは、（ｉｉｉ）で決定されたすべての頻度比の加重和である、ステップと、
（ｖ）診断スコアと参照スコアとを比較することにより、サンプルの分類を決定するステップと
を含み、サンプルは、診断スコア値が参照スコアの平均よりも参照スコアの少なくとも１標準偏差だけ高い場合、腫瘍ｃｆＤＮＡを含むものとして分類され、参照スコアは、１つ以上の参照値から計算される。

一実施形態では、本発明は、無細胞腫瘍ＤＮＡを含むものとしてサンプルを分類する方法に関し、本方法は、
（ｉ）複数の無細胞ＤＮＡ（ｃｆＤＮＡ）断片を含むサンプルにおいて、少なくとも１００，０００ｃｆＤＮＡ断片の開始及び／又は停止の配列座標を参照配列へのアライメントによって決定するステップと、
（ｉｉ）（ｉ）で決定された各開始及び／又は停止配列座標に対して内側の、ただしそれに隣接する１～５塩基対の範囲内において、トリヌクレオチド、テトラヌクレオチド及びペンタヌクレオチドで構成されるすべての核酸モチーフを参照配列中で決定するステップと、
（ｉｉｉ）サンプルに含まれる複数のｃｆＤＮＡ断片における、（ｉｉ）で決定された核酸モチーフの各々の頻度を決定するステップと、
（ｉｖ）対応する参照頻度に対する、（ｉｉｉ）で決定された頻度の各々の比を計算するステップと、
（ｖ）（ｉｖ）で決定されたすべての比から診断スコアを計算するステップであって、前記スコアは、（ｉｖ）で決定されたすべての頻度比の加重和である、ステップと、
（ｖｉ）診断スコアと参照スコアとを比較することにより、サンプルの分類を決定するステップと
を含み、サンプルは、診断スコア値が参照スコアの平均よりも参照スコアの少なくとも１標準偏差だけ高い場合、腫瘍ｃｆＤＮＡを含むものとして分類され、参照スコアは、１つ以上の参照値から計算される。

他の一実施形態では、本発明は、無細胞腫瘍ＤＮＡを含むものとしてサンプルを分類する方法に関し、本方法は、
（ｉ）複数の無細胞ＤＮＡ（ｃｆＤＮＡ）断片を含むサンプルにおいて、少なくとも１００，０００ｃｆＤＮＡ断片の開始及び／又は停止の配列座標を参照配列へのアライメントによって決定するステップと、
（ｉｉ）（ｉ）で決定された各開始及び／又は停止配列座標に対して外側の、ただしそれに隣接する１～５塩基対の範囲内において、トリヌクレオチド、テトラヌクレオチド及びペンタヌクレオチドで構成されるすべての核酸モチーフを参照配列中で決定するステップと、
（ｉｉｉ）サンプルに含まれる複数のｃｆＤＮＡ断片における、（ｉｉ）で決定された核酸モチーフの各々の頻度を決定するステップと、
（ｉｖ）対応する参照頻度に対する、（ｉｉｉ）で決定された頻度の各々の比を計算するステップと、
（ｖ）（ｉｖ）で決定されたすべての比から診断スコアを計算するステップであって、前記スコアは、（ｉｖ）で決定されたすべての頻度比の加重和である、ステップと、
（ｖｉ）診断スコアと参照スコアとを比較することにより、サンプルの分類を決定するステップと
を含み、サンプルは、診断スコア値が参照スコアの平均よりも参照スコアの少なくとも１標準偏差だけ高い場合、腫瘍ｃｆＤＮＡを含むものとして分類され、参照スコアは、１つ以上の参照値から計算される。

一実施形態では、各開始及び／又は停止配列座標に対して内側の、ただしそれに隣接する塩基対の範囲は、各開始及び／又は停止座標から２ｂｐ～６ｂｐ、又は３ｂｐ～７ｂｐ、又は４ｂｐ～８ｂｐ、又は５ｂｐ～９ｂｐ、又は６ｂｐ～１０ｂｐであり得る。

一実施形態では、分析されるサンプル中に含まれるｃｆＤＮＡ断片の最小量は、１０万～５０万、５０万～１００万、１００万～２００万、２００万～５００万、又は５００万～１０００万、又は１０００万～２０００万、又は２０００万～５０００万、又は５０００万～５億である。

一実施形態では、サンプル中の腫瘍ｃｆＤＮＡの量は、組合せ診断スコアが参照スコアの２～４標準偏差である場合には低として、組合せスコアが参照スコアの４～６．５標準偏差である場合には中として及び組合せスコアが参照スコアの６．５標準偏差超である場合には高として分類され得る。

一実施形態では、参照サンプルは、癌のない患者、又は非再発患者、又は処置が成功した癌患者からのサンプルであり得る。

一実施形態では、複数の無細胞ＤＮＡ（ｃｆＤＮＡ）断片を含むサンプルにおいて、少なくとも１００，０００ｃｆＤＮＡ断片の開始及び／又は停止の配列座標を参照配列へのアライメントによって決定する、上記の方法のいずれかのステップ（ｉ）は、参照配列へのアライメント前にサンプル中の複数のｃｆＤＮＡ断片の少なくとも一部分の核酸配列を決定することを含む。

一実施形態では、複数の無細胞ＤＮＡ（ｃｆＤＮＡ）断片を含むサンプルにおいて、少なくとも１００，０００ｃｆＤＮＡ断片の開始及び／又は停止の配列座標を参照配列へのアライメントによって決定する、上記の方法のいずれかのステップ（ｉ）は、ｃｆＤＮＡ断片の核酸配列の決定前にｃｆＤＮＡ断片を富化することをさらに含む。

一実施形態では、サンプルは、血液癌、肝癌、肺癌、膵癌、前立腺癌、乳癌、胃癌、膠芽細胞腫、結腸直腸癌、頭頸部癌、固形腫瘍、良性腫瘍、悪性腫瘍、進行ステージ癌、転移又は前癌組織の群から選択される腫瘍を起源とする腫瘍ｃｆＤＮＡを含むものとして分類される。

他の一実施形態では、本発明は、
（ｉ）上記の方法のいずれかを行うための成分であって、
ａ）生物学的サンプルから無細胞ＤＮＡを単離するための１つ以上の成分、
ｂ）シーケンシングライブラリーを調製及び富化するための１つ以上の成分、及び／又は
ｃ）富化されたライブラリーを増幅及び／又はシーケンスするための１つ以上の成分
を含む成分、
（ｉｉ）統計解析を実施するためのソフトウェア
を含むキットに関する。

癌のない患者からの２０の正常サンプル及び進行非小細胞肺癌（ＮＳＣＬＣ）又は結腸癌と診断された患者からの２７の異常サンプルを解析した。実施例１～４では、未知パラメーターを推定するために、ランダムに選択された１０の正常サンプル及びランダムに選択された１０の異常サンプルをトレーニングステップで使用した。

従来技術に記載の方法（本明細書では「その他」の方法と称される）（ＰｅｉｙｏｎｇＪｉａｎｇｅｔａｌ．，ＣａｎｃｅｒＤｉｓｃｏｖ．，２０２０，ＣＤ－１９－０６２２）により得られたスコアと比較して、「正常」サンプル（トレーニングステップに含まれない健常な癌のない個体のコントロールサンプル）に対して、実施例１～４で得られたスコアの分布を示す。解析されるサンプルに含まれるｃｆＤＮＡ断片の配列末端モチーフの量を測定する前記他の方法は、前記断片の開始及び／又は停止座標も考慮に入れてそれらを含み、前記開始及び／又は停止を除外する本開示と異なる。正常サンプルに対して、いずれの方法も他のアプローチより確率的に優位にならないことが非有意なクラスカル・ウォリス順位和検定（ｐ値＝０．９９６６）から示唆される。計算スコアの平均値は、各実施例に対してゼロに設定される。無細胞腫瘍（「異常」）ＤＮＡを含むサンプル（前記サンプルは、トレーニングステップに含まれない）に対して、実施例１～４で本発明の方法により及び従来技術の方法（本明細書では「その他」の方法と称される）により得られたスコア値及びそれらのそれぞれの分布を例示する。これらのスコアを、正常サンプルから得られたスコア（図１）と比較したとき、実施例１～４の本発明に係る方法により最大区別が達成されることから、正常サンプルから異常サンプルを区別するうえで従来技術の方法よりも優れた本発明の方法（実施例１～４）の感度の改善（増加）を明確に例示する。実施例１～４に記載の方法と、従来技術の方法（本明細書では「その他」の方法と称される）との感度性能の比較を例示する。正常及び異常サンプルのスコアの各々の経験的分布から、実施例１～４のすべての方法及び従来技術（「その他」）の方法の推定感度を計算した。すべての方法の特異度（すなわち統計的仮説検定での有意レベル）は、９９．９％に設定され、このデータセットでの推定感度は、実施例１～４のそれぞれの方法に対して９６．８％、９９．９４％、９９．４８％、９９．９９９７％に等しい。本発明の方法のすべては、８４．３％の感度を達成するにすぎない従来技術の方法、さらに断片サイズ及びコピー数の変化情報を用いてサンプルを臨床的通知カテゴリーに分類し、６０％～９０％の範囲内の感度を達成するにすぎない文献で現在入手可能な他の方法（Ｍｏｕｌｉｅｒｅｅｔａｌ．２０１８及びＡｄａｌｓｔｅｉｎｓｓｏｎｅｔａｌ．２０１７）（データは示されていない）よりも有意に優れている。表１：表は、４つの追加の正常サンプル及び３つの追加の異常サンプルに対して、実施例４で本発明の方法により得られたスコアを例示する。異常サンプルは、ＮＳＣＬＣ（ステージＩ）と診断された癌患者からのものである。表は、低、中及び高へのｃｔＤＮＡの量の分類を強調する。サンプル中のｃｔＤＮＡの量は、組合せ診断スコア値が２～４．５である場合には低として、組合せ診断スコア値が４．５～６である場合には中として及び組合せ診断スコア値が６超である場合には高として分類される。

本発明は、ｃｔＤＮＡシーケンシングから抽出可能な情報の拡大範囲に基づく新規バイオインフォマティック解析を利用して新規マルチパラメーター戦略を実現し、臨床関連カテゴリーへのサンプルの分類のためのロバストで感度のよい特異的液状生検アッセイを確立する液状生検方法を記述する。

本発明の一実施形態は、無細胞腫瘍ＤＮＡを含むものとしてサンプルを分類する方法に関し、前記方法は、サンプルに含まれる複数のｃｆＤＮＡ断片の末端又は「開始及び／又は停止」並びに任意に開始及び／又は停止＋及び／又は－１塩基対の配列座標の決定を含む。ｃｆＤＮＡ断片の「開始及び／又は停止」は、本明細書では、ｃｆＤＮＡ断片の末端、境界又は最外側塩基対若しくはヌクレオチドに関する。ｃｆＤＮＡ断片の配列座標の決定は、参照配列へのアライメントにより達成可能であり、参照配列は、生物のＤＮＡ配列、好ましくはヒトＤＮＡ配列、例えばｈｇ１９若しくはｈｇ３８ヒトゲノム配列又はヒト対象（一実施形態では健常若しくは癌のないヒト対象であり得る）のゲノム配列であり得る。

本発明の一実施形態では、配列座標の決定は、シーケンシング解析などによる複数のｃｆＤＮＡ断片の核酸配列の解析及び／又は決定を含み得る。一実施形態では、配列座標の決定は、サンプルからの核酸及び／又は具体的にはｃｆＤＮＡ断片の抽出若しくは精製並びに／或いはサンプルからのｃｆＤＮＡ断片の富化及び／又はシーケンシング解析前の単離されたＤＮＡ、ＲＮＡ若しくはｃｆＤＮＡからのシーケンシングライブラリーの調製をさらに含み得る。

シーケンシングデータの解析は、参照ゲノム配列への得られたｃｆＤＮＡ核酸配列情報のアライメントを含み得る。このアライメントは、参照ゲノム配列への解析されたｃｆＤＮＡ断片の「開始及び／又は停止」又は末端の配列座標のマッピングを可能にする。本発明の好ましい実施形態では、シーケンスされたｃｆＤＮＡ断片の開始及び／又は停止座標に加えて、開始及び／又は停止から＋１ｂｐ及び１ｂｐ位置の配列座標も参照ゲノム配列から決定される。

続いて、サンプル中に含まれる複数のｃｆＤＮＡ断片の各決定された開始及び／又は停止配列座標の頻度を決定可能である。同一ｃｆＤＮＡ断片（技術的デュプリケート）に対して又は２つの異なるｃｆＤＮＡ断片（生物学的デュプリケート）に対して検出された座標のすべては、複数のｃｆＤＮＡ断片で検出された各開始及び／又は停止配列座標の頻度（存在量）の計算で考慮される。本発明の好ましい実施形態では、各開始及び／又は停止座標の頻度に加えて、開始及び／又は停止座標から＋１ｂｐ及び１ｂｐの各配列座標の頻度もサンプル中の複数のｃｆＤＮＡ断片内で決定される。

本発明の一実施形態では、対応する参照頻度に対する各決定された参照ゲノム座標の頻度の比が決定される。好ましい実施形態では、参照頻度に対するサンプル中の座標の頻度のこの比は、開始及び／又は停止＋１ｂｐ及び１ｂｐ配列座標の各頻度に対しても計算される。

続いて、本発明の方法に従ってすべての頻度比から診断スコアが計算され得る。前記診断スコアは、実施例１に記載のように得られるすべての頻度比の加重和として定義され、解析されたサンプルは、診断スコア値が参照スコアの平均よりも参照スコアの少なくとも１標準偏差だけ高い場合には腫瘍ｃｆＤＮＡを含むものとして分類され、参照スコアは、１つ以上の参照値から計算される。

本発明の一実施形態では、サンプルに含まれる複数のｃｆＤＮＡ断片の開始及び／又は停止座標の決定後、各開始及び／又は停止配列座標から内側の、ただしそれに１ｂｐ以上隣接する塩基対の特異的範囲内において、例えばトリヌクレオチド（３連続ヌクレオチド）、テトラヌクレオチド（４連続ヌクレオチド）及び／又はペンタヌクレオチド（５連続ヌクレオチド）で構成される参照配列中のすべての核酸モチーフが決定され得る。本発明の一実施形態では、各開始及び／又は停止配列座標から内側の、ただしそれに１ｂｐ以上隣接する塩基対の特異的範囲は、１ｂｐ～５ｂｐ、２ｂｐ～６ｂｐ、３ｂｐ～７ｂｐ、４ｂｐ～８ｂｐ、５ｂｐ～９ｂｐ又は６ｂｐ～１０ｂｐであり得る。好ましい実施形態では、サンプル中の複数のｃｆＤＮＡ断片で決定される各開始及び／又は停止配列座標から内側の範囲は、１ｂｐ～５ｂｐであり得る。モチーフは、個体間変動性（すなわち単一ヌクレオチド多型）を回避するために参照ゲノム配列から取り出される。

核酸モチーフは、ｃｆＤＮＡ断片がアラインされた且つ断片の実際の配列ではない参照配列中の各検出された開始及び／又は停止位置に基づいて決定され得る。

続いて、サンプル中の複数のｃｆＤＮＡ断片の各検出された核酸モチーフの頻度（存在量）が決定され得る。同一ｃｆＤＮＡ断片に対して又は２つの異なるｃｆＤＮＡ断片に対して検出されたモチーフのすべては、複数のｃｆＤＮＡ断片で検出された各モチーフの頻度（存在量）の計算で考慮される。この後、複数のｃｆＤＮＡ断片内の核酸モチーフ頻度の各々及び対応する参照頻度の比が計算値される。続いて、本発明の方法に従ってすべての頻度比から診断スコアが計算される。前記診断スコアは、実施例２に記載のすべての頻度比の加重和として定義され、解析されたサンプルは、診断スコア値が参照スコアの平均よりも参照スコアの少なくとも１標準偏差だけ高い場合には腫瘍ｃｆＤＮＡを含むものとして分類され、参照スコアは、１つ以上の参照値から計算される。

本発明の一実施形態では、サンプル中に含まれる複数のｃｆＤＮＡ断片の開始及び／又は停止座標の決定後、各開始及び／又は停止配列座標から内側の、ただしそれに１ｂｐ以上隣接する塩基対の特異的範囲内において、例えばトリヌクレオチド（３連続ヌクレオチド）、テトラヌクレオチド（４連続ヌクレオチド）及び／又はペンタヌクレオチド（５連続ヌクレオチド）で構成される参照配列中のすべての核酸モチーフが決定され得る。

本発明の一実施形態では、各開始及び／又は停止配列座標に対して外側の、ただしそれに１ｂｐ以上隣接する塩基対の特異的範囲は、１ｂｐ～５ｂｐ、２ｂｐ～６ｂｐ、３ｂｐ～７ｂｐ、４ｂｐ～８ｂｐ、５ｂｐ～９ｂｐ又は６ｂｐ～１０ｂｐであり得る。好ましい実施形態では、サンプル中の複数のｃｆＤＮＡ断片で決定される各開始及び／又は停止配列座標から外側の範囲は、１ｂｐ～５ｂｐであり得る。核酸モチーフは、ｃｆＤＮＡ断片がアラインされた参照配列中の各検出された開始及び／又は停止位置に基づいて決定され得る。かかる核酸モチーフは、ｃｆＤＮＡ断片がアラインされた位置に１ｂｐ以上隣接する参照配列の核酸配列のみを含み得る。かかるモチーフは、ｃｆＤＮＡ断片の核酸配列を含まず、参照配列中の開始又は停止座標、例えば開始座標の外側から直接始まる、開始及び／又は停止に対して１ｂｐ～５ｂｐ外側の、ただしそれに隣接する配列を含む。

続いて、サンプル中の複数のｃｆＤＮＡ断片の各検出された核酸モチーフの頻度が決定され得る。同一ｃｆＤＮＡ断片に対して又は２つの異なるｃｆＤＮＡ断片に対して検出されたモチーフのすべては、複数のｃｆＤＮＡ断片で検出された各モチーフの頻度（存在量）の計算で考慮される。この後、複数のｃｆＤＮＡ断片内の核酸モチーフ頻度の各々及び対応する参照頻度の比が計算値される。続いて、本発明の方法に従ってすべての頻度比から診断スコアが計算され得る。前記診断スコアは、実施例３に記載のすべての頻度比の加重和として定義され、解析されたサンプルは、診断スコア値が参照スコアの平均よりも参照スコアの少なくとも１標準偏差だけ高い場合には腫瘍ｃｆＤＮＡを含むものとして分類され、参照スコアは、１つ以上の参照値から計算される。

本発明の一実施形態では、参照頻度と比較した、（ａ）開始及び／又は停止配列座標（任意に－１ｂｐ及び／又は＋１ｂｐ）の頻度、（ｂ）ｃｆＤＮＡ断片の開始及び／又は停止座標に対して内側に、ただしそれに１ｂｐ以上隣接して位置するすべての核酸モチーフの頻度、並びに（ｃ）ｃｆＤＮＡ配列を含むことなくｃｆＤＮＡ断片開始及び／又は停止座標に対して外側に、ただしそれに１ｂｐ以上隣接して位置するすべての核酸モチーフの頻度の比からスコアを計算するこれ以前に記載の方法ステップは、すべて並行して又は特異的順序で行われ得、続いて、実施例４に記載のように、本発明の方法に従って組合せ診断スコア値を計算するために、ステップ（ａ）、（ｂ）及び（ｃ）の２つ又はすべての診断スコア値が使用され得る。この組合せ診断スコア値によれば、解析されたサンプルは、組合せ診断スコア値が参照スコアの平均よりも参照スコアの少なくとも１標準偏差だけ高い場合、腫瘍ｃｆＤＮＡ又は循環腫瘍ＤＮＡ（ｃｔＤＮＡ）を含むものとして分類され、参照スコアは、１つ以上の参照値から計算される。

一実施形態では、各異常サンプルで得られた組合せ診断スコア値と参照スコアとを比較することにより、サンプル中の腫瘍ｃｆＤＮＡ又はｃｔＤＮＡの量は、（ａ）組合せ診断スコアが参照スコアの２～４標準偏差である場合には低として、（ｂ）組合せスコアが参照スコアの４～６．５標準偏差である場合には中として、及び（ｃ）組合せスコアが参照スコアの６．５標準偏差超である場合には高として分類され得る（表１）。

無細胞核酸
本明細書では、好ましくは、核酸断片の混合物は、真核生物、好ましくは霊長動物、より好ましくはヒトから採取されたサンプルから単離される。サンプルは、異なる組織型からの細胞又は核酸を含み得る。このため、サンプルは、内因的に核酸断片の混合物を含み得る。

本明細書では、「核酸」又は「核酸配列」は、限定されるものではないが、ＤＮＡ、ＲＮＡ、ゲノミックＤＮＡ、無細胞ＤＮＡ及び／又はＲＮＡ並びにｔＲＮＡ、メッセンジャーＲＮＡ（ｍＲＮＡ）、合成ＤＮＡ又はＲＮＡと互換的に用いられ得る。

本発明との関連では、「核酸断片」及び「断片化核酸」という用語は、互換的に用いることが可能である。本発明に係る方法の好ましい実施形態では、核酸断片は、循環無細胞ＤＮＡ又はＲＮＡである。

本発明の一実施形態では、サンプル中に含まれる最小１００，０００ｃｆＤＮＡ断片が分析され得る。他の一実施形態では、解析されるサンプル中に含まれるｃｆＤＮＡ断片の数は、１０万～５０万、５０万～１００万、１００万～２００万、２００万～５００万、５００万～１０００万、１０００万～２０００万、２０００万～５０００万又は５０００万～５億の範囲内であり得る。

本発明の一実施形態では、「サンプル」は、無細胞ＤＮＡ（ｃｆＤＮＡ）、無細胞腫瘍ＤＮＡ（ｃｆｔＤＮＡ）、循環腫瘍ＤＮＡ（ｃｔＤＮＡ）又は循環ｃｆｔＤＮＡを含む血液サンプル、血清サンプル、血漿サンプル、液状生検サンプル又はＤＮＡサンプル（例えば、核酸断片の混合物）である。本発明との関連では、「ｃｆＤＮＡ」、「ｃｆｔＤＮＡ」、「ｃｔＤＮＡ」又は「循環ｃｆｔＤＮＡ」という用語は、互換的に用いられ得る。

一実施形態では、サンプルは、瘍を有するか又は有する疑いのある対象からの血漿サンプル、血液サンプル、尿サンプル、痰サンプル、脳脊髄液サンプル、腹水サンプル及び腫胸膜液サンプルからなる群から選択される。一実施形態では、サンプル又はＤＮＡサンプルは、腫瘍又は一群の悪性細胞を有するか又は有する疑いのある対象からの組織サンプルに由来する。

本発明との関連では、「腫瘍」、「癌」又は「異常」という用語は、互換的に用いられ得る。本明細書では、「癌」又は「腫瘍」という用語は、早期ステージ癌又は進行癌、転移又は前癌の組織又は細胞も含み得る。本明細書では、腫瘍サンプル又は異常サンプルは、原発腫瘍又は転移腫瘍を起源とする（無細胞）ＤＮＡ又はＲＮＡを含むサンプルに関し得る。正常サンプル又は参照サンプルは、本明細書では、非癌性、健常又は「正常」組織又は細胞を起源とする（無細胞）ＤＮＡ又はＲＮＡのみを含むサンプルに関し得る。本発明との関連では、「正常」、「コントロール」又は「参照」という用語は、互換的に用いられ得る。

本発明の方法は、様々な生物学的サンプルで使用可能である。本質的には、ジェネティック材料、例えばＲＮＡ又はＤＮＡ、特に無細胞ＤＮＡ（ｃｆＤＮＡ）又は無細胞ＲＮＡを含有するいずれの生物学的サンプルも、それらに含まれるＲＮＡ又はＤＮＡのジェネティック解析を可能にする本方法でサンプルとして使用可能である。例えば、一実施形態では、ＤＮＡサンプルは、無細胞ＤＮＡ（ｃｆＤＮＡ）を含有する血漿サンプル又は血液サンプルである。

そのうえ他の一実施形態では、サンプルは、腫瘍又は癌を有するか又は有する疑いのある被験体から得られる生物学的サンプルである。一実施形態では、サンプルは、循環無細胞腫瘍ＤＮＡ（ｃｆｔＤＮＡ）を含む。他の一実施形態では、サンプルは、対象の尿、痰、腹水、脳脊髄液又は胸膜滲出液である。他の一実施形態では、腫瘍学的サンプルは、対象末梢血から調製される対象血漿サンプルである。そのため、サンプルは、対象の血液サンプルから非侵襲的に得られる液状生検サンプルであり得るため、検出可能若しくは触知可能腫瘍の発生前に癌の早期検出を潜在的に可能にするか、又は疾患進行、疾患処置若しくは疾患再発のモニタリングを可能にする。

本明細書では、無細胞ＤＮＡ（ｃｆＤＮＡ）は、細胞内に含有されないＤＮＡを意味する。サンプルは、正常若しくは健常細胞からの及び／又は癌細胞からのｃｆＤＮＡを含み得る。無細胞ＤＮＡは、分泌、アポトーシス又は壊死を介して血液又は血清中に放出され得る。ｃｆＤＮＡが腫瘍又は癌細胞から放出された場合、それは無細胞腫瘍ＤＮＡ（ｃｆｔＤＮＡ）と呼ばれ得る。

本発明との関連では、「対象」という用語は、動物、好ましくは哺乳動物、より好ましくはヒト又はヒト患者を意味する。本明細書で用いられる場合、「対象」という用語は、腫瘍に罹患しているか又はそれを有する疑いのある対象を意味し得る。

「腫瘍」は、本明細書では、限定されるものではないが、固形腫瘍、腺腫、血液癌、肝癌、肺癌、膵癌、前立腺癌、乳癌、胃癌、膠芽細胞腫、結腸直腸癌、頭頸部癌、進行ステージ癌腫瘍、良性又は悪性腫瘍、転移又は前癌組織を含めて、癌全般を意味する。

本明細書では、ｃｆＤＮＡ断片の「末端」は、核酸断片の３’及び５’末端の最外側ヌクレオチドを定義し、本明細書では、ｃｆＤＮＡ断片の「開始及び／又は停止（位置）」又は「切断点」又は「境界」ともいわれ得る。参照配列にアラインされたとき、ｃｆＤＮＡ断片の「（開始及び／又は停止）座標」又は「配列座標」は、参照配列中でｃｆＤＮＡ断片の末端がアラインされた最外側核酸配列位置により定義される。例えば、ｃｆＤＮＡ断片が配列位置１５００ｂｐ～１７００ｂｐにわたる参照核酸配列に相補的であるか又はそれにアラインされた場合、配列座標は、ｃｆＤＮＡ断片の２００ｂｐの長さを定義する１５００及び１７００ｂｐになるであろう。

１６６ｂｐメジャーピーク及び１０ｂｐインターバルを有するより小さいピークを呈するｃｆＤＮＡのサイズプロファイルは、ｃｆＤＮＡの生物学的性状がヌクレオソーマル組織化に関連する可能性があることが示唆された。類似のパターンは、癌患者の血漿ＤＮＡ中でも観測された。起源の組織に関連するｃｆＤＮＡの非ランダム断片化パターンは、患者の健康状態にも関連する可能性がある。そのため、無細胞ＤＮＡ断片の末端又は開始及び／又は停止の座標及び頻度は、疾患進行の指標となる。それらは、腫瘍の起源及び疾患の範囲ひいては所与の療法へのその応答を反映する腫瘍塊によって異なる。

本明細書で用いられる場合、開始及び／又は停止」座標から「内側」という用語は、配列又はモチーフが延在する参照配列中の核酸断片の「開始及び／又は停止」座標からの方向を意味する。「内側」は、核酸断片配列又はそれがアラインされた参照配列に含まれる核酸配列又はモチーフに関し得る。「内側」は、核酸断片の開始座標から＋１、＋２、＋３、＋４、＋５などの塩基対及び／又は停止座標から－１、－２、－３、－４、－５塩基対を意味し得る。一実施形態では、各開始及び／又は停止配列座標に対して内側の、ただしそれに隣接する塩基対の範囲は、各開始及び／又は停止座標から１ｂｐ～５ｂｐ、２ｂｐ～６ｂｐ、又は３ｂｐ～７ｂｐ、又は４ｂｐ～８ｂｐ、又は５ｂｐ～９ｂｐ、又は６ｂｐ～１０ｂｐであり得る。

本明細書で用いられる場合、開始及び／又は停止」座標から「外側」という用語は、配列が延在する参照配列中の核酸断片の「開始及び／又は停止」座標からの方向を意味する。「外側」は、核酸断片配列又はそれがアラインされた参照配列に含まれる核酸配列又はモチーフに関し得る。「外側」は、核酸断片の停止座標から＋１、＋２、＋３、＋４、＋５などの塩基対及び／又は開始座標から－１、－２、－３、－４、－５塩基対を意味し得る。一実施形態では、各開始及び／又は停止配列座標に対して外側の、ただしそれに隣接する塩基対の範囲は、各開始及び／又は停止座標から１ｂｐ～５ｂｐ、２ｂｐ～６ｂｐ、又は３ｂｐ～７ｂｐ、又は４ｂｐ～８ｂｐ、又は５ｂｐ～９ｂｐ、又は６ｂｐ～１０ｂｐであり得る。

断片の観測末端部位が必ずしも真の切断／消化部位とは限らない可能性があるため、本方法は、開始及び／又は停止座標±１ｂｐの頻度及び／又は配列モチーフを解析する（ＰｅｉｙｏｎｇＪｉａｎｇｅｔａｌ．，ＧｅｎｏｍｅＲｅｓ．，２０２０，ｄｏｉ：１０．１１０１／ｇｒ．２６１３９６．１２０）。そのため、近くのゲノミック塩基が真の消化部位である尤度を考慮に入れて、本発明は、臨床関連カテゴリーへの生物学的サンプルの分類で従来技術よりも優れた確度の改善をもたらす。

本明細書では、「核酸モチーフ」、「配列モチーフ」又は「モチーフ」は、２、３、４、５、６、７、８、９、１０、２０、３０、４０、５０、１００などの連続ヌクレオチドで構成される核酸配列中の連続ヌクレオチドのアレイを意味する。連続ヌクレオチドのこのアレイは、「トリヌクレオチド」、「テトラヌクレオチド」、「ペンタヌクレオチド」、「ヘキサヌクレオチド」などとも呼ばれ得る。前記モチーフは、無細胞及び／又は循環ＤＮＡ分子が発生されて血漿中に放出されるとき、特異的ヌクレアーゼなどにより優先的に切断されるヒトゲノミック位置のサブセットである。アポトーシス時にＤＮＡなどの核酸を切断するヌクレアーゼから生じるかかる血漿ＤＮＡ末端モチーフは、ＨＳＮＲＦを含み得るか又はそれに特異的である識別可能シグネチャーを提示する。好ましい実施形態では、「モチーフ」は、参照ゲノム配列からの３、４又は５連続ヌクレオチドのアレイを意味する。

一実施形態では、核酸モチーフは、ｃｆＤＮＡ断片の末端又は切断点に位置し得、モチーフは、ｃｆＤＮＡ断片の核酸配列内に含まれ得るか、又はｃｆＤＮＡ断片配列の境界外に且つ参照核酸配列内に（例えば、ｃｆＤＮＡ断片がアラインされた位置に隣接して）位置し得る。

ｃｆＤＮＡの解析
本明細書では、「参照配列」は、いずれかの核酸配列、ゲノミック配列、生物若しくは対象のゲノミック配列、好ましくはヒトゲノム（例えば、ｈｇ１９若しくはｈｇ３８）の又は健常個体若しくは対象の配列であり得る。

本明細書では、開始及び／又は停止配列座標の頻度に対する「参照頻度」は、１つ以上の参照ゲノム、参照配列又は１つ以上の健常若しくは「正常」コントロールサンプル、対象若しくは患者の１つ以上のゲノム若しくは配列中の対応する開始及び／又は停止配列座標の頻度であり得る。本明細書では、核酸モチーフに対する「参照頻度」は、１つ以上の参照ゲノム、参照配列又は１つ以上の健常若しくは「正常」コントロールサンプル、対象若しくは患者の１つ以上のゲノム若しくは配列中の対応する核酸モチーフの頻度であり得る。

本明細書では、「頻度」は、存在量及び発生率と互換的に用いられ得る。本発明の一実施形態では、「頻度」は、例えば、サンプルに含まれる複数の核酸又はｃｆＤＮＡ断片で検出又は計数された核酸配列モチーフ、核酸（ｃｆＤＮＡ）断片又は開始及び／若しくは停止配列座標の存在量及び発生率又は数を記述する。

本明細書では、「比」は、例えば、サンプル中の複数の核酸断片で検出された核酸配列モチーフの頻度の、参照サンプル中の同一核酸配列モチーフの頻度に対する、数学的関係又は割合を意味し得る。本明細書では、比は、各座標又はモチーフの頻度を対応する座標又はモチーフの対応する参照頻度で除算することにより計算され得る。

サンプル調製のために、ＤＮＡ及び／又はＲＮＡなどの核酸は、当技術分野で公知の標準的技術（その非限定的例は、ＱＩＡｓｙｍｐｈｏｎｙ（ＱＩＡＧＥＮ）プロトコル、ＱＩＡａｍｐＣｉｒｃｕｌａｔｉｎｇＮｕｃｌｅｉｃＡｃｉｄ（ＱＩＡＧＥＮ）、ＫｉｎｇＦｉｓｈｅｒ（Ｔｈｅｒｍｏｆｉｓｈｅｒ）プロトコル、ＭａｇＭＡＸ（商標）Ｃｅｌｌ－ＦｒｅｅＤＮＡ（Ｔｈｅｒｍｏｆｉｓｈｅｒ）又は無細胞ＤＮＡ単離に好適ないずれかの他の手動若しくは自動抽出法である）を用いてサンプルから抽出される。

単離後、サンプルの無細胞ＤＮＡは、次世代シーケンシング（ＮＧＳ）などの下流シーケンシング技術にサンプルが適合可能になるようにシーケンシングライブラリー調製に使用され得る。典型的には、これは、無細胞ＤＮＡ断片の末端へのアダプターのライゲーションを含む。シーケンシングライブラリー調製キットは、市販されているか又は開発可能である。

ｃｆＤＮＡの標的富化は、ヒトゲノム上の対象領域に結合する標的キャプチャー配列（ＴＡＣＳ）を用いて実施され、プール内の各配列は、１２５～２６０塩基対の長さ、及び／又は１２５～３００ｂｐの長さ、及び／又は１２５～３５０ｂｐの長さであり、各配列は、５’末端及び３’末端を有し、プール内の各配列は、コピー数変動、セグメンタルデュプリケーション又は繰返しＤＮＡエレメントを保有する領域からを少なくとも１０塩基対離れた対象領域に５’末端及び３’末端の両方で結合し、ＴＡＣＳのＧＣ含有率、２０％～５０％、及び／又は２０％～６０％、及び／又は２０％～７０％、及び／又は２０％～８０％である。

本明細書では、「標的キャプチャー配列」又は「ＴＡＣＳ」という用語は、対象ゲノミック配列上の対象領域に相補的なＤＮＡ配列を意味し、これは、生物学的サンプルから調製される全ゲノミックシーケンシングライブラリーなどの大きい配列ライブラリーから対象領域をキャプチャーし富化する「ベイト」として使用される。本発明との関連では、「標的キャプチャー配列」又は「ＴＡＣＳ」又は「プローブ」という用語は、互換的に用いられ得る。

他の一実施形態では、ＴＡＣＳのプールは、限定されるものではないが、ＡＫＴ１、ＡＬＫ、ＡＰＣ、ＡＲ、ＡＲＡＦ、ＡＴＭ、ＢＡＰ１、ＢＡＲＤ１、ＢＭＰＲ１Ａ、ＢＲＡＦ、ＢＲＣＡ１、ＢＲＣＡ２、ＢＲＩＰ１、ＣＤＨ１、ＣＤＫ４、ＣＤＫＮ２Ａ（ｐｌ４ＡＲＦ）、ＣＤＫＮ２Ａ（ｐｌ６ＩＮＫ４ａ）、ＣＨＥＫ２、ＣＴＮＮＢ１、ＤＤＢ２、ＤＤＲ２、ＤＩＣＥＲｌ、ｅＧＦＲ、ＥＰＣＡＭ、ＥＲＢＢ２、ＥＲＢＢ３、ＥＲＢＢ４、ＥＲＣＣ１、ＥＲＣＣ２、ＥＲＣＣ３、ＥＲＣＣ４、ＥＲＣＣ５、ＥＳＲ１、ＦＡＮＣＡ、ＦＡＮＣＢ、ＦＡＮＣＣ、ＦＡＮＣＤ２、ＦＡＮＣＥ、ＦＡＮＣＦ、ＦＡＮＣＧ、ＦＡＮＣＩ、ＦＡＮＣＬ、ＦＡＮＣＭ、ＦＢＸＷ７、ＦＧＦＲ１、ＦＧＦＲ２、ＦＬＴ３、ＦＯＸＡ１、ＦＯＸＬ２、ＧＡＴＡ３、ＧＮＡ１１、ＧＮＡＱ、ＧＮＡＳ、ＧＲＥＭ１、ＨＯＸＢ１３、ＩＤＨ１、ＩＤＨ２、ＪＡＫ２、ＫＥＡＰ１、ＫＩＴ、ＫＲＡＳ、ＭＡＰ２Ｋ１、ＭＡＰ３Ｋ１、ＭＥＮ１、ＭＥＴ、ＭＬＨ１、ＭＰＬ、ＭＲＥ１１Ａ、ＭＳＨ２、ＭＳＨ６、ＭＴＯＲ、ＭＵＴＹＨ、ＭＹＣ、ＭＹＣＮ、ＮＢＮ、ＮＰＭ１、ＮＲＡＳ、ＮＴＲＫ１、ＰＡＬＢ２、ＰＤＧＦＲＡ、ＰＩＫ３ＣＡ、ＰＩＫ３ＣＢ、ＰＭＳ２、ＰＯＬＤ１、ＰＯＬＥ、ＰＯＬＨ、ＰＴＥＮ、ＲＡＤ５０、ＲＡＤ５１Ｃ、ＲＡＤ５１Ｄ、ＲＡＦ１、ＲＢＩ、ＲＥＴ、ＲＯＳ１、ＲＵＮＸ１、ＳＤＨＡ、ＳＤＨＡＦ２、ＳＤＨＢ、ＳＤＨＣ、ＳＤＨＤ、ＳＬＸ４、ＳＭＡＤ４、ＳＭＡＲＣＡ４、ＳＰＯＰ、ＳＴＡＴ、ＳＴＫ１１、ＴＭＰＲＳＳ２、ＴＰ５３、ＶＨＬ、ＸＰＡ、ＸＰＣ及びそれらの組合せ
を含む群から選択される複数の対象腫瘍バイオマーカー配列に結合する。一実施形態では、ＴＡＣＳのプールは、ＥＧＦＲ＿６２４０、ＫＲＡＳ＿５２１、ＥＧＦＲ＿６２２５、ＮＲＡＳ＿５７８、ＮＲＡＳ＿５８０、ＰＩＫ３ＣＡ＿７６３、ＥＧＦＲ＿１３５５３、ＥＧＦＲ＿１８４３０、ＢＲＡＦ＿４７６、ＫＩＴ＿１３１４、ＮＲＡＳ＿５８４、ＥＧＦＲ＿１２３７８及びそれらの組合せを含む群から選択される複数の対象腫瘍バイオマーカー配列に結合する。

他の一実施形態では、ＴＡＣＳのプールは、限定されるものではないが、ＣＯＳＭ６２４０（ＥＧＦＲ＿６２４０）、ＣＯＳＭ５２１（ＫＲＡＳ＿５２１）、ＣＯＳＭ６２２５（ＥＧＦＲ＿６２２５）、ＣＯＳＭ５７８（ＮＲＡＳ＿５７８）、ＣＯＳＭ５８０（ＮＲＡＳ＿５８０）、ＣＯＳＭ７６３（ＰＩＫ３ＣＡ＿７６３）、ＣＯＳＭ１３５５３（ＥＧＦＲ＿１３５５３）、ＣＯＳＭ１８４３０（ＥＧＦＲ＿１８４３０）、ＣＯＳＭ４７６（ＢＲＡＦ＿４７６）、ＣＯＳＭ１３１４（ＫＩＴ＿１３１４）、ＣＯＳＭ５８４（ＮＲＡＳ＿５８４）、ＣＯＳＭ１２３７８（ＥＧＦＲ＿１２３７８）並びにそれらの組合せを含む群から選択される複数の対象腫瘍バイオマーカー配列に結合する。ここで、識別子は、バイオマーカーのＣＯＳＭＩＣデータベースＩＤ番号を意味する。一般的には、プローブハイブリダイゼーション又は富化ステップは、シーケンシングライブラリーを作成する前又はライブラリーを作成した後に行うことが可能である。

本発明の一実施形態では、シーケンシングライブラリーは、非ランダム断片化のホットスポット（ＨＳＮＲＦ）などをカバーする１つ以上のプローブへのライブラリーのハイブリダイゼーションにより対象配列領域に関して富化され得る。かかるＨＳＮＦＲ領域は、ｃｆＤＮＡ混合物中に存在する異なる組織起源型（例えば、癌及び正常）の同定を促進する数多くの核酸配列バリエーションを短距離内に含む確率が高い領域である。

ＨＳＮＲＦが位置する対象染色体上の対象領域は、ＨＳＮＲＦキャプチャープローブのプールをシーケンシングライブラリーにハイブリダイズすることにより、続いてプローブに結合するシーケンシングライブラリー内の配列の単離により、富化される。一実施形態では、プローブは、断片化細胞を含まない核酸の５’末端のみがプローブによりキャプチャーされるようにＨＳＮＲＦ部位をまたぐ。他の一実施形態では、プローブは、ＨＳＮＲＦから生じる、断片化細胞を含まない核酸の３’末端のみがプローブに結合可能であるようにＨＳＮＲＦ部位をまたぐ。他の好ましい一実施形態では、プローブは、所与のＨＳＮＲＦ部位に関連する無細胞核酸の５’及び３’末端の両方がプローブによりキャプチャーされるように、断片化核酸に関連する両方のＨＳＮＲＦ部位をまたぐ。

所望の富化配列（ＨＳＮＲＦ）の単離を促進するために、典型的には、プローブ配列は、プローブにハイブリダイズする配列をプローブにハイブリダイズしない配列から分離できるように修飾される。典型的には、これは、プローブを担体に固定することにより達成される。これは、プローブに結合しない配列からのプローブに結合する配列の物理的分離を可能にする。例えば、プローブのプール内の各配列をビオチンで標識可能であり、次いで、ストレプトアビジンやアビジンなどのビオチン結合性物質で被覆されたビーズにプールを結合可能である。好ましい実施形態では、プローブをビオチンで標識してストレプトアビジン被覆磁気ビーズに結合すれば、ビーズの磁気的性質を活用することにより分離が可能になる。しかしながら、他の親和性結合システムが当技術分野で公知であり、ビオチン－ストレプトアビジン／アビジンの代わりに使用可能であることは、当業者であれば分かるであろう。例えば、プローブを抗原で標識し、次いで抗体被覆ビーズに結合する抗体ベースシステムを使用可能である。そのうえ、プローブは、一方の末端に配列タグを組込み可能であり、配列タグにハイブリダイズする担体上の相補的配列を介して担体に結合可能である。さらに、磁気ビーズに加えて、他のタイプの担体、例えばポリマービーズ、ガラスなどを使用可能である。

特定の実施形態では、プローブのプールに結合するシーケンシングライブラリーのメンバーは、プローブに十分に相補的である。他の実施形態では、プローブのプールに結合するシーケンシングライブラリーのメンバーは、プローブに部分的に相補的である。例えば、特定の状況では、必ずしも対象ゲノム領域に属するとは限らないが富化プロセスの生成物であり、而もシーケンスしたときにゲノム全体を通して非プローブ座標にわたり非常に低いカバレッジを生じ得る、ＤＮＡ断片（すなわち、かかるＤＮＡ断片は、部分的相同性が原因でプローブに結合可能である）からのデータを利用し解析することが望ましいこともある。

プローブを用いた対象配列の富化によりＨＳＮＲＦ部位を有するＤＮＡの富化ライブラリーを形成した後、富化ＨＳＮＲＦライブラリーのメンバーは溶出され、当技術分野で公知の標準的方法を用いて増幅されシーケンスされる。他の一実施形態では、プローブは、ストレプトアビジン被覆磁気ビーズと共に提供されるビオチン化プローブのように担体と共に提供される。

腫瘍バイオマーカーの検出のために、プローブは、本明細書に記載の設計基準並びに腫瘍バイオマーカー遺伝子の既知の配列及び癌に関連するそれに含まれるジェネティック変異に基づいて設計される。一実施形態では、本方法に使用される複数のプローブは、複数の対象腫瘍バイオマーカー配列に結合する。この際、プローブは、変異部位に隣接する非ランダム断片化のホットスポットに位置し得る。

本明細書では、核酸配列解析に次世代シーケンシング（ＮＧＳ）を使用し得るが、配列情報に加えて非常に正確な計数を提供する他のシーケンシング技術も採用可能である。そのため、限定されるものではないが、ディジタルＰＣＲ、単一分子シーケンシング、ナノポアシーケンシング、ＤＮＡナノボールシーケンシング、ライゲーションシーケンシング、イオン半導体シーケンシング、合成シーケンシング、マイクロアレイなどの他の正確な計数方法もＮＧＳの代わりに使用可能である。

一実施形態では、本発明は、検出されるか又はその起源が決定される核酸断片が同一ジェネティック座位からの、ただし異なる起源の核酸断片よりも低い濃度で混合物中に存在する場合の方法に関する。

本方法は、かかる低濃度の標的ｃｆＤＮＡを解析するのにとくに適している。本発明に係る方法では、検出されるか又はその起源が決定される核酸断片及び同一ジェネティック座位からの、ただし異なる起源の核酸断片は、１：２、１：４、１：１０、１：２０、１：５０、１：１００、１：２００、１：５００、１：１０００、１：２０００及び１：５０００の群から選択される比で混合物中に存在する。比は、±３０％、２０％又は１０％を意味するおおよその比として理解されるべきである。かかる比が厳密に以上で引用された数値で生じないことは、当業者の知るところである。比は、豊富なタイプの座位特異的分子の数に対する稀有なタイプの座位特異的分子の数を意味する。

データ解析
富化ライブラリーのシーケンシングから得られる情報は、革新的な生物数学的／生物統計学的データ解析パイプラインを用いて解析される。本方法は、参照ゲノム配列を用いて且つ真の消化部位を表さないおそれがあるため、観測されたｃｆＤＮＡ末端部位を除いて、末端座標に１ｂｐ以上隣接するすべての可能なモチーフの組合せを含むｃｆＤＮＡ断片の特徴を利用する。さらに、位置及びモチーフを含めてｃｆＤＮＡの異なる特徴の解析を組み合わせることにより、本発明は、確度の改善、すなわち同一特異度レベルで感度の増加という予想外の技術的効果を達成した。

本発明の好ましい実施形態によれば、標的ペアエンド次世代シーケンシングが実施される。すべてのサンプルに対するマルチプレックスデータは、Ｉｌｌｕｍｉｎａｂｃｌｔｏｆａｓｔｑツールを用いてデマルチプレックスされる。前記サンプルのシーケンシングデータは、ｃｕｔａｄａｐｔソフトウェアを用いてアダプター配列及び品質不良リード（Ｑスコア＜２５）を除去するために処理される（Ｍａｒｔｉｎ，Ｍ．ｅｔａｌ．２０１１ＥＭＢ．ｎｅｔＪｏｕｒｎａｌ１７．１）。

少なくとも２５塩基長の処理リードは、Ｂｕｒｒｏｗｓ－Ｗｈｅｅｌアライメントアルゴリズム（Ｌｉ，Ｈ．ａｎｄＤｕｒｂｉｎ，Ｒ．（２００９）Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ２５：１７５４－１７６０）を用いて、ヒト参照ゲノムビルドＧＲＣｈ３７（ｈｇ１９）（ＵＣＳＣＧｅｎｏｍｅＢｉｏｉｎｆｏｒｍａｔｉｃｓ）にアラインされた。閾値超のインサートサイズを有するペアリードは、除去された。前記閾値は、１００～６００の範囲である。該当する場合、アライメント後、デュプリケートリードを同定し、ユニーク分子識別子（ＵＭＩ）ファミリーによりグループ化し、ＵＭＩファミリーごとのコンセンサスリードの生成に使用する。

適用可能であれば、同一サンプルに関する、ただし別々のシーケンシングレーン上で処理されたシーケンシングアウトプットは、単一シーケンシングアウトプットファイルにマージされた。デュプリケート及びマージング手順の利用は、ｆｇｂｉｏ、ｐｉｃａｒｄツールソフトウェアスイート（ＢｒｏａｄＩｎｓｔｉｔｕｔｅ）及びＳａｍｂａｍｂａツールソフトウェアスイート（Ｓａｍｂａｍｂａｒｅｆｅｒｅｎｃｅ，Ｔａｒａｓｏｖ，Ａｒｔｅｍ，ｅｔａｌ．Ｓａｍｂａｍｂａ：ｆａｓｔｐｒｏｃｅｓｓｉｎｇｏｆＮＧＳａｌｉｇｎｍｅｎｔｆｏｒｍａｔｓ．Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ３１．１２（２０１５）：２０３２－２０３４）を用いて実施された。マッピング位置（最外側及び近接座標）、対象座位の塩基ごとのリードデプス及び断片サイズに関する情報は、ＳＡＭｔｏｏｌｓソフトウェアスイートのｍｐｉｌｅｕｐオプション（これ以降では、ｍｐｉｌｅｕｐファイルといわれる）を用いて得られ、Ｐｙｔｈｏｎ及びＲプログラミング言語（ＰｙｔｈｏｎＳｏｆｔｗａｒｅＦｏｕｎｄａｔｉｏｎ（２０１５）Ｐｙｔｈｏｎ、ＴｈｅＲＦｏｕｎｄａｔｉｏｎ（２０１５）ＴｈｅＲＰｒｏｊｅｃｔｆｏｒＳｔａｔｉｓｔｉｃａｌＣｏｍｐｕｔｉｎｇ）で記述されたカスタムビルドアプリケーションプログラミングインターフェース（ＡＰＩ）を用いて処理された。

断片の末端座標は、断片がまたぐ参照ゲノムの最外側座標として定義される。すなわち、各アライン断片は、２つの末端座標（参照ゲノムを基準にした開始／最左側位置（５’末端）及び停止／最右側位置（３’末端）の座標）を有する。

本発明の各種実施形態では、標的パネルは、最小５００標的ゲノミック塩基からなっていた。サンプル当たり必要とされる断片の最小数は、１００，０００である。

本明細書では、「診断スコア値」は、「実施例セクション」の実施例１、２及び３に記載のすべての頻度比の加重和として計算される。

本明細書では、「組合せ診断スコア値」は、実施例４に記載のように、本発明に記載のすべてのステップからの少なくとも２つ以上の頻度比の加重和として計算される。

本発明の一実施形態では、「参照スコア」は、１つ以上の「参照値」から計算され得る。

一実施形態では、参照値又は参照スコアは、１つ以上の正常又は参照サンプルから取得されたデータから計算され得る。一実施形態では、参照値又は参照スコア及びそれが比較される解析サンプルの値（例えば、核酸モチーフの頻度、開始及び／又は停止座標の頻度）又は解析サンプルの診断スコアは、本明細書に開示されるように、同一計算方法に従って計算される。

サンプル分類
本明細書では、サンプルの分類は、バイナリー分類（すなわち癌、癌なし、予後良好、予後劣悪／不良、再発、非再発）並びに低、中及び高へのｃｆｔＤＮＡ量の分類を含む。

サンプル分類のための臨床関連カテゴリーは、癌の存在又は不在、疾患又は癌の寛解、疾患又は癌の再発、早期癌ステージ及び予後であり得る。

訳抜け問い合わせ中

オンコロジー使用
本発明は、癌の処置において又は腫瘍負荷の評価、微小残留疾患の検出、処置アウトカムのモニタリング、患者アウトカムの長期モニタリングのために使用され得る。本発明は、標的療法に好適な変異の同定に並びに癌体細胞系及び生殖系変異の検出にさらに使用され得る。本方法は、他の方法により検出可能でない小腫瘍の早期検出を促進し、且つより標的化されカスタマイズされた処置アプローチを可能にする。

キット
他の一態様では、本発明は、本発明の方法を実施するためのキットを提供する。一実施形態では、キットは、プローブのプールから構成される容器並びに本方法を実施するためのソフトウェア及び説明書を含む。

プローブのプールに加えて、キットは、（ｉ）生物学的サンプルから無細胞ＤＮＡを単離するための１つ以上の成分、（ｉｉ）シーケンシングライブラリーを調製及び富化するための１つ以上の成分（例えば、プライマー、アダプター、緩衝剤、リンカー、ＤＮＡ修飾性酵素、ライゲーション酵素、ポリメラーゼ酵素、プローブなど）、（ｉｉｉ）富化されたライブラリーを増幅及び／又はシーケンスするための１つ以上の成分の１つ以上、及び／又は（ｉｖ）統計解析を実施するためのソフトウェアを含み得る。（ｉ）、（ｉｉ）及び（ｉｉｉ）で参照されたステップを行うのに好適な成分は、当業者に周知である。

一実施形態では、プローブは、ビオチン化プローブのように固形担体に結合させ得る形態で提供される。他の一実施形態では、プローブは、ストレプトアビジン被覆磁気ビーズと共に提供されるビオチン化プローブのように固形担体と共に提供される。

各種他の実施形態では、キットは、本方法の他の態様を行うための追加成分を含み得る。例えば、プローブのプールに加えて、キットは、（ｉ）母体血漿サンプルから無細胞ＤＮＡを単離するための１つ以上の成分、（ｉｉ）シーケンシングライブラリーを調製するための１つ以上の成分（例えば、プライマー、アダプター、リンカー、制限酵素、ライゲーション酵素、ポリメラーゼ酵素）、（ｉｉｉ）富化されたライブラリーを増幅及び／又はシーケンスするための１つ以上の成分の１つ以上、及び／又は（ｉｖ）統計解析を実施するためのソフトウェアを含み得る。（ｉ）、（ｉｉ）及び（ｉｉｉ）で参照されたステップを行うのに好適な成分は、当業者に周知である。

実施例１
サンプルに含まれる複数のｃｆＤＮＡ断片の開始及び／又は停止（＋及び／又は－１塩基対）の決定は、参照配列へのアライメントにより達成された。続いて、サンプル中に含まれる複数のｃｆＤＮＡ断片の各決定された開始及び／又は停止配列座標の頻度が決定された。対応する参照頻度に対する各決定された参照ゲノム座標の頻度の比が決定され、得られたすべての頻度比の加重和（本明細書では「診断スコア」といわれる）が計算された。

本発明の一実施形態によれば、各塩基ｉ（ここで、ｉ＝１、．．．、Ｂであり、Ｂは、前記パネル中の標的塩基の合計数に等しい）に対して、下記条件：
（Ａ１）塩基ｉに開始位置座標を有すること、又は
（Ａ２）塩基ｉに停止位置座標を有すること、又は
（Ａ３）塩基ｉに開始－１塩基位置座標を有すること、又は
（Ａ４）塩基ｉに開始＋１塩基位置座標を有すること、又は
（Ａ５）塩基ｉに停止－１塩基位置座標を有すること、又は
（Ａ６）塩基ｉに停止＋１塩基位置座標を有すること
の少なくとも１つを満たすマップリードの合計数として、ランダム変数Ｘ_ｉが定義された。

帰無仮説（すなわちバックグラウンドモデル）の下で、ゲノムの異なる塩基で条件Ａ１～Ａ６の少なくとも１つを満たす異なる、ただし定常の数のリードを観測することが予想される。前記塩基ごとのバックグラウンド確率分布モデルは、一群の正常サンプルから推定される。以上のＸ_ｉの定義から、Ｘ_ｉ～Ｂｉｎ（ｘ_ｉ；ｎ_ｉ，ｐ_ｉ）を得る。ここで、ｎ_ｉは、塩基ｉをまたぐリードの合計数に等しく、ｐ_ｉは、すべてのｉに対して推定され、例えば、
は、
の通りである。ここで、ｚ_ｉ，ｊは、合計でＮ正常サンプルのうち、正常サンプルｊに対して塩基ｉで条件Ａ１～Ａ６の少なくとも１つを満たすリードの観測数であり、且つｎ_ｉ，ｊは、正常サンプルｊに対して塩基ｉをまたぐリードの合計数である。非常に小さいｐ及び大きいｎを有する２項分布は、ｎｐに等しいレートパラメーターを有するポアソン分布により近似可能である。そのため、塩基ごとのバックグラウンドモデルは、以下の数式：
により定義される。ここで、ｎ_ｉは、塩基ｉをまたぐリードの合計数に等しい。本発明の他の一実施形態では、すべてのｊに対してｚ_ｉ，ｊ／ｎ_ｉ，ｊにより定義されるランダム変数を各塩基ｉでモデルするためにワイブル又はベータ分布が使用される。

塩基ごとのバックグラウンドモデルをトレーニングした後、以下のように進めた。各サンプルｋに対して、本発明の一実施形態では、下記を実施する。すなわち、各Ｘ_ｉに対して、観測値、例えばｘ_ｉを推定された塩基ごとのバックグラウンドモデルと比較した。ｐ値、すなわちＰ（Ｘ_ｉ＞ｘ_ｉ）＝１－Ｐ（Ｘ_ｉ≦ｘ_ｉ）が０．００１未満であった場合、Ｘ_ｉの観測値を、塩基_ｉをまたぐリードの合計数で除算した。すなわち、Ｙ_ｉ＝Ｘ_ｉ／ｎ_ｉ、さもなければＹ_ｉ＝０である。続いて、サンプル特異的スコアは、
のように計算される。ここで、ｎ_２は、Ｙ_ｉ＞０を有する塩基の合計数である。次いで、Ｓ_０，ｋは、以下の数式：
を用いて規格化され、規格化スコアＳ_１，ｋを得る。ここで、ｍ及びｓは、正常参照サンプルからのすべてのＳ_０値の平均及び標準偏差である（図１、２及び３）。

実施例２
ｃｆＤＮＡ断片の開始及び／又は停止（＋及び／又は－１塩基対）配列座標の決定後、参照ゲノムの参照配列中のすべての核酸モチーフが決定された。前記モチーフは、トリヌクレオチド、テトラヌクレオチド及び／又はペンタヌクレオチドで構成され、開始及び／又は停止座標の内側の、ただしそれに１塩基対以上隣接する塩基対の特異的範囲内にあった。対応する参照頻度に対する複数のｃｆＤＮＡ断片内の核酸モチーフ頻度の各々の頻度比が決定され、得られたすべての頻度比の加重和（本明細書では「診断スコア」といわれる）が計算された。

本発明の一実施形態によれば、各サンプル、例えばｋでは、ｈｇ１９参照ゲノム上にアラインされた各ｃｆＤＮＡ断片に対して２つの配列が決定され、前記配列は、アラインされたｃｆＤＮＡ断片の２つの末端から内側に１～５塩基対の範囲内のｈｇ１９ゲノム配列を含み（断片がまたぐ核酸配列を除く）、前記配列内のすべてのトリヌクレオチド（例えば、ＡＣＣ、ＧＧＴなど）、テトラヌクレオチド及びペンタヌクレオチド配列モチーフの絶対頻度、例えばＴ_ｉｊ（ここで、ｉ＝１、．．．、ｎ_ｊであり、ｊ＝３、４、５は、ヌクレオチドの数であり、且つｎ_ｊは、すべての可能なｊ－ヌクレオチドモチーフの数である）が計算された（ｎ_３＝６４、ｎ_４＝２５６、ｎ_５＝１０２４）。サンプル特異的スコアＳ_２，ｋは、
のように計算される。

以上の式中、Ｄ_ｋは、サンプルｋのコンセンサス断片の合計数であり、ｒ_ｉｊは、ｃｔＤＮＡを含まないサンプルのトレーニングデータセットから計算されたｆ_ｉｊの参照値であり、ｍ_ｉｊ及びｓ_ｉｊは、ｃｔＤＮＡを含まないサンプルのトレーニングデータセットから計算された
の参照平均及び標準偏差であり、ｗ_ｉｊは、正常及び異常サンプル間の最適分離を提供するようにトレーニングセットから最適化された加重
である。加重ｂ_ｊは、本発明の各種実施形態で変動可能であり、ｂ_３＝１／１２又は１／６又は１／３又は１／２、ｂ_４＝１／１２又は１／６又は１／３又は１／２及びｂ_５＝１－ｂ_３－ｂ_４（図１、２及び３）。

実施例３
ｃｆＤＮＡ断片の開始及び／又は停止（＋及び／又は－１塩基対）配列座標の決定後、参照ゲノムの参照配列中のすべての核酸モチーフが決定された。前記モチーフは、トリヌクレオチド、テトラヌクレオチド及び／又はペンタヌクレオチドで構成され、開始及び／又は停止座標の外側の、ただしそれに１塩基対以上隣接する塩基対の特異的範囲内にあった。対応する参照頻度に対する複数のｃｆＤＮＡ断片内の核酸モチーフ頻度の各々の頻度比が決定され、得られたすべての頻度比の加重和（本明細書では「診断スコア」といわれる）が計算された。

本方法の一実施形態では、各サンプル、例えばｋでは、ｈｇ１９参照ゲノム上にアラインされた各ｃｆＤＮＡ断片に対して２つの配列が決定され、前記配列は、アラインされたｃｆＤＮＡ断片の２つの末端から外側に１～５塩基対の範囲内のｈｇ１９ゲノム配列を含み（断片がまたぐ核酸配列を除く）、前記配列内のすべてのトリヌクレオチド（例えば、ＡＣＣ、ＧＧＴなど）、テトラヌクレオチド及びペンタヌクレオチド配列モチーフの絶対頻度、例えばＴ_ｉｊ（ここで、ｉ＝１、．．．、ｎ_ｊであり、ｊ＝３、４、５は、ヌクレオチドの数であり、且つｎ_ｊは、すべての可能なｊ－ヌクレオチドモチーフの数である）が計算された（ｎ_３＝６４、ｎ_４＝２５６、ｎ_５＝１０２４）。サンプル特異的スコアＳ_３，ｋは、
のように計算される。

実施例４
本方法の一実施形態では、実施例１、２及び３で計算されたスコアの少なくとも２つの加重和が各サンプルについて計算された。前記加重和は、これ以降では「組合せ診断スコア」といわれる。サンプルｋの診断スコア、例えばＤＳ_ｋは、以上の実施例１、２及び３に記載のスコアの少なくとも２つの加重平均として定義される。すなわち、
である。ここで、Ｓ_１、Ｓ_２及びＳ_３は、それぞれ実施例１、２及び３で計算され、本発明の各種実施形態では、小数第１位に丸めてｗ_１＝０．５又は０．４又は０．３又は０．２又は０、小数第１位に丸めてｗ_２＝０．５又は０．４又は０．３又は０．２又は０、ｗ_３＝１－ｗ_１－ｗ_２である。本方法の他の一実施形態では、サンプルｋのＤＳスコアを計算するために｛Ｓ_１，Ｓ_２，Ｓ_３｝の最大及び最小の加重平均が使用される。すなわち、ＤＳ_ｋ＝ｚＭＡＸ（Ｓ_１，ｋ，Ｓ_２，ｋ，Ｓ_３，ｋ）＋（１－ｚ）ＭＩＮ（Ｓ_１，ｋ，Ｓ_２，ｋ，Ｓ_３，ｋ）、０．５＜ｚ＜１である。

Claims

無細胞腫瘍ＤＮＡを含むものとしてサンプルを分類する方法であって、
（ｉ）複数の無細胞ＤＮＡ（ｃｆＤＮＡ）断片を含むサンプルにおいて、少なくとも１００，０００ｃｆＤＮＡ断片の開始及び／又は停止の配列座標を参照配列へのアライメントによって決定するステップと、
（ｉｉ）ａ）（ｉ）で決定された各開始及び／又は停止配列座標に対して内側の、ただしそれに隣接する１～５塩基対の範囲内、及び／又は
ｂ）（ｉ）で決定された各開始及び／又は停止配列座標に対して外側の、ただしそれに隣接する１～５塩基対の範囲内
において、トリヌクレオチド、テトラヌクレオチド及びペンタヌクレオチドで構成されるすべての核酸モチーフを前記参照配列中で決定するステップと、
（ｉｉｉ）ａ）前記サンプルに含まれる前記複数のｃｆＤＮＡ断片における、（ｉ）で決定された各配列座標＋及び／又は－１塩基対、
ｂ）前記サンプルに含まれる前記複数のｃｆＤＮＡ断片における、（ｉｉ）ａ）及びｂ）で決定された前記核酸モチーフの各々
の頻度を決定するステップと、
（ｉｖ）対応する参照頻度に対する、（ｉｉｉ）ａ）及びｂ）で決定された前記頻度の各々の比を計算するステップと、
（ｖ）ステップ（ｉｖ）で決定された各比について別々に診断スコアを計算するステップであって、前記スコアは、ステップ（ｉｖ）のすべてのそれぞれの頻度比のそれぞれの加重和である、ステップと、
（ｖｉ）（ｖ）で決定された前記診断スコアの少なくとも２つ以上から組合せ診断スコアを計算するステップであって、前記スコアは、（ｖ）で決定された前記２つ以上の診断スコアの加重和である、ステップと、
（ｖｉｉ）前記組合せ診断スコアと参照スコアとを比較することにより、前記サンプルの分類を決定するステップと
を含み、前記サンプルは、前記組合せ診断スコア値が前記参照スコアの平均よりも前記参照スコアの少なくとも１標準偏差だけ高い場合、腫瘍ｃｆＤＮＡを含むものとして分類され、前記参照スコアは、１つ以上の参照値から計算される、方法。
前記組合せ診断スコアは、請求項４のステップ（ｖ）で計算された前記診断スコアのすべてから計算される、請求項１に記載の方法。
各開始及び／又は停止配列座標に対して内側の、ただしそれに隣接する塩基対の前記範囲は、各開始及び／又は停止座標から２ｂｐ～６ｂｐ、又は３ｂｐ～７ｂｐ、又は４ｂｐ～８ｂｐ、又は５ｂｐ～９ｂｐ、又は６ｂｐ～１０ｂｐであり得る、請求項１又は２に記載の方法。
解析されるサンプル中に含まれるｃｆＤＮＡ断片の最小量は、１０万～５０万、５０万～１００万、１００万～２００万、２００万～５００万、又は５００万～１０００万、又は１０００万～２０００万、又は２０００万～５０００万、又は５０００万～５億である、請求項１～３のいずれか一項に記載の方法。
前記サンプル中の腫瘍ｃｆＤＮＡの量は、前記組合せ診断スコアが前記参照スコアの２～４標準偏差である場合には低として、前記組合せスコアが前記参照スコアの４～６．５標準偏差である場合には中として及び前記組合せスコアが前記参照スコアの６．５標準偏差超である場合には高として分類され得る、請求項１～４のいずれか一項に記載の方法。
前記参照サンプルは、癌のない患者、又は非再発患者、又は処置が成功した癌患者からのサンプルであり得る、請求項１～５のいずれか一項に記載の方法。
ステップ（ｉ）は、参照配列へのアライメント前に前記サンプル中の前記複数のｃｆＤＮＡ断片の少なくとも一部分の核酸配列を決定することを含む、請求項１～６のいずれか一項に記載の方法。
ステップ（ｉ）は、ｃｆＤＮＡ断片の核酸配列の決定前にｃｆＤＮＡ断片を富化することをさらに含む、請求項１～７に記載の方法。
前記サンプルは、血液癌、肝癌、肺癌、膵癌、前立腺癌、乳癌、胃癌、膠芽細胞腫、結腸直腸癌、頭頸部癌、固形腫瘍、良性腫瘍、悪性腫瘍、進行ステージ癌、転移又は前癌組織の群から選択される腫瘍を起源とする腫瘍ｃｆＤＮＡを含むものとして分類される、請求項１～８のいずれか一項に記載の方法。
（ｉ）請求項１～９のいずれか一項に記載の方法を行うための成分であって、
ａ）生物学的サンプルから無細胞ＤＮＡを単離するための１つ以上の成分、
ｂ）シーケンシングライブラリーを調製及び富化するための１つ以上の成分、及び／又は
ｃ）前記富化されたライブラリーを増幅及び／又はシーケンスするための１つ以上の成分
を含む成分、
（ｉｉ）統計解析を実施するためのソフトウェア
を含むキット。