JP2021519607A

JP2021519607A - ゲノムワイド統合による循環腫瘍ｄｎａの超音波感受性検出

Info

Publication number: JP2021519607A
Application number: JP2020567471A
Authority: JP
Inventors: アヴィランドー，ダン; ジヴィラン，アサフ; トーマスコゼン−ヒル，スティーブン
Original assignee: Cornell University
Current assignee: Cornell University
Priority date: 2018-02-27
Filing date: 2019-02-27
Publication date: 2021-08-12
Also published as: EP3759237A1; IL276891A; CN112601826A; WO2019169042A1; KR20210009299A; AU2019229273B2; CA3092343A1; AU2019229273A1; EP3759237A4; JP2024019413A; US20210043275A1; SG11202007899QA

Abstract

本開示は、患者の腫瘍疾患を診断するシステム、ソフトウェア及び方法に関する。

Description

関連出願の相互参照
本出願は、その全内容が参照により本明細書に援用される、２０１８年２月２７日に出願された米国特許出願第６２／６３６，１３５号の優先権を主張する。
本開示の実施形態は、一般に、医療診断の分野に関する。特に、本開示の態様は、腫瘍検出及び診断用組成物、方法、及びシステムに関する。

肺、乳房、前立腺、肝臓、及び脳の固形腫瘍等のがんがヒトの健康に及ぼす重大な負担は、医学文献で十分に実証される。多くの被験体は、不良な転帰と関連する進行腫瘍疾患と診断される。最近、コンピュータ断層撮影（ＣＴ）は早期発見を改善することが見出され、米国タスクフォースにより高リスク集団のスクリーニングに用いられている。それにもかかわらず、当該アプローチは偽陽性率が高く、高費用で、追跡評価にはリスクが伴うため、限界がある。

がんの診断に用いられるアプローチの１つは、遺伝的インデックス又はマーカー用の腫瘍試料の分析である。がんゲノムは、その増殖能力を駆動する体細胞変異を獲得する（非特許文献１）。がんゲノムの変異はまた、各がんの活性な進化の歴史及び変異過程に関する重要な情報を提供する（非特許文献２及び３）。患者の生検におけるがん変異呼出は、患者の転帰及び治療法の推薦を評価する上で極めて重要な工程である。無細胞循環ＤＮＡ（ｃｆＤＮＡ）等の液体生検標本におけるがんドライバー変異の同定は、早期がんスクリーニングの変革的なプラットフォームと示唆される。

ＤＮＡの体細胞変異（例えば、一塩基変異体（ＳＮＶ））等のゲノムマーカーを分析する統計的方法は、真の変異を配列決定エラーから区別するため、いかなるゲノム位置における体細胞変異の複数の独立した観察（支持的読取）が必要である。真の変異と配列決定エラーの区別に用いられる１の技術は、配列決定の深度を高めることである。これは、腫瘍試料における腫瘍細胞の比率が高い場合に有用である。例えば、試料中の免疫細胞等の正常細胞の存在により、試料中の腫瘍細胞含有量が低下すると、各体細胞変異体は、もはや複数読取に支持されなくなり、当該変異呼出が用いられなくなる。例えば、ＭＵＴＥＣＴは、現在の最先端の低アレル頻度体細胞変異呼出である。ＭＵＴＥＣＴは、その中核にて、ＳＮＶを２つのベイズ分類子に分け、一方はＳＮＶが無作為ノイズに起因すると仮定し、他方は部位が真の変異体を含むと仮定する。次に、２つのモデル由来の対数尤度比に基づきＳＮＶをフィルタリングする。これは、ｃｆＤＮＡの設定とは根本的に異なる。変異アレルの頻度が０．０５に低下し、腫瘍試料の配列決定深度が１０倍に低下したベンチマーキングの設定では、ＭＵＴＥＣＴの感度は０．１未満に低下する（非特許文献４）。ＭＵＴＥＣＴは現在、低頻度設定における体細胞変異呼出の最先端技術であるが、ｃｆＤＮＡで観察される腫瘍画分における体細胞変異を同定することは依然として不可能である。

ＭＵＴＥＣＴ及び他の変異呼出の根本的な限界は、入力物質が限定される場合（例えば、早期がんの設定において）は、臨床的感度が許容レベルを下回ることである。当該少量のｃｆＤＮＡは、わずか数百から数千のゲノム等価物である。従って、超深層配列決定（例えば、１００，０００Ｘ）は、試料中に存在する各部位をカバーする限定数の物理的断片（例えば、６ｎｇのｃｆＤＮＡ中の１０００のゲノム当量）により、無効となり得る。極深度配列決定と高度な分子誤差抑制を用いても、限定入力材料の検出限界は、０．１〜１％未満の腫瘍分画（ＴＦ）周波数となる。

当該限界は、非特許文献５により例示され、技術的に困難な肺腺がん患者特異的標的深層配列決定を含む高度な配列決定方法を適用し、配列決定の深度中央値４２，０００倍で約１８の変異を同定した。しかし、cfDNAの希少性は、より進行したIII期の腫瘍を研究グループに含めても、初期被験体のわずか19％のcfDNAでしかがんが検出されなかった可能性が高い。さらに、これら陽性に同定された患者はすべて、ＣＴスキャンで検出可能な病変があった。当該データは、疾患の初期段階では、超深層配列決定でさえ、包括性及び／又は精度に関して、現在イメージング技術より性能が劣ることを示す。

Lawrence et al., Nature, 505(7484):495-501, 2014 Martincorena et al., Cell, 171(5):1029-1041.e21, 2017 Alexandrov et al., Nature, 500(7463):415-421, 2013 Cibulskis et al., Nature Biotechnology, 31(3), 213, 2013 Abbosh et al., Nature, 545(7655):446-451, 2017

腫瘍疾患を示唆するｃｆＤＮＡの体細胞変異（被験体特異的特徴を含む）等の低存在量疾患マーカーを同定する改善された方法及びシステムが望まれる。さらに、腫瘍の早期診断に用いられうる程度の高品質のマーカーを利用して、疾患管理及び／又は治療的介入のより良い選択肢を臨床医に提供し、また疾患の治療成績（例えば、生存期間及び／又は生活の質の改善）を大幅に改善するシステム及び方法が望まれる。

本明細書では、被験体のがんをスクリーニングし、当該スクリーニングから得られた情報を早期検出及び疾患層別化に用いるプログラム、システム、及び方法が提供される。いくつかの実施形態では、本開示のプログラム、システム及び方法は、使用者、例えば、臨床医が、がんを早期に診断することを可能にする。

いくつかの態様では、本開示は、システムエラーと、がん（例えば、タバコ誘導肺がん）により誘発された体細胞変異とを識別するように訓練された分類器を提供する。がん変異及び配列決定エラーの両方がシステム的であり、学習でき、効率的なシグナル対ノイズ識別に用いうる別個の特徴により制御される事実を利用して、当該分類器は、当該知識を統合して、がんの診断及び／又は検出の正確性を向上させる。例えば、ゲノムの文脈では、がんパターンは、がん関連変異誘発を誘発する塩基置換を含み得る。当該ゲノムパターンは、タバコ及び紫外線への曝露により誘発されるがんにおいて特にユニークであり、例えば、脱調節されたＤＮＡチェックポイント及び／又は修復酵素活性に関連するがん、例えば、ＢＲＣＡ（ＢＲＣＡ１又はＢＲＣＡ２）、ｐ５３、ＡＰＯＢＥＣ１などが挙げられる。

本開示はまた、配列決定により検出された変異体が真の体細胞変異ではなく、むしろ配列決定又はマッピング技術の人為的体であることを示唆しうる複数の指標に関する。本文脈では、以前の研究は、配列決定エラーが無作為ではなく、おそらく配列決定技術の結果として生じるＤＮＡ配列の文脈及び技術的要因の両方に関連することを示した。配列決定の忠実度は、各配列決定−読取長でも制限され、読取長が高まるにつれてエラー率が高まる。読取が参照ゲノムにマッピングされると、エラーが生じることがある。マッピング作成の過程は、ゲノムが可変領域、モチーフ、反復可能なエレメントを備える事実により計算が集中的かつ、複雑である。短いヌクレオチドの読取は、２つ以上の位置にマッピングされることもあれば、全くマッピングされないこともある。ゲノムデータの配列決定／マッピングの既存の方法論に関する当該制限は、本開示のシステム及び方法を用いて修正しうる。開示の指標は、（ｉ）低塩基品質、（ｉｉ）低マッピング品質、（ｉｉｉ）読取推定断片サイズ（ＲＰ）、（ｉｖ）読取推定対立遺伝子分画（ＶＡＦ）、（ｖ）配列コンテキスト、（ｖｉ）存在量、（ｖｉｉ）配列決定深度、及び／又は（ｖｉｉｉ）配列決定のエラー等の複数の要因を分析して、エラーから真の変異を導き出しうる。

本発明のシステム及び方法は、特に、がんを予測する低存在量マーカーの検出に適用される。本開示の発明者らは、入力材料の存在量に制限されない配列決定の幅度が、深度配列決定に依存する方法に代替しうることを認識した。幅の配列決定は、入力材料の存在量にさほど依存せず、検出の精度及び感度をともに改善するのに用いうる。統計学的観点から、本発明者らは、最初、配列決定の幅度（例えば、１０，０００個の変異の１０倍の配列決定）は、深度（単一変異の１００，０００倍の配列決定）と同等であり、わずか１ｎｇのｃｆＤＮＡで行うことができることを示した。従って、本開示の分析アプローチは、腫瘍（例えば、タバコ誘発がん）の検出及び／又は正確な診断のｃｆＤＮＡを含む試料の高感度分析のためのゲノムワイド変異情報を容易かつ非侵襲的に統合する。

本文脈では、腫瘍の様々な画分の読取が１％〜０．００１％（１／１０，０００）の範囲である肺患者由来の腫瘍と正常な全ゲノム配列データの合成混合物を用いて血漿体細胞変異呼出のシミュレート試験は、既存の技術を上回る本方法の強度と精度を示す。本技術の性能は、まず、患者の純粋な腫瘍及び正常な試料における標準的変異呼出を用いて、患者特異的な体細胞がんＳＮＶを特徴付け；次いで、本開示の畳込ネットワークを含むいくつかの方法を用いて、血漿試料中のがん変異を検出して、さらにベンチマークされた。参照として呼び出す純粋な腫瘍変異を用いる各方法の感度及び精度は、本開示の分析方法のための高いシグナル及び／又は低いノイズを示す。最後に、早期肺がん患者から得られた実際のｃｆＤＮＡ試料を用いて実施された検証研究では、現在の最先端の方法と比較して、有意に優れた感度及び精度を示す。

本開示は、以下の非限定的な実施形態に関する：

種々の態様では、被験体のがんの遺伝子スクリーニング方法が提供される。本方法は、被験体の生物学的試料からの複数の遺伝子マーカーに関連する読取（read(s)）の、被験体特異的ゲノムワイドの一覧（compendium）の受け取りを含む。生物学的試料は、腫瘍試料を含み得る。前記読取一覧は各々、単一塩基対長の読取を含みうる。当該方法は、さらに、前記読取一覧から人為的的部位をフィルタリングしうる。前記フィルタリングは、前記読取一覧から、参照健常試料のコホートにわたり生成された反復性部位を除去しうる。あるいは又は組み合わせて、当該フィルタリングは、前記生物学的試料における生殖細胞系変異の同定、及び／又は腫瘍試料と正常細胞試料の末梢血単核細胞とで共有された変異の生殖細胞系変異としての同定、及び、前記読取一覧から前記生殖細胞系変異を除去する工程を含みうる。本方法はさらに、少なくとも１つのエラー抑制プロトコルを用いて、前記読取一覧のノイズをフィルタリングして、前記読取のゲノムワイドの一覧の前記フィルタリングされた読取セットを作製しうる。前記少なくとも１つのエラー抑制プロトコルは、前記一覧中のいかなる単一ヌクレオチド変異が人為的的変異である確率を計算し、かつ、前記変異を除去しうる。前記確率は、マッピング品質（ＭＱ）、変異塩基品質（ＭＢＱ）、読取における位置（ＰＩＲ）、平均読取塩基品質（ＭＲＢＱ）、及びそれらの組み合わせを含む群から選択された特徴の関数として計算されうる。あるいは又は組み合わせて、ポリメラーゼ連鎖反応又は配列決定プロセシングで生成された同一ＤＮＡ断片の独立した複製間の不一致試験を用いて人為的的変異を除去する、及び／又は、所定の重複ファミリーの大部分に一致がない場合、人為的的変異を同定及び除去する、重複コンセンサスと、を含みうる。本方法は、所定の変異誘発プロセスに関連する特定の変異パターンの比較に基づき、前記フィルタリングされた読取セットを用いて被験体特異的パターンを編集することを含みうる。本方法はさらに、前記被験体の生物学的試料が、前記被験体特異的パターンを介して、がん関連変異パターン曝露値のバックグラウンド変異パターンのコホートとの比較に基づき、がん関連変異パターンを含む信頼性推定値を統計的に定量化することを含みうる。本方法は、
前記被験体の生物学的試料が前記がん関連変異パターンを含む前記信頼性推定値が、所定の閾値を超える場合、前記被験体のがんをスクリーニングすることを含みうる。

種々の態様では、被験体のがんを遺伝子スクリーニングする方法が提供される。本方法は、被験体の生物学的試料からの複数の遺伝子マーカーに関連する読取の、被験体特異的ゲノムワイドの一覧の受け取りを含む。生物学的試料は、腫瘍試料を含み得る。読取一覧各々が、コピー数変異（ＣＮＶ）を含みうる。当該方法は、前記読取一覧の複数のウインドウへの分割を含みうる。当該方法は、前記ウインドウ当たりの特徴のセットの計算を含みうる。前記特徴は、ウインドウ当たりの中央値の深度カバレッジ（coverage）とウインドウ当たりの代表的な断片サイズを含みうる。当該方法は、前記読取一覧から人為的的部位をフィルタリングすることを含みうる。前記フィルタリングは、読取一覧から参照健常試料のコホート上で生成された反復性サイトを除去することを含みうる。本方法は、前記ゲノムワイドの読取一覧のフィルタリングされた読解セットを作成する、読取一覧を正規化することを含みうる。当該方法は、前記ウインドウ当たりの前記特徴セット間の直線関係を計算し、回帰モデルを用いて前記計算された関係を推定腫瘍分画に変換し、前記フィルタリングされた読取セットを用いて、腫瘍分画の推定値を計算する工程を含みうる。あるいは、又は組み合わせて、本方法は、前記読取の前記被験体特異的ゲノムワイドの一覧にわたるウインドウ当たりの前記計算された特徴セットの関数としての、１又はそれ以上の統合的数学モデルに基づき、前記フィルタリングされた読取セットを用いて、腫瘍分画の推定値を計算する工程を含みうる。当該方法は、前記腫瘍分画の推定値が経験的閾値を超える場合、がんについて前記被験体をスクリーニングすることを含みうる。

被験体のがんを遺伝子スクリーニングするシステムが提供される。種々の態様では、当該システムは、分析ユニットを含み、前記分析ユニットは、被験体の生物学的試料からの複数の遺伝子マーカーに関連する読取の、被験体特異的ゲノムワイドの一覧を受け取るように構成されかつ配置された、プレフィルタエンジンを含み、生物学的試料は腫瘍試料を含み、前記読取一覧は各々単一塩基対長の読取を含む。プレフィルタエンジンは、前記読取一覧から人為的的部位をフィルタリングするように構成及び配置することができ、前記フィルタリングは、前記読取一覧から、参照健常試料のコホートにわたり生成された反復性部位を除去することを含む。プレフィルタエンジンは、生物学的試料中の生殖細胞系変異を同定し、及び／又は腫瘍試料と正常細胞試料の末梢血単核細胞とで共有された変異を生殖細胞系変異として同定し、及び、前記読取一覧から前記生殖細胞系変異を除去するように、又は組み合わせて、構成及び配置しうる。分析ユニットは、少なくとも１つのエラー抑制プロトコルを用いて、前記読取一覧のノイズをフィルタリングして、前記読取の、被験体特異的ゲノムワイドの一覧のためのフィルタリングされた読取セットを作成するように、構成されかつ配置された、補正エンジンを含みうる。前記少なくとも１つのエラー抑制プロトコルは、以下の：（ａ）一覧中のいかなる単一ヌクレオチド変異が人為的的変異である確率を計算し、かつ、前記変異を除去する工程であって、前記確率は、マッピング品質（ＭＱ）、変異塩基品質（ＭＢＱ）、読取における位置（ＰＩＲ）、平均読取塩基品質（ＭＲＢＱ）、及びそれらの組み合わせを含む群から選択された特徴の関数として計算される。
前記少なくとも１つのエラー抑制プロトコルは、ポリメラーゼ連鎖反応又は配列決定プロセシングで生成された同一ＤＮＡ断片の独立した複製間の不一致試験を用いて人為的的変異を除去する、及び／又は組み合わせて、所定の重複ファミリーの大部分に一致がない場合、人為的的変異を同定及び除去する、重複コンセンサスと、を含うる。前記システムは、所定の変異誘発プロセスに関連する特定の変異パターンの比較に基づき、前記フィルタリングされた読取セットを用いて被験体特異的パターンを編集ように構成及び配置された演算ユニットを含みうる。前記演算ユニットは、前記被験体の生物学的試料は、前記被験体特異的パターンを介して、信頼性推定値を統計的に定量化し、がん関連変異パターン曝露値のバックグラウンド変異パターンのコホートとの比較に基づき、がん関連変異パターンを含むように構成されかつ配置されうる。演算ユニットは、前記被験体の生物学的試料が前記がん関連変異パターンを含む前記信頼性推定値が、所定の閾値を超える場合、前記被験体のがんをスクリーニングするように構成及び配置しうる。

種々の態様では、被験体のがんを遺伝子スクリーニングするシステムが提供される。システムは、分析ユニットを含み、前記分析ユニットは、被験体の生物学的試料からの複数の遺伝子マーカーに関連する読取の被験体特異的ゲノムワイド一覧を受け取るように構成されかつ配置された、ビンニングエンジンを含み、生物学的試料は腫瘍試料を含み、前記読取一覧は各々コピー数変異（ＣＮＶ）を含む。ビンニングエンジンは、前記読取一覧は、複数のウインドウに分割され、ウインドウ当たりの特徴のセットを計算し、前記特徴は、ウインドウ当たりの深度カバレッジの中央値及びウインドウ当たりの代表的な断片サイズを含み分割され、ウインドウ当たりの特徴のセットを計算するように構成及び配置しうる。当該システムは、読取一覧から人為的的部位をフィルタリングするように構成及び配置されたプレフィルタエンジンを含むことができ、当該フィルタリングは、参照健常試料のコホート上で生成された反復性部位を読取一覧から除去することを含む。当該システムは、前記読取のゲノムワイドの一覧用にフィルタリングされた読取セットを生成する読取一覧を正規化するように構成及び配置された正規化エンジンを含みうる。当該システムは、前記フィルタリングされた読取セットを用いて推定腫瘍分画（ｅＴＦ）を計算するように構成されかつ配置された演算ユニットを含みうる。当該演算ユニットは、ウインドウ当たりの特徴セット間の直線関係を計算し、回帰モデルを用いて計算された関係をｅＴＦに変換してを計算しうる。あるいは、又は組み合わせて、前記演算ユニットは、１又はそれ以上の統合的数学モデルに基づき、前記被験体特異的ゲノムワイドの読取一覧にわたってウインドウ当たりの前記計算された特徴セットの関数としてｅＴＦを計算しうる。前記演算ユニットは、前記推定腫瘍分画が経験的閾値を超える場合、被験体をがんについてスクリーニングするように、構成されかつ配置されうる。

いくつかの実施形態では、本開示は、を含む、被験体のがんを遺伝子スクリーニングする方法に関し、以下の：（ａ）被験体の生物学的試料からの複数の遺伝子マーカーに関連する、被験体特異的ゲノムワイドにわたる読取の一覧を受け取り、ここで、前記遺伝子マーカーの一覧は、単一ヌクレオチド変異（ＳＮＶ）、短い挿入及び欠失（indels）、コピー数変異、構造変異（ＳＶ）及びそれらの組み合わせからなる群から選択され；（ｂ）（１）読取の（１）塩基品質（ＢＱ）、（２）読取のマッピング品質（ＭＱ）、（３）読取の推定断片サイズ、及び／又は（４）読取の推定対立遺伝子分画の関数としてのノイズ（ＰＮ）の検出確率に基づき、一覧中の各読取をシグナル又はノイズとして統計的に分類して、一覧から人為的的読取を除去すること；（ｃ）がん関連変異特徴とＰＣＲ又は配列決定エラー関連特徴とを識別する機械学習（ＭＬ）アプローチを利用して、各読取に関連する配列決定ノイズを、一覧中の各読取に関連する順応的及び／又は体系的にフィルタリングすること；（ｄ）ノイズ除去工程（ｃ）及びフィルタリング工程（ｂ）に基づき、一覧内の複数の真の読取を含む被験体特異的特徴を編集すること；（ｅ）被験体の生物学的試料が、被験体特異的特徴とがんパターンとの間のマッチに基づき、循環腫瘍ＤＮＡ（ｃｔＤＮＡ）を含むという信頼性推定値を統計的に定量すること；及び（ｆ）被験体の生物学的試料ががん関連変異パターンを含むという信頼性推定値に基づき、被験体のがんをスクリーニングすること、を含む。

本方法のいくつかの態様では、被験体の生物学的試料は、血漿、脳脊髄液、胸水、眼液、便、尿、又はそれらの組み合わせを含む。

本方法のいくつかの態様では、がんパターンは、ＣＯＳＭＩＣタバコパターン、ＵＶパターン、乳がん（ＢＲＣＡ）パターン、マイクロサテライト不安定性（ＭＳＩ）パターン、アポリポタンパク質ＢｍＲＮＡ編集酵素、ポリ（ＡＤＰ−リボース）ポリメラーゼ（ＰＡＲＰ）多活性化パターン、触媒性ポリペプチド様（ＡＰＯＢＥＣ）パターンを含む。特に、いくつかの態様では、がんパターンは、組織特異的クロマチン接近性パターン等の組織特異的エピジェネティックパターンに関連するパターンを含む。

本方法のいくつかの態様では、一覧内の各読取に関連する配列決定ノイズは、がんに関連する変異特徴（真陽性）とＰＣＲ又は配列決定エラーに関連する特徴（偽陽性）との識別に機械学習（ＭＬ）アプローチを利用してフィルタリングされる。いくつかの実施形態では、機械学習方法は、深層畳込ニューラルネットワーク（ＣＮＮ）、反復ニューラルネットワーク（ＲＮＮ）、無作為フォレスト（ＲＦ）、サポートベクタマシン（ＳＶＭ）、判別分析、最近傍分析（ＫＮＮ）、アンサンブル分類器、又はそれらの組み合わせを含む。いくつかの実施形態では、ＭＬは、がん改変配列決定読取及び配列決定又はＰＣＲエラーにより改変された読取を区別するように訓練される。いくつかの実施形態では、ＭＬは、腫瘍変異及び正常な配列決定エラーを横断する数十億の読取を含む大きな全ゲノム配列決定（ＷＧＳ）されたがんデータセット上で訓練されている。いくつかの実施形態では、ＭＬは、（ａ）高精度で配列決定又はＰＣＲ人為的体を同定し、（ｂ）配列コンテキストを統合し、特定の特徴を読取うる。

いくつかの実施形態では、本開示は、被験体のがんを遺伝子スクリーニングする方法に関し、以下の工程：（ａ）被験体の生物学的試料からの複数の遺伝子マーカーに関連する読取の被験体特異的ゲノムワイドの一覧を受け取り、ここで、遺伝子マーカーの一覧は、単一ヌクレオチド変異（ＳＮＶ）、短い挿入及び欠失（indel）、コピー数変異、構造変異（ＳＶ）及びそれらの組み合わせからなる群から選択され；（ｂ）読取の（１）塩基品質（ＢＱ）、（２）読取マッピング品質（ＭＱ）、（３）読取推定断片サイズ、及び／又は（４）読取推定対立遺伝子分画の関数としてのノイズ（ＰＮ）の検出確率に基づき、一覧中の各読取をシグナル又はノイズとして統計的に分類して、一覧から人為的的読取を除去すること；（ｃ）結合塩基品質（ＢＱ）、マッピング品質（ＭＱ）スコア、及び断片サイズに基づき、一覧内の遺伝子マーカーの確率論的分類を含む最適な受信者動作特性（ＲＯＣ）カーブを実施する機械学習（ＭＬ）アプローチを利用して、各読取に関連する配列決定ノイズを、一覧中の各読取に関連する順応的及び／又は体系的にフィルタすること；（ｄ）ノイズ除去工程（ｃ）及びフィルタリング工程（ｂ）に基づき、一覧内の複数の真の読取を含む被験体特異的パターンを編集すること、（ｅ）被験体の生物学的試料が、被験体特異的パターンとがんパターンとの間のマッチに基づき、循環腫瘍ＤＮＡ（ｃｔＤＮＡ）を含むことを統計学的に定量することと、（ｆ）被験体の生物学的試料ががん関連の変異パターンを含むという信頼性推定値に基づき、被験体のがんをスクリーニングすることとを含む。

本方法のある態様では、腫瘍は、異種性又は同種性の脳腫瘍、肺がん、皮膚がん、鼻がん、咽頭がん、肝がん、骨がん、リンパ腫、膵がん、皮膚がん、腸がん、直腸がん、甲状腺がん、膀胱がん、腎がん、口がん、胃がん、固形腫瘍、非小細胞肺がん（ＮＳＣＬＣ）、タバコ誘発がん（ＴＩＣ）、ＵＶ光誘発がん、アポリポタンパク質ＢｍＲＮＡエディティング酵素触媒タンパク質（ＡＰＯＢＥＣ）活性により媒介されるがん、乳がんタンパク質（ＢＲＣＡ）変異を含むがん、ポリ（ＡＤＰ−リボース）ポリメラーゼ（ＰＡＲＰ）活性を含むがん、及びマイクロサテライト不安定性（ＭＳＩ）を含む腫瘍である。本方法のいくつかの態様では、スクリーニング方法は、未診断の、及び／又は無症状の患者における早期がん疾患の診断を可能にする。特に、被験体は、ステージＩ〜ＩＩＩにある早期がんの患者である。

いくつかの実施形態では、本開示は、（ａ）被験体の生物学的試料からの複数の遺伝子マーカーに関連する読取の被験体特異的ゲノムワイド一覧を受け取り、ここで、遺伝子マーカーの一覧は、単一ヌクレオチド変異（ＳＮＶ）、短い挿入及び欠失（indel）、コピー数変異、構造変異（ＳＶ）及びそれらの組み合わせからなる群から選択され；（ｂ）読取の（１）塩基品質（ＢＱ）、（２）読取のマッピング品質（ＭＱ）、（３）読取の推定断片サイズ、及び／又は（４）読取の推定対立遺伝子分画の関数としてのノイズ（ＰＮ）の検出確率に基づき、一覧中の各読取をシグナル又はノイズとして統計的に分類して、一覧から人為的的読取を除去すること；（ｃ）がん関連変異特徴とＰＣＲ又は配列決定エラー関連特徴との識別に機械学習（ＭＬ）アプローチを利用して、各読取に関連する配列決定ノイズを、一覧中の各読取に関連する順応的及び／又は体系的にフィルタすること；（ｄ）ノイズ除去工程（ｃ）及びフィルタリング工程（ｂ）に基づき、一覧内の複数の真の読取を含む被験体特異的パターンを編集すること；、（ｅ）被験体の生物学的試料が、被験体特異的パターンとがんパターンとの間のマッチに基づき、循環腫瘍ＤＮＡ（ｃｔＤＮＡ）を含むことを統計学的に定量することと、（ｆ）被験体の生物学的試料ががん関連の変異パターンを含むという信頼性推定値に基づき、被験体のがんをスクリーニングすること；及び（ｇ）診断に用いられる患者特異的パターンに基づき、パターンに基づく治療を指定することを含む、被験体のがんを遺伝子スクリーニングし、治療法を指定する方法に関する。いくつかの実施形態では、治療指定は、ＢＲＣＡパターンのＰＡＲＰ阻害剤、ＭＳＩパターンの免疫療法を含む。ある実施態様では、ＰＡＲＰ阻害剤は、ニラパリブ、オラパリブ、ベリパリブ、ルカパリブ及び／又はタラゾパリブである。ある態様では、ＭＳＩパターンの免疫療法は、抗ＰＤ−１抗体（例えば、ニボルマブ又はペンブロリズマブ）又は抗ＣＴＬＡ４抗体（例えば、ニボルマブ又はペンブロリズマブ）を含む。ある態様では、腫瘍は、不均一又は均一な脳腫瘍、肺がん、皮膚がん、鼻がん、咽頭がん、肝がん、骨がん、リンパ腫、膵がん、皮膚がん、腸がん、直腸がん、甲状腺がん、膀胱がん、腎臓がん、口がん、胃がん、固形腫瘍、肺腺がん、乳管腺がん（乳房腫瘍）、非小細胞肺がん肺腺がん（ＮＳＣＬＣＬＵＡＤ）、皮膚黒色腫、尿路上皮がん（膀胱腫瘍）、結腸直腸がん（リンチ）、又は骨肉腫を含む。

いくつかの実施形態では、本開示は、（ａ）被験体の生物学的試料からの複数の遺伝子マーカーに関連する読取の、被験体特異的ゲノムワイドの一覧を受け取り、ここで、遺伝子マーカーの一覧は、単一ヌクレオチド変異（ＳＮＶ）、短い挿入及び欠失（indels）、コピー数変異、構造変異（ＳＶ）及びそれらの組み合わせからなる群から選択され；（ｂ）読取の（１）塩基品質（ＢＱ）、（２）読取のマッピング品質（ＭＱ）、（３）読取の推定断片サイズ、及び／又は（４）読取の推定対立遺伝子分画（ＶＡＦ）の関数としてのノイズ（Ｐ_Ｎ）の検出確率に基づき、一覧中の各読取をシグナル又はノイズとして統計的に分類して、一覧から人為的的読取を除去すること；（ｃ）機械学習（ＭＬ）アプローチを利用して、各読取に関連する配列決定ノイズを、一覧中の各読取に関連する順応的及び／又は体系的にフィルタリングして、がん関連変異特徴とＰＣＲ又は配列決定エラー関連特徴とを識別すること；（ｄ）ノイズ除去（ｃ）及びフィルタリング（ｂ）に基づき、一覧内の複数の真の読取を含む被験体特異的特徴を編集すること；（ｅ）被験体の生物学的試料が、被験体特異的特徴とがんパターンとの間のマッチに基づき、循環腫瘍ＤＮＡ（ｃｔＤＮＡ）を含むという信頼性推定値を統計的に定量すること；及び（ｆ）被験体の生物学的試料ががん関連変異パターンを含むという信頼性推定値に基づき、がんについて被験体をスクリーニングすることを含む、がんについて被験体を遺伝子スクリーニングする方法に関し、ここで工程（ｆ）は、線形最適化関数ｍｉｎｌｌＡｘ−ｂｌｌ，ｘ≧０を解く工程を含み、ここで、Ａは、変異パターン配列コンテキストマトリックスであり、ｘは、各コスミック変異パターン（変数）の寄与であり、ｂは、患者特異的配列コンテキスト一覧である。いくつかの実施態様では、最適化問題は、非負の最小二乗法（ＮＮＬＳ）、クロスエントロピーグローバル最適化法、黄金セクション探索法、又はそれらの組み合わせにより解決される。ある態様では、本方法は、がん変異パターンを複数の無作為バックグラウンドパターンと比較することを用いて、例えば、がん変異パターンを複数の無作為バックグラウンドパターンと比較することを用いて、信頼性を検証することをさらに含む。いくつかの態様では、比較工程は、ｚスコアの評価を含み、閾値を超えるｚスコアは、被験体特異的特徴ががん特徴に特異的であり、無作為特徴と関連しないことを示す。

いくつかの実施形態では、本開示は、（ａ）被験体の生物学的試料からの複数の遺伝子マーカーに関連する読取の、被験体特異的ゲノムワイドの一覧を受け取り、ここで、遺伝子マーカーの一覧は、単一ヌクレオチド変異（ＳＮＶ）、短い挿入及び欠失（indels）、コピー数変異、構造変異（ＳＶ）及びそれらの組み合わせからなる群から選択され；（ｂ）読取の（１）塩基品質（ＢＱ）、（２）読取のマッピング品質（ＭＱ）、（３）読取の推定断片サイズ、及び／又は（４）読取の推定対立遺伝子分画（ＶＡＦ）の関数としてのノイズ（Ｐ_Ｎ）の検出確率に基づき、一覧中の各読取をシグナル又はノイズとして統計的に分類して、一覧から人為的的読取を除去すること；（ｃ）機械学習（ＭＬ）アプローチを利用して、各読取に関連する配列決定ノイズを、一覧中の各読取に関連する順応的及び／又は体系的にフィルタリングして、がん関連変異特徴とＰＣＲ又は配列決定エラー関連特徴とを識別すること；（ｄ）ノイズ除去（ｃ）及びフィルタリング（ｂ）に基づき、一覧内の複数の真の読取を含む被験体特異的特徴を編集すること；（ｅ）被験体の生物学的試料が、被験体特異的特徴とがんパターンとの間のマッチに基づき、循環腫瘍ＤＮＡ（ｃｔＤＮＡ）を含むという信頼性推定値を統計的に定量すること；及び（ｆ）被験体の生物学的試料ががん関連変異パターンを含むという信頼性推定値に基づき、がんについて被験体をスクリーニングすることを含む、がんについて被験体を遺伝子スクリーニングする方法に関し、ここで工程（ｂ）は、（１）低いマッピング品質の読取（例えば、＜２９、ＲＯＣ最適化）を除去し；複製ファミリーを構築する工程（同じＤＮＡ断片の複数のＰＣＲ／配列決定コピーを表す）及びコンセンサス試験に基づき修正された読取を生成し；（３）低い塩基品質の読取（例えば、＜２１、ＲＯＣ最適化）を除去し；及び／又は（４）高い断片サイズ読取（例えば、＞１６０、ＲＯＣ最適化）を除去する工程を含み、及び工程（ｆ）は、特定のコスミック配列コンテキスト一覧に対する患者配列コンテキスト一覧間の配列コンテキスト類似性を計算することを含む。

いくつかの実施形態では、本開示は（ａ）被験体の生物学的試料からの複数の遺伝子マーカーに関連する読取の、被験体特異的ゲノムワイドの一覧を受け取り、ここで、遺伝子マーカーの一覧は、単一ヌクレオチド変異（ＳＮＶ）、短い挿入及び欠失（indels）、コピー数変異、構造変異（ＳＶ）及びそれらの組み合わせからなる群から選択され；（ｂ）読取の（１）塩基品質（ＢＱ）、（２）読取のマッピング品質（ＭＱ）、（３）読取の推定断片サイズ、及び／又は（４）読取の推定対立遺伝子分画（ＶＡＦ）の関数としてのノイズ（Ｐ_Ｎ）の検出確率に基づき、一覧中の各読取をシグナル又はノイズとして統計的に分類して、一覧から人為的的読取を除去すること；（ｃ）機械学習（ＭＬ）アプローチを利用して、各読取に関連する配列決定ノイズを、一覧中の各読取に関連する順応的及び／又は体系的にフィルタリングして、がん関連変異特徴とＰＣＲ又は配列決定エラー関連特徴とを識別すること；（ｄ）ノイズ除去（ｃ）及びフィルタリング（ｂ）に基づき、一覧内の複数の真の読取を含む被験体特異的特徴を編集すること；（ｅ）被験体の生物学的試料が、被験体特異的特徴とがんパターンとの間のマッチに基づき、循環腫瘍ＤＮＡ（ｃｔＤＮＡ）を含むという信頼性推定値を統計的に定量すること；及び（ｆ）被験体の生物学的試料ががん関連変異パターンを含むという信頼性推定値に基づき、がんについて被験体をスクリーニングすることを含む、がんについて被験体を遺伝子スクリーニングする方法に関し、ここで工程（ｆ）は、コシン−類似性、相関、相互情報、又はそれらの組み合わせに基づき、被験体特異的特徴とがんパターンとの間の類似性を推定する工程を含む。ある態様では、本方法は、がん変異パターンを複数の無作為バックグラウンドパターンとの比較を用いて、例えば、がん変異パターンを複数の無作為バックグラウンドパターンとの比較を用いて、信頼性を検証することをさらに含む。いくつかの態様では、比較工程は、ｚスコアの評価を含み、閾値を超えるｚスコアは、被験体特異的特徴ががん特徴に特異的であり、無作為なバックグラウンド特徴と関連しないことを示す。

いくつかの実施形態では、本開示は、（ａ）被験体の生物学的試料からの複数の遺伝子マーカーに関連する読取の、被験体特異的ゲノムワイドの一覧を受け取り、ここで、遺伝子マーカーの一覧は、単一ヌクレオチド変異（ＳＮＶ）、短い挿入及び欠失（indels）、コピー数変異、構造変異（ＳＶ）及びそれらの組み合わせからなる群から選択され；（ｂ）読取の（１）塩基品質（ＢＱ）、（２）読取のマッピング品質（ＭＱ）、（３）読取の推定断片サイズ、及び／又は（４）読取の推定対立遺伝子分画（ＶＡＦ）の関数としてのノイズ（Ｐ_Ｎ）の検出確率に基づき、一覧中の各読取をシグナル又はノイズとして統計的に分類して、一覧から人為的的読取を除去すること；（ｃ）機械学習（ＭＬ）アプローチを利用して、各読取に関連する配列決定ノイズを、一覧中の各読取に関連する順応的及び／又は体系的にフィルタリングして、がん関連変異特徴とＰＣＲ又は配列決定エラー関連特徴とを識別すること；（ｄ）ノイズ除去（ｃ）及びフィルタリング（ｂ）に基づき、一覧内の複数の真の読取を含む被験体特異的特徴を編集すること；（ｅ）被験体の生物学的試料が、被験体特異的特徴とがんパターンとの間のマッチに基づき、循環腫瘍ＤＮＡ（ｃｔＤＮＡ）を含むという信頼性推定値を統計的に定量すること；及び（ｆ）被験体の生物学的試料ががん関連変異パターンを含むという信頼性推定値に基づき、がんについて被験体をスクリーニングすることを含む、がんについて被験体を遺伝子スクリーニングする方法に関し、ここで工程（ｆ）は、がん特異的パターン信頼度（ｚスコア）を、バックグラウンドノイズモデルにより計算された経験的閾値と比較する工程を含む。いくつかの実施形態では、経験的ノイズモデルは、正常な健康体試料のがん特異的特徴信頼度（ｚスコア）を測定して定義され、基本ノイズのあるｚスコア推定値に変換される。ここで、ｚスコア推定値ノイズ閾値は１〜５である。

上記がんスクリーニング／診断方法のいくつかの態様では、被験体特異的特徴は、腫瘍では差次的に発現されるが、正常な試料では発現されないマーカーを含むがん特異的変異特徴と適合する。ある態様では、腫瘍試料は、肺腫瘍、乳房腫瘍、メラノーマ、膀胱腫瘍、結腸直腸腫瘍、又は骨腫瘍を含む。

前記がんスクリーニング／診断方法のいくつかの態様では、本方法は、少なくとも５０％の被験体で早期検出が可能になる。

前記がんスクリーニング／診断方法のいくつかの態様では、本方法は、コンピュータ断層撮影（ＣＴ）スクリーニングをさらに実施することを含み、ＣＴスクリーニング工程は、遺伝子スクリーニングの前、同時、又はその後に行われる。ある態様では、がんは、固形腫瘍であり、ＣＴスクリーニングは、例えば、良性病変がある患者における疑わしい結節の検出を含む。いくつかの態様では、良性病変は、高度なＣＴスクリーニング、組織病理学、及び／又は生検を介して同定される。

前記がんスクリーニング／診断方法のいくつかの態様では、本方法は、悪性結節と良性結節とを識別して、ＣＴスクリーニングの陽性適中率（ＰＰＶ）を、例えば、少なくとも３０％、少なくとも４０％、少なくとも５０％、少なくとも６０％、少なくとも８０％、又は少なくとも９０％高めることを含む。

前記がんスクリーニング／診断方法のいくつかの態様では、本方法は、悪性腫瘍の早期検出（ＥＤ）を含む。

いくつかの実施形態では、本開示は、（ａ）被験体の生物学的試料からの複数の遺伝子マーカーに関連する読取の、被験体特異的ゲノムワイドの一覧を受け取り、ここで、遺伝子マーカーの一覧は、単一ヌクレオチド変異（ＳＮＶ）、短い挿入及び欠失（indels）、コピー数変異、構造変異（ＳＶ）及びそれらの組み合わせからなる群から選択され；（ｂ）読取の（１）塩基品質（ＢＱ）、（２）読取のマッピング品質（ＭＱ）、（３）読取の推定断片サイズ、及び／又は（４）読取の推定対立遺伝子分画（ＶＡＦ）の関数としてのノイズ（Ｐ_Ｎ）の検出確率に基づき、一覧中の各読取をシグナル又はノイズとして統計的に分類して、一覧から人為的的読取を除去すること；（ｃ）機械学習（ＭＬ）アプローチを利用して、各読取に関連する配列決定ノイズを、一覧中の各読取に関連する順応的及び／又は体系的にフィルタリングして、がん関連変異特徴とＰＣＲ又は配列決定エラー関連特徴とを識別すること；（ｄ）ノイズ除去（ｃ）及びフィルタリング（ｂ）に基づき、一覧内の複数の真の読取を含む被験体特異的特徴を編集すること；（ｅ）被験体の生物学的試料が、被験体特異的特徴とがんパターンとの間のマッチに基づき、循環腫瘍ＤＮＡ（ｃｔＤＮＡ）を含むという信頼性推定値を統計的に定量すること；及び（ｆ）被験体の生物学的試料ががん関連変異パターンを含むという信頼性推定値に基づき、がんについて被験体をスクリーニングすることを含む、がんについて被験体を遺伝子スクリーニングする方法に関し、ここで工程（ａ）は、全ゲノム配列決定によりゲノムワイドの変異データを凝集する工程を含み、工程（ｃ）は、数学的最適化工程を用いて変異パターンを検出する工程を含む。いくつかの実施形態では、数学的最適化工程は、非負の最小二乗を用いることを含む。

いくつかの実施形態では、本開示は、（ａ）被験体の生物学的試料からの複数の遺伝子マーカーに関連する読取の、被験体特異的ゲノムワイドの一覧を受け取り、ここで、遺伝子マーカーの一覧は、単一ヌクレオチド変異（ＳＮＶ）、短い挿入及び欠失（indels）、コピー数変異、構造変異（ＳＶ）及びそれらの組み合わせからなる群から選択され；（ｂ）読取の（１）塩基品質（ＢＱ）、（２）読取のマッピング品質（ＭＱ）、（３）読取の推定断片サイズ、及び／又は（４）読取の推定対立遺伝子分画（ＶＡＦ）の関数としてのノイズ（Ｐ_Ｎ）の検出確率に基づき、一覧中の各読取をシグナル又はノイズとして統計的に分類して、一覧から人為的的読取を除去すること；（ｃ）機械学習（ＭＬ）アプローチを利用して、各読取に関連する配列決定ノイズを、一覧中の各読取に関連する順応的及び／又は体系的にフィルタリングして、がん関連変異特徴とＰＣＲ又は配列決定エラー関連特徴とを識別すること；（ｄ）ノイズ除去（ｃ）及びフィルタリング（ｂ）に基づき、一覧内の複数の真の読取を含む被験体特異的特徴を編集すること；（ｅ）被験体の生物学的試料が、被験体特異的特徴とがんパターンとの間のマッチに基づき、循環腫瘍ＤＮＡ（ｃｔＤＮＡ）を含むという信頼性推定値を統計的に定量すること；及び（ｆ）被験体の生物学的試料ががん関連変異パターンを含むという信頼性推定値に基づき、がんについて被験体をスクリーニングすることを含む、がんについて被験体を遺伝子スクリーニングする方法に関する。がん関連変異特徴とＰＣＲ又は配列決定エラー関連特ある実施態様では、前悪性腫瘍は、不均一もしくは均一な脳がん、肺がん、皮膚がん、鼻がん、咽頭がん、肝臓がん、骨がん、リンパ腫、膵臓がん、皮膚がん、腸がん、直腸がん、甲状腺がん、膀胱がん、腎臓がん、口がん、胃がん、固形腫瘍、肺腺がん、乳管腺がん（乳房腫瘍）、非小細胞肺がん肺腺がん（ＮＳＣＬＣＬＵＡＤ）、皮膚黒色腫、尿路上皮がん（膀胱腫瘍）、結腸直腸がん（リンチ）、もしくは骨肉腫、特にリンチ症候群もしくはＢＲＣＡ遺伝子欠損を含む。

上記方法のいくつかの実施形態では、機械学習（ＭＬ）は、順序立てノイズを適応的に及び／又は体系的にフィルタリングする深層畳込ニューラルネットワーク（ＣＮＮ）を含む。いくつかの態様では、ＣＮＮは、汎腫瘍コホート上で深層学習アルゴリズムを用いて真の腫瘍変異と人為的的のエラーとを識別する特徴を同定すること；腫瘍患者からの試料では検出された各個々の変異に信頼性推定値を割り当てること；全ゲノムにわたって信頼性推定値を統合すること；及び試料中の特定のコスミック変異の非負最小二乗を用いることを含む。

いくつかの実施形態では、本開示は、コンピュータ実行可能命令を含むコンピュータ読取り可能媒体に関し、本コンピュータ読取り可能媒体は、プロセッサにより実行されると、プロセッサに、腫瘍の早期検出又は前がん性腫瘍病変の検出のための方法又は一組の工程を実行させる。本方法又は工程は、（ａ）被験体の生物学的試料からの複数の遺伝子マーカーに関連する読取の、被験体特異的ゲノムワイドの一覧を受け取り、ここで、遺伝子マーカーの一覧は、単一ヌクレオチド変異（ＳＮＶ）、短い挿入及び欠失（indels）、コピー数変異、構造変異（ＳＶ）及びそれらの組み合わせからなる群から選択され；（ｂ）読取の（１）塩基品質（ＢＱ）、（２）読取のマッピング品質（ＭＱ）、（３）読取の推定断片サイズ、及び／又は（４）読取の推定対立遺伝子分画（ＶＡＦ）の関数としてのノイズ（Ｐ_Ｎ）の検出確率に基づき、一覧中の各読取をシグナル又はノイズとして統計的に分類して、一覧から人為的的読取を除去すること；（ｃ）機械学習（ＭＬ）アプローチを利用して、各読取に関連する配列決定ノイズを、一覧中の各読取に関連する順応的及び／又は体系的にフィルタリングして、がん関連変異特徴とＰＣＲ又は配列決定エラー関連特徴とを識別すること；（ｄ）ノイズ除去（ｃ）及びフィルタリング（ｂ）に基づき、一覧内の複数の真の読取を含む被験体特異的特徴を編集すること；（ｅ）被験体の生物学的試料が、被験体特異的特徴とがんパターンとの間のマッチに基づき、循環腫瘍ＤＮＡ（ｃｔＤＮＡ）を含むという信頼性推定値を統計的に定量すること；及び（ｆ）被験体の生物学的試料ががん関連変異パターンを含むという信頼性推定値に基づき、がんについて被験体をスクリーニングすることを含む、がんについて被験体を遺伝子スクリーニングする方法に関する。いくつかの実施形態では、ＭＬは、一端に単一の完全接続層を有する層状畳込ニューラルネットワーク（ＣＮＮ）を含み、ここで、ＣＮＮは、３ヌクレオチドウインドウ上にコンボルビングする場合、空間的不変性を維持し、読取断片を、各々がほぼ８ヌクレオチド領域を表す複数のセグメントに折りたたむことで、マッピング品質を維持する。

前記コンピュータ読取可能媒体又は方法のいくつかの実施形態では、ＣＮＮは、一端に単一の完全接続層と、２歩の受容野と２歩の受容野とを有する最大プールにより出力がダウンサンプリングされる２つの連続した畳込層とを含む８つの層を含み、８層のＣＮＮは、サイズ３の知覚野を用いて、読取断片を約２５個の個々のセグメントに折り畳み、ゲノム読取における位置にあるカラムの上に畳み込むことにより、マッピング品質を維持し、最後の畳込層の出力は、マーカーの最終的な分類が行われるシグモイド完全接続層に直接適用される。いくつかの実施形態では、ＣＮＮは、アラインメントのゲノムコンテキスト、完全な読取配列、及び塩基あたりの品質スコアの統合を同時に捕捉する読取表示を含む。前記コンピュータ読取可能媒体又は方法のいくつかの態様では、ＣＮＮは、ＭＵＴＥＣＴと比較して約１．１２倍〜約３０倍だけ読み取られたゲノムにおける体細胞変異を含む腫瘍特異的マーカーの濃縮を提供する。

いくつかの実施形態では、本開示は、コンピュータ実行可能命令を含むコンピュータ読取り可能媒体に関し、本媒体は、プロセッサにより実行されると、プロセッサは、診断を必要とする被験体ではがんを診断するための方法又は一連の工程を実行する。本媒体は、（Ａ）被験体の試料から受け取った遺伝子マーカーの一覧では、遺伝子マーカーが体細胞単一ヌクレオチド変異（ｓＳＮＶ）、体細胞コピー数変異（ｓＣＮＶ）、挿入／欠失（indels）、又はゲノム読取における構造的変異（ＳＶ）を含む、（Ｂ）真のがんマーカーと人為的的のエラーとを識別する特徴を同定するために汎腫瘍コホート上の各被験体についての遺伝子マーカーの一覧を処理すること、（Ｃ）処理工程（Ｂ）に基づき、本集合体中の各特徴に信頼性推定値を割り当てること、（Ｄ）読み取ったゲノムの各特徴について、工程（Ｃ）全体にわたって信頼性推定値を統合し、腫瘍特徴を構築すること、の方法により開発された畳込ニューラルネットワーク（ＣＮＮ）及び（Ｅ）腫瘍の特徴を数学的に最適化することを含む。いくつかの実施形態では、信頼性推定値の割り当ては、（１）線形混合最適化を用いてコスミック変異パターンの寄与に関する信頼基準を計算すること、又は（２）特定のコスミックパターンに対する患者配列−文脈一覧の類似性を計算することを含む。いくつかの実施形態では、線形混合物の最適化は、代数関数ｍｉｎｌｌＡｘ−ｂｌｌ，ｘ≧０を解く工程を含み、ここで、Ａは、変異パターン配列コンテキストマトリックスであり、ｘは、各コスミック変異パターン（変数）の寄与であり、ｂは、患者特異的配列コンテキスト一覧である。ある態様では、代数関数ｍｉｎｌｌＡｘ−ｂｌｌ，ｘ≧０におけるＡは、１００個の無作為の変異パターンとともに、少なくとも５個、少なくとも１０個、少なくとも１５個、少なくとも２０個、少なくとも２５個又は少なくとも３０個のＣＯＳＭＩＣパターンを含む。いくつかの実施形態では、線形混合最適化は、抽出Ｅ＿ｒａｎｄｏｍ（平均寄与スコア）及びｓｔｄ＿ｒａｎｄｏｍ（ｓｔｄ寄与スコア）を含む無作為パターンの寄与の分布を計算することと、各ＣＯＳＭＩＣパターンに対する寄与検出の信頼性をｚスコアによりチェックすることとを含み、メトリック（ｃｏｓｍｉｃ＿ｓｉｇ＿ｃｏｎｔｒｉｂｕｔｉｏｎ−Ｅ＿ｒａｎｄｏｍ）／ｓｔｄ＿ｒａｎｄｏｍを計算することを含み、メトリックは、無作為セットと比較して特定のパターンの有意性を表す。いくつかの実施形態では、数学的最適化工程は、非負の最小二乗（ＮＮＬＳ）を用いることを含む。

いくつかの実施形態では、本開示は、それを必要とする被験体における残存腫瘍を検出するシステムであって、被験体の血漿試料と、正常細胞試料を含む正常生物学的試料からの増幅及び配列決定された複数の読取一覧を受け取るように構成されかつ配置されたデータ収集ユニット；遺伝子マーカーの被験体特異的一覧における複数の被験体特異的マーカーを同定するように構成されかつ配置されたマーカー同定ユニットであって、前記マーカー同定ユニットは前記データ収集ユニットと通信的に接続し、読取の基本品質（ＢＱ）、読取のマッピング品質（MQ)、読取の断片サイズ、及び／又は読取の可変対立遺伝子周波数（VAF）に基づき実際のノイズを除去するノイズ除去ユニットと、読取と腫瘍との間の統計学的関連の統計レベルを示す信頼区間スコアに基づき、一覧で読み取った各ノイズ除去されたノイズを統計学的に分類するように構成されかつ配置された分類エンジンとを含み、前記分類エンジンは、増幅段階又は配列決定工程の間に導入されたノイズを適応的かつ体系的にフィルタリングするために機械学習（ＭＬ）を利用する、さらに、ノイズ除去されたＭＬフィルタリングされた読取と、１又はそれ以上の既知のがんパターンとを、一覧内でマッチさせる工程；及び、マッチに基づき腫瘍を診断するように構成されかつ配置された診断ユニットを提供する。

本開示のシステムのいくつかの実施形態では、分類エンジンは、線形混合最適化問題を用いて信頼性メトリックを計算して、ノイズ除去されたＭＬフィルタ読取りを、１又はそれ以上の既知のがん特徴と整合させるようにさらに構成される。

本開示のシステムのいくつかの態様では、線形混合物の最適化は、腫瘍発生率と、タバコ暴露、紫外線暴露、規制緩和されたＤＮＡ修復、ＤＮＡ編集の欠陥、マイクロサテライト不安定性、又はそれらの組み合わせから選択された腫瘍メディエータとの間の関連についてのｚスコア信頼性推定値を計算することを含む。

本開示のシステムのいくつかの実施形態では、人為的的ノイズ除去エンジンは、読取の基本品質（ＢＱ）スコア、読取のマッピング品質（ＭＱ）スコア、読取の断片サイズ、又は読取の可変対立遺伝子頻度（VAF）に基づく、一覧の読取の確率論的分類を含む最適受信者動作特性曲線を実行するように構成される。本開示のシステムのいくつかの実施形態では、人為的的実際のノイズ除去エンジンは、（ｉｉｉ）読取内位置（ＲＰ）、（ｉｖ）読取配列コンテキスト（ＳＣ）、（ｖ）読取存在量、（ｖｉ）配列決定深度及び／又は（ｖｉｉ）配列決定エラーに基づきノイズをフィルタリングするようにさらに構成される。

本開示のシステムのいくつかの実施形態では、信頼性メトリック計算は、代数関数ｍｉｎｌｌＡｘ−ｂｌｌ，ｘ≧０を解く工程を含み、ここで、Ａは、変異パターン配列コンテキストマトリックスであり、ｘは、各コスミック変異パターン（変数）の寄与であり、ｂは、患者特異的配列コンテキスト一覧である。いくつかの実施形態では、ｚスコア信頼性推定値は、Ａが３０個のコスミックパターン及び１００個の無作為変異パターンを含む代数関数を解く工程と、平均寄与スコア（ＡＣＳ）及び標準寄与スコア（ｓｔｄ＿ｒａｎｄｏｍ）を含むコスミックパターン（ＣＳＣ）無作為パターン（Ｅ＿ｒａｎｄｏｍ）の寄与の分布を計算する工程と、関数（ＣＳＣ−Ｅ＿ｒａｎｄｏｍ）／ｓｔｄ＿ｒａｎｄｏｍを用いてｚスコアメトリックを計算して、各コスミックパターンに対する寄与の信頼性を確認チェックする工程であって、ｚスコアは、無作為集合と比較して、特定のパターン寄与の重要性を表す。いくつかの実施形態では、ｚスコア信頼性推定値は、特定のコスミック特徴に対する患者配列−文脈一覧の類似性を計算する工程を含む。いくつかの実施形態では、ｚスコアの信頼性推定値は、密度関数を得るために患者配列コンテキストの一覧を正規化する工程と、患者配列コンテキストの密度関数とコスミック署名密度関数との間のコサイン類似性を計算する工程と、患者配列コンテキストの密度関数と非情報的な一様密度関数との間のコサインの類似性で割ることによりコサインの類似性を正規化する工程とを含む。いくつかの実施形態では、ｚスコアの信頼性推定値は、ｚスコアが検出閾値を超えるかどうかをチェックする工程を含み、閾値は、健康な試料では経験的に推定された基礎ノイズを含む。ある態様では、がん特徴は、タバコ特徴を含み、正の信頼区間は、２、３、４より大きく、好ましくは５標準偏差より大きいｚスコアを含む。

本開示の方法及びシステムのいくつかの態様では、遺伝子マーカーは、ＤＮＡ中のＳＮＶ、ＣＮＶ、indels及び／又はＳＶを含み、受容ユニットは、全ゲノム配列決定（ＷＧＳ）された遺伝学的データ、例えば、血漿試料を含む生物学的試料からの遺伝学的データを受け取る。正常細胞試料は、無細胞ＤＮＡ（ｃｆＤＮＡ）を含む。正常細胞試料は、末梢単核球細胞（ＰＭＢＣ）を含み、遺伝学的データは、体細胞一塩基変異（ｓＮＶ）又は体細胞コピー数変異（ｓＣＮＶ）又はそれらの組合せを含む複数のマーカーを含む。いくつかの態様では、試料中のｃｆＤＮＡの量は、約０．１ｎｇ／ｍｌ〜約２０．０ｎｇ／ｍｌである。いくつかの態様では、試料は、正常ＤＮＡ分子に対する腫瘍ＤＮＡ分子の量の比、例えば、約０．０００１％（１〜１００万分子）から約２０％の間で測定されるように、腫瘍画分（ＴＦ）が低い。

本開示の１又はそれ以上の実施形態の詳細は、添付の図面／表及び以下の説明に記載される。本開示の他の特徴、目的、及び利点は、図面／表及び詳細な説明、並びに特許請求の範囲から明らかであろう。

本開示の診断方法の代表的なフローチャートを示す。図１Ａの第１工程１１０では、複数の遺伝子マーカー（例えば、体細胞性ＳＮＶ）に関連する、読取の被験体特異的ゲノムワイドの一覧を、被験体の試料（例えば、全ゲノム配列決定を介して生成される）から受け取る。工程１２０では、ノイズの検出確率に基づき、（１）基本品質（ＢＱ）、（２）マッピング品質（ＭＱ）、（３）推定断片サイズ及び／又は（４）推定対立遺伝子分画（ＶＡＦ）の関数として、各読取をシグナル又はノイズ（Ｎ）として統計的に分類して、人為的的読取を除去する。（ｖ）読取位置、（ｖｉ）配列コンテキストの位置サイズ（ＳＣ）、（ｖｉｉ）存在量、（ｖｉｉｉ）配列決定の深度及び／又は（ｉｘ）配列決定の誤差等の他の二次パラメータもまた、用いられ得る。ノイズ減少読取は、汎がんコホートからのインシリコデータセット及び／又はデータセットを用いて訓練された畳込ニューラルネットワークに供給されうる。ニューラルネットワークは、工程１３０では配列決定ノイズを適応的かつ体系的にフィルタリングする。次に、ノイズ除去工程１２０及びフィルタリング工程１３０に基づき、工程１４０では、一覧内の複数の真の読取を含む被験体特有の特徴が編集される。次に、工程１５０では、被験体の生物学的試料が循環腫瘍ＤＮＡを含むという信頼性推定値が、被験体特異的パターン及びがんパターンをマッチさせて行われる。被験体は、工程１６０では信頼性推定値に基づきがんについてスクリーニングされる。図１Ｂは、様々な実施形態による、被験体のがんスクリーニングの代表的なワークフローを示す。図１Ｃは、様々な実施形態による、被験体のがんスクリーニングの代表的なワークフローを示す。図１Ｄは、一塩基多型（ＳＮＶ）又はindelsの測定に基づく、被験体のがんスクリーニングの代表的なワークフローを示す。図１Ｅは、コピー数変異（ＣＮＶ）又は構造的変異（ＳＶ）の測定に基づく、被験体のがんスクリーニングの代表的なワークフローを示す。図１Ｆは、７人のがん患者−２人の黒色腫、３人の肺腺がん、及び２人の乳房（ＳＣＨＥＭＥＡ）で生成された合成血漿用シリコデータベースの生成のためのスキームを示す。

がんの早期検出支援の本開示のシステム及び方法の使用を概説する代表的なフローチャートを提供し、これは、外科的及び／又は治療的介入の必要を排除しない場合、低減する。がんの早期発見から得られる多くの経済的及び健康的便益には、手術のリスク（例えば、肺炎、出血、感染、血液凝固（血腫）及び麻酔に対する反応）、化学療法又は免疫療法の副作用（例えば、疲労、脱毛、易傷性及び易出血性、感染症、貧血、悪心及び嘔吐、食欲不振、便秘、下痢、口内、舌及び咽頭の問題、神経及び筋肉の問題（しびれ、刺痛、疼痛など）、皮膚及び爪の変化（乾燥皮膚及び色調の変化等）、尿及び膀胱の変化、腎臓の問題、体重変動などが含まれる。

Ａ〜Ｃは、様々なパラメータの関数として、パラメータの検出確率をチャート化したものである。図３Ａでは、チャートは、検出の確率が低い腫瘍画分（ＴＦ）を含む試料で急速に減少することを示す。図３Ｂのチャートは、検出された部位の平均数、並びに少なくとも１つの検出の確率を、固有のＤＮＡ断片（ゲノム等価物又はカバレッジ）、変異負荷（Ｎ）及び腫瘍分画（ＴＦ）の数の関数として予測した。図３Ｃは、２０，０００を超えるｓＳＮＶ（ヒトのがんの１７％では見出される約１０の変異／メガ塩基対）を組み込むことにより、標準的な全ゲノム配列決定（ＷＧＳ）で容易に達成されうる、適度な配列決定努力（２０Ｘカバレッジ）では、１：１００，０００のＴＦでも高い検出確率（０．９８まで）を提供し得ることを示す。

Ａ〜Ｅは、ＳＮＶマーカーの最適化を示す。図４Ａは、人為的的ＳＮＶ検出の数（エラー）と、チェックされたユニーク読取の総数との間の線形関係を示す。これは、１，０００読取につき１エラーに相当するエラー率を表し、本エラーは、主として配列決定エラー率（１／１０００）に起因することを示す。各点は対照試料（ＴＦ＝０）であり、これらの点は、３種類の異なるがん種（肺がん、黒色腫及び乳がん）の複数カバー範囲（２Ｘ〜２５Ｘ）及び複数の独立した複製を有する６名の患者のＰＢＭＣデータから作成された。すべてが同じ回帰直線上にあるように見えるので、これはがんの種類には不変である。図４Ｂは、塩基品質フィルタリングの受信機動作特性曲線を示す。図４Ｃは、フィルタリングされた多重がんエラーモデルでは検出されたエラーの数（ｙ軸）に対するチェックされた読取の数（ｘ軸）の線グラフを示し、人為的的実際のＳＮＶ検出の数（エラー）とチェックされたユニーク読取の総数との間の線形関係を示す。ＳＮＶ検出（エラー）は、最適化されたＢＱ及びＭＱフィルタを適用した後に実行される。図４Ｄは、ジョイントＢＱ及びＭＱ最適化フィルタを適用する効果により、配列決定誤差では約７倍の変化の抑制が可能となることを示す。対照試料を用いた複数の反復にわたるエラー率分布の評価では、フィルタ前のノイズは、肺がんと黒色腫の両方のタイプで〜２×１０^−３の速度を示し、フィルタリング後のノイズは、両方のタイプのがんで〜２×１０^−４に減少する。図４Ｅは、プラズマカバレッジ（ｘ軸）及び腫瘍負荷（ｙ軸）の関数として、誤差率（より多くの誤差を示す赤、及びより少ない誤差を示す青）のヒートマップを示す。種々の適用範囲における推定エラー率（例えば、検出されたＳＮＶ数をチェックされたユニークな読取の総数で割ったもの）及び腫瘍変異負荷（腫瘍変異負荷は、元の患者特異的な腫瘍変異リストをサブサンプリングして修正された）を示す。行列への各項目は、複数の独立した複製の平均である。これは、２０００を超える全ての変異負荷に対して、カバレッジと変異負荷に対する比較的不変なエラー率（約２〜３×１０^−４）を示す。このことは、メガ塩基対あたり１又はそれ以上の変異（＞１／Ｍｂｐ）を有するすべての腫瘍について、上記結果が頑健であることを示す。

深層学習に基づくデノボ変異検出及びノイズ抑制のチャートを提供する。

ゲノム読取用のマトリックス（例えば、１５０塩基対読取用の１６×２００塩基対）を含む典型的なパッドを示す。上のパネルには、エンジンで表示される読取とその配置が表示される。下のパネルは、ゲノムコンテキストが読取の末端に付加されることを示す。ゼロは、コンテキスト以外の機能のためにパディングされる。

臨床設定で適用される開示の例示的方法の概略図を示す。示すように、無細胞ＤＮＡ（ｃｆＤＮＡ）（例えば、血漿試料）を含む被験体（例えば、がん患者又は腫瘍を有することが疑われる被験体）から得られた生検試料は、ＰＩＬＥＵＰ（又は類似のプログラム）を用いてカタログ化される患者の遺伝データ（例えば、ＶＣＦファイル）を得るために処理（例えば、配列決定）される。ＶＡＦフィルタは、生殖細胞系マーカー（例えば、ＳＮＶ、ＣＮＶ、indels、又はＳＶ）を除外するために適用され、マッピング品質（ＭＱ）、位置フィルタ（ＰＩＲ）及び／又は塩基品質（ＢＱ）フィルタは、人為的的ノイズをフィルタするためにさらに適用される。次の工程では、フィルタリングされた遺伝的データに深層学習が適用される。深層学習法は、混合した腫瘍生検標本及び末梢血単核細胞（ＰＭＢＣ；対照）から得られたマーカーの一覧を含む遺伝学的データを用いて機械を訓練することを含み、これらは、上記フィルタ（例えば、ＰＩＬＥＵＰを介した人為的的読取カタログ、生殖細胞系の変異を除外するＶＡＦフィルタ、塩基品質が低いマーカーを除去するＢＱフィルタ、及びマッピングが不良なマーカーを除去するＭＱ）に供される。また、装置は、データセットを用いて訓練されてよい。上記システム及び方法の生成物は、がんの早期診断及び予後に役立つ、がん診断の文脈では臨床的に関連するｃｆＤＮＡ中の複数のマーカーの同定である。

「データセットの特性及びエンジン特徴分析の結果を示す。図８Ａは、Ａｌｅｘａｎｄｒｏｖら（前出、２０１３）のタバコ（上部）及びメラノーマ（下部）と関連するＣＯＳＭＩＣパターンを示す。図８Ｂは、試料特異的腫瘍及びＰＢＭＣ読取からのトリヌクレオチド頻度を示す。タバコ（紫色）と紫外線（緑色）に結合した特異的なトリヌクレオチド。図８Ｃは、トリヌクレオチド頻度の相対差とエンジン（エンジン）の平均活性との相関を示す。

公知の変異呼出と比較した、本開示のエンジンの様々な性能関連特性の折れ線グラフを示す。図９Ａは、患者ＣＡ００４４合成血漿を用いた感度を示す。本開示のエンジン（ＫｉｔＴＹＨＡＷＫ）は、感度に関して、ＭＵＴＥＣＴ、ＳＮＯＯＰＥＲ、及び／又はＳＴＲＥＬＫＡ等の当技術分野で公知の変異呼出よりも性能が優れることが分かる。図９Ｂは、患者ＣＡ００４４合成血漿上のエンジンを用いて得られた精度（陽性適中率又はＰＰＶに関して測定される）の比較線グラフを示す。ＭＵＴＥＣＴは検出数が２のみであったため除外した。エンジンは、精度に関して、当業者に公知の変異呼出よりも優れることが分かる。図９Ｃは、患者ＣＡ００４４合成血漿上でエンジンを用いて達成された濃縮を示す。ＭＵＴＥＣＴは検出数が２のみであったため除外した。エンジンは、富化に関して、公知の変異呼出よりも優れていることが分かる。

本開示の方法及びシステムを用いて、シリコ又は対照被験体（ＢＢ６００；ＢＢ６０１）又はがん患者（ＢＢ１１２２又はＢＢ１１２５）から得られたｃｔＤＮＡ試料におけるＳＮＶ検出率を示す。

腺がん又は良性結節を有すると診断された被験体の臨床的特徴を示す表である。

Ａ〜Ｃは、種々の腫瘍では差次的に発現される腫瘍特異的特徴を示す。図１２Ａは、腫瘍特異的特徴（ＵＶ、タバコ）の適用が、肺がん及びメラノーマ試料では高い特異性を提供することを示す。図１２Ｂは、肺患者（左パネル）及び／又は黒色腫患者（右パネル）における正常（ＰＢＭＣ）対腫瘍試料における遺伝子特徴の差次的発現を示す。図１２Ｃは、乳がん、メラノーマ、又は肺腺がんを有する患者における種々のＣＯＳＭＩＣパターン（及びそれらに関連するｚスコア）の発現を示す。

Ａ〜Ｃは、約１／１０００の腫瘍画分（ＴＦ）まで合成血漿中でがんパターンを検出しうることを示す。２つのシード、シード３及びシード４からのデータを表す図１３Ａ及び１３Ｂは、タバコパターンが、約１／１０００の腫瘍画分（ＴＦ）まで合成血漿中で検出されうることを示す。単一のシードからのデータを表す図１３Ｃは、約１／１０００の腫瘍画分（ＴＦ）まで合成血漿中で肺特徴が検出されうることを示す。

Ａ〜Ｂは、種々の患者試料のｚスコアを示す。図１４Ａは、肺がん患者（青色）及び良性結節を有する患者（赤色、ＣＴにより検出される）について、ｚスコア対バックグラウンド無作為パターンにおける、タバコ関連パターンの変異パターン検出を示す。これは、非侵襲的血液検査に基づき良性結節と悪性結節を識別する能力を示す。タバコの署名（署名４／８）は、タバコに曝露された患者の早期がん血漿中に検出されるが、良性結節又は喫煙歴のない患者では検出されない。「Ｎ．Ｄ．」は、検出されない試料を示す。ＰＹは、各患者が喫煙したパックの年数を示す。ＥＤは早期発見を意味する。図１４Ｂは、良性対照と比較した、肺がんの様々な病期（例えば、ＩＡ期、ＩＢ期、ＩＩＡ期、ＩＩｂ期、及びＩＩＩａ期）の被験体から得られた試料のコホートにおける変異パターン検出のｚスコアの拡大を示す。ほとんどのがん試料では、ベースライン時の感度が少なくとも６７％に達し、これはすべての高病期（例えば、ステージＩＩＩａ以上）の症例で約１００％に上昇した。

本開示のコンピュータシステムの概略図である。

Ａ〜Ｃは、本開示の種々のシステムの概略図を提供する。代表的なシステムに含まれる様々なユニットを示す。

Ａ−Ｅは、本開示の診断方法における断片サイズ等の直交特徴の使用、及びＳＮＶベースの方法における当該直交特徴の適用の付随する効果を示す。図１７Ａは、健常な正常ｃｆＤＮＡ試料では示される断片サイズ分布を示す。図１７Ｂは、正常なｃｆＤＮＡ試料と比較した乳房腫瘍ｃｆＤＮＡ（赤色及び紫色）の断片サイズシフトを示す。図１７Ｃは、マウス異種移植片（ＰＤＸ）モデルでは、腫瘍由来の循環ＤＮＡは、正常由来の循環ＤＮＡよりも有意に短いことを示す。図１７Ｄは、腫瘍及び正常試料を横切る前記長さの断片を観察する頻度に対してプロットした断片ＤＮＡサイズ（ｘ軸；塩基数）の折れ線グラフを示す。図１７Ｅは、断片サイズ分布（ｘ軸）及びＧＭＭ結合対数オッズ比（ｙ軸）に基づく、ＤＮＡ断片と腫瘍起源との対応等の直交的特徴を用いる患者特異的変異検出を示す。

Ａ−Ｆは、本開示の診断方法における断片サイズ等の直交特徴の使用及びＣＮＶ系方法における当該直交特徴の適用の付随する効果を示す。図１８Ａは、ゲノム領域（ｂｐ）対累積プラズマ深度カバレッジスキュー（下部パネル）、プラズマ対垂直深度カバレッジスキュー（中部パネル）及びカバレッジ（上部パネル）の線グラフを示す。図１８Ｂは、深度カバレッジのｌｏｇ２（ｌｏｇ２＞０．５＝増幅、ｌｏｇ２＜−０．５＝欠失）と、そのセグメントにおける局所的な断片サイズの質量中心（ＣＯＭ）との関係を示す。図１８Ｃは、深度カバレッジＬｏｇ２対断片サイズ質量中心（ＣＯＭ）のドットプロットを示す。ゲノムを横切るすべてのウインドウの推定Ｌｏｇ２及びＣＯＭ値、中央値試料質量中心（ＣＯＭ）、を用いて、Ｌｏｇ２／ＣＯＭ線形モデルの勾配及びＲ＾２が、様々な時点（例えば、ベースラインの０日、２１日及び４２日）で計算される。図１８Ｄは、Ｌｏｇ２／ＦＳ推定と腫瘍ＤＮＡの画分との間の相関を示す。図１８Ｅは、患者試料における深度カバレッジに基づくＣＮＶ検出と断片サイズ質量中心に基づくＣＮＶ検出との間の関係を示す。図１８Ｆは、正常（健康）血漿試料における深度カバレッジに基づくＣＮＶ検出と断片サイズ質量中心（ＣＯＭ）に基づくＣＮＶ検出との間の関係の欠如を示す。

本開示は、本開示の好ましい実施形態が示される添付の図面を参照して、より詳細に説明される。しかしながら、本開示は、異なる形態で具体化することができ、本明細書に記載する実施形態に限定されるものと解釈されるべきではない。むしろ、当該実施形態は、本開示が完全かつ完全であるように提供され、当業者に本開示の範囲を完全に伝える。

別段の定義がない限り、本明細書に記載される本教示に関連して用いられる科学用語及び技術用語は、当業者により一般に理解される意味を有するものとする。本明細書における開示の説明で用いられる用語は、特定の実施形態のみを説明するためであり、本開示を限定することを意図したものではない。さらに、文脈上別段の要求がない限り、単数項は複数項を含み、複数項は単数項を含む。一般に、分子生物学、及び本明細書中に記載されるタンパク質及びオリゴ又はポリヌクレオチドの化学及びハイブリダイゼーションに関連して利用される命名法は、当該分野で周知であり、一般的に用いられる。標準的な技術は、例えば、核酸の精製及び調製、化学分析、組換え核酸、及びオリゴヌクレオチドの合成に用いられる。酵素反応及び精製技術は、製造業者の仕様に従って、又は当技術分野で一般的に達成されるように、又は本明細書に記載されるように実施される。本明細書に記載される技術及び手順は、一般に、当該技術分野では周知であり、本明細書を通して引用及び考察される種々の一般的及びより具体的な参考文献に記載される従来の方法に従って実施される。例えば、Sambrook et al., Molecular Cloning: A Laboratory Manual (Third ed., Cold Spring Harbor Laboratory Press, Cold Spring Harbor, N.Y. 2000)である。本明細書中に記載される実験手順及び技術に関連して用いられる命名法は、当該分野で周知であり、一般的に用いられる。

本開示の様々な実施形態は、以下のパラグラフでさらに詳細に説明される。

〔定義〕
本開示及び添付の特許請求の範囲の説明で用いられる、単数形「ａ」、「ａｎ」及び「ｔｈｅ」は、文脈上他のことを明確に示さない限り、複数形も含むことが意図される。また、本明細書で用いられる場合、「及び／又は」は、１又はそれ以上の関連するリストされたアイテムのいかなる及び全ての可能な組み合わせ、並びに選択肢（「又は」）では解釈時の組み合わせの欠如を示し、それらを包含する。

用語「約」は、その値のプラス又はマイナス１０％の範囲を意味し、例えば、「約５」は、４．５〜５．５を意味し、「約１００」は、開示の文脈が他を示す場合を除き、９０〜１００などを意味し、例えば、「約４９、約５０、約５５」等の数値のリストでは、「約５０」は、前の値と後の値との間の間隔の半分未満、例えば、４９．５を超えるか、５２．５未満を超えるかの範囲を意味する。さらに、用語「約〜より小さい」又は「約〜より大きい」は、本明細書で提供される用語「約」の定義に照らして理解されるべきである。

本開示である範囲の値が提供される場合、その範囲の上限と下限との間の各介在値と、その記載された範囲内のいかなる他の記載された値又は介在値とは、本開示の範囲内に含まれることが意図される。例えば、１μＭ〜８μＭの範囲が記載される場合、２μＭ、３μＭ、４μＭ、５μＭ、６μＭ、及び７μＭもまた、明示的に開示されることが意図される。

本明細書で用いられる用語「複数」は、２、３、４、５、６、７、８、９、１０、又はそれ以上であり得る。

本明細書中で用いられる用語「スクリーニング」又は「スクリーニング」は、広い意味を有する。これには、診断用に意図されたプロセス、又は後年に疾患を発症する無症状の被験体の感受性、傾向、リスク、又はリスク評価決定に意図されたプロセスが含まれる。スクリーニングはまた、被験体の予後、すなわち、被験体が障害と診断された場合の予後、障害の進行を事前に決定すること、並びに障害を治療する治療選択肢の有効性の評価も含む。

本明細書中で用いられる用語「検出する」は、試料中の１又はそれ以上のパラメータの測定により試料に関連する値又は値のセットを決定するプロセスをいい、さらに、試験試料を参照試料と比較する工程を含みうる。本開示により、腫瘍の検出は、１又はそれ以上のマーカーの同定、アッセイ、測定及び／又は定量を含む。

本明細書中で用いられる用語「診断」は、被験体が、限定されるものではないが、遺伝子変異により特徴付けられる疾患又は状態を含む、所定の疾患又は状態に罹患する可能性が高いか否かを決定しうる方法をいう。当業者は、しばしば、１又はそれ以上の診断指標、例えば、マーカー、その存在、不在、量、又は量の変化に基づき診断を行うが、それらの量は、疾患又は状態の存在、重症度、又は不存在を示す。他の診断指標には、患者の病歴、身体症状（例えば、説明できない体重減少、発熱、疲労、疼痛、又は皮膚奇形）、表現型、遺伝子型、又は環境因子又は遺伝因子がある。当業者は、用語「診断」とは、特定の経過又は転帰が生じる可能性が高まること、すなわち、所定の特徴、例えば、診断指標の存在又はレベルを示す患者では、その特徴を示さない個人と比較して、経過又は転帰が生じる可能性が増大することを意味することを理解するであろう。本開示の診断方法は、独立して、又は他の診断方法と組み合わせて、所与の特徴を示す患者では経過又は転帰がより生じやすいか否かを決定するために用いられ得る。

本明細書中で用いられる、疾患、例えば、がんの「早期検出」という用語は、例えば、がん状態への転移前に、疾患の発現の可能性を発見することを意味する。好ましくは、早期検出とは、組織又は細胞における形態学的変化の観察前に疾患を同定することを意味する。さらに、細胞形質転換の「早期検出」という用語は、細胞が形質転換されると指定される前に、その細胞がその初期段階では形質転換を受ける可能性が高いことを意味する。

本明細書中で用いられる用語「細胞形質転換」とは、細胞の特徴のある形態から別の形態への変化、例えば、正常型から異常型、非腫瘍型から腫瘍型、未分化型から分化型、均一型から不均一型への変化をいう。さらに、形質転換は、細胞の形態、表現型、生化学的特徴、例えば、成長特性、アポトーシス特性、分離、侵襲特性などにより認識されうる。

本明細書中で用いられる用語「腫瘍」は、正常又は野生型細胞と比較して、遺伝的、細胞的、又は生理的レベルで形質転換を受けた可能性のあるいかなる細胞又は組織を含む。用語は、通常、良性（例えば、転移を形成せず、隣接する正常組織を破壊する腫瘍）又は悪性／がん（例えば、周囲の組織に浸潤し、通常、転移を生じ得る腫瘍）であり得る新生物性増殖を意味し、適切に治療されない限り、宿主を死亡させる可能性がある。Steadman’s Medical Dictionary, 28^th Ed Williams & Wilkins, Baltimore, MD (2005)を参照。

用語「がん」（「腫瘍」と同義で用いられる）とは、ヒトのがん及びがん腫、肉腫、腺がん、リンパ腫、白血病、固形及びリンパ系がんなどを意味する。様々なタイプのがんの例としては、肺がん、膵がん、乳がん、胃がん、膀胱がん、口腔がん、卵巣がん、甲状腺がん、前立腺がん、子宮がん、精巣がん、神経芽細胞腫、頭部扁平上皮がん、頸部、子宮頸部及び膣、多発性骨髄腫、軟部組織及び骨原性肉腫、大腸がん、結腸直腸がん、腎がん（例えば、ＲＣＣ）、胸膜がん、子宮頸がん、肛門がん、胆管がん、消化管カルチノイド腫瘍、食道がん、胆嚢がん、小腸がん、中枢神経系がん、皮膚がん、絨毛がん；骨原性肉腫、線維肉腫、神経膠腫、黒色腫などが挙げられるが、これらに限定されない。ある態様では、「液体」がん、例えば、血液がん、例えば、リンパ腫及び／又は白血病は除外される。

がんの例としては、副腎皮質がん、ＡＩＤＳ関連がん、ＡＩＤＳ関連リンパ腫、肛門がん、肛門直腸がん、肛門管がん、虫垂がん、小児小脳星細胞腫、小児大脳星細胞腫、基底細胞がん、皮膚がん（非黒色腫）、胆道がん、肝外胆管がん、肝内胆管がん、膀胱がん、膀胱がん、骨及び関節がん、骨肉腫及び悪性線維性組織球腫、脳がん、脳腫瘍、脳神経膠腫、大脳星細胞腫／悪性神経膠腫、上衣腫、髄芽腫、テント上原始神経外性腫瘍、視経路及び視床下部神経膠腫、乳がん、気管支腺腫／カルチノイド、カルチノイド、消化管がん、神経系がん、神経系リンパ腫、中枢神経系がん、子宮頸がん、慢性リンパ球性白血病、慢性骨髄増殖性疾患、結腸がん、結腸直腸がん、皮膚Ｔ細胞リンパ腫、リンパ腫、菌状息肉腫、セジア症候群、食道内膜がん、頭蓋外胚細胞腫細胞腫瘍、性腺外胚細胞腫瘍、肝外胆管がん、眼がん、眼内黒色腫、網膜芽細胞腫、胆嚢がん、胃がん、消化管カルチノイド、消化管間質腫瘍（ＧＩＳＴ）、胚細胞腫瘍、卵巣胚細胞腫瘍、妊娠性絨毛腫瘍グリオーマ、頭頸部がん、肝細胞（肝）がん、ホジキンリンパ腫、下咽頭がん、眼内黒色腫、眼球がん、膵島がん（内分泌膵）、カポジ肉腫、腎がん、腎がん、喉頭がん、急性リンパ芽球性白血病、急性骨髄性白血病、慢性リンパ性白血病、慢性骨髄性白血病、有毛細胞白血病、口唇及び口腔のがん、肝がん、肺がん、非小細胞肺がん、ＡＩＤＳ関連リンパ腫、非ホジキンリンパ腫、中枢神経系原発性リンパ腫、Ｗａｌｄｅｎｓｔｒａｍマクログロブリン血症、髄芽腫、黒色腫、眼内黒色腫、メルケル細胞がん、悪性中皮腫、中皮腫、転移性扁平上皮がん、口腔がん、舌のがん、多発性内分泌腫瘍、菌状息肉腫、骨髄異形成症候群、骨髄異形成／骨髄増殖性疾患、慢性骨髄性白血病、急性骨髄性白血病、多発性骨髄腫、慢性骨髄増殖性疾患、鼻咽頭がん、神経芽細胞腫、口腔がん、口腔がん、中咽頭がん、卵巣がん、卵巣上皮がん、卵巣低悪性度腫瘍、膵がん、膵島細胞がん、副鼻腔及び鼻腔のがん、副甲状腺がん、咽頭がん、褐色細胞腫、松果体芽腫及びテント上原始神経外胚葉性腫瘍、下垂体腫瘍、形質細胞新生物／多発性骨髄腫、胸膜肺芽腫、前立腺がん、直腸がん、腎盂及び尿管がん、移行上皮がん、網膜芽腫、唾液腺がん、ユーイング肉腫、カポジ肉腫、子宮がん、子宮肉腫、皮膚がん（非黒色腫）、皮膚がん、メルケル細胞がん、小腸がん、軟部肉腫、扁平上皮がん、胃がん、テント上原始神経外胚葉性腫瘍、精巣がん、胸腺腫、胸腺がん、甲状腺がん、移行上皮がん、腎盂と尿管及びその他の泌尿器、妊娠性絨毛腫瘍、尿道がん、子宮内膜がん、子宮肉腫、子宮体がん、膣がん、外陰がん、及びウィルムス腫瘍が挙げられるが、これらに限定されない。

本明細書で用いられる「高率の体細胞変異」とは、ゲノムのメガ塩基対（変異／ＭＢＰ）当たり約１、約２、約３、約５、約７、約１０、約１２、約１５、約２０、約２５、約３０、約４０、約５０、約６０、約７５、約８０、約１００、約１２５、約１５０、又はそれ以上の変異を有する腫瘍を意味する。Collisson et al., Nature, 511(7511):543-50, 2014を参照のこと。

本明細書中で用いられる用語「非小細胞肺がん」又はＮＳＣＬＣは、本明細書中で用いられる場合、小細胞肺がんではない全ての肺がんをいい、大細胞がん、扁平上皮がん及び腺がんを含むが、これらに限定されないいくつかのサブタイプを含む、すべての病期及び転移が含まれる。肺がんの２５％を占める扁平上皮がんは、通常、中心気管支の近くから発生する。腫瘍の中心部には通常、空洞とそれに伴う壊死がみられる。高分化型扁平上皮がんでは、他の種類のがんよりも増殖のペースが遅い場合が多くみられる。腺がんは非小細胞肺がんの４０％を占める。通常、末梢肺組織に発生する。腺がんのほとんどの症例は喫煙と関連があるが、喫煙経験のない人の間では、腺がんが肺がんの最も一般的な型である。Rosell et al., Lung Cancer,46(2), 135-48, 2004; Coate et al., Lancet Oncol, 10, 1001-10, 2009を参照のこと。

本明細書では、用語「細胞」は、「生物学的細胞」と相互に交換可能に用いられる。生物学的細胞の非限定的な例としては、真核細胞、植物細胞、哺乳類細胞、爬虫類細胞、鳥類細胞、魚類細胞などの動物細胞、原核細胞、細菌細胞、真菌細胞、原生動物細胞など、筋肉、軟骨、脂肪、皮膚、肝臓、肺、神経組織などの組織から解離した細胞、Ｔ細胞、Ｂ細胞、ナチュラルキラー細胞、マクロファージなどの免疫学的細胞、胚（例えば接合子）、卵母細胞、卵子、精子細胞、ハイブ読取マ、培養細胞、細胞株由来細胞、がん細胞、感染細胞、トランスフェクト及び／又は形質転換細胞、レポーター細胞などが挙げられる。哺乳動物細胞は、例えば、ヒト、マウス、ラット、ウマ、ヤギ、ヒツジ、ウシ、霊長類などから得ることができる。

本明細書中で用いられる用語「被験体」は、ヒト、獣医学的又は農場動物、家畜又はペット、及び臨床研究に通常用いられる動物を含む哺乳動物を意味する。特に、被験体は、ヒト被験体、例えば、腫瘍と診断された、又は腫瘍を有することが疑われるヒト患者である。

本明細書で用いられる用語「被験体特異的データセット」は、例えば、ゲノム情報、表現型情報、生化学情報、代謝情報、ミクロバイオーム配列情報、電子医療記録データ、電子健康記録データ、薬物処方、生体計測データ、栄養情報、運動情報、家族の病歴情報（例えば、家族の健康歴調査により得られるような）、アプリケーション内チャットログ、被験体の個人的医療提供者の記録及びメモ、被験体の保険提供者、患者がネットワーク情報、ソーシャルネットワーク情報などを提唱するような、各個人に固有の様々な情報をいう。いくつかの実施形態では、主題特定のデータセットの１又はそれ以上は、日常的に更新及び／又は補足される。いくつかの実施形態では、１又はそれ以上のデータセットが、複数の被験体特有のデータセットに追加される。

「被験体特異的ゲノム情報」とは、個体の遺伝的構成をいい、変異（ＳＮＰ、Ｄｅｌ／Ｄｕｐｓ、ＶＵＳ等）及び変異頻度、家族性ゲノム配列情報、構造的ゲノム情報（変異（配列、欠失、挿入等）を含む）、一塩基多型、個人的免疫学情報（ゲノムワイド・アプローチを用いた免疫系の調節及び病原体への応答の研究）、機能的ゲノム情報（遺伝子転写、翻訳、タンパク質−タンパク質相互作用等の動的側面に焦点を当てた機能的ゲノム情報）、コンピュータゲノム情報（ゲノム配列及び関連データから生物学を解読、発見又は予測するためのコンピュータ統計解析の利用）、エピゲノミクス情報（ＤＮＡ配列を変化させることなく遺伝子発現に影響を及ぼすＤＮＡ又はヒストンの可逆的修飾（ＤＮＡメチル化及びヒストン修飾等））、個人ゲノムを含む病原学情報、病態、レジェノミクス情報、行動ゲノミクス情報、メタゲノミクス（すなわち、環境試料から直接回収される個人遺伝物質）に関与する微生物の相互作用）を含む。

「被験体特異的な表現型情報」とは、性別、人種、身長、体重、毛髪の色、眼の色、心拍数、嗜好性、血圧、自己記載の医学的症状、医学的に診断された症状、医学的に診断された症状、検査結果及び／又は医学的に提供された診断、プロテオミクスプロファイル等をいい、「被験体特異的な生化学的情報」とは、臨床検査（例えば、ナトリウム、マグネシウム、カリウム、鉄、血中尿素窒素（ＢＵＮ）、尿酸等）、組織、血液等における薬物／薬物濃度をいう。

用語「被験体固有の電子カルテデータ」（ＥＭＲ）、「電子健康記録」（ＥＨＲ）及び「個人健康記録」（ＰＨＲ）は、個々の医療提供者、診療所、病院、医療施設、被験体の健康歴、被験体の疾病素因、被験体の病歴、診断、投薬／処方、治療計画、予防接種日、アレルギー、放射線画像、臨床検査及び検査結果、事前指示書、生検、家庭用及び携帯用モニタリング装置（ＦＩＴＢＩＴ、ｉＷａｔｃｈ、ＷｉｔｈＳｃａｌｅ、ワイヤレス血圧測定器など）由来のデータを意味する。

本明細書中で用いられる用語「試料」は、例えば、物理的、生化学的、化学的及び／又は生理学的特徴に基づき特徴付けられ及び／又は同定されるべき細胞及び／又は他の分子実体を含む被験体の被験体から得られるか又は誘導される組成物をいう。組織試料の供給源は、血液又はいかなる血液成分；体液；新鮮な、凍結された及び／又は保存された臓器又は組織試料、又は生検もしくは吸引物からの固形組織；及び被験体又は血漿の妊娠中又は発達中のいかなる時点からの細胞であり得る。試料としては、初代培養細胞又は細胞株、細胞上清、細胞溶解物、血小板、血清、血漿、硝子体液、眼液、リンパ液、滑液、濾胞液、精液、羊水、乳汁、全血、尿、脳脊髄液（ＣＳＦ）、唾液、痰、涙液、発汗、粘液、腫瘍溶解物、及び組織培養培地、並びに均質化組織、腫瘍組織、及び細胞抽出物などの組織抽出物が挙げられるが、これらに限定されない。試料は、さらに、例えば、タンパク質又は核酸等のある種の成分に対して試薬、可溶化、又は濃縮した、又は薄い組織切片又は組織学的試料中の細胞等の切片化のための半固体マトリックス又は固体マトリックス中に埋め込まれたような、それらの調達後に何らかの方法で操作された生物学的試料を含む。好ましくは、試料は、例えば、全血、血漿、血清、リンパ液などを含む血液又は血液成分から得られる。

本明細書中で用いられる用語「マーカー」は、正常な生物学的プロセス、病原性プロセス、又は治療的介入、例えば抗がん剤による治療に対する薬理学的応答の指標として客観的に測定されうる特徴をいう。マーカーの代表的なタイプとしては、例えば、遺伝子変異、遺伝子重複、又はｃｆＤＮＡの体細胞変異、コピー数変異、縦列反復、又はそれらの組み合わせなどの複数の相違を含む、マーカーの構造（例えば、配列）又は数の分子変化が挙げられる。

本明細書中で用いられる用語「遺伝子マーカー」は、実験室で測定しうる染色体上の特定の位置を有するＤＮＡの配列をいい、用語「遺伝子マーカー」は、例えば、ゲノム配列によりコードされるｃＤＮＡ及び／又はｍＲＮＡ、並びにそのゲノム配列自体をいうために用いることもできる。遺伝子マーカーは、２つ以上の対立遺伝子又は変異体を含み得る。遺伝子マーカーは、直接マーカー（例えば、対象遺伝子又は対象遺伝子座（例えば、候補遺伝子）内に位置するマーカー）、間接マーカー（例えば、対象遺伝子又は対象遺伝子座に近接するが対象遺伝子又は対象遺伝子座内には近接していないために、対象遺伝子又は対象遺伝子座と密接に関連するマーカー）であり得る。さらに、遺伝子マーカーはまた、ゲノムの非コード領域に存在する遺伝子又は遺伝子座、例えば、ＳＮＶ、ＣＮＶ、又はタンデムリピートと無関係であり得る。遺伝子マーカーは、遺伝子産物（例えば、タンパク質）をコードするか又はコードしない核酸配列を含む。特に、遺伝子マーカーは、一塩基多型／変異（ＳＮＰ／ＳＮＶ）又はコピー数変異（ＣＮＶ）又はそれらの組み合わせを含む。好ましくは、遺伝子マーカーは、ＤＮＡにおける体細胞変異、例えば、ｓＳＮＶもしくはｓＣＮＶ、又は参照試料と比較したそれらの組み合わせを含む。

本明細書中で用いられる用語「無細胞ＤＮＡ」又は「ｃｆＤＮＡ」とは、細胞を含まないデオキシリボース核酸（ＤＮＡ）の鎖を意味し、例えば、循環血液の血漿／血清から抽出又は単離され、リンパ液、脳脊髄液（ＣＳＦ）、尿又は他の体液から抽出される。「ｃｆＤＮＡ」という用語は、「循環腫瘍ＤＮＡ」又は「ｃｔＤＮＡ」とは対照的である。無細胞ＤＮＡ（ｃｆＤＮＡ）は、血流中を自由に循環するが、必ずしも腫瘍由来ではないＤＮＡを記載するより広い用語である。

本明細書では、変異に関する「一塩基多型」又は「一塩基変異」（「ＳＮＰ」又は「ＳＮＶ」）という用語は、別の配列と比較した配列中の少なくとも１つのヌクレオチドの差を意味し、「コピー数変異」又は「ＣＮＶ」という用語は、同一のヌクレオチド配列を有する遺伝子断片の有無又は欠失における比較数値変化を意味する。

用語「indels」は、本明細書中で、一般に当技術分野で用いられる場合、１つの対立遺伝子に１又はそれ以上の塩基が存在し、他の対立遺伝子には塩基が存在しない、ゲノム上の位置をいう。挿入又は欠失は進化の観点からは異なるが、本明細書に記載されるような解析では、一方の対立遺伝子における挿入は他方の対立遺伝子における欠失と等価であると区別されないことが多い。したがって、ｉｎｄｅｌという用語は、２つの対立遺伝子間の挿入／欠失の位置をいう。

「構造的変異」とは、ゲノム中の染色体数や染色体セットの変化ではなく、染色体の一部の部分の変化をいう。構造的変異を生じる変異には４つの一般的なタイプがある。欠失と挿入、たとえば重複（染色体のＤＮＡ量の変化、遺伝物質の欠失と獲得）、逆位（染色体断片の配置の変化）、転座（遺伝子融合を起こしうる染色体断片の位置の変化）である。本発明では、用語「構造的変異体」は、遺伝物質の喪失、遺伝物質の獲得、転座、遺伝子融合、及びそれらの組み合わせを含む。

本明細書中で用いられる用語「生殖細胞系ＤＮＡ」又は「ｇＤＮＡ」は、循環血液から順に得られるリンパ球を含む、患者の末梢単核球細胞から単離又は抽出されたＤＮＡを意味する。

本明細書中で用いられる用語「変異」とは、変化又は逸脱をいう。核酸に関しては、変異は、コピー数の差（ＣＮＶ）を含む、ＤＮＡヌクレオチド配列間の差（単数又は複数）又は変化を意味する。ＤＮＡ配列間のヌクレオチドにおけるこの実際の差異は、ＳＮＰ、及び／又は、例えば、生殖細胞系ＤＮＡ（ｇＤＮＡ）又は参照ヒトゲノムＨＧ３８配列等の参照と配列を比較したときに観察されるＤＮＡ配列における変化、例えば、融合、欠失、付加、反復などであり得る。好ましくは、変異は、ｃｆＤＮＡ配列と、ｃｆＤＮＡが基準ＨＧ３８配列と比較される場合；ｃｆＤＮＡがｇＤＮＡと比較される場合など、腫瘍細胞由来ではない対照ＤＮＡ配列との間の差をいう。ｇＤＮＡとｃｆＤＮＡの両方で同定された相違は「体質性」と考えられ、無視されることがある。

用語「遺伝子座」（複数の「遺伝子座」）は、ゲノム中の同定された位置に対応し、単一の塩基又は連続した一連の複数の塩基にわたることができる。遺伝子座は、通常、参照ゲノム及び／又はその染色体に関する識別値又は識別値の範囲を用いて同定される。例えば、「５１００００１」から「５８０００００」の識別値の範囲は、参照ヒトゲノム中の第１染色体上の特定の位置をいう。「ヘテロ接合体遺伝子座」（ヘテロ接合体遺伝子座）（「ｈｅｔ」とも呼ばれる）は、染色体の２つのコピーが同一の配列をもたないゲノム中の遺伝子座である。遺伝子座における当該異なる配列は「対立遺伝子」という。参照ゲノムの位置が１つの塩基だけ異なる２つの対立遺伝子を有する場合、ｈｅｔは、１塩基多型（ＳＮＰ）であり得る。「ｈｅｔ」は、１つの又は１つの挿入又は欠失（「ｉｎｄｅｌ」と総称される）がある参照ゲノムの位置でもある。用語「ホモ接合体遺伝子座」とは、ある染色体の２つのコピーが同一の対立遺伝子をもつ、基準ゲノム又はベースラインゲノムの遺伝子座であり、染色体の「ハプロタイプ」とは、その染色体がゲノム中に１回又は２回存在するかどうかを意味し、がん細胞や他の腫瘍細胞のゲノムでは、染色体のハプロタイプは、非整数値であってもよく、２回を超える値であってよい。ゲノム中の「領域」には、１又はそれ以上の遺伝子座が含まれていてもよい。

「断片」とは、例えばヒト等の標的生物から抽出される生物学的試料に含まれるか、又はそれに由来する（例えば増幅を介して）核酸分子（例えばＤＮＡ）をいう。断片は、染色体の腕全体、染色体全体、又はその一部を含み得る。

「断片サイズ」とは、断片の長さをいい、いかなる許容される単位、例えば、塩基対又はドルトンなどで表すことができる。代表的な断片は、２００ｂｐｓ未満、２００〜５００ｂｐｓ、５００〜１Ｋｂであってもよく、ここで１Ｋｂ＝１０００ｂｐｓ、１Ｋｂ〜１０Ｋｂ、１０Ｋｂ〜５０Ｋｂ、５０Ｋｂ〜１００Ｋｂ、及び１００Ｋｂより長い、例えば１メガ塩基対であってよい。配列決定は、断片中のヌクレオチドの１又はそれ以上の配列（読取）を同定する情報を決定するために用いられる。断片の部分的及び完全な配列情報を生成しうる。配列情報は、統計学的信頼性又は信頼性の程度を変化させて決定しうる。

本明細書中で用いられる「変異アレル頻度」（ＶＡＦ）又は「変異アレル分画」という用語は、遺伝子型タイピング後のＤＮＡ試料中の対立遺伝子の総量に対する１つの対立遺伝子の分画をいう。従来、二アレル性多型変異体（ＰＶ）については、ＶＡＦは、ＰＶタイピングデータにおけるＢ対立遺伝子の割合であるＢ対立遺伝子頻度（ＢＡＦ）をいい、これは、高スループット遺伝子タイピング法、例えば、ＳＮＰアレイ又はＮＧＳによりＤＮＡ試料から得ることができる。ある態様では、ＶＡＦは、Ｂ−アレル頻度である。あるいは、Ａ対立遺伝子頻度（ＡＡＦ）も同様に用いることができた。Ｂ対立遺伝子頻度はＡ対立遺伝子頻度の情報を含み、その逆もまた同様である。

一般に、ＶＡＦ値は、周波数又は分数を参照するため、０〜１の値を用いて表される。原則として、ＶＡＦ値は、例えば、０〜１００の値を用いて、前記値の多重度を用いて表すことができる。例えば、対立遺伝子の総量の半分が多型変異対立遺伝子を有することを示す０．５のＶＡＦ値は、例えば５０として表すことができる。この場合、ＶＡＦ値１（すなわち、すべての対立遺伝子が特定の遺伝子型をもつ）は１００として表される。通常、ＶＡＦｍａｘは最大のＶＡＦ値（すなわち、すべての対立遺伝子が特定の遺伝子型を有する）を示し、ＶＡＦｍｉｎｉｎｄｉｄｉｓは最小のＶＡＦ値（すなわち、対立遺伝子のいずれも特定の遺伝子型を有しない）を示す。本出願を通して、ＶＡＦ（特にＢＡＦ）値は、０〜１の値を用いて示され、従って、ＶＡＦｍｉｎは０であり、ＶＡＦｍａｘは１である。それにもかかわらず、本発明の実施形態は、この特定の範囲を用いて表されるＶＡＦ値に限定されない。「フリップ」ＶＡＦを含むＶＡＦに関する詳細なガイダンスは、ＵＳ２０１６／０２１０４０２に記載される。

本明細書では、「読取」とは、１つ又は複数のヌクレオチド塩基を表す１つ又は複数のデータ値のセットを意味する。読取りは、配列決定装置及び／又は核酸断片の全部又は一部の配列決定を行った関連ロジックにより生成しうる。「メイト対」（「メイトされた読取り」又は「ペアされた末端の読取り」とも呼ばれる）とは、同一断片の両端から決定された少なくとも２つの読取（「アーム読取」とも呼ばれる）を意味する。２つのアーム読取は、同じ断片の両端から決定された少なくとも２つの読取（「アーム読取」とも呼ばれる）をまとめてメイト対と呼ぶことができる。２つのアーム読取は、それらの対が配列決定された断片に関して２つのアームの間にギャップが存在する。２つのアーム読取は、個々に「左」アーム読取及び「右」アーム読取と呼ぶことができる。ただし、いずれの「左」（又は右）指定も、アームの位置が、左（又は右）に厳密に限定されるものではないことが理解される。断片は、観察者の方向、ＤＮＡ鎖の方向性（例えば、５’末端から３’末端、又はその逆）、又は参照ゲノムに選択されるゲノム座標系等のいろいろな参照点に関して報告しうる。読取りは、種々の情報、例えば、ユニークな読取り識別子、断片の識別子、又はメイト対の一部である読取りのためのメイト対識別子と共に格納されうる。

本明細書中で用いられる「人為的体」とは、自然には存在しないが、準備的又は調査的手順の結果として生じる科学的調査又は実験における観察をいう。配列決定における人為的体は、例えば、人為的的ピーク（シャドウバンド）及びテンプレート関連人為的体（偽停止）を含む。人為的的ピークは、それぞれのジデオキシヌクレオチド三リン酸（ｄｄＮＴＰ）により終結された正しいサイズの断片に対応しない分離で見られるピークに関連し、これらは、ＤＮＡ配列決定のための異なる長さのＤＮＡ鎖を作製するためにサンガージデオキシ法で用いられる。人為的的ピークは、プライマー誘導人為的的ピーク及び鋳型誘導人為的的ピークに細分しうる。プライマー関連人為的体は、用いられるプライマーが鋳型の他の領域への結合に対して親和性を有し、意図された配列とは無関係のＤＮＡ断片の形成をもたらすように結合することを意図されていない場合に生じる。対照的に、ｄｄＮＴＰが含まれる前にＤＮＡポリメラーゼが鋳型から脱落した結果、終結人為的体が生じる。鋳型ＤＮＡの二次構造がこの誤った転写終結に関与すると考えられている。ＤＮＡポリメラーゼはまた、鋳型との会合に関して有限の周期性を有し、これは連続反応性と呼ばれ、短い連続反応性の頻度は人為的的の数を増加させると考えられている。例えば、ＴａｑＤＮＡポリメラーゼは、約４０塩基対の連続反応性を有し、プライマー関連人為的的ピークを含まないと考えられる。ＤＮＡポリメラーゼがｄｄＮＴＰに遭遇すると伸長中の鎖が伸長することが妨げられ、ＤＮＡ鎖の伸長がｄｄＮＴＰを含まずに停止すると、サンガー鎖の終結の際に誤った停止が生じることがある。

用語「対立遺伝子」とは、特定の遺伝子座に存在する２つ以上の異なるヌクレオチド配列のうちの１つをいう。

「対立遺伝子分画」とは、生物学的試料に含まれる核酸断片から配列決定された、ゲノム中の特定の遺伝子座の１つ又は複数の対立遺伝子の割合をいう。例外的に、ヒトのＹ染色体等の二倍体生物は、通常各染色体の２つのコピーを有する。従って、ゲノム中の遺伝子座は、通常、ホモ接合体（例えば、両方の染色体コピーに同じ対立遺伝子を有する）又はヘテロ接合体（例えば、２つの染色体コピーに異なる対立遺伝子を有する）のいずれかであり得る。したがって、「等しい対立遺伝子分画」とは、１．０（例えば、ホモ接合体の遺伝子座における対立遺伝子の１００％対立遺伝子分画）又は０．５（例えば、ヘテロ接合体の遺伝子座における対立遺伝子の５０％対立遺伝子分画）のデータ値をいう。

「可変対立遺伝子分画」又は「ＶＡＦ」は、ゼロより大きいが０．５及び１．０より異なるデータ値を意味する。可変対立遺伝子分画値は、所与の遺伝子座についての対立遺伝子が０％、５０％及び１００％を超える分画で生物学的試料の核酸断片中に示されうる状況を扱うために用いられ得る。当該状況には、不均一性、汚染、及び異数性が含まれるが、これらに限定されない。例えば、腫瘍試料（例えば、がん試料）は、試料内の正常／間質組織汚染又は同一の腫瘍試料内の複数の異なる腫瘍集団のために不均一であり得る。別の例では、腫瘍試料は、染色体（又はその領域）が２とは異なるコピー数を有するように異数体であってもよく、それにより、対立遺伝子分画は、１ヘクタールについての５０％から、３コピーが存在する場合には３３％又は６６％に逸脱する。可変対立遺伝子分画値の例としては、以下の範囲の値、及び／又は範囲の組み合わせ、０．００５〜０．１０、０．１０〜０．２０、０．２０〜０．３０、０．３０〜０．４０、０．４０〜０．４９、０．５１〜０．６０、０．６０〜０．７０、０．７０〜０．８０、０．８０〜０．９０、０．９０〜０．９９、及びより一般的には０．００５〜０．４９及び０．５１〜０．９９の値が挙げられるが、これらに限定されない。

用語「対照」とは、本明細書中で用いられる場合、末梢血単核球及びリンパ球から単離された対照ＤＮＡ（当該細胞はがん細胞ではない）などの試験試料についての参照をいい、「参照試料」とは、比較のために用いられるがんを有するかもしれない、又は有さない組織又は細胞の試料をいう。従って、「参照」試料は、別の試料、例えばｃｆＤＮＡを含む血漿試料を比較しうる基礎を提供する。対照的に、「試験試料」とは、参照試料又は対照試料と比較する試料をいう。参照試料と試験試料が時間で分離された同じ患者から得られた場合のように、参照試料はがんに罹患していない必要はない。

ある態様では、参照試料又は対照は、参照アセンブリを含んでもよい。用語「参照アセンブリ」とは、ＨＧ３８アセンブリ配列を含むヒトゲノム（ＨＧ３８）データベース（アセンブリ済：２０１３年１２月）などのデジタル核酸配列データベースをいう。GENOME(dot)UCSC(dot)EDUで、Human (Homo sapiens)University of California Santa Cruz (UCSC) Genome Browser Gateway at the world-wide-web URL GENOME(dot)UCSC(dot)EDUを介してゲートウェイにアクセスしうる。あるいは、参照アセンブリは、米国国立バイオテクノロジー情報センター（ＮＣＢＩ）のウェブサイトを介してインターネット上でアクセス可能な、ゲノム参照コンソーシアムのヒトゲノムアセンブリ（Build＃３８；アセンブリ：２０１７年６月）を参照してよい。

本明細書では、動詞としての用語「配列決定」又は「配列決定」は、ＤＮＡのヌクレオチド配列、又はヌクレオチドの順序が、ヌクレオチドの順序ＡＧＴＣＣなどのように決定されるプロセスをいう。名詞としての用語「配列」は、配列決定から得られる実際のヌクレオチド配列をいう。例えば、ＡＧＴＣＣという配列を有するＤＮＡをいう。「配列決定」は、デジタル形式で、例えば、ディスクで、又はサーバを介して遠隔的に提供及び／又は受け取られるが、「配列決定」は、本開示の方法及び／又はシステムを用いて増殖、操作及び／又は分析されるＤＮＡのコレクションをいう。

本明細書では、「実質的に」とは、意図された目的のために機能するのに十分なことを意味する。従って、「実質的に」という用語は、絶対的又は完全な状態、寸法、測定値、結果等から、当該分野の当業者が期待するような、しかし全体的な性能には影響を及ぼさないような、小さな、わずかな変化を許容する。数値又は数値として表すことができるパラメータ又は特徴に関して用いられる場合、「実質的に」とは、１０％以内を意味する。

本明細書中で用いられる用語「実質的に精製された」は、それらの天然環境から除去され、単離又は分離又は抽出され、少なくとも６０％の遊離、好ましくは７５％の遊離、より好ましくは９０％の遊離、及び最も好ましくは９９％の他の成分と天然に結合する遊離のｃｆＤＮＡ分子をいう。

用語「全ゲノム配列決定」は、試料中の各ＤＮＡ鎖のＤＮＡ配列を決定する実験室プロセスをいい、得られた配列は、「生配列決定データ」又は「読取」と称し得る。本明細書中で用いられるように、読取りは、参照染色体ＤＮＡ配列の領域と配列が類似する場合に読取り「マッピング可能」である。用語「マッピング可能」は、参照配列と類似性を示し、従って「マッピングされた」領域をいい、例えば、データベース中の参照配列と類似性を示すｃｆＤＮＡのセグメントをいい、例えば、ヒトゲノム（ＨＧ３８）データベース中のヒト染色体領域８ｑ２４８ｑ２４．３と高いパーセンテージを有するｃｆＤＮＡは「マッピング可能読取」である。

「ＷＧＳ」に加えて、ゲノム一覧は、標的配列決定を用いて得ることができる。ＷＧＳとは対照的に、「標的配列決定」という用語は、本明細書中で用いられる場合、試料中の１つ又は複数の選択されたＤＮＡ遺伝子座のＤＮＡ配列を決定する、例えば、がん関連遺伝子又はマーカーの選択されたグループ（例えば、標的）の配列を決定する実験プロセスをいう。この文脈では、本明細書中の用語「標的配列」とは、選択された標的ポリヌクレオチド、例えば、その存在、量、及び／又はヌクレオチド配列、又はその変化が決定されることが望まれる、ｃｆＤＮＡ分子中に存在する配列をいう。標的配列を体細胞変異の有無について調べる。標的ポリヌクレオチドは、疾患、例えばがんに関連する遺伝子の領域であり得る。いくつかの実施形態では、領域はエクソンである。

本明細書では、ｃｆＤＮＡに関する用語「低存在量」とは、約２０ｎｇ／ｍＬ未満、例えば、約１５ｎｇ／ｍＬ、約１０ｎｇ／ｍＬ、又はそれ未満、例えば、約９ｎｇ／ｍＬ、８ｎｇ／ｍＬ、７ｎｇ／ｍＬ、６ｎｇ／ｍＬ、５ｎｇ／ｍＬ、４ｎｇ／ｍＬ、３ｎｇ／ｍＬ、２ｎｇ／ｍＬ、１ｎｇ／ｍＬ、０．７ｎｇ／ｍＬ、０．５ｎｇ／ｍＬ、０．３ｎｇ／ｍＬ、又はそれ未満、例えば、０．１ｎｇ／ｍＬ又は０．０５ｎｇ／ｍＬを意味する。いくつかの実施形態では、「低存在量」という用語は、マーカーの独特性、例えば、長さ又は塩基組成の文脈では理解されうる。例えば、被験体の試料は、豊富な量のｃｆＤＮＡ（例えば、＞２０ｎｇ／ｍＬ）を含み得るが、ｃｆＤＮＡに含まれる独特の遺伝子マーカー（例えば、ｓＳＮＶ）の実際の数は、非常に少なくてもよい。通常、本パラメータは、以下に記載されるように、ゲノム等価性（ＧＥ）又はカバレッジとして表される。いくつかの実施形態では、「低存在量」という用語は、マーカーの腫瘍特異性の文脈では理解されうる。例えば、被験体の試料は、豊富な量のｃｆＤＮＡ（例えば、＞２０ｎｇ／ｍＬ）を含み得るが、ｃｆＤＮＡに含まれる遺伝子マーカー（例えば、ｓＳＮＶ）の大部分は、冗長であってもよく、かつ／又は参照（例えば、ＰＢＭＣｇＤＮＡ）とも関連してもよい。通常、本パラメータは、以下に記載されるように、腫瘍画分として表される。

本明細書では、ｃｆＤＮＡに関する用語「腫瘍特異的」又は「腫瘍関連」とは、ｃｆＤＮＡが、本明細書中に記載されるように、腫瘍ではない細胞由来の対照ＤＮＡ（ｇＤＮＡ）と比較される場合など、参照ＤＮＡと比較される場合、肺がん患者等のがんを形成した被験体におけるｃｆＤＮＡのＤＮＡ配列の差をいう。

用語「ゲノム等価」又は「ＧＥ」は、本明細書中で用いられる場合、固有のＤＮＡ断片の数をいう。いくつかの実施形態では、試料は、５〜約１００００ＧＥ、好ましくは１００〜約５０００ＧＥ、特に約２００〜約２０００ＧＥ、例えば、約２５、５０、１００、２００、３００、４００、５００、６００、７００、８００、９００、１０００、１２００、１４００、１６００、２０００又は５０００ＧＥを含む。当技術分野で理解されるように、約６ｎｇのｃｆＤＮＡを含む典型的な試料は、約１０００以下のＧＥを含有する。好ましくは、ＧＥは１を超える（例えば、２、５、１０、１５、２０、２５、５０、１００、２００、５００、又は１０００を超える）。１０〜２０ｍｌの血液が約１０，０００ＧＥを含有すると考えられる。従って、いくつかの態様では、適切な試料は、約２０ｍｌ、１５ｍｌ、１０ｍｌ、５ｍｌ、４ｍｌ、３ｍｌ、２ｍｌ、１ｍｌ、０．５ｍｌ、０．１ｍｌ、０．０１ｍｌ、又は０．００１ｍｌの血漿を含み得る。

用語「カバレッジ」又は「読取り深度」は、配列決定努力に関連する。例えば、２０Ｘをカバーすることは、中程度の配列決定努力を意味し、３５Ｘ以上をカバーすることは、高い配列決定努力を意味し、５Ｘをカバーすることは、低い配列決定努力を意味する。本開示の実施形態では、カバー範囲は、通常、約５Ｘ〜約１００Ｘ、特に、１５Ｘ〜約４０Ｘ、例えば、２０Ｘ、３０Ｘ、３５Ｘ、４０Ｘ、５０Ｘ、７０Ｘ又はそれ以上である。

本明細書中で用いられる場合、用語「変異負荷」又は「Ｎ」は、所定のゲノムウインドウにおける予め選択された単位（例えば、メガ塩基対当たり）当たりの変化（例えば、１又はそれ以上の遺伝子変化、特に１又はそれ以上の体細胞変化）のレベル、例えば数をいう。変異負荷は、例えば、全ゲノム又はエキソームベースで、又はゲノム又はエキソームのサブセットに基づき測定しうる。特定の実施形態では、ゲノム又はエキソームのサブセットに基づき測定された変異負荷量を外挿して、全ゲノム又はエキソーム変異負荷量を決定しうる。特定の実施形態では、変異負荷は、被験体、例えば、本明細書に記載される被験体由来の試料、例えば、腫瘍試料（例えば、肺腫瘍試料、又は獲得もしくは誘導された試料）では測定される。好ましくは、変異負荷量は、ｃｆＤＮＡのメガ塩基対（１，０００，０００ｂｐ又はＭＢＰ）当たりの変異数の尺度である。当技術分野で知られているように、変異負荷は、腫瘍のタイプ、遺伝的系統、及び年齢、性別、タバコ消費などの他の被験体特異的特徴に依存して変化し得る。腫瘍診断に関して、変異負荷は、ＭＢＰ当たり約１０００〜約１００００個、例えば約１０００、２０００、４０００、６０００、８０００、１００００、１２０００、１５０００、２００００、２５０００、３００００、４００００、５００００、６００００、７００００、８００００、９００００、１００００個、又はそれ以上、例えばＭＢＰ当たり約２０００００個の変異であり得る。通常、変異負荷量は、非喫煙者では約８，０００／ＭＢＰであり、黒色腫を有する被験体では４０，０００／ＭＢＰを超える。

本明細書中で用いられる用語「ゲノムウインドウ」は、選択されたヌクレオチド配列境界内のＤＮＡの領域をいう。Ｗｉｎｄｏｗｓは、互いに分離され、互いに重なり合う。

本明細書中で用いられる、用語「腫瘍画分」又は「ＴＦ」は、正常ＤＮＡ分子に対する腫瘍ＤＮＡ分子のレベル、例えば量に関する。いくつかの実施形態では、「腫瘍画分」は、無細胞ＤＮＡの総量に対する循環無細胞腫瘍ＤＮＡ（ｃｆＤＮＡ）の割合をいう。腫瘍分画は、腫瘍の大きさを示すと考えられている。通常、腫瘍画分（ＴＦ）は、約０．００１％〜約１％、例えば、約０．００１％、０．０５％、０．１％、０．２％、０３％、０．４％、０．５％、０．６％、０．７％、０．８％、０．９％、１％又はそれ以上、例えば、２％である。

用語「存在量」は、特定の分子種の存在を示す二値（例えば、存在しない／存在する）、定性的（例えば、存在しない／低／中／高）、又は定量的情報（例えば、数、頻度、又は濃度に比例する値）をいうことができる。本文脈では、より高い相対濃度で存在する変異は、より多くの悪性細胞、例えば、体内の他の悪性細胞と比較して腫瘍形成過程の初期に形質転換した細胞と関連する（Welch et al., Cell, 150: 264-278, 2012）。当該変異は、相対的存在度が高いため、相対的存在度が低い変異よりもがんＤＮＡを検出する診断感度が高いと予想される。

本明細書中で用いられる「配列決定エラー率」は、配列決定されたヌクレオチドの不正確な割合に関する。例えば、全ゲノム配列決定の文脈では、約１／１０００塩基の配列決定エラー率が文献で報告される（範囲：エラー率は、塩基呼出当たり０．１〜１％のオーダーである；Wu et al., Bioinformatics, 33(15):2322-2329, 2017を参照のこと。

本明細書中で用いられる用語「配列決定深度」は、配列決定された領域が配列読取によりカバーされる回数に関する。例えば、配列決定の平均深度が１０倍であるということは、配列決定された領域内の各ヌクレオチドが平均して１０個の配列読取によりカバーされることを意味する。配列決定の深度が増すと、がん関連変異が検出される可能性が高くなると予想される。しかしながら、実際には、深度中央値４２，０００Ｘでさえ、ｃｆＤＮＡ存在量の基本的な限界が早期肺腺がんの陽性検出をわずか１９％にしかもたらさなかったという事実により証明されるように、検出のオッズは配列決定の深度に比例して直線的に増加しない（Abbosh et al., Nature, 545(7655):446-451, 2017）。

本明細書中で用いられる用語「塩基品質」スコアは、配列決定読取では与えられた塩基がシーケンサーにより誤って呼ばれる確率である。読取りにおける各塩基は、Ｐｈｒｅｄ様アルゴリズム（Ewing et al., Genome Res. 8(3):175-185, 1998; Ewing et al., Genome Res. 8(3):186-194, 1998に記載される代表的な方法）により品質スコアを割り当てられる。サンガー配列決定実験のために最初に開発されたものと同様であった。いくつかの実施形態では、塩基品質（ＢＱ）は、可変塩基品質（ＶＢＱ）又は平均読取塩基品質（ＭＲＢＱ）を含み、これらは両方とも、塩基品質メトリックの変形である。

本明細書中で用いられる用語「ＰＣＲ誤差」は、配列決定ではポリメラーゼ連鎖反応（ＰＣＲ）増幅工程を介して導入される誤差を示す。典型的なＰＣＲエラー率は、１０５塩基対で約１エラーである（Barnes et al., PNAS USA, 91:2216, 1994）。

本明細書中で用いられる場合、用語「マッピング品質」スコアは、特定の配列読取が、参照配列に関して正確に配置されるという信頼性を示す。マッピング品質スコアを決定する方法は、Li et al. Genome Research, 18:1851-1858, 2008により提供される。マッピング品質スコアは、読取られた配列を基準配列にマッピングした後に、マッピングアルゴリズムにより提供されうる。

用語「読取位置」又は「読取位置（ＰＩＲ）」は、ヌクレオチド配列中の読取位置（例えば、マーカー）に関する。ゲノム学では理解されるように、多くの配列決定プロトコルは、様々なタイプの増幅誘発バイアス及び誤差を生じやすく、これは「読取方向」及び「読取位置」フィルタ等のフィルタの実施により減少し得る。読取方向フィルタは、ほぼ前方又は後方読みのいずれかに専ら存在する変異体を除去する。多くの配列決定プロトコルでは、当該変異体は、増幅誘発誤差の結果である可能性が最も高い。読取位置フィルタは、「読取方向フィルタ」と同様の方法で実施され、系統誤差を除去するが、ハイブリダイゼーションに基づくデータにも適する。これは、変異部位をカバーする読みの一般的な位置から予想されるものとは異なる読みの中に位置する変異体を除去する。これは、それぞれの配列決定されたヌクレオチド（又はギャップ）を、読みのマッピング方向及び読みのどこでヌクレオチドが見つかるかにより分類して行われる；各読みは、その長さに沿って部分（例えば、５部分）に分割され、ヌクレオチドの部分番号が記録される。これにより、配列決定された各ヌクレオチドについて合計１０のカテゴリーが得られ、所定の部位は、その部位をカバーする読取のために、これら１０のカテゴリーの間に分布することになる。もし変異体が本部位に存在するならば、変異体のヌクレオチドは同じ分布に従うと予想される。読取位置フィルタは、読取位置の有意性を測定するテストを実行し、例えば、変異の読取位置分布が、サイトをカバーする読取の全セットのそれと異なるかどうかを測定する。

本明細書中で用いられる用語「ビン」は、「ゲノムビン」等の、まとめて群化されたＤＮＡ配列の群をいう。特定の場合、ビンは、ゲノムウインドウを用いてＤＮＡ配列を群化することを含む「ゲノムビンウインドウ」に基づきビンニングされたＤＮＡ配列の群を含んでよい。

単なる例示として、以下の詳細な説明を一覧すると、本明細書では、様々な実施形態は、本開示の診断エンジン（エンジン）の実行に関与するアルゴリズム及びソフトウェアに関する。エンジンは、アラインメントのゲノムコンテキスト、完全な読取配列、及び塩基ごとの品質スコアの統合を同時に捕捉する読取表示を利用する。対照的に、当該技術分野で公知の配列分析ソフトウェアで用いられる表示は、読取りの山を単一の特徴とみなし、配列アラインメント自体及び読取りに関連する塩基ごとの品質に関する貴重な情報を失う（Poplin et al., bioRxiv, pp. 092890, 2016; Torracinta & Campagne, bioRxiv, pp. 097469, 2016）。

〔方法〕
本開示のシステム及び方法は、種々のヒト疾患の診断、予後及びモニタリングで有用である。例えば、多数のがんが、本明細書に記載される方法及びシステムを用いて検出されうる。ほとんどの細胞ががん細胞であることは、古い細胞が死んで新細胞に置き換わる代謝回転の速度により特徴づけられる。一般に、死細胞は、所定の被験体の脈管構造と接触して、ＤＮＡ又はＤＮＡの断片を血流中に放出しうる。このことは、がん細胞が様々な病期にあっても当てはまる。がん細胞はまた、疾患の病期に応じて、コピー数の変動及び変異等の種々の遺伝的異常により特徴づけられ得る。本現象は、本明細書に記載される方法及びシステムを用いて、がん個体の存在又は非存在の検出に用いられ得る。

本開示によれば、がんのリスクがある被験体から血液を採取し、本明細書に記載されるように調製して、無細胞ポリヌクレオチドの集団を作製しうる。一例では、集団は、無細胞ＤＮＡを含み得る。本開示のシステム及び方法は、ある種のがんに存在するマーカー（例えば、ＳＮＶ、ＣＮＶ、indels、及び／又はＳＶ）の検出に用いられ得る。当該方法は、症状や疾患の他の特徴がないにもかかわらず、体内のがん細胞の存在を検出するのに有用であり得る。本開示の方法は、いかなるタイプのがん又は腫瘍の診断又は予後判定に適用されうる。従って、検出されうるがんのタイプは、血液がん、脳がん、肺がん、皮膚がん、鼻がん、咽頭がん、肝がん、骨がん、リンパ腫、膵臓がん、皮膚がん、腸がん、直腸がん、甲状腺がん、膀胱がん、腎臓がん、口腔がん、胃がん、固形腫瘍を含むが、これらに限定されない。不均一腫瘍及び均一腫瘍ともに、開示に従って診断又は予後判定されうる。

本システム及び方法は、がんを誘発しうる、又はがんに起因し得るいかなる数の遺伝的異常の検出に用いられ得る。これには、変異、変異、indels、コピー数変化、トランスバージョン、転座、逆位、欠失、異数性、部分異数性、倍数性、染色体不安定性、染色体構造変化、遺伝子融合、染色体融合、遺伝子切断、遺伝子増幅、遺伝子重複、染色体病変、ＤＮＡ病変、核酸化学修飾の異常変化、エピジェネティックパターンの異常変化、核酸メチル化感染及びがんが含まれるが、これらに限定されない。さらに、本明細書に記載のシステム及び方法はまた、特定のがんの特徴付けの補助に用いられ得る。本開示のシステム及び方法から得られた遺伝学的データにより、実務家は、がんの特定の形態のより良い特徴付けが可能となり得る。しばしば、がんは組成及び病期分類の両方では不均一である。遺伝学的プロファイルデータは、その特定のサブタイプの診断又は治療では重要であり得るがんの特定のサブタイプの特徴付けを可能にし得る。本情報はまた、特定のタイプのがんの予後に関する被験体又は実務家の手がかりを提供することもある。本明細書に提供されるシステム及び方法は、特定の被験体では既知のがん又は他の疾患をモニターするために用いられ得る。これにより、被験体又は開業医のいずれかが、疾患の進行に応じて治療選択肢を適応させることができる。本実施例では、本明細書に記載のシステム及び方法を用いて、疾患の経過の特定の被験体の遺伝的プロフィールを構築しうる。場合によっては、がんが進行し、より侵攻性で遺伝的に不安定になることもある。他の例では、がんは、良性、不活性、又は休眠のままであり得る。本開示のシステム及び方法は、疾患の進行を決定するのに有用であり得る。

さらに、本明細書に記載のシステム及び方法は、特定の治療オプションの有効性の決定に有用であり得る。１つの例では、治療が成功すれば、より多くのがんが死滅し、ＤＮＡを放出するため、治療選択肢が成功すれば、患者の血液中に検出されるコピー数の変異又は変異の量が実際に増加する可能性がある。他の例では、これは起こらない。別の例では、おそらく特定の治療選択肢は、経時的ながんの遺伝子プロファイルと相関し得る。本相関関係は、治療法を選択する際に有用である。さらに、がんが治療後に寛解状態が観察される場合、本明細書に記載のシステム及び方法は、残存疾患又は疾患の再発をモニタリングするのに有用であり得る。

本明細書に記載される方法及びシステムは、がんのみに関連する変異及びコピー数変異の検出に限定されない。好ましくは、本開示の方法及びシステムは、がんの早期診断又は早期検出では有用である。

さらに、本開示の方法は、被験体における異常状態の不均一性の特徴付けに用いられ得、当該方法は、被験体における細胞外ポリヌクレオチドの遺伝的プロファイルを生成することを含み、該遺伝的プロファイルは、コピー数変異及び変異分析から得られる複数のデータを含む。がんを含むが、これに限定されない場合もあるが、疾患は不均一であり得る。疾患細胞は同一ではない可能性がある。がんの例では、いくつかの腫瘍は異なるタイプの腫瘍細胞を含み、いくつかの細胞はがんの異なるステージにあることが知られている。他の例では、不均一性は、疾患の複数の病巣を含み得る。ここでも、がんの例では、複数の腫瘍病巣が存在する可能性があるが、それはおそらく１又はそれ以上の病巣が原発部位からの転移の結果である。

本開示の方法は、異種疾患における異なる細胞に由来する遺伝情報の総和であるデータの生成又はプロファイル化に用いられ得る。本データセットは、コピー数変異及び変異分析を単独で又は組み合わせて含みうる。さらに、本開示のシステム及び方法は、胎児由来のがん又は他の疾患の診断、予後、モニター又は観察に用いられ得る。すなわち、当該方法は、母体分子と共循環し得るＤＮＡ及び他のポリヌクレオチドを有する胎児被験体で、がん又は他の疾患を診断、予後、モニター又は観察するために、妊娠被験体で用いられ得る。

上記診断方法は、他の一般的な診断手順、例えば、健康診断、身体診察、臨床検査（血液、尿など）、生検画像検査（例えば、Ｘ線、ＰＥＴ／ＣＴ、ＭＲＩ、超音波など）、核医学スキャン（例えば、骨スキャン）、内視鏡、家族歴などと組み合わせて用いられ得る。

好ましくは、本開示の診断方法は、一般的な診断手順（例えば、ＣＴスキャン）の予測予後値（ＰＰＶ）を少なくとも２０％、少なくとも３０％、少なくとも４０％、又はそれ以上（例えば、少なくとも５０％）改善する。

診断方法の代表的な、限定するものではない概略図が、図面の図１、図２及び図７に示される。

〔作業手順〕

図１Ａは、本開示の様々な実施形態による、腫瘍疾患、例えば、早期腫瘍疾患を診断する方法１００を示すフローチャートである。方法１００は、例示的に過ぎず、実施形態は、方法１００の変形を用いることができる。方法１００は、マーカーの集合体を受信する工程と、多数の特徴に基づきマーカーに関連するノイズをフィルタリングする工程と、インシリコデータセット及び／又は患者データセットで訓練された畳込ニューラルネットワークを適用して、ノイズを適応的かつ体系的にフィルタリングする工程と、被験体特異的マーカーの生成に集合体から人為的的ノイズマーカーを除去する工程であって、信頼区間の生成のためにデータセットに統計的に整合される工程と、信頼区間に基づき疾患を診断する工程とを含みうる。

図１Ａの方法１００の工程１１０では、遺伝子マーカーの一覧を被験体から受け取る。いくつかの実施形態では、遺伝子マーカーの一覧は、変異コールフォーマット（ＶＣＦ）ファイルで受け取られる。当技術分野で理解されるように、ＶＣＦファイルは、遺伝子配列変異を保存するバイオインフォマティクスで用いられる。ＶＣＦフォーマットは、１０００ゲノムプロジェクト等の大規模な遺伝子型タイピング及びＤＮＡ配列決定プロジェクトの出現により開発された。あるいは、一覧は、遺伝学的データの全てを含む一般的な特徴フォーマット（ＧＦＦ）で提供されうる。一般に、ＧＦＦはゲノムワイドで共有されるので、重複した特徴を提供する。対照的に、ＶＣＦでは、参照ゲノムとともに変異だけを保存すればよい。いくつかの実施形態では、被験体の試料は、例えば、全ゲノム配列決定（ＷＧＳ）を用いて配列決定され、配列ファイルは、例えば、ゲノムＶＣＦ（ｇＶＣＦ）等のツールを用いて処理される。

図１Ａの方法１００の工程１２０では、人為的的読取は、（１）塩基品質（ＢＱ）、（２）マッピング品質（ＭＱ）、（３）推定断片サイズ及び／又は（４）推定対立遺伝子分画（ＶＡＦ）の関数としてのノイズの検出確率に基づき、各読取をシグナル又はノイズとして統計的に分類してフィルタリングされる。（５）読取内位置（ＲＰ）；（６）配列コンテキスト（ＳＣ）；（７）存在量；（８）配列決定の深度及び／又は（９）配列決定の誤差等の他のパラメータも用いることができる。ノイズ除去工程１２０は、結合塩基品質スコア及びマッピング品質スコアに基づき、一覧における遺伝子マーカーの確率論的分類を含む最適受信者動作特性曲線を実装することを含みうる。通常、結合ＢＱＭＱスコアはマトリックス（ｘ，ｙ）として提供され、ｘはＢＱスコアであり、ｙはＭＱスコアである。例示的な実施形態では、例えば、（１０、４０）、（１５、３０）、（２０、２０）、（２０、３０）、（３０、４０）のＢＱＭＱスコアのように、（各パラメータについて）１０〜５０の結合ＢＱＭＱスコアが典型的に用いられる。いくつかの態様では、マーカーの分類は、ＲＯＣ曲線下の面積（ＡＵＣ）の測定を含み、これは、通常、潜在的マーカーの中から無作為に選択された候補マーカーが、無作為に抽出された対照マーカーより高い値を示す確率を表す。完全に情報のないマーカーについては、ＲＯＣ曲線は対角線の上昇（「偶然の対角」又は「偶然の線」という）に近づき、ＡＵＣは０．５（すなわち、偶然のみによる分類の期待確率）になる。逆に、完全な分類の場合には、ＲＯＣ曲線は理論精度（感度と特異度の両方１００％）の最高点に達し、ＡＵＣは１つ、すなわち最も高い確率値になる傾向がある。代表的なＲＯＣを図３Ｂに示す。前ろ過誤差モデルを図３Ａに、後ろ過誤差モデルを図３Ｃに示す。

必要に応じて、遺伝子マーカーの重量を測定する。マーカーがＳＮＶ又はＣＮＶであるいくつかの態様では、重み付け工程は、真のマーカー（例えば、障害と関連する可能性が高い変異）と共通の変異（例えば、障害と関連していない無作為な体細胞ＳＮＰ）とを区別するように実施される。いくつかの実施形態では、重量測定工程は、確率スコア（ＰＤ）に基づきマーカーを重量測定する。好ましくは、重み付け工程１２０は、ベルヌーイ式ＰＤ＝１−〔（１−ＴＦ）〕^ＧＥに基づき検出の確率（ＰＤ）を測定することを含み、ここで、ＰＤは検出の確率、ＴＦは腫瘍画分、ＧＥは患者ＤＮＡに存在するゲノム等価物の数である。重み付け工程の実施は、各ＳＮＶ（ベルヌーイ試行確率に対する二項分布）に対するベルヌーイ試行を繰り返す結果として生じる、広がりを通して検出部位（ＳＮＶ）の数が増えると配列決定の深度が克服されるため、有利である。いくつかの実施形態では、重量測定工程は、例えば、重量又は重量範囲の増加に基づきマーカーをビンニングすることをさらに含んでもよい。例えば、遺伝子マーカーは、ＰＤに基づきビンニングされ得、ここで、ＰＤが高いマーカーは、ＰＤが低いマーカーとは別にビンニングされうる。例えば、遺伝子マーカーは、少なくとも約０．６０のＰＤ閾値、例えば、少なくとも約０．６５、０．７０、０．７５、０．８０、０．９０、０．９５又はそれ以上、例えば、少なくとも約０．９８に基づきビンディングしうる。従って、マーカーのＰＤが閾値未満であれば、それは偽陽性として分類され、分析には含まれない。

図１Ａの方法１００の工程１３０では、がん関連変異特徴とＰＣＲ又は配列決定エラー関連特徴とを区別するために、機械学習（ＭＬ）アプローチを利用して、パンフレット中の各読取における配列決定ノイズがフィルタリングされる。いくつかの実施形態では、本開示の診断方法は、ノイズを体系的に除去又は低減するためにニューラルネットワークを利用しうる。ニューラルネットワークは、上記工程１２０に従って、人為的的マーカーが除去された後にニューラルネットワークを実装することが有利であるが、本方法のいかなる工程に適用しうる。この点に関し、図１Ａの純粋に例示的な方法１００では、フィルタリングされたデータセットに存在する配列決定ノイズを適応的に及び／又は体系的にフィルタリングするために、深層畳込ニューラルネットワークが工程１３０で任意に適用される。好ましくは、ＣＮＮは、真の腫瘍変異と人為的的のエラーとを識別する特徴を同定するために汎腫瘍コホート上で深層学習アルゴリズムを採用することと、腫瘍患者からの試料中で検出された各個々の変異に信頼性推定値を割り当てることと、全ゲノムにわたって信頼性推定値を統合することと、試料中の特定のコスミック変異の特徴の厳密な分析、例えば、各マーカーについて非負の最小二乗法を用いることとを含む。

いくつかの態様では、ＣＮＮは、インシリコデータセットで訓練される。例えば、インシリコデータセットは、実際のがん患者、例えば、乳がん又は肺がん患者のコホートから得られた合成血漿試料を含み得る。ＣＮＮの精度、感度及び／又は精度は、以下に記載される方法に従って評価されうる。例えば、感度は、比［ＴＰ／（ＴＰ＋ＦＮ）］として決定され得、ここで、ＴＰは真陽性であり、ＦＮは偽陰性である；精度は、比［ＴＰ／（ＴＰ＋ＦＰ）］として決定され得、特異性は、比［ＴＮ／（ＴＮ＋ＦＮ）］として決定され得、ここで、ＴＮは真陰性であり、ＦＮは偽陰性である。代表的なバリデーション法の下で、ＣＮＮの精度は平均Ｆ１スコアに基づき評価しうる。例えば、Ｆ１スコアは、２×［（精度×回収）／（精度＋回収）］として計算されうる。いくつかの実施形態では、ＣＮＮは、腫瘍対照では少なくとも約０．５、約０．６、約０．７、約０．８、又は約０．９以上、例えば０．９５のＦ１スコアを達成しうる。

いくつかの実施形態では、ＣＮＮは、異なる腫瘍画分（０．００００１、０．００００５、０．０００１、０．０００５、０．００５、０．０１）及びカバレッジ（５、１０、１５、２０、３５）では様々な割合で混合される腫瘍及び正常ＷＧＳ読取を含むインシリコ患者特異的データセットで訓練されうる。反復及び／又は無作為化シードをさらに用いて、訓練・データセットの可変性を高めることができる。

ＣＮＮの構造については後述する。

図１Ａの方法１００の工程１４０では、一覧内の複数の真の読みを含む被験体特有の署名が、人為的的ノイズ（工程１２０参照）及び／又は配列決定ノイズ（工程１３０参照）を除去して編集される。いずれの特定の理論にも拘束されないが、いくつかの態様では、除去工程は、疾患と強く関連することが最初に同定されたマーカーの一覧から、低い塩基品質及び／又はマッピング品質を有する「ノイズ」マーカーをフィルタリングする。いくつかの実施形態では、除去工程は、工程１２０に基づき検出の閾値確率（ＰＮ）に合致する各マーカーを採取し、ＲＯＣ曲線に基づき前記マーカーをシグナル又はノイズとして分類し、ノイズとして分類される場合には、マーカーを一覧から除去することを含みうる。あるいは、例えば、検出確率（ＰＤ）対雑音確率（ＰＮ）の比を含むスコアリングシステムを用いて、事前設定したしきい値スコアを満たさないマーカーを除去しうる。

図１Ａの方法１００の工程１５０では、被験体特異的パターンとがんパターンとの間のマッチが行われ、被験体の生物学的試料が循環腫瘍ＤＮＡを含むという信頼性推定値が定量される。これは、例えば、確率密度関数（ＰＤＦ）推定及び／又はｚスコア推定値を用いて達成することができ、両者については、以下で詳細に説明する。

信頼区間の推定では、重み付け工程を任意に用いることができる。例えば、ノイズ除去工程１２０及びノイズフィルタリング工程１３０に基づき真の陽性として分類された全てのマーカーは、同一に計量しうる。例えば、汎腫瘍ネットワークではマーカーに割り当てられたスコアに基づき修正された計量システムを用いることができる。診断は、さらに、閾値スコア、例えば、同一のノイズ除去工程１２０を実施することに基づき得られたスコア、及び試験マーカー、例えば、腫瘍と関連することが知られているマーカーにおけるノイズフィルタリング工程１３０の使用を含み得る。例えば、当該試験マーカーは、対照（非腫瘍）被験体には存在しない、がん患者試料中の独特のＳＮＶ及び／又はＣＮＶを含み得る。

さらに、図１Ｂに例示された例示的なワークフロー１００により提供されるように、種々の実施形態により、被験体のがんの遺伝子スクリーニングの方法が提供される。工程１１０に提供されるように、本方法は、被験体の生物学的試料からの複数の遺伝子マーカーに関連する読取の被験体特異的ゲノムワイド一覧を受け取ることを含みうる。生物学的試料は、腫瘍試料を含み得る。読みの一覧は、各々、単一の塩基対長の読みを含みうる。

図１Ｂの方法１００の工程１２０で提供されるように、当該方法は、読取一覧から実際のサイトをフィルタリングすることを含みうる。フィルタリングは、参照健常試料のコホート上で生成された反復部位を読取一覧から除去することを含みうる。あるいは、又は組み合わせて、フィルタリングは、生物学的試料における生殖細胞系変異を同定すること、及び／又は正常細胞試料の腫瘍試料と末梢血単核細胞との間の共有された変異を生殖細胞系変異として同定すること、及び前記生殖細胞系変異を読みの一覧から除去することを含みうる。

図１Ｂの方法１００の工程１３０で提供されるように、当該方法は、少なくとも１つの誤差抑制プロトコルを用いて、読取のゲノムワイドの一覧からのノイズをフィルタリングして、前記読取のゲノムワイドの一覧用にフィルタリングされた読取セットを生成することを含みうる。少なくとも１つのエラー抑制プロトコルは、一覧内のいかなる単一ヌクレオチド変異が人為的的変異である確率を計算し、かつ、前記変異を除去することを含みうる。確率は、マッピング品質（ＭＱ）、変異体塩基品質（ＭＢＱ）、読み込み位置（ＰＩＲ）、平均読取塩基品質（ＭＲＢＱ）、及びそれらの組み合わせを含む群から選択された特徴の関数として計算しうる。あるいは、又は組み合わせて、少なくとも１つのエラーサプレッションプロトコルは、ポリメラーゼ連鎖反応又は配列決定プロセシングから生成された同じＤＮＡ断片の独立した複製間の不一致試験、及び／又は所与の重複ファミリーの大部分にわたる不一致の場合に人為的的変異が同定及び除去される重複コンセンサスを用いて、人為的的変異を除去することを含みうる。

図１Ｂの方法１００の工程１４０に提供されるように、当該方法は、所定の変異誘発プロセスに関連する特定の変異パターンの比較に基づき、フィルタリングされた読取セットを用いて被験体特異的パターンを編集することを含みうる。

図１Ｂの方法１００の工程１５０に提供されるように、当該方法は、被験体の生物学的試料が、被験体に特異的な特徴を介して、がんに関連した変異パターン曝露値のバックグラウンド変異パターンのコホートとの比較に基づき、がんに関連した変異パターンを含むという信頼性推定値を統計的に定量することを含みうる。

図１Ｂの方法１００の工程１６０に提供されるように、当該方法は、被験体の生物学的試料ががん関連変異パターンを含むという信頼性推定値が所与の閾値を超える場合に、被験体のがんをスクリーニングすることを含みうる。

さらに、図１Ｃに示す例示的なワークフロー１００により提供されるように、方法は、被験体のがんの遺伝子スクリーニングを提供する。工程１１０に提供されるように、本方法は、被験体の生物学的試料からの複数の遺伝子マーカーに関連する読取の被験体特異的ゲノムワイド一覧を受け取ることを含みうる。生物学的試料は、腫瘍試料を含み得る。読取一覧は、各々、コピー数変異（ＣＮＶ）を含みうる。

図１Ｃの方法１００の工程１２０で提供されるように、当該方法は、読取一覧を複数のウインドウに分割することを含みうる。

図１Ｃの方法１００の工程１３０に提供されるように、当該方法は、ウインドウ当たりの特徴のセットを計算することを含みうる。特徴は、ウインドウ当たりの中央の深度カバレッジとウインドウ当たりの代表的な断片サイズを含みうる。

図１Ｃの方法１００の工程１４０で提供されるように、当該方法は、読取一覧から実際のサイトをフィルタリングすることを含みうる。フィルタリングは、参照健常試料のコホート上で生成された反復部位を読取一覧から除去することを含みうる。

図１Ｃの方法１００の工程１５０に提供されるように、当該方法は、ゲノムワイドの読みの一覧用のフィルタリングされた読みの集合を生成するために、読みの一覧を正規化することを含みうる。

図１Ｃの方法１００の工程１６０に提供されるように、当該方法は、ウインドウ当たりの特徴のセットの間の直線的関係を計算して、及び回帰モデルを用いて計算された関係を推定腫瘍分画に変換して、フィルタリングされた読取セットを用いて推定腫瘍分画を計算することを含みうる。あるいは、又は組み合わせて、本方法は、被験体特異的ゲノムワイドにわたる読みの一覧にわたるウインドウ当たりの特徴の計算されたセットの関数として、１又はそれ以上の統合的数学モデルに基づき推定腫瘍画分を計算することを含みうる。

図１Ｃの方法１００の工程１７０で提供されるように、当該方法は、推定された腫瘍画分が経験的閾値を超える場合に、がんについて被験体をスクリーニングすることを含みうる。

〔マーカータイプに基づくスクリーニング方法を実施するための例示的なワークフロー〕

図１Ｄ及び図１Ｅは、本開示の方法を実施するための概略的なワークフローを示す。図１Ｄは、関心対象のマーカーがＳＮＶ／indelsを含む場合に典型的に用いられるワークフローを概略し、図１Ｅは、関心対象のマーカーがＣＮＶ／ＣＶを含む場合に典型的に用いられるワークフローを概略する。なお、説明のために別個のワークフローが提供されるが、本開示の方法の実施に別個に実施する必要はない。例えば、ワークフローの特定の特徴／要素を組み合わせて利用して、関心のある転帰（例えば、被験体ががんを発症しているかどうか）に関連する出力（例えば、ＳＮＶ／ｉｎｄｅｌ及びＣＮＶ／ＳＶに基づく組み合わせ推定腫瘍分画）を生成しうる。

〔ＳＮＶ系がんスクリーニング〕

本開示は、被験体の生物学的試料中のＳＮＶ／ｉｎｄｅｌマーカーの検出に基づくがんスクリーニングのシステム、方法及びアルゴリズムを提供する。図１Ｂに示されるように、ＳＮＶ／ｉｎｄｅｌマーカーに基づくがん診断は、通常、検出の感度、特異性及び／又は信頼性の改善に、遺伝学的データを受け取る工程；変異（例えば、単一のミスマッチ）を検出する工程；人為的的の実際の部位を除去／フィルタリングする工程；機械学習を含むアルゴリズムを用いるエラーを抑制する工程；読取を修正する工程；１又はそれ以上の数学モデルに基づきがんを検出する工程；及び任意で、ゲノムデータ中の二次的特徴の分析を直交的に統合する工程を利用する。

図１Ｄの第１工程では、生物学的試料（通常、血漿試料）からの遺伝学的データが受信される。次に、ＰＩＬＥＵＰ（又は他の単一サポート読出呼出装置）を用いて、血漿試料に対して感受性変異呼出を行う。生殖細胞系ＳＮＰは、血漿試料上のＧＡＴＫ生殖細胞系呼出装置を用いて、又は適合する末梢血単核細胞（ＰＢＭＣ）を呼び出す変異を用いて検出される。ＰＢＭＣの代わりに口腔内スワブを用いてもよい。連続的又は並行的に、正常な血漿試料（正常（ＰＯＮ）ブラックリスト又はマスクのパネル）のコホートにわたって反復性の人為的的部位を作製し、これらを検出された変異から除去して、一般的な配列決定又はアラインメントの人為的的を除去する。

次に、単一の変異断片を検出しうる高感度の方法を用いる。本工程は、１又はそれ以上のエラー抑制工程を含む。第１誤差抑制工程では、フィルタリングスキームを用いて、単一の読取塩基で分析し、読取が人為的的変異を表す確率を定量する。いくつかの実施態様では、線形カーネルを有するサポートベクタマシン（ＳＶＭ）分類を用いる多次元分類フレームワークが、本工程で実装されてよい。分類フレームワークは、正常ＰＢＭＣ試料における低変異型対立遺伝子分画（ＶＡＦ）配列決定人為的的と比較した生殖細胞系ＳＮＰについて訓練される。ここでは、分類決定境界を多次元空間上に定義し、その中には、変異塩基品質（ＶＢＱ）、マッピング品質（ＭＱ）、読み込み位置（ＰＩＲ）、及び／又は平均読取塩基品質（ＭＲＢＱ）が含まれる。分類スキームを評価するために、ＳＶＭ分類スキームの検証メトリックスを、同じプロトコルの下でランダムフォレストと１０倍の交差検証後に比較した。ＳＶＭ分類は高い分類性能を示し、ランダムフォレストモデルをやや上回った。ＳＶＭは全患者で平均９０．７％の感度と８３．９％の特異度を達成した（Ｎ＝１０試料、Ｆ１＝８７．７％，ＰＰＶ＝８４．９％）。

第２のエラー抑制工程では、ＰＣＲ又は配列決定により生じた人為的的変異を、同じ元のＤＮＡ断片の独立した複製の比較を用いて修正した。ｃｆＤＮＡ試料では、通常対になった末端の１５０ｂｐの配列決定が行われ、典型的なｃｆＤＮＡ断片の短いサイズ（約１６５ｂｐ）を考慮すると、重複した対になった読取（重複したＲ１及びＲ２配列）が得られた。したがって、Ｒ１及びＲ２対間の不一致は、対応する参照ゲノムに戻される潜在的な配列決定人為的的と見なされる。さらに、配列決定及びＰＣＲの間に複数回コピーされたいかなるＤＮＡ分子による独立した重複の生成の可能性を認識し、重複ファミリーは、アラインメント位置と同様に５’及び３’類似性により認識された。次に、それぞれの重複ファミリーを用いて、独立した複製物を横断する特定の変異のコンセンサスをチェックし、重複ファミリーの大部分で一致を示さない人為的的変異を補正する。

得られた信頼できるデノボ血漿変異のセットを用いて、１又はそれ以上の同定工程を用いて腫瘍パターンを同定する。第１方法は、変異パターン推論法、例えば、非負の最小二乗法（ＮＮＬＳ）を用いて、得られたセットにおける腫瘍パターンの同定を含む。当該方法は、被験体のがん罹患の判定に用いることができる信頼スコア（例えば、ｚスコア）を出力する。この点に関し、閾値信頼スコア（例えば、約２のｚスコア）を用いて、被験体ががんであるという信頼できる決定を行うことができる。変異パターンの検出のための深層学習法を利用する第２の方法を用いることができる。当該方法は、被験体のがん罹患の判定に用いることができる腫瘍比率スコア（例えばｅＴＦ）を出力する。当該方法については、以下でさらに詳しく説明する。

〔がん特異的変異誘発パターン〕

がんの変異誘発は、タバコ喫煙、紫外線など、異なる変異誘発プロセスに関連する配列特異的な特徴により支配される。当該変異の特徴はがん組織に特有であり、正常なＰＢＭＣ試料にでは発現しない。ここでは、正常試料（ＰＢＭＣ）と比較して、肺がん患者（タバコに曝露）及びメラノーマ患者（ＵＶに曝露）では、遺伝子パターンが差次的に発現される。本特徴を認識し、新しい高感度検出分析方法を開発した。当該方法は、単一血漿試料中の特定の変異パターンの非負最小二乗（ＮＮＬＳ）を利用するモデルに基づく。署名検出は、１００の無作為なバックグラウンド署名について推測された曝露値に対するがん特異的な変異の署名曝露値の比較を用いて、信頼性についてさらに検証され、ｚスコア＞２ｓｔｄの信頼閾値が設定された。

〔深層学習による変異パターンの検出〕

人為的的の配列決定誤差をさらに抑制し、ｃｔＤＮＡ感受性を増大させる、がんで改変された配列決定読取と配列決定誤差により改変された読取とを区別するための機械学習法が開発され、全身配列決定ノイズに対する適応型及び特異的フィルタが可能となった。人為的知能技術に基づく深層畳込ニューロンネットワーク（ＣＮＮ）を適用した。ＣＮＮは、分類上の問題に対して、教師付きの方法で、多数の機能の学習と統合を可能にする。この迅速アプローチは、真の変異体を含む読取と配列決定人為的的を含む読取とを区別することを目的とするため、チャレンジを呼び出す変異の再考に基づく。これにより、腫瘍及び正常なＷＧＳデータの大量収集を用いて、何百万もの真の変異読取及びエラーに関するＣＮＮの訓練が可能となり、様々な患者及び腫瘍タイプに対して非常に高い感度及び特異度を達成しうる。

深層ＣＮＮ訓練における上記の特徴の実施は、肺がん及びメラノーマでは生じることが知られている配列コンテキストパターンの独立した捕捉をもたらす。第一に、早期検出（ＥＤ）フレームワークにＣＮＮを適用するため、ＣＮＮアルゴリズムを汎肺がんコホート（深層腫瘍とＰＢＭＣＷＧＳを有する５人の患者）上で訓練し、真の腫瘍変異と人為的的誤差を識別する特徴を同定するための教師付き学習を利用した。得られたモデルを用いて、肺腺がん早期患者のＥＤ血漿検体中に検出された個々の変異を推測し、信頼性推定値を割り当てた。本推定値は、所定の検体中の腫瘍読取率の推定値に統合しうる。本モデルは、特異的なタバコ及び／又はＵＶパターンを同定することができ、本パターンを患者の試料に利用すると、各がんの早期の患者を高精度で検出することができた。

さらに、リスクのあるタバコ曝露集団における現在の肺がんＣＴスクリーニングの低陽性適中率（ＰＰＶ）を改善する本法の機能を、２１例の早期肺患者及び１２例の良性結節を有するＣＴ検出患者の血漿試料に本法を適用して評価した。その結果、早期肺がん検体では１４個の陽性検出、良性結節では３個の陽性検出が示され、現行のＣＴ系スクリーニングスキームでは４０％〜５０％のＰＰＶであったのに対し、ＰＰＶは８０％改善されたことが示された。当該データは、肺がん及びメラノーマ患者の早期発見のための既存の方法よりも有意に改善されることを示す。

〔直交特性の統合〕

場合によっては、上記の基本ワークフローは、最終分析モデルの遺伝学的データに含まれる二次的特徴を直交的に統合しうる。例えば、検出方法のロバスト性、精度、及び／又は感度／特異性を改善するため、読取に基づく特徴、例えばＤＮＡの断片サイズのシフトが、数学モデルに直交的に統合されうる。直交特徴積分（がん検出における）の有意性は、確率的混合モデル（例えば、ガウス混合モデル）を用いて計算されうる。実施例のセクション及び図１７及び図１８の対応するデータを参照のこと。

〔ＣＮＶ系がんスクリーニング〕

代替的又は追加的に、本開示は、被験体の生物学的試料中のＣＮＶ／ＳＶマーカーの検出に基づくがんスクリーニングのシステム、方法及びアルゴリズムを提供する。図１Ｅに示すように、ＣＮＶ／ＳＶマーカーに基づくがん検出は、通常、検出の感度、特異性及び／又は信頼性を改善するために、遺伝学的データを受け取る工程；遺伝学的データ中のウインドウに基づく特徴ベクトルの抽出；人為的実ＣＮＶウインドウのフィルタリング；１又はそれ以上の正規化工程を用いたフィルタリングされた遺伝学的データの正規化；特徴ベクトルセグメンテーション後の腫瘍の検出；及び場合によっては、ゲノムデータ中の二次的特徴の分析（例えば、断片サイズシフトの分析）を直交的に統合する工程を利用する。

図１Ｅの第１工程では、生物学的試料（通常、血漿試料）からの遺伝学的データが受信される。次に、ウインドウ系の特徴ベクトルを遺伝的データから抽出した。例えば、深度カバレッジ特性（Ｌｏｇ２で表される）及び／又は断片サイズ特性（ＣＯＭで表される）が抽出される。ゲノムを横切るすべてのウインドウの推定Ｌｏｇ２及びＣＯＭ値を用いて、試料の質量中心の中央値（中立領域に対する中央値ＣＯＭ）を求め、Ｌｏｇ２／ＣＯＭ線形モデルの勾配及びＲ＾２を計算する。さらに、分割読取も抽出されうる。スプリットリーディングは、通常、ＮＧＳリーディングの部分分がゲノムの１つの位置にマッピングされ、同じリーディングの他の部分がゲノムの異なる位置にマッピングされるときに生じ、それにより不一致が生じる。

次に、マッピング可能性及び／又はカバレッジが低いウインドウをフィルタリングする。連続的又は並列的に、ウインドウから取り除かれた健常血漿試料（正常（ＰＯＮ）ブラックリスト又はマスクのパネル）のコホートにわたって、人為的的な部位を生成して人為的的なウインドウをフィルタリングする。フィルタリングされた高信頼基準ＣＮＶ／ＳＶセグメントは正規化される。通常、正規化工程は、グアニン−シトシン（ＧＣ）正規化及び／又はｚスコア正規化を含む。

次に、特徴ベクトルは、１又はそれ以上の数学モデルを用いてセグメント化される。いくつかの実施態様では、隠れＭａｒｋｏｖモデル（ＨＭＭ）が用いられる。いくつかの実施他様では、適応共鳴理論（ＡＲＴ）や自己組織化マップ（ＳＯＭ）等の数学的モデルに基づく自己組織化ニューラルネットワーク（ＳＯＮＮ）が用いられる。当該数学モデルの１又はそれ以上を用いてセグメント化データを分析して、コピー数変異（ＣＮＶ）検出とがん診断が行われる。

ここでも、最終解析モデルに遺伝的データの二次的特徴を直交的に統合することが可能である。例えば、検出方法の頑健性、精度、及び／又は感度／特異性の改善である。Ｌｏｇ２／ＣＯＭ相関（Ｒ＾２）、Ｌｏｇ２／ＣＯＭ勾配、及び標本中央値断片サイズの質量中心（ＣＯＭ）を総合して、腫瘍と健常な標本間の分類モデルを定義し、例えば一般化線形モデル（ＧＬＭ）を用いて推定ＴＦを計算しうる。

直交特徴積分（がん検出における）の有意性は、確率的混合モデル（例えば、ガウス混合モデル）を用いて計算されうる。

本明細書に開示されたワークフローはまた、いくつかの修正を加えて、化学療法、免疫療法、標的療法、又はそれらの組み合わせの間又は後の残存病変の検出に、及び／又は当該治療の有効性のモニタリング過程で、広く用いうることが理解されるべきである。

〔上記方法の早期腫瘍診断への使用〕
本開示の方法は、腫瘍の早期診断で特に有用である。好ましくは、本開示の診断方法は非侵襲的に実施される。診断方法は、腫瘍の手術又は治療の前に実施されうる。

本開示の方法は、低腫瘍画分（ＴＦ）であっても実施しうる。一般に、ＴＦがより低い試料では、検出の可能性が低く、従来技術の方法は、腫瘍疾患を正確かつ信頼性をもって診断できない。対照的に、本開示の方法は、低腫瘍画分、例えば、１／１０００、１／１０，０００、又は１／２０，０００でも、マーカーの検出及び腫瘍疾患の正確な診断が可能である。本開示の方法及びシステムの感度は、腫瘍画分（例えば、１／１０，０００以下）が非常に低くても、本開示の方法は、単一の支持体読取に含まれる約１０〜１５のｓＳＮＶを検出するという事実により特に証明される。本検出により、従来技術の手段では得られない、高レベルの忠実度及び正確度で、正常試料と腫瘍試料とを区別しうる。診断はｓＳＮＶ検出に限定されないことを理解すべきである。例えば、診断は、ヒトのがんで頻繁に観察される約１０、２０、３０、４０、５０、６０、７０、８０、９０、１００以上、例えば１５０、２００、又は２５０コピーの改変セグメント（ゲノムワイド）の検出に基づいて行われ得る。

本開示は、特に、高率の体細胞変異を特徴とする腫瘍の早期診断方法に関する。本開示により診断又は検出されうる腫瘍タイプは、好ましくは、例えば、非小細胞肺がん（ＮＳＣＬＣ）、タバコ誘発がん（ＴＩＣ）、ＵＶ光誘発がん、アポリポタンパク質ＢｍＲＮＡ編集酵素触媒タンパク質（ＡＰＯＢＥＣ）活性が介在するがん、乳がんタンパク質（ＢＲＣＡ）変異を含むがん、及び／又はポリ（ＡＤＰ−リボース）ポリメラーゼ（ＰＡＲＰ）活性亢進を含むがん、マイクロサテライト不安定性（ＭＳＩ）を含む腫瘍を含む。本方法は、液体腫瘍、固形腫瘍、又はそれらの混合物、例えば、例えば、肝臓、肺、又は脳等の余分なリンパ系器官に転移したリンパ腫を含む不均一な腫瘍を診断するように適用しうる。

以下の腫瘍：肺腺がん、導管腺がん（乳房腫瘍）、皮膚黒色腫、尿路上皮がん（膀胱腫瘍）又は骨肉腫は、本発明により特に早期診断されうる。特に、腫瘍は、非小細胞肺がん及び肺腺がん（ＮＳＣＬＣＬＵＡＤ）を含む。

本開示は、特に、高率の体細胞変異で特徴付けられる、非小細胞肺がん、好ましくは、肺のタバコ誘発がんの早期診断又は検出に関する。喫煙（例えば、喫煙又は咀嚼）は、口腔、咽頭、喉頭、食道、肺、胃、子宮頸部、及び結腸／直腸の上皮性がんの十分に確立された危険因子又は原因物質である。Sasco et al., Lung Cancer 45, Suppl 2, S3-9, 2004参照。

本開示はまた、紫外線誘発がん、例えば皮膚がんの診断又は検出に関する。紫外線（ＵＶ）への曝露は、黒色腫症例の約６５％、及び基底細胞がん（ＢＣＣ）及び扁平上皮がん（ＳＣＣ）を含む非黒色腫皮膚がん（ＮＭＳＣ）の９０％と関連する。Kim et al., Genes & Disease, 1(2):188-198, 2014参照。好ましくは、ＵＶ−誘導がんは、黒色腫及びＳＣＣから選択され、これらはともに、高率の体細胞変異により特徴付けられる。Alexandrov et al., Curr Opin Genet Dev. 24, 52-60, 2014参照。

また、本開示は、遺伝子編集／ＤＮＡチェックポイントに関連する酵素の摂動に起因する体細胞変異率が高いがんの早期診断にも関する。いくつかの実施形態では、本開示は、遺伝子編集酵素、例えば、アポリポタンパク質ＢｍＲＮＡ編集酵素触媒タンパク質（ＡＰＯＢＥＣ）が介在するがんの診断に関する。ＡＰＯＢＥＣを介した変異パターンは、膀胱がん、子宮頸がん、乳がん、頭頸部がん、及び肺がんでよくみられる。Roberts et al., Nat Genet., 45(9):970-6, 2013を参照のこと。

いくつかの実施形態では、本開示は、乳がんタンパク質（ＢＲＣＡ）変異、例えば、ＢＲＣＡ１変異もしくはＢＲＣＡ２変異が介在するがん、又はそれらの組み合わせが介在するがんの早期診断に関する。報告では、ＢＲＣＡ１変異を有する女性の５０％以上が７０歳までに乳がんを発症し、その３分の１以上がその年齢までに卵巣がんを発症すると推定する。乳がん及び卵巣がんに加えて、ＢＲＣＡ２変異は男性の乳がん及び膵がん、並びに黒色腫のリスクと関連する。ＢＲＣＡ１／２変異はいずれも男性の前立腺がんリスクと関連する。Ngeow et al., npj Genomic Medicine 1, 15006, 2016を参照のこと。

いくつかの実施形態では、本開示は、マイクロサテライト不安定性（ＭＳＩ）により誘導されるがんの早期診断に関する。ＭＳＩ誘発がんは一般に、ＤＮＡミスマッチ修復遺伝子（例、ＭＬＨ１、ＭＳＨ２又はＭＳＨ６）の変異に起因し、反復配列のエラーを特徴とする。ＭＳＩは多くの臓器の腫瘍で発生しうるが、主に大腸がんの特徴である。Kurzawski et al., Annals of Oncology, 15 (Supp. 4), 283-284, 2004を参照のこと。ＭＳＩはまた、子宮内膜がん、卵巣がん、胃がん、脂腺がん、膠芽腫、リンパ腫／白血病、及びリンチ症候群（遺伝性非ポリポーシス大腸がん（ＨＮＰＣＣ））の腫瘍でも観察される。Vilar et al., Nat Rev Clin Oncol., 7(3): 153-62, 2010を参照のこと。

いくつかの実施形態では、本開示は、例えば、ＰＡＲＰの代償性相同組換活性を介在するＰＰＡＲ活性により誘導されるがんの早期診断に関する。例えば、相同組換えメカニズムに欠陥のある腫瘍は、生存をＰＡＲＰ媒介ＤＮＡ修復に依存し、その阻害ＰＡＲＰに感受性である。従って、ＰＡＲＰ阻害は、特異的ＤＮＡ修復が欠損するがん、例えば、ＢＲＣＡ１又はＢＲＣＡ２変異のキャリアに生じるがん治療の潜在的な合成致死的治療戦略である（Morales et al., Crit Rev Eukaryot Gene Expr., 24(1): 15-28, 2014; Fong et al., N Engl J Med., 361(2):123-34, 2009）。

本開示の診断方法は、最初に、複数の遺伝子マーカーを含む被験体の試料を受け取ることを含む。いくつかの実施形態では、ＤＮＡ／ＲＮＡを含む被験体の試料を配列決定し、その中の遺伝子マーカーを分析のために受け取る。他の実施形態では、遺伝子マーカーは、データセット、例えば、コンピュータに編集及び／又は記憶された、又は遠隔（例えば、サーバ）に保存されたゲノム配列決定情報から受け取ることができる。遺伝子マーカーは、様々な試料を配列決定して受け取ることができる。好ましくは、試料は、生物学的試料、例えば、細胞、組織、生物学的流体、例えば、血液、血漿、リンパ等を含む器官を含む。あるいは、試料が原発性又は転移性腫瘍を含む。

様々な方法を用いて試料を得ることができる。組織生検は、代表的な腫瘍組織片の採取にしばしば用いられる。腫瘍細胞はまた、被験体の腫瘍細胞を含むことが知られているか又は含むと考えられる組織又は体液の形態で間接的に得ることができる。例えば、肺がん病変の生物学的試料は、切除、気管支鏡検査、細針吸引、気管支ブラッシング、又は喀痰、胸水もしくは血液から得ることができる。転移した腫瘍は、周辺の組織やリンパ節から採取されることもあれば（原発転移）、遠隔部位から採取されることもある（遠隔転移）。

試料は、循環ＤＮＡ及び末梢血単核細胞（ＰＭＢＣ）を含む血漿試料を含むのが好ましい。本文脈では、試料は、常套技術、例えば、採血（瀉血）、生検（液体生検を含む）、外科的切除、気管スワブ、喀痰等を用いて被験体から得られ得る。このように得られた試料は、場合によっては処理して、例えば、診断に有用なマーカーを精製及び／又は単離しうる。試料中のｃｆＤＮＡの存在は、常套手段の方法、例えば、ユニバーサルプライマーを用いるＰＣＲ、次いで電気泳動を用いて調べることができる。被験体の試料中のｃｆＤＮＡは、常套技術、例えば、本開示の実施例セクションに記載されたＤＮＡ単離キットを用いて精製されうる。

いくつかの実施形態では、試料は、血液、脳脊髄液、胸水、眼液、尿、又はそれらの組み合わせから選択される生物学的流体を含む。

いくつかの実施形態では、ｃｆＤＮＡにおける体細胞変異を含む試料により、患者の血漿ｃｆＤＮＡ試料中の腫瘍ＤＮＡを検出でき、かつ体細胞悪性ゲノムの特徴付けができる形質転換、非侵襲性技術である液体生検技術（ＬＢＴ）を用いて得られる。

具体的な実施形態では、生物学的試料は無細胞ＤＮＡ（ｃｆＤＮＡ）を含む血漿試料である。通常、試料中のｃｆＤＮＡの量は、約０．１ｎｇ／ｍｌ〜約２０．０ｎｇ／ｍｌ、好ましくは、約１ｎｇ／ｍｌ〜約１０ｎｇ／ｍｌである。末梢単核血球（ＰＭＢＣ）を含む正常細胞試料を対照として用いることができる。両試料で、単一ヌクレオチド変異（ＳＮＶ）（好ましくは体細胞ＳＮＶ）、コピー数変異（好ましくは体細胞ＣＮＶ）、短い挿入及び欠失（indels）、構造変異体（ＳＶ）又はそれらの組み合わせを含む遺伝子マーカーを分析しうる。

ある実施形態では、遺伝子マーカーは、ＳＮＶ及びＣＮＶの組合せを含む。当該組み合わせは、通常、ＳＮＶ変異負荷が低くＣＮＶ負荷が高い試料で用いられる。例示的実施形態では、変異のＳＮＶ変異負荷がメガ塩基対（ＭＢＰ）あたり８０００個未満である試料は、ＣＮＶを追加的に検出して分析されうる。通常、当該場合、ＤＮＡの少なくとも６０、少なくとも７０、少なくとも８０、少なくとも９０、少なくとも１００以上、例えば２００、ＣＮＶ／ＭＢＰのＣＮＶ負荷が、診断上重要である可能性が高いので、望ましい。

遺伝学分野で公知の、変異、例えば、ＳＮＶ又はＣＮＶの重要性は、生殖細胞系と細胞体の区別により大きく影響される。体細胞（体細胞）の変異は子孫に伝わらない。例えば肺等の体細胞で起こる変異は、細胞を損傷したり、がん化したり、細胞を死滅させたりする。しかし、変異ＤＮＡは配偶子の生殖系列に存在する場合にのみ次世代に伝えられる。したがって、生殖細胞系列の配列を比較して（例えば、それを対照として用いる）、同じ被験体の非がん性細胞に存在しない、その被験体に特異的な体細胞又はがん細胞の変化を同定しうる。生殖細胞系列と配偶子系列の比較は変異を示すが、がん細胞と非がん細胞の比較も有用である。例えば、被験体の末梢白血球又はリンパ球は、非がん性体細胞配列を表す、対照として用いることができる。このように、がん性細胞及び非がん性細胞でともに見出される変異は無視されうる。

好ましくは、本開示の遺伝子マーカー、例えば、ｓＳＮＶ、ｓＣＮＶ、ｃｆＤＮＡ中のインデル（indels）又はＳＶは、ｃｆＤＮＡ配列を参照配列、例えば、生殖細胞系ＤＮＡ配列と比較して検出しうる。

いくつかの実施形態では、本開示の方法は、遺伝子マーカーと対照（例えば、対照）配列との間の変異の検出を含み得る。いくつかの実施形態では、変形は、試料間で均一、半均一、又は動的であり得る。一時的に動的な変動には、例えば、治療中又は治療後に収集されたｃｆＤＮＡと治療前の試料との間の差異が含まれる。

ｃｆＤＮＡの変異はまた、遺伝子マーカーのゲノムワイド（ワイド）一覧を作成し、それから、対照（例えば、生殖細胞系）試料に存在する遺伝子マーカーを差し引いて検出されうる。本文脈では、用語「ゲノムワイド（ワイド）」は、生殖系列及び体細胞の生物の遺伝物質を意味し、それらを含む。マーカーの一覧には、例えば、複数のｓＳＮＶ、ｓＣＮＶ、インデル、ＳＶを含み得、これには、ＤＮＡ中の融合物等の他のバリエーションが含まれる。

通常、標本は低い腫瘍画分（ＴＦ）により特徴づけられる。いくつかの実施形態では、ＴＦは、約０．０００１％から約１％の間、好ましくは約０．００１％から約０．１％の間、特に０．１％未満、例えば０．００５％、０．０２％、０．０３％、０．０４％、０．０５％、０．０６％、０．０７％、０．０８％、０．０９％である。

さらに、ｃｆＤＮＡを含む試料は、約１００〜約２０，０００、好ましくは約１０００〜約１００００の間のゲノム等価性（例えば、被験体の試料中のｃｆＤＮＡ断片のプール全体の無作為サンプリングを介して測定された、固有のＤＮＡ断片の数）により特徴付けられる。

いくつかの実施形態では、ｃｆＤＮＡ試料は、約３，０００〜約１００，０００、好ましくは約５０００〜約４０，０００の変異負荷（Ｎ）により特徴付けられる。

ゲノムワイド一覧を作成する代表的な方法に、配列決定を含みうる。通常、配列決定は、精製された核酸試料を用いて行われる。特に、本開示の診断方法及び／又はシステムに用いられるゲノムワイド一覧は、全ゲノム配列決定を用いて達成される。例えば、ＷＧＳは、通常の技術を用いて実施することができ、増幅（例えば、ＰＣＲ増幅）を含みうる。増幅フリー配列決定はまた、当技術分野で公知の方法及び試薬を用いて用いられうる。Karlsson et al., Genomics, 105(3):150-8, 2015を参照のこと。純粋に例示的な方法として、いくつかの実施形態では、ｃｆＤＮＡ中の遺伝子マーカーは、被験体の腫瘍の全ゲノム配列決定（ＷＧＳ）、被験体の正常細胞の全ゲノム配列決定（ＷＧＳ）、様々な比率で腫瘍及び正常ＷＧＳを混合し、異なる腫瘍画分及びカバレッジの被験体特異的試料のデータセットを生成し、データセットをダウンサンプリングし、腫瘍からの読取を混合せず、ダウンサンプリングした正常読取の相補的データセットを生成して検出されうる。相補的データセットは、以下に記載するように、ノイズ関連マーカーを除去してフィルタリングされうる。

遺伝子マーカーのゲノムワイド一覧は、標的配列決定（ＴＳ）又はＷＧＳとＴＳを組み合わせて作成することもできる。

全ゲノム配列決定及び／又は標的化配列決定に関する以下の米国特許第７，１１５，４００号、第７，７１８，４０３号、第７，７４１，４６３号、第８，９３２，８１２号、第７，５７２，５８４号、第９，２１８，４５０号は、その全体が参照により本明細書に援用される。

いったんＤＮＡ試料を受け取ると、診断方法が実施されうる。試料中に含まれる遺伝子マーカーは、好ましくは、変異、例えば、体細胞変異について分析される。ＤＮＡにおける最も一般的な体細胞変異のタイプは一塩基変異体（ＳＮＶ）であり、１〜１００／Ｍｂｐ（メガ塩基対）の頻度で起こる。当該変異体は、通常、がん試料及び生殖細胞系正常ＤＮＡ試料（対照）中の特定の遺伝子座にマッピングされるＤＮＡ配列決定読取の注意深い比較を介して、ショットガン配列決定データで同定される。当該複雑なプロセスは、がん試料及び生殖細胞系試料における支持的読取の数と変異との間の統計的比較を精緻化する、絶えず高度化する技術／ツールを用いて開発されている。参照として、Cibulskis et al., Nature Biotechnology, 31(3):213-219, 2013; Saunders et al., Bioinformatics, 28(14):1811-1817, 2012; Wilm et al., Nucleic acids research, 40 (22):11189-11201, 2012。

変異体の分析は、アレイ系の方法（例えば、ＤＮＡマイクロアレイ等）、リアルタイム／デジタル／定量的ＰＣＲ装置の方法；及び全核酸配列決定システム（例えば、Illumina, Helicos Biosciences, Pacific Biosciences, Complete Genomics, Sequenom, ION Torrent Systems, Halcyon Molecularより提供される全ゲノム配列決定（ＷＧＳ）サービス）を含むが、これらに限定されない、様々な技術を用いて行うことができる。

好ましくは、遺伝子マーカーは、全ゲノム配列決定（ＷＧＳ）を用いて体細胞変異及び／又はコピー数変異について分析される。全ゲノム塩基配列決定法は、単一塩基の解像度で遺伝子読取を解読しうる。ＤＮＡ（デオキシリボ核酸）との関係で、本方法はＤＮＡの基本的な構成成分であるＡ（アデニン）、Ｔ（チミン）、Ｃ（シトシン）、Ｇ（グアニン）のレベルで解読される。ＲＮＡ（リボ核酸）との関係で、Ａ、Ｕ（ウラシル）、Ｇ、Ｃ等のＤＮＡの基本的な構成成分のレベルで解読される。

上記配列決定方法の産物は、ポリヌクレオチド分子（例えば、全ゲノム、全トランスクリプトーム、エキソーム、オリゴヌクレオチド、ポリヌクレオチド、断片等）中の上記塩基の１又はそれ以上の順序に関する情報を含む「配列決定データ」、「配列決定情報」又は「配列決定読取」を含む。試料（例えば、患者の血漿試料に含まれるｃｆＤＮＡ）中のＤＮＡの読取の順序を対照（例えば、ＰＭＢＣの全ゲノム配列）と比較して、関心のある遺伝子マーカー（例えば、体細胞性ＳＮＶ又は体細胞性ＣＮＶ）を同定しうる。本開示の同定方法は、キャピラリー電気泳動、マイクロアレイ、ライゲーション系システム、ポリメラーゼ系システム、ハイブリダイゼーション系システム、直接又は間接ヌクレオチド同定システム、パイロ配列、イオン系又はｐＨ系の検出システム、電子パターン系のシステム等を含むが、これらに限定されない、全てのタイプの配列決定技術、プラットフォーム又は技術に適用可能であることが理解されるべきである。

本開示の早期診断法における次の段階は、低存在量の腫瘍特異的マーカーを同定することを含む。

本開示は、（１）読取の基本品質（ＢＱ）、（２）読取のマッピング品質（ＭＱ）、及び／又は（３）読取の断片サイズ、（４）読取の可変対立遺伝子頻度（VAF）から選択された複数の要因に基づき、読取時のエラー確率を決定することに関し、これらは、単独で、又は、ともに、シグナルの品質に影響する。（５）読取内位置（ＲＰ）、（６）読取配列コンテキスト（ＳＣ）、（７）読取存在量、（８）配列決定深度及び／又は（９）配列決定エラー等等の他の二次パラメータも用いることができる。

一般に、基本品質（ＢＱ）は各塩基の配列決定品質の信頼性に関係し、マッピング品質（ＭＱ）スコアはゲノムとのマーカーのマッピングの正確性に関する信頼性推定値に関係する。ｓＳＮＶマーカーとの関連では、基本品質（ＢＱ）スコアは、自動化ＤＮＡ配列決定により生成された核塩基の同定の品質の尺度である。それは、自動シークエンサートレースにおいて各ヌクレオチド塩基呼出に割り当てられる通常の方法、例えば、Ｐｈｅｒｄ品質スコアを用いて決定されうる。Ｐｈｒｅｄ品質スコア（Ｑ）は、基本呼出誤差確率（Ｐ）に対数的に関連する特性として定義される。たとえば、Ｐｈｅｒｄが基底に３０の品質スコアを割り当てた場合、この基底が誤って呼出される可能性は１／１０００である。通常、配列決定読取のＢＱは、１０〜５０の間、例えば、１０、１５、２０、２５、３０、３５又は４０のＢＱスコアである。

また、ｓＳＮＶマーカーの文脈では、マッピング品質（ＭＱ）スコアは、読取が実際にマッピングアルゴリズムにより整列された位置に由来する確信度の尺度である。これは、例えば、マッピング品質スコア（Li et al., Genome Research 18:1851-8, 2008を参照）等の常套手段の方法を用いて決定されうる。通常、読取のＭＱは、１０〜５０の間、例えば、約１０、１５、２０、２５、３０、３５、又は４０のＭＱスコアである。

いくつかの実施形態では、ノイズ除去工程は、結合基本品質（ＢＱ）及びマッピング品質（ＭＱ）スコアに基づき、一覧における遺伝子マーカーの確率論的分類を含む最適受信者動作特性（ＲＯＣ）曲線を実施することを含む。通常、結合ＢＱＭＱスコアはマトリックス（ｘ，ｙ）として提供され、ｘはＢＱスコアであり、ｙはＭＱスコアである。例示的な実施形態では、例えば、（１０、４０）、（１５、３０）、（２０、２０）、（２０、３０）、（３０、４０）のＢＱＭＱスコアのように、（各パラメータについて）１０〜５０の結合ＢＱＭＱスコアが典型的に用いられる。

ノイズ除去工程は、追加のフィルタの実装を含んでよい。たとえば、ＤＮＡ断片に由来する読取対に含まれる余分な情報源は、複製起点（ワトソン又はクリック）の決定とＤＮＡ断片の大きさの推定に利用できる。ｃｔＤＮＡは、通常の循環健常なＤＮＡとは断片サイズ分布が異なることが観察される（Underhill et al., PLoS genetics, 12(7):e1006162, 2016）。より具体的には、腫瘍患者と健常対照者との間の無細胞ＤＮＡから得られた断片の長さは、変異対立遺伝子が野生型対立遺伝子の断片の長さよりも短いことが多いことを見出した。同様に、無細胞ＤＮＡ断片長に対するサイズ選択がより短いと、ヒト肺がんにおける変異対立遺伝子頻度が実質的高まった（Jiang et al., PNAS USA, 112.11, E1317-E1325, 2015; Mouliere et al., bioRxiv, 134437, 2017; Underhill, supra）。従って、無細胞ＤＮＡ検出からの断片長の特定のサブセットが、ｃｔＤＮＡ検出を改善するために用いられうる。いくつかの実施形態では、読取の断片サイズは、好ましくは、１６０ｂｐ未満、例えば、１６０ｂｐ、１４０ｂｐ、１２０ｂｐ、１００ｂｐ、７５ｂｐ、５０ｂｐ、又はそれ未満、例えば、２０ｂｐである。

さらに、人為的的ノイズは、可変対立遺伝子頻度（ＶＡＦ）に基づき除去されうる。いくつかの実施形態では、低対立遺伝子分画変異部位は試料から除去され、例えば、ＶＡＦは約１％以下である。いくつかの実施形態では、ＶＡＦが閾値であるマーカー（例えば、ＳＮＶ）のみが、下流分析のために保持される。例えば、ＶＡＦが少なくとも１％、最後の２％、少なくとも３％、少なくとも４％、少なくとも５％（ＰＧＭ装置上のアンプリコン配列決定により決定される）の変異部位を保持しうる。当技術分野で公知の、特定の対立遺伝子（例えば、ＢＲＡＦＶ６００Ｒ）のＶＡＦ値は、静止しておらず、（がんの発生及び／又は進行のために）経時変化し、また、例えば、免疫療法、化学療法又は標的療法等の治療にも変化し得る。しかしながら、閾値ＶＡＦが、１％未満、例えば、０．０５、０．１、０．２、０．３、０．４、０．５、０．６、０．７、０．８の場合、信頼性をもって特定の対立遺伝子が腫瘍と関連ないと推定するのに用いうる。

１つの具体的な実施形態では、人為的的ノイズは、（ａ）低マッピング品質の読取（例えば、＜２９、ＲＯＣ最適化）を除去する工程；（ｂ）重複ファミリーを構築し（例えば、同一ＤＮＡ断片の複数のＰＣＲ／配列決定コピーを表す）、コンセンサス試験に基づき修正された読取を生成する工程；（ｃ）低塩基品質の読取（例えば、＜２１、ＲＯＣ最適化）を除去する工程；及び／又は（ｄ）高断片サイズの読取（例えば、＞１６０、ＲＯＣ最適化）を除去する工程のうちの１又はそれ以上、好ましくは全てを実施して除去される。

上記ＢＱ／ＭＱ、ＶＡＦ、及び断片サイズフィルタを用いることに加えて、ＲＰは信号の品質に影響を及ぼすため、人為的的ノイズをフィルタリングするために、読取内位置（ＲＰ又はＰＩＲ）等の他のファクタを用いうる。ｓＳＮＶマーカーに関連して、ＲＰは、例えば、配列決定読取の最初の塩基位置のマッピングによりマッピングされうる。マーカー品質に影響する他の因子は、例えば、配列決定エラーのより高い確率に関連する特定の配列コンテキストを含む（Chen et al., Science, 355(6326):752- 756, 2017）。この点に関して、真の変異はしばしばそれ自身の特異的な配列コンテキストにマッピング可能であるが、エラーはそうではない。例えば、タバコ関連の変異はＣＣコンテキストで起こる傾向があり、ＡＰＯＢＥＣ酵素の活性に関連した変異は体細胞変異を挿入するためにＴｐＣコンテキストを好む（Greenman et al., Nature, 446(7132): 153-158, 2007参照）。従って、配列コンテキストは、配列決定人為的的に起因する可能性の高い変化、及び優勢な変異過程に起因する可能性の高い変化を同定するのに役立つ。

いくつかの実施形態では、マーカーは、ベルヌーイ式ＰＤ＝１−〔（１−ＴＦ）〕^ＧＥに基づいて検出の確率を測定して、さらに測定することができ、ここで、ＰＤは検出の確率、ＴＦは腫瘍画分、及びＧＥは患者ＤＮＡに存在するゲノム等価物の数である。次いで、遺伝子マーカーは、ＰＤに基づき重み付けされ、ここで、ＰＤが高いマーカーは、ビンディングされる。例えば、遺伝子マーカーは、少なくとも約０．６０のＰＤ閾値、例えば、少なくとも約０．６５、０．７０、０．７５、０．８０、０．９０、０．９５又はそれ以上、例えば、少なくとも約０．９８に基づきビンディングしうる。従って、マーカーのＰＤが閾値未満であれば、それは偽陽性として分類され、分析には含まれない。

人為的的ノイズの多い読取が読取の一覧から除去されると、残余マーカーは、腫瘍関連の特徴とＰＣＲ／配列決定エラー特徴との間を分離するように訓練された深い学習推論モデルに供給される。本段階では、読取に基づく方法で、がん変異を支持する読取と人為的的変異（エラー）読取を分類する。１つの実施形態では、がん変異支援読取の配列−コンテキスト分布が計算され、既知の変異パターンの寄与が機械学習を用いて分類される。

人為的体に対してノイズフィルタリングされている、及び／又はがん変異により支持されるものとして分類されている読取は、がんパターンにマッチされる。ある実施形態では、当該がんパターンを含むデータセット（例えば、がんにおける体細胞変異のカタログ；ＣＯＳＭＩＣ）を用いうる。２０１８年２月現在、３０の異なるがんパターンがデータベースに登録されており、その詳細は以下の通りである：

パターン１（すべての種類のがんにみられる）は、５−メチルシトシンの自発的脱アミノ化により開始される内因性変異過程の結果である；

パターン２（２２種類のがんにみられる）は、ＡＩＤ／ＡＰＯＢＥＣファミリーの活性に起因する。実験系におけるＡＰＯＢＥＣ酵素が誘発するシトシン変異の配列コンテキストにおける類似性に基づくと、ヒトがんにおけるＡＰＯＢＥＣ１、ＡＰＯＢＥＣ３Ａ及び／又はＡＰＯＢＥＣ３Ｂの役割は、本ファミリーの他のメンバーよりも可能性が高いようである；

パターン３（乳がん、卵巣がん、膵がん）は相同組換えによるＤＮＡ二本鎖切断修復の失敗と関連する；

パターン４（頭頸部がん、肝がん、肺腺がん、肺扁平上皮がん、小細胞肺がん、及び食道がん）は喫煙と関連し、そのプロファイルはタバコ発がん物質（例えば、ベンゾ［ａ］ピレン）に暴露した実験系で観察された変異パターンと類似する。パターン４はタバコ変異原による可能性が高い；

パターン５（病因不明）は、全てのがん及びほとんどのがん試料で発見される；

パターン６（１７種類のがんにみられ、大腸がん及び子宮がんで最もよくみられる）は、ＤＮＡミスマッチ修復の欠損と関連し、マイクロサテライト不安定腫瘍でみられる；

パターン７（皮膚がん及び口唇がん；頭頸部がん又は口腔扁平上皮がん）は、紫外線暴露と関連する；

パターン８（乳がん及び髄芽腫にみられる）は病因不明である；

パターン９（ＣＬＬ及び悪性Ｂ細胞リンパ腫にみられる）はポリメラーゼηに起因し、これは体細胞高頻度変異の際のＡＩＤ活性と関連する；

パターン１０（６種類のがん、特に大腸がん及び子宮がんにみられる）は、エラーを起こしやすいポリメラーゼＰＯＬＥの活性が変化したためである。再発性のＰＯＬＥ体細胞変異、Ｐｒｏ２８６Ａｒｇ及びＶａｌ４１１Ｌｅｕは、主にパターン１０変異と関連する；

パターン１１（黒色腫及び膠芽腫にみられる）は、アルキル化剤に類似した変異パターンを示す；

パターン１２（肝がんにみられる）は病因不明；

シチジンをウラシルに変換するシチジンデアミナーゼのＡＩＤ／ＡＰＯＢＥＣファミリーの活性に起因するシチジン１３（２２種類のがんに認められ、子宮頸がん及び膀胱がんで最も頻度が高いと思われる）；

パターン１４（病因不明）は、４例の子宮がん及び１例の成人低悪性度神経膠腫試料で発見された；

パターン１５（いくつかの胃がん及び単一の小細胞肺がんにみられる）は、ＤＮＡミスマッチ修復の欠損と関連する；

パターン１６（肝がんにみられる）は病因不明；

パターン１７（食道がん、乳がん、肝がん、肺腺がん、Ｂ細胞リンパ腫、胃がん、黒色腫にみられる）の病因は不明である；

パターン１８（神経芽細胞腫に認められ、乳がん及び胃がんにも観察される）は、病因が不明である；

パターン１９（毛様細胞性星細胞腫にみられる）は病因不明である；

パターン２０（胃がん及び乳がんにみられる）は、ＤＮＡミスマッチ修復の欠陥と関連する；

パターン２１（胃がんにみられる）の病因は不明である；

パターン２２（尿路上皮（腎盂）がん及び肝がんにみられる）は、アリストロキア酸への暴露と関連する；

パターン２３（肝がんにみられる）の病因は不明である；

パターン２４（肝がんのサブセットにみられる）は、アフラトキシンへの暴露と関連する；

パターン２５（ホジキンリンパ腫にみられる）は病因不明である；

パターン２６（乳がん、子宮頸がん、胃がん、子宮がんにみられる）はＤＮＡミスマッチ修復と関連する；

パターン２７（腎明細胞がんのサブセットにみられる）は病因不明である；

パターン２８（胃がんにみられる）は病因不明；

パターン２９（歯肉頬口腔扁平上皮がんでみられる）は、喫煙者と関連する；

パターン３０（乳がんの部分にみられる）は、病因不明である。

いくつかの実施形態では、マッチング工程は、線形混合最適化（例えば、タバコ曝露又はＢＲＣＡ変異又はＡＰＢＥＣ１活性による寄与のｚスコア信頼性推定値）を含み、ＣＯＳＭＩＣ変異パターンの寄与に関する信頼基準の計算に用いられる。純粋に代表的な非限定的な例として、線形最適化問題は、代数関数ｍｉｎｌｌＡｘ−ｂｌｌ，ｘ≧０を用いて解答しうる。ここで、Ａは、変異パターン配列コンテキストマトリックスであり、ｘは、各ＣＯＳＭＩＣ変異パターン（変数）の寄与であり、ｂは、患者特有の配列コンテキスト一覧である。

いくつかの実施形態では、上記で用いられる線形最適化方法において、Ａは、無作為変異パターンを含むいかなる数のＣＯＳＭＩＣパターンを含み得る。例えば、Ａは、約２０、３０、４０、５０又はそれ以上、例えば、７０個のＣＯＳＭＩＣ特徴及び約５０、６０、８０、１００又はそれ以上、例えば、１５０個の無作為変異特徴を含み得る。無作為パターンの寄与の分布は、抽出法を用いて計算される。例えば、平均寄与スコアを計算するＥ＿ｒａｎｄｏｍ；及び標準寄与スコアを計算するｓｔｄ＿ｒａｎｄｏｍ。各ＣＯＳＭＩＣ特徴の寄与に関連する信頼性は、統計的に、例えば、ｚスコアを用いて計算されうる。例えば、Ｚスコアは（ｃｏｓｍｉｃ＿ｓｉｇ＿ｃｏｎｔｒｉｂｕｔｉｏｎ−Ｅ＿ｒａｎｄｏｍ）／ｓｔｄ＿ｒａｎｄｏｍとして計算されうる。従って、置換スコアの場合と同様に、Ｚスコアは、無作為セットと比較した場合のパターン寄与の有意性を表す。

いくつかの実施形態では、特定のＣＯＳＭＩＣ標識に対する患者配列決定−コンテキスト一覧の類似性は、統計的方法、例えば、確率密度関数（ＰＤＦ）を用いて計算してされる。純粋に代表的な例として、患者配列決定−コンテキスト一覧を正規化して密度関数を生成してＰＤＦを計算する。患者配列決定−コンテキスト密度関数とＣＯＳＭＩＣパターン密度関数の間のコサイン類似性を計算した。次に、コサイン類似性は、患者配列決定−コンテキスト密度関数と非情報的一様密度関数の間のコサイン類似性で割ることにより正規化される。

図１Ａの方法１００の工程１６０では、工程１５０で計算された信頼性推定値を用いて、がん、例えば腫瘍の早期検出について被験体をスクリーニングする。当該技術分野で公知の、信頼区間は、未知の母集団パラメータ（例えば、無症状の被験体ががんである可能性）の良好な推定値として作用する一連の値（区間）から成る。望ましい信頼度は、研究者により設定される（データにより決定されない）。最も一般的には、９５％信頼レベルが用いられるが、他の信頼レベル、例えば、８０％〜９９％、例えば、８０％、９０％、９８％又は９９％の間の任意の値が用いられうる。

いくつかの実施形態では、信頼区間は、単一（例えば、単一の読取に基づく）又は複合（例えば、複数の読取に基づく）であってよい。信頼帯域又は信頼区間もまた、用いられうる。信頼区間は、複数量を扱うために信頼区間の概念を一般化したものであり、可能性のあるサンプリング誤差の程度及び／又は統計解析に用いられる量の信頼性の欠如を明らかにするのに有用である。信頼帯域は、限られたデータ又はノイズの多いデータに基づく曲線又は関数の推定値の不確実性を表すのに用いられ、予測帯域は、曲線上の新しいデータ点の値に関する不確実性を表すのに用いられうる（ノイズの影響を受ける）。

場合によっては、ＣＯＳＭＩＣ変異パターンの寄与に関する計算された信頼性メトリックは、検出閾値に対してチェックされうる。いくつかの実施形態では、閾値は、健常試料からの経験的に測定された基礎ノイズ検出推定値、例えば、閾値を上回る少なくとも２標準偏差（ＳＴＤ）、特に閾値を上回る少なくとも３標準偏差、好ましくは閾値を上回る少なくとも４標準偏差、特に閾値を上回る少なくとも５標準偏差のｚスコアにより定義される。

例示のため、純粋に例示として、本開示の方法は、まず、被験体の生物学的試料（例えば、血漿試料及び正常細胞試料を含む試料）から配列決定された複数の遺伝子マーカーを受け取って、マーカー（例えば、ｓＳＮＶ、ＣＮＶ、インデル、及び／又はＳＶ）を含む被験体特異的なゲノムワイドの遺伝学的読取の一覧を作成し、次いで、ＢＱ、ＭＱ、読取中の位置（ＰＩＲ）、断片サイズ、及び／又はＶＡＦから選択された１又はそれ以上のパラメータを用いて、読取一覧由来の人為的的ノイズをフィルタリングし；ノイズ除去された読取を、ＰＣＲ及び／又は配列決定エラーにより生成されたノイズから識別しうるニューラルネットワークに入力し；がん兆候（例えば、ＣＯＳＭＩＣサイン）に適合されるフィルタリングされたノイズ除去された被験体特異的サインを生成し、ここで、マッチングは、すべてのマーカー又はそのサブセットに対するｚスコアの計算又は確率の評価を含み、被験体のパターンと参照がんパターンとの間の密度関数；被験体のパターンが腫瘍パターンを含むことを示す信頼区間を出力して、被験体の腫瘍を診断することを含む。代表的な方法は、図１Ａのフローチャートに示す。当該方法の詳細は、以下の例を参照のこと。

ある実施形態では、がんパターンは、組織特異的クロマチンアクセス可能性パターン（例えば、メチル化状態）等の組織特異的エピジェネティックパターンと関連するパターンを含んでよい。

いくつかの実施形態では、診断方法は、核型決定をさらに用いうる。例えば、腫瘍特異的で存在量の少ないマーカーを含むデータセットは、例えば、中心体に近接するマーカーを排除して、さらに核型分類されうる。本工程は、上記マッピング技術を用いて実施しうる。さらに、低存在量マーカーを含むデータセットは、異数性マーカー、例えば、遺伝子増幅又は遺伝子欠失を示すマーカーと直交的に組み込むことができる。

〔診断／スクリーニング方法を実施するシステム及び装置〕
例えば、方法１００等の本明細書に記載される方法は、独立設置装置としてコンピュータシステム４００を用いて、又はクラウドコンピューティングネットワーク等の共有されたコンピュータ処理リソースの分散ネットワーク上で実装しうる。従って、人為的的ノイズ（例えば、低ＢＱ／ＭＱマーカー、約１６０ｂｐの閾値断片サイズより大きいマーカー；及びＶＡＦが約４％の閾値より小さいマーカーと関連する）を除去する開示された方法をコンピュータに実行させるため、第１プログラムが記憶される非一時的コンピュータ読取可能媒体を提供しうる。ノイズ（例えば、ＰＣＲ／配列決定エラーに関連する）を適応的かつ体系的にフィルタリングする第２プログラムが記憶される非一時的コンピュータ読取可能媒体を提供しうる。例えば、ｚスコアを決定するか、又は確率密度関数を分析して、ノイズフィルタリングされたＣＮＮ処理された被験体特異的パターンとがんパターンとをマッチングさせ、マッチングの信頼区間（ＣＩ）を出力する第２プログラムが記憶され、閾値（例えば、８０％、９０％、９５％又は９９％）以上のＣＩが、被験体が腫瘍に冒されていることを示す、非一時的コンピュータ読取可能媒体を提供しうる。いくつかの実施形態では、第１、第２、第３の各々のプログラムは、別個に（例えば、独立設置型で）提供又は用いられてよく、いくつかの実施形態では、第１、第２、第３のプログラムは各々、（例えば、パッケージとして）ともに提供又は用いられてよい。

また、上記実施形態は、全体又は部分的に、記載された方法の実行に統合された構成要素のシステムとして提供されうることも理解されるべきである。例えば、図１Ａのワークフローは、がん患者のｃｆＤＮＡに存在する高品質の低存在量の腫瘍特異的マーカーを同定し、さらに高感度、正確かつ正確な方法で早期診断を可能にする構成要素又はステーションのシステムとして提供されうる。

上記の詳細な説明から、本開示のシステム及び方法の顕著な特徴の１つは、ノイズを適応的かつ体系的にフィルタリングしうるエンジンの使用である。代表的なエンジンを以下に詳細に説明する。エンジンは、例えば、図１Ａのフローチャート（注：フローチャートにおけるエンジンの位置決めは、代表的な方法論に適合するように、単に例示的である）により、本開示の診断方法（以下に詳細に議論される）で実施されてよい。エンジンは、マーカー内の不変性（例えば、ｓＳＮＶを含む体細胞変異）を捕捉しうる畳込ニューラルネットワーク（ＣＮＮ）を含んでよい。ＣＮＮとそれに対応する構造は、「畳込ニューラルネットワーク（ＣＮＮ）」の項目を参照して、以下で詳しく説明する。

低品質のマーカーを除去するエンジン能力は、合成血漿試料及び実際の血漿ＤＮＡ試料で評価しうる。合成血漿試料は、試験試料（例えば、肺試料）から、患者の健常ＤＮＡ及び患者の腫瘍ＤＮＡから無作為にサンプリングして生成されうる。実際の血漿ＤＮＡ分析には、喫煙肺がん患者由来の血漿試料を用いることができる。対照には、患者のＰＭＢＣを用いてよい。あるいは、がんでない又は健常被験体由来の血漿試料を対照として用いることもできる。

機械学習（ＭＬ）が、ノイズデノボ（例えば、増幅（ＰＣＲ）中のエラー、配列決定中のエラー、マッピング中のエラー、及び他の偽陽性マーカー（例えば、対照試料に見られる変異））を抑制し、被験体の試料の変異の検出にどのように用いられうるかの例示的な概略が、図５に提供される。示されるように、遺伝学的データは、適当なフォーマット（例えば、ＶＣＦフォーマットという変異体）で被験体から受け取られるが、これは真の陽性又は偽陽性の可能性がある。当該データは機械学習ツール、例えばｎ次元畳込ニューラルネットワーク（ＣＮＮ）に入力される。ＣＮＮは、位置ごとにＫフィルタがあってよく、合計３２Ｄ学習可能フィルタがあってよく、ここで、Ｄは、ＣＮＮ内の寸法の数である。遺伝学的データは、例えば、サイズ２及び歩数２を用いて、最大プールされる。配列決定読取は、いかなる方法を用いて、離散的特徴で表現して捕獲される。例えば、最大１、２、３、４．．．ｎ特徴長を含む空間指向表現を用いうる。

例示的な特徴が、図８に提供される。示されるように、最初の５行は参照文脈（例えば、ヒトゲノム中の配列）を表し、次の５行は読取配列（読取における塩基対）を表し、１１〜１５行はアラインメントストリング（ＣＩＧＡＲ）を表し、最後の行は読取各位置における品質スコアを表す。特徴の各列は、特定の塩基の有無を表すインジケータベクトルを表す。読取、ゲノムコンテキスト、及びＣＩＧＡＲ行は、１つのホットなエンコーディングのように、相互に排他的である。機能の構築及び実装に関する詳細は、以下の代表的な実施例に記載される。

エンジンは、独立したツールとして、又はＰＩＬＥＵＰ（Li et al., Bioinformatics, 25(16):2078-2079, 2009）、ＳＴＲＥＬＫＡ（Saunders et al., Bioinformatics, 28(14):1811-1817, 2012）、ＬＯＦＲＥＱ（Wilm et al., Nucleic acids research, 40 (22):11189-11201, 2012）等の他の先行技術で公知の呼出装置を用いてよい。エンジンの位置及び入出力の例示的な概略を図７に示す。注：エンジンは、本図ではパイプラインの遠位端に位置するが、実際には、エンジンは、プロセスの任意のレベル又はステージに位置してよい。エンジンの訓練のため、混合された腫瘍生検試料及び末梢血単核細胞（ＰＭＢＣ；対照）からのマーカーの集合体を含む遺伝学的データを、場合によっては、上記フィルタに供する（例えば、ＰＩＬＥＵＰを介した人為的体読取カタログ化；ＶＡＦを用いた生殖細胞系の変異を除く；適当なＢＱフィルタを用いた低塩基品質のマーカーの除去；及び適当なＭＱフィルタを用いて不十分にマッピングされたマーカーの除去）。また、装置は、データセットを用いて訓練されてよい。

エンジンを肺がん患者から独立した試料を用いて実装した場合、真の体細胞変異とノイズを高感度かつ高精度で識別できることがわかった。結果を図８及び図９に示す。合成プラズマを用いて行われた実験は、エンジンが低腫瘍画分（ＴＦ）で特に正確で感度が高く、ＭＵＴＥＣＴ（Cibulskis et al., Nature biotechnology, 31(3):213-219, 2013）及び／又はＰＩＬＥＵＰ等の最先端呼出よりも優れていることを明らかである。特に、エンジンは、インシリコ分析及び臨床現場ともに優れた性能を示した。エンジンは、バランスのとれた腫瘍分画設定で、ＭＵＴＥＣＴ等のプログラムと比較して特に良好な性能を示した。例えば、感度の測定基準では、ＭＵＴＥＣＴ、ＳＮＯＯＰＥＲ（Spinella et al., BMC Genomics, 17(1):912, 2016）及びＳＴＲＥＬＫＡよりも優れていた。図９Ａ参照。正確な測定基準では、これは全ての腫瘍画分でＰＩＬＥＵＰより優れ、低ＴＦでは約２５倍であった（ＴＦ＝０．０００１）。さらに、シミュレートしたプラズマでも性能の大部分が維持された。エンジンはまた、０．０００１のＴＦ（ＰＩＬＥＵＰを上回る）の約３０倍まで濃縮され、関連する体細胞変異が配列決定ノイズ自体の１０倍より低頻度でも捕捉できることが示唆された。図９Ｃ参照。対照的に、ＭＵＴＥＣＴは、全ての腫瘍画分で約２倍（ＰＩＬＥＵＰと比較して）とその改善はわずかであった。さらに、エンジンは、ユーザが偽陰性を最小限に抑制でき、特異性が優先されるアプリケーションでは、偽陽性を最小限に抑制するようにエンジンを設定しうる。エンジン変異体識別システムは、偽陽性と偽陰性を同時に最小限に抑え、不一致精度と精度で変異を検出しうる（表４の一覧を参照）。

特に、エンジンは、場合によっては、変異周波数フィルタ及び／又は塩基品質マッピング品質フィルタ等のノイズキャンセレーションフィルタと共に、当該技術分野で公知の変異呼出側の精度の大幅な改善に適用されうる。下記の実施例では、変異呼出側ＰＩＬＥＵＰを、下流ノイズキャンセレーションフィルタ及びエンジンと共に用いる代表的なパイプラインを説明する。実際の血漿試料との関連で、上記パイプラインは、ＰＩＬＥＵＰ、ノイズ除去フィルタ（変異頻度（ＭＦ）及び品質（ＢＱＭＱ）に基づく）、及びエンジンを含み、腫瘍ＤＮＡ分析用試料を有意に濃縮する一方で、偽陽性を有意に抑制する。つまり、当該結果は、エンジンが、変異呼出の性能の大幅な改善に用いることができ、感度損失があった場合でもほとんどないことを実証する。

エンジンの性能は、読取とそのアラインメントを横断した特徴の統合が、高深度でカバーされ、かつ試料の完全な変異プロファイルを用いて、新たな体細胞変異呼出のセットが作成されたことを示す。簡単な測定ツールを用いて当該感受性レベルで変異を捕捉し、がん患者の治療及び／又は管理に用いうる新規の改良診断プラットフォームが可能になる。

本開示は、エンジンの少なくとも３つの潜在的応用、すなわち、特にがんの診断、予後及びケア、及び他の臨床状況における体細胞ＳＮＶ変異の検出の改善；遺伝病の診断及び疾患リスクの推定のための構造的変異体の検出の改善；及び／又は生物医学研究、疾患の診断、及び／又は治療における生殖細胞系ゲノムＳＮＶの検出の改善に関する。図１０参照。

現状の先行技術に基づき、エンジンは、早期がん検出のための液体生検等の、対立遺伝子頻度が低い設定で機能するように設計された最初の体細胞変異呼出である。早期検出目標を達成するため、読取とその整列に関連する期待される特徴を最良に捕捉するように、カスタム構造を用いて読取の新一覧を実施した。従って、本開示は、液体生検における検出に貢献しうる体細胞変異呼出の新しいファミリーを提供し、特に、早期腫瘍検出及び残存腫瘍の検出の文脈で、がん診断の極めて重要で非侵襲的方法に貢献しうる。

〔コンピュータシステム〕
いくつかの実施形態では、本開示の診断方法は、コンピュータシステム上で実施される。純粋に代表的な例として、当該コンピュータシステムの概略図を図１５に示す。図１５は、コンピュータシステム４００を示すブロック図であり、本ブロック図は、本開示の実施形態の部分又は複数の実施形態を実装しうる。本開示の様々な実施形態では、コンピュータシステム４００は、情報を通信するバス４０２又は他の通信メカニズム、及び情報を処理するバス４０２と結合されたプロセッサ４０４を含みうるむ。様々な実施形態では、コンピュータシステム４００はまた、メモリを含むことができ、本メモリは、バス４０２に結合された他の動的記憶装置であってよく、無作為アクセスメモリ４０６又はプロセッサ４０４により実行される命令を決定する。メモリはまた、プロセッサ４０４により実行される命令の実行中に、一時変数又は他の中間情報の記憶に用いられうる。様々な実施形態では、コンピュータシステム４００は、さらに、読取専用メモリ４０８又はバス４０２に結合された他の静的記憶装置を含み、プロセッサ４０４のための静的情報及び命令を記憶しうる。磁気ディスク又は光ディスク等の記憶装置４１０を提供し、バス４０２に結合して情報及び命令を記憶しうる。様々な実施形態では、コンピュータシステム４００は、バス４０２を介して、コンピュータユーザに情報を表示する陰極線管又は液晶ディスプレイ等のディスプレイ４１２に結合しうる。英数字及び他のキーを含む入力装置４１４は、情報及びコマンド選択をプロセッサ４０４に通信するためにバス４０２に結合しうる。別のタイプのユーザ入力装置は、マウス、トラックボール又はカーソル方向キー等のカーソル制御装置４１６であり、方向情報及びコマンド選択をプロセッサ４０４に通信し、ディスプレイ４１２上のカーソルの動きを制御する。本入力装置４１４は、通常、第１軸（例えば、ｘ）及び第２軸（例えば、ｙ）の２つの軸で自由度が２つあり、これにより、装置は、平面内の位置を指定しうる。しかしながら、３次元（ｘ、ｙ及びｚ）カーソル移動を可能にする入力デ場合ス４１４もまた、本明細書において考えられることが理解されるべきである。

本開示の特定の実施態様と整合的に、結果は、メモリ４０６に含まれる１又はそれ以上の命令の１又はそれ以上の配列決定を実行するプロセッサ４０４に応答して、コンピュータシステム４００により提供されうる。当該命令は、記憶装置４１０等の別のコンピュータ読取可能媒体又はコンピュータ読取可能記憶媒体からメモリ４０６に読み込みうる。メモリ４０６に含まれる命令の配列決定の実行は、プロセッサ４０４に本明細書に記載のプロセスを実行させうる。あるいは、本教示を実施するために、ソフトウェア命令の代わりに、又は、ソフトウェア命令と組み合わせて、ハードワイヤード回路を用いてよい。従って、本教示の実施形態は、ハードウェア回路とソフトウェアとの特定の組み合わせに限定されない。

本明細書で用いられる用語「コンピュータ読取可能媒体」（例えば、データ記憶装置、データ記憶装置など）又は「コンピュータ読取可能記憶媒体」は、実行のためのプロセッサ４０４への命令の提供に関与する任意の媒体をいう。当該媒体は、限定されるものではないが、不揮発性媒体、揮発性媒体、及び伝送媒体を含む多くの形態をとってよい。不揮発性媒体の例としては、光学、固体、磁気ディスク、例えば記憶装置４１０が挙げられるが、これらに限定されない。揮発性媒体の例としては、メモリ４０６等のダイナミックメモリが挙げられるが、これらに限定されない。伝送媒体の例としては、バス４０２を構成するワイヤを含む、同軸ケーブル、銅線、及び光ファイバが挙げられるが、これらに限定されない。

コンピュータ読取可能媒体の一般的な形態には、例えば、フロッピーディスク、フレキシブルディスク、ハードディスク、磁気テープ、又は他の磁気媒体、ＣＤ−ＲＯＭ、他のいかなる光学媒体、パンチカード、紙テープ、穴のパターンを有する他のいかなる物理媒体、ＲＡＭ、ＰＲＯＭ、及びＥＰＲＯＭ、ＦＬＡＳＨ−ＥＰＲＯＭ、他の任意のメモリチップ又はカートリッジ、又はコンピュータが読込可能な他のいかなる有形媒体が含まれる。

コンピュータ読取可能媒体に加えて、データは、実行のためにコンピュータシステム４００のプロセッサ４０４に１又はそれ以上の命令の配列決定を提供するため、通信装置又はシステムに含まれる伝送媒体上の信号として提供されうる。例えば、通信装置は、命令及びデータを示す信号を備えるトランシーバを含みうる。命令及びデータは、１又はそれ以上のプロセッサに、本明細書の開示に概説される機能を実施させるように構成される。データ通信伝送接続の代表的な例としては、例えば、電話モデム接続、ワイドエリアネットワーク、ローカルエリアネットワーク、赤外線データ接続、ＮＦＣ接続などが挙げられる。

フローチャート、ダイアグラム、及び付随する開示を含む本明細書に記載の方法は、独立型装置としてコンピュータシステム４００を用いて、又はクラウドコンピューティングネットワーク等の共有されたコンピュータ処理リソースの分散ネットワーク上で実施しうることは理解されるべきである。

〔システム〕
本開示は、さらに、本開示の方法を実施するシステムに関する。代表的なシステムは、図１６Ａ〜１６Ｃの概略図に示される。図１６Ａは、本開示の診断方法を実施する例示的なシステムを示す。本明細書に示すように、データ収集ユニット５１０、マーカー識別ユニット５２０、診断ユニット５５０、及び関連する入力装置（図示せず）を介してデータを出力し、ユーザ入力を受信するディスプレイ４１２を含みうるシステム５００が提供される。マーカー識別ユニット５２０は、ノイズ除去ユニット５３０及び分類エンジン５４０を含みうる。図１６Ａは、システムの１つの構成を示すことに留意されたい。当該コンポーネントの配向及び構成は、必要に応じて変更しうる。さらに、本システムに追加のコンポーネント（例えば、畳込ニューラルネットワーク）を追加しうる。当該様々なコンポーネント、それらの様々な操作、それらの様々な配向、及び互いの間の様々な関連について、以下に詳細に論じる。

図１６Ａのデータ収集５１０ユニットは、被験体由来の遺伝学的一覧、例えば、被験体の血漿試料及び正常細胞試料を含む生物学的試料から配列決定された複数の遺伝学的マーカーを受け取って、被験体特異的ゲノムワイド遺伝学的マーカー一覧を生成するように、構成されかつ配置されうる。いくつかの実施形態では、遺伝子マーカー一覧は、物理ディスク（例えば、コンパクトディスク、ＤＶＤ）内の、又はインターネット（例えば、サーバ又はクラウドにより提供されるように）を介して、変異呼出フォーマット（ＶＣＦ）ファイルで受信される。いくつかの実施形態では、被験体の試料は、例えば、全ゲノム配列決定（ＷＧＳ）を用いて配列決定され、配列ファイルは、データ収集ユニット５１０に直接送信される。いくつかの実施形態では、データ収集ユニット５１０は、システム５００内のさらなる分析のために、受信データを再フォーマットし、編成し、分類し、又は他の方法で再構成しうる。いくつかの実施形態では、ユニット５１０は、例えば、ディスプレイ４１２、それに関連するデータ又はユーザ入力、それに関連するメモリ、又はコンピュータシステム４００に関連する別のメモリ構成要素を介して、データを受信しうる。

データ取得部により取得されたデータは、マーカー識別部５２０に転送しうる。マーカー同定ユニット５２０は、被験体に特有の遺伝子マーカーの一覧内のマーカーを分析する１又はそれ以上のエンジンを含みうる。ノイズ除去ユニット５３０は、ユニット５２０の構成要素の１つとして、ＢＱ、ＭＱ、断片サイズ、及び／又はＶＡＦに基づきマーカーを重量測定して、人為的的ノイズをフィルタリングするための１又はそれ以上のプログラムを含むことができ、これには、例えば、読取内位置（ＲＰ）、配列コンテキスト、存在量、配列決定深度、及び／又は配列決定誤差のうちの１又はそれ以上が含まれる。好ましくは、ノイズ除去ユニットは、断片サイズスコア及び／又はＶＡＦスコアと統合されたスコア、例えば、ジョイント塩基品質スコア及びマッピング品質スコアに基づき、公定書における遺伝子マーカーの確率論的分類を含む、最適受信者動作特性曲線を計算するプログラムを含む。ノイズ除去ユニットは、通常、ポテンシャルマーカーの中から無作為に選択された候補マーカーが無作為に抽出された制御マーカーよりも高い値を示す確率を表すＲＯＣ曲線下面積を測定するプログラムを含みうる。分類器は、特定のビンニングマーカーが、ＲＯＣ曲線に基づく「偶然」マーカーであるか、又は「真」マーカーであるかを評価するプログラムを含み得る。

いくつかの実施形態では、ノイズ除去ユニットは、確率スコア（ＰＤ）に基づきマーカーを計量しうる。好ましくは、本プログラムは、ベルヌーイ式ＰＤ＝１−〔（１−ＴＦ）〕^ＧＥに基づき検出の確率（ＰＤ）を測定し、ここで、ＰＤは検出の確率であり、ＴＦは腫瘍画分であり、ＧＥは患者ＤＮＡに存在するゲノム等価物の数である。各遺伝子マーカーは、ＰＤに基づいて重み付けされてよく、ここで、最もＰＤが高いマーカーが含まれる。例えば、遺伝子マーカーのＰＤ閾値は、少なくとも約０．６０、例えば、少なくとも約０．６５、０．７０、０．７５、０．８０、０．９０、０．９５又はそれ以上、例えば、少なくとも約０．９８に基づきビンディングされうる。従って、マーカーのＰＤが閾値を下回る場合、それは偽陽性として分類され得、分析には含まれない。

マーカー識別ユニット５２０は、例えば、マーカーがノイズと関連する可能性を検査しうる分類エンジン５４０を含んでよい。分類器は、エラーマーカー（例えば、ＰＣＲ又は配列決定によるエラー）を適応的に認識しうるアルゴリズム又はニューラルネットワークを含む分類スキームを含んでよい。１つの具体的な実施形態では、分類ユニット５４０は、腫瘍特異的低存在量マーカーの正確な検出に影響し得る配列決定ノイズを適応的に及び／又は体系的にフィルタリングする深層畳込ニューラルネットワークを含む。ＣＮＮは、マーカー同定ユニット５２０内に別個のエンジンとして提供されてよく、又は、例えば、マーカー同定ユニット５２０と診断ユニット５５０との間に別個のユニットとして提供されてよい。ＣＮＮの特徴（図１６Ａには示されていない）は、以下に詳細に説明される。

最後に、ノイズフィルタリングされ、ＣＮＮにより処理されるマーカーを含む被験体特異的特徴は、診断ユニット５５０にファイルとして提供され得、診断ユニットは、被験体特異的特徴とがん特徴との間の一致を示す統計スコアに基づき、疾患（例えば、腫瘍疾患）を診断するように構成されかつ配置される。診断ユニットは、がんパターンを含むリポジトリ、例えば、がんにおける体細胞変異のカタログ（ＣＯＳＭＩＣ）データベース又は肺がん研究のためのラテンアメリカ・コンソーシアム（ＣＬＩＣａＰ）データベースを含みうる。診断ユニット５５０は、既知のがん変異パターン（例えば、ＣＯＳＭＩＣのパターン１〜３０のいずれか）と被験体特異的変異パターンとの間を比較する１又はそれ以上のソフトウェア又はアルゴリズムを含んでよい。当該比較ソフトウェアの代表的な例は、例えば、個々のマーカーのレベルでの信頼性推定値の測定、並びに２、５、１０、２０、５０、１００、２００、５００、１０００以上、例えば、５０００個の固有マーカーを含むプールを含む。代表的な方法は、線形最適化（上記）を用いたＺスコア信頼水準の推定、又はコサイン類似関数（上記）を用いた正規化確率密度関数（ＰＤＦ）の類似性の確認を含む。

診断エンジンの出力は、例えば、ユーザレビュー用に表示４１２に出力しうる。いくつかの実施形態では、出力は、未加工の信頼区間（ＣＩ）スコア又は順序スコア（例えば、１〜１０の尺度におけるスコア、１０は可能性が高く、１は被験体が腫瘍疾患を有する可能性が低いスコア）を含んでよい。

方向付けに関して、図１６Ａのシステム５００のマーカー識別ユニット５２０は、データ収集ユニット５１０に通信接続されうる。さらに、マーカー識別ユニット５２０（及び本明細書に記載）の部分として示される各構成要素（例えば、エンジン、モジュール等）は、ハードウェア、ファームウェア、ソフトウェア、又はそれらのいかなる組み合わせとして実装されうる。様々な実施形態では、マーカー同定ユニット５２０は、データ収集ユニット５１０を有する統合計測システムアセンブリとして実装しうる。すなわち、ユニット５２０及びユニット５１０は、同一のハウジングアセンブリ内に収容され、従来の装置／構成要素接続手段（例えば、シリアルバス、光ケーブル、電気ケーブルなど）を介して通信しうる。様々な実施形態では、マーカー識別ユニット５２０は、例えば、データ収集ユニット５１０により取得された画像データを分析のマーカー識別ユニット５２０へ送信することを可能にするＬＡＮ又はＷＡＮ接続を介して、光、シリアルポート、ネットワーク又はモデム接続を介して、データ収集ユニット５１０に通信接続される独立設置型計算装置（図１６に示す）として実装されうる。様々な実施形態では、マーカー同定部５２０の機能は、ＷＡＮ（又は同等物）接続を介してデータ取得部５１０に通信接続される共有コンピュータ処理リソースの分散ネットワーク（クラウドコンピューティングネットワークなど）上で実現しうる。例えば、マーカー識別ユニット５２０の機能を分割して、アマゾンウェブサービス（商標）等のクラウド処理サービス上の１又はそれ以上のコンピューティングノードに実装しうる。

図１６Ｂは、本開示の診断方法を実施する第２例示システムを示す。図１６Ｂに示すように、例示的システム１００は、それを必要とする被験体の遺伝子スクリーニングのために構成されかつ配置される。図１６Ｂを参照すると、システム１００は、分析ユニット１１０及び演算ユニット１４０を備えうる。分析ユニット１１０は、プレフィルタエンジン１２０及び補正エンジン１３０を含みうる。当該システムコンポーネント及び関連エンジンは、以下でさらに詳解する。

再び図１６Ｂを参照すると、分析ユニット１１０のプレフィルタエンジン１２０は、被験体の生物学的試料からの複数の遺伝子マーカーに関連する被験体特異的ゲノムワイドの読取一覧を受け取るように構成されかつ配置されうる。本明細書のワークフローの記載のように、様々な実施形態により、生物学的試料は、腫瘍試料を含むことができ、読取一覧は、各々、単一の塩基対長の読取を含みうる。

また、プレフィルタエンジン１２０は、人為的体部位を読取一覧からフィルタリングするように構成及び配置することもできる。本明細書のワークフローの記載のように、様々な実施形態により、フィルタリングは、参照健常試料のコホートにわたって生成された反復部位を読取一覧から除去すること、及び／又は生物学的試料における生殖細胞系変異を同定すること、及び／又は正常細胞試料の腫瘍試料と末梢血単核細胞との間の共有された変異を生殖細胞系変異として同定すること、及び前記生殖細胞系変異を読取一覧から除去することを含みうる。

分析ユニット１１０の補正エンジン１３０は、エンジン１２０からの出力を受け取るように構成及び配置しうる。補正エンジン１３０は、少なくとも１つのエラー抑制プロトコルを用いて、読取のゲノムワイドの一覧からのノイズをフィルタリングして、前記読取のゲノムワイドの一覧用にフィルタリングされた読取セットを生成するように構成及び配置しうる。

本明細書のワークフローの記載のように、様々な実施形態により、前記少なくとも１つのエラー抑制プロトコルは、一覧内のいかなる単一ヌクレオチド変異が人為的的変異である確率を計算し、かつ、前記変異を除去することを含みうる。

本明細書のワークフローの記載のように、様々な実施形態により、確率は、マッピング品質（ＭＱ）、変異体塩基品質（ＭＢＱ）、読み込み位置（ＰＩＲ）、平均読取塩基品質（ＭＲＢＱ）、及びそれらの組み合わせからなる群から選択される特徴の関数として計算しうる。

本明細書のワークフローの記載のように、かつ、様々な実施形態により、少なくとも１つのエラーサプレッションプロトコルは、ポリメラーゼ連鎖反応又は配列決定プロセシングから生成された同一ＤＮＡ断片の独立した複製間の不一致試験、及び／又は所与の重複ファミリーの大部分にわたる不一致時に、人為的的変異が同定及び除去される重複コンセンサスを用いて、人為的的変異を除去することを含みうる。

システム１００の演算ユニット１４０は、補正エンジン１３０からの出力を受け取り、予め決定された変異誘発プロセスに関連する特定の変異パターンとの比較に基づき、フィルタリングされた読取セットを用いて、被験体特有のパターンを編集するように構成及び配置しうる。

演算ユニット１４０はまた、被験体の生物学的試料が、被験体に特異的な特徴を介して、がん関連変異パターン曝露値のバックグラウンドの変異パターンとのコホートの比較に基づき、がん関連変異パターンを含むという信頼性推定値を統計的に定量するように構成されかつ配置されうる。演算ユニット１５０は、被験体の生物学的試料ががん関連変異パターンを含むという信頼性推定値が所与の閾値を超える場合に、被験体のがんをスクリーニングするようにさらに構成及び配置しうる。

システム１００はまた、図１６Ｂに示すように、ディスプレイ１５０を含みうる。ディスプレイは、演算ユニット１４０からの出力を受け取るように構成及び配置しうる。出力には、被験体／使用者のがんスクリーニングに関するデータを含めることができる。あるいは、システム１００は、ディスプレイを除外してよく、代わりに、コンピュータユニット１４０からのデータ出力を、システム１００の外部のいかなる形式の記憶装置若しくはディスプレイ装置又は位置に送信してよい。また、本明細書に記載されるように、システム１００の構成要素は、１つの単一ユニットに統合でき、又は、図１６Ｂに示されるよりも別個の物理ユニットに分割しうる。さらに、システム１００は、各々が実質的に類似のタスクを実行し、各システムからハブへデータを送信するシステムの分散ネットワークの部分としうる。

図１６Ｃは、本開示の診断方法を実施する第３例示システムを示す。図１６Ｃに示すように、例示システム１００は、それを必要とする被験体のがんの遺伝子スクリーニングを行うように構成されかつ配置される。システム１００は、分析ユニット１１０及び演算ユニット１５０を備えうる。分析ユニット１１０は、ビンニングエンジン１２０、プレフィルタエンジン１３０、及び正規化エンジン１４０を含みうる。当該システムコンポーネント及び関連エンジンは、以下でさらに詳解する。

再び図１６Ｃを参照すると、ビンニングエンジン１２０は、被験体の生物学的試料から複数の遺伝子マーカーに関連する被験体特有の読取のゲノムワイドの一覧を受け取るように構成されかつ配置されうる。本明細書のワークフローの記載のように、様々な実施形態により、第１生物学的試料は、腫瘍試料を含むことができ、第１読取一覧は、コピー数変異（ＣＮＶ）を含みうる。

ビンニングエンジン１２０は、読取一覧を複数のウインドウに分割し、ウインドウごとに一組の特徴を計算するように構成及び配置しうる。特徴は、ウインドウ当たりの中央の深度のカバレッジとウインドウ当たりの代表的な断片サイズを含みうる。

プレフィルタエンジン１３０は、人為的体部位を読取一覧からフィルタリングするように構成及び配置しうる。フィルタリングは、参照健常試料のコホート上で生成された反復部位を読取一覧から除去することを含みうる。

分析ユニット１１０の正規化エンジン１４０は、エンジン１３０からの出力を受け取るように構成及び配置しうる。正規化エンジン１４０は、読取のゲノムワイドの一覧用のフィルタリングされた読取セットを生成するために、読取一覧を正規化するように構成及び配置しうる。正規化方法は、本明細書中で詳細に議論され、そして意図されるいかなる組み合わせで用いられて、議論されるように読取を正規化しうる。

システム１００の演算ユニット１５０は、正規化エンジン１４０からの出力を受け取り、ウインドウ当たりの特徴のセット間の線形関係を計算し、回帰モデルを用いて計算された関係を推定腫瘍画分（ｅＴＦ）に変換して、フィルタリングされた読取セットを用いて推定腫瘍画分を計算するように構成及び配置しうる。演算ユニット１５０は、また、被験体に特有の前記読取のゲノムワイドの一覧を横断するウインドウ当たりの特徴の計算されたセットの関数として、１又はそれ以上の統合的数学モデルに基づき推定腫瘍画分を計算するように構成されかつ配置されうる。演算ユニット１５０は、推定された腫瘍画分が経験的閾値を超える場合に、がんについて被験体をスクリーニングするようにさらに構成及び配置しうる。回帰モデル、積分数学モデル、及び経験的閾値は、本明細書中で詳細に議論される。

システム１００はまた、図１６Ｃに示すように、ディスプレイ１６０を含みうる。ディスプレイは、演算部１５０からの出力を受け取るように構成及び配置しうる。出力には、被験体／使用者における残存病変の検出に関連するデータを含めることができる。あるいは、システム１００は、ディスプレイを除外してよく、代わりに、コンピュータユニット１５０からのデータ出力を、システム１００の外部の任意の形式の記憶装置又はディスプレイ装置又は位置に送信してよい。また、本明細書に記載されるように、システム１００の構成要素は、１つの単一ユニットに統合でき、又は、図１６Ｃに示されるよりも別個の物理ユニットに分割しうる。さらに、システム１００は、各々が実質的に類似のタスクを実行し、各システムからハブへデータを送信するシステムの分散ネットワークの部分としうる。

〔畳込ニューラルネットワーク（ＣＮＮ）〕
本開示は、さらに、順序付けノイズを適応的に及び／又は体系的にフィルタリングするために、畳込ニューラルネットワーク（ＣＮＮ）、例えば、エンジンを利用するシステム及びプログラムに関する。

本開示はさらに、ゲノム読取における体細胞変異を含む腫瘍マーカーを検出するプログラムを含むコンピュータ読取可能な記憶媒体に関し、当該プログラムは層状畳込ニューラルネットワークを含む。

当技術分野で公知の、畳込ニューラルネットワークは、一般に、処理及び分類／検出の高度な形態を、最初に、例えば読取における反復配列等の低レベルの特徴を探し、次いで、一連の畳込層を通してより抽象的な概念に進むことにより達成する。ＣＮＮは、一連の畳込、非線形、プール（又はダウンサンプリング、後述）、及び完全接続層を通してデータを渡し、出力を得て、これを行いうる。ここでも、出力は、データを最もよく記述する単一のクラス又はクラスの確率であってよく、又はデータ上の物体を検出する。

ＣＮＮ内の層では、第１層は一般に畳込層（ｃｏｎｖ）である。この第１層は、一連のパラメータを用いて、読取の代表的なアレイを処理する。データ全体を処理するのではなく、ＣＮＮはフィルタ（又はニューロン又はカーネル）を用いてデータサブセットの集合を分析する。サブセットは、配列内のフォーカルポイントと周囲のポイントを含む。例えば、フィルタは、３２×３２の表現で、５×５の領域（又は領域）のシリーズを検査しうる。当該領域は受容野という。フィルタは、一般に、入力と同じ深度であり、３２×３２×３の寸法を有する表現のフィルタは、同じ深度（例えば、５×５×３）であろう。上記例示的な寸法を用いて実際の畳込工程は、入力データに沿ってフィルタをスライドさせ、フィルタ値をデータの元の表現値と乗算し、要素ごとの乗算を計算し、当該値を加算して、表現の検査された領域のための単一の数値に到達することを含む。

５×５×３フィルタを用いて、本畳込工程の完了後、２８×２８×１の寸法の活性化マップ（又はフィルタマップ）が得られる。用いられる各追加の層について、空間的寸法は、２つのフィルタを用いて、２８×２８×２の活性化マップが得られるように、より良好に保存される。各フィルタには、一般に、最終データ出力に必要な特徴識別子をともに示す固有の特徴がある。当該フィルタを組み合わせて用いると、ＣＮＮは、データ入力を処理して、各表現に存在する当該特徴を検出しうる。従って、フィルタが曲線検出器として機能する場合、データ入力に沿ったフィルタの畳込は、曲線の可能性が高い（高加算要素毎の乗算）、曲線の可能性が低い（低加算要素毎の乗算）、又は特定の点における入力体積が曲線検出器検出器フィルタを活性化するものを提供しない場合のゼロ値に対応する活性化マップ中の数字のアレイを生成する。このように、Ｃｏｎｖ内のフィルタ（チャネルともいう）の数が多いほど、活性化マップ上で提供される深度（又はデータ）が多くなり、そのため、より正確な出力につながる入力に関する情報が増える。

ＣＮＮの精度とのバランスは、結果の生成に必要な処理時間と電力である。換言すれば、フィルタ（又はチャネル）の数が多いほど、畳込を実行するのに必要な時間と処理能力が高くなる。従って、ＣＮＮ法の要件を充足するフィルタ（又はチャネル）の選択及び数は、利用可能な時間及び電力を考慮しつつ、可能な限り正確な出力を生成するように特に選択されるべきである。

さらに、ＣＮＮがより複雑な機能を検出できるようにするために、追加のＣｏｎｖを追加して前のＣｏｎｖからの出力（例えば、活性化マップ）を分析しうる。例えば、第１Ｃｏｎｖが曲線やエッジ等の基本的な特徴を探す場合、第２Ｃｏｎｖは、より複雑な特徴を探索しうる。これは、以前のＣｏｎｖ層で検出された個々の特徴の組み合わせでありうる。一連のＣｏｎｖｓの提供により、ＣＮＮは、徐々に高いレベルの特徴を検出でき、最終的には、特定の望ましい物体の検出確率に到達する。さらに、Ｃｏｎｖｓスタックが互いに重畳し、以前の活性化マップ出力の分析により、スタック内の各Ｃｏｎｖレベルが縮小されるため、各Ｃｏｎｖは当然に広い受容野を分析し、それにより、ＣＮＮは、目的の物体の検出の際、拡大される表現空間に対応しうる。

ＣＮＮ構造は、一般に、入力ボリューム（データ）の畳込用の少なくとも１つの処理ブロックと、畳込解除（又は逆畳込）用の少なくとも１つの処理ブロックとを含む、処理ブロック群からなる。さらに、処理ブロックは、少なくとも１つのプールブロック及び非プールブロックを含みうる。プールブロックは、解像度のデータを縮小してＣｏｎｖで利用可能な出力を生成するのに用いうる。これは、計算効率（効率的な時間と電力）を提供し、ＣＮＮの実際の性能を改善しうる。当該プール、すなわちサブサンプリングブロックは、フィルタを小さくし、計算上の必要条件を妥当にする。当該ブロックは、出力を粗くし（受入れ可能なフィールド内で空間情報を失うことがある）、入力のサイズから特定の要因のみ低減しうる。

プール解除ブロックを用いて、当該粗出力を再構成し、入力ボリュームと同寸法の出力ボリュームを生成しうる。非プールブロックは、活性化出力を元の入力体積寸法に戻す畳込ブロックの逆動作とみなしうる。しかしながら、非プールプロセスは、一般に、単に粗い出力を疎活性化マップに拡散するだけである。この結果を避けるべく、畳込解除ブロックにより、本疎活性化マップを高密度化し、さらに必要な処理の後、最終的に、入力ボリュームにより近いサイズ及び密度である最終出力ボリュームを生成する、拡大及び高密度活性化マップが生成される。畳込解除ブロックは、畳込ブロックの逆動作として受容領域内の複数のアレイ点を単一数に減少させるのではなく、単一の起動出力点を複数の出力と関連付けて、結果として生じる起動出力を拡大し、高密度化する。

プールブロックを用いてデータを縮小でき、非プールブロックを用いて当該縮小活性化マップを拡大しうるが、畳込ブロック及び畳込解除ブロックは、別個のプールブロック及び非プールブロックがなくても、畳込／畳込解除及び縮小化／拡大化をともに構造化しうることに留意されたい。

プール及び非プールプロセスは、データ入力で検出される対象物体依存性の欠点がありうる。プールは一般に、ウインドウの重複なしにサブデータウインドウを見てデータを縮小するので、縮小化につれて、空間情報の損失が明らかになる。

処理ブロックは、畳込層又は畳込解除層と共にパッケージされる他の層を含みうる。これらは、例えば、整流線形単位層又は指数線形単位層を含むことができ、これらは、その処理ブロックにおけるＣｏｎｖからの出力を検査する活性化関数である。ＲｅＬＵ又はＥＬＵ層は、Ｃｏｎｖに固有の関心被験体の特徴の積極的検出に対応する値のみを前進させるゲート関数として作用する。

ＣＮＮは、基本構造の付与後、（関心被験体の）データ分類／検出の精度を高める訓練プロセス用に準備される。これには、逆伝搬（ｂａｃｋｐｒｏｐａｇａｔｉｏｎ）というプロセスが含まれる。本プロセスでは、訓練データセット、又はＣＮＮ訓練用試料データを用いて、最適な、つまり閾値精度に達するようにパラメータを更新する。逆伝搬は、一連の反復工程（訓練反復）を含み、これは、逆伝搬のパラメータに依存して、ＣＮＮを緩慢又は迅速に訓練する。逆伝搬工程は、一般に、与えられた学習速度により、フォワードパス、損失関数、バックワードパス、及びパラメータ（重み）更新を含む。フォワードパスは、ＣＮＮを通して訓練データを渡すことを含む。損失関数は、出力の誤差の尺度である。バックワードパスは損失関数の寄与因子を決定する。重み更新は、ＣＮＮを最適方向に移動させるフィルタのパラメータの更新を含む。学習速度は、最適到達用の各反復の重み更新の程度を決定する。学習率が低すぎる場合、訓練に時間がかかりすぎて処理能力が高くなりうる。学習速度が速すぎる場合、各重み更新が大きすぎ、所与の最適値又は閾値を正確に達成しえない場合がある。

逆伝搬プロセスは、訓練を複雑にしうるため、学習速度がより低く、訓練開始時により特異的で慎重に決定された初期パラメータが必要となる。当該複雑さの１つは、各反復終了時に重み更新があると、Ｃｏｎｖｓのパラメータの変更によるネットワークの深層増幅である。例えば、上記ように、ＣＮＮにより高いレベルの特徴分析が可能な複数のＣｏｎｖがある場合、最初のＣｏｎｖへのパラメータ更新は、後続の各Ｃｏｎｖで乗算される。正味の効果は、所定のＣＮＮの深度に依存し、パラメータに対する最小変化の影響が大きいことである。本現象を内部共変量シフトという。

一般に、本開示のＣＮＮは、順序付けノイズを適応的及び／又は体系的にフィルタリングしうる。いくつかの実施形態では、ＣＮＮ構造は、トリヌクレオチドコンテキストが変異誘発に関与する別個の特徴を含むという本発明者の認識に基づき設計された。従って、ＣＮＮは、サイズ３の知覚視野を用いて、ある位置の全ての特徴（カラム）を覆う。２つの連続畳込層の後、２の受容場と２の歩数がある最大プールによりダウンサンプリングが適用され、エンジンのモデルは狭い空間領域で最重要の特徴のみを保持するように強制される。得られた構造は、３ヌクレオチドのウインドウを越えて畳込されると空間的不変性が維持され、読取断片をおよそ８ヌクレオチドの領域に相当する２５セグメントに折りたたむことにより「マッピング品質」を捕捉する。最終分類は、最後の畳込層の出力を、Ｓ字状完全接続層に直接適用して行われる。ＣＮＮは、多層パーセプトロン又はグローバル平均プールでなく単純なロジスティック回帰層を採用して、ゲノム読取における位置関連の特徴を保持する。

エンジンの訓練には、まず、様々な肺がん患者とそれに対応する全身性エラープロファイルがサンプリングされる。訓練の目的は、真の体細胞変異の高感度検出を可能にし、また全身性エラーで生じた変異候補を拒絶する訓練スキームを用いることである。本訓練のため、各々が同じ患者由来の完全腫瘍試料及び健常組織試料を含む４つの試料を別個に、様々なタバコ喫煙肺がん患者から選択した（例えば、表３を参照）。例えば、３つの当業界で公知の呼出（ＳＴＲＥＬＫＡ、ＬＯＦＲＥＱ、及びＭＵＴＥＣＴ）のコンセンサスは、体細胞変異の最終呼出用に採用されうる。次に、当該変異を支持する読取値を腫瘍読取値として用いて、エンジンを訓練する。

モデルエンジンが配列決定の人為的体の区別の学習を確実にするために、正確に一度だけ発生する変異を含む健常試料から読み取る。当該変形は複数の読取では支持されないため、それらは体系的エラーの産物である確実性が高いとみなしうる。次いで、低品質の変異体をフィルタリングした。例えば、変異の塩基の品質スコアが２０未満の場合、又はマッピング品質が４０未満の場合（例えば、ＢＱ２０、ＭＱ４０）はフィルタにかけてよい。当該閾値は、純粋に例示的であり、読取値の検査により同定されうる。必要に応じて、低品質の試料を訓練エンジンに含めてよい。訓練セットのサブセットは、バリデーションデータセットとして用いてよく、これは、訓練の進捗をモニタリングするため、及び独立した読取でモデルの性能を検証するために用いうる。

本明細書の様々な実施形態では、コンピュータ読取可能媒体が提供され、コンピュータ読取可能媒体は、コンピュータ実行可能命令を含み、プロセッサは、プロセッサにより実行されると、被験体の試料から受け取った遺伝子マーカー一覧で、低存在量の腫瘍特異的マーカーを同定する方法又は一組の工程を、プロセッサに実行させる。ここで、遺伝子マーカーは、ゲノム読取では、ＳＮＶ（好ましくはＳＮＶ）、ＣＮＶ（好ましくはＳＣＮＶ）、インデル、及び／又はＳＶ（好ましくは転座、遺伝子融合、又はそれらの組み合わせ）を含む。好ましくは、媒体は、一端に単一の完全接続層がある層状畳込ニューラルネットワーク（ＣＮＮ）を含み、ＣＮＮは、３ヌクレオチドウインドウ上に畳込む場合に空間的に不変であり、読取った断片を、各々がほぼ８ヌクレオチドの領域を表す複数のセグメントに折りたたむことにより、マッピング品質を維持し、ＣＮＮは、一覧の中の各遺伝子マーカーを測定する。例えば、本開示のＣＮＮは、一端に単一の完全接続層と、出力が、２及び２の刻みの受容野を備える最大プールによりダウンサンプリングされる連続した畳込層とを含む８つの層を含むことができ；８層のＣＮＮは、サイズ３の知覚野を用いて、読取断片を約２５個の個々のセグメントに折り畳み、ゲノム読取中の位置にあるカラム上に畳み込む場合、空間的不変性を維持し；最後の畳込層の出力を、マーカーの最終的な分類が行われるシグモイド状の完全接続層に直接適用する。

ＣＮＮは、アラインメントのゲノムコンテキスト、完全な読取配列、及び塩基当たりの品質スコアの統合を同時に捕捉する読取表示を含みうる。部分的には、本配置及び構造のため、本開示のＣＮＮは、最先端の変異呼出装置ＭＵＴＥＣＴと比較して、読取ゲノムにおける体細胞変異を含む腫瘍特異的マーカーを約１．１２倍〜約１２倍の濃縮でもたらす。

本開示はまた、プロセッサにより実行されると、プロセッサに、診断を必要とする被験体のがんを診断する方法又は一組の工程を実行させる、コンピュータ実行可能命令を含むコンピュータ読取可能媒体にも関し、当該媒体は、畳込ニューラルネットワークを含む。いくつかの実施形態では、ＣＮＮは、腫瘍関連パターン及びＰＣＲ／配列決定エラーパターンを含む訓練データセットを用いて開発され、ＣＮＮを訓練して、がん変異支持的読取と人為的的変異（エラー）読取とを区別し；所望により、がん患者由来の実際の試料又はデータセットから得られた合成血漿を用いて検証する。被験体の試料から受け取った遺伝子マーカーの一覧で、遺伝子マーカーはゲノム読取においてＳＮＶ（好ましくはｓＳＮＶ）、ＣＮＶ（好ましくはｓＣＮＶ）、インデル、及び／又はＳＶ（好ましくは転座、遺伝子融合、又はそれらの組み合わせ）を含む。

いくつかの実施形態では、ＣＮＮの現像に用いられる数学的最適化工程は、非負最小二乗（ＮＮＬＳ）を用いることを含む。他の代表的な方法には、クロスエントロピーグローバル最適化法、黄金セクション探索法、又はそれらの組み合わせが含まれる。

好ましくは、本開示のＣＮＮは、一端に単一の完全接続層を含み、ここで、プログラムは、３ヌクレオチドウインドウ上に畳み込む場合、空間的不変性を維持し；そして、読み取られた断片を、各々が約８ヌクレオチド領域を表す複数のセグメントに折りたたむことにより、マッピング品質を維持する。

いくつかの実施形態では、本開示のシステムは、読取断片を約２５個の個々のセグメントに折り畳むことによりマッピング品質マを維持する８層のＣＮＮを含み、これは、サイズ３の知覚視野を用いて、ゲノム読取中の位置で、すべての特徴（カラム）にさらに折り畳む。ｃｆＤＮＡ中の遺伝子マーカー（例えば、ｓＳＮＶ）を分析する文脈では、ＣＮＮは、２つの連続した畳込層を含んでよく、その出力は、２の受容野及び２の歩数を備える最大プールによりサンプリングされ、最終畳込層の出力は、マーカーの最終分類が行われる、シグモイド完全接続層に直接適用される。

上記方法で構成されたＣＮＮは、マッピングによる真の体細胞変異及びエラーにおける空間的不変性を考慮すると同時に、読取全体にわたり塩基品質を維持し、アラインメントのゲノムコンテキスト、完全読取配列、及び塩基毎の品質スコアの積分を同時に捕捉する読取表示を提供する。

本明細書に開示された実施形態は、既知のＣＮＮに対していくつか利点がある。当該利点には、例えば、精度及び感度を大幅に向上させるＣＮＮを提供することが含まれる。特に、本開示のシステム及びネットワークは、ＭＵＴＥＣＴ等の当技術分野で公知のプログラムと比較して、約１．１２倍〜約１２倍、例えば、約２倍、約３倍、約４倍、約５倍、約６倍、約７倍、約８倍、約９倍、約１０倍、又はそれ以上読み取られた体細胞変異を含む腫瘍特異的マーカーの濃縮（出力精度対入力精度の比を測定する）を提供する。

いくつかの実施形態では、ＣＮＮは、汎用がんコホートにわたって深い学習アルゴリズムを用いて、真の腫瘍変異と人為的的誤差とを識別する特徴の同定を含む。本アルゴリズムは、腫瘍患者から採取した試料中に検出された各個々の変異に信頼性推定値を割り当て、全ゲノムにわたり信頼性推定値を統合し、試料中の変異の特徴を分析するアルゴリズムを用いることで、当該機能を実行する。例えば、肺がんを診断する文脈では、アルゴリズムは、試料中の肺腫瘍パターンを分析しうる。同様に、ＵＶ誘発メラノーマを診断する文脈では、アルゴリズムは、試料中のＵＶパターンを分析しうる。同様に、乳がんを診断する文脈では、アルゴリズムは、患者試料中の乳腫瘍（ＢＲＣＡ）パターンを分析しうる。

いくつかの実施形態では、本開示のＣＮＮは、当該技術分野で認識／登録された変異パターン、例えば、がん（ＣＯＳＭＩＣ）データベースにおける体細胞変異のカタログに試料を横断して寄託変異パターンを用いて、ＮＮＬＳ分析を行いうるアルゴリズムを含む。本開示は、さらに、特定のゲノムアトラス、例えば、ＴＣＧＡＰａｎ−Ｃａｎｃｅｒデータセットと統合された本開示のＣＮＮに関する。

様々な実施形態によれば、本開示のＣＮＮは、汎肺がんコホート上で開発された深い学習アルゴリズムで訓練されうる。この場合、コホートには深層腫瘍患者及びＰＢＭＣ（対照）に関するＷＧＳデータを含めうる。教師付き学習を利用して、ＣＮＮは、真の腫瘍変異と人為的的エラーを識別する特徴を同定して訓練されうる。このようにして得られたモデルは、がん患者（例えば、肺腺がんの早期患者）由来血漿試料で検出された個々の変異を推測し、信頼性推定値の割り当に利用しうる。次に、腫瘍検出用シグナルは、全ゲノムにわたり当該信頼性推定値を統合し、続いて、単一血漿試料中の特定のＣＯＳＭＩＣ変異パターンの非負最小二乗（ＮＮＬＳ）を用いて、高感度検出用の新規分析方法を用いて誘導されうる。検出シグナルは、１００個の無作為なバックグラウンドパターンについて推測された曝露値とＣＯＳＭＩＣ変異曝露値との比較を用いて、信頼性についてさらに検証されうる。

いくつかの実施形態では、本開示のシステム及び／又は方法で用いられる機械学習（ＭＬ）方法は、深層畳込ニューラルネットワーク（ＣＮＮ）、リカレントニューラルネットワーク（ＲＮＮ）、無作為フォレスト（ＲＦ）、サポートベクタマシン（ＳＶＭ）、識別分析、最近傍分析（ＫＮＮ）、アンサンブル分類器、又はそれらの組み合わせを含む。

本開示のシステム及び／又は方法は、例えば、被験体の少なくとも５０％、少なくとも６０％、少なくとも７０％、少なくとも８０％、又はより大きな％、９０％又は９５％でも、早期検出が可能となる。

〔他のアプリケーション〕
上記方法で編集された患者報告は、インターネットを介して電子的に送信され、アクセスされうる。例えば、配列データの分析は、被験体の位置以外の場所で行われ得る。報告は、例えばインターネット可能コンピュータを介して、生成され、場合により注釈付けされ、被験体の所在地に送信される。注釈付きの情報は、医療提供者の他の薬物治療の選択肢の選択、保険会社への薬物治療の選択肢に関する情報の提供に用いうる。本方法には、ＮＣＣＮがん臨床実務ガイドライン（商標）又は米国がん臨床協会（ＡＳＣＯ）の診療ガイドライン等など、疾患に対する薬物治療の選択肢への注釈付けが含まれる。報告書内で層別化された薬物治療の選択肢は、追加の薬物治療の選択肢を列挙して、報告書内で注釈付けができる。追加の薬物治療は、ＦＤＡが承認した適応外使用の薬物である。包括予算調整法１９９３（ＯＢＲＡ）の条項では、医療保障に、標準的な医学集に含まれる抗がん剤の適応外使用が包含されること要求する。注釈リストに用いられる薬剤は、ＣＭＳが承認した国立包括がんネットワーク（ＮＣＣＮ）、薬物及び生物一覧（商標）、トムソンマイクロメディックス薬物デックス（登録商標）、Ｅｌｓｅｖｉｅｒ金標準臨床薬物一覧、米国病院処方サービス一覧（登録商標）に記載するものがあげられる。

ある実施形態では、薬物治療選択肢は、特定の状態の１又はそれ以上の分子マーカーでがんを治療するのに有用であり得る実験薬物を列挙して注釈付けしうる。被験薬は、インビトロデータ、インビボデータ、動物モデルデータ、前臨床試験データ、又は臨床試験データが利用可能な薬物であり得る。当該データは、ＣＭＳ医療保障有益ポリシーマニュアルに掲載されるジャーナルに掲載された査読付き医学文献には、例えば、American Journal of Medicine, Annals of Internal Medicine, Annals of Oncology, Annals of Surgical Oncology, Biology of Blood and Marrow Transplantation, Blood, Bone Marrow Transplantation, British Journal of Cancer, British Journal of Hematology, British Medical Journal, Cancer, Clinical Cancer Research, Drugs, European Journal of Cancer, Gynecologic Oncology, International Journal of Radiation, Oncology, Biology, and Physics, The Journal of the American Medical Association, Journal of Clinical Oncology, Journal of the National Cancer Institute, Journal of the National Comprehensive Cancer Network (NCCN), Journal of Urology, Lancet, Lancet Oncology, Leukemia, The New England Journal of Medicine, or Radiation Oncologyに開示されうる。

薬物治療の選択肢には、リストに記載された薬物とその薬物に関する科学的情報とを関連付ける電子系報告書上にリンクを提供して注釈付けができる。例えば、医薬品の臨床試験に関する情報へのリンクを提供しうる。報告がコンピュータ又はコンピュータのウェブサイトを介して提供される場合、リンクは、脚注、ウェブサイトへのハイパーリンク、ポップアップボックス、又は情報付きのフライオーバーボックス等である。レポート及び注釈付きの情報は、印刷形式で提供でき、当該注釈は、例えば、参照への脚注であってよい。報告書内の１又はそれ以上の薬物治療の選択肢への注釈付けの情報は、科学的情報を保存する営利団体により提供されることができる。医療提供者は、がん患者等の被験体を、注釈付きの情報に記載された試験薬で治療することができ、医療提供者は、注釈付きの薬物治療の選択肢にアクセスし、科学的情報を検索し（例えば、医学雑誌の論文を印刷）、それを保険会社に提出し（例えば、医学雑誌の論文を印刷）、その薬物治療に対する償還請求を行うことができる。医師は、償還を可能にするために、様々な診断関連グループ（ＤＲＧ）コードのいずれかを用いることができる。

薬物治療の選択肢には、薬物が作用する経路の他の分子成分に関する情報（例えば、薬物標的である細胞表面受容体の下流にあるキナーゼを標的とする薬物に関する情報）も注釈付けできる。薬物治療の選択肢には、１又はそれ以上の分子経路の構成要素を標的とする薬物に関する情報を注釈付けできる。経路に関連する情報の識別及び／又は注釈は、他社にアウトソーシング又はサブコントラクトしうる。

注釈付き情報は、例えば、医薬品名（例えば、ＦＤＡが承認した適応外使用用医薬品、ＣＭＳが承認した一覧に記載される医薬品、及び／又は科学（医学）雑誌の論文に記載された医薬品）、１又はそれ以上の薬物治療選択肢に関する科学的情報、１又はそれ以上の薬物に関する科学的情報への１又はそれ以上のリンク、１又はそれ以上の薬物に関する臨床試験情報、薬剤に関する科学的情報のための引用への１又はそれ以上のリンク等であり得る。注釈情報は、レポート内のいかなる場所に挿入しうる。注釈情報は、レポート上の複数の場所に挿入しうる。注釈付き情報は、層別化された薬物治療の選択肢付近の項目に挿入しうる。注釈付き情報は、層別化された薬物治療の選択肢とは別頁の報告書に挿入しうる。層別化された薬物治療の選択肢を含まない報告にも情報を注釈付けしうる。

本システムはまた、被験体（例えば、がん患者）から単離された試料（例えば、腫瘍細胞）に対する薬物の作用に関する報告を含みうる。がん患者からの腫瘍を用いたインビトロ培養は、当業者に公知の技術を用いて確立しうる。本システムはまた、上記のインビトロ培養及び／又は異種移植モデルを用いて、ＦＤＡが承認したオフラベル薬物又は実験的薬物のハイスループットスクリーニングを含みうる。本システムはまた、再発検出のための腫瘍抗原のモニタリングを含みうる。

好ましい実施形態では、注釈付き情報は、ＢＲＣＡパターンに対するＰＡＲＰ阻害剤の効果の注釈、ＭＳＩパターンに対する免疫療法を含む、治療推奨を含み得る。

以下の非限定的な実施例を考慮して、本開示の上記実施形態をさらに説明する。
〔実施例〕

本明細書に記載される構造、材料、組成物、及び方法は、本開示の代表的な例であることが意図されており、本開示の範囲は、実施例の範囲により限定されないことが理解されるであろう。当業者であれば、本開示は開示された構造、材料、組成物、及び方法に関する変形を用いて実施することができ、当該変形は本開示の範囲内であるとみなされることを理解するであろう。
〔背景〕
［高感度がん検出でのｃｆＤＮＡ存在量の限界の克服に、広範囲の配列決定深度を、配列決定に代替しうる。］

上記データは、患者の血漿試料中の単一のｓＳＮＶの検出が、２つの連続した統計的サンプリングプロセスの結果であることを示す。第１プロセスは、通常血液試料中に存在する限られた数のゲノム等価物で変異断片がサンプリングされる確率を提供する。第２プロセスは、その存在量、配列決定深度及び配列決定エラー（シグナル対ノイズ）を前提として、試料中の変異断片を検出する確率を評価する。後者のプロセスは、科学コミュニティによる徹底的な調査と技術開発の焦点であるが（例：超深層エラーフリー配列決定プロトコル）、前者の確率論的プロセスはあまり取り上げられていない。しかし、低負荷疾患ｃｔＤＮＡ検出では、上記のように両プロセスが重要な役割を果たす。標的ｓＳＮＶを表す物理的断片が存在しない場合、理想的な超深層標的配列決定でさえ、がんシグナルを発見しえない。これは、当該アプローチの感度が低い原因の１つと考えられる（約４０％、Ｒｏｓｅｎｆｅｌｄら）。実際には、この問題は、１回の観察（変異読取）では確信ある検出に十分であることはまれであるという事実によりさらに複雑である。

ｃｆＤＮＡサンプリングを、２つの集団由来のｃｆＤＮＡ断片、正常細胞由来のｃｆＤＮＡ断片と悪性細胞由来のｃｆＤＮＡ断片とを、腫瘍断片（ＴＦ）により定義される比率で混合したＢｅｒｎｏｕｌｌｉ試験としてモデル化して、所定のｃｆＤＮＡ試料中の変異体断片のサンプリングの確率を定式化した。従って、血漿試料中に存在するゲノム等価物は、患者循環中のｃｆＤＮＡ断片のプール全体の無作為なサンプリングを構成する。したがって、特定の置換を支持する血漿試料中の少なくとも１つの変異体断片をサンプリングする確率を、以下の：Ｐ＝１−（１−ＴＦ）^ＧＥと定義しうる。ここで、Ｐは確率であり、ＴＦは腫瘍分画であり、ＧＥは患者のｃｆＤＮＡ中に存在するゲノム等価物の数に対応する。当該モデルでは、早期がんレジメンに関連するＴＦ中の検出確率（ＴＦ＜１％）は、低ＴＦに対して急速に低下し、０．１％（１／１０００）の頻度でさえ、検出確率は、０．６５より低いと予測される（図３Ａ）。当該限界は、１０００のゲノム等価物（約６ｎｇのｃｆＤＮＡ）を効率的に利用する完全配列決定の理想的条件下でも観察され、理想的なシグナル対ノイズである単一の支持ＤＮＡ断片に基づく検出に基づくことが注目された。当該結果は、血漿サンプリング確率が、ＭＲＤ及び早期がんステージ検出等の低ＴＦレジメンでの変異検出に厳しい上限を課すことを示す。

その反面、本モデルは、配列決定深度に関する本制限は、各ＳＮＶについてのＢｅｒｎｏｕｌｌｉ試験（Bernomial distribution over the Bernomil trial probability）を繰り返すことから生じる、幅の増加による検出部位（ＳＮＶ）数の増加により効果的に克服できることも示す。本モデルは、Ｂｉｎ（Ｎ，Ｐ）の二項分布で表しうる。ここで、Ｎは試験部位の数（変異）を表し、Ｐ＝１−（１−ＴＦ）^ＧＥは単部分位の検出確率である。重要なことに、数学的モデルは、検出された部位の平均数並びに少なくとも１つの検出の確率を、固有のＤＮＡ断片の数（ゲノム等価物又はカバレッジ）、変異負荷（Ｎ、パネルサイズとしても使用可能）及びＴＦ（図３Ｂ）の関数として予測する。当該モデルを利用して、２０，０００ｓＳＮＶ（ヒトがんの１７％で見つかる約１０の変異／ｍｂ）を統合して、ＴＦが１：１００，０００であっても高い検出確率（０．９８まで）が得られ、標準的な全ゲノム配列決定（ＷＧＳ）で容易に達成できることがわかった（図３Ｃ）

関連適用

染色体異常の非侵襲的出生前検査（ＮＩＰＴ）

本開示はさらに、上記システム、方法及びアルゴリズムを用いた染色体異常の非侵襲的出生前検査に関する。好ましくは、ＮＩＰＴは、図１Ｃ及び図１Ｅに概略を示したＣＮＶ／ＳＶ系のワークフローを用いて行いうる。本明細書では、非新規増幅及び欠失が、被験体の試料（例えば、羊水又は染色体異常が疑われる胎児を伴う妊娠女性由来の血液）の診断に呼び出され、用いられうる。本方法は、例えば図１８Ｅ及び図１８Ｆのように、独特のｌｏｇ２／断片サイズ（胎児対正常なＤＮＡに現れる同一の現象）の関係を利用して、感度及び特異性を高める。したがって、図１Ｃ及び図１Ｅのワークフローは、研究者又は臨床医が、胎児ＤＮＡから生成されたＣＮＶにおいてのみ相関し、配列決定、アラインメント、ＧＣ人為的体に対応するノイズに相関しない２つの情報源の組み合わせが可能となる。従って、本開示の方法及びシステムは、たとえＣＮＶセグメントに関する事前情報が容易に入手できなくてもデノボＣＮＶ検出を用いれば、臨床医がＮＩＰＴに対してより高い感度及び特異度を達成しうる。

〔体細胞変異分類子の設計〕
体細胞変異分類用モデルの設計には、偽陽性の体細胞変異につながりうる誤差の原因認識が重要である。真の変異は、読取位置にかかわらず、高い塩基品質を示す可能性が高い。同様に、真の変異の位置における読取塩基、参照塩基、及びアラインメント文字列（ＣＩＧＡＲ）は、読取アラインメントとは独立する可能性が高い。より具体的には、真の体細胞変異は空間的に不変であることが期待できる。配列決定実験における全身性エラーは、読取位置に依存することがよく知られている。したがって、変異自体は空間的に不変でありうるが、通常、読取位置は不変でない。ミスマッピングにより生じるエラーは、反復配列又は非常に特異的な配列モチーフ（テロメアのＴＴＡＧＧＧ等）を含みうる。したがって、モデルは、真の体細胞変異及びマッピングエラーの空間的不変性をともに正確に表すことができると同時に、読取全体にわたり塩基品質のモデルを維持することが望ましい。従って、読取対象の上の完全接続層に依存した分類を行う浅層畳込ネットワークでは、変異の不変性を捕捉しえないであろう。

本発明者らは、当該制約及び／又は要件を認識して体細胞変異分類エンジンを設計した。畳込ニューラルネットワークを利用する当該エンジンは、空間依存性の補正に、ＶＧＧ構造により刺激された終端に単一完全接続層がある８層の畳込ニューラルネットワークを利用する（Simonyan & Zisserman, arXiv:1409.1556, revised April 10, 2015; Alexandrov et al., Nature, 500(7463):415-421, 2013）。ある位置の全特徴（カラム）を、サイズ３の知覚視野を用いて畳込を行った。２つの連続畳込層の後、２歩の受容場と２歩の歩数を持つ最大プールによりダウンサンプリングを適用し、モデルを狭い空間領域で最重要特徴のみを保持するように強制した。本構造からは２つの主な利点が期待された。すなわち、１）３ヌクレオチドウインドウ上で畳込を行う場合に空間的不変性が維持される、及び２）読取断片をおよそ８ヌクレオチド領域に相当する２５セグメントに折りたたむことで「高いマッピング品質」が得られたことである。最終畳込層の出力を、最終分類で用いられるＳ字状完全接続層に直接適用した。読取位置に関連する特徴を保持するため、多層パーセプトロン又は広域平均プールに代えて単純ロジスティック回帰層を用いた。

迅速開示されるモデル及び訓練スキームを、エンジン（Engine）という。当該エンジンは、アラインメントのゲノムコンテキスト、完全な読取配列、及び塩基品質スコアの統合を同時に捕捉する最初の読取表示を用いる。エンジンの性能は、読取とそのアラインメントを横断した特徴統合が、高深度でカバーしたものに加え、試料の完全な変異プロファイルを用いて、新たな体細胞変異呼出セットを作成するものでもある。

独立に選択された肺がんデータセットでモデルの予測性能を調べて、当該迅速モデルの性能を評価した。データセットは、同じ患者の健康なＷＧＳデータと組み合わせた。モデルは、Ｆ１スコア、精度、感度、及び特異性を指標として評価した：
感度＝ＴＰ／（ＴＰ＋ＦＮ）．．．．．．．．．．．．（式１）
精度＝ＴＰ／（ＴＰ＋ＦＰ）．．．．．．．．．．．．（式２）
特異度＝ＴＮ／（ＴＮ＋ＦＮ）．．．．．．．．．．．．．（式３）
Ｆ１スコア＝２ｘ（精度ｘ再呼出）／（精度＋再呼出）．．（式４）

モデルは、０．９６１の検証セットの平均Ｆ１スコアを管理することが分かった。本モデルでは、腫瘍コントロールのＦ１スコアが０．７１となる。本モデルは依然として腫瘍制御に感度が高いが、検証データセットと比較して特異性が若干低下した。しかし、独立した肺検体の場合、Ｆ１は０．９２であり、特異性は高かった（表１）。がん制御の精度及び特異性が低く、エンジンがタバコ喫煙肺がんと関連する特異的変異パターンを学習する一方で、一般的なエラーパターンも学習したことが示された。

メラノーマ患者（ＣＡ００４０；表１）由来の追加試料を分析に用いて、エンジンの学習能力をさらに調べた。メラノーマ試料は、通常、タバコ暴露に関連する変異プロファイルと比較して、紫外光への暴露で顕著に異なる変異プロファイルを示す（図８Ａ）。エンジンモデルは、黒色腫試料で０．７１のＦ１スコアを達成する。このように、モデルは依然として感度が高いが、メラノーマ試料の精度及び特異性が低く、エンジンがタバコに曝露された肺がんに関連する特異的変異パターンを学習する一方で、両腫瘍タイプに適用可能なより一般的な配列決定人為的的構造パターンも学習したことが示された。

上記問題をさらに検討するため、以下のデータセット：（ｉ）訓練に含まれる肺がん患者試料（ＣＡ００４６、検証データセット）、（ｉｉ）訓練に含まれない肺がん患者（ＣＡ００４４）、及び（ｉｉｉ）黒色腫患者（ＣＡ００４０）由来の読取を含む真のがん変異変異体読取と配列決定人為的体との間のトリヌクレオチドコンテキスト頻度の差異を調べた。結果を図８Ｂに示す。

予想されるように、タバコ関連肺腺がん試料は、タバコ関連変異パターンと一致するＣ＞Ａ塩基変換が高濃縮を示すことが注目された（図８Ｂ）。従って、エンジンは腫瘍変異データ（すなわち、腫瘍特異的変異サイン）に広く存在する特異的配列コンテキストを学習しうるという仮説が立てられた。本仮説を検証するために、各トリヌクレオチドコンテキストにおける真のがん変異対配列決定人為的的の頻度の差が測定されたが、これはこれらの同じ読取に対する平均モデル予測と相関した。モデルが（肺）がん特異的配列コンテキストを学習したのであれば、３ヌクレオチド配列の頻度とモデルの出力との間に高い相関があることが期待されると推論された。推論と一致して、ＣＡ００４６（訓練に含まれるＰｅａｒｓｏｎｓｒ＝１）とＣＡ００４４（訓練に含まないＰｅａｒｓｏｎｓｒ＝０．９５）ともに、モデル予測とトリヌクレオチド濃縮の間に高い相関が認められた。結果を図８Ｃに示す。

配列コンテキストに依存しない正確な分類（代替シナリオ）の結果として高相関性があるかを直接調べるために、黒色腫試料（ＣＡ００４０）を用いて同様の分析を実施した。結果は、三ヌクレオチドコンテキストとモデル予測との間の正の相関（Ｐｅａｒｓｏｎｓｒ＝０．６４）が持続することを示し、変異パターン単独以外の特徴に由来する正確な分類が示された。これは、タバコに曝露された肺がんデータよりも有意に低かった。本知見は、肺がん特異的変異の特徴に関するモデル学習と一致する。本知見により、メラノーマ関連の体細胞変異の検出に特化した別のモデルの訓練につながった。上記ＮＳＣＬＣの手順を用いて、３名のメラノーマ患者の追加データセットを検討した。メラノーマ検証データセット及び独立したメラノーマ試料のＦ１スコアが高いことから、観察結果は性能に関してほぼ同じであったが、モデルをＮＳＣＬＣデータ（対照）に適用した場合のＦ１スコアは低かった。

〔合成血漿中の低腫瘍画分におけるエンジン感度及び精度〕
低腫瘍画分設定における本システム及び／又は方法の性能を評価するために、エンジンの精度及び感度を、最先端呼出、ＭＵＴＥＣＴ、ＳＮＯＯＰＥＲ、及びＳＴＲＥＬＫＡと比較した。図９Ａが示す結果は、エンジンで達成された優れた感度、特に低い腫瘍画分で達成された感度を示す。対照的に、ＭＵＴＥＣＴは、どの腫瘍画分でも合成試料中の３つ以上の変異を検出できず、変異予測に成功した場合は必ず、腫瘍画分で同じ呼出があった。したがって、エンジンは、ＭＵＴＥＣＴに対する感度を２００倍以上増加させる一方で、腫瘍画分０．０１の単純フィルタに対する精度を向上させた。これらの驚くほど良好な結果に基づいて、本開示のシステム及び方法を、実際の血漿試料との関連で適用した。

また、エンジンと簡易呼出方式ＰＩＬＥＵＰの比較も行った。結果を図９Ｂ及び図９Ｃに示す。比較評価は、エンジンを用いて実行されたフィルタにわたり実行された。比較評価はさらに濃縮という別の測定基準を用いて行われ、これはフィルタを意味する場合に腫瘍対正常変異の比率の増加に関する情報を提供する。濃縮係数は、以下の：
〔濃縮〕＝〔精度out〕／〔精度in〕．．．（式５）
式５を用いて計算することができる。

ＰＩＬＥＵＰは、擬似形質における体細胞変異の検出する感度としては十分であるが、全ての変異を含む。これは、濃縮度と精度の測定基準に反映されない。パイプラインの次の段階で、変異頻度によるフィルタを用いた。ＭＦ及びＢＱ＋ＭＱフィルタは、実際には腫瘍読取の試料を枯渇させるが、ＴＦ＝０．０１の場合、濃縮の増加が観察された。これは、フィルタが評価パイプラインに有用であると同時に、ＣＮＮへの提示前にノイズの大部分の除去にも有用であることを示す良好な指標である。ＣＮＮフィルタを適用すると、ノイズのオーダーの追加（第３）の低減が観察された。最も重要なことは、感受性の低下が伴うのは約２５％のみであることである。完全なパイプラインでは、腫瘍画分０．０１及び腫瘍画分０．０００１の両方で３０倍の濃縮（ＰＩＬＥＵＰを上回る；緑色ライン）が観察された。データを図９Ｃに示す。

〔エンジンを用いた実際のｃｆＤＮＡ試料における体細胞変異の解析〕
開示の方法及びシステムが実際の臨床現場で安定であることを確認するために、２つの異なるタイプの試料で実際の評価を行った。１つは健常者（識別子：ＢＢ６００；ＢＢ６０１）由来のｃｆＤＮＡ試料であり、２つは手術前に採取された早期肺がん患者（識別子：ＢＢ１１２２；ＢＢ１１２５）由来のｃｆＤＮＡ試料である。実際の診療所では、検査を実施する臨床医は患者に関する変異情報を入手しえなかった。しかし、ＢＢ１１２５は手術を受けたため、臨床医は標準的な変異呼出パイプラインを用いて真の体細胞変異を測定できた。当該呼出を用いて、ｃｆＤＮＡから得られた読取と組み合わせて、エンジンの感度、精度、及び濃縮度の第２定性的推定値が得られうる。

フィルタリングパイプラインを適用後、試料中に存在する４１３個の変異のうち２７個が成功裏に捕獲されたことが分かった。最も顕著なのは、対照群では偽陽性が２６６例から３例に抑制されたことである（表２参照）。その結果、パイプライン全体では実際には腫瘍シグナルが約５０％減少するが、対照的に、エンジンは試料を約１．７倍濃縮することが示された。

結果は、前処理工程の違いがＢＱＭＱフィルタの不良な設定をもたらした可能性を示す。本試料では、塩基品質スコアが２０であることが余りにも緩いと推測された。

全身性エラーにより生じる変異候補を拒絶しつつ、高感度で真の体細胞変異を検出しうる訓練スキームを用いることが有利であることを認識しつつ、様々な肺がん患者をサンプリングし、その全身性エラープロファイルを一致させた。本計画の実施のための訓練に、様々な喫煙肺がん患者から４つの代表的試料を選択した（表３）。

追加の喫煙肺がん患者を検査に供した。試料は処理され、ニューヨークゲノムセンターのＣａｎｃｅｒＡｌｌｉａｎｃｅから提供された。当該標本には、完全腫瘍標本と同じ患者由来の健常組織標本がある。ＳＴＲＥＬＫＡ、ＬＯＦＲＥＱ、及びＭＵＴＥＣＴの３呼出コンセンサスを選んで、体細胞変異の最終呼出を行った。次いで、訓練用腫瘍読取として、当該変異を支持する読取を用いた。

配列決定人為的体に対する区別の学習モデルが望ましかったので、変異が生じた健常試料から読取を一度正確に採取した。当該変異体は複数の読取では支持されないため、全身性エラーによる可能性が高い。次いで、当該低品質変異体をフィルタリングし、変異での基本品質スコアが２０未満の場合、又はマッピング品質が４０未満の場合（ＢＱ２０、ＭＱ４０）をフィルタリングした。当該閾値ＢＱＭＱ値は、検査で決定したが、より品質が低い試料を訓練に含められるように、ウインドウが生成された。訓練セットの小サブセットは、検証データセットとして用いるために追加的に準備した。当該データセットは、訓練の進捗状況をモニターし、独立した読取（独立した変異ではない）でもモデル性能の検証に用いられる。次に、モデルの性能を試験肺データセットで評価した。

〔合成血漿〕
低頻度での体細胞変異を検出するモデル性能を試験するため、試験肺試料（ＣＡ００４４、表３）由来の４つの模擬血漿試料を、患者の健常ＤＮＡ及び患者の腫瘍ＤＮＡから無作為にサンプリングして生成した。サンプリングは、３５％をカバーし、０％、０．０１％、０．００１％及び０．０００１％の腫瘍混合物を用いて実施した。安定性のために３つの無作為シードを用いて混合を行った。ｃｆＤＮＡでの体細胞変異率として約０．１の閾値率を選択した。したがって、合成血漿読取法を調製する場合、混合物中でカバーされる読取の１／１０^ｔｈ未満で支持される変異のみが選択された。

低腫瘍画分設定における本開示の方法及び／又はシステムの性能を評価するため、精度、感度、及び濃縮度等のパラメータを、エンジンと最先端の低周波数呼出側、ＭＵＴＥＣＴとの間で比較した。さらに、観察されたミスマッチを許容するＰＩＬＥＵＰという簡易呼出方法を含めて比較した。ＰＩＬＥＵＰ後、エンジンに用いたのと同じフィルタを繰り返し適用し、各工程の性能を測定した。本方法で実装されたフィルタは、ＭＦ（変異頻度）であり、ＰＩＬＥＵＰが血漿中で予想されるよりも頻繁に起こる（変異が１０％起こる）ＰＩＬＥＵＰの読取をフィルタリングする、ＢＱＭＱである。ＢＱＭＱは、変異の塩基品質が２０未満又はマッピング品質が４０未満の読取をフィルタリングし、最後に、エンジンを用いたインスタントフィルタリング方法を用いる。

〔ｃｆＤＮＡ試料の評価〕
合成試料でエンジンを評価後、実際の血漿ＤＮＡ試料での性能を試験した。分析には対照試料（ＢＢ６００；ＢＢ６０１）及び喫煙肺がん患者試料（ＢＢ１１２５又はＢＢ１１２２）を用いた。当該患者には腫瘍生検も実施されていたため、ｃｆＤＮＡにも存在する生検からの変異と呼ばれるすべてのＭＵＴＥＣＴを仮定して真の陽性を測定した。当該呼出を用いて、合成プラズマ（前出）と同じ分析を行った。

〔感度、精度、濃縮度の評価〕
対照については、被験体ＢＢ１１２５の変異に対してすべての測定を行った。

〔特徴構成〕
配列決定読取、アラインメント、及びゲノムコンテキストを完全に捕捉するため、読取の空間指向表示を作成した（図５）。参照の挿入について、参照における欠失を「Ｎ」として、空間的アラインメントを維持した。参照中の欠失について、欠失の位置を、「Ｎ」として読取配列決定中に配置した。さソフトマスクされた領域は、読取が、読取マッピング部分に隣接し、参照コンテキストが、ソフトマスクされた領域の末端まで連続した「Ｎ」で破壊されるように、セグメント化される。これは、ソフトマスクされた領域の信号が強力であることを保証するため、そして第２に、読取がその位置合わせから独立するという概念を維持するため、という二つの理由から行われる。

セグメント（例えば、＋／２５塩基）は、ゲノムコンテキストから読取の両側に挿入された（図６）。この結果、１５０塩基の読取に対して１６×２００塩基の行列が得られ、読取が１５０塩基でない場合、余分なコンテキスト塩基が追加される。最大塩基品質スコアは４０（ｐ＝９９：９９％）に設定し、スコアは間隔［０，１］とした。読取（ゲノム関連）でカバーされない塩基は、基本品質スコアがゼロであった。読取における欠失は、読取における２つの隣接位置の平均である品質スコアを受け取った。

〔ハイパーパラメータと実施の詳細〕
当該モデルを、初期学習速度＝：１及び運動量＝：９のミニバッチ確率勾配ディーセントを用いて訓練した。妥当性確認の損失がＨｅら（In Proceedings of the IEEE conference on computer vision and pattern recognition, pp. 770-778, 2016）に概説されるようにプラトーに達すると、学習率は１０倍に低下した。２５６のミニバッチサイズを用いたが、これは検証ロスと訓練速度の間の最良のトレードオフを提供すると思われたためである。６４個のフィルタ塩基を用いて、各ダウンサンプリング層の後に２倍にして、各段階で一貫した数のパラメータを維持した。これは、３２塩基のフィルタモデルが十分に機能しないことを観察した後に経験的に選択された。各畳込層の後、バッチ正規化を適用した後、整流線形ユニットを適用した。各プール層の前に、降下確率＝０．５の脱落を適用した。

エンジンは、バランスのとれた腫瘍分画設定で強い性能を示した。さらに、シミュレートした血漿でも性能の大部分が維持された。また、当該エンジンは０．０００１の腫瘍画分の２倍の濃縮を達成したことから、配列決定ノイズ自体よりも１０倍頻度が低くても関連する体細胞変異の捕捉能があることが示唆された。対照的に、ＭＵＴＥＣＴは、ｃｆＤＮＡ設定で機能するように意図的に設計されないツールであり、すべての腫瘍画分で２未満の予測しか行わない。図９Ａ〜９Ｃ参照。

エンジンの詳細な結果を表４に示す。

〔他の実施形態〕
以上から、当該システム及び方法は、完全な早期検出エンジンに発展させうる。エンジンは、完全接続されたシグモイド層を用いて読取の位置で捕捉するが、読取上の相対的位置を捕捉するのにより適した構造がある。さらに、予備試験で除外されたＤＮＡ断片由来の読取対に含まれる追加情報源を用いて、起点鎖（ワトソン又はクリック）を決定し、ＤＮＡ断片の大きさを推定できる。ｃｔＤＮＡの断片サイズ分布は、通常の循環健常ＤＮＡとは異なることが観察された（Underhill et al., PLoS genetics, 12(7):e1006162, 2016）。

上記システム及び方法は、リカレントニューラルネットワーク（ＲＮＮ）と統合できる。ＲＮＮは、長さをバイオインフォマティクスの特徴として、最大１ｋｂの距離でも利用しうる強力なツールであることが示された（Hill et al., bioRxiv, pp. 200758, 2017）。ロジスティック回帰層の代わりにリカレントニューラルネットワークを統合すると、本開示の方法及びシステムの性能をさらに向上させる可能性がある。

〔腫瘍特異的低存在量腫瘍マーカーの検出及びその検証方法及びシステム、並びにがん診断におけるその使用〕
本開示のシステム及び方法は、がんの早期診断で有用である。当技術分野で公知の、転移性がん（疾患負荷が高く、ｃｔＤＮＡが有意に高値である）とは対照的に、早期がん又は残存疾患の検出の設定では、ｃｔＤＮＡの存在量のため、標的配列決定技術の使用が制限される。腫瘍負荷が低い状況での既知の限定量のｃｆＤＮＡを考慮して、まず、ｃｆＤＮＡ抽出の最適化の可能性を調べた。第一に、試料獲得及び個人間変動に由来する変動を低減するため、商業的に入手可能な抽出キット及び方法を、健常被験体及び造血幹細胞採取を受けるがん患者のプラスマフェレーシスを通して、大量の血漿採取（約３００ｃｃ）を通して生成された均一なｃｆＤＮＡ材料を用いて比較した。大量の血漿により、同じｃｆＤＮＡ入力上で複数の方法及びプロトコルパラメータを試験することができ、収率及び品質の微差を正確に測定しうる。

Capital Biosciences(Gaithersburg,MD,USA;Catalog#CFDNA-0050)、Qiagen(Germantown,MD,USA)、Zymo(Irvine,CA,USA;Catalog#D4076)、OmegaBIO-TEK(Norcross,GA,USA;Catalog#M3298)、及びNEOGENESTAR(Somerset,NJ,USA,Catalog#NGS-cfDNA-WPR)からのキット及び試薬を当該比較試験に用いた。当該基っと及び試薬は、製造者の指示に従って統一的に用いて、大容量血漿試料１ｍｌについて抽出を実施した。複数の血漿アリコートを並行して処理し、方法間及び方法内のばらつきを評価した。回収した各ｃｆＤＮＡ試料の収率及び純度は、蛍光定量（総質量）、ＵＶ吸光度（塩及びタンパク質汚染物質の検出）、及びオンチップ電気泳動（サイズ分布及びｇＤＮＡ汚染）を用いて測定した。

結果は、ＯｍｅｇａＢＩＯ−ＴＥＫのＭＡＧ−ＢＩＮＤｃｆＤＮＡ抽出キットが、他の全ての試験方法を上回ったことを実証した。付着物質のキャリーオーバーを低減し、ｃｆＤＮＡの回収を改善するために、製造者のプロトコルの各工程の系統的な最適化をさらに行った。

次いで、最適化抽出プロトコルを早期肺がん由来の試料に適用した。本コホートには、術前の肺がん初期血漿１１検体及び良性患者（対照）から採取した血漿４検体が含まれる。例示的な患者特性を図１１に示す。最適抽出にもかかわらず、低疾患負荷試料のｃｆＤＮＡ収量は低く、０．１３ｎｇ／ｍＬ〜１．６ｎｇ／ｍＬの範囲の患者間で高い変動があった。当該データは、ｃｆＤＮＡ配列決定に利用可能なＤＮＡ分子の数が少なく、かつ可変することを確認する。

〔高感度がん検出におけるｃｆＤＮＡ存在量の限界を克服するに、広範囲の配列決定深度が、配列決定に代替しうる〕
上記のデータは、患者の血漿試料中の単一ｓＳＮＶの検出が、２つの連続した統計的サンプリングプロセスの結果であることを示す。第１プロセスは、通常の血液試料中に存在する限定数のゲノム等価物で、変異断片がサンプリングされる確率を提供する。第２プロセスは、その存在量、配列決定深度及び配列決定エラー（シグナル対ノイズ）を前提として、試料中の変異断片を検出する確率を評価する。後者のプロセスは、科学コミュニティによる徹底的な調査と技術開発の焦点であるが（例：超深層誤差フリー配列決定プロトコル）、前者の確率論的プロセスはあまり取り上げられていない。しかし、低負荷疾患ｃｔＤＮＡ検出では、上記のように両プロセスがともに重要な役割を果たす。標的ｓＳＮＶを表す物理的断片が存在しない場合、理想的な超深層標的配列決定でさえ、がんシグナルを発見しえない。これは、当該アプローチの感度が低い原因の１つと考えられる（約４０％、Ｒｏｓｅｎｆｅｌｄら）。実際には、本問題は、１回の観察（変異読取）では確信ある検出にはほとんど不十分であるという事実のため、さらに複雑である。

所定のｃｆＤＮＡ試料中の変異体断片のサンプリングの確率を定式化するため、ｃｆＤＮＡサンプリングは、２つの集団に由来するｃｆＤＮＡ断片、正常細胞に由来するｃｆＤＮＡ断片と悪性細胞に由来するｃｆＤＮＡ断片とを、腫瘍断片（ＴＦ）により定義される比率で混合したＢｅｒｎｏｕｌｌｉ試験としてモデル化した。従って、血漿試料中に存在するゲノム等価物は、患者循環中のｃｆＤＮＡ断片のプール全体の無作為サンプリングを構成する。したがって、特定の置換を支持する血漿試料中の少なくとも１つの変異体断片をサンプリングする確率は、以下の：Ｐ＝１−（１−ＴＦ）^ＧＥと定義することができる。ここで、Ｐは確率であり、ＴＦは腫瘍分画であり、ＧＥは患者のｃｆＤＮＡ中に存在するゲノム等価物の数に対応する。迅速モデルは、早期がんレジメンに関連するＴＦ中の検出確率（ＴＦ＜１％）は、低ＴＦに対して急速に低下し、０．１％（１／１０００）の頻度でさえ、検出確率は、０．６５より低いと予測される（図３Ａ）。当該限界は、１０００のゲノム等価物（約６ｎｇのｃｆＤＮＡ）を効率的に利用する徹底的な配列決定の理想的条件下でも観察され、理想的なシグナル対ノイズがある単一支持ＤＮＡ断片に基づく検出に基づくことが注目された。当該結果は、血漿サンプリング確率が、ＭＲＤ及び早期がんステージ検出等の低ＴＦレジメンでの変異検出に厳しい上限を課すことを示す。

その反面、本モデルは、配列決定深度に関する本制限は、各ＳＮＶについてのＢｅｒｎｏｕｌｌｉ試験（Bernomial distribution over the Bernomil trial probability）を繰り返すことから生じる、幅の増加による検出部位（ＳＮＶ）数の増加により効果的に克服できることも示す。本モデルは、Ｂｉｎ（Ｎ，Ｐ）の二項分布で表しうる。ここで、Ｎは試験部位の数（変異）を表し、Ｐ＝１−（１−ＴＦ）^ＧＥは単部分位の検出確率である。重要なことに、数学的モデルは、検出された部位の平均数並びに少なくとも１つの検出の確率を、ユニークなＤＮＡ断片の数（ゲノム等価物又はカバレッジ）、変異負荷（Ｎ、パネルサイズとしても使用可能）及びＴＦ（図３Ｂ）の関数として予測する。本モデルを利用して、２０，０００ｓＳＮＶ（ヒトがんの１７％で見つかる約１０の変異／ｍｂ）を統合することにより、ＴＦが１：１００，０００であっても高い検出確率（０．９８まで）が得られ、標準的な全ゲノム配列決定（ＷＧＳ）で容易に達成できることがわかった（図３Ｃ）。

〔ゲノムワイド統合ｓＳＮＶ検出のインシリコ検証〕
迅速モデルは、サイト数の増加が検出確率の有意な増加をもたらすことを示す。この予測を検証するために、肺腺がん、乳管腺がん（乳房）、皮膚黒色腫、尿路上皮がん（膀胱）及び骨肉腫（図式Ａの完全臨床的詳細、図１Ｆ）からの高悪性度腫瘍を含む様々ながんである１１人のがん患者由来の腫瘍及び正常なＷＧＳデータのインシリコ混合物を用いて、ｃｆＤＮＡ検出をシミュレートした。

すべての試料を、〜８０倍の腫瘍ＷＧＳ及び〜４０倍のＰＢＭＣＷＧＳで深層配列決定した。インシリコ混合物を作製するため、腫瘍及び正常ＷＧＳ読取値を様々な割合で混合し、異なるＴＦ（０．００００１、０．００００５、０．０００１、０．０００５、０．００１、０．００５、０．０１）及びカバレッジ（０．０１）の患者特異的仮想血漿試料のデータセットを得た。本データセットは、ダウンサンプリングプロセス中に用いられた様々な無作為化シードを通して得られた各条件について５つの独立した反復であった。残存疾患の設定での検出をシミュレートするため、原腫瘍及び生殖細胞系のＷＧＳデータについて体細胞変異呼出を行い、ｓＳＮＶの患者特異的一覧を得た。次いで、インシリコ血漿シミュレーション混合物中の腫瘍関連変異部位の数を、患者特異的ｓＳＮＶ一覧のための少なくとも１つの支持体の検出を通して測定した。また、多くの部位を統合すると、上記シグナルの検出を制限し得る配列決定エラーに起因するノイズが蓄積されることが判明した。ＷＧＳに基づくｃｆＤＮＡ検出でのノイズの程度を推定するため、腫瘍ＷＧＳからの読取の混合を伴わないダウンサンプリングされた正常読取の相補的データ塩基が生成された（ＴＦ＝０、２０倍及び３５倍の範囲での２０反復）。当該データは、シグナル対ノイズ測定を可能にし、統合型全ゲノムＳＮＶ検出が、様々な腫瘍タイプに対して２０倍のカバレッジを有する高変異負荷腫瘍において、ＴＦ＞１：２０００を確実に検出できることを実証する。

当該データはまた、ＴＦの低下によりノイズの相対的寄与が高まるにつれて、配列決定エラー由来のノイズが、検出部位数とＴＦの間の関係をどのように形成するかを示す。推定配列決定ノイズと統合された数学的モデル予測との比較は、全ての患者とがんタイプに対して異なるＴＦとカバレッジ値に高い一致を示した。当該解析はまた、変異負荷（Ｎ）とカバレッジが高まるとどのように検出シグナルが高まるかを示し、１％ＴＦ中の検出数は４０Ｋ変異負荷（メラノーマ）から８Ｋ変異負荷（非タバコ肺）の間で変動した。

推定されたノイズの基礎となる変数を特徴づけ、最適化フィルタを開発することで、信号対ノイズ及び検出感度を大幅に改善できる。変異負荷、カバレッジ、がんの種類等の他の独立変数によるノイズ分布のモデル化である。結果は、以前発表された配列決定エラー率（〜１／１０００塩基）を反映するがん型独立エラー確率を示す。また、検出シグナルは、ごくわずかな生殖系列関連ノイズと患者に特異的な関係を示した。

データは、配列決定誤差が塩基品質（ＢＱ）、マッピング品質（ＭＱ）、断片長及び可変対立遺伝子頻度（ＶＡＦ）等のパラメータと関連することを示した。従って、配列決定エラー率を低減するため、最適受信機点解析（ＲＯＣ）を通して、結合塩基品質（ＢＱ）とマッピング品質（ＭＱ）最適化フィルタを開発し、測定エラー率を３ＦＣ（約３×１０^−４）低減した。ＷＧＳの深度が３５Ｘの腫瘍ではＴＦが１／２０，０００に低下しても、本フィルタを３５Ｘのカバレッジを軽減して適用すると、マーカーの検出が可能となる。当該データは、ｃｆＤＮＡの存在量とは無関係に（例えば、１ｎｇの入力で１００ＸＷＧＳが可能）、非常に低いＴＦでもがんの検出が可能になりうるため、患者を一致させる統合型ゲノムワイドｓＳＮＶプロファイリングの使用を支持する。さらに、実験結果と数学モデルの間の高い一致は、検出部位数（患者特異的ｓＳＮＶ）の測定が血漿ＴＦの推定に変換でき、早期検出設定における定量的ＴＦモニタリングが可能になることを示す。

特定のモチーフ、パターン等に関する情報の利用を含む、品質測定基準を超えた追加のパラメータを、残存するノイズをフィルタリングするためにさらに利用することができる。代表的な方法には、例えば、断片サイズフィルタリングの実施（例えば、約２００ｂｐ以下の断片のみが考慮される）及び可変対立遺伝子頻度（ＶＡＦ）フィルタリング（例えば、２％、５％、１０％等の閾値を超えるＶＡＦを有する対立遺伝子のみが考慮される）が含まれる。タバコ曝露及びＵＶ曝露の種々の変異パターンを各々、図１２Ａの上パネル及び下パネルに示す。肺腫瘍、乳房腫瘍及びメラノーマ試料で差次的に発現されたＣＯＳＭＩＣパターンを図１２Ｂ及び図１２Ｃに示す。

〔適用〕
その後、本高感度デノボ変異検出を、５人の早期患者の術前に配列決定された血漿に適用し、全ゲノムｃｆＤＮＡ変異検出を生成した。ゲノムワイド変異データを集計し、各患者の変異一覧を計算し、その後、畳込ニューラルネットワーク（ＣＮＮ）等の新しい機械学習アルゴリズム及びツールを用いて、高感度変異パターン検出の新しい分析方法を用いた。

ＣＮＮは、まず２方向からの戦略の応用に基づき、深層学習アルゴリズムは、真の腫瘍変異と人為的エラーを識別する特徴を同定するために教師付き学習を利用して、汎用肺がんコホート（深部腫瘍とＰＢＭＣＷＧＳがある患者５例）上で訓練された。次に、得られたモデルを用いて、肺腺がん早期患者の早期検出血漿検体で検出された個々の変異を推測し、信頼性推定値を割り当てた。第２に、検出シグナルは、全ゲノムワイドの当該信頼性推定値の統合を通して導出され、続いて、単一血漿試料中の特異的ＣＯＳＭＩＣ変異パターンの非負最小二乗（ＮＮＬＳ）を用いた高感度検出用の新しい分析方法が続いた。パターン検出は、１００の無作為バックグラウンドパターン（ｚスコア＞２ＳＴＤ）について推測された曝露値とＣＯＳＭＩＣ変異曝露値との比較を用いて信頼性についてさらに検証された。

図１３で示される結果は、本開示のＣＮＮが早期腫瘍検出で特に有用であることを示す。本方法により、肺がん患者ではタバコ特異的パターンが検出され、黒色腫患者ではＵＶ特異的パターンが検出され、乳がん患者ではＴＦが１／１０００以下でもＢＲＣＡ特異的パターンが検出された。タバコ曝露リスクのある被験体における現在の肺がんＣＴスクリーニングの低陽性適中率（ＰＰＶ）を改善するため、本方法を、ＣＴスクリーニングで陽性として検出された５人の早期肺患者及び４人の良性結節からの血漿試料に適用して本方法の能力を評価した。本データから、早期肺がん検体では陽性検出が示され、良性結節では（偽）陽性検出が少なく、ＰＰＶの改善が示された。

次に、患者特異的特徴スコア（ｚスコア）を、結節検出用の陽性又は陰性（ＮＤ）等の組織病理学的特徴を含む、喫煙者又は非喫煙者、喫煙歴（例えば、各患者（喫煙者）が喫煙したパック年数）等の患者特性にマッピングした。図１４Ａに示す結果は、タバコに曝露された患者からの早期がん血漿中にタバコパターンが検出されるが、良性結節又は喫煙歴のない患者では検出されないことが明らかである。本方法から、タバコ曝露歴のある早期肺患者４例中３例でタバコパターンを検出できたが、良性肺結節切除を受けた３例の非喫煙者肺患者及び血漿試料ではパターンは検出されなかった。１つを除いた全ての病期で、肺がん患者の検出におけるタバコパターンの特異度は少なくとも６７％であり、特異度は高病期（例えば、ＩＩＩａ期以降）患者で１００％に近接した。

〔ＰＰＶ改善のＣＴスクリーニングと診断法の併用〕
ＣＴスクリーニング方法の低い陽性適中率（ＰＰＶ）の改善に、上記スクリーニング方法を、ＣＴスクリーニングの有無にかかわらず、タバコに曝露されたリスクのある被験体の診断／予後判定に適用した。第１に、マーカー及びパターン（ＳＮＶ、ＣＮＶ、インデル及び／又はＳＶを含む）を、全ゲノム配列決定（ＷＧＳ）を介して新規に検出し、上記方法を用いてマーカーをノイズ／エラーについて分析する。このように、早期ＮＳＣＬＣ患者（Ｉ期及びＩＩ期）から採取した計３０の術前検体を分析する。さらに、施設のＣＴ系スクリーニングプログラムにより良性病変が認められた３０歳及びタバコ暴露が一致する患者に対してＷＧＳを実施する。ｃｆＤＮＡデータ由来の検出シグナルは、ＣＴスクリーニングの陽性適中率がｃｆＤＮＡ情報で改善されるかを決定するため、盲検化法でＣＴ系読取と統合される。本コホートは、現在の方法では約４０％であったＰＰＶの２０％の効果サイズが、統合ｃｆＤＮＡ及びＣＴスクリーニングでは約６０％に高まることを検出し、検出性が推定される。試験の結果に応じて、より大規模なプロスペクティブな施設内臨床試験を実施しうる。

〔考察〕
データは、本開示の方法及び／又はシステムが、特に、腫瘍（ＥＤ）の早期検出に用いる低存在量マーカーの検出という文脈において、既存の方法よりも優れていることを示す。早期がん検出では、適合する腫瘍ＤＮＡが利用できず、がんの新規変異検出に挑む必要がある。本開示のゲノムワイド統合方法は、タバコ、ＵＶ光、ＡＰＯＢＥＣ多活性、ＢＲＣＡ変異、ＰＡＲＰ活性、又はＭＳＩへの曝露等の特異的変異誘発プロセスに関連する変異パターンの検出に、ｓＳＮＶ配列コンテキスト情報を利用する。当該パターンは、腫瘍体細胞変異で特異的に現れ、ＰＢＭＣ体細胞変異では、試験した全ての試料において完全に欠如した。

低ＴＦ試料のｃｆＤＮＡでの高感度で特異的デノボ変異の検出は、既存の変異検出アルゴリズムでは根本的に困難である。全技術的公知の方法は、特定のゲノム部位における腫瘍及び正常ＤＮＡの比較を指向する。ゲノム中の変異部位の検出の検出性能は、配列決定ノイズの源（配列決定エラー、マッピングエラー等）から当該複数の観察を区別する統計的枠組部位をカバーする複数の支持読取の観察から得られる。しかし、早期検出では、変異したｃｔＤＮＡ量は、配列決定深度（又は特定の部位の配列決定に利用可能な断片数）よりかなり小さく、したがって、せいぜい１つの支持的読取が各部位で観察されるにすぎない。例えば、仮想血漿データへのＭＵＴＥＣＴの適用は、コールスタットファイルに含まれるすべての検出（変異体ろ過前）を考慮しても、ＴＦの減少に伴って真の腫瘍関連体細胞変異の急速減少を示すが、シングルサポーティング読取による検出を考慮する場合、当該変異部位がより多く呼出される。

低ＴＦでの無エラーデノボ単一ｃｔＤＮＡ検出を可能にするため、がん変異由来の交互読取と配列決定人為的体由来の読取とを区別しうる新しい枠組を要する。変異パターンは通常トリヌクレオチドコンテキストを利用するが、最近のデータは、配列コンテキストが本範囲をはるかに超えて広がる可能性があり、監視付き特徴選択での捕捉の困難性を示唆する。

本開示は、配列決定エラーをフィルタリングする新規な方法及びパイプラインを提供する。例えば、特異的変異プロセスから生じた腫瘍は、異なる変異パターンを生じ、これは、人為的体の実際のノイズ除去に利用され得、被験体特異性、感度、及び精度が改良された濃縮化マーカーを提供する。本開示のニューラルネットワークは、機械学習を利用し、これにより、当該技術分野で公知の呼出の上記制限を克服できる。機械学習構造は、がん改変配列決定読取及び配列決定エラーにより改変された読取を区別し、全身配列決定ノイズを特異的及び適応的にフィルタリングする。本文脈では、本開示の深層畳込ニューラルネットワークは、多数の特徴を監視された方法で統合する人為的知能プラットフォームを提供し、これはゲノム配列読取の文脈における分類問題の解決に特有である。ＣＮＮの設計に用いられるアプローチは、困難な変異の再考に基づく。ＭＵＴＥＣＴ等の当技術分野で公知の変異呼出とは異なり、本開示のＣＮＮは、真の変異体を含む読取と、配列決定人為的体を含む読取とを区別できる。本開示のＣＮＮは、多数の腫瘍及び正常なＷＧＳデータの収集を用いて、何百万もの真の変異読取及びエラーを訓練しうるため、静的ではなく動的である。

ＣＮＮの上記特徴は、多くの患者の広範な様々な腫瘍型の検出に関連する高感度及び特異性により証明されるように、当該技術分野で公知の変異呼出より有利である。

〔肺がん検出への本開示の方法及びシステムの適用〕
上記結果は、ゲノムワイドの情報の統合が、疾患状態を示す低存在量マーカーの検出に関連する主要な障壁を克服できることを示す。本開示の方法及びシステムを分析方法に適用することは、検出限界の打破となり、１／１０，０００の低い腫瘍画分の検出を可能にし、配列決定深度に応じて改善する。当該利点は、肺がんの検出及び手術後及び／又は治療後の患者の残存病変の検出の分野で特に有用である。

前悪性肺病変との関連では、低浸潤病変の検出は早期ＮＳＣＬＣと比較してさらに困難でありうる。注目すべきことに、がん変異の大部分は、悪性転換前に起こると考えられるため、前悪性増殖も存在する可能性が高い。従って、本明細書に記載されるシステム及び方法は、特に肺腫瘍との関連において、前悪性病変の検出にも用いうる。

〔ＳＮＶに基づく方法での断片サイズの特徴の直交統合〕

ｃｆＤＮＡ断片分布には、血液循環中のＤＮＡ分解の独特のプロファイルがある。健常ｃｆＤＮＡ試料の断片サイズ分布を図１７Ａに示す。腫瘍由来の循環ＤＮＡ断片は、主に造血細胞（免疫細胞）のアポトーシス由来の「正常」ＤＮＡ断片と比較して、断片サイズがより短い。乳腫瘍ｃｆＤＮＡ（赤色及び紫色）は、正常なｃｆＤＮＡ試料と比較して断片サイズシフトを示す（図１７Ｂ）。最初のヌクレオソームの質量中心（ＣＯＭ）を計算すると（約１７０ｂｐのピーク）、ＴＦに直線的に対応するより低いＣＯＭへのシフトが示される。ヒト腫瘍異種移植モデル（ＰＤＸ）をマウスに用いると、腫瘍由来の循環ＤＮＡ（赤色、ヒトにアラインメント）は、正常由来の循環ＤＮＡ（黒色、マウスにアラインメント）よりも有意に短かった。図１７Ｃ参照。

単一のＤＮＡ断片が腫瘍又は正常な起源に由来する確率を定量化できる安定モデルを作成するために、結合ガウス混合モデル（ＧＭＭ）を用いて循環ＤＮＡの断片サイズ分布を特徴付けた。循環腫瘍ＤＮＡモデル（赤破線）は、ヒトゲノムに整列した循環ＤＮＡのみを用いて、発明者らのＰＤＸ試料から抽出した循環腫瘍ＤＮＡにＧＭＭ分析を適用して推定した。循環正常ＤＮＡモデル（灰色破線）を、健常ヒトボランティアの血漿試料からの循環ＤＮＡにＧＭＭ分析を適用することにより推定した。次いで、結合対数オッズ比（黄色線）を用いて、特定の循環ＤＮＡの断片サイズが腫瘍又は正常由来である確率を推定した。データを図１７Ｄに示す。

患者特異的変異検出を用いて、当該ＤＮＡ断片がその断片サイズ分布及びＧＭＭ結合対数オッズ比に基づいて腫瘍由来であるかどうかを確認できる。信頼性を高め、バッチ効果バイアスを減少させるために、患者間相互検出を用いて患者内コントロールを開発した。例えば、検出された腫瘍変異（灰色、一致した検出）の下に示される特定の患者では、断片サイズが小さいサイズにシフトする傾向を示す。同じ患者試料で、他の患者と関連する変異が検出され（赤色の患者間検出）、当該人為的的検出は同じタバコパターンのコンテキスト情報パターンを共有するが、真の検出ではない。興味深いことに、当該患者間検出は、断片サイズシフトが低い傾向を示さず、それらの断片サイズ分布は、真の腫瘍検出と有意に異なった（Ｗｉｌｃｏｘｏｎランク和、Ｐ値３×１０−９）。ＧＭＭ結合対数オッズ比を用いると、患者特異的変異の検出は腫瘍由来（結合対数オッズ比＝０．３）であり、一方、同じ患者試料からの人為的的変異は正常由来（結合対数オッズ比＝−０．３５）であることが確認される。３人の患者の代表的なデータを図１７Ｅに示す。

〔ＣＮＶマーカーとの関連における断片サイズの直交的統合〕

ｃｆＤＮＡ断片分布は、血液循環中のＤＮＡ分解のために独特のプロファイルがある。正常なｃｆＤＮＡ試料は、断片サイズの分布の変化を示す（上記図１７Ａ及び図１７Ｂ参照）。ここで、質量中心分布（ＣＯＭ）を分析するコンテキストにおいて、最初のヌクレオソームのＣＯＭ（約１７０ｂｐのピーク）の計算は、ＴＦに線形に対応する低ＣＯＭへのシフトを示す。

患者間の断片サイズの質量中心（ＣＯＭ）の比較分析は、感度に関して制限されうるし、またバッチ効果を生じやすい。患者内の局所的断片サイズＣＯＭは、エピジェネティックなパターンやコピー数事象で変化しうる。実際、増幅セグメントでは、（腫瘍ＤＮＡの割合の増加のため）腫瘍分画が局所的に増加する結果、局所的断片サイズの質量中心（ＣＯＭ）が減少する。一方、欠失部位では、（腫瘍ＤＮＡの割合の減少に起因して）腫瘍分画が局所的に減少した結果、局所的な断片サイズの質量中心（ＣＯＭ）が増加する。データを図１８Ｂに示す。

ゲノムを横断するすべてのウインドウの推定Ｌｏｇ２及びＣＯＭ値を用いて、Ｌｏｇ２／ＣＯＭ線形モデルの中央値質量中心（ＣＯＭ）、勾配及びＲ＾２を計算した。当該特徴は、それ自体、腫瘍ＤＮＡの画分に対応する（図１８Ｃ）。より具体的には、データは、Ｌｏｇ２／ＦＳ相関（Ｒ２）が腫瘍ＤＮＡの画分と強い関係があることを示す（図１８Ｄ）。

この図１８Ｄの各ドットは、患者試料に対応する。Ｘ軸は、本患者のすべての１ＭｂｐビンのすべてのＬｏｇ２とＣＯＭ値の間の相関（Ｒ＾２）を表す。この値は標本ＴＦ（ｙ軸）の直交推定と強い相関を示す。健常血漿試料中のＬｏｇ２とＣＯＭの相関をチェックすると、がん患者（図１８Ｅ）で見られる相関値と比較して、相関（Ｒ＾２＝０．００８）（図１８Ｆ参照）は極めて低い。

本開示は、以下の非限定的な実施形態に関する。

実施形態１：被験体のがんを遺伝子スクリーニングする方法であって、以下の：
（Ａ）被験体の生物学的試料からの複数の遺伝子マーカーに関連する読取の、被験体特異的ゲノムワイドの一覧（compendium）を受け取る工程であって、前記遺伝子マーカー一覧は、単一ヌクレオチド変異（ＳＮＶ）、短い挿入及び欠失（Ｉｎｄｅｌｓ）、コピー数変異、構造変異（ＳＶ）及びそれらの組み合わせからなる群から選択され；（ｂ）（１）前記読取塩基品質（ＢＱ）、（２）前記読取マッピング品質（ＭＱ）、（３）前記読取の推定断片サイズ、及び／又は（４）前記読取の推定対立遺伝子分画（ＶＡＦ）の関数としてのノイズ（ＰＮ）の検出確率に基づき、前記一覧中の各読取をシグナル又はノイズとして統計的に分類して、人為的的読取を前記一覧から除去する工程；（ｃ）前記一覧中の各読取に関連する配列決定ノイズを、機械学習（ＭＬ）モデルを利用して、適応的及び／又は体系的にフィルタリングして、がん関連変異特徴及びＰＣＲ又は配列決定エラー関連特徴を区別する工程；（ｄ）ノイズ除去工程（ｃ）及びフィルタリング工程（ｂ）に基づいて、一覧内の複数の真の読取を含む被験体特異的特徴を編集する工程；（ｅ）被験体の生物学的試料が、被験体特異的特徴とがんパターンとの間の一致の程度に基づいて、循環腫瘍ＤＮＡ（ｃｔＤＮＡ）を含むという信頼性推定値を統計的に定量する工程；及び（ｆ）被験体の生物学的試料ががん関連変異パターンを含むという信頼性推定値が所与の閾値を超える場合、被験体をがんについてスクリーニングする工程を含む。

実施形態２：被験体の生物学的試料が、血漿、脳脊髄液、胸水、眼液、便、尿、又はそれらの組み合わせを含む、実施形態１に記載の方法。

実施形態３：がんパターンがＣＯＳＭＩＣタバコパターン、ＵＶパターン、乳がん（ＢＲＣＡ）パターン、マイクロサテライト不安定性（ＭＳＩ）パターン、アポリポタンパク質ＢｍＲＮＡ編集酵素、ポリ（ＡＤＰ−リボース）ポリメラーゼ（ＰＡＲＰ）多活性化パターン、触媒性ポリペプチド様パターンを含む、実施形態１及び２のいずれか１項に記載の方法。

実施形態４：がんパターンが、組織特異的クロマチン接近性パターン等の組織特異的エピジェネティックパターンに関連するパターンを含む、実施形態１〜３のいずれかに記載の方法。

実施形態５：がんに関連する変異の特徴（真陽性）とＰＣＲ又は配列決定エラーに関連する特徴（偽陽性）とを識別する機械学習（ＭＬ）モデルを利用して、前記一覧内の各読取に関連する配列決定ノイズをフィルタリングする工程をさらに含む、実施形態１〜４のいずれかに記載の方法。

実施形態６：前記機械学習モデルは、深層畳込ニューラルネットワーク（ＣＮＮ）、反復ニューラルネットワーク（ＲＮＮ）、ランダムフォレスト（ＲＦ）、サポートベクタマシン（ＳＶＭ）、判別分析、最隣接分析（ＫＮＮ）、アンサンブル分類器、又はそれらの組み合わせを含む、実施形態１〜５のいずれかに記載の方法。前記ＭＬが、がん改変配列決定読取と、配列決定又はＰＣＲエラーにより改変された読取とを区別するように訓練された、前記実施形態のいずれかに記載の方法。

実施形態７：前記ＭＬが、腫瘍変異及び正常な配列決定エラーを横断する複数の読取を含む全ゲノム配列決定（ＷＧＳ）がんデータセット上で訓練される、実施形態１〜６のいずれかに記載の方法。

実施形態８：前記ＭＬが、（ａ）高精度で、配列決定又はＰＣＲ人為的体を同定し、（ｂ）配列コンテキストを統合し、特定の特徴を読み取ることができる、実施形態１〜７のいずれかに記載の方法。

実施形態９：工程（ｃ）が、結合塩基品質（ＢＱ）、マッピング品質（ＭＱ）スコア、及び断片サイズに基づいて、前記一覧内の遺伝子マーカーの確率論的分類を含む最適受信者動作特性（ＲＯＣ）曲線を実施する工程を含む、実施形態１〜８のいずれかに記載の方法。

実施形態１０：前記腫瘍が、脳腫瘍、肺がん、皮膚がん、鼻がん、咽頭がん、肝がん、骨がん、リンパ腫、膵臓がん、皮膚がん、腸がん、直腸がん、甲状腺がん、膀胱がん、腎臓がん、口がん、胃がん、固形腫瘍、非小細胞肺がん（ＮＳＣＬＣ）、タバコ誘発がん（ＴＩＣ）、ＵＶ光誘発がん、アポリポ蛋白ＢｍＲＮＡ編集酵素（ＡＰＯＢＥＣ）活性により媒介されるがん、乳がん蛋白（ＢＲＣＡ）変異を含むがん、ポリ（ＡＤＰ−リボース）ポリメラーゼ（ＰＡＲＰ）活性を含むがん、及びマイクロサテライト不安定性（ＭＳＩ）を含む腫瘍からなる群より選択される腫瘍である、いずれかの実施形態１〜９記載の方法。

実施形態１１：前記被験体が、がんと診断されていない、及び／又は無症候性である、実施形態１〜１０のいずれかに記載の方法。

実施形態１２：前記被験体が、ステージＩ〜ＩＩＩの早期がん患者である、実施形態１〜１１のいずれかに記載の方法。

実施形態１３：さらに、スクリーニングで用いられる被験体特異的特徴に基づくパターン系治療の推薦又は推奨を含む、実施形態１〜１３のいずれかに記載の方法。

実施形態１４：治療法の推薦が、ＢＲＣＡパターンに対するＰＡＲＰ−阻害剤、ＭＳＩパターンに対する免疫療法を含む、実施形態１３に記載の方法。

実施形態１５：前記腫瘍が、肺腺がん、導管腺がん（乳房腫瘍）、非小細胞肺がん肺腺がん（ＮＳＣＬＣＬＵＡＤ）、皮膚黒色腫、尿路上皮がん（膀胱腫瘍）、結腸直腸がん（リンチ）又は骨肉腫である、実施形態１〜１４のいずれかに記載の方法。

実施形態１６：工程（ｆ）が、線形最適化問題ｍｉｎｌｌＡｘ−ｂｌｌ，ｘ≧０を解いて信頼性推定値を決定する工程をさらに含み、ここで、Ａは、変異パターン配列コンテキストマトリックスであり、ｘは、各コスミック変異パターン（変数）の寄与であり、ｂは、患者特異的配列コンテキスト一覧である実施形態１〜１５のいずれかに記載の方法。

実施形態１７：前記最適化方程式は、非負最小二乗法（ＮＮＬＳ）、横断エントロピー大域最適化法、黄金断面探索法、又はそれらの組み合わせにより解かれる、実施形態１６のいずれかに記載の方法。

実施形態１８：工程（ｂ）は、さらに、（１）低いマッピング品質の読取（例えば、＜２９、ＲＯＣ最適化）を除去する工程；（２）重複ファミリーを構築し（同じＤＮＡ断片の複数のＰＣＲ／配列決定コピーを表す）、コンセンサス試験に基づいて補正読取を生成する工程；（３）低い塩基品質の読取（例えば、＜２１、ＲＯＣ最適化）を除去する工程；及び／又は（４）高い断片サイズの読取（例えば、＞１６０、ＲＯＣ最適化）を除去する工程、により前記一覧から人為的体読取を除去する工程を含み、かつ、工程（ｅ）は、さらに、前記被験体の配列コンテキスト一覧と特定のＣＯＳＭＩＣ的配列コンテキストとの間の配列の類似性を計算して、被験体の生物学的試料が、がん関連変異パターンを含むことの信頼性推定値を決定する工程をさらに含む、実施形態１〜１７のいずれかに記載の方法。

実施形態１９：工程（ｆ）は、さらに、余弦類似性、相関、相互情報、又はそれらの組み合わせに基づいて、被験体特異的特徴とがん特徴との間の類似性を推定する工程を含む、実施形態１〜１８のいずれかに記載の方法。

実施形態２０：さらに、がん変異パターンと複数の無作為バックグラウンドパターンとの比較を用いて信頼性のスクリーニングの検証を含む、実施形態１〜１９のいずれかに記載の方法。

実施形態２１：比較工程がｚスコアの評価を含み、閾値を超えるｚスコアは、被験体特異的特徴ががん特徴に特異的であり、無作為バックグラウンド特徴と関連しないことを示す、実施形態２０のいずれかに記載の方法。

実施形態２２：工程（ｆ）は、さらに、がん特異的特徴信頼度（ｚスコア）を、バックグラウンドノイズモデルにより計算された経験的閾値と比較する工程を含む、実施形態１〜２２のいずれかに記載の方法。

実施形態２３：前記経験的に計算されたバックグラウンドノイズモデルは、正常健常試料に関する基礎ノイズｚスコア推定値に対する前記がん特異的特徴信頼度（ｚスコア）を測定することを含み、前記閾値ノイズｚスコア推定値が少なくとも１、少なくとも２、少なくとも３、少なくとも４、又は少なくとも５であると、マーカーががん特異的であることを示す、実施形態２２のいずれかに記載の方法。

実施形態２４：前記被験体特異的パターンが、腫瘍では差次的に発現されるが、正常試料では発現されないマーカーを含む、がん特異的変異パターンと適合する、実施形態１〜２３のいずれかに記載の方法。

実施形態２５：前記腫瘍試料が、肺腫瘍、乳房腫瘍、メラノーマ、膀胱腫瘍、結腸直腸腫瘍、又は骨腫瘍を含む、実施形態１〜２４のいずれかに記載の方法。

実施形態２６：複数の被験体がスクリーニングされて、前記方法が、少なくとも５０％の被験体で早期検出が可能になる、実施形態１〜２５のいずれかに記載の方法。

実施形態２７：コンピュータ断層撮影（ＣＴ）スクリーニング工程をさらに含み、前記ＣＴスクリーニング工程は、工程（ａ）〜（ｆ）のいずれか１工程の前、同時、又はその後に実行される、実施形態１〜２７のいずれかに記載の方法。

実施形態２８：前記がんが固形腫瘍であり、前記ＣＴスクリーニングが疑わしい結節の検出を含む、実施形態２７に記載の方法。

実施形態２９：被験体が良性病変を有する患者である、実施形態１〜２８のいずれかに記載の方法。

実施形態３０：良性病変が、ＣＴスクリーニング、組織病理学、生検、又はそれらの組み合わせにより同定される、実施形態２９のいずれかに記載の方法。

実施形態３１：さらに、悪性結節と良性結節とを識別して、ＣＴスクリーニングの陽性適中率（ＰＰＶ）を高める工程を含む、実施形態１〜３０のいずれかに記載の方法。

実施形態３２：前記ＰＰＶが少なくとも３０％高まる、実施形態３１のいずれかに記載の方法。

実施形態３３：実施形態１〜３２のいずれかに記載の方法を実施することを含む、それを必要とする被験体における悪性腫瘍の早期検出方法。

実施形態３４：工程（ａ）は、さらに、全ゲノム配列決定でゲノムワイド変異データを凝集させる工程を含み、かつ、工程（ｃ）は、さらに、数学的最適化工程を用いて変異サインを検出する工程を含み、ここで、前記数学的最適化工程が、非負の最小二乗（ＮＮＬＳ）を使用することを含む、実施形態１〜３３のいずれかに記載の方法。

実施形態３５：被験体における前悪性腫瘍パターンを検出するための方法であって、以下の：（ａ）被験体の生物学的試料からの複数の遺伝子マーカーに関連する読取の、被験体特異的ゲノムワイド一覧を生成する工程であって、ここで、前記遺伝子マーカーの一覧は、単一ヌクレオチド変異（ＳＮＶ）、短い挿入及び欠失（indels）、コピー数変異、構造変異（ＳＶ）及びそれらの組み合わせからなる群から選択され；（ｂ）（１）前記読取の塩基品質（ＢＱ）、（２）前記読取のマッピング品質（ＭＱ）、及び／又は（３）前記読取の推定断片サイズ、（４）前記読取のアリル分画（ＶＡＦ）の関数としてのノイズ（Ｐ_Ｎ）の検出可能性に基づいて、前記一覧中の各読取を統計的に分類して、前記一覧から人為的的読取を除去する工程；（ｃ）各読取に関連する配列決定ノイズを、機械学習（ＭＬ）モデルを用いて、適応的及び／又は体系的にフィルタリングして、がん関連変異特徴とＰＣＲ又は配列決定エラー関連特徴を区別する工程；（ｄ）ノイズ除去工程（ｃ）及びフィルタリング工程（ｂ）に基づき、前記一覧内の複数の真正読取を含む被験体特異的特徴を編集する工程；（ｅ）被験体特異的パターンとがんパターンとの間の一致の程度に基づき、被験体の生物学的試料が、循環腫瘍ＤＮＡ（ｃｔＤＮＡ）を含むとの信頼性推定値を統計的に定量する工程；及び、（ｆ）被験体の生物学的試料ががん関連変異パターンを含むとの信頼性推定値が所定の閾値を超える場合に、前悪性腫瘍パターンを検出する工程を含む、方法。

実施形態３６：被験体が、脳腫瘍、肺がん、皮膚がん、鼻がん、咽頭がん、肝がん、骨がん、リンパ腫、膵臓がん、皮膚がん、腸がん、直腸がん、甲状腺がん、膀胱がん、腎臓がん、口腔がん、胃がん、固形腫瘍、非小細胞肺がん（ＮＳＣＬＣ）、タバコ誘発がん（ＴＩＣ）、ＵＶ光誘発がん、アポリポ蛋白ＢｍＲＮＡエディティング酵素タンパク質（ＡＰＯＢＥＣ）活性により媒介されるがん、乳がんタンパク質（ＢＲＣＡ）変異を含むがん、ポリ（ＡＤＰ−リボース）ポリメラーゼ（ＰＡＲＰ）活性を含むがん、及びマイクロサテライト不安定性（ＭＳＩ）、リンチ症候群、又はＢＲＣＡ遺伝子欠損を含む腫瘍があるか又はその疑いのある患者である、実施形態３５の方法。

実施形態３７：前記機械学習（ＭＬ）モデルが、順序立てノイズを適応的に及び／又は体系的にフィルタリングする深層畳込ニューラルネットワーク（ＣＮＮ）を含む、実施形態３５及び３６のいずれかに記載の方法。

実施形態３８：前記ＣＮＮが、汎腫瘍コホート上で深層学習アルゴリズムを用いて、真正腫瘍変異と人為的的エラーとを識別するパターン特徴を同定する工程；腫瘍患者由来試料中で検出された各個々の変異に信頼性推定値を割り当てる工程；全ゲノムの信頼性推定値を統合する工程；及び、試料中の特定のＣＯＳＭＩＣ変異のパターンの非負最小二乗（ＮＮＬＳ）を用いる工程を含む、実施形態３７に記載の方法。

実施形態３９：コンピュータ実行可能命令を含むコンピュータ読取可能媒体であって、プロセッサにより実行されると、プロセッサに腫瘍の早期検出又は前がん性腫瘍病変の以下の：（ａ）被験体の生物学的試料からの複数の遺伝子マーカーに関連する読取の、被験体特異的ゲノムワイド一覧を生成する工程であって、ここで、前記遺伝子マーカーの一覧は、単一ヌクレオチド変異（ＳＮＶ）、短い挿入及び欠失（indels）、コピー数変異、構造変異（ＳＶ）及びそれらの組み合わせからなる群から選択され；（ｂ）（１）前記読取の塩基品質（ＢＱ）、（２）前記読取のマッピング品質（ＭＱ）、及び／又は（３）前記読取の推定断片サイズ、（４）前記読取のアリル分画（ＶＡＦ）の関数としてのノイズ（Ｐ_Ｎ）の検出可能性に基づいて、前記一覧中の各読取を統計的に分類して、前記一覧から人為的的読取を除去する工程；（ｃ）各読取に関連する配列決定ノイズを、機械学習（ＭＬ）モデルを用いて、適応的及び／又は体系的にフィルタリングして、がん関連変異特徴とＰＣＲ又は配列決定エラー関連特徴を区別する工程；（ｄ）ノイズ除去工程（ｃ）及びフィルタリング工程（ｂ）に基づき、前記一覧内の複数の真正読取を含む被験体特異的特徴を編集する工程；（ｅ）被験体特異的パターンとがんパターンとの間の一致の程度に基づき、被験体の生物学的試料が、循環腫瘍ＤＮＡ（ｃｔＤＮＡ）を含むとの信頼性推定値を統計的に定量する工程；及び、（ｆ）被験体の生物学的試料ががん関連変異パターンを含むとの信頼性推定値が所定の閾値を超える場合に、前悪性腫瘍パターンを検出する工程を含む、検出方法又は一連の工程を実行させるコンピュータ読取り可能媒体。

実施形態４０：前記機械学習（ＭＬ）モデルは、一端に単一完全接続層を有する層状畳込ニューラルネットワーク（ＣＮＮ）を含み、前記ＣＮＮは、三塩基ウインドウ上を合成する際に空間的不変性を維持し、かつ、読取断片を、各々約８ヌクレオチド領域を表す複数のセグメントに折り畳むことで、品質マッピングを維持する、実施形態３９に記載のコンピュータ読取り可能媒体。

実施形態４１：前記ＣＮＮは、一端が単一完全接続層及び２連続畳込層を含む８層と、前記出力は、２受容野と２ストライドで最大プーリングすることにより、ダウンサンプリングされ；ここで、前記８層CNNは、読取断片を約２５個の個々のセグメントに折り畳むことにより品質マッピングを維持し、サイズ3の知覚場を用いて、ゲノム読取内の位置の列を折り畳み；かつ、ここで、最終畳込層の出力は、直接、完全接続シグモイド層に適用され、そこから、マーカーの最終分類が行われる、実施形態４０に記載のコンピュータ読取可能媒体。

実施形態４２：前記ＣＮＮは、アラインメントのゲノムコンテキスト、前記完全読取配列、及び前記塩基毎の品質スコアの積分を同時に捕捉する読取表示を含む、実施形態４０及び４１のいずれかに記載のコンピュータ読取可能媒体。

実施形態４３：工程（ａ）〜（ｆ）ともに、ＭＵＴＥＣＴと比較して約１．１２倍〜約３０倍読み取られたゲノムにおける体細胞変異を含む腫瘍特異的マーカーの濃縮を提供する、実施形態３９及び４２のいずれかに記載のコンピュータ読取可能媒体。

実施形態４４：コンピュータ実行可能命令を含むコンピュータ読取可能媒体であって、プロセッサにより実行されると、プロセッサは、被験体のがんを診断する方法又は一連の工程を実行する、コンピュータ実行可能命令を含む媒体であって、以下の：（Ａ）複数の被験体の試料から、各被験体の遺伝子マーカーの一覧を受信する工程であって、遺伝子マーカーは、体細胞単一ヌクレオチド変異（ｓＳＮＶ）、体細胞コピー数変異（ｓＣＮＶ）、挿入／欠失（インデル）、又はゲノム読取における構造変異（ＳＶ）を含み；（Ｂ）汎腫瘍コホートにわたり各被験体の遺伝子マーカーの一覧を処理して、真正がんマーカーと人為的的エラーとを識別するパターンを同定する工程；（Ｃ）処理工程（Ｂ）に基づいて、前記一覧における各パターンに信頼性推定値を割り当てる工程；（Ｄ）前記読取ゲノムパターンを横断して、工程（Ｃ）の各パターンの信頼性推定値を統合して、腫瘍パターンを構築する工程、かつ、（Ｅ）ＣＮＮが各被験体の信頼性推定値の所定の閾値を達成するまで、各被験体試料サンプルの工程（Ｂ）〜（Ｄ）の結果を前記ＣＮＮに戻すことにより、前記腫瘍パターンを数学的に最適化する工程、を含む方法により開発された畳込ニューラルネットワーク（ＣＮＮ）を含む、媒体。

実施形態４５：信頼性推定値の割り当ては、（１）線形混合最適化を用いたＣＯＳＭＩＣ変異パターンの寄与に関する信頼基準の計算工程、又は（２）特定のＣＯＳＭＩＣパターンに対する患者配列コンテキスト一覧の類似性の計算工程を含む、実施形態４４に記載のコンピュータ読取可能媒体。

実施形態４６：実施形態４５に記載のコンピュータ読取可能媒体であって、前記線形混合最適化は代数関数ｍｉｎｌｌＡｘ−ｂｌｌ，ｘ≧０を解くことを含み、ここで、Ａは、変異パターン配列コンテキストマトリックスであり、ｘは、各コスミック変異パターン（変数）の寄与であり、ｂは、患者特異的配列コンテキスト一覧である、コンピュータ読取可能媒体。

実施形態４７：Ａが、１００個の無作為変異パターンとともに、少なくとも５個、少なくとも１０個、少なくとも１５個、少なくとも２０個、少なくとも２５個、又は少なくとも３０個のＣＯＳＭＩＣパターンを含む、実施形態４６に記載のコンピュータ読取可能媒体。

実施形態４８：前記線形混合最適化は、抽出Ｅ＿ｒａｎｄｏｍ（平均寄与スコア）及びｓｔｄ＿ｒａｎｄｏｍ（ｓｔｄ寄与スコア）を含む無作為パターンの寄与分布を計算する工程；及び、メトリック（ｃｏｓｍｉｃ＿ｓｉｇ＿ｃｏｎｔｒｉｂｕｔｉｏｎ−Ｅ＿ｒａｎｄｏｍ）／ｓｔｄ＿ｒａｎｄｏｍを計算する工程を含む、各ＣＯＳＭＩＣパターンに対する寄与検出信頼性をｚスコアでチェックする工程を含み、ここで、前記メトリックは、無作為セットと比較して特定のパターンの有意差を表す、実施形態４５〜４７のいずれかに記載のコンピュータ読取可能媒体。

実施形態４９：前記数学的最適化工程は、非負最小二乗（ＮＮＬＳ）を用いる工程を含む、実施形態４４〜４８のいずれかに記載のコンピュータ読取可能媒体。

実施形態５０：それを必要とする被験体の腫瘍診断システムであって、被験体の血漿試料及び正常細胞試料を含む生物学的試料から増幅及び配列決定された遺伝子マーカーを含む複数の読取を受け取るように構成されかつ配置されたデータ収集ユニット；
遺伝子マーカーの前記被験体特異的一覧における被験体特異的マーカーを同定するように構成されたマーカー同定ユニットであって、前記マーカー同定ユニットは、前記データ収集ユニットと通信可能に接続され、前記読取の基本品質、前記読取のマッピング品質、該読取の断片サイズ、及び／又は前記読取の可変対立遺伝子頻度（ＶＡＦ）に基づいて人為的的ノイズを除去するノイズ除去ユニット；前記読取と前記腫瘍との統計的関連性の統計的レベルを示す信頼区間スコアに基づいて前記一覧におけるノイズ除去読取各々を統計的に分類するように構成された分類エンジンとを含み、前記分類エンジンは、前記増幅工程又は前記配列決定工程の間に導入されたノイズの適応的かつ体系的なフィルタリングのために機械学習（ＭＬ）モデルを利用し、かつ、さらに、前記一覧におけるノイズ除去ＭＬフィルタリング済読取と、１又はそれ以上の公知のがんパターンとを適合させ；前記適合に基づき、腫瘍を診断するように構成される診断ユニットを含む。

実施形態５１：前記分類エンジンは、さらに、線形混合最適化問題を用いて信頼性メトリックを計算して、前記一覧内におけるノイズ除去ＭＬフィルタリング済読取を、１又はそれ以上の公知のがんパターンと適合させるように構成される、実施形態５０に記載のシステム。

実施形態５２：前記線形混合物の最適化は、腫瘍発生率と、タバコ暴露、紫外線暴露、非制御ＤＮＡ修復、ＤＮＡ編集欠陥、マイクロサテライト不安定性、又はそれらの組み合わせから選択される腫瘍メディエータとの関連のｚスコア信頼性推定値を計算することを含む、実施形態５１に記載のシステム。

実施形態５３：ｚスコア信頼性推定値は、代数関数ｍｉｎｌｌＡｘ−ｂｌｌ，ｘ≧０を解くことを含み、ここで、Ａは、変異パターン配列コンテキストマトリックスであり、ｘは、各コスミック変異パターン（変数）の寄与であり、ｂは、患者特異的配列コンテキスト一覧である、実施形態５２に記載のシステム。

実施形態５４：ｚスコアの信頼性推定値は、Ａが３０個のＣＯＳＭＩＣパターンと１００個の無作為変異パターンとを含む代数関数ｍｉｎｌｌＡｘ−ｂｌｌ，ｘ≧０を解く工程；及び、平均寄与スコア（ＡＣＳ）と標準寄与スコア（ｓｔｄ＿ｒａｎｄｏｍ）とを含むＣＯＳＭＩＣパターン寄与（ＣＳＣ）無作為パターン（Ｅ＿ｒａｎｄｏｍ）の分布を計算する工程；及び、関数（ＣＳＣ−Ｅ＿ｒａｎｄｏｍ）／ｓｔｄ＿ｒａｎｄｏｍと共にｚスコアメトリックを計算して、各ＣＯＳＭＩＣパターンに対する寄与の信頼性をチェックする工程を含み、前記ｚスコアは、無作為セットと比較して特定のパターン寄与の有意性を表す、実施形態５２及び５３のいずれかに記載のシステム。

実施形態５５：前記ｚスコア信頼性推定値は、特定のＣＯＳＭＩＣサインに対する前記患者配列決定コンテキスト一覧の類似性の計算工程を含む、実施形態５２及び５４のいずれかに記載のシステム。

実施形態５６：前記ｚスコア信頼性推定値は、密度関数を得るために患者配列決定コンテキスト一覧を正規化する工程、前記患者配列決定コンテキスト密度関数と前記ＣＯＳＭＩＣパターン密度関数との間のコサイン類似性を計算する工程、前記患者配列決定コンテキスト密度関数と前記非情報的な均一密度関数との間のコサイン類似性で除して前記コサイン類似性を正規化する工程を含む、実施形態５２〜５５のいずれかに記載のシステム。

実施形態５７：前記ｚスコアの信頼性推定値は、前記ｚスコアが検出閾値を超えるかをチェックする工程を含み、前記閾値は、健常試料において経験的に推定された基礎ノイズを含む、実施形態５２及び５６のいずれかに記載のシステム。

実施形態５８：がんパターンがタバコパターンを含み、正の信頼区間が２、３、４より大きく、好ましくは５標準偏差より大きいｚスコアを含む、実施形態５２及び５７のいずれかに記載のシステム。

実施形態５９：前記遺伝子マーカーは、前記ＤＮＡ中のＳＮＶ、ＣＮＶ、インデル及び／又はＳＶを含み、前記受容ユニットは、全ゲノム配列決定（ＷＧＳ）済遺伝子データを受け取る、実施形態５０及び５８のいずれかに記載のシステム。

実施形態６０：血漿試料を含む生物学的試料が、無細胞ＤＮＡ（ｃｆＤＮＡ）を含み、正常細胞試料が、末梢単核球細胞（ＰＭＢＣ）を含み、マーカーが、体細胞性単一ヌクレオチド変異（ｓＳＮＶ）若しくは体細胞性コピー数変異（ｓＣＮＶ）又はそれらの組み合わせを含む、実施形態５０〜５９のいずれかに記載のシステム。

実施形態６１：前記試料中のｃｆＤＮＡの量が約０．１ｎｇ／ｍｌ〜約２０．０ｎｇ／ｍｌである、実施形態６０に記載のシステム。

実施形態６２：前記試料が、正常なＤＮＡ分子に対する腫瘍ＤＮＡ分子の量比により測定される、低い腫瘍画分（ＴＦ）を備える、実施形態５０〜６１のいずれかに記載のシステム。

実施形態６３：腫瘍画分（ＴＦ）が約０．０００１％（１〜１００万分子）〜約２０％である、実施形態６２に記載のシステム。

実施形態６４：前記人為的的ノイズ除去エンジンは、前記読取の基本品質（ＢＱ）スコア、前記読取のマッピング品質（ＭＱ）スコア、前記読取の断片サイズ、又は前記読取の可変対立遺伝子頻度（ＶＡＧ）に基づく、前記一覧における前記読取の確率的分類を含む、最適な受信者動作特性（ＲＯＣ）曲線を実行するように構成される、実施形態５０及び６のいずれかに記載のシステム。

実施形態６５：前記人為的的ノイズ除去エンジンは、さらに、（ｉｉｉ）前記読取における位置（ＲＰ）、（ｉｖ）前記読取の配列決定コンテキスト（ＳＣ）、（ｖ）前記読取の濃度、（ｖｉ）配列決定深度及び／又は（ｖｉｉ）配列決定エラー、に基づいてノイズをフィルタリングするようにさらに構成される、実施形態５０〜６４のいずれかに記載のシステム。

実施形態６６：被験体のがんの遺伝子スクリーニング方法であって、以下の：（Ａ）被験体の生物学的試料からの複数の遺伝子マーカーに関連する読取の被験体特異的ゲノムワイド一覧を受け取る工程であって、前記生物学的試料が血漿試料を含み、前記読取一覧が各々単一の塩基対長の読取を含み；（Ｂ）前記読取一覧から人為的体をフィルタリングする工程であって、（ａ）前記読取一覧から、参照健常試料のコホート上で生成された反復部位を除去する工程、（ｂ）前記生物学的試料における生殖細胞系変異を同定する工程、及び／又は腫瘍試料と正常細胞試料における末梢血単核細胞で共有された変異を生殖細胞系変異として同定する工程、及び、前記読取一覧から前記生殖細胞系変異を除去する工程；（Ｃ）少なくとも１つのエラー抑制プロトコルを用いて前記読取一覧からノイズをフィルタリングし、ゲノムに対するフィルタリング済読取セットを生成する工程であって、前記少なくとも１つのエラー抑制プロトコルが、（ａ）前記一覧におけるいかなる単一ヌクレオチド変異が、人為的的変異であるという可能性を計算し、かつ、前記変異を除去する工程であって、前記可能性は、マッピング品質（ＭＱ）、変異塩基品質（ＭＢＱ）、位置読取（ＰＩＲ）、平均読取塩基品質（ＭＲＢＱ）、及びそれらの組み合わせを含む群から選択される特徴の関数として計算され；及び／又は（ｂ）ポリメラーゼ連鎖反応又は配列決定プロセシングから生成された同一ＤＮＡ断片の独立した複製間の不一致試験及び／又は所定の重複ファミリーの大部分が一致しない場合に人為的的変異が同定されて、除去される重複コンセンサスを用いて人為的的変異を除去する工程：（Ｄ）所定の変異誘発プロセスに関連する特定の変異パターンとの比較に基づき、前記フィルタリング済読取セットを用いた被験体特異的パターンの編集工程；（Ｅ）前記被験体の生物学的試料が、被験体特異的パターンを介して、がん関連変異パターン曝露値のバックグラウンド変異パターンのコホートとの比較に基づき、がん関連変異パターンを含むという信頼性推定値を統計的に定量する工程；及び、（Ｆ）前記被験体の生物学的試料が所定の閾値を超えるがん関連変異パターンを含むと信頼性が推定される工程を含む、方法。

実施形態６７：被験体のがんの遺伝子スクリーニング方法であって、以下の：（Ａ）被験体の生物学的試料からの複数の遺伝子マーカーに関連する読取の被験体特異的ゲノムワイド一覧を受け取る工程であって、前記生物学的試料は、血漿試料を含み、前記読取一覧は各々、コピー数変化（ＣＮＶ）又は構造変化（ＳＶ）を含み；（Ｂ）前記読取一覧を複数のウインドウに分割する工程；（Ｃ）ウインドウ当たりの特徴のセットを計算する工程であって、前記特徴は、ウインドウ当たりの中央の深度カバレッジ及びウインドウ当たりの代表的な断片サイズを含み、場合によっては、読取を分割し；（Ｄ）前記読取一覧から人為的的部位をフィルタリングする工程であって、前記フィルタリング工程は、参照健常試料のコホート上に生成された反復性部位を前記読取一覧から除去する工程であり；（Ｅ）前記読取一覧を正規化して、前記ゲノムワイド読取一覧用のフィルタリング済読取セットを生成する工程；（Ｆ）（ｉ）ウインドウ当たりの特徴間の線形関係を計算して、前記変換済関係を、回帰モデルを用いて推定腫瘍分画に変換する工程、及び／又は（ｉｉ）読取の前記被験体特異的ゲノムワイド一覧にわたりウインドウ当たりの特徴の計算済セットの関数として、１又はそれ以上の統合的数学モデルに基づいて、前記フィルタリング済読取セットを用いて推定腫瘍分画を計算する工程；及び（Ｇ）推定された腫瘍分画が経験的閾値を超える場合に、被験体をがんについてスクリーニングする、工程を含む、方法である。

実施形態６８：被験体のがんの遺伝子スクリーニングのシステムであって、以下の：
分析ユニットであって、前記分析ユニットは、被験体の生物学的試料からの複数の遺伝子マーカーに関連する読取の被験体特異的ゲノムワイド一覧を受け取り、前記一覧から人為的体読取部位をフィルタリングするように構成されかつ配置されたプレフィルタエンジンを含み、ここで、前記分析ユニットは、前記生物学的試料は血漿試料を含み、前記一覧が各々単一の塩基対長の読取を含み、かつ、前記フィルタリングは、前記一覧から、参照健常試料のコホート上で生成された反復部位を除去する工程、前記生物学的試料中の生殖細胞系変異を同定する工程、及び／又は、前記腫瘍試料と前記正常細胞試料の末梢血単核細胞とで共有された変異を生殖細胞系変異として同定する工程、前記生殖細胞系変異を前記読取一覧から除去する工程とを含み；少なくとも１のエラー抑制プロトコルを用いてフィルタリングして、読取の前記ゲノムワイド一覧用のフィルタリング済読取セットを作成するように構成されかつ配置された補正エンジンであって、ここで、前記少なくとも１のエラー抑制プロトコルは、（ａ）前記一覧中の単一ヌクレオチド変異が人為的的変異である可能性を計算し、かつ、前記変異を除去することであって、ここで、前記可能性は、マッピング品質（ＭＱ）、変異塩基品質（ＭＢＱ）、読取位置（ＰＩＲ）、平均読取塩基品質（ＭＲＢＱ）、及びそれらの組み合わせを含む群から選択された特徴の関数として計算され；及び／又は；（ｂ）ポリメラーゼ連鎖反応又は配列決定プロセシングから生成された同一ＤＮＡ断片の独立した複製間の不一致試験及び／又は所定の重複ファミリーの大部分が一致しない場合に人為的的変異が同定されて、除去される重複コンセンサスを用いて人為的的変異を除去すること、を含み；並びに、所定の変異誘発プロセスに関連する特定の変異パターンとの比較に基づき、前記フィルタリング済読取セットを用いて、被験体に関連する変異パターンを編集するように構成されかつ配置された演算ユニットであって、がん関連する変異パターンの曝露値をバックグラウンドの変異パターンのコホートとの比較に基づき、被験体の生物学的試料が、前記被験体特異的パターンを介して、がん関連変異パターンを含むという、信頼性推定値を統計的に定量化し；かつ、被験体の生物学的試料ががん関連の変異パターンを含むとの信頼性推定値が所定の閾値を超える場合、被験体のがんについてスクリーニングする；を含むシステムである。

実施形態６９：それを必要とする被験体における残存疾患を検出するシステムであって、以下の：分析ユニットであって、前記分析ユニットは、被験体の生物学的試料からの複数の遺伝子マーカーに関連する読取の被験体特異的ゲノムワイド一覧を受け取り、前記生物学的試料が血漿試料を含み、前記読取の覧がそれぞれコピー数変異（ＣＮＶ）を含み、前記読取一覧を複数のウインドウに分割し、及びウインドウ当たりの中央値の深度カバレッジ及びウインドウ当たりの代表的な断片サイズを含む、前記ウインドウ当たりの特徴のセットを計算するように構成されかつ配置されたビンニングエンジン；し、前記特徴と、前記読取りの一覧から人為的のサイトをフィルタリングするように構成されかつ配置されたプレフィルタエンジンであって、前記フィルタリングが、参照健常試料のコホート上で生成された反復性部位を、前記一覧から除去することを含み；かつ、前置フィルタエンジンと、前記読取りの一覧を正規化して、ゲノムのためのフィルタリングされた読取セットを生成するように構成されかつ配置された正規化エンジンとを含む、分析ユニット；並びに、（ｉ）ウインドウ当たりの特徴間の線形関係を計算して、前記変換済関係を、回帰モデルを用いて推定腫瘍分画に変換し、及び／又は（ｉｉ）読取の前記被験体特異的ゲノムワイド一覧にわたりウインドウ当たりの特徴の計算済セットの関数として、１又はそれ以上の統合的数学モデルに基づいて、前記フィルタリング済読取セットを用いて推定腫瘍分率を計算し、及び推定された腫瘍分画が経験的閾値を超える場合に、被験体をがんについてスクリーニングするように構成されかつ配置された演算ユニットを含むシステムである。

実施形態７０：前記マーカーが、単一ヌクレオチド変異（ＳＮＶ）又は挿入／欠失（indels）；好ましくはＳＮＶを含む、実施形態６６の方法。

実施形態７１：参照健常試料のコホート上で生成された反復部位をフィルタリングすることが、正常（ＰＯＮ）ブラックリスト又はマスクのパネルを生成することを含む、実施形態６６〜７０のいずれか１つの方法。

実施形態７２：参照健常試料が末梢血単核細胞（ＰＢＭＣ）を含む、実施形態６６及び７０〜７１のいずれか１つに記載の方法。

実施形態７３：工程（Ｃ）が、機械学習（ＭＬ）アルゴリズム、例えば、深層畳込ニューラルネットワーク（ＣＮＮ）、反復ニューラルネットワーク（ＲＮＮ）、ランダムフォレスト（ＲＦ）、サポートベクタマシン（ＳＶＭ）、判別分析、最隣接分析（ＫＮＮ）、アンサンブル分類器、又はそれらの組み合わせ；好ましくは、サポートベクタマシン（ＳＶＭ）を用いて、人為的的ノイズをフィルタリングすることを含む、実施形態６６及び７０〜７３のいずれか１つの方法。

実施形態７４：工程（Ｃ）（ｂ）において、人為的的変異の補正が、元の核酸断片の独立した複製の比較を用いて、ＰＣＲ又は配列決定で生成された人為的的変異の補正を含む、実施形態６６及び７０〜７３のいずれか１つの方法。

実施形態７５：工程（Ｃ）（ｂ）において、対末端１５０ｂｐ配列決定により生成され、重複する対読取（Ｒ１及びＲ２）を生じる人為的的変異が、対応する参照ゲノム、Ｒ１及びＲ２対間の不一致を修正して除去される、実施形態７４の方法。

実施形態７６：工程（Ｃ）（ｂ）において、配列決定及び／又はＰＣＲ増幅の間に重複により生成された人為的的変異が補正され、重複ファミリーが５’及び３’類似性並びにアラインメント位置により認識され、かつ、各重複ファミリーが独立した複製にわたる特定の変異のコンセンサスのチェックに用いられ、それにより、重複ファミリーの大部分において一致がない人為的体変異を補正する、実施形態６６及び７０〜７５のいずれか１つの方法。

実施形態７７：工程（Ｄ）において、単一の血漿試料中の特異的変異パターンが、非負最小二乗（ＮＮＬＳ）法を用いて同定される、実施形態６６及び７０〜７６のいずれか１つの方法。

実施形態７８：工程（Ｅ）において、特異的変異パターンを、複数の無作為バックグラウンドパターンに対して推測される曝露値とがん特異的変異パターン曝露値との比較を用いて、信頼性についてさらに検証する、実施形態６６及び７０〜７７のいずれか１つの方法。

実施形態７９：工程（Ｆ）において、被験体の生物学的試料ががん関連変異パターンを含むと信頼性推定される場合、前記被験体は、ｚ−スコア＞２ｓｔｄの所定の閾値を超える場合、がんであると同定される、実施形態７８の方法。

実施形態８０：工程（Ｄ）において、追加的又は代替的に、機械学習アルゴリズム、例えば深層学習法を用いて、がん改変配列決定読取と配列決定エラーにより改変された読取を区別することを含む、実施形態６６及び７０〜７９のいずれか１つの方法。

実施形態８１：前記ＭＬが、腫瘍及び正常なＷＧＳデータの大コレクションを用いて、複数の真正変異読取及びエラーに関して訓練され、前記訓練済みＭＬが、真正変異体を含む読取と、配列決定人為的体を含む読取とを区別することができる、実施形態８０に記載の方法。

実施形態８２：断片サイズシフトを含む二次的特徴の直交統合をさらに含む、実施形態６６〜８１のいずれか１つに記載の方法。

実施形態８３：腫瘍特異的マーカー及び無作為マーカーのリストにおける患者内断片サイズシフトが、統計学的方法、例えば有意性又はガウス混合モデル（ＧＭＭ）の検定を用いて分析される、実施形態８２の方法。

実施形態８４：前記マーカーが、コピー数変異（ＣＮＶ）を含む、実施形態６７のいずれか１つに記載の方法。

実施形態８５：工程（Ｂ）において、各ウインドウが少なくとも≧１５０ｂｐである、実施形態６７及び８４のいずれか１つの方法。

実施形態８６：工程（Ｃ）が、ゲノムワイド特徴ベクトルからの深度カバレッジ（Ｌｏｇ２）及び断片サイズ（ＣＯＭ）関係（勾配、Ｒ＾２）の抽出を含む、実施形態６７及び８４〜８５のいずれか１つの方法。

実施形態８７：工程（Ｄ）が、正常（ＰＯＮ）ブラックリスト又はマスクのパネルを生成することにより、参照健常血漿試料のコホート上に生成された反復部位をフィルタリングする工程；及び／又は低いマッピング可能性又はカバレッジのウインドウをフィルタリングする工程を含む、実施形態６７及び８４〜８６のいずれか１つの方法。

実施形態８８：前記正規化工程は、ビンワイズＧＣフラクション及びマッピング可能性スコア上で２つのＬＯＥＳＳ回帰曲線フィッティングを行い、ＧＣ内容バイアス及びマッピング可能性バイアスを補正するために、深度カバレッジ値を正規化する工程を含む、実施形態６７及び８４〜８７のいずれか１つの方法。

実施形態８９：前記正規化工程は、各試料ごとに適用される、ロバスト−ｚスコア正規化を用いるバッチ効果補正を含む、実施形態６７及び８４〜８８のいずれか１つの方法。

実施形態９０：前記ｚスコアの正規化が、各試料の中立領域に基づく中央値及び中央値絶対偏差（ＭＡＤ）の計算を含み、並びに、すべてのＣＮＶビンの正規化が、中央値を差分し、かつ、ＭＡＤにより差分を除して正規化される、実施例８９に記載の方法。

実施形態９１：工程（Ｅ）が、正常（ＰＯＮ）健常血漿試料のパネルと比較して、血漿試料中の深度カバレッジスキュー及び／又は断片サイズ質量中心（ＣＯＭ）スキューを計算する工程を含む、実施形態６７及び８４〜９０のいずれか１つの方法。

実施形態９２：工程（Ｆ）が、隠れＭａｒｋｏｖモデル又は自己組織化ニューラルネットワーク、例えば、適応共鳴理論又は自己組織化マップに基づくニューラルネットワークを用いて、フィルタされたリードセットの腫瘍分率を呼び出すコピー数−変異（ＣＮＶ）を含む、実施形態６７及び８４〜９１のいずれか１つの方法。

実施形態９３：断片サイズシフトを含む二次的特徴の直交統合をさらに含む、実施形態６７及び８４〜９２のいずれか１つに記載の方法。

実施形態９４：腫瘍特異的マーカー及び無作為マーカーのリストにおける患者内断片サイズシフトが、統計学的方法、例えば有意性又はガウス混合モデル（ＧＭＭ）の検定を用いて分析される、実施形態９３のいずれか１つに記載の方法。

いくつかの例示的な態様及び実施形態を上記で論じてきたが、当業者には、それらの特定の変形形態、置換形態、追加形態、及び部分結合形態が理解されよう。したがって、添付の特許請求の範囲、及び今後導入される特許請求の範囲は、すべての当該変形形態、置換形態、追加形態、及び部分結合形態をそれらの真の精神及び範囲にあるとして含むと解釈される。便宜上、本明細書、実施例及び特許請求の範囲において用いられる特定の用語をここに集める。別段の定義がない限り、本開示で用いられるすべての技術的及び科学用語は、本開示が属する技術分野の当業者により一般的に理解されるのと同じ意味である。

本開示を通して、種々の特許、特許出願及び刊行物が参照される。当該特許、特許出願、アクセシンされた情報（例えば、ＰＵＢＭＥＤ、ＰＵＢＣＨＥＭ、ＮＣＢＩ、ＵＮＩＰＲＯＴ、又はＥＢＩアクセション番号により識別されるもの）及びそれらの全体の刊行物の開示は、本開示の日付で当業者に公知の技術水準をより完全に説明するため、参照により本開示に援用される。本開示は、引用された特許、特許出願及び刊行物と本開示との間に矛盾がある場合に適用される。

Claims

被験体のがんを遺伝子スクリーニングする方法であって、以下の：
（Ａ）被験体の生物学的試料からの複数の遺伝子マーカーに関連する読取（read(s)）の、被験体特異的ゲノムワイドの一覧（compendium）を受け取る工程であって、前記生物学的試料は血漿試料を含み、ここで、前記読取一覧は各々、単一塩基対長の読取を含み；
（Ｂ）前記読取一覧から人為的的部位をフィルタリングする工程であって、前記フィルタリングは、以下の：（ａ）前記読取一覧から、参照健常試料のコホートにわたり生成された反復性（recurring）部位を除去する工程；及び／又は（ｂ）前記生物学的試料における生殖細胞系変異を同定する工程、及び／又は腫瘍試料と正常細胞試料の末梢血単核細胞とで共有された変異を生殖細胞系変異として同定する工程、及び、前記読取一覧から前記生殖細胞系変異を除去する工程を含み；
（Ｃ）少なくとも１つのエラー抑制プロトコルを用いて、前記読取一覧のノイズをフィルタリングして、前記読取のゲノムワイドの一覧の前記フィルタリングされた読取セットを作製する工程であって、前記少なくとも１つのエラー抑制プロトコルは、以下の：（ａ）前記一覧中のいかなる単一ヌクレオチド変異が人為的的変異である確率を計算し、かつ、前記変異を除去する工程であって、前記確率は、マッピング品質（ＭＱ）、変異塩基品質（ＭＢＱ）、読取における位置（ＰＩＲ）、平均読取塩基品質（ＭＲＢＱ）、及びそれらの組み合わせを含む群から選択された特徴の関数として計算され；及び／又は（ｂ）ポリメラーゼ連鎖反応又は配列決定プロセシングで生成された同一ＤＮＡ断片の独立した複製間の不一致試験を用いて人為的的変異を除去する、及び／又は、所定の重複ファミリーの大部分に一致がない場合、人為的的変異を同定及び除去する、重複コンセンサスと、を含む、工程を含み；
（Ｄ）所定の変異誘発プロセスに関連する特定の変異パターンの比較に基づき、前記フィルタリングされた読取セットを用いて被験体特異的パターンを編集する工程；
（Ｅ）前記被験体の生物学的試料が、前記被験体特異的パターンを介して、がん関連変異パターン曝露値のバックグラウンド変異パターンのコホートとの比較に基づき、がん関連変異パターンを含む信頼性推定値を統計的に定量化する工程；
（Ｆ）前記被験体の生物学的試料が前記がん関連変異パターンを含む前記信頼性推定値が、所定の閾値を超える場合、前記被験体のがんをスクリーニングする工程；
を含む、方法。
被験体のがんを遺伝子スクリーニングする方法であって、
（Ａ）被験体の生物学的試料からの複数の遺伝子マーカーに関連する読取の、被験体特異的ゲノムワイドの一覧を受け取る工程であって、前記生物学的試料は血漿試料を含み、ここで、前記読取一覧各々がコピー数変異（ＣＮＶ）又は構造変異（ＳＶ）を含む；
（Ｂ）前記読取一覧を複数のウインドウへ分割する工程；
（Ｃ）前記ウインドウ当たりの特徴のセットを計算する工程であって、前記特徴は、前記ウインドウ当たりの中央値の深度カバレッジ（coverage）とウインドウ当たりの代表的な断片サイズを含み、かつ場合によっては、分割された読取を含む；
（Ｄ）前記読取一覧から人為的的部位をフィルタリングする工程であって、前記フィルタリングは、読取一覧から参照健常試料のコホート上で生成された反復性サイトを除去することを含む；
（Ｅ）前記ゲノムワイドの読取一覧のフィルタリングされた読解セットを作成する、読取一覧を正規化する工程；
（Ｆ）（ｉ）前記ウインドウ当たりの前記特徴セット間の直線関係を計算し、回帰モデルを用いて前記計算された関係を推定腫瘍分画に変換し、及び／又は（ｉｉ）前記読取の前記被験体特異的ゲノムワイドの一覧にわたるウインドウ当たりの前記計算された特徴セットの関数としての、１又はそれ以上の統合的数学モデルに基づき、前記フィルタリングされた読取セットを用いて、腫瘍分画の推定値を計算する工程；及び、
（Ｇ）前記腫瘍分画の推定値が経験的閾値を超える場合、がんについて前記被験体をスクリーニングする工程、
を含む、方法。
被験体のがんを遺伝子スクリーニングするシステムであって、以下の：
分析ユニットであって、以下の：
被験体の生物学的試料からの複数の遺伝子マーカーに関連する読取の、被験体特異的ゲノムワイドの一覧を受け取り、ここで、前記生物学的試料は血漿試料を含み、前記読取一覧は各々単一塩基対長の読取を含み；並びに前記読取一覧から人為的的部位をフィルタリングするように構成されかつ配置された、プレフィルタエンジンを含み、ここで、前記フィルタリングは、前記読取一覧から、参照健常試料のコホートにわたり生成された反復性部位を除去し；及び／又は前記生物学的試料から生殖細胞系変異を同定し及び／又は腫瘍試料と正常細胞試料の末梢血単核細胞とで共有された変異を生殖細胞系変異として同定し、及び、前記読取一覧から前記生殖細胞系変異を除去することを含み；
少なくとも１つのエラー抑制プロトコルを用いて、前記読取一覧のノイズをフィルタリングして、前記読取の、被験体特異的ゲノムワイドの一覧のためのフィルタリングされた読取セットを作成するように、構成されかつ配置された、補正エンジンであって、前記少なくとも１つのエラー抑制プロトコルは、以下の：（ａ）一覧中のいかなる単一ヌクレオチド変異が人為的的変異である確率を計算し、かつ、前記変異を除去する工程であって、前記確率は、マッピング品質（ＭＱ）、変異塩基品質（ＭＢＱ）、読取における位置（ＰＩＲ）、平均読取塩基品質（ＭＲＢＱ）、及びそれらの組み合わせを含む群から選択された特徴の関数として計算され；及び／又は（ｂ）ポリメラーゼ連鎖反応又は配列決定プロセシングで生成された同一ＤＮＡ断片の独立した複製間の不一致試験を用いて人為的的変異を除去する、及び／又は、所定の重複ファミリーの大部分に一致がない場合、人為的的変異を同定及び除去する、重複コンセンサスと、を含み、かつ、
所定の変異誘発プロセスに関連する特定の変異パターンの比較に基づき、前記フィルタリングされた読取セットを用いて被験体特異的パターンを編集し、前記被験体の生物学的試料は、前記被験体特異的パターンを介して、信頼性推定値を統計的に定量化し、がん関連変異パターン曝露値のバックグラウンド変異パターンのコホートとの比較に基づき、がん関連変異パターンを含み、前記被験体の生物学的試料が前記がん関連変異パターンを含む前記信頼性推定値が、所定の閾値を超える場合、前記被験体のがんをスクリーニングする、ように構成されかつ配置された演算ユニット、とを含む分析ユニットを含む、システム。
それを必要とする被験体における残存腫瘍を検出するシステムであって、以下の：
分析ユニットであって、前記分析ユニットは、以下の：
被験体の生物学的試料からの複数の遺伝子マーカーに関連する読取の被験体特異的ゲノムワイドの一覧を受け取るように構成されかつ配置されたビンニングエンジンであって、前記生物学的試料は、血漿試料を含み、前記読取一覧は各々コピー数変異（ＣＮＶ）を含み、前記読取一覧は、複数のウインドウに分割され、ウインドウ当たりの特徴のセットを計算し、前記特徴は、ウインドウ当たりの深度カバレッジの中央値及びウインドウ当たりの代表的な断片サイズを含み；
参照健常試料のコホート上で生成された反復性部位を読取一覧から除去することを含む、読取一覧から人為的的部位をフィルタリングするように構成及び配置されたプレフィルタエンジン、及び、
前記読取のゲノムワイドの一覧のためのフィルタリングされた読取セットを生成する読取一覧を正規化するように構成及び配置された正規化エンジン；を含み、並びに、
（ｉ）ウインドウ当たりの特徴セット間の直線関係を計算し、回帰モデルを用いて計算された関係を推定腫瘍分画に変換して、及び／又は（ｉｉ）前記被験体特異的ゲノムワイドの読取一覧にわたってウインドウ当たりの前記計算された特徴セットの関数としての１又はそれ以上の統合的数学モデルに基づき、前記フィルタリングされた読取セットを用いて推定腫瘍分画を計算し；かつ、前記推定腫瘍分画が経験的閾値を超える場合、被験体をがんについてスクリーニングするように、構成されかつ配置された演算ユニット；
を含む、システム。
前記マーカーが、単一ヌクレオチド変異（ＳＮＶ）又は挿入／欠失（indels）；好ましくはＳＮＶを含む、請求項１に記載の方法。
参照健常試料のコホート上で生成された反復部位をフィルタリングすることが、正常（ＰＯＮ）ブラックリスト又はマスクのパネルを生成することを含む、請求項１に記載の方法。
前記参照健常試料が、末梢血単核細胞（ＰＢＭＣ）を含む、請求項１記載の方法。
工程（Ｃ）が、機械学習（ＭＬ）アルゴリズム、例えば、深層畳込ニューラルネットワーク（ＣＮＮ）、リカレントニューラルネットワーク（ＲＮＮ）、ランダムフォレスト（ＲＦ）、サポートベクタマシン（ＳＶＭ）、判別分析、最近傍分析（ＫＮＮ）、アンサンブル分類器、又はそれらの組み合わせ；好ましくは、サポートベクタマシン（ＳＶＭ）を用いて、人為的的ノイズをフィルタリングすることを含む、請求項１に記載の方法。
工程（Ｃ）（ｂ）において、人為的的変異の補正が、元の核酸断片の独立した複製の比較を用いて、ＰＣＲ又は配列決定により生成された人為的的変異の補正を含む、請求項１に記載の方法。
工程（Ｃ）（ｂ）において、対−末端１５０ｂｐ配列決定により生成され、重複する対読取（Ｒ１及びＲ２）を生じる人為的的変異が、対応する参照ゲノムに戻されることにより、Ｒ１及びＲ２対間の不一致を修正して除去される、請求項９に記載の方法。
工程（Ｃ）（ｂ）において、配列決定及び／又はＰＣＲ増幅の間に重複により生成された人為的的変異が補正され、ここで、重複ファミリーは５’及び３’の類似性並びにアラインメント位置により認識され、かつ、各重複ファミリーは、独立した複製にわたる特異的変異のコンセンサスの確認に用いられ、それにより、前記重複ファミリーの大部分において一致を示さない人為的的変異を補正する、請求項１に記載の方法。
工程（Ｄ）において、単一の血漿試料中の特異的変異パターンが、非負最小二乗（ＮＮＬＳ）法を用いて同定される、請求項１に記載の方法。
工程（Ｅ）において、前記特異的変異パターンを、前記がん特異的変異パターン曝露値と、複数の無作為バックグラウンドパターンについて推測される曝露値との比較を用いて、信頼性についてさらに検証する、請求項１に記載の方法。
工程（Ｆ）において、前記被験体の生物学的試料ががん関連変異パターンを含むという信頼性推定値がｚ−スコア＞２ｓｔｄの所定の閾値を超える場合、前記被験体はがんであると同定される、請求項１３記載の方法。
工程（Ｄ）において、追加的又は代替的に、機械学習（ＭＬ）アルゴリズム、例えば、深層学習法を用いて、がん改変配列決定読取及び配列決定エラーにより改変された読取を区別することを含む、請求項１に記載の方法。
前記ＭＬが、腫瘍及び正常なＷＧＳデータの大きな集合を用いて複数の真の変異読取及びエラーについて訓練され、前記訓練されたＭＬが、真の変異体を含む読取と、人為的的配列を含む読取とを区別しうる、請求項１５に記載の方法。
断片サイズシフトを含む二次的特徴の直交統合をさらに含む、請求項１に記載の方法。
腫瘍特異的マーカー及び無作為マーカーのリストにおける患者内断片サイズシフトが、統計的方法、例えば有意性又はガウス混合モデル（ＧＭＭ）の検定を用いて分析される、請求項１７に記載の方法。
前記マーカーがコピー数変異（ＣＮＶ）を含む、請求項２に記載の方法。
工程（Ｂ）において、各ウインドウが少なくとも≧１５０ｂｐである、請求項２に記載の方法。
工程（Ｃ）が、前記ゲノムワイド特徴ベクトルからの深度カバレッジ（Ｌｏｇ２）及び断片サイズ（ＣＯＭ）関係（勾配、Ｒ＾２）の抽出を含む、請求項２に記載の方法。
工程（Ｄ）が、正常（ＰＯＮ）ブラックリスト又はマスクのパネルを生成して、参照健常血漿試料のコホート上に生成された反復部位をフィルタリングする工程と、低マッピング可能性又はカバレッジのウインドウをフィルタリングする工程とを含む、請求項２に記載の方法。
前記正規化工程は、ビンワイズＧＣフラクション及びマッパビリティスコア上で２つのＬＯＥＳＳ回帰曲線フィッティングを行い、深度カバレッジ値を正規化し、ＧＣ含有量及びマッパビリティバイアスを補正することを含む、請求項２に記載の方法。
前記正規化工程は、各試料に別々に適用されるロバストｚスコア正規化を用いたバッチ効果補正を含む、請求項２に記載の方法。
ｚスコアの正規化が、各試料の中立領域に基づく中央値及び中央値絶対偏差（ＭＡＤ）の計算を含み、すべてのＣＮＶビンを正規化することが、中央値を差し引いてＭＡＤで除して正規化される、請求項２４に記載の方法。
工程（Ｅ）が、正常（ＰＯＮ）健常血漿試料のパネルと比較して、血漿試料中の深度カバレッジスキュー及び／又は断片サイズ重心（ＣＯＭ）スキューを計算する工程を含む、請求項２に記載の方法。
工程（Ｆ）は、隠れＭａｒｋｏｖモデル又は自己組織化ニューラルネットワーク、例えば、適応共鳴理論又は自己組織化マップに基づくニューラルネットワークを用いて、フィルタリングされた読取セットの腫瘍分率を呼出、計算するコピー数−変異（ＣＮＶ）を含む、請求項２に記載の方法。
断片サイズシフトを含む二次的特徴の直交統合をさらに含む、請求項２に記載の方法。
腫瘍特異的マーカー及び無作為マーカーのリスト中の患者内断片サイズシフトが、統計学的方法、例えば有意性又はガウス混合モデル（ＧＭＭ）の検定を用いて分析される、請求項２８に記載の方法。