JP2019511070A

JP2019511070A - 核酸を解析するシステムおよび方法

Info

Publication number: JP2019511070A
Application number: JP2018560742A
Authority: JP
Inventors: デ・ラ・ベガ，フランシスコ・エム
Original assignee: トマ・バイオサイエンシズ，インコーポレーテッド
Priority date: 2016-02-09
Filing date: 2017-02-09
Publication date: 2019-04-18
Also published as: CN108885648A; EP3414693A1; WO2017139492A1; US20190050530A1; EP3414693A4

Abstract

本明細書では、個人からのサンプルのシーケンシングデータに対してコンピュータ解析を実施する、システム、ソフトウェア媒体、ネットワーク、キット、および方法を提供する。解析は、生殖細胞系列および体細胞情報を抽出し、両方のタイプの情報を比較して、確率モデリングおよび統計的推論に基づいて、シーケンス変異体を特定することができる。解析は、生殖細胞系列変異体、例えば個人の変異体と、体細胞突然変異とを区別することを含み得る。特定された変異体は、より良好な健康管理を行うために診療所で使用することができる。

Description

相互参照
[0001]本出願は、２０１６年２月９日付けの米国特許出願第６２／２９３，１３６号の利益を主張し、その全体を参照により本明細書に援用する。

[0002]がん体細胞突然変異を組織サンプルの高スループットシーケンシングデータから正確に特定することは、困難な未解決の課題であり得る。シーケンシングデータは、偽陽性または偽陰性変異体の解析率が分かっていない治療選択のための臨床的処置で使用することができる。このプロセスにおいて直面し得る組織としては、サンプルごとに異なる広範囲な割合で正常な細胞が存在することによる組織サンプルの異質性（例えば、血漿中の原発腫瘍対無細胞ＤＮＡ（ｃｆ−ＤＮＡ））、がん細胞の複数のクローンが異なる割合で存在すること、体細胞変異体と生殖細胞系列変異体の分化を可能にする、「正常な」組織のサンプルから得るデータの欠落、病理学的処理（例えば、ホルマリン固定パラフィン包理（ＦＦＰＥ））によるサンプル中のＤＮＡの損傷、ならびに構造多型と単純なシーケンス変異体との回旋が挙げられる。新しい解析方法は、大規模シーケンシングデータからの生殖細胞系列変異体の特定を改善することができる。

[0003]場合によっては、解析におけるデータを単一の対照サンプルと比較した場合、がんデータ解析が一貫しない結果を生み出す場合がある。場合によっては、データ解析は、がん細胞を含んでいるかまたは含んでいることが疑われるサンプルと同様に処理された患者の正常な組織から得たデータの有効性に依存しており、これは悪性腫瘍病理学の使用事例では利用不能な場合が多い。生殖細胞系列変異体を体細胞突然変異から除外する手動のまたは発見的方法を含む、現在の解析パイプラインは、恣意的であり、不正確であり、再現が困難であり、またプロセス中に暗黙的に生じる偽陽性と偽陰性のトレードオフに関する情報を提供しない場合がある。しかしながら、正常な組織が利用可能なとき、場合によっては、独立して解析され、「実際の」生殖細胞系変異体に対する決定がなされた後のフィルタ処理ステップとして初めて一緒にされるので、生殖細胞系列のコールに課される閾値を外れた生殖細胞系列変異体による偽陽性の体細胞突然変異がコーリングされる場合がある。後者の課題に対処する解決策は、正常なサンプルのパネルをその母集団に共通な基準の生殖細胞系列変異体として使用することであり得る。がん感受性変異体を含む、患者の体内に存在する稀な変異体にさらに対処するため、新しい方法を本明細書において開示する。方法は、患者から、ならびに他の一連の過去に解析した患者から得た全てのサンプルを整列させたシーケンシングデータから、変異体のコーリングおよびスコアリングを同時に行うことに基づくことができる。

本願発明の一実施例は、例えば、核酸を解析するシステムおよび方法に関する。

[0004]本明細書では、組織の高スループットシーケンシングデータからがん体細胞突然変異を特定する、システム、ソフトウェア媒体、ネットワーク、および方法を提供する。
[0005]１つの態様では、コンピューティングシステムが本明細書にて開示され、該コンピューティングシステムは、（ａ）プロセッサと、機械可読命令を実行するように構成されたメモリモジュールと、（ｂ）データ解析アプリケーションとを備え、該アプリケーションは、（１）高スループットシーケンシング機器によって生成される、個人の１つ以上のサンプルから得られる核酸分子のシーケンスリードを受信するように構成されたデータ受信モジュールと、（２）シーケンスリードを基準アセンブリに対して整列させて、予測ゲノムシーケンスを生成するように構成されたシーケンスアライメントモジュールと、（３）（ｉ）予測ゲノムシーケンスを共同で同時に解析することによって推定変異体を特定し、（ｉｉ）体細胞突然変異または生殖細胞系列変異体である確率によって推定変異体をスコアリングするように構成されたゲノム解析モジュールとを備える。

[0006]別の態様では、データ解析アプリケーションを作成するためにプロセッサによって実行可能な命令を含むコンピュータプログラムを用いてコード化された、コンピュータ可読記憶媒体が本明細書にて開示され、該アプリケーションは、（ａ）高スループットシーケンシング機器によって生成される、個人の１つ以上のサンプルから得られる核酸分子のシーケンスリードを受信するように構成されたデータ受信モジュールと、（ｂ）シーケンスリードを基準アセンブリに対して整列させて、予測ゲノムシーケンスを生成するように構成されたシーケンスアライメントモジュールと、（ｃ）（ｉ）予測ゲノムシーケンスを共同で同時に解析することによって推定変異体を特定し、（ｉｉ）体細胞突然変異または生殖細胞系列変異体である確率によって推定変異体をスコアリングするように構成されたゲノム解析モジュールとを備える。

[0007]別の態様では、方法が開示され、該方法は、（ａ）個人の１つ以上のサンプルを収集するステップと、（ｂ）高スループットシーケンシング機器を使用して、１つ以上のサンプルの核酸分子のシーケンシングを行い、シーケンスリードを生成するステップと、（ｃ）シーケンスリードを基準アセンブリに対して整列させて、予測ゲノムシーケンスを生成するステップと、（ｄ）予測ゲノムシーケンスを共同で同時に解析することによって、推定変異体を特定するステップと、（ｅ）体細胞突然変異または生殖細胞系列変異体である確率によって推定変異体をスコアリングするステップとを含む。

[0008]様々な実施形態では、本明細書に開示するシステム、ソフトウェア媒体、方法、またはそれらの使用は、１つ以上のサンプルを使用することを含む。１つ以上のサンプルは同時に収集することができる。場合によっては、１つ以上のサンプルは少なくとも２つのサンプルを含み、少なくとも２つのサンプルは別の時点で収集することができる。特定の適用例では、１つ以上のサンプルは、原発腫瘍、転移腫瘍、体液、無細胞サンプル、リンパ球、および血漿のうち１つ以上を含んでもよい。

[0009]本明細書に開示する様々な開示のシステム、ソフトウェア媒体、および方法では、推定変異体の特定は、ゲノムシーケンスを、１つ以上の過去に解析した患者から得たシーケンスのバンクのシーケンスと比較することを含むことができる。推定変異体のスコアリングは、正しいコールと誤ったコールの組を用いて訓練した機械学習可能な方法に基づいて確率を調節することを含むことができる。推定変異体の特定およびスコアリングは、染色体座における推論を作成することを含むことができる。

[0010]様々な適用例では、推論の作成は、確率モデル、統計的推論、ベイズ推定、およびベイズネットワークモデルのうち１つ以上を使用することを含むことができる。いくつかの設計では、推論の作成は、生殖細胞系列および体細胞変異体発見の事前確率、染色体座にわたって整列された一連のシーケンスリード、高スループットシーケンシング機器の誤り率、染色体座を含む染色体領域の倍数関係、がんのクローン進化のプロセスモデル、個人の１つ以上の他のサンプルに由来する染色体座におけるコール、１人以上の他の個人の１つ以上のサンプルに由来する染色体座におけるコール、１つ以上の基準母集団の染色体座における共通の多型性の事前知識、染色体座における１つ以上の再発がんの突然変異の事前知識、がんを含むサンプル中のがん細胞の比率、確率モデルによる変異体の説明、確率モデルによる染色体座全体にわたる一連の整列されたシーケンスリードの説明、確率モデルによる染色体座における倍数関係の説明、ならびに確率モデルによるサンプル中のがん細胞の比率の説明のうち１つ以上に基づくことができる。

[0011]いくつかの設計では、ベースコールに対する品質検証において誤り率がもたらされる場合がある。がんを含むサンプルは、がんを引き起こす１つ以上のＤＮＡ分子、または１つ以上のがん性組織、または両方を含む場合がある。本明細書で使用する比率は二値変数によって記載することができる。

[0012]本明細書に開示する様々な開示のシステム、ソフトウェア媒体、および方法では、データ解析アプリケーションは、１つ以上のコーディング領域、予測される損傷の深刻度、１つ以上の生殖細胞系列突然変異、１つ以上の体細胞突然変異、１つ以上の突然変異・薬物間の相互作用、臨床試験において観察される１つ以上の突然変異、１つ以上の疾患、１つ以上の症状、または１つ以上の副作用のうち１つ以上における影響に関して、推定変異体に注釈を付けるように構成されたモジュールをさらに備えることができる。

[0013]本明細書に開示する様々な開示のシステム、ソフトウェア媒体、および方法では、データ解析アプリケーションは、治療方法、または処置方法、または両方を推奨するように構成されたモジュールを備えることができる。

[0014]本明細書に開示する様々な開示のシステム、ソフトウェア媒体、および方法では、データ解析アプリケーションは、処置の経過を査定するように構成されたモジュールを備えることができる。

[0015]本明細書に開示する様々な開示のシステム、ソフトウェア媒体、および方法では、データ解析アプリケーションは、リスクを評価するように構成されたモジュールを備えることができる。

[0016]本明細書に開示する様々な開示のシステム、ソフトウェア媒体、および方法では、データ解析アプリケーションは、治療方法、または処置方法、または両方の効率を監視するように構成されたモジュールを備えることができる。
参照による援用
[0017]本明細書において言及する全ての刊行物、特許、および特許出願は、個々の刊行物、特許、また特許出願それぞれが参照により援用されるように具体的に個々に示されたのと同じ程度まで、参照により本明細書に援用する。

[0018]本発明の新規な特徴を、添付の特許請求の範囲において詳細に説明する。本発明の特徴および利点は、本発明の原理を利用した例示的な実施形態を説明する以下の詳細な説明、ならびに添付図面を参照することによって、さらに理解されるであろう。

[0019]本明細書に開示の方法を示す図である。 [0020]データ受信モジュールの一例を示す図である。 [0021]シーケンスアライメントモジュールの一例を示す図である。 [0022]ゲノム解析モジュールの一例を示す図である。 [0023]染色体座におけるシーケンス解析の一例を示す図である。 [0024]推定変異体の確率を評価するために、被験者からの異なるタイプのサンプルを使用する一例を示す図である。 [0025]推定変異体の確率を評価するために、遺伝子座周辺の情報を使用する一例を示す図である。 [0026]がん体細胞突然変異の同時推論のためのベイズネットワークの図である。 [0027]本明細書に開示する解析を実施するコンピュータ制御システムを示す図である。 [0028]例えば被験者の腫瘍サンプルから、ＤＮＡライブラリを作成する方法の例示的なワークフローを示す図である。

Ｉ．概要
[0029]本明細書に開示する技術は、個人からのサンプルの高スループット核酸シーケンシングデータに対するコンピュータ解析を対象とし得る。解析は、生殖細胞系列および体細胞情報を抽出し、両方のタイプの情報を比較して、確率モデリングおよび統計的推論に基づいて、シーケンス変異体を特定することができる。生殖細胞系列変異体は、天然のまたは正常な変異（例えば、肌の色、髪の色、および標準体重）を含む核酸を指す。体細胞突然変異は、後天的または異常な変異（例えば、がん、肥満、症状、疾患、障害など）を含む核酸を指す。解析は、生殖細胞系列変異体、例えば個人の変異体と、体細胞突然変異とを区別することを含み得る。特定された変異体は、より良好な健康管理を行うために診療所で使用することができる。

[0030]本明細書では、増幅および／またはシーケンシング技術、体細胞突然変異および生殖細胞系列変異体によって導入された、核酸中のシーケンス誤りを区別することができる、改善された方法、コンピューティングシステム、またはソフトウェア媒体を提供する。患者から得た全てのサンプルを整列させたシーケンシングデータから、変異体のコーリングおよびスコアリングを同時に行うことを含む、方法を提供する。他の被験者からのサンプル、例えば、シーケンシングアッセイ、例えばターゲットシーケンシングアッセイ、例えばターゲットリシーケンシングアッセイによって過去に解析された、他の被験者からのサンプルを使用することができる。改善された方法、コンピューティングシステム、またはソフトウェア媒体の使用によって、生殖細胞系列および体細胞突然変異のより良好な弁別（例えば、より少ない偽陽性）、ならびにより低い検出限界（例えば、より少ない偽陰性）をもたらすことができる。

[0031]図１は、本明細書にて提供する方法の概要を示している。ステップ１０１で、システムまたは方法は、個人の１つ以上のサンプルを収集することを含む。サンプルは、例えば、組織または体液または両方から、個人、例えば被験者、患者から、得ることができる。サンプルは、本明細書に記載する任意のサンプル、例えば、原発腫瘍、転移腫瘍、血液からの軟膜（例えば、リンパ球）、または血漿から抽出した無細胞ＤＮＡ（ｃｆ−ＤＮＡ）であることができる。１０２で、例えば高スループットシーケンシング機器によって、１つ以上のサンプルの核酸分子のシーケンシングを行うことができる。例えば、本明細書に記載する任意の方法によって、１つ以上のシーケンシングライブラリを準備することができる。シーケンシングライブラリは、各組織サンプルに対して、ならびに／または異なる時点で得たサンプルに対して準備することができる。シーケンシングによってシーケンスリードを生成することができる。シーケンスリードをアセンブルして個人の予測ゲノムとするため、ステップ１０３は、シーケンスリードを基準アセンブリに、例えばヒト基準アセンブリに対して整列させて、予測ゲノムシーケンスを生成する。ステップ１０４で、システムまたは方法は推定変異体を特定する。特定は、予測ゲノムシーケンスを共同で同時に解析することと、体細胞突然変異または生殖細胞系列変異体である確率によって推定変異体をスコアリングすることとを含むことができる。本明細書に記載するように、サンプルの細胞充実性の推定値を使用してスコアリングの情報を与えることができる。変異体は、例えば、一連の良い（即ち、真陽性）細胞および悪い（即ち、偽陽性）細胞を用いて訓練した機械学習方法に基づいて、再スコアリングすることができる。変異体は、コーディング領域、予測される損傷の深刻度、生殖細胞系列および体細胞突然変異の他のデータベースの相互参照、突然変異・薬物間の相互作用、突然変異が観察された患者を受け入れる臨床試験、または他の医学的に関連する知識ベースにおける、変異体の影響に関して注釈を付けることができる。ステップ１０５で、変異体情報および注釈、例えば、がん遺伝子および関連するホットスポットにわたって変異が存在しないことのエビデンスを腫瘍ボードに提供して、腫瘍ボードが、個人に対する治療の推奨を行うか、または処置の経過もしくは起こり得る再発を査定するのを可能にすることができる。

[0032]また、本明細書では、プロセッサと、機械可読命令を実行するように構成されたメモリモジュールと、高スループットシーケンシング機器によって生成される、個人の１つ以上のサンプルから得られる核酸分子のシーケンスリードを受信するように構成されたデータ受信モジュールを備えるデータ解析アプリケーションと、シーケンスリードを基準アセンブリに対して整列させて、ゲノムシーケンスを生成するように構成されたシーケンスアライメントモジュールと、（ｉ）ゲノムシーケンスを共同で同時に解析することによって推定変異体を特定し、（ｉｉ）体細胞突然変異または生殖細胞系列変異体である確率によって推定変異体をスコアリングするように構成されたゲノム解析モジュールとを備える、コンピューティングシステムを提供する。

[0033]また、本明細書では、データ解析アプリケーションを作成するためにプロセッサによって実行可能な命令を含むコンピュータプログラムを用いてコード化された、コンピュータ可読記憶媒体であって、アプリケーションが、高スループットシーケンシング機器によって生成される、個人の１つ以上のサンプルから得られる核酸分子のシーケンスリードを受信するように構成されたデータ受信モジュールと、シーケンスリードを基準アセンブリに対して整列させて、ゲノムシーケンスを生成するように構成されたシーケンスアライメントモジュールと、（ｉ）ゲノムシーケンスを共同で同時に解析することによって推定変異体を特定し、（ｉｉ）体細胞突然変異または生殖細胞系列変異体である確率によって推定変異体をスコアリングするように構成されたゲノム解析モジュールとを備える、コンピュータ可読記憶媒体を提供する。

[0034]また、本明細書では、個人の１つ以上のサンプルを収集するステップと、高スループットシーケンシング機器を使用して、１つ以上のサンプルの核酸分子のシーケンシングを行い、シーケンスリードを生成するステップと、シーケンスリードを基準アセンブリに対して整列させて、ゲノムシーケンスを生成するステップと、ゲノムシーケンスを共同で同時に解析することによって、推定変異体を特定するステップと、体細胞突然変異または生殖細胞系列変異体である確率によって推定変異体をスコアリングするステップとを含む、方法を提供する。
ＩＩ．データ解析アプリケーション
[0035]本明細書にて提供する方法、コンピュータシステム、またはコンピュータ可読媒体は、１つ以上のデータ解析アプリケーションを含むことができる。データ解析アプリケーションは、異なる機能を有するいくつかのモジュールを備えることができる。例えば、データ解析アプリケーションは、シーケンスリードを受信するデータ受信モジュールを備えることができる。データ解析アプリケーションは、シーケンスリードを取得し、シーケンスリードを整列させて、予測ゲノムシーケンスを生成することができる、シーケンスアライメントモジュールを備えることができる。データ解析アプリケーションは、予測ゲノムシーケンスを取得し、確率的および統計的解析を実施して、疾患を引き起こす推定遺伝変異体を特定することができる、ゲノム解析モジュールを備えることができる。

[0036]Ａ．データ受信モジュール
[0037]図２は、データ受信モジュールの一例を示している。データ受信モジュール２０１は、シーケンシング機器、例えば高スループットシーケンシング機器２１１によって生成されるシーケンスリードを格納する、メモリデバイスまたはハードドライブなどの一時的データ記憶装置２０２を含むことができる。非シーケンスデータ２１２をデータ受信モジュール２０１に提供することができる。非シーケンスデータ２１２の例としては、名前、生年月日、性別、年齢層、病歴、家族情報、サンプル源、サンプル収集時間、およびサンプルの生物学的状態が挙げられるが、それらに限定されない。データ受信モジュールは、被験者からの少なくとも１、２、３、４、５、１０、２０、またはそれ以上のサンプルから、シーケンスリードデータを受信することができる。データ受信モジュールは、少なくとも１、２、３、４、５、１０、２０、またはそれ以上の異なる被験者から、シーケンスデータを受信することができる。

[0038]データ受信モジュールは、データ再編成プロセス２０３を含むことができる。再編成プロセス２０３は、一時的に格納されたデータを所定のフォーマットに再編成し、再編成されたデータをデータベース２０４に格納することができる。例えば、複数の被験者のシーケンスリードを個々の被験者ごとに分離することができる。別の例では、注釈付き情報に基づいてシーケンスリードを再編成することができる。いくつかの実施形態では、例えば、シーケンスデータおよび非シーケンスデータを対にできない場合、データ再編成プロセス２０３は、両方のデータを一時的データ記憶装置に返して、さらに入ってくるデータを待つことができ、またはデータ再編成プロセス２０３は、欠落しているデータ入力をマークし、再編成されたデータをデータベース２０４に格納することができる。

[0039]Ｂ．シーケンスアライメントモジュール
[0040]図３は、シーケンスアライメントモジュールの一例を示している。シーケンスアライメントモジュールの動作は３つのステップを含むことができる。モジュールは、データ受信モジュールからのシーケンスリード３１１にアクセスすることができる。モジュールはまた、アライメントのため、１つ以上の基準ゲノム３１２にアクセスすることができる。第１のステップ３０２は、シーケンスリードを検索し、シーケンスリードを複数の候補染色体セグメントと比較することができる。「複数」は、少なくとも２つの要素を含むことができる。特定の事例では、複数は、少なくとも１０、少なくとも１００、少なくとも１００、少なくとも１０，０００、少なくとも１００，０００、少なくとも１，０００，０００、少なくとも１０，０００，０００、少なくとも１００，０００，０００、または少なくとも１，０００，０００，０００、もしくはそれ以上の要素を有することができる。比較は統計的解析に基づくことができる。第２の３０３で、シーケンスアライメントモジュールは、最も一致スコアが高いゲノムセグメントを選ぶことができる。ステップ３０２および３０３を各シーケンスリードに対して繰り返すことができる。最後のステップ３０４は、例えば全てのシーケンスリードが基準ゲノムにマッピングされると、全てのシーケンスリードをアセンブルし凝集して、個人の予測ゲノムシーケンスとすることができる。

[0041]ゲノムシーケンスは、本明細書で使用するとき、ゲノム中に生じるシーケンスを指すことができる。ＲＮＡはゲノムから転写されるので、この用語は、有機体の核ゲノム中に存在するシーケンス、ならびにかかるゲノムから転写されるＲＮＡ（例えば、ｍＲＮＡ）のｃＤＮＡコピー中に存在するシーケンスを包含することができる。

[0042]予測ゲノムシーケンスは、本明細書で使用するとき、シーケンスアライメントモジュールによってアセンブルされたゲノムシーケンスを指すことができる。
[0043]サンプル調製およびシーケンシングのプロセスでは、核酸、例えばサンプル中に存在するＤＮＡ断片の、一部または全体のシーケンシングを実施することができる。既知の基準ゲノムに対してマッピングするリードを含むシーケンスタグを計数することができる。場合によっては、基準ゲノムに対して一意的に整列するシーケンスリードのみをシーケンスタグとして計数することができる。いくつかの実施形態では、基準ゲノムは、ワールドワイドウェブ上でｇｅｎｏｍｅ．ｕｃｓｃ．ｅｄｕ／ｃｇｉ−ｂｉｎ／ｈｇＧａｔｅｗａｙ？ｏｒｇ＝Ｈｕｍａｎ＆ｄｂ＝ｈｇｌ８＆ｈｇｓｉｄ＝１６６２６０１０５にて利用可能な、ヒト基準ゲノムＮＣＢＩ３６／ｈｇ１８シーケンスである。他の公開シーケンス情報源としては、ＧｅｎＢａｎｋ、ｄｂＥＳＴ、ｄｂＳＴＳ、ＥＭＢＬ（欧州分子生物学研究所）、およびＤＤＢＪ（日本ＤＮＡデータバンク）が挙げられる。基準ゲノムはまた、ヒト基準ゲノムＮＣＢＩ３６／ｈｇ１８シーケンス、および多型性標的シーケンスを含む人工標的シーケンスゲノムを含むことができる。いくつかの実施形態では、基準ゲノムは、多型性標的シーケンスを含む人工標的シーケンスゲノムである。基準ゲノムは、公開ヒトゲノム（例えば、ｈｇ１８、ｈｇ１９、またはｈｇ３７）であることができる。

[0044]場合によっては、基準ゲノムは、サンプルを評価中の被験者と同じ疾患（例えば、がん）、年齢、民族、性別、国籍、職業、暴露（例えば、毒素、放射線、もしくは生物剤に対する）、または居住地（例えば、同じ家、市、州、国、もしくは大陸）の被験者または被験者群からのものである。場合によっては、基準ゲノムは、サンプルを評価中の被験者とは異なる疾患（例えば、がん）、年齢、民族、性別、国籍、職業、暴露（例えば、毒素、放射線、もしくは生物剤に対する）、または居住地（例えば、同じ家、市、州、国、もしくは大陸）の被験者または被験者群からのものである。基準ゲノムは、サンプルを評価中の被験者の１人以上の親族（例えば、父親、母親、きょうだい、いとこ、もしくは祖父母）からのものであることができる。場合によっては、基準ゲノムは、サンプルを評価中の被験者の親族（例えば、父親、母親、きょうだい、いとこ、もしくは祖父母）からのものではない。

[0045]シーケンスタグのマッピングは、タグのシーケンスを基準ゲノムのシーケンスと比較して、シーケンシングした核酸（例えば、無細胞ＤＮＡ）分子の染色体起源を判定することによって達成することができる。非限定的に、ＢＬＡＳＴ（Ａｌｔｓｃｈｕｌｅｔａｌ．、１９９０年）、ＢＬＩＴＺ（ＭＰｓｒｃｈ）（Ｓｔｕｒｒｏｃｋ＆Ｃｏｌｌｉｎｓ、１９９３年）、ＦＡＳＴＡ（Ｐｅｒｓｏｎ＆Ｌｉｐｍａｎ、１９８８年）、ＢＯＷＴＩＥ（Ｌａｎｇｍｅａｄｅｔａｌ．、ＧｅｎｏｍｅＢｉｏｌｏｇｙ１０：Ｒ２５．１〜Ｒ２５．１０［２００９］）、またはＥＬＡＮＤ（Ｉｌｌｕｍｉｎａ，Ｉｎｃ．、ＳａｎＤｉｅｇｏ、ＣＡ、ＵＳＡ）など、多数のコンピュータアルゴリズムがシーケンスの整列に利用可能である。一実施形態では、核酸分子はクローン増殖させることができ、ＤＮＡ分子のクローン増殖したコピーの一端を、ヌクレオチドデータベースの効率的大規模アラインメント（ＥＬＡＮＤ）ソフトウェアを使用することができる、ＩｌｌｕｍｉｎａＧｅｎｏｍｅＡｎａｌｙｚｅｒ向けに、バイオインフォマティックアライメント解析によってシーケンシングし処理する。付加的なソフトウェアとしては、ＳＡＭｔｏｏｌｓ（ＳＡＭｔｏｏｌｓ、Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ、２００９、２５（１６）：２０７８−９）、および圧縮をより効率的にするブロックソーティングまたは前処理を伴う場合がある、Ｂｕｒｒｏｕｇｈｓ−Ｗｈｅｅｌｅｒブロックソート圧縮手順が挙げられる。シーケンスアライメントツールは、ＡｒｔｅｍｉｓＣｏｍｐａｒｉｓｏｎＴｏｏｌ（ＡＣＴ）、ＡＶＩＤ、ＢＷＡ−ＭＥＭ、ＢＬＡＴ、ＤＥＣＩＰＨＥＲ、ＧＭＡＰ、Ｓｐｌｉｇｎ、Ｍａｕｖｅ、ＭＧＡ、Ｍｕｌａｎ、Ｍｕｌｔｉｚ、ＰＬＡＳＴ−ｎｃＲＮＡ、Ｓｅｑｕｅｒｏｍｅ、Ｓｅｑｕｉｌａｂ、Ｓｈｕｆｆｌｅ−ＬＡＧＥＮ、ＳＩＢｓｉｍ４、またはＳＬＡＭであることができる。シーケンスアライメントツールは、ショートリードシーケンスアライメントツール、例えば、ＢａｒｒａＣＵＤＡ、ＢＢＭａｐ、ＢＦＡＳＴ、ＢｉｇＢＷＡ、ＢＬＡＳＴＮ、ＢＬＡＴ、またはＢｏｗｔｉｅであることができる。

[0046]Ｃ．ゲノム解析モジュール
[0047]図４は、ゲノムアライメントモジュールの一例を示している。ゲノム解析モジュールの入力は、１つ以上の生殖細胞系列サンプルからのゲノムシーケンス４１１、１つ以上の体細胞サンプルからのゲノムシーケンス４１２、および事前ゲノム知識４１３であることができる。生殖細胞系列サンプルとしては、末梢血などの体液を挙げることができる。体細胞サンプルとしては腫瘍組織を挙げることができる。事前ゲノム知識４１３としては、公開されている科学文献のデータベースからの情報、またはゲノム注釈のデータベースからの情報、または同じ被験者もしくは異なる被験者からの過去に解析したサンプルのデータベースからの情報、またはそれらのデータベースの組み合わせからの情報を挙げることができる。

[0048]ゲノム解析モジュールは、ゲノムシーケンスを、１人以上の過去に解析した患者からのシーケンスのバンクにおけるシーケンスに対して比較することによって、１つ以上の推定変異体を特定することができる。モジュールは４つのステップを実施することができる。第１のステップ４０２は、遺伝領域からゲノムシーケンスを抽出することを伴うことができ、シーケンスは異なるサンプルからのものである。ステップ４０３は、抽出したシーケンスを生殖細胞系列および体細胞サンプルにわたって比較することができ、比較は、確率的および統計的方法に基づくことができる。ステップ４０４は、１つ以上の推定変異体を判定することができ、推定変異体は、生殖細胞系列変異体または体細胞突然変異であることができる。ステップ４０２、４０３、および４０４を、対象の全ての遺伝領域にわたって繰り返すことができる。ステップ４０５は、１つ以上の推定変異体の臨床的意味を査定することができる。

[0049]遺伝領域は１つ以上の染色体座を含むことができる。遺伝領域は染色体上の連続領域であることができる。遺伝領域は２つ以上の離散的な染色体領域の集合であることができる。遺伝領域は単一の染色体上にあることができる。場合によっては、遺伝領域は２つ以上の染色体上にあることができる。いくつかの実施形態では、遺伝領域は１つ以上の塩基対であることができる。

[0050]生殖細胞系列および体細胞サンプルにわたるシーケンスの比較、ならびに１つ以上の推定変異体の判定は、体細胞突然変異または生殖細胞系列変異体であることの確率による、推定変異体のスコアリングに基づくことができる。推定変異体のスコアリングは、正しいコール（即ち、真陽性）と誤ったコール（即ち、偽陽性）の組を用いて訓練した機械学習方法に基づいて確率を調節することを含むことができる。

[0051]Ｄ．染色体座または遺伝領域における推論の作成
[0052]推定変異体の特定およびスコアリングは、染色体座または遺伝領域における推論を作成することを含むことができる。推論の作成は、確率モデルおよび／または統計的推論を使用することを含むことができる。確率モデルおよび統計的推論の例としては、ベイズ推論およびベイズネットワークモデルが挙げられるが、それらに限定されない。推論の作成は、事前ゲノム知識４１３に由来する生殖細胞系列および体細胞変異体を発見する事前確率に基づくことができる。

[0053]「遺伝子座」という用語は、染色体上における遺伝子、ヌクレオチド、またはシーケンスの位置を指すことができる。遺伝子座の「対立遺伝子」は、遺伝子座におけるヌクレオチドまたはシーケンスの代替形態を指すことができる。「野生型対立遺伝子」は、被験者の母集団における出現頻度が最も高い対立遺伝子を指すことができる。場合によっては、「野生型」対立遺伝子は疾患と関連付けられない。「変異対立遺伝子」は、「野生型対立遺伝子」よりも出現頻度が低く、疾患と関連付けることができる対立遺伝子を指すことができる。場合によっては、「変異対立遺伝子」は疾患と関連付けられない。「識別（interrogated）対立遺伝子」という用語は、検出用にアッセイが設計された対立遺伝子を指すことができる。「一塩基多型」または「ＳＮＰ」という用語は、シーケンス内の一塩基置換によってもたらされる一種のゲノムシーケンスの変異を指すことができる。「ＳＮＰ対立遺伝子」または「ＳＮＰの対立遺伝子」は、特定の遺伝子座におけるＳＮＰの代替形態を指すことができる。「識別ＳＮＰ対立遺伝子」という用語は、検出用にアッセイが設計されたＳＮＰ対立遺伝子を指すことができる。

[0054]推論の作成は、染色体座にわたる一連の複数のシーケンスに基づくことができる。図５を参照すると、染色体座５０１が対象のものである。複数のシーケンスは単一のサンプルからのものであることができ、遺伝子座５０１を含む複数の領域Ａ、Ｂ、Ｃ、Ｄから収集することができる。複数のシーケンスは、複数のサンプル１、２、…、Ｎからのものであることができ、遺伝子座５０１を含む同一の領域Ｃから収集することができる。

[0055]推論の作成は、高スループットシーケンシング機器の誤り率に基づくことができる。誤り率は、ベースコールに対する品質検証においてもたらされる場合がある。いくつかの例では、推論の作成は、染色体座にわたる染色体領域の倍数関係に基づくことができる。異常な倍数関係は、体細胞突然変異または生殖細胞系列変異と関連付けられることがある。

[0056]推論の作成は、がんのクローン進化のプロセスモデルに基づくことができる。プロセスは、第１の状態から第２の状態が予測または推論されるマルコフ連鎖によってモデル化されてもよい。例えば、がんのあるステージから別のステージへの進化時間、腫瘍が時間とともに進化する際の腫瘍組織のサイズ、原発臓器から別の遠隔臓器への転移過程、初期段階および後期段階で起こる随伴症状を伴うがん成長過程。

[0057]推論の作成は、個人の１つ以上の他のサンプルに由来する染色体座におけるコールに基づくことができる。図５を参照すると、サンプル１、２、…、Ｎは、個人の単一の腫瘍組織から収集することができ、遺伝子座５０１の核酸コール（nucleic acid call）は、利用可能なサンプル全てまたは利用可能なサンプルの一部を解析することによる、生殖細胞系列変異または体細胞突然変異のコールの評価に基づくことができる。

[0058]推論の作成は、他の１人以上の個人の１つ以上のサンプルに由来する染色体座におけるコールに基づくことができる。図５を参照すると、サンプル１、２、…、Ｎは、２人以上の個人から収集することができ、遺伝子座５０１の核酸コールは、利用可能なサンプル全てまたは利用可能なサンプルの一部を解析することによる、生殖細胞系列変異または体細胞突然変異のコールの評価に基づくことができる。

[0059]推論の作成は、１つ以上の基準母集団の染色体座における共通の多型性の事前知識に基づくことができる。図５を参照すると、染色体座５０１は、事前ゲノム知識における多型性をもたらす既知のがんであることができ、例えば、事前知識は、染色体座５０１における１つ以上の再発がん突然変異を示す。

[0060]推論の作成は、サンプル中のがん細胞の比率に対する細胞充実性の推定値に基づくことができる。細胞充実性は、腫瘍に由来するサンプル中における核酸の画分であることができる。

[0061]推論の作成は、１つ以上の確率モデルに基づくことができる。確率モデルを使用して、染色体座にわたる一連の整列されたシーケンスリード、染色体座における倍数関係、またはサンプル中のがん細胞の比率を説明することができる。確率モデルは、ガウス分布、ガンマ分布、または指数分布などの連続モデルを含むことができる。二項分布および多項分布などの離散的モデルを使用することができる。

[0062]Ｅ．他のモジュール
[0063]データ解析アプリケーションは、推定変異体に注釈を付けるように構成されたモジュールをさらに備えることができる。推定変異体は、コーディング領域における変異体、変異体によって生じる予測表現型、１つ以上の生殖細胞系列突然変異もしくは１つ以上の体細胞突然変異の他のデータベースに対する相互参照、１つ以上の突然変異・薬物間の相互作用、臨床試験における１つ以上の観察される突然変異、１つ以上の疾患、１つ以上の症状、または１つ以上の副作用の影響に関して注釈を付けることができる。

[0064]データ解析アプリケーションは、変異体、染色体座、染色体領域に関する臨床的意味を査定するように構成されたモジュールをさらに備えることができる。いくつかの例では、サンプルまたは個人に対して臨床的意味を査定することができる。例えば、査定を使用して、治療方法、処置方法、処置の経過、予測される結果、予測される効率、またはリスクを推奨することができる。
ＩＩＩ．方法
[0065]本明細書で提供する方法は、コンピュータシステムまたはコンピュータ可読媒体の使用を含むことができる。方法の一例を図１に提供する。

[0066]本明細書で提供する方法は、個人からの１つ以上のサンプルを利用することができる。１つ以上のシーケンシングライブラリを１つ以上のサンプルから準備することができる。シーケンシングライブラリを、シーケンシングプロセスで、またはデータ解析で使用することができる。シーケンシングライブラリは、本明細書に開示する方法のいずれかによって準備することができる。２つ以上のライブラリを同時に、または別の時点で準備することができる。例えば、シーケンシングライブラリは、腫瘍生検によって抽出した核酸から準備することができる。シーケンシングライブラリは、例えば、腫瘍生検からのシーケンシングライブラリを準備した後で、被験者の無細胞ＤＮＡサンプルから抽出した核酸から準備することができる。

[0067]シーケンシングライブラリのシーケンシングを行って、シーケンシングリードを提供することができる。シーケンシングリードを、基準ゲノムに対して、例えば記載した基準ゲノムに対して整列させることができる。基準ゲノムは、公開ヒトゲノム（例えば、ｈｇ１８、ｈｇ１９、またはｈｇ３７）などのヒト基準ゲノムであることができる。

[0068]被験者の１つ以上のサンプルからのシーケンシングライブラリによるリードアライメントは、同時確率によって説明することができ、したがって同時に解析することができる。場合によっては、被験者のサンプル（腫瘍組織および正常な組織のサンプル、固形組織および体液のサンプル、治療前および治療後サンプル）から得た全ての利用可能なシーケンシングライブラリからのリードアライメントが同時に解析される。場合によっては、過去に解析した被験者のシーケンシングライブラリからのアライメントが解析に含まれる。

[0069]いくつかの実施形態では、被験者の腫瘍サンプルに由来する核酸のシーケンスライブラリからの遺伝子座における推定変異体が、体細胞突然変異であるという確率を判定することができる。推定変異体が腫瘍または生殖細胞系列の核酸（例えば、ＤＮＡ）に由来するものであるという確率は、少なくとも部分的には、後述する１つ以上の特徴を解析することによって判定することができる。

[0070]突然変異は、基準と比較した場合のゲノムのヌクレオチドシーケンスの変化を指すことができる。突然変異にはＤＮＡの大きい部分が関与する場合がある（例えば、コピー数多型）。突然変異には全染色体が関与する場合がある（例えば、異数性）。突然変異にはＤＮＡの小さい部分が関与する場合がある。ＤＮＡの小さい部分が関与する突然変異の例としては、例えば、点突然変異または一塩基多型、多塩基多型、挿入（例えば、遺伝子座における１つ以上のヌクレオチドの挿入）、多塩基変化、欠失（例えば、遺伝子座における１つ以上のヌクレオチドの欠失）、および反転（例えば、１つ以上のヌクレオチドのシーケンスの逆転）が挙げられる。「コピー数多型」または「ＣＮＶ」という用語は、遺伝情報のコピー数の違いを指すことができる。ＣＮＶは、ゲノム領域のゲノム当たりコピー数の違いを指すことができる。例えば、二倍体生物では、常染色体ゲノム領域の予期されるコピー数はゲノム当たり２コピーである。かかるゲノム領域は細胞当たり２コピーで存在し得る。最近の調査については、Ｚｈａｎｇｅｔａｌ．Ａｎｎｕ．Ｒｅｖ．ＧｅｎｏｍｉｃｓＨｕｍ，Ｇｅｎｅｔ．２００９．１０：４５１−８１を参照のこと。ＣＮＶは、ヒトの遺伝的多様性の元であることができ、例えば、遺伝子量、遺伝子破壊、または遺伝子融合の変化による、複合的な障害および疾患と関連付けられる場合がある。また、良性の多型性変異体を表す場合がある。ＣＮＶは、例えば１Ｍｂ超過の大きいもの、または例えば１００塩基〜１Ｍｂの小さいものであることができる。１００塩基を超過する（また３Ｍｂ未満の）３８，０００を超えるＣＮＶがヒトにおいて報告されている。ＳＮＰとともに、これらのＣＮＶは、個人ごとに異なる顕著な量の表現型変異を説明することができる。有害な影響を有すること、例えば疾患を引き起こすことに加えて、有利な変化ももたらすことができる。「構造多型」という用語は、染色体の構造の変異を指すことができる。構造多型は、欠失、複製、コピー数変異体、挿入、反転、および転座であることができる。場合によっては、遠く離れた２つの領域が近接させられる。例えば、転座、欠失、または反転の事象によって連結させることができる、それまで別個であった２つの遺伝子から形成されるハイブリッド遺伝子は、「遺伝子融合」または「融合遺伝子」と呼ぶことができる。

[0071]Ａ．同じ被験者からの追加のサンプル
[0072]推定変異体が、腫瘍または生殖細胞系列核酸、例えばＤＮＡに由来するものである確率は、部分的には、被験者からの腫瘍サンプル以外のサンプル中の染色体座における、生殖細胞系列変異体および／または体細胞突然変異を検出することによって判定することができる。例えば、図６を参照すると、染色体Ａにおける遺伝子座６０１はがんと関連付けられることが分かっている。他方で、非腫瘍サンプル（例えば、血液）中の染色体Ｂの遺伝子座６１１および染色体Ｃの遺伝子座６１２における変異体は、腫瘍形成のシグネチャーである。したがって、遺伝子座６１１および６１２における変異体の評価を使用して、被験者が遺伝子座６０１に腫瘍の遺伝子変異を有する確率を計算することができる。

[0073]例えば、場合によっては、患者の生殖細胞系列細胞がＢＲＣＡ１変異体を含む場合、ＢＲＣＡ１変異体は腫瘍の体細胞突然変異に由来するものではない。他のシナリオを確率モデルにおいて考察することができる。例えば、１つのシナリオは、ＢＲＣＡ１突然変異が生殖細胞系列細胞および腫瘍細胞において独立して生じたというものである。別のシナリオは、ＢＲＣＡ１突然変異が１つの細胞タイプには存在し、別の細胞タイプには存在しないというものである。

[0074]Ｂ．遺伝子座の周囲に存在する変異体の出現頻度
[0075]推定変異体が腫瘍または生殖細胞系列核酸、例えばＤＮＡに由来する確率は、部分的には、変異体を含む遺伝子座にわたって整列される一連のシーケンスリードに変異体が存在する出現頻度を評価することによって、判定することができる。例えば、図７を参照すると、腫瘍の遺伝子変異は遺伝子座７０１で発生することが分かっている。変異体は、高頻度で遺伝子座７０１付近でも発生する。所与のサンプルのシーケンス７０２が遺伝子座７０１を含む場合、サンプルが７０１に腫瘍の遺伝子変異を有するかの評価は、遺伝子座７０１の近傍における１つ以上の変異体の出現頻度を解析することによって査定することができる。出現頻度が高い場合、突然変異が遺伝子座７０１で起こる確率が高い。

[0076]例えば、生検のシーケンシングを行い、既知の腫瘍の遺伝子変異を含むリードが欠落している場合、腫瘍遺伝子座の近傍におけるシーケンスリードを解析することによって、突然変異多様体が存在する確率を推論することができる。近傍がより多くの変異体を含む場合、サンプルが腫瘍の突然変異を含む確率が高い。

[0077]Ｃ．シーケンシング機器の誤り率
[0078]推定変異体が腫瘍または生殖細胞系列核酸、例えばＤＮＡに由来する確率は、リードアライメントに用いられるシーケンスリードを生成するために使用されるシーケンシング機器の誤り率を解析することによって、判定することができる。誤りおよび／またはノイズは、サンプル調製およびシーケンシングのプロセスの間に起こり得る。したがって、シーケンス機器によって報告される誤り率を、推定変異体が誤りによるものであるかを評価するために使用することができる。

[0079]シーケンシング機器の誤り率は、少なくとも部分的には、シーケンシングリードとともに提供されるシーケンス品質スコアによって判定することができる（例えば、生体シーケンスおよびそれに対応する品質スコアの両方を格納するテキストベースのフォーマットである、ＦａｓｔＱスコア）。場合によっては、誤り率は校正情報によって調節される。かかる校正情報は、例えば、出現頻度が低い推定変異体の量を定量化することにより、シーケンシングの誤りまたはＰＣＲ変異体に起因する可能性が最も高い変異体を直接検出することによって、判定することができる。

[0080]Ｄ．倍数関係
[0081]推定変異体が腫瘍または生殖細胞系列核酸、例えばＤＮＡに由来する確率は、腫瘍サンプル中の染色体セグメントの倍数関係を解析することによって、判定することができる。染色体または染色体セグメントがサンプル中に予期しない複製を有する場合、腫瘍の遺伝子変異の確率が増加する。

[0082]場合によっては、倍数関係の推定値は、二倍体、一倍体、正倍数体、接合体（zygoidy）、または多倍数体を含む。場合によっては、腫瘍中の遺伝子複製、領域複製、または染色体複製が発生することができ、対照サンプル、または同じサンプルの他のシーケンスのどちらかに対する比較によって、倍数関係を推論することができる。さらに、サンプル中に隠れた他の情報を、例えば、サンプルの病歴、尤度が高い推定変異体と関連付けられる別の推定変異体を、使用することができる。

[0083]Ｅ．がんの進化
[0084]推定変異体が腫瘍または生殖細胞系列核酸、例えばＤＮＡおよびＲＮＡに由来する確率は、がんのクローン進化のプロセスを解析することによって、判定することができる。様々な適用例では、第１の状態は第１の確率モデルによって説明することができ、第２の状態は第２の確率モデルによって説明することができる。第１の状態から第２の状態への移行は、第１の確率モデルから第２の確率モデルへと転換する確率過程によって説明することができる。確率過程によってがんの進化過程が特性決定されると、第１の状態における観察データを使用して、第２の状態において起こり得る状態を推論または予測することができる。

[0085]解析で考察することができるがんのクローン進化の例としては、がんのあるステージから別のステージへの進化時間、時間とともに進化する際の腫瘍組織のサイズ、原発臓器から別の遠隔臓器への転移過程、随伴症状を伴うがん成長過程が挙げられるが、それらに限定されない。

[0086]Ｆ．他の被験者からの情報
[0087]推定変異体が腫瘍または生殖細胞系列核酸、例えばＤＮＡに由来する確率は、異なる被験者からのサンプル中の同じ遺伝子座におけるベースコールを解析することによって、判定することができる。同じ家族からの、または同人種からの、または同じ母集団からの被験者は、類似の遺伝的特性を共有している可能性がある。例えば、基準母集団の遺伝子座に多型性が存在することまたは存在しないことの知識を、事前確率としてモデル化することができる。したがって、他の被験者からの遺伝情報が、確率を計算するための追加情報を提供することができる。

[0088]例えば、特定の遺伝子座が一般母集団内においてより多くの変異を含む場合があり、一部の遺伝子座が高レベルの特異性を示す場合がある。一般母集団内において高レベルの変異を有する遺伝子座が変異体を含むという事前確率は、高レベルの純化選択を示す遺伝子座が変異体を含むという事前確率よりも高い。特定の遺伝子座における変異体の出現頻度は、１０００人ゲノムプロジェクトまたは公開されている研究など、過去のまたは同時の観察によって判定することができる。

[0089]Ｇ．再発がんの突然変異
[0090]推定変異体が腫瘍または生殖細胞系列核酸、例えばＤＮＡに由来する確率は、遺伝子座における再発がんの突然変異の知識を解析することによって、判定することができる。初期のサンプルにおいて既に特定されている突然変異が、後期のサンプルでも発生する場合がある。したがって、再発がんの突然変異は事前確率モデルを提供することができる。かかる出現頻度は、例えば、がん患者からの追加観察によって（例えば、ＣＯＳＭＩＣまたはＴＧＣＡから）判定することができる。

[0091]Ｈ．細胞充実性の推定値
[0092]推定変異体が腫瘍または生殖細胞系列核酸、例えばＤＮＡに由来する確率は、サンプル中のがん細胞の比率を解析することによって、判定することができる。サンプルがより多くのがん細胞を含む場合、推定変異が腫瘍（体細胞）突然変異である確率が高くなる。したがって、がん細胞の比率を推定することによって、推定変異体を認識する際の追加情報を提供することができる。

[0093]細胞充実性は、腫瘍に由来するサンプル中における核酸の画分であることができる。細胞充実性は、核酸抽出前に生検サンプルを検査（例えば、目視検査）することによって推定することができる。検査は、目視、撮像、病理学的研究、または病歴に基づくことができる。細胞充実性は、核酸サンプル中における腫瘍由来の変異体のレベルによって判定することができる。場合によっては、細胞充実性は、生殖細胞系列からの核酸（例えば、ＤＮＡ）分子が腫瘍サンプル中に存在する確率を示す、０〜１の値である。

[0094]Ｉ．補正係数
[0095]推定変異体が腫瘍または生殖細胞系列核酸、例えばＤＮＡに由来する確率は、少なくとも部分的には、別の被験者のデータの、または過去のサンプルによる経験的データから、遺伝子座における各変異体の出現頻度を判定することによって、判定することができる。場合によっては、補正係数は、これまで観察されなかった変異体に発生の事前確率ゼロが割り当てられないようにして用いることができる。補正係数はラプラス補正であることができる。確率を判定する方法は、例えば、Ｃｌｅａｒｙｅｔａｌ．，ＪｏｉｎｔＶａｒｉａｔｉｏｎａｎｄＤｅＮｏｖｏＭｕｔａｔｉｏｎＩｄｅｎｔｉｆｉｃａｔｉｏｎｏｎＰｅｄｉｇｒｅｅｓｆｒｏｍＨｉｇｈ−ＴｈｒｏｕｇｈｐｕｔＳｅｑｕｅｎｃｉｎｇＤａｔａ，ＪｏｕｒｎａｌｏｆＣｏｍｐｕｔａｔｉｏｎａｌＢｉｏｌｏｇｙｖｏｌ．２１，ｐｐ．４０５−４１９（２０１４）に記載されているようなものであることができ、その全体を参照により本明細書に援用する。
ＩＶ．計算方法
[0096]変異体が腫瘍または生殖細胞系列ＤＮＡに由来する確率を判定する例示的な方法は、ベイズネットワークを利用するものである（例えば、その全体を参照により本明細書に援用する、Ｋｏｌｌｅｒ＆Ｆｒｉｅｄｍａｎ，ＰｒｏｂａｂｉｌｉｓｔｉｃＧｒａｐｈｉｃａｌＭｏｄｅｌｓを参照のこと）。図８は、例示的なベイズネットワークの図を示している。ネットワーク図において、「Ｃ」は推論される変異体コールを表し、「Ｒ」は遺伝子座にわたる一連の整列されたリードのベースコールを表し、「Ｐ」は遺伝子座における倍数関係であり、「Ｕ」はサンプルの細胞充実性を表す。変異体が各サンプル中の腫瘍または生殖細胞系列ＤＮＡ分子に由来する確率を推論するために、次の条件付き確率分布（ＣＰＤ）に適切な値を供給することができる。（ａ）Ｐ（Ｒ｜Ｃ）、特定の変異体コールを前提とした一連のリードの確率、（ｂ）Ｐ（Ｃ_ｔ｜Ｃ_ｇ）、その遺伝子座における生殖細胞系列を前提とした原発腫瘍細胞の確率、および（ｃ）Ｐ（Ｃ_ｃｆ｜Ｃ_ｔ）、原発腫瘍サンプル中のコールを前提としたｃｆ−ＤＮＡにおける腫瘍コールの確率。

[0097]細胞充実性は、細胞充実性（例えば、０〜１の値の、シーケンシングリードががん細胞によるものである確率）を表すことができる、ベイズネットワークの変数「Ｕ」によって説明することができる。この値は解析の前に提供することができるが、場合によっては、事前推定値を提供することによって、データから推論することができる。細胞充実性について考察する際、腫瘍におけるリードを前提とした腫瘍中の細胞充実性画分の確率、および血漿の無細胞画分におけるリードを前提とした血漿中の細胞充実性画分の確率である、Ｐ（Ｕ_ｔ｜Ｒ_ｔ）およびＰ（Ｕ_ｃｔ｜Ｒ_ｃｔ）という、２つの新しいＣＤＰを推定することができる。

[0098]母集団のコーリング方法をこれらの方法と組み合わせて、例えば、Ｃｌｅａｒｙｅｔａｌ．，ＪｏｕｒｎａｌｏｆＣｏｍｐｕｔａｔｉｏｎａｌＢｉｏｌｏｇｙ，ｖｏｌ．２１，ｐｐ．４０５−４１９２０１４に記載されている方法を使用して、ただしがん組織を含む生殖細胞系列を同時にコーリングしている間に、他のサンプルからのデータのバンクを同時にコーリングすることによって、健康な組織における生殖細胞系列突然変異の検出を改善することができる。

[0099]ＣＰＤＰ（Ｒ｜Ｃ）は、Ｃｌｅａｒｙｅｔａｌ．，ＪｏｕｒｎａｌｏｆＣｏｍｐｕｔａｔｉｏｎａｌＢｉｏｌｏｇｙ，ｖｏｌ．２１，ｐｐ．４０５−４１９（２０１４）に記載されているようなものであり得る。上記（ｂ）および（ｃ）のＣＰＤは、腫瘍タイプおよび優性突然変異のシグネチャーごとに調節することができる、体細胞突然変異率の経験値に基づいて判定することができる。Ｐ（Ｃ_ｔ｜Ｃ_ｇ）の場合、また原発腫瘍と無細胞体液中で観察される腫瘍ＤＮＡとの単純な系統関係を想定することによって、メンデル型分離ではなく変異体の単純な遺伝を想定する、子孫におけるデノボ変異を検出するため、例えば、Ｃｌｅａｒｙｅｔａｌ．，ＪｏｕｒｎａｌｏｆＣｏｍｐｕｔａｔｉｏｎａｌＢｉｏｌｏｇｙ，ｖｏｌ．２１，ｐｐ．４０５−４１９（２０１４）に記載されているものと同様の計算を使用して、ＣＰＤを判定することができる。

[00100]一例では、原発腫瘍組織または無細胞ＤＮＡのみが解析に利用可能である。かかる事例では、事前情報を使用して、Ｐ（Ｃ_ｔ｜Ｃ_ｔｐ）（Ｃ_ｔｐは、がん患者の事前観察に基づいた、その遺伝子座において特定の体細胞突然変異対立遺伝子を観察する事前確率）、およびＰ（Ｇ_ｔ｜Ｇ_ｐ）（Ｇ_ｔは、Ｇ_ｐを前提とした腫瘍中に存在する生殖細胞系列変異体の遺伝子型）などのＣＰＤを推定することができ、この遺伝子座において特定の遺伝子型を観察する確率は、母集団規模の変異調査（１０００人ゲノムプロジェクトなど）に由来する。次に、これらの確率を、出力において解析される各変異体に対するスコアとして提供し、必要に応じて、機械学習方法を使用して経験的検証に基づいて再校正し、その後、下流での注釈または臨床報告など、所与の適用例に対する適切な偽陽性および／または偽陰性率を判定することができる。
Ｖ．コンピューティングシステム
[00101]本明細書で提供する方法、コンピュータシステムまたはコンピュータ可読媒体は、プロセッサを備えるかまたは利用することができる。プロセッサは、１つ以上のハードウェア制御処理装置（ＣＰＵ）プロセッサを含むことができる。プロセッサは、デスクトップコンピュータプロセッサ、サーバプロセッサ、およびモバイルプロセッサであることができる。プロセッサはマイクロプロセッサを含むことができる。

[00102]メモリモジュールを、本明細書で提供する方法、コンピュータシステム、またはコンピュータ可読媒体において、もしくはそれらとともに使用することができる。メモリモジュールは、一時的もしくは恒久的にデータまたはプログラムを格納するために使用される、１つ以上の物理的装置であることができる。メモリモジュールは、揮発性メモリであることができ、格納された情報を維持する電力を要する場合がある。場合によっては、メモリモジュールは不揮発性メモリであり、コンピューティングシステムが通電されていないときに、格納された情報を保持する。さらなる実施形態では、不揮発性メモリはフラッシュメモリを含む。いくつかの実施形態では、不揮発性メモリはダイナミックランダムアクセスメモリ（ＤＲＡＭ）を含む。いくつかの実施形態では、不揮発性メモリは強誘電体メモリ（ＦＲＡＭ）を含む。いくつかの実施形態では、不揮発性メモリは相変化メモリ（ＰＲＡＭ）を含む。

[00103]本明細書で提供する方法、コンピュータシステム、またはコンピュータ可読媒体は、オペレーティングシステムを備えるかまたは利用することができる。オペレーティングシステムは、例えば、デバイスのハードウェアを管理し、アプリケーションを実行するためのサービスを提供することができる、プログラムおよびデータを含むソフトウェアであることができる。当業者であれば、適切なサーバオペレーティングシステムとしては、非限定例として、ＦｒｅｅＢＳＤ、ＯｐｅｎＢＳＤ、ＮｅｔＢＳＤ（登録商標）、Ｌｉｎｕｘ、Ａｐｐｌｅ（登録商標）ＭａｃＯＳＸＳｅｒｖｅｒ（登録商標）、Ｏｒａｃｌｅ（登録商標）、Ｓｏｌａｒｉｓ（登録商標）、ＷｉｎｄｏｗｓＳｅｒｖｅｒ（登録商標）、およびＮｏｖｅｌｌ（登録商標）ＮｅｔＷａｒｅ（登録商標）が挙げられることを認識するであろう。当業者であれば、適切なパーソナルコンピュータオペレーティングシステムとしては、非限定例として、Ｍｉｃｒｏｓｏｆｔ（登録商標）Ｗｉｎｄｏｗｓ、Ａｐｐｌｅ（登録商標）ＭａｃＯＳＸ（登録商標）、ＵＮＩＸ（登録商標）、およびＧＮＵ／Ｌｉｎｕｘ（登録商標）などのＵＮＩＸと類似のオペレーティングシステムが挙げられることを認識するであろう。いくつかの実施形態では、オペレーティングシステムはクラウドコンピューティングによって提供される。当業者であれば、また、適切なモバイルスマートフォンオペレーティングシステムとしては、非限定例として、Ｎｏｋｉａ（登録商標）Ｓｙｍｂｉａｎ（登録商標）ＯＳ、Ａｐｐｌｅ（登録商標）ｉＯＳ（登録商標）、ＲｅｓｅａｒｃｈＩｎＭｏｔｉｏｎ（登録商標）ＢｌａｃｋＢｅｒｒｙＯＳ（登録商標）、Ｇｏｏｇｌｅ（登録商標）Ａｎｄｒｏｉｄ（登録商標）、Ｍｉｃｒｏｓｏｆｔ（登録商標）ＷｉｎｄｏｗｓＰｈｏｎｅ（登録商標）ＯＳ、Ｍｉｃｒｏｓｏｆｔ（登録商標）ＷｉｎｄｏｗｓＭｏｂｉｌｅ（登録商標）ＯＳ、Ｌｉｎｕｘ（登録商標）、およびＰａｌｍ（登録商標）ＷｅｂＯＳ（登録商標）が挙げられることを認識するであろう。

[00104]機械可読命令は、指定のタスクを実施するように記述された、デジタル処理装置のＣＰＵで実行可能な命令のシーケンスを含むことができる。本明細書で提供する開示を鑑みて、当業者であれば、コンピュータプログラムを様々な言語の様々なバージョンで記述できることを認識するであろう。いくつかの実施形態では、機械可読命令は命令の１つのシーケンスを含む。いくつかの実施形態では、機械可読命令は命令の複数のシーケンスを含む。いくつかの実施形態では、機械可読命令は１つのロケーションから提供される。他の実施形態では、機械可読命令は複数のロケーションから提供される。様々な実施形態では、機械可読命令は１つ以上のソフトウェアモジュールを含む。様々な実施形態では、機械可読命令は、部分的にまたは全体的に、１つ以上のウェブアプリケーション、１つ以上のモバイルアプリケーション、１つ以上の独立型アプリケーション、１つ以上のウェブブラウザプラグイン、エクステンション、アドイン、アドオン、またはそれらの組み合わせを含む。

[00105]コンピュータ可読記憶媒体はメモリモジュールを含むことができる。コンピュータ可読記憶媒体は、デジタル処理装置の有形コンポーネントであることができる。さらに他の実施形態では、コンピュータ可読記憶媒体は、任意に、デジタル処理装置から取外し可能である。いくつかの実施形態では、コンピュータ可読記憶媒体としては、非限定例として、ＣＤ−ＲＯＭ、ＤＶＤ、フラッシュメモリデバイス、固体メモリ、磁気ディスクドライブ、磁気テープドライブ、光学ディスクドライブ、クラウドコンピューティングシステムおよびサービスなどが挙げられる。場合によっては、プログラムおよび命令は、恒久的に、実質的に恒久的に、半恒久的に、または非一時的に媒体上でコード化される。

[00106]本開示は、本開示の方法を実現するようにプログラミングされたコンピュータ制御システムを提供する。図９は、開示のシーケンス解析を実施するようにプログラミングされるかまたは別の形で構成された、コンピュータシステム９０１を示している。コンピュータシステム９０１は、ユーザの電子デバイス、または電子デバイスに対して遠隔に配置されたコンピュータシステムであることができる。電子デバイスはモバイル電子デバイスであることができる。

[00107]コンピュータシステム９０１は、シングルコアもしくはマルチコアプロセッサであることができる、中央処理装置（ＣＰＵ、ならびに本明細書では「プロセッサ」および「コンピュータプロセッサ」）９０５、または並列処理向けの複数のプロセッサを含むことができる。コンピュータシステム９０１はまた、メモリまたはメモリロケーション９１０（例えば、ランダムアクセスメモリ、読出し専用メモリ、フラッシュメモリ）、電子記憶装置９１５（例えば、ハードディスク）、１つ以上の他のシステムと通信する通信インターフェース９２０（例えば、ネットワークアダプタ）、ならびにキャッシュ、他のメモリ、データ記憶装置、および／または電子ディスプレイアダプタなど、周辺デバイス９２５を含むことができる。メモリ９１０、記憶装置９１５、インターフェース９２０、および周辺デバイス９２５は、マザーボードなどの通信バス（実線）を通してＣＰＵ９０５と連通している。記憶装置９１５は、データを格納するデータ記憶装置（またはデータレポジトリ）であることができる。コンピュータシステム９０１は、通信インターフェース９２０を利用して、コンピュータネットワーク（「ネットワーク」）９３０に動作可能に連結することができる。ネットワーク９３０は、インターネット、インターネットおよび／またはエクストラネット、あるいはインターネットと連通しているイントラネットおよび／またはエクストラネットであることができる。ネットワーク９３０は、場合によっては、遠隔通信および／またはデータネットワークである。ネットワーク９３０は、クラウドコンピューティングなどの分散コンピューティングを可能にすることができる、１つ以上のコンピュータサーバを含むことができる。ネットワーク９３０は、場合によっては、コンピュータシステム９０１を利用して、コンピュータシステム９０１に連結されたデバイスがクライアントまたはサーバとして挙動するのを可能にすることができる、ピアツーピアネットワークを実現することができる。

[00108]ＣＰＵ９０５は、プログラムまたはソフトウェアに埋め込むことができる、機械可読命令のシーケンスを実行することができる。命令は、メモリ９１０などのメモリロケーションに格納することができる。命令はＣＰＵ９０５へと方向付けることができ、続いてＣＰＵ９０５をプログラミングするかまたは別の方法で構成して、本開示の方法を実現することができる。ＣＰＵ９０５によって実施される動作の例としては、フェッチ、デコード、実行、および書込みを含むことができる。

[00109]ＣＰＵ９０５は、集積回路などの回路の一部であることができる。システム１０１の１つ以上の他の構成要素を回路に含めることができる。場合によっては、回路は特定用途向け集積回路（ＡＳＩＣ）である。

[00110]記憶装置９１５は、ドライバ、ライブラリ、および格納プログラムなどのファイルを格納することができる。記憶装置９１５は、ユーザデータ、例えばユーザ選択およびユーザプログラムを格納することができる。コンピュータシステム９０１は、場合によっては、イントラネットまたはインターネットを通してコンピュータシステム９０１と連通している遠隔サーバ上に位置するなど、コンピュータシステム９０１の外部にある、１つ以上の追加のデータ記憶装置を含むことができる。

[00111]コンピュータシステム９０１は、ネットワーク９３０を通して１つ以上の遠隔コンピュータシステムと通信することができる。例えば、コンピュータシステム９０１は、ユーザの遠隔コンピュータシステムと通信することができる。遠隔コンピュータシステムの例としては、パーソナルコンピュータ（例えば、ポータブルＰＣ）、スレートもしくはタブレットＰＣ（例えば、Ａｐｐｌｅ（登録商標）ｉＰａｄ、Ｓａｍｓｕｎｇ（登録商標）ＧａｌａｘｙＴａｂ）、電話、スマートフォン（例えば、Ａｐｐｌｅ（登録商標）ｉＰｈｏｎｅ、Ａｎｄｒｏｉｄ対応デバイス、Ｂｌａｃｋｂｅｒｒｙ（登録商標））、または携帯情報端末が挙げられる。ユーザは、ネットワーク９３０を介してコンピュータシステム９０１にアクセスすることができる。

[00112]本明細書に記載するような方法は、コンピュータシステム９０１の電子記憶装置のロケーションに、例えばメモリ９１０または電子記憶装置９１５に格納された、機械（例えば、コンピュータプロセッサ）実行可能コードを利用して実現することができる。機械実行可能または機械可読コードは、ソフトウェアの形態で提供することができる。使用中、コードはプロセッサ９０５によって実行することができる。場合によっては、コードは、記憶装置９１５から検索し、プロセッサ９０５がすぐに利用できるようにメモリ９１０に格納することができる。状況によっては、電子記憶装置９１５を除外することができ、機械実行可能命令はメモリ９１０に格納される。

[00113]コードは、コードを実行するように適合されたプロセッサを有する機械とともに使用するため、事前コンパイルし構成することができ、または実行時間中にコンパイルすることができる。コードは、事前コンパイルされるかコンパイル済みの形式でコードを実行できるように選択することができる、プログラミング言語で供給することができる。

[00114]コンピュータシステム９０１など、本明細書で提供されるシステムおよび方法の態様は、プログラミングにおいて実現することができる。技術の様々な態様は、一般的には、機械（もしくはプロセッサ）実行可能コード、および／または一種の機械可読媒体において保持されるかもしくは実現される関連データの形態の、「製品」または「製造物品」として考えることができる。機械実行可能コードは、メモリ（例えば、読出し専用メモリ、ランダムアクセスメモリ、フラッシュメモリ）またはハードディスクなどの、電子記憶装置に格納することができる。「記憶装置」タイプの媒体は、ソフトウェアプログラミングの任意の時点で非一時的な記憶を提供することができる、コンピュータ、プロセッサなど、またはそれらの関連モジュール（様々な半導体メモリ、テープドライブ、ディスクドライブなど）のありとあらゆる有形メモリを含むことができる。ソフトウェアの全てまたは部分は、場合によって、インターネットまたは他の様々な遠隔通信ネットワークを通して通信することができる。かかる通信は、例えば、ソフトウェアを、あるコンピュータまたはプロセッサから別のものに、例えば管理サーバまたはホストコンピュータからアプリケーションサーバのコンピュータプラットフォームにロードするのを可能にすることができる。したがって、ソフトウェア要素を有することができる別のタイプの媒体としては、有線および光学陸線を通して、また様々な空中リンクを通して、ローカルデバイス間の物理的インターフェースにわたって使用されるような、光波、電波、および電磁波が挙げられる。有線または無線リンク、光学リンクなど、かかる波を運ぶ物理的要素も、ソフトウェアを有する媒体と見なすことができる。本明細書で使用するとき、非一時的な有形「記憶」媒体に制限されない限り、プロセッサまたは機械「可読媒体」などの用語は、実行のために命令をプロセッサに提供するのに関与する、あらゆる媒体を指す。

[00115]したがって、コンピュータ実行可能コードなどの機械可読媒体は、有形記憶媒体、搬送波媒体、または物理的伝送媒体を含むがそれらに限定されない、多くの形態をとることができる。不揮発性記憶媒体としては、例えば、図に示されるデータベースなどを実現するために使用することができるものなど、任意のコンピュータなどにおける記憶装置のいずれかなど、光学または磁気ディスクが挙げられる。揮発性記憶媒体としては、かかるコンピュータプラットフォームの主メモリなどのダイナミックメモリが挙げられる。有形伝送媒体としては、コンピュータシステム内のバスを含むワイヤなど、同軸ケーブル、銅線、および光ファイバーが挙げられる。搬送波伝送媒体は、高周波（ＲＦ）および赤外線（ＩＲ）データ通信中に生成されるものなど、電気信号もしくは電磁信号、または音波もしくは光波の形態をとることができる。したがって、コンピュータ可読媒体の共通の形態としては、例えば、フロッピーディスク、フレキシブルディスク、ハードディスク、磁気テープ、他の任意の磁気媒体、ＣＤ−ＲＯＭ、ＤＶＤもしくはＤＶＤ−ＲＯＭ、他の任意の光学媒体、パンチカード、紙テープ、穴のパターンを有する他の任意の物理的記憶媒体、ＲＡＭ、ＲＯＭ、ＰＲＯＭおよびＥＰＲＯＭ、ＦＬＡＳＨ＋ＥＰＲＯＭ、他の任意のメモリチップもしくはカートリッジ、データもしくは命令を搬送する搬送波、かかる搬送波を搬送するケーブルもしくはリンク、またはコンピュータがプログラミングコードおよび／またはデータを読み取ることができる他の任意の媒体が挙げられる。コンピュータ可読媒体のこれらの形態の多くは、１つ以上の命令の１つ以上のシーケンスを、実行のためにプロセッサに運ぶのに関与することができる。

[00116]コンピュータシステム９０１は、例えば解析結果を提供する、ユーザインターフェース（ＵＩ）９４０を備える電子ディスプレイ９３５を含むか、またはそれと連通していることができる。ＵＩの例としては、非限定的に、グラフィカルユーザインターフェース（ＧＵＩ）およびウェブベースのユーザインターフェースが挙げられる。

[00117]本開示の方法およびシステムは、１つ以上のアルゴリズムを用いて実現することができる。アルゴリズムは、中央処理装置９０５によって実行する際にソフトウェアを用いて実現することができる。アルゴリズムとしては、例えば、ベイズネットワークまたは統計的解析を挙げることができる。
ＶＩ．シーケンシングおよび高スループットシーケンシング機器
[00118]本明細書で提供する方法、コンピュータシステム、キット、もしくはコンピュータ可読媒体で使用される、またはそれらとともに使用される高スループットシーケンシング機器は、次世代シーケンシング（ＮＧＳ）プラットフォーム（大規模並列シーケンシング用のプラットフォーム）であることができる。シーケンシングは、ポリヌクレオチドのうち少なくとも１０の連続するヌクレオチドの同一性（例えば、少なくとも２０、少なくとも５０、少なくとも１００、少なくとも２００、少なくとも５００、またはそれ以上の連続するヌクレオチドの同一性）を得るのに用いられる、方法を指すことができる。ＮＧＳ技術は、（例えば、Ｖｏｌｋｅｒｄｉｎｇｅｔａｌ．，ＣｌｉｎＣｈｅｍ５５：６４１−６５８［２００９］；ＭｅｔｚｋｅｒＭＮａｔｕｒｅＲｅｖ１１：３１−４６［２０１０］に記載されているような）大規模並列方式での、クローン的に増幅したＤＮＡテンプレートまたは単一のＤＮＡ分子のシーケンシングを伴う場合がある。高スループットシーケンス情報に加えて、ＮＧＳは、各シーケンスリードが個々のクローンＤＮＡテンプレートまたは単一のＤＮＡ分子を表す計数可能な「シーケンスタグ」であるという点で、デジタル定量的情報を提供することができる。シーケンシングは、標的シーケンシング、エクソームシーケンシング、または全ゲノムシーケンシングであることができる。場合によっては、液状生検からの無細胞ＤＮＡのシーケンシングが行われる。場合によっては、液状生検からの循環腫瘍細胞（ＣＴＣ）から得た核酸のシーケンシングが行われる。場合によっては、単一の正常な細胞および／または腫瘍細胞から得た核酸のシーケンシングが行われる。

[00119]自動化サンガー方法が「第１世代」の技術と見なされているが、自動化サンガーシーケンシングを含むサンガーシーケンシングも、本明細書で提供する方法によって用いることができる。開発中の核酸画像化技術、例えば原子間力顕微鏡法（ＡＦＭ）または透過型電子顕微鏡法（ＴＥＭ）を使用することを含む、さらなるシーケンシング方法を本明細書に記載の方法で使用することができる。

[00120]本明細書で提供する方法、コンピュータシステム、もしくはコンピュータ可読媒体で、またはそれらとともに使用される高スループットシーケンシングプラットフォーム（次世代シーケンシングプラットフォーム）は、市販のプラットフォームであることができる。市販のプラットフォームとしては、例えば、合成によるシーケンシング（sequencing-by-synthesis）、イオン半導体シーケンシング、パイロシーケンシング、リバーシブルダイターミネータ（reversible dye terminator）シーケンシング、連結反応によるシーケンシング、単分子シーケンシング、ハイブリダイゼーションによるシーケンシング、およびナノポアシーケンシングが挙げられる。合成によるシーケンシングのプラットフォームは、例えば、Ｉｌｌｕｍｉｎａ、４５４ＬｉｆｅＳｃｉｅｎｃｅｓ、ＨｅｌｉｃｏｓＢｉｏｓｃｉｅｎｃｅｓ、およびＱｉａｇｅｎから入手可能である。Ｉｌｌｕｍｉｎａプラットフォームとしては、例えば、ＩｌｌｕｍｉｎａのＳｏｌｅｘａプラットフォーム、ＩｌｌｕｍｉｎａのＧｅｎｏｍｅＡｎａｌｙｚｅｒなどを挙げることができ、例えば、Ｇｕｄｍｕｎｄｓｓｏｎｅｔａｌ（Ｎａｔ．Ｇｅｎｅｔ．２００９４１：１１２２−６）、Ｏｕｔｅｔａｌ（Ｈｕｍ．Ｍｕｔａｔ．２００９３０：１７０３−１２）、およびＴｕｒｎｅｒ（Ｎａｔ．Ｍｅｔｈｏｄｓ２００９６：３１５−６）、米国特許出願公開第ＵＳ２００８０１６０５８０号およびＵＳ２００８０２８６７９５号、米国特許第６，３０６，５９７号、第７，１１５，４００号、および第７，２３２，６５６号に記載されている。４５４ＬｉｆｅＳｃｉｅｎｃｅプラットフォームとしては、例えばＧＳＦｌｅｘおよびＧＳＪｕｎｉｏｒが挙げられ、米国特許第７，３２３，３０５号に記載されている。ＨｅｌｉｃｏｓＢｉｏｓｃｉｅｎｃｅｓによるプラットフォームとしては、ＴｒｕｅＳｉｎｇｌｅＭｏｌｅｃｕｌｅＳｅｑｕｅｎｃｉｎｇプラットフォームが挙げられる。イオン半導体シーケンシング用のプラットフォームとしては、例えば、ＩｏｎＴｏｒｒｅｎｔＰｅｒｓｏｎａｌＧｅｎｏｍｅＭａｃｈｉｎｅ（ＰＧＭ）が挙げられ、例えば、米国特許第７，９４８，０１５号に記載されている。パイロシーケンシング用のプラットフォームとしては、ＧＳＦｌｅｘ４５４システムが挙げられ、例えば、米国特許第７，２１１，３９０号、第７，２４４，５５９号、第７，２６４，９２９号に記載されている。連結反応によるシーケンシング用のプラットフォームおよび方法としては、例えば、ＳＯＬｉＤシーケンシングプラットフォームが挙げられ、例えば、米国特許第５，７５０，３４１号に記載されている。単分子シーケンシング用のプラットフォームとしては、例えば、ＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅからのＳＭＲＴシステムが挙げられる。

[00121]本明細書で提供する方法、コンピュータシステム、もしくはコンピュータ可読媒体で使用される、またはそれらとともに使用される高スループットシーケンシング機器は、半導体技術をシーケンシング化学と対にして、化学的にコード化された情報（Ａ、Ｃ、Ｇ、Ｔ）を半導体チップ上のデジタル情報（０、１）に直接翻訳することができる、ＩｏｎＴｏｒｒｅｎｔシーケンシングプラットフォームであることができる。理論に束縛されることを望まないが、ヌクレオチドがポリメラーゼによってＤＮＡのストランドに取り込まれると、水素イオンが副産物として放出される。ＩｏｎＴｏｒｒｅｎｔプラットフォームは、水素原子の放出をｐＨの変化として検出することができる。検出されたｐＨの変化は、ヌクレオチドの取込みを示すのに使用することができる。ＩｏｎＴｏｒｒｅｎｔプラットフォームは、この生化学的プロセスを超並列的方法で実施するため、微細加工ウェルの高密度アレイを含むことができる。各ウェルは、クローン的に増幅したものであり得る、異なるライブラリ要素を保持することができる。ウェルの下方にはイオン感受性層が、その下方にはイオンセンサがあることができる。プラットフォームは、１つのヌクレオチドから次のヌクレオチドへと、アレイを連続的にあふれさせることができる。ヌクレオチド、例えばＣをＤＮＡテンプレートに添加し、次にＤＮＡのストランドに取り込むと、水素イオンを放出することができる。そのイオンからの電荷が溶液のｐＨを変化させることができ、それをＩｏｎＴｏｒｒｅｎｔのイオンセンサによって特定することができる。ヌクレオチドが取り込まれない場合、電圧変化は記録されず、塩基はコールされない。２つの同一の塩基がＤＮＡストランド上に存在する場合、電圧は二倍であることができ、チップは２つの同一の塩基がコールされたことを記録することができる。直接特定することによって、ヌクレオチドの取込みを数秒で記録することが可能になる。ＩｏｎＴｏｒｒｅｎｔプラットフォーム用にライブラリを準備することには、ＤＮＡ断片の両端に２つの離散的なアダプタを（例えば、連結反応によって）添加することが関与し得る。

[00122]本明細書で提供する方法、コンピュータシステム、もしくはコンピュータ可読媒体で使用される、またはそれらとともに使用される高スループットシーケンシング機器は、フローセル上のライブラリ要素のクラスタ増幅、および合成によるシーケンシング手法を用いることができる、Ｉｌｌｕｍｉｎａシーケンシングプラットフォームであることができる。クラスタ増幅されたライブラリ要素に、ポリメラーゼを対象とした一塩基伸長の繰返しサイクルを行うことができる。一塩基伸長には、各ｄＮＴＰが異なる除去可能な蛍光体で標識された、可逆的ターミネータｄＮＴＰの取込みが関与し得る。「標識」および「検出可能部分」という用語は、検出可能な信号を提供するために使用することができ、また核酸またはタンパク質に付着させることができる任意の原子または分子を指すのに、本明細書では互換可能に使用することができる。標識は、蛍光、放射能、比色法、重力測定、Ｘ線回折または吸収、磁気、酵素活性などによって検出可能な信号を提供することができる。

[00123]可逆的ターミネータｄＮＴＰは、ポリメラーゼによるさらなる伸長を防ぐため、３’修飾することができる。取込み後、取り込まれたヌクレオチドを蛍光撮像によって特定することができる。蛍光撮像後、蛍光体を除去することができ、３’修飾を除去して３’ヒドロキシル基を得ることができ、それによって一塩基伸長の別のサイクルが可能になる。Ｉｌｌｕｍｉｎａプラットフォーム用にライブラリを準備することには、ＤＮＡ断片の両端に２つの離散的なアダプタを（例えば、連結反応によって）添加することが関与し得る。

[00124]本明細書で提供する方法、コンピュータシステム、もしくはコンピュータ可読媒体で使用される、またはそれらとともに使用される高スループットシーケンシング機器は、合成によるシーケンシング技術を用いることができる、ＨｅｌｉｃｏｓＴｒｕｅＳｉｎｇｌｅＭｏｌｅｃｕｌｅＳｅｑｕｅｎｃｉｎｇ（ｔＳＭＳ）プラットフォームであることができる。ｔＳＭＳ技術では、ポリＡアダプタをＤＮＡ断片の３’末端に連結することができる。適合された断片を、ｔＳＭＳフローセル上で不動化されたポリＴオリゴヌクレオチドに対してハイブリダイズすることができる。ライブラリ要素は、約１００万テンプレート／ｃｍ^２の密度でフローセル上に不動化することができる。次に、フローセルを機器に、例えばＨｅｌｉＳｃｏｐｅ（商標）シーケンサに搭載することができ、レーザーがフローセルの表面を照射して、各テンプレートの位置を明らかにすることができる。ＣＣＤカメラは、フローセル表面上のテンプレートの位置をマッピングすることができる。ライブラリ要素に、ポリメラーゼを対象とした一塩基伸長の繰返しサイクルを行うことができる。シーケンシング反応は、ＤＮＡポリメラーゼおよび蛍光標識付きヌクレオチドを導入することによって始まる。ポリメラーゼは、テンプレートを対象とした形で標識付きヌクレオチドをプライマーに取り込むことができる。ポリメラーゼおよび取り込まれなかったヌクレオチドを除去することができる。蛍光標識付きヌクレオチドの取込みを対象としたテンプレートは、フローセル表面を撮像することによって識別することができる。撮像後、開裂ステップが蛍光標識を除去することができ、所望のリード長が達成されるまで、他の蛍光標識付きヌクレオチドを用いてプロセスを繰り返すことができる。各ヌクレオチド添加ステップを用いて、シーケンス情報を収集することができる。

[00125]本明細書で提供する方法、コンピュータシステム、もしくはコンピュータ可読媒体で使用される、またはそれらとともに使用される高スループットシーケンシング機器は、（例えば、Ｍａｒｇｕｌｉｅｓ，Ｍ．ｅｔａｌ．Ｎａｔｕｒｅ４３７：３７６−３８０［２００５］に記載されているような）４５４シーケンシングプラットフォーム（Ｒｏｃｈｅ）であることができる。４５４シーケンシングは２つのステップを伴うことができる。第１のステップで、ＤＮＡをせん断して断片にすることができる。断片は平滑末端化することができる。オリゴヌクレオチドアダプタを断片の末端に連結することができる。アダプタは、断片の増幅およびシーケンシングのためのプライマーとしての役割を果たすことができる。少なくとも１つのアダプタは、捕獲試薬、例えばビオチンを含むことができる。断片は、ＤＮＡ捕獲ビーズ、例えばストレプトアビジンでコーティングしたビーズに付着させることができる。ビーズに付着させた断片は、油・水エマルションの液滴内でＰＣＲ増幅させることができ、クローン増幅させたＤＮＡ断片の複数のコピーが各ビーズにもたらされる。第２のステップで、ピコリットルサイズにすることができるウェル内で、ビーズを捕獲することができる。パイロシーケンシングを、各ＤＮＡ断片に対して並行して実施することができる。パイロシーケンシングは、ヌクレオチド取込みの際のピロリン酸塩（ＰＰｉ）の放出を検出することができる。ＰＰｉは、アデノシン５’ホスホ硫酸の存在下で、ＡＴＰスルフリラーゼによってＡＴＰに変換することができる。ルシフェラーゼは、ＡＴＰを使用してルシフェリンをオキシルシフェリンに変換することによって、検出される光信号を生成することができる。検出された光信号を使用して、取り込まれたヌクレオチドを特定することができる。

[00126]本明細書で提供する方法、コンピュータシステム、もしくはコンピュータ可読媒体で使用される、またはそれらとともに使用される高スループットシーケンシング機器は、ＳＯＬｉＤ（商標）技術（ＡｐｐｌｉｅｄＢｉｏｓｙｓｔｅｍｓ）を利用することができる。ＳＯＬｉＤプラットフォームは、連結反応によるシーケンシング手法を利用することができる。ＳＯＬｉＤプラットフォームとともに使用するライブラリの準備は、アダプタを断片の５’および３’末端に連結して断片ライブラリを生成することを含むことができる。あるいは、アダプタを断片の５’および３’末端に連結し、断片を環状化させ、環状化断片を消化して内部アダプタを生成し、アダプタを結果として得られる断片の５’および３’末端に付着させてメイトペアライブラリを生成することによって、内部アダプタを導入することができる。次に、ビーズ、プライマー、テンプレート、およびＰＣＲ成分を含むクローンビーズ母集団を、マイクロリアクタ内で調製することができる。ＰＣＲに続いて、テンプレートを変性させることができる。ビーズを濃縮して、伸長テンプレートを有するビーズにすることができる。選択されたビーズ上のテンプレートに対して、ガラススライドに結合できるようにする３’修飾を行うことができる。シーケンスは、特定の蛍光体によって特定される中央決定塩基（または塩基対）を用いて、部分的に不規則なオリゴヌクレオチドのハイブリダイゼーションおよび連結を連続して行うことによって、判定することができる。色を記録した後、連結されたオリゴヌクレオチドを除去し、次にプロセスを繰り返すことができる。

[00127]本明細書で提供する方法、コンピュータシステム、もしくはコンピュータ可読媒体で使用される、またはそれらとともに使用される高スループットシーケンシング機器は、単分子リアルタイム（ＳＭＲＴ（商標）シーケンシングプラットフォーム（ＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅｓ）であることができる。ＳＭＲＴシーケンシングでは、染料で標識したヌクレオチドの連続取込みをＤＮＡ合成中に撮像することができる。単一ＤＮＡポリメラーゼ分子を、リン酸で連結させたヌクレオチドが成長プライマーストランドに取り込まれている状態で、シーケンス情報を取得する個々のゼロモード波長識別子（ＺＭＷ識別子）の下面に付着させることができる。ＺＭＷは、マイクロ秒単位でＺＭＷ内外に迅速に拡散する蛍光ヌクレオチドの背景に対するＤＮＡポリメラーゼによって、単一のヌクレオチドの取込みを観察するのを可能にする閉込め構造を指すことができる。対照的に、ヌクレオチドの取込みはミリ秒単位で生じる場合がある。この間、蛍光標識を励起させて、検出することができる蛍光信号を生じることができる。蛍光信号の検出を使用してシーケンス情報を生成することができる。次に、蛍光体を除去し、プロセスを繰り返すことができる。ＳＭＲＴプラットフォーム用にライブラリを準備することには、ＤＮＡ断片の末端に対するヘアピンアダプタの連結が関与し得る。

[00128]本明細書で提供する方法、コンピュータシステム、もしくはコンピュータ可読媒体で使用される、またはそれらとともに使用される高スループットシーケンシング機器は、（例えば、ＳｏｎｉＧＶａｎｄＭｅｌｌｅｒＡ．ＣｌｉｎＣｈｅｍ５３：１９９６−２００１［２００７］に記載されているような）ナノポアシーケンシングを使用することができる。ナノポアシーケンシングＤＮＡ解析技術としては、ＯｘｆｏｒｄＮａｎｏｐｏｒｅＴｅｃｈｎｏｌｏｇｉｅｓ（Ｏｘｆｏｒｄ，ＵｎｉｔｅｄＫｉｎｇｄｏｍ）による技術が挙げられる。ナノポアシーケンシングは、単一分子シーケンシング技術であることができ、それにより、ＤＮＡの単一分子がナノポアを通過する際に直接シーケンシングされる。ナノポアは、直径１ナノメートル程度の小さい穴であることができる。ナノポアを導電性流体に浸漬し、両端に電位（電圧）を印加することによって、ナノポアを通るイオンの導電によるわずかな電流をもたらすことができる。流れる電流の量は、ナノポアのサイズと形状、および例えばＤＮＡ分子による閉塞に対して感受性であり得る。ＤＮＡ分子がナノポアを通過する際、ＤＮＡ分子上の各ヌクレオチドが異なる程度までナノポアを塞いで、ナノポアを異なる程度で通る電流の大きさを変化させることができる。したがって、ＤＮＡ分子がナノポアを通過する際のこの電流の変化は、ＤＮＡシーケンスの読取り値を表すことができる。

[00129]本明細書で提供する方法、コンピュータシステム、もしくはコンピュータ可読媒体で使用される、またはそれらとともに使用される高スループットシーケンシング機器は、（例えば、米国特許出願公開第２００９００２６０８２号に記載されているような）化学的電界効果トランジスタ（ｃｈｅｍＦＥＴ）を利用することができる。技術の一例では、ＤＮＡ分子を反応チャンバに入れることができ、テンプレート分子をハイブリダイズして、ポリメラーゼに結合されたシーケンシングプライマーとすることができる。シーケンシングプライマーの３’末端における新しい核酸ストランドへの１つ以上の三リン酸塩の取込みは、ｃｈｅｍＦＥＴによる電流の変化によって識別することができる。アレイは複数のｃｈｅｍＦＥＴセンサを有することができる。別の例では、単一の核酸をビーズに付着させることができ、核酸をビーズ上で増幅することができ、個々のビーズをｃｈｅｍＦＥＴアレイ上の個々の反応チャンバに転移させることができ、各チャンバがｃｈｅｍＦＥＴセンサを有し、核酸をシーケンシングすることができる。

[00130]本明細書で提供する方法、コンピュータシステム、もしくはコンピュータ可読媒体で使用される、またはそれらとともに使用される高スループットシーケンシング機器は、投下型電子顕微鏡法（ＴＥＭ）を利用することができる。個別分子配置迅速ナノ輸送（ＩＭＰＲＩＮＴ）と称される方法は、重原子マーカーで選択的に標識付けした高分子量（１５０ｋｂ以上）ＤＮＡを単一原子分解能の投下型電子顕微鏡によって撮像し、これらの分子を、塩基間の間隔が一定の超高密度な（３ｎｍのストランド間隔）並列アレイにおいて超薄膜上に配置することを含むことができる。電子顕微鏡を使用して、膜上の分子を撮像して、重原子マーカーの位置を判定するとともに、ＤＮＡから塩基シーケンス情報を抽出することができる。方法は、ＰＣＴ特許出願公開ＷＯ２００９／０４６４４５号にさらに記載されているものであり得る。方法は、１０分未満で完全なヒトゲノムのシーケンシングを可能にすることができる。

[00131]本明細書で提供する方法、コンピュータシステム、もしくはコンピュータ可読媒体で使用される、またはそれらとともに使用される高スループットシーケンシング機器は、ハイブリダイゼーションによるシーケンシング（ＳＢＨ）を利用することができる。ＳＢＨは、複数のポリヌクレオチドシーケンスを複数のポリヌクレオチドプローブと接触させることを含むことができ、複数のポリヌクレオチドプローブはそれぞれ、任意に基質に繋ぎ止めることができる。基質は、既知のヌクレオチドシーケンスのアレイを備える平坦面であることができる。アレイに対するハイブリダイゼーションのパターンを使用して、サンプル中に存在するポリヌクレオチドシーケンスを判定することができる。他の実施形態では、各プローブはビーズに、例えば磁気ビーズなどに繋ぎ止められる。ビーズに対するハイブリダイゼーションを特定し、サンプル中の複数のポリヌクレオチドシーケンスを特定するために使用することができる。

[00132]シーケンスリードの長さは、利用される特定のシーケンシング技術に応じて変わる場合がある。高スループットシーケンシング機器（ＮＧＳプラットフォーム）は、サイズが数十から数百、または数千の塩基対に及ぶシーケンスリードを提供することができる。本明細書に記載する方法のいくつかの実施形態では、シーケンスリードは、およそまたは少なくとも１０塩基長、１５塩基長、２０塩基長、２５塩基長、３０塩基長、３５塩基長、４０塩基長、４５塩基長、５０塩基長、５５塩基長、６０塩基長、６５塩基長、７０塩基長、７５塩基長、８０塩基長、８５塩基長、９０塩基長、９５塩基長、１００塩基長、１１０塩基長、１２０塩基長、１３０、１４０塩基長、１５０塩基長、２００塩基長、２５０塩基長、３００塩基長、３５０塩基長、４００塩基長、４５０塩基長、５００塩基長、６００塩基長、７００塩基長、８００塩基長、９００塩基長、１０００塩基長、または１０００超過の塩基長である。

[00133]本明細書に記載のシーケンシングプラットフォームは、その上に不動化された固体支持体を備えることができ、表面結合オリゴヌクレオチドが、シーケンシングライブラリを捕獲し、固体支持体に対して不動化するのを可能にしている。表面結合オリゴヌクレオチドは、一般に、シーケンシングライブラリのアダプタシーケンスに対して相補的なシーケンスを含む。

[00134]高スループットシーケンシングプラットフォームを使用して、ＤＮＡを異なる深さまでシーケンシングすることができる。シーケンシング（例えば、ＤＮＡシーケンシング）の深さは、シーケンシングプロセスの間にヌクレオチドが読み取られる回数を指すことができる。シーケンスの適用範囲は、再構築されたシーケンスにおける所与のヌクレオチドを表す平均リード数を示すことができる。物理的な適用範囲は、リードがメイトペアリードによって読み取られるかまたは測られる平均回数であることができる。深さは、Ｎ×Ｌ／Ｇとして、元のゲノムの長さ（Ｇ）、リードの数（Ｎ）、および平均リード長さ（Ｌ）から計算することができる。場合によっては、ディープシーケンシング（＞７倍）が実施される。場合によっては、超ディープシーケンシングが実施される（＞１００倍）。本明細書に記載する方法におけるシーケンシング深さは、少なくとも１倍、２倍、５倍、７倍、１０倍、２０倍、５０倍、７５倍、１００倍、２５０倍、５００倍、１０００倍、５０００倍、または１０，０００倍であることができる。
ＶＩＩ．被験者、サンプル、および核酸
[00135]Ａ．被験者
[00136]本明細書で提供する方法、コンピュータシステム、およびコンピュータ可読媒体において解析されるサンプルは、１つ以上の被験者または個人によるものであることができる。被験者は、発現遺伝物質を含む生物学的実体であることができる。生物学的実体は、例えば、細菌、ウィルス、菌類、および原生動物を含む、植物、動物、または微生物であることができる。被験者は、インビボで得た、もしくはインビトロで培養した、生物学的実体の組織、細胞、またはそれらの後代であることができる。被験者は哺乳類であることができる。哺乳類はヒトであることができる。ヒトは男性または女性であることができる。ヒトは、生後１日〜約１歳、約１歳〜約３歳、約３歳〜約１２歳、約１３〜約１９歳、約２０歳〜約４０歳、約４０歳〜約６５歳、または６５歳以上であることができる。ヒトは、疾患のリスクが高いことが診断されるかまたは疑われる場合がある。疾患はがんであり得る。ヒトは、疾患のリスクが高いことが診断されないかまたは疑われないことがある。

[00137]Ｂ．サンプル
[00138]本明細書で提供する方法、コンピュータシステム、およびコンピュータ可読媒体で使用される、またはそれらとともに使用される１つ以上のサンプルは、核酸を含有するかまたは含有すると仮定される任意の物質であることができる。サンプルは、被験者から得られる生体サンプルであることができる。いくつかの実施形態では、生体サンプルは液体サンプルである。液体サンプルは、全血、血漿、血清、腹水、脳脊髄液、汗、尿、涙、唾液、口腔サンプル、腔洗浄液（cavity rinse）、または臓器洗浄液（organ rinse）であることができる。液体サンプルは、本質的に無細胞の液体サンプルであるか、または無細胞核酸を含むことができる（例えば、血漿、血清、汗、血漿、尿、汗、涙、唾液、痰、脳脊髄液）。他の実施形態では、生体サンプルは、固形生体サンプル、例えば糞便または組織生検である。サンプルはまた、（細胞培地で細胞を成長させて得られる調製された媒体、組換え細胞、および細胞成分を含むがそれに限定されない）インビトロ細胞培養構成成分を含むことができる。サンプルは、単一の細胞、例えばがん細胞、循環腫瘍細胞、がん肝細胞などを含むことができる。サンプルは複数の細胞を含むことができる。場合によっては、サンプルは、およそまたは少なくとも１％、５％、１０％、１５％、２０％、２５％、３０％、３５％、４０％、４５％、５０％、５５％、６０％、６５％、７０％、７５％、８０％、８５％、９０％、９５％、９９％、または１００％の腫瘍細胞を含む。被験者は、固形腫瘍を宿していることが疑われるかもしくは分かっている場合があり、または固体腫瘍を以前宿していた被験者であることができる。

[00139]場合によっては、被験者からの腫瘍サンプルおよび正常な細胞の両方が被験者から得られる。
[00140]いくつかの実施形態では、生殖細胞系列シーケンスを含む核酸が、被験者の生体サンプルから抽出される。いくつかの実施形態では、生体サンプルは固形組織である。生体サンプルは、被験者からの健康な組織などの組織であることができる。生体サンプルは、例えば、血液、血液からの軟膜（リンパ球を含むことができる）、唾液、または血漿などの液体サンプルであることができる。

[00141]いくつかの実施形態では、体細胞変異体を含む核酸が、被験者の生体サンプルから抽出される。いくつかの実施形態では、生体サンプルは固形組織である。固形組織は、例えば、原発腫瘍、転移腫瘍、ポリープ、または腺腫であり得る。いくつかの実施形態では、生体サンプルは、例えば尿、唾液、脳脊髄液、血漿、または血清などの液体サンプルである。場合によっては、液体は無細胞液体である。場合によっては、循環腫瘍細胞を含む細胞は、濃縮されるか液体から単離される。場合によっては、サンプルは無細胞核酸、例えばＤＮＡを含む。

[00142]場合によっては、腫瘍のサンプルは第１の時点で取られ、シーケンシングされ、腫瘍の別のサンプルがその後の時点で取られ、腫瘍がシーケンシングされる。
[00143]Ｃ．がん
[00144]本明細書で提供するコンピューティングシステム、ソフトウェア媒体、方法、およびキットは腫瘍サンプルを利用することができる。腫瘍組成物（原発腫瘍、転移腫瘍）は、がんと関連付けられる１つ以上のＤＮＡ分子を含むことができる。

[00145]本明細書で提供するコンピューティングシステム、ソフトウェア媒体、方法、およびキットは、サンプル中の腫瘍細胞／核酸の比率を推定することを含むことができる。

[00146]本明細書で提供するコンピューティングシステム、ソフトウェア媒体、方法、およびキットは、同時にまたは異なる時点に収集されたサンプルを含むことができる（同時、１つ以上のサンプルが少なくとも２つのサンプルを含む、また少なくとも２つのサンプルが異なる時点に収集される）。

[00147]本明細書で提供されるコンピューティングシステム、ソフトウェア媒体、方法、およびキットは、異なるタイプの細胞（例えば、リンパ球、血液細胞、腫瘍細胞）を使用することを含むことができる。

[00148]本明細書で提供するコンピューティングシステム、ソフトウェア媒体、方法、およびキットは、疾患がある被験者のモニタリングおよび処置を改善する。疾患は、がん、例えば腫瘍、白血病（急性白血病、急性Ｔ細胞白血病、急性リンパ性白血病、急性骨髄球性白血病、骨髄芽球性白血病、前骨髄球性白血病、骨髄単球性白血病、単球性白血病、赤白血病、慢性白血病、慢性骨髄球性（顆粒球性）白血病、または慢性リンパ性白血病、真性多血症、リンパ腫（ホジキンリンパ腫、濾胞性リンパ腫、または非ホジキンリンパ腫）、多発性骨髄腫、ワルデンストレームマクログロブリン血症、Ｈ鎖病、固形腫瘍、肉腫、がん腫（例えば、線維肉腫、粘液肉腫、脂肪肉腫、軟骨肉腫、骨肉腫、リンパ管肉腫、中皮腫、ユーイング腫瘍、平滑筋肉腫、横紋筋肉腫）、結腸がん、大腸がん、膵がん、乳がん、卵巣がん、前立腺がん、扁平上皮細胞がん、基底細胞がん、腺がん、汗腺がん、皮脂腺がん、乳頭状がん、乳頭腺がん、嚢胞腺がん、髄様がん、気管支原性がん、腎細胞がん、肝がん、胆管がん、絨毛がん、精上皮腫、胎生期がん、ウィルムス腫、子宮頸がん、子宮がん、精巣腫瘍、肺がん、小細胞肺がん、膀胱がん、上皮がん、神経膠腫、頭蓋喉頭腫、脳室上皮腫、松果体腫、血管芽細胞腫、聴神経腫、乏枝神経膠腫、髄膜腫、黒色腫、神経芽細胞腫、網膜芽細胞腫、子宮体がん、非小細胞肺がんであることができる。

[00149]Ｄ．核酸
[00150]本明細書で提供する方法、コンピュータシステム、コンピュータ可読媒体、およびキットで使用される、またはそれらとともに使用される核酸は、ＲＮＡ、ＤＮＡ、例えばゲノムＤＮＡ、ミトコンドリアＤＮＡ、ウィルスＤＮＡ、合成ＤＮＡ、またはＲＮＡから逆転写したｃＤＮＡであることができる。

[00151]「ポリヌクレオチド」、「核酸」、および「オリゴヌクレオチド」という用語は、は互換可能に使用することができる。それらは、デオキシリボヌクレオチドまたはリボヌクレオチド、またはそれらの類似体のいずれかの、任意の長さのヌクレオチドのポリマー形態を指すことができる。ポリヌクレオチドは、任意の三次元構造を有することができ、既知または未知の、任意の機能を実施することができる。以下は、遺伝子または遺伝子断片のコード化もしくは非コード化領域、連鎖解析から定義される遺伝子座、エキソン、イントロン、メッセンジャーＲＮＡ（ｍＲＮＡ）、転写ＲＮＡ、リボソームＲＮＡ、リボザイム、ｃＤＮＡ、組換えポリヌクレオチド、分枝ポリヌクレオチド、プラスミド、ベクター、任意のシーケンスの単離ＤＮＡ、任意のシーケンスの単離ＲＮＡ、核酸プローブ、およびプライマーといった、ポリヌクレオチドの非限定例である。ポリヌクレオチドは、メチル化ヌクレオチドおよびヌクレオチド類似体などの修飾ヌクレオチドを含むことができる。存在する場合、高分子をアセンブルする前または後に、ヌクレオチド構造に対する修飾を付与することができる。ヌクレオチドのシーケンスは、非ヌクレオチド成分によって中断される場合がある。ポリヌクレオチドは、標識成分との共役などによって、ポリメライゼーション後にさらに修飾することができる。

[00152]「標的ポリヌクレオチド」、「標的領域」、または「標的」という用語は、本明細書で使用するとき、研究中の対象のポリヌクレオチドを指す場合がある。特定の実施形態では、標的ポリヌクレオチドは研究中の対象である１つ以上のシーケンスを含む。標的ポリヌクレオチドは、例えば、ゲノムシーケンスを含むことができる。標的ポリヌクレオチドは、その存在、量、および／またはヌクレオチドシーケンス、あるいはそれらの変化を判定することが望ましい、標的シーケンスを含むことができる。
ＶＩＩＩ．核酸ライブラリ生成
[00153]本明細書で提供する方法、コンピュータシステム、コンピュータ可読媒体、およびキットは、核酸ライブラリを利用することができる。本明細書では、核酸ライブラリ形成のための方法、組成物、およびキットを提供する。ライブラリ形成は、シーケンシング前にプローブハイブリダイゼーションおよび伸長を介して、標的補足を含むことができる。ペアードエンドリードを使用して、所与のプローブからのリードを整列させることができる。ライブラリを準備するプロセスは、断片化ＤＮＡ、適合ＤＮＡ、標的捕獲、表面負荷、およびシーケンシングの生成を含むことができ、適合ＤＮＡと標的捕獲の生成の間にＤＮＡの断片の各末端においてアダプタによって断片を増幅する、プライマーを用いた増幅による濃縮は行わない。

[00154]核酸サンプルを使用して、シーケンシングのための核酸ライブラリを準備することができる。核酸ライブラリの準備は、当該分野で知られているような、または本明細書に記載するような任意の方法を含むことができる。核酸シーケンシングライブラリは、例えば標的特異的なプライマーを使用する、標的濃縮によって形成することができる。場合によっては、核酸ライブラリは標的特異的な手法には基づかない。図１０は、ＤＮＡ調製およびライブラリ生成のための例示的なワークフローを示している。合計調製時間は約８時間であり得る。調製は、核酸中間体を精製するため、固相逆不動化（Solid Phase Reverse Immobilization）（ＳＰＲＩ）ビーズを用いた温置によって散在させる酵素的操作を含むことができる。核酸（例えば、ＤＮＡ）ライブラリの準備には、核酸（例えば、ＤＮＡ）の調製が関与する場合があり、それには、ａ）核酸（例えば、ＤＮＡ）の修復、ｂ）核酸（例えば、ＤＮＡ）のリン酸化反応、および／またはｃ）核酸（例えば、ＤＮＡ）のキャッピングを含むことができる。核酸ライブラリの生成には、核酸へのアダプタの付加（例えば、連結）、「捕獲」（例えば、標的特異的なプライマーを核酸にアニーリングする）、伸長、および／または増幅を含むことができる。核酸ライブラリは、一本鎖核酸ライブラリまたは二本鎖核酸ライブラリであることができる。核酸ライブラリはＤＮＡライブラリであることができる。いくつかの実施形態では、核酸ライブラリはｓｓＤＮＡライブラリである。いくつかの実施形態では、核酸ライブラリは部分ｓｓＤＮＡライブラリである。

[00155]Ａ．核酸の修復および断片化
[00156]核酸は核酸ライブラリを形成する前に修復することができる。例えば、サンプル（例えば、本明細書に記載する任意のサンプル、例えばホルマリン固定パラフィン包理（ＦＦＰＥ）サンプル）からの核酸（例えば、ＤＮＡ）を、ライブラリの準備に使用することができ、サンプル（例えば、ＦＦＰＥサンプル）からの核酸（例えば、ＤＮＡ）は、突然変異、例えばオキソグアニン、ｄＵＴＰ、架橋部分、および／または無塩基部位を含むことができる。場合によっては、損傷した塩基はＤＮＡサンプルから除去（例えば、切除）される。場合によっては、「補正」処理ステップは関与しない（塩基誤差は補正されない）。場合によっては、サンプル中の核酸は突然変異を含まない。

[00157]場合によっては、ライブラリ中の核酸は断片化される。ライブラリの準備で使用される断片は、約５０〜約５００塩基／ｂｐ、約１００〜約５００塩基／ｂｐ、約１００〜約４００塩基／ｂｐ、約１００〜約３００塩基／ｂｐ、約１００〜約２００塩基／ｂｐ、約２００〜約５００塩基／ｂｐ、約２００〜約４００塩基／ｂｐ、または約２００〜約３００塩基／ｂｐの平均サイズを有することができる。

[00158]ＤＮＡ、例えば断片化ＤＮＡは、塩基切除修復酵素（例えば、ＥｎｄｏＶＩＩＩ、ホルムアミドピリミジンＤＮＡグリコシラーゼ（ＦＰＧ））で処理して、ポリメライゼーションに干渉する可能性がある損傷した塩基を切除することができる。次に、ＤＮＡを、校正ポリメラーゼ（例えば、Ｔ４ＤＮＡポリメラーゼ）で処理して、末端を研磨し、損傷したヌクレオチド（例えば、無塩基部位）を置換することができる。いくつかの実施形態では、ＤＮＡは、末端を研磨し、損傷したヌクレオチドを置換するために、校正ポリメラーゼで処理されない。

[00159]Ｂ．核酸処理
[00160]核酸（例えば、ＤＮＡ）の断片化は、（例えば、キナーゼを用いて）リン酸化させ、ｄｄＮＴＰでキャッピングすることができる。場合によっては、核酸の５’末端をリン酸化させる。

[00161]Ｃ．アダプタの添加
[00162]一本鎖アダプタを、サンプルからの一本鎖ＤＮＡ断片に連結させることができる。適合されたＤＮＡ断片の二桁の収率を達成して、サンプルからのシーケンス情報の回収を改善するのを可能にすることができる。アダプタは、例えばプライマーを介して、または連結反応によって、核酸に添加することができる。アダプタ、例えばｓｓＤＮＡアダプタを、ｓｓＤＮＡの５’末端、ｓｓＤＮＡの３’末端、またはｓｓＤＮＡの５’末端および３’末端の両方に添加、例えば連結することができる。核酸断片および／またはアダプタの５’末端を、例えば連結反応の前にアデニル化することができる。適合されたＤＮＡの収率は二桁であり得る。

[00163]断片は、シーケンシングプラットフォームに対する断片の結合（例えば、捕獲および／または不動化）に影響を及ぼし得る、アダプタシーケンスを用いて修飾することができる。アダプタシーケンスは、シーケンシングプラットフォームに対するライブラリ要素の結合に影響を及ぼす、定義されたオリゴヌクレオチドシーケンスを含むことができる。アダプタは、固体支持体（例えば、シーケンシングフローセルもしくはビーズ）上に不動化されたオリゴヌクレオチドシーケンスに対して、少なくとも２５％、５０％、６０％、７０％、８０％、９０％、もしくは１００％相補的または同一である、シーケンスを含むことができる。アダプタシーケンスは、シーケンシングプライマーに対して、少なくとも５０％、６０％、７０％、８０％、９０％、もしくは１００％相補的または同一である、定義されたオリゴヌクレオチドシーケンスを含むことができる。シーケンシングプライマーは、ポリメラーゼによるヌクレオチド取込みを可能にすることができ、ヌクレオチドの取込みはシーケンシング情報を提供するためにモニタリングされる。シーケンシングプライマーは、約１５〜約２５塩基であることができる。アダプタは、固体支持体上に不動化されたオリゴヌクレオチドシーケンスに対して少なくとも２５％、５０％、６０％、７０％、８０％、９０％、もしくは１００％相補的または同一であるシーケンス、ならびにシーケンシングプライマーに対して少なくとも７０％相補的または同一であるシーケンスを含むことができる。結合はまた、アダプタを直列で縫合することによって達成することができる。縫合することができるアダプタの数は、１、２、３、４、またはそれ以上であることができる。縫合されたアダプタは、少なくとも３５塩基、７０塩基、１０５塩基、１４０塩基、またはそれ以上であることができる。

[00164]アダプタはバーコードシーケンスを含むことができる。「バーコードシーケンス」という用語は、アッセイに関する情報をコード化することができる、ヌクレオチドの一意のシーケンスを指すことができる。バーコードシーケンスは、識別対立遺伝子の同一性、標的ポリヌクレオチドまたはゲノム遺伝子座の同一性、サンプルの同一性、被験者、分子、またはそれらの任意の組み合わせに関する情報をコード化することができる。バーコードシーケンスは、プライマー、レポータープローブ、または両方の一部分であることができる。バーコードシーケンスは、オリゴヌクレオチドの５’末端もしくは３’末端にあることができ、またはオリゴヌクレオチドの任意の領域に位置することができる。バーコードシーケンスは、テンプレートシーケンスの一部であることができ、またはそうでないことができる。バーコードシーケンスはサイズおよび組成が大幅に変動する場合があり、後で参照することによって、特定の実施形態に適切なバーコードシーケンスの組の選択をガイドする。Ｂｒｅｎｎｅｒ，米国特許第５，６３５，４００号、Ｂｒｅｎｎｅｒｅｔａｌ，Ｐｒｏｃ．Ｎａｔｌ．Ａｃａｄ．Ｓｃｉ．，９７：１６６５−１６７０（２０００）；Ｓｈｏｅｍａｋｅｒｅｔａｌ，Ｎａｔｕｒｅｇｅｎｅｔｉｃｓ，１４：４５０−４５６（１９９６）；Ｍｏｒｒｉｓｅｔａｌ，欧州特許出願公開０７９９８９７Ａ１号；Ｗａｌｌａｃｅ，米国特許第５，９８１，１７９号。バーコードシーケンスは、約４〜３６ヌクレオチド、約６〜３０ヌクレオチド、または約８〜２０ヌクレオチドの長さを有することができる。

[00165]ライブラリ中のシーケンシングライブラリ要素の少なくとも５０％、６０％、７０％、８０％、９０％、または１００％は、同じアダプタシーケンスを含むことができる。ｓｓＤＮＡライブラリ要素の少なくとも５０％、６０％、７０％、８０％、９０％、または１００％は、第２の末端ではなく第１の末端にアダプタシーケンスを含むことができる。いくつかの実施形態では、第１の末端は５’末端である。いくつかの実施形態では、第１の末端は３％末端である。アダプタシーケンスは、シーケンシングに使用されるシーケンシングプラットフォームにしたがって、ユーザによって選ばれる。単なる例として、合成プラットフォームによるＩｌｌｕｍｉｎａのシーケンシングは、表面結合されたオリゴヌクレオチドの第１および第２の母集団が不動化された、固体支持体を含むことができる。かかるオリゴヌクレオチドは、第１および第２のＩｌｌｕｍｉｎａ特異的なアダプタヌクレオチドに対してハイブリダイズし、伸長反応をプライミングするシーケンスを含むことができる。したがって、ＤＮＡライブラリ要素は、Ｉｌｌｕｍｉｎａシステムの表面結合オリゴヌクレオチドの第１の母集団対して、部分的または全体的に相補的である第１のＩｌｌｕｍｉｎａ特異的なアダプタを含むことができる。他の単なる一例として、ＳＯＬｉＤシステム、およびＩｏｎＴｏｒｒｅｎｔ、ＧＳＦＬＥＸシステムは、表面結合オリゴヌクレオチドの単一の母集団が不動化されたビーズの形態の、固体支持体を含むことができる。したがって、いくつかの実施形態では、ｓｓＤＮＡライブラリ要素は、ＳＯＬｉＤシステム、ＩｏｎＴｏｒｒｅｎｔシステム、またはＧＳＦｌｅｘシステムの表面結合オリゴヌクレオチドに対して相補的な、アダプタシーケンスを含む。

[00166]Ｄ．伸長
[00167]伸長生成物が核酸断片から生成される場合がある。伸長生成物は、核酸の３’末端上のアダプタシーケンスに対してプライマーをアニーリングし、プライマーを伸長することによって生成することができる。かかる伸長生成物は標的特異的ではない。伸長生成物は、５’末端および／または３’末端にアダプタを含むｓｓ核酸（例えば、ｓｓＤＮＡ）内の標的特異的なシーケンスに対してプライマーをアニーリングし、プライマーを伸長することによって生成することができる。かかる伸長生成物は標的特異的な伸長生成物であることができる。複数の標的特異的なプライマー（例えば、約２０〜約３５塩基の標的特異的なシーケンス）を使用して、ライブラリを作成することができる。標的特異的なプライマーは、例えば５’末端に、アダプタシーケンスを含むことができる。

[00168]Ｅ．増幅
[00169]場合によっては、全ゲノムＰＣＲは実施されず、それによって表現のバイアスを最小限に抑えることができる。場合によっては、増幅は、溶液中の伸長生成物に対して実施される。場合によっては、シーケンシング前に、溶液中の伸長生成物に対して複数回の増幅が実施される。

[00170]Ｆ．ｓｓＤＮＡ断片／ｓｓＤＮＡライブラリの準備（３’末端のアダプタ）
[00171]本明細書において、例えば核酸断片の３’末端にアダプタを添加することによって、ｓｓＤＮＡライブラリを生成する方法、組成物、およびキットを提供する。一本鎖核酸ライブラリは、当該技術において知られている、または本明細書に記載する任意の手段を使用して、二本鎖核酸または一本鎖核酸のサンプルから準備することができる。

[00172]サンプル
[00173]開始サンプルは、被験者から得られる生体サンプルであることができる。例示の被験者および生体サンプルについては本明細書に記載する。サンプルは、固体生体サンプル、例えば腫瘍サンプルであることができる。固体生体サンプルは処理することができる。処理は、例えば、ホルマリン溶液中の固定、それに続くパラフィン中の包理を含むことができる（例えば、ＦＦＰＥサンプルである）。処理は凍結を含むことができる。場合によっては、サンプルは固定も凍結もされない。固定されず凍結されないサンプルは、核酸を保存するように構成された保存溶液中に保存することができる。例示的な保存溶液については本明細書に記載する。いくつかの実施形態では、例えば、酵素処理（例えば、プロテアーゼを用いる）を使用して、非核酸物質を開始材料から除去することができる。サンプルに、均質化、音波処理、フレンチプレス、ダンス、凍結／解凍、またそれに続くことができる遠心分離を行うことができる。遠心分離は、核酸を含む画分を、核酸を含まない画分から分離することができる。場合によっては、サンプルは液体生体サンプルである。例示的な液体生体サンプルについては本明細書に記載する。液体生体サンプルは、血液サンプル（例えば、全血、血漿、または血清）であることができる。全血サンプルを、例えば、参照により本明細書に援用する、Ｆｕｓｓｅｔａｌ．ＣｕｒｒＰｒｏｔｏｃＩｍｍｕｎｏｌ（２００９）Ｃｈａｐｔｅｒ７：Ｕｎｉｔ７．１に詳細に記載されている、Ｆｉｃｏｌｌ試薬を使用することによって、無細胞成分（例えば、血漿、血清）および細胞成分に与えることができる。

[00174]核酸は、当該分野で知られている任意の手段を使用して、生体サンプルから単離することができる。例えば、核酸は、液体抽出（例えば、Ｔｒｉｚｏｌ、ＤＮＡｚｏｌ）技術を使用して、生体サンプルから抽出することができる。核酸はまた、市販のキット（例えば、ＱｉａｇｅｎＤＮｅａｓｙキット、ＱＩＡａｍｐキット、ＱｉａｇｅｎＭｉｄｉキット、ＱＩＡｐｒｅｐｓｐｉｎキット）を使用して抽出することができる。

[00175]核酸は、単なる一例として遠心分離を含む、既知の方法によって凝縮することができる。核酸は、精製の目的で、選択的メンブレン（例えば、シリカ）に結合させることができる。核酸はまた、１０００、５００、４００、３００、２００、または１００塩基対未満の長さの断片など、所望の長さの断片を濃縮することができる。かかるサイズに基づく濃縮は、例えば、ＰＥＧ誘導沈殿、電気泳動ゲル、またはクロマトグラフィ材料（Ｈｕｂｅｒｅｔａｌ．（１９９３）ＮｕｃｌｅｉｃＡｃｉｄｓＲｅｓ．２１：１０６１−６）、ゲルろ過クロマトグラフィ、ＴＳＫゲル（Ｋａｔｏｅｔａｌ．（１９８４）Ｊ．Ｂｉｏｃｈｅｍ，９５：８３−８６）を使用して実施することができ、それらの文献を参照により本明細書に援用する。

[00176]生体サンプルから抽出したポリヌクレオチドは、当該分野で知られている任意の方法を使用して、選択的に沈殿または凝縮させることができる。
[00177]核酸サンプルは、標的ポリヌクレオチドを濃縮することができる。標的濃縮は、当該分野で知られている任意の手段によるものであることができる。例えば、核酸サンプルは、標的特異的なプライマーを使用して標的シーケンスを増幅することによって濃縮することができる。標的増幅は、当該分野で知られている任意の方法またはシステムを使用して、デジタルＰＣＲフォーマットで生じることができる。核酸サンプルは、標的選択的オリゴヌクレオチドを不動化させたアレイ上へと標的シーケンスを捕獲することによって、濃縮することができる。核酸サンプルは、標的選択的オリゴヌクレオチドを溶液中または固体支持体上で自由にハイブリダイズすることによって、濃縮することができる。オリゴヌクレオチドは、捕獲試薬による捕獲を可能にする捕獲部分を含むことができる。例示的な捕獲部分および捕獲試薬については本明細書に記載する。場合によっては、核酸サンプルは標的ポリヌクレオチドが濃縮されず、例えば全ゲノムを表す。場合によっては、全ゲノム増幅が実施される。

[00178]一本鎖核酸ライブラリは、一本鎖ＤＮＡライブラリ（ｓｓＤＮＡライブラリ）またはＲＮＡライブラリであることができる。ｓｓＤＮＡライブラリを準備する方法は、二本鎖ＤＮＡ断片をｓｓＤＮＡ断片に変性すること、プライマーシーケンスをｓｓＤＮＡ断片の一端上に連結すること、プライマーをハイブリダイズしてプライマードッキングシーケンスにすることを含むことができる。プライマーは、次世代シーケンシングプラットフォームに結合する、アダプタシーケンスの少なくとも一部分を含むことができる。方法は、ハイブリダイズしたプライマーを伸長して、二本鎖を作成することをさらに含むことができ、二本鎖は、元のｓｓＤＮＡ断片と伸長プライマー鎖を含む。伸長プライマー鎖は、元のｓｓＤＮＡ断片から分離することができる。伸長プライマー鎖を収集することができ、伸長プライマー鎖はｓｓＤＮＡライブラリの要素である。ＲＮＡライブラリを準備する方法は、プライマードッキングシーケンスをＲＮＡ断片の一端上に連結すること、プライマーをハイブリダイズしてプライマードッキングシーケンスにすることを含むことができる。プライマーは、次世代シーケンシングプラットフォームに結合する、アダプタシーケンスの少なくとも一部分を含むことができる。方法は、ハイブリダイズしたプライマーを伸長して、二本鎖を作成することをさらに含むことができ、二本鎖は、元のＲＮＡ断片と伸長プライマー鎖を含む。伸長プライマー鎖は、元のＲＮＡ断片から分離することができる。伸長プライマー鎖を収集することができ、伸長プライマー鎖はＲＮＡライブラリの要素である。

[00179]ｄｓＤＮＡは、当該分野で知られているかまたは本明細書に記載する任意の手段によって断片化することができる。ｄｓＤＮＡは、物理的手段によって、例えば機械的せん断によって、噴霧化によって、または音波処理によって、Ｆｅ（ＩＩ）−ＥＤＴＡキレートによる処理などの化学的手段によって、または複数の切断酵素、制限酵素、もしくはフラグメンターゼ（ＮＥＢ）などの酵素的手段によって断片化することができる。

[00180]いくつかの実施形態では、ｃＤＮＡは、ランダムプライム化逆転写（ＲＮａｓｅＨ＋）を使用して、無作為なサイズのｃＤＮＡを生成するＲＮＡから生成される。
[00181]断片サイズ
[00182]核酸断片（例えば、ｄｓＤＮＡ断片、ＲＮＡ、またはランダムサイズｃＤＮＡ）は、１０００ｂｐ未満、８００ｂｐ未満、７００ｂｐ未満、６００ｂｐ未満、５００ｂｐ未満、４００ｂｐ未満、３００ｂｐ未満、２００ｂｐ未満、または１００ｂｐ未満であることができる。ＤＮＡ断片は、約４０〜１００ｂｐ、約５０〜１２５ｂｐ、約１００〜２００ｂｐ、約１５０〜４００ｂｐ、約３００〜５００ｂｐ、約１００〜５００ｂｐ、約４００〜７００ｂｐ、約５００〜８００ｂｐ、約７００〜９００ｂｐ、約８００〜１０００ｂｐ、または約１００〜１０００ｂｐであることができる。

[00183]修復
[00184]ｄｓＤＮＡ断片の末端を研磨することができる（例えば、平滑末端化）。ＤＮＡ断片の末端は、ポリメラーゼを用いた処理によって研磨することができる。研磨には、３’オーバーハング、５’オーバーハングの補充、またはそれらの組み合わせの除去が関与することができる。ポリメラーゼは、校正ポリメラーゼ（例えば、３’から５’のエキソヌクレアーゼ活性）であることができる。校正ポリメラーゼは、例えば、Ｔ４ＤＮＡポリメラーゼ、Ｐｏｌ１Ｋｌｅｎｏｗ断片、またはＰｆｕポリメラーゼであることができる。研磨は、当該分野で知られている任意の手段を使用して、損傷したヌクレオチド（例えば、無塩基部位）を除去することを含むことができる。

[00185]アダプタ
[00186]核酸断片の３’末端に対するアダプタの連結は、断片の３’ＯＨ基とアダプタの５’リン酸塩の間に結合を形成することを含むことができる。したがって、５’リン酸塩を核酸断片から除去することによって、２つのライブラリ要素の異常性連結反応を最小限に抑えることができる。したがって、いくつかの実施形態では、５’リン酸塩が核酸断片から除去される。いくつかの実施形態では、５’リン酸塩は、サンプル中の核酸断片の少なくとも５０％、５５％、６０％、６５％、７０％、７５％、８０％、８５％、９０％、９５％、または９５％超過から除去される。いくつかの実施形態では、実質的に全てのリン酸基が核酸断片から除去される。いくつかの実施形態では、実質的に全てのリン酸塩が、サンプル中の核酸断片の少なくとも５０％、５５％、６０％、６５％、７０％、７５％、８０％、８５％、９０％、９５％、または８９％超過から除去される。核酸サンプルからのリン酸基の除去は、当該分野で知られている任意の手段によるものであり得る。リン酸基の除去は、易熱性ホスファターゼを用いてサンプルを処理することを含むことができる。いくつかの実施形態では、リン酸基は核酸サンプルから除去されない。いくつかの実施形態では、核酸断片の５’末端に対するアダプタの連結が実施される。

[00187]変性
[00188]ｓｓＤＮＡは、当該分野で知られているまたは本明細書に記載する任意の手段によって調製されたｄｓＤＮＡ断片から、一本鎖に変性することによって、調製することができる。ｄｓＤＮＡの変性は、熱変性、塩基性ｐＨ中での温置、尿素またはホルムアルデヒドによる変性を含む、当該分野で知られている任意の手段によるものであることができる。

[00189]熱変性は、約６０℃以上、約６５℃以上、約７０℃以上、約７５℃以上、約８０℃以上、約８５℃以上、約９０℃以上、約９５℃以上、または約９８℃以上まで、ｄｓＤＮＡサンプルを加熱することによって達成することができる。ｄｓＤＮＡサンプルは、例えば、水浴中での温置、温度制御ヒートブロック、熱サイクラーを含む、当該分野で知られている任意の手段によって加熱することができる。いくつかの実施形態では、サンプルは、０．５、１、２、３、４、５、６、７、８、９、１０分間、または１０分超、加熱される。

[00190]塩基性ｐＨ中での温置による変性は、例えば、水酸化ナトリウム（ＮａＯＨ）または水酸化カリウム（ＫＯＨ）を含む溶液中でｄｓＤＮＡサンプルを温置することによって達成することができる。溶液は、ＮａＯＨ約１ｍＭ、ＮａＯＨ約２ｍＭ、ＮａＯＨ約５ｍＭ、ＮａＯＨ約１０ｍＭ、ＮａＯＨ約２０ｍＭ、ＮａＯＨ約４０ｍＭ、ＮａＯＨ約６０ｍＭ、ＮａＯＨ約８０ｍＭ、ＮａＯＨ約１００ｍＭ、ＮａＯＨ約０．２Ｍ、ＮａＯＨ約０．３Ｍ、ＮａＯＨ約０．４Ｍ、ＮａＯＨ約０．５Ｍ、ＮａＯＨ約０．６ｍＭ、ＮａＯＨ約０．７ｍＭ、ＮａＯＨ約０．８ｍＭ、ＮａＯＨ約０．９ｍＭ、ＮａＯＨ約１．０Ｍ、またはＮａＯＨ約１．０Ｍ超を含むことができる。溶液は、ＫＯＨ約１ｍＭ、ＫＯＨ約２ｍＭ、ＫＯＨ約５ｍＭ、ＫＯＨ約１０ｍＭ、ＫＯＨ約２０ｍＭ、ＫＯＨ約４０ｍＭ、ＫＯＨ約６０ｍＭ、ＫＯＨ約８０ｍＭ、ＫＯＨ約１００ｍＭ、ＫＯＨ約０．２Ｍ、ＫＯＨ約０．５Ｍ、ＫＯＨ約１Ｍ、またはＫＯＨ約１Ｍ超を含むことができる。いくつかの実施形態では、ｄｓＤＮＡサンプルは、０．５、１、２、３、４、５、６、７、８、９、１０、１５、２０、３０、４０、５０、６０分間、または６０分超、ＮａＯＨまたはＫＯＨ中で温置される。ｄｓＤＮＡは、酢酸のナトリウム塩もしくはアンモニウム塩を用いて温置して、またはＮａＯＨもしくはＫＯＨ温置の後に酢酸を用いて、アルカリ性溶液を中和することができる。

[00191]尿素およびホルムアミドなどの化合物は、ヌクレオチド塩基の電気的陰性の中心とＨ結合を形成することができる官能基を含む。高濃度（例えば、尿素８Ｍまたはホルムアミド７０％）の変性剤の場合、Ｈ結合の競合は、変性剤とＮ塩基との相互作用を相補的塩基間の相互作用よりも優先し、それによって２つのストランドを分離することができる。「分離」という用語は、（例えば、開裂、加水分解、または２つの要素のうち１つの分解による）２つの要素の物理的な分離を指すことができる。

[00192]核酸断片の３’末端に対するアダプタの連結
[00193]アダプタは、核酸断片（例えば、ｓｓＤＮＡ、ＤＮＡ、ＲＮＡ）の一方または両方の末端上に連結することができる。アダプタは、５’末端および／または３’末端上に連結することができる。場合によっては、アダプタは核酸断片の３’末端上に連結される。

[00194]アダプタは、プライマーをアニーリングするためのテンプレートとして作用するシーケンスを含むことができる。アダプタのシーケンスは、ＮＧＳ（大規模並列シーケンシング）プラットフォームに結合するアダプタシーケンス（ＮＧＳアダプタ、例えばフローセルシーケンス）の一部分または全てに対して、少なくとも７０％、８０％、９０％、または１００％相補的なシーケンスを含むことができる。アダプタは、ＮＧＳアダプタの、少なくとも５、６、７、８、９、１０、１１、１２、１３、１４、１５、２０、または２０超過の連続するヌクレオチドに対して相補的または同一のシーケンスを含むことができる。場合によっては、アダプタは、ＮＧＳアダプタ（例えばフローセルシーケンス）の一部分もしくは全てに対して相補的な、または同一のシーケンスを含まない。

[00195]アダプタは５’末端でアデニル化することができる。アダプタは捕獲試薬と錯体を形成することができる、捕獲部分に接合することができる。捕獲部分は、当該分野で知られている任意の手段によって、アダプタオリゴヌクレオチドに接合することができる。捕獲部分／捕獲試薬の対は当該分野で知られている。場合によっては、捕獲試薬は、アビジン、ストレプトアビジン、またはニュートラアビジンであり、捕獲部分はビオチンである。別の場合には、捕獲部分／捕獲試薬の対はジゴキシゲニン／小麦胚細胞凝集素である。

[00196]場合によっては、アダプタは核酸断片に連結される。核酸断片に対するアダプタの連結は、ＡＴＰ依存型リガーゼによってもたらされる。ＡＴＰ依存型リガーゼはＲＮＡリガーゼであることができる。ＲＮＡリガーゼはＡＴＰ依存型リガーゼであることができる。ＲＮＡリガーゼは、Ｒｎｌ１またはＲｎｌ２ファミリーリガーゼであることができる。Ｒｎｌ１ファミリーリガーゼは、ｔＲＮＡの一本鎖切断を修復することができる。例示的なＲｎｌ１ファミリーリガーゼとしては、例えば、Ｔ４ＲＮＡリガーゼ、サーマス・スコトダクタス・バクテリオファージ（Thermus scitoductus bacteriophage）ＴＳ２１２６（サークリガーゼ）由来の熱安定性ＲＮＡリガーゼ１、またはサークリガーゼＩＩが挙げられる。これらのリガーゼは、ヌクレオチド３−ＯＨ求核剤と５’リン酸基の間のホスホジエステル結合のＡＴＰ依存型形成を触媒することができる。Ｒｎｌ２ファミリーリガーゼは二本鎖ＲＮＡのニックを封止することができる。例示的なＲｎｌ２ファミリーリガーゼとしては、例えば、Ｔ４ＲＮＡリガーゼ２が挙げられる。ＲＮＡリガーゼは、古細菌ＲＮＡリガーゼ、例えば、好熱性古細菌メタノバクテリウム属サーモオートトロピカム（ＭｔｈＲｎｌ）由来の古細菌ＲＮＡリガーゼであることができる。

[00197]一本鎖核酸断片に対するアダプタの連結は、核酸断片、アダプタ、およびリガーゼを含む反応混合物を調製することを含むことができる。反応混合物を加熱して、ｓｓＤＮＡ断片に対するアダプタオリゴヌクレオチドの連結をもたらすことができる。反応混合物は、約５０℃、約５５℃、約６０℃、約６５℃、約７０℃、または約７０℃超まで加熱することができる。反応混合物は約６０〜７０℃まで加熱することができる。反応混合物は、核酸フラグメントに対するアダプタの連結をもたらすのに十分な時間、加熱することができる。反応混合物は、約５分、約１０分、約１５分、約２０分、約２５分、約３０分、約３５分、約４０分、約４５分、約５０分、約５５分、約６０分、約７０分、約８０分、約９０分、約１２０分、約１５０分、約１８０分、約２１０分、約２４０分、または約２４０分超にわたって加熱することができる。

[00198]アダプタは、混合物中の核酸断片の濃度よりも高い濃度で反応混合物中に存在することができる。いくつかの実施形態では、アダプタは、混合物中の核酸断片の濃度よりも少なくとも１０％、２０％、３０％、４０％、６０％、６０％、７０％、８０％、９０％、１００％、または１００％超、高い濃度で反応混合物中に存在することができる。アダプタは、混合物中の核酸断片の濃度よりも少なくとも１０倍、１００倍、１０００倍、または１００００倍高い濃度で反応混合物中に存在することができる。アダプタは、少なくとも０．１μＭ、少なくとも０．５μＭ、少なくとも１μＭ、少なくとも１０μＭ、またはそれ以上の最終濃度で存在することができる。リガーゼは、飽和量で反応混合物中に存在することができる。

[00199]それに加えて、反応混合物は、高分子量の不活性分子、例えばＭＷ４０００、６０００、または８０００のＰＥＧを含むことができる。不活性分子は、約０．５％、１％、２％、３％、４％、５％、７．５％、１０％、１２．５％、１５％、１７．５％、２０％、２５％、３０％、３５％、４０％、４５％、５０％、または５０％超の重量／体積の量で存在することができる。いくつかの実施形態では、不活性分子は、約０．５〜２％、約１〜５％、約２〜１５％、約１０〜２０％、約１５〜３０％、約２０〜５０％、または５０％超の重量／体積の量で存在することができる。

[00200]核酸分子（例えば、ｓｓＤＮＡ断片）に対するアダプタの連結をもたらすのに十分な時間の後、未反応のアダプタを、例えば、分子量カットオフによるろ過、サイズ排除クロマトグラフィ、スピンカラムの使用、ポリエチレングリコール（ＰＥＧ）を用いた選択的沈殿、シリカもしくはカルボキシレート上のＰＥＧを用いた選択的沈殿、アルコール沈殿、酢酸ナトリウム沈殿、ＰＥＧおよび塩沈殿、または高厳密性洗浄など、当該分野で知られている任意の手段で除去することができる。

[00201]場合によっては、連結した核酸断片を捕獲することができる。連結した核酸断片の捕獲は、伸長前に、または伸長に続いて行うことができる。連結した核酸断片は固体支持体上に捕獲することができる。捕獲は、アダプタおよび捕獲試薬に接合された捕獲部分を含む錯体の形成を伴う場合がある。捕獲試薬は固体支持体上に不動化することができる。固体支持体は、捕獲部分を含む連結した拡散の量と比較して、余分な捕獲試薬を含むことができる。固体支持体は、捕獲部分を含む連結した拡散断片の総数の５倍、１０倍、または１００倍のさらに利用可能な結合部位を含むことができる。

[00202]場合によっては、例えば、一本鎖アダプタが一本鎖断片（例えば、ｓｓＤＮＡ断片）の３’末端に連結されると、プライマー（例えば、アダプタ特異的なプライマー）が、アダプタを介して、連結された核酸断片に対してハイブリダイズされる。プライマー（例えば、アダプタ特異的なプライマー）は、一本鎖断片の３’末端でアダプタにアニーリングする３’シーケンスを含むことができる。

[00203]プライマー（例えば、アダプタ特異的なプライマー）は、ＮＧＳアダプタシーケンスの一部分または全体を、例えばその５’末端において含むことができる。例示的なＮＧＳアダプタシーケンスについては本明細書に記載する。ハイブリダイズしたプライマーを伸長して、元の核酸断片と伸長プライマーとを含む二本鎖を作成することができ、伸長プライマーは、元の核酸断片および一端にあるＮＧＳアダプタシーケンスの逆相補鎖を含む。例示的なＮＧＳアダプタシーケンスについては本明細書に記載する。いくつかの実施形態では、プライマー中のＮＧＳアダプタシーケンスは、ＮＧＳプラットフォームの表面結合オリゴヌクレオチド（例えば、フローセルシーケンス）に対して、少なくとも７０％、８０％、９０％、または１００％同一であるシーケンスを含む。ＮＧＳアダプタシーケンスは、ＮＧＳプラットフォームの表面結合オリゴヌクレオチド（例えば、フローセルシーケンス）に対して、少なくとも７０％、８０％、９０％、または１００％相補的であるシーケンスを含む。ＮＧＳアダプタシーケンスは、ＮＧＳプラットフォームが使用するシーケンシングプライマーに対して少なくとも７０％、８０％、９０％、または１００％同一であるシーケンスを含むことができる。ＮＧＳアダプタシーケンスは、ＮＧＳプラットフォームが使用するシーケンシングプライマーに対して少なくとも７０％、８０％、９０％、または１００％相補的であるシーケンスを含むことができる。アダプタプライマーの伸長は、校正中温性または高温性ＤＮＡによって影響を及ぼすことができる。ポリメラーゼは、５’−３’外ヌクレオチド鎖分解性／内ヌクレオチド鎖分解性（ＤＮＡポリメラーゼＩ、ＩＩ、ＩＩＩ）、または３’−５’外ヌクレオチド鎖分解性（ファミリーＡもしくはＢＤＮＡポリメラーゼ、ＤＮＡポリメラーゼＩ、Ｔ４ＤＮＡポリメラーゼ）活性を有する、好熱性ポリメラーゼであることができる。場合によっては、ポリメラーゼはエキソヌクレアーゼ活性（Ｔａｑ）を有することができる。ポリメラーゼは、不動化連結断片の線形増幅をもたらして、不動化連結断片の逆相補鎖の複数のコピーを作成することができる。場合によっては、逆相補鎖は、逆相補鎖の１つのコピーのみが作成される。いくつかの実施形態では、伸長プライマー分子は、（例えば、本明細書に記載するような、変性などによって）元の核酸テンプレートから分離される。伸長プライマー分子は溶液中で自由であり、元の核酸テンプレートは固体支持体に対して不動化されたままである。伸長プライマー分子を収穫して、ライブラリ要素がＮＧＳアダプタを備える核酸ライブラリの準備を行うことができる。ライブラリ要素の少なくとも５０％、６０％、７０％、８０％、９０％、９０％超、または実質的に全てがＮＧＳアダプタを含むことができる。

[00204]生体サンプル（例えば、血液、血漿、尿、大便、粘膜サンプル）から単離した核酸（例えば、ＤＮＡまたはＲＮＡ）から、核酸ライブラリを準備する例示的な方法を、以下に提供する。得られた核酸は、酵素的または機械的手段によって、約１００〜約１０００、例えば約１００〜約５００ｂｐの断片に断片化することができる。核酸はインサイチューで断片化することができる。核酸は、ホルマリン固定パラフィン包理（ＦＦＰＥ）組織または循環ＤＮＡから断片化することができる。核酸は、ＦＦＰＥから単離し、キット（Ｑｉａｇｅｎ、Ｃｏｖａｒｉｓ）によって循環させることができる。核酸はＤＮＡであることができる。ＤＮＡは、無作為なサイズのｃＤＮＡを生成するランダムプライム化逆転写（ＲＮａｓｅＨ＋）を使用して、同じサンプルからの生体サンプルから単離された、ＲＮＡから生成されるｃＤＮＡであることができる。核酸はＲＮＡであることができる。断片化ＤＮＡは、塩基切除修復酵素（例えば、ＥｎｄｏＶＩＩＩ、ホルムアミドピリミジンＤＮＡグリコシラーゼ（ＦＰＧ））で処理して、ポリメライゼーションに干渉する可能性がある損傷した塩基を切除することができる。次に、ＤＮＡを、校正ポリメラーゼ（例えば、Ｔ４ＤＮＡポリメラーゼ）で処理して、末端を研磨し、損傷したヌクレオチド（例えば、無塩基部位）を置換することができる。いくつかの実施形態では、ＤＮＡは、末端を研磨し、損傷したヌクレオチドを置換するために、校正ポリメラーゼで処理されない。

[00205]核酸（例えば、ＤＮＡまたはＲＮＡ）を、易熱性ホスファターゼで処理して、リン酸基を核酸から除去することができる。反応混合物を８０℃まで１０分間加熱して、ホスファターゼおよびポリメラーゼを不活性化し、二本鎖ＤＮＡを一本鎖に変性することができる。

[00206]化学的または酵素的にリン酸化したアダプタは、３’末端親和性タグ（例えば、ビオチン）を有するか否かにかかわらず、例えば、平均分子量４０００、６０００、または８０００のポリエチレングリコール１０〜２０％（ｗ／ｖ）の存在下で、飽和量のＡＴＰ依存型ＲＮＡリガーゼ（例えば、Ｔ４ＲＮＡリガーゼ、サークリガーゼ、サークリガーゼＩＩなどの好熱性）を含む最終濃度０．５μＭ以上で、長さ約１２〜約１５塩基を断片化した一本鎖核酸の３’末端に連結することができる。反応は、約６０〜約７０℃で１時間温置することができる。アダプタは、（ｉ）Ｉｌｌｕｍｉｎａフローセルクラスタ形成のための表面結合オリゴヌクレオチドに対応するシーケンスの全てもしくは一部を含むか、または全く含まず、（ｉｉ）親和性リガンドと結合受容体との相互作用の立体障害を最小限に抑える十分な距離（例えば、１０原子以上）で、オリゴヌクレオチドにリンクされる連結反応に関与することができない３’末端親和性基を含む。

[00207]アダプタは、当該分野で知られている任意の手段によってアデニル化される。アデニル化アダプタが使用される場合、いくつかの実施形態では、ＡＴＰ依存型ＲＮＡリガーゼはサークリガーゼまたはサークリガーゼＩＩではない。場合によっては、ＡＴＰ依存型ＲＮＡリガーゼは不要である。反応は、未反応のアダプタを除去するため、サイズによって精製することができる。精製は、（例えば、マイクロコンＹＭ−１０もしくはＹＭ３、またはナノセップオメガ）１０Ｋまたは３Ｋの分子サイズカットオフを用いる精密ろ過ユニットの使用によって達成することができる。アダプタ除去は、例えば１０Ｋ以下のサイズ排除カットオフを用いる、サイズ排除脱塩カラム（アガロース、ポリアクリルアミド）を通過させることによって、スピンカラムの使用によって、ＰＥＧ、アルコール、または塩を用いた選択的沈殿によって、高厳密性洗浄で、または変性ゲル電気泳動によって達成することができる。

[00208]３’末端でアダプタを完全に相補するかまたは部分的に相補するオリゴヌクレオチドプライマーは、Ｉｌｌｕｍｉｎａフローセルオリゴヌクレオチドなど、フローセル上のシーケンスに対応するシーケンスを含むことができ、校正中温性ＤＮＡポリメラーゼを使用して、結合ライブラリの逆相補鎖を作成するために使用することができる。５’−３’外ヌクレオチド鎖分解性／内ヌクレオチド鎖分解性（例えば、ファミリーＡＤＮＡポリメラーゼ、例えばＤＮＡポリメラーゼＩ）、または３’−５’外ヌクレオチド鎖分解性（例えば、ファミリーＢＤＮＡポリメラーゼ、Ｖｅｎｔ、Ｐｈｕｓｉｏｎ、Ｐｆｕ、およびそれらの変異体）活性を有する好熱性ポリメラーゼを使用して、ライブラリの線形増幅を可能にすることができる。

[00209]場合によっては、次に、回収した材料を、バッチモードで３’末端親和性タグに結合することができる、親和性樹脂または支持体に結合させることができる。回収した材料は、タグ付きアダプタ分子の総数の少なくとも１０倍の余分な、または１００倍のさらに利用可能な結合部位を含む、０．２ｍｌチューブ内の事前洗浄した支持体に入れることができる。

[00210]結合ライブラリのコピーから成る浮遊物を収穫し定量化することができる。
[00211]一例では、ｄｓＤＮＡは断片化される。ｄｓＤＮＡ断片をリン酸化させ、熱変性させて一本鎖とすることができる。プライマードッキングシーケンスを含むビオチン標識したアダプタを、核酸断片と接触させることができる。アダプタをｓｓＤＮＡ断片の３’末端に連結させて、ライブラリ要素の前駆体を作成することができる。アダプタに対して相補的なシーケンスおよび追加のアダプタシーケンス（例えば、プライマーの５’末端）を含むプライマーを、連結されたアダプタを介してｓｓＤＮＡに対してハイブリダイズすることができる。ハイブリダイズしたプライマーは、テンプレートｓｓＤＮＡ断片に沿って伸長して、二本鎖を作成することができる。二本鎖は、固体支持体（例えば、ストレプトアビジンをコーティングしたビーズ）上に不動化することができる。熱変性は、元のｓｓＤＮＡ断片をビーズ上で保持した状態で、最終ライブラリ要素を溶液に放出することができる。

[00212]Ｇ．ｓｓＤＮＡライブラリの準備（断片の両端に対するアダプタの付着）
[00213]本明細書では、ｄｓＤＮＡ断片をｓｓＤＮＡに変性し、ｓｓＤＮＡ分子の両端にアダプタシーケンスを連結することを含む、ｓｓＤＮＡライブラリを準備する方法、組成物、およびキットを提供する。ｄｓＤＮＡを断片化する方法を本明細書に記載する。ｄｓＤＮＡ断片を変性する方法を本明細書に記載する。

[00214]方法は、第１の表面結合オリゴヌクレオチド（例えば、シーケンシング機器フローセルオリゴヌクレオチド）に対して、少なくとも７０％、８０％、９０％、もしくは１００％相補的または同一であるシーケンスを含む、第１のアダプタを連結することを含むことができる。第１の表面結合オリゴヌクレオチドは、ＮＧＳプラットフォーム特異的な表面結合オリゴヌクレオチドであることができる。第１のアダプタは、表面結合オリゴヌクレオチドの少なくとも５、６、７、８、９、１０、１１、１２、１３、１４、１５、２０、または２０超過の連続するヌクレオチドに対して相補的または同一のシーケンスを含むことができる。第１のアダプタは、第１のシーケンシングプライマーに対して少なくとも７０％、８０％、９０％、または１００％相補的なシーケンスをさらに含むことができる。第１のアダプタは、本明細書に記載の方法または当該分野で知られている任意の方法を使用して、ｓｓＤＮＡ断片の３’末端に連結することができる。ｓｓＤＮＡ断片は、５’リン酸基が欠落している場合がある。第１のアダプタは、ＡＴＰ依存型リガーゼによって、ｓｓＤＮＡ断片の３’末端に連結することができる。第１のアダプタは、３’末端ブロッキング基を含むことができる。３’末端ブロッキング基は、３’末端塩基と別のヌクレオチドとの間で共有結合が形成されるのを防ぐことができる。３’末端ブロッキング基は、ジデオキシ−ｄＮＴＰまたはビオチンであることができる。第１のアダプタは５’アデニル化することができる。第１のアダプタは、本明細書に記載するように、ＲＮＡリガーゼによってｓｓＤＮＡ断片の３’末端に連結することができる。ＲＮＡリガーゼは、Ｔ４もしくはＭｔｈから切断または変異したＲＮＡリガーゼであることができる。方法は、第２のアダプタシーケンスをｓｓＤＮＡ断片の５’末端に連結することをさらに含むことができる。第２のアダプタシーケンスは第１のアダプタシーケンスとは別個であることができる。第２のアダプタシーケンスは、第２の表面結合オリゴヌクレオチドに対して少なくとも７０％相補的なシーケンスを含むことができる。第２の表面結合オリゴヌクレオチドは、ＮＧＳプラットフォーム特異的な表面結合オリゴヌクレオチドであることができる。第２のアダプタは、表面結合オリゴヌクレオチドの少なくとも５、６、７、８、９、１０、１１、１２、１３、１４、１５、２０、または２０超過の連続するヌクレオチドに対して相補的または同一のシーケンスを含むことができる。第２のアダプタは、第２のシーケンシングプライマーに対して少なくとも７０％、８０％、９０％、または１００％相補的なシーケンスをさらに含むことができる。第２のアダプタは、ＲＮＡリガーゼ、例えば、本明細書に記載するようなサークリガーゼを使用して、ｓｓＤＮＡ断片に連結することができる。第１および第２のアダプタは両方とも、第１および第２の表面結合オリゴヌクレオチドに対して少なくとも７０％、８０％、９０％、または１００％相補的である。第１および第２のアダプタは両方とも、第１および第２の表面結合オリゴヌクレオチドに対して少なくとも７０％、８０％、９０％、または１００％同一である。

[00215]本明細書に記載の方法を使用して作られるｓｓＤＮＡライブラリは、全ゲノムシーケンシングまたは標的シーケンシングに使用することができる。いくつかの実施形態では、本明細書に記載の方法を使用して作られるｓｓＤＮＡライブラリは、シーケンシングの前に対象の標的ポリヌクレオチドのために濃縮される。

[00216]Ｈ．ｓｓＤＮＡライブラリの形成：標的特異的なライブラリの濃縮
[00217]本明細書では、標的濃縮核酸ライブラリを作成する方法、組成物、およびキットを提供する。方法は、標的選択的オリゴヌクレオチド（ＴＳＯ）を一本鎖ＤＮＡ（ｓｓＤＮＡ）断片にハイブリダイズして、ハイブリダイゼーション生成物を作成し、伸長して伸長ストランドを作成することを伴うことができる。

[00218]標的濃縮の方法は、参照により本明細書に援用する、米国特許出願公開第２０１２０１５７３２２号に記載されているようなものであることができる。
[00219]ハイブリダイズおよび増幅は反応混合物中で起こり得る。「反応混合物」という用語は、本明細書で使用するとき、核酸テンプレート分子からの少なくとも１つの単位複製配列を増幅する構成成分の混合物を指すことができる。混合物は、ヌクレオチド（ｄＮＴＰ）、ポリメラーゼ、および標的選択的オリゴヌクレオチドを含むことができる。混合物は、複数の標的選択的オリゴヌクレオチドを含むことができる。混合物は、Ｔｒｉｓバッファ、一価塩、およびＭｇ２＋をさらに含むことができる。各構成成分の濃度は、当業者によってさらに最適化することができる。反応混合物はまた、非特異的な背景／ブロッキング核酸（例えば、サケ精子ＤＮＡ）、バイオプリザバティブ（例えば、アジ化ナトリウム）、ＰＣＲエンハンサー（例えば、ベタイン、トレハロースなど）、および阻害剤（例えば、ＲＮＡｓｅ阻害剤）を含むがそれらに限定されない、添加剤を含むことができる。核酸サンプル（例えば、ｓｓＤＮＡ断片を含むサンプル）は、反応混合物と混和することができる。反応混合物は、核酸サンプルをさらに含むことができる。

[00220]ｓｓＤＮＡ断片は、ｓｓＤＮＡライブラリの要素であることができる。ｓｓＤＮＡライブラリは、本明細書に記載する方法を使用して作成することができる。ｓｓＤＮＡ断片は、第１の末端にあるが第２の末端にはない、第１の一本鎖アダプタシーケンスを含むことができる。第１の末端は５’末端であることができる。ＴＳＯは、第１の末端にあるが第２の末端にはない第２の一本鎖アダプタシーケンスを含むことができる。第１の末端は５’末端であることができる。第１のアダプタシーケンスは、第１の表面結合オリゴヌクレオチド（例えば、フローセルオリゴヌクレオチド）に対して、少なくとも７０％、８０％、９０％、もしくは１００％相補的または同一であるシーケンスを含むことができる。第１のアダプタシーケンスは、シーケンシングプライマーに対して少なくとも７０％、８０％、９０％、もしくは１００％相補的または同一であるシーケンスを含むことができる。第１のアダプタはバーコードシーケンスを含むことができる。第２のアダプタは、第２の表面結合オリゴヌクレオチド（例えば、フローセルオリゴヌクレオチド）に対して、少なくとも７０％、８０％、９０％、または１００％同一であるシーケンスを含むことができる。第２のアダプタシーケンスは、シーケンシングプライマーに対して少なくとも７０％、８０％、９０％、または１００％同一であるシーケンスをさらに含むことができる。

[00221]標的選択的オリゴヌクレオチド（ＴＳＯ）は、対象の標的ポリヌクレオチドに対して少なくとも部分的にハイブリダイズするように設計することができる。ＴＳＯは、標的ポリヌクレオチドに対して選択的にハイブリダイズするように設計することができる。ＴＳＯは、標的ポリヌクレオチド中のシーケンスに対して少なくとも約７０％、７５％、８０％、８５％、９０％、９５％、または９５％超相補的であることができる。ＴＳＯは、標的ポリヌクレオチド中のシーケンスに対して１００％相補的であることができる。ハイブリダイゼーションは、Ｔｍを含むＴＳＯ／標的二本鎖をもたらすことができる。ＴＳＯ／標的二本鎖のＴｍは、０〜約１００℃、約２０〜約９０℃、約４０〜約８０℃、約５０〜約７０℃、約５５〜約６５℃、または約６２〜約６８℃であることができる。ＴＳＯは、ポリメラーゼの存在下で伸長生成物の合成をプライミングするのに十分な長さであることができる。ＴＳＯの正確な長さおよび組成は、アニーリング反応の温度、プライマーのソースおよび組成、ならびにプライマーとプローブの濃度比を含む、多くの因子に応じて変わり得る。ＴＳＯは、例えば、長さ約８〜約５０ｎｔ、約１０〜約４０ｎｔ、約１２〜約２４ｎｔであることができる。ＴＳＯは長さ約４０ｎｔであることができる。場合によっては、標的シーケンスを結合するＴＳＯの部分は、約１０〜約５０ｎｔ、約２０〜約５０ｎｔ、約２５〜約４０ｎｔ、約３０〜約４０ｎｔ、または約３５〜約４０ｎｔである。

[00222]標的シーケンスにアニーリングされたＴＳＯは伸長することができる。核酸ポリメラーゼを利用して増幅を実施することができる。核酸ポリメラーゼはＤＮＡポリメラーゼであることができる。ＤＮＡポリメラーゼは熱安定性ＤＮＡポリメラーゼであることができる。ポリメラーゼは、ＡもしくはＢファミリーＤＮＡ校正ポリメラーゼ（Ｖｅｎｔ、Ｐｆｕ、Ｐｈｕｓｉｏｎ、およびそれらの変異体）の要素、ＤＮＡポリメラーゼホロ酵素（ＤＮＡポルＩＩＩホロ酵素）、Ｔａｑポリメラーゼ、またはそれらの組み合わせであることができる。

[00223]伸長は、変性ステップ、プライマーアニーリングステップ、および合成ステップを通してテンプレートＤＮＡを含む反応混合物を循環させる、自動化プロセスとして実施することができる。自動化プロセスは、ＰＣＲ熱サイクラーを使用して実施することができる。市販の熱サイクラーシステムとしては、中でも特に、Ｂｉｏ−ＲａｄＬａｂｏｒａｔｏｒｉｅｓ、Ｌｉｆｅｔｅｃｈｎｏｌｏｇｉｅｓ、Ｐｅｒｋｉｎ−Ｅｌｍｅｒからのシステムが挙げられる。

[00224]標的シーケンスにアニーリングされたＴＳＯを伸長して、第２のアダプタシーケンス、標的シーケンスの逆相補鎖、および第１のアダプタシーケンスの逆相補鎖を含む伸長鎖を含む、伸長生成物を生成することができる。元のｓｓＤＮＡ断片の第１のアダプタシーケンスが、第１の表面結合オリゴヌクレオチドに対して７０％以上同一であった場合、伸長鎖は、第１の表面結合オリゴヌクレオチドに対して７０％以上相補的である第１のアダプタシーケンスを含むことができ、第１の表面結合オリゴヌクレオチド（例えば、フローセルオリゴヌクレオチド）に対してハイブリダイズすることができる。伸長鎖は標的濃縮ライブラリを含むことができる。

[00225]反応混合物中の標的シーケンスにアニーリングされた伸長生成物を変性することができる。場合によっては、伸長鎖には、大規模並列シーケンシング機器または他の用途で使用する前に、増幅が、例えばポリメラーゼ鎖反応が行われる。場合によっては、伸長鎖は、大規模並列シーケンシング機器または他の用途で使用する前は、増幅されない（例えば、ＰＣＲなどを使用して、溶液中で増幅される）。場合によっては、伸長鎖には、大規模並列シーケンシング機器で使用する前に、例えば溶液中で、約５〜約５０サイクル、約５〜約４０サイクル、約５〜約３０サイクル、約５〜約２５サイクル、約５〜約２０サイクル、または約５〜約１５サイクル、ＰＣＲが行われる。場合によっては、伸長鎖は、大規模並列シーケンシング機器で使用する前に、例えば溶液中で、４０サイクル未満、３０サイクル未満、２５サイクル未満、２０サイクル未満、１５サイクル未満、１４サイクル未満、１３サイクル未満、１２サイクル未満、１１サイクル未満、または１０サイクル未満、増幅が、例えばＰＣＲが行われる。伸長鎖は、大規模並列シーケンシング機器で使用する前に、例えば溶液中で、約５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、または２０サイクル、例えばＰＣＲによって増幅することができる。増幅は、第１のアダプタシーケンスの相補鎖にアニーリングする第１のプライマー（例えば、標的シーケンスの５’末端にアダプタシーケンスと同一のシーケンスを有するプライマー）と、第２のアダプタシーケンスの相補鎖にアニーリングする第２のプライマー（例えば、ＴＳＯの５’末端に第２のアダプタシーケンスと同一のシーケンスを有するプライマー）とを用いて実施することができる。

[00226]変性した伸長生成物、および／またはそれを増幅したものを、少なくとも第１の表面結合オリゴヌクレオチド（例えば、フローセルシーケンス）を用いて、生成物上で不動化された表面と接触させることができる。伸長鎖は、伸長鎖上の第１のアダプタシーケンスに対してアニーリングすることができる、第１の表面結合オリゴヌクレオチド（例えば、フローセルオリゴヌクレオチド）によって捕獲することができる。

[00227]第１の表面結合オリゴヌクレオチドは、捕獲された伸長鎖の伸長をプライミングすることができる。捕獲された伸長鎖の伸長によって、捕獲した伸長生成物をもたらすことができる。捕獲された伸長生成物は、第１の表面結合オリゴヌクレオチドと、標的シーケンスと、第２の表面結合オリゴヌクレオチドに対して少なくとも７０％、８０％、９０％、または１００％以上相補的な第２のアダプタシーケンスの相補鎖とを含むことができる。

[00228]捕獲された伸長生成物は、第２の表面結合オリゴヌクレオチドにハイブリダイズして、ブリッジを形成することができる。いくつかの実施形態では、ブリッジはブリッジＰＣＲによって増幅される。ブリッジＰＣＲ方法は、当該分野で知られている方法を使用して実施することができる。

[00229]Ｉ．ライブラリの準備および標的濃縮のためのキット
[00230]本明細書に記載するようなライブラリの準備または本明細書に記載するような標的濃縮の方法を実施するためのキットも提供する。

[00231]キットは、ｄｓＤＮＡの修復および化学変性のための試薬を含むことができる。キットは、一本鎖ＤＮＡの精製のための試薬を含むことができる。キットは、損傷した塩基を切除するための１つ以上の酵素を含むことができる。キットはホスファターゼを含むことができる。キットはキナーゼを含むことができる。キットは、ＤＮＡ断片の３’末端をブロックするターミナルトランスフェラーゼおよびジデオキシヌクレオチドを含むことができる。

[00232]本明細書では、ｓｓＤＮＡライブラリを準備するためのキットを提供する。キットは、例えば本明細書に記載するような、アダプタを含む。キットは、命令、例えばアダプタをｓｓＤＮＡ断片に連結する命令を含むことができる。キットはリガーゼをさらに含むことができる。リガーゼは、Ｒｎｌ１またはＲｎｌ２ファミリーリガーゼであることができる。キットは、アダプタにハイブリダイズすることができるプライマーをさらに含むことができる。アダプタに対してハイブリダイズ可能なプライマーについては、本明細書に記載する。キットは、固体支持体、例えば、捕獲試薬の上に不動化されたビーズを提供することができる。キットは、伸長反応を起こすポリメラーゼを提供することができる。キットは、伸長反応を起こすｄＮＴＰを提供することができる。

[00233]キットは、シーケンシングプラットフォームに結合された第１の支持結合オリゴヌクレオチドに対して少なくとも７０％、８０％、９０％、または１００％相補的または同一であるシーケンスを含む、第１のアダプタオリゴヌクレオチドと、第１のアダプタとは別個のシーケンスを含む第２のアダプタオリゴヌクレオチドと、ＲＮＡリガーゼと、使用のための説明とを含むことができる。第１のアダプタは、３’末端塩基と別のヌクレオチドとの間で共有結合が形成されるのを防ぐ、３’末端ブロッキング基を含むことができる。３’末端ブロッキング基については本明細書に記載する。第１のアダプタは５’アデニル化することができる。第１のアダプタは、シーケンシングプライマーに対して少なくとも７０％、８０％、９０％、もしくは１００％相補的または同一であるシーケンスを含むことができる。第２のアダプタは、シーケンシングプライマーに対して少なくとも７０％、８０％、９０％、もしくは１００％相補的または同一であるシーケンスを含むことができる。第２のアダプタは、シーケンシングプラットフォームに結合された第２の表面結合オリゴヌクレオチドに対して、少なくとも７０％、８０％、９０％、または１００％相補的であるシーケンスを含むことができる。

[00234]また、標的濃縮ＤＮＡライブラリを準備するためのキットが提供される。キットは、アダプタ、リガーゼ、標的特異的なシーケンスに対してハイブリダイズ可能なプライマー、捕獲試薬を含む固体支持体、ポリメラーゼ、ｄＮＴＰ、またはそれらの任意の組み合わせを含むことができる。ＴＳＯは、参照により本明細書に援用する、米国特許出願公開第２０１２０１５７３２２号に記載されているような、溶液中で自由であるか、またはＮＧＳプラットフォーム上でシーケンシングのために結合された固体支持体上で不動化することができる。

[00235]本明細書で提供するキットは、パッケージング材料を含むことができる。「パッケージング材料」という用語は、キットの構成要素を収容する物理的構造を指すことができる。パッケージング材料は、キットの構成要素の滅菌性を維持することができ、かかる目的で一般に使用される材料（例えば、紙、波形繊維、ガラス、プラスチック、フォイル、アンプルなど）で作ることができる。キットはまた、緩衝剤、防腐剤、またはタンパク質／核酸安定化剤を含むことができる。

[00236]本明細書で提供する開示は、当該分野内にある分子生物学の技術、微生物学の技術、および組換えＤＮＡ技術を採用することを含むことができる。例えば、Ｓａｍｂｒｏｏｋ，Ｆｒｉｔｓｃｈ＆Ｍａｎｉａｔｉｓ，ＭｏｌｅｃｕｌａｒＣｌｏｎｉｎｇ：ＡＬａｂｏｒａｔｏｒｙＭａｎｕａｌ，ＦｏｕｒｔｈＥｄｉｔｉｏｎ（２０１２）；ＯｌｉｇｏｎｕｃｌｅｏｔｉｄｅＳｙｎｔｈｅｓｉｓ（Ｍ．Ｊ．Ｇａｉｔ，ｅｄ．，１９８４）；ＮｕｃｌｅｉｃＡｃｉｄＨｙｂｒｉｄｉｚａｔｉｏｎ（Ｂ．Ｄ．Ｈａｍｅｓ＆Ｓ．Ｊ．Ｈｉｇｇｉｎｓ，ｅｄｓ．，１９８４）；ＡＰｒａｃｔｉｃａｌＧｕｉｄｅｔｏＭｏｌｅｃｕｌａｒＣｌｏｎｉｎｇ（Ｂ．Ｐｅｒｂａｌ，１９８４）；およびＭｅｔｈｏｄｓｉｎＥｎｚｙｍｏｌｏｇｙシリーズ（ＡｃａｄｅｍｉｃＰｒｅｓｓ，Ｉｎｃ．）を参照のこと。本明細書で上記および下記の両方において言及する全ての特許、特許出願、および刊行物を、参照により本明細書に援用する。
ＩＸ．患者モニタリング
[00237]本明細書で提供するコンピューティングシステム、ソフトウェア媒体、方法、およびキットを、患者のモニタリング、例えば縦断的アッセイに使用することができる。方法は、初発腫瘍サンプル、例えばホルマリン固定パラフィン包理（ＦＦＰＥ）サンプル、細針吸引（ＦＮＡ）生検、コア針生検（ＣＮＢ）、および／または無細胞サンプル（例えば、無細胞血漿サンプル）からの、１つ以上の遺伝子のシーケンシング、例えば大規模並列シーケンシング（次世代シーケンシング）を含むことができる。初期サンプルは、被験者ががん治療を受ける前に被験者から得たサンプルであることができる。血漿を初期サンプルとして使用した場合、サンプルから使用されるＤＮＡの量は、ＤＮＡ約１ｎｇであることができる。血漿を初期サンプルとして使用した場合、血漿の量は約３ｍＬであることができる。場合によっては、固形腫瘍サンプル（例えば、ＦＦＰＥサンプル、ＦＮＡサンプル、またはＣＮＢサンプル）のみがシーケンシングのために、被験者ががん治療を受ける前に被験者から得られ、サンプルからの核酸がシーケンシングされる。場合によっては、流体サンプル（例えば、血漿）のみがシーケンシングのために、被験者ががん治療を受ける前に被験者から得られ、核酸は流体（例えば、血漿）サンプルからシーケンシングされる。場合によっては、固形腫瘍サンプルおよび流体サンプル（例えば、血漿）の両方がシーケンシングのために、被験者ががん治療を受ける前に被験者から得られ、核酸は、固形腫瘍サンプルおよび流体（例えば、血漿）サンプルからシーケンシングされる。被験者ががん治療を受ける前に得た、固形腫瘍サンプルおよび流体サンプルからのシーケンシングデータを、比較することができる。場合によっては、被験者ががん治療を受ける前に得た、固形腫瘍サンプルおよび流体サンプルからのシーケンシングデータは比較されない。

[00238]サンプル（例えば、初期サンプル）中でシーケンシングされる遺伝子の数は、およそまたは少なくとも１、５、１０、２０、３０、４０、５０、６０、７０、８０、９０、９６、１００、１１０、１２０、１２９、１３０、１４０、１５０、１６０、１７０、１８０、１９０、２００、３００、４００、５００、６００、７００、８００、９００、またはそれ以上の遺伝子であることができる。シーケンシングは、修正臨床検査室改善法（ＣＬＩＡ）認可済みの実験室、および／または米国病理医協会（ＣＡＰ）認可済みの実験室で行うことができる。シーケンシングデータの解析（例えば、バイオインフォマティックス）は、ＣＬＩＡおよび／またはＣＡＰ認可済みの実験室で行うことができる。シーケンシングした遺伝子は、以下のうち１つ以上であることができる。ＡＢＣＡ１、ＢＲＡＦ、ＣＨＤ５、ＥＰ３００、ＦＬＴ１、ＩＴＰＡ、ＭＹＣ、ＰＩＫ３Ｒ１、ＳＫＰ２、ＴＰ５３、ＡＢＣＡ７、ＢＲＣＡ１、ＣＨＥＫ１、ＥＰＨＡ３、ＦＬＴ３、ＪＡＫ１、ＭＹＣＬ１、ＰＩＫ３Ｒ２、ＳＬＣ１９Ａ１、ＴＰ７３、ＡＢＣＢ１、ＢＲＣＡ２、ＣＨＥＫ２、ＥＰＨＡ５、ＦＬＴ４、ＪＡＫ２、ＭＹＣＮ、ＰＫＨＤ１、ＳＬＣ１Ａ６、ＴＰＭ３、ＡＢＣＣ２、ＢＲＩＰ１、ＣＬＴＣ、ＥＰＨＡ６、ＦＮ１、ＪＡＫ３、ＭＹＨ２、ＰＬＣＢ１、ＳＬＣ２２Ａ２、ＴＰＭＴ、ＡＢＣＣ３、ＢＵＢ１Ｂ、ＣＯＬ１Ａ１、ＥＰＨＡ７、ＦＯＳ、ＪＵＮ、ＭＹＨ９、ＰＬＣＧ１、ＳＬＣＯ１Ｂ３、ＴＰＯ、ＡＢＣＣ４、Ｃｌｏｒｆ１４４、ＣＯＰＳ５、ＥＰＨＡ８、ＦＯＸＯ１、ＫＢＴＢＤ１１、ＮＡＶ３、ＰＬＣＧ２、ＳＭＡＤ２、ＴＰＲ、ＡＢＣＧ２、ＣＡＢＬＥＳ１、ＣＲＥＢ１、ＥＰＨＢ１、ＦＯＸＯ３、ＫＤＭ６Ａ、ＮＢＮ、ＰＭＬ、ＳＭＡＤ３、ＴＲ１０、ＡＢＬ１、ＣＡＣＮＡ２Ｄ１、ＣＲＥＢＢＰ、ＥＰＨＢ４、ＦＯＸＰ４、ＫＤＲ、ＮＣＯＡ２、ＰＭＳ２、ＳＭＡＤ４、ＴＲＲＡＰ、ＡＢＬ２、ＣＡＭＫＶ、ＣＲＫＬ、ＥＰＨＢ６、ＧＡＢ１、ＫＩＴ、ＮＥＫ１１、ＰＰＡＲＧ、ＳＭＡＲＣＡ４、ＴＳＣ１、ＡＣＶＲ１Ｂ、ＣＡＲＤ１１、ＣＲＬＦ２、ＥＰＯ、ＧＡＴＡ１、ＫＬＦ６、ＮＦ１、ＰＰＡＲＧＣ１Ａ、ＳＭＡＲＣＢ１、ＴＳＣ２、ＡＣＶＲ２Ａ、ＣＡＲＭ１、ＣＳＦ１Ｒ、ＥＲＢＢ２、ＧＬＩ１、ＫＬＨＤＣ４、ＮＦ２、ＰＰＰ１Ｒ３Ａ、ＳＭＯ、ＴＴＫ、ＡＤＣＹ９、ＣＡＶ１、ＣＳＭＤ３、ＥＲＢＢ３、ＧＬＩ３、ＫＲＡＳ、ＮＫＸ２-１、ＰＰＰ２Ｒ１Ａ、ＳＯＣＳ１、ＴＹＫ２、ＡＧＡＰ２、ＣＢＦＡ２Ｔ３、ＣＳＮＫ１Ｇ２、ＥＲＢＢ４、ＧＮＡ１１、ＬＭＯ２、ＮＯＳ２、ＰＰＰ２Ｒ１Ｂ、ＳＯＤ２、ＴＹＭＳ、ＡＫＴ１、ＣＢＬ、ＣＴＮＮＡ１、ＥＲＣＣ１、ＧＮＡＱ、ＬＲＰ１Ｂ、ＮＯＳ３、ＰＲＫＡＡ２、ＳＯＳ１、ＵＧＴ１Ａ１、ＡＫＴ２、ＣＣＮＤ１、ＣＴＮＮＡ２、ＥＲＣＣ２、ＧＮＡＳ、ＬＲＰ２、ＮＯＴＣＨ１、ＰＲＫＣＡ、ＳＯＸ１０、ＵＭＰＳ、ＡＫＴ３、ＣＣＮＤ２、ＣＴＮＮＢ１、ＥＲＣＣ３、ＧＰＲ１２４、ＬＲＰ６、ＮＯＴＣＨ２、ＰＲＫＣＺ、ＳＯＸ２、ＵＳＰ９Ｘ、ＡＬＫ、ＣＣＮＤ３、ＣＹＦＩＰ１、ＥＲＣＣ４、ＧＰＲ１３３、ＬＴＫ、ＮＯＴＣＨ３、ＰＲＫＤＣ、ＳＰ１、ＶＥＧＦ、ＡＮＡＰＣ５、ＣＣＮＥ１、ＣＹＬＤ、ＥＲＣＣ５、ＧＲＢ２、ＭＡＢ１Ｂ１、ＮＰＭ１、ＰＴＣＨ１、ＳＰＲＹ２、ＶＥＧＦＡ、ＡＰＣ、ＣＤ４０ＬＧ、ＣＹＰ１９Ａ１、ＥＲＣＣ６、ＧＳＫ３Ｂ、ＭＡＰ２Ｋ１、ＮＱＯ１、ＰＴＣＨ２、ＳＲＣ、ＶＨＬ、ＡＰＣ２、ＣＤ４４、ＣＹＰ１Ｂ１、ＥＲＧ、ＧＳＴＰ１、ＭＡＰ２Ｋ２、ＮＲ３Ｃｌ、ＰＴＥＮ、ＳＴ６ＧＡＬ２、ＷＲＮ、ＡＲ、ＣＤ７９Ａ、ＣＹＰ２Ｃ１９、ＥＲＮ２、ＧＵＣＹ１Ａ２、ＭＡＰ２Ｋ４、ＮＲＡＳ、ＰＴＧＳ２、ＳＴＡＴ１、ＷＴ１、ＡＲＡＦ、ＣＤ７９Ｂ、ＣＹＰ２Ｃ８、ＥＳＲ１、ＨＤＡＣ１、ＭＡＰ２Ｋ７、ＮＲＰ２、ＰＴＰＮ１１、ＳＴＡＴ３、ＸＰＡ、ＡＲＦＲＰ１、ＣＤＣ４２、ＣＹＰ２Ｄ６、ＥＳＲ２、ＨＤＡＣ２、ＭＡＰ３Ｋ１、ＮＴＲＫ１、ＰＴＰＲＢ、ＳＴＫ１１、ＸＰＣ、ＡＲＩＤ１Ａ、ＣＤＣ４２ＢＰＢ、ＣＹＰ３Ａ４、ＥＴＶ４、ＨＧＦ、ＭＡＰＫ１、ＮＴＲＫ２、ＰＴＰＲＤ、ＳＵＦＵ、ＺＦＹ、ＡＴＭ、ＣＤＣ７３、ＣＹＰ３Ａ５、ＥＷＳＲ１、ＨＩＦ１Ａ、ＭＡＰＫ３、ＮＴＲＫ３、ＲＡＤ５０、ＳＵＬＴ１Ａ１、ＺＮＦ５２１、ＡＴＰ５Ａ１、ＣＤＨ１、ＤＡＣＨ２、ＥＸＴ１、ＨＭ１３、ＭＡＰＫ８、ＯＭＡ１、ＲＡＤ５１、ＳＵＺ１２、ＡＴＲ、ＣＤＨ１０、ＤＣＣ、ＥＺＨ２、ＨＭＧＡ１、ＭＡＲＫ３、ＯＲ１０Ｒ２、ＲＡＦＴ、ＴＡＦ１、ＡＵＲＫＡ、ＣＤＨ２、ＤＣＬＫ３、ＦＡＮＣＡ、ＨＮＦ１Ａ、ＭＣＬ１、ＰＡＫ３、ＲＡＲＡ、ＴＢＸ２２、ＡＵＲＫＢ、ＣＤＨ２Ｏ、ＤＤＢ２、ＦＡＮＣＤ２、ＨＯＸＡ３、ＭＤＭ２、ＰＡＲＰ１、ＲＢ１、ＴＣＦ１２、ＢＡＩ３、ＣＤＨ５、ＤＤＢ２、ＦＡＮＣＥ、ＨＯＸＡ９、ＭＤＭ４、ＰＡＸ５、ＲＥＭ１、ＴＣＦ３、ＢＡＰ１、ＣＤＫ２、ＤＧＫＢ、ＦＡＮＣＦ、ＨＲＡＳ、ＭＥＣＯＭ、ＰＣＤＨ１５、ＲＥＴ、ＴＣＦ４、ＢＡＲＤ１、ＣＤＫ４、ＤＧＫＺ、ＦＡＳ、ＨＳＰ９０ＡＡ１、ＭＥＮ１、ＰＣＤＨ１８、ＲＩＣＴＯＲ、ＴＥＫ、ＢＡＸ、ＣＤＫ６、ＤＩＲＡＳ３、ＦＢＸＷ７、ＩＤＨ１、ＭＥＴ、ＰＣＮＡ、ＲＩＰＫ１、ＴＥＰ１、ＢＣＬ１１Ａ、ＣＤＫ７、ＤＬＧ３、ＦＣＧＲ３Ａ、ＩＤＨ２、ＭＩＴＦ、ＰＤＧＦＡ、ＲＯＲ１、ＴＥＲＴ、ＢＣＬ２、ＣＤＫ８、ＤＬＬ１、ＦＥＳ、ＩＦＮＧ、ＭＬＨ１、ＰＤＧＦＢ、ＲＯＲ２、ＴＥＴ２、ＢＣＬ２Ａ１、ＣＤＫＮ１Ａ、ＤＮＭＴ１、ＦＧＦＲ１、ＩＧＦ１Ｒ、ＭＬＬ、ＰＤＧＦＲＡ、ＲＯＳ１、ＴＧＦＢＲ２、ＢＣＬ２Ｌ１、ＣＤＫＮ１Ｂ、ＤＮＭＴ３Ａ、ＦＧＦＲ２、ＩＧＦ２Ｒ、ＭＬＬ３、ＰＤＧＦＲＢ、ＲＰＳ６ＫＡ２、ＴＨＢＳ１、ＢＣＬ２Ｌ２、ＣＤＫＮ２Ａ、ＤＮＭＴ３Ｂ、ＦＧＦＲ３、ＩＫＢＫＥ、ＭＰＬ、ＰＤＺＲＮ３、ＲＰＴＯＲ、ＴＮＦＡＩＰ３、ＢＣＬ３、ＣＤＫＮ２Ｂ、ＤＯＴ１Ｌ、ＦＧＦＲ４、ＩＫＺＦ１、ＭＲＥ１１Ａ、ＰＨＬＰＰ２、ＲＳＰＯ２、ＴＮＫＳ、ＢＣＬ６、ＣＤＫＮ２Ｃ、ＤＰＹＤ、ＦＨ、ＩＬ２ＲＧ、ＭＳＨ２、ＰＩＫ３Ｃ３、ＲＳＰＯ３、ＴＮＫＳ２、ＢＣＲ、ＣＤＫＮ２Ｄ、Ｅ２Ｆ１、ＦＨＯＤ３、ＩＮＨＢＡ、ＭＳＨ６、ＰＩＫ３ＣＡ、ＲＵＮＸ１、ＴＮＮＩ３Ｋ、ＢＩＲＣ５、ＣＤＸ２、ＥＥＤ、ＦＩＧＦ、ＩＮＳＲ、ＭＴＨＦＲ、ＰＩＫ３ＣＢ、ＳＤＨＢ、ＴＮＲ、ＢＩＲＣ６、ＣＥＢＰＡ、ＥＧＦ、ＦＬＧ２、ＩＲＳ１、ＭＴＯＲ、ＰＩＫ３ＣＤ、ＳＦ３Ｂ１、ＴＯＰ１、ＢＬＭ、ＣＥＲＫ、ＥＧＦＲ、ＦＬＮＣ、ＩＲＳ２、ＭＵＴＹＨ、ＰＩＫ３ＣＧ、ＳＨＣ１、およびＴＯＰ２Ａ。

[00239]シーケンスデータを使用して、遺伝子における突然変異のプロファイルを判定することができる。突然変異のプロファイルは報告に列挙することができる。報告は、介護者に、または１つ以上のサンプルを取った被験者に提供することができる。報告は、突然変異のプロファイルに基づいて、可能な治療の選択肢を示すことができる。

[00240]後続サンプルは、例えば、初期サンプルにおいてシーケンシングされた１つ以上の遺伝子をモニタリングするため、初期サンプルを得た後に被験者から得ることができる。複数の後続サンプルを被験者から得ることができる（例えば、およそまたは少なくとも２、３、４、５、６、７、８、９、１０、２０、３０、４０、５０、６０、７０、８０、９０、１００サンプル）。被験者からの後続サンプルは、流体サンプル、例えば血漿サンプル、または固形腫瘍からのサンプルであることができる。核酸、例えば無細胞核酸、例えば後続サンプルからの無細胞ＤＮＡを解析することができる。後続サンプルからの核酸は、例えば、大規模並列シーケンシング（次世代シーケンシング）などのシーケンシングによって解析することができる。後続サンプルの核酸は、例えばＰＣＲ、例えばデジタルＰＣＲ（ｄＰＣＲ）、例えば液滴デジタルＰＣＲ（例えば、ｄｄＰＣＲ）の増幅によって解析することができる。後続サンプルの核酸は、増幅（例えばｄＰＣＲ、例えばｄｄＰＣＲ）およびシーケンシング、例えば大規模並列シーケンシング（次世代シーケンシング）の両方によって解析することができる。

[00241]後続サンプルは、規則的間隔または不規則間隔で被験者から得ることができる。後続サンプルは、毎日、週１回、月２回、月１回、３ヶ月に１回、半年に１回、または１年に１回、被験者から得ることができる。

[00242]場合によっては、後続サンプルは、シーケンシングが初期サンプル中で特定された遺伝子の突然変異または変質を検出するのに十分な感度を提供しなくなるまで、シーケンシングによって解析することができる。例えば、突然変異は、初期固形腫瘍サンプルまたは初期無細胞サンプル（例えば、血漿）からの核酸のシーケンシング（例えば、Ｉｌｌｕｍｉｎａ（登録商標）ＭｉＳｅｑを使用する）によって、遺伝子中で特定することができ、シーケンシングを使用して、後続サンプル（例えば流体サンプル、例えば血漿）の遺伝子中に突然変異が存在するか否かを検出することができ、シーケンシングが後続サンプルの遺伝子中の突然変異をそれ以上検出できなくなった場合、増幅ベースのアッセイ（例えばｄＰＣＲ、例えば、Ｂｉｏ−Ｒａｄ機器ＱＸ２００（商標）ＤｒｏｐｌｅｔＤｉｇｉｔａｌ（商標）ＰＣＲシステムなどを使用する、ｄｄＰＣＲ）を使用して、後続サンプルの遺伝子中に突然変異が存在するか否かを検出することができる。場合によっては、増幅ベースの方法、例えばｄＰＣＲ、例えばｄｄＰＣＲは、シーケンシングベースの方法よりも高い感度を有し得る。場合によっては、初期サンプルで検出された突然変異は、シーケンシングによって解析される後続サンプルでは検出されなくなるが、増幅、例えばｄｄＰＣＲによって、解析される後続サンプルで検出される。場合によっては、初期サンプル中に存在する突然変異は、シーケンシングによって解析される後続サンプルでは検出されなくなり、増幅（例えば、ｄｄＰＣＲ）によって解析される後続サンプルでも検出されなくなる。

[00243]後続サンプル中で解析される遺伝子の数は、初期サンプル中で解析される遺伝子の数よりも少ない数、初期サンプル中で解析されるのと同じ数、または初期サンプル中で解析される遺伝子の数よりも多い数であり得る。後続サンプル中で解析される遺伝子は、初期サンプル中で解析される遺伝子の部分集合であり得る。後続サンプル中で解析される遺伝子は、初期サンプル中で特定される突然変異のプロファイル（個別の変異体のプロファイル）に基づくものであり得る。後続サンプル中で解析される遺伝子の数は、およそまたは少なくとも１、５、１０、２０、３０、４０、５０、６０、７０、８０、９０、９６、１００、１１０、１２０、１２９、１３０、１４０、１５０、１６０、１７０、１８０、１９０、２００、３００、４００、５００、６００、７００、８００、９００、またはそれ以上の遺伝子であることができる。場合によっては、後続サンプル中で解析される遺伝子の数は、初期サンプル中で解析される遺伝子の数よりも多数であり得る。後続サンプル中でモニタリングされる遺伝子を解析して、がんをモニタリングし、治療の有効性をモニタリングし、がんの進化を検出し、がんの再発を検出し、がんの再燃を検出し、またはがんの進行を検出することができる。

[00244]後続サンプルは、被験者におけるがんの期間にわたって解析することができる。がんの再発が後続サンプルに置いて特定された場合、第２のサンプルを被験者から得て、シーケンシングを行うことができる。第２のサンプルは固体サンプルまたは流体サンプル（例えば、無細胞サンプル）であることができ、被験者から得て、シーケンシング、例えば大規模並列シーケンシング（次世代シーケンシング）を行って、突然変異のプロファイルを判定することができる。場合によっては、第２のサンプルは固形腫瘍サンプルであり、固形腫瘍サンプルからの核酸のシーケンシングが行われる。

[00245]シーケンシングは遺伝子増幅を、例えば、試験される遺伝子増幅の少なくとも５０％、６０％、７０％、８０％、９０％、９５％、９６％、９７％、９８％、９８．５％、９９％、９９．５％、または１００％を検出することができる。サンプル中の遺伝子増幅は、デジタルＰＣＲ、例えばｄｄＰＣＲによって検出することができる。ｄｄＰＣＲの使用は、試験される遺伝子増幅の少なくとも５０％、６０％、７０％、８０％、９０％、９５％、９６％、９７％、９８％、９８．５％、９９％、９９．５％、または１００％を検出することができる。遺伝子増幅は、例えば、蛍光インシチューハイブリダイゼーション（ＦＩＳＨ）を使用して検出することができる。

[00246]いくつかの実施形態では、本明細書に記載するように生成された標的濃縮ライブラリに、当該分野で知られている、または本明細書に記載するような任意の方法を使用して、シーケンシングが行われる。シーケンシングは、その組のうち１つ以上のがん関連遺伝子における突然変異の存在を明らかにすることができる。いくつかの実施形態では、突然変異が潜む２つ、３つ、４つの遺伝子の部分集合が、後の時点で被験者から単離される流体サンプル中の無細胞ＤＮＡの査定によって、さらなるモニタリングのために選択される。いくつかの実施形態では、突然変異が潜む４つ以下の遺伝子の部分集合が、後の時点で被験者から単離される流体サンプル中の無細胞ＤＮＡの査定によって、さらなるモニタリングのために選択される。
Ｘ．定義
[00247]本明細書および特許請求の範囲で使用するとき、単数形「ａ」、「ａｎ」、「ｔｈｅ」は、文脈において別段の明確な指示がない限り、複数を含むことができる。例えば、「細胞（ａｃｅｌｌ）」という用語は、細胞の混合物を含む、複数の細胞を含むことができる。

[00248]範囲は、本明細書では、「約」を付けたある特定の値から、および／または「約」を付けた別の特定の値までとして表現することができる。かかる範囲が表現される場合、別の実施形態は、そのある特定の値から、および／またはその他の特定の値までを含む。同様に、「約」という先行詞を使用することによって、値が近似として表現される場合、その特定の値が別の実施形態を形成することが理解される。さらに、範囲それぞれの終点は、他方の終点と関連して、また他方の終点とは独立して有意であることが理解されるであろう。「約」という用語は、本明細書で使用するとき、特定の用法の文脈内において、規定される数値から±１５％の範囲を指す。例えば、約１０は８．５〜１１．５の範囲を含むであろう。

[00249]本明細書に記載するプロセスで使用される核酸は、溶液中で自由であることができる。「溶液中で自由」という用語は、固体支持体、例えばビーズもしくはフローセルに結合されたり繋ぎ止められていない、ポリヌクレオチドなどの分子を説明することができる。

[00250]本明細書に記載するプロセスは、ゲノムＤＮＡの断片またはゲノム断片を利用することができる。「ゲノム断片」という用語は、ゲノム、例えばヒト、サル、ラット、魚、もしくは昆虫、もしくは植物のゲノムなど、動物または植物のゲノムの領域を指すことができる。ゲノム断片は、アダプタ連結することができるか、またはできない。ゲノム断片は、アダプタ連結（その場合、断片の一端もしくは両端、分子の少なくとも５’末端に連結されるアダプタを有する）することができ、またはアダプタ連結されない。

[00251]特定の事例では、本明細書に記載する方法で使用されるオリゴヌクレオチドは、基準ゲノム領域を、即ち既知のヌクレオチドシーケンスのゲノム領域を、例えば、ＮＣＢＩのＧｅｎｂａｎｋデータベースまたは他のデータベースにシーケンスが預けられている染色体領域を使用して設計することができる。
実施例

体細胞変異体の特定
[00252]被験者は、大腸鏡検査を受け、結腸腫瘍を宿していることが発見される。腫瘍生検および採血の両方を被験者から収集し、被験者の結腸がんの診断を支援するために使用する。第１の採血からの腫瘍細胞および正常細胞にシーケンシングを行う。被験者の腫瘍と正常なサンプルとのシーケンス比較は、確率モデルおよび統計的推論に基づく。比較は、公開データベースで報告されている腫瘍の遺伝子変異における既知の染色体座を利用し、遺伝子座の近傍にある可能なシーケンスを確率的にモデル化する。モデルを被験者のシーケンスデータと合わせて、統計的推論を実施する。推論は、ＡＰＣ、ＫＲＡＳ、およびＴＰ５３遺伝子における３つの体細胞変異体の点突然変異を特定する。被験者のがんのステージが判定される。

[00253]さらに、データ解析アプリケーションは、第１の治療戦略、例えば腫瘍を除去する外科手術を推奨する。第１の治療において、第２の採血を実施する。被験者の腫瘍は転移していると判定される。被験者に、がんを管理する第２の療法（化学療法）として投薬を行う。

ベイズネットワークによるデータ解析
[00254]図８は、標的使用事例に対する推論を説明する例示的なベイズネットワークを示している。ネットワーク図において、ノード「Ｃ」は推論される変異体コールを表し、ノード「Ｒ」は遺伝子座にわたる一連の整列されたリードのベースコールを表し、ノード「Ｐ」は遺伝子座における倍数関係である（例えば、正常な生殖細胞系列の場合は二倍体であるが、ゲノム不安定性によってがん細胞で異なる場合がある）。がん腫瘍細胞またはＤＮＡを含むサンプルの場合、「Ｕ」はサンプルの細胞充実性を表し、これは他の手段（例えば、病理学）によって推定することができ、生殖細胞系列からのＤＮＡ分子が腫瘍サンプル中に存在する確率として示され、０〜１の値として提供される。

[00255]以下の条件付き確率分布（ＣＰＤ）に適切な値を供給することができる。（ａ）Ｐ（Ｒ｜Ｃ）、特定の変異体コールを前提とした一連のリードの確率、（ｂ）Ｐ（Ｃ_ｔ｜Ｃ_ｇ）、その遺伝子座における生殖細胞系列を前提とした原発腫瘍細胞の確率、および（ｃ）Ｐ（Ｃ_ｃｆ｜Ｃ_ｔ）、原発腫瘍サンプル中のコールを前提とした無細胞ＤＮＡ（ｃｆ−ＤＮＡ）における腫瘍コールの確率。

[00256]ＣＤＰＰ（Ｒ｜Ｃ）は、単一サンプルに対する標準のベイズ変異体コーリング方法論の一部であることができる。第２の２つのＣＰＤは、腫瘍タイプおよび優性突然変異のシグネチャーごとに調節することができる、体細胞突然変異率の経験値を利用することによって計算することができる。Ｐ（Ｃ_ｔ｜Ｃ_ｇ）の場合、また原発腫瘍と患者の血漿の無細胞画分中で検出される腫瘍ＤＮＡとの単純な系統関係を想定することによって、このＣＰＤは、メンデル型分離ではなく変異体の単純な遺伝を想定する、子孫におけるデノボ変異の推論を含む、系統で実施される計算を用いて、例えば類似体で計算することができる。

[00257]それに加えて、部位および対立遺伝子特異的な事前値を、母集団シーケンシングによる生殖細胞系列変異体の事前観察、またはＴＣＧＡプロジェクトなどの腫瘍タイプにわたる体細胞突然変異の大規模センサスに基づいて、特定の遺伝子座に導入することができる。これらは、患者からの組織サンプル（例えば、生殖細胞系列または原発組織）の一部が存在しない状態では有用であり得る。１つの事例では、原発腫瘍組織のみまたは血漿画分からのｃｆ−ＤＮＡのみが解析される。この状況では、事前情報を使用して、Ｐ（Ｃ_ｔ｜Ｃ_ｔｐ）（Ｃ_ｔｐは、がん患者の事前観察に基づいた（例えば、ＣＯＳＭＩＣによる）、その遺伝子座において特定の体細胞突然変異対立遺伝子を観察する事前確率）、およびＰ（Ｇ_ｔ｜Ｇ_ｐ）（Ｇ_ｔは、Ｇ_ｐを前提とした腫瘍中に存在する生殖細胞系列変異体の遺伝子型）といったＣＰＤを推定することができ、この遺伝子座において特定の遺伝子型を観察する確率は、母集団規模の変異調査（１０００人ゲノムプロジェクトなど）に由来する。次に、これらの確率を、出力において解析される各変異体のスコアとして提供し、機械学習方法を使用して経験的検証またはグラウンドトゥルースデータに基づいて再校正し、その後、解析者が使用して、下流での注釈および臨床報告に対する適切なＦＰ／ＦＮ閾値を決定することができる。

[00258]検討すべき他の因子は、がんサンプルの細胞充実性、即ち、（生殖細胞系列ＤＮＡを表す）正常な細胞に対する、生体標本（例えば、生検、血漿など）に含まれるがん組織（およびしたがってＤＮＡ）の比率である。細胞充実性が低い場合、変異体が生殖細胞系列である確率は増加し、その逆も真である。この因子を説明するため、細胞充実性の逆数、即ち、シーケンシングリードが生殖細胞系列細胞からのものである確率（０〜１の値）を表す、確率変数「Ｕ」をベイズネットワークに導入することができる。この値は解析時に提供することができるが、場合によっては、事前推定値を提供することによって、データから推論することができる。細胞充実性について考察する際、Ｐ（Ａ_ｔ｜Ｒ_ｔ）およびＰ（Ａ_ｃｔ｜Ｒ_ｃｔ）という、２つの新しいＣＰＤを推定することができる。これらは、標準的なベイズ技術によるコールの推論に組み込むことができる。

[00259]最後に、母集団コーリング方法を、方法と組み合わせることもでき、上述した方法によって他のサンプルからのデータのバンクと同時にコールすることによって、正常な組織中の生殖細胞系列突然変異の検出を改善する（ならびに同時に、偽陽性体細胞突然変異を低減する）ことができるが、がん組織サンプルと同時に生殖細胞系列をコールする、本明細書に記載の文脈において適用される。

肺がん解析
[00260]肺がん患者について調査する。生検を実施して、腫瘍組織および正常な組織を抽出する。さらに、患者の血液を収集する。サンプル（即ち、腫瘍組織、正常な組織、および血液）に、高スループットシーケンサによってシーケンシングを行う。シーケンサは多数のシーケンスリードを生成する。本明細書に開示するシステムは、サンプル全体でシーケンスを比較してシーケンスを整列させる。さらに、基準ヒトゲノムをアライメントプロセスで使用する。

[00261]アライメントを完了した後、腫瘍組織、正常な組織、および血液のゲノムを作成する。スライディングウィンドウを３つのゲノムに同時に適用する。スライディングウィンドウは同じ染色体座をカバーする。サンプル全体にわたってウィンドウ内のシーケンスを評価することによって、データ解析アプリケーションが推定変異体を特定することが可能になる。変異体の不確定性を確率モデルによって捕らえる。刊行物もしくは既知のデータベースまたは過去に解析した患者において公開されている既存の情報に基づいて、体細胞変異体ががんのステージを特性決定する尤度を計算する。さらに、最適な治療戦略のマーカーを表す追加の変異体の尤度を同様に計算する。これらの計算された尤度によって、医師が患者の現在の状態をより良く理解し、患者にとって最良な健康管理を設計する。

体細胞点突然変異／小インデルのコーラー
[00262]腫瘍サンプルの標的リシーケンシングを、約１２９の利用可能ながん遺伝子のエキソンを含む、約１００ｋＢを包含する核酸の領域に対して実施する。場合によっては、リシーケンシングする領域は、転座を検出するために、イントロン領域も含む。シーケンシングの平均深さは、適用範囲内のばらつきを含めて約３００ｘ〜約５００ｘである。数ラウンドのみのＰＣＲ増幅をＤＮＡライブラリに対して実施する。ペアードエンドリード長さは、ＭｉＳｅｑでは２５０ｂｐ、ＨｉＳｅｑでは１５０ｂｐである。ペアードエンドリードの重なり合いは、ＭｉＳｅｑの長いリードの場合に可能である。領域の両方のストランドを独立して捕獲し、次に混合しシーケンシングすることができる。断片は、約２００〜約３００ｂｐの中央サイズを有することができる。対象領域外の標的外リードを、サンプル特定、大規模欠失／異数性／融合検出、およびゲノム瘢痕（genomic scar）解析（ゲノム瘢痕は、既知の起源によるゲノム消失であり得る）に関してレバレッジする。

[00263]本明細書で提供する方法、システム、およびコンピュータ可読媒体は、腫瘍データ、例えばＦＦＰＥブロックとして処理された病理学標本が利用可能な場合のみ使用することができる。本明細書で提供する方法、システム、およびコンピュータ可読媒体は、無細胞ＤＮＡに由来する血漿がシーケンシングされた場合にのみ使用することができる。本明細書で提供する方法、システム、およびコンピュータ可読媒体は、例えば、血漿からの無細胞ＤＮＡをシーケンシングし、生殖細胞系列シーケンスをシーケンシングする場合、例えば、軟膜が血液から単離され、生殖細胞系列組織（リンパ球）を表すようにシーケンシングされる場合に使用することができる。本明細書で提供する方法、システム、およびコンピュータ可読媒体は、無細胞ＤＮＡに加えて、腫瘍および生殖細胞系列サンプルが利用可能な場合に使用することができる。生殖細胞系列シーケンスは、軟膜または他の組織生検由来であることができる。

[00264]方法は、ＦａｓｔＱフォーマットのシーケンス情報の入力を伴う場合がある。リードを高感度のゲノムアセンブリに対して整列させることができる。アライメントはＣＲＡＭファイルまたはＢＡＭファイルとして格納される。出力はＶＣＦ（変異体細胞フォーマット）である。小さい一塩基置換の変異（ＳＮＶ）、多塩基多型（ＭＮＰ）、および対象領域における小インデルがＢＥＤファイルとして指定される。対立遺伝子コールは、倍数関係の想定なしで作成される（例えば、対立遺伝子計数における低出現頻度）。推定体細胞突然変異の場合、変異体対立遺伝子出現頻度（ＶＡＦ）はＶＣＦで示される。二倍体遺伝子型は提供されない。推定生殖細胞系列突然変異の場合、見込まれる二倍体遺伝子型が提供される。母集団における共通の適切な変異体の事前知識（ＭＡＦ（突然変異注釈フォーマット）を含む静的ＶＣＦ）は、生殖細胞系列突然変異を体細胞突然変異と分化する助けとなる。患者のサンプルの同時コーリングを、利用可能な場合に実施することができる。患者からの生殖細胞系列サンプルが利用不能な場合、本明細書に記載の標的シーケンシング方法によってシーケンシングした「正常な」生殖細胞系列サンプルのバンクを用いた同時コーリング（最良のサンプルサイズが決定される）。がんにおける再発体細胞突然変異の事前知識（例えば、ＣＯＳＭＩＣを使用する）は、体細胞突然変異を分化する助けとして考慮することができる。対象領域にわたる全ての位置でコールが行われて、革新的な基準コールとコールなし（必要に応じて）とが作成される。ＶＣＦのサイズを制限するため、ｇＶＣＦ出力における圧縮された基準コールを実施することができる。体細胞および生殖細胞系列変異体である、尤度の変異体スコアを提供することができる。訓練データに基づいた、カスタマイズされたスコア再校正が実施される。腫瘍および無細胞ＤＮＡサンプルに関して、利用可能な場合に細胞充実性指標を検討することができる（データに基づいた推論）。変異体コールが全ての標的外領域に対して提供される。コール精度を改善するため、ペアードエンドリードの重なり合いが利用可能であるか（ＭｉＳｅｑの２５０ｂｐリード）を考慮することができる。

[00265]分子バーコードを検出して、複製断片を特定し、誤り補正を提供することができる。また、複製リードを独立したシーケンシングイベントとして使用し、冗長シーケンシングに基づいてスコアを再調節することができる。

[00266]好ましい実施形態について本明細書に図示し記載してきたが、かかる実施形態は単なる一例として提供されていることが、当業者には明白となるであろう。本発明から逸脱することなく、多数の変形、変更、および置換が当業者には想起されるであろう。本明細書に記載する実施形態の代替が、本開示を実施する際に用いられてもよいことが理解されるべきである。以下の特許請求の範囲は本発明の範囲を定義し、これら特許請求の範囲およびそれらの等価物の範囲内にある方法および構造を包含するものとする。

Claims

（ａ）プロセッサと、機械可読(machine readable)命令を実行するように構成されたメモリモジュールと、
（ｂ）データ解析アプリケーションであって、
（１）高スループットシーケンシング(high-throughput sequencing)機器(instrument)によって生成される、個人の１つ以上のサンプルから得られる核酸分子のシーケンスリード(sequence reads)を受信するように構成されたデータ受信モジュールと、
（２）前記シーケンスリードを基準(reference)アセンブリに対して整列させて、予測ゲノムシーケンスを生成するように構成されたシーケンスアライメントモジュールと、
（３）（ｉ）前記予測ゲノムシーケンスを共同で同時に解析することによって推定変異体(putative variant)を特定し、（ｉｉ）体細胞突然変異(somatic mutation)または生殖細胞系列変異体(germline variant)である確率によって前記推定変異体をスコアリングするように構成されたゲノム解析モジュールとを備える、データ解析アプリケーションとを備える、コンピューティングシステム。
前記１つ以上のサンプルが同時に収集される、請求項１に記載のシステム。
前記１つ以上のサンプルが少なくとも２つのサンプルを含み、前記少なくとも２つサンプルが別の時点で収集される、請求項１または２に記載のシステム。
前記１つ以上のサンプルが原発腫瘍を含む、請求項１から３のいずれか一項に記載のシステム。
前記１つ以上のサンプルが転移腫瘍を含む、請求項１から４のいずれか一項に記載のシステム。
前記１つ以上のサンプルが体液を含む、請求項１から５のいずれか一項に記載のシステム。
前記１つ以上のサンプルが無細胞サンプルを含む、請求項１から６のいずれか一項に記載のシステム。
前記１つ以上のサンプルがリンパ球を含む、請求項１から６のいずれか一項に記載のシステム。
前記１つ以上のサンプルが血漿を含む、請求項１から８のいずれか一項に記載のシステム。
前記推定変異体の前記特定が、前記ゲノムシーケンスを１人以上の過去に解析した患者から得たシーケンスのバンクのシーケンスと比較することを含む、請求項１から９のいずれか一項に記載のシステム。
前記推定変異体の前記スコアリングが、正しいコールと誤ったコールの組を用いて訓練した機械学習方法に基づいて確率を調節することを含む、請求項１から１０のいずれか一項に記載のシステム。
前記推定変異体の前記特定およびスコアリングが、染色体座における推論を作成することを含む、請求項１から１１のいずれか一項に記載のシステム。
推論の前記作成が確率モデルを使用することを含む、請求項１２に記載のシステム。
推論の前記作成が統計的推論を使用することを含む、請求項１２または１３に記載のシステム。
推論の前記作成がベイズ推論を使用することを含む、請求項１２から１４のいずれか一項に記載のシステム。
推論の前記作成がベイズネットワークモデルを使用することを含む、請求項１２から１５のいずれか一項に記載のシステム。
推論の前記作成が生殖細胞系列および体細胞変異体を発見する事前確率に基づく、請求項１２から１６のいずれか一項に記載のシステム。
推論の前記作成が前記染色体座にわたって整列された一連のシーケンスリードに基づく、請求項１２から１７のいずれか一項に記載のシステム。
推論の前記作成が前記高スループットシーケンシング機器の誤り率に基づく、請求項１２から１８のいずれか一項に記載のシステム。
前記誤り率がベースコールに対する品質保証において提供される、請求項１９に記載のシステム。
推論の前記作成が前記染色体座にわたる染色体領域の倍数関係に基づく、請求項１２から２０のいずれか一項に記載のシステム。
推論の前記作成ががんのクローン進化のプロセスモデルに基づく、請求項１２から２１のいずれか一項に記載のシステム。
推論の前記作成が前記個人の１つ以上の他のサンプルに由来する染色体座におけるコールに基づく、請求項１２から２２のいずれか一項に記載のシステム。
推論の前記作成が１人以上の他の個人の１つ以上のサンプルに由来する染色体座におけるコールに基づく、請求項１２から２３のいずれか一項に記載のシステム。
推論の前記作成が１つ以上の基準母集団の染色体座における共通の多型性の事前知識に基づく、請求項１２から２４のいずれか一項に記載のシステム。
推論の前記作成が染色体座における１つ以上の再発がんの突然変異の事前知識に基づく、請求項１２から２５のいずれか一項に記載のシステム。
推論の前記作成ががんを含むサンプル中のがん細胞の比率に基づく、請求項１２から２６のいずれか一項に記載のシステム。
前記がんを含むサンプルががんを引き起こす１つ以上のＤＮＡ分子を含む、請求項２７に記載のシステム。
前記がんを含むサンプルが１つ以上のがん性組織を含む、請求項２７または２８に記載のシステム。
推論の前記作成が確率モデルによって変異体を説明することを含む、請求項１２から２９のいずれか一項に記載のシステム。
推論の前記作成が確率モデルによって前記染色体座にわたる一連の整列されたシーケンスリードを説明することを含む、請求項１２から３０のいずれか一項に記載のシステム。
推論の前記作成が確率モデルによって前記染色体座における倍数関係を説明することを含む、請求項１２から３１のいずれか一項に記載のシステム。
推論の前記作成が確率モデルによってサンプル中のがん細胞の比率を説明することを含む、請求項１２から３２のいずれか一項に記載のシステム。
前記比率が二値変数によって説明される、請求項３３に記載のシステム。
前記データ解析アプリケーションが、１つ以上のコーディング領域、予測される損傷の深刻度、１つ以上の生殖細胞系列突然変異、１つ以上の体細胞突然変異、１つ以上の突然変異・薬物間の相互作用、臨床試験において観察される１つ以上の突然変異、１つ以上の疾患、１つ以上の症状、または１つ以上の副作用のうち１つ以上における影響に関して、前記推定変異体に注釈を付けるように構成されたモジュールをさらに備える、請求項１から３４のいずれか一項に記載のシステム。
前記データ解析アプリケーションが、治療方法を推奨するように構成されたモジュールをさらに備える、請求項１から３５のいずれか一項に記載のシステム。
前記データ解析アプリケーションが、処置方法を推奨するように構成されたモジュールをさらに備える、請求項１から３６のいずれか一項に記載のシステム。
前記データ解析アプリケーションが、処置の経過を査定するように構成されたモジュールをさらに備える、請求項１から３７のいずれか一項に記載のシステム。
前記データ解析アプリケーションが、リスクを査定するように構成されたモジュールをさらに備える、請求項１から３８のいずれか一項に記載のシステム。
前記データ解析アプリケーションが、治療方法の効率をモニタリングするように構成されたモジュールをさらに備える、請求項１から３９のいずれか一項に記載のシステム。
前記データ解析アプリケーションが、処置方法の効率をモニタリングするように構成されたモジュールをさらに備える、請求項１から４０のいずれか一項に記載のシステム。
データ解析アプリケーションを作成するためにプロセッサによって実行可能な命令を含むコンピュータプログラムを用いてコード化された、コンピュータ可読記憶媒体であって、前記アプリケーションが、
（ａ）高スループットシーケンシング機器によって生成される、個人の１つ以上のサンプルから得られる核酸分子のシーケンスリードを受信するように構成されたデータ受信モジュールと、
（ｂ）前記シーケンスリードを基準アセンブリに対して整列させて、予測ゲノムシーケンスを生成するように構成されたシーケンスアライメントモジュールと、
（ｃ）（ｉ）前記予測ゲノムシーケンスを共同で同時に解析することによって推定変異体を特定し、（ｉｉ）体細胞突然変異または生殖細胞系列変異体である確率によって前記推定変異体をスコアリングするように構成されたゲノム解析モジュールとを備える、データ解析アプリケーションとを備える、コンピュータ可読媒体。
前記１つ以上のサンプルが同時に収集される、請求項４２に記載の媒体。
少なくとも１つ以上のサンプルが異なる時点で収集される、請求項４２または４３に記載の媒体。
前記１つ以上のサンプルが原発腫瘍を含む、請求項４２から４４のいずれか一項に記載の媒体。
前記１つ以上のサンプルが転移腫瘍を含む、請求項４２から４５のいずれか一項に記載の媒体。
前記１つ以上のサンプルが体液を含む、請求項４２から４６のいずれか一項に記載の媒体。
前記１つ以上のサンプルが無細胞サンプルを含む、請求項４２から４７のいずれか一項に記載の媒体。
前記１つ以上のサンプルがリンパ球を含む、請求項４２から４７のいずれか一項に記載の媒体。
前記１つ以上のサンプルが血漿を含む、請求項４２から４９のいずれか一項に記載の媒体。
前記推定変異体の前記特定が、前記ゲノムシーケンスを１人以上の過去に解析した患者から得たシーケンスのバンクからのシーケンスと比較することを含む、請求項４２から５０のいずれか一項に記載の媒体。
前記推定変異体の前記スコアリングが、正しいコールと誤ったコールの組を用いて訓練した機械学習方法に基づいて確率を調節することを含む、請求項４２から５１のいずれか一項に記載の媒体。
前記推定変異体の前記特定およびスコアリングが、染色体座における推論を作成することを含む、請求項４２から５２のいずれか一項に記載の媒体。
推論の前記作成が確率モデルを使用することを含む、請求項５３に記載の媒体。
推論の前記作成が統計的推論を使用することを含む、請求項５３または５４に記載の媒体。
推論の前記作成がベイズ推論を使用することを含む、請求項５３から５５のいずれか一項に記載の媒体。
推論の前記作成がベイズネットワークモデルを使用することを含む、請求項５３から５６のいずれか一項に記載の媒体。
推論の前記作成が生殖細胞系列および体細胞変異体を発見する事前確率に基づく、請求項５３から５７のいずれか一項に記載の媒体。
推論の前記作成が前記染色体座にわたって整列された一連のシーケンスリードに基づく、請求項５３から５８のいずれか一項に記載の媒体。
推論の前記作成が前記高スループットシーケンシング機器の誤り率に基づく、請求項５３から５９のいずれか一項に記載の媒体。
前記誤り率がベースコールに対する品質保証において提供される、請求項６０に記載の媒体。
推論の前記作成が前記染色体座にわたる染色体領域の倍数関係に基づく、請求項５３から６１のいずれか一項に記載の媒体。
推論の前記作成ががんのクローン進化のプロセスモデルに基づく、請求項５３から６２のいずれか一項に記載の媒体。
推論の前記作成が前記個人からの１つ以上の他のサンプルに由来する染色体座におけるコールに基づく、請求項５３から６３のいずれか一項に記載の媒体。
推論の前記作成が１人以上の他の個人の１つ以上のサンプルに由来する染色体座におけるコールに基づく、請求項５３から６４のいずれか一項に記載の媒体。
推論の前記作成が１つ以上の基準母集団の染色体座における共通の多型性の事前知識に基づく、請求項５３から６５のいずれか一項に記載の媒体。
推論の前記作成が染色体座における１つ以上の再発がんの突然変異の事前知識に基づく、請求項５３から６６のいずれか一項に記載の媒体。
推論の前記作成ががんを含むサンプル中のがん細胞の比率に基づく、請求項５３から６７のいずれか一項に記載の媒体。
前記がんを含むサンプルががんを引き起こす１つ以上のＤＮＡ分子を含む、請求項６８に記載の媒体。
前記がんを含むサンプルが１つ以上のがん性組織を含む、請求項６８に記載の媒体。
推論の前記作成が確率モデルによって変異体を説明することを含む、請求項５３から７０のいずれか一項に記載の媒体。
推論の前記作成が確率モデルによって前記染色体座にわたる一連の整列されたシーケンスリードを説明することを含む、請求項５３から７１のいずれか一項に記載の媒体。
推論の前記作成が確率モデルによって前記染色体座における倍数関係を説明することを含む、請求項５３から７２のいずれか一項に記載の媒体。
推論の前記作成が確率モデルによってサンプル中のがん細胞の比率を説明することを含む、請求項５３から７３のいずれか一項に記載の媒体。
前記比率が二値変数によって説明される、請求項７４に記載の媒体。
前記データ解析アプリケーションが、１つ以上のコーディング領域、予測される損傷の深刻度、１つ以上の生殖細胞系列突然変異、１つ以上の体細胞突然変異、１つ以上の突然変異・薬物間の相互作用、臨床試験において観察される１つ以上の突然変異、１つ以上の疾患、１つ以上の症状、または１つ以上の副作用のうち１つ以上における影響に関して、前記推定変異体に注釈を付けるように構成されたモジュールをさらに備える、請求項４２から７５のいずれか一項に記載の媒体。
前記データ解析アプリケーションが、治療方法を推奨するように構成されたモジュールをさらに備える、請求項４２から７６のいずれか一項に記載の媒体。
前記データ解析アプリケーションが、処置方法を推奨するように構成されたモジュールをさらに備える、請求項４２から７７のいずれか一項に記載の媒体。
前記データ解析アプリケーションが、処置の経過を査定するように構成されたモジュールをさらに備える、請求項４２から７８のいずれか一項に記載の媒体。
前記データ解析アプリケーションが、リスクを査定するように構成されたモジュールをさらに備える、請求項４２から７９のいずれか一項に記載の媒体。
前記データ解析アプリケーションが、治療方法の効率をモニタリングするように構成されたモジュールをさらに備える、請求項４２から８０のいずれか一項に記載の媒体。
前記データ解析アプリケーションが、処置方法の効率をモニタリングするように構成されたモジュールをさらに備える、請求項４２から８１のいずれか一項に記載の媒体。
（ａ）１つ以上のサンプルを個人から収集するステップと、
（ｂ）高スループットシーケンシング機器を使用して、前記１つ以上のサンプルの核酸分子のシーケンシングを行い、シーケンスリードを生成するステップと、
（ｃ）前記シーケンスリードを基準アセンブリに対して整列させて、予測ゲノムシーケンスを生成するステップと、
（ｄ）前記予測ゲノムシーケンスを共同で同時に解析することによって、推定変異体を特定するステップと、
（ｅ）体細胞突然変異または生殖細胞系列変異体である確率によって、前記推定変異体をスコアリングするステップとを含む、方法。
前記１つ以上のサンプルが同時に収集される、請求項８３に記載の方法。
前記１つ以上のサンプルが少なくとも２つのサンプルを含み、前記少なくとも２つサンプルが別の時点で収集される、請求項８３または８４に記載の方法。
前記１つ以上のサンプルが原発腫瘍を含む、請求項８３から８５のいずれか一項に記載の方法。
前記１つ以上のサンプルが転移腫瘍を含む、請求項８３から８６のいずれか一項に記載の方法。
前記１つ以上のサンプルが体液を含む、請求項８３から８７のいずれか一項に記載の方法。
前記１つ以上のサンプルが無細胞サンプルを含む、請求項８３から８８のいずれか一項に記載の方法。
前記１つ以上のサンプルがリンパ球を含む、請求項８３から８８のいずれか一項に記載の方法。
前記１つ以上のサンプルが血漿を含む、請求項８３から９０のいずれか一項に記載の方法。
前記推定変異体の前記特定が、前記ゲノムシーケンスを１人以上の過去に解析した患者から得たシーケンスのバンクからのシーケンスと比較することを含む、請求項８３から９１のいずれか一項に記載の方法。
前記推定変異体の前記スコアリングが、正しいコールと誤ったコールの組を用いて訓練した機械学習方法に基づいて確率を調節することを含む、請求項８３から９２のいずれか一項に記載の方法。
前記推定変異体の前記特定およびスコアリングが、染色体座における推論を作成することを含む、請求項８３から９３のいずれか一項に記載の方法。
推論の前記作成が確率モデルを使用することを含む、請求項９４に記載の方法。
推論の前記作成が統計的推論を使用することを含む、請求項９４または９５に記載の方法。
推論の前記作成がベイズ推論を使用することを含む、請求項９４から９６のいずれか一項に記載の方法。
推論の前記作成がベイズネットワークモデルを使用することを含む、請求項９４から９７のいずれか一項に記載の方法。
推論の前記作成が生殖細胞系列および体細胞変異体を発見する事前確率に基づく、請求項９４から９８のいずれか一項に記載の方法。
推論の前記作成が前記染色体座にわたって整列された一連のシーケンスリードに基づく、請求項９４から９９のいずれか一項に記載の方法。
推論の前記作成が前記高スループットシーケンシング機器の誤り率に基づく、請求項９４から１００のいずれか一項に記載の方法。
前記誤り率がベースコールに対する品質保証において提供される、請求項１０１に記載の方法。
推論の前記作成が前記染色体座にわたる染色体領域の倍数関係に基づく、請求項９４から１０２のいずれか一項に記載の方法。
推論の前記作成ががんのクローン進化のプロセスモデルに基づく、請求項９４から１０３のいずれか一項に記載の方法。
推論の前記作成が前記個人の１つ以上の他のサンプルに由来する染色体座におけるコールに基づく、請求項９４から１０４のいずれか一項に記載の方法。
推論の前記作成が１人以上の他の個人の１つ以上のサンプルに由来する染色体座におけるコールに基づく、請求項９４から１０５のいずれか一項に記載の方法。
推論の前記作成が１つ以上の基準母集団の染色体座における共通の多型性の事前知識に基づく、請求項９４から１０６のいずれか一項に記載の方法。
推論の前記作成が染色体座における１つ以上の再発がんの突然変異の事前知識に基づく、請求項９４から１０７のいずれか一項に記載の方法。
推論の前記作成ががんを含むサンプル中のがん細胞の比率に基づく、請求項９４から１０８のいずれか一項に記載の方法。
前記がんを含むサンプルががんを引き起こす１つ以上のＤＮＡ分子を含む、請求項１０９に記載の方法。
前記がんを含むサンプルが１つ以上のがん性組織を含む、請求項１０９に記載の方法。
推論の前記作成が確率モデルによって変異体を説明することを含む、請求項９４から１１１のいずれか一項に記載の方法。
推論の前記作成が確率モデルによって前記染色体座にわたる一連の整列されたシーケンスリードを説明することを含む、請求項９４から１１２のいずれか一項に記載の方法。
推論の前記作成が確率モデルによって前記染色体座における倍数関係を説明することを含む、請求項９４から１１３のいずれか一項に記載の方法。
推論の前記作成が確率モデルによってサンプル中のがん細胞の比率を説明することを含む、請求項９４から１１４のいずれか一項に記載の方法。
前記比率が二値変数によって説明される、請求項１１５に記載の方法。
１つ以上のコーディング領域、予測される損傷の深刻度、１つ以上の生殖細胞系列突然変異、１つ以上の体細胞突然変異、１つ以上の突然変異・薬物間の相互作用、臨床試験において観察される１つ以上の突然変異、１つ以上の疾患、１つ以上の症状、または１つ以上の副作用のうち１つ以上における影響に関して、前記推定変異体に注釈を付けるステップをさらに含む、請求項８３から１１６のいずれか一項に記載の方法。
前記個人に対して治療方法を推奨するステップをさらに含む、請求項８３から１１７のいずれか一項に記載の方法。
前記個人に対して処置方法を推奨するステップをさらに含む、請求項８３から１１８のいずれか一項に記載の方法。
前記個人の治療の経過を査定するステップをさらに含む、請求項８３から１１９のいずれか一項に記載の方法。
リスクを査定するステップをさらに含む、請求項８３から１２０のいずれか一項に記載の方法。
前記個人に対して投与される治療方法の効率をモニタリングするステップをさらに含む、請求項８３から１２１のいずれか一項に記載の方法。
前記個人に対して投与される処置方法の効率をモニタリングするステップをさらに含む、請求項８３から１２２のいずれか一項に記載の方法。