JP2019511070A - 核酸を解析するシステムおよび方法 - Google Patents

核酸を解析するシステムおよび方法 Download PDF

Info

Publication number
JP2019511070A
JP2019511070A JP2018560742A JP2018560742A JP2019511070A JP 2019511070 A JP2019511070 A JP 2019511070A JP 2018560742 A JP2018560742 A JP 2018560742A JP 2018560742 A JP2018560742 A JP 2018560742A JP 2019511070 A JP2019511070 A JP 2019511070A
Authority
JP
Japan
Prior art keywords
inference
samples
sequence
medium
sequencing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2018560742A
Other languages
English (en)
Inventor
デ・ラ・ベガ,フランシスコ・エム
Original Assignee
トマ・バイオサイエンシズ,インコーポレーテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by トマ・バイオサイエンシズ,インコーポレーテッド filed Critical トマ・バイオサイエンシズ,インコーポレーテッド
Publication of JP2019511070A publication Critical patent/JP2019511070A/ja
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H01ELECTRIC ELEMENTS
    • H01LSEMICONDUCTOR DEVICES NOT COVERED BY CLASS H10
    • H01L28/00Passive two-terminal components without a potential-jump or surface barrier for integrated circuits; Details thereof; Multistep manufacturing processes therefor
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • HELECTRICITY
    • H01ELECTRIC ELEMENTS
    • H01LSEMICONDUCTOR DEVICES NOT COVERED BY CLASS H10
    • H01L21/00Processes or apparatus adapted for the manufacture or treatment of semiconductor or solid state devices or of parts thereof
    • H01L21/70Manufacture or treatment of devices consisting of a plurality of solid state components formed in or on a common substrate or of parts thereof; Manufacture of integrated circuit devices or of parts thereof
    • H01L21/71Manufacture of specific parts of devices defined in group H01L21/70
    • H01L21/768Applying interconnections to be used for carrying current between separate components within a device comprising conductors and dielectrics
    • HELECTRICITY
    • H01ELECTRIC ELEMENTS
    • H01LSEMICONDUCTOR DEVICES NOT COVERED BY CLASS H10
    • H01L27/00Devices consisting of a plurality of semiconductor or other solid-state components formed in or on a common substrate
    • H01L27/02Devices consisting of a plurality of semiconductor or other solid-state components formed in or on a common substrate including semiconductor components specially adapted for rectifying, oscillating, amplifying or switching and having potential barriers; including integrated passive circuit elements having potential barriers
    • H01L27/04Devices consisting of a plurality of semiconductor or other solid-state components formed in or on a common substrate including semiconductor components specially adapted for rectifying, oscillating, amplifying or switching and having potential barriers; including integrated passive circuit elements having potential barriers the substrate being a semiconductor body
    • H01L27/10Devices consisting of a plurality of semiconductor or other solid-state components formed in or on a common substrate including semiconductor components specially adapted for rectifying, oscillating, amplifying or switching and having potential barriers; including integrated passive circuit elements having potential barriers the substrate being a semiconductor body including a plurality of individual components in a repetitive configuration
    • H01L27/118Masterslice integrated circuits

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Power Engineering (AREA)
  • Computer Hardware Design (AREA)
  • Microelectronics & Electronic Packaging (AREA)
  • General Physics & Mathematics (AREA)
  • Condensed Matter Physics & Semiconductors (AREA)
  • Manufacturing & Machinery (AREA)
  • Artificial Intelligence (AREA)
  • Bioethics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本明細書では、個人からのサンプルのシーケンシングデータに対してコンピュータ解析を実施する、システム、ソフトウェア媒体、ネットワーク、キット、および方法を提供する。解析は、生殖細胞系列および体細胞情報を抽出し、両方のタイプの情報を比較して、確率モデリングおよび統計的推論に基づいて、シーケンス変異体を特定することができる。解析は、生殖細胞系列変異体、例えば個人の変異体と、体細胞突然変異とを区別することを含み得る。特定された変異体は、より良好な健康管理を行うために診療所で使用することができる。

Description

相互参照
[0001]本出願は、2016年2月9日付けの米国特許出願第62/293,136号の利益を主張し、その全体を参照により本明細書に援用する。
[0002]がん体細胞突然変異を組織サンプルの高スループットシーケンシングデータから正確に特定することは、困難な未解決の課題であり得る。シーケンシングデータは、偽陽性または偽陰性変異体の解析率が分かっていない治療選択のための臨床的処置で使用することができる。このプロセスにおいて直面し得る組織としては、サンプルごとに異なる広範囲な割合で正常な細胞が存在することによる組織サンプルの異質性(例えば、血漿中の原発腫瘍対無細胞DNA(cf−DNA))、がん細胞の複数のクローンが異なる割合で存在すること、体細胞変異体と生殖細胞系列変異体の分化を可能にする、「正常な」組織のサンプルから得るデータの欠落、病理学的処理(例えば、ホルマリン固定パラフィン包理(FFPE))によるサンプル中のDNAの損傷、ならびに構造多型と単純なシーケンス変異体との回旋が挙げられる。新しい解析方法は、大規模シーケンシングデータからの生殖細胞系列変異体の特定を改善することができる。
[0003]場合によっては、解析におけるデータを単一の対照サンプルと比較した場合、がんデータ解析が一貫しない結果を生み出す場合がある。場合によっては、データ解析は、がん細胞を含んでいるかまたは含んでいることが疑われるサンプルと同様に処理された患者の正常な組織から得たデータの有効性に依存しており、これは悪性腫瘍病理学の使用事例では利用不能な場合が多い。生殖細胞系列変異体を体細胞突然変異から除外する手動のまたは発見的方法を含む、現在の解析パイプラインは、恣意的であり、不正確であり、再現が困難であり、またプロセス中に暗黙的に生じる偽陽性と偽陰性のトレードオフに関する情報を提供しない場合がある。しかしながら、正常な組織が利用可能なとき、場合によっては、独立して解析され、「実際の」生殖細胞系変異体に対する決定がなされた後のフィルタ処理ステップとして初めて一緒にされるので、生殖細胞系列のコールに課される閾値を外れた生殖細胞系列変異体による偽陽性の体細胞突然変異がコーリングされる場合がある。後者の課題に対処する解決策は、正常なサンプルのパネルをその母集団に共通な基準の生殖細胞系列変異体として使用することであり得る。がん感受性変異体を含む、患者の体内に存在する稀な変異体にさらに対処するため、新しい方法を本明細書において開示する。方法は、患者から、ならびに他の一連の過去に解析した患者から得た全てのサンプルを整列させたシーケンシングデータから、変異体のコーリングおよびスコアリングを同時に行うことに基づくことができる。
本願発明の一実施例は、例えば、核酸を解析するシステムおよび方法に関する。
[0004]本明細書では、組織の高スループットシーケンシングデータからがん体細胞突然変異を特定する、システム、ソフトウェア媒体、ネットワーク、および方法を提供する。
[0005]1つの態様では、コンピューティングシステムが本明細書にて開示され、該コンピューティングシステムは、(a)プロセッサと、機械可読命令を実行するように構成されたメモリモジュールと、(b)データ解析アプリケーションとを備え、該アプリケーションは、(1)高スループットシーケンシング機器によって生成される、個人の1つ以上のサンプルから得られる核酸分子のシーケンスリードを受信するように構成されたデータ受信モジュールと、(2)シーケンスリードを基準アセンブリに対して整列させて、予測ゲノムシーケンスを生成するように構成されたシーケンスアライメントモジュールと、(3)(i)予測ゲノムシーケンスを共同で同時に解析することによって推定変異体を特定し、(ii)体細胞突然変異または生殖細胞系列変異体である確率によって推定変異体をスコアリングするように構成されたゲノム解析モジュールとを備える。
[0006]別の態様では、データ解析アプリケーションを作成するためにプロセッサによって実行可能な命令を含むコンピュータプログラムを用いてコード化された、コンピュータ可読記憶媒体が本明細書にて開示され、該アプリケーションは、(a)高スループットシーケンシング機器によって生成される、個人の1つ以上のサンプルから得られる核酸分子のシーケンスリードを受信するように構成されたデータ受信モジュールと、(b)シーケンスリードを基準アセンブリに対して整列させて、予測ゲノムシーケンスを生成するように構成されたシーケンスアライメントモジュールと、(c)(i)予測ゲノムシーケンスを共同で同時に解析することによって推定変異体を特定し、(ii)体細胞突然変異または生殖細胞系列変異体である確率によって推定変異体をスコアリングするように構成されたゲノム解析モジュールとを備える。
[0007]別の態様では、方法が開示され、該方法は、(a)個人の1つ以上のサンプルを収集するステップと、(b)高スループットシーケンシング機器を使用して、1つ以上のサンプルの核酸分子のシーケンシングを行い、シーケンスリードを生成するステップと、(c)シーケンスリードを基準アセンブリに対して整列させて、予測ゲノムシーケンスを生成するステップと、(d)予測ゲノムシーケンスを共同で同時に解析することによって、推定変異体を特定するステップと、(e)体細胞突然変異または生殖細胞系列変異体である確率によって推定変異体をスコアリングするステップとを含む。
[0008]様々な実施形態では、本明細書に開示するシステム、ソフトウェア媒体、方法、またはそれらの使用は、1つ以上のサンプルを使用することを含む。1つ以上のサンプルは同時に収集することができる。場合によっては、1つ以上のサンプルは少なくとも2つのサンプルを含み、少なくとも2つのサンプルは別の時点で収集することができる。特定の適用例では、1つ以上のサンプルは、原発腫瘍、転移腫瘍、体液、無細胞サンプル、リンパ球、および血漿のうち1つ以上を含んでもよい。
[0009]本明細書に開示する様々な開示のシステム、ソフトウェア媒体、および方法では、推定変異体の特定は、ゲノムシーケンスを、1つ以上の過去に解析した患者から得たシーケンスのバンクのシーケンスと比較することを含むことができる。推定変異体のスコアリングは、正しいコールと誤ったコールの組を用いて訓練した機械学習可能な方法に基づいて確率を調節することを含むことができる。推定変異体の特定およびスコアリングは、染色体座における推論を作成することを含むことができる。
[0010]様々な適用例では、推論の作成は、確率モデル、統計的推論、ベイズ推定、およびベイズネットワークモデルのうち1つ以上を使用することを含むことができる。いくつかの設計では、推論の作成は、生殖細胞系列および体細胞変異体発見の事前確率、染色体座にわたって整列された一連のシーケンスリード、高スループットシーケンシング機器の誤り率、染色体座を含む染色体領域の倍数関係、がんのクローン進化のプロセスモデル、個人の1つ以上の他のサンプルに由来する染色体座におけるコール、1人以上の他の個人の1つ以上のサンプルに由来する染色体座におけるコール、1つ以上の基準母集団の染色体座における共通の多型性の事前知識、染色体座における1つ以上の再発がんの突然変異の事前知識、がんを含むサンプル中のがん細胞の比率、確率モデルによる変異体の説明、確率モデルによる染色体座全体にわたる一連の整列されたシーケンスリードの説明、確率モデルによる染色体座における倍数関係の説明、ならびに確率モデルによるサンプル中のがん細胞の比率の説明のうち1つ以上に基づくことができる。
[0011]いくつかの設計では、ベースコールに対する品質検証において誤り率がもたらされる場合がある。がんを含むサンプルは、がんを引き起こす1つ以上のDNA分子、または1つ以上のがん性組織、または両方を含む場合がある。本明細書で使用する比率は二値変数によって記載することができる。
[0012]本明細書に開示する様々な開示のシステム、ソフトウェア媒体、および方法では、データ解析アプリケーションは、1つ以上のコーディング領域、予測される損傷の深刻度、1つ以上の生殖細胞系列突然変異、1つ以上の体細胞突然変異、1つ以上の突然変異・薬物間の相互作用、臨床試験において観察される1つ以上の突然変異、1つ以上の疾患、1つ以上の症状、または1つ以上の副作用のうち1つ以上における影響に関して、推定変異体に注釈を付けるように構成されたモジュールをさらに備えることができる。
[0013]本明細書に開示する様々な開示のシステム、ソフトウェア媒体、および方法では、データ解析アプリケーションは、治療方法、または処置方法、または両方を推奨するように構成されたモジュールを備えることができる。
[0014]本明細書に開示する様々な開示のシステム、ソフトウェア媒体、および方法では、データ解析アプリケーションは、処置の経過を査定するように構成されたモジュールを備えることができる。
[0015]本明細書に開示する様々な開示のシステム、ソフトウェア媒体、および方法では、データ解析アプリケーションは、リスクを評価するように構成されたモジュールを備えることができる。
[0016]本明細書に開示する様々な開示のシステム、ソフトウェア媒体、および方法では、データ解析アプリケーションは、治療方法、または処置方法、または両方の効率を監視するように構成されたモジュールを備えることができる。
参照による援用
[0017]本明細書において言及する全ての刊行物、特許、および特許出願は、個々の刊行物、特許、また特許出願それぞれが参照により援用されるように具体的に個々に示されたのと同じ程度まで、参照により本明細書に援用する。
[0018]本発明の新規な特徴を、添付の特許請求の範囲において詳細に説明する。本発明の特徴および利点は、本発明の原理を利用した例示的な実施形態を説明する以下の詳細な説明、ならびに添付図面を参照することによって、さらに理解されるであろう。
[0019]本明細書に開示の方法を示す図である。 [0020]データ受信モジュールの一例を示す図である。 [0021]シーケンスアライメントモジュールの一例を示す図である。 [0022]ゲノム解析モジュールの一例を示す図である。 [0023]染色体座におけるシーケンス解析の一例を示す図である。 [0024]推定変異体の確率を評価するために、被験者からの異なるタイプのサンプルを使用する一例を示す図である。 [0025]推定変異体の確率を評価するために、遺伝子座周辺の情報を使用する一例を示す図である。 [0026]がん体細胞突然変異の同時推論のためのベイズネットワークの図である。 [0027]本明細書に開示する解析を実施するコンピュータ制御システムを示す図である。 [0028]例えば被験者の腫瘍サンプルから、DNAライブラリを作成する方法の例示的なワークフローを示す図である。
I.概要
[0029]本明細書に開示する技術は、個人からのサンプルの高スループット核酸シーケンシングデータに対するコンピュータ解析を対象とし得る。解析は、生殖細胞系列および体細胞情報を抽出し、両方のタイプの情報を比較して、確率モデリングおよび統計的推論に基づいて、シーケンス変異体を特定することができる。生殖細胞系列変異体は、天然のまたは正常な変異(例えば、肌の色、髪の色、および標準体重)を含む核酸を指す。体細胞突然変異は、後天的または異常な変異(例えば、がん、肥満、症状、疾患、障害など)を含む核酸を指す。解析は、生殖細胞系列変異体、例えば個人の変異体と、体細胞突然変異とを区別することを含み得る。特定された変異体は、より良好な健康管理を行うために診療所で使用することができる。
[0030]本明細書では、増幅および/またはシーケンシング技術、体細胞突然変異および生殖細胞系列変異体によって導入された、核酸中のシーケンス誤りを区別することができる、改善された方法、コンピューティングシステム、またはソフトウェア媒体を提供する。患者から得た全てのサンプルを整列させたシーケンシングデータから、変異体のコーリングおよびスコアリングを同時に行うことを含む、方法を提供する。他の被験者からのサンプル、例えば、シーケンシングアッセイ、例えばターゲットシーケンシングアッセイ、例えばターゲットリシーケンシングアッセイによって過去に解析された、他の被験者からのサンプルを使用することができる。改善された方法、コンピューティングシステム、またはソフトウェア媒体の使用によって、生殖細胞系列および体細胞突然変異のより良好な弁別(例えば、より少ない偽陽性)、ならびにより低い検出限界(例えば、より少ない偽陰性)をもたらすことができる。
[0031]図1は、本明細書にて提供する方法の概要を示している。ステップ101で、システムまたは方法は、個人の1つ以上のサンプルを収集することを含む。サンプルは、例えば、組織または体液または両方から、個人、例えば被験者、患者から、得ることができる。サンプルは、本明細書に記載する任意のサンプル、例えば、原発腫瘍、転移腫瘍、血液からの軟膜(例えば、リンパ球)、または血漿から抽出した無細胞DNA(cf−DNA)であることができる。102で、例えば高スループットシーケンシング機器によって、1つ以上のサンプルの核酸分子のシーケンシングを行うことができる。例えば、本明細書に記載する任意の方法によって、1つ以上のシーケンシングライブラリを準備することができる。シーケンシングライブラリは、各組織サンプルに対して、ならびに/または異なる時点で得たサンプルに対して準備することができる。シーケンシングによってシーケンスリードを生成することができる。シーケンスリードをアセンブルして個人の予測ゲノムとするため、ステップ103は、シーケンスリードを基準アセンブリに、例えばヒト基準アセンブリに対して整列させて、予測ゲノムシーケンスを生成する。ステップ104で、システムまたは方法は推定変異体を特定する。特定は、予測ゲノムシーケンスを共同で同時に解析することと、体細胞突然変異または生殖細胞系列変異体である確率によって推定変異体をスコアリングすることとを含むことができる。本明細書に記載するように、サンプルの細胞充実性の推定値を使用してスコアリングの情報を与えることができる。変異体は、例えば、一連の良い(即ち、真陽性)細胞および悪い(即ち、偽陽性)細胞を用いて訓練した機械学習方法に基づいて、再スコアリングすることができる。変異体は、コーディング領域、予測される損傷の深刻度、生殖細胞系列および体細胞突然変異の他のデータベースの相互参照、突然変異・薬物間の相互作用、突然変異が観察された患者を受け入れる臨床試験、または他の医学的に関連する知識ベースにおける、変異体の影響に関して注釈を付けることができる。ステップ105で、変異体情報および注釈、例えば、がん遺伝子および関連するホットスポットにわたって変異が存在しないことのエビデンスを腫瘍ボードに提供して、腫瘍ボードが、個人に対する治療の推奨を行うか、または処置の経過もしくは起こり得る再発を査定するのを可能にすることができる。
[0032]また、本明細書では、プロセッサと、機械可読命令を実行するように構成されたメモリモジュールと、高スループットシーケンシング機器によって生成される、個人の1つ以上のサンプルから得られる核酸分子のシーケンスリードを受信するように構成されたデータ受信モジュールを備えるデータ解析アプリケーションと、シーケンスリードを基準アセンブリに対して整列させて、ゲノムシーケンスを生成するように構成されたシーケンスアライメントモジュールと、(i)ゲノムシーケンスを共同で同時に解析することによって推定変異体を特定し、(ii)体細胞突然変異または生殖細胞系列変異体である確率によって推定変異体をスコアリングするように構成されたゲノム解析モジュールとを備える、コンピューティングシステムを提供する。
[0033]また、本明細書では、データ解析アプリケーションを作成するためにプロセッサによって実行可能な命令を含むコンピュータプログラムを用いてコード化された、コンピュータ可読記憶媒体であって、アプリケーションが、高スループットシーケンシング機器によって生成される、個人の1つ以上のサンプルから得られる核酸分子のシーケンスリードを受信するように構成されたデータ受信モジュールと、シーケンスリードを基準アセンブリに対して整列させて、ゲノムシーケンスを生成するように構成されたシーケンスアライメントモジュールと、(i)ゲノムシーケンスを共同で同時に解析することによって推定変異体を特定し、(ii)体細胞突然変異または生殖細胞系列変異体である確率によって推定変異体をスコアリングするように構成されたゲノム解析モジュールとを備える、コンピュータ可読記憶媒体を提供する。
[0034]また、本明細書では、個人の1つ以上のサンプルを収集するステップと、高スループットシーケンシング機器を使用して、1つ以上のサンプルの核酸分子のシーケンシングを行い、シーケンスリードを生成するステップと、シーケンスリードを基準アセンブリに対して整列させて、ゲノムシーケンスを生成するステップと、ゲノムシーケンスを共同で同時に解析することによって、推定変異体を特定するステップと、体細胞突然変異または生殖細胞系列変異体である確率によって推定変異体をスコアリングするステップとを含む、方法を提供する。
II.データ解析アプリケーション
[0035]本明細書にて提供する方法、コンピュータシステム、またはコンピュータ可読媒体は、1つ以上のデータ解析アプリケーションを含むことができる。データ解析アプリケーションは、異なる機能を有するいくつかのモジュールを備えることができる。例えば、データ解析アプリケーションは、シーケンスリードを受信するデータ受信モジュールを備えることができる。データ解析アプリケーションは、シーケンスリードを取得し、シーケンスリードを整列させて、予測ゲノムシーケンスを生成することができる、シーケンスアライメントモジュールを備えることができる。データ解析アプリケーションは、予測ゲノムシーケンスを取得し、確率的および統計的解析を実施して、疾患を引き起こす推定遺伝変異体を特定することができる、ゲノム解析モジュールを備えることができる。
[0036]A.データ受信モジュール
[0037]図2は、データ受信モジュールの一例を示している。データ受信モジュール201は、シーケンシング機器、例えば高スループットシーケンシング機器211によって生成されるシーケンスリードを格納する、メモリデバイスまたはハードドライブなどの一時的データ記憶装置202を含むことができる。非シーケンスデータ212をデータ受信モジュール201に提供することができる。非シーケンスデータ212の例としては、名前、生年月日、性別、年齢層、病歴、家族情報、サンプル源、サンプル収集時間、およびサンプルの生物学的状態が挙げられるが、それらに限定されない。データ受信モジュールは、被験者からの少なくとも1、2、3、4、5、10、20、またはそれ以上のサンプルから、シーケンスリードデータを受信することができる。データ受信モジュールは、少なくとも1、2、3、4、5、10、20、またはそれ以上の異なる被験者から、シーケンスデータを受信することができる。
[0038]データ受信モジュールは、データ再編成プロセス203を含むことができる。再編成プロセス203は、一時的に格納されたデータを所定のフォーマットに再編成し、再編成されたデータをデータベース204に格納することができる。例えば、複数の被験者のシーケンスリードを個々の被験者ごとに分離することができる。別の例では、注釈付き情報に基づいてシーケンスリードを再編成することができる。いくつかの実施形態では、例えば、シーケンスデータおよび非シーケンスデータを対にできない場合、データ再編成プロセス203は、両方のデータを一時的データ記憶装置に返して、さらに入ってくるデータを待つことができ、またはデータ再編成プロセス203は、欠落しているデータ入力をマークし、再編成されたデータをデータベース204に格納することができる。
[0039]B.シーケンスアライメントモジュール
[0040]図3は、シーケンスアライメントモジュールの一例を示している。シーケンスアライメントモジュールの動作は3つのステップを含むことができる。モジュールは、データ受信モジュールからのシーケンスリード311にアクセスすることができる。モジュールはまた、アライメントのため、1つ以上の基準ゲノム312にアクセスすることができる。第1のステップ302は、シーケンスリードを検索し、シーケンスリードを複数の候補染色体セグメントと比較することができる。「複数」は、少なくとも2つの要素を含むことができる。特定の事例では、複数は、少なくとも10、少なくとも100、少なくとも100、少なくとも10,000、少なくとも100,000、少なくとも1,000,000、少なくとも10,000,000、少なくとも100,000,000、または少なくとも1,000,000,000、もしくはそれ以上の要素を有することができる。比較は統計的解析に基づくことができる。第2の303で、シーケンスアライメントモジュールは、最も一致スコアが高いゲノムセグメントを選ぶことができる。ステップ302および303を各シーケンスリードに対して繰り返すことができる。最後のステップ304は、例えば全てのシーケンスリードが基準ゲノムにマッピングされると、全てのシーケンスリードをアセンブルし凝集して、個人の予測ゲノムシーケンスとすることができる。
[0041]ゲノムシーケンスは、本明細書で使用するとき、ゲノム中に生じるシーケンスを指すことができる。RNAはゲノムから転写されるので、この用語は、有機体の核ゲノム中に存在するシーケンス、ならびにかかるゲノムから転写されるRNA(例えば、mRNA)のcDNAコピー中に存在するシーケンスを包含することができる。
[0042]予測ゲノムシーケンスは、本明細書で使用するとき、シーケンスアライメントモジュールによってアセンブルされたゲノムシーケンスを指すことができる。
[0043]サンプル調製およびシーケンシングのプロセスでは、核酸、例えばサンプル中に存在するDNA断片の、一部または全体のシーケンシングを実施することができる。既知の基準ゲノムに対してマッピングするリードを含むシーケンスタグを計数することができる。場合によっては、基準ゲノムに対して一意的に整列するシーケンスリードのみをシーケンスタグとして計数することができる。いくつかの実施形態では、基準ゲノムは、ワールドワイドウェブ上でgenome.ucsc.edu/cgi−bin/hgGateway?org=Human&db=hgl8&hgsid=166260105にて利用可能な、ヒト基準ゲノムNCBI36/hg18シーケンスである。他の公開シーケンス情報源としては、GenBank、dbEST、dbSTS、EMBL(欧州分子生物学研究所)、およびDDBJ(日本DNAデータバンク)が挙げられる。基準ゲノムはまた、ヒト基準ゲノムNCBI36/hg18シーケンス、および多型性標的シーケンスを含む人工標的シーケンスゲノムを含むことができる。いくつかの実施形態では、基準ゲノムは、多型性標的シーケンスを含む人工標的シーケンスゲノムである。基準ゲノムは、公開ヒトゲノム(例えば、hg18、hg19、またはhg37)であることができる。
[0044]場合によっては、基準ゲノムは、サンプルを評価中の被験者と同じ疾患(例えば、がん)、年齢、民族、性別、国籍、職業、暴露(例えば、毒素、放射線、もしくは生物剤に対する)、または居住地(例えば、同じ家、市、州、国、もしくは大陸)の被験者または被験者群からのものである。場合によっては、基準ゲノムは、サンプルを評価中の被験者とは異なる疾患(例えば、がん)、年齢、民族、性別、国籍、職業、暴露(例えば、毒素、放射線、もしくは生物剤に対する)、または居住地(例えば、同じ家、市、州、国、もしくは大陸)の被験者または被験者群からのものである。基準ゲノムは、サンプルを評価中の被験者の1人以上の親族(例えば、父親、母親、きょうだい、いとこ、もしくは祖父母)からのものであることができる。場合によっては、基準ゲノムは、サンプルを評価中の被験者の親族(例えば、父親、母親、きょうだい、いとこ、もしくは祖父母)からのものではない。
[0045]シーケンスタグのマッピングは、タグのシーケンスを基準ゲノムのシーケンスと比較して、シーケンシングした核酸(例えば、無細胞DNA)分子の染色体起源を判定することによって達成することができる。非限定的に、BLAST(Altschul et al.、1990年)、BLITZ(MPsrch)(Sturrock&Collins、1993年)、FASTA(Person&Lipman、1988年)、BOWTIE(Langmead et al.、Genome Biology 10:R25.1〜R25.10[2009])、またはELAND(Illumina,Inc.、San Diego、CA、USA)など、多数のコンピュータアルゴリズムがシーケンスの整列に利用可能である。一実施形態では、核酸分子はクローン増殖させることができ、DNA分子のクローン増殖したコピーの一端を、ヌクレオチドデータベースの効率的大規模アラインメント(ELAND)ソフトウェアを使用することができる、Illumina Genome Analyzer向けに、バイオインフォマティックアライメント解析によってシーケンシングし処理する。付加的なソフトウェアとしては、SAMtools(SAMtools、Bioinformatics、2009、25(16):2078−9)、および圧縮をより効率的にするブロックソーティングまたは前処理を伴う場合がある、Burroughs−Wheelerブロックソート圧縮手順が挙げられる。シーケンスアライメントツールは、Artemis Comparison Tool(ACT)、AVID、BWA−MEM、BLAT、DECIPHER、GMAP、Splign、Mauve、MGA、Mulan、Multiz、PLAST−ncRNA、Sequerome、Sequilab、Shuffle−LAGEN、SIBsim4、またはSLAMであることができる。シーケンスアライメントツールは、ショートリードシーケンスアライメントツール、例えば、BarraCUDA、BBMap、BFAST、BigBWA、BLASTN、BLAT、またはBowtieであることができる。
[0046]C.ゲノム解析モジュール
[0047]図4は、ゲノムアライメントモジュールの一例を示している。ゲノム解析モジュールの入力は、1つ以上の生殖細胞系列サンプルからのゲノムシーケンス411、1つ以上の体細胞サンプルからのゲノムシーケンス412、および事前ゲノム知識413であることができる。生殖細胞系列サンプルとしては、末梢血などの体液を挙げることができる。体細胞サンプルとしては腫瘍組織を挙げることができる。事前ゲノム知識413としては、公開されている科学文献のデータベースからの情報、またはゲノム注釈のデータベースからの情報、または同じ被験者もしくは異なる被験者からの過去に解析したサンプルのデータベースからの情報、またはそれらのデータベースの組み合わせからの情報を挙げることができる。
[0048]ゲノム解析モジュールは、ゲノムシーケンスを、1人以上の過去に解析した患者からのシーケンスのバンクにおけるシーケンスに対して比較することによって、1つ以上の推定変異体を特定することができる。モジュールは4つのステップを実施することができる。第1のステップ402は、遺伝領域からゲノムシーケンスを抽出することを伴うことができ、シーケンスは異なるサンプルからのものである。ステップ403は、抽出したシーケンスを生殖細胞系列および体細胞サンプルにわたって比較することができ、比較は、確率的および統計的方法に基づくことができる。ステップ404は、1つ以上の推定変異体を判定することができ、推定変異体は、生殖細胞系列変異体または体細胞突然変異であることができる。ステップ402、403、および404を、対象の全ての遺伝領域にわたって繰り返すことができる。ステップ405は、1つ以上の推定変異体の臨床的意味を査定することができる。
[0049]遺伝領域は1つ以上の染色体座を含むことができる。遺伝領域は染色体上の連続領域であることができる。遺伝領域は2つ以上の離散的な染色体領域の集合であることができる。遺伝領域は単一の染色体上にあることができる。場合によっては、遺伝領域は2つ以上の染色体上にあることができる。いくつかの実施形態では、遺伝領域は1つ以上の塩基対であることができる。
[0050]生殖細胞系列および体細胞サンプルにわたるシーケンスの比較、ならびに1つ以上の推定変異体の判定は、体細胞突然変異または生殖細胞系列変異体であることの確率による、推定変異体のスコアリングに基づくことができる。推定変異体のスコアリングは、正しいコール(即ち、真陽性)と誤ったコール(即ち、偽陽性)の組を用いて訓練した機械学習方法に基づいて確率を調節することを含むことができる。
[0051]D.染色体座または遺伝領域における推論の作成
[0052]推定変異体の特定およびスコアリングは、染色体座または遺伝領域における推論を作成することを含むことができる。推論の作成は、確率モデルおよび/または統計的推論を使用することを含むことができる。確率モデルおよび統計的推論の例としては、ベイズ推論およびベイズネットワークモデルが挙げられるが、それらに限定されない。推論の作成は、事前ゲノム知識413に由来する生殖細胞系列および体細胞変異体を発見する事前確率に基づくことができる。
[0053]「遺伝子座」という用語は、染色体上における遺伝子、ヌクレオチド、またはシーケンスの位置を指すことができる。遺伝子座の「対立遺伝子」は、遺伝子座におけるヌクレオチドまたはシーケンスの代替形態を指すことができる。「野生型対立遺伝子」は、被験者の母集団における出現頻度が最も高い対立遺伝子を指すことができる。場合によっては、「野生型」対立遺伝子は疾患と関連付けられない。「変異対立遺伝子」は、「野生型対立遺伝子」よりも出現頻度が低く、疾患と関連付けることができる対立遺伝子を指すことができる。場合によっては、「変異対立遺伝子」は疾患と関連付けられない。「識別(interrogated)対立遺伝子」という用語は、検出用にアッセイが設計された対立遺伝子を指すことができる。「一塩基多型」または「SNP」という用語は、シーケンス内の一塩基置換によってもたらされる一種のゲノムシーケンスの変異を指すことができる。「SNP対立遺伝子」または「SNPの対立遺伝子」は、特定の遺伝子座におけるSNPの代替形態を指すことができる。「識別SNP対立遺伝子」という用語は、検出用にアッセイが設計されたSNP対立遺伝子を指すことができる。
[0054]推論の作成は、染色体座にわたる一連の複数のシーケンスに基づくことができる。図5を参照すると、染色体座501が対象のものである。複数のシーケンスは単一のサンプルからのものであることができ、遺伝子座501を含む複数の領域A、B、C、Dから収集することができる。複数のシーケンスは、複数のサンプル1、2、…、Nからのものであることができ、遺伝子座501を含む同一の領域Cから収集することができる。
[0055]推論の作成は、高スループットシーケンシング機器の誤り率に基づくことができる。誤り率は、ベースコールに対する品質検証においてもたらされる場合がある。いくつかの例では、推論の作成は、染色体座にわたる染色体領域の倍数関係に基づくことができる。異常な倍数関係は、体細胞突然変異または生殖細胞系列変異と関連付けられることがある。
[0056]推論の作成は、がんのクローン進化のプロセスモデルに基づくことができる。プロセスは、第1の状態から第2の状態が予測または推論されるマルコフ連鎖によってモデル化されてもよい。例えば、がんのあるステージから別のステージへの進化時間、腫瘍が時間とともに進化する際の腫瘍組織のサイズ、原発臓器から別の遠隔臓器への転移過程、初期段階および後期段階で起こる随伴症状を伴うがん成長過程。
[0057]推論の作成は、個人の1つ以上の他のサンプルに由来する染色体座におけるコールに基づくことができる。図5を参照すると、サンプル1、2、…、Nは、個人の単一の腫瘍組織から収集することができ、遺伝子座501の核酸コール(nucleic acid call)は、利用可能なサンプル全てまたは利用可能なサンプルの一部を解析することによる、生殖細胞系列変異または体細胞突然変異のコールの評価に基づくことができる。
[0058]推論の作成は、他の1人以上の個人の1つ以上のサンプルに由来する染色体座におけるコールに基づくことができる。図5を参照すると、サンプル1、2、…、Nは、2人以上の個人から収集することができ、遺伝子座501の核酸コールは、利用可能なサンプル全てまたは利用可能なサンプルの一部を解析することによる、生殖細胞系列変異または体細胞突然変異のコールの評価に基づくことができる。
[0059]推論の作成は、1つ以上の基準母集団の染色体座における共通の多型性の事前知識に基づくことができる。図5を参照すると、染色体座501は、事前ゲノム知識における多型性をもたらす既知のがんであることができ、例えば、事前知識は、染色体座501における1つ以上の再発がん突然変異を示す。
[0060]推論の作成は、サンプル中のがん細胞の比率に対する細胞充実性の推定値に基づくことができる。細胞充実性は、腫瘍に由来するサンプル中における核酸の画分であることができる。
[0061]推論の作成は、1つ以上の確率モデルに基づくことができる。確率モデルを使用して、染色体座にわたる一連の整列されたシーケンスリード、染色体座における倍数関係、またはサンプル中のがん細胞の比率を説明することができる。確率モデルは、ガウス分布、ガンマ分布、または指数分布などの連続モデルを含むことができる。二項分布および多項分布などの離散的モデルを使用することができる。
[0062]E.他のモジュール
[0063]データ解析アプリケーションは、推定変異体に注釈を付けるように構成されたモジュールをさらに備えることができる。推定変異体は、コーディング領域における変異体、変異体によって生じる予測表現型、1つ以上の生殖細胞系列突然変異もしくは1つ以上の体細胞突然変異の他のデータベースに対する相互参照、1つ以上の突然変異・薬物間の相互作用、臨床試験における1つ以上の観察される突然変異、1つ以上の疾患、1つ以上の症状、または1つ以上の副作用の影響に関して注釈を付けることができる。
[0064]データ解析アプリケーションは、変異体、染色体座、染色体領域に関する臨床的意味を査定するように構成されたモジュールをさらに備えることができる。いくつかの例では、サンプルまたは個人に対して臨床的意味を査定することができる。例えば、査定を使用して、治療方法、処置方法、処置の経過、予測される結果、予測される効率、またはリスクを推奨することができる。
III.方法
[0065]本明細書で提供する方法は、コンピュータシステムまたはコンピュータ可読媒体の使用を含むことができる。方法の一例を図1に提供する。
[0066]本明細書で提供する方法は、個人からの1つ以上のサンプルを利用することができる。1つ以上のシーケンシングライブラリを1つ以上のサンプルから準備することができる。シーケンシングライブラリを、シーケンシングプロセスで、またはデータ解析で使用することができる。シーケンシングライブラリは、本明細書に開示する方法のいずれかによって準備することができる。2つ以上のライブラリを同時に、または別の時点で準備することができる。例えば、シーケンシングライブラリは、腫瘍生検によって抽出した核酸から準備することができる。シーケンシングライブラリは、例えば、腫瘍生検からのシーケンシングライブラリを準備した後で、被験者の無細胞DNAサンプルから抽出した核酸から準備することができる。
[0067]シーケンシングライブラリのシーケンシングを行って、シーケンシングリードを提供することができる。シーケンシングリードを、基準ゲノムに対して、例えば記載した基準ゲノムに対して整列させることができる。基準ゲノムは、公開ヒトゲノム(例えば、hg18、hg19、またはhg37)などのヒト基準ゲノムであることができる。
[0068]被験者の1つ以上のサンプルからのシーケンシングライブラリによるリードアライメントは、同時確率によって説明することができ、したがって同時に解析することができる。場合によっては、被験者のサンプル(腫瘍組織および正常な組織のサンプル、固形組織および体液のサンプル、治療前および治療後サンプル)から得た全ての利用可能なシーケンシングライブラリからのリードアライメントが同時に解析される。場合によっては、過去に解析した被験者のシーケンシングライブラリからのアライメントが解析に含まれる。
[0069]いくつかの実施形態では、被験者の腫瘍サンプルに由来する核酸のシーケンスライブラリからの遺伝子座における推定変異体が、体細胞突然変異であるという確率を判定することができる。推定変異体が腫瘍または生殖細胞系列の核酸(例えば、DNA)に由来するものであるという確率は、少なくとも部分的には、後述する1つ以上の特徴を解析することによって判定することができる。
[0070]突然変異は、基準と比較した場合のゲノムのヌクレオチドシーケンスの変化を指すことができる。突然変異にはDNAの大きい部分が関与する場合がある(例えば、コピー数多型)。突然変異には全染色体が関与する場合がある(例えば、異数性)。突然変異にはDNAの小さい部分が関与する場合がある。DNAの小さい部分が関与する突然変異の例としては、例えば、点突然変異または一塩基多型、多塩基多型、挿入(例えば、遺伝子座における1つ以上のヌクレオチドの挿入)、多塩基変化、欠失(例えば、遺伝子座における1つ以上のヌクレオチドの欠失)、および反転(例えば、1つ以上のヌクレオチドのシーケンスの逆転)が挙げられる。「コピー数多型」または「CNV」という用語は、遺伝情報のコピー数の違いを指すことができる。CNVは、ゲノム領域のゲノム当たりコピー数の違いを指すことができる。例えば、二倍体生物では、常染色体ゲノム領域の予期されるコピー数はゲノム当たり2コピーである。かかるゲノム領域は細胞当たり2コピーで存在し得る。最近の調査については、Zhang et al.Annu.Rev.Genomics Hum,Genet.2009.10:451−81を参照のこと。CNVは、ヒトの遺伝的多様性の元であることができ、例えば、遺伝子量、遺伝子破壊、または遺伝子融合の変化による、複合的な障害および疾患と関連付けられる場合がある。また、良性の多型性変異体を表す場合がある。CNVは、例えば1Mb超過の大きいもの、または例えば100塩基〜1Mbの小さいものであることができる。100塩基を超過する(また3Mb未満の)38,000を超えるCNVがヒトにおいて報告されている。SNPとともに、これらのCNVは、個人ごとに異なる顕著な量の表現型変異を説明することができる。有害な影響を有すること、例えば疾患を引き起こすことに加えて、有利な変化ももたらすことができる。「構造多型」という用語は、染色体の構造の変異を指すことができる。構造多型は、欠失、複製、コピー数変異体、挿入、反転、および転座であることができる。場合によっては、遠く離れた2つの領域が近接させられる。例えば、転座、欠失、または反転の事象によって連結させることができる、それまで別個であった2つの遺伝子から形成されるハイブリッド遺伝子は、「遺伝子融合」または「融合遺伝子」と呼ぶことができる。
[0071]A.同じ被験者からの追加のサンプル
[0072]推定変異体が、腫瘍または生殖細胞系列核酸、例えばDNAに由来するものである確率は、部分的には、被験者からの腫瘍サンプル以外のサンプル中の染色体座における、生殖細胞系列変異体および/または体細胞突然変異を検出することによって判定することができる。例えば、図6を参照すると、染色体Aにおける遺伝子座601はがんと関連付けられることが分かっている。他方で、非腫瘍サンプル(例えば、血液)中の染色体Bの遺伝子座611および染色体Cの遺伝子座612における変異体は、腫瘍形成のシグネチャーである。したがって、遺伝子座611および612における変異体の評価を使用して、被験者が遺伝子座601に腫瘍の遺伝子変異を有する確率を計算することができる。
[0073]例えば、場合によっては、患者の生殖細胞系列細胞がBRCA1変異体を含む場合、BRCA1変異体は腫瘍の体細胞突然変異に由来するものではない。他のシナリオを確率モデルにおいて考察することができる。例えば、1つのシナリオは、BRCA1突然変異が生殖細胞系列細胞および腫瘍細胞において独立して生じたというものである。別のシナリオは、BRCA1突然変異が1つの細胞タイプには存在し、別の細胞タイプには存在しないというものである。
[0074]B.遺伝子座の周囲に存在する変異体の出現頻度
[0075]推定変異体が腫瘍または生殖細胞系列核酸、例えばDNAに由来する確率は、部分的には、変異体を含む遺伝子座にわたって整列される一連のシーケンスリードに変異体が存在する出現頻度を評価することによって、判定することができる。例えば、図7を参照すると、腫瘍の遺伝子変異は遺伝子座701で発生することが分かっている。変異体は、高頻度で遺伝子座701付近でも発生する。所与のサンプルのシーケンス702が遺伝子座701を含む場合、サンプルが701に腫瘍の遺伝子変異を有するかの評価は、遺伝子座701の近傍における1つ以上の変異体の出現頻度を解析することによって査定することができる。出現頻度が高い場合、突然変異が遺伝子座701で起こる確率が高い。
[0076]例えば、生検のシーケンシングを行い、既知の腫瘍の遺伝子変異を含むリードが欠落している場合、腫瘍遺伝子座の近傍におけるシーケンスリードを解析することによって、突然変異多様体が存在する確率を推論することができる。近傍がより多くの変異体を含む場合、サンプルが腫瘍の突然変異を含む確率が高い。
[0077]C.シーケンシング機器の誤り率
[0078]推定変異体が腫瘍または生殖細胞系列核酸、例えばDNAに由来する確率は、リードアライメントに用いられるシーケンスリードを生成するために使用されるシーケンシング機器の誤り率を解析することによって、判定することができる。誤りおよび/またはノイズは、サンプル調製およびシーケンシングのプロセスの間に起こり得る。したがって、シーケンス機器によって報告される誤り率を、推定変異体が誤りによるものであるかを評価するために使用することができる。
[0079]シーケンシング機器の誤り率は、少なくとも部分的には、シーケンシングリードとともに提供されるシーケンス品質スコアによって判定することができる(例えば、生体シーケンスおよびそれに対応する品質スコアの両方を格納するテキストベースのフォーマットである、FastQスコア)。場合によっては、誤り率は校正情報によって調節される。かかる校正情報は、例えば、出現頻度が低い推定変異体の量を定量化することにより、シーケンシングの誤りまたはPCR変異体に起因する可能性が最も高い変異体を直接検出することによって、判定することができる。
[0080]D.倍数関係
[0081]推定変異体が腫瘍または生殖細胞系列核酸、例えばDNAに由来する確率は、腫瘍サンプル中の染色体セグメントの倍数関係を解析することによって、判定することができる。染色体または染色体セグメントがサンプル中に予期しない複製を有する場合、腫瘍の遺伝子変異の確率が増加する。
[0082]場合によっては、倍数関係の推定値は、二倍体、一倍体、正倍数体、接合体(zygoidy)、または多倍数体を含む。場合によっては、腫瘍中の遺伝子複製、領域複製、または染色体複製が発生することができ、対照サンプル、または同じサンプルの他のシーケンスのどちらかに対する比較によって、倍数関係を推論することができる。さらに、サンプル中に隠れた他の情報を、例えば、サンプルの病歴、尤度が高い推定変異体と関連付けられる別の推定変異体を、使用することができる。
[0083]E.がんの進化
[0084]推定変異体が腫瘍または生殖細胞系列核酸、例えばDNAおよびRNAに由来する確率は、がんのクローン進化のプロセスを解析することによって、判定することができる。様々な適用例では、第1の状態は第1の確率モデルによって説明することができ、第2の状態は第2の確率モデルによって説明することができる。第1の状態から第2の状態への移行は、第1の確率モデルから第2の確率モデルへと転換する確率過程によって説明することができる。確率過程によってがんの進化過程が特性決定されると、第1の状態における観察データを使用して、第2の状態において起こり得る状態を推論または予測することができる。
[0085]解析で考察することができるがんのクローン進化の例としては、がんのあるステージから別のステージへの進化時間、時間とともに進化する際の腫瘍組織のサイズ、原発臓器から別の遠隔臓器への転移過程、随伴症状を伴うがん成長過程が挙げられるが、それらに限定されない。
[0086]F.他の被験者からの情報
[0087]推定変異体が腫瘍または生殖細胞系列核酸、例えばDNAに由来する確率は、異なる被験者からのサンプル中の同じ遺伝子座におけるベースコールを解析することによって、判定することができる。同じ家族からの、または同人種からの、または同じ母集団からの被験者は、類似の遺伝的特性を共有している可能性がある。例えば、基準母集団の遺伝子座に多型性が存在することまたは存在しないことの知識を、事前確率としてモデル化することができる。したがって、他の被験者からの遺伝情報が、確率を計算するための追加情報を提供することができる。
[0088]例えば、特定の遺伝子座が一般母集団内においてより多くの変異を含む場合があり、一部の遺伝子座が高レベルの特異性を示す場合がある。一般母集団内において高レベルの変異を有する遺伝子座が変異体を含むという事前確率は、高レベルの純化選択を示す遺伝子座が変異体を含むという事前確率よりも高い。特定の遺伝子座における変異体の出現頻度は、1000人ゲノムプロジェクトまたは公開されている研究など、過去のまたは同時の観察によって判定することができる。
[0089]G.再発がんの突然変異
[0090]推定変異体が腫瘍または生殖細胞系列核酸、例えばDNAに由来する確率は、遺伝子座における再発がんの突然変異の知識を解析することによって、判定することができる。初期のサンプルにおいて既に特定されている突然変異が、後期のサンプルでも発生する場合がある。したがって、再発がんの突然変異は事前確率モデルを提供することができる。かかる出現頻度は、例えば、がん患者からの追加観察によって(例えば、COSMICまたはTGCAから)判定することができる。
[0091]H.細胞充実性の推定値
[0092]推定変異体が腫瘍または生殖細胞系列核酸、例えばDNAに由来する確率は、サンプル中のがん細胞の比率を解析することによって、判定することができる。サンプルがより多くのがん細胞を含む場合、推定変異が腫瘍(体細胞)突然変異である確率が高くなる。したがって、がん細胞の比率を推定することによって、推定変異体を認識する際の追加情報を提供することができる。
[0093]細胞充実性は、腫瘍に由来するサンプル中における核酸の画分であることができる。細胞充実性は、核酸抽出前に生検サンプルを検査(例えば、目視検査)することによって推定することができる。検査は、目視、撮像、病理学的研究、または病歴に基づくことができる。細胞充実性は、核酸サンプル中における腫瘍由来の変異体のレベルによって判定することができる。場合によっては、細胞充実性は、生殖細胞系列からの核酸(例えば、DNA)分子が腫瘍サンプル中に存在する確率を示す、0〜1の値である。
[0094]I.補正係数
[0095]推定変異体が腫瘍または生殖細胞系列核酸、例えばDNAに由来する確率は、少なくとも部分的には、別の被験者のデータの、または過去のサンプルによる経験的データから、遺伝子座における各変異体の出現頻度を判定することによって、判定することができる。場合によっては、補正係数は、これまで観察されなかった変異体に発生の事前確率ゼロが割り当てられないようにして用いることができる。補正係数はラプラス補正であることができる。確率を判定する方法は、例えば、Cleary et al.,Joint Variation and De Novo Mutation Identification on Pedigrees from High−Throughput Sequencing Data,Journal of Computational Biology vol.21,pp.405−419(2014)に記載されているようなものであることができ、その全体を参照により本明細書に援用する。
IV.計算方法
[0096]変異体が腫瘍または生殖細胞系列DNAに由来する確率を判定する例示的な方法は、ベイズネットワークを利用するものである(例えば、その全体を参照により本明細書に援用する、Koller&Friedman,Probabilistic Graphical Modelsを参照のこと)。図8は、例示的なベイズネットワークの図を示している。ネットワーク図において、「C」は推論される変異体コールを表し、「R」は遺伝子座にわたる一連の整列されたリードのベースコールを表し、「P」は遺伝子座における倍数関係であり、「U」はサンプルの細胞充実性を表す。変異体が各サンプル中の腫瘍または生殖細胞系列DNA分子に由来する確率を推論するために、次の条件付き確率分布(CPD)に適切な値を供給することができる。(a)P(R|C)、特定の変異体コールを前提とした一連のリードの確率、(b)P(C|C)、その遺伝子座における生殖細胞系列を前提とした原発腫瘍細胞の確率、および(c)P(Ccf|C)、原発腫瘍サンプル中のコールを前提としたcf−DNAにおける腫瘍コールの確率。
[0097]細胞充実性は、細胞充実性(例えば、0〜1の値の、シーケンシングリードががん細胞によるものである確率)を表すことができる、ベイズネットワークの変数「U」によって説明することができる。この値は解析の前に提供することができるが、場合によっては、事前推定値を提供することによって、データから推論することができる。細胞充実性について考察する際、腫瘍におけるリードを前提とした腫瘍中の細胞充実性画分の確率、および血漿の無細胞画分におけるリードを前提とした血漿中の細胞充実性画分の確率である、P(U|R)およびP(Uct|Rct)という、2つの新しいCDPを推定することができる。
[0098]母集団のコーリング方法をこれらの方法と組み合わせて、例えば、Cleary et al.,Journal of Computational Biology,vol.21,pp.405−419 2014に記載されている方法を使用して、ただしがん組織を含む生殖細胞系列を同時にコーリングしている間に、他のサンプルからのデータのバンクを同時にコーリングすることによって、健康な組織における生殖細胞系列突然変異の検出を改善することができる。
[0099]CPD P(R|C)は、Cleary et al.,Journal of Computational Biology,vol.21,pp.405−419(2014)に記載されているようなものであり得る。上記(b)および(c)のCPDは、腫瘍タイプおよび優性突然変異のシグネチャーごとに調節することができる、体細胞突然変異率の経験値に基づいて判定することができる。P(C|C)の場合、また原発腫瘍と無細胞体液中で観察される腫瘍DNAとの単純な系統関係を想定することによって、メンデル型分離ではなく変異体の単純な遺伝を想定する、子孫におけるデノボ変異を検出するため、例えば、Cleary et al.,Journal of Computational Biology,vol.21,pp.405−419(2014)に記載されているものと同様の計算を使用して、CPDを判定することができる。
[00100]一例では、原発腫瘍組織または無細胞DNAのみが解析に利用可能である。かかる事例では、事前情報を使用して、P(C|Ctp)(Ctpは、がん患者の事前観察に基づいた、その遺伝子座において特定の体細胞突然変異対立遺伝子を観察する事前確率)、およびP(G|G)(Gは、Gを前提とした腫瘍中に存在する生殖細胞系列変異体の遺伝子型)などのCPDを推定することができ、この遺伝子座において特定の遺伝子型を観察する確率は、母集団規模の変異調査(1000人ゲノムプロジェクトなど)に由来する。次に、これらの確率を、出力において解析される各変異体に対するスコアとして提供し、必要に応じて、機械学習方法を使用して経験的検証に基づいて再校正し、その後、下流での注釈または臨床報告など、所与の適用例に対する適切な偽陽性および/または偽陰性率を判定することができる。
V.コンピューティングシステム
[00101]本明細書で提供する方法、コンピュータシステムまたはコンピュータ可読媒体は、プロセッサを備えるかまたは利用することができる。プロセッサは、1つ以上のハードウェア制御処理装置(CPU)プロセッサを含むことができる。プロセッサは、デスクトップコンピュータプロセッサ、サーバプロセッサ、およびモバイルプロセッサであることができる。プロセッサはマイクロプロセッサを含むことができる。
[00102]メモリモジュールを、本明細書で提供する方法、コンピュータシステム、またはコンピュータ可読媒体において、もしくはそれらとともに使用することができる。メモリモジュールは、一時的もしくは恒久的にデータまたはプログラムを格納するために使用される、1つ以上の物理的装置であることができる。メモリモジュールは、揮発性メモリであることができ、格納された情報を維持する電力を要する場合がある。場合によっては、メモリモジュールは不揮発性メモリであり、コンピューティングシステムが通電されていないときに、格納された情報を保持する。さらなる実施形態では、不揮発性メモリはフラッシュメモリを含む。いくつかの実施形態では、不揮発性メモリはダイナミックランダムアクセスメモリ(DRAM)を含む。いくつかの実施形態では、不揮発性メモリは強誘電体メモリ(FRAM)を含む。いくつかの実施形態では、不揮発性メモリは相変化メモリ(PRAM)を含む。
[00103]本明細書で提供する方法、コンピュータシステム、またはコンピュータ可読媒体は、オペレーティングシステムを備えるかまたは利用することができる。オペレーティングシステムは、例えば、デバイスのハードウェアを管理し、アプリケーションを実行するためのサービスを提供することができる、プログラムおよびデータを含むソフトウェアであることができる。当業者であれば、適切なサーバオペレーティングシステムとしては、非限定例として、FreeBSD、OpenBSD、NetBSD(登録商標)、Linux、Apple(登録商標)Mac OS X Server(登録商標)、Oracle(登録商標)、Solaris(登録商標)、Windows Server(登録商標)、およびNovell(登録商標)NetWare(登録商標)が挙げられることを認識するであろう。当業者であれば、適切なパーソナルコンピュータオペレーティングシステムとしては、非限定例として、Microsoft(登録商標)Windows、Apple(登録商標)Mac OS X(登録商標)、UNIX(登録商標)、およびGNU/Linux(登録商標)などのUNIXと類似のオペレーティングシステムが挙げられることを認識するであろう。いくつかの実施形態では、オペレーティングシステムはクラウドコンピューティングによって提供される。当業者であれば、また、適切なモバイルスマートフォンオペレーティングシステムとしては、非限定例として、Nokia(登録商標)Symbian(登録商標)OS、Apple(登録商標)iOS(登録商標)、Research In Motion(登録商標)BlackBerry OS(登録商標)、Google(登録商標)Android(登録商標)、Microsoft(登録商標)Windows Phone(登録商標)OS、Microsoft(登録商標)Windows Mobile(登録商標)OS、Linux(登録商標)、およびPalm(登録商標)WebOS(登録商標)が挙げられることを認識するであろう。
[00104]機械可読命令は、指定のタスクを実施するように記述された、デジタル処理装置のCPUで実行可能な命令のシーケンスを含むことができる。本明細書で提供する開示を鑑みて、当業者であれば、コンピュータプログラムを様々な言語の様々なバージョンで記述できることを認識するであろう。いくつかの実施形態では、機械可読命令は命令の1つのシーケンスを含む。いくつかの実施形態では、機械可読命令は命令の複数のシーケンスを含む。いくつかの実施形態では、機械可読命令は1つのロケーションから提供される。他の実施形態では、機械可読命令は複数のロケーションから提供される。様々な実施形態では、機械可読命令は1つ以上のソフトウェアモジュールを含む。様々な実施形態では、機械可読命令は、部分的にまたは全体的に、1つ以上のウェブアプリケーション、1つ以上のモバイルアプリケーション、1つ以上の独立型アプリケーション、1つ以上のウェブブラウザプラグイン、エクステンション、アドイン、アドオン、またはそれらの組み合わせを含む。
[00105]コンピュータ可読記憶媒体はメモリモジュールを含むことができる。コンピュータ可読記憶媒体は、デジタル処理装置の有形コンポーネントであることができる。さらに他の実施形態では、コンピュータ可読記憶媒体は、任意に、デジタル処理装置から取外し可能である。いくつかの実施形態では、コンピュータ可読記憶媒体としては、非限定例として、CD−ROM、DVD、フラッシュメモリデバイス、固体メモリ、磁気ディスクドライブ、磁気テープドライブ、光学ディスクドライブ、クラウドコンピューティングシステムおよびサービスなどが挙げられる。場合によっては、プログラムおよび命令は、恒久的に、実質的に恒久的に、半恒久的に、または非一時的に媒体上でコード化される。
[00106]本開示は、本開示の方法を実現するようにプログラミングされたコンピュータ制御システムを提供する。図9は、開示のシーケンス解析を実施するようにプログラミングされるかまたは別の形で構成された、コンピュータシステム901を示している。コンピュータシステム901は、ユーザの電子デバイス、または電子デバイスに対して遠隔に配置されたコンピュータシステムであることができる。電子デバイスはモバイル電子デバイスであることができる。
[00107]コンピュータシステム901は、シングルコアもしくはマルチコアプロセッサであることができる、中央処理装置(CPU、ならびに本明細書では「プロセッサ」および「コンピュータプロセッサ」)905、または並列処理向けの複数のプロセッサを含むことができる。コンピュータシステム901はまた、メモリまたはメモリロケーション910(例えば、ランダムアクセスメモリ、読出し専用メモリ、フラッシュメモリ)、電子記憶装置915(例えば、ハードディスク)、1つ以上の他のシステムと通信する通信インターフェース920(例えば、ネットワークアダプタ)、ならびにキャッシュ、他のメモリ、データ記憶装置、および/または電子ディスプレイアダプタなど、周辺デバイス925を含むことができる。メモリ910、記憶装置915、インターフェース920、および周辺デバイス925は、マザーボードなどの通信バス(実線)を通してCPU 905と連通している。記憶装置915は、データを格納するデータ記憶装置(またはデータレポジトリ)であることができる。コンピュータシステム901は、通信インターフェース920を利用して、コンピュータネットワーク(「ネットワーク」)930に動作可能に連結することができる。ネットワーク930は、インターネット、インターネットおよび/またはエクストラネット、あるいはインターネットと連通しているイントラネットおよび/またはエクストラネットであることができる。ネットワーク930は、場合によっては、遠隔通信および/またはデータネットワークである。ネットワーク930は、クラウドコンピューティングなどの分散コンピューティングを可能にすることができる、1つ以上のコンピュータサーバを含むことができる。ネットワーク930は、場合によっては、コンピュータシステム901を利用して、コンピュータシステム901に連結されたデバイスがクライアントまたはサーバとして挙動するのを可能にすることができる、ピアツーピアネットワークを実現することができる。
[00108]CPU 905は、プログラムまたはソフトウェアに埋め込むことができる、機械可読命令のシーケンスを実行することができる。命令は、メモリ910などのメモリロケーションに格納することができる。命令はCPU 905へと方向付けることができ、続いてCPU 905をプログラミングするかまたは別の方法で構成して、本開示の方法を実現することができる。CPU 905によって実施される動作の例としては、フェッチ、デコード、実行、および書込みを含むことができる。
[00109]CPU 905は、集積回路などの回路の一部であることができる。システム101の1つ以上の他の構成要素を回路に含めることができる。場合によっては、回路は特定用途向け集積回路(ASIC)である。
[00110]記憶装置915は、ドライバ、ライブラリ、および格納プログラムなどのファイルを格納することができる。記憶装置915は、ユーザデータ、例えばユーザ選択およびユーザプログラムを格納することができる。コンピュータシステム901は、場合によっては、イントラネットまたはインターネットを通してコンピュータシステム901と連通している遠隔サーバ上に位置するなど、コンピュータシステム901の外部にある、1つ以上の追加のデータ記憶装置を含むことができる。
[00111]コンピュータシステム901は、ネットワーク930を通して1つ以上の遠隔コンピュータシステムと通信することができる。例えば、コンピュータシステム901は、ユーザの遠隔コンピュータシステムと通信することができる。遠隔コンピュータシステムの例としては、パーソナルコンピュータ(例えば、ポータブルPC)、スレートもしくはタブレットPC(例えば、Apple(登録商標)iPad、Samsung(登録商標)Galaxy Tab)、電話、スマートフォン(例えば、Apple(登録商標)iPhone、Android対応デバイス、Blackberry(登録商標))、または携帯情報端末が挙げられる。ユーザは、ネットワーク930を介してコンピュータシステム901にアクセスすることができる。
[00112]本明細書に記載するような方法は、コンピュータシステム901の電子記憶装置のロケーションに、例えばメモリ910または電子記憶装置915に格納された、機械(例えば、コンピュータプロセッサ)実行可能コードを利用して実現することができる。機械実行可能または機械可読コードは、ソフトウェアの形態で提供することができる。使用中、コードはプロセッサ905によって実行することができる。場合によっては、コードは、記憶装置915から検索し、プロセッサ905がすぐに利用できるようにメモリ910に格納することができる。状況によっては、電子記憶装置915を除外することができ、機械実行可能命令はメモリ910に格納される。
[00113]コードは、コードを実行するように適合されたプロセッサを有する機械とともに使用するため、事前コンパイルし構成することができ、または実行時間中にコンパイルすることができる。コードは、事前コンパイルされるかコンパイル済みの形式でコードを実行できるように選択することができる、プログラミング言語で供給することができる。
[00114]コンピュータシステム901など、本明細書で提供されるシステムおよび方法の態様は、プログラミングにおいて実現することができる。技術の様々な態様は、一般的には、機械(もしくはプロセッサ)実行可能コード、および/または一種の機械可読媒体において保持されるかもしくは実現される関連データの形態の、「製品」または「製造物品」として考えることができる。機械実行可能コードは、メモリ(例えば、読出し専用メモリ、ランダムアクセスメモリ、フラッシュメモリ)またはハードディスクなどの、電子記憶装置に格納することができる。「記憶装置」タイプの媒体は、ソフトウェアプログラミングの任意の時点で非一時的な記憶を提供することができる、コンピュータ、プロセッサなど、またはそれらの関連モジュール(様々な半導体メモリ、テープドライブ、ディスクドライブなど)のありとあらゆる有形メモリを含むことができる。ソフトウェアの全てまたは部分は、場合によって、インターネットまたは他の様々な遠隔通信ネットワークを通して通信することができる。かかる通信は、例えば、ソフトウェアを、あるコンピュータまたはプロセッサから別のものに、例えば管理サーバまたはホストコンピュータからアプリケーションサーバのコンピュータプラットフォームにロードするのを可能にすることができる。したがって、ソフトウェア要素を有することができる別のタイプの媒体としては、有線および光学陸線を通して、また様々な空中リンクを通して、ローカルデバイス間の物理的インターフェースにわたって使用されるような、光波、電波、および電磁波が挙げられる。有線または無線リンク、光学リンクなど、かかる波を運ぶ物理的要素も、ソフトウェアを有する媒体と見なすことができる。本明細書で使用するとき、非一時的な有形「記憶」媒体に制限されない限り、プロセッサまたは機械「可読媒体」などの用語は、実行のために命令をプロセッサに提供するのに関与する、あらゆる媒体を指す。
[00115]したがって、コンピュータ実行可能コードなどの機械可読媒体は、有形記憶媒体、搬送波媒体、または物理的伝送媒体を含むがそれらに限定されない、多くの形態をとることができる。不揮発性記憶媒体としては、例えば、図に示されるデータベースなどを実現するために使用することができるものなど、任意のコンピュータなどにおける記憶装置のいずれかなど、光学または磁気ディスクが挙げられる。揮発性記憶媒体としては、かかるコンピュータプラットフォームの主メモリなどのダイナミックメモリが挙げられる。有形伝送媒体としては、コンピュータシステム内のバスを含むワイヤなど、同軸ケーブル、銅線、および光ファイバーが挙げられる。搬送波伝送媒体は、高周波(RF)および赤外線(IR)データ通信中に生成されるものなど、電気信号もしくは電磁信号、または音波もしくは光波の形態をとることができる。したがって、コンピュータ可読媒体の共通の形態としては、例えば、フロッピーディスク、フレキシブルディスク、ハードディスク、磁気テープ、他の任意の磁気媒体、CD−ROM、DVDもしくはDVD−ROM、他の任意の光学媒体、パンチカード、紙テープ、穴のパターンを有する他の任意の物理的記憶媒体、RAM、ROM、PROMおよびEPROM、FLASH+EPROM、他の任意のメモリチップもしくはカートリッジ、データもしくは命令を搬送する搬送波、かかる搬送波を搬送するケーブルもしくはリンク、またはコンピュータがプログラミングコードおよび/またはデータを読み取ることができる他の任意の媒体が挙げられる。コンピュータ可読媒体のこれらの形態の多くは、1つ以上の命令の1つ以上のシーケンスを、実行のためにプロセッサに運ぶのに関与することができる。
[00116]コンピュータシステム901は、例えば解析結果を提供する、ユーザインターフェース(UI)940を備える電子ディスプレイ935を含むか、またはそれと連通していることができる。UIの例としては、非限定的に、グラフィカルユーザインターフェース(GUI)およびウェブベースのユーザインターフェースが挙げられる。
[00117]本開示の方法およびシステムは、1つ以上のアルゴリズムを用いて実現することができる。アルゴリズムは、中央処理装置905によって実行する際にソフトウェアを用いて実現することができる。アルゴリズムとしては、例えば、ベイズネットワークまたは統計的解析を挙げることができる。
VI.シーケンシングおよび高スループットシーケンシング機器
[00118]本明細書で提供する方法、コンピュータシステム、キット、もしくはコンピュータ可読媒体で使用される、またはそれらとともに使用される高スループットシーケンシング機器は、次世代シーケンシング(NGS)プラットフォーム(大規模並列シーケンシング用のプラットフォーム)であることができる。シーケンシングは、ポリヌクレオチドのうち少なくとも10の連続するヌクレオチドの同一性(例えば、少なくとも20、少なくとも50、少なくとも100、少なくとも200、少なくとも500、またはそれ以上の連続するヌクレオチドの同一性)を得るのに用いられる、方法を指すことができる。NGS技術は、(例えば、Volkerding et al.,Clin Chem 55:641−658[2009];Metzker M Nature Rev 11:31−46[2010]に記載されているような)大規模並列方式での、クローン的に増幅したDNAテンプレートまたは単一のDNA分子のシーケンシングを伴う場合がある。高スループットシーケンス情報に加えて、NGSは、各シーケンスリードが個々のクローンDNAテンプレートまたは単一のDNA分子を表す計数可能な「シーケンスタグ」であるという点で、デジタル定量的情報を提供することができる。シーケンシングは、標的シーケンシング、エクソームシーケンシング、または全ゲノムシーケンシングであることができる。場合によっては、液状生検からの無細胞DNAのシーケンシングが行われる。場合によっては、液状生検からの循環腫瘍細胞(CTC)から得た核酸のシーケンシングが行われる。場合によっては、単一の正常な細胞および/または腫瘍細胞から得た核酸のシーケンシングが行われる。
[00119]自動化サンガー方法が「第1世代」の技術と見なされているが、自動化サンガーシーケンシングを含むサンガーシーケンシングも、本明細書で提供する方法によって用いることができる。開発中の核酸画像化技術、例えば原子間力顕微鏡法(AFM)または透過型電子顕微鏡法(TEM)を使用することを含む、さらなるシーケンシング方法を本明細書に記載の方法で使用することができる。
[00120]本明細書で提供する方法、コンピュータシステム、もしくはコンピュータ可読媒体で、またはそれらとともに使用される高スループットシーケンシングプラットフォーム(次世代シーケンシングプラットフォーム)は、市販のプラットフォームであることができる。市販のプラットフォームとしては、例えば、合成によるシーケンシング(sequencing-by-synthesis)、イオン半導体シーケンシング、パイロシーケンシング、リバーシブルダイターミネータ(reversible dye terminator)シーケンシング、連結反応によるシーケンシング、単分子シーケンシング、ハイブリダイゼーションによるシーケンシング、およびナノポアシーケンシングが挙げられる。合成によるシーケンシングのプラットフォームは、例えば、Illumina、454 Life Sciences、Helicos Biosciences、およびQiagenから入手可能である。Illuminaプラットフォームとしては、例えば、IlluminaのSolexaプラットフォーム、IlluminaのGenome Analyzerなどを挙げることができ、例えば、Gudmundsson et al(Nat.Genet.2009 41:1122−6)、Out et al(Hum.Mutat.2009 30:1703−12)、およびTurner(Nat.Methods 2009 6:315−6)、米国特許出願公開第US20080160580号およびUS20080286795号、米国特許第6,306,597号、第7,115,400号、および第7,232,656号に記載されている。454 Life Scienceプラットフォームとしては、例えばGS FlexおよびGS Juniorが挙げられ、米国特許第7,323,305号に記載されている。Helicos Biosciencesによるプラットフォームとしては、True Single Molecule Sequencingプラットフォームが挙げられる。イオン半導体シーケンシング用のプラットフォームとしては、例えば、Ion Torrent Personal Genome Machine(PGM)が挙げられ、例えば、米国特許第7,948,015号に記載されている。パイロシーケンシング用のプラットフォームとしては、GS Flex 454システムが挙げられ、例えば、米国特許第7,211,390号、第7,244,559号、第7,264,929号に記載されている。連結反応によるシーケンシング用のプラットフォームおよび方法としては、例えば、SOLiDシーケンシングプラットフォームが挙げられ、例えば、米国特許第5,750,341号に記載されている。単分子シーケンシング用のプラットフォームとしては、例えば、Pacific BioscienceからのSMRTシステムが挙げられる。
[00121]本明細書で提供する方法、コンピュータシステム、もしくはコンピュータ可読媒体で使用される、またはそれらとともに使用される高スループットシーケンシング機器は、半導体技術をシーケンシング化学と対にして、化学的にコード化された情報(A、C、G、T)を半導体チップ上のデジタル情報(0、1)に直接翻訳することができる、Ion Torrentシーケンシングプラットフォームであることができる。理論に束縛されることを望まないが、ヌクレオチドがポリメラーゼによってDNAのストランドに取り込まれると、水素イオンが副産物として放出される。Ion Torrentプラットフォームは、水素原子の放出をpHの変化として検出することができる。検出されたpHの変化は、ヌクレオチドの取込みを示すのに使用することができる。Ion Torrentプラットフォームは、この生化学的プロセスを超並列的方法で実施するため、微細加工ウェルの高密度アレイを含むことができる。各ウェルは、クローン的に増幅したものであり得る、異なるライブラリ要素を保持することができる。ウェルの下方にはイオン感受性層が、その下方にはイオンセンサがあることができる。プラットフォームは、1つのヌクレオチドから次のヌクレオチドへと、アレイを連続的にあふれさせることができる。ヌクレオチド、例えばCをDNAテンプレートに添加し、次にDNAのストランドに取り込むと、水素イオンを放出することができる。そのイオンからの電荷が溶液のpHを変化させることができ、それをIon Torrentのイオンセンサによって特定することができる。ヌクレオチドが取り込まれない場合、電圧変化は記録されず、塩基はコールされない。2つの同一の塩基がDNAストランド上に存在する場合、電圧は二倍であることができ、チップは2つの同一の塩基がコールされたことを記録することができる。直接特定することによって、ヌクレオチドの取込みを数秒で記録することが可能になる。Ion Torrentプラットフォーム用にライブラリを準備することには、DNA断片の両端に2つの離散的なアダプタを(例えば、連結反応によって)添加することが関与し得る。
[00122]本明細書で提供する方法、コンピュータシステム、もしくはコンピュータ可読媒体で使用される、またはそれらとともに使用される高スループットシーケンシング機器は、フローセル上のライブラリ要素のクラスタ増幅、および合成によるシーケンシング手法を用いることができる、Illuminaシーケンシングプラットフォームであることができる。クラスタ増幅されたライブラリ要素に、ポリメラーゼを対象とした一塩基伸長の繰返しサイクルを行うことができる。一塩基伸長には、各dNTPが異なる除去可能な蛍光体で標識された、可逆的ターミネータdNTPの取込みが関与し得る。「標識」および「検出可能部分」という用語は、検出可能な信号を提供するために使用することができ、また核酸またはタンパク質に付着させることができる任意の原子または分子を指すのに、本明細書では互換可能に使用することができる。標識は、蛍光、放射能、比色法、重力測定、X線回折または吸収、磁気、酵素活性などによって検出可能な信号を提供することができる。
[00123]可逆的ターミネータdNTPは、ポリメラーゼによるさらなる伸長を防ぐため、3’修飾することができる。取込み後、取り込まれたヌクレオチドを蛍光撮像によって特定することができる。蛍光撮像後、蛍光体を除去することができ、3’修飾を除去して3’ヒドロキシル基を得ることができ、それによって一塩基伸長の別のサイクルが可能になる。Illuminaプラットフォーム用にライブラリを準備することには、DNA断片の両端に2つの離散的なアダプタを(例えば、連結反応によって)添加することが関与し得る。
[00124]本明細書で提供する方法、コンピュータシステム、もしくはコンピュータ可読媒体で使用される、またはそれらとともに使用される高スループットシーケンシング機器は、合成によるシーケンシング技術を用いることができる、Helicos True Single Molecule Sequencing(tSMS)プラットフォームであることができる。tSMS技術では、ポリAアダプタをDNA断片の3’末端に連結することができる。適合された断片を、tSMSフローセル上で不動化されたポリTオリゴヌクレオチドに対してハイブリダイズすることができる。ライブラリ要素は、約100万テンプレート/cmの密度でフローセル上に不動化することができる。次に、フローセルを機器に、例えばHeliScope(商標)シーケンサに搭載することができ、レーザーがフローセルの表面を照射して、各テンプレートの位置を明らかにすることができる。CCDカメラは、フローセル表面上のテンプレートの位置をマッピングすることができる。ライブラリ要素に、ポリメラーゼを対象とした一塩基伸長の繰返しサイクルを行うことができる。シーケンシング反応は、DNAポリメラーゼおよび蛍光標識付きヌクレオチドを導入することによって始まる。ポリメラーゼは、テンプレートを対象とした形で標識付きヌクレオチドをプライマーに取り込むことができる。ポリメラーゼおよび取り込まれなかったヌクレオチドを除去することができる。蛍光標識付きヌクレオチドの取込みを対象としたテンプレートは、フローセル表面を撮像することによって識別することができる。撮像後、開裂ステップが蛍光標識を除去することができ、所望のリード長が達成されるまで、他の蛍光標識付きヌクレオチドを用いてプロセスを繰り返すことができる。各ヌクレオチド添加ステップを用いて、シーケンス情報を収集することができる。
[00125]本明細書で提供する方法、コンピュータシステム、もしくはコンピュータ可読媒体で使用される、またはそれらとともに使用される高スループットシーケンシング機器は、(例えば、Margulies,M. et al.Nature 437:376−380[2005]に記載されているような)454シーケンシングプラットフォーム(Roche)であることができる。454シーケンシングは2つのステップを伴うことができる。第1のステップで、DNAをせん断して断片にすることができる。断片は平滑末端化することができる。オリゴヌクレオチドアダプタを断片の末端に連結することができる。アダプタは、断片の増幅およびシーケンシングのためのプライマーとしての役割を果たすことができる。少なくとも1つのアダプタは、捕獲試薬、例えばビオチンを含むことができる。断片は、DNA捕獲ビーズ、例えばストレプトアビジンでコーティングしたビーズに付着させることができる。ビーズに付着させた断片は、油・水エマルションの液滴内でPCR増幅させることができ、クローン増幅させたDNA断片の複数のコピーが各ビーズにもたらされる。第2のステップで、ピコリットルサイズにすることができるウェル内で、ビーズを捕獲することができる。パイロシーケンシングを、各DNA断片に対して並行して実施することができる。パイロシーケンシングは、ヌクレオチド取込みの際のピロリン酸塩(PPi)の放出を検出することができる。PPiは、アデノシン5’ホスホ硫酸の存在下で、ATPスルフリラーゼによってATPに変換することができる。ルシフェラーゼは、ATPを使用してルシフェリンをオキシルシフェリンに変換することによって、検出される光信号を生成することができる。検出された光信号を使用して、取り込まれたヌクレオチドを特定することができる。
[00126]本明細書で提供する方法、コンピュータシステム、もしくはコンピュータ可読媒体で使用される、またはそれらとともに使用される高スループットシーケンシング機器は、SOLiD(商標)技術(Applied Biosystems)を利用することができる。SOLiDプラットフォームは、連結反応によるシーケンシング手法を利用することができる。SOLiDプラットフォームとともに使用するライブラリの準備は、アダプタを断片の5’および3’末端に連結して断片ライブラリを生成することを含むことができる。あるいは、アダプタを断片の5’および3’末端に連結し、断片を環状化させ、環状化断片を消化して内部アダプタを生成し、アダプタを結果として得られる断片の5’および3’末端に付着させてメイトペアライブラリを生成することによって、内部アダプタを導入することができる。次に、ビーズ、プライマー、テンプレート、およびPCR成分を含むクローンビーズ母集団を、マイクロリアクタ内で調製することができる。PCRに続いて、テンプレートを変性させることができる。ビーズを濃縮して、伸長テンプレートを有するビーズにすることができる。選択されたビーズ上のテンプレートに対して、ガラススライドに結合できるようにする3’修飾を行うことができる。シーケンスは、特定の蛍光体によって特定される中央決定塩基(または塩基対)を用いて、部分的に不規則なオリゴヌクレオチドのハイブリダイゼーションおよび連結を連続して行うことによって、判定することができる。色を記録した後、連結されたオリゴヌクレオチドを除去し、次にプロセスを繰り返すことができる。
[00127]本明細書で提供する方法、コンピュータシステム、もしくはコンピュータ可読媒体で使用される、またはそれらとともに使用される高スループットシーケンシング機器は、単分子リアルタイム(SMRT(商標)シーケンシングプラットフォーム(Pacific Biosciences)であることができる。SMRTシーケンシングでは、染料で標識したヌクレオチドの連続取込みをDNA合成中に撮像することができる。単一DNAポリメラーゼ分子を、リン酸で連結させたヌクレオチドが成長プライマーストランドに取り込まれている状態で、シーケンス情報を取得する個々のゼロモード波長識別子(ZMW識別子)の下面に付着させることができる。ZMWは、マイクロ秒単位でZMW内外に迅速に拡散する蛍光ヌクレオチドの背景に対するDNAポリメラーゼによって、単一のヌクレオチドの取込みを観察するのを可能にする閉込め構造を指すことができる。対照的に、ヌクレオチドの取込みはミリ秒単位で生じる場合がある。この間、蛍光標識を励起させて、検出することができる蛍光信号を生じることができる。蛍光信号の検出を使用してシーケンス情報を生成することができる。次に、蛍光体を除去し、プロセスを繰り返すことができる。SMRTプラットフォーム用にライブラリを準備することには、DNA断片の末端に対するヘアピンアダプタの連結が関与し得る。
[00128]本明細書で提供する方法、コンピュータシステム、もしくはコンピュータ可読媒体で使用される、またはそれらとともに使用される高スループットシーケンシング機器は、(例えば、Soni GV and Meller A.Clin Chem 53:1996−2001[2007]に記載されているような)ナノポアシーケンシングを使用することができる。ナノポアシーケンシングDNA解析技術としては、Oxford Nanopore Technologies(Oxford,United Kingdom)による技術が挙げられる。ナノポアシーケンシングは、単一分子シーケンシング技術であることができ、それにより、DNAの単一分子がナノポアを通過する際に直接シーケンシングされる。ナノポアは、直径1ナノメートル程度の小さい穴であることができる。ナノポアを導電性流体に浸漬し、両端に電位(電圧)を印加することによって、ナノポアを通るイオンの導電によるわずかな電流をもたらすことができる。流れる電流の量は、ナノポアのサイズと形状、および例えばDNA分子による閉塞に対して感受性であり得る。DNA分子がナノポアを通過する際、DNA分子上の各ヌクレオチドが異なる程度までナノポアを塞いで、ナノポアを異なる程度で通る電流の大きさを変化させることができる。したがって、DNA分子がナノポアを通過する際のこの電流の変化は、DNAシーケンスの読取り値を表すことができる。
[00129]本明細書で提供する方法、コンピュータシステム、もしくはコンピュータ可読媒体で使用される、またはそれらとともに使用される高スループットシーケンシング機器は、(例えば、米国特許出願公開第20090026082号に記載されているような)化学的電界効果トランジスタ(chemFET)を利用することができる。技術の一例では、DNA分子を反応チャンバに入れることができ、テンプレート分子をハイブリダイズして、ポリメラーゼに結合されたシーケンシングプライマーとすることができる。シーケンシングプライマーの3’末端における新しい核酸ストランドへの1つ以上の三リン酸塩の取込みは、chemFETによる電流の変化によって識別することができる。アレイは複数のchemFETセンサを有することができる。別の例では、単一の核酸をビーズに付着させることができ、核酸をビーズ上で増幅することができ、個々のビーズをchemFETアレイ上の個々の反応チャンバに転移させることができ、各チャンバがchemFETセンサを有し、核酸をシーケンシングすることができる。
[00130]本明細書で提供する方法、コンピュータシステム、もしくはコンピュータ可読媒体で使用される、またはそれらとともに使用される高スループットシーケンシング機器は、投下型電子顕微鏡法(TEM)を利用することができる。個別分子配置迅速ナノ輸送(IMPRINT)と称される方法は、重原子マーカーで選択的に標識付けした高分子量(150kb以上)DNAを単一原子分解能の投下型電子顕微鏡によって撮像し、これらの分子を、塩基間の間隔が一定の超高密度な(3nmのストランド間隔)並列アレイにおいて超薄膜上に配置することを含むことができる。電子顕微鏡を使用して、膜上の分子を撮像して、重原子マーカーの位置を判定するとともに、DNAから塩基シーケンス情報を抽出することができる。方法は、PCT特許出願公開WO2009/046445号にさらに記載されているものであり得る。方法は、10分未満で完全なヒトゲノムのシーケンシングを可能にすることができる。
[00131]本明細書で提供する方法、コンピュータシステム、もしくはコンピュータ可読媒体で使用される、またはそれらとともに使用される高スループットシーケンシング機器は、ハイブリダイゼーションによるシーケンシング(SBH)を利用することができる。SBHは、複数のポリヌクレオチドシーケンスを複数のポリヌクレオチドプローブと接触させることを含むことができ、複数のポリヌクレオチドプローブはそれぞれ、任意に基質に繋ぎ止めることができる。基質は、既知のヌクレオチドシーケンスのアレイを備える平坦面であることができる。アレイに対するハイブリダイゼーションのパターンを使用して、サンプル中に存在するポリヌクレオチドシーケンスを判定することができる。他の実施形態では、各プローブはビーズに、例えば磁気ビーズなどに繋ぎ止められる。ビーズに対するハイブリダイゼーションを特定し、サンプル中の複数のポリヌクレオチドシーケンスを特定するために使用することができる。
[00132]シーケンスリードの長さは、利用される特定のシーケンシング技術に応じて変わる場合がある。高スループットシーケンシング機器(NGSプラットフォーム)は、サイズが数十から数百、または数千の塩基対に及ぶシーケンスリードを提供することができる。本明細書に記載する方法のいくつかの実施形態では、シーケンスリードは、およそまたは少なくとも10塩基長、15塩基長、20塩基長、25塩基長、30塩基長、35塩基長、40塩基長、45塩基長、50塩基長、55塩基長、60塩基長、65塩基長、70塩基長、75塩基長、80塩基長、85塩基長、90塩基長、95塩基長、100塩基長、110塩基長、120塩基長、130、140塩基長、150塩基長、200塩基長、250塩基長、300塩基長、350塩基長、400塩基長、450塩基長、500塩基長、600塩基長、700塩基長、800塩基長、900塩基長、1000塩基長、または1000超過の塩基長である。
[00133]本明細書に記載のシーケンシングプラットフォームは、その上に不動化された固体支持体を備えることができ、表面結合オリゴヌクレオチドが、シーケンシングライブラリを捕獲し、固体支持体に対して不動化するのを可能にしている。表面結合オリゴヌクレオチドは、一般に、シーケンシングライブラリのアダプタシーケンスに対して相補的なシーケンスを含む。
[00134]高スループットシーケンシングプラットフォームを使用して、DNAを異なる深さまでシーケンシングすることができる。シーケンシング(例えば、DNAシーケンシング)の深さは、シーケンシングプロセスの間にヌクレオチドが読み取られる回数を指すことができる。シーケンスの適用範囲は、再構築されたシーケンスにおける所与のヌクレオチドを表す平均リード数を示すことができる。物理的な適用範囲は、リードがメイトペアリードによって読み取られるかまたは測られる平均回数であることができる。深さは、N×L/Gとして、元のゲノムの長さ(G)、リードの数(N)、および平均リード長さ(L)から計算することができる。場合によっては、ディープシーケンシング(>7倍)が実施される。場合によっては、超ディープシーケンシングが実施される(>100倍)。本明細書に記載する方法におけるシーケンシング深さは、少なくとも1倍、2倍、5倍、7倍、10倍、20倍、50倍、75倍、100倍、250倍、500倍、1000倍、5000倍、または10,000倍であることができる。
VII.被験者、サンプル、および核酸
[00135]A.被験者
[00136]本明細書で提供する方法、コンピュータシステム、およびコンピュータ可読媒体において解析されるサンプルは、1つ以上の被験者または個人によるものであることができる。被験者は、発現遺伝物質を含む生物学的実体であることができる。生物学的実体は、例えば、細菌、ウィルス、菌類、および原生動物を含む、植物、動物、または微生物であることができる。被験者は、インビボで得た、もしくはインビトロで培養した、生物学的実体の組織、細胞、またはそれらの後代であることができる。被験者は哺乳類であることができる。哺乳類はヒトであることができる。ヒトは男性または女性であることができる。ヒトは、生後1日〜約1歳、約1歳〜約3歳、約3歳〜約12歳、約13〜約19歳、約20歳〜約40歳、約40歳〜約65歳、または65歳以上であることができる。ヒトは、疾患のリスクが高いことが診断されるかまたは疑われる場合がある。疾患はがんであり得る。ヒトは、疾患のリスクが高いことが診断されないかまたは疑われないことがある。
[00137]B.サンプル
[00138]本明細書で提供する方法、コンピュータシステム、およびコンピュータ可読媒体で使用される、またはそれらとともに使用される1つ以上のサンプルは、核酸を含有するかまたは含有すると仮定される任意の物質であることができる。サンプルは、被験者から得られる生体サンプルであることができる。いくつかの実施形態では、生体サンプルは液体サンプルである。液体サンプルは、全血、血漿、血清、腹水、脳脊髄液、汗、尿、涙、唾液、口腔サンプル、腔洗浄液(cavity rinse)、または臓器洗浄液(organ rinse)であることができる。液体サンプルは、本質的に無細胞の液体サンプルであるか、または無細胞核酸を含むことができる(例えば、血漿、血清、汗、血漿、尿、汗、涙、唾液、痰、脳脊髄液)。他の実施形態では、生体サンプルは、固形生体サンプル、例えば糞便または組織生検である。サンプルはまた、(細胞培地で細胞を成長させて得られる調製された媒体、組換え細胞、および細胞成分を含むがそれに限定されない)インビトロ細胞培養構成成分を含むことができる。サンプルは、単一の細胞、例えばがん細胞、循環腫瘍細胞、がん肝細胞などを含むことができる。サンプルは複数の細胞を含むことができる。場合によっては、サンプルは、およそまたは少なくとも1%、5%、10%、15%、20%、25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、99%、または100%の腫瘍細胞を含む。被験者は、固形腫瘍を宿していることが疑われるかもしくは分かっている場合があり、または固体腫瘍を以前宿していた被験者であることができる。
[00139]場合によっては、被験者からの腫瘍サンプルおよび正常な細胞の両方が被験者から得られる。
[00140]いくつかの実施形態では、生殖細胞系列シーケンスを含む核酸が、被験者の生体サンプルから抽出される。いくつかの実施形態では、生体サンプルは固形組織である。生体サンプルは、被験者からの健康な組織などの組織であることができる。生体サンプルは、例えば、血液、血液からの軟膜(リンパ球を含むことができる)、唾液、または血漿などの液体サンプルであることができる。
[00141]いくつかの実施形態では、体細胞変異体を含む核酸が、被験者の生体サンプルから抽出される。いくつかの実施形態では、生体サンプルは固形組織である。固形組織は、例えば、原発腫瘍、転移腫瘍、ポリープ、または腺腫であり得る。いくつかの実施形態では、生体サンプルは、例えば尿、唾液、脳脊髄液、血漿、または血清などの液体サンプルである。場合によっては、液体は無細胞液体である。場合によっては、循環腫瘍細胞を含む細胞は、濃縮されるか液体から単離される。場合によっては、サンプルは無細胞核酸、例えばDNAを含む。
[00142]場合によっては、腫瘍のサンプルは第1の時点で取られ、シーケンシングされ、腫瘍の別のサンプルがその後の時点で取られ、腫瘍がシーケンシングされる。
[00143]C.がん
[00144]本明細書で提供するコンピューティングシステム、ソフトウェア媒体、方法、およびキットは腫瘍サンプルを利用することができる。腫瘍組成物(原発腫瘍、転移腫瘍)は、がんと関連付けられる1つ以上のDNA分子を含むことができる。
[00145]本明細書で提供するコンピューティングシステム、ソフトウェア媒体、方法、およびキットは、サンプル中の腫瘍細胞/核酸の比率を推定することを含むことができる。
[00146]本明細書で提供するコンピューティングシステム、ソフトウェア媒体、方法、およびキットは、同時にまたは異なる時点に収集されたサンプルを含むことができる(同時、1つ以上のサンプルが少なくとも2つのサンプルを含む、また少なくとも2つのサンプルが異なる時点に収集される)。
[00147]本明細書で提供されるコンピューティングシステム、ソフトウェア媒体、方法、およびキットは、異なるタイプの細胞(例えば、リンパ球、血液細胞、腫瘍細胞)を使用することを含むことができる。
[00148]本明細書で提供するコンピューティングシステム、ソフトウェア媒体、方法、およびキットは、疾患がある被験者のモニタリングおよび処置を改善する。疾患は、がん、例えば腫瘍、白血病(急性白血病、急性T細胞白血病、急性リンパ性白血病、急性骨髄球性白血病、骨髄芽球性白血病、前骨髄球性白血病、骨髄単球性白血病、単球性白血病、赤白血病、慢性白血病、慢性骨髄球性(顆粒球性)白血病、または慢性リンパ性白血病、真性多血症、リンパ腫(ホジキンリンパ腫、濾胞性リンパ腫、または非ホジキンリンパ腫)、多発性骨髄腫、ワルデンストレームマクログロブリン血症、H鎖病、固形腫瘍、肉腫、がん腫(例えば、線維肉腫、粘液肉腫、脂肪肉腫、軟骨肉腫、骨肉腫、リンパ管肉腫、中皮腫、ユーイング腫瘍、平滑筋肉腫、横紋筋肉腫)、結腸がん、大腸がん、膵がん、乳がん、卵巣がん、前立腺がん、扁平上皮細胞がん、基底細胞がん、腺がん、汗腺がん、皮脂腺がん、乳頭状がん、乳頭腺がん、嚢胞腺がん、髄様がん、気管支原性がん、腎細胞がん、肝がん、胆管がん、絨毛がん、精上皮腫、胎生期がん、ウィルムス腫、子宮頸がん、子宮がん、精巣腫瘍、肺がん、小細胞肺がん、膀胱がん、上皮がん、神経膠腫、頭蓋喉頭腫、脳室上皮腫、松果体腫、血管芽細胞腫、聴神経腫、乏枝神経膠腫、髄膜腫、黒色腫、神経芽細胞腫、網膜芽細胞腫、子宮体がん、非小細胞肺がんであることができる。
[00149]D.核酸
[00150]本明細書で提供する方法、コンピュータシステム、コンピュータ可読媒体、およびキットで使用される、またはそれらとともに使用される核酸は、RNA、DNA、例えばゲノムDNA、ミトコンドリアDNA、ウィルスDNA、合成DNA、またはRNAから逆転写したcDNAであることができる。
[00151]「ポリヌクレオチド」、「核酸」、および「オリゴヌクレオチド」という用語は、は互換可能に使用することができる。それらは、デオキシリボヌクレオチドまたはリボヌクレオチド、またはそれらの類似体のいずれかの、任意の長さのヌクレオチドのポリマー形態を指すことができる。ポリヌクレオチドは、任意の三次元構造を有することができ、既知または未知の、任意の機能を実施することができる。以下は、遺伝子または遺伝子断片のコード化もしくは非コード化領域、連鎖解析から定義される遺伝子座、エキソン、イントロン、メッセンジャーRNA(mRNA)、転写RNA、リボソームRNA、リボザイム、cDNA、組換えポリヌクレオチド、分枝ポリヌクレオチド、プラスミド、ベクター、任意のシーケンスの単離DNA、任意のシーケンスの単離RNA、核酸プローブ、およびプライマーといった、ポリヌクレオチドの非限定例である。ポリヌクレオチドは、メチル化ヌクレオチドおよびヌクレオチド類似体などの修飾ヌクレオチドを含むことができる。存在する場合、高分子をアセンブルする前または後に、ヌクレオチド構造に対する修飾を付与することができる。ヌクレオチドのシーケンスは、非ヌクレオチド成分によって中断される場合がある。ポリヌクレオチドは、標識成分との共役などによって、ポリメライゼーション後にさらに修飾することができる。
[00152]「標的ポリヌクレオチド」、「標的領域」、または「標的」という用語は、本明細書で使用するとき、研究中の対象のポリヌクレオチドを指す場合がある。特定の実施形態では、標的ポリヌクレオチドは研究中の対象である1つ以上のシーケンスを含む。標的ポリヌクレオチドは、例えば、ゲノムシーケンスを含むことができる。標的ポリヌクレオチドは、その存在、量、および/またはヌクレオチドシーケンス、あるいはそれらの変化を判定することが望ましい、標的シーケンスを含むことができる。
VIII.核酸ライブラリ生成
[00153]本明細書で提供する方法、コンピュータシステム、コンピュータ可読媒体、およびキットは、核酸ライブラリを利用することができる。本明細書では、核酸ライブラリ形成のための方法、組成物、およびキットを提供する。ライブラリ形成は、シーケンシング前にプローブハイブリダイゼーションおよび伸長を介して、標的補足を含むことができる。ペアードエンドリードを使用して、所与のプローブからのリードを整列させることができる。ライブラリを準備するプロセスは、断片化DNA、適合DNA、標的捕獲、表面負荷、およびシーケンシングの生成を含むことができ、適合DNAと標的捕獲の生成の間にDNAの断片の各末端においてアダプタによって断片を増幅する、プライマーを用いた増幅による濃縮は行わない。
[00154]核酸サンプルを使用して、シーケンシングのための核酸ライブラリを準備することができる。核酸ライブラリの準備は、当該分野で知られているような、または本明細書に記載するような任意の方法を含むことができる。核酸シーケンシングライブラリは、例えば標的特異的なプライマーを使用する、標的濃縮によって形成することができる。場合によっては、核酸ライブラリは標的特異的な手法には基づかない。図10は、DNA調製およびライブラリ生成のための例示的なワークフローを示している。合計調製時間は約8時間であり得る。調製は、核酸中間体を精製するため、固相逆不動化(Solid Phase Reverse Immobilization)(SPRI)ビーズを用いた温置によって散在させる酵素的操作を含むことができる。核酸(例えば、DNA)ライブラリの準備には、核酸(例えば、DNA)の調製が関与する場合があり、それには、a)核酸(例えば、DNA)の修復、b)核酸(例えば、DNA)のリン酸化反応、および/またはc)核酸(例えば、DNA)のキャッピングを含むことができる。核酸ライブラリの生成には、核酸へのアダプタの付加(例えば、連結)、「捕獲」(例えば、標的特異的なプライマーを核酸にアニーリングする)、伸長、および/または増幅を含むことができる。核酸ライブラリは、一本鎖核酸ライブラリまたは二本鎖核酸ライブラリであることができる。核酸ライブラリはDNAライブラリであることができる。いくつかの実施形態では、核酸ライブラリはssDNAライブラリである。いくつかの実施形態では、核酸ライブラリは部分ssDNAライブラリである。
[00155]A.核酸の修復および断片化
[00156]核酸は核酸ライブラリを形成する前に修復することができる。例えば、サンプル(例えば、本明細書に記載する任意のサンプル、例えばホルマリン固定パラフィン包理(FFPE)サンプル)からの核酸(例えば、DNA)を、ライブラリの準備に使用することができ、サンプル(例えば、FFPEサンプル)からの核酸(例えば、DNA)は、突然変異、例えばオキソグアニン、dUTP、架橋部分、および/または無塩基部位を含むことができる。場合によっては、損傷した塩基はDNAサンプルから除去(例えば、切除)される。場合によっては、「補正」処理ステップは関与しない(塩基誤差は補正されない)。場合によっては、サンプル中の核酸は突然変異を含まない。
[00157]場合によっては、ライブラリ中の核酸は断片化される。ライブラリの準備で使用される断片は、約50〜約500塩基/bp、約100〜約500塩基/bp、約100〜約400塩基/bp、約100〜約300塩基/bp、約100〜約200塩基/bp、約200〜約500塩基/bp、約200〜約400塩基/bp、または約200〜約300塩基/bpの平均サイズを有することができる。
[00158]DNA、例えば断片化DNAは、塩基切除修復酵素(例えば、Endo VIII、ホルムアミドピリミジンDNAグリコシラーゼ(FPG))で処理して、ポリメライゼーションに干渉する可能性がある損傷した塩基を切除することができる。次に、DNAを、校正ポリメラーゼ(例えば、T4 DNAポリメラーゼ)で処理して、末端を研磨し、損傷したヌクレオチド(例えば、無塩基部位)を置換することができる。いくつかの実施形態では、DNAは、末端を研磨し、損傷したヌクレオチドを置換するために、校正ポリメラーゼで処理されない。
[00159]B.核酸処理
[00160]核酸(例えば、DNA)の断片化は、(例えば、キナーゼを用いて)リン酸化させ、ddNTPでキャッピングすることができる。場合によっては、核酸の5’末端をリン酸化させる。
[00161]C.アダプタの添加
[00162]一本鎖アダプタを、サンプルからの一本鎖DNA断片に連結させることができる。適合されたDNA断片の二桁の収率を達成して、サンプルからのシーケンス情報の回収を改善するのを可能にすることができる。アダプタは、例えばプライマーを介して、または連結反応によって、核酸に添加することができる。アダプタ、例えばssDNAアダプタを、ssDNAの5’末端、ssDNAの3’末端、またはssDNAの5’末端および3’末端の両方に添加、例えば連結することができる。核酸断片および/またはアダプタの5’末端を、例えば連結反応の前にアデニル化することができる。適合されたDNAの収率は二桁であり得る。
[00163]断片は、シーケンシングプラットフォームに対する断片の結合(例えば、捕獲および/または不動化)に影響を及ぼし得る、アダプタシーケンスを用いて修飾することができる。アダプタシーケンスは、シーケンシングプラットフォームに対するライブラリ要素の結合に影響を及ぼす、定義されたオリゴヌクレオチドシーケンスを含むことができる。アダプタは、固体支持体(例えば、シーケンシングフローセルもしくはビーズ)上に不動化されたオリゴヌクレオチドシーケンスに対して、少なくとも25%、50%、60%、70%、80%、90%、もしくは100%相補的または同一である、シーケンスを含むことができる。アダプタシーケンスは、シーケンシングプライマーに対して、少なくとも50%、60%、70%、80%、90%、もしくは100%相補的または同一である、定義されたオリゴヌクレオチドシーケンスを含むことができる。シーケンシングプライマーは、ポリメラーゼによるヌクレオチド取込みを可能にすることができ、ヌクレオチドの取込みはシーケンシング情報を提供するためにモニタリングされる。シーケンシングプライマーは、約15〜約25塩基であることができる。アダプタは、固体支持体上に不動化されたオリゴヌクレオチドシーケンスに対して少なくとも25%、50%、60%、70%、80%、90%、もしくは100%相補的または同一であるシーケンス、ならびにシーケンシングプライマーに対して少なくとも70%相補的または同一であるシーケンスを含むことができる。結合はまた、アダプタを直列で縫合することによって達成することができる。縫合することができるアダプタの数は、1、2、3、4、またはそれ以上であることができる。縫合されたアダプタは、少なくとも35塩基、70塩基、105塩基、140塩基、またはそれ以上であることができる。
[00164]アダプタはバーコードシーケンスを含むことができる。「バーコードシーケンス」という用語は、アッセイに関する情報をコード化することができる、ヌクレオチドの一意のシーケンスを指すことができる。バーコードシーケンスは、識別対立遺伝子の同一性、標的ポリヌクレオチドまたはゲノム遺伝子座の同一性、サンプルの同一性、被験者、分子、またはそれらの任意の組み合わせに関する情報をコード化することができる。バーコードシーケンスは、プライマー、レポータープローブ、または両方の一部分であることができる。バーコードシーケンスは、オリゴヌクレオチドの5’末端もしくは3’末端にあることができ、またはオリゴヌクレオチドの任意の領域に位置することができる。バーコードシーケンスは、テンプレートシーケンスの一部であることができ、またはそうでないことができる。バーコードシーケンスはサイズおよび組成が大幅に変動する場合があり、後で参照することによって、特定の実施形態に適切なバーコードシーケンスの組の選択をガイドする。Brenner,米国特許第5,635,400号、Brenner et al,Proc.Natl.Acad.Sci.,97:1665−1670(2000);Shoemaker et al,Nature genetics,14:450−456(1996);Morris et al,欧州特許出願公開0799897A1号;Wallace,米国特許第5,981,179号。バーコードシーケンスは、約4〜36ヌクレオチド、約6〜30ヌクレオチド、または約8〜20ヌクレオチドの長さを有することができる。
[00165]ライブラリ中のシーケンシングライブラリ要素の少なくとも50%、60%、70%、80%、90%、または100%は、同じアダプタシーケンスを含むことができる。ssDNAライブラリ要素の少なくとも50%、60%、70%、80%、90%、または100%は、第2の末端ではなく第1の末端にアダプタシーケンスを含むことができる。いくつかの実施形態では、第1の末端は5’末端である。いくつかの実施形態では、第1の末端は3%末端である。アダプタシーケンスは、シーケンシングに使用されるシーケンシングプラットフォームにしたがって、ユーザによって選ばれる。単なる例として、合成プラットフォームによるIlluminaのシーケンシングは、表面結合されたオリゴヌクレオチドの第1および第2の母集団が不動化された、固体支持体を含むことができる。かかるオリゴヌクレオチドは、第1および第2のIllumina特異的なアダプタヌクレオチドに対してハイブリダイズし、伸長反応をプライミングするシーケンスを含むことができる。したがって、DNAライブラリ要素は、Illuminaシステムの表面結合オリゴヌクレオチドの第1の母集団対して、部分的または全体的に相補的である第1のIllumina特異的なアダプタを含むことができる。他の単なる一例として、SOLiDシステム、およびIon Torrent、GS FLEXシステムは、表面結合オリゴヌクレオチドの単一の母集団が不動化されたビーズの形態の、固体支持体を含むことができる。したがって、いくつかの実施形態では、ssDNAライブラリ要素は、SOLiDシステム、Ion Torrentシステム、またはGS Flexシステムの表面結合オリゴヌクレオチドに対して相補的な、アダプタシーケンスを含む。
[00166]D.伸長
[00167]伸長生成物が核酸断片から生成される場合がある。伸長生成物は、核酸の3’末端上のアダプタシーケンスに対してプライマーをアニーリングし、プライマーを伸長することによって生成することができる。かかる伸長生成物は標的特異的ではない。伸長生成物は、5’末端および/または3’末端にアダプタを含むss核酸(例えば、ssDNA)内の標的特異的なシーケンスに対してプライマーをアニーリングし、プライマーを伸長することによって生成することができる。かかる伸長生成物は標的特異的な伸長生成物であることができる。複数の標的特異的なプライマー(例えば、約20〜約35塩基の標的特異的なシーケンス)を使用して、ライブラリを作成することができる。標的特異的なプライマーは、例えば5’末端に、アダプタシーケンスを含むことができる。
[00168]E.増幅
[00169]場合によっては、全ゲノムPCRは実施されず、それによって表現のバイアスを最小限に抑えることができる。場合によっては、増幅は、溶液中の伸長生成物に対して実施される。場合によっては、シーケンシング前に、溶液中の伸長生成物に対して複数回の増幅が実施される。
[00170]F.ssDNA断片/ssDNAライブラリの準備(3’末端のアダプタ)
[00171]本明細書において、例えば核酸断片の3’末端にアダプタを添加することによって、ssDNAライブラリを生成する方法、組成物、およびキットを提供する。一本鎖核酸ライブラリは、当該技術において知られている、または本明細書に記載する任意の手段を使用して、二本鎖核酸または一本鎖核酸のサンプルから準備することができる。
[00172]サンプル
[00173]開始サンプルは、被験者から得られる生体サンプルであることができる。例示の被験者および生体サンプルについては本明細書に記載する。サンプルは、固体生体サンプル、例えば腫瘍サンプルであることができる。固体生体サンプルは処理することができる。処理は、例えば、ホルマリン溶液中の固定、それに続くパラフィン中の包理を含むことができる(例えば、FFPEサンプルである)。処理は凍結を含むことができる。場合によっては、サンプルは固定も凍結もされない。固定されず凍結されないサンプルは、核酸を保存するように構成された保存溶液中に保存することができる。例示的な保存溶液については本明細書に記載する。いくつかの実施形態では、例えば、酵素処理(例えば、プロテアーゼを用いる)を使用して、非核酸物質を開始材料から除去することができる。サンプルに、均質化、音波処理、フレンチプレス、ダンス、凍結/解凍、またそれに続くことができる遠心分離を行うことができる。遠心分離は、核酸を含む画分を、核酸を含まない画分から分離することができる。場合によっては、サンプルは液体生体サンプルである。例示的な液体生体サンプルについては本明細書に記載する。液体生体サンプルは、血液サンプル(例えば、全血、血漿、または血清)であることができる。全血サンプルを、例えば、参照により本明細書に援用する、Fuss et al.Curr Protoc Immunol(2009)Chapter 7:Unit7.1に詳細に記載されている、Ficoll試薬を使用することによって、無細胞成分(例えば、血漿、血清)および細胞成分に与えることができる。
[00174]核酸は、当該分野で知られている任意の手段を使用して、生体サンプルから単離することができる。例えば、核酸は、液体抽出(例えば、Trizol、DNAzol)技術を使用して、生体サンプルから抽出することができる。核酸はまた、市販のキット(例えば、Qiagen DNeasyキット、QIAampキット、Qiagen Midiキット、QIAprep spinキット)を使用して抽出することができる。
[00175]核酸は、単なる一例として遠心分離を含む、既知の方法によって凝縮することができる。核酸は、精製の目的で、選択的メンブレン(例えば、シリカ)に結合させることができる。核酸はまた、1000、500、400、300、200、または100塩基対未満の長さの断片など、所望の長さの断片を濃縮することができる。かかるサイズに基づく濃縮は、例えば、PEG誘導沈殿、電気泳動ゲル、またはクロマトグラフィ材料(Huber et al.(1993)Nucleic Acids Res.21:1061−6)、ゲルろ過クロマトグラフィ、TSKゲル(Kato et al.(1984)J.Biochem,95:83−86)を使用して実施することができ、それらの文献を参照により本明細書に援用する。
[00176]生体サンプルから抽出したポリヌクレオチドは、当該分野で知られている任意の方法を使用して、選択的に沈殿または凝縮させることができる。
[00177]核酸サンプルは、標的ポリヌクレオチドを濃縮することができる。標的濃縮は、当該分野で知られている任意の手段によるものであることができる。例えば、核酸サンプルは、標的特異的なプライマーを使用して標的シーケンスを増幅することによって濃縮することができる。標的増幅は、当該分野で知られている任意の方法またはシステムを使用して、デジタルPCRフォーマットで生じることができる。核酸サンプルは、標的選択的オリゴヌクレオチドを不動化させたアレイ上へと標的シーケンスを捕獲することによって、濃縮することができる。核酸サンプルは、標的選択的オリゴヌクレオチドを溶液中または固体支持体上で自由にハイブリダイズすることによって、濃縮することができる。オリゴヌクレオチドは、捕獲試薬による捕獲を可能にする捕獲部分を含むことができる。例示的な捕獲部分および捕獲試薬については本明細書に記載する。場合によっては、核酸サンプルは標的ポリヌクレオチドが濃縮されず、例えば全ゲノムを表す。場合によっては、全ゲノム増幅が実施される。
[00178]一本鎖核酸ライブラリは、一本鎖DNAライブラリ(ssDNAライブラリ)またはRNAライブラリであることができる。ssDNAライブラリを準備する方法は、二本鎖DNA断片をssDNA断片に変性すること、プライマーシーケンスをssDNA断片の一端上に連結すること、プライマーをハイブリダイズしてプライマードッキングシーケンスにすることを含むことができる。プライマーは、次世代シーケンシングプラットフォームに結合する、アダプタシーケンスの少なくとも一部分を含むことができる。方法は、ハイブリダイズしたプライマーを伸長して、二本鎖を作成することをさらに含むことができ、二本鎖は、元のssDNA断片と伸長プライマー鎖を含む。伸長プライマー鎖は、元のssDNA断片から分離することができる。伸長プライマー鎖を収集することができ、伸長プライマー鎖はssDNAライブラリの要素である。RNAライブラリを準備する方法は、プライマードッキングシーケンスをRNA断片の一端上に連結すること、プライマーをハイブリダイズしてプライマードッキングシーケンスにすることを含むことができる。プライマーは、次世代シーケンシングプラットフォームに結合する、アダプタシーケンスの少なくとも一部分を含むことができる。方法は、ハイブリダイズしたプライマーを伸長して、二本鎖を作成することをさらに含むことができ、二本鎖は、元のRNA断片と伸長プライマー鎖を含む。伸長プライマー鎖は、元のRNA断片から分離することができる。伸長プライマー鎖を収集することができ、伸長プライマー鎖はRNAライブラリの要素である。
[00179]dsDNAは、当該分野で知られているかまたは本明細書に記載する任意の手段によって断片化することができる。dsDNAは、物理的手段によって、例えば機械的せん断によって、噴霧化によって、または音波処理によって、Fe(II)−EDTAキレートによる処理などの化学的手段によって、または複数の切断酵素、制限酵素、もしくはフラグメンターゼ(NEB)などの酵素的手段によって断片化することができる。
[00180]いくつかの実施形態では、cDNAは、ランダムプライム化逆転写(RNaseH+)を使用して、無作為なサイズのcDNAを生成するRNAから生成される。
[00181]断片サイズ
[00182]核酸断片(例えば、dsDNA断片、RNA、またはランダムサイズcDNA)は、1000bp未満、800bp未満、700bp未満、600bp未満、500bp未満、400bp未満、300bp未満、200bp未満、または100bp未満であることができる。DNA断片は、約40〜100bp、約50〜125bp、約100〜200bp、約150〜400bp、約300〜500bp、約100〜500bp、約400〜700bp、約500〜800bp、約700〜900bp、約800〜1000bp、または約100〜1000bpであることができる。
[00183]修復
[00184]dsDNA断片の末端を研磨することができる(例えば、平滑末端化)。DNA断片の末端は、ポリメラーゼを用いた処理によって研磨することができる。研磨には、3’オーバーハング、5’オーバーハングの補充、またはそれらの組み合わせの除去が関与することができる。ポリメラーゼは、校正ポリメラーゼ(例えば、3’から5’のエキソヌクレアーゼ活性)であることができる。校正ポリメラーゼは、例えば、T4 DNAポリメラーゼ、Pol 1 Klenow断片、またはPfuポリメラーゼであることができる。研磨は、当該分野で知られている任意の手段を使用して、損傷したヌクレオチド(例えば、無塩基部位)を除去することを含むことができる。
[00185]アダプタ
[00186]核酸断片の3’末端に対するアダプタの連結は、断片の3’OH基とアダプタの5’リン酸塩の間に結合を形成することを含むことができる。したがって、5’リン酸塩を核酸断片から除去することによって、2つのライブラリ要素の異常性連結反応を最小限に抑えることができる。したがって、いくつかの実施形態では、5’リン酸塩が核酸断片から除去される。いくつかの実施形態では、5’リン酸塩は、サンプル中の核酸断片の少なくとも50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、または95%超過から除去される。いくつかの実施形態では、実質的に全てのリン酸基が核酸断片から除去される。いくつかの実施形態では、実質的に全てのリン酸塩が、サンプル中の核酸断片の少なくとも50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、または89%超過から除去される。核酸サンプルからのリン酸基の除去は、当該分野で知られている任意の手段によるものであり得る。リン酸基の除去は、易熱性ホスファターゼを用いてサンプルを処理することを含むことができる。いくつかの実施形態では、リン酸基は核酸サンプルから除去されない。いくつかの実施形態では、核酸断片の5’末端に対するアダプタの連結が実施される。
[00187]変性
[00188]ssDNAは、当該分野で知られているまたは本明細書に記載する任意の手段によって調製されたdsDNA断片から、一本鎖に変性することによって、調製することができる。dsDNAの変性は、熱変性、塩基性pH中での温置、尿素またはホルムアルデヒドによる変性を含む、当該分野で知られている任意の手段によるものであることができる。
[00189]熱変性は、約60℃以上、約65℃以上、約70℃以上、約75℃以上、約80℃以上、約85℃以上、約90℃以上、約95℃以上、または約98℃以上まで、dsDNAサンプルを加熱することによって達成することができる。dsDNAサンプルは、例えば、水浴中での温置、温度制御ヒートブロック、熱サイクラーを含む、当該分野で知られている任意の手段によって加熱することができる。いくつかの実施形態では、サンプルは、0.5、1、2、3、4、5、6、7、8、9、10分間、または10分超、加熱される。
[00190]塩基性pH中での温置による変性は、例えば、水酸化ナトリウム(NaOH)または水酸化カリウム(KOH)を含む溶液中でdsDNAサンプルを温置することによって達成することができる。溶液は、NaOH約1mM、NaOH約2mM、NaOH約5mM、NaOH約10mM、NaOH約20mM、NaOH約40mM、NaOH約60mM、NaOH約80mM、NaOH約100mM、NaOH約0.2M、NaOH約0.3M、NaOH約0.4M、NaOH約0.5M、NaOH約0.6mM、NaOH約0.7mM、NaOH約0.8mM、NaOH約0.9mM、NaOH約1.0M、またはNaOH約1.0M超を含むことができる。溶液は、KOH約1mM、KOH約2mM、KOH約5mM、KOH約10mM、KOH約20mM、KOH約40mM、KOH約60mM、KOH約80mM、KOH約100mM、KOH約0.2M、KOH約0.5M、KOH約1M、またはKOH約1M超を含むことができる。いくつかの実施形態では、dsDNAサンプルは、0.5、1、2、3、4、5、6、7、8、9、10、15、20、30、40、50、60分間、または60分超、NaOHまたはKOH中で温置される。dsDNAは、酢酸のナトリウム塩もしくはアンモニウム塩を用いて温置して、またはNaOHもしくはKOH温置の後に酢酸を用いて、アルカリ性溶液を中和することができる。
[00191]尿素およびホルムアミドなどの化合物は、ヌクレオチド塩基の電気的陰性の中心とH結合を形成することができる官能基を含む。高濃度(例えば、尿素8Mまたはホルムアミド70%)の変性剤の場合、H結合の競合は、変性剤とN塩基との相互作用を相補的塩基間の相互作用よりも優先し、それによって2つのストランドを分離することができる。「分離」という用語は、(例えば、開裂、加水分解、または2つの要素のうち1つの分解による)2つの要素の物理的な分離を指すことができる。
[00192]核酸断片の3’末端に対するアダプタの連結
[00193]アダプタは、核酸断片(例えば、ssDNA、DNA、RNA)の一方または両方の末端上に連結することができる。アダプタは、5’末端および/または3’末端上に連結することができる。場合によっては、アダプタは核酸断片の3’末端上に連結される。
[00194]アダプタは、プライマーをアニーリングするためのテンプレートとして作用するシーケンスを含むことができる。アダプタのシーケンスは、NGS(大規模並列シーケンシング)プラットフォームに結合するアダプタシーケンス(NGSアダプタ、例えばフローセルシーケンス)の一部分または全てに対して、少なくとも70%、80%、90%、または100%相補的なシーケンスを含むことができる。アダプタは、NGSアダプタの、少なくとも5、6、7、8、9、10、11、12、13、14、15、20、または20超過の連続するヌクレオチドに対して相補的または同一のシーケンスを含むことができる。場合によっては、アダプタは、NGSアダプタ(例えばフローセルシーケンス)の一部分もしくは全てに対して相補的な、または同一のシーケンスを含まない。
[00195]アダプタは5’末端でアデニル化することができる。アダプタは捕獲試薬と錯体を形成することができる、捕獲部分に接合することができる。捕獲部分は、当該分野で知られている任意の手段によって、アダプタオリゴヌクレオチドに接合することができる。捕獲部分/捕獲試薬の対は当該分野で知られている。場合によっては、捕獲試薬は、アビジン、ストレプトアビジン、またはニュートラアビジンであり、捕獲部分はビオチンである。別の場合には、捕獲部分/捕獲試薬の対はジゴキシゲニン/小麦胚細胞凝集素である。
[00196]場合によっては、アダプタは核酸断片に連結される。核酸断片に対するアダプタの連結は、ATP依存型リガーゼによってもたらされる。ATP依存型リガーゼはRNAリガーゼであることができる。RNAリガーゼはATP依存型リガーゼであることができる。RNAリガーゼは、Rnl1またはRnl2ファミリーリガーゼであることができる。Rnl1ファミリーリガーゼは、tRNAの一本鎖切断を修復することができる。例示的なRnl1ファミリーリガーゼとしては、例えば、T4 RNAリガーゼ、サーマス・スコトダクタス・バクテリオファージ(Thermus scitoductus bacteriophage)TS2126(サークリガーゼ)由来の熱安定性RNAリガーゼ1、またはサークリガーゼIIが挙げられる。これらのリガーゼは、ヌクレオチド3−OH求核剤と5’リン酸基の間のホスホジエステル結合のATP依存型形成を触媒することができる。Rnl2ファミリーリガーゼは二本鎖RNAのニックを封止することができる。例示的なRnl2ファミリーリガーゼとしては、例えば、T4 RNAリガーゼ2が挙げられる。RNAリガーゼは、古細菌RNAリガーゼ、例えば、好熱性古細菌メタノバクテリウム属サーモオートトロピカム(MthRnl)由来の古細菌RNAリガーゼであることができる。
[00197]一本鎖核酸断片に対するアダプタの連結は、核酸断片、アダプタ、およびリガーゼを含む反応混合物を調製することを含むことができる。反応混合物を加熱して、ssDNA断片に対するアダプタオリゴヌクレオチドの連結をもたらすことができる。反応混合物は、約50℃、約55℃、約60℃、約65℃、約70℃、または約70℃超まで加熱することができる。反応混合物は約60〜70℃まで加熱することができる。反応混合物は、核酸フラグメントに対するアダプタの連結をもたらすのに十分な時間、加熱することができる。反応混合物は、約5分、約10分、約15分、約20分、約25分、約30分、約35分、約40分、約45分、約50分、約55分、約60分、約70分、約80分、約90分、約120分、約150分、約180分、約210分、約240分、または約240分超にわたって加熱することができる。
[00198]アダプタは、混合物中の核酸断片の濃度よりも高い濃度で反応混合物中に存在することができる。いくつかの実施形態では、アダプタは、混合物中の核酸断片の濃度よりも少なくとも10%、20%、30%、40%、60%、60%、70%、80%、90%、100%、または100%超、高い濃度で反応混合物中に存在することができる。アダプタは、混合物中の核酸断片の濃度よりも少なくとも10倍、100倍、1000倍、または10000倍高い濃度で反応混合物中に存在することができる。アダプタは、少なくとも0.1μM、少なくとも0.5μM、少なくとも1μM、少なくとも10μM、またはそれ以上の最終濃度で存在することができる。リガーゼは、飽和量で反応混合物中に存在することができる。
[00199]それに加えて、反応混合物は、高分子量の不活性分子、例えばMW4000、6000、または8000のPEGを含むことができる。不活性分子は、約0.5%、1%、2%、3%、4%、5%、7.5%、10%、12.5%、15%、17.5%、20%、25%、30%、35%、40%、45%、50%、または50%超の重量/体積の量で存在することができる。いくつかの実施形態では、不活性分子は、約0.5〜2%、約1〜5%、約2〜15%、約10〜20%、約15〜30%、約20〜50%、または50%超の重量/体積の量で存在することができる。
[00200]核酸分子(例えば、ssDNA断片)に対するアダプタの連結をもたらすのに十分な時間の後、未反応のアダプタを、例えば、分子量カットオフによるろ過、サイズ排除クロマトグラフィ、スピンカラムの使用、ポリエチレングリコール(PEG)を用いた選択的沈殿、シリカもしくはカルボキシレート上のPEGを用いた選択的沈殿、アルコール沈殿、酢酸ナトリウム沈殿、PEGおよび塩沈殿、または高厳密性洗浄など、当該分野で知られている任意の手段で除去することができる。
[00201]場合によっては、連結した核酸断片を捕獲することができる。連結した核酸断片の捕獲は、伸長前に、または伸長に続いて行うことができる。連結した核酸断片は固体支持体上に捕獲することができる。捕獲は、アダプタおよび捕獲試薬に接合された捕獲部分を含む錯体の形成を伴う場合がある。捕獲試薬は固体支持体上に不動化することができる。固体支持体は、捕獲部分を含む連結した拡散の量と比較して、余分な捕獲試薬を含むことができる。固体支持体は、捕獲部分を含む連結した拡散断片の総数の5倍、10倍、または100倍のさらに利用可能な結合部位を含むことができる。
[00202]場合によっては、例えば、一本鎖アダプタが一本鎖断片(例えば、ssDNA断片)の3’末端に連結されると、プライマー(例えば、アダプタ特異的なプライマー)が、アダプタを介して、連結された核酸断片に対してハイブリダイズされる。プライマー(例えば、アダプタ特異的なプライマー)は、一本鎖断片の3’末端でアダプタにアニーリングする3’シーケンスを含むことができる。
[00203]プライマー(例えば、アダプタ特異的なプライマー)は、NGSアダプタシーケンスの一部分または全体を、例えばその5’末端において含むことができる。例示的なNGSアダプタシーケンスについては本明細書に記載する。ハイブリダイズしたプライマーを伸長して、元の核酸断片と伸長プライマーとを含む二本鎖を作成することができ、伸長プライマーは、元の核酸断片および一端にあるNGSアダプタシーケンスの逆相補鎖を含む。例示的なNGSアダプタシーケンスについては本明細書に記載する。いくつかの実施形態では、プライマー中のNGSアダプタシーケンスは、NGSプラットフォームの表面結合オリゴヌクレオチド(例えば、フローセルシーケンス)に対して、少なくとも70%、80%、90%、または100%同一であるシーケンスを含む。NGSアダプタシーケンスは、NGSプラットフォームの表面結合オリゴヌクレオチド(例えば、フローセルシーケンス)に対して、少なくとも70%、80%、90%、または100%相補的であるシーケンスを含む。NGSアダプタシーケンスは、NGSプラットフォームが使用するシーケンシングプライマーに対して少なくとも70%、80%、90%、または100%同一であるシーケンスを含むことができる。NGSアダプタシーケンスは、NGSプラットフォームが使用するシーケンシングプライマーに対して少なくとも70%、80%、90%、または100%相補的であるシーケンスを含むことができる。アダプタプライマーの伸長は、校正中温性または高温性DNAによって影響を及ぼすことができる。ポリメラーゼは、5’−3’外ヌクレオチド鎖分解性/内ヌクレオチド鎖分解性(DNAポリメラーゼI、II、III)、または3’−5’外ヌクレオチド鎖分解性(ファミリーAもしくはB DNAポリメラーゼ、DNAポリメラーゼI、T4 DNAポリメラーゼ)活性を有する、好熱性ポリメラーゼであることができる。場合によっては、ポリメラーゼはエキソヌクレアーゼ活性(Taq)を有することができる。ポリメラーゼは、不動化連結断片の線形増幅をもたらして、不動化連結断片の逆相補鎖の複数のコピーを作成することができる。場合によっては、逆相補鎖は、逆相補鎖の1つのコピーのみが作成される。いくつかの実施形態では、伸長プライマー分子は、(例えば、本明細書に記載するような、変性などによって)元の核酸テンプレートから分離される。伸長プライマー分子は溶液中で自由であり、元の核酸テンプレートは固体支持体に対して不動化されたままである。伸長プライマー分子を収穫して、ライブラリ要素がNGSアダプタを備える核酸ライブラリの準備を行うことができる。ライブラリ要素の少なくとも50%、60%、70%、80%、90%、90%超、または実質的に全てがNGSアダプタを含むことができる。
[00204]生体サンプル(例えば、血液、血漿、尿、大便、粘膜サンプル)から単離した核酸(例えば、DNAまたはRNA)から、核酸ライブラリを準備する例示的な方法を、以下に提供する。得られた核酸は、酵素的または機械的手段によって、約100〜約1000、例えば約100〜約500bpの断片に断片化することができる。核酸はインサイチューで断片化することができる。核酸は、ホルマリン固定パラフィン包理(FFPE)組織または循環DNAから断片化することができる。核酸は、FFPEから単離し、キット(Qiagen、Covaris)によって循環させることができる。核酸はDNAであることができる。DNAは、無作為なサイズのcDNAを生成するランダムプライム化逆転写(RNaseH+)を使用して、同じサンプルからの生体サンプルから単離された、RNAから生成されるcDNAであることができる。核酸はRNAであることができる。断片化DNAは、塩基切除修復酵素(例えば、Endo VIII、ホルムアミドピリミジンDNAグリコシラーゼ(FPG))で処理して、ポリメライゼーションに干渉する可能性がある損傷した塩基を切除することができる。次に、DNAを、校正ポリメラーゼ(例えば、T4 DNAポリメラーゼ)で処理して、末端を研磨し、損傷したヌクレオチド(例えば、無塩基部位)を置換することができる。いくつかの実施形態では、DNAは、末端を研磨し、損傷したヌクレオチドを置換するために、校正ポリメラーゼで処理されない。
[00205]核酸(例えば、DNAまたはRNA)を、易熱性ホスファターゼで処理して、リン酸基を核酸から除去することができる。反応混合物を80℃まで10分間加熱して、ホスファターゼおよびポリメラーゼを不活性化し、二本鎖DNAを一本鎖に変性することができる。
[00206]化学的または酵素的にリン酸化したアダプタは、3’末端親和性タグ(例えば、ビオチン)を有するか否かにかかわらず、例えば、平均分子量4000、6000、または8000のポリエチレングリコール10〜20%(w/v)の存在下で、飽和量のATP依存型RNAリガーゼ(例えば、T4 RNAリガーゼ、サークリガーゼ、サークリガーゼIIなどの好熱性)を含む最終濃度0.5μM以上で、長さ約12〜約15塩基を断片化した一本鎖核酸の3’末端に連結することができる。反応は、約60〜約70℃で1時間温置することができる。アダプタは、(i)Illuminaフローセルクラスタ形成のための表面結合オリゴヌクレオチドに対応するシーケンスの全てもしくは一部を含むか、または全く含まず、(ii)親和性リガンドと結合受容体との相互作用の立体障害を最小限に抑える十分な距離(例えば、10原子以上)で、オリゴヌクレオチドにリンクされる連結反応に関与することができない3’末端親和性基を含む。
[00207]アダプタは、当該分野で知られている任意の手段によってアデニル化される。アデニル化アダプタが使用される場合、いくつかの実施形態では、ATP依存型RNAリガーゼはサークリガーゼまたはサークリガーゼIIではない。場合によっては、ATP依存型RNAリガーゼは不要である。反応は、未反応のアダプタを除去するため、サイズによって精製することができる。精製は、(例えば、マイクロコンYM−10もしくはYM3、またはナノセップオメガ)10Kまたは3Kの分子サイズカットオフを用いる精密ろ過ユニットの使用によって達成することができる。アダプタ除去は、例えば10K以下のサイズ排除カットオフを用いる、サイズ排除脱塩カラム(アガロース、ポリアクリルアミド)を通過させることによって、スピンカラムの使用によって、PEG、アルコール、または塩を用いた選択的沈殿によって、高厳密性洗浄で、または変性ゲル電気泳動によって達成することができる。
[00208]3’末端でアダプタを完全に相補するかまたは部分的に相補するオリゴヌクレオチドプライマーは、Illuminaフローセルオリゴヌクレオチドなど、フローセル上のシーケンスに対応するシーケンスを含むことができ、校正中温性DNAポリメラーゼを使用して、結合ライブラリの逆相補鎖を作成するために使用することができる。5’−3’外ヌクレオチド鎖分解性/内ヌクレオチド鎖分解性(例えば、ファミリーA DNAポリメラーゼ、例えばDNAポリメラーゼI)、または3’−5’外ヌクレオチド鎖分解性(例えば、ファミリーB DNAポリメラーゼ、Vent、Phusion、Pfu、およびそれらの変異体)活性を有する好熱性ポリメラーゼを使用して、ライブラリの線形増幅を可能にすることができる。
[00209]場合によっては、次に、回収した材料を、バッチモードで3’末端親和性タグに結合することができる、親和性樹脂または支持体に結合させることができる。回収した材料は、タグ付きアダプタ分子の総数の少なくとも10倍の余分な、または100倍のさらに利用可能な結合部位を含む、0.2mlチューブ内の事前洗浄した支持体に入れることができる。
[00210]結合ライブラリのコピーから成る浮遊物を収穫し定量化することができる。
[00211]一例では、dsDNAは断片化される。dsDNA断片をリン酸化させ、熱変性させて一本鎖とすることができる。プライマードッキングシーケンスを含むビオチン標識したアダプタを、核酸断片と接触させることができる。アダプタをssDNA断片の3’末端に連結させて、ライブラリ要素の前駆体を作成することができる。アダプタに対して相補的なシーケンスおよび追加のアダプタシーケンス(例えば、プライマーの5’末端)を含むプライマーを、連結されたアダプタを介してssDNAに対してハイブリダイズすることができる。ハイブリダイズしたプライマーは、テンプレートssDNA断片に沿って伸長して、二本鎖を作成することができる。二本鎖は、固体支持体(例えば、ストレプトアビジンをコーティングしたビーズ)上に不動化することができる。熱変性は、元のssDNA断片をビーズ上で保持した状態で、最終ライブラリ要素を溶液に放出することができる。
[00212]G.ssDNAライブラリの準備(断片の両端に対するアダプタの付着)
[00213]本明細書では、dsDNA断片をssDNAに変性し、ssDNA分子の両端にアダプタシーケンスを連結することを含む、ssDNAライブラリを準備する方法、組成物、およびキットを提供する。dsDNAを断片化する方法を本明細書に記載する。dsDNA断片を変性する方法を本明細書に記載する。
[00214]方法は、第1の表面結合オリゴヌクレオチド(例えば、シーケンシング機器フローセルオリゴヌクレオチド)に対して、少なくとも70%、80%、90%、もしくは100%相補的または同一であるシーケンスを含む、第1のアダプタを連結することを含むことができる。第1の表面結合オリゴヌクレオチドは、NGSプラットフォーム特異的な表面結合オリゴヌクレオチドであることができる。第1のアダプタは、表面結合オリゴヌクレオチドの少なくとも5、6、7、8、9、10、11、12、13、14、15、20、または20超過の連続するヌクレオチドに対して相補的または同一のシーケンスを含むことができる。第1のアダプタは、第1のシーケンシングプライマーに対して少なくとも70%、80%、90%、または100%相補的なシーケンスをさらに含むことができる。第1のアダプタは、本明細書に記載の方法または当該分野で知られている任意の方法を使用して、ssDNA断片の3’末端に連結することができる。ssDNA断片は、5’リン酸基が欠落している場合がある。第1のアダプタは、ATP依存型リガーゼによって、ssDNA断片の3’末端に連結することができる。第1のアダプタは、3’末端ブロッキング基を含むことができる。3’末端ブロッキング基は、3’末端塩基と別のヌクレオチドとの間で共有結合が形成されるのを防ぐことができる。3’末端ブロッキング基は、ジデオキシ−dNTPまたはビオチンであることができる。第1のアダプタは5’アデニル化することができる。第1のアダプタは、本明細書に記載するように、RNAリガーゼによってssDNA断片の3’末端に連結することができる。RNAリガーゼは、T4もしくはMthから切断または変異したRNAリガーゼであることができる。方法は、第2のアダプタシーケンスをssDNA断片の5’末端に連結することをさらに含むことができる。第2のアダプタシーケンスは第1のアダプタシーケンスとは別個であることができる。第2のアダプタシーケンスは、第2の表面結合オリゴヌクレオチドに対して少なくとも70%相補的なシーケンスを含むことができる。第2の表面結合オリゴヌクレオチドは、NGSプラットフォーム特異的な表面結合オリゴヌクレオチドであることができる。第2のアダプタは、表面結合オリゴヌクレオチドの少なくとも5、6、7、8、9、10、11、12、13、14、15、20、または20超過の連続するヌクレオチドに対して相補的または同一のシーケンスを含むことができる。第2のアダプタは、第2のシーケンシングプライマーに対して少なくとも70%、80%、90%、または100%相補的なシーケンスをさらに含むことができる。第2のアダプタは、RNAリガーゼ、例えば、本明細書に記載するようなサークリガーゼを使用して、ssDNA断片に連結することができる。第1および第2のアダプタは両方とも、第1および第2の表面結合オリゴヌクレオチドに対して少なくとも70%、80%、90%、または100%相補的である。第1および第2のアダプタは両方とも、第1および第2の表面結合オリゴヌクレオチドに対して少なくとも70%、80%、90%、または100%同一である。
[00215]本明細書に記載の方法を使用して作られるssDNAライブラリは、全ゲノムシーケンシングまたは標的シーケンシングに使用することができる。いくつかの実施形態では、本明細書に記載の方法を使用して作られるssDNAライブラリは、シーケンシングの前に対象の標的ポリヌクレオチドのために濃縮される。
[00216]H.ssDNAライブラリの形成:標的特異的なライブラリの濃縮
[00217]本明細書では、標的濃縮核酸ライブラリを作成する方法、組成物、およびキットを提供する。方法は、標的選択的オリゴヌクレオチド(TSO)を一本鎖DNA(ssDNA)断片にハイブリダイズして、ハイブリダイゼーション生成物を作成し、伸長して伸長ストランドを作成することを伴うことができる。
[00218]標的濃縮の方法は、参照により本明細書に援用する、米国特許出願公開第20120157322号に記載されているようなものであることができる。
[00219]ハイブリダイズおよび増幅は反応混合物中で起こり得る。「反応混合物」という用語は、本明細書で使用するとき、核酸テンプレート分子からの少なくとも1つの単位複製配列を増幅する構成成分の混合物を指すことができる。混合物は、ヌクレオチド(dNTP)、ポリメラーゼ、および標的選択的オリゴヌクレオチドを含むことができる。混合物は、複数の標的選択的オリゴヌクレオチドを含むことができる。混合物は、Trisバッファ、一価塩、およびMg2+をさらに含むことができる。各構成成分の濃度は、当業者によってさらに最適化することができる。反応混合物はまた、非特異的な背景/ブロッキング核酸(例えば、サケ精子DNA)、バイオプリザバティブ(例えば、アジ化ナトリウム)、PCRエンハンサー(例えば、ベタイン、トレハロースなど)、および阻害剤(例えば、RNAse阻害剤)を含むがそれらに限定されない、添加剤を含むことができる。核酸サンプル(例えば、ssDNA断片を含むサンプル)は、反応混合物と混和することができる。反応混合物は、核酸サンプルをさらに含むことができる。
[00220]ssDNA断片は、ssDNAライブラリの要素であることができる。ssDNAライブラリは、本明細書に記載する方法を使用して作成することができる。ssDNA断片は、第1の末端にあるが第2の末端にはない、第1の一本鎖アダプタシーケンスを含むことができる。第1の末端は5’末端であることができる。TSOは、第1の末端にあるが第2の末端にはない第2の一本鎖アダプタシーケンスを含むことができる。第1の末端は5’末端であることができる。第1のアダプタシーケンスは、第1の表面結合オリゴヌクレオチド(例えば、フローセルオリゴヌクレオチド)に対して、少なくとも70%、80%、90%、もしくは100%相補的または同一であるシーケンスを含むことができる。第1のアダプタシーケンスは、シーケンシングプライマーに対して少なくとも70%、80%、90%、もしくは100%相補的または同一であるシーケンスを含むことができる。第1のアダプタはバーコードシーケンスを含むことができる。第2のアダプタは、第2の表面結合オリゴヌクレオチド(例えば、フローセルオリゴヌクレオチド)に対して、少なくとも70%、80%、90%、または100%同一であるシーケンスを含むことができる。第2のアダプタシーケンスは、シーケンシングプライマーに対して少なくとも70%、80%、90%、または100%同一であるシーケンスをさらに含むことができる。
[00221]標的選択的オリゴヌクレオチド(TSO)は、対象の標的ポリヌクレオチドに対して少なくとも部分的にハイブリダイズするように設計することができる。TSOは、標的ポリヌクレオチドに対して選択的にハイブリダイズするように設計することができる。TSOは、標的ポリヌクレオチド中のシーケンスに対して少なくとも約70%、75%、80%、85%、90%、95%、または95%超相補的であることができる。TSOは、標的ポリヌクレオチド中のシーケンスに対して100%相補的であることができる。ハイブリダイゼーションは、Tmを含むTSO/標的二本鎖をもたらすことができる。TSO/標的二本鎖のTmは、0〜約100℃、約20〜約90℃、約40〜約80℃、約50〜約70℃、約55〜約65℃、または約62〜約68℃であることができる。TSOは、ポリメラーゼの存在下で伸長生成物の合成をプライミングするのに十分な長さであることができる。TSOの正確な長さおよび組成は、アニーリング反応の温度、プライマーのソースおよび組成、ならびにプライマーとプローブの濃度比を含む、多くの因子に応じて変わり得る。TSOは、例えば、長さ約8〜約50nt、約10〜約40nt、約12〜約24ntであることができる。TSOは長さ約40ntであることができる。場合によっては、標的シーケンスを結合するTSOの部分は、約10〜約50nt、約20〜約50nt、約25〜約40nt、約30〜約40nt、または約35〜約40ntである。
[00222]標的シーケンスにアニーリングされたTSOは伸長することができる。核酸ポリメラーゼを利用して増幅を実施することができる。核酸ポリメラーゼはDNAポリメラーゼであることができる。DNAポリメラーゼは熱安定性DNAポリメラーゼであることができる。ポリメラーゼは、AもしくはBファミリーDNA校正ポリメラーゼ(Vent、Pfu、Phusion、およびそれらの変異体)の要素、DNAポリメラーゼホロ酵素(DNAポルIIIホロ酵素)、Taqポリメラーゼ、またはそれらの組み合わせであることができる。
[00223]伸長は、変性ステップ、プライマーアニーリングステップ、および合成ステップを通してテンプレートDNAを含む反応混合物を循環させる、自動化プロセスとして実施することができる。自動化プロセスは、PCR熱サイクラーを使用して実施することができる。市販の熱サイクラーシステムとしては、中でも特に、Bio−Rad Laboratories、Life technologies、Perkin−Elmerからのシステムが挙げられる。
[00224]標的シーケンスにアニーリングされたTSOを伸長して、第2のアダプタシーケンス、標的シーケンスの逆相補鎖、および第1のアダプタシーケンスの逆相補鎖を含む伸長鎖を含む、伸長生成物を生成することができる。元のssDNA断片の第1のアダプタシーケンスが、第1の表面結合オリゴヌクレオチドに対して70%以上同一であった場合、伸長鎖は、第1の表面結合オリゴヌクレオチドに対して70%以上相補的である第1のアダプタシーケンスを含むことができ、第1の表面結合オリゴヌクレオチド(例えば、フローセルオリゴヌクレオチド)に対してハイブリダイズすることができる。伸長鎖は標的濃縮ライブラリを含むことができる。
[00225]反応混合物中の標的シーケンスにアニーリングされた伸長生成物を変性することができる。場合によっては、伸長鎖には、大規模並列シーケンシング機器または他の用途で使用する前に、増幅が、例えばポリメラーゼ鎖反応が行われる。場合によっては、伸長鎖は、大規模並列シーケンシング機器または他の用途で使用する前は、増幅されない(例えば、PCRなどを使用して、溶液中で増幅される)。場合によっては、伸長鎖には、大規模並列シーケンシング機器で使用する前に、例えば溶液中で、約5〜約50サイクル、約5〜約40サイクル、約5〜約30サイクル、約5〜約25サイクル、約5〜約20サイクル、または約5〜約15サイクル、PCRが行われる。場合によっては、伸長鎖は、大規模並列シーケンシング機器で使用する前に、例えば溶液中で、40サイクル未満、30サイクル未満、25サイクル未満、20サイクル未満、15サイクル未満、14サイクル未満、13サイクル未満、12サイクル未満、11サイクル未満、または10サイクル未満、増幅が、例えばPCRが行われる。伸長鎖は、大規模並列シーケンシング機器で使用する前に、例えば溶液中で、約5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、または20サイクル、例えばPCRによって増幅することができる。増幅は、第1のアダプタシーケンスの相補鎖にアニーリングする第1のプライマー(例えば、標的シーケンスの5’末端にアダプタシーケンスと同一のシーケンスを有するプライマー)と、第2のアダプタシーケンスの相補鎖にアニーリングする第2のプライマー(例えば、TSOの5’末端に第2のアダプタシーケンスと同一のシーケンスを有するプライマー)とを用いて実施することができる。
[00226]変性した伸長生成物、および/またはそれを増幅したものを、少なくとも第1の表面結合オリゴヌクレオチド(例えば、フローセルシーケンス)を用いて、生成物上で不動化された表面と接触させることができる。伸長鎖は、伸長鎖上の第1のアダプタシーケンスに対してアニーリングすることができる、第1の表面結合オリゴヌクレオチド(例えば、フローセルオリゴヌクレオチド)によって捕獲することができる。
[00227]第1の表面結合オリゴヌクレオチドは、捕獲された伸長鎖の伸長をプライミングすることができる。捕獲された伸長鎖の伸長によって、捕獲した伸長生成物をもたらすことができる。捕獲された伸長生成物は、第1の表面結合オリゴヌクレオチドと、標的シーケンスと、第2の表面結合オリゴヌクレオチドに対して少なくとも70%、80%、90%、または100%以上相補的な第2のアダプタシーケンスの相補鎖とを含むことができる。
[00228]捕獲された伸長生成物は、第2の表面結合オリゴヌクレオチドにハイブリダイズして、ブリッジを形成することができる。いくつかの実施形態では、ブリッジはブリッジPCRによって増幅される。ブリッジPCR方法は、当該分野で知られている方法を使用して実施することができる。
[00229]I.ライブラリの準備および標的濃縮のためのキット
[00230]本明細書に記載するようなライブラリの準備または本明細書に記載するような標的濃縮の方法を実施するためのキットも提供する。
[00231]キットは、dsDNAの修復および化学変性のための試薬を含むことができる。キットは、一本鎖DNAの精製のための試薬を含むことができる。キットは、損傷した塩基を切除するための1つ以上の酵素を含むことができる。キットはホスファターゼを含むことができる。キットはキナーゼを含むことができる。キットは、DNA断片の3’末端をブロックするターミナルトランスフェラーゼおよびジデオキシヌクレオチドを含むことができる。
[00232]本明細書では、ssDNAライブラリを準備するためのキットを提供する。キットは、例えば本明細書に記載するような、アダプタを含む。キットは、命令、例えばアダプタをssDNA断片に連結する命令を含むことができる。キットはリガーゼをさらに含むことができる。リガーゼは、Rnl1またはRnl2ファミリーリガーゼであることができる。キットは、アダプタにハイブリダイズすることができるプライマーをさらに含むことができる。アダプタに対してハイブリダイズ可能なプライマーについては、本明細書に記載する。キットは、固体支持体、例えば、捕獲試薬の上に不動化されたビーズを提供することができる。キットは、伸長反応を起こすポリメラーゼを提供することができる。キットは、伸長反応を起こすdNTPを提供することができる。
[00233]キットは、シーケンシングプラットフォームに結合された第1の支持結合オリゴヌクレオチドに対して少なくとも70%、80%、90%、または100%相補的または同一であるシーケンスを含む、第1のアダプタオリゴヌクレオチドと、第1のアダプタとは別個のシーケンスを含む第2のアダプタオリゴヌクレオチドと、RNAリガーゼと、使用のための説明とを含むことができる。第1のアダプタは、3’末端塩基と別のヌクレオチドとの間で共有結合が形成されるのを防ぐ、3’末端ブロッキング基を含むことができる。3’末端ブロッキング基については本明細書に記載する。第1のアダプタは5’アデニル化することができる。第1のアダプタは、シーケンシングプライマーに対して少なくとも70%、80%、90%、もしくは100%相補的または同一であるシーケンスを含むことができる。第2のアダプタは、シーケンシングプライマーに対して少なくとも70%、80%、90%、もしくは100%相補的または同一であるシーケンスを含むことができる。第2のアダプタは、シーケンシングプラットフォームに結合された第2の表面結合オリゴヌクレオチドに対して、少なくとも70%、80%、90%、または100%相補的であるシーケンスを含むことができる。
[00234]また、標的濃縮DNAライブラリを準備するためのキットが提供される。キットは、アダプタ、リガーゼ、標的特異的なシーケンスに対してハイブリダイズ可能なプライマー、捕獲試薬を含む固体支持体、ポリメラーゼ、dNTP、またはそれらの任意の組み合わせを含むことができる。TSOは、参照により本明細書に援用する、米国特許出願公開第20120157322号に記載されているような、溶液中で自由であるか、またはNGSプラットフォーム上でシーケンシングのために結合された固体支持体上で不動化することができる。
[00235]本明細書で提供するキットは、パッケージング材料を含むことができる。「パッケージング材料」という用語は、キットの構成要素を収容する物理的構造を指すことができる。パッケージング材料は、キットの構成要素の滅菌性を維持することができ、かかる目的で一般に使用される材料(例えば、紙、波形繊維、ガラス、プラスチック、フォイル、アンプルなど)で作ることができる。キットはまた、緩衝剤、防腐剤、またはタンパク質/核酸安定化剤を含むことができる。
[00236]本明細書で提供する開示は、当該分野内にある分子生物学の技術、微生物学の技術、および組換えDNA技術を採用することを含むことができる。例えば、Sambrook,Fritsch & Maniatis,Molecular Cloning:A Laboratory Manual,Fourth Edition(2012);Oligonucleotide Synthesis(M.J.Gait,ed.,1984);Nucleic Acid Hybridization(B.D.Hames & S.J.Higgins,eds.,1984);A Practical Guide to Molecular Cloning(B.Perbal,1984);およびMethods in Enzymologyシリーズ(Academic Press,Inc.)を参照のこと。本明細書で上記および下記の両方において言及する全ての特許、特許出願、および刊行物を、参照により本明細書に援用する。
IX.患者モニタリング
[00237]本明細書で提供するコンピューティングシステム、ソフトウェア媒体、方法、およびキットを、患者のモニタリング、例えば縦断的アッセイに使用することができる。方法は、初発腫瘍サンプル、例えばホルマリン固定パラフィン包理(FFPE)サンプル、細針吸引(FNA)生検、コア針生検(CNB)、および/または無細胞サンプル(例えば、無細胞血漿サンプル)からの、1つ以上の遺伝子のシーケンシング、例えば大規模並列シーケンシング(次世代シーケンシング)を含むことができる。初期サンプルは、被験者ががん治療を受ける前に被験者から得たサンプルであることができる。血漿を初期サンプルとして使用した場合、サンプルから使用されるDNAの量は、DNA約1ngであることができる。血漿を初期サンプルとして使用した場合、血漿の量は約3mLであることができる。場合によっては、固形腫瘍サンプル(例えば、FFPEサンプル、FNAサンプル、またはCNBサンプル)のみがシーケンシングのために、被験者ががん治療を受ける前に被験者から得られ、サンプルからの核酸がシーケンシングされる。場合によっては、流体サンプル(例えば、血漿)のみがシーケンシングのために、被験者ががん治療を受ける前に被験者から得られ、核酸は流体(例えば、血漿)サンプルからシーケンシングされる。場合によっては、固形腫瘍サンプルおよび流体サンプル(例えば、血漿)の両方がシーケンシングのために、被験者ががん治療を受ける前に被験者から得られ、核酸は、固形腫瘍サンプルおよび流体(例えば、血漿)サンプルからシーケンシングされる。被験者ががん治療を受ける前に得た、固形腫瘍サンプルおよび流体サンプルからのシーケンシングデータを、比較することができる。場合によっては、被験者ががん治療を受ける前に得た、固形腫瘍サンプルおよび流体サンプルからのシーケンシングデータは比較されない。
[00238]サンプル(例えば、初期サンプル)中でシーケンシングされる遺伝子の数は、およそまたは少なくとも1、5、10、20、30、40、50、60、70、80、90、96、100、110、120、129、130、140、150、160、170、180、190、200、300、400、500、600、700、800、900、またはそれ以上の遺伝子であることができる。シーケンシングは、修正臨床検査室改善法(CLIA)認可済みの実験室、および/または米国病理医協会(CAP)認可済みの実験室で行うことができる。シーケンシングデータの解析(例えば、バイオインフォマティックス)は、CLIAおよび/またはCAP認可済みの実験室で行うことができる。シーケンシングした遺伝子は、以下のうち1つ以上であることができる。ABCA1、BRAF、CHD5、EP300、FLT1、ITPA、MYC、PIK3R1、SKP2、TP53、ABCA7、BRCA1、CHEK1、EPHA3、FLT3、JAK1、MYCL1、PIK3R2、SLC19A1、TP73、ABCB1、BRCA2、CHEK2、EPHA5、FLT4、JAK2、MYCN、PKHD1、SLC1A6、TPM3、ABCC2、BRIP1、CLTC、EPHA6、FN1、JAK3、MYH2、PLCB1、SLC22A2、TPMT、ABCC3、BUB1B、COL1A1、EPHA7、FOS、JUN、MYH9、PLCG1、SLCO1B3、TPO、ABCC4、Clorf144、COPS5、EPHA8、FOXO1、KBTBD11、NAV3、PLCG2、SMAD2、TPR、ABCG2、CABLES1、CREB1、EPHB1、FOXO3、KDM6A、NBN、PML、SMAD3、TR10、ABL1、CACNA2D1、CREBBP、EPHB4、FOXP4、KDR、NCOA2、PMS2、SMAD4、TRRAP、ABL2、CAMKV、CRKL、EPHB6、GAB1、KIT、NEK11、PPARG、SMARCA4、TSC1、ACVR1B、CARD11、CRLF2、EPO、GATA1、KLF6、NF1、PPARGC1A、SMARCB1、TSC2、ACVR2A、CARM1、CSF1R、ERBB2、GLI1、KLHDC4、NF2、PPP1R3A、SMO、TTK、ADCY9、CAV1、CSMD3、ERBB3、GLI3、KRAS、NKX2-1、PPP2R1A、SOCS1、TYK2、AGAP2、CBFA2T3、CSNK1G2、ERBB4、GNA11、LMO2、NOS2、PPP2R1B、SOD2、TYMS、AKT1、CBL、CTNNA1、ERCC1、GNAQ、LRP1B、NOS3、PRKAA2、SOS1、UGT1A1、AKT2、CCND1、CTNNA2、ERCC2、GNAS、LRP2、NOTCH1、PRKCA、SOX10、UMPS、AKT3、CCND2、CTNNB1、ERCC3、GPR124、LRP6、NOTCH2、PRKCZ、SOX2、USP9X、ALK、CCND3、CYFIP1、ERCC4、GPR133、LTK、NOTCH3、PRKDC、SP1、VEGF、ANAPC5、CCNE1、CYLD、ERCC5、GRB2、MAB1B1、NPM1、PTCH1、SPRY2、VEGFA、APC、CD40LG、CYP19A1、ERCC6、GSK3B、MAP2K1、NQO1、PTCH2、SRC、VHL、APC2、CD44、CYP1B1、ERG、GSTP1、MAP2K2、NR3Cl、PTEN、ST6GAL2、WRN、AR、CD79A、CYP2C19、ERN2、GUCY1A2、MAP2K4、NRAS、PTGS2、STAT1、WT1、ARAF、CD79B、CYP2C8、ESR1、HDAC1、MAP2K7、NRP2、PTPN11、STAT3、XPA、ARFRP1、CDC42、CYP2D6、ESR2、HDAC2、MAP3K1、NTRK1、PTPRB、STK11、XPC、ARID1A、CDC42BPB、CYP3A4、ETV4、HGF、MAPK1、NTRK2、PTPRD、SUFU、ZFY、ATM、CDC73、CYP3A5、EWSR1、HIF1A、MAPK3、NTRK3、RAD50、SULT1A1、ZNF521、ATP5A1、CDH1、DACH2、EXT1、HM13、MAPK8、OMA1、RAD51、SUZ12、ATR、CDH10、DCC、EZH2、HMGA1、MARK3、OR10R2、RAFT、TAF1、AURKA、CDH2、DCLK3、FANCA、HNF1A、MCL1、PAK3、RARA、TBX22、AURKB、CDH2O、DDB2、FANCD2、HOXA3、MDM2、PARP1、RB1、TCF12、BAI3、CDH5、DDB2、FANCE、HOXA9、MDM4、PAX5、REM1、TCF3、BAP1、CDK2、DGKB、FANCF、HRAS、MECOM、PCDH15、RET、TCF4、BARD1、CDK4、DGKZ、FAS、HSP90AA1、MEN1、PCDH18、RICTOR、TEK、BAX、CDK6、DIRAS3、FBXW7、IDH1、MET、PCNA、RIPK1、TEP1、BCL11A、CDK7、DLG3、FCGR3A、IDH2、MITF、PDGFA、ROR1、TERT、BCL2、CDK8、DLL1、FES、IFNG、MLH1、PDGFB、ROR2、TET2、BCL2A1、CDKN1A、DNMT1、FGFR1、IGF1R、MLL、PDGFRA、ROS1、TGFBR2、BCL2L1、CDKN1B、DNMT3A、FGFR2、IGF2R、MLL3、PDGFRB、RPS6KA2、THBS1、BCL2L2、CDKN2A、DNMT3B、FGFR3、IKBKE、MPL、PDZRN3、RPTOR、TNFAIP3、BCL3、CDKN2B、DOT1L、FGFR4、IKZF1、MRE11A、PHLPP2、RSPO2、TNKS、BCL6、CDKN2C、DPYD、FH、IL2RG、MSH2、PIK3C3、RSPO3、TNKS2、BCR、CDKN2D、E2F1、FHOD3、INHBA、MSH6、PIK3CA、RUNX1、TNNI3K、BIRC5、CDX2、EED、FIGF、INSR、MTHFR、PIK3CB、SDHB、TNR、BIRC6、CEBPA、EGF、FLG2、IRS1、MTOR、PIK3CD、SF3B1、TOP1、BLM、CERK、EGFR、FLNC、IRS2、MUTYH、PIK3CG、SHC1、およびTOP2A。
[00239]シーケンスデータを使用して、遺伝子における突然変異のプロファイルを判定することができる。突然変異のプロファイルは報告に列挙することができる。報告は、介護者に、または1つ以上のサンプルを取った被験者に提供することができる。報告は、突然変異のプロファイルに基づいて、可能な治療の選択肢を示すことができる。
[00240]後続サンプルは、例えば、初期サンプルにおいてシーケンシングされた1つ以上の遺伝子をモニタリングするため、初期サンプルを得た後に被験者から得ることができる。複数の後続サンプルを被験者から得ることができる(例えば、およそまたは少なくとも2、3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90、100サンプル)。被験者からの後続サンプルは、流体サンプル、例えば血漿サンプル、または固形腫瘍からのサンプルであることができる。核酸、例えば無細胞核酸、例えば後続サンプルからの無細胞DNAを解析することができる。後続サンプルからの核酸は、例えば、大規模並列シーケンシング(次世代シーケンシング)などのシーケンシングによって解析することができる。後続サンプルの核酸は、例えばPCR、例えばデジタルPCR(dPCR)、例えば液滴デジタルPCR(例えば、ddPCR)の増幅によって解析することができる。後続サンプルの核酸は、増幅(例えばdPCR、例えばddPCR)およびシーケンシング、例えば大規模並列シーケンシング(次世代シーケンシング)の両方によって解析することができる。
[00241]後続サンプルは、規則的間隔または不規則間隔で被験者から得ることができる。後続サンプルは、毎日、週1回、月2回、月1回、3ヶ月に1回、半年に1回、または1年に1回、被験者から得ることができる。
[00242]場合によっては、後続サンプルは、シーケンシングが初期サンプル中で特定された遺伝子の突然変異または変質を検出するのに十分な感度を提供しなくなるまで、シーケンシングによって解析することができる。例えば、突然変異は、初期固形腫瘍サンプルまたは初期無細胞サンプル(例えば、血漿)からの核酸のシーケンシング(例えば、Illumina(登録商標)MiSeqを使用する)によって、遺伝子中で特定することができ、シーケンシングを使用して、後続サンプル(例えば流体サンプル、例えば血漿)の遺伝子中に突然変異が存在するか否かを検出することができ、シーケンシングが後続サンプルの遺伝子中の突然変異をそれ以上検出できなくなった場合、増幅ベースのアッセイ(例えばdPCR、例えば、Bio−Rad機器QX200(商標)Droplet Digital(商標)PCRシステムなどを使用する、ddPCR)を使用して、後続サンプルの遺伝子中に突然変異が存在するか否かを検出することができる。場合によっては、増幅ベースの方法、例えばdPCR、例えばddPCRは、シーケンシングベースの方法よりも高い感度を有し得る。場合によっては、初期サンプルで検出された突然変異は、シーケンシングによって解析される後続サンプルでは検出されなくなるが、増幅、例えばddPCRによって、解析される後続サンプルで検出される。場合によっては、初期サンプル中に存在する突然変異は、シーケンシングによって解析される後続サンプルでは検出されなくなり、増幅(例えば、ddPCR)によって解析される後続サンプルでも検出されなくなる。
[00243]後続サンプル中で解析される遺伝子の数は、初期サンプル中で解析される遺伝子の数よりも少ない数、初期サンプル中で解析されるのと同じ数、または初期サンプル中で解析される遺伝子の数よりも多い数であり得る。後続サンプル中で解析される遺伝子は、初期サンプル中で解析される遺伝子の部分集合であり得る。後続サンプル中で解析される遺伝子は、初期サンプル中で特定される突然変異のプロファイル(個別の変異体のプロファイル)に基づくものであり得る。後続サンプル中で解析される遺伝子の数は、およそまたは少なくとも1、5、10、20、30、40、50、60、70、80、90、96、100、110、120、129、130、140、150、160、170、180、190、200、300、400、500、600、700、800、900、またはそれ以上の遺伝子であることができる。場合によっては、後続サンプル中で解析される遺伝子の数は、初期サンプル中で解析される遺伝子の数よりも多数であり得る。後続サンプル中でモニタリングされる遺伝子を解析して、がんをモニタリングし、治療の有効性をモニタリングし、がんの進化を検出し、がんの再発を検出し、がんの再燃を検出し、またはがんの進行を検出することができる。
[00244]後続サンプルは、被験者におけるがんの期間にわたって解析することができる。がんの再発が後続サンプルに置いて特定された場合、第2のサンプルを被験者から得て、シーケンシングを行うことができる。第2のサンプルは固体サンプルまたは流体サンプル(例えば、無細胞サンプル)であることができ、被験者から得て、シーケンシング、例えば大規模並列シーケンシング(次世代シーケンシング)を行って、突然変異のプロファイルを判定することができる。場合によっては、第2のサンプルは固形腫瘍サンプルであり、固形腫瘍サンプルからの核酸のシーケンシングが行われる。
[00245]シーケンシングは遺伝子増幅を、例えば、試験される遺伝子増幅の少なくとも50%、60%、70%、80%、90%、95%、96%、97%、98%、98.5%、99%、99.5%、または100%を検出することができる。サンプル中の遺伝子増幅は、デジタルPCR、例えばddPCRによって検出することができる。ddPCRの使用は、試験される遺伝子増幅の少なくとも50%、60%、70%、80%、90%、95%、96%、97%、98%、98.5%、99%、99.5%、または100%を検出することができる。遺伝子増幅は、例えば、蛍光インシチューハイブリダイゼーション(FISH)を使用して検出することができる。
[00246]いくつかの実施形態では、本明細書に記載するように生成された標的濃縮ライブラリに、当該分野で知られている、または本明細書に記載するような任意の方法を使用して、シーケンシングが行われる。シーケンシングは、その組のうち1つ以上のがん関連遺伝子における突然変異の存在を明らかにすることができる。いくつかの実施形態では、突然変異が潜む2つ、3つ、4つの遺伝子の部分集合が、後の時点で被験者から単離される流体サンプル中の無細胞DNAの査定によって、さらなるモニタリングのために選択される。いくつかの実施形態では、突然変異が潜む4つ以下の遺伝子の部分集合が、後の時点で被験者から単離される流体サンプル中の無細胞DNAの査定によって、さらなるモニタリングのために選択される。
X.定義
[00247]本明細書および特許請求の範囲で使用するとき、単数形「a」、「an」、「the」は、文脈において別段の明確な指示がない限り、複数を含むことができる。例えば、「細胞(a cell)」という用語は、細胞の混合物を含む、複数の細胞を含むことができる。
[00248]範囲は、本明細書では、「約」を付けたある特定の値から、および/または「約」を付けた別の特定の値までとして表現することができる。かかる範囲が表現される場合、別の実施形態は、そのある特定の値から、および/またはその他の特定の値までを含む。同様に、「約」という先行詞を使用することによって、値が近似として表現される場合、その特定の値が別の実施形態を形成することが理解される。さらに、範囲それぞれの終点は、他方の終点と関連して、また他方の終点とは独立して有意であることが理解されるであろう。「約」という用語は、本明細書で使用するとき、特定の用法の文脈内において、規定される数値から±15%の範囲を指す。例えば、約10は8.5〜11.5の範囲を含むであろう。
[00249]本明細書に記載するプロセスで使用される核酸は、溶液中で自由であることができる。「溶液中で自由」という用語は、固体支持体、例えばビーズもしくはフローセルに結合されたり繋ぎ止められていない、ポリヌクレオチドなどの分子を説明することができる。
[00250]本明細書に記載するプロセスは、ゲノムDNAの断片またはゲノム断片を利用することができる。「ゲノム断片」という用語は、ゲノム、例えばヒト、サル、ラット、魚、もしくは昆虫、もしくは植物のゲノムなど、動物または植物のゲノムの領域を指すことができる。ゲノム断片は、アダプタ連結することができるか、またはできない。ゲノム断片は、アダプタ連結(その場合、断片の一端もしくは両端、分子の少なくとも5’末端に連結されるアダプタを有する)することができ、またはアダプタ連結されない。
[00251]特定の事例では、本明細書に記載する方法で使用されるオリゴヌクレオチドは、基準ゲノム領域を、即ち既知のヌクレオチドシーケンスのゲノム領域を、例えば、NCBIのGenbankデータベースまたは他のデータベースにシーケンスが預けられている染色体領域を使用して設計することができる。
実施例
体細胞変異体の特定
[00252]被験者は、大腸鏡検査を受け、結腸腫瘍を宿していることが発見される。腫瘍生検および採血の両方を被験者から収集し、被験者の結腸がんの診断を支援するために使用する。第1の採血からの腫瘍細胞および正常細胞にシーケンシングを行う。被験者の腫瘍と正常なサンプルとのシーケンス比較は、確率モデルおよび統計的推論に基づく。比較は、公開データベースで報告されている腫瘍の遺伝子変異における既知の染色体座を利用し、遺伝子座の近傍にある可能なシーケンスを確率的にモデル化する。モデルを被験者のシーケンスデータと合わせて、統計的推論を実施する。推論は、APC、KRAS、およびTP53遺伝子における3つの体細胞変異体の点突然変異を特定する。被験者のがんのステージが判定される。
[00253]さらに、データ解析アプリケーションは、第1の治療戦略、例えば腫瘍を除去する外科手術を推奨する。第1の治療において、第2の採血を実施する。被験者の腫瘍は転移していると判定される。被験者に、がんを管理する第2の療法(化学療法)として投薬を行う。
ベイズネットワークによるデータ解析
[00254]図8は、標的使用事例に対する推論を説明する例示的なベイズネットワークを示している。ネットワーク図において、ノード「C」は推論される変異体コールを表し、ノード「R」は遺伝子座にわたる一連の整列されたリードのベースコールを表し、ノード「P」は遺伝子座における倍数関係である(例えば、正常な生殖細胞系列の場合は二倍体であるが、ゲノム不安定性によってがん細胞で異なる場合がある)。がん腫瘍細胞またはDNAを含むサンプルの場合、「U」はサンプルの細胞充実性を表し、これは他の手段(例えば、病理学)によって推定することができ、生殖細胞系列からのDNA分子が腫瘍サンプル中に存在する確率として示され、0〜1の値として提供される。
[00255]以下の条件付き確率分布(CPD)に適切な値を供給することができる。(a)P(R|C)、特定の変異体コールを前提とした一連のリードの確率、(b)P(C|C)、その遺伝子座における生殖細胞系列を前提とした原発腫瘍細胞の確率、および(c)P(Ccf|C)、原発腫瘍サンプル中のコールを前提とした無細胞DNA(cf−DNA)における腫瘍コールの確率。
[00256]CDP P(R|C)は、単一サンプルに対する標準のベイズ変異体コーリング方法論の一部であることができる。第2の2つのCPDは、腫瘍タイプおよび優性突然変異のシグネチャーごとに調節することができる、体細胞突然変異率の経験値を利用することによって計算することができる。P(C|C)の場合、また原発腫瘍と患者の血漿の無細胞画分中で検出される腫瘍DNAとの単純な系統関係を想定することによって、このCPDは、メンデル型分離ではなく変異体の単純な遺伝を想定する、子孫におけるデノボ変異の推論を含む、系統で実施される計算を用いて、例えば類似体で計算することができる。
[00257]それに加えて、部位および対立遺伝子特異的な事前値を、母集団シーケンシングによる生殖細胞系列変異体の事前観察、またはTCGAプロジェクトなどの腫瘍タイプにわたる体細胞突然変異の大規模センサスに基づいて、特定の遺伝子座に導入することができる。これらは、患者からの組織サンプル(例えば、生殖細胞系列または原発組織)の一部が存在しない状態では有用であり得る。1つの事例では、原発腫瘍組織のみまたは血漿画分からのcf−DNAのみが解析される。この状況では、事前情報を使用して、P(C|Ctp)(Ctpは、がん患者の事前観察に基づいた(例えば、COSMICによる)、その遺伝子座において特定の体細胞突然変異対立遺伝子を観察する事前確率)、およびP(G|G)(Gは、Gを前提とした腫瘍中に存在する生殖細胞系列変異体の遺伝子型)といったCPDを推定することができ、この遺伝子座において特定の遺伝子型を観察する確率は、母集団規模の変異調査(1000人ゲノムプロジェクトなど)に由来する。次に、これらの確率を、出力において解析される各変異体のスコアとして提供し、機械学習方法を使用して経験的検証またはグラウンドトゥルースデータに基づいて再校正し、その後、解析者が使用して、下流での注釈および臨床報告に対する適切なFP/FN閾値を決定することができる。
[00258]検討すべき他の因子は、がんサンプルの細胞充実性、即ち、(生殖細胞系列DNAを表す)正常な細胞に対する、生体標本(例えば、生検、血漿など)に含まれるがん組織(およびしたがってDNA)の比率である。細胞充実性が低い場合、変異体が生殖細胞系列である確率は増加し、その逆も真である。この因子を説明するため、細胞充実性の逆数、即ち、シーケンシングリードが生殖細胞系列細胞からのものである確率(0〜1の値)を表す、確率変数「U」をベイズネットワークに導入することができる。この値は解析時に提供することができるが、場合によっては、事前推定値を提供することによって、データから推論することができる。細胞充実性について考察する際、P(A|R)およびP(Act|Rct)という、2つの新しいCPDを推定することができる。これらは、標準的なベイズ技術によるコールの推論に組み込むことができる。
[00259]最後に、母集団コーリング方法を、方法と組み合わせることもでき、上述した方法によって他のサンプルからのデータのバンクと同時にコールすることによって、正常な組織中の生殖細胞系列突然変異の検出を改善する(ならびに同時に、偽陽性体細胞突然変異を低減する)ことができるが、がん組織サンプルと同時に生殖細胞系列をコールする、本明細書に記載の文脈において適用される。
肺がん解析
[00260]肺がん患者について調査する。生検を実施して、腫瘍組織および正常な組織を抽出する。さらに、患者の血液を収集する。サンプル(即ち、腫瘍組織、正常な組織、および血液)に、高スループットシーケンサによってシーケンシングを行う。シーケンサは多数のシーケンスリードを生成する。本明細書に開示するシステムは、サンプル全体でシーケンスを比較してシーケンスを整列させる。さらに、基準ヒトゲノムをアライメントプロセスで使用する。
[00261]アライメントを完了した後、腫瘍組織、正常な組織、および血液のゲノムを作成する。スライディングウィンドウを3つのゲノムに同時に適用する。スライディングウィンドウは同じ染色体座をカバーする。サンプル全体にわたってウィンドウ内のシーケンスを評価することによって、データ解析アプリケーションが推定変異体を特定することが可能になる。変異体の不確定性を確率モデルによって捕らえる。刊行物もしくは既知のデータベースまたは過去に解析した患者において公開されている既存の情報に基づいて、体細胞変異体ががんのステージを特性決定する尤度を計算する。さらに、最適な治療戦略のマーカーを表す追加の変異体の尤度を同様に計算する。これらの計算された尤度によって、医師が患者の現在の状態をより良く理解し、患者にとって最良な健康管理を設計する。
体細胞点突然変異/小インデルのコーラー
[00262]腫瘍サンプルの標的リシーケンシングを、約129の利用可能ながん遺伝子のエキソンを含む、約100kBを包含する核酸の領域に対して実施する。場合によっては、リシーケンシングする領域は、転座を検出するために、イントロン領域も含む。シーケンシングの平均深さは、適用範囲内のばらつきを含めて約300x〜約500xである。数ラウンドのみのPCR増幅をDNAライブラリに対して実施する。ペアードエンドリード長さは、MiSeqでは250bp、HiSeqでは150bpである。ペアードエンドリードの重なり合いは、MiSeqの長いリードの場合に可能である。領域の両方のストランドを独立して捕獲し、次に混合しシーケンシングすることができる。断片は、約200〜約300bpの中央サイズを有することができる。対象領域外の標的外リードを、サンプル特定、大規模欠失/異数性/融合検出、およびゲノム瘢痕(genomic scar)解析(ゲノム瘢痕は、既知の起源によるゲノム消失であり得る)に関してレバレッジする。
[00263]本明細書で提供する方法、システム、およびコンピュータ可読媒体は、腫瘍データ、例えばFFPEブロックとして処理された病理学標本が利用可能な場合のみ使用することができる。本明細書で提供する方法、システム、およびコンピュータ可読媒体は、無細胞DNAに由来する血漿がシーケンシングされた場合にのみ使用することができる。本明細書で提供する方法、システム、およびコンピュータ可読媒体は、例えば、血漿からの無細胞DNAをシーケンシングし、生殖細胞系列シーケンスをシーケンシングする場合、例えば、軟膜が血液から単離され、生殖細胞系列組織(リンパ球)を表すようにシーケンシングされる場合に使用することができる。本明細書で提供する方法、システム、およびコンピュータ可読媒体は、無細胞DNAに加えて、腫瘍および生殖細胞系列サンプルが利用可能な場合に使用することができる。生殖細胞系列シーケンスは、軟膜または他の組織生検由来であることができる。
[00264]方法は、FastQフォーマットのシーケンス情報の入力を伴う場合がある。リードを高感度のゲノムアセンブリに対して整列させることができる。アライメントはCRAMファイルまたはBAMファイルとして格納される。出力はVCF(変異体細胞フォーマット)である。小さい一塩基置換の変異(SNV)、多塩基多型(MNP)、および対象領域における小インデルがBEDファイルとして指定される。対立遺伝子コールは、倍数関係の想定なしで作成される(例えば、対立遺伝子計数における低出現頻度)。推定体細胞突然変異の場合、変異体対立遺伝子出現頻度(VAF)はVCFで示される。二倍体遺伝子型は提供されない。推定生殖細胞系列突然変異の場合、見込まれる二倍体遺伝子型が提供される。母集団における共通の適切な変異体の事前知識(MAF(突然変異注釈フォーマット)を含む静的VCF)は、生殖細胞系列突然変異を体細胞突然変異と分化する助けとなる。患者のサンプルの同時コーリングを、利用可能な場合に実施することができる。患者からの生殖細胞系列サンプルが利用不能な場合、本明細書に記載の標的シーケンシング方法によってシーケンシングした「正常な」生殖細胞系列サンプルのバンクを用いた同時コーリング(最良のサンプルサイズが決定される)。がんにおける再発体細胞突然変異の事前知識(例えば、COSMICを使用する)は、体細胞突然変異を分化する助けとして考慮することができる。対象領域にわたる全ての位置でコールが行われて、革新的な基準コールとコールなし(必要に応じて)とが作成される。VCFのサイズを制限するため、gVCF出力における圧縮された基準コールを実施することができる。体細胞および生殖細胞系列変異体である、尤度の変異体スコアを提供することができる。訓練データに基づいた、カスタマイズされたスコア再校正が実施される。腫瘍および無細胞DNAサンプルに関して、利用可能な場合に細胞充実性指標を検討することができる(データに基づいた推論)。変異体コールが全ての標的外領域に対して提供される。コール精度を改善するため、ペアードエンドリードの重なり合いが利用可能であるか(MiSeqの250bpリード)を考慮することができる。
[00265]分子バーコードを検出して、複製断片を特定し、誤り補正を提供することができる。また、複製リードを独立したシーケンシングイベントとして使用し、冗長シーケンシングに基づいてスコアを再調節することができる。
[00266]好ましい実施形態について本明細書に図示し記載してきたが、かかる実施形態は単なる一例として提供されていることが、当業者には明白となるであろう。本発明から逸脱することなく、多数の変形、変更、および置換が当業者には想起されるであろう。本明細書に記載する実施形態の代替が、本開示を実施する際に用いられてもよいことが理解されるべきである。以下の特許請求の範囲は本発明の範囲を定義し、これら特許請求の範囲およびそれらの等価物の範囲内にある方法および構造を包含するものとする。

Claims (123)

  1. (a)プロセッサと、機械可読(machine readable)命令を実行するように構成されたメモリモジュールと、
    (b)データ解析アプリケーションであって、
    (1)高スループットシーケンシング(high-throughput sequencing)機器(instrument)によって生成される、個人の1つ以上のサンプルから得られる核酸分子のシーケンスリード(sequence reads)を受信するように構成されたデータ受信モジュールと、
    (2)前記シーケンスリードを基準(reference)アセンブリに対して整列させて、予測ゲノムシーケンスを生成するように構成されたシーケンスアライメントモジュールと、
    (3)(i)前記予測ゲノムシーケンスを共同で同時に解析することによって推定変異体(putative variant)を特定し、(ii)体細胞突然変異(somatic mutation)または生殖細胞系列変異体(germline variant)である確率によって前記推定変異体をスコアリングするように構成されたゲノム解析モジュールとを備える、データ解析アプリケーションとを備える、コンピューティングシステム。
  2. 前記1つ以上のサンプルが同時に収集される、請求項1に記載のシステム。
  3. 前記1つ以上のサンプルが少なくとも2つのサンプルを含み、前記少なくとも2つサンプルが別の時点で収集される、請求項1または2に記載のシステム。
  4. 前記1つ以上のサンプルが原発腫瘍を含む、請求項1から3のいずれか一項に記載のシステム。
  5. 前記1つ以上のサンプルが転移腫瘍を含む、請求項1から4のいずれか一項に記載のシステム。
  6. 前記1つ以上のサンプルが体液を含む、請求項1から5のいずれか一項に記載のシステム。
  7. 前記1つ以上のサンプルが無細胞サンプルを含む、請求項1から6のいずれか一項に記載のシステム。
  8. 前記1つ以上のサンプルがリンパ球を含む、請求項1から6のいずれか一項に記載のシステム。
  9. 前記1つ以上のサンプルが血漿を含む、請求項1から8のいずれか一項に記載のシステム。
  10. 前記推定変異体の前記特定が、前記ゲノムシーケンスを1人以上の過去に解析した患者から得たシーケンスのバンクのシーケンスと比較することを含む、請求項1から9のいずれか一項に記載のシステム。
  11. 前記推定変異体の前記スコアリングが、正しいコールと誤ったコールの組を用いて訓練した機械学習方法に基づいて確率を調節することを含む、請求項1から10のいずれか一項に記載のシステム。
  12. 前記推定変異体の前記特定およびスコアリングが、染色体座における推論を作成することを含む、請求項1から11のいずれか一項に記載のシステム。
  13. 推論の前記作成が確率モデルを使用することを含む、請求項12に記載のシステム。
  14. 推論の前記作成が統計的推論を使用することを含む、請求項12または13に記載のシステム。
  15. 推論の前記作成がベイズ推論を使用することを含む、請求項12から14のいずれか一項に記載のシステム。
  16. 推論の前記作成がベイズネットワークモデルを使用することを含む、請求項12から15のいずれか一項に記載のシステム。
  17. 推論の前記作成が生殖細胞系列および体細胞変異体を発見する事前確率に基づく、請求項12から16のいずれか一項に記載のシステム。
  18. 推論の前記作成が前記染色体座にわたって整列された一連のシーケンスリードに基づく、請求項12から17のいずれか一項に記載のシステム。
  19. 推論の前記作成が前記高スループットシーケンシング機器の誤り率に基づく、請求項12から18のいずれか一項に記載のシステム。
  20. 前記誤り率がベースコールに対する品質保証において提供される、請求項19に記載のシステム。
  21. 推論の前記作成が前記染色体座にわたる染色体領域の倍数関係に基づく、請求項12から20のいずれか一項に記載のシステム。
  22. 推論の前記作成ががんのクローン進化のプロセスモデルに基づく、請求項12から21のいずれか一項に記載のシステム。
  23. 推論の前記作成が前記個人の1つ以上の他のサンプルに由来する染色体座におけるコールに基づく、請求項12から22のいずれか一項に記載のシステム。
  24. 推論の前記作成が1人以上の他の個人の1つ以上のサンプルに由来する染色体座におけるコールに基づく、請求項12から23のいずれか一項に記載のシステム。
  25. 推論の前記作成が1つ以上の基準母集団の染色体座における共通の多型性の事前知識に基づく、請求項12から24のいずれか一項に記載のシステム。
  26. 推論の前記作成が染色体座における1つ以上の再発がんの突然変異の事前知識に基づく、請求項12から25のいずれか一項に記載のシステム。
  27. 推論の前記作成ががんを含むサンプル中のがん細胞の比率に基づく、請求項12から26のいずれか一項に記載のシステム。
  28. 前記がんを含むサンプルががんを引き起こす1つ以上のDNA分子を含む、請求項27に記載のシステム。
  29. 前記がんを含むサンプルが1つ以上のがん性組織を含む、請求項27または28に記載のシステム。
  30. 推論の前記作成が確率モデルによって変異体を説明することを含む、請求項12から29のいずれか一項に記載のシステム。
  31. 推論の前記作成が確率モデルによって前記染色体座にわたる一連の整列されたシーケンスリードを説明することを含む、請求項12から30のいずれか一項に記載のシステム。
  32. 推論の前記作成が確率モデルによって前記染色体座における倍数関係を説明することを含む、請求項12から31のいずれか一項に記載のシステム。
  33. 推論の前記作成が確率モデルによってサンプル中のがん細胞の比率を説明することを含む、請求項12から32のいずれか一項に記載のシステム。
  34. 前記比率が二値変数によって説明される、請求項33に記載のシステム。
  35. 前記データ解析アプリケーションが、1つ以上のコーディング領域、予測される損傷の深刻度、1つ以上の生殖細胞系列突然変異、1つ以上の体細胞突然変異、1つ以上の突然変異・薬物間の相互作用、臨床試験において観察される1つ以上の突然変異、1つ以上の疾患、1つ以上の症状、または1つ以上の副作用のうち1つ以上における影響に関して、前記推定変異体に注釈を付けるように構成されたモジュールをさらに備える、請求項1から34のいずれか一項に記載のシステム。
  36. 前記データ解析アプリケーションが、治療方法を推奨するように構成されたモジュールをさらに備える、請求項1から35のいずれか一項に記載のシステム。
  37. 前記データ解析アプリケーションが、処置方法を推奨するように構成されたモジュールをさらに備える、請求項1から36のいずれか一項に記載のシステム。
  38. 前記データ解析アプリケーションが、処置の経過を査定するように構成されたモジュールをさらに備える、請求項1から37のいずれか一項に記載のシステム。
  39. 前記データ解析アプリケーションが、リスクを査定するように構成されたモジュールをさらに備える、請求項1から38のいずれか一項に記載のシステム。
  40. 前記データ解析アプリケーションが、治療方法の効率をモニタリングするように構成されたモジュールをさらに備える、請求項1から39のいずれか一項に記載のシステム。
  41. 前記データ解析アプリケーションが、処置方法の効率をモニタリングするように構成されたモジュールをさらに備える、請求項1から40のいずれか一項に記載のシステム。
  42. データ解析アプリケーションを作成するためにプロセッサによって実行可能な命令を含むコンピュータプログラムを用いてコード化された、コンピュータ可読記憶媒体であって、前記アプリケーションが、
    (a)高スループットシーケンシング機器によって生成される、個人の1つ以上のサンプルから得られる核酸分子のシーケンスリードを受信するように構成されたデータ受信モジュールと、
    (b)前記シーケンスリードを基準アセンブリに対して整列させて、予測ゲノムシーケンスを生成するように構成されたシーケンスアライメントモジュールと、
    (c)(i)前記予測ゲノムシーケンスを共同で同時に解析することによって推定変異体を特定し、(ii)体細胞突然変異または生殖細胞系列変異体である確率によって前記推定変異体をスコアリングするように構成されたゲノム解析モジュールとを備える、データ解析アプリケーションとを備える、コンピュータ可読媒体。
  43. 前記1つ以上のサンプルが同時に収集される、請求項42に記載の媒体。
  44. 少なくとも1つ以上のサンプルが異なる時点で収集される、請求項42または43に記載の媒体。
  45. 前記1つ以上のサンプルが原発腫瘍を含む、請求項42から44のいずれか一項に記載の媒体。
  46. 前記1つ以上のサンプルが転移腫瘍を含む、請求項42から45のいずれか一項に記載の媒体。
  47. 前記1つ以上のサンプルが体液を含む、請求項42から46のいずれか一項に記載の媒体。
  48. 前記1つ以上のサンプルが無細胞サンプルを含む、請求項42から47のいずれか一項に記載の媒体。
  49. 前記1つ以上のサンプルがリンパ球を含む、請求項42から47のいずれか一項に記載の媒体。
  50. 前記1つ以上のサンプルが血漿を含む、請求項42から49のいずれか一項に記載の媒体。
  51. 前記推定変異体の前記特定が、前記ゲノムシーケンスを1人以上の過去に解析した患者から得たシーケンスのバンクからのシーケンスと比較することを含む、請求項42から50のいずれか一項に記載の媒体。
  52. 前記推定変異体の前記スコアリングが、正しいコールと誤ったコールの組を用いて訓練した機械学習方法に基づいて確率を調節することを含む、請求項42から51のいずれか一項に記載の媒体。
  53. 前記推定変異体の前記特定およびスコアリングが、染色体座における推論を作成することを含む、請求項42から52のいずれか一項に記載の媒体。
  54. 推論の前記作成が確率モデルを使用することを含む、請求項53に記載の媒体。
  55. 推論の前記作成が統計的推論を使用することを含む、請求項53または54に記載の媒体。
  56. 推論の前記作成がベイズ推論を使用することを含む、請求項53から55のいずれか一項に記載の媒体。
  57. 推論の前記作成がベイズネットワークモデルを使用することを含む、請求項53から56のいずれか一項に記載の媒体。
  58. 推論の前記作成が生殖細胞系列および体細胞変異体を発見する事前確率に基づく、請求項53から57のいずれか一項に記載の媒体。
  59. 推論の前記作成が前記染色体座にわたって整列された一連のシーケンスリードに基づく、請求項53から58のいずれか一項に記載の媒体。
  60. 推論の前記作成が前記高スループットシーケンシング機器の誤り率に基づく、請求項53から59のいずれか一項に記載の媒体。
  61. 前記誤り率がベースコールに対する品質保証において提供される、請求項60に記載の媒体。
  62. 推論の前記作成が前記染色体座にわたる染色体領域の倍数関係に基づく、請求項53から61のいずれか一項に記載の媒体。
  63. 推論の前記作成ががんのクローン進化のプロセスモデルに基づく、請求項53から62のいずれか一項に記載の媒体。
  64. 推論の前記作成が前記個人からの1つ以上の他のサンプルに由来する染色体座におけるコールに基づく、請求項53から63のいずれか一項に記載の媒体。
  65. 推論の前記作成が1人以上の他の個人の1つ以上のサンプルに由来する染色体座におけるコールに基づく、請求項53から64のいずれか一項に記載の媒体。
  66. 推論の前記作成が1つ以上の基準母集団の染色体座における共通の多型性の事前知識に基づく、請求項53から65のいずれか一項に記載の媒体。
  67. 推論の前記作成が染色体座における1つ以上の再発がんの突然変異の事前知識に基づく、請求項53から66のいずれか一項に記載の媒体。
  68. 推論の前記作成ががんを含むサンプル中のがん細胞の比率に基づく、請求項53から67のいずれか一項に記載の媒体。
  69. 前記がんを含むサンプルががんを引き起こす1つ以上のDNA分子を含む、請求項68に記載の媒体。
  70. 前記がんを含むサンプルが1つ以上のがん性組織を含む、請求項68に記載の媒体。
  71. 推論の前記作成が確率モデルによって変異体を説明することを含む、請求項53から70のいずれか一項に記載の媒体。
  72. 推論の前記作成が確率モデルによって前記染色体座にわたる一連の整列されたシーケンスリードを説明することを含む、請求項53から71のいずれか一項に記載の媒体。
  73. 推論の前記作成が確率モデルによって前記染色体座における倍数関係を説明することを含む、請求項53から72のいずれか一項に記載の媒体。
  74. 推論の前記作成が確率モデルによってサンプル中のがん細胞の比率を説明することを含む、請求項53から73のいずれか一項に記載の媒体。
  75. 前記比率が二値変数によって説明される、請求項74に記載の媒体。
  76. 前記データ解析アプリケーションが、1つ以上のコーディング領域、予測される損傷の深刻度、1つ以上の生殖細胞系列突然変異、1つ以上の体細胞突然変異、1つ以上の突然変異・薬物間の相互作用、臨床試験において観察される1つ以上の突然変異、1つ以上の疾患、1つ以上の症状、または1つ以上の副作用のうち1つ以上における影響に関して、前記推定変異体に注釈を付けるように構成されたモジュールをさらに備える、請求項42から75のいずれか一項に記載の媒体。
  77. 前記データ解析アプリケーションが、治療方法を推奨するように構成されたモジュールをさらに備える、請求項42から76のいずれか一項に記載の媒体。
  78. 前記データ解析アプリケーションが、処置方法を推奨するように構成されたモジュールをさらに備える、請求項42から77のいずれか一項に記載の媒体。
  79. 前記データ解析アプリケーションが、処置の経過を査定するように構成されたモジュールをさらに備える、請求項42から78のいずれか一項に記載の媒体。
  80. 前記データ解析アプリケーションが、リスクを査定するように構成されたモジュールをさらに備える、請求項42から79のいずれか一項に記載の媒体。
  81. 前記データ解析アプリケーションが、治療方法の効率をモニタリングするように構成されたモジュールをさらに備える、請求項42から80のいずれか一項に記載の媒体。
  82. 前記データ解析アプリケーションが、処置方法の効率をモニタリングするように構成されたモジュールをさらに備える、請求項42から81のいずれか一項に記載の媒体。
  83. (a)1つ以上のサンプルを個人から収集するステップと、
    (b)高スループットシーケンシング機器を使用して、前記1つ以上のサンプルの核酸分子のシーケンシングを行い、シーケンスリードを生成するステップと、
    (c)前記シーケンスリードを基準アセンブリに対して整列させて、予測ゲノムシーケンスを生成するステップと、
    (d)前記予測ゲノムシーケンスを共同で同時に解析することによって、推定変異体を特定するステップと、
    (e)体細胞突然変異または生殖細胞系列変異体である確率によって、前記推定変異体をスコアリングするステップとを含む、方法。
  84. 前記1つ以上のサンプルが同時に収集される、請求項83に記載の方法。
  85. 前記1つ以上のサンプルが少なくとも2つのサンプルを含み、前記少なくとも2つサンプルが別の時点で収集される、請求項83または84に記載の方法。
  86. 前記1つ以上のサンプルが原発腫瘍を含む、請求項83から85のいずれか一項に記載の方法。
  87. 前記1つ以上のサンプルが転移腫瘍を含む、請求項83から86のいずれか一項に記載の方法。
  88. 前記1つ以上のサンプルが体液を含む、請求項83から87のいずれか一項に記載の方法。
  89. 前記1つ以上のサンプルが無細胞サンプルを含む、請求項83から88のいずれか一項に記載の方法。
  90. 前記1つ以上のサンプルがリンパ球を含む、請求項83から88のいずれか一項に記載の方法。
  91. 前記1つ以上のサンプルが血漿を含む、請求項83から90のいずれか一項に記載の方法。
  92. 前記推定変異体の前記特定が、前記ゲノムシーケンスを1人以上の過去に解析した患者から得たシーケンスのバンクからのシーケンスと比較することを含む、請求項83から91のいずれか一項に記載の方法。
  93. 前記推定変異体の前記スコアリングが、正しいコールと誤ったコールの組を用いて訓練した機械学習方法に基づいて確率を調節することを含む、請求項83から92のいずれか一項に記載の方法。
  94. 前記推定変異体の前記特定およびスコアリングが、染色体座における推論を作成することを含む、請求項83から93のいずれか一項に記載の方法。
  95. 推論の前記作成が確率モデルを使用することを含む、請求項94に記載の方法。
  96. 推論の前記作成が統計的推論を使用することを含む、請求項94または95に記載の方法。
  97. 推論の前記作成がベイズ推論を使用することを含む、請求項94から96のいずれか一項に記載の方法。
  98. 推論の前記作成がベイズネットワークモデルを使用することを含む、請求項94から97のいずれか一項に記載の方法。
  99. 推論の前記作成が生殖細胞系列および体細胞変異体を発見する事前確率に基づく、請求項94から98のいずれか一項に記載の方法。
  100. 推論の前記作成が前記染色体座にわたって整列された一連のシーケンスリードに基づく、請求項94から99のいずれか一項に記載の方法。
  101. 推論の前記作成が前記高スループットシーケンシング機器の誤り率に基づく、請求項94から100のいずれか一項に記載の方法。
  102. 前記誤り率がベースコールに対する品質保証において提供される、請求項101に記載の方法。
  103. 推論の前記作成が前記染色体座にわたる染色体領域の倍数関係に基づく、請求項94から102のいずれか一項に記載の方法。
  104. 推論の前記作成ががんのクローン進化のプロセスモデルに基づく、請求項94から103のいずれか一項に記載の方法。
  105. 推論の前記作成が前記個人の1つ以上の他のサンプルに由来する染色体座におけるコールに基づく、請求項94から104のいずれか一項に記載の方法。
  106. 推論の前記作成が1人以上の他の個人の1つ以上のサンプルに由来する染色体座におけるコールに基づく、請求項94から105のいずれか一項に記載の方法。
  107. 推論の前記作成が1つ以上の基準母集団の染色体座における共通の多型性の事前知識に基づく、請求項94から106のいずれか一項に記載の方法。
  108. 推論の前記作成が染色体座における1つ以上の再発がんの突然変異の事前知識に基づく、請求項94から107のいずれか一項に記載の方法。
  109. 推論の前記作成ががんを含むサンプル中のがん細胞の比率に基づく、請求項94から108のいずれか一項に記載の方法。
  110. 前記がんを含むサンプルががんを引き起こす1つ以上のDNA分子を含む、請求項109に記載の方法。
  111. 前記がんを含むサンプルが1つ以上のがん性組織を含む、請求項109に記載の方法。
  112. 推論の前記作成が確率モデルによって変異体を説明することを含む、請求項94から111のいずれか一項に記載の方法。
  113. 推論の前記作成が確率モデルによって前記染色体座にわたる一連の整列されたシーケンスリードを説明することを含む、請求項94から112のいずれか一項に記載の方法。
  114. 推論の前記作成が確率モデルによって前記染色体座における倍数関係を説明することを含む、請求項94から113のいずれか一項に記載の方法。
  115. 推論の前記作成が確率モデルによってサンプル中のがん細胞の比率を説明することを含む、請求項94から114のいずれか一項に記載の方法。
  116. 前記比率が二値変数によって説明される、請求項115に記載の方法。
  117. 1つ以上のコーディング領域、予測される損傷の深刻度、1つ以上の生殖細胞系列突然変異、1つ以上の体細胞突然変異、1つ以上の突然変異・薬物間の相互作用、臨床試験において観察される1つ以上の突然変異、1つ以上の疾患、1つ以上の症状、または1つ以上の副作用のうち1つ以上における影響に関して、前記推定変異体に注釈を付けるステップをさらに含む、請求項83から116のいずれか一項に記載の方法。
  118. 前記個人に対して治療方法を推奨するステップをさらに含む、請求項83から117のいずれか一項に記載の方法。
  119. 前記個人に対して処置方法を推奨するステップをさらに含む、請求項83から118のいずれか一項に記載の方法。
  120. 前記個人の治療の経過を査定するステップをさらに含む、請求項83から119のいずれか一項に記載の方法。
  121. リスクを査定するステップをさらに含む、請求項83から120のいずれか一項に記載の方法。
  122. 前記個人に対して投与される治療方法の効率をモニタリングするステップをさらに含む、請求項83から121のいずれか一項に記載の方法。
  123. 前記個人に対して投与される処置方法の効率をモニタリングするステップをさらに含む、請求項83から122のいずれか一項に記載の方法。
JP2018560742A 2016-02-09 2017-02-09 核酸を解析するシステムおよび方法 Pending JP2019511070A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201662293136P 2016-02-09 2016-02-09
US62/293,136 2016-02-09
PCT/US2017/017230 WO2017139492A1 (en) 2016-02-09 2017-02-09 Systems and methods for analyzing nucelic acids

Publications (1)

Publication Number Publication Date
JP2019511070A true JP2019511070A (ja) 2019-04-18

Family

ID=59563500

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018560742A Pending JP2019511070A (ja) 2016-02-09 2017-02-09 核酸を解析するシステムおよび方法

Country Status (5)

Country Link
US (1) US20190050530A1 (ja)
EP (1) EP3414693A4 (ja)
JP (1) JP2019511070A (ja)
CN (1) CN108885648A (ja)
WO (1) WO2017139492A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021070739A1 (ja) * 2019-10-08 2021-04-15 国立大学法人 東京大学 分析装置、分析方法及びプログラム
KR102544002B1 (ko) * 2022-03-10 2023-06-16 주식회사 아이엠비디엑스 체세포 변이 및 생식세포 변이를 구별하는 방법

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8583380B2 (en) 2008-09-05 2013-11-12 Aueon, Inc. Methods for stratifying and annotating cancer drug treatment options
IN2013MN00522A (ja) 2010-09-24 2015-05-29 Univ Leland Stanford Junior
US11514289B1 (en) * 2016-03-09 2022-11-29 Freenome Holdings, Inc. Generating machine learning models using genetic data
WO2018029108A1 (en) 2016-08-08 2018-02-15 F. Hoffmann-La Roche Ag Basecalling for stochastic sequencing processes
WO2019016353A1 (en) * 2017-07-21 2019-01-24 F. Hoffmann-La Roche Ag CLASSIFICATION OF SOMATIC MUTATIONS FROM A HETEROGENEOUS SAMPLE
KR20200057024A (ko) * 2017-09-20 2020-05-25 가던트 헬쓰, 인크. 체세포 및 생식세포계열 변이체를 구별하기 위한 방법 및 시스템
WO2019070598A1 (en) * 2017-10-04 2019-04-11 Toma Biosciences, Inc. PREPARATION OF LIBRARIES FOR GENOME SEQUENCING
WO2019071219A1 (en) * 2017-10-06 2019-04-11 Grail, Inc. SPECIFIC SITE NOISE MODEL FOR TARGETED SEQUENCING
AU2019269635A1 (en) * 2018-05-16 2020-11-26 Twinstrand Biosciences, Inc. Methods and reagents for resolving nucleic acid mixtures and mixed cell populations and associated applications
US10395772B1 (en) 2018-10-17 2019-08-27 Tempus Labs Mobile supplementation, extraction, and analysis of health records
US20200258601A1 (en) * 2018-10-17 2020-08-13 Tempus Labs Targeted-panel tumor mutational burden calculation systems and methods
EP3857555A4 (en) * 2018-10-17 2022-12-21 Tempus Labs DATA-BASED CANCER RESEARCH AND TREATMENT SYSTEMS AND METHODS
CN110299185B (zh) * 2019-05-08 2023-07-04 西安电子科技大学 一种基于新一代测序数据的插入变异检测方法及系统
JP6953586B2 (ja) * 2019-06-19 2021-10-27 シスメックス株式会社 患者検体の核酸配列の解析方法、解析結果の提示方法、提示装置、提示プログラム、及び患者検体の核酸配列の解析システム
CN110534202A (zh) * 2019-08-21 2019-12-03 江南大学附属医院(无锡市第四人民医院) 一种针对Sox10在三阴性乳腺癌中的表达进行分析的系统
US11295841B2 (en) 2019-08-22 2022-04-05 Tempus Labs, Inc. Unsupervised learning and prediction of lines of therapy from high-dimensional longitudinal medications data
WO2021050565A1 (en) * 2019-09-09 2021-03-18 Oregon Health & Science University Crispr-mediated capture of nucleic acids
EP4041924A1 (en) * 2019-10-08 2022-08-17 Illumina, Inc. Fragment size characterization of cell-free dna mutations from clonal hematopoiesis
CN110867254A (zh) * 2019-11-18 2020-03-06 北京市商汤科技开发有限公司 预测方法及装置、电子设备和存储介质
US20230028058A1 (en) * 2019-12-16 2023-01-26 Ohio State Innovation Foundation Next-generation sequencing diagnostic platform and related methods
GB2615061A (en) * 2021-12-03 2023-08-02 Congenica Ltd Next generation prenatal screening
CN117711488A (zh) * 2023-11-29 2024-03-15 东莞博奥木华基因科技有限公司 一种基于长读长测序的基因单倍型检测方法及其应用

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8275557B2 (en) * 2005-02-11 2012-09-25 Smartgene Gmbh Computer-implemented method and computer-based system for validating DNA sequencing data
AU2011352786B2 (en) * 2010-12-29 2016-09-22 Dow Agrosciences Llc Data analysis of DNA sequences
US20150278438A1 (en) * 2012-04-23 2015-10-01 MAX-PLANCK-Gesellschaft zur Förderung der Wissenschaften e.V. Genetic predictors of response to treatment with crhr1 antagonists
CN106795558B (zh) * 2014-05-30 2020-07-10 维里纳塔健康公司 检测胎儿亚染色体非整倍性和拷贝数变异

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021070739A1 (ja) * 2019-10-08 2021-04-15 国立大学法人 東京大学 分析装置、分析方法及びプログラム
JPWO2021070739A1 (ja) * 2019-10-08 2021-11-25 国立大学法人 東京大学 分析装置、分析方法及びプログラム
JP7352904B2 (ja) 2019-10-08 2023-09-29 国立大学法人 東京大学 分析装置、分析方法及びプログラム
KR102544002B1 (ko) * 2022-03-10 2023-06-16 주식회사 아이엠비디엑스 체세포 변이 및 생식세포 변이를 구별하는 방법
WO2023171859A1 (ko) * 2022-03-10 2023-09-14 주식회사 아이엠비디엑스 체세포 변이 및 생식세포 변이를 구별하는 방법

Also Published As

Publication number Publication date
CN108885648A (zh) 2018-11-23
EP3414693A1 (en) 2018-12-19
WO2017139492A1 (en) 2017-08-17
US20190050530A1 (en) 2019-02-14
EP3414693A4 (en) 2019-10-30

Similar Documents

Publication Publication Date Title
JP2019511070A (ja) 核酸を解析するシステムおよび方法
US20230141527A1 (en) Methods for attaching adapters to sample nucleic acids
US11898198B2 (en) Universal short adapters with variable length non-random unique molecular identifiers
KR102505122B1 (ko) Dna 샘플 중 게놈 카피 변화의 검출을 위한 방법
US11972841B2 (en) Machine learning system and method for somatic mutation discovery
CA2983833C (en) Diagnostic methods
KR102210852B1 (ko) 희귀 돌연변이 및 카피수 변이를 검출하기 위한 시스템 및 방법
US20180119230A1 (en) Systems and methods for analyzing nucleic acid
US20160281154A1 (en) Methods for assessing cancer
CN114574581A (zh) 检测稀有突变和拷贝数变异的系统和方法
US11384382B2 (en) Methods of attaching adapters to sample nucleic acids
US11608518B2 (en) Methods for analyzing nucleic acids
US20180135044A1 (en) Non-unique barcodes in a genotyping assay
WO2019070598A1 (en) PREPARATION OF LIBRARIES FOR GENOME SEQUENCING

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180808

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20190122

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20190122