JP2019511070A - System and method for analyzing nucleic acids - Google Patents

System and method for analyzing nucleic acids Download PDF

Info

Publication number
JP2019511070A
JP2019511070A JP2018560742A JP2018560742A JP2019511070A JP 2019511070 A JP2019511070 A JP 2019511070A JP 2018560742 A JP2018560742 A JP 2018560742A JP 2018560742 A JP2018560742 A JP 2018560742A JP 2019511070 A JP2019511070 A JP 2019511070A
Authority
JP
Japan
Prior art keywords
inference
samples
sequence
medium
sequencing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2018560742A
Other languages
Japanese (ja)
Inventor
デ・ラ・ベガ,フランシスコ・エム
Original Assignee
トマ・バイオサイエンシズ,インコーポレーテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by トマ・バイオサイエンシズ,インコーポレーテッド filed Critical トマ・バイオサイエンシズ,インコーポレーテッド
Publication of JP2019511070A publication Critical patent/JP2019511070A/en
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H01ELECTRIC ELEMENTS
    • H01LSEMICONDUCTOR DEVICES NOT COVERED BY CLASS H10
    • H01L28/00Passive two-terminal components without a potential-jump or surface barrier for integrated circuits; Details thereof; Multistep manufacturing processes therefor
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • HELECTRICITY
    • H01ELECTRIC ELEMENTS
    • H01LSEMICONDUCTOR DEVICES NOT COVERED BY CLASS H10
    • H01L21/00Processes or apparatus adapted for the manufacture or treatment of semiconductor or solid state devices or of parts thereof
    • H01L21/70Manufacture or treatment of devices consisting of a plurality of solid state components formed in or on a common substrate or of parts thereof; Manufacture of integrated circuit devices or of parts thereof
    • H01L21/71Manufacture of specific parts of devices defined in group H01L21/70
    • H01L21/768Applying interconnections to be used for carrying current between separate components within a device comprising conductors and dielectrics
    • HELECTRICITY
    • H01ELECTRIC ELEMENTS
    • H01LSEMICONDUCTOR DEVICES NOT COVERED BY CLASS H10
    • H01L27/00Devices consisting of a plurality of semiconductor or other solid-state components formed in or on a common substrate
    • H01L27/02Devices consisting of a plurality of semiconductor or other solid-state components formed in or on a common substrate including semiconductor components specially adapted for rectifying, oscillating, amplifying or switching and having at least one potential-jump barrier or surface barrier; including integrated passive circuit elements with at least one potential-jump barrier or surface barrier
    • H01L27/04Devices consisting of a plurality of semiconductor or other solid-state components formed in or on a common substrate including semiconductor components specially adapted for rectifying, oscillating, amplifying or switching and having at least one potential-jump barrier or surface barrier; including integrated passive circuit elements with at least one potential-jump barrier or surface barrier the substrate being a semiconductor body
    • H01L27/10Devices consisting of a plurality of semiconductor or other solid-state components formed in or on a common substrate including semiconductor components specially adapted for rectifying, oscillating, amplifying or switching and having at least one potential-jump barrier or surface barrier; including integrated passive circuit elements with at least one potential-jump barrier or surface barrier the substrate being a semiconductor body including a plurality of individual components in a repetitive configuration
    • H01L27/118Masterslice integrated circuits

Abstract

本明細書では、個人からのサンプルのシーケンシングデータに対してコンピュータ解析を実施する、システム、ソフトウェア媒体、ネットワーク、キット、および方法を提供する。解析は、生殖細胞系列および体細胞情報を抽出し、両方のタイプの情報を比較して、確率モデリングおよび統計的推論に基づいて、シーケンス変異体を特定することができる。解析は、生殖細胞系列変異体、例えば個人の変異体と、体細胞突然変異とを区別することを含み得る。特定された変異体は、より良好な健康管理を行うために診療所で使用することができる。  Provided herein are systems, software media, networks, kits, and methods for performing computer analysis on sequencing data of a sample from an individual. The analysis can extract germline and somatic information, compare both types of information, and identify sequence variants based on probabilistic modeling and statistical inference. The analysis may include distinguishing between germline variants, eg, variants of individuals, and somatic mutations. The identified variants can be used in the clinic to provide better health care.

Description

相互参照
[0001]本出願は、2016年2月9日付けの米国特許出願第62/293,136号の利益を主張し、その全体を参照により本明細書に援用する。
Cross reference
[0001] This application claims the benefit of US Patent Application No. 62 / 293,136, filed Feb. 9, 2016, which is incorporated herein by reference in its entirety.

[0002]がん体細胞突然変異を組織サンプルの高スループットシーケンシングデータから正確に特定することは、困難な未解決の課題であり得る。シーケンシングデータは、偽陽性または偽陰性変異体の解析率が分かっていない治療選択のための臨床的処置で使用することができる。このプロセスにおいて直面し得る組織としては、サンプルごとに異なる広範囲な割合で正常な細胞が存在することによる組織サンプルの異質性(例えば、血漿中の原発腫瘍対無細胞DNA(cf−DNA))、がん細胞の複数のクローンが異なる割合で存在すること、体細胞変異体と生殖細胞系列変異体の分化を可能にする、「正常な」組織のサンプルから得るデータの欠落、病理学的処理(例えば、ホルマリン固定パラフィン包理(FFPE))によるサンプル中のDNAの損傷、ならびに構造多型と単純なシーケンス変異体との回旋が挙げられる。新しい解析方法は、大規模シーケンシングデータからの生殖細胞系列変異体の特定を改善することができる。   [0002] Accurately identifying cancer somatic cell mutations from high throughput sequencing data of tissue samples can be a difficult open task. Sequencing data can be used in clinical treatments for treatment selection for which the analysis rate of false positive or false negative variants is unknown. Tissues that may be encountered in this process include tissue sample heterogeneity due to the presence of a wide range of normal cells that differ from sample to sample (eg, primary tumor vs. cell-free DNA (cf-DNA) in plasma), The presence of multiple clones of cancer cells in different proportions, lack of data obtained from samples of 'normal' tissues, which allow differentiation of somatic and germline variants, pathological treatment ( For example, damage to DNA in samples by formalin fixed paraffin embedding (FFPE)), as well as rotation of structural polymorphisms and simple sequence variants. New analysis methods can improve the identification of germline variants from large-scale sequencing data.

[0003]場合によっては、解析におけるデータを単一の対照サンプルと比較した場合、がんデータ解析が一貫しない結果を生み出す場合がある。場合によっては、データ解析は、がん細胞を含んでいるかまたは含んでいることが疑われるサンプルと同様に処理された患者の正常な組織から得たデータの有効性に依存しており、これは悪性腫瘍病理学の使用事例では利用不能な場合が多い。生殖細胞系列変異体を体細胞突然変異から除外する手動のまたは発見的方法を含む、現在の解析パイプラインは、恣意的であり、不正確であり、再現が困難であり、またプロセス中に暗黙的に生じる偽陽性と偽陰性のトレードオフに関する情報を提供しない場合がある。しかしながら、正常な組織が利用可能なとき、場合によっては、独立して解析され、「実際の」生殖細胞系変異体に対する決定がなされた後のフィルタ処理ステップとして初めて一緒にされるので、生殖細胞系列のコールに課される閾値を外れた生殖細胞系列変異体による偽陽性の体細胞突然変異がコーリングされる場合がある。後者の課題に対処する解決策は、正常なサンプルのパネルをその母集団に共通な基準の生殖細胞系列変異体として使用することであり得る。がん感受性変異体を含む、患者の体内に存在する稀な変異体にさらに対処するため、新しい方法を本明細書において開示する。方法は、患者から、ならびに他の一連の過去に解析した患者から得た全てのサンプルを整列させたシーケンシングデータから、変異体のコーリングおよびスコアリングを同時に行うことに基づくことができる。   [0003] In some cases, cancer data analysis may produce inconsistent results when data in the analysis is compared to a single control sample. In some cases, data analysis relies on the validity of data obtained from normal tissues of patients treated similarly to the sample containing or suspected of containing cancer cells, which It is often unavailable in the use case of malignant tumor pathology. Current analysis pipelines, including manual or heuristic methods to exclude germline variants from somatic mutations, are arbitrary, inaccurate, difficult to reproduce, and implicit in the process. May not provide information on the false positive and false negative trade-offs that occur. However, when normal tissues are available, in some cases they are analyzed independently and are combined for the first time as a filtering step after decisions on "real" germline variants are made, False positive somatic mutations due to germline variants outside the threshold imposed on lineage calls may be called. A solution that addresses the latter problem may be to use a panel of normal samples as a reference germline variant common to the population. New methods are disclosed herein to further address rare variants present in the patient's body, including cancer sensitive variants. The method can be based on simultaneous calling and scoring of variants, from sequencing data that aligns all samples obtained from the patient, as well as other series of previously analyzed patients.

本願発明の一実施例は、例えば、核酸を解析するシステムおよび方法に関する。   One embodiment of the present invention relates, for example, to a system and method for analyzing nucleic acids.

[0004]本明細書では、組織の高スループットシーケンシングデータからがん体細胞突然変異を特定する、システム、ソフトウェア媒体、ネットワーク、および方法を提供する。
[0005]1つの態様では、コンピューティングシステムが本明細書にて開示され、該コンピューティングシステムは、(a)プロセッサと、機械可読命令を実行するように構成されたメモリモジュールと、(b)データ解析アプリケーションとを備え、該アプリケーションは、(1)高スループットシーケンシング機器によって生成される、個人の1つ以上のサンプルから得られる核酸分子のシーケンスリードを受信するように構成されたデータ受信モジュールと、(2)シーケンスリードを基準アセンブリに対して整列させて、予測ゲノムシーケンスを生成するように構成されたシーケンスアライメントモジュールと、(3)(i)予測ゲノムシーケンスを共同で同時に解析することによって推定変異体を特定し、(ii)体細胞突然変異または生殖細胞系列変異体である確率によって推定変異体をスコアリングするように構成されたゲノム解析モジュールとを備える。
[0004] Provided herein are systems, software media, networks, and methods for identifying cancer somatic mutations from tissue high throughput sequencing data.
[0005] In one aspect, a computing system is disclosed herein, the computing system comprising: (a) a processor and a memory module configured to execute machine readable instructions; (b) A data analysis application comprising: (1) a data receiving module configured to receive a sequence read of nucleic acid molecules obtained from one or more samples of an individual generated by a high throughput sequencing instrument And (2) sequence alignment module configured to align the sequence reads to a reference assembly to generate a predicted genomic sequence, and (3) (i) by jointly analyzing the predicted genomic sequence Identify putative variants and (ii) somatic mutations or The estimated variant by probability of germline mutants and a genomic analysis module configured to scoring.

[0006]別の態様では、データ解析アプリケーションを作成するためにプロセッサによって実行可能な命令を含むコンピュータプログラムを用いてコード化された、コンピュータ可読記憶媒体が本明細書にて開示され、該アプリケーションは、(a)高スループットシーケンシング機器によって生成される、個人の1つ以上のサンプルから得られる核酸分子のシーケンスリードを受信するように構成されたデータ受信モジュールと、(b)シーケンスリードを基準アセンブリに対して整列させて、予測ゲノムシーケンスを生成するように構成されたシーケンスアライメントモジュールと、(c)(i)予測ゲノムシーケンスを共同で同時に解析することによって推定変異体を特定し、(ii)体細胞突然変異または生殖細胞系列変異体である確率によって推定変異体をスコアリングするように構成されたゲノム解析モジュールとを備える。   In another aspect, disclosed herein is a computer-readable storage medium encoded with a computer program comprising instructions executable by a processor to create a data analysis application, the application being (A) a data receiving module configured to receive a sequence read of nucleic acid molecules obtained from one or more samples of an individual generated by a high throughput sequencing instrument; (b) a reference assembly of the sequence read And (c) (i) identify putative variants by jointly analyzing the predicted genomic sequences simultaneously, and (ii) Probability of being a somatic mutation or germline mutation Therefore and a genomic analysis module configured to score the estimated mutants.

[0007]別の態様では、方法が開示され、該方法は、(a)個人の1つ以上のサンプルを収集するステップと、(b)高スループットシーケンシング機器を使用して、1つ以上のサンプルの核酸分子のシーケンシングを行い、シーケンスリードを生成するステップと、(c)シーケンスリードを基準アセンブリに対して整列させて、予測ゲノムシーケンスを生成するステップと、(d)予測ゲノムシーケンスを共同で同時に解析することによって、推定変異体を特定するステップと、(e)体細胞突然変異または生殖細胞系列変異体である確率によって推定変異体をスコアリングするステップとを含む。   [0007] In another aspect, a method is disclosed, the method comprising: (a) collecting one or more samples of an individual; (b) using one or more high-throughput sequencing instruments Sequencing the sample nucleic acid molecules to generate a sequence read, (c) aligning the sequence read to a reference assembly to generate a predicted genomic sequence, and (d) jointly combining the predicted genomic sequence. And (e) scoring the putative variants by their probability of being a somatic mutation or germline variant by analyzing simultaneously in.

[0008]様々な実施形態では、本明細書に開示するシステム、ソフトウェア媒体、方法、またはそれらの使用は、1つ以上のサンプルを使用することを含む。1つ以上のサンプルは同時に収集することができる。場合によっては、1つ以上のサンプルは少なくとも2つのサンプルを含み、少なくとも2つのサンプルは別の時点で収集することができる。特定の適用例では、1つ以上のサンプルは、原発腫瘍、転移腫瘍、体液、無細胞サンプル、リンパ球、および血漿のうち1つ以上を含んでもよい。   [0008] In various embodiments, the systems, software media, methods, or uses thereof disclosed herein comprise using one or more samples. One or more samples can be collected simultaneously. In some cases, one or more samples include at least two samples, and at least two samples can be collected at different times. In certain applications, one or more samples may include one or more of primary tumor, metastatic tumor, fluid, cell free sample, lymphocytes, and plasma.

[0009]本明細書に開示する様々な開示のシステム、ソフトウェア媒体、および方法では、推定変異体の特定は、ゲノムシーケンスを、1つ以上の過去に解析した患者から得たシーケンスのバンクのシーケンスと比較することを含むことができる。推定変異体のスコアリングは、正しいコールと誤ったコールの組を用いて訓練した機械学習可能な方法に基づいて確率を調節することを含むことができる。推定変異体の特定およびスコアリングは、染色体座における推論を作成することを含むことができる。   [0009] In the various disclosed systems, software media, and methods disclosed herein, identification of putative variants can be performed by sequencing a bank of sequences obtained from one or more previously analyzed patients with genomic sequences. Can include comparing with Scoring of putative variants can include adjusting the probabilities based on machine learned methods trained using the correct and false call pairs. Identification and scoring of putative variants can involve making inferences at chromosomal loci.

[0010]様々な適用例では、推論の作成は、確率モデル、統計的推論、ベイズ推定、およびベイズネットワークモデルのうち1つ以上を使用することを含むことができる。いくつかの設計では、推論の作成は、生殖細胞系列および体細胞変異体発見の事前確率、染色体座にわたって整列された一連のシーケンスリード、高スループットシーケンシング機器の誤り率、染色体座を含む染色体領域の倍数関係、がんのクローン進化のプロセスモデル、個人の1つ以上の他のサンプルに由来する染色体座におけるコール、1人以上の他の個人の1つ以上のサンプルに由来する染色体座におけるコール、1つ以上の基準母集団の染色体座における共通の多型性の事前知識、染色体座における1つ以上の再発がんの突然変異の事前知識、がんを含むサンプル中のがん細胞の比率、確率モデルによる変異体の説明、確率モデルによる染色体座全体にわたる一連の整列されたシーケンスリードの説明、確率モデルによる染色体座における倍数関係の説明、ならびに確率モデルによるサンプル中のがん細胞の比率の説明のうち1つ以上に基づくことができる。   [0010] In various applications, creating inference can include using one or more of a probabilistic model, statistical inference, Bayesian estimation, and Bayesian network model. In some designs, generation of inferences includes prior probabilities of germline and somatic mutation detection, a series of sequence reads aligned across chromosomal loci, error rates of high-throughput sequencing instruments, chromosomal regions including chromosomal loci Call of polyploidy, process model of clonal evolution of cancer, calls at chromosomal loci derived from one or more other samples of individuals, calls at chromosomal loci derived from one or more samples of one or more other individuals Prior knowledge of common polymorphisms at chromosomal loci of one or more reference populations, prior knowledge of mutations of one or more recurrent cancers at chromosomal loci, proportion of cancer cells in a sample containing cancer, Stochastic model description of variants, Stochastic model description of a series of aligned sequence reads across chromosomal loci, Stochastic model chromosomal loci Description of definitive ploidy, and can be based on one or more of the described ratio of cancer cells in a sample by a probability model.

[0011]いくつかの設計では、ベースコールに対する品質検証において誤り率がもたらされる場合がある。がんを含むサンプルは、がんを引き起こす1つ以上のDNA分子、または1つ以上のがん性組織、または両方を含む場合がある。本明細書で使用する比率は二値変数によって記載することができる。   [0011] In some designs, an error rate may be introduced in quality verification for base calls. The sample containing cancer may contain one or more DNA molecules that cause cancer, or one or more cancerous tissues, or both. The ratios used herein can be described by binary variables.

[0012]本明細書に開示する様々な開示のシステム、ソフトウェア媒体、および方法では、データ解析アプリケーションは、1つ以上のコーディング領域、予測される損傷の深刻度、1つ以上の生殖細胞系列突然変異、1つ以上の体細胞突然変異、1つ以上の突然変異・薬物間の相互作用、臨床試験において観察される1つ以上の突然変異、1つ以上の疾患、1つ以上の症状、または1つ以上の副作用のうち1つ以上における影響に関して、推定変異体に注釈を付けるように構成されたモジュールをさらに備えることができる。   [0012] In the various disclosed systems, software media, and methods disclosed herein, the data analysis application includes one or more coding regions, predicted damage severity, one or more germline lineages Mutation, one or more somatic mutations, one or more mutations or interactions between drugs, one or more mutations observed in a clinical trial, one or more diseases, one or more symptoms, or The method may further comprise a module configured to annotate the putative variant for an effect on one or more of the one or more side effects.

[0013]本明細書に開示する様々な開示のシステム、ソフトウェア媒体、および方法では、データ解析アプリケーションは、治療方法、または処置方法、または両方を推奨するように構成されたモジュールを備えることができる。   [0013] In the various disclosed systems, software media, and methods disclosed herein, the data analysis application can comprise a module configured to recommend a treatment method, a treatment method, or both. .

[0014]本明細書に開示する様々な開示のシステム、ソフトウェア媒体、および方法では、データ解析アプリケーションは、処置の経過を査定するように構成されたモジュールを備えることができる。   [0014] In the various disclosed systems, software media, and methods disclosed herein, a data analysis application can comprise a module configured to assess the progress of a treatment.

[0015]本明細書に開示する様々な開示のシステム、ソフトウェア媒体、および方法では、データ解析アプリケーションは、リスクを評価するように構成されたモジュールを備えることができる。   [0015] In the various disclosed systems, software media, and methods disclosed herein, a data analysis application may comprise a module configured to assess risk.

[0016]本明細書に開示する様々な開示のシステム、ソフトウェア媒体、および方法では、データ解析アプリケーションは、治療方法、または処置方法、または両方の効率を監視するように構成されたモジュールを備えることができる。
参照による援用
[0017]本明細書において言及する全ての刊行物、特許、および特許出願は、個々の刊行物、特許、また特許出願それぞれが参照により援用されるように具体的に個々に示されたのと同じ程度まで、参照により本明細書に援用する。
[0016] In the various disclosed systems, software media, and methods disclosed herein, the data analysis application comprises a module configured to monitor the efficiency of the treatment method, or treatment method, or both. Can.
Incorporated by reference
[0017] All publications, patents, and patent applications mentioned in the specification are individually identified as if each individual publication, patent or patent application was specifically incorporated by reference. To the same extent, they are incorporated herein by reference.

[0018]本発明の新規な特徴を、添付の特許請求の範囲において詳細に説明する。本発明の特徴および利点は、本発明の原理を利用した例示的な実施形態を説明する以下の詳細な説明、ならびに添付図面を参照することによって、さらに理解されるであろう。   The novel features of the invention are set forth with particularity in the appended claims. The features and advantages of the present invention will be better understood by reference to the following detailed description that sets forth illustrative embodiments, in which the principles of the invention are utilized, as well as the accompanying drawings.

[0019]本明細書に開示の方法を示す図である。[0019] FIG. 7 illustrates the method disclosed herein. [0020]データ受信モジュールの一例を示す図である。[0020] FIG. 6 illustrates an example of a data receiving module. [0021]シーケンスアライメントモジュールの一例を示す図である。[0021] FIG. 6 illustrates an example of a sequence alignment module. [0022]ゲノム解析モジュールの一例を示す図である。[0022] FIG. 1 shows an example of a genome analysis module. [0023]染色体座におけるシーケンス解析の一例を示す図である。[0023] FIG. 7 shows an example of sequence analysis at a chromosomal locus. [0024]推定変異体の確率を評価するために、被験者からの異なるタイプのサンプルを使用する一例を示す図である。[0024] FIG. 7 shows an example of using different types of samples from a subject to assess the probability of a putative variant. [0025]推定変異体の確率を評価するために、遺伝子座周辺の情報を使用する一例を示す図である。[0025] FIG. 7 shows an example of using information around loci to assess the probability of putative variants. [0026]がん体細胞突然変異の同時推論のためのベイズネットワークの図である。[0026] FIG. 7 is a diagram of a Bayesian network for simultaneous inference of cancer somatic mutations. [0027]本明細書に開示する解析を実施するコンピュータ制御システムを示す図である。[0027] FIG. 10 illustrates a computer control system that implements the analysis disclosed herein. [0028]例えば被験者の腫瘍サンプルから、DNAライブラリを作成する方法の例示的なワークフローを示す図である。[0028] FIG. 1 illustrates an exemplary workflow of a method of creating a DNA library, eg, from a tumor sample of a subject.

I.概要
[0029]本明細書に開示する技術は、個人からのサンプルの高スループット核酸シーケンシングデータに対するコンピュータ解析を対象とし得る。解析は、生殖細胞系列および体細胞情報を抽出し、両方のタイプの情報を比較して、確率モデリングおよび統計的推論に基づいて、シーケンス変異体を特定することができる。生殖細胞系列変異体は、天然のまたは正常な変異(例えば、肌の色、髪の色、および標準体重)を含む核酸を指す。体細胞突然変異は、後天的または異常な変異(例えば、がん、肥満、症状、疾患、障害など)を含む核酸を指す。解析は、生殖細胞系列変異体、例えば個人の変異体と、体細胞突然変異とを区別することを含み得る。特定された変異体は、より良好な健康管理を行うために診療所で使用することができる。
I. Overview
[0029] The techniques disclosed herein may be directed to computer analysis of high throughput nucleic acid sequencing data of a sample from an individual. The analysis can extract germline and somatic information, compare both types of information, and identify sequence variants based on probabilistic modeling and statistical inference. Germline variants refer to nucleic acids that contain natural or normal mutations (eg, skin color, hair color, and normal weight). Somatic mutation refers to nucleic acid containing acquired or abnormal mutations (eg, cancer, obesity, symptoms, diseases, disorders, etc.). The analysis may include distinguishing between germline variants, eg, variants of individuals, and somatic mutations. The identified variants can be used in the clinic to provide better health care.

[0030]本明細書では、増幅および/またはシーケンシング技術、体細胞突然変異および生殖細胞系列変異体によって導入された、核酸中のシーケンス誤りを区別することができる、改善された方法、コンピューティングシステム、またはソフトウェア媒体を提供する。患者から得た全てのサンプルを整列させたシーケンシングデータから、変異体のコーリングおよびスコアリングを同時に行うことを含む、方法を提供する。他の被験者からのサンプル、例えば、シーケンシングアッセイ、例えばターゲットシーケンシングアッセイ、例えばターゲットリシーケンシングアッセイによって過去に解析された、他の被験者からのサンプルを使用することができる。改善された方法、コンピューティングシステム、またはソフトウェア媒体の使用によって、生殖細胞系列および体細胞突然変異のより良好な弁別(例えば、より少ない偽陽性)、ならびにより低い検出限界(例えば、より少ない偽陰性)をもたらすことができる。   [0030] As used herein, improved methods capable of distinguishing sequence errors in nucleic acids introduced by amplification and / or sequencing techniques, somatic mutations and germline variants, computing Provide a system or software medium. Methods are provided that include simultaneous calling and scoring of variants from sequencing data in which all samples obtained from the patient are aligned. Samples from other subjects, such as samples from other subjects that have been previously analyzed by sequencing assays, such as target sequencing assays, such as target resequencing assays, can be used. Better discrimination of germline and somatic mutations (eg, fewer false positives), and lower detection limits (eg, fewer false negatives) by use of improved methods, computing systems, or software media Can bring

[0031]図1は、本明細書にて提供する方法の概要を示している。ステップ101で、システムまたは方法は、個人の1つ以上のサンプルを収集することを含む。サンプルは、例えば、組織または体液または両方から、個人、例えば被験者、患者から、得ることができる。サンプルは、本明細書に記載する任意のサンプル、例えば、原発腫瘍、転移腫瘍、血液からの軟膜(例えば、リンパ球)、または血漿から抽出した無細胞DNA(cf−DNA)であることができる。102で、例えば高スループットシーケンシング機器によって、1つ以上のサンプルの核酸分子のシーケンシングを行うことができる。例えば、本明細書に記載する任意の方法によって、1つ以上のシーケンシングライブラリを準備することができる。シーケンシングライブラリは、各組織サンプルに対して、ならびに/または異なる時点で得たサンプルに対して準備することができる。シーケンシングによってシーケンスリードを生成することができる。シーケンスリードをアセンブルして個人の予測ゲノムとするため、ステップ103は、シーケンスリードを基準アセンブリに、例えばヒト基準アセンブリに対して整列させて、予測ゲノムシーケンスを生成する。ステップ104で、システムまたは方法は推定変異体を特定する。特定は、予測ゲノムシーケンスを共同で同時に解析することと、体細胞突然変異または生殖細胞系列変異体である確率によって推定変異体をスコアリングすることとを含むことができる。本明細書に記載するように、サンプルの細胞充実性の推定値を使用してスコアリングの情報を与えることができる。変異体は、例えば、一連の良い(即ち、真陽性)細胞および悪い(即ち、偽陽性)細胞を用いて訓練した機械学習方法に基づいて、再スコアリングすることができる。変異体は、コーディング領域、予測される損傷の深刻度、生殖細胞系列および体細胞突然変異の他のデータベースの相互参照、突然変異・薬物間の相互作用、突然変異が観察された患者を受け入れる臨床試験、または他の医学的に関連する知識ベースにおける、変異体の影響に関して注釈を付けることができる。ステップ105で、変異体情報および注釈、例えば、がん遺伝子および関連するホットスポットにわたって変異が存在しないことのエビデンスを腫瘍ボードに提供して、腫瘍ボードが、個人に対する治療の推奨を行うか、または処置の経過もしくは起こり得る再発を査定するのを可能にすることができる。   [0031] FIG. 1 shows an overview of the method provided herein. At step 101, the system or method includes collecting one or more samples of the individual. The sample can be obtained, for example, from an individual, such as a subject, a patient, from tissue or body fluid or both. The sample can be any sample described herein, such as a primary tumor, a metastatic tumor, a buffy coat (eg, lymphocytes) from blood, or cell free DNA (cf-DNA) extracted from plasma. . At 102, sequencing of nucleic acid molecules of one or more samples can be performed, for example, by a high throughput sequencing instrument. For example, one or more sequencing libraries can be prepared by any of the methods described herein. Sequencing libraries can be prepared for each tissue sample and / or for samples obtained at different times. Sequence reads can be generated by sequencing. In order to assemble the sequence reads into the predicted genome of the individual, step 103 aligns the sequence reads into a reference assembly, for example a human reference assembly, to generate a predicted genomic sequence. At step 104, the system or method identifies putative variants. The identification can include jointly analyzing the predicted genomic sequence simultaneously and scoring the putative variants by their probability of being somatic mutations or germline variants. As described herein, estimates of cellularity of a sample can be used to provide scoring information. Variants can be re-scored based on, for example, machine learning methods trained using a series of good (ie true positive) and bad (ie false positive) cells. Variants include coding regions, severity of expected damage, cross-referencing of other databases of germline and somatic mutations, interactions between mutations and drugs, clinics accepting patients with mutations observed Annotations can be made regarding the effects of the variants in a test or other medically relevant knowledge base. At step 105, the tumor board makes a treatment recommendation for the individual, providing the tumor board with variant information and annotations, eg, evidence that no mutations exist across the oncogene and associated hotspots, or It may be possible to assess the course of treatment or possible relapse.

[0032]また、本明細書では、プロセッサと、機械可読命令を実行するように構成されたメモリモジュールと、高スループットシーケンシング機器によって生成される、個人の1つ以上のサンプルから得られる核酸分子のシーケンスリードを受信するように構成されたデータ受信モジュールを備えるデータ解析アプリケーションと、シーケンスリードを基準アセンブリに対して整列させて、ゲノムシーケンスを生成するように構成されたシーケンスアライメントモジュールと、(i)ゲノムシーケンスを共同で同時に解析することによって推定変異体を特定し、(ii)体細胞突然変異または生殖細胞系列変異体である確率によって推定変異体をスコアリングするように構成されたゲノム解析モジュールとを備える、コンピューティングシステムを提供する。   [0032] Also, as used herein, nucleic acid molecules obtained from one or more samples of an individual generated by a processor, a memory module configured to execute machine-readable instructions, and high throughput sequencing equipment. A data analysis application comprising a data receiving module configured to receive a sequence read of a sequence, and a sequence alignment module configured to align the sequence read with respect to a reference assembly to generate a genomic sequence (i A genomic analysis module configured to identify putative variants by jointly analyzing the genomic sequence jointly and (ii) to score the putative variants by probability of being a somatic mutation or germline variant Computing system To provide.

[0033]また、本明細書では、データ解析アプリケーションを作成するためにプロセッサによって実行可能な命令を含むコンピュータプログラムを用いてコード化された、コンピュータ可読記憶媒体であって、アプリケーションが、高スループットシーケンシング機器によって生成される、個人の1つ以上のサンプルから得られる核酸分子のシーケンスリードを受信するように構成されたデータ受信モジュールと、シーケンスリードを基準アセンブリに対して整列させて、ゲノムシーケンスを生成するように構成されたシーケンスアライメントモジュールと、(i)ゲノムシーケンスを共同で同時に解析することによって推定変異体を特定し、(ii)体細胞突然変異または生殖細胞系列変異体である確率によって推定変異体をスコアリングするように構成されたゲノム解析モジュールとを備える、コンピュータ可読記憶媒体を提供する。   [0033] Also herein, a computer readable storage medium encoded with a computer program comprising instructions executable by a processor to create a data analysis application, the application comprising a high throughput sequence. The sequencing leads are aligned to a reference assembly to generate genomic sequences, with a data receiving module configured to receive sequencing reads of nucleic acid molecules obtained from one or more samples of the individual, generated by the Identifying putative variants by (i) jointly analyzing the genomic sequence jointly with a sequence alignment module configured to generate, and (ii) estimating by probability of being a somatic mutation or germline variant Scoring variants And a genomic analysis module configured urchin, a computer-readable storage medium.

[0034]また、本明細書では、個人の1つ以上のサンプルを収集するステップと、高スループットシーケンシング機器を使用して、1つ以上のサンプルの核酸分子のシーケンシングを行い、シーケンスリードを生成するステップと、シーケンスリードを基準アセンブリに対して整列させて、ゲノムシーケンスを生成するステップと、ゲノムシーケンスを共同で同時に解析することによって、推定変異体を特定するステップと、体細胞突然変異または生殖細胞系列変異体である確率によって推定変異体をスコアリングするステップとを含む、方法を提供する。
II.データ解析アプリケーション
[0035]本明細書にて提供する方法、コンピュータシステム、またはコンピュータ可読媒体は、1つ以上のデータ解析アプリケーションを含むことができる。データ解析アプリケーションは、異なる機能を有するいくつかのモジュールを備えることができる。例えば、データ解析アプリケーションは、シーケンスリードを受信するデータ受信モジュールを備えることができる。データ解析アプリケーションは、シーケンスリードを取得し、シーケンスリードを整列させて、予測ゲノムシーケンスを生成することができる、シーケンスアライメントモジュールを備えることができる。データ解析アプリケーションは、予測ゲノムシーケンスを取得し、確率的および統計的解析を実施して、疾患を引き起こす推定遺伝変異体を特定することができる、ゲノム解析モジュールを備えることができる。
[0034] Also, as used herein, the steps of collecting one or more samples of an individual and sequencing the nucleic acid molecules of one or more samples using a high-throughput sequencing instrument to sequence read The steps of generating, aligning the sequence reads to a reference assembly to generate a genomic sequence, and co-simultaneously analyzing the genomic sequence to identify putative variants, somatic mutation or And Scoring a putative variant by its probability of being a germline variant.
II. Data analysis application
[0035] The methods, computer systems, or computer readable media provided herein can include one or more data analysis applications. Data analysis applications can comprise several modules with different functions. For example, the data analysis application may comprise a data receiving module that receives the sequence read. The data analysis application can comprise a sequence alignment module that can obtain sequence reads and align the sequence reads to generate a predicted genomic sequence. The data analysis application can comprise a genomic analysis module that can obtain predicted genomic sequences and perform probabilistic and statistical analysis to identify putative genetic variants that cause disease.

[0036]A.データ受信モジュール
[0037]図2は、データ受信モジュールの一例を示している。データ受信モジュール201は、シーケンシング機器、例えば高スループットシーケンシング機器211によって生成されるシーケンスリードを格納する、メモリデバイスまたはハードドライブなどの一時的データ記憶装置202を含むことができる。非シーケンスデータ212をデータ受信モジュール201に提供することができる。非シーケンスデータ212の例としては、名前、生年月日、性別、年齢層、病歴、家族情報、サンプル源、サンプル収集時間、およびサンプルの生物学的状態が挙げられるが、それらに限定されない。データ受信モジュールは、被験者からの少なくとも1、2、3、4、5、10、20、またはそれ以上のサンプルから、シーケンスリードデータを受信することができる。データ受信モジュールは、少なくとも1、2、3、4、5、10、20、またはそれ以上の異なる被験者から、シーケンスデータを受信することができる。
[0036] A. Data receiving module
[0037] FIG. 2 shows an example of a data receiving module. The data receiving module 201 can include a temporary data storage device 202 such as a memory device or hard drive that stores sequencing reads, for example, sequence reads generated by high throughput sequencing device 211. Non-sequence data 212 may be provided to data receiving module 201. Examples of non-sequence data 212 include, but are not limited to, name, date of birth, gender, age group, medical history, family information, sample source, sample collection time, and biological state of the sample. The data receiving module may receive sequence read data from at least 1, 2, 3, 4, 5, 10, 20 or more samples from the subject. The data receiving module may receive sequence data from at least one, two, three, four, five, ten, twenty or more different subjects.

[0038]データ受信モジュールは、データ再編成プロセス203を含むことができる。再編成プロセス203は、一時的に格納されたデータを所定のフォーマットに再編成し、再編成されたデータをデータベース204に格納することができる。例えば、複数の被験者のシーケンスリードを個々の被験者ごとに分離することができる。別の例では、注釈付き情報に基づいてシーケンスリードを再編成することができる。いくつかの実施形態では、例えば、シーケンスデータおよび非シーケンスデータを対にできない場合、データ再編成プロセス203は、両方のデータを一時的データ記憶装置に返して、さらに入ってくるデータを待つことができ、またはデータ再編成プロセス203は、欠落しているデータ入力をマークし、再編成されたデータをデータベース204に格納することができる。   The data receiving module may include a data reorganization process 203. The reorganization process 203 can reorganize the temporarily stored data into a predetermined format and store the reorganized data in the database 204. For example, sequence leads of multiple subjects can be separated for each individual subject. In another example, sequence reads can be reorganized based on the annotated information. In some embodiments, for example, if sequence data and non-sequence data can not be paired, the data reorganization process 203 may return both data to a temporary data store and wait for more incoming data. The data reorganization process 203 can mark missing data inputs and store the reorganized data in the database 204.

[0039]B.シーケンスアライメントモジュール
[0040]図3は、シーケンスアライメントモジュールの一例を示している。シーケンスアライメントモジュールの動作は3つのステップを含むことができる。モジュールは、データ受信モジュールからのシーケンスリード311にアクセスすることができる。モジュールはまた、アライメントのため、1つ以上の基準ゲノム312にアクセスすることができる。第1のステップ302は、シーケンスリードを検索し、シーケンスリードを複数の候補染色体セグメントと比較することができる。「複数」は、少なくとも2つの要素を含むことができる。特定の事例では、複数は、少なくとも10、少なくとも100、少なくとも100、少なくとも10,000、少なくとも100,000、少なくとも1,000,000、少なくとも10,000,000、少なくとも100,000,000、または少なくとも1,000,000,000、もしくはそれ以上の要素を有することができる。比較は統計的解析に基づくことができる。第2の303で、シーケンスアライメントモジュールは、最も一致スコアが高いゲノムセグメントを選ぶことができる。ステップ302および303を各シーケンスリードに対して繰り返すことができる。最後のステップ304は、例えば全てのシーケンスリードが基準ゲノムにマッピングされると、全てのシーケンスリードをアセンブルし凝集して、個人の予測ゲノムシーケンスとすることができる。
[0039] B. Sequence alignment module
[0040] FIG. 3 shows an example of a sequence alignment module. The operation of the sequence alignment module can include three steps. The module can access the sequence lead 311 from the data receiving module. Modules can also access one or more reference genomes 312 for alignment. The first step 302 may search for sequence reads and compare the sequence reads to a plurality of candidate chromosomal segments. "Plurality" can include at least two elements. In particular cases, the plurality is at least 10, at least 100, at least 100, at least 10,000, at least 100,000, at least 1,000,000, at least 10,000,000, at least 100,000,000, or at least It can have 1,000,000,000 or more elements. The comparison can be based on statistical analysis. At the second 303, the sequence alignment module can pick the genome segment with the highest match score. Steps 302 and 303 can be repeated for each sequence read. The final step 304 may, for example, assemble and aggregate all the sequence reads into an individual's predicted genome sequence, once all the sequence reads have been mapped to the reference genome.

[0041]ゲノムシーケンスは、本明細書で使用するとき、ゲノム中に生じるシーケンスを指すことができる。RNAはゲノムから転写されるので、この用語は、有機体の核ゲノム中に存在するシーケンス、ならびにかかるゲノムから転写されるRNA(例えば、mRNA)のcDNAコピー中に存在するシーケンスを包含することができる。   [0041] Genomic sequence, as used herein, can refer to a sequence that occurs in the genome. As RNA is transcribed from the genome, this term is intended to encompass the sequences present in the nuclear genome of an organism, as well as the sequences present in the cDNA copy of RNA (eg mRNA) transcribed from such genome. it can.

[0042]予測ゲノムシーケンスは、本明細書で使用するとき、シーケンスアライメントモジュールによってアセンブルされたゲノムシーケンスを指すことができる。
[0043]サンプル調製およびシーケンシングのプロセスでは、核酸、例えばサンプル中に存在するDNA断片の、一部または全体のシーケンシングを実施することができる。既知の基準ゲノムに対してマッピングするリードを含むシーケンスタグを計数することができる。場合によっては、基準ゲノムに対して一意的に整列するシーケンスリードのみをシーケンスタグとして計数することができる。いくつかの実施形態では、基準ゲノムは、ワールドワイドウェブ上でgenome.ucsc.edu/cgi−bin/hgGateway?org=Human&db=hgl8&hgsid=166260105にて利用可能な、ヒト基準ゲノムNCBI36/hg18シーケンスである。他の公開シーケンス情報源としては、GenBank、dbEST、dbSTS、EMBL(欧州分子生物学研究所)、およびDDBJ(日本DNAデータバンク)が挙げられる。基準ゲノムはまた、ヒト基準ゲノムNCBI36/hg18シーケンス、および多型性標的シーケンスを含む人工標的シーケンスゲノムを含むことができる。いくつかの実施形態では、基準ゲノムは、多型性標的シーケンスを含む人工標的シーケンスゲノムである。基準ゲノムは、公開ヒトゲノム(例えば、hg18、hg19、またはhg37)であることができる。
[0042] A predicted genomic sequence, as used herein, can refer to a genomic sequence assembled by a sequence alignment module.
[0043] In the process of sample preparation and sequencing, partial or complete sequencing of nucleic acids, eg, DNA fragments present in a sample, can be performed. Sequence tags can be counted that include leads that map to a known reference genome. In some cases, only sequence reads that uniquely align with the reference genome can be counted as sequence tags. In some embodiments, the reference genome is genomic. ucsc. edu / cgi-bin / hgGateway? Human reference genome NCBI36 / hg18 sequence available at org = Human & db = hgl8 & hgsid = 166260105. Other published sequence sources include GenBank, dbEST, dbSTS, EMBL (European Institute of Molecular Biology), and DDBJ (Japan DNA Databank). The reference genome can also include an artificial target sequence genome comprising human reference genome NCBI36 / hg18 sequences, and polymorphic target sequences. In some embodiments, the reference genome is an artificial target sequence genome comprising a polymorphic target sequence. The reference genome can be a public human genome (eg, hg18, hg19, or hg37).

[0044]場合によっては、基準ゲノムは、サンプルを評価中の被験者と同じ疾患(例えば、がん)、年齢、民族、性別、国籍、職業、暴露(例えば、毒素、放射線、もしくは生物剤に対する)、または居住地(例えば、同じ家、市、州、国、もしくは大陸)の被験者または被験者群からのものである。場合によっては、基準ゲノムは、サンプルを評価中の被験者とは異なる疾患(例えば、がん)、年齢、民族、性別、国籍、職業、暴露(例えば、毒素、放射線、もしくは生物剤に対する)、または居住地(例えば、同じ家、市、州、国、もしくは大陸)の被験者または被験者群からのものである。基準ゲノムは、サンプルを評価中の被験者の1人以上の親族(例えば、父親、母親、きょうだい、いとこ、もしくは祖父母)からのものであることができる。場合によっては、基準ゲノムは、サンプルを評価中の被験者の親族(例えば、父親、母親、きょうだい、いとこ、もしくは祖父母)からのものではない。   [0044] In some cases, the reference genome is the same disease (eg, cancer), age, ethnicity, gender, nationality, occupation, exposure (eg, to toxins, radiation, or biological agents) of the subject under which the sample is being evaluated. Or from subjects or groups of subjects of residence (eg, the same house, city, state, country, or continent). In some cases, the reference genome is a different disease (eg, cancer), age, ethnicity, gender, nationality, occupation, exposure (eg, to a toxin, radiation, or biological agent) different from the subject whose sample is being evaluated, or It is from a subject or group of subjects at a residence (eg, the same house, city, state, country, or continent). The reference genome can be from one or more relatives (eg, a father, a mother, a brother, a cousin, or a grandparent) of the subject whose sample is being evaluated. In some cases, the reference genome is not from the relatives (eg, father, mother, sibling, cousin, or grandparents) of the subject whose sample is being evaluated.

[0045]シーケンスタグのマッピングは、タグのシーケンスを基準ゲノムのシーケンスと比較して、シーケンシングした核酸(例えば、無細胞DNA)分子の染色体起源を判定することによって達成することができる。非限定的に、BLAST(Altschul et al.、1990年)、BLITZ(MPsrch)(Sturrock&Collins、1993年)、FASTA(Person&Lipman、1988年)、BOWTIE(Langmead et al.、Genome Biology 10:R25.1〜R25.10[2009])、またはELAND(Illumina,Inc.、San Diego、CA、USA)など、多数のコンピュータアルゴリズムがシーケンスの整列に利用可能である。一実施形態では、核酸分子はクローン増殖させることができ、DNA分子のクローン増殖したコピーの一端を、ヌクレオチドデータベースの効率的大規模アラインメント(ELAND)ソフトウェアを使用することができる、Illumina Genome Analyzer向けに、バイオインフォマティックアライメント解析によってシーケンシングし処理する。付加的なソフトウェアとしては、SAMtools(SAMtools、Bioinformatics、2009、25(16):2078−9)、および圧縮をより効率的にするブロックソーティングまたは前処理を伴う場合がある、Burroughs−Wheelerブロックソート圧縮手順が挙げられる。シーケンスアライメントツールは、Artemis Comparison Tool(ACT)、AVID、BWA−MEM、BLAT、DECIPHER、GMAP、Splign、Mauve、MGA、Mulan、Multiz、PLAST−ncRNA、Sequerome、Sequilab、Shuffle−LAGEN、SIBsim4、またはSLAMであることができる。シーケンスアライメントツールは、ショートリードシーケンスアライメントツール、例えば、BarraCUDA、BBMap、BFAST、BigBWA、BLASTN、BLAT、またはBowtieであることができる。   [0045] The mapping of sequence tags can be accomplished by comparing the sequence of tags to that of a reference genome to determine the chromosomal origin of the sequenced nucleic acid (eg, cell free DNA) molecule. Without limitation, BLAST (Altschul et al., 1990), BLITZ (MPsrch) (Sturrock & Collins, 1993), FASTA (Person & Lipman, 1988), BOWTIE (Langmead et al., Genome Biology 10: R25.1 ~ A number of computer algorithms are available for sequence alignment, such as R 25.10 [2009]) or ELAND (Illumina, Inc., San Diego, Calif., USA). In one embodiment, the nucleic acid molecule can be clonally propagated, and one end of the clonally propagated copy of the DNA molecule can be used for efficient large scale alignment (ELAND) software of a nucleotide database, for Illumina Genome Analyzer , Sequencing and processing by bioinformatic alignment analysis. Additional software may include SAMtools (SAMtools, Bioinformatics, 2009, 25 (16): 2078-9), and block sorting or pre-processing to make compression more efficient, Burroughs-Wheeler block sort compression The procedure is mentioned. The sequence alignment tool includes Artemis Comparison Tool (ACT), AVID, BWA-MEM, BLAT, DECIPHER, GMAP, Splign, Mauve, MGA, Mulan, Multiz, PLAST-ncRNA, Sequerome, Sequilab, Shuffle-LAGEN, SIBsim4, or SLAMAM. Can be. The sequence alignment tool can be a short read sequence alignment tool, for example, BarraCUDA, BBMap, BFAST, BigBWA, BLASTN, BLAT, or Bowtie.

[0046]C.ゲノム解析モジュール
[0047]図4は、ゲノムアライメントモジュールの一例を示している。ゲノム解析モジュールの入力は、1つ以上の生殖細胞系列サンプルからのゲノムシーケンス411、1つ以上の体細胞サンプルからのゲノムシーケンス412、および事前ゲノム知識413であることができる。生殖細胞系列サンプルとしては、末梢血などの体液を挙げることができる。体細胞サンプルとしては腫瘍組織を挙げることができる。事前ゲノム知識413としては、公開されている科学文献のデータベースからの情報、またはゲノム注釈のデータベースからの情報、または同じ被験者もしくは異なる被験者からの過去に解析したサンプルのデータベースからの情報、またはそれらのデータベースの組み合わせからの情報を挙げることができる。
[0046] C. Genome analysis module
[0047] FIG. 4 shows an example of a genome alignment module. The input of the genomic analysis module can be genomic sequence 411 from one or more germline samples, genomic sequence 412 from one or more somatic cell samples, and prior genomic knowledge 413. Germline samples can include body fluids such as peripheral blood. The somatic cell sample can include tumor tissue. The prior genomic knowledge 413 may be information from a database of published scientific literature, or information from a database of genomic annotations, or information from a database of previously analyzed samples from the same or different subjects, or Information from combinations of databases can be mentioned.

[0048]ゲノム解析モジュールは、ゲノムシーケンスを、1人以上の過去に解析した患者からのシーケンスのバンクにおけるシーケンスに対して比較することによって、1つ以上の推定変異体を特定することができる。モジュールは4つのステップを実施することができる。第1のステップ402は、遺伝領域からゲノムシーケンスを抽出することを伴うことができ、シーケンスは異なるサンプルからのものである。ステップ403は、抽出したシーケンスを生殖細胞系列および体細胞サンプルにわたって比較することができ、比較は、確率的および統計的方法に基づくことができる。ステップ404は、1つ以上の推定変異体を判定することができ、推定変異体は、生殖細胞系列変異体または体細胞突然変異であることができる。ステップ402、403、および404を、対象の全ての遺伝領域にわたって繰り返すことができる。ステップ405は、1つ以上の推定変異体の臨床的意味を査定することができる。   [0048] The genome analysis module can identify one or more putative variants by comparing the genomic sequence to a sequence in a bank of sequences from one or more previously analyzed patients. The module can perform four steps. The first step 402 may involve extracting genomic sequences from the genetic region, the sequences being from different samples. Step 403 can compare the extracted sequences across germline and somatic samples, and the comparison can be based on stochastic and statistical methods. Step 404 can determine one or more putative variants, which can be germline variants or somatic mutations. Steps 402, 403, and 404 can be repeated across all genetic regions of interest. Step 405 can assess the clinical meaning of one or more putative variants.

[0049]遺伝領域は1つ以上の染色体座を含むことができる。遺伝領域は染色体上の連続領域であることができる。遺伝領域は2つ以上の離散的な染色体領域の集合であることができる。遺伝領域は単一の染色体上にあることができる。場合によっては、遺伝領域は2つ以上の染色体上にあることができる。いくつかの実施形態では、遺伝領域は1つ以上の塩基対であることができる。   [0049] Genetic regions can include one or more chromosomal loci. The genetic region can be a continuous region on a chromosome. The genetic region can be a collection of two or more discrete chromosomal regions. The genetic region can be on a single chromosome. In some cases, the genetic region can be on more than one chromosome. In some embodiments, the genetic region can be one or more base pairs.

[0050]生殖細胞系列および体細胞サンプルにわたるシーケンスの比較、ならびに1つ以上の推定変異体の判定は、体細胞突然変異または生殖細胞系列変異体であることの確率による、推定変異体のスコアリングに基づくことができる。推定変異体のスコアリングは、正しいコール(即ち、真陽性)と誤ったコール(即ち、偽陽性)の組を用いて訓練した機械学習方法に基づいて確率を調節することを含むことができる。   [0050] Comparison of sequences across germline and somatic cell samples, and determination of one or more putative variants, scoring of the putative variants by somatic mutation or probability of being a germline variant Can be based on Scoring of putative variants can include adjusting the probability based on machine learning methods trained with a set of correct (i.e., true positive) and false (i.e., false positive) calls.

[0051]D.染色体座または遺伝領域における推論の作成
[0052]推定変異体の特定およびスコアリングは、染色体座または遺伝領域における推論を作成することを含むことができる。推論の作成は、確率モデルおよび/または統計的推論を使用することを含むことができる。確率モデルおよび統計的推論の例としては、ベイズ推論およびベイズネットワークモデルが挙げられるが、それらに限定されない。推論の作成は、事前ゲノム知識413に由来する生殖細胞系列および体細胞変異体を発見する事前確率に基づくことができる。
[0051] D. Create inferences at chromosomal loci or genetic regions
[0052] Identification and scoring of putative variants can include making inferences at chromosomal loci or genetic regions. The creation of inference can include using a probabilistic model and / or statistical inference. Examples of probabilistic models and statistical inferences include, but are not limited to, Bayesian inference and Bayesian network models. The creation of inference can be based on prior probabilities of finding germline and somatic variants derived from prior genomic knowledge 413.

[0053]「遺伝子座」という用語は、染色体上における遺伝子、ヌクレオチド、またはシーケンスの位置を指すことができる。遺伝子座の「対立遺伝子」は、遺伝子座におけるヌクレオチドまたはシーケンスの代替形態を指すことができる。「野生型対立遺伝子」は、被験者の母集団における出現頻度が最も高い対立遺伝子を指すことができる。場合によっては、「野生型」対立遺伝子は疾患と関連付けられない。「変異対立遺伝子」は、「野生型対立遺伝子」よりも出現頻度が低く、疾患と関連付けることができる対立遺伝子を指すことができる。場合によっては、「変異対立遺伝子」は疾患と関連付けられない。「識別(interrogated)対立遺伝子」という用語は、検出用にアッセイが設計された対立遺伝子を指すことができる。「一塩基多型」または「SNP」という用語は、シーケンス内の一塩基置換によってもたらされる一種のゲノムシーケンスの変異を指すことができる。「SNP対立遺伝子」または「SNPの対立遺伝子」は、特定の遺伝子座におけるSNPの代替形態を指すことができる。「識別SNP対立遺伝子」という用語は、検出用にアッセイが設計されたSNP対立遺伝子を指すことができる。   [0053] The term "locus" can refer to the position of a gene, nucleotide, or sequence on a chromosome. An "allele" of a locus can refer to alternative forms of nucleotides or sequences at the locus. A "wild-type allele" can refer to the most frequently occurring allele in a population of subjects. In some cases, "wild-type" alleles are not associated with disease. A "mutant allele" can refer to an allele that has a lower frequency of occurrence than a "wild-type allele" and can be associated with a disease. In some cases, a "mutant allele" is not associated with a disease. The term "interrogated allele" can refer to an allele for which the assay is designed for detection. The terms "single nucleotide polymorphism" or "SNP" can refer to a mutation of one type of genomic sequence caused by a single nucleotide substitution within the sequence. "SNP allele" or "allele of SNP" can refer to alternative forms of the SNP at a particular genetic locus. The term "discriminating SNP allele" can refer to a SNP allele for which the assay is designed for detection.

[0054]推論の作成は、染色体座にわたる一連の複数のシーケンスに基づくことができる。図5を参照すると、染色体座501が対象のものである。複数のシーケンスは単一のサンプルからのものであることができ、遺伝子座501を含む複数の領域A、B、C、Dから収集することができる。複数のシーケンスは、複数のサンプル1、2、…、Nからのものであることができ、遺伝子座501を含む同一の領域Cから収集することができる。   [0054] Inference creation can be based on a series of multiple sequences across chromosomal loci. Referring to FIG. 5, chromosomal locus 501 is of interest. Multiple sequences can be from a single sample, and can be collected from multiple regions A, B, C, D, including locus 501. The multiple sequences can be from multiple samples 1, 2, ..., N, and can be collected from the same region C that contains locus 501.

[0055]推論の作成は、高スループットシーケンシング機器の誤り率に基づくことができる。誤り率は、ベースコールに対する品質検証においてもたらされる場合がある。いくつかの例では、推論の作成は、染色体座にわたる染色体領域の倍数関係に基づくことができる。異常な倍数関係は、体細胞突然変異または生殖細胞系列変異と関連付けられることがある。   [0055] The creation of inference can be based on the error rate of high throughput sequencing equipment. Error rates may be introduced in quality verification for base calls. In some instances, the generation of inference can be based on the multiple relationships of chromosomal regions across chromosomal loci. Abnormal polyploidy may be associated with somatic or germline mutations.

[0056]推論の作成は、がんのクローン進化のプロセスモデルに基づくことができる。プロセスは、第1の状態から第2の状態が予測または推論されるマルコフ連鎖によってモデル化されてもよい。例えば、がんのあるステージから別のステージへの進化時間、腫瘍が時間とともに進化する際の腫瘍組織のサイズ、原発臓器から別の遠隔臓器への転移過程、初期段階および後期段階で起こる随伴症状を伴うがん成長過程。   [0056] Inference creation can be based on a process model of clonal evolution of cancer. The process may be modeled by a Markov chain in which a second state is predicted or inferred from a first state. For example, the time of evolution from one stage of cancer to another, the size of the tumor tissue as the tumor evolves with time, the transition process from the primary organ to another distant organ, concomitant symptoms occurring in the early and late stages Cancer growth process.

[0057]推論の作成は、個人の1つ以上の他のサンプルに由来する染色体座におけるコールに基づくことができる。図5を参照すると、サンプル1、2、…、Nは、個人の単一の腫瘍組織から収集することができ、遺伝子座501の核酸コール(nucleic acid call)は、利用可能なサンプル全てまたは利用可能なサンプルの一部を解析することによる、生殖細胞系列変異または体細胞突然変異のコールの評価に基づくことができる。   [0057] Inference creation can be based on calls at chromosomal loci derived from one or more other samples of the individual. Referring to FIG. 5, samples 1, 2, ..., N can be collected from a single tumor tissue of an individual, and the nucleic acid call of locus 501 is all available samples or available It can be based on the evaluation of germline mutations or somatic mutations by analyzing some of the possible samples.

[0058]推論の作成は、他の1人以上の個人の1つ以上のサンプルに由来する染色体座におけるコールに基づくことができる。図5を参照すると、サンプル1、2、…、Nは、2人以上の個人から収集することができ、遺伝子座501の核酸コールは、利用可能なサンプル全てまたは利用可能なサンプルの一部を解析することによる、生殖細胞系列変異または体細胞突然変異のコールの評価に基づくことができる。   [0058] Inference creation can be based on calls at chromosomal loci derived from one or more samples of one or more other individuals. Referring to FIG. 5, samples 1, 2, ..., N can be collected from two or more individuals, and a nucleic acid call at locus 501 can be either all available samples or a portion of available samples. The analysis can be based on the assessment of germline mutations or somatic mutations call.

[0059]推論の作成は、1つ以上の基準母集団の染色体座における共通の多型性の事前知識に基づくことができる。図5を参照すると、染色体座501は、事前ゲノム知識における多型性をもたらす既知のがんであることができ、例えば、事前知識は、染色体座501における1つ以上の再発がん突然変異を示す。   [0059] Inference creation can be based on prior knowledge of common polymorphisms at chromosomal loci of one or more reference populations. Referring to FIG. 5, chromosomal locus 501 can be a known cancer that results in polymorphism in prior genomic knowledge, eg, prior knowledge indicates one or more recurrent cancer mutations in chromosomal locus 501.

[0060]推論の作成は、サンプル中のがん細胞の比率に対する細胞充実性の推定値に基づくことができる。細胞充実性は、腫瘍に由来するサンプル中における核酸の画分であることができる。   [0060] The generation of inference can be based on an estimate of cellularity to the proportion of cancer cells in the sample. Cellularity can be a fraction of nucleic acids in a sample derived from a tumor.

[0061]推論の作成は、1つ以上の確率モデルに基づくことができる。確率モデルを使用して、染色体座にわたる一連の整列されたシーケンスリード、染色体座における倍数関係、またはサンプル中のがん細胞の比率を説明することができる。確率モデルは、ガウス分布、ガンマ分布、または指数分布などの連続モデルを含むことができる。二項分布および多項分布などの離散的モデルを使用することができる。   [0061] Inference creation can be based on one or more probabilistic models. A probabilistic model can be used to describe a series of aligned sequence reads across chromosomal loci, a multiple relationship at chromosomal loci, or the proportion of cancer cells in a sample. The probability model can include a continuous model, such as a Gaussian, gamma, or exponential distribution. Discrete models such as binomial and multinomial distributions can be used.

[0062]E.他のモジュール
[0063]データ解析アプリケーションは、推定変異体に注釈を付けるように構成されたモジュールをさらに備えることができる。推定変異体は、コーディング領域における変異体、変異体によって生じる予測表現型、1つ以上の生殖細胞系列突然変異もしくは1つ以上の体細胞突然変異の他のデータベースに対する相互参照、1つ以上の突然変異・薬物間の相互作用、臨床試験における1つ以上の観察される突然変異、1つ以上の疾患、1つ以上の症状、または1つ以上の副作用の影響に関して注釈を付けることができる。
[0062] E. Other modules
[0063] The data analysis application can further comprise a module configured to annotate putative variants. A putative variant is a variant in the coding region, a predicted phenotype caused by the variant, a cross reference to one or more germline mutations or another database of one or more somatic mutations, one or more mutations The interaction between mutations and drugs, one or more observed mutations in clinical trials, one or more diseases, one or more symptoms, or one or more side effects can be annotated.

[0064]データ解析アプリケーションは、変異体、染色体座、染色体領域に関する臨床的意味を査定するように構成されたモジュールをさらに備えることができる。いくつかの例では、サンプルまたは個人に対して臨床的意味を査定することができる。例えば、査定を使用して、治療方法、処置方法、処置の経過、予測される結果、予測される効率、またはリスクを推奨することができる。
III.方法
[0065]本明細書で提供する方法は、コンピュータシステムまたはコンピュータ可読媒体の使用を含むことができる。方法の一例を図1に提供する。
[0064] The data analysis application can further comprise a module configured to assess the clinical meaning of the variant, chromosomal locus, chromosomal region. In some instances, clinical implications can be assessed on a sample or an individual. For example, an assessment can be used to recommend a method of treatment, method of treatment, course of treatment, predicted outcome, predicted efficacy, or risk.
III. Method
[0065] The methods provided herein can include the use of a computer system or computer readable medium. An example of the method is provided in FIG.

[0066]本明細書で提供する方法は、個人からの1つ以上のサンプルを利用することができる。1つ以上のシーケンシングライブラリを1つ以上のサンプルから準備することができる。シーケンシングライブラリを、シーケンシングプロセスで、またはデータ解析で使用することができる。シーケンシングライブラリは、本明細書に開示する方法のいずれかによって準備することができる。2つ以上のライブラリを同時に、または別の時点で準備することができる。例えば、シーケンシングライブラリは、腫瘍生検によって抽出した核酸から準備することができる。シーケンシングライブラリは、例えば、腫瘍生検からのシーケンシングライブラリを準備した後で、被験者の無細胞DNAサンプルから抽出した核酸から準備することができる。   [0066] The methods provided herein can utilize one or more samples from an individual. One or more sequencing libraries can be prepared from one or more samples. Sequencing libraries can be used in the sequencing process or in data analysis. Sequencing libraries can be prepared by any of the methods disclosed herein. Two or more libraries can be prepared simultaneously or at different times. For example, a sequencing library can be prepared from nucleic acids extracted by tumor biopsy. Sequencing libraries can be prepared, for example, from nucleic acids extracted from a subject's cell-free DNA sample after preparing a sequencing library from a tumor biopsy.

[0067]シーケンシングライブラリのシーケンシングを行って、シーケンシングリードを提供することができる。シーケンシングリードを、基準ゲノムに対して、例えば記載した基準ゲノムに対して整列させることができる。基準ゲノムは、公開ヒトゲノム(例えば、hg18、hg19、またはhg37)などのヒト基準ゲノムであることができる。   [0067] Sequencing of the sequencing library can be performed to provide sequencing reads. Sequencing reads can be aligned to a reference genome, eg, to the described reference genome. The reference genome can be a human reference genome, such as a published human genome (eg, hg18, hg19, or hg37).

[0068]被験者の1つ以上のサンプルからのシーケンシングライブラリによるリードアライメントは、同時確率によって説明することができ、したがって同時に解析することができる。場合によっては、被験者のサンプル(腫瘍組織および正常な組織のサンプル、固形組織および体液のサンプル、治療前および治療後サンプル)から得た全ての利用可能なシーケンシングライブラリからのリードアライメントが同時に解析される。場合によっては、過去に解析した被験者のシーケンシングライブラリからのアライメントが解析に含まれる。   [0068] Read alignment with sequencing libraries from one or more samples of a subject can be described by the joint probability and thus can be analyzed simultaneously. In some cases, lead alignments from all available sequencing libraries obtained from the subject's samples (tumor and normal tissue samples, solid tissue and fluid samples, pre- and post-treatment samples) were analyzed simultaneously Ru. In some cases, an analysis from a sequencing library of subjects analyzed in the past is included in the analysis.

[0069]いくつかの実施形態では、被験者の腫瘍サンプルに由来する核酸のシーケンスライブラリからの遺伝子座における推定変異体が、体細胞突然変異であるという確率を判定することができる。推定変異体が腫瘍または生殖細胞系列の核酸(例えば、DNA)に由来するものであるという確率は、少なくとも部分的には、後述する1つ以上の特徴を解析することによって判定することができる。   [0069] In some embodiments, the probability that a putative variant at a locus from a sequence library of nucleic acids derived from a subject's tumor sample can be a somatic mutation can be determined. The probability that a putative variant is derived from a tumor or germline nucleic acid (eg, DNA) can be determined, at least in part, by analyzing one or more features described below.

[0070]突然変異は、基準と比較した場合のゲノムのヌクレオチドシーケンスの変化を指すことができる。突然変異にはDNAの大きい部分が関与する場合がある(例えば、コピー数多型)。突然変異には全染色体が関与する場合がある(例えば、異数性)。突然変異にはDNAの小さい部分が関与する場合がある。DNAの小さい部分が関与する突然変異の例としては、例えば、点突然変異または一塩基多型、多塩基多型、挿入(例えば、遺伝子座における1つ以上のヌクレオチドの挿入)、多塩基変化、欠失(例えば、遺伝子座における1つ以上のヌクレオチドの欠失)、および反転(例えば、1つ以上のヌクレオチドのシーケンスの逆転)が挙げられる。「コピー数多型」または「CNV」という用語は、遺伝情報のコピー数の違いを指すことができる。CNVは、ゲノム領域のゲノム当たりコピー数の違いを指すことができる。例えば、二倍体生物では、常染色体ゲノム領域の予期されるコピー数はゲノム当たり2コピーである。かかるゲノム領域は細胞当たり2コピーで存在し得る。最近の調査については、Zhang et al.Annu.Rev.Genomics Hum,Genet.2009.10:451−81を参照のこと。CNVは、ヒトの遺伝的多様性の元であることができ、例えば、遺伝子量、遺伝子破壊、または遺伝子融合の変化による、複合的な障害および疾患と関連付けられる場合がある。また、良性の多型性変異体を表す場合がある。CNVは、例えば1Mb超過の大きいもの、または例えば100塩基〜1Mbの小さいものであることができる。100塩基を超過する(また3Mb未満の)38,000を超えるCNVがヒトにおいて報告されている。SNPとともに、これらのCNVは、個人ごとに異なる顕著な量の表現型変異を説明することができる。有害な影響を有すること、例えば疾患を引き起こすことに加えて、有利な変化ももたらすことができる。「構造多型」という用語は、染色体の構造の変異を指すことができる。構造多型は、欠失、複製、コピー数変異体、挿入、反転、および転座であることができる。場合によっては、遠く離れた2つの領域が近接させられる。例えば、転座、欠失、または反転の事象によって連結させることができる、それまで別個であった2つの遺伝子から形成されるハイブリッド遺伝子は、「遺伝子融合」または「融合遺伝子」と呼ぶことができる。   [0070] Mutation can refer to a change in the nucleotide sequence of the genome as compared to a reference. Mutations may involve large portions of DNA (eg, copy number variation). Mutations may involve the entire chromosome (eg, aneuploidy). Mutations may involve small portions of DNA. Examples of mutations involving small portions of DNA include, for example, point mutations or single nucleotide polymorphisms, polybasic polymorphisms, insertions (eg, insertion of one or more nucleotides at a genetic locus), polybasic changes, Deletions (eg, deletion of one or more nucleotides at a locus) and inversions (eg, inversion of a sequence of one or more nucleotides). The terms "copy number variation" or "CNV" can refer to differences in the copy number of the genetic information. CNV can refer to the copy number differences per genome of a genomic region. For example, in diploid organisms, the expected copy number of an autosomal genomic region is 2 copies per genome. Such genomic regions may be present in two copies per cell. For a recent survey, see Zhang et al. Annu. Rev. Genomics Hum, Genet. 2009. 10: 451-81. CNV can be a source of human genetic diversity and may be associated with complex disorders and diseases, eg, due to changes in gene dosage, gene disruption, or gene fusion. It may also represent a benign polymorphic variant. The CNV can be, for example, as large as more than 1 Mb or as small as, for example, 100 bases to 1 Mb. More than 38,000 CNVs exceeding 100 bases (and less than 3 Mb) have been reported in humans. Together with the SNPs, these CNVs can account for significant amounts of phenotypic variation that vary from individual to individual. In addition to having adverse effects, eg causing disease, advantageous changes can also be brought about. The term "structural polymorphism" can refer to a mutation in the structure of a chromosome. Structural polymorphisms can be deletions, replications, copy number variants, insertions, inversions, and translocations. In some cases, two far apart areas are brought close. For example, a hybrid gene formed from two previously separate genes that can be linked by a translocation, deletion, or inversion event can be referred to as a "gene fusion" or "fusion gene" .

[0071]A.同じ被験者からの追加のサンプル
[0072]推定変異体が、腫瘍または生殖細胞系列核酸、例えばDNAに由来するものである確率は、部分的には、被験者からの腫瘍サンプル以外のサンプル中の染色体座における、生殖細胞系列変異体および/または体細胞突然変異を検出することによって判定することができる。例えば、図6を参照すると、染色体Aにおける遺伝子座601はがんと関連付けられることが分かっている。他方で、非腫瘍サンプル(例えば、血液)中の染色体Bの遺伝子座611および染色体Cの遺伝子座612における変異体は、腫瘍形成のシグネチャーである。したがって、遺伝子座611および612における変異体の評価を使用して、被験者が遺伝子座601に腫瘍の遺伝子変異を有する確率を計算することができる。
[0071] A. Additional samples from the same subject
[0072] The probability that the putative variant is derived from a tumor or germline nucleic acid, eg DNA, is in part a germline variant at a chromosomal locus in a sample other than a tumor sample from the subject. And / or can be determined by detecting somatic mutations. For example, referring to FIG. 6, it has been found that locus 601 at chromosome A is associated with cancer. On the other hand, variants at locus 611 of chromosome B and locus 612 of chromosome C in non-tumor samples (eg, blood) are signatures of oncogenesis. Thus, evaluation of variants at loci 611 and 612 can be used to calculate the probability that a subject has a genetic mutation of the tumor at locus 601.

[0073]例えば、場合によっては、患者の生殖細胞系列細胞がBRCA1変異体を含む場合、BRCA1変異体は腫瘍の体細胞突然変異に由来するものではない。他のシナリオを確率モデルにおいて考察することができる。例えば、1つのシナリオは、BRCA1突然変異が生殖細胞系列細胞および腫瘍細胞において独立して生じたというものである。別のシナリオは、BRCA1突然変異が1つの細胞タイプには存在し、別の細胞タイプには存在しないというものである。   [0073] For example, in some cases, where the patient's germline cells contain a BRCA1 variant, the BRCA1 variant is not from a somatic mutation of a tumor. Other scenarios can be considered in the probabilistic model. For example, one scenario is that a BRCA1 mutation occurred independently in germline and tumor cells. Another scenario is that a BRCAl mutation is present in one cell type and not in another.

[0074]B.遺伝子座の周囲に存在する変異体の出現頻度
[0075]推定変異体が腫瘍または生殖細胞系列核酸、例えばDNAに由来する確率は、部分的には、変異体を含む遺伝子座にわたって整列される一連のシーケンスリードに変異体が存在する出現頻度を評価することによって、判定することができる。例えば、図7を参照すると、腫瘍の遺伝子変異は遺伝子座701で発生することが分かっている。変異体は、高頻度で遺伝子座701付近でも発生する。所与のサンプルのシーケンス702が遺伝子座701を含む場合、サンプルが701に腫瘍の遺伝子変異を有するかの評価は、遺伝子座701の近傍における1つ以上の変異体の出現頻度を解析することによって査定することができる。出現頻度が高い場合、突然変異が遺伝子座701で起こる確率が高い。
[0074] B. Occurrence frequency of variants existing around gene locus
[0075] The probability that a putative variant is derived from a tumor or germline nucleic acid, such as DNA, is, in part, the frequency at which the variant is present in a series of sequence reads that are aligned across loci containing the variant. It can be determined by evaluating. For example, with reference to FIG. 7, it is known that genetic mutations in the tumor occur at locus 701. Variants also occur frequently near locus 701. If the sequence 702 of a given sample contains a locus 701, the evaluation of whether the sample has a genetic mutation in the tumor at 701 is by analyzing the frequency of appearance of one or more variants in the vicinity of the locus 701. It can be assessed. If the frequency of occurrence is high, then the probability of the mutation occurring at locus 701 is high.

[0076]例えば、生検のシーケンシングを行い、既知の腫瘍の遺伝子変異を含むリードが欠落している場合、腫瘍遺伝子座の近傍におけるシーケンスリードを解析することによって、突然変異多様体が存在する確率を推論することができる。近傍がより多くの変異体を含む場合、サンプルが腫瘍の突然変異を含む確率が高い。   [0076] For example, if a sequencing of a biopsy is performed and a lead containing a known tumor gene mutation is missing, a mutational variant exists by analyzing a sequence lead in the vicinity of the tumor locus Probability can be inferred. If the neighborhood contains more variants, the sample is more likely to contain a tumor mutation.

[0077]C.シーケンシング機器の誤り率
[0078]推定変異体が腫瘍または生殖細胞系列核酸、例えばDNAに由来する確率は、リードアライメントに用いられるシーケンスリードを生成するために使用されるシーケンシング機器の誤り率を解析することによって、判定することができる。誤りおよび/またはノイズは、サンプル調製およびシーケンシングのプロセスの間に起こり得る。したがって、シーケンス機器によって報告される誤り率を、推定変異体が誤りによるものであるかを評価するために使用することができる。
[0077] C. Error rate of sequencing equipment
[0078] The probability that a putative variant is derived from a tumor or germline nucleic acid, such as DNA, is determined by analyzing the error rate of the sequencing instrument used to generate the sequence read used for read alignment. can do. Errors and / or noise may occur during the process of sample preparation and sequencing. Thus, the error rate reported by the sequencing device can be used to assess whether the putative variant is due to an error.

[0079]シーケンシング機器の誤り率は、少なくとも部分的には、シーケンシングリードとともに提供されるシーケンス品質スコアによって判定することができる(例えば、生体シーケンスおよびそれに対応する品質スコアの両方を格納するテキストベースのフォーマットである、FastQスコア)。場合によっては、誤り率は校正情報によって調節される。かかる校正情報は、例えば、出現頻度が低い推定変異体の量を定量化することにより、シーケンシングの誤りまたはPCR変異体に起因する可能性が最も高い変異体を直接検出することによって、判定することができる。   [0079] The error rate of the sequencing device can be determined at least in part by the sequence quality score provided with the sequencing read (eg, text that stores both the biosequence and its corresponding quality score) Base format, FastQ score). In some cases, the error rate is adjusted by the calibration information. Such calibration information is determined, for example, by directly detecting a mutation that is most likely due to a sequencing error or a PCR variant, by quantifying the amount of putative variants with low frequency of occurrence. be able to.

[0080]D.倍数関係
[0081]推定変異体が腫瘍または生殖細胞系列核酸、例えばDNAに由来する確率は、腫瘍サンプル中の染色体セグメントの倍数関係を解析することによって、判定することができる。染色体または染色体セグメントがサンプル中に予期しない複製を有する場合、腫瘍の遺伝子変異の確率が増加する。
[0080] D. Multiple relation
[0081] The probability that a putative variant is derived from a tumor or germline nucleic acid, such as DNA, can be determined by analyzing the multiple relationship of chromosomal segments in the tumor sample. If the chromosome or chromosomal segment has an unexpected replication in the sample, the probability of genetic mutation of the tumor is increased.

[0082]場合によっては、倍数関係の推定値は、二倍体、一倍体、正倍数体、接合体(zygoidy)、または多倍数体を含む。場合によっては、腫瘍中の遺伝子複製、領域複製、または染色体複製が発生することができ、対照サンプル、または同じサンプルの他のシーケンスのどちらかに対する比較によって、倍数関係を推論することができる。さらに、サンプル中に隠れた他の情報を、例えば、サンプルの病歴、尤度が高い推定変異体と関連付けられる別の推定変異体を、使用することができる。   In some cases, estimates of the fold relationship include diploid, haploid, euploid, zygoidy, or polyploid. In some cases, gene replication in a tumor, regional replication, or chromosomal replication can occur, and fold relationships can be inferred by comparison to either control samples or other sequences of the same sample. In addition, other information hidden in the sample can be used, for example, the patient's medical history of the sample, another putative variant associated with a high likelihood putative variant.

[0083]E.がんの進化
[0084]推定変異体が腫瘍または生殖細胞系列核酸、例えばDNAおよびRNAに由来する確率は、がんのクローン進化のプロセスを解析することによって、判定することができる。様々な適用例では、第1の状態は第1の確率モデルによって説明することができ、第2の状態は第2の確率モデルによって説明することができる。第1の状態から第2の状態への移行は、第1の確率モデルから第2の確率モデルへと転換する確率過程によって説明することができる。確率過程によってがんの進化過程が特性決定されると、第1の状態における観察データを使用して、第2の状態において起こり得る状態を推論または予測することができる。
[0083] E. Cancer evolution
[0084] The probability that a putative variant is derived from a tumor or germline nucleic acid, such as DNA and RNA, can be determined by analyzing the process of clonal evolution of cancer. In various applications, the first state can be described by a first probability model and the second state can be described by a second probability model. The transition from the first state to the second state can be described by the stochastic process of transforming from the first probability model to the second probability model. Once the evolutionary process of the cancer is characterized by a stochastic process, the observational data in the first state can be used to infer or predict the possible state in the second state.

[0085]解析で考察することができるがんのクローン進化の例としては、がんのあるステージから別のステージへの進化時間、時間とともに進化する際の腫瘍組織のサイズ、原発臓器から別の遠隔臓器への転移過程、随伴症状を伴うがん成長過程が挙げられるが、それらに限定されない。   [0085] Examples of clonal evolution of cancer that can be considered in the analysis include the time to evolve from one stage of cancer to another, the size of the tumor tissue as it evolves with time, the size of the tumor tissue from the primary organ to another. It includes, but is not limited to, the process of metastasis to distant organs and the process of cancer growth with accompanying symptoms.

[0086]F.他の被験者からの情報
[0087]推定変異体が腫瘍または生殖細胞系列核酸、例えばDNAに由来する確率は、異なる被験者からのサンプル中の同じ遺伝子座におけるベースコールを解析することによって、判定することができる。同じ家族からの、または同人種からの、または同じ母集団からの被験者は、類似の遺伝的特性を共有している可能性がある。例えば、基準母集団の遺伝子座に多型性が存在することまたは存在しないことの知識を、事前確率としてモデル化することができる。したがって、他の被験者からの遺伝情報が、確率を計算するための追加情報を提供することができる。
[0086] F. Information from other subjects
[0087] The probability that a putative variant is derived from a tumor or germline nucleic acid, such as DNA, can be determined by analyzing base calls at the same locus in samples from different subjects. Subjects from the same family, or from the same race, or from the same population may share similar genetic traits. For example, knowledge of the presence or absence of polymorphisms at loci of a reference population can be modeled as prior probabilities. Thus, genetic information from other subjects can provide additional information to calculate probabilities.

[0088]例えば、特定の遺伝子座が一般母集団内においてより多くの変異を含む場合があり、一部の遺伝子座が高レベルの特異性を示す場合がある。一般母集団内において高レベルの変異を有する遺伝子座が変異体を含むという事前確率は、高レベルの純化選択を示す遺伝子座が変異体を含むという事前確率よりも高い。特定の遺伝子座における変異体の出現頻度は、1000人ゲノムプロジェクトまたは公開されている研究など、過去のまたは同時の観察によって判定することができる。   For example, a particular locus may contain more mutations in the general population, and some loci may exhibit high levels of specificity. The prior probability that loci with high levels of mutations in the general population contain variants is higher than the prior probability that loci showing high levels of purified selection contain variants. The frequency of occurrence of a variant at a particular locus can be determined by past or simultaneous observations, such as the 1000 genome project or published studies.

[0089]G.再発がんの突然変異
[0090]推定変異体が腫瘍または生殖細胞系列核酸、例えばDNAに由来する確率は、遺伝子座における再発がんの突然変異の知識を解析することによって、判定することができる。初期のサンプルにおいて既に特定されている突然変異が、後期のサンプルでも発生する場合がある。したがって、再発がんの突然変異は事前確率モデルを提供することができる。かかる出現頻度は、例えば、がん患者からの追加観察によって(例えば、COSMICまたはTGCAから)判定することができる。
[0089] G. Recurrent cancer mutation
[0090] The probability that a putative variant is derived from a tumor or germline nucleic acid, such as DNA, can be determined by analyzing knowledge of mutations in recurrent cancer at the locus. Mutations already identified in earlier samples may also occur in later samples. Thus, mutations of recurrent cancer can provide a prior probability model. Such appearance frequency can be determined, for example, by additional observation from cancer patients (eg, from COSMIC or TGCA).

[0091]H.細胞充実性の推定値
[0092]推定変異体が腫瘍または生殖細胞系列核酸、例えばDNAに由来する確率は、サンプル中のがん細胞の比率を解析することによって、判定することができる。サンプルがより多くのがん細胞を含む場合、推定変異が腫瘍(体細胞)突然変異である確率が高くなる。したがって、がん細胞の比率を推定することによって、推定変異体を認識する際の追加情報を提供することができる。
[0091] H. Estimated value of cellularity
[0092] The probability that a putative variant is derived from a tumor or germline nucleic acid, such as DNA, can be determined by analyzing the proportion of cancer cells in the sample. If the sample contains more cancer cells, the probability of the putative mutation being a tumor (somatic) mutation is high. Thus, estimating the proportion of cancer cells can provide additional information in recognizing putative variants.

[0093]細胞充実性は、腫瘍に由来するサンプル中における核酸の画分であることができる。細胞充実性は、核酸抽出前に生検サンプルを検査(例えば、目視検査)することによって推定することができる。検査は、目視、撮像、病理学的研究、または病歴に基づくことができる。細胞充実性は、核酸サンプル中における腫瘍由来の変異体のレベルによって判定することができる。場合によっては、細胞充実性は、生殖細胞系列からの核酸(例えば、DNA)分子が腫瘍サンプル中に存在する確率を示す、0〜1の値である。   [0093] Cellularity can be a fraction of nucleic acids in a sample derived from a tumor. Cellularity can be estimated by examining (eg, visual inspection) a biopsy sample prior to nucleic acid extraction. The examination can be based on visual inspection, imaging, pathological studies, or medical history. Cellularity can be determined by the level of tumor-derived variants in the nucleic acid sample. In some cases, cellularity is a value from 0 to 1 that indicates the probability that a nucleic acid (eg, DNA) molecule from germline is present in a tumor sample.

[0094]I.補正係数
[0095]推定変異体が腫瘍または生殖細胞系列核酸、例えばDNAに由来する確率は、少なくとも部分的には、別の被験者のデータの、または過去のサンプルによる経験的データから、遺伝子座における各変異体の出現頻度を判定することによって、判定することができる。場合によっては、補正係数は、これまで観察されなかった変異体に発生の事前確率ゼロが割り当てられないようにして用いることができる。補正係数はラプラス補正であることができる。確率を判定する方法は、例えば、Cleary et al.,Joint Variation and De Novo Mutation Identification on Pedigrees from High−Throughput Sequencing Data,Journal of Computational Biology vol.21,pp.405−419(2014)に記載されているようなものであることができ、その全体を参照により本明細書に援用する。
IV.計算方法
[0096]変異体が腫瘍または生殖細胞系列DNAに由来する確率を判定する例示的な方法は、ベイズネットワークを利用するものである(例えば、その全体を参照により本明細書に援用する、Koller&Friedman,Probabilistic Graphical Modelsを参照のこと)。図8は、例示的なベイズネットワークの図を示している。ネットワーク図において、「C」は推論される変異体コールを表し、「R」は遺伝子座にわたる一連の整列されたリードのベースコールを表し、「P」は遺伝子座における倍数関係であり、「U」はサンプルの細胞充実性を表す。変異体が各サンプル中の腫瘍または生殖細胞系列DNA分子に由来する確率を推論するために、次の条件付き確率分布(CPD)に適切な値を供給することができる。(a)P(R|C)、特定の変異体コールを前提とした一連のリードの確率、(b)P(C|C)、その遺伝子座における生殖細胞系列を前提とした原発腫瘍細胞の確率、および(c)P(Ccf|C)、原発腫瘍サンプル中のコールを前提としたcf−DNAにおける腫瘍コールの確率。
[0094] I. Correction factor
[0095] The probability that a putative variant is derived from a tumor or germline nucleic acid, such as DNA, is each mutation at a locus, at least in part, from empirical data of another subject's data or from past samples. It can be determined by determining the appearance frequency of the body. In some cases, the correction factor can be used in such a way that variants not previously observed are not assigned a prior probability of occurrence zero. The correction factor can be a Laplace correction. For a method of determining the probability, for example, Cleary et al. Joint Variation and De Novo Mutation Identification on Pedigrees from High-Throughput Sequencing Data, Journal of Computational Biology vol. 21, pp. No. 405-419 (2014), which is incorporated herein by reference in its entirety.
IV. Method of calculation
[0096] An exemplary method of determining the probability that a variant is derived from a tumor or germline DNA is to use a Bayesian network (eg, Koller & Friedman, which is incorporated herein by reference in its entirety). See Probabilistic Graphical Models). FIG. 8 shows a diagram of an exemplary Bayesian network. In the network diagram, “C” represents the inferred variant call, “R” represents the base call of a series of aligned reads across loci, “P” is a multiple relationship at the locus, “U” Represents the cellularity of the sample. The following conditional probability distribution (CPD) can be supplied with appropriate values to infer the probability that the variant is derived from a tumor or germline DNA molecule in each sample. (A) P (R | C), the probability of a series of reads given a specific variant call, (b) P (C t | C g ), the primary tumor given the germline at that locus Probability of cells, and (c) P (C cf | C t ), probability of tumor call in cf-DNA given call in primary tumor sample.

[0097]細胞充実性は、細胞充実性(例えば、0〜1の値の、シーケンシングリードががん細胞によるものである確率)を表すことができる、ベイズネットワークの変数「U」によって説明することができる。この値は解析の前に提供することができるが、場合によっては、事前推定値を提供することによって、データから推論することができる。細胞充実性について考察する際、腫瘍におけるリードを前提とした腫瘍中の細胞充実性画分の確率、および血漿の無細胞画分におけるリードを前提とした血漿中の細胞充実性画分の確率である、P(U|R)およびP(Uct|Rct)という、2つの新しいCDPを推定することができる。 [0097] Cellularity is described by the Bayesian network variable "U" which can represent cellularity (eg, the probability that a sequencing read is of a value 0 to 1 by cancer cells) be able to. This value can be provided prior to analysis, but in some cases it can be inferred from the data by providing a prior estimate. When considering cellular solidity, the probability of the cellular solid fraction in the tumor given a lead in the tumor and the probability of the cellular solid fraction in the plasma given a lead in the acellular fraction of the plasma Two new CDPs can be deduced: P (U t | R t ) and P (U ct | R ct ).

[0098]母集団のコーリング方法をこれらの方法と組み合わせて、例えば、Cleary et al.,Journal of Computational Biology,vol.21,pp.405−419 2014に記載されている方法を使用して、ただしがん組織を含む生殖細胞系列を同時にコーリングしている間に、他のサンプルからのデータのバンクを同時にコーリングすることによって、健康な組織における生殖細胞系列突然変異の検出を改善することができる。   [0098] Combining population calling methods with these methods is described, for example, in Cleary et al. , Journal of Computational Biology, vol. 21, pp. Using the method described in 405-419 2014 but healthy by simultaneously calling a bank of data from other samples while simultaneously calling a germline containing cancer tissue Detection of germline mutations in tissues can be improved.

[0099]CPD P(R|C)は、Cleary et al.,Journal of Computational Biology,vol.21,pp.405−419(2014)に記載されているようなものであり得る。上記(b)および(c)のCPDは、腫瘍タイプおよび優性突然変異のシグネチャーごとに調節することができる、体細胞突然変異率の経験値に基づいて判定することができる。P(C|C)の場合、また原発腫瘍と無細胞体液中で観察される腫瘍DNAとの単純な系統関係を想定することによって、メンデル型分離ではなく変異体の単純な遺伝を想定する、子孫におけるデノボ変異を検出するため、例えば、Cleary et al.,Journal of Computational Biology,vol.21,pp.405−419(2014)に記載されているものと同様の計算を使用して、CPDを判定することができる。 [0099] CPD P (R | C) is described by Cleary et al. , Journal of Computational Biology, vol. 21, pp. No. 405-419 (2014). The CPD in (b) and (c) above can be determined based on empirical values of somatic mutation rates that can be adjusted for each tumor type and signature of the dominant mutation. In the case of P ( Ct | Cg ), and by assuming simple phylogenetic relationships between the primary tumor and the tumor DNA observed in cell-free fluid, we assume simple inheritance of the variants rather than Mendelian segregation. To detect de novo mutations in offspring, see, eg, Cleary et al. , Journal of Computational Biology, vol. 21, pp. Calculations similar to those described in 405-419 (2014) can be used to determine CPD.

[00100]一例では、原発腫瘍組織または無細胞DNAのみが解析に利用可能である。かかる事例では、事前情報を使用して、P(C|Ctp)(Ctpは、がん患者の事前観察に基づいた、その遺伝子座において特定の体細胞突然変異対立遺伝子を観察する事前確率)、およびP(G|G)(Gは、Gを前提とした腫瘍中に存在する生殖細胞系列変異体の遺伝子型)などのCPDを推定することができ、この遺伝子座において特定の遺伝子型を観察する確率は、母集団規模の変異調査(1000人ゲノムプロジェクトなど)に由来する。次に、これらの確率を、出力において解析される各変異体に対するスコアとして提供し、必要に応じて、機械学習方法を使用して経験的検証に基づいて再校正し、その後、下流での注釈または臨床報告など、所与の適用例に対する適切な偽陽性および/または偽陰性率を判定することができる。
V.コンピューティングシステム
[00101]本明細書で提供する方法、コンピュータシステムまたはコンピュータ可読媒体は、プロセッサを備えるかまたは利用することができる。プロセッサは、1つ以上のハードウェア制御処理装置(CPU)プロセッサを含むことができる。プロセッサは、デスクトップコンピュータプロセッサ、サーバプロセッサ、およびモバイルプロセッサであることができる。プロセッサはマイクロプロセッサを含むことができる。
[00100] In one example, only primary tumor tissue or cell free DNA is available for analysis. In such cases, using prior information, P (C t | C tp ) (C tp is based on prior observation of a cancer patient) prior to observing a particular somatic mutation allele at that locus Probability), and CPD such as P (G t | G p ) (G t is the genotype of a germline variant present in the tumor given G p ), and this locus The probability of observing a particular genotype at is derived from a population-wide mutation survey (such as the 1000-man genome project). These probabilities are then provided as a score for each variant analyzed in the output, recalibrated based on empirical verification using machine learning methods if necessary, and then annotated downstream Alternatively, appropriate false positive and / or false negative rates can be determined for a given application, such as a clinical report.
V. Computing system
[00101] The methods, computer systems or computer readable media provided herein may comprise or utilize a processor. The processor can include one or more hardware control processing unit (CPU) processors. The processor can be a desktop computer processor, a server processor, and a mobile processor. The processor can include a microprocessor.

[00102]メモリモジュールを、本明細書で提供する方法、コンピュータシステム、またはコンピュータ可読媒体において、もしくはそれらとともに使用することができる。メモリモジュールは、一時的もしくは恒久的にデータまたはプログラムを格納するために使用される、1つ以上の物理的装置であることができる。メモリモジュールは、揮発性メモリであることができ、格納された情報を維持する電力を要する場合がある。場合によっては、メモリモジュールは不揮発性メモリであり、コンピューティングシステムが通電されていないときに、格納された情報を保持する。さらなる実施形態では、不揮発性メモリはフラッシュメモリを含む。いくつかの実施形態では、不揮発性メモリはダイナミックランダムアクセスメモリ(DRAM)を含む。いくつかの実施形態では、不揮発性メモリは強誘電体メモリ(FRAM)を含む。いくつかの実施形態では、不揮発性メモリは相変化メモリ(PRAM)を含む。   [00102] A memory module can be used in or with a method, computer system, or computer readable medium provided herein. A memory module can be one or more physical devices used to temporarily or permanently store data or programs. The memory module can be volatile memory and may require power to maintain the stored information. In some cases, the memory module is non-volatile memory and holds stored information when the computing system is not energized. In a further embodiment, the non-volatile memory comprises flash memory. In some embodiments, non-volatile memory includes dynamic random access memory (DRAM). In some embodiments, non-volatile memory includes ferroelectric memory (FRAM). In some embodiments, non-volatile memory includes phase change memory (PRAM).

[00103]本明細書で提供する方法、コンピュータシステム、またはコンピュータ可読媒体は、オペレーティングシステムを備えるかまたは利用することができる。オペレーティングシステムは、例えば、デバイスのハードウェアを管理し、アプリケーションを実行するためのサービスを提供することができる、プログラムおよびデータを含むソフトウェアであることができる。当業者であれば、適切なサーバオペレーティングシステムとしては、非限定例として、FreeBSD、OpenBSD、NetBSD(登録商標)、Linux、Apple(登録商標)Mac OS X Server(登録商標)、Oracle(登録商標)、Solaris(登録商標)、Windows Server(登録商標)、およびNovell(登録商標)NetWare(登録商標)が挙げられることを認識するであろう。当業者であれば、適切なパーソナルコンピュータオペレーティングシステムとしては、非限定例として、Microsoft(登録商標)Windows、Apple(登録商標)Mac OS X(登録商標)、UNIX(登録商標)、およびGNU/Linux(登録商標)などのUNIXと類似のオペレーティングシステムが挙げられることを認識するであろう。いくつかの実施形態では、オペレーティングシステムはクラウドコンピューティングによって提供される。当業者であれば、また、適切なモバイルスマートフォンオペレーティングシステムとしては、非限定例として、Nokia(登録商標)Symbian(登録商標)OS、Apple(登録商標)iOS(登録商標)、Research In Motion(登録商標)BlackBerry OS(登録商標)、Google(登録商標)Android(登録商標)、Microsoft(登録商標)Windows Phone(登録商標)OS、Microsoft(登録商標)Windows Mobile(登録商標)OS、Linux(登録商標)、およびPalm(登録商標)WebOS(登録商標)が挙げられることを認識するであろう。   [00103] The methods, computer systems, or computer readable media provided herein may comprise or utilize an operating system. The operating system can be, for example, software that includes programs and data that can manage the hardware of the device and provide services for executing applications. Those skilled in the art will appreciate, as non-limiting examples, suitable server operating systems such as FreeBSD, OpenBSD, NetBSD®, Linux, Apple® Mac OS X Server®, Oracle®. It will be appreciated that the following may be mentioned: Solaris, Windows Server, and Novell® NetWare. Those skilled in the art will appreciate, as non-limiting examples, suitable personal computer operating systems such as Microsoft® Windows, Apple® Mac OS X®, UNIX®, and GNU / Linux. It will be appreciated that operating systems similar to UNIX such as (registered trademark) may be mentioned. In some embodiments, the operating system is provided by cloud computing. Those skilled in the art will also appreciate, as non-limiting examples of suitable mobile smartphone operating systems, Nokia® Symbian® OS, Apple® iOS®, Research In Motion® Trademarks BlackBerry OS (registered trademark), Google (registered trademark) Android (registered trademark), Microsoft (registered trademark) Windows Phone (registered trademark) OS, Microsoft (registered trademark) Windows Mobile (registered trademark) OS, Linux (registered trademark) It will be appreciated that there may be mentioned Palm), and Palm (R) WebOS (R).

[00104]機械可読命令は、指定のタスクを実施するように記述された、デジタル処理装置のCPUで実行可能な命令のシーケンスを含むことができる。本明細書で提供する開示を鑑みて、当業者であれば、コンピュータプログラムを様々な言語の様々なバージョンで記述できることを認識するであろう。いくつかの実施形態では、機械可読命令は命令の1つのシーケンスを含む。いくつかの実施形態では、機械可読命令は命令の複数のシーケンスを含む。いくつかの実施形態では、機械可読命令は1つのロケーションから提供される。他の実施形態では、機械可読命令は複数のロケーションから提供される。様々な実施形態では、機械可読命令は1つ以上のソフトウェアモジュールを含む。様々な実施形態では、機械可読命令は、部分的にまたは全体的に、1つ以上のウェブアプリケーション、1つ以上のモバイルアプリケーション、1つ以上の独立型アプリケーション、1つ以上のウェブブラウザプラグイン、エクステンション、アドイン、アドオン、またはそれらの組み合わせを含む。   [00104] Machine readable instructions may include a sequence of CPU executable instructions of a digital processing device written to perform a specified task. In view of the disclosure provided herein, one of ordinary skill in the art will recognize that computer programs can be written in different versions of different languages. In some embodiments, machine readable instructions include one sequence of instructions. In some embodiments, machine readable instructions include multiple sequences of instructions. In some embodiments, machine readable instructions are provided from one location. In another embodiment, machine readable instructions are provided from multiple locations. In various embodiments, machine readable instructions include one or more software modules. In various embodiments, the machine-readable instructions comprise, in part or in whole, one or more web applications, one or more mobile applications, one or more stand-alone applications, one or more web browser plug-ins, Includes extensions, add-ins, add-ons, or a combination of these.

[00105]コンピュータ可読記憶媒体はメモリモジュールを含むことができる。コンピュータ可読記憶媒体は、デジタル処理装置の有形コンポーネントであることができる。さらに他の実施形態では、コンピュータ可読記憶媒体は、任意に、デジタル処理装置から取外し可能である。いくつかの実施形態では、コンピュータ可読記憶媒体としては、非限定例として、CD−ROM、DVD、フラッシュメモリデバイス、固体メモリ、磁気ディスクドライブ、磁気テープドライブ、光学ディスクドライブ、クラウドコンピューティングシステムおよびサービスなどが挙げられる。場合によっては、プログラムおよび命令は、恒久的に、実質的に恒久的に、半恒久的に、または非一時的に媒体上でコード化される。   [00105] A computer readable storage medium can include a memory module. A computer readable storage medium can be a tangible component of a digital processing device. In still other embodiments, the computer readable storage medium is optionally removable from the digital processing device. In some embodiments, computer readable storage media include, by way of non-limiting example, CD-ROM, DVD, flash memory device, solid state memory, magnetic disk drive, magnetic tape drive, optical disk drive, cloud computing systems and services Etc. In some cases, the programs and instructions are permanently, substantially permanently, semi-permanently or non-temporarily encoded on the medium.

[00106]本開示は、本開示の方法を実現するようにプログラミングされたコンピュータ制御システムを提供する。図9は、開示のシーケンス解析を実施するようにプログラミングされるかまたは別の形で構成された、コンピュータシステム901を示している。コンピュータシステム901は、ユーザの電子デバイス、または電子デバイスに対して遠隔に配置されたコンピュータシステムであることができる。電子デバイスはモバイル電子デバイスであることができる。   [00106] The present disclosure provides a computer control system programmed to implement the methods of the present disclosure. FIG. 9 shows a computer system 901 programmed or otherwise configured to perform the disclosed sequence analysis. Computer system 901 can be a user electronic device or a computer system remotely located with respect to the electronic device. The electronic device can be a mobile electronic device.

[00107]コンピュータシステム901は、シングルコアもしくはマルチコアプロセッサであることができる、中央処理装置(CPU、ならびに本明細書では「プロセッサ」および「コンピュータプロセッサ」)905、または並列処理向けの複数のプロセッサを含むことができる。コンピュータシステム901はまた、メモリまたはメモリロケーション910(例えば、ランダムアクセスメモリ、読出し専用メモリ、フラッシュメモリ)、電子記憶装置915(例えば、ハードディスク)、1つ以上の他のシステムと通信する通信インターフェース920(例えば、ネットワークアダプタ)、ならびにキャッシュ、他のメモリ、データ記憶装置、および/または電子ディスプレイアダプタなど、周辺デバイス925を含むことができる。メモリ910、記憶装置915、インターフェース920、および周辺デバイス925は、マザーボードなどの通信バス(実線)を通してCPU 905と連通している。記憶装置915は、データを格納するデータ記憶装置(またはデータレポジトリ)であることができる。コンピュータシステム901は、通信インターフェース920を利用して、コンピュータネットワーク(「ネットワーク」)930に動作可能に連結することができる。ネットワーク930は、インターネット、インターネットおよび/またはエクストラネット、あるいはインターネットと連通しているイントラネットおよび/またはエクストラネットであることができる。ネットワーク930は、場合によっては、遠隔通信および/またはデータネットワークである。ネットワーク930は、クラウドコンピューティングなどの分散コンピューティングを可能にすることができる、1つ以上のコンピュータサーバを含むことができる。ネットワーク930は、場合によっては、コンピュータシステム901を利用して、コンピュータシステム901に連結されたデバイスがクライアントまたはサーバとして挙動するのを可能にすることができる、ピアツーピアネットワークを実現することができる。   [00107] Computer system 901 may be a central processing unit (CPU, and as used herein "processor" and "computer processor") 905, which can be a single core or multi-core processor, or multiple processors for parallel processing. Can be included. Computer system 901 may also include a memory or memory location 910 (e.g., random access memory, read only memory, flash memory), electronic storage 915 (e.g., a hard disk), communication interface 920 (for communicating with one or more other systems). For example, peripheral devices 925 may be included such as network adapters), as well as cache, other memory, data storage, and / or electronic display adapters. The memory 910, the storage device 915, the interface 920, and the peripheral device 925 communicate with the CPU 905 through a communication bus (solid line) such as a motherboard. Storage 915 may be a data storage (or data repository) that stores data. Computer system 901 can be operatively coupled to a computer network (“network”) 930 using a communication interface 920. The network 930 can be the Internet, the Internet and / or an extranet, or an intranet and / or an extranet in communication with the Internet. Network 930 is, in some cases, a telecommunications and / or data network. Network 930 can include one or more computer servers that can enable distributed computing, such as cloud computing. Network 930 can implement a peer-to-peer network, which can, in some cases, utilize computer system 901 to enable devices coupled to computer system 901 to act as clients or servers.

[00108]CPU 905は、プログラムまたはソフトウェアに埋め込むことができる、機械可読命令のシーケンスを実行することができる。命令は、メモリ910などのメモリロケーションに格納することができる。命令はCPU 905へと方向付けることができ、続いてCPU 905をプログラミングするかまたは別の方法で構成して、本開示の方法を実現することができる。CPU 905によって実施される動作の例としては、フェッチ、デコード、実行、および書込みを含むことができる。   [00108] The CPU 905 can execute a sequence of machine readable instructions that can be embedded in a program or software. The instructions may be stored in a memory location, such as memory 910. The instructions can be directed to CPU 905, which can then be programmed or otherwise configured to implement the disclosed method. Examples of operations performed by CPU 905 can include fetch, decode, execute, and write.

[00109]CPU 905は、集積回路などの回路の一部であることができる。システム101の1つ以上の他の構成要素を回路に含めることができる。場合によっては、回路は特定用途向け集積回路(ASIC)である。   [00109] The CPU 905 can be part of a circuit such as an integrated circuit. One or more other components of system 101 can be included in the circuit. In some cases, the circuit is an application specific integrated circuit (ASIC).

[00110]記憶装置915は、ドライバ、ライブラリ、および格納プログラムなどのファイルを格納することができる。記憶装置915は、ユーザデータ、例えばユーザ選択およびユーザプログラムを格納することができる。コンピュータシステム901は、場合によっては、イントラネットまたはインターネットを通してコンピュータシステム901と連通している遠隔サーバ上に位置するなど、コンピュータシステム901の外部にある、1つ以上の追加のデータ記憶装置を含むことができる。   [00110] The storage device 915 can store files such as drivers, libraries, and storage programs. Storage 915 may store user data, such as user selections and user programs. Computer system 901 may optionally include one or more additional data storage devices external to computer system 901, such as located on a remote server in communication with computer system 901 through an intranet or the Internet. it can.

[00111]コンピュータシステム901は、ネットワーク930を通して1つ以上の遠隔コンピュータシステムと通信することができる。例えば、コンピュータシステム901は、ユーザの遠隔コンピュータシステムと通信することができる。遠隔コンピュータシステムの例としては、パーソナルコンピュータ(例えば、ポータブルPC)、スレートもしくはタブレットPC(例えば、Apple(登録商標)iPad、Samsung(登録商標)Galaxy Tab)、電話、スマートフォン(例えば、Apple(登録商標)iPhone、Android対応デバイス、Blackberry(登録商標))、または携帯情報端末が挙げられる。ユーザは、ネットワーク930を介してコンピュータシステム901にアクセスすることができる。   Computer system 901 can communicate with one or more remote computer systems through network 930. For example, computer system 901 can communicate with a user's remote computer system. Examples of remote computer systems include personal computers (e.g. portable PCs), slate or tablet PCs (e.g. Apple.RTM. IPad, Samsung.RTM. Galaxy Tab), phones, smart phones (e.g. Apple.RTM.) ) IPhone, Android compatible device, Blackberry (registered trademark), or a portable information terminal. A user can access computer system 901 via network 930.

[00112]本明細書に記載するような方法は、コンピュータシステム901の電子記憶装置のロケーションに、例えばメモリ910または電子記憶装置915に格納された、機械(例えば、コンピュータプロセッサ)実行可能コードを利用して実現することができる。機械実行可能または機械可読コードは、ソフトウェアの形態で提供することができる。使用中、コードはプロセッサ905によって実行することができる。場合によっては、コードは、記憶装置915から検索し、プロセッサ905がすぐに利用できるようにメモリ910に格納することができる。状況によっては、電子記憶装置915を除外することができ、機械実行可能命令はメモリ910に格納される。   [00112] A method as described herein utilizes machine (eg, computer processor) executable code stored in a location of electronic storage of computer system 901, eg, in memory 910 or electronic storage 915. Can be realized. Machine executable or machine readable code may be provided in the form of software. During use, the code may be executed by processor 905. In some cases, the code may be retrieved from storage 915 and stored in memory 910 for immediate use by processor 905. In some circumstances, electronic storage 915 may be excluded, and machine executable instructions may be stored in memory 910.

[00113]コードは、コードを実行するように適合されたプロセッサを有する機械とともに使用するため、事前コンパイルし構成することができ、または実行時間中にコンパイルすることができる。コードは、事前コンパイルされるかコンパイル済みの形式でコードを実行できるように選択することができる、プログラミング言語で供給することができる。   [00113] The code can be precompiled and configured, or compiled at runtime, for use with a machine having a processor adapted to execute the code. The code can be supplied in a programming language, which can be selected to run the code in precompiled or compiled form.

[00114]コンピュータシステム901など、本明細書で提供されるシステムおよび方法の態様は、プログラミングにおいて実現することができる。技術の様々な態様は、一般的には、機械(もしくはプロセッサ)実行可能コード、および/または一種の機械可読媒体において保持されるかもしくは実現される関連データの形態の、「製品」または「製造物品」として考えることができる。機械実行可能コードは、メモリ(例えば、読出し専用メモリ、ランダムアクセスメモリ、フラッシュメモリ)またはハードディスクなどの、電子記憶装置に格納することができる。「記憶装置」タイプの媒体は、ソフトウェアプログラミングの任意の時点で非一時的な記憶を提供することができる、コンピュータ、プロセッサなど、またはそれらの関連モジュール(様々な半導体メモリ、テープドライブ、ディスクドライブなど)のありとあらゆる有形メモリを含むことができる。ソフトウェアの全てまたは部分は、場合によって、インターネットまたは他の様々な遠隔通信ネットワークを通して通信することができる。かかる通信は、例えば、ソフトウェアを、あるコンピュータまたはプロセッサから別のものに、例えば管理サーバまたはホストコンピュータからアプリケーションサーバのコンピュータプラットフォームにロードするのを可能にすることができる。したがって、ソフトウェア要素を有することができる別のタイプの媒体としては、有線および光学陸線を通して、また様々な空中リンクを通して、ローカルデバイス間の物理的インターフェースにわたって使用されるような、光波、電波、および電磁波が挙げられる。有線または無線リンク、光学リンクなど、かかる波を運ぶ物理的要素も、ソフトウェアを有する媒体と見なすことができる。本明細書で使用するとき、非一時的な有形「記憶」媒体に制限されない限り、プロセッサまたは機械「可読媒体」などの用語は、実行のために命令をプロセッサに提供するのに関与する、あらゆる媒体を指す。   [00114] Aspects of the systems and methods provided herein, such as computer system 901, can be implemented in programming. Various aspects of the technology generally "produce" or "produce" in the form of machine (or processor) executable code and / or related data carried or embodied in a type of machine-readable medium. It can be considered as an article. The machine executable code may be stored on an electronic storage device, such as a memory (eg, read only memory, random access memory, flash memory) or a hard disk. A "storage device" type medium can provide non-transitory storage at any time of software programming, computer, processor etc., or their related modules (various semiconductor memories, tape drives, disk drives etc. Can include any and all tangible memory). All or part of the software may optionally communicate through the Internet or various other telecommunication networks. Such communication may allow, for example, loading software from one computer or processor to another, for example, from a management server or host computer, to the computer platform of the application server. Thus, other types of media that can have software elements include light waves, radio waves, and so on, through wired and optical landlines, through various airlinks, and across physical interfaces between local devices. An electromagnetic wave is mentioned. The physical elements that carry such waves, such as wired or wireless links, optical links, etc. can also be considered as media with software. As used herein, unless limited to non-transitory tangible "storage" media, any terms such as processor or machine "readable media" are involved in providing instructions to processor for execution. Refers to the medium.

[00115]したがって、コンピュータ実行可能コードなどの機械可読媒体は、有形記憶媒体、搬送波媒体、または物理的伝送媒体を含むがそれらに限定されない、多くの形態をとることができる。不揮発性記憶媒体としては、例えば、図に示されるデータベースなどを実現するために使用することができるものなど、任意のコンピュータなどにおける記憶装置のいずれかなど、光学または磁気ディスクが挙げられる。揮発性記憶媒体としては、かかるコンピュータプラットフォームの主メモリなどのダイナミックメモリが挙げられる。有形伝送媒体としては、コンピュータシステム内のバスを含むワイヤなど、同軸ケーブル、銅線、および光ファイバーが挙げられる。搬送波伝送媒体は、高周波(RF)および赤外線(IR)データ通信中に生成されるものなど、電気信号もしくは電磁信号、または音波もしくは光波の形態をとることができる。したがって、コンピュータ可読媒体の共通の形態としては、例えば、フロッピーディスク、フレキシブルディスク、ハードディスク、磁気テープ、他の任意の磁気媒体、CD−ROM、DVDもしくはDVD−ROM、他の任意の光学媒体、パンチカード、紙テープ、穴のパターンを有する他の任意の物理的記憶媒体、RAM、ROM、PROMおよびEPROM、FLASH+EPROM、他の任意のメモリチップもしくはカートリッジ、データもしくは命令を搬送する搬送波、かかる搬送波を搬送するケーブルもしくはリンク、またはコンピュータがプログラミングコードおよび/またはデータを読み取ることができる他の任意の媒体が挙げられる。コンピュータ可読媒体のこれらの形態の多くは、1つ以上の命令の1つ以上のシーケンスを、実行のためにプロセッサに運ぶのに関与することができる。   Thus, a machine-readable medium, such as computer executable code, can take many forms, including but not limited to tangible storage media, carrier media, or physical transmission media. Non-volatile storage media include, for example, optical or magnetic disks, such as any of the storage devices in any computer, such as those that can be used to implement the databases shown in the figures. Volatile storage media include dynamic memory such as the main memory of such a computer platform. Tangible transmission media include coaxial cables, copper wire and fiber optics, including the wires that comprise a bus within a computer system. Carrier wave transmission media can take the form of electrical or electromagnetic signals, or acoustic or light waves, such as those generated during radio frequency (RF) and infrared (IR) data communications. Thus, common forms of computer readable media are, for example, floppy disks, flexible disks, hard disks, magnetic tapes, any other magnetic media, CD-ROM, DVD or DVD-ROM, any other optical media, punches Card, paper tape, any other physical storage medium with hole pattern, RAM, ROM, PROM and EPROM, FLASH + EPROM, any other memory chip or cartridge, carrier wave carrying data or instructions, carrier wave A cable or link or any other medium from which the computer can read the programming code and / or data may be mentioned. Many of these forms of computer readable media may be involved in carrying one or more sequences of one or more instructions to a processor for execution.

[00116]コンピュータシステム901は、例えば解析結果を提供する、ユーザインターフェース(UI)940を備える電子ディスプレイ935を含むか、またはそれと連通していることができる。UIの例としては、非限定的に、グラフィカルユーザインターフェース(GUI)およびウェブベースのユーザインターフェースが挙げられる。   [00116] Computer system 901 may include or be in communication with an electronic display 935 comprising a user interface (UI) 940, for example, to provide analysis results. Examples of UIs include, but are not limited to, graphical user interfaces (GUIs) and web-based user interfaces.

[00117]本開示の方法およびシステムは、1つ以上のアルゴリズムを用いて実現することができる。アルゴリズムは、中央処理装置905によって実行する際にソフトウェアを用いて実現することができる。アルゴリズムとしては、例えば、ベイズネットワークまたは統計的解析を挙げることができる。
VI.シーケンシングおよび高スループットシーケンシング機器
[00118]本明細書で提供する方法、コンピュータシステム、キット、もしくはコンピュータ可読媒体で使用される、またはそれらとともに使用される高スループットシーケンシング機器は、次世代シーケンシング(NGS)プラットフォーム(大規模並列シーケンシング用のプラットフォーム)であることができる。シーケンシングは、ポリヌクレオチドのうち少なくとも10の連続するヌクレオチドの同一性(例えば、少なくとも20、少なくとも50、少なくとも100、少なくとも200、少なくとも500、またはそれ以上の連続するヌクレオチドの同一性)を得るのに用いられる、方法を指すことができる。NGS技術は、(例えば、Volkerding et al.,Clin Chem 55:641−658[2009];Metzker M Nature Rev 11:31−46[2010]に記載されているような)大規模並列方式での、クローン的に増幅したDNAテンプレートまたは単一のDNA分子のシーケンシングを伴う場合がある。高スループットシーケンス情報に加えて、NGSは、各シーケンスリードが個々のクローンDNAテンプレートまたは単一のDNA分子を表す計数可能な「シーケンスタグ」であるという点で、デジタル定量的情報を提供することができる。シーケンシングは、標的シーケンシング、エクソームシーケンシング、または全ゲノムシーケンシングであることができる。場合によっては、液状生検からの無細胞DNAのシーケンシングが行われる。場合によっては、液状生検からの循環腫瘍細胞(CTC)から得た核酸のシーケンシングが行われる。場合によっては、単一の正常な細胞および/または腫瘍細胞から得た核酸のシーケンシングが行われる。
[00117] The disclosed methods and systems can be implemented using one or more algorithms. The algorithm may be implemented using software as executed by central processing unit 905. The algorithm can include, for example, a Bayesian network or statistical analysis.
VI. Sequencing and High Throughput Sequencing Equipment
[00118] The high throughput sequencing equipment used in, or used with, the methods, computer systems, kits, or computer readable media provided herein is a next generation sequencing (NGS) platform (massively parallel) Can be a platform for sequencing). Sequencing is performed to obtain the identity of at least 10 consecutive nucleotides of the polynucleotide (eg, identity of at least 20, at least 50, at least 100, at least 200, at least 500, or more contiguous nucleotides). It can refer to the method used. NGS technology can be used in large scale parallel fashion (eg, as described in Volkerding et al., Clin Chem 55: 641-658 [2009]; Metzker M Nature Rev 11: 31-46 [2010]). It may involve sequencing clonally amplified DNA templates or single DNA molecules. In addition to high-throughput sequencing information, NGS provides digital quantitative information in that each sequencing read is a countable "sequence tag" that represents an individual cloned DNA template or a single DNA molecule. it can. Sequencing can be target sequencing, exome sequencing, or whole genome sequencing. In some cases, sequencing of cell-free DNA from liquid biopsies is performed. In some cases, sequencing of nucleic acids obtained from circulating tumor cells (CTCs) from liquid biopsies is performed. In some cases, sequencing of nucleic acids obtained from a single normal cell and / or tumor cell is performed.

[00119]自動化サンガー方法が「第1世代」の技術と見なされているが、自動化サンガーシーケンシングを含むサンガーシーケンシングも、本明細書で提供する方法によって用いることができる。開発中の核酸画像化技術、例えば原子間力顕微鏡法(AFM)または透過型電子顕微鏡法(TEM)を使用することを含む、さらなるシーケンシング方法を本明細書に記載の方法で使用することができる。   [00119] While the automated Sanger method is considered a "first generation" technology, Sanger sequencing, including automated Sanger sequencing, can also be used by the methods provided herein. Using further sequencing methods in the methods described herein, including using nucleic acid imaging techniques under development such as atomic force microscopy (AFM) or transmission electron microscopy (TEM) it can.

[00120]本明細書で提供する方法、コンピュータシステム、もしくはコンピュータ可読媒体で、またはそれらとともに使用される高スループットシーケンシングプラットフォーム(次世代シーケンシングプラットフォーム)は、市販のプラットフォームであることができる。市販のプラットフォームとしては、例えば、合成によるシーケンシング(sequencing-by-synthesis)、イオン半導体シーケンシング、パイロシーケンシング、リバーシブルダイターミネータ(reversible dye terminator)シーケンシング、連結反応によるシーケンシング、単分子シーケンシング、ハイブリダイゼーションによるシーケンシング、およびナノポアシーケンシングが挙げられる。合成によるシーケンシングのプラットフォームは、例えば、Illumina、454 Life Sciences、Helicos Biosciences、およびQiagenから入手可能である。Illuminaプラットフォームとしては、例えば、IlluminaのSolexaプラットフォーム、IlluminaのGenome Analyzerなどを挙げることができ、例えば、Gudmundsson et al(Nat.Genet.2009 41:1122−6)、Out et al(Hum.Mutat.2009 30:1703−12)、およびTurner(Nat.Methods 2009 6:315−6)、米国特許出願公開第US20080160580号およびUS20080286795号、米国特許第6,306,597号、第7,115,400号、および第7,232,656号に記載されている。454 Life Scienceプラットフォームとしては、例えばGS FlexおよびGS Juniorが挙げられ、米国特許第7,323,305号に記載されている。Helicos Biosciencesによるプラットフォームとしては、True Single Molecule Sequencingプラットフォームが挙げられる。イオン半導体シーケンシング用のプラットフォームとしては、例えば、Ion Torrent Personal Genome Machine(PGM)が挙げられ、例えば、米国特許第7,948,015号に記載されている。パイロシーケンシング用のプラットフォームとしては、GS Flex 454システムが挙げられ、例えば、米国特許第7,211,390号、第7,244,559号、第7,264,929号に記載されている。連結反応によるシーケンシング用のプラットフォームおよび方法としては、例えば、SOLiDシーケンシングプラットフォームが挙げられ、例えば、米国特許第5,750,341号に記載されている。単分子シーケンシング用のプラットフォームとしては、例えば、Pacific BioscienceからのSMRTシステムが挙げられる。   [00120] The high throughput sequencing platform (Next Generation Sequencing Platform) used in, or with, the methods, computer systems, or computer readable media provided herein can be a commercially available platform. Commercially available platforms include, for example, sequencing-by-synthesis, ion semiconductor sequencing, pyrosequencing, reversible dye terminator sequencing, ligation sequencing, single molecule sequencing , Sequencing by hybridization, and nanopore sequencing. Platforms for sequencing by synthesis are available, for example, from Illumina, 454 Life Sciences, Helicos Biosciences, and Qiagen. As the Illumina platform, for example, Solexa platform of Illumina, Genome Analyzer of Illumina etc. can be mentioned, for example, Gudmundsson et al (Nat. Genet. 2009 41: 122 6), Out et al (Hum. Mutat. 2009). 30: 1703-12), and Turner (Nat. Methods 2009 6: 315-6), U.S. Patent Application Publication Nos. US20080160580 and U.S. 20080280695, U.S. Patent Nos. 6,306,597, 7,115,400, And 7, 232, 656. 454 Life Science platforms include, for example, GS Flex and GS Junior, and are described in US Patent No. 7,323,305. Platforms by Helicos Biosciences include the True Single Molecule Sequencing platform. Platforms for ion semiconductor sequencing include, for example, the Ion Torrent Personal Genome Machine (PGM), which is described, for example, in US Pat. No. 7,948,015. Platforms for pyrosequencing include the GS Flex 454 system, as described, for example, in US Pat. Nos. 7,211,390, 7,244,559, and 7,264,929. Platforms and methods for sequencing by ligation include, for example, the SOLiD sequencing platform and are described, for example, in US Pat. No. 5,750,341. Platforms for single molecule sequencing include, for example, the SMRT system from Pacific Bioscience.

[00121]本明細書で提供する方法、コンピュータシステム、もしくはコンピュータ可読媒体で使用される、またはそれらとともに使用される高スループットシーケンシング機器は、半導体技術をシーケンシング化学と対にして、化学的にコード化された情報(A、C、G、T)を半導体チップ上のデジタル情報(0、1)に直接翻訳することができる、Ion Torrentシーケンシングプラットフォームであることができる。理論に束縛されることを望まないが、ヌクレオチドがポリメラーゼによってDNAのストランドに取り込まれると、水素イオンが副産物として放出される。Ion Torrentプラットフォームは、水素原子の放出をpHの変化として検出することができる。検出されたpHの変化は、ヌクレオチドの取込みを示すのに使用することができる。Ion Torrentプラットフォームは、この生化学的プロセスを超並列的方法で実施するため、微細加工ウェルの高密度アレイを含むことができる。各ウェルは、クローン的に増幅したものであり得る、異なるライブラリ要素を保持することができる。ウェルの下方にはイオン感受性層が、その下方にはイオンセンサがあることができる。プラットフォームは、1つのヌクレオチドから次のヌクレオチドへと、アレイを連続的にあふれさせることができる。ヌクレオチド、例えばCをDNAテンプレートに添加し、次にDNAのストランドに取り込むと、水素イオンを放出することができる。そのイオンからの電荷が溶液のpHを変化させることができ、それをIon Torrentのイオンセンサによって特定することができる。ヌクレオチドが取り込まれない場合、電圧変化は記録されず、塩基はコールされない。2つの同一の塩基がDNAストランド上に存在する場合、電圧は二倍であることができ、チップは2つの同一の塩基がコールされたことを記録することができる。直接特定することによって、ヌクレオチドの取込みを数秒で記録することが可能になる。Ion Torrentプラットフォーム用にライブラリを準備することには、DNA断片の両端に2つの離散的なアダプタを(例えば、連結反応によって)添加することが関与し得る。   [00121] The high throughput sequencing equipment used in, or used with, the methods, computer systems, or computer readable media provided herein are chemically coupled semiconductor technology with sequencing chemistry. It can be the Ion Torrent sequencing platform, which can translate translated information (A, C, G, T) directly into digital information (0, 1) on a semiconductor chip. While not wishing to be bound by theory, hydrogen ions are released as byproducts when nucleotides are incorporated into strands of DNA by a polymerase. The Ion Torrent platform can detect the release of hydrogen atoms as a change in pH. Changes in pH detected can be used to indicate incorporation of nucleotides. The Ion Torrent platform can include a high density array of microfabricated wells to perform this biochemical process in a massively parallel manner. Each well can hold different library elements, which may be clonally amplified. Below the well there may be an ion sensitive layer and below which there may be an ion sensor. The platform can continuously flood the array from one nucleotide to the next. Nucleotides, such as C, can be added to a DNA template and then incorporated into strands of DNA to release hydrogen ions. The charge from the ion can change the pH of the solution, which can be identified by the Ion Torrent ion sensor. If no nucleotide is incorporated, no voltage change is recorded and the base is not called. If two identical bases are present on the DNA strand, the voltage can be doubled and the chip can record that two identical bases have been called. Direct identification allows the incorporation of nucleotides to be recorded in a few seconds. Preparing a library for the Ion Torrent platform may involve the addition (eg, by ligation) of two discrete adapters at both ends of the DNA fragment.

[00122]本明細書で提供する方法、コンピュータシステム、もしくはコンピュータ可読媒体で使用される、またはそれらとともに使用される高スループットシーケンシング機器は、フローセル上のライブラリ要素のクラスタ増幅、および合成によるシーケンシング手法を用いることができる、Illuminaシーケンシングプラットフォームであることができる。クラスタ増幅されたライブラリ要素に、ポリメラーゼを対象とした一塩基伸長の繰返しサイクルを行うことができる。一塩基伸長には、各dNTPが異なる除去可能な蛍光体で標識された、可逆的ターミネータdNTPの取込みが関与し得る。「標識」および「検出可能部分」という用語は、検出可能な信号を提供するために使用することができ、また核酸またはタンパク質に付着させることができる任意の原子または分子を指すのに、本明細書では互換可能に使用することができる。標識は、蛍光、放射能、比色法、重力測定、X線回折または吸収、磁気、酵素活性などによって検出可能な信号を提供することができる。   [00122] The high throughput sequencing equipment used in, or used with, the methods, computer systems, or computer readable media provided herein comprises cluster amplification of library elements on a flow cell and sequencing by synthesis. It can be an Illumina sequencing platform, which can use an approach. Cluster amplified library elements can be subjected to repeated cycles of single base extension directed to the polymerase. Single base extension may involve the incorporation of reversible terminator dNTPs, each dNTP being labeled with a different removable fluorophore. The terms "label" and "detectable moiety" are used herein to refer to any atom or molecule that can be used to provide a detectable signal, and can be attached to a nucleic acid or protein. Can be used interchangeably. The label can provide a detectable signal by fluorescence, radioactivity, colorimetric, gravimetric, x-ray diffraction or absorption, magnetism, enzyme activity and the like.

[00123]可逆的ターミネータdNTPは、ポリメラーゼによるさらなる伸長を防ぐため、3’修飾することができる。取込み後、取り込まれたヌクレオチドを蛍光撮像によって特定することができる。蛍光撮像後、蛍光体を除去することができ、3’修飾を除去して3’ヒドロキシル基を得ることができ、それによって一塩基伸長の別のサイクルが可能になる。Illuminaプラットフォーム用にライブラリを準備することには、DNA断片の両端に2つの離散的なアダプタを(例えば、連結反応によって)添加することが関与し得る。   [00123] The reversible terminator dNTPs can be 3 'modified to prevent further extension by the polymerase. After incorporation, incorporated nucleotides can be identified by fluorescence imaging. After fluorescence imaging, the fluorophore can be removed and the 3 'modification can be removed to obtain a 3' hydroxyl group, thereby enabling another cycle of single base extension. Preparing a library for the Illumina platform may involve the addition (eg, by ligation) of two discrete adapters at both ends of the DNA fragment.

[00124]本明細書で提供する方法、コンピュータシステム、もしくはコンピュータ可読媒体で使用される、またはそれらとともに使用される高スループットシーケンシング機器は、合成によるシーケンシング技術を用いることができる、Helicos True Single Molecule Sequencing(tSMS)プラットフォームであることができる。tSMS技術では、ポリAアダプタをDNA断片の3’末端に連結することができる。適合された断片を、tSMSフローセル上で不動化されたポリTオリゴヌクレオチドに対してハイブリダイズすることができる。ライブラリ要素は、約100万テンプレート/cmの密度でフローセル上に不動化することができる。次に、フローセルを機器に、例えばHeliScope(商標)シーケンサに搭載することができ、レーザーがフローセルの表面を照射して、各テンプレートの位置を明らかにすることができる。CCDカメラは、フローセル表面上のテンプレートの位置をマッピングすることができる。ライブラリ要素に、ポリメラーゼを対象とした一塩基伸長の繰返しサイクルを行うことができる。シーケンシング反応は、DNAポリメラーゼおよび蛍光標識付きヌクレオチドを導入することによって始まる。ポリメラーゼは、テンプレートを対象とした形で標識付きヌクレオチドをプライマーに取り込むことができる。ポリメラーゼおよび取り込まれなかったヌクレオチドを除去することができる。蛍光標識付きヌクレオチドの取込みを対象としたテンプレートは、フローセル表面を撮像することによって識別することができる。撮像後、開裂ステップが蛍光標識を除去することができ、所望のリード長が達成されるまで、他の蛍光標識付きヌクレオチドを用いてプロセスを繰り返すことができる。各ヌクレオチド添加ステップを用いて、シーケンス情報を収集することができる。 [00124] The high throughput sequencing equipment used in, or used with, the methods, computer systems, or computer readable media provided herein can employ sequencing-by-synthesis technology, Helicos True Single It can be a Molecule Sequencing (tSMS) platform. In tSMS technology, poly A adapters can be ligated to the 3 'end of DNA fragments. The adapted fragments can be hybridized to the immobilized polyT oligonucleotide on a tSMS flow cell. Library elements can be immobilized on the flow cell at a density of about 1 million templates / cm 2 . The flow cell can then be loaded into the instrument, for example a HeliScopeTM sequencer, and a laser can illuminate the surface of the flow cell to reveal the position of each template. The CCD camera can map the position of the template on the flow cell surface. Library elements can be subjected to repeated cycles of single base extension directed to the polymerase. The sequencing reaction is initiated by the introduction of DNA polymerase and fluorescently labeled nucleotides. The polymerase can incorporate a labeled nucleotide into the primer in the form directed to the template. The polymerase and unincorporated nucleotides can be removed. Templates directed to incorporation of fluorescently labeled nucleotides can be identified by imaging the flow cell surface. After imaging, the cleavage step can remove the fluorescent label and the process can be repeated with other fluorescently labeled nucleotides until the desired read length is achieved. Each nucleotide addition step can be used to collect sequence information.

[00125]本明細書で提供する方法、コンピュータシステム、もしくはコンピュータ可読媒体で使用される、またはそれらとともに使用される高スループットシーケンシング機器は、(例えば、Margulies,M. et al.Nature 437:376−380[2005]に記載されているような)454シーケンシングプラットフォーム(Roche)であることができる。454シーケンシングは2つのステップを伴うことができる。第1のステップで、DNAをせん断して断片にすることができる。断片は平滑末端化することができる。オリゴヌクレオチドアダプタを断片の末端に連結することができる。アダプタは、断片の増幅およびシーケンシングのためのプライマーとしての役割を果たすことができる。少なくとも1つのアダプタは、捕獲試薬、例えばビオチンを含むことができる。断片は、DNA捕獲ビーズ、例えばストレプトアビジンでコーティングしたビーズに付着させることができる。ビーズに付着させた断片は、油・水エマルションの液滴内でPCR増幅させることができ、クローン増幅させたDNA断片の複数のコピーが各ビーズにもたらされる。第2のステップで、ピコリットルサイズにすることができるウェル内で、ビーズを捕獲することができる。パイロシーケンシングを、各DNA断片に対して並行して実施することができる。パイロシーケンシングは、ヌクレオチド取込みの際のピロリン酸塩(PPi)の放出を検出することができる。PPiは、アデノシン5’ホスホ硫酸の存在下で、ATPスルフリラーゼによってATPに変換することができる。ルシフェラーゼは、ATPを使用してルシフェリンをオキシルシフェリンに変換することによって、検出される光信号を生成することができる。検出された光信号を使用して、取り込まれたヌクレオチドを特定することができる。   [00125] The high throughput sequencing equipment used in, or used with, the methods, computer systems, or computer readable media provided herein (eg, Margulies, M. et al. Nature 437: 376). -454 sequencing platform (Roche) as described in -380 [2005]. 454 sequencing can involve two steps. In the first step, the DNA can be sheared into fragments. Fragments can be blunt ended. An oligonucleotide adapter can be ligated to the end of the fragment. The adapter can serve as a primer for fragment amplification and sequencing. The at least one adapter can include a capture reagent, such as biotin. The fragments can be attached to DNA capture beads, such as streptavidin coated beads. The fragments attached to the beads can be PCR amplified in droplets of an oil-water emulsion, and multiple copies of clonally amplified DNA fragments are provided for each bead. In the second step, the beads can be captured in wells that can be of picoliter size. Pyrosequencing can be performed in parallel for each DNA fragment. Pyrosequencing can detect the release of pyrophosphate (PPi) upon nucleotide incorporation. PPi can be converted to ATP by ATP sulphurylase in the presence of adenosine 5 'phosphosulphate. Luciferase can generate a light signal to be detected by converting luciferin to oxyluciferin using ATP. The detected light signal can be used to identify the incorporated nucleotide.

[00126]本明細書で提供する方法、コンピュータシステム、もしくはコンピュータ可読媒体で使用される、またはそれらとともに使用される高スループットシーケンシング機器は、SOLiD(商標)技術(Applied Biosystems)を利用することができる。SOLiDプラットフォームは、連結反応によるシーケンシング手法を利用することができる。SOLiDプラットフォームとともに使用するライブラリの準備は、アダプタを断片の5’および3’末端に連結して断片ライブラリを生成することを含むことができる。あるいは、アダプタを断片の5’および3’末端に連結し、断片を環状化させ、環状化断片を消化して内部アダプタを生成し、アダプタを結果として得られる断片の5’および3’末端に付着させてメイトペアライブラリを生成することによって、内部アダプタを導入することができる。次に、ビーズ、プライマー、テンプレート、およびPCR成分を含むクローンビーズ母集団を、マイクロリアクタ内で調製することができる。PCRに続いて、テンプレートを変性させることができる。ビーズを濃縮して、伸長テンプレートを有するビーズにすることができる。選択されたビーズ上のテンプレートに対して、ガラススライドに結合できるようにする3’修飾を行うことができる。シーケンスは、特定の蛍光体によって特定される中央決定塩基(または塩基対)を用いて、部分的に不規則なオリゴヌクレオチドのハイブリダイゼーションおよび連結を連続して行うことによって、判定することができる。色を記録した後、連結されたオリゴヌクレオチドを除去し、次にプロセスを繰り返すことができる。   [00126] The methods provided herein, high throughput sequencing equipment used in, or used with, a computer system or computer readable medium may utilize SOLiDTM technology (Applied Biosystems) it can. The SOLiD platform can utilize ligation-based sequencing techniques. Preparation of a library for use with the SOLiD platform can include linking an adapter to the 5 'and 3' ends of the fragments to generate a fragment library. Alternatively, the adapter is ligated to the 5 'and 3' ends of the fragment, the fragment is circularized, the circularized fragment is digested to generate an internal adapter, and the adapter is on the 5 'and 3' ends of the resulting fragment An internal adapter can be introduced by attaching and generating a mate pair library. Next, a clonal bead population comprising beads, primers, templates, and PCR components can be prepared in the microreactor. Following PCR, the template can be denatured. The beads can be concentrated into beads with an extension template. The template on selected beads can be subjected to a 3 'modification that allows it to be attached to a glass slide. The sequence can be determined by sequentially performing hybridization and ligation of partially disordered oligonucleotides using a central determined base (or base pair) specified by a specific fluorophore. After the color is recorded, the ligated oligonucleotides can be removed and the process can then be repeated.

[00127]本明細書で提供する方法、コンピュータシステム、もしくはコンピュータ可読媒体で使用される、またはそれらとともに使用される高スループットシーケンシング機器は、単分子リアルタイム(SMRT(商標)シーケンシングプラットフォーム(Pacific Biosciences)であることができる。SMRTシーケンシングでは、染料で標識したヌクレオチドの連続取込みをDNA合成中に撮像することができる。単一DNAポリメラーゼ分子を、リン酸で連結させたヌクレオチドが成長プライマーストランドに取り込まれている状態で、シーケンス情報を取得する個々のゼロモード波長識別子(ZMW識別子)の下面に付着させることができる。ZMWは、マイクロ秒単位でZMW内外に迅速に拡散する蛍光ヌクレオチドの背景に対するDNAポリメラーゼによって、単一のヌクレオチドの取込みを観察するのを可能にする閉込め構造を指すことができる。対照的に、ヌクレオチドの取込みはミリ秒単位で生じる場合がある。この間、蛍光標識を励起させて、検出することができる蛍光信号を生じることができる。蛍光信号の検出を使用してシーケンス情報を生成することができる。次に、蛍光体を除去し、プロセスを繰り返すことができる。SMRTプラットフォーム用にライブラリを準備することには、DNA断片の末端に対するヘアピンアダプタの連結が関与し得る。   [00127] The high throughput sequencing devices used in, or used with, the methods, computer systems, or computer readable media provided herein are single molecule real time (SMRTTM Sequencing Platform (Pacific Biosciences) In SMRT sequencing, the continuous incorporation of dye-labeled nucleotides can be imaged during DNA synthesis.A single DNA polymerase molecule is linked to a phosphate linked nucleotide on the growth primer strand. Once captured, they can be attached to the bottom surface of individual zero-mode wavelength identifiers (ZMW identifiers) that acquire sequence information.ZMWs diffuse quickly into and out of ZMWs in microseconds. The DNA polymerase against the background can point to a confined structure that allows one to observe the incorporation of a single nucleotide, in contrast, the incorporation of a nucleotide may occur in milliseconds, during which fluorescence The label can be excited to produce a fluorescent signal that can be detected Detection of the fluorescent signal can be used to generate sequence information Next, the fluorophore is removed and the process repeated. The preparation of the library for the SMRT platform can involve the ligation of a hairpin adapter to the end of the DNA fragment.

[00128]本明細書で提供する方法、コンピュータシステム、もしくはコンピュータ可読媒体で使用される、またはそれらとともに使用される高スループットシーケンシング機器は、(例えば、Soni GV and Meller A.Clin Chem 53:1996−2001[2007]に記載されているような)ナノポアシーケンシングを使用することができる。ナノポアシーケンシングDNA解析技術としては、Oxford Nanopore Technologies(Oxford,United Kingdom)による技術が挙げられる。ナノポアシーケンシングは、単一分子シーケンシング技術であることができ、それにより、DNAの単一分子がナノポアを通過する際に直接シーケンシングされる。ナノポアは、直径1ナノメートル程度の小さい穴であることができる。ナノポアを導電性流体に浸漬し、両端に電位(電圧)を印加することによって、ナノポアを通るイオンの導電によるわずかな電流をもたらすことができる。流れる電流の量は、ナノポアのサイズと形状、および例えばDNA分子による閉塞に対して感受性であり得る。DNA分子がナノポアを通過する際、DNA分子上の各ヌクレオチドが異なる程度までナノポアを塞いで、ナノポアを異なる程度で通る電流の大きさを変化させることができる。したがって、DNA分子がナノポアを通過する際のこの電流の変化は、DNAシーケンスの読取り値を表すことができる。   [00128] The high throughput sequencing equipment used in, or used with, the methods, computer systems, or computer readable media provided herein (eg, Soni GV and Meller A. Clin Chem 53: 1996 Nanopore sequencing can be used-as described in 2001 [2007]. Nanopore sequencing DNA analysis techniques include those from Oxford Nanopore Technologies (Oxford, United Kingdom). Nanopore sequencing can be a single molecule sequencing technology whereby single molecules of DNA are sequenced directly as they pass through the nanopore. Nanopores can be small holes as small as 1 nanometer in diameter. Immersing the nanopore in a conductive fluid and applying an electrical potential (voltage) across it can result in a slight current flow due to the conduction of ions through the nanopore. The amount of current flow can be sensitive to the size and shape of the nanopore, and to occlusion, for example by DNA molecules. As the DNA molecule passes through the nanopore, each nucleotide on the DNA molecule can block the nanopore to a different extent, and the magnitude of the current passing through the nanopore can be varied to a different extent. Thus, this change in current as the DNA molecule passes through the nanopore can represent the reading of the DNA sequence.

[00129]本明細書で提供する方法、コンピュータシステム、もしくはコンピュータ可読媒体で使用される、またはそれらとともに使用される高スループットシーケンシング機器は、(例えば、米国特許出願公開第20090026082号に記載されているような)化学的電界効果トランジスタ(chemFET)を利用することができる。技術の一例では、DNA分子を反応チャンバに入れることができ、テンプレート分子をハイブリダイズして、ポリメラーゼに結合されたシーケンシングプライマーとすることができる。シーケンシングプライマーの3’末端における新しい核酸ストランドへの1つ以上の三リン酸塩の取込みは、chemFETによる電流の変化によって識別することができる。アレイは複数のchemFETセンサを有することができる。別の例では、単一の核酸をビーズに付着させることができ、核酸をビーズ上で増幅することができ、個々のビーズをchemFETアレイ上の個々の反応チャンバに転移させることができ、各チャンバがchemFETセンサを有し、核酸をシーケンシングすることができる。   [00129] The high throughput sequencing equipment used in, or used with, the methods, computer systems, or computer readable media provided herein is described (eg, in US Patent Application Publication 20090026082). Chemical field effect transistors (chemFETs) can be used. In one example of the technology, DNA molecules can be placed in the reaction chamber, and template molecules can be hybridized to a sequencing primer coupled to a polymerase. Incorporation of one or more triphosphates into a new nucleic acid strand at the 3 'end of the sequencing primer can be identified by the change in current with chemFETs. The array can have multiple chemFET sensors. In another example, single nucleic acids can be attached to beads, nucleic acids can be amplified on beads, individual beads can be transferred to individual reaction chambers on a chemFET array, and each chamber Have a chemFET sensor and can sequence nucleic acids.

[00130]本明細書で提供する方法、コンピュータシステム、もしくはコンピュータ可読媒体で使用される、またはそれらとともに使用される高スループットシーケンシング機器は、投下型電子顕微鏡法(TEM)を利用することができる。個別分子配置迅速ナノ輸送(IMPRINT)と称される方法は、重原子マーカーで選択的に標識付けした高分子量(150kb以上)DNAを単一原子分解能の投下型電子顕微鏡によって撮像し、これらの分子を、塩基間の間隔が一定の超高密度な(3nmのストランド間隔)並列アレイにおいて超薄膜上に配置することを含むことができる。電子顕微鏡を使用して、膜上の分子を撮像して、重原子マーカーの位置を判定するとともに、DNAから塩基シーケンス情報を抽出することができる。方法は、PCT特許出願公開WO2009/046445号にさらに記載されているものであり得る。方法は、10分未満で完全なヒトゲノムのシーケンシングを可能にすることができる。   [00130] The high-throughput sequencing equipment used in, or used with, the methods, computer systems, or computer readable media provided herein can utilize drop electron microscopy (TEM). . A method called discrete molecular alignment rapid nanotransport (IMPRINT) is to image high molecular weight (150 kb or more) DNA selectively labeled with heavy atom markers by single atomic resolution drop electron microscopy, and these molecules Can be included on the ultrathin film in a very dense (3 nm strand spacing) side-by-side array with constant spacing between bases. Electron microscopy can be used to image molecules on the membrane to determine the position of heavy atom markers and to extract base sequence information from DNA. The method may be further described in PCT patent application publication WO 2009/046445. The method can allow sequencing of the complete human genome in less than 10 minutes.

[00131]本明細書で提供する方法、コンピュータシステム、もしくはコンピュータ可読媒体で使用される、またはそれらとともに使用される高スループットシーケンシング機器は、ハイブリダイゼーションによるシーケンシング(SBH)を利用することができる。SBHは、複数のポリヌクレオチドシーケンスを複数のポリヌクレオチドプローブと接触させることを含むことができ、複数のポリヌクレオチドプローブはそれぞれ、任意に基質に繋ぎ止めることができる。基質は、既知のヌクレオチドシーケンスのアレイを備える平坦面であることができる。アレイに対するハイブリダイゼーションのパターンを使用して、サンプル中に存在するポリヌクレオチドシーケンスを判定することができる。他の実施形態では、各プローブはビーズに、例えば磁気ビーズなどに繋ぎ止められる。ビーズに対するハイブリダイゼーションを特定し、サンプル中の複数のポリヌクレオチドシーケンスを特定するために使用することができる。   [00131] The high throughput sequencing equipment used in, or used with, the methods, computer systems, or computer readable media provided herein can utilize sequencing by hybridization (SBH) . SBH can include contacting a plurality of polynucleotide sequences with a plurality of polynucleotide probes, each of the plurality of polynucleotide probes optionally being tethered to a substrate. The substrate can be a flat surface comprising an array of known nucleotide sequences. The pattern of hybridization to the array can be used to determine the polynucleotide sequence present in the sample. In another embodiment, each probe is anchored to a bead, such as a magnetic bead or the like. Hybridization to beads can be identified and used to identify multiple polynucleotide sequences in a sample.

[00132]シーケンスリードの長さは、利用される特定のシーケンシング技術に応じて変わる場合がある。高スループットシーケンシング機器(NGSプラットフォーム)は、サイズが数十から数百、または数千の塩基対に及ぶシーケンスリードを提供することができる。本明細書に記載する方法のいくつかの実施形態では、シーケンスリードは、およそまたは少なくとも10塩基長、15塩基長、20塩基長、25塩基長、30塩基長、35塩基長、40塩基長、45塩基長、50塩基長、55塩基長、60塩基長、65塩基長、70塩基長、75塩基長、80塩基長、85塩基長、90塩基長、95塩基長、100塩基長、110塩基長、120塩基長、130、140塩基長、150塩基長、200塩基長、250塩基長、300塩基長、350塩基長、400塩基長、450塩基長、500塩基長、600塩基長、700塩基長、800塩基長、900塩基長、1000塩基長、または1000超過の塩基長である。   [00132] The length of the sequence read may vary depending on the particular sequencing technology utilized. High-throughput sequencing instruments (NGS platforms) can provide sequence reads that range in size from tens to hundreds or even thousands of base pairs. In some embodiments of the methods described herein, the sequence read is approximately or at least 10 bases long, 15 bases long, 20 bases long, 25 bases long, 25 bases long, 30 bases long, 35 bases long, 40 bases long, 45 bases, 50 bases, 55 bases, 60 bases, 65 bases, 70 bases, 75 bases, 75 bases, 80 bases, 80 bases, 85 bases, 90 bases, 95 bases, 100 bases, 110 bases Length: 120 bases, 130, 140 bases, 150 bases, 200 bases, 200 bases, 250 bases, 300 bases, 350 bases, 400 bases, 400 bases, 450 bases, 500 bases, 600 bases, 700 bases Long, 800 bases long, 900 bases long, 1000 bases long, or more than 1000 bases long.

[00133]本明細書に記載のシーケンシングプラットフォームは、その上に不動化された固体支持体を備えることができ、表面結合オリゴヌクレオチドが、シーケンシングライブラリを捕獲し、固体支持体に対して不動化するのを可能にしている。表面結合オリゴヌクレオチドは、一般に、シーケンシングライブラリのアダプタシーケンスに対して相補的なシーケンスを含む。   [00133] The sequencing platform described herein can comprise a solid support immobilized thereon, wherein the surface bound oligonucleotide captures the sequencing library and immobilizes relative to the solid support Make it possible to The surface bound oligonucleotides generally comprise a sequence that is complementary to the adapter sequence of the sequencing library.

[00134]高スループットシーケンシングプラットフォームを使用して、DNAを異なる深さまでシーケンシングすることができる。シーケンシング(例えば、DNAシーケンシング)の深さは、シーケンシングプロセスの間にヌクレオチドが読み取られる回数を指すことができる。シーケンスの適用範囲は、再構築されたシーケンスにおける所与のヌクレオチドを表す平均リード数を示すことができる。物理的な適用範囲は、リードがメイトペアリードによって読み取られるかまたは測られる平均回数であることができる。深さは、N×L/Gとして、元のゲノムの長さ(G)、リードの数(N)、および平均リード長さ(L)から計算することができる。場合によっては、ディープシーケンシング(>7倍)が実施される。場合によっては、超ディープシーケンシングが実施される(>100倍)。本明細書に記載する方法におけるシーケンシング深さは、少なくとも1倍、2倍、5倍、7倍、10倍、20倍、50倍、75倍、100倍、250倍、500倍、1000倍、5000倍、または10,000倍であることができる。
VII.被験者、サンプル、および核酸
[00135]A.被験者
[00136]本明細書で提供する方法、コンピュータシステム、およびコンピュータ可読媒体において解析されるサンプルは、1つ以上の被験者または個人によるものであることができる。被験者は、発現遺伝物質を含む生物学的実体であることができる。生物学的実体は、例えば、細菌、ウィルス、菌類、および原生動物を含む、植物、動物、または微生物であることができる。被験者は、インビボで得た、もしくはインビトロで培養した、生物学的実体の組織、細胞、またはそれらの後代であることができる。被験者は哺乳類であることができる。哺乳類はヒトであることができる。ヒトは男性または女性であることができる。ヒトは、生後1日〜約1歳、約1歳〜約3歳、約3歳〜約12歳、約13〜約19歳、約20歳〜約40歳、約40歳〜約65歳、または65歳以上であることができる。ヒトは、疾患のリスクが高いことが診断されるかまたは疑われる場合がある。疾患はがんであり得る。ヒトは、疾患のリスクが高いことが診断されないかまたは疑われないことがある。
[00134] The high throughput sequencing platform can be used to sequence DNA to different depths. The depth of sequencing (eg, DNA sequencing) can refer to the number of times a nucleotide is read during the sequencing process. The coverage of the sequence can indicate the average number of reads representing a given nucleotide in the reconstructed sequence. Physical coverage can be the average number of times a lead is read or measured by a mate pair lead. The depth can be calculated from the original genome length (G), the number of reads (N), and the average read length (L) as N × L / G. In some cases, deep sequencing (> 7-fold) is performed. In some cases, ultra-deep sequencing is performed (> 100 ×). Sequencing depth in the method described herein is at least 1 ×, 2 ×, 5 ×, 7 ×, 10 ×, 20 ×, 50 ×, 75 ×, 100 ×, 250 ×, 500 ×, 1000 × , 5000 times, or 10,000 times.
VII. Subject, sample, and nucleic acid
[00135] A. subject
[00136] The methods provided herein, computer systems, and samples analyzed in computer readable media can be from one or more subjects or individuals. The subject can be a biological entity comprising the expressed genetic material. Biological entities can be, for example, plants, animals or microorganisms, including bacteria, viruses, fungi and protozoa. The subject can be a tissue, cell, or progeny of a biological entity obtained in vivo or cultured in vitro. The subject can be a mammal. The mammal can be human. The human can be male or female. Humans are from 1 day to about 1 year old, about 1 year to about 3 years old, about 3 to 12 years old, about 13 to about 19 years old, about 20 to about 40 years old, about 40 to about 65 years old, Or you can be over 65 years old. Humans may be diagnosed or suspected to be at high risk of disease. The disease may be cancer. Humans may not be diagnosed or suspected to be at high risk of disease.

[00137]B.サンプル
[00138]本明細書で提供する方法、コンピュータシステム、およびコンピュータ可読媒体で使用される、またはそれらとともに使用される1つ以上のサンプルは、核酸を含有するかまたは含有すると仮定される任意の物質であることができる。サンプルは、被験者から得られる生体サンプルであることができる。いくつかの実施形態では、生体サンプルは液体サンプルである。液体サンプルは、全血、血漿、血清、腹水、脳脊髄液、汗、尿、涙、唾液、口腔サンプル、腔洗浄液(cavity rinse)、または臓器洗浄液(organ rinse)であることができる。液体サンプルは、本質的に無細胞の液体サンプルであるか、または無細胞核酸を含むことができる(例えば、血漿、血清、汗、血漿、尿、汗、涙、唾液、痰、脳脊髄液)。他の実施形態では、生体サンプルは、固形生体サンプル、例えば糞便または組織生検である。サンプルはまた、(細胞培地で細胞を成長させて得られる調製された媒体、組換え細胞、および細胞成分を含むがそれに限定されない)インビトロ細胞培養構成成分を含むことができる。サンプルは、単一の細胞、例えばがん細胞、循環腫瘍細胞、がん肝細胞などを含むことができる。サンプルは複数の細胞を含むことができる。場合によっては、サンプルは、およそまたは少なくとも1%、5%、10%、15%、20%、25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、99%、または100%の腫瘍細胞を含む。被験者は、固形腫瘍を宿していることが疑われるかもしくは分かっている場合があり、または固体腫瘍を以前宿していた被験者であることができる。
[00137] B. sample
[00138] One or more samples used in, or used with, the methods, computer systems, and computer readable media provided herein are any material that contains or is assumed to contain a nucleic acid. Can be. The sample can be a biological sample obtained from a subject. In some embodiments, the biological sample is a liquid sample. The fluid sample can be whole blood, plasma, serum, ascites, cerebrospinal fluid, sweat, urine, tears, saliva, oral cavity samples, cavity rinse, or organ rinse. The fluid sample may be an essentially acellular fluid sample or may contain cell free nucleic acid (eg, plasma, serum, sweat, plasma, urine, sweat, tears, saliva, sputum, cerebrospinal fluid) . In another embodiment, the biological sample is a solid biological sample, such as feces or tissue biopsy. The sample can also include in vitro cell culture components (including, but not limited to, prepared media obtained by growing cells in cell culture media, recombinant cells, and cellular components). The sample can comprise single cells, such as cancer cells, circulating tumor cells, cancer hepatocytes, and the like. The sample can contain multiple cells. In some cases, the sample is approximately or at least 1%, 5%, 10%, 15%, 20%, 25%, 30%, 35%, 40%, 45%, 50%, 55%, 60%, 65% %, 70%, 75%, 80%, 85%, 90%, 95%, 99%, or 100% tumor cells. The subject may be suspected or known to harbor a solid tumor, or may be a subject who previously harbored a solid tumor.

[00139]場合によっては、被験者からの腫瘍サンプルおよび正常な細胞の両方が被験者から得られる。
[00140]いくつかの実施形態では、生殖細胞系列シーケンスを含む核酸が、被験者の生体サンプルから抽出される。いくつかの実施形態では、生体サンプルは固形組織である。生体サンプルは、被験者からの健康な組織などの組織であることができる。生体サンプルは、例えば、血液、血液からの軟膜(リンパ球を含むことができる)、唾液、または血漿などの液体サンプルであることができる。
[00139] In some cases, both a tumor sample from the subject and normal cells are obtained from the subject.
[00140] In some embodiments, nucleic acids comprising germline sequences are extracted from a subject's biological sample. In some embodiments, the biological sample is a solid tissue. The biological sample can be tissue, such as healthy tissue from a subject. The biological sample can be, for example, a fluid sample such as blood, buffy coat from blood (which can include lymphocytes), saliva, or plasma.

[00141]いくつかの実施形態では、体細胞変異体を含む核酸が、被験者の生体サンプルから抽出される。いくつかの実施形態では、生体サンプルは固形組織である。固形組織は、例えば、原発腫瘍、転移腫瘍、ポリープ、または腺腫であり得る。いくつかの実施形態では、生体サンプルは、例えば尿、唾液、脳脊髄液、血漿、または血清などの液体サンプルである。場合によっては、液体は無細胞液体である。場合によっては、循環腫瘍細胞を含む細胞は、濃縮されるか液体から単離される。場合によっては、サンプルは無細胞核酸、例えばDNAを含む。   [00141] In some embodiments, nucleic acids comprising somatic variants are extracted from a biological sample of a subject. In some embodiments, the biological sample is a solid tissue. The solid tissue can be, for example, a primary tumor, a metastatic tumor, a polyp, or an adenoma. In some embodiments, the biological sample is a liquid sample, such as, for example, urine, saliva, cerebrospinal fluid, plasma, or serum. In some cases, the fluid is a cell free fluid. In some cases, cells containing circulating tumor cells are concentrated or isolated from the fluid. In some cases, the sample comprises cell free nucleic acid, eg, DNA.

[00142]場合によっては、腫瘍のサンプルは第1の時点で取られ、シーケンシングされ、腫瘍の別のサンプルがその後の時点で取られ、腫瘍がシーケンシングされる。
[00143]C.がん
[00144]本明細書で提供するコンピューティングシステム、ソフトウェア媒体、方法、およびキットは腫瘍サンプルを利用することができる。腫瘍組成物(原発腫瘍、転移腫瘍)は、がんと関連付けられる1つ以上のDNA分子を含むことができる。
In some cases, a sample of a tumor is taken at a first time point and sequenced, and another sample of a tumor is taken at a later time point, and the tumor is sequenced.
[00143] C. cancer
[00144] The computing systems, software media, methods, and kits provided herein can utilize tumor samples. Tumor compositions (primary tumors, metastatic tumors) can comprise one or more DNA molecules associated with cancer.

[00145]本明細書で提供するコンピューティングシステム、ソフトウェア媒体、方法、およびキットは、サンプル中の腫瘍細胞/核酸の比率を推定することを含むことができる。   [00145] The computing systems, software media, methods, and kits provided herein can include estimating the ratio of tumor cells / nucleic acids in a sample.

[00146]本明細書で提供するコンピューティングシステム、ソフトウェア媒体、方法、およびキットは、同時にまたは異なる時点に収集されたサンプルを含むことができる(同時、1つ以上のサンプルが少なくとも2つのサンプルを含む、また少なくとも2つのサンプルが異なる時点に収集される)。   [00146] The computing systems, software media, methods, and kits provided herein can include samples collected simultaneously or at different times (simultaneously, one or more samples contain at least two samples) And at least two samples are collected at different times).

[00147]本明細書で提供されるコンピューティングシステム、ソフトウェア媒体、方法、およびキットは、異なるタイプの細胞(例えば、リンパ球、血液細胞、腫瘍細胞)を使用することを含むことができる。   [00147] The computing systems, software media, methods, and kits provided herein can include using different types of cells (eg, lymphocytes, blood cells, tumor cells).

[00148]本明細書で提供するコンピューティングシステム、ソフトウェア媒体、方法、およびキットは、疾患がある被験者のモニタリングおよび処置を改善する。疾患は、がん、例えば腫瘍、白血病(急性白血病、急性T細胞白血病、急性リンパ性白血病、急性骨髄球性白血病、骨髄芽球性白血病、前骨髄球性白血病、骨髄単球性白血病、単球性白血病、赤白血病、慢性白血病、慢性骨髄球性(顆粒球性)白血病、または慢性リンパ性白血病、真性多血症、リンパ腫(ホジキンリンパ腫、濾胞性リンパ腫、または非ホジキンリンパ腫)、多発性骨髄腫、ワルデンストレームマクログロブリン血症、H鎖病、固形腫瘍、肉腫、がん腫(例えば、線維肉腫、粘液肉腫、脂肪肉腫、軟骨肉腫、骨肉腫、リンパ管肉腫、中皮腫、ユーイング腫瘍、平滑筋肉腫、横紋筋肉腫)、結腸がん、大腸がん、膵がん、乳がん、卵巣がん、前立腺がん、扁平上皮細胞がん、基底細胞がん、腺がん、汗腺がん、皮脂腺がん、乳頭状がん、乳頭腺がん、嚢胞腺がん、髄様がん、気管支原性がん、腎細胞がん、肝がん、胆管がん、絨毛がん、精上皮腫、胎生期がん、ウィルムス腫、子宮頸がん、子宮がん、精巣腫瘍、肺がん、小細胞肺がん、膀胱がん、上皮がん、神経膠腫、頭蓋喉頭腫、脳室上皮腫、松果体腫、血管芽細胞腫、聴神経腫、乏枝神経膠腫、髄膜腫、黒色腫、神経芽細胞腫、網膜芽細胞腫、子宮体がん、非小細胞肺がんであることができる。   [00148] The computing systems, software media, methods, and kits provided herein improve monitoring and treatment of a subject with a disease. Diseases include cancer, for example, tumors, leukemia (acute leukemia, acute T cell leukemia, acute lymphocytic leukemia, acute myelocytic leukemia, myeloblastic leukemia, promyelocytic leukemia, myelomonocytic leukemia, monocytes Leukemia, erythroleukemia, chronic leukemia, chronic myelocytic (granulocytic) leukemia, or chronic lymphocytic leukemia, euthymia, lymphoma (Hodgkin's lymphoma, follicular lymphoma, or non-Hodgkin's lymphoma), multiple myeloma , Waldenstrom macroglobulinemia, heavy chain disease, solid tumor, sarcoma, carcinoma (for example, fibrosarcoma, myxosarcoma, liposarcoma, chondrosarcoma, osteosarcoma, lymphangiosarcoma, mesothelioma, Ewing tumor , Leiomyosarcoma, rhabdomyosarcoma), colon cancer, colon cancer, pancreatic cancer, breast cancer, ovarian cancer, prostate cancer, squamous cell carcinoma, basal cell carcinoma, adenocarcinoma, sweat gland , Sebaceous gland cancer, nipple Cancer, papillary adenocarcinoma, cystic adenocarcinoma, medullary carcinoma, bronchogenic carcinoma, renal cell carcinoma, liver cancer, cholangiocarcinoma, choriocarcinoma, seminoma, cancer of gestational period, Wilms tumor, cervical cancer, uterine cancer, testicular cancer, lung cancer, small cell lung cancer, bladder cancer, epithelial cancer, glioma, cranial laryngoma, ventricular epithelioma, pineal tumor, hemangioblast It can be a tumor, an acoustic neuroma, an oligohepatic glioma, a meningioma, a melanoma, a neuroblastoma, a retinoblastoma, an endometrial cancer, a non-small cell lung cancer.

[00149]D.核酸
[00150]本明細書で提供する方法、コンピュータシステム、コンピュータ可読媒体、およびキットで使用される、またはそれらとともに使用される核酸は、RNA、DNA、例えばゲノムDNA、ミトコンドリアDNA、ウィルスDNA、合成DNA、またはRNAから逆転写したcDNAであることができる。
[00149] D. Nucleic acid
[00150] The nucleic acids used in or with the methods, computer systems, computer readable media, and kits provided herein may be RNA, DNA, such as genomic DNA, mitochondrial DNA, viral DNA, synthetic DNA Or cDNA reverse transcribed from RNA.

[00151]「ポリヌクレオチド」、「核酸」、および「オリゴヌクレオチド」という用語は、は互換可能に使用することができる。それらは、デオキシリボヌクレオチドまたはリボヌクレオチド、またはそれらの類似体のいずれかの、任意の長さのヌクレオチドのポリマー形態を指すことができる。ポリヌクレオチドは、任意の三次元構造を有することができ、既知または未知の、任意の機能を実施することができる。以下は、遺伝子または遺伝子断片のコード化もしくは非コード化領域、連鎖解析から定義される遺伝子座、エキソン、イントロン、メッセンジャーRNA(mRNA)、転写RNA、リボソームRNA、リボザイム、cDNA、組換えポリヌクレオチド、分枝ポリヌクレオチド、プラスミド、ベクター、任意のシーケンスの単離DNA、任意のシーケンスの単離RNA、核酸プローブ、およびプライマーといった、ポリヌクレオチドの非限定例である。ポリヌクレオチドは、メチル化ヌクレオチドおよびヌクレオチド類似体などの修飾ヌクレオチドを含むことができる。存在する場合、高分子をアセンブルする前または後に、ヌクレオチド構造に対する修飾を付与することができる。ヌクレオチドのシーケンスは、非ヌクレオチド成分によって中断される場合がある。ポリヌクレオチドは、標識成分との共役などによって、ポリメライゼーション後にさらに修飾することができる。   [00151] The terms "polynucleotide", "nucleic acid", and "oligonucleotide" can be used interchangeably. They can refer to polymeric forms of nucleotides of any length, either deoxyribonucleotides or ribonucleotides, or their analogs. A polynucleotide can have any three-dimensional structure, and can perform any function known or unknown. The following are coding or noncoding regions of genes or gene fragments, loci defined from linkage analysis, exons, introns, messenger RNA (mRNA), transcription RNA, ribosomal RNA, ribozyme, cDNA, recombinant polynucleotide, Nonlimiting examples of polynucleotides such as branched polynucleotides, plasmids, vectors, isolated DNA of any sequence, isolated RNA of any sequence, nucleic acid probes, and primers. Polynucleotides can include modified nucleotides, such as methylated nucleotides and nucleotide analogs. If present, modifications to the nucleotide structure can be imparted before or after assembling the macromolecule. The sequence of nucleotides may be interrupted by non-nucleotide components. The polynucleotide can be further modified after polymerization, such as by conjugation with a labeling component.

[00152]「標的ポリヌクレオチド」、「標的領域」、または「標的」という用語は、本明細書で使用するとき、研究中の対象のポリヌクレオチドを指す場合がある。特定の実施形態では、標的ポリヌクレオチドは研究中の対象である1つ以上のシーケンスを含む。標的ポリヌクレオチドは、例えば、ゲノムシーケンスを含むことができる。標的ポリヌクレオチドは、その存在、量、および/またはヌクレオチドシーケンス、あるいはそれらの変化を判定することが望ましい、標的シーケンスを含むことができる。
VIII.核酸ライブラリ生成
[00153]本明細書で提供する方法、コンピュータシステム、コンピュータ可読媒体、およびキットは、核酸ライブラリを利用することができる。本明細書では、核酸ライブラリ形成のための方法、組成物、およびキットを提供する。ライブラリ形成は、シーケンシング前にプローブハイブリダイゼーションおよび伸長を介して、標的補足を含むことができる。ペアードエンドリードを使用して、所与のプローブからのリードを整列させることができる。ライブラリを準備するプロセスは、断片化DNA、適合DNA、標的捕獲、表面負荷、およびシーケンシングの生成を含むことができ、適合DNAと標的捕獲の生成の間にDNAの断片の各末端においてアダプタによって断片を増幅する、プライマーを用いた増幅による濃縮は行わない。
[00152] The terms "target polynucleotide", "target region" or "target" as used herein may refer to the polynucleotide of interest under study. In certain embodiments, the target polynucleotide comprises one or more sequences of interest under investigation. The target polynucleotide can, for example, comprise a genomic sequence. The target polynucleotide can include a target sequence whose presence, amount, and / or nucleotide sequence, or for which it is desirable to determine changes thereof.
VIII. Nucleic acid library generation
[00153] The methods, computer systems, computer readable media, and kits provided herein can utilize a nucleic acid library. Provided herein are methods, compositions, and kits for nucleic acid library formation. Library formation can include target capture via probe hybridization and extension prior to sequencing. Paired end leads can be used to align the leads from a given probe. The process of preparing the library can include the generation of fragmented DNA, compatible DNA, target capture, surface loading, and sequencing, with adapters at each end of the fragment of DNA between compatible DNA and target capture generation. The fragments are amplified and not amplified by amplification with primers.

[00154]核酸サンプルを使用して、シーケンシングのための核酸ライブラリを準備することができる。核酸ライブラリの準備は、当該分野で知られているような、または本明細書に記載するような任意の方法を含むことができる。核酸シーケンシングライブラリは、例えば標的特異的なプライマーを使用する、標的濃縮によって形成することができる。場合によっては、核酸ライブラリは標的特異的な手法には基づかない。図10は、DNA調製およびライブラリ生成のための例示的なワークフローを示している。合計調製時間は約8時間であり得る。調製は、核酸中間体を精製するため、固相逆不動化(Solid Phase Reverse Immobilization)(SPRI)ビーズを用いた温置によって散在させる酵素的操作を含むことができる。核酸(例えば、DNA)ライブラリの準備には、核酸(例えば、DNA)の調製が関与する場合があり、それには、a)核酸(例えば、DNA)の修復、b)核酸(例えば、DNA)のリン酸化反応、および/またはc)核酸(例えば、DNA)のキャッピングを含むことができる。核酸ライブラリの生成には、核酸へのアダプタの付加(例えば、連結)、「捕獲」(例えば、標的特異的なプライマーを核酸にアニーリングする)、伸長、および/または増幅を含むことができる。核酸ライブラリは、一本鎖核酸ライブラリまたは二本鎖核酸ライブラリであることができる。核酸ライブラリはDNAライブラリであることができる。いくつかの実施形態では、核酸ライブラリはssDNAライブラリである。いくつかの実施形態では、核酸ライブラリは部分ssDNAライブラリである。   [00154] The nucleic acid sample can be used to prepare a nucleic acid library for sequencing. Preparation of nucleic acid libraries can include any method as known in the art or as described herein. Nucleic acid sequencing libraries can be formed by target enrichment, using, for example, target specific primers. In some cases, nucleic acid libraries are not based on target specific approaches. FIG. 10 shows an exemplary workflow for DNA preparation and library generation. The total preparation time may be about 8 hours. The preparation can include enzymatic manipulations that are interspersed by incubation with Solid Phase Reverse Immobilization (SPRI) beads to purify nucleic acid intermediates. Preparation of nucleic acid (e.g. DNA) libraries may involve preparation of nucleic acids (e.g. DNA) including: a) repair of nucleic acids (e.g. DNA) b) nucleic acids (e.g. DNA) Phosphorylation reactions, and / or c) capping of nucleic acids (eg, DNA) can be included. Generation of nucleic acid libraries can include the addition (eg, ligation) of adapters to nucleic acids, "capture" (eg, annealing target specific primers to nucleic acids), extension, and / or amplification. The nucleic acid library can be a single stranded nucleic acid library or a double stranded nucleic acid library. The nucleic acid library can be a DNA library. In some embodiments, the nucleic acid library is a ssDNA library. In some embodiments, the nucleic acid library is a partial ssDNA library.

[00155]A.核酸の修復および断片化
[00156]核酸は核酸ライブラリを形成する前に修復することができる。例えば、サンプル(例えば、本明細書に記載する任意のサンプル、例えばホルマリン固定パラフィン包理(FFPE)サンプル)からの核酸(例えば、DNA)を、ライブラリの準備に使用することができ、サンプル(例えば、FFPEサンプル)からの核酸(例えば、DNA)は、突然変異、例えばオキソグアニン、dUTP、架橋部分、および/または無塩基部位を含むことができる。場合によっては、損傷した塩基はDNAサンプルから除去(例えば、切除)される。場合によっては、「補正」処理ステップは関与しない(塩基誤差は補正されない)。場合によっては、サンプル中の核酸は突然変異を含まない。
[00155] A. Nucleic acid repair and fragmentation
[00156] The nucleic acids can be repaired prior to forming the nucleic acid library. For example, nucleic acids (eg, DNA) from a sample (eg, any sample described herein, eg, formalin fixed paraffin embedded (FFPE) sample) can be used for preparation of a library, eg, a sample , FFPE samples) (eg, DNA) can include mutations such as oxoguanine, dUTP, bridging moieties, and / or abasic sites. In some cases, damaged bases are removed (eg, excised) from the DNA sample. In some cases, no "correction" processing step is involved (base errors are not corrected). In some cases, the nucleic acid in the sample does not contain a mutation.

[00157]場合によっては、ライブラリ中の核酸は断片化される。ライブラリの準備で使用される断片は、約50〜約500塩基/bp、約100〜約500塩基/bp、約100〜約400塩基/bp、約100〜約300塩基/bp、約100〜約200塩基/bp、約200〜約500塩基/bp、約200〜約400塩基/bp、または約200〜約300塩基/bpの平均サイズを有することができる。   [00157] In some cases, the nucleic acids in the library are fragmented. The fragments used in preparation of the library are about 50 to about 500 bases / bp, about 100 to about 500 bases / bp, about 100 to about 400 bases / bp, about 100 to about 300 bases / bp, about 100 to about 300 It can have an average size of 200 bases / bp, about 200 to about 500 bases / bp, about 200 to about 400 bases / bp, or about 200 to about 300 bases / bp.

[00158]DNA、例えば断片化DNAは、塩基切除修復酵素(例えば、Endo VIII、ホルムアミドピリミジンDNAグリコシラーゼ(FPG))で処理して、ポリメライゼーションに干渉する可能性がある損傷した塩基を切除することができる。次に、DNAを、校正ポリメラーゼ(例えば、T4 DNAポリメラーゼ)で処理して、末端を研磨し、損傷したヌクレオチド(例えば、無塩基部位)を置換することができる。いくつかの実施形態では、DNAは、末端を研磨し、損傷したヌクレオチドを置換するために、校正ポリメラーゼで処理されない。   [00158] DNA, eg, fragmented DNA, is treated with a base excision repair enzyme (eg, Endo VIII, formamide pyrimidine DNA glycosylase (FPG)) to excise damaged bases that may interfere with polymerization. Can. The DNA can then be treated with a proofreading polymerase (eg, T4 DNA polymerase) to polish the ends and replace the damaged nucleotide (eg, an abasic site). In some embodiments, the DNA is not treated with a proofreading polymerase to polish the ends and replace damaged nucleotides.

[00159]B.核酸処理
[00160]核酸(例えば、DNA)の断片化は、(例えば、キナーゼを用いて)リン酸化させ、ddNTPでキャッピングすることができる。場合によっては、核酸の5’末端をリン酸化させる。
[00159] B. Nucleic acid processing
[00160] Fragmentation of nucleic acids (eg, DNA) can be phosphorylated (eg, using a kinase) and capped with ddNTPs. In some cases, the 5 'end of the nucleic acid is phosphorylated.

[00161]C.アダプタの添加
[00162]一本鎖アダプタを、サンプルからの一本鎖DNA断片に連結させることができる。適合されたDNA断片の二桁の収率を達成して、サンプルからのシーケンス情報の回収を改善するのを可能にすることができる。アダプタは、例えばプライマーを介して、または連結反応によって、核酸に添加することができる。アダプタ、例えばssDNAアダプタを、ssDNAの5’末端、ssDNAの3’末端、またはssDNAの5’末端および3’末端の両方に添加、例えば連結することができる。核酸断片および/またはアダプタの5’末端を、例えば連結反応の前にアデニル化することができる。適合されたDNAの収率は二桁であり得る。
[00161] C. Adapter addition
[00162] Single stranded adapters can be ligated to single stranded DNA fragments from a sample. Two orders of magnitude yield of adapted DNA fragments can be achieved to enable improved recovery of sequence information from the sample. The adapter can be added to the nucleic acid, for example via a primer or by a ligation reaction. Adapters, such as ssDNA adapters, can be added, eg, ligated, to the 5 'end of ssDNA, the 3' end of ssDNA, or both the 5 'and 3' ends of ssDNA. The 5 'end of the nucleic acid fragment and / or the adapter can, for example, be adenylated prior to the ligation reaction. The yield of adapted DNA may be two orders of magnitude.

[00163]断片は、シーケンシングプラットフォームに対する断片の結合(例えば、捕獲および/または不動化)に影響を及ぼし得る、アダプタシーケンスを用いて修飾することができる。アダプタシーケンスは、シーケンシングプラットフォームに対するライブラリ要素の結合に影響を及ぼす、定義されたオリゴヌクレオチドシーケンスを含むことができる。アダプタは、固体支持体(例えば、シーケンシングフローセルもしくはビーズ)上に不動化されたオリゴヌクレオチドシーケンスに対して、少なくとも25%、50%、60%、70%、80%、90%、もしくは100%相補的または同一である、シーケンスを含むことができる。アダプタシーケンスは、シーケンシングプライマーに対して、少なくとも50%、60%、70%、80%、90%、もしくは100%相補的または同一である、定義されたオリゴヌクレオチドシーケンスを含むことができる。シーケンシングプライマーは、ポリメラーゼによるヌクレオチド取込みを可能にすることができ、ヌクレオチドの取込みはシーケンシング情報を提供するためにモニタリングされる。シーケンシングプライマーは、約15〜約25塩基であることができる。アダプタは、固体支持体上に不動化されたオリゴヌクレオチドシーケンスに対して少なくとも25%、50%、60%、70%、80%、90%、もしくは100%相補的または同一であるシーケンス、ならびにシーケンシングプライマーに対して少なくとも70%相補的または同一であるシーケンスを含むことができる。結合はまた、アダプタを直列で縫合することによって達成することができる。縫合することができるアダプタの数は、1、2、3、4、またはそれ以上であることができる。縫合されたアダプタは、少なくとも35塩基、70塩基、105塩基、140塩基、またはそれ以上であることができる。   [00163] The fragments can be modified with an adapter sequence, which can affect the binding (eg, capture and / or immobilization) of the fragments to the sequencing platform. The adapter sequence can include a defined oligonucleotide sequence that affects the binding of library elements to the sequencing platform. The adapter is at least 25%, 50%, 60%, 70%, 80%, 90%, or 100% of the oligonucleotide sequence immobilized on the solid support (eg, sequencing flow cell or beads) The sequences can be complementary or identical. The adapter sequence can comprise a defined oligonucleotide sequence that is at least 50%, 60%, 70%, 80%, 90%, or 100% complementary or identical to the sequencing primer. Sequencing primers can allow nucleotide incorporation by the polymerase, and nucleotide incorporation is monitored to provide sequencing information. The sequencing primer can be about 15 to about 25 bases. The adapter is a sequence that is at least 25%, 50%, 60%, 70%, 80%, 90%, or 100% complementary or identical to the oligonucleotide sequence immobilized on the solid support, as well as the sequence It can comprise a sequence that is at least 70% complementary or identical to a single primer. Bonding can also be achieved by suturing the adapters in series. The number of adapters that can be sutured can be one, two, three, four or more. The sutured adapter can be at least 35 bases, 70 bases, 105 bases, 140 bases or more.

[00164]アダプタはバーコードシーケンスを含むことができる。「バーコードシーケンス」という用語は、アッセイに関する情報をコード化することができる、ヌクレオチドの一意のシーケンスを指すことができる。バーコードシーケンスは、識別対立遺伝子の同一性、標的ポリヌクレオチドまたはゲノム遺伝子座の同一性、サンプルの同一性、被験者、分子、またはそれらの任意の組み合わせに関する情報をコード化することができる。バーコードシーケンスは、プライマー、レポータープローブ、または両方の一部分であることができる。バーコードシーケンスは、オリゴヌクレオチドの5’末端もしくは3’末端にあることができ、またはオリゴヌクレオチドの任意の領域に位置することができる。バーコードシーケンスは、テンプレートシーケンスの一部であることができ、またはそうでないことができる。バーコードシーケンスはサイズおよび組成が大幅に変動する場合があり、後で参照することによって、特定の実施形態に適切なバーコードシーケンスの組の選択をガイドする。Brenner,米国特許第5,635,400号、Brenner et al,Proc.Natl.Acad.Sci.,97:1665−1670(2000);Shoemaker et al,Nature genetics,14:450−456(1996);Morris et al,欧州特許出願公開0799897A1号;Wallace,米国特許第5,981,179号。バーコードシーケンスは、約4〜36ヌクレオチド、約6〜30ヌクレオチド、または約8〜20ヌクレオチドの長さを有することができる。   [00164] The adapter can include a barcode sequence. The term "barcode sequence" can refer to a unique sequence of nucleotides that can encode information about the assay. The barcode sequence can encode information on the identity of the discriminating allele, the identity of the target polynucleotide or genomic locus, the identity of the sample, the subject, the molecule, or any combination thereof. The barcode sequence can be part of a primer, a reporter probe, or both. The barcode sequence can be at the 5 'end or 3' end of the oligonucleotide, or can be located in any region of the oligonucleotide. The barcode sequence may or may not be part of the template sequence. Barcode sequences may vary widely in size and composition, and reference later will guide the selection of the set of barcode sequences appropriate for a particular embodiment. Brenner, U.S. Patent No. 5,635,400, Brenner et al, Proc. Natl. Acad. Sci. 97: 1665-1670 (2000); Shoemaker et al, Nature genetics, 14: 450-456 (1996); Morris et al, European Patent Application Publication No. 0 798 9 897 A1; Wallace, U.S. Patent No. 5,981,179. The barcode sequence can have a length of about 4-36 nucleotides, about 6-30 nucleotides, or about 8-20 nucleotides.

[00165]ライブラリ中のシーケンシングライブラリ要素の少なくとも50%、60%、70%、80%、90%、または100%は、同じアダプタシーケンスを含むことができる。ssDNAライブラリ要素の少なくとも50%、60%、70%、80%、90%、または100%は、第2の末端ではなく第1の末端にアダプタシーケンスを含むことができる。いくつかの実施形態では、第1の末端は5’末端である。いくつかの実施形態では、第1の末端は3%末端である。アダプタシーケンスは、シーケンシングに使用されるシーケンシングプラットフォームにしたがって、ユーザによって選ばれる。単なる例として、合成プラットフォームによるIlluminaのシーケンシングは、表面結合されたオリゴヌクレオチドの第1および第2の母集団が不動化された、固体支持体を含むことができる。かかるオリゴヌクレオチドは、第1および第2のIllumina特異的なアダプタヌクレオチドに対してハイブリダイズし、伸長反応をプライミングするシーケンスを含むことができる。したがって、DNAライブラリ要素は、Illuminaシステムの表面結合オリゴヌクレオチドの第1の母集団対して、部分的または全体的に相補的である第1のIllumina特異的なアダプタを含むことができる。他の単なる一例として、SOLiDシステム、およびIon Torrent、GS FLEXシステムは、表面結合オリゴヌクレオチドの単一の母集団が不動化されたビーズの形態の、固体支持体を含むことができる。したがって、いくつかの実施形態では、ssDNAライブラリ要素は、SOLiDシステム、Ion Torrentシステム、またはGS Flexシステムの表面結合オリゴヌクレオチドに対して相補的な、アダプタシーケンスを含む。   [00165] At least 50%, 60%, 70%, 80%, 90%, or 100% of the sequencing library elements in the library can comprise the same adapter sequence. At least 50%, 60%, 70%, 80%, 90% or 100% of the ssDNA library elements can comprise an adapter sequence at the first end rather than the second end. In some embodiments, the first end is a 5 'end. In some embodiments, the first end is a 3% end. The adapter sequence is chosen by the user according to the sequencing platform used for sequencing. By way of example only, sequencing of Illumina by synthetic platforms can include a solid support on which the first and second populations of surface-bound oligonucleotides are immobilized. Such oligonucleotides can comprise sequences that hybridize to the first and second Illumina specific adapter nucleotides and prime the extension reaction. Thus, the DNA library element can comprise a first Illumina-specific adapter that is partially or totally complementary to the first population of surface-bound oligonucleotides of the Illumina system. As just another example, the SOLiD system, and the Ion Torrent, GS FLEX system can include a solid support in the form of a single population of surface-bound oligonucleotides immobilized beads. Thus, in some embodiments, the ssDNA library element comprises an adapter sequence that is complementary to the surface binding oligonucleotides of the SOLiD system, the Ion Torrent system, or the GS Flex system.

[00166]D.伸長
[00167]伸長生成物が核酸断片から生成される場合がある。伸長生成物は、核酸の3’末端上のアダプタシーケンスに対してプライマーをアニーリングし、プライマーを伸長することによって生成することができる。かかる伸長生成物は標的特異的ではない。伸長生成物は、5’末端および/または3’末端にアダプタを含むss核酸(例えば、ssDNA)内の標的特異的なシーケンスに対してプライマーをアニーリングし、プライマーを伸長することによって生成することができる。かかる伸長生成物は標的特異的な伸長生成物であることができる。複数の標的特異的なプライマー(例えば、約20〜約35塩基の標的特異的なシーケンス)を使用して、ライブラリを作成することができる。標的特異的なプライマーは、例えば5’末端に、アダプタシーケンスを含むことができる。
[00166] D. Elongation
[00167] Extension products may be generated from nucleic acid fragments. The extension product can be generated by annealing the primer to the adapter sequence on the 3 'end of the nucleic acid and extending the primer. Such extension products are not target specific. The extension product may be generated by annealing the primer to a target specific sequence within the ss nucleic acid (eg, ssDNA) containing an adapter at the 5 'end and / or the 3' end and extending the primer. it can. Such extension products can be target specific extension products. A plurality of target specific primers (eg, target specific sequences of about 20 to about 35 bases) can be used to create a library. Target specific primers can include an adapter sequence, for example at the 5 'end.

[00168]E.増幅
[00169]場合によっては、全ゲノムPCRは実施されず、それによって表現のバイアスを最小限に抑えることができる。場合によっては、増幅は、溶液中の伸長生成物に対して実施される。場合によっては、シーケンシング前に、溶液中の伸長生成物に対して複数回の増幅が実施される。
[00168] E. amplification
[00169] In some cases, whole genome PCR is not performed, which can minimize expression bias. In some cases, amplification is performed on extension products in solution. In some cases, multiple rounds of amplification are performed on extension products in solution prior to sequencing.

[00170]F.ssDNA断片/ssDNAライブラリの準備(3’末端のアダプタ)
[00171]本明細書において、例えば核酸断片の3’末端にアダプタを添加することによって、ssDNAライブラリを生成する方法、組成物、およびキットを提供する。一本鎖核酸ライブラリは、当該技術において知られている、または本明細書に記載する任意の手段を使用して、二本鎖核酸または一本鎖核酸のサンプルから準備することができる。
[00170] F. Preparation of ssDNA fragment / ssDNA library (3 'end adapter)
[00171] Provided herein are methods, compositions, and kits for generating ssDNA libraries, for example by adding an adapter to the 3 'end of the nucleic acid fragment. Single stranded nucleic acid libraries can be prepared from double stranded nucleic acid or single stranded nucleic acid samples using any means known in the art or described herein.

[00172]サンプル
[00173]開始サンプルは、被験者から得られる生体サンプルであることができる。例示の被験者および生体サンプルについては本明細書に記載する。サンプルは、固体生体サンプル、例えば腫瘍サンプルであることができる。固体生体サンプルは処理することができる。処理は、例えば、ホルマリン溶液中の固定、それに続くパラフィン中の包理を含むことができる(例えば、FFPEサンプルである)。処理は凍結を含むことができる。場合によっては、サンプルは固定も凍結もされない。固定されず凍結されないサンプルは、核酸を保存するように構成された保存溶液中に保存することができる。例示的な保存溶液については本明細書に記載する。いくつかの実施形態では、例えば、酵素処理(例えば、プロテアーゼを用いる)を使用して、非核酸物質を開始材料から除去することができる。サンプルに、均質化、音波処理、フレンチプレス、ダンス、凍結/解凍、またそれに続くことができる遠心分離を行うことができる。遠心分離は、核酸を含む画分を、核酸を含まない画分から分離することができる。場合によっては、サンプルは液体生体サンプルである。例示的な液体生体サンプルについては本明細書に記載する。液体生体サンプルは、血液サンプル(例えば、全血、血漿、または血清)であることができる。全血サンプルを、例えば、参照により本明細書に援用する、Fuss et al.Curr Protoc Immunol(2009)Chapter 7:Unit7.1に詳細に記載されている、Ficoll試薬を使用することによって、無細胞成分(例えば、血漿、血清)および細胞成分に与えることができる。
[00172] Sample
[00173] The starting sample can be a biological sample obtained from a subject. Exemplary subjects and biological samples are described herein. The sample can be a solid biological sample, such as a tumor sample. Solid biological samples can be processed. Treatment can include, for example, fixation in formalin solution followed by embedding in paraffin (eg, is an FFPE sample). Processing can include freezing. In some cases, the sample is neither fixed nor frozen. Samples that are not fixed and not frozen can be stored in a storage solution configured to store nucleic acids. Exemplary storage solutions are described herein. In some embodiments, non-nucleic acid material can be removed from the starting material using, for example, enzymatic treatment (eg, using a protease). The sample can be subjected to homogenization, sonication, French press, dance, freeze / thaw, and subsequent centrifugation. Centrifugation can separate the nucleic acid containing fraction from the nucleic acid free fraction. In some cases, the sample is a liquid biological sample. Exemplary liquid biological samples are described herein. The liquid biological sample can be a blood sample (eg whole blood, plasma or serum). Whole blood samples are described, for example, in Fuss et al., Which is incorporated herein by reference. Curr Protoc Immunol (2009) Chapter 7: By using the Ficoll reagent, which is described in detail in Unit 7.1, it can be given to acellular components (eg, plasma, serum) and cellular components.

[00174]核酸は、当該分野で知られている任意の手段を使用して、生体サンプルから単離することができる。例えば、核酸は、液体抽出(例えば、Trizol、DNAzol)技術を使用して、生体サンプルから抽出することができる。核酸はまた、市販のキット(例えば、Qiagen DNeasyキット、QIAampキット、Qiagen Midiキット、QIAprep spinキット)を使用して抽出することができる。   [00174] Nucleic acids can be isolated from biological samples using any means known in the art. For example, nucleic acids can be extracted from biological samples using liquid extraction (eg, Trizol, DNAzol) techniques. Nucleic acids can also be extracted using commercially available kits (eg, Qiagen DNeasy kit, QIAamp kit, Qiagen Midi kit, QIAprep spin kit).

[00175]核酸は、単なる一例として遠心分離を含む、既知の方法によって凝縮することができる。核酸は、精製の目的で、選択的メンブレン(例えば、シリカ)に結合させることができる。核酸はまた、1000、500、400、300、200、または100塩基対未満の長さの断片など、所望の長さの断片を濃縮することができる。かかるサイズに基づく濃縮は、例えば、PEG誘導沈殿、電気泳動ゲル、またはクロマトグラフィ材料(Huber et al.(1993)Nucleic Acids Res.21:1061−6)、ゲルろ過クロマトグラフィ、TSKゲル(Kato et al.(1984)J.Biochem,95:83−86)を使用して実施することができ、それらの文献を参照により本明細書に援用する。   [00175] Nucleic acids can be condensed by known methods, including by way of example only centrifugation. The nucleic acids can be attached to a selective membrane (eg, silica) for purification purposes. The nucleic acids can also be enriched for fragments of a desired length, such as fragments less than 1000, 500, 400, 300, 200, or 100 base pairs in length. Such size-based enrichment can be performed, for example, using PEG induced precipitation, electrophoresis gel, or chromatography material (Huber et al. (1993) Nucleic Acids Res. 21: 1061-6), gel filtration chromatography, TSK gel (Kato et al. (1984) J. Biochem, 95: 83-86), which documents are incorporated herein by reference.

[00176]生体サンプルから抽出したポリヌクレオチドは、当該分野で知られている任意の方法を使用して、選択的に沈殿または凝縮させることができる。
[00177]核酸サンプルは、標的ポリヌクレオチドを濃縮することができる。標的濃縮は、当該分野で知られている任意の手段によるものであることができる。例えば、核酸サンプルは、標的特異的なプライマーを使用して標的シーケンスを増幅することによって濃縮することができる。標的増幅は、当該分野で知られている任意の方法またはシステムを使用して、デジタルPCRフォーマットで生じることができる。核酸サンプルは、標的選択的オリゴヌクレオチドを不動化させたアレイ上へと標的シーケンスを捕獲することによって、濃縮することができる。核酸サンプルは、標的選択的オリゴヌクレオチドを溶液中または固体支持体上で自由にハイブリダイズすることによって、濃縮することができる。オリゴヌクレオチドは、捕獲試薬による捕獲を可能にする捕獲部分を含むことができる。例示的な捕獲部分および捕獲試薬については本明細書に記載する。場合によっては、核酸サンプルは標的ポリヌクレオチドが濃縮されず、例えば全ゲノムを表す。場合によっては、全ゲノム増幅が実施される。
[00176] Polynucleotides extracted from biological samples can be selectively precipitated or condensed using any method known in the art.
[00177] Nucleic acid samples can be enriched for target polynucleotides. Target enrichment can be by any means known in the art. For example, nucleic acid samples can be enriched by amplifying the target sequence using target specific primers. Target amplification can occur in digital PCR format using any method or system known in the art. The nucleic acid sample can be enriched by capturing the target sequence onto an array immobilized with target selective oligonucleotides. The nucleic acid sample can be concentrated by freely hybridizing the target selective oligonucleotide in solution or on a solid support. The oligonucleotide can include a capture moiety that allows capture by a capture reagent. Exemplary capture moieties and capture reagents are described herein. In some cases, the nucleic acid sample is not enriched for target polynucleotides, and, for example, represents the entire genome. In some cases, whole genome amplification is performed.

[00178]一本鎖核酸ライブラリは、一本鎖DNAライブラリ(ssDNAライブラリ)またはRNAライブラリであることができる。ssDNAライブラリを準備する方法は、二本鎖DNA断片をssDNA断片に変性すること、プライマーシーケンスをssDNA断片の一端上に連結すること、プライマーをハイブリダイズしてプライマードッキングシーケンスにすることを含むことができる。プライマーは、次世代シーケンシングプラットフォームに結合する、アダプタシーケンスの少なくとも一部分を含むことができる。方法は、ハイブリダイズしたプライマーを伸長して、二本鎖を作成することをさらに含むことができ、二本鎖は、元のssDNA断片と伸長プライマー鎖を含む。伸長プライマー鎖は、元のssDNA断片から分離することができる。伸長プライマー鎖を収集することができ、伸長プライマー鎖はssDNAライブラリの要素である。RNAライブラリを準備する方法は、プライマードッキングシーケンスをRNA断片の一端上に連結すること、プライマーをハイブリダイズしてプライマードッキングシーケンスにすることを含むことができる。プライマーは、次世代シーケンシングプラットフォームに結合する、アダプタシーケンスの少なくとも一部分を含むことができる。方法は、ハイブリダイズしたプライマーを伸長して、二本鎖を作成することをさらに含むことができ、二本鎖は、元のRNA断片と伸長プライマー鎖を含む。伸長プライマー鎖は、元のRNA断片から分離することができる。伸長プライマー鎖を収集することができ、伸長プライマー鎖はRNAライブラリの要素である。   [00178] The single stranded nucleic acid library can be a single stranded DNA library (ssDNA library) or an RNA library. The method of preparing the ssDNA library includes denatured double stranded DNA fragments into ssDNA fragments, ligating a primer sequence on one end of the ssDNA fragments, and hybridizing the primers into a primer docking sequence it can. The primer can comprise at least a portion of an adapter sequence that binds to a next generation sequencing platform. The method may further comprise extending the hybridized primers to create a duplex, the duplex comprising the original ssDNA fragment and the extension primer strand. The extension primer strand can be separated from the original ssDNA fragment. The extension primer strand can be collected, the extension primer strand being an element of the ssDNA library. The method of preparing the RNA library can include ligating a primer docking sequence onto one end of the RNA fragment, hybridizing the primers to form a primer docking sequence. The primer can comprise at least a portion of an adapter sequence that binds to a next generation sequencing platform. The method may further comprise extending the hybridized primers to create a duplex, wherein the duplex comprises the original RNA fragment and the extension primer strand. The extension primer strand can be separated from the original RNA fragment. The extension primer strand can be collected, and the extension primer strand is an element of the RNA library.

[00179]dsDNAは、当該分野で知られているかまたは本明細書に記載する任意の手段によって断片化することができる。dsDNAは、物理的手段によって、例えば機械的せん断によって、噴霧化によって、または音波処理によって、Fe(II)−EDTAキレートによる処理などの化学的手段によって、または複数の切断酵素、制限酵素、もしくはフラグメンターゼ(NEB)などの酵素的手段によって断片化することができる。   [00179] dsDNA can be fragmented by any means known in the art or described herein. The dsDNA may be by physical means, for example by mechanical shear, by atomization or by sonication, by chemical means such as treatment with Fe (II) -EDTA chelate, or by multiple cleaving enzymes, restriction enzymes or fragments. It can be fragmented by enzymatic means such as Tase (NEB).

[00180]いくつかの実施形態では、cDNAは、ランダムプライム化逆転写(RNaseH+)を使用して、無作為なサイズのcDNAを生成するRNAから生成される。
[00181]断片サイズ
[00182]核酸断片(例えば、dsDNA断片、RNA、またはランダムサイズcDNA)は、1000bp未満、800bp未満、700bp未満、600bp未満、500bp未満、400bp未満、300bp未満、200bp未満、または100bp未満であることができる。DNA断片は、約40〜100bp、約50〜125bp、約100〜200bp、約150〜400bp、約300〜500bp、約100〜500bp、約400〜700bp、約500〜800bp、約700〜900bp、約800〜1000bp、または約100〜1000bpであることができる。
[00180] In some embodiments, cDNA is generated from RNA that generates random sized cDNA using random primed reverse transcription (RNase H +).
[00181] Fragment size
[00182] The nucleic acid fragment (eg, dsDNA fragment, RNA, or random size cDNA) is less than 1000 bp, less than 800 bp, less than 700 bp, less than 600 bp, less than 500 bp, less than 400 bp, less than 300 bp, less than 200 bp, or less than 100 bp Can. The DNA fragment is about 40 to 100 bp, about 50 to 125 bp, about 100 to 200 bp, about 150 to 400 bp, about 300 to 500 bp, about 100 to 500 bp, about 400 to 700 bp, about 500 to 800 bp, about 700 to 900 bp, about It can be 800-1000 bp, or about 100-1000 bp.

[00183]修復
[00184]dsDNA断片の末端を研磨することができる(例えば、平滑末端化)。DNA断片の末端は、ポリメラーゼを用いた処理によって研磨することができる。研磨には、3’オーバーハング、5’オーバーハングの補充、またはそれらの組み合わせの除去が関与することができる。ポリメラーゼは、校正ポリメラーゼ(例えば、3’から5’のエキソヌクレアーゼ活性)であることができる。校正ポリメラーゼは、例えば、T4 DNAポリメラーゼ、Pol 1 Klenow断片、またはPfuポリメラーゼであることができる。研磨は、当該分野で知られている任意の手段を使用して、損傷したヌクレオチド(例えば、無塩基部位)を除去することを含むことができる。
[00183] Repair
[00184] The ends of ds DNA fragments can be polished (eg, blunt ended). The ends of the DNA fragments can be polished by treatment with a polymerase. Polishing can involve the removal of 3 'overhangs, replenishment of 5' overhangs, or a combination thereof. The polymerase can be a proofreading polymerase (eg, 3 'to 5' exonuclease activity). The proofreading polymerase can be, for example, T4 DNA polymerase, Pol 1 Klenow fragment, or Pfu polymerase. Polishing can include removing damaged nucleotides (eg, abasic sites) using any means known in the art.

[00185]アダプタ
[00186]核酸断片の3’末端に対するアダプタの連結は、断片の3’OH基とアダプタの5’リン酸塩の間に結合を形成することを含むことができる。したがって、5’リン酸塩を核酸断片から除去することによって、2つのライブラリ要素の異常性連結反応を最小限に抑えることができる。したがって、いくつかの実施形態では、5’リン酸塩が核酸断片から除去される。いくつかの実施形態では、5’リン酸塩は、サンプル中の核酸断片の少なくとも50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、または95%超過から除去される。いくつかの実施形態では、実質的に全てのリン酸基が核酸断片から除去される。いくつかの実施形態では、実質的に全てのリン酸塩が、サンプル中の核酸断片の少なくとも50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、または89%超過から除去される。核酸サンプルからのリン酸基の除去は、当該分野で知られている任意の手段によるものであり得る。リン酸基の除去は、易熱性ホスファターゼを用いてサンプルを処理することを含むことができる。いくつかの実施形態では、リン酸基は核酸サンプルから除去されない。いくつかの実施形態では、核酸断片の5’末端に対するアダプタの連結が実施される。
[00185] Adapter
[00186] Ligation of the adapter to the 3 'end of the nucleic acid fragment can include forming a bond between the 3' OH group of the fragment and the 5 'phosphate of the adapter. Thus, by removing the 5 'phosphate from the nucleic acid fragment, the aberrant ligation of the two library elements can be minimized. Thus, in some embodiments, the 5 'phosphate is removed from the nucleic acid fragment. In some embodiments, the 5 'phosphate is at least 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90%, 95% of the nucleic acid fragments in the sample. Or removed from over 95%. In some embodiments, substantially all phosphate groups are removed from the nucleic acid fragment. In some embodiments, substantially all of the phosphate is at least 50%, 55%, 60%, 65%, 70%, 75%, 80%, 85%, 90% of the nucleic acid fragments in the sample. Removed from over 95%, or 89%. Removal of phosphate groups from nucleic acid samples may be by any means known in the art. Removal of the phosphate group can include treating the sample with heat labile phosphatase. In some embodiments, the phosphate group is not removed from the nucleic acid sample. In some embodiments, ligation of the adapter to the 5 'end of the nucleic acid fragment is performed.

[00187]変性
[00188]ssDNAは、当該分野で知られているまたは本明細書に記載する任意の手段によって調製されたdsDNA断片から、一本鎖に変性することによって、調製することができる。dsDNAの変性は、熱変性、塩基性pH中での温置、尿素またはホルムアルデヒドによる変性を含む、当該分野で知られている任意の手段によるものであることができる。
[00187] Degeneration
[00188] ssDNA can be prepared from single-stranded ds DNA fragments prepared from any means known in the art or described herein. Denaturation of dsDNA can be by any means known in the art, including heat denaturation, incubation in basic pH, denaturation with urea or formaldehyde.

[00189]熱変性は、約60℃以上、約65℃以上、約70℃以上、約75℃以上、約80℃以上、約85℃以上、約90℃以上、約95℃以上、または約98℃以上まで、dsDNAサンプルを加熱することによって達成することができる。dsDNAサンプルは、例えば、水浴中での温置、温度制御ヒートブロック、熱サイクラーを含む、当該分野で知られている任意の手段によって加熱することができる。いくつかの実施形態では、サンプルは、0.5、1、2、3、4、5、6、7、8、9、10分間、または10分超、加熱される。   [00189] The heat denaturation is performed at about 60 ° C., about 65 ° C., about 70 ° C., about 75 ° C., about 80 ° C., about 85 ° C., about 90 ° C., about 95 ° C., or about 98 ° C. This can be achieved by heating the dsDNA sample to above ° C. The dsDNA sample can be heated by any means known in the art, including, for example, incubation in a water bath, a temperature controlled heat block, a thermal cycler. In some embodiments, the sample is heated for 0.5, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, or more than 10 minutes.

[00190]塩基性pH中での温置による変性は、例えば、水酸化ナトリウム(NaOH)または水酸化カリウム(KOH)を含む溶液中でdsDNAサンプルを温置することによって達成することができる。溶液は、NaOH約1mM、NaOH約2mM、NaOH約5mM、NaOH約10mM、NaOH約20mM、NaOH約40mM、NaOH約60mM、NaOH約80mM、NaOH約100mM、NaOH約0.2M、NaOH約0.3M、NaOH約0.4M、NaOH約0.5M、NaOH約0.6mM、NaOH約0.7mM、NaOH約0.8mM、NaOH約0.9mM、NaOH約1.0M、またはNaOH約1.0M超を含むことができる。溶液は、KOH約1mM、KOH約2mM、KOH約5mM、KOH約10mM、KOH約20mM、KOH約40mM、KOH約60mM、KOH約80mM、KOH約100mM、KOH約0.2M、KOH約0.5M、KOH約1M、またはKOH約1M超を含むことができる。いくつかの実施形態では、dsDNAサンプルは、0.5、1、2、3、4、5、6、7、8、9、10、15、20、30、40、50、60分間、または60分超、NaOHまたはKOH中で温置される。dsDNAは、酢酸のナトリウム塩もしくはアンモニウム塩を用いて温置して、またはNaOHもしくはKOH温置の後に酢酸を用いて、アルカリ性溶液を中和することができる。   [00190] Incubation denaturation at basic pH can be achieved, for example, by incubating ds DNA samples in a solution containing sodium hydroxide (NaOH) or potassium hydroxide (KOH). The solution is approximately 1 mM NaOH, approximately 2 mM NaOH, approximately 5 mM NaOH, approximately 10 mM NaOH, approximately 20 mM NaOH, approximately 40 mM NaOH, approximately 60 mM NaOH, approximately 80 mM NaOH, approximately 100 mM NaOH, approximately 0.2 M NaOH, and approximately 0.3 M NaOH. , NaOH about 0.4 M, NaOH about 0.5 M, NaOH about 0.6 mM, NaOH about 0.7 mM, NaOH about 0.8 mM, NaOH about 0.9 mM, NaOH about 1.0 M, or NaOH about 1.0 M or more Can be included. The solution is approximately 1 mM KOH, approximately 2 mM KOH, approximately 5 mM KOH, approximately 10 mM KOH, approximately 20 mM KOH, approximately 40 mM KOH, approximately 60 mM KOH, approximately 80 mM KOH, approximately 100 mM KOH, approximately 0.2 M KOH, approximately 0.5 M KOH. , About 1 M KOH, or more than about 1 M KOH. In some embodiments, the dsDNA sample is for 0.5, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 15, 20, 30, 40, 50, 60 minutes, or 60 minutes. Incubate in NaOH or KOH for more than a minute. The dsDNA can be neutralized with sodium or ammonium salt of acetic acid or with NaOH or KOH incubation followed by acetic acid to neutralize the alkaline solution.

[00191]尿素およびホルムアミドなどの化合物は、ヌクレオチド塩基の電気的陰性の中心とH結合を形成することができる官能基を含む。高濃度(例えば、尿素8Mまたはホルムアミド70%)の変性剤の場合、H結合の競合は、変性剤とN塩基との相互作用を相補的塩基間の相互作用よりも優先し、それによって2つのストランドを分離することができる。「分離」という用語は、(例えば、開裂、加水分解、または2つの要素のうち1つの分解による)2つの要素の物理的な分離を指すことができる。   [00191] Compounds such as urea and formamide contain functional groups capable of forming H bonds with the electronegative center of the nucleotide base. In the case of denaturants at high concentrations (eg, urea 8M or formamide 70%), H-bond competition favors the interaction between the denaturant and the N base over the interaction between the complementary bases, whereby the two The strands can be separated. The term "separation" can refer to physical separation of two elements (e.g., by cleavage, hydrolysis, or degradation of one of the two elements).

[00192]核酸断片の3’末端に対するアダプタの連結
[00193]アダプタは、核酸断片(例えば、ssDNA、DNA、RNA)の一方または両方の末端上に連結することができる。アダプタは、5’末端および/または3’末端上に連結することができる。場合によっては、アダプタは核酸断片の3’末端上に連結される。
[00192] Ligation of Adapters to the 3 'End of Nucleic Acid Fragments
[00193] Adapters can be ligated onto one or both ends of nucleic acid fragments (eg, ssDNA, DNA, RNA). Adapters can be ligated onto the 5 'end and / or the 3' end. In some cases, the adapter is ligated onto the 3 'end of the nucleic acid fragment.

[00194]アダプタは、プライマーをアニーリングするためのテンプレートとして作用するシーケンスを含むことができる。アダプタのシーケンスは、NGS(大規模並列シーケンシング)プラットフォームに結合するアダプタシーケンス(NGSアダプタ、例えばフローセルシーケンス)の一部分または全てに対して、少なくとも70%、80%、90%、または100%相補的なシーケンスを含むことができる。アダプタは、NGSアダプタの、少なくとも5、6、7、8、9、10、11、12、13、14、15、20、または20超過の連続するヌクレオチドに対して相補的または同一のシーケンスを含むことができる。場合によっては、アダプタは、NGSアダプタ(例えばフローセルシーケンス)の一部分もしくは全てに対して相補的な、または同一のシーケンスを含まない。   [00194] The adapter can include a sequence that acts as a template for annealing the primers. The sequence of adapters is at least 70%, 80%, 90%, or 100% complementary to a portion or all of the adapter sequences (NGS adapters, eg, flow cell sequences) that bind to the NGS (large scale parallel sequencing) platform Sequences can be included. The adapter comprises a sequence complementary or identical to at least 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 20 or more consecutive nucleotides of the NGS adapter be able to. In some cases, the adapter does not include a sequence that is complementary or identical to part or all of the NGS adapter (eg, flow cell sequence).

[00195]アダプタは5’末端でアデニル化することができる。アダプタは捕獲試薬と錯体を形成することができる、捕獲部分に接合することができる。捕獲部分は、当該分野で知られている任意の手段によって、アダプタオリゴヌクレオチドに接合することができる。捕獲部分/捕獲試薬の対は当該分野で知られている。場合によっては、捕獲試薬は、アビジン、ストレプトアビジン、またはニュートラアビジンであり、捕獲部分はビオチンである。別の場合には、捕獲部分/捕獲試薬の対はジゴキシゲニン/小麦胚細胞凝集素である。   [00195] The adapter can be adenylated at the 5 'end. The adapter can be conjugated to a capture moiety, which can form a complex with the capture reagent. The capture moiety can be conjugated to the adapter oligonucleotide by any means known in the art. Capture moiety / capture reagent pairs are known in the art. In some cases, the capture reagent is avidin, streptavidin or neutravidin and the capture moiety is biotin. In another case, the capture moiety / capture reagent pair is digoxigenin / wheat germ cell agglutinin.

[00196]場合によっては、アダプタは核酸断片に連結される。核酸断片に対するアダプタの連結は、ATP依存型リガーゼによってもたらされる。ATP依存型リガーゼはRNAリガーゼであることができる。RNAリガーゼはATP依存型リガーゼであることができる。RNAリガーゼは、Rnl1またはRnl2ファミリーリガーゼであることができる。Rnl1ファミリーリガーゼは、tRNAの一本鎖切断を修復することができる。例示的なRnl1ファミリーリガーゼとしては、例えば、T4 RNAリガーゼ、サーマス・スコトダクタス・バクテリオファージ(Thermus scitoductus bacteriophage)TS2126(サークリガーゼ)由来の熱安定性RNAリガーゼ1、またはサークリガーゼIIが挙げられる。これらのリガーゼは、ヌクレオチド3−OH求核剤と5’リン酸基の間のホスホジエステル結合のATP依存型形成を触媒することができる。Rnl2ファミリーリガーゼは二本鎖RNAのニックを封止することができる。例示的なRnl2ファミリーリガーゼとしては、例えば、T4 RNAリガーゼ2が挙げられる。RNAリガーゼは、古細菌RNAリガーゼ、例えば、好熱性古細菌メタノバクテリウム属サーモオートトロピカム(MthRnl)由来の古細菌RNAリガーゼであることができる。   [00196] In some cases, the adapter is linked to a nucleic acid fragment. Ligation of the adapter to the nucleic acid fragment is provided by an ATP dependent ligase. The ATP dependent ligase can be an RNA ligase. The RNA ligase can be an ATP dependent ligase. The RNA ligase can be Rnl1 or Rnl2 family ligase. The Rnl1 family ligase can repair single strand breaks of tRNA. Exemplary Rnl 1 family ligases include, for example, T4 RNA ligase, thermostable RNA ligase 1 from Thermus scitoductus bacteriophage TS2126 (Serck ligase), or Circ ligase II. These ligases can catalyze the ATP-dependent formation of phosphodiester bonds between the nucleotide 3-OH nucleophile and the 5 'phosphate group. The Rnl2 family ligase can seal the nick of double stranded RNA. Exemplary Rnl2 family ligases include, for example, T4 RNA ligase 2. The RNA ligase can be an archaebacterial RNA ligase, for example, an archaebacteria RNA ligase from the thermophilic archaebacteria Methanobacterium thermoautotropicum (MthRnl).

[00197]一本鎖核酸断片に対するアダプタの連結は、核酸断片、アダプタ、およびリガーゼを含む反応混合物を調製することを含むことができる。反応混合物を加熱して、ssDNA断片に対するアダプタオリゴヌクレオチドの連結をもたらすことができる。反応混合物は、約50℃、約55℃、約60℃、約65℃、約70℃、または約70℃超まで加熱することができる。反応混合物は約60〜70℃まで加熱することができる。反応混合物は、核酸フラグメントに対するアダプタの連結をもたらすのに十分な時間、加熱することができる。反応混合物は、約5分、約10分、約15分、約20分、約25分、約30分、約35分、約40分、約45分、約50分、約55分、約60分、約70分、約80分、約90分、約120分、約150分、約180分、約210分、約240分、または約240分超にわたって加熱することができる。   [00197] Ligation of the adapter to the single stranded nucleic acid fragment can include preparing a reaction mixture comprising the nucleic acid fragment, the adapter, and the ligase. The reaction mixture can be heated to effect ligation of the adapter oligonucleotide to the ssDNA fragment. The reaction mixture can be heated to about 50 ° C., about 55 ° C., about 60 ° C., about 65 ° C., about 70 ° C., or more than about 70 ° C. The reaction mixture can be heated to about 60-70 ° C. The reaction mixture can be heated for a time sufficient to effect ligation of the adapter to the nucleic acid fragment. The reaction mixture is about 5 minutes, about 10 minutes, about 15 minutes, about 20 minutes, about 25 minutes, about 30 minutes, about 35 minutes, about 40 minutes, about 45 minutes, about 50 minutes, about 55 minutes, about 60 minutes. The heating can be performed for more than about 70 minutes, about 80 minutes, about 90 minutes, about 120 minutes, about 150 minutes, about 180 minutes, about 210 minutes, about 240 minutes, or about 240 minutes.

[00198]アダプタは、混合物中の核酸断片の濃度よりも高い濃度で反応混合物中に存在することができる。いくつかの実施形態では、アダプタは、混合物中の核酸断片の濃度よりも少なくとも10%、20%、30%、40%、60%、60%、70%、80%、90%、100%、または100%超、高い濃度で反応混合物中に存在することができる。アダプタは、混合物中の核酸断片の濃度よりも少なくとも10倍、100倍、1000倍、または10000倍高い濃度で反応混合物中に存在することができる。アダプタは、少なくとも0.1μM、少なくとも0.5μM、少なくとも1μM、少なくとも10μM、またはそれ以上の最終濃度で存在することができる。リガーゼは、飽和量で反応混合物中に存在することができる。   [00198] The adapter can be present in the reaction mixture at a higher concentration than the concentration of nucleic acid fragments in the mixture. In some embodiments, the adapter is at least 10%, 20%, 30%, 40%, 60%, 60%, 70%, 80%, 90%, 100%, or more than the concentration of the nucleic acid fragment in the mixture. Alternatively, it can be present in the reaction mixture at high concentrations of more than 100%. The adapter can be present in the reaction mixture at a concentration at least 10, 100, 1000 or 10000 times higher than the concentration of the nucleic acid fragments in the mixture. The adapter can be present at a final concentration of at least 0.1 μM, at least 0.5 μM, at least 1 μM, at least 10 μM, or more. The ligase can be present in the reaction mixture in a saturating amount.

[00199]それに加えて、反応混合物は、高分子量の不活性分子、例えばMW4000、6000、または8000のPEGを含むことができる。不活性分子は、約0.5%、1%、2%、3%、4%、5%、7.5%、10%、12.5%、15%、17.5%、20%、25%、30%、35%、40%、45%、50%、または50%超の重量/体積の量で存在することができる。いくつかの実施形態では、不活性分子は、約0.5〜2%、約1〜5%、約2〜15%、約10〜20%、約15〜30%、約20〜50%、または50%超の重量/体積の量で存在することができる。   [00199] In addition, the reaction mixture can include high molecular weight inert molecules, such as MW 4000, 6000, or 8000 PEG. Inactive molecules are about 0.5%, 1%, 2%, 3%, 4%, 5%, 7.5%, 10%, 12.5%, 15%, 17.5%, 20%, It can be present in an amount of 25%, 30%, 35%, 40%, 45%, 50%, or more than 50% weight / volume. In some embodiments, the inert molecule is about 0.5-2%, about 1-5%, about 2-15%, about 10-20%, about 15-30%, about 20-50%, and the like. Or may be present in an amount of more than 50% weight / volume.

[00200]核酸分子(例えば、ssDNA断片)に対するアダプタの連結をもたらすのに十分な時間の後、未反応のアダプタを、例えば、分子量カットオフによるろ過、サイズ排除クロマトグラフィ、スピンカラムの使用、ポリエチレングリコール(PEG)を用いた選択的沈殿、シリカもしくはカルボキシレート上のPEGを用いた選択的沈殿、アルコール沈殿、酢酸ナトリウム沈殿、PEGおよび塩沈殿、または高厳密性洗浄など、当該分野で知られている任意の手段で除去することができる。   [00200] After a sufficient time to effect ligation of the adapter to the nucleic acid molecule (eg, ssDNA fragment), unreacted adapter, eg, filtration by molecular weight cutoff, size exclusion chromatography, use of spin columns, polyethylene glycol Selective precipitation with (PEG), selective precipitation with PEG on silica or carboxylate, alcohol precipitation, sodium acetate precipitation, PEG and salt precipitation, or high stringency washing, etc. known in the art It can be removed by any means.

[00201]場合によっては、連結した核酸断片を捕獲することができる。連結した核酸断片の捕獲は、伸長前に、または伸長に続いて行うことができる。連結した核酸断片は固体支持体上に捕獲することができる。捕獲は、アダプタおよび捕獲試薬に接合された捕獲部分を含む錯体の形成を伴う場合がある。捕獲試薬は固体支持体上に不動化することができる。固体支持体は、捕獲部分を含む連結した拡散の量と比較して、余分な捕獲試薬を含むことができる。固体支持体は、捕獲部分を含む連結した拡散断片の総数の5倍、10倍、または100倍のさらに利用可能な結合部位を含むことができる。   [00201] In some cases, linked nucleic acid fragments can be captured. Capture of ligated nucleic acid fragments can be performed prior to, or subsequent to, elongation. The ligated nucleic acid fragments can be captured on a solid support. The capture may involve the formation of a complex that includes the capture moiety conjugated to the adapter and capture reagent. The capture reagent can be immobilized on a solid support. The solid support can include extra capture reagent as compared to the amount of coupled diffusion that includes the capture moiety. The solid support can comprise five, ten, or one hundred times more available binding sites of the total number of linked diffusive fragments including the capture moiety.

[00202]場合によっては、例えば、一本鎖アダプタが一本鎖断片(例えば、ssDNA断片)の3’末端に連結されると、プライマー(例えば、アダプタ特異的なプライマー)が、アダプタを介して、連結された核酸断片に対してハイブリダイズされる。プライマー(例えば、アダプタ特異的なプライマー)は、一本鎖断片の3’末端でアダプタにアニーリングする3’シーケンスを含むことができる。   [00202] In some cases, for example, when a single stranded adapter is ligated to the 3 'end of a single stranded fragment (eg, a ssDNA fragment), a primer (eg, an adapter specific primer) may be inserted through the adapter. , Are hybridized to the ligated nucleic acid fragments. The primers (e.g., adapter specific primers) can include a 3 'sequence that anneals to the adapter at the 3' end of the single stranded fragment.

[00203]プライマー(例えば、アダプタ特異的なプライマー)は、NGSアダプタシーケンスの一部分または全体を、例えばその5’末端において含むことができる。例示的なNGSアダプタシーケンスについては本明細書に記載する。ハイブリダイズしたプライマーを伸長して、元の核酸断片と伸長プライマーとを含む二本鎖を作成することができ、伸長プライマーは、元の核酸断片および一端にあるNGSアダプタシーケンスの逆相補鎖を含む。例示的なNGSアダプタシーケンスについては本明細書に記載する。いくつかの実施形態では、プライマー中のNGSアダプタシーケンスは、NGSプラットフォームの表面結合オリゴヌクレオチド(例えば、フローセルシーケンス)に対して、少なくとも70%、80%、90%、または100%同一であるシーケンスを含む。NGSアダプタシーケンスは、NGSプラットフォームの表面結合オリゴヌクレオチド(例えば、フローセルシーケンス)に対して、少なくとも70%、80%、90%、または100%相補的であるシーケンスを含む。NGSアダプタシーケンスは、NGSプラットフォームが使用するシーケンシングプライマーに対して少なくとも70%、80%、90%、または100%同一であるシーケンスを含むことができる。NGSアダプタシーケンスは、NGSプラットフォームが使用するシーケンシングプライマーに対して少なくとも70%、80%、90%、または100%相補的であるシーケンスを含むことができる。アダプタプライマーの伸長は、校正中温性または高温性DNAによって影響を及ぼすことができる。ポリメラーゼは、5’−3’外ヌクレオチド鎖分解性/内ヌクレオチド鎖分解性(DNAポリメラーゼI、II、III)、または3’−5’外ヌクレオチド鎖分解性(ファミリーAもしくはB DNAポリメラーゼ、DNAポリメラーゼI、T4 DNAポリメラーゼ)活性を有する、好熱性ポリメラーゼであることができる。場合によっては、ポリメラーゼはエキソヌクレアーゼ活性(Taq)を有することができる。ポリメラーゼは、不動化連結断片の線形増幅をもたらして、不動化連結断片の逆相補鎖の複数のコピーを作成することができる。場合によっては、逆相補鎖は、逆相補鎖の1つのコピーのみが作成される。いくつかの実施形態では、伸長プライマー分子は、(例えば、本明細書に記載するような、変性などによって)元の核酸テンプレートから分離される。伸長プライマー分子は溶液中で自由であり、元の核酸テンプレートは固体支持体に対して不動化されたままである。伸長プライマー分子を収穫して、ライブラリ要素がNGSアダプタを備える核酸ライブラリの準備を行うことができる。ライブラリ要素の少なくとも50%、60%、70%、80%、90%、90%超、または実質的に全てがNGSアダプタを含むことができる。   [00203] The primer (eg, an adapter specific primer) can include a portion or all of the NGS adapter sequence, eg, at its 5 'end. Exemplary NGS adapter sequences are described herein. The hybridized primers can be extended to create a duplex comprising the original nucleic acid fragment and the extension primer, the extension primer comprising the original nucleic acid fragment and the reverse complement of the NGS adapter sequence at one end. . Exemplary NGS adapter sequences are described herein. In some embodiments, the NGS adapter sequence in the primer is a sequence that is at least 70%, 80%, 90%, or 100% identical to the surface-bound oligonucleotide (eg, flow cell sequence) of the NGS platform. Including. The NGS adapter sequence comprises a sequence that is at least 70%, 80%, 90%, or 100% complementary to the surface bound oligonucleotide (eg, flow cell sequence) of the NGS platform. The NGS adapter sequence can comprise a sequence that is at least 70%, 80%, 90%, or 100% identical to the sequencing primer used by the NGS platform. The NGS adapter sequence can comprise a sequence that is at least 70%, 80%, 90%, or 100% complementary to the sequencing primers used by the NGS platform. The extension of the adapter primer can be influenced by the thermophilic or thermophilic DNA during calibration. The polymerase is 5'-3 'exonucleotide degradability / inside nucleotide degradation (DNA polymerase I, II, III), or 3'-5' exonucleotide degradation (family A or B DNA polymerase, DNA polymerase I, T4 DNA polymerase can be thermophilic polymerase with activity. In some cases, the polymerase can have exonuclease activity (Taq). The polymerase can provide linear amplification of the immobilized ligation fragment to create multiple copies of the reverse complement of the immobilized ligation fragment. In some cases, the reverse complement strand is made only one copy of the reverse complement strand. In some embodiments, extension primer molecules are separated from the original nucleic acid template (eg, by denaturation, etc., as described herein). The extension primer molecule is free in solution and the original nucleic acid template remains immobilized to the solid support. Extension primer molecules can be harvested to prepare a nucleic acid library where the library element comprises an NGS adapter. At least 50%, 60%, 70%, 80%, 90%, 90%, or substantially all of the library elements can include the NGS adapter.

[00204]生体サンプル(例えば、血液、血漿、尿、大便、粘膜サンプル)から単離した核酸(例えば、DNAまたはRNA)から、核酸ライブラリを準備する例示的な方法を、以下に提供する。得られた核酸は、酵素的または機械的手段によって、約100〜約1000、例えば約100〜約500bpの断片に断片化することができる。核酸はインサイチューで断片化することができる。核酸は、ホルマリン固定パラフィン包理(FFPE)組織または循環DNAから断片化することができる。核酸は、FFPEから単離し、キット(Qiagen、Covaris)によって循環させることができる。核酸はDNAであることができる。DNAは、無作為なサイズのcDNAを生成するランダムプライム化逆転写(RNaseH+)を使用して、同じサンプルからの生体サンプルから単離された、RNAから生成されるcDNAであることができる。核酸はRNAであることができる。断片化DNAは、塩基切除修復酵素(例えば、Endo VIII、ホルムアミドピリミジンDNAグリコシラーゼ(FPG))で処理して、ポリメライゼーションに干渉する可能性がある損傷した塩基を切除することができる。次に、DNAを、校正ポリメラーゼ(例えば、T4 DNAポリメラーゼ)で処理して、末端を研磨し、損傷したヌクレオチド(例えば、無塩基部位)を置換することができる。いくつかの実施形態では、DNAは、末端を研磨し、損傷したヌクレオチドを置換するために、校正ポリメラーゼで処理されない。   [00204] An exemplary method of preparing a nucleic acid library from nucleic acids (eg, DNA or RNA) isolated from biological samples (eg, blood, plasma, urine, stool, mucosal samples) is provided below. The resulting nucleic acid can be fragmented into fragments of about 100 to about 1000, such as about 100 to about 500 bp by enzymatic or mechanical means. Nucleic acids can be fragmented in situ. Nucleic acids can be fragmented from formalin fixed paraffin enveloped (FFPE) tissues or circulating DNA. Nucleic acids can be isolated from FFPE and circulated by the kit (Qiagen, Covaris). The nucleic acid can be DNA. The DNA can be cDNA generated from RNA isolated from a biological sample from the same sample using random primed reverse transcription (RNase H +) to generate random sized cDNA. The nucleic acid can be RNA. Fragmented DNA can be treated with a base excision repair enzyme (eg, Endo VIII, formamide pyrimidine DNA glycosylase (FPG)) to excise damaged bases that may interfere with polymerization. The DNA can then be treated with a proofreading polymerase (eg, T4 DNA polymerase) to polish the ends and replace the damaged nucleotide (eg, an abasic site). In some embodiments, the DNA is not treated with a proofreading polymerase to polish the ends and replace damaged nucleotides.

[00205]核酸(例えば、DNAまたはRNA)を、易熱性ホスファターゼで処理して、リン酸基を核酸から除去することができる。反応混合物を80℃まで10分間加熱して、ホスファターゼおよびポリメラーゼを不活性化し、二本鎖DNAを一本鎖に変性することができる。   [00205] The nucleic acid (eg, DNA or RNA) can be treated with thermophilic phosphatase to remove phosphate groups from the nucleic acid. The reaction mixture can be heated to 80 ° C. for 10 minutes to inactivate the phosphatase and polymerase and denature double stranded DNA into single strands.

[00206]化学的または酵素的にリン酸化したアダプタは、3’末端親和性タグ(例えば、ビオチン)を有するか否かにかかわらず、例えば、平均分子量4000、6000、または8000のポリエチレングリコール10〜20%(w/v)の存在下で、飽和量のATP依存型RNAリガーゼ(例えば、T4 RNAリガーゼ、サークリガーゼ、サークリガーゼIIなどの好熱性)を含む最終濃度0.5μM以上で、長さ約12〜約15塩基を断片化した一本鎖核酸の3’末端に連結することができる。反応は、約60〜約70℃で1時間温置することができる。アダプタは、(i)Illuminaフローセルクラスタ形成のための表面結合オリゴヌクレオチドに対応するシーケンスの全てもしくは一部を含むか、または全く含まず、(ii)親和性リガンドと結合受容体との相互作用の立体障害を最小限に抑える十分な距離(例えば、10原子以上)で、オリゴヌクレオチドにリンクされる連結反応に関与することができない3’末端親和性基を含む。   [00206] The chemically or enzymatically phosphorylated adapter may be, for example, polyethylene glycol 10 to 10 having an average molecular weight of 4000, 6000, or 8000, regardless of whether or not it has a 3 'terminal affinity tag (eg, biotin). In the presence of 20% (w / v), a final concentration of 0.5 μM or more, containing a saturating amount of ATP-dependent RNA ligase (eg thermophilic such as T4 RNA ligase, Circ ligase, Circ ligase II etc.) About 12 to about 15 bases can be linked to the 3 'end of the fragmented single stranded nucleic acid. The reaction can be incubated at about 60 to about 70 ° C. for 1 hour. The adapter contains (i) all or part of the sequence corresponding to surface-bound oligonucleotides for Illumina flow cell clustering or not at all, and (ii) the interaction of the affinity ligand with the binding receptor At sufficient distance (eg, 10 atoms or more) to minimize steric hindrance, it includes a 3 'terminal affinity group that can not participate in the ligation reaction linked to the oligonucleotide.

[00207]アダプタは、当該分野で知られている任意の手段によってアデニル化される。アデニル化アダプタが使用される場合、いくつかの実施形態では、ATP依存型RNAリガーゼはサークリガーゼまたはサークリガーゼIIではない。場合によっては、ATP依存型RNAリガーゼは不要である。反応は、未反応のアダプタを除去するため、サイズによって精製することができる。精製は、(例えば、マイクロコンYM−10もしくはYM3、またはナノセップオメガ)10Kまたは3Kの分子サイズカットオフを用いる精密ろ過ユニットの使用によって達成することができる。アダプタ除去は、例えば10K以下のサイズ排除カットオフを用いる、サイズ排除脱塩カラム(アガロース、ポリアクリルアミド)を通過させることによって、スピンカラムの使用によって、PEG、アルコール、または塩を用いた選択的沈殿によって、高厳密性洗浄で、または変性ゲル電気泳動によって達成することができる。   [00207] The adapter is adenylated by any means known in the art. When an adenylation adapter is used, in some embodiments, the ATP-dependent RNA ligase is not Circligase or Circligase II. In some cases, ATP-dependent RNA ligase is not required. The reaction can be purified by size to remove unreacted adapter. Purification can be achieved by use of a microfiltration unit with a molecular size cutoff of 10K or 3K (e.g. Microcon YM-10 or YM3, or Nanosep Omega). Adapter removal is selective precipitation with PEG, alcohols, or salts by using a spin column, by passing it through a size exclusion desalting column (agarose, polyacrylamide), for example using a size exclusion cut-off of 10 K or less By high stringency washing or by denaturing gel electrophoresis.

[00208]3’末端でアダプタを完全に相補するかまたは部分的に相補するオリゴヌクレオチドプライマーは、Illuminaフローセルオリゴヌクレオチドなど、フローセル上のシーケンスに対応するシーケンスを含むことができ、校正中温性DNAポリメラーゼを使用して、結合ライブラリの逆相補鎖を作成するために使用することができる。5’−3’外ヌクレオチド鎖分解性/内ヌクレオチド鎖分解性(例えば、ファミリーA DNAポリメラーゼ、例えばDNAポリメラーゼI)、または3’−5’外ヌクレオチド鎖分解性(例えば、ファミリーB DNAポリメラーゼ、Vent、Phusion、Pfu、およびそれらの変異体)活性を有する好熱性ポリメラーゼを使用して、ライブラリの線形増幅を可能にすることができる。   [00208] The oligonucleotide primer that fully complements or partially complements the adapter at the 3 'end can include a sequence corresponding to the sequence on the flow cell, such as an Illumina flow cell oligonucleotide, and a proofreading mesophilic DNA polymerase Can be used to generate the reverse complement of the binding library. 5'-3 'exonucleolytic / interonucleolytic (eg Family A DNA polymerase, eg DNA polymerase I), or 3'-5' exonucleolytic (eg Family B DNA polymerase, Vent Thermophilic polymerases with (Phusion, Pfu, and variants thereof) activity can be used to enable linear amplification of the library.

[00209]場合によっては、次に、回収した材料を、バッチモードで3’末端親和性タグに結合することができる、親和性樹脂または支持体に結合させることができる。回収した材料は、タグ付きアダプタ分子の総数の少なくとも10倍の余分な、または100倍のさらに利用可能な結合部位を含む、0.2mlチューブ内の事前洗浄した支持体に入れることができる。   [00209] In some cases, the recovered material can then be attached to an affinity resin or support that can be attached to the 3 '-end affinity tag in batch mode. The recovered material can be placed on a pre-cleaned support in a 0.2 ml tube containing at least 10 times the total number of tagged adapter molecules, or 100 times more available binding sites.

[00210]結合ライブラリのコピーから成る浮遊物を収穫し定量化することができる。
[00211]一例では、dsDNAは断片化される。dsDNA断片をリン酸化させ、熱変性させて一本鎖とすることができる。プライマードッキングシーケンスを含むビオチン標識したアダプタを、核酸断片と接触させることができる。アダプタをssDNA断片の3’末端に連結させて、ライブラリ要素の前駆体を作成することができる。アダプタに対して相補的なシーケンスおよび追加のアダプタシーケンス(例えば、プライマーの5’末端)を含むプライマーを、連結されたアダプタを介してssDNAに対してハイブリダイズすることができる。ハイブリダイズしたプライマーは、テンプレートssDNA断片に沿って伸長して、二本鎖を作成することができる。二本鎖は、固体支持体(例えば、ストレプトアビジンをコーティングしたビーズ)上に不動化することができる。熱変性は、元のssDNA断片をビーズ上で保持した状態で、最終ライブラリ要素を溶液に放出することができる。
[00210] The supernatant consisting of copies of the binding library can be harvested and quantified.
[00211] In one example, dsDNA is fragmented. The ds DNA fragment can be phosphorylated and heat denatured to make it single stranded. A biotin labeled adapter containing a primer docking sequence can be contacted with the nucleic acid fragment. Adapters can be ligated to the 3 'end of ssDNA fragments to generate precursors of library elements. A primer comprising a sequence complementary to the adapter and an additional adapter sequence (eg, the 5 'end of the primer) can be hybridized to ssDNA via the ligated adapter. The hybridized primers can be extended along the template ssDNA fragment to create a duplex. The duplex can be immobilized on a solid support (eg, streptavidin coated beads). Heat denaturation can release the final library element into solution while retaining the original ssDNA fragment on the beads.

[00212]G.ssDNAライブラリの準備(断片の両端に対するアダプタの付着)
[00213]本明細書では、dsDNA断片をssDNAに変性し、ssDNA分子の両端にアダプタシーケンスを連結することを含む、ssDNAライブラリを準備する方法、組成物、およびキットを提供する。dsDNAを断片化する方法を本明細書に記載する。dsDNA断片を変性する方法を本明細書に記載する。
[00212] G. Preparation of ssDNA library (attachment of adapters to both ends of fragments)
[00213] Provided herein are methods, compositions, and kits for preparing ssDNA libraries, comprising denatured dsDNA fragments into ssDNA, and ligating adapter sequences to both ends of ssDNA molecules. Methods for fragmenting dsDNA are described herein. Methods for denaturing ds DNA fragments are described herein.

[00214]方法は、第1の表面結合オリゴヌクレオチド(例えば、シーケンシング機器フローセルオリゴヌクレオチド)に対して、少なくとも70%、80%、90%、もしくは100%相補的または同一であるシーケンスを含む、第1のアダプタを連結することを含むことができる。第1の表面結合オリゴヌクレオチドは、NGSプラットフォーム特異的な表面結合オリゴヌクレオチドであることができる。第1のアダプタは、表面結合オリゴヌクレオチドの少なくとも5、6、7、8、9、10、11、12、13、14、15、20、または20超過の連続するヌクレオチドに対して相補的または同一のシーケンスを含むことができる。第1のアダプタは、第1のシーケンシングプライマーに対して少なくとも70%、80%、90%、または100%相補的なシーケンスをさらに含むことができる。第1のアダプタは、本明細書に記載の方法または当該分野で知られている任意の方法を使用して、ssDNA断片の3’末端に連結することができる。ssDNA断片は、5’リン酸基が欠落している場合がある。第1のアダプタは、ATP依存型リガーゼによって、ssDNA断片の3’末端に連結することができる。第1のアダプタは、3’末端ブロッキング基を含むことができる。3’末端ブロッキング基は、3’末端塩基と別のヌクレオチドとの間で共有結合が形成されるのを防ぐことができる。3’末端ブロッキング基は、ジデオキシ−dNTPまたはビオチンであることができる。第1のアダプタは5’アデニル化することができる。第1のアダプタは、本明細書に記載するように、RNAリガーゼによってssDNA断片の3’末端に連結することができる。RNAリガーゼは、T4もしくはMthから切断または変異したRNAリガーゼであることができる。方法は、第2のアダプタシーケンスをssDNA断片の5’末端に連結することをさらに含むことができる。第2のアダプタシーケンスは第1のアダプタシーケンスとは別個であることができる。第2のアダプタシーケンスは、第2の表面結合オリゴヌクレオチドに対して少なくとも70%相補的なシーケンスを含むことができる。第2の表面結合オリゴヌクレオチドは、NGSプラットフォーム特異的な表面結合オリゴヌクレオチドであることができる。第2のアダプタは、表面結合オリゴヌクレオチドの少なくとも5、6、7、8、9、10、11、12、13、14、15、20、または20超過の連続するヌクレオチドに対して相補的または同一のシーケンスを含むことができる。第2のアダプタは、第2のシーケンシングプライマーに対して少なくとも70%、80%、90%、または100%相補的なシーケンスをさらに含むことができる。第2のアダプタは、RNAリガーゼ、例えば、本明細書に記載するようなサークリガーゼを使用して、ssDNA断片に連結することができる。第1および第2のアダプタは両方とも、第1および第2の表面結合オリゴヌクレオチドに対して少なくとも70%、80%、90%、または100%相補的である。第1および第2のアダプタは両方とも、第1および第2の表面結合オリゴヌクレオチドに対して少なくとも70%、80%、90%、または100%同一である。   [00214] The method comprises a sequence that is at least 70%, 80%, 90%, or 100% complementary or identical to a first surface-bound oligonucleotide (eg, sequencing instrument flow cell oligonucleotide), Coupling of the first adapter can be included. The first surface binding oligonucleotide can be an NGS platform specific surface binding oligonucleotide. The first adapter is complementary or identical to at least 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 20 or more consecutive nucleotides of the surface-bound oligonucleotide Can contain a sequence of The first adapter can further comprise a sequence that is at least 70%, 80%, 90%, or 100% complementary to the first sequencing primer. The first adapter can be ligated to the 3 'end of the ssDNA fragment using the methods described herein or any method known in the art. The ssDNA fragment may lack the 5 'phosphate group. The first adapter can be ligated to the 3 'end of the ssDNA fragment by an ATP-dependent ligase. The first adapter can comprise a 3 'end blocking group. The 3 'end blocking group can prevent the formation of a covalent bond between the 3' terminal base and another nucleotide. The 3 'end blocking group can be dideoxy-dNTP or biotin. The first adapter can be 5 'adenylated. The first adapter can be ligated to the 3 'end of the ssDNA fragment by RNA ligase as described herein. The RNA ligase can be an RNA ligase that has been cleaved or mutated from T4 or Mth. The method can further comprise linking a second adapter sequence to the 5 'end of the ssDNA fragment. The second adapter sequence can be separate from the first adapter sequence. The second adapter sequence can comprise a sequence that is at least 70% complementary to the second surface bound oligonucleotide. The second surface binding oligonucleotide can be an NGS platform specific surface binding oligonucleotide. The second adapter is complementary or identical to at least 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 20 or more consecutive nucleotides of the surface-bound oligonucleotide Can contain a sequence of The second adapter can further comprise a sequence that is at least 70%, 80%, 90%, or 100% complementary to the second sequencing primer. The second adapter can be ligated to the ssDNA fragment using an RNA ligase, for example, a circ ligase as described herein. The first and second adapters are both at least 70%, 80%, 90%, or 100% complementary to the first and second surface bound oligonucleotides. The first and second adapters are both at least 70%, 80%, 90%, or 100% identical to the first and second surface bound oligonucleotides.

[00215]本明細書に記載の方法を使用して作られるssDNAライブラリは、全ゲノムシーケンシングまたは標的シーケンシングに使用することができる。いくつかの実施形態では、本明細書に記載の方法を使用して作られるssDNAライブラリは、シーケンシングの前に対象の標的ポリヌクレオチドのために濃縮される。   [00215] The ssDNA libraries generated using the methods described herein can be used for whole genome sequencing or target sequencing. In some embodiments, a ssDNA library generated using the methods described herein is enriched for the target polynucleotide of interest prior to sequencing.

[00216]H.ssDNAライブラリの形成:標的特異的なライブラリの濃縮
[00217]本明細書では、標的濃縮核酸ライブラリを作成する方法、組成物、およびキットを提供する。方法は、標的選択的オリゴヌクレオチド(TSO)を一本鎖DNA(ssDNA)断片にハイブリダイズして、ハイブリダイゼーション生成物を作成し、伸長して伸長ストランドを作成することを伴うことができる。
[00216] H. Formation of ssDNA library: enrichment of target specific library
[00217] Provided herein are methods, compositions, and kits for producing a target enriched nucleic acid library. The method can involve hybridizing a target selective oligonucleotide (TSO) to a single stranded DNA (ssDNA) fragment to create a hybridization product and extend to create an extended strand.

[00218]標的濃縮の方法は、参照により本明細書に援用する、米国特許出願公開第20120157322号に記載されているようなものであることができる。
[00219]ハイブリダイズおよび増幅は反応混合物中で起こり得る。「反応混合物」という用語は、本明細書で使用するとき、核酸テンプレート分子からの少なくとも1つの単位複製配列を増幅する構成成分の混合物を指すことができる。混合物は、ヌクレオチド(dNTP)、ポリメラーゼ、および標的選択的オリゴヌクレオチドを含むことができる。混合物は、複数の標的選択的オリゴヌクレオチドを含むことができる。混合物は、Trisバッファ、一価塩、およびMg2+をさらに含むことができる。各構成成分の濃度は、当業者によってさらに最適化することができる。反応混合物はまた、非特異的な背景/ブロッキング核酸(例えば、サケ精子DNA)、バイオプリザバティブ(例えば、アジ化ナトリウム)、PCRエンハンサー(例えば、ベタイン、トレハロースなど)、および阻害剤(例えば、RNAse阻害剤)を含むがそれらに限定されない、添加剤を含むことができる。核酸サンプル(例えば、ssDNA断片を含むサンプル)は、反応混合物と混和することができる。反応混合物は、核酸サンプルをさらに含むことができる。
[00218] The method of target enrichment can be as described in US Patent Application Publication 20120157322, which is incorporated herein by reference.
[00219] Hybridization and amplification can occur in the reaction mixture. The term "reaction mixture" as used herein can refer to a mixture of components that amplify at least one amplicon from a nucleic acid template molecule. The mixture can include nucleotides (dNTPs), polymerases, and target selective oligonucleotides. The mixture can include multiple target selective oligonucleotides. The mixture can further include Tris buffer, monovalent salts, and Mg 2+. The concentration of each component can be further optimized by one skilled in the art. The reaction mixture may also contain nonspecific background / blocking nucleic acids (eg salmon sperm DNA), biopreservatives (eg sodium azide), PCR enhancers (eg betaine, trehalose etc), and inhibitors (eg RNAse) Additives can be included, including but not limited to inhibitors). A nucleic acid sample (eg, a sample containing ssDNA fragments) can be mixed with the reaction mixture. The reaction mixture can further comprise a nucleic acid sample.

[00220]ssDNA断片は、ssDNAライブラリの要素であることができる。ssDNAライブラリは、本明細書に記載する方法を使用して作成することができる。ssDNA断片は、第1の末端にあるが第2の末端にはない、第1の一本鎖アダプタシーケンスを含むことができる。第1の末端は5’末端であることができる。TSOは、第1の末端にあるが第2の末端にはない第2の一本鎖アダプタシーケンスを含むことができる。第1の末端は5’末端であることができる。第1のアダプタシーケンスは、第1の表面結合オリゴヌクレオチド(例えば、フローセルオリゴヌクレオチド)に対して、少なくとも70%、80%、90%、もしくは100%相補的または同一であるシーケンスを含むことができる。第1のアダプタシーケンスは、シーケンシングプライマーに対して少なくとも70%、80%、90%、もしくは100%相補的または同一であるシーケンスを含むことができる。第1のアダプタはバーコードシーケンスを含むことができる。第2のアダプタは、第2の表面結合オリゴヌクレオチド(例えば、フローセルオリゴヌクレオチド)に対して、少なくとも70%、80%、90%、または100%同一であるシーケンスを含むことができる。第2のアダプタシーケンスは、シーケンシングプライマーに対して少なくとも70%、80%、90%、または100%同一であるシーケンスをさらに含むことができる。   [00220] ssDNA fragments can be elements of ssDNA libraries. An ssDNA library can be generated using the methods described herein. The ssDNA fragment can comprise a first single stranded adapter sequence at a first end but not at a second end. The first end can be the 5 'end. The TSO can comprise a second single stranded adapter sequence at a first end but not at a second end. The first end can be the 5 'end. The first adapter sequence can comprise a sequence that is at least 70%, 80%, 90%, or 100% complementary or identical to the first surface-bound oligonucleotide (eg, flow cell oligonucleotide) . The first adapter sequence can comprise a sequence that is at least 70%, 80%, 90%, or 100% complementary or identical to the sequencing primer. The first adapter can include a barcode sequence. The second adapter can comprise a sequence that is at least 70%, 80%, 90%, or 100% identical to the second surface bound oligonucleotide (eg, flow cell oligonucleotide). The second adapter sequence can further include a sequence that is at least 70%, 80%, 90%, or 100% identical to the sequencing primer.

[00221]標的選択的オリゴヌクレオチド(TSO)は、対象の標的ポリヌクレオチドに対して少なくとも部分的にハイブリダイズするように設計することができる。TSOは、標的ポリヌクレオチドに対して選択的にハイブリダイズするように設計することができる。TSOは、標的ポリヌクレオチド中のシーケンスに対して少なくとも約70%、75%、80%、85%、90%、95%、または95%超相補的であることができる。TSOは、標的ポリヌクレオチド中のシーケンスに対して100%相補的であることができる。ハイブリダイゼーションは、Tmを含むTSO/標的二本鎖をもたらすことができる。TSO/標的二本鎖のTmは、0〜約100℃、約20〜約90℃、約40〜約80℃、約50〜約70℃、約55〜約65℃、または約62〜約68℃であることができる。TSOは、ポリメラーゼの存在下で伸長生成物の合成をプライミングするのに十分な長さであることができる。TSOの正確な長さおよび組成は、アニーリング反応の温度、プライマーのソースおよび組成、ならびにプライマーとプローブの濃度比を含む、多くの因子に応じて変わり得る。TSOは、例えば、長さ約8〜約50nt、約10〜約40nt、約12〜約24ntであることができる。TSOは長さ約40ntであることができる。場合によっては、標的シーケンスを結合するTSOの部分は、約10〜約50nt、約20〜約50nt、約25〜約40nt、約30〜約40nt、または約35〜約40ntである。   [00221] Target selective oligonucleotides (TSOs) can be designed to at least partially hybridize to a target polynucleotide of interest. TSOs can be designed to selectively hybridize to target polynucleotides. The TSO can be at least about 70%, 75%, 80%, 85%, 90%, 95%, or more than 95% complementary to the sequence in the target polynucleotide. TSO can be 100% complementary to the sequence in the target polynucleotide. Hybridization can result in TSO / target duplexes containing Tm. TSO / target duplex Tm: 0 to about 100 ° C., about 20 to about 90 ° C., about 40 to about 80 ° C., about 50 to about 70 ° C., about 55 to about 65 ° C., or about 62 to about 68 It can be ° C. TSO can be of sufficient length to prime synthesis of extension products in the presence of a polymerase. The exact length and composition of TSO can vary depending on many factors, including the temperature of the annealing reaction, the source and composition of the primers, and the concentration ratio of primer to probe. The TSO can be, for example, about 8 to about 50 nt in length, about 10 to about 40 nt, about 12 to about 24 nt in length. The TSO can be about 40 nt in length. In some cases, the portion of TSO that binds the target sequence is about 10 to about 50 nt, about 20 to about 50 nt, about 25 to about 40 nt, about 30 to about 40 nt, or about 35 to about 40 nt.

[00222]標的シーケンスにアニーリングされたTSOは伸長することができる。核酸ポリメラーゼを利用して増幅を実施することができる。核酸ポリメラーゼはDNAポリメラーゼであることができる。DNAポリメラーゼは熱安定性DNAポリメラーゼであることができる。ポリメラーゼは、AもしくはBファミリーDNA校正ポリメラーゼ(Vent、Pfu、Phusion、およびそれらの変異体)の要素、DNAポリメラーゼホロ酵素(DNAポルIIIホロ酵素)、Taqポリメラーゼ、またはそれらの組み合わせであることができる。   [00222] The TSO annealed to the target sequence can be elongated. Amplification can be performed using a nucleic acid polymerase. The nucleic acid polymerase can be a DNA polymerase. The DNA polymerase can be a thermostable DNA polymerase. The polymerase can be an element of A or B family DNA proofreading polymerases (Vent, Pfu, Phusion, and variants thereof), DNA polymerase holoenzyme (DNA por III holoenzyme), Taq polymerase, or a combination thereof .

[00223]伸長は、変性ステップ、プライマーアニーリングステップ、および合成ステップを通してテンプレートDNAを含む反応混合物を循環させる、自動化プロセスとして実施することができる。自動化プロセスは、PCR熱サイクラーを使用して実施することができる。市販の熱サイクラーシステムとしては、中でも特に、Bio−Rad Laboratories、Life technologies、Perkin−Elmerからのシステムが挙げられる。   [00223] The extension can be performed as an automated process, circulating the reaction mixture containing the template DNA through the denaturation step, the primer annealing step, and the synthesis step. An automated process can be performed using a PCR thermal cycler. Commercially available thermal cycler systems include, among others, systems from Bio-Rad Laboratories, Life technologies, Perkin-Elmer.

[00224]標的シーケンスにアニーリングされたTSOを伸長して、第2のアダプタシーケンス、標的シーケンスの逆相補鎖、および第1のアダプタシーケンスの逆相補鎖を含む伸長鎖を含む、伸長生成物を生成することができる。元のssDNA断片の第1のアダプタシーケンスが、第1の表面結合オリゴヌクレオチドに対して70%以上同一であった場合、伸長鎖は、第1の表面結合オリゴヌクレオチドに対して70%以上相補的である第1のアダプタシーケンスを含むことができ、第1の表面結合オリゴヌクレオチド(例えば、フローセルオリゴヌクレオチド)に対してハイブリダイズすることができる。伸長鎖は標的濃縮ライブラリを含むことができる。   [00224] The TSO annealed to the target sequence is extended to produce an extension product comprising the second adapter sequence, the reverse complementary strand of the target sequence, and the reverse strand of the first adapter sequence. can do. If the first adapter sequence of the original ssDNA fragment is 70% or more identical to the first surface bound oligonucleotide, the extension strand is 70% or more complementary to the first surface bound oligonucleotide And can be hybridized to a first surface bound oligonucleotide (eg, flow cell oligonucleotide). The extension strand can comprise a target enriched library.

[00225]反応混合物中の標的シーケンスにアニーリングされた伸長生成物を変性することができる。場合によっては、伸長鎖には、大規模並列シーケンシング機器または他の用途で使用する前に、増幅が、例えばポリメラーゼ鎖反応が行われる。場合によっては、伸長鎖は、大規模並列シーケンシング機器または他の用途で使用する前は、増幅されない(例えば、PCRなどを使用して、溶液中で増幅される)。場合によっては、伸長鎖には、大規模並列シーケンシング機器で使用する前に、例えば溶液中で、約5〜約50サイクル、約5〜約40サイクル、約5〜約30サイクル、約5〜約25サイクル、約5〜約20サイクル、または約5〜約15サイクル、PCRが行われる。場合によっては、伸長鎖は、大規模並列シーケンシング機器で使用する前に、例えば溶液中で、40サイクル未満、30サイクル未満、25サイクル未満、20サイクル未満、15サイクル未満、14サイクル未満、13サイクル未満、12サイクル未満、11サイクル未満、または10サイクル未満、増幅が、例えばPCRが行われる。伸長鎖は、大規模並列シーケンシング機器で使用する前に、例えば溶液中で、約5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、または20サイクル、例えばPCRによって増幅することができる。増幅は、第1のアダプタシーケンスの相補鎖にアニーリングする第1のプライマー(例えば、標的シーケンスの5’末端にアダプタシーケンスと同一のシーケンスを有するプライマー)と、第2のアダプタシーケンスの相補鎖にアニーリングする第2のプライマー(例えば、TSOの5’末端に第2のアダプタシーケンスと同一のシーケンスを有するプライマー)とを用いて実施することができる。   [00225] The extension product annealed to the target sequence in the reaction mixture can be denatured. In some cases, the extension strand is subjected to amplification, eg, polymerase chain reaction, prior to use in massively parallel sequencing instruments or other applications. In some cases, the extension strand is not amplified (e.g., amplified in solution using PCR, etc.) prior to use in a massively parallel sequencing instrument or other application. In some cases, for example, about 5 to about 50 cycles, about 5 to about 40 cycles, about 5 to about 30 cycles, about 5 to about 50 cycles, for example, in solution, for the extension chain, prior to use in a massively parallel sequencing instrument. PCR is performed for about 25 cycles, about 5 to about 20 cycles, or about 5 to about 15 cycles. In some cases, for example, less than 40 cycles, less than 30 cycles, less than 25 cycles, less than 20 cycles, less than 15 cycles, less than 14 cycles, 13 cycles, for example, in solution prior to use in the massively parallel sequencing instrument Less than cycles, less than 12 cycles, less than 11 cycles, or less than 10 cycles, amplification is performed, eg, PCR. The extension strand may, for example, be approximately 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, in solution prior to use in a massively parallel sequencing instrument. It can be amplified by 19 or 20 cycles, eg PCR. The amplification is annealed to the first strand (e.g., a primer having the same sequence as the adapter sequence at the 5 'end of the target sequence) and the second strand of the second adapter sequence. A second primer (for example, a primer having the same sequence as the second adapter sequence at the 5 'end of TSO) can be used.

[00226]変性した伸長生成物、および/またはそれを増幅したものを、少なくとも第1の表面結合オリゴヌクレオチド(例えば、フローセルシーケンス)を用いて、生成物上で不動化された表面と接触させることができる。伸長鎖は、伸長鎖上の第1のアダプタシーケンスに対してアニーリングすることができる、第1の表面結合オリゴヌクレオチド(例えば、フローセルオリゴヌクレオチド)によって捕獲することができる。   [00226] contacting the denatured extension product, and / or its amplification with a surface immobilized on the product using at least a first surface bound oligonucleotide (eg, flow cell sequence) Can. The extension strand can be captured by a first surface bound oligonucleotide (eg, a flow cell oligonucleotide) that can anneal to a first adapter sequence on the extension strand.

[00227]第1の表面結合オリゴヌクレオチドは、捕獲された伸長鎖の伸長をプライミングすることができる。捕獲された伸長鎖の伸長によって、捕獲した伸長生成物をもたらすことができる。捕獲された伸長生成物は、第1の表面結合オリゴヌクレオチドと、標的シーケンスと、第2の表面結合オリゴヌクレオチドに対して少なくとも70%、80%、90%、または100%以上相補的な第2のアダプタシーケンスの相補鎖とを含むことができる。   [00227] The first surface bound oligonucleotide can prime the elongation of the captured extension strand. Elongation of the captured extension strand can result in the captured extension product. The captured extension product is at least 70%, 80%, 90%, or 100% or more complementary to the first surface-bound oligonucleotide, to the target sequence, and to the second surface-bound oligonucleotide. And the complementary strand of the adapter sequence.

[00228]捕獲された伸長生成物は、第2の表面結合オリゴヌクレオチドにハイブリダイズして、ブリッジを形成することができる。いくつかの実施形態では、ブリッジはブリッジPCRによって増幅される。ブリッジPCR方法は、当該分野で知られている方法を使用して実施することができる。   [00228] The captured extension product can be hybridized to a second surface bound oligonucleotide to form a bridge. In some embodiments, the bridge is amplified by bridge PCR. The bridge PCR method can be performed using methods known in the art.

[00229]I.ライブラリの準備および標的濃縮のためのキット
[00230]本明細書に記載するようなライブラリの準備または本明細書に記載するような標的濃縮の方法を実施するためのキットも提供する。
[00229] I. Kit for library preparation and target enrichment
[00230] Also provided is a kit for performing the preparation of the library as described herein or the method of target enrichment as described herein.

[00231]キットは、dsDNAの修復および化学変性のための試薬を含むことができる。キットは、一本鎖DNAの精製のための試薬を含むことができる。キットは、損傷した塩基を切除するための1つ以上の酵素を含むことができる。キットはホスファターゼを含むことができる。キットはキナーゼを含むことができる。キットは、DNA断片の3’末端をブロックするターミナルトランスフェラーゼおよびジデオキシヌクレオチドを含むことができる。   [00231] The kit can include reagents for repair and chemical modification of dsDNA. The kit can include reagents for the purification of single stranded DNA. The kit can include one or more enzymes to excise damaged bases. The kit can include a phosphatase. The kit can include a kinase. The kit can include terminal transferase and dideoxynucleotides to block the 3 'end of the DNA fragment.

[00232]本明細書では、ssDNAライブラリを準備するためのキットを提供する。キットは、例えば本明細書に記載するような、アダプタを含む。キットは、命令、例えばアダプタをssDNA断片に連結する命令を含むことができる。キットはリガーゼをさらに含むことができる。リガーゼは、Rnl1またはRnl2ファミリーリガーゼであることができる。キットは、アダプタにハイブリダイズすることができるプライマーをさらに含むことができる。アダプタに対してハイブリダイズ可能なプライマーについては、本明細書に記載する。キットは、固体支持体、例えば、捕獲試薬の上に不動化されたビーズを提供することができる。キットは、伸長反応を起こすポリメラーゼを提供することができる。キットは、伸長反応を起こすdNTPを提供することができる。   [00232] Provided herein are kits for preparing ssDNA libraries. The kit comprises an adapter, for example as described herein. The kit can include instructions, eg, instructions for linking an adapter to the ssDNA fragment. The kit can further include a ligase. The ligase can be Rnl1 or Rnl2 family ligase. The kit can further include a primer capable of hybridizing to the adapter. Primers that are hybridizable to the adapter are described herein. The kit can provide a solid support, eg, beads immobilized on a capture reagent. The kit can provide a polymerase that causes the extension reaction. The kit can provide dNTPs that cause the extension reaction.

[00233]キットは、シーケンシングプラットフォームに結合された第1の支持結合オリゴヌクレオチドに対して少なくとも70%、80%、90%、または100%相補的または同一であるシーケンスを含む、第1のアダプタオリゴヌクレオチドと、第1のアダプタとは別個のシーケンスを含む第2のアダプタオリゴヌクレオチドと、RNAリガーゼと、使用のための説明とを含むことができる。第1のアダプタは、3’末端塩基と別のヌクレオチドとの間で共有結合が形成されるのを防ぐ、3’末端ブロッキング基を含むことができる。3’末端ブロッキング基については本明細書に記載する。第1のアダプタは5’アデニル化することができる。第1のアダプタは、シーケンシングプライマーに対して少なくとも70%、80%、90%、もしくは100%相補的または同一であるシーケンスを含むことができる。第2のアダプタは、シーケンシングプライマーに対して少なくとも70%、80%、90%、もしくは100%相補的または同一であるシーケンスを含むことができる。第2のアダプタは、シーケンシングプラットフォームに結合された第2の表面結合オリゴヌクレオチドに対して、少なくとも70%、80%、90%、または100%相補的であるシーケンスを含むことができる。   [00233] The kit comprises a first adapter comprising a sequence that is at least 70%, 80%, 90%, or 100% complementary or identical to a first support bound oligonucleotide coupled to a sequencing platform An oligonucleotide, a second adapter oligonucleotide comprising a sequence distinct from the first adapter, an RNA ligase, and instructions for use can be included. The first adapter can include a 3 'end blocking group that prevents the formation of a covalent bond between the 3' terminal base and another nucleotide. The 3 'end blocking group is described herein. The first adapter can be 5 'adenylated. The first adapter can comprise a sequence that is at least 70%, 80%, 90%, or 100% complementary or identical to the sequencing primer. The second adapter can comprise a sequence that is at least 70%, 80%, 90%, or 100% complementary or identical to the sequencing primer. The second adapter can comprise a sequence that is at least 70%, 80%, 90%, or 100% complementary to a second surface-bound oligonucleotide coupled to a sequencing platform.

[00234]また、標的濃縮DNAライブラリを準備するためのキットが提供される。キットは、アダプタ、リガーゼ、標的特異的なシーケンスに対してハイブリダイズ可能なプライマー、捕獲試薬を含む固体支持体、ポリメラーゼ、dNTP、またはそれらの任意の組み合わせを含むことができる。TSOは、参照により本明細書に援用する、米国特許出願公開第20120157322号に記載されているような、溶液中で自由であるか、またはNGSプラットフォーム上でシーケンシングのために結合された固体支持体上で不動化することができる。   [00234] Also provided is a kit for preparing a target enriched DNA library. The kit can comprise an adapter, a ligase, a primer capable of hybridizing to a target specific sequence, a solid support comprising a capture reagent, a polymerase, dNTPs, or any combination thereof. TSO is free in solution, or as solid support coupled for sequencing on an NGS platform, as described in US Patent Application Publication 20120157322, which is incorporated herein by reference. It can be immobilized on the body.

[00235]本明細書で提供するキットは、パッケージング材料を含むことができる。「パッケージング材料」という用語は、キットの構成要素を収容する物理的構造を指すことができる。パッケージング材料は、キットの構成要素の滅菌性を維持することができ、かかる目的で一般に使用される材料(例えば、紙、波形繊維、ガラス、プラスチック、フォイル、アンプルなど)で作ることができる。キットはまた、緩衝剤、防腐剤、またはタンパク質/核酸安定化剤を含むことができる。   [00235] The kits provided herein can include packaging material. The term "packaging material" can refer to a physical structure that contains the components of the kit. The packaging material can maintain the sterility of the components of the kit and can be made of materials commonly used for such purposes (eg, paper, corrugated fibers, glass, plastics, foils, ampoules, etc.). The kit can also include buffers, preservatives, or protein / nucleic acid stabilizers.

[00236]本明細書で提供する開示は、当該分野内にある分子生物学の技術、微生物学の技術、および組換えDNA技術を採用することを含むことができる。例えば、Sambrook,Fritsch & Maniatis,Molecular Cloning:A Laboratory Manual,Fourth Edition(2012);Oligonucleotide Synthesis(M.J.Gait,ed.,1984);Nucleic Acid Hybridization(B.D.Hames & S.J.Higgins,eds.,1984);A Practical Guide to Molecular Cloning(B.Perbal,1984);およびMethods in Enzymologyシリーズ(Academic Press,Inc.)を参照のこと。本明細書で上記および下記の両方において言及する全ての特許、特許出願、および刊行物を、参照により本明細書に援用する。
IX.患者モニタリング
[00237]本明細書で提供するコンピューティングシステム、ソフトウェア媒体、方法、およびキットを、患者のモニタリング、例えば縦断的アッセイに使用することができる。方法は、初発腫瘍サンプル、例えばホルマリン固定パラフィン包理(FFPE)サンプル、細針吸引(FNA)生検、コア針生検(CNB)、および/または無細胞サンプル(例えば、無細胞血漿サンプル)からの、1つ以上の遺伝子のシーケンシング、例えば大規模並列シーケンシング(次世代シーケンシング)を含むことができる。初期サンプルは、被験者ががん治療を受ける前に被験者から得たサンプルであることができる。血漿を初期サンプルとして使用した場合、サンプルから使用されるDNAの量は、DNA約1ngであることができる。血漿を初期サンプルとして使用した場合、血漿の量は約3mLであることができる。場合によっては、固形腫瘍サンプル(例えば、FFPEサンプル、FNAサンプル、またはCNBサンプル)のみがシーケンシングのために、被験者ががん治療を受ける前に被験者から得られ、サンプルからの核酸がシーケンシングされる。場合によっては、流体サンプル(例えば、血漿)のみがシーケンシングのために、被験者ががん治療を受ける前に被験者から得られ、核酸は流体(例えば、血漿)サンプルからシーケンシングされる。場合によっては、固形腫瘍サンプルおよび流体サンプル(例えば、血漿)の両方がシーケンシングのために、被験者ががん治療を受ける前に被験者から得られ、核酸は、固形腫瘍サンプルおよび流体(例えば、血漿)サンプルからシーケンシングされる。被験者ががん治療を受ける前に得た、固形腫瘍サンプルおよび流体サンプルからのシーケンシングデータを、比較することができる。場合によっては、被験者ががん治療を受ける前に得た、固形腫瘍サンプルおよび流体サンプルからのシーケンシングデータは比較されない。
[00236] The disclosure provided herein can include employing molecular biology techniques, microbiology techniques, and recombinant DNA techniques within the skill of the art. For example, Sambrook, Fritsch & Maniatis, Molecular Cloning: A Laboratory Manual, Fourth Edition (2012); Oligonucleotide Synthesis (M. J. Gait, ed., 1984); Nucleic Acid Hybridization (B. D. Hames & S. J. Higgins, eds., 1984); A Practical Guide to Molecular Cloning (B. Perbal, 1984); and Methods in Enzymology series (Academic Press, Inc.). All patents, patent applications, and publications mentioned herein, both supra and infra, are hereby incorporated by reference.
IX. Patient monitoring
[00237] The computing systems, software media, methods, and kits provided herein can be used for patient monitoring, eg, longitudinal assays. Methods are from primary tumor samples such as formalin fixed paraffin embedded (FFPE) samples, fine needle aspiration (FNA) biopsies, core needle biopsies (CNB), and / or cell free samples (eg, cell free plasma samples) , Sequencing of one or more genes, such as massively parallel sequencing (next generation sequencing). The initial sample can be a sample obtained from the subject prior to the subject undergoing cancer treatment. When plasma is used as the initial sample, the amount of DNA used from the sample can be about 1 ng of DNA. When plasma is used as an initial sample, the volume of plasma can be about 3 mL. In some cases, only solid tumor samples (eg, FFPE samples, FNA samples, or CNB samples) are obtained from the subject prior to the subject receiving cancer treatment for sequencing, and nucleic acids from the sample are sequenced. Ru. In some cases, only the fluid sample (eg, plasma) is obtained from the subject for sequencing prior to the subject receiving cancer treatment, and the nucleic acid is sequenced from the fluid (eg, plasma) sample. In some cases, both a solid tumor sample and a fluid sample (eg, plasma) are obtained from the subject for sequencing prior to the subject being treated for cancer, the nucleic acid is a solid tumor sample and fluid (eg, plasma) ) Sequenced from a sample. Sequencing data from solid tumor and fluid samples obtained before the subject receives cancer treatment can be compared. In some cases, sequencing data from solid tumor and fluid samples obtained before the subject receives cancer treatment is not compared.

[00238]サンプル(例えば、初期サンプル)中でシーケンシングされる遺伝子の数は、およそまたは少なくとも1、5、10、20、30、40、50、60、70、80、90、96、100、110、120、129、130、140、150、160、170、180、190、200、300、400、500、600、700、800、900、またはそれ以上の遺伝子であることができる。シーケンシングは、修正臨床検査室改善法(CLIA)認可済みの実験室、および/または米国病理医協会(CAP)認可済みの実験室で行うことができる。シーケンシングデータの解析(例えば、バイオインフォマティックス)は、CLIAおよび/またはCAP認可済みの実験室で行うことができる。シーケンシングした遺伝子は、以下のうち1つ以上であることができる。ABCA1、BRAF、CHD5、EP300、FLT1、ITPA、MYC、PIK3R1、SKP2、TP53、ABCA7、BRCA1、CHEK1、EPHA3、FLT3、JAK1、MYCL1、PIK3R2、SLC19A1、TP73、ABCB1、BRCA2、CHEK2、EPHA5、FLT4、JAK2、MYCN、PKHD1、SLC1A6、TPM3、ABCC2、BRIP1、CLTC、EPHA6、FN1、JAK3、MYH2、PLCB1、SLC22A2、TPMT、ABCC3、BUB1B、COL1A1、EPHA7、FOS、JUN、MYH9、PLCG1、SLCO1B3、TPO、ABCC4、Clorf144、COPS5、EPHA8、FOXO1、KBTBD11、NAV3、PLCG2、SMAD2、TPR、ABCG2、CABLES1、CREB1、EPHB1、FOXO3、KDM6A、NBN、PML、SMAD3、TR10、ABL1、CACNA2D1、CREBBP、EPHB4、FOXP4、KDR、NCOA2、PMS2、SMAD4、TRRAP、ABL2、CAMKV、CRKL、EPHB6、GAB1、KIT、NEK11、PPARG、SMARCA4、TSC1、ACVR1B、CARD11、CRLF2、EPO、GATA1、KLF6、NF1、PPARGC1A、SMARCB1、TSC2、ACVR2A、CARM1、CSF1R、ERBB2、GLI1、KLHDC4、NF2、PPP1R3A、SMO、TTK、ADCY9、CAV1、CSMD3、ERBB3、GLI3、KRAS、NKX2-1、PPP2R1A、SOCS1、TYK2、AGAP2、CBFA2T3、CSNK1G2、ERBB4、GNA11、LMO2、NOS2、PPP2R1B、SOD2、TYMS、AKT1、CBL、CTNNA1、ERCC1、GNAQ、LRP1B、NOS3、PRKAA2、SOS1、UGT1A1、AKT2、CCND1、CTNNA2、ERCC2、GNAS、LRP2、NOTCH1、PRKCA、SOX10、UMPS、AKT3、CCND2、CTNNB1、ERCC3、GPR124、LRP6、NOTCH2、PRKCZ、SOX2、USP9X、ALK、CCND3、CYFIP1、ERCC4、GPR133、LTK、NOTCH3、PRKDC、SP1、VEGF、ANAPC5、CCNE1、CYLD、ERCC5、GRB2、MAB1B1、NPM1、PTCH1、SPRY2、VEGFA、APC、CD40LG、CYP19A1、ERCC6、GSK3B、MAP2K1、NQO1、PTCH2、SRC、VHL、APC2、CD44、CYP1B1、ERG、GSTP1、MAP2K2、NR3Cl、PTEN、ST6GAL2、WRN、AR、CD79A、CYP2C19、ERN2、GUCY1A2、MAP2K4、NRAS、PTGS2、STAT1、WT1、ARAF、CD79B、CYP2C8、ESR1、HDAC1、MAP2K7、NRP2、PTPN11、STAT3、XPA、ARFRP1、CDC42、CYP2D6、ESR2、HDAC2、MAP3K1、NTRK1、PTPRB、STK11、XPC、ARID1A、CDC42BPB、CYP3A4、ETV4、HGF、MAPK1、NTRK2、PTPRD、SUFU、ZFY、ATM、CDC73、CYP3A5、EWSR1、HIF1A、MAPK3、NTRK3、RAD50、SULT1A1、ZNF521、ATP5A1、CDH1、DACH2、EXT1、HM13、MAPK8、OMA1、RAD51、SUZ12、ATR、CDH10、DCC、EZH2、HMGA1、MARK3、OR10R2、RAFT、TAF1、AURKA、CDH2、DCLK3、FANCA、HNF1A、MCL1、PAK3、RARA、TBX22、AURKB、CDH2O、DDB2、FANCD2、HOXA3、MDM2、PARP1、RB1、TCF12、BAI3、CDH5、DDB2、FANCE、HOXA9、MDM4、PAX5、REM1、TCF3、BAP1、CDK2、DGKB、FANCF、HRAS、MECOM、PCDH15、RET、TCF4、BARD1、CDK4、DGKZ、FAS、HSP90AA1、MEN1、PCDH18、RICTOR、TEK、BAX、CDK6、DIRAS3、FBXW7、IDH1、MET、PCNA、RIPK1、TEP1、BCL11A、CDK7、DLG3、FCGR3A、IDH2、MITF、PDGFA、ROR1、TERT、BCL2、CDK8、DLL1、FES、IFNG、MLH1、PDGFB、ROR2、TET2、BCL2A1、CDKN1A、DNMT1、FGFR1、IGF1R、MLL、PDGFRA、ROS1、TGFBR2、BCL2L1、CDKN1B、DNMT3A、FGFR2、IGF2R、MLL3、PDGFRB、RPS6KA2、THBS1、BCL2L2、CDKN2A、DNMT3B、FGFR3、IKBKE、MPL、PDZRN3、RPTOR、TNFAIP3、BCL3、CDKN2B、DOT1L、FGFR4、IKZF1、MRE11A、PHLPP2、RSPO2、TNKS、BCL6、CDKN2C、DPYD、FH、IL2RG、MSH2、PIK3C3、RSPO3、TNKS2、BCR、CDKN2D、E2F1、FHOD3、INHBA、MSH6、PIK3CA、RUNX1、TNNI3K、BIRC5、CDX2、EED、FIGF、INSR、MTHFR、PIK3CB、SDHB、TNR、BIRC6、CEBPA、EGF、FLG2、IRS1、MTOR、PIK3CD、SF3B1、TOP1、BLM、CERK、EGFR、FLNC、IRS2、MUTYH、PIK3CG、SHC1、およびTOP2A。   [00238] The number of genes to be sequenced in a sample (eg, an initial sample) is approximately or at least 1, 5, 10, 20, 30, 40, 50, 60, 70, 80, 90, 96, 100, 110, 120, 129, 130, 140, 150, 160, 170, 180, 190, 200, 300, 400, 500, 600, 700, 800, 900, or more genes. Sequencing can be performed in a modified clinical laboratory improvement (CLIA) approved laboratory and / or an American Pathologists Association (CAP) approved laboratory. Analysis of sequencing data (eg, bioinformatics) can be performed in CLIA and / or CAP approved laboratories. The sequenced gene can be one or more of the following: ABCA1, BRAF, CHD5, EP300, FLT1, ITPA, MYC, PIK3R1, SKP2, TP53, ABCA7, BRCA1, CHEK1, EPHA3, FLT3, JAK1, MYCL1, PIK3R2, SLC19A1, TP73, ABCB1, BRCA2, BRCA2, BRCA2, BRCA2 JAK2, MYCN, PKHD1, SLC1A6, TPM3, ABCC2, BRIP1, CLTC, EPHA6, FN1, JAK3, MYH2, PLCB1, SLC22A2, TPMT, ABCC3, BUB1B, COL1A1, EPHA7, FOS, JUN, MYH9, PLCG1SL0, SL3 ABCC4, Chlorf144, COPS5, EPHA8, FOXO1, KBTBD11, NAV3, PLCG2 SMAD2, TPR, ABCG2, CABLES1, CREB1, EPHB1, FOXO3, KDM6A, NBN, PML, SMAD3, TR10, ABL1, CACNA2D1, CREBBP, EPHB4, FOXP4, KDR, NCOA2, PMS2, SMAD4, TRRAP, ABL2CRK, KBL EPHB6, GAB1, KIT, NEK11, PPARG, SMARCA4, TSC1, ACVR1B, CARD11, CRLF2, EPO, GATA1, KLF6, NF1, PPARGC1A, SMARCB1, TSC2, ACVR2A, CARM1, CSF1R, ERBB2, GLI1, KLHDC4, NF2 SMO, TTK, ADCY9, CAV1, CSMD3, ERBB3, GLI3, KRA , NKX2-1, PPP2R1A, SOCS1, TYK2, AGAP2, CBFA2T3, CSNK1G2, ERNK4, GNA11, LMO2, NOS2, PPP2R1B, SOD2, TYMS, AKT1, CBL, CTNNA1, ERCC1, GNAQ, LRP1 BNOS, , AKT2, CCND1, CTNNA2, ERCC2, GNAS, LRP2, NOTCH1, PRKCA, SOX10, UMPS, AKT3, CCND2, CTNNB1, ERCC3, GPR124, LRP6, NOTCH2, PRKCZ, SOX2, USP9X, ALK, CCND3, CYFIP1 , LTK, NOTCH3, PRKDC, SP1, VEGF, ANAPC5, CCNE1, YLD, ERCC5, GRB2, MAB1B1, NPM1, PTCH1, SPRY2, VEGFA, APC, CD40LG, CYP19A1, ERCC6, GSK3B, MAP2K1, NQO1, PTCH2, SRC, VHL, APC2, CD44, CYP1B1, ERG, GSTP1, MAP2K2, NR3Cl PTEN, ST6GAL2, WRN, AR, CD79A, CYP2C19, ERN2, GUCY1A2, MAP2K4, NRAS, PTGS2, STAT1, WT1, ARAF, CD79B, CYP2C8, ESR1, HDAC1, MAP2K7, NRP2, NRP2, STAT3, XPA, ARFRP1, CDC42, CYP2D6, ESR2, HDAC2, MAP3K1, NTRK1, PTPRB, STK11, XP C, ARID1A, CDC42BPB, CYP3A4, ETV4, HGF, MAPK1, NTRK2, PTPRD, SUFU, ZFY, ATM, CDC73, CYP3A5, EWSR1, HIF1A, MAPK3, NTRK3, RAD50, SULT1A1, ZNF521, ATP5A1, CDH1, DACH1, DACH1 HM13, MAPK8, OMA1, RAD51, ATR, CDH10, DCC, EZH2, HMGA1, MARK3, OR10R2, RAFT, TAF1, AURKA, CDH2, DCLK3, FANCA, HNF1A, MCL1, PAK3, RARA, TBX22, AURKB, CDH2O DDB2, FANCD2, HOXA3, MDM2, PARP1, RB1, TCF12, BAI3, CDH5, DB2, FANCE, HOXA9, MDM4, PAX5, REM1, TCF3, BAP1, CDK2, DGKB, FANCF, HRAS, MECOM, PCDH15, RET, TCF4, BARD1, CDK4, DGKZ, FAS, HSP90AA1, MEN1, PCDH18, RICTOR, TEK, BAX, CDK6, DIRAS3, FBXW7, IDH1, MET, PCNA, RIPK1, TEP1, BCL11A, CDK7, DLG3, FCGR3A, IDH2, MITF, PDGFA, ROR1, TERT, BCL2, CDK8, DLL1, FES, IFNG, MLH1, PDGFB ROR2, TET2, BCL2A1, CDKN1A, DNMT1, FGFR1, IGF1R, MLL, PDGFRA, ROS1, TGFBR2 BCL2L1, CDKN1B, DNMT3A, FGF2R, MLL3, PDGFRB, RPS6KA2, THBS1, BCL2L2, CDKN2A, DNMT3B, FGFR3, IPL, PDZRN3, RPTOR, TNFAIP3, BCL3HJT7G7 RSPO2, TNKS, BCL6, CDYD2, FH, IL2RG, MSH2, PIK3C3, RSPO3, TNKS2, BCR, CDKN2D, E2F1, FHOD3, INHBA, MIK6, PIK3CA, RUNX1, TNNI3K, BIRC5, CDX, EDS MTHFR, PIK3CB, SDHB, TNR, BIRC6, CEBPA , EGF, FLG2, IRS1, MTOR, PIK3CD, SF3B1, TOP1, BLM, CERK, EGFR, FLNC, IRS2, MUTYH, PIK3CG, SHC1, and TOP2A.

[00239]シーケンスデータを使用して、遺伝子における突然変異のプロファイルを判定することができる。突然変異のプロファイルは報告に列挙することができる。報告は、介護者に、または1つ以上のサンプルを取った被験者に提供することができる。報告は、突然変異のプロファイルに基づいて、可能な治療の選択肢を示すことができる。   [00239] Sequence data can be used to determine the profile of mutations in a gene. Mutation profiles can be listed in the report. The report can be provided to a caregiver or to a subject who has taken one or more samples. The report can indicate possible treatment options based on the mutation profile.

[00240]後続サンプルは、例えば、初期サンプルにおいてシーケンシングされた1つ以上の遺伝子をモニタリングするため、初期サンプルを得た後に被験者から得ることができる。複数の後続サンプルを被験者から得ることができる(例えば、およそまたは少なくとも2、3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90、100サンプル)。被験者からの後続サンプルは、流体サンプル、例えば血漿サンプル、または固形腫瘍からのサンプルであることができる。核酸、例えば無細胞核酸、例えば後続サンプルからの無細胞DNAを解析することができる。後続サンプルからの核酸は、例えば、大規模並列シーケンシング(次世代シーケンシング)などのシーケンシングによって解析することができる。後続サンプルの核酸は、例えばPCR、例えばデジタルPCR(dPCR)、例えば液滴デジタルPCR(例えば、ddPCR)の増幅によって解析することができる。後続サンプルの核酸は、増幅(例えばdPCR、例えばddPCR)およびシーケンシング、例えば大規模並列シーケンシング(次世代シーケンシング)の両方によって解析することができる。   [00240] Subsequent samples can be obtained from the subject after obtaining the initial sample, eg, to monitor one or more genes sequenced in the initial sample. Multiple subsequent samples can be obtained from the subject (e.g., approximately or at least 2, 3, 4, 5, 6, 7, 8, 9, 10, 20, 30, 40, 50, 60, 70, 80, 90 , 100 samples). The subsequent sample from the subject can be a fluid sample, such as a plasma sample, or a sample from a solid tumor. Nucleic acids, such as cell free nucleic acids, such as cell free DNA from subsequent samples can be analyzed. Nucleic acids from subsequent samples can be analyzed by sequencing, eg, massively parallel sequencing (next-generation sequencing). The nucleic acid of the subsequent sample can be analyzed, for example, by amplification of PCR, eg digital PCR (dPCR), eg droplet digital PCR (eg ddPCR). The nucleic acid of subsequent samples can be analyzed by both amplification (eg dPCR, eg ddPCR) and sequencing, eg massively parallel sequencing (next generation sequencing).

[00241]後続サンプルは、規則的間隔または不規則間隔で被験者から得ることができる。後続サンプルは、毎日、週1回、月2回、月1回、3ヶ月に1回、半年に1回、または1年に1回、被験者から得ることができる。   [00241] Subsequent samples can be obtained from the subject at regular or irregular intervals. Subsequent samples can be obtained from the subject daily, once a week, twice a month, once a month, once every three months, once a half year, or once a year.

[00242]場合によっては、後続サンプルは、シーケンシングが初期サンプル中で特定された遺伝子の突然変異または変質を検出するのに十分な感度を提供しなくなるまで、シーケンシングによって解析することができる。例えば、突然変異は、初期固形腫瘍サンプルまたは初期無細胞サンプル(例えば、血漿)からの核酸のシーケンシング(例えば、Illumina(登録商標)MiSeqを使用する)によって、遺伝子中で特定することができ、シーケンシングを使用して、後続サンプル(例えば流体サンプル、例えば血漿)の遺伝子中に突然変異が存在するか否かを検出することができ、シーケンシングが後続サンプルの遺伝子中の突然変異をそれ以上検出できなくなった場合、増幅ベースのアッセイ(例えばdPCR、例えば、Bio−Rad機器QX200(商標)Droplet Digital(商標)PCRシステムなどを使用する、ddPCR)を使用して、後続サンプルの遺伝子中に突然変異が存在するか否かを検出することができる。場合によっては、増幅ベースの方法、例えばdPCR、例えばddPCRは、シーケンシングベースの方法よりも高い感度を有し得る。場合によっては、初期サンプルで検出された突然変異は、シーケンシングによって解析される後続サンプルでは検出されなくなるが、増幅、例えばddPCRによって、解析される後続サンプルで検出される。場合によっては、初期サンプル中に存在する突然変異は、シーケンシングによって解析される後続サンプルでは検出されなくなり、増幅(例えば、ddPCR)によって解析される後続サンプルでも検出されなくなる。   [00242] In some cases, subsequent samples can be analyzed by sequencing until sequencing no longer provides sufficient sensitivity to detect mutations or alterations in the identified gene in the initial sample. For example, mutations can be identified in genes by sequencing of nucleic acids from early solid tumor samples or early cell free samples (eg, plasma) (eg, using Illumina® MiSeq), Sequencing can be used to detect whether a mutation is present in the gene of the subsequent sample (eg fluid sample, eg plasma), sequencing further the mutation in the gene of the subsequent sample If it becomes undetectable, the amplification based assay (eg, dPCR, eg, ddPCR using Bio-Rad instrument QX 200TM Droplet DigitalTM PCR system, etc.,) suddenly in the gene of subsequent samples Whether or not a mutation is present can be detected. In some cases, amplification based methods such as dPCR, eg ddPCR, may have higher sensitivity than sequencing based methods. In some cases, mutations detected in the initial sample will not be detected in subsequent samples analyzed by sequencing, but will be detected in subsequent samples analyzed by amplification, eg ddPCR. In some cases, mutations present in the initial sample will not be detected in subsequent samples analyzed by sequencing and will not be detected in subsequent samples analyzed by amplification (eg ddPCR).

[00243]後続サンプル中で解析される遺伝子の数は、初期サンプル中で解析される遺伝子の数よりも少ない数、初期サンプル中で解析されるのと同じ数、または初期サンプル中で解析される遺伝子の数よりも多い数であり得る。後続サンプル中で解析される遺伝子は、初期サンプル中で解析される遺伝子の部分集合であり得る。後続サンプル中で解析される遺伝子は、初期サンプル中で特定される突然変異のプロファイル(個別の変異体のプロファイル)に基づくものであり得る。後続サンプル中で解析される遺伝子の数は、およそまたは少なくとも1、5、10、20、30、40、50、60、70、80、90、96、100、110、120、129、130、140、150、160、170、180、190、200、300、400、500、600、700、800、900、またはそれ以上の遺伝子であることができる。場合によっては、後続サンプル中で解析される遺伝子の数は、初期サンプル中で解析される遺伝子の数よりも多数であり得る。後続サンプル中でモニタリングされる遺伝子を解析して、がんをモニタリングし、治療の有効性をモニタリングし、がんの進化を検出し、がんの再発を検出し、がんの再燃を検出し、またはがんの進行を検出することができる。   [00243] The number of genes analyzed in the subsequent sample is less than the number of genes analyzed in the initial sample, the same number as analyzed in the initial sample, or analyzed in the initial sample It may be more than the number of genes. Genes analyzed in subsequent samples may be a subset of genes analyzed in initial samples. The genes analyzed in subsequent samples may be based on the profile of mutations identified in the initial sample (profiles of the individual variants). The number of genes analyzed in subsequent samples is approximately or at least 1, 5, 10, 20, 30, 40, 50, 60, 70, 80, 90, 96, 100, 110, 120, 129, 130, 140 , 150, 160, 170, 180, 190, 200, 300, 400, 500, 600, 700, 800, 900, or more genes. In some cases, the number of genes analyzed in subsequent samples may be greater than the number of genes analyzed in initial samples. Analyze genes monitored in subsequent samples to monitor cancer, monitor treatment efficacy, detect cancer evolution, detect cancer recurrence, detect cancer relapse Or can detect the progression of the cancer.

[00244]後続サンプルは、被験者におけるがんの期間にわたって解析することができる。がんの再発が後続サンプルに置いて特定された場合、第2のサンプルを被験者から得て、シーケンシングを行うことができる。第2のサンプルは固体サンプルまたは流体サンプル(例えば、無細胞サンプル)であることができ、被験者から得て、シーケンシング、例えば大規模並列シーケンシング(次世代シーケンシング)を行って、突然変異のプロファイルを判定することができる。場合によっては、第2のサンプルは固形腫瘍サンプルであり、固形腫瘍サンプルからの核酸のシーケンシングが行われる。   [00244] Subsequent samples can be analyzed over the period of cancer in the subject. If a cancer recurrence is identified in a subsequent sample, a second sample can be obtained from the subject and sequencing can be performed. The second sample can be a solid sample or a fluid sample (eg, a cell free sample), obtained from the subject, sequencing, eg, massively parallel sequencing (next generation sequencing), and The profile can be determined. In some cases, the second sample is a solid tumor sample and sequencing of nucleic acids from the solid tumor sample is performed.

[00245]シーケンシングは遺伝子増幅を、例えば、試験される遺伝子増幅の少なくとも50%、60%、70%、80%、90%、95%、96%、97%、98%、98.5%、99%、99.5%、または100%を検出することができる。サンプル中の遺伝子増幅は、デジタルPCR、例えばddPCRによって検出することができる。ddPCRの使用は、試験される遺伝子増幅の少なくとも50%、60%、70%、80%、90%、95%、96%、97%、98%、98.5%、99%、99.5%、または100%を検出することができる。遺伝子増幅は、例えば、蛍光インシチューハイブリダイゼーション(FISH)を使用して検出することができる。   [00245] Sequencing is gene amplification, for example, at least 50%, 60%, 70%, 80%, 90%, 95%, 96%, 97%, 98%, 98.5% of the gene amplifications being tested. , 99%, 99.5%, or 100% can be detected. Gene amplification in a sample can be detected by digital PCR, eg ddPCR. The use of ddPCR is at least 50%, 60%, 70%, 80%, 90%, 95%, 96%, 97%, 98%, 98.5%, 99%, 99.5% of the gene amplification being tested. % Or 100% can be detected. Gene amplification can be detected using, for example, fluorescence in situ hybridization (FISH).

[00246]いくつかの実施形態では、本明細書に記載するように生成された標的濃縮ライブラリに、当該分野で知られている、または本明細書に記載するような任意の方法を使用して、シーケンシングが行われる。シーケンシングは、その組のうち1つ以上のがん関連遺伝子における突然変異の存在を明らかにすることができる。いくつかの実施形態では、突然変異が潜む2つ、3つ、4つの遺伝子の部分集合が、後の時点で被験者から単離される流体サンプル中の無細胞DNAの査定によって、さらなるモニタリングのために選択される。いくつかの実施形態では、突然変異が潜む4つ以下の遺伝子の部分集合が、後の時点で被験者から単離される流体サンプル中の無細胞DNAの査定によって、さらなるモニタリングのために選択される。
X.定義
[00247]本明細書および特許請求の範囲で使用するとき、単数形「a」、「an」、「the」は、文脈において別段の明確な指示がない限り、複数を含むことができる。例えば、「細胞(a cell)」という用語は、細胞の混合物を含む、複数の細胞を含むことができる。
[00246] In some embodiments, a target enrichment library generated as described herein, using any method known in the art or as described herein , Sequencing is performed. Sequencing can reveal the presence of mutations in one or more cancer-related genes in the set. In some embodiments, a subset of the two, three or four genes with mutations hidden is assessed for cell-free DNA in a fluid sample that is isolated from the subject at a later time point for further monitoring It is selected. In some embodiments, a subset of no more than four genes for which a mutation is to be screened is selected for further monitoring by assessment of cell free DNA in fluid samples isolated from the subject at a later time point.
X. Definition
[00247] As used herein and in the appended claims, the singular forms "a", "an" and "the" can include plural unless the context clearly dictates otherwise. For example, the term "a cell" can include a plurality of cells, including mixtures of cells.

[00248]範囲は、本明細書では、「約」を付けたある特定の値から、および/または「約」を付けた別の特定の値までとして表現することができる。かかる範囲が表現される場合、別の実施形態は、そのある特定の値から、および/またはその他の特定の値までを含む。同様に、「約」という先行詞を使用することによって、値が近似として表現される場合、その特定の値が別の実施形態を形成することが理解される。さらに、範囲それぞれの終点は、他方の終点と関連して、また他方の終点とは独立して有意であることが理解されるであろう。「約」という用語は、本明細書で使用するとき、特定の用法の文脈内において、規定される数値から±15%の範囲を指す。例えば、約10は8.5〜11.5の範囲を含むであろう。   [00248] Ranges may be expressed herein as from one particular value that is "about", and / or to another particular value that is "about". When such a range is expressed, another embodiment includes from the one particular value and / or to the other particular value. Similarly, when values are expressed as approximations, by use of the antecedent "about," it will be understood that the particular value forms another embodiment. Furthermore, it will be appreciated that the endpoints of each of the ranges are significant in relation to the other endpoint, and independently of the other endpoint. The term "about" as used herein, within the context of a particular usage, refers to the range ± 15% from the stated numerical value. For example, about 10 would include the range of 8.5-11.5.

[00249]本明細書に記載するプロセスで使用される核酸は、溶液中で自由であることができる。「溶液中で自由」という用語は、固体支持体、例えばビーズもしくはフローセルに結合されたり繋ぎ止められていない、ポリヌクレオチドなどの分子を説明することができる。   [00249] The nucleic acids used in the processes described herein can be free in solution. The term "free in solution" can describe a solid support, such as a bead or a molecule such as a polynucleotide that is not bound or anchored to a flow cell.

[00250]本明細書に記載するプロセスは、ゲノムDNAの断片またはゲノム断片を利用することができる。「ゲノム断片」という用語は、ゲノム、例えばヒト、サル、ラット、魚、もしくは昆虫、もしくは植物のゲノムなど、動物または植物のゲノムの領域を指すことができる。ゲノム断片は、アダプタ連結することができるか、またはできない。ゲノム断片は、アダプタ連結(その場合、断片の一端もしくは両端、分子の少なくとも5’末端に連結されるアダプタを有する)することができ、またはアダプタ連結されない。   [00250] The processes described herein can utilize fragments of genomic DNA or genomic fragments. The term "genomic fragment" can refer to a region of the genome of an animal or plant, such as the genome of a human, monkey, rat, fish, or insect, or plant, for example. The genomic fragments may or may not be adapter linked. Genomic fragments can be adapter-linked (in which case with one or both ends of the fragment, an adapter linked to at least the 5 'end of the molecule) or not.

[00251]特定の事例では、本明細書に記載する方法で使用されるオリゴヌクレオチドは、基準ゲノム領域を、即ち既知のヌクレオチドシーケンスのゲノム領域を、例えば、NCBIのGenbankデータベースまたは他のデータベースにシーケンスが預けられている染色体領域を使用して設計することができる。
実施例
[00251] In certain instances, the oligonucleotides used in the methods described herein sequence a reference genomic region, ie, a genomic region of a known nucleotide sequence, eg, the NCBI Genbank database or other database It can be designed using the chromosomal region in which it is deposited.
Example

体細胞変異体の特定
[00252]被験者は、大腸鏡検査を受け、結腸腫瘍を宿していることが発見される。腫瘍生検および採血の両方を被験者から収集し、被験者の結腸がんの診断を支援するために使用する。第1の採血からの腫瘍細胞および正常細胞にシーケンシングを行う。被験者の腫瘍と正常なサンプルとのシーケンス比較は、確率モデルおよび統計的推論に基づく。比較は、公開データベースで報告されている腫瘍の遺伝子変異における既知の染色体座を利用し、遺伝子座の近傍にある可能なシーケンスを確率的にモデル化する。モデルを被験者のシーケンスデータと合わせて、統計的推論を実施する。推論は、APC、KRAS、およびTP53遺伝子における3つの体細胞変異体の点突然変異を特定する。被験者のがんのステージが判定される。
Identification of somatic cell variants
[00252] The subject undergoes colonoscopy and is found to harbor a colon tumor. Both tumor biopsy and blood collection are collected from the subject and used to support the subject's diagnosis of colon cancer. Sequencing is performed on tumor cells and normal cells from the first blood draw. Sequence comparisons of the subject's tumor with normal samples are based on probabilistic models and statistical inferences. The comparison takes advantage of known chromosomal loci in tumor gene mutations that have been reported in public databases and stochastically models possible sequences near the locus. Statistical inference is performed by combining the model with the subject's sequence data. Inference identifies point mutations of three somatic variants in the APC, KRAS, and TP53 genes. The stage of the subject's cancer is determined.

[00253]さらに、データ解析アプリケーションは、第1の治療戦略、例えば腫瘍を除去する外科手術を推奨する。第1の治療において、第2の採血を実施する。被験者の腫瘍は転移していると判定される。被験者に、がんを管理する第2の療法(化学療法)として投薬を行う。   [00253] Further, the data analysis application recommends a first treatment strategy, such as surgery to remove the tumor. In the first treatment, a second blood draw is performed. It is determined that the subject's tumor has metastasized. The subject is dosed as a second therapy (chemotherapy) to manage cancer.

ベイズネットワークによるデータ解析
[00254]図8は、標的使用事例に対する推論を説明する例示的なベイズネットワークを示している。ネットワーク図において、ノード「C」は推論される変異体コールを表し、ノード「R」は遺伝子座にわたる一連の整列されたリードのベースコールを表し、ノード「P」は遺伝子座における倍数関係である(例えば、正常な生殖細胞系列の場合は二倍体であるが、ゲノム不安定性によってがん細胞で異なる場合がある)。がん腫瘍細胞またはDNAを含むサンプルの場合、「U」はサンプルの細胞充実性を表し、これは他の手段(例えば、病理学)によって推定することができ、生殖細胞系列からのDNA分子が腫瘍サンプル中に存在する確率として示され、0〜1の値として提供される。
Data analysis by Bayesian network
[00254] FIG. 8 shows an exemplary Bayesian network that illustrates inference for target use cases. In the network diagram, node "C" represents the inferred variant call, node "R" represents the base call of a series of aligned reads across loci, and node "P" is a multiple relationship at a locus (For example, it is diploid in the case of normal germline but may differ in cancer cells due to genomic instability). In the case of a sample containing cancerous tumor cells or DNA, "U" represents the cellularity of the sample, which can be estimated by other means (e.g. pathology) and DNA molecules from germline are It is indicated as the probability present in the tumor sample and is provided as a value of 0-1.

[00255]以下の条件付き確率分布(CPD)に適切な値を供給することができる。(a)P(R|C)、特定の変異体コールを前提とした一連のリードの確率、(b)P(C|C)、その遺伝子座における生殖細胞系列を前提とした原発腫瘍細胞の確率、および(c)P(Ccf|C)、原発腫瘍サンプル中のコールを前提とした無細胞DNA(cf−DNA)における腫瘍コールの確率。 [00255] The following conditional probability distributions (CPDs) can be provided with appropriate values. (A) P (R | C), the probability of a series of reads given a specific variant call, (b) P (C t | C g ), the primary tumor given the germline at that locus Probability of cells, and (c) P (C cf | C t ), probability of tumor call in cell-free DNA (cf-DNA) given call in primary tumor sample.

[00256]CDP P(R|C)は、単一サンプルに対する標準のベイズ変異体コーリング方法論の一部であることができる。第2の2つのCPDは、腫瘍タイプおよび優性突然変異のシグネチャーごとに調節することができる、体細胞突然変異率の経験値を利用することによって計算することができる。P(C|C)の場合、また原発腫瘍と患者の血漿の無細胞画分中で検出される腫瘍DNAとの単純な系統関係を想定することによって、このCPDは、メンデル型分離ではなく変異体の単純な遺伝を想定する、子孫におけるデノボ変異の推論を含む、系統で実施される計算を用いて、例えば類似体で計算することができる。 [00256] CDP P (R | C) can be part of a standard Bayesian mutant calling methodology for single samples. The second two CPDs can be calculated by utilizing empirical values of somatic mutation rates that can be adjusted for each tumor type and signature of the dominant mutation. In the case of P (C t | C g ), and by assuming a simple phylogenetic relationship between the primary tumor and the tumor DNA detected in the acellular fraction of the patient's plasma, this CPD is It is possible to calculate, for example, with analogues, using calculations carried out in lineage, including deduction of de novo mutations in offspring, assuming simple inheritance of the variants without.

[00257]それに加えて、部位および対立遺伝子特異的な事前値を、母集団シーケンシングによる生殖細胞系列変異体の事前観察、またはTCGAプロジェクトなどの腫瘍タイプにわたる体細胞突然変異の大規模センサスに基づいて、特定の遺伝子座に導入することができる。これらは、患者からの組織サンプル(例えば、生殖細胞系列または原発組織)の一部が存在しない状態では有用であり得る。1つの事例では、原発腫瘍組織のみまたは血漿画分からのcf−DNAのみが解析される。この状況では、事前情報を使用して、P(C|Ctp)(Ctpは、がん患者の事前観察に基づいた(例えば、COSMICによる)、その遺伝子座において特定の体細胞突然変異対立遺伝子を観察する事前確率)、およびP(G|G)(Gは、Gを前提とした腫瘍中に存在する生殖細胞系列変異体の遺伝子型)といったCPDを推定することができ、この遺伝子座において特定の遺伝子型を観察する確率は、母集団規模の変異調査(1000人ゲノムプロジェクトなど)に由来する。次に、これらの確率を、出力において解析される各変異体のスコアとして提供し、機械学習方法を使用して経験的検証またはグラウンドトゥルースデータに基づいて再校正し、その後、解析者が使用して、下流での注釈および臨床報告に対する適切なFP/FN閾値を決定することができる。 [00257] In addition, site- and allele-specific priors based on prior observation of germline variants by population sequencing, or based on a large-scale census of somatic mutations across tumor types such as the TCGA project. Can be introduced at a specific locus. These may be useful in the absence of a portion of a tissue sample (eg, germline or primary tissue) from a patient. In one case, only the primary tumor tissue or only the cf-DNA from the plasma fraction is analyzed. In this situation, using prior information, P (C t | C tp ) (C tp is based on prior observation of cancer patients (eg by COSMIC), somatic mutations specific to that locus To estimate CPD, such as prior probability of observing alleles), and P (G t | G p ) (G t is the genotype of a germline variant present in a tumor given G p ) The probability of observing a particular genotype at this locus is derived from a population-wide mutation survey (such as the 1000-man genome project). These probabilities are then provided as a score for each variant analyzed in the output, recalibrated based on empirical verification or ground truth data using machine learning methods, and then used by the analyst Thus, appropriate FP / FN thresholds for downstream annotation and clinical reporting can be determined.

[00258]検討すべき他の因子は、がんサンプルの細胞充実性、即ち、(生殖細胞系列DNAを表す)正常な細胞に対する、生体標本(例えば、生検、血漿など)に含まれるがん組織(およびしたがってDNA)の比率である。細胞充実性が低い場合、変異体が生殖細胞系列である確率は増加し、その逆も真である。この因子を説明するため、細胞充実性の逆数、即ち、シーケンシングリードが生殖細胞系列細胞からのものである確率(0〜1の値)を表す、確率変数「U」をベイズネットワークに導入することができる。この値は解析時に提供することができるが、場合によっては、事前推定値を提供することによって、データから推論することができる。細胞充実性について考察する際、P(A|R)およびP(Act|Rct)という、2つの新しいCPDを推定することができる。これらは、標準的なベイズ技術によるコールの推論に組み込むことができる。 [00258] Another factor to consider is the cellularity of the cancer sample, ie, the cancer contained in a biological specimen (eg, biopsy, plasma, etc.) against normal cells (representing germline DNA) It is the proportion of tissue (and hence DNA). When cellularity is low, the probability that the variant is germline is increased and vice versa. To explain this factor, introduce a random variable "U" into the Bayesian network, which is the reciprocal of cellularity, ie the probability that the sequencing read is from germline cells (value 0-1) be able to. This value can be provided at analysis time, but in some cases it can be inferred from the data by providing a prior estimate. When discussing cellularity, two new CPDs can be deduced: P (A t | R t ) and P (A ct | R ct ). These can be incorporated into the inference of calls by standard Bayesian techniques.

[00259]最後に、母集団コーリング方法を、方法と組み合わせることもでき、上述した方法によって他のサンプルからのデータのバンクと同時にコールすることによって、正常な組織中の生殖細胞系列突然変異の検出を改善する(ならびに同時に、偽陽性体細胞突然変異を低減する)ことができるが、がん組織サンプルと同時に生殖細胞系列をコールする、本明細書に記載の文脈において適用される。   [00259] Finally, the population calling method can also be combined with the method, detecting germline mutations in normal tissue by calling simultaneously with a bank of data from other samples according to the method described above Can be improved (and at the same time reduce false positive somatic mutations), but is applied in the context described herein, which calls the germline simultaneously with the cancer tissue sample.

肺がん解析
[00260]肺がん患者について調査する。生検を実施して、腫瘍組織および正常な組織を抽出する。さらに、患者の血液を収集する。サンプル(即ち、腫瘍組織、正常な組織、および血液)に、高スループットシーケンサによってシーケンシングを行う。シーケンサは多数のシーケンスリードを生成する。本明細書に開示するシステムは、サンプル全体でシーケンスを比較してシーケンスを整列させる。さらに、基準ヒトゲノムをアライメントプロセスで使用する。
Lung cancer analysis
[00260] Examine lung cancer patients. A biopsy is performed to extract tumor tissue and normal tissue. In addition, the patient's blood is collected. The samples (i.e. tumor tissue, normal tissue and blood) are sequenced by a high throughput sequencer. The sequencer generates a large number of sequence reads. The systems disclosed herein compare sequences across samples to align sequences. In addition, the reference human genome is used in the alignment process.

[00261]アライメントを完了した後、腫瘍組織、正常な組織、および血液のゲノムを作成する。スライディングウィンドウを3つのゲノムに同時に適用する。スライディングウィンドウは同じ染色体座をカバーする。サンプル全体にわたってウィンドウ内のシーケンスを評価することによって、データ解析アプリケーションが推定変異体を特定することが可能になる。変異体の不確定性を確率モデルによって捕らえる。刊行物もしくは既知のデータベースまたは過去に解析した患者において公開されている既存の情報に基づいて、体細胞変異体ががんのステージを特性決定する尤度を計算する。さらに、最適な治療戦略のマーカーを表す追加の変異体の尤度を同様に計算する。これらの計算された尤度によって、医師が患者の現在の状態をより良く理解し、患者にとって最良な健康管理を設計する。   [00261] After completing the alignment, the genomes of tumor tissue, normal tissue, and blood are generated. A sliding window is applied to three genomes simultaneously. The sliding window covers the same chromosomal locus. Assessing the sequences in the window across the sample allows the data analysis application to identify putative variants. The uncertainty of the variants is captured by a probabilistic model. Based on published or known databases or existing information published in patients analyzed in the past, the likelihood that the somatic variant characterizes the stage of the cancer is calculated. In addition, the likelihood of additional variants representing markers of optimal treatment strategy is calculated as well. These calculated likelihoods allow the physician to better understand the patient's current condition and to design the best health care for the patient.

体細胞点突然変異/小インデルのコーラー
[00262]腫瘍サンプルの標的リシーケンシングを、約129の利用可能ながん遺伝子のエキソンを含む、約100kBを包含する核酸の領域に対して実施する。場合によっては、リシーケンシングする領域は、転座を検出するために、イントロン領域も含む。シーケンシングの平均深さは、適用範囲内のばらつきを含めて約300x〜約500xである。数ラウンドのみのPCR増幅をDNAライブラリに対して実施する。ペアードエンドリード長さは、MiSeqでは250bp、HiSeqでは150bpである。ペアードエンドリードの重なり合いは、MiSeqの長いリードの場合に可能である。領域の両方のストランドを独立して捕獲し、次に混合しシーケンシングすることができる。断片は、約200〜約300bpの中央サイズを有することができる。対象領域外の標的外リードを、サンプル特定、大規模欠失/異数性/融合検出、およびゲノム瘢痕(genomic scar)解析(ゲノム瘢痕は、既知の起源によるゲノム消失であり得る)に関してレバレッジする。
Somatic point mutation / small indel caller
[00262] Targeted resequencing of tumor samples is performed on a region of nucleic acid encompassing approximately 100 kB, including approximately 129 available oncogenic exons. In some cases, the resequencing region also includes an intron region to detect translocations. The average depth of sequencing is about 300x to about 500x, including variability within the application range. Only a few rounds of PCR amplification are performed on the DNA library. The paired end read length is 250 bp for MiSeq and 150 bp for HiSeq. Overlap of paired end leads is possible for long leads of MiSeq. Both strands of the region can be captured independently, then mixed and sequenced. The fragments can have a median size of about 200 to about 300 bp. Off-target reads outside the region of interest are leveraged for sample identification, large scale deletion / aneuploidy / fusion detection, and genomic scar analysis (genomic scarring may be loss of genome due to known origin) .

[00263]本明細書で提供する方法、システム、およびコンピュータ可読媒体は、腫瘍データ、例えばFFPEブロックとして処理された病理学標本が利用可能な場合のみ使用することができる。本明細書で提供する方法、システム、およびコンピュータ可読媒体は、無細胞DNAに由来する血漿がシーケンシングされた場合にのみ使用することができる。本明細書で提供する方法、システム、およびコンピュータ可読媒体は、例えば、血漿からの無細胞DNAをシーケンシングし、生殖細胞系列シーケンスをシーケンシングする場合、例えば、軟膜が血液から単離され、生殖細胞系列組織(リンパ球)を表すようにシーケンシングされる場合に使用することができる。本明細書で提供する方法、システム、およびコンピュータ可読媒体は、無細胞DNAに加えて、腫瘍および生殖細胞系列サンプルが利用可能な場合に使用することができる。生殖細胞系列シーケンスは、軟膜または他の組織生検由来であることができる。   [00263] The methods, systems, and computer readable media provided herein can be used only when tumor data, eg, pathology specimens treated as FFPE blocks, are available. The methods, systems, and computer readable media provided herein can be used only when plasma derived from cell free DNA is sequenced. The methods, systems, and computer readable media provided herein, for example, when sequencing cell-free DNA from plasma and sequencing germline sequences, for example, the buffy coat is isolated from blood, reproduction It can be used when sequencing to represent cell lineage tissue (lymphocytes). The methods, systems, and computer readable media provided herein can be used where tumor and germline samples are available in addition to cell free DNA. Germline sequences can be from buffy coat or other tissue biopsies.

[00264]方法は、FastQフォーマットのシーケンス情報の入力を伴う場合がある。リードを高感度のゲノムアセンブリに対して整列させることができる。アライメントはCRAMファイルまたはBAMファイルとして格納される。出力はVCF(変異体細胞フォーマット)である。小さい一塩基置換の変異(SNV)、多塩基多型(MNP)、および対象領域における小インデルがBEDファイルとして指定される。対立遺伝子コールは、倍数関係の想定なしで作成される(例えば、対立遺伝子計数における低出現頻度)。推定体細胞突然変異の場合、変異体対立遺伝子出現頻度(VAF)はVCFで示される。二倍体遺伝子型は提供されない。推定生殖細胞系列突然変異の場合、見込まれる二倍体遺伝子型が提供される。母集団における共通の適切な変異体の事前知識(MAF(突然変異注釈フォーマット)を含む静的VCF)は、生殖細胞系列突然変異を体細胞突然変異と分化する助けとなる。患者のサンプルの同時コーリングを、利用可能な場合に実施することができる。患者からの生殖細胞系列サンプルが利用不能な場合、本明細書に記載の標的シーケンシング方法によってシーケンシングした「正常な」生殖細胞系列サンプルのバンクを用いた同時コーリング(最良のサンプルサイズが決定される)。がんにおける再発体細胞突然変異の事前知識(例えば、COSMICを使用する)は、体細胞突然変異を分化する助けとして考慮することができる。対象領域にわたる全ての位置でコールが行われて、革新的な基準コールとコールなし(必要に応じて)とが作成される。VCFのサイズを制限するため、gVCF出力における圧縮された基準コールを実施することができる。体細胞および生殖細胞系列変異体である、尤度の変異体スコアを提供することができる。訓練データに基づいた、カスタマイズされたスコア再校正が実施される。腫瘍および無細胞DNAサンプルに関して、利用可能な場合に細胞充実性指標を検討することができる(データに基づいた推論)。変異体コールが全ての標的外領域に対して提供される。コール精度を改善するため、ペアードエンドリードの重なり合いが利用可能であるか(MiSeqの250bpリード)を考慮することができる。   [00264] The method may involve the input of FastQ formatted sequence information. The leads can be aligned to sensitive genomic assemblies. Alignments are stored as CRAM files or BAM files. The output is VCF (mutant cell format). Small single base substitution mutations (SNV), polybasic polymorphism (MNP), and small indels in the target region are designated as BED files. Allelic calls are made without the assumption of multiple relationships (eg, low frequency of occurrence in allele counts). In the case of putative somatic mutations, variant allele frequency of occurrence (VAF) is indicated by VCF. No diploid genotype is provided. In the case of putative germline mutations, potential diploid genotypes are provided. Prior knowledge of common appropriate variants in the population (static VCF with MAF (mutation annotation format)) helps to differentiate germline mutations with somatic mutations. Simultaneous calling of patient samples can be performed if available. If no germline samples from the patient are available, simultaneous calling with the bank of "normal" germline samples sequenced by the target sequencing method described herein (best sample size determined ). Prior knowledge of recurrent somatic mutations in cancer (eg, using COSMIC) can be considered as an aid in differentiating somatic mutations. Calls are made at all locations across the area of interest, creating innovative reference calls and no calls (as needed). A compressed reference call on the gVCF output can be implemented to limit the size of the VCF. Variant scores for likelihood, which are somatic and germline variants, can be provided. Customized score recalibration is performed based on training data. The cellularity index can be examined when available for tumor and cell-free DNA samples (data-based reasoning). Variant calls are provided to all off target regions. In order to improve the call accuracy, it can be considered whether pair-end lead overlap is available (250 bp read of MiSeq).

[00265]分子バーコードを検出して、複製断片を特定し、誤り補正を提供することができる。また、複製リードを独立したシーケンシングイベントとして使用し、冗長シーケンシングに基づいてスコアを再調節することができる。   [00265] Molecular barcodes can be detected to identify duplicate fragments and provide error correction. Also, replicate reads can be used as independent sequencing events to recondition the score based on redundant sequencing.

[00266]好ましい実施形態について本明細書に図示し記載してきたが、かかる実施形態は単なる一例として提供されていることが、当業者には明白となるであろう。本発明から逸脱することなく、多数の変形、変更、および置換が当業者には想起されるであろう。本明細書に記載する実施形態の代替が、本開示を実施する際に用いられてもよいことが理解されるべきである。以下の特許請求の範囲は本発明の範囲を定義し、これら特許請求の範囲およびそれらの等価物の範囲内にある方法および構造を包含するものとする。   [00266] While preferred embodiments have been shown and described herein, it will be apparent to those skilled in the art that such embodiments are provided by way of example only. Many modifications, variations and substitutions will occur to those skilled in the art without departing from the invention. It should be understood that alternatives to the embodiments described herein may be used in the practice of the present disclosure. It is intended that the following claims define the scope of the present invention and encompass methods and structures within the scope of these claims and their equivalents.

Claims (123)

(a)プロセッサと、機械可読(machine readable)命令を実行するように構成されたメモリモジュールと、
(b)データ解析アプリケーションであって、
(1)高スループットシーケンシング(high-throughput sequencing)機器(instrument)によって生成される、個人の1つ以上のサンプルから得られる核酸分子のシーケンスリード(sequence reads)を受信するように構成されたデータ受信モジュールと、
(2)前記シーケンスリードを基準(reference)アセンブリに対して整列させて、予測ゲノムシーケンスを生成するように構成されたシーケンスアライメントモジュールと、
(3)(i)前記予測ゲノムシーケンスを共同で同時に解析することによって推定変異体(putative variant)を特定し、(ii)体細胞突然変異(somatic mutation)または生殖細胞系列変異体(germline variant)である確率によって前記推定変異体をスコアリングするように構成されたゲノム解析モジュールとを備える、データ解析アプリケーションとを備える、コンピューティングシステム。
(A) a processor and a memory module configured to execute machine readable instructions;
(B) a data analysis application,
(1) Data configured to receive sequence reads of nucleic acid molecules obtained from one or more samples of an individual, generated by a high-throughput sequencing instrument. A receiving module,
(2) a sequence alignment module configured to align the sequence reads to a reference assembly to generate a predicted genomic sequence;
(3) (i) identify a putative variant by jointly analyzing said predicted genomic sequence simultaneously; (ii) somatic mutation or germline variant A data analysis application comprising: a genome analysis module configured to score the putative variants by probability.
前記1つ以上のサンプルが同時に収集される、請求項1に記載のシステム。   The system of claim 1, wherein the one or more samples are collected simultaneously. 前記1つ以上のサンプルが少なくとも2つのサンプルを含み、前記少なくとも2つサンプルが別の時点で収集される、請求項1または2に記載のシステム。   3. The system of claim 1 or 2, wherein the one or more samples comprise at least two samples, and the at least two samples are collected at different times. 前記1つ以上のサンプルが原発腫瘍を含む、請求項1から3のいずれか一項に記載のシステム。   The system according to any one of claims 1 to 3, wherein the one or more samples comprise a primary tumor. 前記1つ以上のサンプルが転移腫瘍を含む、請求項1から4のいずれか一項に記載のシステム。   5. The system of any one of claims 1 to 4, wherein the one or more samples comprise metastatic tumors. 前記1つ以上のサンプルが体液を含む、請求項1から5のいずれか一項に記載のシステム。   6. The system of any one of the preceding claims, wherein the one or more samples comprise bodily fluid. 前記1つ以上のサンプルが無細胞サンプルを含む、請求項1から6のいずれか一項に記載のシステム。   7. The system of any one of claims 1 to 6, wherein the one or more samples comprise a cell free sample. 前記1つ以上のサンプルがリンパ球を含む、請求項1から6のいずれか一項に記載のシステム。   7. The system of any one of claims 1 to 6, wherein the one or more samples comprise lymphocytes. 前記1つ以上のサンプルが血漿を含む、請求項1から8のいずれか一項に記載のシステム。   9. The system of any one of the preceding claims, wherein the one or more samples comprise plasma. 前記推定変異体の前記特定が、前記ゲノムシーケンスを1人以上の過去に解析した患者から得たシーケンスのバンクのシーケンスと比較することを含む、請求項1から9のいずれか一項に記載のシステム。   10. The method according to any one of claims 1 to 9, wherein said identification of said putative variant comprises comparing said genomic sequence to a sequence of a bank of sequences obtained from one or more previously analyzed patients. system. 前記推定変異体の前記スコアリングが、正しいコールと誤ったコールの組を用いて訓練した機械学習方法に基づいて確率を調節することを含む、請求項1から10のいずれか一項に記載のシステム。   11. The method according to any one of the preceding claims, wherein the scoring of the putative variants comprises adjusting the probability based on machine learning methods trained with the correct and false call pairs. system. 前記推定変異体の前記特定およびスコアリングが、染色体座における推論を作成することを含む、請求項1から11のいずれか一項に記載のシステム。   12. The system according to any one of the preceding claims, wherein the identification and scoring of the putative variants comprises making inferences at chromosomal loci. 推論の前記作成が確率モデルを使用することを含む、請求項12に記載のシステム。   13. The system of claim 12, wherein the creating of inference comprises using a probabilistic model. 推論の前記作成が統計的推論を使用することを含む、請求項12または13に記載のシステム。   14. A system according to claim 12 or 13, wherein the creation of inference comprises using statistical inference. 推論の前記作成がベイズ推論を使用することを含む、請求項12から14のいずれか一項に記載のシステム。   The system according to any one of claims 12 to 14, wherein the creation of inference comprises using Bayesian inference. 推論の前記作成がベイズネットワークモデルを使用することを含む、請求項12から15のいずれか一項に記載のシステム。   The system according to any one of claims 12 to 15, wherein said creating of inference comprises using a Bayesian network model. 推論の前記作成が生殖細胞系列および体細胞変異体を発見する事前確率に基づく、請求項12から16のいずれか一項に記載のシステム。   17. The system according to any one of claims 12 to 16, wherein the generation of inference is based on prior probabilities of finding germline and somatic variants. 推論の前記作成が前記染色体座にわたって整列された一連のシーケンスリードに基づく、請求項12から17のいずれか一項に記載のシステム。   18. The system according to any one of claims 12-17, wherein the generation of inference is based on a series of sequence reads aligned across the chromosomal loci. 推論の前記作成が前記高スループットシーケンシング機器の誤り率に基づく、請求項12から18のいずれか一項に記載のシステム。   19. The system of any one of claims 12-18, wherein the creation of inference is based on an error rate of the high throughput sequencing device. 前記誤り率がベースコールに対する品質保証において提供される、請求項19に記載のシステム。   20. The system of claim 19, wherein the error rate is provided in quality assurance for a base call. 推論の前記作成が前記染色体座にわたる染色体領域の倍数関係に基づく、請求項12から20のいずれか一項に記載のシステム。   21. The system according to any one of claims 12 to 20, wherein the creation of inference is based on a multiple relationship of chromosomal regions across the chromosomal loci. 推論の前記作成ががんのクローン進化のプロセスモデルに基づく、請求項12から21のいずれか一項に記載のシステム。   22. The system according to any one of claims 12 to 21, wherein said creation of inference is based on a process model of clonal evolution of cancer. 推論の前記作成が前記個人の1つ以上の他のサンプルに由来する染色体座におけるコールに基づく、請求項12から22のいずれか一項に記載のシステム。   23. The system according to any one of claims 12-22, wherein the creation of inferences is based on calls at chromosomal loci derived from one or more other samples of the individual. 推論の前記作成が1人以上の他の個人の1つ以上のサンプルに由来する染色体座におけるコールに基づく、請求項12から23のいずれか一項に記載のシステム。   24. The system according to any one of claims 12 to 23, wherein said creating of inferences is based on calls at chromosomal loci derived from one or more samples of one or more other individuals. 推論の前記作成が1つ以上の基準母集団の染色体座における共通の多型性の事前知識に基づく、請求項12から24のいずれか一項に記載のシステム。   25. The system according to any one of claims 12 to 24, wherein said creating of inferences is based on prior knowledge of common polymorphisms at chromosomal loci of one or more reference populations. 推論の前記作成が染色体座における1つ以上の再発がんの突然変異の事前知識に基づく、請求項12から25のいずれか一項に記載のシステム。   26. The system according to any one of claims 12-25, wherein said creation of inference is based on prior knowledge of mutations of one or more recurrent cancers at chromosomal loci. 推論の前記作成ががんを含むサンプル中のがん細胞の比率に基づく、請求項12から26のいずれか一項に記載のシステム。   27. The system according to any one of claims 12 to 26, wherein the production of inference is based on the proportion of cancer cells in a sample containing cancer. 前記がんを含むサンプルががんを引き起こす1つ以上のDNA分子を含む、請求項27に記載のシステム。   28. The system of claim 27, wherein the sample containing cancer comprises one or more DNA molecules that cause cancer. 前記がんを含むサンプルが1つ以上のがん性組織を含む、請求項27または28に記載のシステム。   29. The system of claim 27 or 28, wherein the sample containing cancer comprises one or more cancerous tissues. 推論の前記作成が確率モデルによって変異体を説明することを含む、請求項12から29のいずれか一項に記載のシステム。   30. The system according to any one of claims 12-29, wherein said creating of inference comprises describing a variant by means of a probabilistic model. 推論の前記作成が確率モデルによって前記染色体座にわたる一連の整列されたシーケンスリードを説明することを含む、請求項12から30のいずれか一項に記載のシステム。   31. The system according to any one of claims 12 to 30, wherein said creating of inference comprises describing a series of aligned sequence reads across said chromosomal loci by means of a probabilistic model. 推論の前記作成が確率モデルによって前記染色体座における倍数関係を説明することを含む、請求項12から31のいずれか一項に記載のシステム。   32. The system according to any one of claims 12 to 31, wherein the creation of inference comprises describing a multiple relation at the chromosomal locus by means of a probabilistic model. 推論の前記作成が確率モデルによってサンプル中のがん細胞の比率を説明することを含む、請求項12から32のいずれか一項に記載のシステム。   33. The system according to any one of claims 12 to 32, wherein said creating of inference comprises describing the proportion of cancer cells in a sample by means of a probabilistic model. 前記比率が二値変数によって説明される、請求項33に記載のシステム。   34. The system of claim 33, wherein the ratio is described by a binary variable. 前記データ解析アプリケーションが、1つ以上のコーディング領域、予測される損傷の深刻度、1つ以上の生殖細胞系列突然変異、1つ以上の体細胞突然変異、1つ以上の突然変異・薬物間の相互作用、臨床試験において観察される1つ以上の突然変異、1つ以上の疾患、1つ以上の症状、または1つ以上の副作用のうち1つ以上における影響に関して、前記推定変異体に注釈を付けるように構成されたモジュールをさらに備える、請求項1から34のいずれか一項に記載のシステム。   The data analysis application includes: one or more coding regions, expected severity of damage, one or more germline mutations, one or more somatic mutations, one or more mutations and drugs The putative variants are annotated as to their effect on one or more of the interaction, one or more mutations observed in a clinical trial, one or more diseases, one or more symptoms, or one or more side effects. 35. The system of any one of the preceding claims, further comprising a module configured to attach. 前記データ解析アプリケーションが、治療方法を推奨するように構成されたモジュールをさらに備える、請求項1から35のいずれか一項に記載のシステム。   36. The system according to any one of the preceding claims, wherein the data analysis application further comprises a module configured to recommend a treatment method. 前記データ解析アプリケーションが、処置方法を推奨するように構成されたモジュールをさらに備える、請求項1から36のいずれか一項に記載のシステム。   37. The system according to any one of the preceding claims, wherein the data analysis application further comprises a module configured to recommend a treatment method. 前記データ解析アプリケーションが、処置の経過を査定するように構成されたモジュールをさらに備える、請求項1から37のいずれか一項に記載のシステム。   The system according to any one of the preceding claims, wherein the data analysis application further comprises a module configured to assess the progress of treatment. 前記データ解析アプリケーションが、リスクを査定するように構成されたモジュールをさらに備える、請求項1から38のいずれか一項に記載のシステム。   39. The system of any one of claims 1-38, wherein the data analysis application further comprises a module configured to assess risk. 前記データ解析アプリケーションが、治療方法の効率をモニタリングするように構成されたモジュールをさらに備える、請求項1から39のいずれか一項に記載のシステム。   40. The system according to any one of the preceding claims, wherein the data analysis application further comprises a module configured to monitor the efficiency of the treatment method. 前記データ解析アプリケーションが、処置方法の効率をモニタリングするように構成されたモジュールをさらに備える、請求項1から40のいずれか一項に記載のシステム。   41. The system according to any one of the preceding claims, wherein the data analysis application further comprises a module configured to monitor the efficiency of the treatment method. データ解析アプリケーションを作成するためにプロセッサによって実行可能な命令を含むコンピュータプログラムを用いてコード化された、コンピュータ可読記憶媒体であって、前記アプリケーションが、
(a)高スループットシーケンシング機器によって生成される、個人の1つ以上のサンプルから得られる核酸分子のシーケンスリードを受信するように構成されたデータ受信モジュールと、
(b)前記シーケンスリードを基準アセンブリに対して整列させて、予測ゲノムシーケンスを生成するように構成されたシーケンスアライメントモジュールと、
(c)(i)前記予測ゲノムシーケンスを共同で同時に解析することによって推定変異体を特定し、(ii)体細胞突然変異または生殖細胞系列変異体である確率によって前記推定変異体をスコアリングするように構成されたゲノム解析モジュールとを備える、データ解析アプリケーションとを備える、コンピュータ可読媒体。
A computer readable storage medium encoded with a computer program comprising instructions executable by a processor to create a data analysis application, the application comprising
(A) a data receiving module configured to receive a sequencing read of nucleic acid molecules obtained from one or more samples of an individual generated by a high throughput sequencing device;
(B) a sequence alignment module configured to align the sequence reads with respect to a reference assembly to generate a predicted genomic sequence.
(C) (i) identify putative variants by jointly analyzing the predicted genomic sequences simultaneously and (ii) score the putative variants by their probability of being a somatic mutation or germline variant And a data analysis application, comprising: a genome analysis module configured as follows.
前記1つ以上のサンプルが同時に収集される、請求項42に記載の媒体。   43. The medium of claim 42, wherein the one or more samples are collected simultaneously. 少なくとも1つ以上のサンプルが異なる時点で収集される、請求項42または43に記載の媒体。   44. The medium of claim 42 or 43, wherein at least one or more samples are collected at different times. 前記1つ以上のサンプルが原発腫瘍を含む、請求項42から44のいずれか一項に記載の媒体。   45. The medium of any one of claims 42-44, wherein the one or more samples comprise a primary tumor. 前記1つ以上のサンプルが転移腫瘍を含む、請求項42から45のいずれか一項に記載の媒体。   46. The medium of any one of claims 42-45, wherein the one or more samples comprise metastatic tumors. 前記1つ以上のサンプルが体液を含む、請求項42から46のいずれか一項に記載の媒体。   47. The medium of any one of claims 42-46, wherein the one or more samples comprise bodily fluid. 前記1つ以上のサンプルが無細胞サンプルを含む、請求項42から47のいずれか一項に記載の媒体。   48. The medium of any one of claims 42-47, wherein the one or more samples comprise a cell free sample. 前記1つ以上のサンプルがリンパ球を含む、請求項42から47のいずれか一項に記載の媒体。   48. The medium of any one of claims 42-47, wherein the one or more samples comprise lymphocytes. 前記1つ以上のサンプルが血漿を含む、請求項42から49のいずれか一項に記載の媒体。   50. The medium of any one of claims 42-49, wherein the one or more samples comprise plasma. 前記推定変異体の前記特定が、前記ゲノムシーケンスを1人以上の過去に解析した患者から得たシーケンスのバンクからのシーケンスと比較することを含む、請求項42から50のいずれか一項に記載の媒体。   51. The method according to any one of claims 42 to 50, wherein the identification of the putative variant comprises comparing the genomic sequence to a sequence from a bank of sequences obtained from one or more previously analyzed patients. Media. 前記推定変異体の前記スコアリングが、正しいコールと誤ったコールの組を用いて訓練した機械学習方法に基づいて確率を調節することを含む、請求項42から51のいずれか一項に記載の媒体。   52. The scoring according to any one of claims 42 to 51, wherein said scoring of said putative variants comprises adjusting probabilities based on machine learning methods trained with correct and false call pairs. Medium. 前記推定変異体の前記特定およびスコアリングが、染色体座における推論を作成することを含む、請求項42から52のいずれか一項に記載の媒体。   53. The medium of any one of claims 42-52, wherein the identifying and scoring of the putative variant comprises making an inference at a chromosomal locus. 推論の前記作成が確率モデルを使用することを含む、請求項53に記載の媒体。   54. The medium of claim 53, wherein the creating of inference comprises using a probabilistic model. 推論の前記作成が統計的推論を使用することを含む、請求項53または54に記載の媒体。   55. The medium of claim 53 or 54, wherein said creating of inferences comprises using statistical inference. 推論の前記作成がベイズ推論を使用することを含む、請求項53から55のいずれか一項に記載の媒体。   56. The medium of any one of claims 53-55, wherein the creating of inference comprises using Bayesian inference. 推論の前記作成がベイズネットワークモデルを使用することを含む、請求項53から56のいずれか一項に記載の媒体。   57. A medium according to any one of claims 53 to 56, wherein said creating of inference comprises using a Bayesian network model. 推論の前記作成が生殖細胞系列および体細胞変異体を発見する事前確率に基づく、請求項53から57のいずれか一項に記載の媒体。   58. A medium according to any one of claims 53 to 57, wherein the generation of inference is based on prior probabilities of finding germline and somatic variants. 推論の前記作成が前記染色体座にわたって整列された一連のシーケンスリードに基づく、請求項53から58のいずれか一項に記載の媒体。   59. The medium of any one of claims 53 to 58, wherein the generation of inference is based on a series of sequence reads aligned across the chromosomal loci. 推論の前記作成が前記高スループットシーケンシング機器の誤り率に基づく、請求項53から59のいずれか一項に記載の媒体。   60. The medium of any one of claims 53-59, wherein the creation of inference is based on an error rate of the high throughput sequencing device. 前記誤り率がベースコールに対する品質保証において提供される、請求項60に記載の媒体。   61. The medium of claim 60, wherein the error rate is provided in quality assurance for a base call. 推論の前記作成が前記染色体座にわたる染色体領域の倍数関係に基づく、請求項53から61のいずれか一項に記載の媒体。   62. A medium according to any one of claims 53 to 61, wherein the creation of inference is based on a multiple relationship of chromosomal regions across the chromosomal loci. 推論の前記作成ががんのクローン進化のプロセスモデルに基づく、請求項53から62のいずれか一項に記載の媒体。   63. A medium according to any one of claims 53 to 62, wherein the creation of inference is based on a process model of clonal evolution of cancer. 推論の前記作成が前記個人からの1つ以上の他のサンプルに由来する染色体座におけるコールに基づく、請求項53から63のいずれか一項に記載の媒体。   64. The medium according to any one of claims 53 to 63, wherein the creation of inferences is based on calls at chromosomal loci derived from one or more other samples from the individual. 推論の前記作成が1人以上の他の個人の1つ以上のサンプルに由来する染色体座におけるコールに基づく、請求項53から64のいずれか一項に記載の媒体。   65. The medium according to any one of claims 53 to 64, wherein the creation of inferences is based on calls at chromosomal loci derived from one or more samples of one or more other individuals. 推論の前記作成が1つ以上の基準母集団の染色体座における共通の多型性の事前知識に基づく、請求項53から65のいずれか一項に記載の媒体。   66. A medium according to any one of claims 53 to 65, wherein the generation of inference is based on prior knowledge of common polymorphisms at chromosomal loci of one or more reference populations. 推論の前記作成が染色体座における1つ以上の再発がんの突然変異の事前知識に基づく、請求項53から66のいずれか一項に記載の媒体。   67. The medium according to any one of claims 53 to 66, wherein said generating of inferences is based on prior knowledge of one or more recurrent cancer mutations at chromosomal loci. 推論の前記作成ががんを含むサンプル中のがん細胞の比率に基づく、請求項53から67のいずれか一項に記載の媒体。   68. The medium of any one of claims 53 to 67, wherein said generating of inferences is based on the proportion of cancer cells in a sample containing cancer. 前記がんを含むサンプルががんを引き起こす1つ以上のDNA分子を含む、請求項68に記載の媒体。   69. The medium of claim 68, wherein the sample containing cancer comprises one or more DNA molecules that cause cancer. 前記がんを含むサンプルが1つ以上のがん性組織を含む、請求項68に記載の媒体。   69. The medium of claim 68, wherein the sample containing cancer comprises one or more cancerous tissues. 推論の前記作成が確率モデルによって変異体を説明することを含む、請求項53から70のいずれか一項に記載の媒体。   71. The medium according to any one of claims 53 to 70, wherein said creating of inference comprises describing a variant by means of a probabilistic model. 推論の前記作成が確率モデルによって前記染色体座にわたる一連の整列されたシーケンスリードを説明することを含む、請求項53から71のいずれか一項に記載の媒体。   72. A medium according to any one of claims 53 to 71, wherein the creation of inference comprises describing a series of aligned sequence reads across the chromosomal locus by a probabilistic model. 推論の前記作成が確率モデルによって前記染色体座における倍数関係を説明することを含む、請求項53から72のいずれか一項に記載の媒体。   73. A medium according to any one of claims 53 to 72, wherein the creation of inference comprises describing a multiple relation at the chromosomal locus by means of a probabilistic model. 推論の前記作成が確率モデルによってサンプル中のがん細胞の比率を説明することを含む、請求項53から73のいずれか一項に記載の媒体。   74. The medium of any one of claims 53-73, wherein said creating of inference comprises describing the proportion of cancer cells in a sample by means of a probabilistic model. 前記比率が二値変数によって説明される、請求項74に記載の媒体。   75. The medium of claim 74, wherein the ratio is described by a binary variable. 前記データ解析アプリケーションが、1つ以上のコーディング領域、予測される損傷の深刻度、1つ以上の生殖細胞系列突然変異、1つ以上の体細胞突然変異、1つ以上の突然変異・薬物間の相互作用、臨床試験において観察される1つ以上の突然変異、1つ以上の疾患、1つ以上の症状、または1つ以上の副作用のうち1つ以上における影響に関して、前記推定変異体に注釈を付けるように構成されたモジュールをさらに備える、請求項42から75のいずれか一項に記載の媒体。   The data analysis application includes: one or more coding regions, expected severity of damage, one or more germline mutations, one or more somatic mutations, one or more mutations and drugs The putative variants are annotated as to their effect on one or more of the interaction, one or more mutations observed in a clinical trial, one or more diseases, one or more symptoms, or one or more side effects. 76. The medium of any one of claims 42-75, further comprising a module configured to attach. 前記データ解析アプリケーションが、治療方法を推奨するように構成されたモジュールをさらに備える、請求項42から76のいずれか一項に記載の媒体。   78. The medium of any one of claims 42-76, wherein the data analysis application further comprises a module configured to recommend a treatment method. 前記データ解析アプリケーションが、処置方法を推奨するように構成されたモジュールをさらに備える、請求項42から77のいずれか一項に記載の媒体。   78. The medium of any one of claims 42-77, wherein the data analysis application further comprises a module configured to recommend a treatment method. 前記データ解析アプリケーションが、処置の経過を査定するように構成されたモジュールをさらに備える、請求項42から78のいずれか一項に記載の媒体。   79. The medium of any one of claims 42-78, wherein the data analysis application further comprises a module configured to assess the progress of treatment. 前記データ解析アプリケーションが、リスクを査定するように構成されたモジュールをさらに備える、請求項42から79のいずれか一項に記載の媒体。   80. The medium of any one of claims 42-79, wherein the data analysis application further comprises a module configured to assess risk. 前記データ解析アプリケーションが、治療方法の効率をモニタリングするように構成されたモジュールをさらに備える、請求項42から80のいずれか一項に記載の媒体。   81. The medium of any one of claims 42-80, wherein the data analysis application further comprises a module configured to monitor the efficiency of a treatment method. 前記データ解析アプリケーションが、処置方法の効率をモニタリングするように構成されたモジュールをさらに備える、請求項42から81のいずれか一項に記載の媒体。   82. The medium of any one of claims 42-81, wherein the data analysis application further comprises a module configured to monitor the efficiency of a treatment method. (a)1つ以上のサンプルを個人から収集するステップと、
(b)高スループットシーケンシング機器を使用して、前記1つ以上のサンプルの核酸分子のシーケンシングを行い、シーケンスリードを生成するステップと、
(c)前記シーケンスリードを基準アセンブリに対して整列させて、予測ゲノムシーケンスを生成するステップと、
(d)前記予測ゲノムシーケンスを共同で同時に解析することによって、推定変異体を特定するステップと、
(e)体細胞突然変異または生殖細胞系列変異体である確率によって、前記推定変異体をスコアリングするステップとを含む、方法。
(A) collecting one or more samples from an individual;
(B) sequencing the nucleic acid molecules of the one or more samples using high throughput sequencing equipment to generate a sequence read;
(C) aligning the sequence reads to a reference assembly to generate a predicted genomic sequence;
(D) identifying putative variants by jointly analyzing the predicted genomic sequences simultaneously;
(E) scoring the putative variants by their probability of being somatic mutations or germline variants.
前記1つ以上のサンプルが同時に収集される、請求項83に記載の方法。   84. The method of claim 83, wherein the one or more samples are collected simultaneously. 前記1つ以上のサンプルが少なくとも2つのサンプルを含み、前記少なくとも2つサンプルが別の時点で収集される、請求項83または84に記載の方法。   85. The method of claim 83 or 84, wherein the one or more samples comprise at least two samples, and the at least two samples are collected at different times. 前記1つ以上のサンプルが原発腫瘍を含む、請求項83から85のいずれか一項に記載の方法。   86. The method of any one of claims 83-85, wherein the one or more samples comprise a primary tumor. 前記1つ以上のサンプルが転移腫瘍を含む、請求項83から86のいずれか一項に記載の方法。   87. The method of any one of claims 83 to 86, wherein the one or more samples comprise metastatic tumors. 前記1つ以上のサンプルが体液を含む、請求項83から87のいずれか一項に記載の方法。   88. The method of any one of claims 83-87, wherein the one or more samples comprise bodily fluid. 前記1つ以上のサンプルが無細胞サンプルを含む、請求項83から88のいずれか一項に記載の方法。   89. The method of any one of claims 83 to 88, wherein the one or more samples comprise a cell free sample. 前記1つ以上のサンプルがリンパ球を含む、請求項83から88のいずれか一項に記載の方法。   89. The method of any one of claims 83 to 88, wherein the one or more samples comprise lymphocytes. 前記1つ以上のサンプルが血漿を含む、請求項83から90のいずれか一項に記載の方法。   91. The method of any one of claims 83-90, wherein the one or more samples comprise plasma. 前記推定変異体の前記特定が、前記ゲノムシーケンスを1人以上の過去に解析した患者から得たシーケンスのバンクからのシーケンスと比較することを含む、請求項83から91のいずれか一項に記載の方法。   92. The method according to any one of claims 83 to 91, wherein the identification of the putative variant comprises comparing the genomic sequence to a sequence from a bank of sequences obtained from one or more previously analyzed patients. the method of. 前記推定変異体の前記スコアリングが、正しいコールと誤ったコールの組を用いて訓練した機械学習方法に基づいて確率を調節することを含む、請求項83から92のいずれか一項に記載の方法。   93. The scoring according to any one of claims 83 to 92, wherein said scoring of said putative variants comprises adjusting probabilities based on machine learning methods trained with correct and false call pairs. Method. 前記推定変異体の前記特定およびスコアリングが、染色体座における推論を作成することを含む、請求項83から93のいずれか一項に記載の方法。   94. The method of any one of claims 83 to 93, wherein the identifying and scoring of the putative variant comprises making an inference at a chromosomal locus. 推論の前記作成が確率モデルを使用することを含む、請求項94に記載の方法。   95. The method of claim 94, wherein said creating of inference comprises using a probabilistic model. 推論の前記作成が統計的推論を使用することを含む、請求項94または95に記載の方法。   96. The method of claim 94 or 95, wherein said creating of inferences comprises using statistical inference. 推論の前記作成がベイズ推論を使用することを含む、請求項94から96のいずれか一項に記載の方法。   97. The method of any one of claims 94 to 96, wherein said creating of inference comprises using Bayesian inference. 推論の前記作成がベイズネットワークモデルを使用することを含む、請求項94から97のいずれか一項に記載の方法。   100. A method according to any one of claims 94 to 97, wherein said creating of inference comprises using a Bayesian network model. 推論の前記作成が生殖細胞系列および体細胞変異体を発見する事前確率に基づく、請求項94から98のいずれか一項に記載の方法。   100. The method of any one of claims 94 to 98, wherein said generating of inferences is based on prior probabilities of finding germline and somatic variants. 推論の前記作成が前記染色体座にわたって整列された一連のシーケンスリードに基づく、請求項94から99のいずれか一項に記載の方法。   100. The method of any one of claims 94 to 99, wherein the generation of inference is based on a series of sequence reads aligned across the chromosomal loci. 推論の前記作成が前記高スループットシーケンシング機器の誤り率に基づく、請求項94から100のいずれか一項に記載の方法。   101. The method according to any one of claims 94 to 100, wherein said creating of inferences is based on an error rate of said high throughput sequencing equipment. 前記誤り率がベースコールに対する品質保証において提供される、請求項101に記載の方法。   102. The method of claim 101, wherein the error rate is provided in quality assurance for a base call. 推論の前記作成が前記染色体座にわたる染色体領域の倍数関係に基づく、請求項94から102のいずれか一項に記載の方法。   103. A method according to any one of claims 94 to 102, wherein the generation of inference is based on a multiple relationship of chromosomal regions across the chromosomal locus. 推論の前記作成ががんのクローン進化のプロセスモデルに基づく、請求項94から103のいずれか一項に記載の方法。   104. The method of any one of claims 94 to 103, wherein said generating of inferences is based on a process model of clonal evolution of cancer. 推論の前記作成が前記個人の1つ以上の他のサンプルに由来する染色体座におけるコールに基づく、請求項94から104のいずれか一項に記載の方法。   105. The method according to any one of claims 94 to 104, wherein said generating of inferences is based on calls at chromosomal loci derived from one or more other samples of said individual. 推論の前記作成が1人以上の他の個人の1つ以上のサンプルに由来する染色体座におけるコールに基づく、請求項94から105のいずれか一項に記載の方法。   106. The method according to any one of claims 94 to 105, wherein said generating of inferences is based on calls at chromosomal loci derived from one or more samples of one or more other individuals. 推論の前記作成が1つ以上の基準母集団の染色体座における共通の多型性の事前知識に基づく、請求項94から106のいずれか一項に記載の方法。   107. The method according to any one of claims 94 to 106, wherein said generating of inferences is based on prior knowledge of common polymorphisms at chromosomal loci of one or more reference populations. 推論の前記作成が染色体座における1つ以上の再発がんの突然変異の事前知識に基づく、請求項94から107のいずれか一項に記載の方法。   108. The method of any one of claims 94-107, wherein said generating of inferences is based on prior knowledge of mutations of one or more recurrent cancers at chromosomal loci. 推論の前記作成ががんを含むサンプル中のがん細胞の比率に基づく、請求項94から108のいずれか一項に記載の方法。   109. The method of any one of claims 94 to 108, wherein said generating of inferences is based on the proportion of cancer cells in a sample containing cancer. 前記がんを含むサンプルががんを引き起こす1つ以上のDNA分子を含む、請求項109に記載の方法。   110. The method of claim 109, wherein the sample containing cancer comprises one or more DNA molecules that cause cancer. 前記がんを含むサンプルが1つ以上のがん性組織を含む、請求項109に記載の方法。   110. The method of claim 109, wherein the sample comprising cancer comprises one or more cancerous tissues. 推論の前記作成が確率モデルによって変異体を説明することを含む、請求項94から111のいずれか一項に記載の方法。   113. A method according to any one of claims 94 to 111, wherein said creating of inference comprises describing a variant by means of a probabilistic model. 推論の前記作成が確率モデルによって前記染色体座にわたる一連の整列されたシーケンスリードを説明することを含む、請求項94から112のいずれか一項に記載の方法。   113. The method according to any one of claims 94 to 112, wherein said creating of inference comprises describing a series of aligned sequence reads across said chromosomal loci by means of a probabilistic model. 推論の前記作成が確率モデルによって前記染色体座における倍数関係を説明することを含む、請求項94から113のいずれか一項に記載の方法。   114. A method according to any one of claims 94 to 113, wherein said creating of inference comprises describing a multiple relationship at said chromosomal locus by means of a probabilistic model. 推論の前記作成が確率モデルによってサンプル中のがん細胞の比率を説明することを含む、請求項94から114のいずれか一項に記載の方法。   115. The method according to any one of claims 94 to 114, wherein said creating of inference comprises describing the proportion of cancer cells in a sample by means of a probabilistic model. 前記比率が二値変数によって説明される、請求項115に記載の方法。   116. The method of claim 115, wherein the ratio is described by a binary variable. 1つ以上のコーディング領域、予測される損傷の深刻度、1つ以上の生殖細胞系列突然変異、1つ以上の体細胞突然変異、1つ以上の突然変異・薬物間の相互作用、臨床試験において観察される1つ以上の突然変異、1つ以上の疾患、1つ以上の症状、または1つ以上の副作用のうち1つ以上における影響に関して、前記推定変異体に注釈を付けるステップをさらに含む、請求項83から116のいずれか一項に記載の方法。   One or more coding regions, expected severity of damage, one or more germline mutations, one or more somatic mutations, interactions between one or more mutations and drugs, in clinical trials Annotating the putative variant as to the effect on one or more of the one or more mutations, one or more diseases, one or more symptoms, or one or more side effects observed 117. The method of any one of claims 83-116. 前記個人に対して治療方法を推奨するステップをさらに含む、請求項83から117のいずれか一項に記載の方法。   118. The method of any one of claims 83-117, further comprising the step of recommending a treatment method to the individual. 前記個人に対して処置方法を推奨するステップをさらに含む、請求項83から118のいずれか一項に記載の方法。   119. The method of any one of claims 83 to 118, further comprising the step of recommending a treatment method to the individual. 前記個人の治療の経過を査定するステップをさらに含む、請求項83から119のいずれか一項に記載の方法。   120. A method according to any one of claims 83 to 119, further comprising the step of assessing the progress of treatment of the individual. リスクを査定するステップをさらに含む、請求項83から120のいずれか一項に記載の方法。   121. A method according to any one of claims 83 to 120, further comprising the step of assessing risk. 前記個人に対して投与される治療方法の効率をモニタリングするステップをさらに含む、請求項83から121のいずれか一項に記載の方法。   123. A method according to any one of claims 83 to 121, further comprising the step of monitoring the efficiency of a therapeutic method administered to the individual. 前記個人に対して投与される処置方法の効率をモニタリングするステップをさらに含む、請求項83から122のいずれか一項に記載の方法。   124. The method of any one of claims 83 to 122, further comprising the step of monitoring the efficiency of a treatment method administered to the individual.
JP2018560742A 2016-02-09 2017-02-09 System and method for analyzing nucleic acids Pending JP2019511070A (en)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201662293136P 2016-02-09 2016-02-09
US62/293,136 2016-02-09
PCT/US2017/017230 WO2017139492A1 (en) 2016-02-09 2017-02-09 Systems and methods for analyzing nucelic acids

Publications (1)

Publication Number Publication Date
JP2019511070A true JP2019511070A (en) 2019-04-18

Family

ID=59563500

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018560742A Pending JP2019511070A (en) 2016-02-09 2017-02-09 System and method for analyzing nucleic acids

Country Status (5)

Country Link
US (1) US20190050530A1 (en)
EP (1) EP3414693A4 (en)
JP (1) JP2019511070A (en)
CN (1) CN108885648A (en)
WO (1) WO2017139492A1 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021070739A1 (en) * 2019-10-08 2021-04-15 国立大学法人 東京大学 Analysis device, analysis method, and program
KR102544002B1 (en) * 2022-03-10 2023-06-16 주식회사 아이엠비디엑스 Method for Differentiating Somatic Mutation and Germline Mutation

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2011305445B2 (en) 2010-09-24 2017-03-16 The Board Of Trustees Of The Leland Stanford Junior University Direct capture, amplification and sequencing of target DNA using immobilized primers
US11514289B1 (en) * 2016-03-09 2022-11-29 Freenome Holdings, Inc. Generating machine learning models using genetic data
JP6814875B2 (en) 2016-08-08 2021-01-20 エフ.ホフマン−ラ ロシュ アーゲーF. Hoffmann−La Roche Aktiengesellschaft Base call for stochastic sequencing process
WO2019016353A1 (en) * 2017-07-21 2019-01-24 F. Hoffmann-La Roche Ag Classifying somatic mutations from heterogeneous sample
KR20200057024A (en) * 2017-09-20 2020-05-25 가던트 헬쓰, 인크. Methods and systems for differentiating somatic and germline variants
WO2019070598A1 (en) * 2017-10-04 2019-04-11 Toma Biosciences, Inc. Library preparation for whole genome sequencing
WO2019071219A1 (en) * 2017-10-06 2019-04-11 Grail, Inc. Site-specific noise model for targeted sequencing
CA3099819A1 (en) * 2018-05-16 2019-11-21 Twinstrand Biosciences, Inc. Methods and reagents for resolving nucleic acid mixtures and mixed cell populations and associated applications
US10395772B1 (en) 2018-10-17 2019-08-27 Tempus Labs Mobile supplementation, extraction, and analysis of health records
EP3857555A4 (en) * 2018-10-17 2022-12-21 Tempus Labs Data based cancer research and treatment systems and methods
US20200258601A1 (en) * 2018-10-17 2020-08-13 Tempus Labs Targeted-panel tumor mutational burden calculation systems and methods
CN110299185B (en) * 2019-05-08 2023-07-04 西安电子科技大学 Insertion variation detection method and system based on new generation sequencing data
JP6953586B2 (en) * 2019-06-19 2021-10-27 シスメックス株式会社 Nucleic acid sequence analysis method of patient sample, presentation method of analysis result, presentation device, presentation program, and nucleic acid sequence analysis system of patient sample
CN110534202A (en) * 2019-08-21 2019-12-03 江南大学附属医院(无锡市第四人民医院) A kind of system that the expression for Sox10 in triple negative breast cancer is analyzed
WO2021035224A1 (en) 2019-08-22 2021-02-25 Tempus Labs, Inc. Unsupervised learning and prediction of lines of therapy from high-dimensional longitudinal medications data
US20220340966A1 (en) * 2019-09-09 2022-10-27 Oregon Health & Science University Crispr-mediated capture of nucleic acids
WO2021071638A1 (en) * 2019-10-08 2021-04-15 Illumina, Inc. Fragment size characterization of cell-free dna mutations from clonal hematopoiesis
CN110867254A (en) * 2019-11-18 2020-03-06 北京市商汤科技开发有限公司 Prediction method and device, electronic device and storage medium
US20230028058A1 (en) * 2019-12-16 2023-01-26 Ohio State Innovation Foundation Next-generation sequencing diagnostic platform and related methods
GB2615061A (en) * 2021-12-03 2023-08-02 Congenica Ltd Next generation prenatal screening

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ES2311958T3 (en) * 2005-02-11 2009-02-16 Smartgene Gmbh PROCEDURE AND COMPUTER SYSTEM TO VALIDATE DNA SEQUENCING DATA.
EP2659411A1 (en) * 2010-12-29 2013-11-06 Dow AgroSciences LLC Data analysis of dna sequences
EP2841595A2 (en) * 2012-04-23 2015-03-04 Max-Planck-Gesellschaft zur Förderung der Wissenschaften e.V. Genetic predictors of response to treatment with crhr1 antagonists
KR102566176B1 (en) * 2014-05-30 2023-08-10 베리나타 헬스, 인코포레이티드 Detecting fetal sub-chromosomal aneuploidies and copy number variations

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021070739A1 (en) * 2019-10-08 2021-04-15 国立大学法人 東京大学 Analysis device, analysis method, and program
JPWO2021070739A1 (en) * 2019-10-08 2021-11-25 国立大学法人 東京大学 Analytical equipment, analytical methods and programs
JP7352904B2 (en) 2019-10-08 2023-09-29 国立大学法人 東京大学 Analytical equipment, analytical methods and programs
KR102544002B1 (en) * 2022-03-10 2023-06-16 주식회사 아이엠비디엑스 Method for Differentiating Somatic Mutation and Germline Mutation
WO2023171859A1 (en) * 2022-03-10 2023-09-14 주식회사 아이엠비디엑스 Method for distinguishing between somatic mutations and germline mutations

Also Published As

Publication number Publication date
WO2017139492A1 (en) 2017-08-17
CN108885648A (en) 2018-11-23
US20190050530A1 (en) 2019-02-14
EP3414693A4 (en) 2019-10-30
EP3414693A1 (en) 2018-12-19

Similar Documents

Publication Publication Date Title
JP2019511070A (en) System and method for analyzing nucleic acids
US20230141527A1 (en) Methods for attaching adapters to sample nucleic acids
US11898198B2 (en) Universal short adapters with variable length non-random unique molecular identifiers
KR102505122B1 (en) Methods for Detection of Genomic Copy Changes in DNA Samples
KR102210852B1 (en) Systems and methods to detect rare mutations and copy number variation
US20180119230A1 (en) Systems and methods for analyzing nucleic acid
US20180120291A1 (en) Diagnostic methods
US20190189242A1 (en) Machine learning system and method for somatic mutation discovery
US20160281154A1 (en) Methods for assessing cancer
CN114574581A (en) System and method for detecting rare mutations and copy number variations
US11384382B2 (en) Methods of attaching adapters to sample nucleic acids
US11608518B2 (en) Methods for analyzing nucleic acids
US20180135044A1 (en) Non-unique barcodes in a genotyping assay
WO2019070598A1 (en) Library preparation for whole genome sequencing

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180808

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20190122

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20190122