JP7300831B2 - ゲノムアセンブリ、ハプロタイプフェージング、および標的に依存しない核酸検出のための方法 - Google Patents

ゲノムアセンブリ、ハプロタイプフェージング、および標的に依存しない核酸検出のための方法 Download PDF

Info

Publication number
JP7300831B2
JP7300831B2 JP2018519743A JP2018519743A JP7300831B2 JP 7300831 B2 JP7300831 B2 JP 7300831B2 JP 2018519743 A JP2018519743 A JP 2018519743A JP 2018519743 A JP2018519743 A JP 2018519743A JP 7300831 B2 JP7300831 B2 JP 7300831B2
Authority
JP
Japan
Prior art keywords
nucleic acid
dna
sequence
sample
acid segment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018519743A
Other languages
English (en)
Other versions
JP2019500009A (ja
Inventor
イー. グリーン,リチャード
ハートレー,ポール
トロル,クリストファー
エイ ミン,エイ
Original Assignee
ダブテイル ゲノミクス エルエルシー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ダブテイル ゲノミクス エルエルシー filed Critical ダブテイル ゲノミクス エルエルシー
Publication of JP2019500009A publication Critical patent/JP2019500009A/ja
Priority to JP2021170390A priority Critical patent/JP2022028662A/ja
Application granted granted Critical
Publication of JP7300831B2 publication Critical patent/JP7300831B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6806Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1034Isolating an individual clone by screening libraries
    • C12N15/1065Preparation or screening of tagged libraries, e.g. tagged microorganisms by STM-mutagenesis, tagged polynucleotides, gene tags
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/11DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6809Methods for determination or identification of nucleic acids involving differential detection
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • C12Q1/6874Methods for sequencing involving nucleic acid arrays, e.g. sequencing by hybridisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2521/00Reaction characterised by the enzymatic activity
    • C12Q2521/30Phosphoric diester hydrolysing, i.e. nuclease
    • C12Q2521/301Endonuclease
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2523/00Reactions characterised by treatment of reaction samples
    • C12Q2523/10Characterised by chemical treatment
    • C12Q2523/101Crosslinking agents, e.g. psoralen
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2535/00Reactions characterised by the assay type for determining the identity of a nucleotide base or a sequence of oligonucleotides
    • C12Q2535/122Massive parallel sequencing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Organic Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Physics & Mathematics (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Biochemistry (AREA)
  • Microbiology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Immunology (AREA)
  • Evolutionary Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Plant Pathology (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Description

<相互参照>
本出願は、全体として参照することで本明細書に組み込まれる2015年10月19日に出願された米国仮特許出願第62/243,576号、全体として参照することで本明細書に組み込まれる2015年10月19日に出願された米国仮特許出願第62/243,591号、全体として参照することで本明細書に組み込まれる2015年11月16日に出願された米国仮特許出願第62/255,953号、全体として参照することで本明細書に組み込まれる2016年2月11日に出願された米国仮特許出願第62/294,198号の利点を主張するものである。
連邦政府が支援する研究に関する陳述
本発明は、国立ヒトゲノム研究所によって契約番号5R44HG008719-02の下で米国政府のサポートを受けてなされた。
高品質の非常に連続したゲノム配列を生成することは、理論上および実際上、依然として困難である。ハイスループット配列決定は、所望の生物医学的、生態学的、または生化学的な様々な環境に居住する生命体の遺伝子解析を可能にする。培養に反応しない微生物をしばしば含む環境サンプルのショットガン配列決定により、所定の環境の生命体内に存在する遺伝子と生化学プロセスを明らかにすることができる。こうしたデータを慎重にフィルタ処理して解析することで、データ内のリード間の系統発生学的関連性の兆候も明らかにすることができる。しかしながら、このような非常に複雑なデータセットの高品質のde novoアセンブリは一般には困難であると考えられている。
次世代配列決定(NGS)データの永久的な欠点は、リードの長さが短く、挿入サイズが比較的小さいため、ゲノムの大きな反復領域に及ぶことができないということである。この欠陥はde novoアセンブリに著しい影響を及ぼす。ゲノム再編成の性質と配置が不確かであるので、長い反復領域によって分離されたコンティグを連鎖させ、再配列決定することはできない。さらに、長い距離、変異体をハプロタイプに自信を持って関連付けることはできないため、フェージング情報は確認することができない。本開示は、適切なインプットDNAを備えた約数百キロベースかつ最大でメガベースのゲノム距離に及ぶ非常に長距離のリード対(XLRP)を生成することにより、こうした問題すべてに同時に対処することができる。そのようなデータは、セントロメアを含むゲノム中の大きな反復領域によって提示された実質的な障壁を克服するのに非常に貴重であり、コスト効率の良いde novoアセンブリを可能にし、および、個別化医療に十分な完全性と正確さを備えた再配列決定データを生成することができる。
DNAの非常に離れているが分子的に連鎖したセグメント間の関連性を形成する際の再構成されたクロマチンの使用は非常に重要である。本開示は、離れたセグメントをくっつけ、クロマチンの立体構造により共有結合させることができ、それにより、DNA分子の以前離れていた部分を物理的に接続する。その後の処理は、関連するセグメントの配列の確認を可能にし、ゲノム上での分離が最大でインプットDNA分子の完全長まで伸びるリード対を得ることができる。リード対は同じ分子に由来するので、フェーズ情報も含んでいる。
健康とフィットネスの多くの態様は、胃腸管内、皮膚上、および他の位置の豊富な微生物群によって影響を受ける。本明細書には、そのような微生物群の十分なゲノムの複雑さを明らかにする簡易かつ有力な手法記載されている。これらの技術は、人体(例えば腸)や微生物群が見られる他の部位などの位置にある十分な遺伝子レパートリーの迅速で、正確で、かつ定量的なアッセイを可能にすることができる。
このような技術は、例えば、糞便のメタゲノミクス用途のためのインビトロの近接ライゲーション方法を含む。これらの技術は、単一遺伝子座分子計数法あるいは統計的推定などの方法を越えるための研究と生物医学的分析を可能にするde novoメタゲノミクスアセンブリに対する有力かつ効率的な手法を提供することができる。
本開示の技術は、複雑なメタゲノミクス群のすべての主成分の正確なアセンブリ向けに単一の統合されたワークフローを提供することができる。これらの技術により、マイクロバイオーム(例えば、腸マイクロバイオーム)がヒトの健康と疾患、他の動物、植物、他の生物形態、および環境に影響を及ぼす方法を包括的に理解することができる。
本明細書に開示された技術は、ヒトの糞便サンプルなどのサンプル中にある微生物の多様性の効率的な捕獲と表現を提供することができる。さらに、これらの技術が生み出す豊富なデータタイプを利用するメタゲノミクスアセンブリに対する計算的な手法も開示される。そのような計算的な手法は非常に連続した足場および菌株のデコンボリューションを達成することができる。本開示の技術は、数日で小サンプル(例えば、糞便サンプル)から動的な微生物環境(例えば、ヒトの腸)についての包括的な見方の生成を与えてくれる頑丈で極めて簡単な研究プロトコルおよびソフトウェア製品を提供することができる。
いくつかの実施形態において、本開示は、以前に要求されていたよりもはるかに少ないデータで高品質なアセンブリを生成することができる方法を提供する。例えば、本明細書に開示された方法は、Illumina HiSeq データの2つのレーンのみからのゲノムアセンブリを提供する。
他の実施形態では、本開示は、長距離リード対手法を使用して、染色体レベルのフェージングを生成することができる方法を提供する。例えば、本明細書に開示された方法は、その個体についてヘテロ接合の一塩基多型(SNP)の90%以上を少なくとも99%以上の精度になるまでフェージングする(phase)ことができる。この精度は実質的により高価でかつより面倒な方法によって生成されたフェージングと同程度である。
いくつかの例において、最大でメガベースの縮尺までのゲノムDNAの断片を生成することができる方法は、本明細書に開示された方法と共に使用可能である。抽出によって提供される最長の断片にまで及ぶリード対を生成する本方法の能力を確認するために、長いDNA断片を生成することができる。場合によっては、150kbpを越える長さのDNA断片を抽出および使用することで、XLRPライブラリーを生成することができる。
本開示は、de novoゲノムアセンブリを非常に加速し改善する方法を提供する。本明細書に開示された方法は、1人以上の被験体からのゲノムの迅速かつ廉価なde novoアセンブリを可能にするデータ分析のための方法を利用する。本開示は、ハプロタイプフェージングを含む様々な用途とメタゲノミクス解析で本明細書に開示された方法を使用することができることを規定している。
ある実施形態では、本開示は、ゲノムアセンブリのための方法を提供し、該方法は、複数のコンティグを生成する工程と、染色体、クロマチンあるいは再構成されたクロマチンの物理的な配置を探索することにより生成されるデータから複数のリード対を生成する工程と、複数のコンティグへ複数のリード対をマッピングあるいはアセンブルする工程と、リードマッピングあるいはアセンブリデータを使用して、コンティグの隣接行列を構築する工程と、その順序および/またはゲノムに対する方向を表す、コンティグを通る経路を決定するために、隣接行列を分析する工程を含む。いくつかの実施形態において、本開示は、コンティグの端までの各リードの距離の関数を得ることにより、少なくとも約90%のリード対が重み付けされることで、どのリード対が短い範囲の接触を示し、どのリード対がより長い範囲の接触を示すかについての情報を組み込むことを定めている。他の実施形態では、転写リプレッサーCTCFのような、クロマチンの足場相互作用を調節する1つ以上の薬剤に対する保存結合部位などの、ゲノムの無差別な領域を表すいくつかのコンティグ上の多くの接点の重みを軽減するために、隣接行列を再スケーリングすることができる。他の実施形態では、本開示は、ヒト被験体のゲノムアセンブリの方法を提供し、それにより複数のコンティグが、ヒト被験体のDNAから生成され、それにより被験体の裸のDNAから作られるヒト被験体の染色体、クロマチン、または再構成されたクロマチンを分析することにより複数のリード対が生成される。
本明細書のいくつかの実施形態において、利点は、フェーズ情報を提供するようにタグ付けされた複合体を隔離するのに必要とされる工程の数の減少である。先行技術中の多くの技術では、例えば、アビジンまたはストレプトアビジンで標識された固体表面への複合体の結合を促すために、複合体は、例えば、ビオチンでタグ付けされたタンパク質あるいはナノ粒子などの、タグ付けされた核酸あるいはタグ付けされた結合部分を含む。本開示のいくつかの方法と組成物では、固体表面は、複合体が固体表面との結合を促すためにリガンドで修飾される必要がないように、直接、あるいは溶媒で媒介されて、複合体と結合する部分でコーティングされる。親水性部分、疎水性部分、正荷電部分、負荷電部分、PEG、ポリアミン、アミノ部分、ポリカルボン酸部分、あるいは他の部分または上記部分の組み合わせなどの多くの部分が本明細書で企図されている。場合によっては、表面は、直接あるいは溶媒を介して結合部分-核酸複合体を結合するSPRI表面などのSPRI表面である。
本開示は、ショットガン配列決定方法を使用することにより複数のコンティグを生成することができることを規定しており、該方法は、被験体の長く伸びたDNAを不定のサイズの無作為の断片へ断片化する工程と、複数の配列決定リードを生成するためにハイスループット配列決定方法を使用して断片を配列決定する工程と、複数のコンティグを形成するために配列決定リードをアセンブルする工程を含む。
ある実施形態では、本開示は、クロマチン捕捉技術を用いて、染色体、クロマチン、あるいは再構成されたクロマチンの物理的な配置を探索することにより複数のリード対を生成することができると規定している。いくつかの実施形態において、クロマチン捕捉技術は、DNA-タンパク質の架橋を形成するために、ホルムアルデヒドなどの固定剤で、染色体、クロマチンあるいは再構成されたクロマチンを架橋することと、付着末端を含む複数のDNA-タンパク質複合体を生成するために、1つ以上のヌクレアーゼ酵素(例えば、制限酵素)で、架橋されたDNA-タンパク質を切断することと、後に一緒に連結される平滑末端を作製するために、ビオチンなどの1つ以上のマーカーを含有するヌクレオチドで付着末端を充填することと、複数のDNA-タンパク質複合体を断片へと断片化することと、1つ以上のマーカーを用いて断片を含有する接合部をプルダウンすることと、複数のリード対を生成するためにハイスループット配列決定方法を使用して、断片を含有する接合部を配列決定することを含む。いくつかの実施形態において、本明細書に開示される方法のための複数のリード対は、再構成されたクロマチンの物理的な配置を探索することにより生成されるデータから作製される。
いくつかの実施形態において、本開示は、タグ付けされた配列を生成する方法を提供し、該方法は、DNA分子を会合分子に結合する工程と、セグメント末端を含む複数のDNA-タンパク質複合体を生成するために結合したDNA-タンパク質を切断する工程と、セグメント末端をタグへ連結する工程と、複数のリード対を生成するためにハイスループット配列決定方法を使用して、断片を含有する接合部を配列決定する工程を含む。ヒストンなどの厳密なクロマチン要素を含むが、同様に、より一般に定義されたクロマチン要素、などの、DNA結合タンパク質、転写因子、核タンパク質、トランスポゾン、あるいはDNA-親和性分子を含む表面を有するナノ粒子などの非ポリペプチドDNA結合会合分子も含む、DNAを結合する多くの会合分子が企図されている。場合によっては、タグは、例えば、リガーゼを使用して、あるいはタグ分子を用いて充填されたトランスポゼースを使用して、セグメント末端に連結される。場合によっては、共通のタグを含むセグメント末端は、多くの場合フェーズを示す共通の起始分子に割り当てられる。いくつかの実施形態において、本明細書に開示される方法のための複数のリード対は、再構成されたクロマチンの物理的な配置を探索することにより生成されるデータから作製される。
様々な実施形態では、本開示は、培養細胞または1次組織から単離された染色体またはクロマチンの物理的な配置を探索することにより複数のリード対を決定することができるということを規定している。他の実施形態では、複数のリード対は、1人以上の被験体のサンプルから得られた裸のDNAを単離されたヒストンと複合化することにより形成された、再構成されたクロマチンの物理的な配置を探索することにより決定できる。
本開示は、複数のリード対中のヘテロ接合性の1つ以上の部位を同定する工程を含む、ハプロタイプフェージングを決定する方法を提供し、対立遺伝子変異体のフェージングデータは、1対のヘテロ接合部位を含むリード対を同定することにより、決定できる。
様々な実施形態では、本開示は、修飾されたクロマチン捕捉に基づく方法を使用して、複数の微生物の染色体の物理的な配置を探索することにより、複数のリード対を生成する工程を含む、ハイスループットな細菌ゲノムアセンブリのための方法を提供し、該方法は、改良された以下の工程:ある環境から微生物を捕集する工程と、各微生物細胞内で架橋を形成するために、ホルムアルデヒドなどの固定剤を加える工程であって、様々なコンティグに対するリード対のマッピングが、どのコンティグが同じ種からのものであるかを示す、工程とを含む。
いくつかの実施形態において、本開示は、ゲノムアセンブリのための方法を提供し、該方法は、(a)複数のコンティグを生成する工程と、(b)染色体、クロマチン、あるいは再構成されたクロマチンの物理的な配置を探索することにより生成されるデータから複数のリード対を決定する工程と、(c)複数のコンティグへ複数のリード対をマッピングする工程と、(d)リード-マッピングデータを使用して、コンティグの隣接行列を構築する工程と、(e)その順序および/またはゲノムに対する方向を表すコンティグを通る経路を決定するために、隣接行列を分析する工程を含む。
本開示は、クロマチン捕捉技術を用いて、染色体、クロマチン、あるいは再構成されたクロマチンの物理的な配置を探索するにより複数のリード対を生成することができる方法を提供している。いくつかの実施形態において、クロマチン捕捉技術は、(a)DNA-タンパク質の架橋を形成するために、固定剤で染色体、クロマチンあるいは再構成されたクロマチンを架橋することと、(b)付着末端を含む複数のDNA-タンパク質複合体を生成するために、1つ以上のヌクレアーゼ(例えば、制限)酵素で、架橋されたDNA-タンパク質を切断することと、(c)後に一緒に連結される平滑末端を作製するために、1つ以上のマーカーを含有するヌクレオチドで付着末端を充填することと、(d)複数のDNA-タンパク質複合体を断片へと切断することと、(e)1つ以上のマーカーを用いて断片を含有する接合部をプルダウンすることと、(f)複数のリード対を生成するためにハイスループット配列決定方法を使用して、断片を含有する接合部を配列決定することを含む。
ある実施形態では、複数のリード対は、培養細胞または1次組織から単離された染色体またはクロマチンの物理的な配置を探索することにより決定される。他の実施形態では、複数のリード対は、1人以上の被験体のサンプルから得られた裸のDNAを単離されたヒストンと複合化することにより形成された、再構成されたクロマチンの物理的な配置を探索することにより決定される。
いくつかの実施形態において、長い接触よりも短い接触の高い可能性を組み込むために、コンティグの縁までのリードの距離の関数を求めることにより、複数のリード対の少なくとも約60%、約70%、約80%、約90%、約95%、あるいは約99%以上が重み付けされる。いくつかの実施形態において、隣接行列は、ゲノムの無差別な領域を表すいくつかのコンティグ上の多くの接点の重みを軽減するために、再スケーリングされる。
ある実施形態では、ゲノムの無差別な領域は、クロマチンの足場相互作用を調節する1つ以上の薬剤のための1つ以上の保存された結合部位を含んでいる。いくつかの例において、薬剤は転写リプレッサーCTCFである。
いくつかの実施形態では、本明細書に開示される方法は、ヒト被験体のゲノムアセンブリのための方法を提供し、それにより複数のコンティグが、ヒト被験体のDNAから生成され、それにより被験体の裸のDNAから作られるヒト被験体の染色体、クロマチン、または再構成されたクロマチンを分析することにより複数のリード対が生成される。
他の実施形態では、本開示は、複数のリード対中のヘテロ接合性の1つ以上の部位を同定する工程を含む、ハプロタイプフェージングを決定する方法を提供し、対立遺伝子変異体のフェージングデータは、1対のヘテロ接合部位を含むリード対を同定することにより、決定できる。
さらに別の実施形態では、本開示は、メタゲノミクスアセンブリのための方法を提供し、複数のリード対は、修飾されたクロマチン捕捉に基づく方法を使用して、複数の微生物の染色体の物理的な配置を探索することにより生成され、該方法は、ある環境から微生物を捕集する工程と、各微生物細胞内で架橋を形成するために固定剤を加える工程であって、様々なコンティグに対するリード対のマッピングが、どのコンティグが同じ種からのものであるかを示す、工程とを含む。いくつかの実施形態では、固定剤はホルムアルデヒドである。
いくつかの実施形態において、本開示は、DNA分子から始まる複数のコンティグをアセンブルする方法を提供し、該方法は、DNA分子から複数のリード対を生成する工程と、リード対を使用してコンティグをアセンブルする工程を含み、リード対の少なくとも1%がDNA分子上で50kB以上にも及び、リード対は14日以内に生成される。いくつかの実施形態において、リード対の少なくとも10%は、DNA分子上で50kB以上の距離に及ぶ。いくつかの実施形態において、リード対の少なくとも1%はDNA分子上で100kB以上の距離に及ぶ。場合によっては、リード対は7日以内に生成される。
いくつかの実施形態において、本開示は、DNA分子から始まる複数のコンティグをアセンブルする方法を提供し、該方法は、インビトロで単一のDNA分子から複数のリード対を生成する工程と、リード対を使用してコンティグをアセンブルする工程を含み、リード対の少なくとも1%が単一のDNA分子上で30kB以上の距離に及ぶ。いくつかの実施形態において、リード対の少なくとも10%は、単一のDNA分子上で30kB以上の距離に及ぶ。他の実施形態において、リード対の少なくとも1%は単一のDNA分子上で50kB以上の距離に及ぶ。
さらに他の実施形態では、本開示はハプロタイプフェージングの方法を提供し、該方法は、単一のDNA分子から複数のリード対を生成する工程と、リード対を使用してDNA分子の複数のコンティグをアセンブルする工程を含み、リード対の少なくとも1%が単一のDNA分子上で50kB以上の距離に及び、ハプロタイプフェージングは70%以上の精度で行われる。いくつかの実施形態において、リード対の少なくとも10%は、単一のDNA分子上で50kB以上の距離に及ぶ。他の実施形態において、リード対の少なくとも1%は単一のDNA分子上で100kB以上の距離に及ぶ。いくつかの実施形態において、ハプロタイプフェージングは90%以上の精度で行われる。
本開示は、ハプロタイプフェージングの方法を提供し、該方法は、インビトロで単一のDNA分子から複数のリード対を生成する工程と、リード対を使用してDNA分子の複数のコンティグをアセンブルする工程を含み、リード対の少なくとも1%が単一のDNA分子上で30kB以上の距離に及び、ハプロタイプフェージングは70%以上の精度で行われる。いくつかの実施形態において、リード対の少なくとも10%は、単一のDNA分子上で30kB以上の距離に及ぶ。他の実施形態において、リード対の少なくとも1%は単一のDNA分子上で50kB以上の距離に及ぶ。さらに他の実施形態において、ハプロタイプフェージングは90%以上の精度で行われる。いくつかの実施形態において、ハプロタイプフェージングは70%以上の精度で行われる。
いくつかの実施形態において、本開示は、第1のDNA分子から第1のリード対を生成する方法を提供し、該方法は、(a)インビトロで第1のDNA分子を複数の会合分子に結合する工程であって、第1のDNA分子が第1のDNAセグメントと第2のDNAセグメントを含む、工程と、(b)第1のDNAセグメントと第2のDNAセグメントをタグ付けする工程であって、それにより、少なくとも1つのタグ付けされたDNAセグメントを形成する、工程と、(c)タグ付けされたDNAセグメント、あるいは、タグに隣接する部分またはタグ付けされた末端から反対側にある部分などの、タグ付けされたDNAセグメントの少なくとも認識可能な部分を配列決定する工程を含み、複数の会合分子は、(a)と(b)の工程の前および最中に、アフィニティー標識で共有結合的に修飾されない。
ある実施形態では、本開示は、第1のDNA分子からタグ付けされた配列を生成する方法を提供し、該方法は、(a)複数の会合分子に上記第1のDNA分子をインビトロで架橋する工程と、(b)固体支持体上で上記第1のDNA分子を固定する工程と、(c)第1のDNAセグメントと第2のDNAセグメントを生成するために上記第1のDNA分子を切断する工程と、(d)上記第1のDNAセグメントと上記第2のDNAセグメントをタグ付けする工程であって、それにより、少なくとも1つのタグ付けされたDNAセグメントを形成する、工程と;および、上記タグ付けされたDNAセグメント、あるいは、タグに隣接する部分またはタグ付けされた末端から反対側にある部分などの、タグ付けされたDNAセグメントの少なくとも認識可能な部分を配列決定する工程、もしくは、タグ付けされたDNAセグメントの各末端の認識可能な部分を配列決定する工程であって、それにより、上記のタグ付けされた配列を得る、工程を含み、上記の第1のDNA分子は上記の固体支持体に直接結合される。いくつかの例において、固体支持体は、任意のアフィニティー標識(例えば、ビオチン、ストレプトアビジン、アビジン、ポリヒスチジン、ジゴキシゲニン、EDTA、あるいはこれらの誘導体)によるさらなる修飾を伴うことなくDNAに結合するポリマービーズ(例えば、SPRIビーズ)を含む。
いくつかの実施形態において、再構成されたクロマチンなどからの複数の会合分子は第1のDNA分子に架橋される。いくつかの例において、会合分子はアミノ酸を含む。場合によっては、会合分子がペプチドまたはタンパク質である。ある例において、会合分子はヒストンタンパク質である。場合によっては、ヒストンタンパク質は第1のDNA分子とは異なる供給源からのものである。様々な例において、会合分子はトランスポゼースである。場合によっては、第1のDNA分子は会合分子に非共有結合する。他の場合には、第1のDNA分子は会合分子に共有結合する。ある例において、第1のDNA分子は会合分子に架橋される。ある実施形態では、第1のDNA分子は固定剤で架橋される。いくつかの実施形態では、固定剤はホルムアルデヒドである。様々な実施形態では、方法は固体支持体上の複数の会合分子を固定することを含む。場合によっては、固体支持体はビーズである。いくつかの例では、ビーズはポリマーを含む。いくつかの例では、固定剤はポリスチレンである。ある例において、ポリマーはポリエチレングリコール(PEG)である。ある例において、ビーズは磁気ビーズである。いくつかの例において、ビーズは固体相の可逆的な固定化(SPRI)ビーズである。ある場合では、固体支持体は、複数のカルボキシル基を含んでいる表面を含む。様々な場合において、固体支持体は、任意のポリペプチド(例えばストレプトアビジン)には共有結合しない。場合によっては、会合分子は、固体支持体への固定下の前にアフィニティー標識(例えばビオチン)に共有結合しない。
いくつかの実施形態において、第1のDNAセグメントと第2のDNAセグメントは第1のDNA分子を切断することにより生成される。場合によっては、第1のDNA分子は複数の会合分子に結合された後に、切断される。ある場合には、第1のDNA分子は制限酵素(例えば、MbolI)を使用して切断される。場合によっては、第1のDNA分子はトランスポゼース(例えば、Tn5)を使用して切断される。他の場合には、第1のDNA分子は物理的方法(例えば、超音波処理、機械的剪断)を使用して切断される。ある実施形態では、第1のDNAと第2のDNAのセグメントは、アフィニティー標識で修飾されている。いくつかの例において、アフィニティー標識はビオチンを含むことができ、これは、ストレプトアビジンビーズ、アビジンビーズ、あるいはこれらの誘導体で捕捉可能である。ある例において、アフィニティー標識はビオチンで修飾されたヌクレオシド三リン酸塩(dNTP)である。いくつかの例において、アフィニティー標識はビオチンで修飾されたデオキシリボシトシン三リン酸塩(デオキシシチジン3リン酸)である。いくつかの例において、アフィニティー標識はビオチンで修飾されたデオキシリボシトシン三リン酸塩(dGTP)である。いくつかの例において、アフィニティー標識はビオチンで修飾されたデオキシリボシトシン三リン酸塩(dATP)である。いくつかの例において、アフィニティー標識はビオチンで修飾されたデオキシリボシトシン三リン酸塩(dUTP)である。ある場合には、第1のDNAセグメントは第1のタグで少なくとも第1の端部においてタグ付けされ、第2のDNAセグメントは第2のタグで少なくとも第2の端部においてタグ付けされる。ある例において、第1のタグと第2のタグは同一である。様々な例において、第1のDNAセグメントと第2のDNAセグメントは、トランスポゼース(例えば、Tn5)を使用してタグ付けされる。場合によっては、第1のDNAセグメントは第2のDNAセグメントでタグ付けされ、第2のDNAセグメントは第1のDNAセグメントでタグ付けされる。例えば、第1のDNAセグメントは第2のDNAセグメントに連鎖する。いくつかの例において、第1のDNAセグメントはリガーゼを使用して、第2のDNAセグメントに連鎖する。場合によっては、連鎖したDNAセグメントは工程(c)における配列決定の前に切断される。ある例において、連鎖したDNAセグメントは制限酵素(例えば、ExoIII)を使用して切断される。他の場合には、連鎖したDNAセグメントは物理的方法(例えば、超音波処理、機械的剪断)を使用して切断される。
いくつかの実施形態において、第1のDNAセグメントは、第2のDNAセグメントに連鎖する前に、約10回未満洗浄される。いくつかの実施形態において、第1のDNAセグメントは、第2のDNAセグメントに連鎖する前に、約6回未満洗浄される。いくつかの実施形態において、上記方法は、連鎖したDNAセグメントを配列決定アダプターに結合する工程を含む。
ある実施形態では、該方法は、タグ付けされた配列を使用して、複数のコンティグをアセンブルする工程を含む。いくつかの実施形態において、第1と第2のDNAセグメントの各々は、少なくとも1つのアフィニティー標識に結合し、連鎖したDNAセグメントはアフィニティー標識を使用して捕捉される。様々な実施形態では、該方法は、タグ付けされた配列を使用して、第1のDNAセグメントと第2のDNAセグメントをフェージングする工程を含む。場合によっては、「タグ付け」は、第2のDNAセグメントに第1のDNAセグメントを連結することにより実現され、それによって、リード対セグメントを生成する。
いくつかの実施形態では、該方法は、(a)再構成されたクロマチンからなどの複数の会合分子を少なくとも第2のDNA分子に提供する工程と、(b)会合分子を第2のDNA分子へ架橋する工程であって、それにより、インビトロで第2の複合体を形成する、工程と、(c)第2の複合体を切断する工程であって、それにより、第3のDNAセグメントと第4のセグメントを生成する、工程と、(d)第3のDNAセグメントを第4のDNAセグメントに連鎖する工程であって、それにより、第2の連鎖したDNAセグメントを形成する、工程と、(e)第2の連鎖したDNAセグメントを配列決定する工程であって、それにより、第2のリード対を得る、工程を含む。いくつかの例において、DNA分子からのDNAセグメントの40%未満は、任意の他のDNA分子からのDNAセグメントに連鎖する。いくつかの例において、DNA分子からのDNAセグメントの20%未満は、任意の他のDNA分子からのDNAセグメントに連鎖する。
いくつかの実施形態において、本開示は、あらかじめ決められた配列を含む第1のDNA分子から第1のリード対を生成する方法を提供し、該方法は、(a)第1のDNA分子に1つ以上のDNA結合分子を提供する工程であって、1つ以上のDNA結合分子があらかじめ決められた配列に結合する、工程と、(b)第1のDNA分子をインビトロで架橋する工程であって、第1のDNA分子が第1のDNAセグメントと第2のDNAセグメントを含む、工程と、(c)第1のDNAセグメントを第2のDNAセグメントに連鎖する工程であって、それにより、第1の連鎖したDNAセグメントを形成する、工程と、(d)第1の連鎖したDNAセグメントを配列決定する工程であって、それにより、第1のリード対を得る、工程を含み、あらかじめ決められた配列がリード対に現われる確率は、あらかじめ決められた配列へDNA結合分子の結合させることにより影響される。
いくつかの実施形態において、DNA結合分子はあらかじめ決められた配列にハイブリダイズすることができる核酸である。いくつかの例において、核酸はRNAである。他の例において、核酸はDNAである。他の実施形態では、DNA結合分子は小分子である。いくつかの例において、小分子は100μM未満の結合親和性であらかじめ決められた配列と結合する。いくつかの例において、小分子は1μM未満の結合親和性であらかじめ決められた配列と結合する。いくつかの実施形態において、DNA結合分子は表面または固体支持体上に固定される。
いくつかの実施形態において、あらかじめ決められた配列がリード対に現われる確率は減少する。他の実施形態では、あらかじめ決められた配列がリード対に現われる確率は増加する。
本開示は、複数のDNA分子から複数のタグ付けされた配列を生成するための方法を提供し、該方法は、(a)インビトロで複数のDNA分子を複数の会合分子に結合する工程と、(b)少なくとも複数のDNAセグメントを生成するためにDNA分子の各々を切断する工程と、(c)複数のタグ付けされたDNAセグメントを形成するために、DNAセグメントの少なくとも一部にタグ付けする工程と、(d)複数のタグ付けされた配列を得るために、タグ付けされたDNAセグメント、あるいは、タグに隣接する部分またはタグ付けされた末端から反対側にある部分などのタグ付けされたDNAセグメントの少なくとも認識可能な部分を配列決定する工程を含み、複数の会合分子は、(a)と(b)の工程の前および最中に、アフィニティー標識で共有結合的に修飾されない。場合によっては、DNA分子からのDNAセグメントの40%未満は、任意の他のDNA分子からのDNAセグメントに連鎖する。場合によっては、DNA分子からのDNAセグメントの20%未満は、任意の他のDNA分子からのDNAセグメントに連鎖する。
いくつかの実施形態において、会合分子は、ペプチド結合によって結合されたアミノ酸を含む。ある実施形態では、会合分子はポリペプチドまたはタンパク質である。いくつかの例では、会合分子はヒストンタンパク質である。いくつかの例では、ヒストンタンパク質はDNA分子とは異なる供給源からのものである。例えば、ヒストンタンパク質はヒト以外の生命体から単離されることもあり、DNA分子はヒトから単離されることもある。様々な例において、会合分子はトランスポゼース(例えば、Tn5)である。場合によっては、第1のDNA分子は会合分子に非共有結合する。他の場合には、第1のDNA分子は会合分子に共有結合する。ある例において、第1のDNA分子は会合分子に架橋される。いくつかの実施形態では、DNA分子は固定剤で架橋される。例えば、固定剤はホルムアルデヒドであり得る。場合によっては、該方法は、複数の支持体上で複数の会合分子を固定化する工程を含む。ある場合では、固体支持体はビーズである。いくつかの例では、ビーズはポリマーを含む。いくつかの例では、固定剤はポリスチレンである。ある例において、ポリマーはポリエチレングリコール(PEG)である。ある例において、ビーズは磁気ビーズである。いくつかの例において、ビーズはSPRIビーズである。様々な例において、固体支持体は、複数のカルボキシル基を含んでいる表面を含む。様々な場合において、固体支持体は、任意のポリペプチド(例えばストレプトアビジン)には共有結合しない。場合によっては、会合分子は、固体支持体への固定下の前にアフィニティー標識(例えばビオチン)に共有結合しない。
場合によっては、第1のDNA分子は複数の会合分子に結合された後に、切断される。場合によっては、第1のDNA分子は制限酵素(例えば、MboII)を使用して切断される。場合によっては、第1のDNA分子はトランスポゼース(例えば、Tn5)を使用して切断される。ある実施形態では、DNAセグメントの一部はアフィニティー標識で修飾される。場合によっては、アフィニティー標識はビオチンを含む。いくつかの例では、アフィニティー標識はビオチンで修飾されたヌクレオシド三リン酸塩(dNTP)である。いくつかの例では、ビオチンで修飾されたヌクレオシド三リン酸(dNTP)はビオチンで修飾されたデオキシリボシトシン三リン酸塩(dCTP)である。場合によっては、DNAセグメントの一部は第1のタグにより少なくとも第1の端部にタグ付けされている。いくつかの例において、DNAセグメントはトランスポサーゼを使用してタグ付けされる。様々な例において、DNAセグメントの一部は、上記DNAセグメントの各々を、少なくとも1つの他のDNAセグメントに連鎖することによってタグ付けされる。いくつかの例において、DNAセグメントの一部はリガーゼを使用して他のDNAセグメントに連鎖される。場合によっては、連鎖したDNAセグメントは工程(c)の前に切断される。様々な場合において、連鎖したDNAセグメントは物理的方法(例えば、超音波処理、機械的剪断)を使用して切断される。いくつかの実施形態において、上記方法は、連鎖したDNAセグメントを配列決定アダプターに結合する工程を含む。
いくつかの実施形態において、DNAセグメントは、連鎖して連鎖DNAセグメントを形成する前に、約10回未満洗浄される。ある場合には、DNAセグメントは、連鎖して連鎖DNAセグメントを形成する前に、約6回未満で洗浄される。様々な場合において、該方法は、タグ付けされたセグメントを使用して、DNA分子の複数のコンティグをアセンブルする工程を含む。場合によっては、方法がタグ付けされたセグメントを使用して、DNAセグメントを調整することを含む。
本開示は、少なくとも第1の配列要素と第2の配列要素を各々含む複数のリード対を含んでいるインビトロのライブラリーを提供し、第1と第2の配列要素は単一のDNA分子から始まり、リード対の少なくとも1%は、単一のDNA分子上で少なくとも50kB離れている第1と第2の配列要素を含む。いくつかの実施形態において、リード対の少なくとも10%は、単一のDNA分子上で少なくとも50kB離れている第1と第2の配列要素を含む。他の実施形態では、リード対の少なくとも1%は、単一のDNA分子上で少なくとも100kB離れている第1と第2の配列要素を含む。いくつかの実施形態において、リード対の20%未満は1つ以上のあらかじめ決められた配列を含む。いくつかの実施形態において、リード対の10%未満は1つ以上のあらかじめ決められた配列を含む。いくつかの実施形態において、リード対の5%未満は1つ以上のあらかじめ決められた配列を含む。
いくつかの実施形態において、あらかじめ決められた配列は、あらかじめ決められた配列にハイブリダイズすることができる1つ以上の核酸によって決定される。いくつかの例において、1つ以上の核酸はRNAである。他の例において、1つ以上の核酸はDNAである。いくつかの例において、1つ以上の核酸は表面または固体支持体へ固定化される。
いくつかの実施形態において、あらかじめ決められた配列は1つ以上の小分子によって決定される。いくつかの例において、1つ以上の小分子は100μM未満の結合親和性であらかじめ決められた配列と結合する。いくつかの例において、1つ以上の小分子は1μM未満の結合親和性であらかじめ決められた配列と結合する。
本開示は、DNA断片と、再構成されたクロマチンからなどの複数の会合分子とを含む組成物を提供し、(a)会合分子はインビトロの複合体中でDNA断片に架橋され、(b)インビトロの複合体は固体支持体上で固定される。
本開示は、DNA断片、複数の会合分子、およびDNA結合分子を含む組成物を提供し、(a)DNA結合分子はDNA断片のあらかじめ決められた配列に結合し、および、(b)会合分子はDNA断片に架橋される。DNA結合分子は、場合によっては、あらかじめ決められた配列にハイブリダイズすることができる核酸である。いくつかの例において、核酸はRNAである。他の例において、核酸はDNAである。いくつかの例において、核酸は表面または固体支持体へ固定化される。他の実施形態では、DNA結合分子は小分子である。いくつかの例において、小分子は100μM未満の結合親和性であらかじめ決められた配列と結合する。他の例では、小分子は1μM未満の結合親和性であらかじめ決められた配列と結合する。
本開示は、インビトロの複合体中のDNA断片に結合した複数の会合分子を含む組成物を提供し、上記インビトロの複合体は、固体支持体上で固定化され、上記の固体支持体はいかなるポリペプチドにも共有結合しない。場合によっては、固体支持体はストレプトアビジンに共有結合されない。場合によっては、固体支持体はビーズである。いくつかの例では、ビーズはポリマーを含む。いくつかの例では、固定剤はポリスチレンである。ある例において、ポリマーはポリエチレングリコール(PEG)である。ある例において、ビーズは磁気ビーズである。いくつかの例において、ビーズは固体相の可逆的な固定化(SPRI)ビーズである。ある場合では、固体支持体は、複数のカルボキシル基を含んでいる表面を含む。様々な場合において、固体支持体は、任意のポリペプチド(例えばストレプトアビジン)には共有結合しない。
いくつかの例では、会合分子はペプチド結合によって結合したアミノ酸を含む。いくつかの例では、会合分子はペプチドまたはタンパク質である。ある例において、会合分子はヒストンタンパク質である。場合によっては、ヒストンタンパク質は第1のDNA分子とは異なる供給源からのものである。ある例において、会合分子はトランスポゼースである。場合によっては、第1のDNA分子は会合分子に非共有結合する。他の場合には、第1のDNA分子は会合分子に非共有結合する。いくつかの例では、第1のDNA分子は会合分子に架橋される。ある実施形態では、第1のDNA分子は固定剤で架橋される。いくつかの実施形態では、固定剤はホルムアルデヒドである。
ある実施形態では、DNA断片はアフィニティー標識で修飾される。いくつかの例において、アフィニティー標識はビオチンを含むことができ、これは、ストレプトアビジンビーズ、アビジンビーズ、あるいはこれらの誘導体で捕捉可能である。ある例において、アフィニティー標識はビオチンで修飾されたヌクレオシド三リン酸塩(dNTP)である。いくつかの例において、アフィニティー標識はビオチンで修飾されたデオキシリボシトシン三リン酸塩(デオキシシチジン3リン酸)である。場合によっては、連鎖したDNAセグメントは工程(c)の配列決定の前にさらに切断される。ある例において、連鎖したDNAセグメントは制限酵素(例えば、ExoIII)を使用して切断される。他の場合には、連鎖したDNAセグメントは物理的方法(例えば、超音波処理、機械的剪断)を使用して切断される。
本明細書に開示される方法と組成物は、ゲノム情報を、フェージングされた染色体全体を含む足場へとアセンブルするのに役立つ。場合によっては、本明細書に生成された情報は、以前に生成された配列情報を、フェージングされた染色体全体を含む足場へとアセンブルするのをガイドする。場合によっては、本明細書の方法と組成物は、de novo生成された核酸情報を、染色体全体を含むフェージングされた足場へとアセンブルするのに使用される。
タグ情報は、すべての場合で、フェーズに厳密に対応するわけではないが、フェーズ情報に関しては有益である。本明細書の開示を一般に参照すると、配列リードのペア上の共通のタグパターンの存在は、リードが、1)共通の分子から始まっているか、あるいは2)偶然、共有されているかのいずれかであることを示している。
ほとんどの場合、共通のタグ付けは偶然発生せず、したがって、最も共通してタグ付けされた配列、とりわけ、共通のコンティグに独立してマッピングされた共通してタグ付けされた配列は、そのコンティグの共通のフェーズ、すなわち、二倍体生物の同じ一倍体の分子にマッピングされると推測されても差し支えない。群、隣接していると疑われる単一あるいは少数のコンティグに対して一緒にマッピングされ、かつ、タグ配列を共有するリードの群は、単一の分子上のフェーズにある可能性がある。群、共通のタグ配列を共有するが、例えば、別の染色体上にあると疑われるコンティグへマッピングされるリードの群は、偶然、それらの共通のタグ配列を得た可能性が高い。正確なタグ配列を共有するが、2つの別のコンティグまたは疑いのある染色体へマッピングされる配列クラスターの複数の例は、しかしながら、1つの染色体の断片が第2の断片に結合するようになった原因である転座が生じ、リードが実際に、転座の結果である染色体上のフェーズにあることを示すこともある。
配列リードのペア中の異なるタグパターンの存在は、配列がタグ付けの直前に共通の分子から発生しなかったことを示す。しかしながら、核酸分子の複数の同一のコピーあるいは重複するコピーが単一のサンプル中に存在する場合、タグパターンの異なる2セットの配列リードが発生する能性があり、このことは、配列リードがサンプル中の異なる分子から発生したが、それにもかかわらず、2倍体細胞中のフェーズ染色体中の同じものにマッピングされることを示す。すなわち、タグパターン情報は配列が共通の分子から発生したかどうかを示しており、一般に、タグパターン情報はフェーズ情報を相互に関連する。しかしながら、上で議論されるように、矛盾する際には、タグパターン情報は共通の起始分子をより適切に示すものである。起始分子と核酸のフェーズ決定が幾ばくかの矛盾を示す場合、当業者は、それにもかかわらず本明細書の方法により生成されたタグパターン情報からある程度のフェーズ情報を決定できるように、こうした矛盾を解決することができる。
第1のDNA分子からタグ付けされた配列を生成する方法が本明細書に開示され、該方法は、(a)第1の複合体を形成するために上記第1のDNA分子を複数の会合分子に結合する工程であって、上記第1のDNA分子が第1のDNAセグメントと第2のDNAセグメントを含む、工程と、(b)上記第1のDNAセグメントと上記第2のDNAセグメントをタグ付けする工程であって、それにより、少なくとも1つのタグ付けされたDNAセグメントを形成する、工程と、(c)複合体の成分に直接結合する表面を有する固体支持体に、複合体を結合する工程と、(d)タグに隣接する部分またはタグ付けされた末端から反対側にある部分などのタグ付けされたDNAセグメントの認識可能な部分を配列決定する工程であって、それにより、上記タグ付けされた配列を得る工程を含み、上記複数の会合分子は、(a)と(b)の工程の前あるいは最中に、アフィニティー標識で共有結合的に修飾されない。
第1のDNA分子からタグ付けされた配列を生成する方法が本明細書に開示され、該方法は、(a)複数の会合分子に上記第1のDNA分子を結合する工程と、(b)固体支持体上で上記第1のDNA分子を固定する工程と、(c)第1のDNAセグメントと第2のDNAセグメントを生成するために上記第1のDNA分子を切断する工程と、(d)上記第1のDNAセグメントと上記第2のDNAセグメントをタグ付けする工程であって、それにより、少なくとも1つのタグ付けされたDNAセグメントを形成する、工程と;(e)上記タグ付けされたDNAセグメントを配列決定する工程であって、それにより、上記のタグ付けされた配列を得る工程を含み、上記の第1のDNA分子は上記の固体支持体に直接結合される。
複数のDNA分子から複数のタグ付けされた配列を生成するための方法が本明細書で開示され、該方法は、(a)複数の会合分子に上記複数のDNA分子を結合する工程と、(b)複数のDNAセグメントを生成するために上記複数のDNA分子を切断する工程と、(c)複数のタグ付けされたDNAセグメントを形成するために、上記DNAセグメントの少なくとも一部をタグ付けする工程と、(d)複数のタグ付けされた配列を得るために、上記タグ付けされたDNAセグメントを配列決定する工程を含み、上記複数の会合分子は、(a)と(b)の工程の前あるいは最中に、アフィニティー標識で共有結合的に修飾されない。
インビトロの複合体中のDNA断片に結合した複数の会合分子を含む組成物が本明細書で開示され、上記のインビトロの複合体は固体支持体上で固定化され、上記の固体支持体はいかなるポリペプチドにも共有結合されない。
複数のDNA分子から複数のタグ付けされた配列を生成するための方法が本明細書で開示され、該方法は、(a)複数の会合分子に結合した複数のDNA分子を得る工程と、(b)少なくとも複数のDNAセグメントを生成するために上記DNA分子を切断する工程と、(c)複数のタグ付けされたDNAセグメントを形成するために、上記DNAセグメントの少なくとも一部をタグ付けする工程と、(d)複数のタグ付けされた配列を得るために、上記タグ付けされたDNAセグメントを配列決定する工程を含み、上記複数のDNA分子の合計量は約5マイクログラム未満(μg)である。
抗生物質耐性遺伝子の微生物宿主を同定する方法が本明細書に開示され、該方法は、a)微生物の抗生物質耐性を実証する条件を有する個体から安定したサンプルを得る工程と、b)安定したサンプル中の二本鎖DNAを切断するために安定したサンプルを処理する工程と、c)露出したDNA末端を標識する工程と、d)標識されたペアエンドを形成するために標識された露出したDNA末端を連結する工程と、e)ペア配列を生成するために標識されたペアエンド全体を配列決定する工程を含み、抗生物質耐性遺伝子配列に隣接している配列は抗生物質耐性遺伝子の微生物宿主を示す。
異種の核酸サンプルに関するゲノムの連鎖情報を判定する方法が本明細書に開示され、該方法は、(a)安定した異種の核酸サンプルを得る工程と、(b)安定したサンプル中の二本鎖DNAを切断するために安定したサンプルを処理する工程と、(c)露出したDNA末端を標識する工程と、(d)標識されたペアエンドを形成するために標識された露出したDNA末端を連結する工程と、(e)複数のペア配列リードを生成するために標識されたペアエンド全体を配列決定する工程と、(f)複数の配列リードのペア配列リードの各半分を、共通の核酸起始分子に割り当てる工程を含む。
メタゲノミクスアセンブリのための方法が本明細書に開示され、該方法は、(a)ある環境から微生物を捕集する工程と、(b)微生物から複数のコンティグを得る工程と、(c)再構成されたクロマチンの物理的な配置を探索することにより生成されたデータから複数のリード対を生成する工程と、(d)複数のコンティグに複数のリード対をマッピングする工程であって、それにより、リード-マッピングデータを作成する、工程を含み、異なるコンティグに対するリード対のマッピングは、異なるコンティグが共通の種からのものであることを示す。
宿主集団の病原体を検出する方法が本明細書に開示され、該方法は、a)共通の病原体を抱えている疑いのある複数の個体の各々から安定したサンプルを得る工程と、b)安定したサンプル中の二本鎖DNAを切断するために安定したサンプルを処理する工程と、c)第1のバーコードタグを使用して、安定したサンプルの第1の部分の露出したDNA末端をタグ付けし、第2のバーコードタグを使用して、安定したサンプルの第2の部分の露出した末端をタグ付けする工程と、d)複数のバーコードでタグ付けされた配列を生成するために、バーコードでタグ付けされた末端全体を配列決定する工程と、e)複数の配列リードの共通のバーコードでタグ付けされた配列リードを、共通の起始生命体に割り当てる工程を含み、共通の病原体を抱えている疑いのある個体に共通の起始生命体は病原体である。
抗生物質耐性遺伝子の微生物宿主を同定する方法が本明細書に開示され、該方法は、a)微生物の抗生物質耐性を実証する条件を有する個体から安定したサンプルを得る工程と、b)安定したサンプル中の二本鎖DNAを切断するために安定したサンプルを処理する工程と、c)第1のバーコードタグを使用して、安定したサンプルの第1の部分の露出したDNA末端をタグ付けし、第2のバーコードタグを使用して、安定したサンプルの第2の部分の露出した末端をタグ付けする工程と、d)複数のバーコードでタグ付けされた配列を生成するために、バーコードでタグ付けされた末端全体を配列決定する工程と、抗生物質耐性遺伝子配列のバーコードタグと同一のバーコードタグを有する配列は、抗生物質耐性遺伝子の微生物宿主を示す。
異種の核酸サンプルに関するゲノムの連鎖情報を判定する方法が本明細書に開示され、該方法は、(a)安定した異種の核酸サンプルを得る工程と、(b)安定したサンプル中の二本鎖DNAを切断するために安定したサンプルを処理する工程と、(c)第1のバーコードタグを使用して、安定したサンプルの第1の部分の露出したDNA末端をタグ付けし、第2のバーコードタグを使用して、安定したサンプルの第2の部分の露出した末端をタグ付けする工程と、(d)複数のバーコードでタグ付けされた配列リードを生成するために、バーコードでタグ付けされた末端全体を配列決定する工程と、(e)共通のタグ付けされた配列リードを、共通の核酸起始分子に割り当てる工程を含む。
宿主集団の病原体を検出する方法が本明細書に開示され、該方法は、a)複数の被験体の各々から安定したサンプルを得る工程と、b)安定したサンプル中の二本鎖DNAを切断するために安定したサンプルを処理する工程であって、それにより、露出したDNA末端を生成する、工程と、c)露出したDNA末端の少なくとも一部を標識する工程と、d)標識されたペアエンドを形成するために、露出したDNA末端を連結する工程と、e)複数のリード対を生成するために、標識されたペアエンドの少なくとも認識可能な部分を配列決定する工程と、f)共通の起始生命体にリード対の各半分を割り当てる工程を含み、被験体に共通する起始生命体は病原体として検出される。
抗生物質耐性遺伝子の微生物宿主を同定する方法が本明細書に開示され、該方法は、a)微生物の抗生物質耐性を実証する条件を有する被験体から安定したサンプルを得る工程と、b)安定したサンプル中の二本鎖DNAを切断するために安定したサンプルを処理する工程であって、それにより、露出したDNA末端を生成する、工程と、c)露出したDNA末端の少なくとも一部を標識する工程と、d)標識されたペアエンドを形成するために、標識された露出したDNA末端を連結する工程と、e)ペア配列を生成するために、連結されたペアエンドの少なくとも認識可能な部分を配列決定する工程を含み、抗生物質耐性遺伝子配列に隣接しているペア配列は、抗生物質耐性遺伝子の微生物宿主を示す。
異種の核酸サンプルに関するゲノムの連鎖情報を判定する方法が本明細書に開示され、該方法は、(a)異種の核酸サンプルを安定化させる工程と、(b)安定したサンプル中の二本鎖DNAを切断するために安定したサンプルを処理する工程であって、それにより、露出したDNA末端を生成する、工程と、(c)露出したDNA末端の少なくとも一部を標識する工程と、(d)標識されたペアエンドを形成するために、標識された露出したDNA末端を連結する工程と、(e)複数のリード対を生成するために、標識されたペアエンドの少なくとも認識可能な部分を配列決定する工程と、(f)共通の起始核酸分子にリード対の各半分を割り当てる工程を含む。
メタゲノミクスアセンブリのための方法が本明細書に開示され、該方法は、(a)ある環境から微生物を捕集する工程と、(b)微生物から複数のコンティグを得る工程と、(c)再構成されたクロマチンの物理的な配置を探索することにより生成されたデータから複数のリード対を生成する工程と、(d)複数のコンティグに複数のリード対をマッピングする工程であって、それにより、リード-マッピングデータを作成する、工程を含み、異なるコンティグに対するリード対のマッピングは、異なるコンティグが共通の個体から始まることを示す。
細菌の感染病原体を検出する方法が本明細書に開示され、該方法は、(a)細菌の感染病原体から複数のコンティグを得る工程と、(b)再構成されたクロマチンの物理的な配置を探索することにより生成されたデータから複数のリード対を生成する工程と、(c)複数のコンティグに複数のリード対をマッピングする工程であって、それにより、リード-マッピングデータを作成する、工程と、(d)ゲノムアセンブリへコンティグをアセンブルするために、リードマッピングデータを使用して、コンティグを調整する工程と、(e)細菌の感染病原体の存在を判定するために、ゲノムアセンブリを使用する工程を含む。
生命体からゲノム配列情報を得る方法が本明細書に開示され、該方法は、(a)上記の生命体から安定したサンプルを得る工程と、(b)安定したサンプル中の二本鎖DNAを切断するために安定したサンプルを処理する工程であって、それにより、露出したDNA末端を生成する、工程と、(c)タグ付けされたDNAセグメントを生成するために、露出したDNA末端の少なくとも一部をタグ付けする工程と、(d)タグ付けされたDNAセグメントの少なくとも認識可能な部分を配列決定する工程であって、それにより、タグ付けされた配列を得る、工程と、(e)上記の生命体のゲノム配列情報を生成するために、上記タグ付けされた配列をマッピングする工程を含み、上記のゲノムの配列情報は上記の生命体のゲノムの少なくとも75%を網羅する。
サンプルを分析する方法が本明細書に開示され、該方法は、(a)複数の生命体から、核酸を含む安定したサンプルを得る工程と、(b)安定したサンプル中の二本鎖DNAを切断するために安定したサンプルを処理する工程であって、それにより、露出したDNA末端を生成する、工程と、(c)標識されたペアエンドを形成するために標識された露出したDNA末端を連結する工程と、(d)複数のペア配列リードを生成するために標識されたペアエンド全体を配列決定する工程と、(f)複数の配列リードのペア配列リードの各半分を、共通の起始生命体起始に割り当てる工程を含む。
異種のサンプル中の核酸の分子の多様性を分析する方法が本明細書に開示され、該方法は、a)多様な複数の核酸のうちの少なくとも1つのメンバーについて、第1の核酸セグメントと第2の核酸セグメントがそれらの共通のリン酸ジエステル骨格とは無関係にまとめて保持されるように、安定化させた多様な複数の核酸を含む安定した核酸サンプルを得る工程であって、上記のリン酸ジエステル骨格が上記の第1の核酸セグメントと上記の第2の核酸セグメントとの間で切断される、工程と、b)上記の第1の核酸セグメントと上記の第2の核酸セグメントが多様な複数の核酸の共通の核酸から生じるものとして同定可能となるように、上記の第1の核酸セグメントと上記の第2の核酸セグメントをタグ付けする工程と、c)上記の第1の核酸セグメントの少なくとも同定可能な部分とそのタグ、および、上記の第2の核酸セグメントの同定可能な部分とそのタグを配列決定する工程と、d)上記の第1の核酸セグメントと上記の第2の核酸セグメントを、上記のタグに対応する足場へ割り当てる工程と、e)上記の多様な複数の核酸の複数のセグメントが少なくとも1つの足場に割り当てられるように、f)どれだけ多くの足場が生成されるかに対応する数を判定する工程を含み、生成された足場の数は異種のサンプルの核酸分子の多様性に対応する。いくつかの態様において、上記の第1の核酸セグメントと上記の第2の核酸セグメントをタグ付けする工程は、第1の核酸セグメントに第1のオリゴを加え、第2のセグメントに第2のオリゴを加える工程を含み、上記の第1のオリゴと上記の第2のオリゴは共通の配列を共有する。いくつかの態様において、上記の共通のオリゴ配列を有する核酸セグメントは、共通の足場に割り当てられる。いくつかの態様において、該方法はさらに、上記の第1の核酸セグメントの上記の同定可能な部分をコンティグデータセットにマッピングする工程と、上記のコンティグデータセットの任意の一致するコンティグを上記の共通の足場へ含める工程を含む。いくつかの態様において、コンティグデータセットは同時に生成される。いくつかの態様において、コンティグデータセットはデータベースから得られる。いくつかの態様において、上記の第1の核酸セグメントと上記の第2の核酸セグメントをタグ付けする工程は、上記の第1の核酸セグメントを上記の第2の核酸セグメントへ連結する工程を含み、ここで、上記の第1の核酸セグメントと上記の第2の核酸セグメントは共通の足場に割り当てられる。いくつかの態様において、該方法はさらに、上記の第1の核酸セグメントの上記の同定可能な部分をコンティグデータセットにマッピングする工程と、上記のコンティグデータセットの任意の一致するコンティグを上記の共通の足場へ含める工程を含む。いくつかの態様において、コンティグデータセットは同時に生成される。いくつかの態様において、コンティグデータセットはデータベースから得られる。いくつかの態様において、異種のサンプルは複数の対立遺伝子変異体を含む。いくつかの態様において、対立遺伝子変異体の数は足場の数よりも多い。いくつかの態様において、対立遺伝子変異体の数は生成された足場の数と等しい。いくつかの態様において、リン酸ジエステル骨格は、安定したサンプルを得る工程の後に切断される。いくつかの態様において、上記の安定したサンプルは橋架剤に接触させる。いくつかの態様において、上記の安定したサンプルはFFPEサンプルである。いくつかの態様において、方法は逆転写酵素に、上記の異種のサンプルを接触させる工程をさらに含む。いくつかの態様において、方法は核酸配列データベースに対する上記の足場の少なくとも1つを探す工程をさらに含む。いくつかの態様において、方法は、上記の足場へ一意的にマッピングされる核酸配列が上記のデータベースにない場合に、上記の足場を新規なものとして分類する工程をさらに含む。いくつかの態様において、方法は、サンプル条件に相互に関連する複数のサンプルが上記の足場を有するとき、および上記の条件を欠いた複数のサンプルが上記のサンプルを欠いている場合に、上記の足場を、サンプル条件に対応するものとして分類する工程をさらに含む。いくつかの態様において、異種のサンプルは、共通の種の少なくとも2つの個体へマッピングされる核酸を含む。いくつかの態様において、異種のサンプルは、共通の種の少なくとも3つの個体へマッピングされる核酸を含む。いくつかの態様において、異種のサンプルは、少なくとも2つの種へマッピングされる核酸を含む。いくつかの態様において、異種のサンプルは、少なくとも3つの種へマッピングされる核酸を含む。いくつかの態様において、異種のサンプルは、少なくとも4つの種へマッピングされる核酸を含む。いくつかの態様において、配列リードは、外因性配列情報に関係のない少なくとも2つの核酸足場へアセンブルされる。いくつかの態様において、配列リードは、外因性配列情報に関係のない少なくとも3つの核酸足場へアセンブルされる。いくつかの態様において、第1のゲノムの少なくとも50%と第2のゲノムの少なくとも50%が少なくとも2つの核酸足場で表されるように、配列リードは少なくとも2つの核酸足場へアセンブルされる。いくつかの態様において、第1のゲノムの少なくとも60%と第2のゲノムの少なくとも60%が少なくとも2つの核酸足場で表されるように、配列リードは少なくとも2つの核酸足場へアセンブルされる。いくつかの態様において、第1のゲノムの少なくとも70%と第2のゲノムの少なくとも70%が少なくとも2つの核酸足場で表されるように、配列リードは少なくとも2つの核酸足場へアセンブルされる。いくつかの態様において、第1のゲノムの少なくとも80%と第2のゲノムの少なくとも80%が少なくとも2つの核酸足場で表されるように、配列リードは少なくとも2つの核酸足場へアセンブルされる。いくつかの態様において、方法はSPRIビーズを使用する工程を含む。いくつかの態様において、安定したサンプルはせいぜい約5マイクログラムのDNAを含む。
<参照による組み込み>
本明細書で言及される出願公開、特許、および特許出願はすべて、あたかも個々の出願公開、特許、あるいは特許出願がそれぞれ参照により組み込まれるように具体的かつ個々に指示されるかのような同じ程度、参照により本明細書に組込まれる。本明細書で言及される出願公開、特許、および特許出願はすべて、本明細書で引用される任意の文献と同様に、全体として参照することで本明細書に組み込まれる。
本開示の新規な特徴はとりわけ添付の請求項で説明されている。本開示の特徴と利点についてのよりよい理解は、本開示の原則が用いられている例示的な実施形態を説明する以下の詳細な記載と添付の図面を参照することによって得られる。
ハイスループットな配列決定を使用するゲノムアセンブリの図を提示する。アセンブルされるゲノムが示されている(上)。典型的には、ゲノムは、アセンブルするのが難しい多くの反復配列を有する。ゲノムからのランダムなハイスループットの配列データ(中央)は捕集され、ゲノム中の固有の領域の「コンティグ」へアセンブルされる(下)。コンティグアセンブリは一般に多くの反復配列で終わる。最終出力は、互いに対する順序と配向が知られていない数千ものコンティグのセットである。図では、これらは最長から最短のものまで任意に番号を振られている。 本開示のクロマチン捕捉に基づくプロトコルを示す:(A)は、DNAが架橋され、配列決定のために作成されたビオチン化された接合部断片へと処理される倍位を実証する;(B-D)は様々な制限酵素に関するヒトchr14上のコンタクトマップデータを提供する。示されるように、ほとんどの接触は染色体に沿って局所的である。 ゲノムアセンブリを支援するためにクロマチン捕捉配列データを使用する本開示の方法を提供し、(A)は、DNAが架橋され、クロマチン捕捉ベースプロトコルを使用して処理される場合を例証し、(B)は、リード対データがアセンブルされたコンティグにマッピングされ、ランダムショットガン配列決定とアセンブリから生成される場合を実証し、(C)は、フィルタリングと重み付けの後、コンティグ間リード対データをすべてまとめる隣接行列を構築することができることを例証する。この行列は適切なアセンブリ経路を示すために再度順序可能である。示されるように、リード対の大部分はコンティグ内でマッピングされる。このことから接触距離の分布を学ぶことができる(例えば、図6を参照)。様々なコンティグにマッピングされるリード対は、どのコンティグが適切なゲノムアセンブリにおいて隣接しているかについてのデータを提供する。 本開示の典型的なプロトコルを示し、DNA断片は最初に生成および調製され、その後、インビトロのクロマチンアセンブリが続き、その後、クロマチン/DNA複合体はホルムアルデヒドで固定され、SPRIビーズでプルダウンされ、複合体をその後、制限酵素で消化させることで付着末端を生成し、付着末端をその後、ビオチン化されたdCTPと内部を硫酸化したGTPで充填し、平滑末端ライゲーション後、クロマチン/DNA複合体はプロテイナーゼ消化と剪断を経て、その後、DNA断片をSPRIビーズでプルダウンし、配列決定アダプターで連結し、最後に、DNA断片をサイズによって選択し、配列決定する。 ゲノム中の反復領域からのゲノムアセンブリとアラインメント中で発生するあいまいさ(ambiguities)の図を提供する。(A)連鎖の不確実性は反復領域を架橋することができないリード対に起因する。(B)リード対が辺縁の反復領域に及ぶことができないが故のセグメントの配置の不確実性。 ヒトXLRPライブラリーからのリード対間のゲノム距離の分布を示す。他の技術で達成可能な最大の距離が比較のために示されている。 十分に特徴付けられたハプロタイプ、NA12878を有するサンプル用のフェージング精度を例証する。示された距離はフェージングされているSNPの間の距離である。 本開示の様々な実施形態に係る典型的なコンピュータシステムの様々なコンポーネントを例示する。 本開示の様々な実施形態に関連して使用することができる典型的なコンピュータシステムのアーキテクチャを例示するブロック図である。 本開示の様々な実施形態に関連して使用することができる典型的なコンピューターネットワークを例証する図である。 本開示の様々な実施形態に関連して使用することができる別の典型的なコンピュータシステムのアーキテクチャを例示するブロック図である。 近接ライゲーションの手順の典型的な概略図を示す。 メタゲノム解析用のサンプル調製のための2つのパイプラインの典型的な概略図を示す。 足場技術の典型的な概略図を示す。 本開示の態様に合わせて、糞便のDNAサンプルからのDNA断片の粒径分析を示す。 インビトロのアセンブルされたクロマチン凝集体を使用して、配列決定ライブラリーを生成する方法を示す。 本開示の態様に合わせて、ショットガンライブラリーの挿入物のサイズ分布を示す。 同じ足場へマッピングされたインビトロのアセンブルされたクロマチンを使用して調製されたライブラリーからのリードのサイズ分布を示す。 ショットガン配列決定のために調製されたライブラリーと、インビトロのアセンブルされたクロマチン凝集体を使用して調製されたライブラリーのからのヒットの散布図を示す。 コンティグ長による1つのコンティグ当たりのショットガンのヒット/インビトロのアセンブルされたクロマチンの散布図を示す。 糞便のDNA調製物(青;x軸上の100bpと15000bpでY軸の上部付近でスパイクする)と、Streptomyces coelicolorのDNA(緑;100bpと15000bpのサンプル強度でスパイクする)での断片サイズ分布を示すTapeStationトレースが同様の長さであったことを示す。 スパイクイン(spiked-in)Streptomyces coelicolorのDNAの各レベルに関するこれらのショットガンデータ中の倍数カバレージ分布を示す。 1%(赤、左)、5%(緑、中心)、および10%(青、右)のショットガンデータセットのためのコンティグとして存在するStreptomyces coelicolorゲノムの総量を示す。 Streptomyces coelicolorの既知のゲノム配列にマッピングされた近接ライゲーションライブラリーからのリード対を示し、X軸は、キロベース単位で及ぶ距離を示し、Y軸はすべてのリード対の累積分布である。 5%の実験において本明細書に記載されるように生成された3つの足場に対する既知のStreptomyces coelicolorゲノム(X軸)のドットプロットを描く。 10%の実験において本明細書に記載されるように生成された1つの足場に対する既知のStreptomyces coelicolorゲノム(X軸)のドットプロットを描く。 糞便のDNA調製キットからのDNA断片サイズのグラフを描く。 リード対の数vs到達したリード対の距離のグラフを描く。 8.67MbのS.coelicolorゲノムの89%を含む単一の足場を描く。 Chicagoアセンブリデータ中のリードカバレージvsスパイクイン実験でのショットガンデータの比率の典型的なプロットを描く。 スパイクイン実験における足場向けのカバレージ深さとGC含有量のグラフを描く。 すべての連鎖のごく一部としての各足場に関する1-4番目の最も結合された足場へのインビトロのクロマチンアセンブリ結合性と、足場対間のGC+倍数カバレージ空間におけるユークリッド距離のグラフを描く。 足場の性能に対する株変異の効果のグラフを描く。
本明細書かつ添付の請求項で用いられているように、単数形(「a」、「an」、および「the」)は特段文脈で明確に記述していない限り、複数の指示物を含んでいる。したがって、例えば、「コンティグ」に対する言及は、複数のこうしたコンティグを含み、「染色体の物理的な配置を探索する」に対する言及は、当業者に知られていた染色体とその同等物の物理的な配置を探索する1つ以上の方法に対する言及などを含む。
同様に、「および(and)」の使用は、特に明記しない限り、「および/または」を意味する。同様に、「含む(comprise)」、「含む(comprises)」「含む」、「含んでいる(comprising)」、「含む(include)」また、「含んでいる(including)」ことは交換可能であり、制限するようには意図されていない。
様々な実施形態の記載が「含んでいる」との用語の使用を含む場合、当業者は、いくつかの特定の例において、「~から本質的になる」あるいは「~からなる」との表現を用いて実施形態を二者択一的に記載することができることを理解することになる。
ある数を記載するために本明細書で使用されるような用語「約(about)」は、別段の定めがない限り、その数の10%プラスまたはマイナスの数を含む一連の値を指す。
本明細書で使用されるような用語「リード」、「配列リード」、あるいは「配列決定リード」は、単一の反応または配列決定反応の実行中に決定されるDNAまたはRNA核酸の断片またはセグメントの配列を指す。
本明細書で使用されるような用語「コンティグ」は、DNA配列の隣接する領域を指す。「コンティグ」は、重複配列の配列決定を比較することにより、および/または、どの配列リードが隣接している可能性が高いのかを特定するために既知の配列のデータベースに対して配列リードを比較することにより、当該技術分野で知られている任意の数の方法によって決定可能である。
用語「ポリヌクレオチド」、「ヌクレオチド」、「核酸」、および「オリゴヌクレオチド」は、しばしば交換可能に使用される。これらは一般に、任意の長さのヌクレオチドの重合体形態(デオキシリボヌクレオチドまたはリボヌクレオチドのいずれか)あるいはそのアナログを指す。ポリヌクレオチドは、リン酸ジエステル結合によりそのリボース骨格で連結された塩基モノマーを含む。ポリヌクレオチドは任意の三次元構造も有してもよく、既知または未知の任意の機能を行うことがある。以下はポリヌクレオチドの非限定的な例である:遺伝子または遺伝子断片のコードまたは非コード領域、遺伝子間DNA、連鎖解析から定義された遺伝子座(複数の遺伝子座)、エキソン、イントロン、メッセンジャーRNA(mRNA)、転移RNA、リボソームRNA、低分子干渉RNA(siRNA)、低分子ヘアピン型RNA(shRNA)、マイクロRNA(miRNA)、核小体低分子RNA、リボザイム、メッセンジャーRNA(mRNA)の逆転写あるいは増幅によって通常得られるmRNAのDNA表現である、相補的DNA(cDNA);合成的にあるいは増幅により生成されるDNA分子、ゲノムDNA、組み換えポリヌクレオチド、分枝鎖ポリヌクレオチド、プラスミド、ベクター、任意の配列の単離されたDNA、任意の配列の単離されたRNA、核酸プローブ、およびプライマー。ポリヌクレオチドは、メチル化されたヌクレオチドとヌクレオチドアナログなどの修飾されたヌクレオチドを含むことがある。存在する場合には、ヌクレオチド構造の修飾はポリマーのアセンブリの前または後に与えられてもよい。一般に、オリゴヌクレオチドはごくわずかな塩基を含み、その一方で、ポリヌクレオチドは任意の数も含むことができるが、一般により長く、その一方で、核酸は染色体あるいは全ゲノムの長さを含む任意の長さのポリマーを指すこともある。同様に、核酸という用語は、核酸サンプルが必ずしも単一の核酸分子を指すことがないように、しばしばまとめて使用され、もっと正確に言えば、核酸は、複数の核酸分子を含むサンプルを指すことがある。核酸との用語は一本鎖の分子と同様に二本鎖または三本鎖の核酸を包含することができる。二本鎖または三本鎖の核酸では、核酸鎖は同一の広がりをもつ必要はなく、例えば、二本鎖の核酸は両方の鎖の全長に沿った二本鎖である必要はない。核酸との用語は、メチル化および/またはキャッピングなどによるその任意の化学修飾も包含することができる。核酸修飾は、個々の核酸塩基、あるいは全体としての核酸に、追加の電荷、分極率、水素結合、静電的相互作用、および機能性を組み込む化学基の添加を含んでもよい。そのような修飾は、2’-位の糖修飾、5-位のピリミジン修飾、8-位のプリン修飾、シトシン環外アミンの修飾、5-ブロモ-ウラシルの置換、骨格修飾、イソ塩基、すなわち、イソシチジンとイソグアニジンなどの珍しい塩基対の組み合わせなどの塩基修飾を含むことがある。
本明細書で使用されるような用語「被験体」とは、任意の真核生物または原始核生物を指すことがある。
本明細書で使用されるような用語「裸のDNA」は、複合体化したDNA結合タンパク質を実質的に含まないDNAを指すことがある。例えば、これは、細胞核で見られる内因性のタンパク質の約10%、約5%、あるいは約1%未満、または、インビボで核酸に規則的に結合された内因性のDNA結合タンパク質の約10%、約5%、あるいは約1%未満、あるいは外因的に加えられた核酸結合タンパク質あるいはナノ粒子などの他の核酸結合部分の約10%、約5%、あるいは約1%未満で複合化されたDNAを指すことがある。場合によっては、裸のDNAはDNA結合タンパク質に複合化されていないDNAを指す。
「ポリペプチド」と「タンパク質」という用語はしばしば交換可能に使用され、アミノ酸の重合体形態、あるいはポリペプチド結合に結合したそのアナログを一般に指す。ポリペプチドとタンパク質は任意の長さのポリマーであり得る。ポリペプチドは任意の三次元構造も有することができ、既知または未知の任意の機能を行うことがある。ポリペプチドとタンパク質は、リン酸化、脂質化、プレニル化、硫酸化、ヒドロキシル化、アセチル化、ジスルフィド結合の形成などを含む修飾を含み得る。場合によっては、「タンパク質」とは、既知の機能を有するか、生体系で自然に生じることが知られているポリペプチドを指すが、この区別は当該技術分野では必ずしも遵守されるわけではない。
本明細書で使用されるように、核酸の別のセグメントが共通のリン酸ジエステル骨格とは無関係な単一の複合体で保持されるように、核酸は、結合部分あるいは複数の結合部分によって結合されている場合には「安定して」いる。複合体中の安定した核酸は、制限エンドヌクレアーゼによる処理が複合体の崩壊を引き起こさないように、そのリン酸ジエステル骨格とは無関係に結合されたままであり、内部二本鎖DNAの切断は、完全性を失っている複合体がなくともアクセス可能である。
代替的に、あるいは、組み合わせて、核酸と核酸結合部分を含む核酸複合体は、その結合を増加させるか、あるいは分解または溶解に対する耐性をつけさせる処理によって「安定して」いく。複合体を安定化させる一例は、例えば、制限エンドヌクレアーゼ処理あるいは核酸剪断を引き起こす処理の後に複合体が分解または溶解に対して耐性を有するように、ホルムアルデヒドあるいはソラレン(psorlen)などの固定剤で複合体を処理するか、あるいは核酸と結合部分の間の、または結合部分間での架橋を引き起こすべくUV光で処理することを含む。
本明細書で使用されるような用語「足場」とは、既知の長さであるが未知の配列のギャップによって分離されるか、あるいは未知の長さであるが単一の分子上に存在することが知られている配列のギャップにより分離されるコンティグ、または配列決定リードのメイト対によって互いに連鎖したコンティグの順序付けおよび方向付けられたセットを一般に指す。コンティグが既知の長さのギャップによって分離される場合には、ギャップの配列は、PCR増幅とその後の配列決定(より小さなギャップ向け)、およびバクテリア人工染色体(BAC)クローニング方法とその後の配列決定(より大きなギャップ向け)を含む様々な方法によって決定されてもよい。
本明細書で使用されるような用語「安定したサンプル」とは、核酸と会合分子が、制限エンドヌクレアーゼ処理、DNA剪断、核酸切断の標識、あるいはライゲーションなどの分子操作に耐性があるようなやりかたで結合されるように、分子間相互作用によって会合分子に関して安定している核酸を指す。当該技術分野で既知の核酸は、限定されないが、DNAとRNA、およびそれらの誘導体を含む。分子間相互作用は共有結合のこともあれば、非共有結合のこともある。共有結合の典型的な方法は、架橋技術、共役反応、あるいは当業者に知られている他の方法を含む。非共有結合相互作用の典型的な方法は、イオン相互作用による結合、水素結合、ハロゲン結合、ファンデルワールス力(例えば、双極子相互作用)、π-効果(例えば、π-π相互作用、カチオン-πおよびアニオン-π相互作用、極性のπ相互作用など)、疎水性効果、および当業者に知られている他の非共有結合相互作用を含む。会合分子の例としては、限定されないが、染色体のタンパク質(例えばヒストン)、トランスポゼース、および共有結合的あるいは非共有結合的に核酸と相互作用することが知られている任意のナノ粒子が挙げられる。
本明細書で使用されるような用語「異種のサンプル」は、核酸(例えば、DNA、RNA)、細胞、生命体あるいは他の生体分子の多様な母集団を含む生体サンプルを指す。多くの場合、核酸は1つを超える生命体から始まる。例えば、異種の核酸サンプルは、少なくとも約1000、2000、3000、4000、5000、6000、7000、8000、9000、10,000、20,000、50,000、100,000、200,000、500,000、1,000,000、2,000,000、5,000,000、10,000,000あるいはそれ以上のDNA分子を含むことができる。さらに、DNA分子の各々は、異種の核酸サンプルが少なくとも約1000、2000、3000、4000、5000、6000、7000、8000、9000、10,000、20,000、50,000、100,000、200,000、500,000、1,000,000、2,000,000、5,000,000、10,000,000、あるいはそれ以上の様々な生命体の完全または部分的なゲノムを含み得るように、少なくとも1つ、あるいは少なくとも2つ、あるいは2つを超える生命体の完全または部分的なゲノムを含むことができる。異種のサンプルの例は、限定されないが、被験体の血液、汗、尿、便、あるいは皮膚を含む様々な供給源;あるいは環境的な供給源(例えば、土、海水);食料源;ゴミ捨て場、下水道、あるいは公衆トイレなどの廃棄物を処理する場所;あるいはゴミ箱から得られたものである。
生命体の「部分的なゲノム」は、生命体の全ゲノムの少なくとも約10%、20% 30% 40%、50%、60%、70%、80%、90%、95%、99%、あるいはそれ以上を含み得るか、あるいは、全ゲノムの配列情報の少なくとも約10%、20%、30%、40%、50%、60%、70%、80%、90%、95%、99%、あるいはそれ以上を含む配列データセットを含むことができる。
本明細書で使用されるような用語「再構成されたクロマチン」とは、単離された核タンパク質を裸のDNAに複合化することにより形成された形成クロマチンを指すことがある。
本明細書で使用されるような用語「タグ付けされた配列」とは、解析目的のために配列を同定するか関連付けるために使用することができる追加の配列を含むDNA配列を指すことができる。例えば、同じタグを共有するタグ付けされた配列の群は、まとめてビニング(binned)可能である。いくつかの例において、同じビンにあるタグ付けされた配列は、共通のフェーズをさらに割り当てられるか、あるいは共通の起始分子に割り当てられる。「タグ付け」の典型的な方法としては、限定されないが、酵素(例えば、トランスポゼース、リガーゼ)を使用してタグを導入すること、および/またはリード対を得るためにDNAセグメントを互いに共有結合させることが挙げられる。タグ付けされた配列は、例えば、末端リードを得ることによって「配列決定され」、1つの末端リードはタグ配列を含み、他の末端リードはタグが加えられたセグメントの配列を含む。場合によっては、完全タグ、タグ-セグメント接合部、および完全セグメントが配列決定される。しかしながら、これは、タグ付けと配列決定を効果的なものとするために必ずしも必要であるとは限らない。これに反して、多くの場合で、タグ末端の同定可能な部分とセグメント末端の同定可能な部分の配列決定は、とりわけ、限定的なわけではないが、前に生成された、あるいは同時に生成されたコンティグ情報などのコンティグ情報が利用可能な場合に、「タグ付けされたセグメントの配列決定」を引き起こすのに十分である。同様に、ペアエンドのタグ配列は、場合によっては、それぞれが連結されたセグメントの認識可能な配列を含む末端リードを得ることにより「配列決定される」。ペアエンド断片は、接合部配列が得られるように、完全に配列決定されることもあるが、これはペアエンドタグ付けと配列決定を効果的なものとするために必ずしも必要であるとは限らない。これに応じて、本明細書で使用されるように、「タグ付けされたセグメントを配列決定する」あるいは「ペアエンドのリードを配列決定する」ことは、連結された分子の完全な末端間配列を得ることを含む必要はない。連結された分子を形成するために結合された核酸の同一性が得られるように、分子の一方の末端の同定可能な配列が得られる限り、連結された断片は、「配列決定され」ていると言われることもある。場合によっては、配列決定は、ライゲーション接合部に及ぶ末端間配列決定を含む。場合によっては、配列決定は連結された分子の一方の末端からリードを生成することを含む。
本明細書で使用されるような用語「リード対(read pair)」あるいは「リード対(read-pair)」は、配列情報を提供するために連鎖した2つ以上の要素を指すことができる。場合によっては、リード対の数はマッピング可能なリード対の数を指すことがある。他の場合には、リード対の数は生成されたリード対の総数を指すことがある。
用語「結合する」、「結合」、「関連付ける」、「会合」、あるいは「関連付け」、あるいはこれらの派生語は、本明細書で使用されるように、分子間相互作用によってある分子を別の分子に安定化させることを指す。分子間相互作用は自然界では共有結合のこともあれば、非共有結合のこともある。共有結合の典型的な方法は、架橋技術、共役反応、あるいは当業者に知られている他の方法を含む。非共有結合相互作用の典型的な方法は、イオン相互作用、水素結合、ハロゲン結合、ファンデルワールス力(例えば、双極子相互作用)、π-効果(例えば、π-π相互作用、カチオン-πおよびアニオン-π相互作用、極性のπ相互作用など)、疎水性効果、および当業者に知られている他の非共有結合相互作用を含む。
本明細書で使用されるような用語「固定化する」あるいは「固定」は、対象に関して分子あるいは複合体を安定させることを指す。例えば、DNA複合体は固体支持体に対して安定しているときに固体支持体に固定される。場合によっては、固定されたDNA複合体は、様々な洗浄工程にさらされた時でさえ、固体支持体に対して安定したままである。
別段の定めのない限り、本明細書で使用される技術的かつ科学的な用語はすべて、本開示が属する技術分野の当業者によって一般に理解されるのと同じ意味を有する。本明細書に記載される方法や試薬と類似するまたは同等の任意の方法や試薬を開示された方法や組成物を実施する際に使用することができるが、典型的な方法と材料をここで記載している。
本開示は、典型的には、非常に長い距離のリード対を生成するための方法を、前述の探求するものすべてを向上させるべくそのデータを利用するために提供する。いくつかの実施形態において、本開示は、~300万のリード対のみを有する非常に連続して正確なヒトゲノムアセンブリを生成する方法を提供する。他の実施形態では、本開示は、99%以上の精度でヒトゲノム中のヘテロ接合変異体の90%以上をフェージングする方法を提供する。さらに、本開示によって生成されたリード対の範囲ははるかに大きなゲノム距離にまたがるように延長可能である。アセンブリは非常に長距離のリード対ライブラリーに加えて標準的なショットガンライブラリーから生成される。さらに他の実施形態では、本開示は、配列決定データのこれらのセットを両方とも利用することができるソフトウェアを提供する。フェージングされた変異体は、単一の長距離のリード対ライブラリーとともに生成され、そこからのリードは基準ゲノムにマッピングされ、その後、個体の2つの親の染色体の1つに変異体を割り当てるために使用される。最後に、本開示は、例外的に長いリードを生成するために、既知の技術を使用してさらに大きなDNA断片の抽出を提供する。
これらの反復がアセンブリとアラインメントのプロセスを妨害するメカニズムは、かなり真直ぐであり、究極的にはアンビギュイティ(図5)の結果である。大きな反復領域の場合には、問題はスパンの1つである。リードまたはリード対が反復領域に及ぶほど十分に長くない場合、反復要素に境を接する領域を確信して接続することができない。より小さな反復要素の場合には、問題は主として配置である。ある領域がゲノム中で共通する2つの反復要素と隣接している場合、その正確な配置を決定することは、それらのクラスの他のすべてのものに対する隣接する要素の類似性ゆえに、不可能ではないとしても困難なものとなる。両方の場合には、同定とゆえに特定の反復の配置を困難なものにするのは、反復中の特徴的な情報の不足である。必要とされるものは、反復領域によって囲まれるか分離された一意的なセグメント間の接続を実験的に確立する能力である。
本開示の方法は、これらの反復領域により引き起こされた実質的な障壁を克服するにより、ゲノミクスの分野を大きく進展させ、それにより、ゲノムの分析の多くの領域で重要な進歩を可能にする。従来の技術を用いてde novoアセンブリを行うために、当業者は、多くの小さな足場へと断片化されたアセンブリに甘んじるか、あるいは莫大な時間と資金を、大きな挿入物のライブラリーを生成すること、またはもっと連続したアセンブリを生成するための他の手法を用いることに費やさなければならない。このような手法は、非常に深い配列決定カバレージを獲得すること、BACまたはフォスミドのライブラリーを構築すること、光学マッピング、あるいは最も可能性がありそうなのは、これらの技術のいくつかの組み合わせを含み得る。厳しい資金と時間の条件ゆえに、ほとんどの小さな研究所はこのような手法には手が届かず、モデルではない生命体の研究が妨げられる。本明細書に記載される方法が非常に長い距離のリード対を生成することができるため、単一の配列決定の実行でde novoアセンブリを実現することができる。これにより、アセンブリの費用を数桁節約し、必要な時間を数か月または数年から数週にまで短縮することになる。場合によっては、本明細書に開示された方法は、14日未満、13日未満、12日未満、11日未満、10日未満、9日未満、8日未満、7日未満、6日未満、5日未満、4日未満で、あるいは前述の指定された期間の任意の2つの範囲で、複数のリード対を生成することを可能にする。例えば、該方法は約10日から14日で複数のリード対を生成することを考慮にさせることができる。生命体のほとんどの微小環境向けのゲノムを構築することさえ日常的なものとなり、系統発生解析は比較不足していることに悩まされることなく、ゲノム10kなどのプロジェクトを実現することができる。
同様に、医療目的の構造解析およびフェージングメタゲノム解析も依然として困難なままである。癌、同じタイプの癌を抱える個体の中で、あるいは同じ腫瘍内でさえも驚異的な異質性がある。必然の効果から原因となるものを引き出すことは、サンプルごとに低コストで非常に高い精度かつ高スループットを必要とする。個別化医療の領域では、ゲノムケアのゴールドスタンダードの1つは、大小の構造的な再配置と新規な突然変異を含む、完全に特徴付けられたかつフェージングされたすべての変異体を有する配列決定されたゲノムである。従来の技術でこれを実現するためには、de novoアセンブリに必要とされる努力と同種の努力が要求され、これは現在非常に高価で多大な時間と労力を要するため、日常的な医療処置ではありえない。開示された方法は、低価格で完全で正確なゲノムを迅速に生成することができ、それにより、ヒト疾患の研究と治療において高度に求められる多くの能力を生み出すことができる。
最後に、本明細書で開示された方法をフェージングに適用することは、家族性分析の精度と統計手法の利便性を組み合わせて、一方の方法を単独で使用するよりも節約-金、労働、およびサンプルをもたらすことができる。従来の技術では禁止された非常に望ましいフェージング分析であるde novo変異体フェージングは、本明細書に開示された方法を容易に使用して実行可能である。ヒト変異の大部分がまれであるため(5%未満の小さな対立遺伝子頻度)、このことは特に重要である。フェージング情報は、非連鎖遺伝子型に対して高度に結合しているハプロタイプ(単一の染色体に割り当てられた変異体の収集物)のネットワークから重要な利点を獲得する母集団の遺伝学研究にとって価値がある。ハプロタイプ情報は、母集団サイズ、移動、および亜集団間の交換の歴史的な変化に関するより高分解能研究を可能にすることができ、特別な両親と祖父母に至るまで特定の変異体を追跡することができる。このことは、一人の個体で集めると、疾患に関連付けられる変異体の遺伝的伝達と、変異体間の相互作用を明らかにする。本開示の方法は最終的には、非常に長い範囲リード対(XLRP)ライブラリーの調製、配列決定、および解析を可能にすることができる。
本開示のいくつかの実施形態において、被験体からの組織あるいはDNAサンプルは提供可能であり、該方法は、アセンブルされたゲノム、コールされた変異体(大きな構造変異体を含む)を用いるアラインメント、フェージングされた変異体のコール、あるいは任意の追加の解析を戻すことができる。他の実施形態では、本明細書に開示された方法は、個体にXLRPライブラリーを直接提供することができる。
本開示の様々な実施形態では、本明細書に開示された方法は、遠い距離離れていた非常に長い距離のリード対を生成することができる。この距離の上限は、大きなサイズのDNAサンプルを捕集する能力によって改善されることがある。場合によっては、リード対は、ゲノム距離で最大50、60、70、80、90、100、125、150、175、200、225、250、300、400、500、600、700、800、900、1000、1500、2000、2500、3000、4000、5000kbp、またはそれ以上に及ぶことがある。いくつかの例において、リード対は、ゲノム距離で最大500kbpに及ぶことがある。他の例において、リード対は、ゲノム距離で最大2000kbpに及ぶことがある。本明細書に開示された方法は、分子生物学の標準配置を統合して積み上げることができ、さらに、効率、特異性、およびゲノムカバレージを増大させるのに適切である。場合によっては、リード対は、約1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、60、または90日未満で生成可能である。いくつかの例において、リード対は約14日未満で生成可能である。いくつかの例において、リード対は約10日未満で生成可能である。場合によっては、本開示の方法は、複数のコンティグを正確に順序付けおよび/または配向させる際に少なくとも約50%、約60%、約70%、約80%、約90%、約95%、約99%、あるいは約100%の精度で、リード対の約5%、約10%、約15%、約20%、約30%、約40%、約50%、約60%、約70%、約80%、約90%、約95%、約99%、あるいは約100%以上を提供することができる。例えば、該方法は、複数のコンティグを正確に順序付けおよび/または配向させる際に約90~100%の精度を提供することができる。
他の実施形態では、本明細書に開示された方法は、現在採用されている配列決定技術と共に使用することができる。例えば、該方法は、十分に試験されたおよび/または広く展開されている配列決定機器と組み合わせて使用可能である。いくつかの実施形態において、本明細書に開示された方法は、現在使用されている配列決定技術に由来する技術と手法と共に使用することができる。
本開示の方法は、広範囲の生命体向けのde novoゲノムアセンブリを劇的に単純化する。従来の技術を使用して、こうしたアセンブリは現在、経済的なメイト対ライブラリーの短い挿入物によって制限されている。フォスミドで入手可能な最大で40-50kbpまでのゲノム距離でリード対を生成することは可能であることもあるが、これらは高価で、扱いにくく、短すぎるため、最長の反復伸長部(ヒトでは300kbpから5Mbpまでのサイズがあるセントロメア内のものを含む)に及ぶことはない。本明細書に開示された方法は、遠い距離(例えば、メガベースまたはそれよりも長い)に及ぶことができ、それにより、これらの足場の完全性の問題を克服することができるリード対を提供することができる。これに応じて、染色体レベルアセンブリを生成することは、本開示の方法を利用することにより日常的なものとなりうる。アセンブリのためのより困難な手段-現在信じられない量の時間とお金を研究所に要し、拡張的なゲノムのカタログを禁止している-は不必要なものとなり、もっと意味のある解析のための資源を確保することもある。同様に、長距離のフェージング情報の獲得は、母集団のゲノムの研究、系統発生研究、および疾患研究に、さらなる巨大な力を与えることができる。本明細書に開示された方法は、多くの個体のための正確なフェージングを可能にし、それにより、母集団と深さ-時間レベルでゲノムを探索する我々の能力の幅と深さを拡張する。
個別化医療の領域では、本明細書に開示された方法から生成されたXLRPリード対は、正確で、廉価で、フェージングされて、かつ迅速に生成された個人のゲノムに対する有意義な進歩を表す。現在の方法は、長距離の変異体をフェージングする能力が不十分であり、それによって、化合物のヘテロ接合の遺伝子型の表現型の影響の特徴づけを妨げる。さらに、ゲノムの疾患に関する実質的な対象の構造変異体は、現在の技術では、これらを研究するために使用されるリードとリード対挿入物と比較してサイズが大きいため、同定と特徴付けを正確に行うのは難しい。数十キロベース~メガベースに及ぶリード対はこの問題を緩和する助けとなり、それにより、構造的な変異の高度に平行かつ個別化された解析を可能にする。
基本的な進化および生物医学研究はハイスループットな配列決定の技術的進歩によって突き動かされている。全ゲノム配列決定とアセンブリはかつて大規模なゲノム配列決定センターの供給源地であったが、市販のシーケンサーは今では、ほとんどの研究大学がこうした機器を1つまたは複数所有するほど廉価である。莫大な量のDNA配列データを生成することは今では比較的廉価である。しかしながら、高品質の非常に連続したゲノム配列を現在の技術で生成することは、理論的にも実際上でも依然として困難である。さらに、ヒトを含む、当業者が分析したいと思うほとんどの生命体が二倍性であるので、各個体はゲノムの2つの一倍体のコピーを有する。ヘテロ接合性の部位(例えば、母から与えられた対立遺伝子が父親から与えられた対立遺伝子とは異なる場所)では、対立遺伝子のどのセットがどの親から来たかを知ることは難しい(ハプロタイプフェージングとして知られている)。この情報は、疾患と形質転換の関連性研究などの多くの進化研究と生物医学研究を行うために使用することができる。
様々な実施形態では、本開示は、所定のゲノム内での短期、中期、および長期的な結合のハイスループットな発見のためのペアエンドの配列決定とDNA調製のための技術を組み合わせる、ゲノムアセンブリのための方法を提供する。本開示はさらに、ハプロタイプフェージングおよび/またはメタゲノムの研究に、ゲノムアセンブリを助けるこれらの結合を使用する方法を提供する。被験体のゲノムのアセンブリを決定するために本明細書に提示された方法を使用することができるが、染色体などの被験体のゲノムの部分のアセンブリ、あるいは可変長さの被験体のクロマチンのアセンブリを決定するために本明細書に提示された方法を使用することができることも理解されたい。
いくつかの実施形態において、本開示は、被験体から得られた標的DNAの配列決定断片から複数のコンティグを生成する工程を含む、本明細書に開示された1つ以上の方法を提供する。長く伸びた標的DNAは、1つ以上のヌクレアーゼ酵素(例えば、制限酵素)でDNAを切断し、DNAを剪断し、あるいはこれらの組み合わせにより断片化することができる。結果として生じた断片は、複数の配列決定リードを得るためにハイスループット配列決定方法を使用して、配列決定することが可能である。本開示の方法と共に使用することができるハイスループット配列決定方法の例としては、限定されないが、Roche Diagnosticsにより開発された454パイロシークエンシング方法、Illuminaにより開発された「cluster」配列決定方法、Life Technologiesによって開発されたSOLiDおよびイオン半導体配列決定方法、ならびにComplete Genomicsによって開発されたDNAナノボール配列決定方法が挙げられる。その後、様々な配列決定リードの重複する末端をアセンブルすることでコンティグを形成することができる。代替的に、断片化された標的DNAをベクターにクローン化することができる。その後、細胞または生命体を、ライブラリーを形成するためにDNAベクターでトランスフェクトする。トランスフェクトされた細胞あるいは生命体を複製した後に、ベクターを単離して、複数の配列決定リードを生成するように配列決定する。その後、様々な配列決定リードの重複する末端をアセンブルすることでコンティグを形成することができる。
図1に示されるように、ゲノムアセンブリ、特にハイスループットな配列決定技術を用いるものは、問題がある場合がある。しばしば、アセンブリは数千または数万もの短いコンティグからなる。これらのコンティグの順序と配向は一般に未知であり、ゲノムアセンブリの有用性を制限している。これらの足場を順序付けて配向させるための技術は存在するが、一般に高価であり、多大な労力を必要とし、非常に長い距離の相互作用の発見にしばしば失敗する。
コンティグを生成するために使用される標的DNAを含むサンプルは、体液(例えば、血液、尿、血清、リンパ、唾液、肛門と膣の分泌物、汗、および精液)を採取すること、組織を採取すること、あるいは細胞/生命体を捕集することを含む任意の数の手段によって被験体から得ることが可能である。得られたサンプルは、単一のタイプの細胞/生命体で構成されることもあれば、あるいは複数のタイプの細胞/生命体で構成されることもある。DNAは被験体のサンプルから抽出および調製可能である。例えば、既知の溶解緩衝液、超音波処理技術、エレクトロポレーションなどを使用して、ポリヌクレオチドを含む細胞を溶解するために、サンプルを処理することもある。標的DNAはアルコール抽出、セシウム勾配、および/またはカラムクロマトグラフィーの使用により、タンパク質などの汚染物質を取り除くためにさらに精製されてもよい。
本開示の他の実施形態では、非常に高い分子量DNAを抽出する方法が提供される。場合によっては、XLRPライブラリーからのデータは、インプットDNAの断片サイズを増加させることにより改善可能である。いくつかの例において、細胞からDNAのメガベースサイズの断片を抽出することで、ゲノム中のメガベースによって分離されたリード対を生成することができる。場合によっては、生成されたリード対は、約10kB、約50kB、約100kB、約200kB、約500kB、約1Mb、約2Mb、約5Mb、約10Mb、あるいは約100Mb以上の大きさの配列情報を提供することができる。いくつかの例において、リード対は、約500kB以上の大きさの配列情報を提供することができる。いくつかの例において、リード対は、約2Mb以上の大きさの配列情報を提供することができる。場合によっては、非常に大きな分子量のDNAは、非常に穏やかな溶菌(Teague,B.et al.(2010)Proc.Nat.Acad. Sci.USA 107(24),10848-53)とアガロース・プラグ(Schwartz,D.C.,&Cantor,C.R.(1984) Cell,37(1),67-75)によって抽出可能である。他の場合には、最大でメガベースの長さのDNA分子を精製することができる市販の機械を用いて、非常に大きな分子量のDNAを抽出することができる。
様々な実施形態では、本開示は、生細胞内の染色体の物理的な配置を探索する工程を含む、本明細書に開示された1つ以上の方法を提供する。配列決定によって染色体の物理的な配置を探索する技術の例としては、染色体立体構造捕捉(「3C」)、環状化染色体立体構造捕捉(「4C」)、カーボンコピー染色体捕捉(「5C」)、および他のクロマチン捕捉に基づく方法などの技術の「C」ファミリー;および、ChIP-ループ、ChIP-PETなどのChIPに基づく方法が挙げられる。これらの技術は、核の中の空間的関係を固めるために生細胞のクロマチンの固着を利用する。生成物のその後の処理と配列決定により、研究者はゲノム領域中の近似結合のマトリックスを回復することができる。詳しい分析により、これらの結合は生きている核の中で物理的に配置されるため、これらの結合を用いて、染色体の三次元の幾何学的なマップを作製することができる。こうした技術は、生細胞中の染色体の別の空間的な組織化について記載しており、染色体の遺伝子座の中での機能的な相互作用を正確に把握する。これらの機能的な研究を苦しめた1つの問題は、非特異的相互作用、つまり、染色体の近接に起因するものでしかないデータ中に存在する結合であった。開示では、これらの非特異的な染色体内の相互作用は、アセンブリに価値のある情報を提供するために本明細書に提示された方法によって捕らえられる。
いくつかの実施形態において、染色体内の相互作用は染色体の接続性と相関する。場合によっては、染色体内のデータはゲノムアセンブリを援助することができる。場合によっては、クロマチンはインビトロで再構築される。これは有利なことになりうる。なぜなら、クロマチン-特に、クロマチンの主要なタンパク質成分であるヒストン-は、配列決定:3C、4C、5Cおよびクロマチンの捕捉によってクロマチンの立体構造と構造を検知するための技術の最も一般的な「C」ファミリー下での固定に重要なものだからである。クロマチンは、配列の観点から高度に非特異的であり、一般にゲノム全体で均一にアセンブルする。場合によっては、クロマチンを使用しない種のゲノムは、再構築されたクロマチン上でアセンブルし、それにより、開示される視野を生命のすべての領域まで拡大することができる。
クロマチン立体構造捕捉技術は図2にまとめられている。要約すると、架橋は、物理的非常に近接しているゲノム領域間で作られる。クロマチン内でDNA分子(例えばゲノムDNA)に対するタンパク質(ヒストンなど)の架橋は、本明細書のどこかでさらに詳細に記載されているか、あるいは当該技術分野で知られている適切な方法によって実現可能である。場合によっては、2つ以上のヌクレオチド配列、あるいは、厳密に言えば、2つ以上の核酸セグメントは、1つ以上のヌクレオチド配列と結合したタンパク質によって架橋可能である。1つの手法はクロマチンを紫外線照射に晒すことである(Gilmour et al.,Proc. Nat’l. Acad. Sci. USA 81:4275-4279,1984)。ポリヌクレオチドセグメントの架橋は、化学的または物理的(例えば、光学)な架橋などの他の手法を利用して実行されてもよい。適切な化学架橋剤としては、限定されないが、ホルムアルデヒドとソラレンが挙げられる(Solomon et al.,Proc. NatL. Acad. Sci. USA 82:6470-6474,1985; Solomon et al.,Cell 53:937-947,1988)。例えば、架橋はDNA分子とクロマチンタンパク質を含む混合物に2%のホルムアルデヒドを加えることにより行うことができる。DNAを架橋するために使用することができる薬剤の他の例としては、限定されないが、UV光、マイトマイシンC、ナイトロジェンマスタード、メルファラン、1,3-ブタジエンジエポキシド、シスジアミンジクロロ白金(II)、およびシクロホスファミドが挙げられる。適切にいえば、架橋剤は、比較的短い距離(約2Åなど)を埋める架橋を形成し、それにより、逆にすることができる密接な相互作用を選択する。
いくつかの実施形態において、DNA分子は架橋前あるいは後に免疫沈降されることもある。場合によっては、DNA分子は断片化されてもよい。断片は、アセチル化されたヒストン(例えばH3)を特異的に認識・結合する抗体などの結合パートナーに接触させることもある。こうした抗体の例としては、限定されないが、Upstate Biotechnology(NY州プラシド湖)から入手可能な抗アセチル化ヒストンH3が挙げられる。免疫沈降物からのポリヌクレオチドはその後、免疫沈降物から集めることができる。クロマチンを断片化する前に、アセチル化されたヒストンを、隣接するポリヌクレオチド配列に架橋することができる。
ある実施形態では、DNA分子は複数の会合分子に結合し、会合分子は、アフィニティー標識(例えば、ビオチン、ストレプトアビジン、アビジン、ポリヒスチジン、EDTAなど)で共有結合的に修飾されない。場合によっては、会合分子は生命体から直接単離されている。いくつかの例において、会合分子はアミノ酸を含む。ある例では、会合分子はポリペプチドまたはタンパク質を含む。いくつかの例では、会合分子はヒストンタンパク質を含む。様々な例において、会合分子はDNA分子とは異なる供給源からのものである。例えば、DNA分子は複数のヒストンに架橋可能であり、上記のヒストンはアフィニティー標識で共有結合的に修飾されない。またさらなる例において、会合分子はトランスポゼースである。いくつかの例では、第1のDNA分子は会合分子に非共有結合される。他の例では、第1のDNA分子は会合分子に非共有結合される。場合によっては、第1のDNA分子は会合分子に架橋される。いくつかの例において、第1のDNA分子は固定剤(例えばホルムアルデヒド)を使用して会合分子に架橋される。しかしながら、ある場合には、DNA分子はDNAセグメントを含み、これはアフィニティー標識で修飾可能である。いくつかの例では、アフィニティー標識がビオチンを含む。ある例において、アフィニティー標識はビオチンで修飾されたヌクレオシド三リン酸塩(dNTP)である。いくつかの例において、アフィニティー標識はビオチンで修飾されたデオキシリボシトシン三リン酸塩(dCTP)である。様々な場合において、アフィニティー標識はDNAセグメントを単離または精製するために使用される。
共有結合修飾のない会合分子を使用することで、本開示で提供される方法の工程の数を減らし、および/または、効率を増強する。場合によっては、DNAセグメントは、連鎖DNAセグメントを形成するために連鎖する前に、約20、18、16、15、14、13、12、11、10、9、8、7、6、5、4、3、2、あるいは1回未満洗浄される。ある場合には、DNAセグメントは、連鎖DNAセグメントを形成するために連鎖する前に、約15、14、13、12、11、10、9、8、7、6、あるいは5回未満洗浄される。場合によっては、DNAセグメントは、連鎖DNAセグメントを形成するために連鎖する前に、約12、11、10、9、8、7、あるいは6回未満洗浄される。いくつかの実施形態において、DNAセグメントは、連鎖DNAセグメントを形成するために連鎖する前に、約10回未満洗浄される。ある例において、DNAセグメントは、連鎖DNAセグメントを形成するために連鎖する前に、約8回未満で洗浄される。いくつかの実施形態において、DNAセグメントは、連鎖DNAセグメントを形成するために連鎖する前に、約6回未満洗浄される。
いくつかの実施形態において、結合したDNA分子は固体支持体上で固定される。場合によっては、固体支持体はビーズである。いくつかの例では、ビーズはポリマーを含む。いくつかの例では、固定剤はポリスチレンである。他の例において、ポリマーはポリエチレングリコール(PEG)である。様々な例において、ビーズは磁気ビーズである。いくつかの例において、ビーズは固体相の可逆的な固定化(SPRI)ビーズである。他の場合において、固体支持体はアレイである。ある例において、固体支持体は、アフィニティー標識(例えば、ビオチン、ストレプトアビジン、アビジン、ポリヒスチジン、EDTA、あるいはこれらの誘導体)に共有結合されない。様々な例において、固体支持体は、任意のポリペプチド(例えば、ストレプトアビジン、アビジン、ポリヒスチジンタグ、あるいはこれらの誘導体)に連鎖されない。
固体支持体の表面(例えば、会合分子に共有結合したビオチンに結合するためにストレプトアビジンでコーティングされた表面など)へ結合することにより、その単離を促すべく会合分子を共有結合的に修飾するよりもむしろ、場合によっては、固体支持体は共有結合修飾のない状態で会合分子と結合するために修飾される。場合によっては、これは、会合分子の表面への会合分子の直接的な結合である。代替的に、場合によっては、結合は溶媒中の少なくとも1つの成分を媒介して行われる。場合によっては、固体支持体は会合分子に直接結合する部分を使用してコーティングされる。場合によっては、固体表面は核酸と直接結合する部分を使用してコーティングされる。様々な実施形態における適切なコーティングは、ポリアミン、正荷電部分、カルボキシ基、および負荷電部分を含んでいる。
場合によっては、架橋されたDNA分子は混合物中のポリヌクレオチドを分画するか切断するために処理される。分画技術は当該技術分野で知られており、例えば、より小さなゲノム断片を生成するための剪断技術を含む。断片化は、例えば、超音波処理、剪断および/またはヌクレアーゼ(例えば制限酵素)あるいは切断酵素(例えば、dsDNA fragmentase)の使用を含む、クロマチンを断片化するための確立された方法を使用して遂行可能である。制限酵素は、1、2、3、4、5、あるいは6つの塩基長の制限部位を有することができる。ヌクレアーゼはエンドヌクレアーゼ、エキソヌクレアーゼ、あるいはエンド-エキソヌクレアーゼであり得る。ヌクレアーゼの例としては、限定されないが、DNase IとMNaseが挙げられる。制限酵素の例としては、限定されないが、AatII、Acc65I、AccI、AciI、AclI、AcuI、AfeI、AflII、AflIII、AgeI、AhdI、AleI、AluI、AlwI、AlwNI、ApaI、ApaLI、ApeKI、ApoI、AscI、AseI、AsiSI、AvaI、AvaII、AvrII、BaeGI、BaeI、BamHI、BanI、BanII、BbsI、BbvCI、BbvI、BccI、BceAI、BcgI、BciVI、BclI、BfaI、BfuAI、BfuCI、BglI、BglII、BlpI、BmgBI、BmrI、BmtI、BpmI、Bpul0I、BpuEI、BsaAI、BsaBI、BsaHI、BsaI、BsaJI、BsaWI、BsaXI、BscRI、BscYI、BsgI、BsiEI、BsiHKAI、BsiWI、BslI、BsmAI、BsMbI、BsmFI、BsmI、BsoBI、Bsp1286I、BspCNI、BspDI、BspEI、BspHI、BspMI、BspQI、BsrBI、BsrDI、BsrFI、BsrGI、BsrI、BssHII、BssKI、BssSI、BstAPI、BstBI、BstEII、BstNI、BstUI、BstXI、BstYI、BstZ17I、Bsu36I、BtgI、BtgZI、BtsCI、BtsI、Cac8I、ClaI、CspCI、CviAII、CviKI-1、CviQI、DdcI、DpnI、DpnII、DraI、DraIII、DrdI、EacI、EagI、EarI、EciI、Eco53kI、EcoNI、EcoO109I、EcoP15I、EcoRI、EcoRV、FatI、FauI、Fnu4HI、FokI、FseI、FspI、HaeII、HaeIII、HgaI、HhaI、HincII、HindIII、HinfI、HinPlI、HpaI、HpaII、HphI、Hpy166II、Hpy188I、Hpy188III、Hpy99I、HpyAV、HpyCH4III、HpyCH4IV、HpyCH4V、KasI、KpnI、MboI、MboII、MfeI、MluI、MlyI、MmeI、MnlI、MscI、MseI、MslI、MspAlI、MspI、MwoI、NaeI、NarI、Nb.BbvCI、Nb.BsmI、Nb.BsrDI、Nb.BtsI、NciI、NcoI、NdeI、NgoMIV、NheI、NlaIII、NlaIV、NmeAIII、NotI、NruI、NsiI、NspI、Nt.AlwI、Nt.BbvCI、Nt.BsmAI、Nt.BspQI、Nt.BstNBI、Nt.CviPII、PacI、PaeR7I、PciI、PflFI、PflMI、PhoI、PleI、PmeI、PmlI、PpuMI、PshAI、PsiI、PspGI、PspOMI、PspXI、PstI、PvuI、PvuII、RsaI、RsrII、SacI、SacII、SalI、SapI、Sau3AI、Sau96I、SbfI、ScaI、ScrFI、SexAI、SfaNI、SfcI、SfiI、SfoI、SgrAI、SmaI、SmlI、SnaBI、SpeI、SphI、SspI、StuI、StyD4I、StyI、SwaI、T、TaqαI、TfiI、TliI、TseI、Tsp45I、Tsp509I、TspMI、TspRI、Tth111I、XbaI、XcmI、XhoI、XmaI、XmnI、および、ZraIが挙げられる。結果として生じる断片はサイズが異なることがある。結果として生じる断片は5’または3’末端に一本鎖のオーバーハンドも含むことがある。ヌクレアーゼは核酸誘導ヌクレアーゼであり得る。核酸誘導ヌクレアーゼは、Cas9、Cpf1、Cas3、Cas8a-c、Cas10、Cse1、Csy1、Csn2、Cas4、Csm2、Cm5、および、Csf1などの、CAS Class I Type I、CAS Class I Type III、CAS Class I Type IV、CAS Class II Type II、およびCAS Class II Type Vを含む、ヌクレアーゼ(例えばCas9)のCasファミリーからなどのRNA誘導ヌクレアーゼであり得る。
いくつかの実施形態において、超音波処理技術を使用して、約100~5000のヌクレオチドの断片を得ることができる。代替的に、約100~1000、約150~1000、約150~500、約200~500、あるいは約200~400のヌクレオチドの断片を得ることができる。サンプルは、架橋される結合した配列セグメントの配列決定のために調製可能である。場合によっては、ポリヌクレオチドの単一の短い伸長部は、例えば、分子内で架橋された2つの配列セグメントを連結することにより作製可能である。配列情報は、本明細書のどこかでさらに詳細に記載されるか、あるいはハイスループット配列決定方法などの当該技術分野で知られている任意の適切な配列決定技術も使用して、サンプルから得ることができる。例えば、断片の各末端から配列情報を得るペアエンドの配列決定にライゲーション生成物をさらすことができる。配列セグメントの複数ペアは、ポリヌクレオチドに沿って2つの配列セグメントを分離する直線距離にわたってハプロタイピング情報を関連させて、得られた配列情報で表され得る。
クロマチン捕捉によって生成されたデータの1つの特徴は、ほとんどのリード対は、ゲノムへ再度マッピングする際に、密接に直線的に近接していることがわかるということである。すなわち、ほとんどのリード対はゲノム中で互いに接近していることが分かる。結果として生じるデータセットでは、染色体が明確な領域を占領している場合に予想されるように、染色体内の接触の可能性は染色体間の接触の可能性よりも平均してはるかに高い。さらに、相互作用の可能性は直線距離とともに急激に低下するが、同じ染色体上での>200Mb分離している遺伝子座でさえ、異なる染色体上の遺伝子座よりも相互作用する可能性が高い。長距離の染色体内かつとりわけ染色体間の接触を検知する際に、短距離および中距離の染色体内の接触のこの「背景」は、クロマチン捕捉分析を使用して取り除かれる背景ノイズである。
顕著に、真核生物でのクロマチン捕捉実験は、種に特異的な、および細胞タイプに特異的なクロマチン相互作用に加えて、2つの古典的な相互作用パターンを示した。1つのパターン、つまり、距離依存の性の低下腐食(DDD)は、ゲノム距離の機能に応じて相互作用頻度の低下の一般的な傾向である。第2のパターン、つまり、シス-トランス比率(CTR)は、異なる染色体上の遺伝子座に対して、数十メガベースの配列によって分離された時でさえ、同じ染色体上に位置する遺伝子座間の著しく高い相互作用頻度である。わずかに混合するだけで、核中で明確な量を占める傾向がある間期染色体の現象である染色体領域の形成などの特定の核構成特徴と同様に、近位の遺伝子座が無作為に相互作用する可能性が高い、これらのパターンは一般的な高分子力学を反映することもある。これらの2つのパターンの正確な詳細は種、細胞タイプ、および細胞の条件の間で変動することがあるが、これらは普遍的かつ顕著である。こうしたパターンは非常に強力かつ一貫しているので、実験の質を評価するために使用され、詳細な相互作用を明らかにするためにデータから通常は正規化される。しかしながら、本明細書で開示された方法では、ゲノムアセンブリは、ゲノムの三次元構造を利用することができる。古典的なクロマチン捕捉相互作用パターンを、特定のループする相互作用の分析のための障害とする特徴(すなわち、その遍在性、強さ、一貫性)は、コンティグのゲノムの位置を評価するための強力なツールとして使用可能である。
特定の実施において、染色体内のリード対の間の物理的な距離の調査は、ゲノムアセンブリに関するデータのいくつかの有用な特徴を示す。第1に、距離の短い相互作用は距離の長い相互作用よりも一般的である(例えば、図6を参照)。すなわち、リード対の各リードは、ずっと遠くにある領域よりも、実際のゲノム中のすぐそばの領域と結合する可能性が高い。第2に、中距離と長距離の相互作用の長い尾部がある。すなわち、リード対は、キロベース(kB)またはメガベース(Mb)もの距離で染色体内の配置に関する情報を伝える。例えば、リード対は、約10kB、約50kB、約100kB、約200kB、約500kB、約1Mb、約2Mb、約5Mb、約10Mb、あるいは約100Mb以上の大きさの配列情報を提供することができる。データのこれらの特徴は、同じ染色体上で近くにあるゲノムの領域が物理的に近接している可能性が高いことを示している-DNA骨格によって互いに化学的に結合しているので予想された結果である。クロマチン捕捉によって生成されたデータなどのゲノム規模のクロマチン相互作用データセットが全染色体に沿った配列のグループ化と線形の組織化に関する長距離の情報を提供することになる。
クロマチン捕捉のための実験的方法は直接的で比較的廉価であるが、ゲノムアセンブリおよびハプロタイピングのための現在のプロトコルは、106-108の細胞、つまり、とりわけ特定のヒト患者サンプルから入手することができないこともある膨大な量の材料を必要とする。対照的に、本明細書に開示された方法は、細胞からの非常に少ない材料を用いる遺伝子型アセンブリ、ハプロタイプフェージング、およびメタゲノミクスに関する正確かつ予測的な結果を可能にする方法を含む。例えば、約0.1μg、約0.2μg、約0.3μg、約0.4μg、約0.5μg、約0.6μg、約0.7μg、約0.8μg、約0.9μg、約1.0μg、約1.2μg、約1.4μg、約1.6μg、約1.8μg、約2.0μg、約2.5μg、約3.0μg、約3.5μg、約4.0μg、約4.5μg、約5.0μg、約6.0μg、約7.0μg、約8.0μg、約9.0μg、約10μg、約15μg、約20μg、約30μg、約40μg、約50μg、約60μg、約70μg、約80μg、約90μg、約100μg、約150μg、約200μg、約300μg、約400μg、約500μg、約600μg、約700μg、約800μg、約900μg、あるいは約1000μg未満のDNAを、本明細書に開示された方法と共に使用することができる。いくつかの例において、本明細書に開示された方法で使用されるDNAは、約1,000,000、約500,000、約100,000、約50,000、約10,000、約5,000、約1,000、約5,000あるいは約1,000、約500、あるいは約100未満の細胞から抽出可能である。
場合によっては、DNA分子からのDNAセグメントの約80%、60%、50%、40%、30%、20%、15%、10%、9%、8%、7%、6%、5%、4%、3%、2%、1%、0.5%、あるいは0.1%未満が任意の他のDNA分子からのDNAセグメントと連鎖している。ある場合では、DNA分子からのDNAセグメントの50%、40%、30%、20%、15%、10%、9%、8%、7%、6%、あるいは5%未満が任意の他のDNA分子からのDNAセグメントと連鎖している。場合によっては、DNA分子からのDNAセグメントの40%、30%、20%、15%、あるいは10%未満が任意の他のDNA分子からのDNAセグメントと連鎖している。場合によっては、DNA分子からのDNAセグメントの40%未満は、任意の他のDNA分子からのDNAセグメントと連鎖している。場合によっては、DNA分子からのDNAセグメントの20%未満は、任意の他のDNA分子からのDNAセグメントと連鎖している。場合によっては、DNA分子からのDNAセグメントの10%未満は、任意の他のDNA分子からのDNAセグメントと連鎖している。
普遍的に、クロマチン捕捉技術などの染色体の物理的な配置を探索するための手順は、培養細胞または1次組織から単離されたクロマチンなどの、細胞/生命体内に形成されるクロマチンを利用する。本開示は、細胞/生命体から単離されたクロマチンを用いるそのような技術の使用だけでなく、再構成されたクロマチンも提供する。再構成されたクロマチンは、様々な特徴にわたって細胞/生命体内に形成されたクロマチンとは区別される。第1に、多くのサンプルについて、裸のDNAサンプルの収集は、体液を採取すること、頬側または直腸の領域を拭き取ること、あるいは上皮のサンプルなどを採取することによるなどして、非侵襲的~侵襲的な様々な方法を用いて達成可能である。第2に、クロマチンの再構成は、ゲノムアセンブリとハプロタイプフェージング向けのアーチファクトを生成する、染色体間と他の長距離の相互作用を実質的に妨げる。場合によっては、サンプルは、本開示の方法と組成物にしたがって、約20、15、12、11、10、9、8、7、6、5、4、3、2、1、0.5、0.4、0.3、0.2、0.1%未満の染色体間または分子間の架橋を有することがある。いくつかの例において、サンプルは約5%未満の染色体間あるいは分子間の架橋を有することがある。いくつかの例において、サンプルは約3%未満の染色体間あるいは分子間の架橋を有することがある。いくつかの例において、サンプルは約1%未満の染色体間あるいは分子間の架橋を有することがある。第3に、架橋することができる部位の頻度と、したがって、ポリヌクレオチド内での分子内架橋の頻度は、調節することができる。例えば、ヌクレオソーム密度を望ましい値に調節することができるように、DNA対ヒストンの比率を変えることができる。場合によっては、ヌクレオソーム密度は生理的なレベル以下に減らされる。これに応じて、架橋の分布は長距離の相互作用に有利に働くように変更可能である。いくつかの実施形態において、可変の架橋密度を有するサブサンプルは、短距離と長距離のの結合を網羅するように調製されてもよい。例えば、架橋条件は、架橋の少なくとも約1%、約2%、約3%、約4%、約5%、約6%、約7%、約8%、約9%、約10%、約11%、約12%、約13%、約14%、約15%、約16%、約17%、約18%、約19%、約20%、約25%、約30%、約40%、約45%、約50%、約60%、約70%、約80%、約90%、約95%、または約100%がサンプルDNA分子上で少なくとも約50kb、約60kb、約70kb、約80kb、約90kb、約100kb、約110kb、約120kb、約130kb、約140kb、約150kb、約160kb、約180kb、約200kb、約250kb、約300kb、約350kb、約400kb、約450kb、または約500kb離れたDNAセグメント間で生じるように、調節可能である。
様々な実施形態では、本開示は、複数のコンティグに対する複数のリード対のマッピングを可能にする様々な方法を提供する。コンティグ配列にリード対をマッピングするためのいくつかの市販されているコンピュータプログラムがある。これらのリード-マッピングプログラムデータは、特定のリード-マッピングがゲノム内でどれほど特有なものであるかを説明するデータを提供する。コンティグ内で高い信頼度で特有にマッピングされるリードの母集団から、我々は、各リード対のリード間の距離の分布を推測することができる。これらは図6に示されるデータである。リードが異なるコンティグに確信的にマッピングされるリード対に関して、このマッピングデータは、問題となっている2つのコンティグ間の結合を暗に意味する。それは、上に記載された分析から学習される距離の分布に比例する2つのコンティグ間の距離も暗に意味する。したがって、リードが異なるコンティグにマッピングされる各リード対は、正しいアセンブリ中のその2つのコンティグ間の結合を暗に意味する。こうしたすべてのマッピングされたリード対から推測される結合は、各コンティグが行と列の両方によって表される隣接行列でまとめられる。コンティグを結合するリード対は、リード対中のリードがマッピングされたコンティグを意味する、コンティグを表示する対応する行と列で0ではない値として示される。リード対のほとんどはコンティグ内でマッピングされ、そのことからリード対の間の距離の分布を学習することができ、および、異なるコンティグへマッピングされるリード対を用いて、そのことからコンティグの隣接行列を構築することができる。
様々な実施形態では、本開示は、リード対データからのリード-マッピングデータを使用して、コンティグの隣接行列を構築する工程を含む方法を提供する。いくつかの実施形態において、隣接行列は、長距離の相互作用よりも短距離の相互作用の傾向を組み込むリード対のための重み付けスキームを使用する(例えば、図3を参照)。短距離に及ぶリード対は一般に、より長い距離に及ぶリード対よりも一般的である。特定の距離の可能性を記載する関数は、この分布を学習するために単一のコンティグにマッピングされるリード対データを使用して調整可能である。したがって、様々なコンティグにマッピングされるリード対の1つの重要な特徴は、それらがマッピングされるコンティグ上での位置である。両方ともコンティグの1つの末端付近でマッピングされるリード対について、これらのコンティグの間の推測された距離は短くなることがあり、したがって、結合したリード間の距離は小さくなることがる。リード対間の短い距離が長い距離よりも一般的であるため、この構成は、リードマッピングがコンティグの縁から遠いという証拠よりも、これらの2つのコンティグが隣接するというより強力な証拠を提供する。したがって、隣接行列中の結合は、コンティグの縁までのリードの距離によってさらに重み付けされる。いくつかの実施形態において、隣接行列は、ゲノムの無差別な領域を表すいくつかのコンティグ上の多くの接点の重みを軽減するために、再スケーリングされる。ゲノムのこうした領域は、当該領域に対するリードマッピングの高い割合を有することにより識別可能であるが、アセンブリに誤った情報を伝えるかもしれない偽性のリードマッピングを含む可能性が演繹的に高い。またさらなる実施形態では、このスケーリングは、転写リプレッサーCTCF、内分泌受容体、コヒーシン、あるいは共有結合的に修飾されたヒストンなどのクロマチンの足場相互作用を調節する1つ以上の薬剤に関する1つ以上の保存された結合部位を探索することにより指示可能である。
いくつかの実施形態において、本開示は、順序および/またはゲノムに対する配向を表すコンティグを通る経路を決定するために隣接行列を分析する工程を含む、本明細書に開示された1つ以上の方法を提供する。他の実施形態では、各コンティグに正確に一度辿り着くように、コンティグを通る経路を選択することができる。いくつかの実施形態において、隣接行列を通る経路が辿り着いたエッジ重みの合計を最大化するように、コンティグを通る経路は選択される。この方法で、最も確実なコンティグ結合が適切なアセンブリのために提案される。またさらなる実施形態では、各コンティグに正確に一度辿り着き、隣接行列のエッジ重み付けが最大化されるように、コンティグを通る経路を選択することができる。
二倍体ゲノムにおいて、どの対立遺伝子変異体が同じ染色体上で連鎖しているかを知ることがしばしば重要である。これはハプロタイプフェージングとして知られている。ハイスループットな配列データからの短いリードでは、どの対立遺伝子変異体が連鎖しているかを直接観察することはめったにできない。ハプロタイプフェージングの計算上の推論は長距離では当てにならないことがある。本開示は、リード対上の対立遺伝子変異体を使用してどの対立遺伝子変異体が連鎖しているかを判定することを可能にする1つ以上の方法を提供する。
様々な実施形態では、本開示の方法と組成物は、複数の対立遺伝子変異体に関して二倍体または倍数体のゲノムのハプロタイプフェージングを可能にする。本明細書に記載された方法は、同じものを用いて、リード対および/またはアセンブルしたコンティグからの変異体情報に基づいて連鎖対立遺伝子変異体が連鎖していることを判定することができる。対立遺伝子変異体の例としては、限定されないが、1000genomes、UK10K、HapMap、およびヒトの間の遺伝変異の発見するための他のプロジェクトから知られているものが挙げられる。特定遺伝子に対する疾患の関連性は、例えば、シャルコー・マリー・トゥースニューロパシー(Lupski JR, Reid JG, Gonzaga-Jauregui C, et al. N. Engl. J. Med. 362:1181-91, 2010)を引き起こすSH3TC2の両方のコピー中の非連鎖の不活性化突然変異と、高コレステロール血症9(Rios J、Stein E、Shendure J、et al. Hum. Mol. Genet. 19:4313-18、2010)を引き起こすABCG5の両方のコピー中の非連鎖の不活性化突然変異の発見によって実証されるようなハプロタイプフェージングデータを有することによりはるかに容易に明らかにすることができる。
ヒトは平均して1,000の部位のうちの1つの部位でヘテロ接合である。場合によっては、ハイスループット配列決定方法を使用するデータの単一のレーンは、少なくとも約150,000,000のリード対を生成することができる。リード対は約100の塩基対の長さであり得る。これらのパラメーターから、ヒトサンプルからのすべてのリードの10分の1はヘテロ接合部位を包含すると推測される。したがって、平均して、ヒトサンプルからのすべてのリード対の100分の1は、1対のヘテロ接合部位を包含すると推測される。これに応じて、約1,500,000のリード対(150,000,000の100分の1)は、単一のレーンを使用して、フェージングデータを提供する。ヒトゲノム中およそ30億の塩基があり、1000のうちの1つがヘテロ接合であることから、平均的なヒトゲノムにおよそ300万のヘテロ接合部位がある。1対のヘテロ接合部位を表す約1,500,000のリード対があることから、ハイスループット配列決定配列方法の単一のレーンを使用してフェージングされる各ヘテロ接合部位の平均カバレージは、典型的なハイスループット配列決定機器を使用して約(1X)である。したがって、二倍体ヒトゲノムは、本明細書に開示された方法を使用して調製されるサンプルからの配列変異体を関連づけるハイスループットな配列データの1つのレーンで確実にかつ完全にフェージング可能である。いくつかの例において、データのレーンはDNA配列リードデータのセットであり得る。いくつかの例において、データのレーンはハイスループット配列決定機器の一回の実行からのDNA配列リードデータのセットであり得る。
ヒトゲノムが染色体の2つの相同のセットからなることから、個体の正確な遺伝的構成の理解は、母方と父方のコピーの描写あるいは遺伝物質のハプロタイプを必要とする。個体におけるハプロタイプを得ることは、いくつかの方法で有用である。第一に、ハプロタイプは、臓器移植でのドナーと宿主の一致の結果を予測する際に臨床的に有用であり、疾患の関連性を検知するための手段としてますます使用されている。第二に、複合ヘテロ接合性を示す遺伝子において、ハプロタイプは、2つの有害の変異体が同じ対立遺伝子に位置しているかどうかに関する情報を提供し、これらの変異体の遺伝が有害かどうかの予測に大きな影響を与える。第三に、個体の群のからのハプロタイプは、母集団構造と人類の進化の歴史についての情報を提供してきた。最後に、遺伝子発現において最近記載された広範囲の対立形質の不均衡は、対立遺伝子間の遺伝的またはエピジェネティックな差は、発現の定量的な差に寄与することもあることを示す。ハプロタイプ構造についての理解は、対立形質の不均衡に寄与する変異体のメカニズムを描写する。
ある実施形態では、本明細書に開示された方法は、長距離の連鎖とフェージングに必要とされるゲノムの離れた領域中の結合を固定および捕捉するための技術(例えば、インビトロまたはインビボ)を含む。場合によっては、方法が、非常にゲノム的に離れたリード対を伝達するためにXLRPライブラリーを構築および配列決定する工程を含む。場合によっては、相互作用は主として単一のDNA断片内のランダムな結合から発生する。いくつかの例において、DNA分子中で互いに密接しているセグメントは頻繁に、かつ高い確率で相互作用するため、セグメント間のゲノム距離を推論することができるが、その一方で、分子の離れた部分間の相互作用はそれほど頻繁ではない。結果的に、2つの遺伝子座を結合する対の数とインプットDNA上でのそれらの近さとの間には系統学的な関係がある。本開示は図2で実証されるように、抽出時に最大のDNA断片に及ぶことができるリード対を生成することができる。このライブラリーのためのインプットDNAは150kbpの最大の長さを有しており、これは我々が配列決定データから観察したなかで最長の有意なリード対である。このことは、より大きなインプットDNA断片を提供されれば、本方法はよりゲノム的により離れた遺伝子座に連鎖することができることを示唆する。本方法によって生成されたデータのタイプを取り扱うのに特に適している改良されたアセンブリソフトウェアツールを適用することによって、完全なゲノムアセンブリが可能となることもある。
本開示の方法と組成物を使用して精製されたデータによって非常に高いフェージング精度を達成することができる。従来の方法と比較して、本明細書に記載された方法は、より高い割合の変異体をフェージングすることができる。フェージングは高いレベルの精度を維持しつつ達成可能である。このフェーズ情報をより長距離に、例えば、例えば、約200kbp、約300kbp、約400kbp、約500kbp、約600kbp、約700kbp、約800kbp、約900kbp、約1Mbp、約2Mbp、約3Mbp、約4Mbp、約5Mbp、あるいは約10Mbp以上、伸長させることができる。いくつかの実施形態において、ヒトサンプル用のヘテロ接合SNPの90%以上は、約2億5000万未満のリードまたはリード対を用いて、例えば、Illumina HiSeqデータのたった1つのレーンを用いて、99%を超える精度でフェージング可能である。他の場合には、ヒトサンプル用のヘテロ接合SNPの約40%、50%、60%、70%、80%、90%、95%、あるいは99%以上は、約2億5000万あるいは約5億未満のリードまたはリード対を用いて、例えば、Illumina HiSeqデータのたった1つあるいは2つのレーンを用いて、約70%、80%、90%、95%、あるいは99%を超える精度でフェージング可能である。例えば、ヒトサンプル用のヘテロ接合SNPの95%あるいは99%以上は、約2億5000万あるいは5億未満のリードを用いて、約95%あるいは99%を超える精度でフェージング可能である。場合によっては、追加の変異体は、リード長さを、約200bp、250bp、300bp、350bp、400bp、450bp、500bp、600bp、800bp、1000bp、1500bp、2kbp、3kbp、4kbp、5kbp、10kbp、20kbp、50kbp、あるいは100kbpまで増加させることにより、捕捉細く可能である。
本開示の他の実施形態では、XLRPライブラリーからのデータは、長距離のリード対のフェージング能力を確認するために使用することができる。図6で示されるように、これらの結果の精度は、以前に利用可能であった最良の技術と同程度であるが、著しく長い距離にまで伸長している。特定の配列決定方法のための現在のサンプル調製プロトコルは、フェージング用の標的とされた制限部位のリード長(例えば150bp)内にある変異体を認識する。一例において、アセンブリのためのベンチマークサンプルであるNA12878のために構築されたXLRPライブラリーから、存在する1,703,909のヘテロ接合SNPの44%は、99%を超える精度でフェージングされた。場合によっては、制限酵素の賢明な選択、あるいは様々な酵素の組み合わせを用いて、この割合をほぼすべての可変部位に拡大可能である。
いくつかの実施形態において、本明細書に記載された組成物と方法は、メタゲノム、例えば、ヒトの腸で見られるメタゲノムの検査を可能にする。これに応じて、所定の生態学的環境に存在する一部またはすべての生命体の部分的または全体のゲノム配列を調査することができる。例としては、すべての腸微生物、皮膚の特定の領域で見られる微生物、および有毒廃棄物のある場所に住んでいる微生物のランダムな配列決定が挙げられる。これらの環境中の微生物の集団の組成は、それぞれのゲノムによってエンコードされた相互に関連する生化学の態様と同様に、本明細書に記載される組成物と方法を使用して判定可能である。本明細書に記載された方法は、複雑な生物学的環境、例えば、2、3、4、5、6、7、8、9、10、12、15、20、25、30、40、50、60、70、80、90、100、125、150、175、200、250、300、400、500、600、700、800、900、1000、5000、10000、またはそれ以上の生命体および/または生命体の変異体を含む環境からのメタゲノム研究を可能にすることができる。
癌のゲノム配列決定に必要とされる高い精度は、本明細書に記載された方法とシステムを使用して達成可能である。癌ゲノムを配列決定する際、不正確な参照ゲノムではベースコールが困難になりかねない。異種のサンプルと小さな出発物質、例えば、生検によって得られたサンプルは別の課題を引き起こす。さらに、大規模な構造変異体の検出および/またはヘテロ接合性の喪失は、体細胞の変異体とベースコールのエラーとを区別する能力と同様に、癌のゲノム配列決定にはしばしば必要不可欠である。
本明細書に記載されたシステムと方法は、2、3、4、5、6、7、8、9、10、12、15、20、あるいはそれ以上の様々なゲノムを含む複合体サンプルからの正確な長い配列を生成することがある。正常な、良性の、および/または腫瘍起原の混合サンプルは随意に、正常な対照を必要とすることなく分析されてもよい。いくつかの実施形態において、100ngほどの小さな、あるいは数百のゲノム同等物と同じくらい小さな開始サンプルを用いて、正確な長い配列を生成する。本明細書に記載されたシステムと方法は、大規模構造変異体と再配置の検出を可能にすることもあり、フェージングされた変異体コール(variant call)は、約1kbp、約2kbp、約5kbp、約10kbp、20kbp、約50kbp、約100kbp、約200kbp、約500kbp、約1Mbp、約2Mbp、約5Mbp、約10Mbp、約20Mbp、約50Mbp、あるいは約100Mbp以上のヌクレオチドに及ぶ長い配列にわたって得られることがある。例えば、フェージングされた変異体コールは、約1Mbpあるいは約2Mbpに及ぶ長い配列にわたって得られることがある。
本明細書に記載される方法とシステムを使用して決定されたハプロタイプは、計算上のリソース、例えば、クラウドシステムなどのネットワークを介する計算上のリソースに割り当てられることがある。短い変異体コールは、必要に応じて、計算上のリソースに保存される関連情報を使用して、修正可能である。構造変異体は、短い変異体コールからの組み合わせた情報と、計算上のリソースに保存された情報とに基づいて検知可能である。セグメント重複、構造的な変異の傾向のある領域、非常に可変かつ医学的に関連するMHC領域、セントロメアおよびテロメアの領域、ならびに、限定されないが、反復領域、低い配列精度、高い変異体比率、ALU反復、セグメント重複、あるいは当該技術分野で知られている他の関連する問題のある部分を有する領域を含む他のヘテロクロマチン領域などのゲノムの問題のある部分は、精度を増加させるために再アセンブル可能である。
サンプルタイプは、ローカルに、あるいはクラウドなどのネットワークにつながれた計算上のリソースにおいて配列情報を割り当てられ得る。情報のソースが知られている場合、例えば、情報のソースが癌または正常組織からのものである場合、サンプルタイプの一部としてソースをサンプルに割り当てることができる。他のサンプルタイプの例としては、一般に、限定されないが、組織タイプ、サンプル採取方法、感染の存在、感染の種類、処理方法、サンプルのサイズなどが挙げられる。癌ゲノムとの比較における正常なゲノムなどの完全または部分的な比較ゲノム配列が利用可能である場合、サンプルデータ間と比較ゲノム配列との差を判定し、随意に出力することができる。
該方法は、所望の選択的なゲノム領域と、該選択的な領域と相互に作用することがあるゲノム領域の遺伝子情報の分析で使用される。本明細書で開示されるような増幅方法は、限定されないが、米国特許出願6,449,562号、6,287,766号、7,361,468号、7,414,117号、6,225,109号、および6,110,709号などの遺伝子解析のための当該技術分野で知られている装置、キット、および方法で使用することができる。場合によっては、本開示の増幅方法は、多形性の存在または欠如を判定するためにDNAハイブリダイゼーション研究用の標的核酸を増幅するために使用可能である。多形性(すなわち対立遺伝子)は疾患または遺伝病などの疾病に関連付けられ得る。他の場合には、多形性は、疾患あるいは疾病に対する感度に関連付けられ、例えば、多形性は、中毒、変性および加齢性の疾病、癌などに関連付けられ得る。他の場合には、多形性は、冠状動脈の健康の増大、あるいはHIVまたはマラリアなどの疾患に対する耐性、あるいは骨粗鬆症、アルツハイマー病、または認知症などの成人病に対する耐性といった有益な特色に関連付けられ得る。
本開示の組成物と方法を、診断、予後、治療、患者の層別化、薬剤開発、治療の選択、およびスクリーニング目的に使用することができる。本開示は、本開示の方法を使用して単一のバイオ分子サンプルから一度に多くの様々な標的分子を分析することができるという利点を備えている。これにより、例えば、複数の診断テストを1つのサンプル上で実行することが可能となる。
本開示の組成物と方法はゲノミクスで使用することができる。本明細書に記載された方法は、この用途に非常に望ましい答えを迅速に導き出すことができる。本明細書に記載された方法と組成物は、診断または予後のために、および健康と疾患の指標として使用され得るバイオマーカーを見つける過程で使用することができる。本明細書に記載された方法と組成物は、医薬品をスクリーニングするために、例えば、薬剤開発、処置の選択、処置の有効性の決定、および/または医薬開発の標的の識別のために使用することができる。タンパク質は身体中の最終的な遺伝子産物であるため、医薬品に関するスクリーニングアッセイでの遺伝子発現を試験する能力は非常に重要である。いくつかの実施形態において、本明細書に記載された方法と組成物はタンパク質と遺伝子発現の両方を同時に測定し、これは、実行されている特定のスクリーニングに関するほとんどの情報を提供する。
本開示の組成物と方法は遺伝子発現解析で使用することができる。本明細書に記載された方法は、ヌクレオチド配列を区別する。標的ヌクレオチド配列間の差は、例えば、単一の核酸塩基差、核酸欠失、核酸挿入、あるいは再配置であり得る。1つを超える塩基に関するこうした配列差も検知することができる。本開示のプロセスは感染症、遺伝子疾患、および癌を検知することができる。さらに、これは環境モニタリング、科学捜査および食品科学にも役立つ。核酸上で行うことができる遺伝子解析の例としては、例えば、SNP検出、STR検出、RNA発現解析、プロモーターメチル化、遺伝子発現、ウイルス検出、ウイルスのサブタイプ分類、および薬剤耐性を挙げることができる。
本方法は、病気の細胞型がサンプル中に存在するかどうか、その病気のステージ、患者の予後、特定の治療に応答する患者の能力、あるいは患者にとって最良の治療を判定するために、患者から得られた、または患者に由来するバイオ分子サンプルの分析にも適用可能である。本方法は特定の疾患用バイオマーカーを識別するためにも適用可能である。
いくつかの実施形態では、本明細書に開示された方法は疾病の診断で使用される。本明細書で使用されるように、「診断する」あるいは疾病の「診断」との用語は、疾病を予測または診断すること、疾病の素因を決定すること、疾病の処置をモニタリングすること、疾病の治療反応、または疾病の予後、疾病の進行、あるいは疾病の特定の処置に対する反応を診断することを含んでもよい。例えば、血液サンプルは、サンプル中の疾患あるいは悪性細胞種のマーカーの存在および/または量を決めるために本明細書に記載された方法のいずれかにしたがって分析可能である。
いくつかの実施形態では、本明細書に開示された方法と組成物は疾病の診断と予後に使用される。
多くの免疫性の、増殖性の、および悪性の疾患と障害は、本明細書に記載された方法にとりわけ影響を受けやすい。免疫性の疾患と障害はアレルギー性疾患と障害、免疫機能の障害と、自己免疫性の疾患と疾病を含んでいる。アレルギー性の疾患と障害としては、限定されないが、アレルギー性鼻炎、アレルギー性結膜炎、アレルギー性喘息、アトピー性湿疹、アトピー性皮膚炎、および食物アレルギーが挙げられる。免疫不全症としては、限定されないが、重症複合免疫不全(SCID)、好酸球増加症候群、慢性肉芽腫症、I型とII型の白血球粘着不全症、高IgE症候群、チェディアック・東症候群、好中球増加症、好中球減少症、無形成症、無ガンマグロブリン血症、高IgM症候群、ディジョージ症候群/口蓋心臓顔面症候群、および、インターフェロンガンマ-TH1経路障害が挙げられる。自己免疫性および免疫性の調節異常障害としては、限定されないが、関節リウマチ、糖尿病、全身性エリテマトーデス、グレーブス病、グレーブス眼症、クローン病、多発性硬化症、乾癬、全身性硬化症、甲状腺腫およびリンパ性甲状腺腫(橋本甲状腺炎、リンパ節様甲状腺腫)、円形脱毛症、自己免疫性心筋炎、硬化性苔癬、自己免疫性のブドウ膜炎、アジソン病、萎縮性胃炎、重症筋無力症、特発性血小板減少性紫斑病、溶血性貧血、原発性胆汁性肝硬変、ヴェーゲナー肉芽腫症、結節性多発性動脈炎、および炎症性腸疾患(アレルギー反応から感染性の微生物、あるいは環境抗原に至る有害な同種異系移植片拒絶と組織が挙げられる。
本開示の方法によって評価され得る増殖性の疾患と障害としては、限定されないが、新生児の血管腫症;二次性進行型多発性硬化症;慢性の進行性の骨髄変性疾患;神経線維腫症;神経節神経腫症;ケロイド形成;硬骨のパジェット病;(例えば乳房または子宮の)線維嚢胞症;サルコイドーシス;ペオニー(Peronies)とデュピュイトランの線維症、硬変、アテローム性動脈硬化症、および血管の再狭窄が挙げられる。
本開示の方法によって評価され得る悪性の疾患と障害は、血液系悪性腫瘍と固形腫瘍の両方を含んでいる。
こうした悪性腫瘍は、血液に生まれながらの細胞の変動を含んでいるので、血液系悪性腫瘍は、サンプルが血液サンプルである場合にとりわけ本開示の方法の影響を受けやすい。こうした悪性腫瘍は、非ホジキンリンパ腫、ホジキンリンパ腫、非B細胞リンパ腫細胞、および他のリンパ腫、急性あるいは慢性の白血病、赤血球増加、血小板血症、多発性骨髄腫、骨髄異形成障害、骨髄増殖性障害、骨髄線維症、異型の免疫のリンパ球増殖、および形質細胞障害を含む。
本開示の方法によって評価され得る形質細胞障害は、多発性骨髄腫、アミロイドーシス、およびワルデンシュトレームマクログロブリン血症を含んでいる。
固形腫瘍の例としては、限定されないが、結腸癌、乳癌、肺癌、前立腺癌、脳腫瘍、中枢神経系腫瘍、膀胱腫瘍、黒色腫、肝臓癌、骨肉腫および他の骨癌、精巣癌および卵巣癌、頭頸部腫瘍、および頸部新生物が挙げられる。
遺伝子疾患も本開示のプロセスによって検知することができる。これは、染色体異常と遺伝子異常、あるいは遺伝子疾患のための出生前または出生後スクリーニングによって実行可能である。検知できる遺伝子疾患の例は以下を含む:21ヒドロキシラーゼ欠陥、嚢胞性線維症、脆弱X症候群、ターナー症候群、デュシェンヌ型筋ジストロフィ、ダウン症候群あるいは他のトリソミー、心臓病、単一遺伝子疾患、HLAタイピング、フェニルケトン尿症、鎌状赤血球貧血、ティサックス病、サラセミア、クラインフェルター症候群、ハンチントン病、自己免疫疾患、リピドーシス、肥満欠損、血友病、先天性代謝異常症、および糖尿病。
本明細書に記載された方法は、サンプル中の細菌またはウイルスそれぞれのマーカーの存在および/または量を決定することにより、病原体感染、例えば、細胞内の細菌とウイルスによる感染を診断するために、使用可能である。
多種多様な感染症は、本開示のプロセスによって検知することができる。感染症は細菌、ウイルス、寄生虫、および真菌による感染病原体によって引き起こされる可能性がある。医薬品に対する様々な感染病原体の耐性も本開示を使用して判定することができる。
本開示によって検知することができる細菌の感染病原体は、Escherichia coli、Salmonella、Shigella、KlESBiella、Pseudomonas、Listeria monocytogenes、Mycobacterium tuberculosis、Mycobacterium aviumintracellulare、Yersinia、Francisella、Pasteurella、Brucella、Clostridia、Bordetella pertussis、Bacteroides、Staphylococcus aureus、Streptococcus pneumonia、B-Hemolytic strep.、Corynebacteria、Legionella、Mycoplasma、Ureaplasma、Chlamydia、Neisseria gonorrhea、Neisseria meningitides、Hemophilus influenza、Enterococcus faecalis、Proteus vulgaris、Proteus mirabilis、Helicobacter pylori、Treponema palladium、Borrelia burgdorferi、Borrelia recurrentis、Rickettsial pathogens、Nocardia、およびAcitnomycetesを含む。
本開示によって検知することができる真菌の感染病原体は、Cryptococcus neoformans、Blastomyces dermatitidis、Histoplasma capsulatum、Coccidioides immitis、Paracoccidioides brasiliensis、Candida albicans、Aspergillus fumigautus、Phycomycetes (Rhizopus)、Sporothrix schenckii、Chromomycosis、および Maduromycosisを含む。
本開示によって検知することができるウイルスの感染病原体は、ヒト免疫不全ウイルス、ヒトT細胞リンパ球向性ウイルス、肝炎ウイルス(例えば、B型肝炎ウイルスとC型肝炎ウイルス)、エプスタイン・バーウイルス、サイトメガロウィルス、ヒトパピローマウイルス、オルソミクソウイルス、パラミクソウイルス、アデノウイルス、コロナウイルス、ラブドウイルス、ポリオウイルス、トーガウイルス、ブニヤウイルス、アリーナウイルス、風疹ウイルス、およびレオウイルスを含む。
本開示によって検知することができる寄生虫性の薬剤は、Plasmodium falciparum、Plasmodium malaria、Plasmodium vivax、Plasmodium ovale、Onchoverva volvulus、Leishmania、Trypanosoma spp.,Schistosoma spp.,Entamoeba histolytica、Cryptosporidum、Giardia spp.,Trichimonas spp.,Balatidium coli、Wuchereria bancrofti、Toxoplasma spp.,Enterobius vermicularis、Ascaris luMbricoides、Trichuris trichiura、Dracunculus medinesis、trematodes、Diphyllobothrium latum、Taenia spp.,Pneumocystis carinii、およびNecator americanisを含む。
さらに、本開示は感染病原体による薬剤耐性の検出にも役立つ。例えば、バイコマイシン耐性Enterococcus faecium、メチシリン耐性Staphylococcus aureus、ペニシリン耐性Streptococcus pneumoniae、多剤耐性Mycobacterium tuberculosis、および耐AZT性のヒト免疫不全ウイルスはすべて、本開示と同一視することができる。
したがって、本開示の組成物と方法を用いて検出された標的分子は、患者のマーカー(癌マーカーなど)、あるいは細菌またはウイルスのマーカーなどの外来性の薬剤などを用いる感染のマーカーでありうる。
本開示の組成物と方法は、その存在量が生物学的な状態または疾患状態(例えば、疾患状態の結果として上方制御または下方制御される血液マーカー)を示す、標的分子を同定および/または定量化するために使用可能である。
いくつかの実施形態において、本開示の方法と組成物をサイトカイン発現に使用することができる。本明細書に記載された方法の低感受性は、例えば、ある疾病のバイオマーカーとしてのサイトカインの早期検出、癌などの疾患の診断あるいは予後、および亜臨床的な状態の同定に有用である。
標的ポリヌクレオチドが由来する様々なサンプルは、同じ個体からの複数のサンプル、異なる個体からのサンプル、あるいはこれらの組み合わせを含むことができる。いくつかの実施形態において、サンプルは1つの個体からの複数のポリヌクレオチドを含む。いくつかの実施形態において、サンプルは2つ以上の個体からの複数のポリヌクレオチドを含む。個体は、標的ポリヌクレオチドが由来し得るあらゆる生命体あるいはその一部であり、その非限定的な例としては、植物、動物、真菌、原生生物、モネラ、ウイルス、ミトコンドリア、および葉緑体が挙げられる。サンプルのポリヌクレオチドであって、例えば、細胞を含有する培養細胞株、生検、血液サンプル、あるいは流体サンプルを含む、それから由来する細胞サンプル、組織サンプル、あるいは臓器サンプルなどのサンプルのポリヌクレオチドは、被験体から単離可能である。被験体は、限定されないが、ウシ、ブタ、マウス、ラット、トリ、ネコ、イヌなどの動物を含む任意の動物であってもよく、通常はヒトなどの哺乳動物である。サンプルは化学合成などによって人為的に由来するものであってもよい。いくつかの実施形態では、サンプルはDNAを含む。いくつかの実施形態では、サンプルはゲノムDNAを含む。いくつかの実施形態において、サンプルは、ミトコンドリアDNA、葉緑体DNA、プラスミドDNA、バクテリア人工染色体、酵母人工染色体、オリゴヌクレオチドタグ、あるいはこれらの組み合わせを含む。いくつかの実施形態において、サンプルは、限定されないが、ポリメラーゼ連鎖反応(PCR)、逆転写、およびこれらの組み合わせを含む、プライマーとDNAポリメラーゼの任意の適切な組み合わせも使用するプライマー伸長反応によって生成されたDNAを含む。プライマー伸長反応のための鋳型がRNAである場合、逆転写の生成物は相補的DNA(cDNA)と呼ばれる。プライマー伸長反応に役立つプライマーは、1つ以上の標的に特異的な配列、ランダム配列、部分的なランダム配列、およびこれらの組み合わせを含み得る。プライマー伸長反応に適している反応条件は当該技術分野で知られている。一般に、サンプルのポリヌクレオチドは、サンプル中に存在する任意のポリヌクレオチドを含み、これは標的ポリヌクレオチドを含むこともあれば、含まないこともある。
いくつかの実施形態において、核酸鋳型分子(例えば、DNAまたはRNA)は、タンパク質、脂質、および非鋳型核酸などの様々な他の成分を含有する生体サンプルから単離される。核酸鋳型分子は、動物、植物、細菌、真菌、あるいは他の細胞の生命体から得られた任意の細胞材料から得ることができる。本開示で使用される生体サンプルはウイルス粒子または調製物を含む。核酸鋳型分子は、生命体から、あるいは生命体から得られた生体サンプルから、例えば、血液、尿、脳脊髄液、精液、唾液、痰、便通、および組織から直接得ることができる。いかなる組織または体液の検体も本開示で使用される核酸のソースとして使用されてもよい。核酸鋳型分子はさらに初代細胞培養物または細胞株などの培養細胞から単離可能である。鋳型核酸が得られる細胞または組織はウイルスあるいは他の細胞内の病原体に感染することがある。サンプルはさらに、生物検体、cDNAライブラリー、ウイルス、あるいはゲノムDNAから抽出された全RNAになりえる。サンプルはさらに、非細胞起原から単離されたDNA、例えば、冷凍庫からの増幅または単離されたDNA)であってもよい。
核酸の抽出と精製のための方法は当該技術分野で周知である。例えば、核酸は、フェノール、フェノール/クロロホルム/イソアミルアルコール、あるいはTRIzolおよびTriReagentを含む同様の製剤による有機的な抽出によって精製可能である。抽出技術の他の非限定的な例としては、以下が挙げられる:(1)有機的な抽出と、例えば、自動核酸抽出器(例えば、Applied Biosystems (Foster City, Calif.)から入手可能なModel 341 DNA Extractor)を使用して、または使用せず、フェノール/クロロホルム有機試薬(Ausubel et al.,1993)を使用するその後のエタノール沈澱、(2)定常期吸着法(米国特許出願5,234,809;Walsh et al.,1991);および、(3)食塩誘発性の核酸沈澱法(Miller et al.,(1988)、このような沈澱法は一般に「塩析」方法と呼ばれる)。核酸の分離および/または精製の別の例は、核酸が特異的または非特異的に結合し得る磁性粒子の使用と、その後の、磁石を使用し、かつビーズからの核酸を洗浄および溶出したビーズの分離を含む(例えば、米国特許出願5,705,628を参照)。いくつかの実施形態において、上記の単離方法の前に、サンプルから望ましくないタンパク質を除去しやすくする酵素消化工程、例えば、プロテイナーゼKあるいは他の類似のプロテアーゼを用いる消化が先行することがある。例えば、米国特許出願7,001,724を参照。望ましい場合、RNase阻害剤が溶解緩衝液に加えられてもよい。ある細胞またはサンプルタイプについて、タンパク質の変性/消化工程をプロトコルに加えることが望ましいこともある。精製方法はDNA、RNA、あるいはその両方を分離することを対象とすることもある。DNAとRNAが両方とも抽出手順の間または後に一緒に単離されると、一方または両方を他方とは別に精製するためにさらなる工程が採用されることもある。抽出された核酸の細画分も、例えば、サイズ、配列、あるいは他の物理的または化学的な特性ごとの精製によって、生成することができる。当初の核酸分離工程に加えて、核酸の精製は、過剰なまたは望ましくない試薬、反応物、あるいは生成物を取り除くためなどに、本開示の方法の任意の工程の後に行うことができる。
2003年10月9日に公開された米国特許出願公開第US2002/0190663A1に記載されるように、核酸鋳型分子を得ることができる。一般に、核酸は、Maniatis, et al., Molecular Cloning: A Laboratory Manual, Cold Spring Harbor, N.Y., pp. 280-281 (1982)に記載されるような様々な技術によって生体サンプルから抽出可能である。場合によっては、核酸を生体サンプルから最初に抽出し、その後、インビトロで架橋することができる。場合によっては、天然の結合タンパク質(例えばヒストン)を核酸からさらに取り除くことができる。
他の実施形態では、本開示は、例えば、組織、細胞培養物、体液、動物組織、植物、細菌、真菌、ウイルスなどから単離されたDNAを含む任意の高分子量二本鎖DNAに容易に適用可能である。
いくつかの実施形態において、複数の独立したサンプルの各々は、少なくとも約1ng、2ng、5ng、10ng、20ng、30ng、40ng、50ng、75ng、100ng、150ng、200ng、250ng、300ng、400ng、500ng、1μg、1.5μg、2μg、5μg、10μg、20μg、50μg、100μg、200μg、500μg、あるいは1000μg、あるいはそれ以上の核酸材料を独立して含むことができるいくつかの実施形態において、複数の独立したサンプルの各々は、約1ng、2ng、5ng、10ng、20ng、30ng、40ng、50ng、75ng、100ng、150ng、200ng、250ng、300ng、400ng、500ng、1μg、1.5μg、2μg、5μg、10μg、20μg、50μg、100μg、200μg、500μg、あるいは1000μg以上未満の核酸を独立して含むことができる。
いくつかの実施形態において、末端修復は、Epicentre Biotechnologies (Madison,WI)から入手可能なものなどの市販のキットを用いて、平滑末端5’リン酸化された核酸末端を生成するように行われる。
アダプターオリゴヌクレオチドは、標的ポリヌクレオチドに結合可能である配列であって、その少なくとも一部が知られている配列を有する任意のオリゴヌクレオチドを含む。アダプターオリゴヌクレオチドは、DNA、RNA、ヌクレオチドアナログ、非古典的なヌクレオチド、標識されたヌクレオチド、修飾されたヌクレオチド、あるいはこれらの組み合わせを含み得る。アダプターオリゴヌクレオチドは、一本鎖、二本鎖、あるいは部分二本鎖であり得る。一般に、部分二本鎖アダプターは1つ以上の一本鎖領域と1つ以上の二本鎖領域を含む。二本鎖アダプターは、互いにハイブリダイズされた2つの別のオリゴヌクレオチド(「オリゴヌクレオチド二本鎖」と呼ばれる)を含むことができ、ハイブリダイゼーションは、1つ以上の平滑末端、1つ以上の3’オーバーハング、1つ以上の5’オーバーハング、ミスマッチのおよび/または不対のヌクレオチドに由来する1つ以上のバルジ、あるいはこれらの任意の組み合わせを残すこともある。いくつかの実施形態において、一本鎖のアダプターは、互いにハイブリダイズすることができる2つ以上の配列を含む。2つのこうしたハイブリダイズすることができる配列が一本鎖のアダプターに含まれている場合、ハイブリダイゼーションはヘアピン構造(ヘアピンアダプター)をもたらす。アダプターの2つのハイブリダイズされた領域がハイブリダイズされていない領域によって互いに分けられる場合、「バブル」構造がもたらされる。バブル構造を含むアダプターは、内部ハイブリダイゼーションを含む単一のアダプターオリゴヌクレオチドからなることがあり得るか、あるいは互いにハイブリダイズされた2つ以上のアダプターオリゴヌクレオチドを含むことがある。アダプター中の2つのハイブリダイズすることができる配列間などの内部配列ハイブリダイゼーションは、一本鎖アダプターオリゴヌクレオチド中に二本鎖構造を生成することができる。様々な種類のアダプターは、様々な配列のヘアピンアダプターと二本鎖アダプターなど組み合わせて使用することができる。ヘアピンアダプター中のハイブリダイズすることができる配列は、オリゴヌクレオチドの1つあるいは両方の末端を含むこともあれば、含まないこともある。末端のいずれもハイブリダイズすることができる配列に含まれない場合、両末端は「自由」であるか、あるいは「オーバーハング」している。1つの末端だけがアダプター中の別の配列とハイブリダイズ可能であるとき、もう1つの末端は、3’オーバーハングあるいは5’オーバーハングなどのオーバーハングを形成する。5’-末端ヌクレオチドと3’-末端ヌクレオチドが相補的であり、かつ互いにハイブリダイズするように、5’-末端ヌクレオチドと3’-末端ヌクレオチドの両方がハイブリダイズすることができる配列に含まれている場合、末端は「平滑」と呼ばれる。様々なアダプターは、連続した反応で、あるいは同時に、ポリヌクレオチドを標的とするために結合可能である。例えば、第1と第2のアダプターを同じ反応に加えることができる。アダプターは、標的ポリヌクレオチドと組み合わせる前に操作可能である。例えば、末端のリン酸塩は加えるかことも、取り除くこともできる。
アダプターは、限定されないが、1つ以上の増幅プライマーアニーリング配列あるいはその補体、1つ以上の配列決定プライマーアニーリング配列あるいはその補体、1つ以上のバーコード配列、複数の異なるアダプターあるいは異なるアダプターの部分集合中で共有される1つ以上の共通配列、1つ以上の制限酵素認識部位、1つ以上の標的ポリヌクレオチドオーバーハングに相補的な1つ以上のオーバーハングまたは補体、1つ以上のプローブ結合部位(例えば、Illumina,Inc.によって開発されたような超並列配列決定のためのフローセルなどの配列決定プラットフォームとの結合などのため)、1つ以上のランダムまたはほぼランダムな配列(例えば、1つ以上の位置の2つ以上の異なるヌクレオチドのセットから任意に選択された1つ以上のヌクレオチドであって、様々なヌクレオチドの各々はランダム配列を含むアダプターのプール中で表された1つ以上の位置で選択される)、およびこれらの組み合わせを含む様々な配列要素の1つ以上を含むことができる。2つ以上の配列要素は互いに隣接していない(例えば、1つ以上のヌクレオチドによって分離されている)こともあれば、互いに隣接していることもあれば、部分的に重複していることもあれば、完全に重複していることもある。例えば、増幅プライマーアニーリング配列は配列決定プライマーアニーリング配列としても役立つことができる。配列要素は、3’末端にあるいは3’末端の近くに、あるいは5’末端に、あるいは5’末端の近くに、あるいはアダプターオリゴヌクレオチドの内部に位置することがあり得る。アダプターオリゴヌクレオチドがヘアピンなどの二次構造を形成することができる場合、配列要素は、二次構造の部分的に外部あるいは完全に外部に、二次構造の部分的に内部あるいは完全に内部に、あるいは二次構造に関与する配列の間に、位置することがある。例えば、アダプターオリゴヌクレオチドがヘアピン構造を含む場合、配列要素は、ハイブリダイズすることができる配列(「ループ」)間の配列を含む、ハイブリダイズすることができる配列(「基部」)の部分的にあるいは完全に内部または外部に位置することがあり得る。いくつかの実施形態において、様々なバーコード配列を有する複数の第1のアダプターオリゴヌクレオチド中の第1のアダプターオリゴヌクレオチドは、複数の第1のアダプターオリゴヌクレオチド中のすべての第1のアダプターオリゴヌクレオチドで共通の配列要素を含む。いくつかの実施形態において、第2のアダプターオリゴヌクレオチドはすべて、第1のアダプターオリゴヌクレオチドによって共有される共通の配列要素とは異なるすべての第2のアダプターオリゴヌクレオチド中の共通の配列要素を含む。配列要素の差は、異なるアダプターの少なくとも一部が例えば、配列長の差、1つ以上のヌクレオチドの欠失あるいは挿入、あるいは1つ以上のヌクレオチド位置でのヌクレオチド組成の変化(塩基変化または塩基修飾など)によって完全には整列しないように、任意なものであり得る。いくつかの実施形態において、アダプターオリゴヌクレオチドは、5’オーバーハング、3’オーバーハング、あるいは、1つ以上の標的ポリヌクレオチドに相補的なその両方を含む。相補的なオーバーハングは、限定されないが、1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、あるいはそれ以上のヌクレオチド長さを含む長さの1つ以上のヌクレオチドであり得る。例えば、相補的なオーバーハングは、約1、2、3、4、5、あるいは6つのヌクレオチドの長さであり得る。相補的なオーバーハングは固定された配列を含むことがある。相補的なオーバーハングは、1つ以上のヌクレオチドが1つ以上の位置で2つ以上の異なるヌクレオチドのセットからランダムに選択されるように、1つ以上のヌクレオチドのランダム配列を含むことがあり、異なるヌクレオチドの各々は、ランダム配列を含む相補的なオーバーハングを有するアダプターのプールで表わされた1つ以上の位置で選択される。いくつかの実施形態において、アダプターオーバーハングは制限エンドヌクレアーゼ消化によって生成された標的ポリヌクレオチドオーバーハングに対して相補的である。いくつかの実施形態において、アダプターオーバーハングはアデニンまたはチミンからなる。
アダプターオリゴヌクレオチドは、それらが構成される1つ以上の配列要素を適合するのに十分な最小で、どんな適切な長さも持つことができる。いくつかの実施形態において、アダプターはそうである、に関して、未満で、に関して、あるいは、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、90、100、200あるいは長さでより多くのヌクレオチドに関して以上に。いくつかの例において、アダプターは長さで約50のヌクレオチドに約10でありえる。いくつかの例において、アダプターは長さで約40のヌクレオチドに約20でありえる。
本明細書で使用されるように、用語「バーコード」は、バーコードが関連付けられているポリヌクレオチドのある特徴を同定することを可能にする既知の核酸配列を指す。いくつかの実施形態において、同定されるポリヌクレオチドの特徴はポリヌクレオチドが由来するサンプルである。いくつかの実施形態において、バーコードは、少なくとも3、4、5、6、7、8、9、10、11、12、13、14、15、あるいはそれ以上のヌクレオチド長さであり得る。例えば、バーコードは、少なくとも10、11、12、13、14、あるいは15のヌクレオチド長さであり得る。いくつかの実施形態において、バーコードは、10、9、8、7、6、5、あるいは4のヌクレオチド長さよりも短いことがある。例えば、バーコードは、10のヌクレオチド長さよりも短いことがあり得る。いくつかの実施形態において、いくつかのポリヌクレオチドに関連付けられたバーコードは、他のポリヌクレオチドに関連付けられたバーコードとは異なる長さである。一般に、バーコードは十分な長さであり、それらが関連付けられるバーコードに基づいてサンプルの同定を可能にするのに十分に異なる配列を含む。いくつかの実施形態において、バーコードと、バーコードが関連付けられるサンプルソースは、1、2、3、4、5、6、7、8、9、10、あるいはそれ以上のヌクレオチドの突然変異、挿入、あるいは欠失などのバーコード配列中の1つ以上のヌクレオチドの突然変異、挿入、あるいは欠失の後に、正確に同定可能である。いくつかの例において、1、2、あるいは3つのヌクレオチドを変異、挿入、および/または取り除くことができる。いくつかの実施形態において、複数のバーコード中の各バーコードは、少なくとも2、3、4、5、6、7、8、9、10、あるいはそれ以上の位置などの少なくとも2つのヌクレオチド位置で、複数のバーコード中で1つのバーコードおきと異なる。いくつかの例において、各バーコードは、少なくとも2、3、4、あるいは5位置において1つおきのバーコードと異なることがある。いくつかの実施形態において、第1の部位と第2の部位の両方は、複数のバーコード配列の少なくとも1つを含む。いくつかの実施形態において、第2の部位のためのバーコードは、第1のアダプターオリゴヌクレオチドのためのバーコードから独立して選択される。いくつかの実施形態において、バーコードを有する第1の部位と第2の部位は対になっており、複数ペアの配列は同じまたは異なる1つ以上のバーコードを含む。いくつかの実施形態において、本開示の方法は、標的ポリヌクレオチドが結合しているバーコード配列に基づいて標的ポリヌクレオチドが由来するサンプルを同定する工程をさらに含む。一般に、バーコードは核酸配列を含むことがあり、核酸配列は、標的ポリヌクレオチドに結合すると、標的ポリヌクレオチドが由来するサンプルの識別子として役立つ。
真核生物では、ゲノムDNAはクロマチンに詰められ、核内の染色体として存在する。クロマチンの基本構造単位はヌクレオソームであり、これは、ヒストン八量体の周りに巻かれたDNAの146の塩基対(bp)からなる。ヒストン八量体は、コアヒストンH2A-H2B二量体とH3-H4二量体に2つのコピーの各々からなる。ヌクレオソームは、「数珠玉構造」と一般に呼ばれるものの中でDNAに沿って規則的に間隔をおいて配されている。
コアヒストンとDNAのヌクレオソームへのアセンブリは、シャペロンタンパク質と関連するアセンブリ因子によって媒介される。これらの因子のほぼすべてがコアヒストン結合タンパク質である。ヌクレオソームアセンブリタンパク質-1(NAP-1)などのヒストンシャペロンの一部は、ヒストンH3とH4への結合を優先することを示す。新しく合成されたヒストンがアセチル化され、その後、クロマチンへのアセンブリの後に脱アセチルされることが観察されている。したがって、ヒストンアセチル化あるいは脱アセチルを媒介する因子は、クロマチンアセンブリ工程において重要な役割を果たす。
一般に、2つのインビトロの方法がクロマチンの再構成またはアセンブルのために開発されてきた。1つの方法はATPとは無関係であるが、第2の方法はATP依存性である。クロマチンを再構成するためのATPとは無関係の方法は、DNAおよびコアヒストン、ならびに、ヒストンシャペロンとして作用するためにNAP-1のようなタンパク質あるいは塩のいずれかを含んでいる。この方法は、細胞中の天然のコアヌクレオソーム粒子を正確には模倣しないDNA上のヒストンのランダム配列をもたらす。これらの粒子はしばしばモノヌクレオソームと呼ばれる。なぜなら、これらは規則的に順序付けされた、延長されたヌクレオソームアレイではなく、使用されるDNA配列は通常250bpほど長くないからである(Kundu, T. K. et al., Mol. Cell 6: 551-561, 2000)。長い一本のDNA配列上に順序付けされたヌクレオソームの延長アレイを生成するために、ATP依存性のプロセスを介してクロマチンをアセンブルしなければならない。
天然のクロマチンで見られるものに類似する周期的なヌクレオソームアレイのATP依存性のアセンブリは、DNA配列、コアヒストン粒子、シャペロンタンパク質、およびATPを利用するクロマチンアセンブリ因子を必要とする。ACF(ATPを利用するクロマチンアセンブリとリモデリング因子)あるいはRSF(リモデリングおよびスペーシング因子)は、後半に研究されている2つのアセンブリ因子であり、これらを用いて、インビトロのクロマチンへのヌクレオソームの順序付けされたアレイを生成する(Fyodorov, D.V., and Kadonaga, J.T. Method Enzymol. 371: 499-515, 2003; Kundu, T. K. et al. Mol. Cell 6: 551-561, 2000)。
特定の実施形態では、本開示の方法は、限定されないが、例えば、血漿、血清、および/または尿から単離された遊離DNA;細胞および/または組織からのアポトーシス性DNA;(例えば、DNase Iおよび/または制限エンドヌクレアーゼによって)インビトロで酵素的に断片化されたDNA;および/または機械的な力(ヒドロ剪断、超音波処理、噴霧化など)によって断片化されたDNAを含む、断片化された二本鎖DNAの任意のタイプに容易に適用可能である。
解析に適切な断片を生成するために、生体サンプルから得られた核酸を断片化することができる。鋳型核酸は、様々な機械的、化学的、および/または酵素的な方法を用いて所望の長さに断片化または切断されてもよい。DNAは、超音波処理、例えば、Covaris方法、DNaseへの短時間の暴露によって、あるいは1つ以上の制限酵素の混合物、あるいはトランスポゼースまたはニッキング酵素を用いて、ランダムに切断されてもよい。RNAはRNaseへの短時間の暴露、熱とマグネシウム、あるいは剪断によって断片化されてもよい。RNAはcDNAに変換されてもよい。切断が使用される場合、RNAは、断片化の前または後に、cDNAに変換されてもよい。いくつかの実施形態において、生体サンプルからの核酸は超音波処理によって断片化される。他の実施形態では、核酸はヒロド剪断機器によって断片化される。一般に、個々の核酸鋳型分子は約2kbの塩基から約40kbまでであり得る。様々な実施形態では、核酸は約6kb-10kb断片であり得る。核酸分子は一本鎖、二本鎖、あるいは一本鎖領域を有する二本鎖(例えば、基部とループ構造)であってもよい。
いくつかの実施形態において、架橋されたDNA分子は、サイズ選択工程にさらされることがある。核酸のサイズ選択は、一定のサイズよりも下または上の架橋されたDNA分子に対して行われてもよい。サイズ選択は、例えば、フリークエントカッターまたはレアカッター制限酵素を選択することにより、架橋の頻度および/または断片化方法によってさらに影響を受けることがある。いくつかの実施形態において、組成物は、約1kb~5Mb、約5kb~5Mb、約5kB~2Mb、約10kb~2Mb、約10kb~1Mb、約20kb~1Mb、約20kb~500kb、約50kb~500kb、約50kb~200kb、約60kb~200kb、約60kb~150kb、約80kb~150kb、約80kb~120kb、あるいは約100kb~120kb、あるいはこれらの値のいずれかによって境界を示される任意の範囲(例えば、約150kb~1Mb)の範囲中のDNA分子を架橋することを含む調製方法によって調製されてもよい。
幾つかの実施形態において、サンプルのポリヌクレオチドは、1以上の特定の大きさの範囲の断片化DNA分子の集団へと断片化される。幾つかの実施形態において、断片は、少なくとも約1、約2、約5、約10、約20、約50、約100、約200、約500、約1000、約2000、約5000、約10,000、約20,000、約50,000、約100,000、約200,000、約500,000、約1,000,000、約2,000,000、約5,000,000、約10,000,000、又はそれ以上の出発DNAのゲノム等価物から生成され得る。断片化は、化学的、酵素的、及び機械的な断片化を含む、当該技術分野で既知の方法により遂行され得る。幾つかの実施形態において、断片は、平均の長さが約10~約10,000、約20,000、約30,000、約40,000、約50,000、約60,000、約70,000、約80,000、約90,000、約100,000、約150,000、約200,000、約300,000、約400,000、約500,000、約600,000、約700,000、約800,000、約900,000、約1,000,000、約2,000,000、約5,000,000、約10,000,000、又はそれ以上であるヌクレオチドを有する。幾つかの実施形態において、断片は、約1kb~約10mbの平均長さを有している。幾つかの実施形態において、断片は、約1kb~5Mb、約5kb~5Mb、約5kB~2Mb、約10kb~2Mb、約10kb~1Mb、約20kb~1Mb、約20kb~500kb、約50kb~500kb、約50kb~200kb、約60kb~200kb、約60kb~150kb、約80kb~150kb、約80kb~120kb、又は約100kb~120kb、或いはこれらの値の何れかにより境界を付けた任意の範囲(例えば約60~120kb)の平均長さを有している。幾つかの実施形態において、断片は、約10Mb未満、約5Mb未満、約1Mb未満、約500kb未満、約200kb未満、約100kb未満、又は約50kb未満の平均長さを有している。他の実施形態において、断片は、約5kbより長い、約10kbより長い、約50kbより長い、約100kbより長い、約200kbより長い、約500kbより長い、約1Mbより長い、約5Mbより長い、又は約10Mbより長い平均長さを有している。幾つかの実施形態において、破片化は、サンプルのDNA分子を音響超音波処理にさらすことを機械的に含んで、遂行される。幾つかの実施形態において、断片化は、二本鎖の核酸の破壊を生成するために、1以上の酵素に適切な条件下で1以上の酵素によりサンプルDNA分子を処理する工程を含む。DNA断片の生成に有用な酵素の例は、配列に特異的及び配列に特異的でないヌクレアーゼを含んでいる。ヌクレアーゼの限定されない例は、DNase I、フラグメンターゼ、制限エンドヌクレアーゼ、それらの変異体、及びそれらの組み合わせを含む。例えば、DNase Ideno消化は、Mg++が無い状態及びMn++がある状態で、DNA中のランダムな二本鎖の破壊を誘導することができる。幾つかの実施形態において、断片化は、1以上の制限エンドヌクレアーゼによりサンプルDNA分子を処理する工程を含む。断片化は、5’オーバーハング、3’オーバーハング、平滑末端、又はそれらの組み合わせを持つ断片を産生することができる。幾つかの実施形態において、断片化が1以上の制限エンドヌクレアーゼの使用を含むときなどのように、サンプルDNA分子の開裂は、オーバーハングに予測可能な配列を持たせる。幾つかの実施形態において、前記方法は、アガロースゲルからのカラム精製又は単離などの標準の方法を介して、断片の大きさを選択する工程を含む。
幾つかの実施形態において、断片化DNAの5’及び/又は3’のエンドヌクレオチド配列は、ライゲーション前に修飾されない。例えば、制限エンドヌクレアーゼによる断片化は、予測可能なオーバーハングを残すために使用され、その後、DNA断片上で予測可能なオーバーハングに相補的なオーバーハングを含む核酸末端のライゲーションを行う。別の例において、予測可能な平滑末端を残す酵素による開裂を行い、その後、平滑末端を含む、アダプター、オリゴヌクレオチド、又はポリヌクレオチドなどの核酸への、平滑末端化されたDNA断片のライゲーションが行われ得る。幾つかの実施形態において、断片化DNA分子は、アダプターに結合される前に平滑末端を持つDNA断片を産生するために、平滑末端が磨かれる(又は「末端が修復される」)。平滑末端を磨く工程は、例えばT4ポリメラーゼについて、3’~5’のエキソヌクレアーゼ活性及び5’~3’のポリメラーゼ活性を有するDNAポリメラーゼなどの適切な酵素でのインキュベーションにより達成され得る。幾つかの実施形態において、末端の修復は、オーバーハングを生成するために、1以上のアデニン、1以上のチミン、1以上のグアニン、又は1以上のシトシンなどの1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、又はそれ以上のヌクレオチドの追加の後に行われ得る。例えば、末端の修復(end pair)は、1、2、3、4、5、又は6ヌクレオチドの追加の後に行われ得る。オーバーハングを持つDNA断片は、ライゲーション反応などにおいて、相補的なオーバーハングを持つオリゴヌクレオチド、アダプターオリゴヌクレオチド、又はポリヌクレオチドなどの1以上の核酸に結合され得る。例えば、単一のアデニンは、鋳型の独立したポリメラーゼを使用し、その後、3’末端で各々がチミンを有している1以上のアダプターへのライゲーションにより、末端を修復したDNA断片の3’末端に加えられ得る。幾つかの実施形態において、オリゴヌクレオチド又はポリヌクレオチドなどの核酸は、1以上のヌクレオチドでの3’末端の伸長、その後の5’リン酸化により修飾された平滑末端の二本鎖DNA分子に結合され得る。場合によっては、3’末端の伸長は、マグネシウムを含有する適切な緩衝液中の1以上のdNTPの存在下で、Klenowポリメラーゼ又は本明細書で提供される適切なポリメラーゼの何れかなどのポリメラーゼにより、或いは、末端のデオキシヌクレオチドトランスフェラーゼの使用により、実行され得る。幾つかの実施形態において、平滑末端を持つ標的ポリヌクレオチドは、平滑末端を含む1以上のアダプターに結合される。DNA断片の分子の5’末端のリン酸化は、例えば、ATP及びマグネシウムを含有する適切な緩衝液においてT4ポリヌクレオチドキナーゼにより実行され得る。断片化DNA分子は随意に、例えばホスファターゼなどの当該技術で既知の酵素の使用により、5’末端又は3’末端を脱リン酸化するために処理され得る。
本明細書で使用されるような用語「結合すること(connecting)」、「結合すること(joining)」、及び「ライゲーション」は、アダプターオリゴヌクレオチド及び標的ポリヌクレオチドなどの2つのポリヌクレオチドに関して、隣接するバックボーンを持つ単一のより大きなポリヌクレオチドを生成するための、2つの別個のDNAセグメントの共有結合を指す。2つのDNAセグメントを結合する方法は、当該技術で知られており、限定されないが酵素的及び非酵素的(例えば化学的)な方法を含む。非酵素的であるライゲーション反応の例は、引用により本明細書に組み込まれる、米国特許第5,780,613号と第5,476,930号に記載される非酵素的ライゲーション技術を含む。幾つかの実施形態において、アダプターオリゴヌクレオチドは、リガーゼ、例えばDNAリガーゼ又はRNAリガーゼにより、標的ポリヌクレオチドに結合される。各々が特徴化された反応条件を持つ複数のリガーゼは、当該技術で知られており、限定されないが、tRNAリガーゼ、Taq DNAリガーゼ、好熱菌DNAリガーゼ、大腸菌DNAリガーゼ、Tth DNAリガーゼ、Thermus scotoductus DNAリガーゼ(IとII)、熱安定リガーゼ、Ampligase熱安定DNAリガーゼ、VanC型リガーゼ、9°N DNAリガーゼ、Tsp DNAリガーゼ、及びバイオプロスペクティングにより発見された新しいリガーゼを含む、NAD+依存性リガーゼ;T4 RNAリガーゼ、T4 DNAリガーゼ、T3 DNAリガーゼ、T7 DNAリガーゼ、Pfu DNAリガーゼ、DNAリガーゼ1、DNAリガーゼIII、DNAリガーゼIV、及びバイオプロスペクティングにより発見された新しいリガーゼを含む、ATP依存性リガーゼ;並びに、それらの野生型、突然変異体アイソフォーム、及び遺伝的に設計された変異体を含む。
ライゲーションは、相補的なオーバーハングなどのハイブリダイズ可能な配列を持つDNAセグメント間で行われ得る。ライゲーションは2つの平滑末端間でも行われ得る。通常、5’リン酸塩がライゲーション反応に利用される。5’リン酸塩は、標的ポリヌクレオチド、アダプターオリゴヌクレオチド、又はその両方により提供され得る。5’リン酸塩は、必要に応じて、結合されるDNAセグメントに加えられ、又はそこから取り除かれ得る。5’リン酸塩の追加又は除去の方法は当該技術で知られており、限定されないが酵素的及び化学的なプロセスを含んでいる。5’リン酸塩の追加及び/又は除去に役立つ酵素は、キナーゼ、ホスファターゼ、及びポリメラーゼを含んでいる。幾つかの実施形態において、ライゲーション反応において結合された2つの末端(例えば、アダプター末端及び標的ポリヌクレオチド末端)は共に、2つの共有連鎖が2つの末端を結合する際に行われるように5’リン酸塩を提供する。幾つかの実施形態において、ライゲーション反応において結合された2つの末端(例えば、アダプター末端及び標的ポリヌクレオチド末端)のうち1つだけが、1つの共有連鎖だけが2つの末端を結合する際に作られるように5’リン酸塩を提供する。
幾つかの実施形態において、標的ポリヌクレオチドの1つ又は両方の末端にある1つだけの鎖が、アダプターオリゴヌクレオチドに結合される。幾つかの実施形態において、標的ポリヌクレオチドの1つ又は両方の末端にある鎖の両方が、アダプターオリゴヌクレオチドに結合される。幾つかの実施形態において、3’リン酸塩はライゲーション前に取り除かれる。幾つかの実施形態において、アダプターオリゴヌクレオチドは、標的ポリヌクレオチドの両末端に加えられ、ここで、各末端にある1つ又は両方の鎖は、1以上のアダプターオリゴヌクレオチドに結合される。両末端にある両方の鎖がアダプターオリゴヌクレオチドに結合されると、結合は、3’末端がアダプターオリゴヌクレオチド由来の1以上のヌクレオチドを含むこともあれば含まない場合もある、対応する3’末端の伸長のための鋳型として機能し得る5’オーバーハングを残す開裂反応の後に行われ得る。幾つかの実施形態において、標的ポリヌクレオチドは、1つの末端上の第1のアダプターオリゴヌクレオチド、及び他の末端の第2のアダプターオリゴヌクレオチドに結合される。幾つかの実施形態において、標的ポリヌクレオチドの2つの末端は、単一のアダプターオリゴヌクレオチドの対向端部に結合される。幾つかの実施形態において、標的ポリヌクレオチド、及びそれが結合されるアダプターオリゴヌクレオチドは、平滑末端を含む。幾つかの実施形態において、別個のライゲーション反応は、各サンプルのために少なくとも1つのバーコード配列を含む異なる第1のアダプターオリゴヌクレオチドを使用して各サンプルのために実行され得、その結果、バーコード配列は1より多くのサンプルの標的ポリヌクレオチドに結合されない。DNAセグメント、又はそれにアダプターオリゴヌクレオチドが結合された標的ポリヌクレオチドは、結合されたアダプターにより「タグ付けされた」と考慮される。
場合によっては、ライゲーション反応は、約0.1ng/μL、約0.2ng/μL、約0.3ng/μL、約0.4ng/μL、約0.5ng/μL、約0.6ng/μL、約0.7ng/μL、約0.8ng/μL、約0.9ng/μL、約1.0ng/μL、約1.2ng/μL、約1.4ng/μL、約1.6ng/μL、約1.8ng/μL、約2.0ng/μL、約2.5ng/μL、約3.0ng/μL、約3.5ng/μL、約4.0ng/μL、約4.5ng/μL、約5.0ng/μL、約6.0ng/μL、約7.0ng/μL、約8.0ng/μL、約9.0ng/μL、約10ng/μL、約15ng/μL、約20ng/μL、約30ng/μL、約40ng/μL、約50ng/μL、約60ng/μL、約70ng/μL、約80ng/μL、約90ng/μL、約100ng/μL、約150ng/μL、約200ng/μL、約300ng/μL、約400ng/μL、約500ng/μL、約800ng/μL、約600ng/μL、又は約1000ng/μLのDNAセグメント又は標的のポリヌクレオチドの濃度で実行され得る。例えば、ライゲーションは、約100ng/μL、約150ng/μL、約200ng/μL、約300ng/μL、約400ng/μL、又は約500ng/μLのDNAセグメント又は標的ポリヌクレオチドの濃度で実行され得る。
場合によっては、ライゲーション反応は、約0.1~1000ng/μL、約1~1000ng/μL、約1~800ng/μL、約10~800ng/μL、約10~600ng/μL、約100~600ng/μL、又は約100~500ng/μLのDNAセグメント又は標的ポリヌクレオチドの濃度で実行され得る。
場合によっては、ライゲーション反応は、約5分、約10分、約20分、約30分、約40分、約50分、約60分、約90分、約2時間、約3時間、約4時間、約5時間、約6時間、約8時間、約10時間、約12時間、約18時間、約24時間、約36時間、約48時間、又は約96時間よりも長い間、実行され得る。他の場合、ライゲーション反応は、約5分、約10分、約20分、約30分、40分、約50分、約60分、約90分、約2時間、約3時間、約4時間、約5時間、約6時間、約8時間、約10時間、約12時間、約18時間、約24時間、約36時間、約48時間、又は約96時間未満にわたり実行され得る。例えば、ライゲーション反応は約30分~約90分の間、実行され得る。幾つかの実施形態において、標的ポリヌクレオチドへのアダプターの結合は、アダプター由来のヌクレオチド配列を含む3’オーバーハングを持つ、結合産物のポリヌクレオチドを産生する。
幾つかの実施形態において、標的ポリヌクレオチドに少なくとも1つのアダプターオリゴヌクレオチドを結合した後、1つ以上の標的ポリヌクレオチドの3’末端は、鋳型として1つ以上の結合されたアダプターオリゴヌクレオチドを使用して伸長される。例えば、標的ポリヌクレオチドの5’末端のみに結合される、2つのハイブリダイズされたオリゴヌクレオチドを含むアダプターは、鋳型としてアダプターの結合された鎖を使用して、標的の結合していない3’末端の伸長を可能にし、それと同時に又はその後に、結合していない鎖の変位を可能にする。2つのハイブリダイズされたオリゴヌクレオチドを含むアダプターの両方の鎖は、標的ポリヌクレオチドに結合され得、その結果、結合された産物は5’オーバーハングを持ち、相補的な3’末端は鋳型として5’オーバーハングを使用することで伸長され得る。更なる例として、ヘアピンアダプターオリゴヌクレオチドは、標的ポリヌクレオチドの5’末端に結合され得る。幾つかの実施形態において、伸長される標的ポリヌクレオチドの3’末端は、アダプターオリゴヌクレオチドから1つ以上のヌクレオチドを含む。アダプターが両末端上で結合される標的ポリヌクレオチドについて、伸長は、5’オーバーハングを持つ二本鎖標的ポリヌクレオチドの3’末端の両方に対し行われ得る。この3’末端の伸長、又は「充填(fill-in)」反応は、鋳型へハイブリダイズされるアダプターオリゴヌクレオチドの鋳型に、相補配列又は「補体」を生成し、それにより、二本鎖配列領域を生成するために5’オーバーハングを充填する。二本鎖標的ポリヌクレオチドの両端が相補鎖の3’末端の伸長により充填される5’オーバーハングを持つ場合、生成物は完全に二本鎖である。伸長は、DNAポリメラーゼなどの当該技術分野で既知の任意の適切なポリメラーゼにより行なわれ、それらの多くは市販で入手可能である。DNAポリメラーゼは、DNA依存性DNAポリメラーゼ活性、RNA依存性DNAポリメラーゼ活性、又はDNA依存性且つRNA依存性のDNAポリメラーゼ活性を含み得る。DNAポリメラーゼは熱安定性又は非熱安定性であり得る。DNAポリメラーゼの例は、限定されないが、Taqポリメラーゼ、Tthポリメラーゼ、Tliポリメラーゼ、Pfuポリメラーゼ、Pfutuboポリメラーゼ、Pyrobestポリメラーゼ、Pwoポリメラーゼ、KODポリメラーゼ、Bstポリメラーゼ、Sacポリメラーゼ、Ssoポリメラーゼ、Pocポリメラーゼ、Pabポリメラーゼ、Mthポリメラーゼ、Phoポリメラーゼ、ES4ポリメラーゼ、VENTポリメラーゼ、DEEPVENTポリメラーゼ、EX-Taqポリメラーゼ、LA-Taqポリメラーゼ、Expandポリメラーゼ、Platinum Taqポリメラーゼ、Hi-Fiポリメラーゼ、Tbrポリメラーゼ、Tflポリメラーゼ、Truポリメラーゼ、Tacポリメラーゼ、Tneポリメラーゼ、Tmaポリメラーゼ、Tihポリメラーゼ、Tfiポリメラーゼ、Klenow断片、及びそれらの変異体、修飾した産物、及び誘導体を含み、3’末端の伸長は、独立したサンプルから標的ポリヌクレオチドをプールする前又は後に実行され得る。
特定の実施形態において、本開示は、標的核酸の富化及び標的核酸の解析のための方法を提供する。場合によっては、富化の方法は、溶液ベースのフォーマットである。場合によっては、標的核酸は標識剤で標識され得る。他の場合、標的核酸は、標識剤で標識される1つ以上の会合分子に架橋され得る。標識剤の例は、限定されないが、ビオチン、ポリヒスチジン標識、及び化学標識(例えば、クリックケミストリー方法に使用されるアルキン及びアジドの誘導体)を含む。更に、標識された標的核酸が捕捉され、それにより捕捉剤の使用によって富化され得る。捕捉剤は、ストレプトアビジン及び/又はアビジン、抗体、化学部分(例えばアルキン、アジド)、及び当該技術分野で既知のアフィニティー精製に使用される任意の生物学的、化学的、物理的、又は酵素的な薬剤であり得る。
場合によっては、固定された又は固定されない核酸プローブが、標的核酸を捕らえるために使用され得る。例えば、標的核酸は、固体支持体上で、又は溶液中でのプローブへのハイブリダイゼーションにより、サンプルから富化され得る。幾つかの例において、サンプルはゲノムサンプルであり得る。幾つかの例において、プローブはアンプリコンであり得る。アンプリコンは予め定められた配列を含み得る。更に、ハイブリダイズされた標的核酸は、プローブから洗浄及び/又は溶出され得る。標的核酸はDNA、RNA、cDNA、又はmRNAの分子であり得る。
場合によっては、富化方法は、標的核酸を含むサンプルをプローブに接触させる工程、及び標的核酸を固体支持体に結合させる工程を含み得る。場合によっては、サンプルは、標的核酸を得るための化学的、物理的、又は酵素的な方法を使用して断片化され得る。場合によっては、プローブは、標的核酸へと特異的にハイブリダイズされ得る。場合によっては、標的核酸は、平均の大きさが約50~5000、約50~2000、約100~2000、約100~1000、約200~1000、約200~800、約300~800、約300~600、又は約400~600のヌクレオチド残基を有し得る。標的核酸は更に、サンプル中の結合されていない核酸から分離され得る。固体支持体は、富化された標的核酸を得るために洗浄及び/又は溶出され得る。幾つかの例において、富化工程は約1、2、3、4、5、6、7、8、9、又は10回繰り返され得る。例えば、富化工程は約1、2、又は3回繰り返され得る。
場合によっては、富化方法は、プローブ由来のアンプリコンを提供する工程を含み、ここで、増幅のためのプローブは固体支持体に結合されている。固体支持体は、サンプルから特定の標的核酸を捕捉するために支持体に固定された核酸プローブを含み得る。プローブ由来のアンプリコンは、標的核酸にハイブリダイズされ得る。プローブアンプリコンへのハイブリダイゼーションの後、サンプル中の標的核酸は、捕捉されたプローブからハイブリダイズされた標的核酸を捕捉し(例えばビオチンや抗体などとしての捕捉剤を介して)、且つ洗浄及び/又は溶出することにより、富化され得る(図4)。標的核酸配列は更に、例えば富化されたPCR産物の増幅されたプールを産生するためのPCR方法を使用して、増幅され得る。
場合によっては、固体支持体は、マイクロアレイ、スライド、チップ、マイクロウェル、カラム、チューブ、粒子、又はビードであり得る。幾つかの例において、固体支持体は、ストレプトアビジン及び/又はアビジンで覆われ得る。他の例において、固体支持体は抗体で覆われ得る。更に、固体支持体は、ガラス、金属、セラミック、又は高分子材料を含み得る。幾つかの実施形態において、固体支持体は核酸マイクロアレイ(例えばDNAマイクロアレイ)であり得る。他の実施形態において、固体支持体は常磁性ビーズであり得る。
場合によっては、富化方法は、第2の制限酵素での消化、セルフライゲーション(例えば自己環状化(self-circularization))、及び元々の制限酵素での再消化を含み得る。特定の例において、ライゲーション産物のみが直線化され、アダプターライゲーション及び配列決定に利用可能である。他の場合、ライゲーション結合配列自体は、結合配列に相補的な(complimentary)ベイトプローブ(bait-probe)を使用したハイブリダイゼーションベースの富化に使用され得る。
特定の実施形態において、本開示は、富化されたDNAを増幅する方法を提供する。場合によっては、富化されたDNAはリード対である。リード対は、本開示の方法により得ることができる。
幾つかの実施形態において、1以上の増幅及び/又は複製の工程が、配列決定されるべきライブラリーの調製のために使用される。当該技術分野で既知の任意の増幅方法が使用されてもよい。使用され得る増幅技術の例は、限定されないが、定量PCR、定量蛍光PCR(QF-PCR)、多重蛍光PCR(MF-PCR)、リアルタイムPCR(RTPCR)、単細胞PCR、制限断片長多型PCR(PCR-RFLP)、PCK-RFLPIRT-PCR-IRFLP、ホットスタートPCR、ネステッドPCR、インサイツポロニーPCR、インサイツローリングサークル増幅(RCA)、架橋PCR、ライゲーションで媒介されたPCR、Qbレプリカーゼ増幅、逆PCR、ピコタイターPCR、及びエマルジョンPCRを含む。他の適切な増幅方法は、リガーゼ連鎖反応(LCR)、転写増幅、自家持続配列複製法、標的ポリヌクレオチド配列の選択的な増幅、コンセンサス配列プライムポリメラーゼ連鎖反応(CP-PCR)、任意プライムポリメラーゼ連鎖反応(AP-PCR)、縮重オリゴヌクレオチドプライムPCR(DOP-PCR)、及び核酸塩基配列増幅(NABSA)を含む。本明細書で使用され得る他の増幅方法は、米国特許第5,242,794号;第5,494,810号;第4,988,617号;及び第6,582,938号に記載されるものを含む。
特定の実施形態において、PCRは、DNA分子が個々の区分へ分配された後でDNA分子を増幅するために使用される。場合によっては、増幅アダプター内の1以上の特異的なプライミング配列が、PCR増幅のために利用される。増幅アダプターは、個々の区分への分配の前又は後に、断片化DNA分子に連結され得る。両末端上で適切なプライミング配列を持つ増幅アダプターを含むポリヌクレオチドは、指数関数的に増幅されたPCRであり得る。適切なプライミング配列を1つしかもたないポリヌクレオチドは、例えば、プライミング配列を含む増幅アダプターの不完全なライゲーション効果が原因で、直線的な増幅を受けるだけの場合もある。更に、適切なプライミング配列を含むアダプターが連結されない場合、ポリヌクレオチドは、増幅、例えばPCR増幅から一斉に取り除かれ得る。幾つかの実施形態において、PCRサイクルの数は10-30の間で変動するが、9、8、7、6、5、4、3、2、又はそれ以下にまで低くなるか、或いは40、45、50、55、60、又はそれ以上にまで高くなり得る。その結果、適切なプライミング配列を持つ増幅アダプターを運ぶ指数関数的に増幅可能な断片は、PCR増幅の後、直線的に増幅可能又は増幅可能でない断片と比較して、はるかに高い(1000倍以上)濃度で存在し得る。全体のゲノム増幅技術(無作為化されたプライマーでの増幅、又はphi29ポリメラーゼを使用する複数の変位増幅(Multiple Displacement Amplification)など)と比較しての、PCRの利点は、限定されないが、より均一な相対配列の適用範囲(各断片が1つのサイクル当たり最大1回コピーされ得るため、及び増幅が熱サイクルプログラムにより制御されるため)、例えばMDAよりも実質的に低い速度のキメラ分子の形成(Lasken et al., 2007, BMC Biotechnology)(キメラ分子が、より速い速度のミスアセンブリ又は非常に不明瞭且つ断片化されたアセンブリを結果としてもたらす、アセンブリグラフにおいて非生物学的配列を提示することにより正確な配列アセンブリに関する著しい問題を提起するため)、特異的な配列を持つ特異的なプライミング部位の使用に対してMDAにおいて共通して使用される無作為化されたプライマーの結合から結果として生じ得る減少した配列に特異的なバイアス、PCRサイクルの数の選択により制御され得る最終の増幅されたDNA産物の量におけるより高い再現性、及び、当該技術分野で既知の共通の全体のゲノム増幅技術と比べるとPCRにおいて共通して使用されるポリメラーゼを用いた複製におけるより高い忠実度を含む。
幾つかの実施形態において、充填反応は、第1及び第2のプライマーを使用した1つ以上の標的ポリヌクレオチドの増幅の後、又はその一部として実行され、ここで、第1のプライマーは、第1のアダプターオリゴヌクレオチドの1つ以上の補体の少なくとも一部にハイブリダイズされる配列を含み、更に、第2のプライマーは、第2のアダプターオリゴヌクレオチドの1つ以上の補体の少なくとも一部にハイブリダイズされる配列を含む。
第1及び第2のプライマーの各々は、任意の適切な長さ、約10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、90、又は100以上、或いはそれら未満、又はそれらより長いヌクレオチドであり、その一部又は全ては、対応する標的配列に相補的であり得る(例えば、約5、10、15、20、25、30、35、40、45、又は50以上、或いはそれら未満、又はそれらより長いヌクレオチド)。例えば、約10~50のヌクレオチドが対応する標的配列に相補的であり得る。
場合によっては、増幅アダプターは、ライブラリー生成プロセスに使用される。増幅アダプターは、部分的に逆の相補性を共有するオリゴマー対であり、それによりオリゴマー対は、二本鎖部分と一本鎖部分の両方を持つ分子を形成するためにアニールされ得る。増幅アダプターの使用により、ライブラリー分子の各末端へ別個のアニール化標的を連結することができる。増幅アダプターの単一の一本鎖部分が、逆相補的ではない配列を含むため、増幅アダプターの一本鎖アームの一方又は他方、或いは他方の逆相補性にのみアニールするプライマーが利用可能である。従って、増幅アダプターは、ライブラリー分子の第1の末端に第1の別個のプライマー結合部位を加え、且つライブラリー分子の第2の末端に第2の別個のプライマー結合部位を加えることを可能にする。
増幅アダプターの生成に適切なオリゴは、以下に示される(*はホスホロチオエート結合である)。オリゴはP5/P7の対として列挙され、各P7オリゴは、それに直接先行するP5オリゴで作用するように合成される。各対について、P5オリゴのホスホチオエート結合接合の前の最後の10のヌクレオチド塩基は、第2のオリゴの/5Phos/の後の第1の10の塩基に逆相補的である。
Figure 0007300831000001
「増幅」は、標的配列のコピー数が増大される任意のプロセスを指す。場合によっては、複製反応は、ポリヌクレオチドの単一の相補的なコピー/レプリカのみを産生し得る。標的ポリヌクレオチドの、プライマーに向けられた増幅のための方法は当該技術分野で知られており、限定されないがポリメラーゼ連鎖反応(PCR)に基づく方法を含む。当該技術分野で既知のPCRによる標的配列の増幅に好ましい条件は、プロセスにおける様々な工程にて最適化され、且つ、標的のタイプ、標的の濃度、増幅される配列の長さ、標的及び/又は1つ以上のプライマーの配列、プライマーの長さ、プライマーの濃度、使用するポリメラーゼ、反応量、1以上の要素と1以上の他の要素のとの比率、及びその他などの反応における要素の特徴に依存し、それらの一部又は全ては変更され得る。一般に、PCRは、(二本鎖の場合に)増幅される標的の変性、1つ以上のプライマーの標的へのハイブリダイゼーション、及びDNAポリメラーゼによるプライマーの伸長の工程を含み、工程は、標的配列を増幅するために繰り返される(又は「サイクルされる」)。このプロセスにおける工程は、収量を増強するために、擬似的な産物の形成を減らすために、及び/又はプライマーのアニーリングの特異性を増加又は減少させるためになど、様々な結果について最適化され得る。最適化の方法は当該技術分野で周知であり、及び、増幅反応における要素のタイプ又は量に対する、及び/又は、特定の工程での温度、特定の工程の持続時間、及び/又はサイクルの数など、プロセスにおける与えられた工程の条件に対する調整を含んでいる。
幾つかの実施形態において、増幅反応は、少なくとも約5、10、15、20、25、30、35、40、50、60、70、80、90の、100、150、200、又はそれ以上のサイクルを含み得る。幾つかの例において、増幅反応は、少なくとも約20、25、30、35、又は40のサイクルを含み得る。幾つかの実施形態において、増幅反応は、ほんの約5、10、15、20、25、35、40、50、60、70、80、90、100、150、200、又はそれ以上のサイクルを含む。サイクルは、1、2、3、4、5、6、7、8、9、10、又はそれ以上の工程など、任意の数の工程を含み得る。工程は、3’末端の伸長(例えば、アダプター充填)、プライマーのアニーリング、プライマーの伸長、及び鎖の変性を含むがこれらに限定されない、与えられた工程の目的を達成するのに適切な温度又は温度の勾配を含む。工程は任意の持続時間であり、限定されないが、約1、5、10、15、20、25、30、35、40、45、50、55、60、70、80、90、100、120、180、240、300、360、420、480、540、600、1200、1800以上、或いはそれら未満又はそれらより多くを含む。異なる工程を含む任意の数のサイクルは、任意の順で組み合わされ得る。幾つかの実施形態において、異なる工程を含む異なるサイクルが組み合わせられ、その結果、組み合わせにおけるサイクルの総数は、約5、10、15、20、25、30、35、40、50、60、70、80、90の、100、150、又は200以上、或いはそれら未満又はそれらより多くのサイクルである。幾つかの実施形態において、増幅は充填反応の後に行なわれる。
幾つかの実施形態において、増幅反応は、少なくとも約1、2、3、4、5、6、7、8、9、10、12、14、16、18、20、25、30、40、50、100、200、300、400、500、600、800、1000ngの標的DNA分子の上で行なわれ得る。他の実施形態において、増幅反応は、約1、2、3、4、5、6、7、8、9、10、12、14、16、18、20、25、30、40、50、100、200、300、400、500、600、800、1000ng未満の標的DNA分子の上で行なわれ得る。
増幅は、独立したサンプルから標的ポリヌクレオチドをプールする前又は後に実行され得る。
本開示の方法は、サンプルに存在する増幅可能な核酸の量を判定する工程を含む。任意の既知の方法は増幅可能な核酸を定量化するために使用され典型的な方法はポリメラーゼ連鎖反応(PCR)、具体的に定量的ポリメラーゼ連鎖反応(qPCR)である。qPCRはポリメラーゼ連鎖反応に基づく技術であり、標的とされた核酸分子を増幅し且つ同時に定量化するために使用される。qPCRは、DNAサンプル中の特異的配列の検出及び定量化(DNA入力又は追加の標準化遺伝子へと標準化された時のコピー又は相対量の絶対数として)の両方を可能にする。手順は、増幅されたDNAが各増幅サイクルの後にリアルタイムでの反応において蓄積すると定量化される付加的な特徴と共に、ポリメラーゼ連鎖反応の共通の原理に従う。QPCRは、例えば、Kurnitら(米国特許第6,033,854号)、Wangら(米国特許第5,567,583号及び第5,348,853号)、Maら(The Journal of American Science, 2(3), 2006)、Heidら(Genome Research 986-994, 1996)、Sambrook及びRussell(Quantitative PCR, Cold Spring Harbor Protocols, 2006)、及びHiguchi(米国特許第6,171,785号及び第5,994,056号)に記載されている。これらの内容は、全体において本明細書での引用により組み込まれる。
定量化の他の方法は、二本鎖DNAで挿入する蛍光染料、及び、相補的DNAでハイブリダイズされた時に蛍光を発する修飾されたDNAオリゴヌクレオチドプローブの使用を含む。これらの方法は広く使用することができるが、具体的には一例として更に詳細に記載されるようなリアルタイムPCRにも適している。第1の方法において、DNA結合染料はPCRにおいて全ての二本鎖(ds)DNAに結合し、その結果染料の蛍光が生じる。それ故、PCR中のDNA産物の増加は、蛍光強度の増加を引き起こし、各サイクルにて測定され、故にDNA濃度の定量化を可能にする。反応は、蛍光性の(ds)DNA染料の追加により、標準PCR反応へと同様に調製される。反応はサーモサイクラー中で実行される、各サイクルの後、蛍光のレベルが検出器で比較される;(ds)DNA(即ちPCR産物)に結合された時、染料は蛍光を発するのみである。標準稀釈液に関して、PCRにおける(ds)DNA濃度が測定され得る。他のリアルタイムPCR方法のように、得られた値は、その値に関連する絶対単位を持たない。測定されたDNA/RNAサンプルと標準稀釈液との比較は、標準に相対的なサンプルの画分又は比率をもたらして、異なる組織又は実験条件の間の相対的な比較を可能にする。標的遺伝子の定量化及び/又は発現における正確性を確保することは、安定して発現された遺伝子に関して標準化され得る。未知の遺伝子のコピー数は、既知のコピー数の遺伝子に対して同様に標準化され得る。
第2の方法は、プローブ配列を含有するDNAのみを定量化するために配列に特異的なRNA又はDNAに基づくプローブを使用し;それ故、レポータープローブの使用は、特異性を著しく増大させ、幾つかの非特異的なDNA増幅の存在下でさえも定量化を可能にする。これにより、多重化、即ち、異なるように色を付けられた標識を伴う特異的なプローブにより同じ反応における様々な遺伝子についてのアッセイを可能にするが、但し、全ての遺伝子は同様の効果で増幅されるものとする。
この方法は、プローブの一端では蛍光レポーター(例えば6-カルボキシフルオレセイン)、及び対向端ではクエンチャー(例えば6-カルボキシ-テトラメチルローダミン)を持つDNAベースのプローブで共通して実行される。クエンチャーに対するレポーターの近接性は、その蛍光の検出を妨げる。ポリメラーゼ(例えばTaqポリメラーゼ)の5’~3’のエキソヌクレアーゼ活性によるプローブの破壊は、レポーター-クエンチャーの近接性を破壊し、故に検出され得る蛍光のクエンチされていない発光を可能にする。各PCRサイクルにてレポータープローブにより標的とされる産物の増加の結果、プローブの破壊及びレポーターの放出に起因した蛍光の比例的な増加が生じる。反応は標準PCR反応へと同様に調製され、レポータープローブが加えられる。反応が始まると、PCRのアニーリング段階中に、プローブとプライマーの両方がDNA標的へとアニールされる。新しいDNA鎖の重合はプライマーから始まり、一旦ポリメラーゼがプローブに到達すると、その5’-3’-エキソヌクレアーゼは、プローブを分解し、クエンチャーから蛍光レポーターを物理的に分離して、結果として蛍光の増加をもたらす。蛍光はリアルタイムPCRサーモサイクラーにおいて検出且つ測定され、産物の指数関数的な増加に対応する蛍光の幾何学的な増加は、各反応における閾値サイクルを判定するために使用される。
反応の対数期中に存在するDNAの相対濃度は、対数尺度上でのサイクル数に対する蛍光をプロットすることにより判定される(そのため、指数関数的に増大する量は直線をもたらす)。バックグラウンドの上の蛍光の検出のための閾値が判定される。サンプルからの蛍光が閾値にわたるサイクルは、サイクル閾値、Ctと称される。DNAの量は対数期中の全てのサイクルで二倍になるため、DNAの相対量を計算することができ、例えば、他のものよりも早い3つのサイクルのCを持つサンプルは、2=8倍以上の鋳型を持つ。その後、核酸(例えばRNA又はDNA)の量は、結果を既知量の核酸の連続希釈のリアルタイムPCRにより産生された標準曲線(例えば、希釈無し、1:4、1:16、1:64)と比較することにより判定される。
特定の実施形態において、qPCR反応は、蛍光共鳴エネルギー転移(FRET)、例えばLIGHTCYCLERハイブリダイゼーションプローブを利用する2重のフルオロフォア方法を含んでおり、そこでは2つのオリゴヌクレオチドプローブがアンプリコンへとアニールされる(例えば、米国特許第6,174,670号を参照)。オリゴヌクレオチドは、効果的なエネルギー転移に適合する距離で分離されたフルオロフォアで頭-尾の配向においてハイブリダイズするように設計される。核酸に結合された又は伸長産物に組み込まれた時にシグナルを発するように構造化される標識化オリゴヌクレオチドの他の例は、以下を含む:SCORPIONSプローブ(例えば、Whitcombe et al., Nature Biotechnology 17:804-807, 1999、及び米国特許第6,326,145号)、Sunrise(又はAMPLIFLOUR)プライマー(例えば、Nazarenko et al., Nuc. Acids Res. 25:2516-2521, 1997、及び米国特許第6,117,635号)、及びLUXプライマー並びにMOLECULAR BEACONSプローブ(例えば、Tyagi et al., Nature Biotechnology 14:303-308, 1996及び米国特許第5,989,823号)。
他の実施形態において、qPCR反応は、蛍光Taqmanの方法、及びリアルタイムで蛍光を測定することが可能な機器(例えば、ABI Prism 7700 Sequence Detector)を用いる。Taqman反応は、2つの異なる蛍光染料で標識されるハイブリダイゼーションプローブを使用する。一方の染料はレポーター染料(6-カルボキシフルオレセイン)であり、他方はクエンチ染料(6-カルボキシ-テトラメチルローダミン)である。プローブが無傷の場合、蛍光エネルギー転移が生じ、レポーター染料の蛍光的な発光がクエンチ染料により吸収される。PCRサイクルの伸長段階中に、蛍光ハイブリダイゼーションプローブは、DNAポリメラーゼの5’-3’の核酸分解活性により切断される。プローブの切断時に、レポーター染料の発光はこれ以上クエンチ染料へと効率的に転移されず、その結果レポーター染料の蛍光発光スペクトルが生じる。リアルタイムの方法又は単点の検出方法を含む、任意の核酸定量化方法は、サンプル中の核酸の量を定量化するために使用され得る。検出は、様々な異なる方法(例えば、染色、標識化プローブでのハイブリダイゼーション;ビオチン化プライマーの組み込み、その後のアビジン-酵素の結合の検出;増幅されたセグメントへの、dCTP又はdATPなどの32P標識化デオキシヌクレオチド三リン酸塩の組み込み)に加えて、核酸定量化のための当該技術分野で既知の他の適切な検出方法で実行され得る。定量化は増幅工程を含むこともあれば、含まないこともある。
幾つかの実施形態において、本開示は、連結されたDNAセグメントを同定又は定量化するための標識を提供する。場合によっては、連結されたDNAセグメントは、アレイのハイブリダイゼーションなどの下流の適用を補助するために標識され得る。例えば、連結されたDNAセグメントは、ランダムなプライミング又はニックトランスレーションを使用して標識され得る。
種々様々な標識(例えば、レポーター)は、本明細書に記載されるヌクレオチド配列を標識するために使用されてもよく、限定されないが増幅工程中を含む。適切な標識は、放射性核種、酵素、蛍光、化学発光、又は色原体の薬剤に加え、リガンド、補助因子、阻害剤、磁気微粒子などを含む。そのような標識の例は、米国特許第3,817,837号;米国特許第3,850,752号;米国特許第3,939,350号;米国特許第3,996,345号;米国特許第4,277,437号;米国特許第4,275,149号、及び米国特許第4,366,241号に含まれており、これらは全体における引用により組み込まれる。
追加の標識は、限定されないが、β-ガラクトシダーゼ、インベルターゼ、緑色蛍光タンパク質、ルシフェラーゼ、クロラムフェニコール、アセチルトランスフェラーゼ、β-グルクロニダーゼ、exo-グルカナーゼ、及びグルコアミラーゼを含む。蛍光標識も、特定の化学的性質で特異的に合成された蛍光試薬と同様に使用されてもよい。蛍光を測定する種々様々な方法が利用可能である。例えば、幾つかの蛍光標識は、励起又は発光のスペクトルの変化を示し、幾つかの蛍光標識は1つの蛍光レポーターが蛍光を失う共鳴エネルギー転移を示すが、第2の蛍光標識は蛍光を増加させ、幾つかの蛍光標識は蛍光の消失(クエンチ)又は出現を示し、幾つかの蛍光標識は回転動作を報告する。
更に、標識化のための十分な材料を得るために、多数の増幅が、1つの反応当たりの増幅サイクルの数を増やす代わりにプールされ得る。代替的に、標識されたヌクレオチドは、増幅反応の最後のサイクル、例えば、PCRの30のサイクル(標識無し)+PCRの10のサイクル(標識をプラス)において組み込まれ得る。
特定の実施形態において、本開示は、連結されたDNAセグメントに結合し得るプローブを提供する。本明細書で使用されるように、用語「プローブ」は、対象の別の分子(例えば、別のオリゴヌクレオチド)にハイブリダイズ可能な分子(例えば、精製された制限消化物などにおいて自然に生じ、又は合成的に、組換え的に、或いはPCR増幅により産生されたかどうかにかかわらない、オリゴヌクレオチド)を指す。プローブは、オリゴヌクレオチドであると、一本鎖又は二本鎖であり得る。プローブは、特定の標的(例えば遺伝子配列)の検出、同定、及び単離に役立つ。場合によっては、プローブは、任意の検出システムにおいて検出可能となるような標識に関連付けられ、限定されないが、酵素(例えば、ELISAに加え、酵素に基づく組織化学アッセイ)、蛍光、放射性、及び発光のシステムを含む。
アレイ及びマイクロアレイに関して、用語「プローブ」は、プローブへとハイブリダイズしたヌクレオチド配列を検出するためにアレイに固定される、任意のハイブリダイズ可能な物質を指すために使用される。場合によっては、プローブは、約10bp~500bp、約10bp~250bp、約20bp~250bp、約25bp~200bp、約25bp~100bp、約30bp~100bp、又は約30bp~80bpであり得る。場合によっては、プローブは、約10bp、約20bp、約30bp、約40bp、約50bp、約60bp、約70bp、約80bp、約90bp、約100bp、約150bp、約200bp、約250bp、約300bp、約400bp、又は約500bpの長さであり得る。例えば、プローブは約20~約50bpの長さであり得る。プローブ設計の例及び論理的根拠は、WO95/11995、EP717,113、及びWO97/29212にて見出すことができる。
場合によっては、1つ以上のプローブは、制限酵素により消化される部位に接近してハイブリダイズされ得るように設計され得る。例えば、プローブは、約10bp、約20bp、約30bp、約40bp、約50bp、約60bp、約70bp、約80bp、約90bp、約100bp、約150bp、約200bp、約250bp、約300bp、約400bp、又は約500bpの制限酵素認識部位内にあり得る。
他の場合、単一で固有のプローブは、制限酵素により消化される部位の各側部にて、約10bp、約20bp、約30bp、約40bp、約50bp、約60bp、約70bp、約80bp、約90bp、約100bp、約150bp、約200bp、約250bp、約300bp、約400bp、又は約500bp内にあるように設計され得る。プローブは、制限酵素により消化される部位の何れかの側部にてハイブリダイズ可能となるように設計され得る。例えば、主要な制限酵素認識部位の各側部の単一のプローブを使用することができる。
場合によっては、2、3、4、5、6、7、8、又はそれ以上のプローブは、後に同じライゲーション事象を調査するために使用され得る制限酵素認識部位の各側部に設計され得る。例えば、2又は3つのプローブが、制限酵素認識部位の各側部に設計され得る。幾つかの例において、主要な制限酵素認識部位あたりの複数(例えば2、3、4、5、6、7、又は8、或いはそれ以上)のプローブの使用は、個々のプローブから結果として生じる偽陰性を得る問題を最小化するのに有用であり得る。
本明細書で使用されるように、用語「プローブのセット」は、ゲノムにおける主要な制限酵素のための主要な制限酵素認識部位の1つ以上にハイブリダイズ可能なプローブの一組又は集まりを指す。
場合によっては、プローブのセットは、ゲノムDNAにおける制限酵素のための主要な制限酵素認識部位の1つ以上に隣接する核酸配列に対し、配列において相補的となり得る。例えば、プローブのセットは、ゲノムDNAにおける制限酵素認識部位の1以上に隣接する、約10bp~500bp、約10bp~250bp、約20bp~250bp、約25bp~200bp、約25bp~100bp、約30bp~100bp、又は約30bp~80bpのヌクレオチドに対し、配列において相補的となり得る。プローブのセットは、制限酵素認識部位の1つの(例えば何れかの)側部又は両側部に対し、配列において相補的となり得る。従って、プローブは、ゲノムDNAにおける主要な制限酵素認識部位の1以上の各側部に隣接している核酸配列に対し、配列において相補的となり得る。更に、プローブのセットは、ゲノムDNAにおける主要な制限酵素認識部位の1以上から、約10bp、約20bp、約30bp、約40bp、約50bp、約60bp、約70bp、約80bp、約90bp、約100bp、約150bp、約200bp、約250bp、約300bp、約400bp、又は約500bp未満である核酸配列に対し、配列において相補的となり得る。
場合によっては、2つ以上のプローブが、ゲノムDNAにおける制限酵素認識部位の1以上に隣接している配列へとハイブリダイズ可能となるように設計され得る。プローブは重複、又は部分的に重複し得る。
プローブ、プローブのアレイ、又はプローブのセットは、支持体上で固定され得る。支持体(例えば固体支持体)は、ガラス、シリカ、プラスチック、ナイロン、又はニトロセルロースなどの様々な材料で作られ得る。支持体は好ましくは剛性であり、平らな表面を持つ。支持体は、約1~10,000,000の分解された遺伝子座を持ち得る。例えば、支持体は、約10~10,000,000、約10~5,000,000、約100~5,000,000、約100~4,000,000、約1000~4,000,000、約1000~3,000,000、約10,000~3,000,000、約10,000~2,000,000、約100,000~2,000,000、又は約100,000~1,000,000の分解された遺伝子座を持ち得る。分解された遺伝子座の密度は、平方センチメートル内で少なくとも約10、約100、約1000、約10,000、約100,000、又は約1,000,000の分解された遺伝子座であり得る。場合によっては、分解された遺伝子座の各々は、単一のタイプのオリゴヌクレオチドの>95%まで占有され得る。他の場合、分解された遺伝子座の各々は、プローブのプールされた混合物又はプローブのセットにより占有され得る。場合によっては、幾つかの分解された遺伝子座は、プローブのプールされた混合物又はプローブのセットにより占有され、他の分解された遺伝子座は単一のタイプのオリゴヌクレオチドの>95%により占有される。
場合によっては、アレイ上の与えられたヌクレオチド配列のためのプローブの数は、そのようなアレイにハイブリダイズされるDNAサンプルに対し非常に過剰な場合がある。例えば、アレイは、約10、約100、約1000、約10,000、約100,000、約1,000,000、又は約100,000,000倍の、入力サンプルにおけるDNAの量に対するプローブの数を有し得る。
場合によっては、アレイは、約10、約100、約1000、約10,000、約100,000、約1,000,000、約10,000,000、又は約1,000,000,000のプローブを有し得る。
プローブのアレイ又はセットは、支持体上で段階ごとの様式で合成され、又は予め合成された形態で結合され得る。合成方法の1つは、高密度の小型化したアレイにおけるオリゴヌクレオチドプローブの合成に向けるための光の使用を伴う、VLSIPS(商標)(米国特許第5,143,854及びEP476,014に記載される)である。合成サイクルの数を減らすためのマスクの設計のためのアルゴリズムは、米国特許第5,571,639号及び米国特許第5,593,839号に記載されている。アレイはまた、EP624,059に記載されるように、機械的に制限された流路により支持体の細胞にモノマーを送達することにより、組み合わせの様式で合成され得る。アレイはまた、インクジェットプリンターを使用して支持体上へと試薬を付ける(spotting)ことにより合成され得る(例えば、EP728,520を参照)。
幾つかの実施形態において、本開示は、アレイ上へと連結されたDNAセグメントをハイブリダイズする方法を提供する。「基質」又は「アレイ」は、合成的又は生合成的の何れかで調製され、且つ様々な異なるフォーマット(例えば可溶性分子のライブラリー;及び、樹脂ビーズ、シリカチップ、又は他の固体支持体に拘束されたオリゴヌクレオチドのライブラリー)で生物活性についてスクリーンされ得る核酸の、故意に作り出された集まりである。加えて、用語「アレイ」は、基質上へと実質的に任意の長さ(例えば、1~約1000の長さのヌクレオチドモノマー)の核酸を付けることにより調製され得る核酸のそのようなライブラリーを含んでいる。
アレイの技術、及び様々な関連技術、並びにその適用は、共通して多数のテキストブック及び文書で記載されている。例えば、これらの文書として、Lemieux et al., 1998, Molecular Breeding 4, 277-289; Schena and Davis, Parallel Analysis with Biological Chips. in PCR Methods Manual (eds. M. Innis, D. Gelfand, J. Sninsky); Schena and Davis, 1999, Genes, Genomes and Chips. In DNA Microarrays: A Practical Approach (ed. M. Schena), Oxford University Press, Oxford, UK, 1999); The Chipping Forecast (Nature Genetics special issue; January 1999 Supplement); Mark Schena (Ed.), Microarray Biochip Technology, (Eaton Publishing Company); Cortes, 2000, The Scientist 14[17]:25; Gwynn and Page, Microarray analysis: the next revolution in molecular biology, Science, 1999 Aug. 6;及びEakins and Chu, 1999, Trends in Biotechnology, 17, 217-218が挙げられる。
通常、任意のライブラリーは、ライブラリーのメンバーを空間的に分離することにより、アレイへと順序正しい方式で配置され得る。配置に適切なライブラリーの例は、とりわけ、リガンドライブラリーなどの任意の分子を含むライブラリーと同様に、核酸ライブラリー(DNA及びcDNA、オリゴヌクレオチドなどのライブラリーを含む)、ペプチド、ポリペプチド、及びタンパク質のライブラリーを含む。
ライブラリーは、メンバーの拡散及び混合を制限するために、固相(例えば固体の基質)上へと定着又は固定され得る。場合によっては、DNA結合リガンドのライブラリーが調製され得る。特にライブラリーは、膜、及びプラスチックやガラスなどの非多孔基材を含む、実質的に平らな固相に固定され得る。更に、ライブラリーは、インデキシング(即ち、特定のメンバーへの言及又はアクセス)が容易になるような方法で配置され得る。幾つかの例において、ライブラリーのメンバーは、格子形態のスポットとして適用され得る。共通のアッセイ系はこの目的に適しているかもしれない。例えば、アレイは、ウェルに複数のメンバーを持つ、又は各ウェルに1つのメンバーを持つマイクロプレートの表面上で固定され得る。更に、固体の基質は、ニトロセルロース又はナイロンの膜(例えば、実験をブロットするのに使用される膜)などの膜でもよい。代替的な基質は、ガラス、又はシリカベースの基質を含む。故に、ライブラリーは、当該技術分野で既知の適切な方法、例えば、電荷相互作用、又は、ウェルの壁又は底、或いは膜の表面への化学結合により、固定され得る。他の配置及び固定の手段、例えばピペット操作、ドロップ-タッチ、圧電手段、インクジェット及びバブルジェット技術、静電気の適用などが使用され得るシリコンベースのチップの場合、フォトリソグラフィーがチップ上でライブラリーを配置及び固定するために利用され得る。
ライブラリーは、固体の基質上に「配置される(spotted)」ことにより配置され;これは、手により、又はメンバーを堆積するためにロボット工学を利用することにより行われてもよい。一般に、アレイはマクロアレイ又はマイクロアレイと記載されてもよく、違いはスポットの大きさである。マクロアレイは、約300ミクロン以上のスポットサイズを含み、既存のゲル及びブロットスキャナーにより容易に撮像され得る。マイクロアレイにおけるスポットサイズは、直径200ミクロン未満であり、これらアレイは通常、何千ものスポットを含んでいる。故に、マイクロアレイは特殊なロボット工学及び撮像機器を必要とする場合があり、これらは、Cortese, 2000, The Scientist 14[11]:26による報告に通常記載されているカスタムメイドの器具類である必要がある。
DNA分子の固定されたライブラリーを産生するための技術は当該技術分野で述べられている。通常、大半の先行技術の方法は、例えば、固体の基質上の様々な別個の位置で配列の様々な並べ替えを構築するためにマスキング技術を使用して、一本鎖核酸分子ライブラリーを合成する方法について述べている。米国特許第5,837,832号は、超大規模集積回路技術に基づいてシリコン基板に固定されたDNAアレイを産生するための改善された方法について述べている。特に、米国特許第5,837,832号は、本開示の固定されたDNAライブラリーを産生するために使用され得る基板上の空間的に定められた場所でプローブの特定のセットを合成するために「タイリング」と呼ばれる戦略について述べている。米国特許第5,837,832号はまた、使用され得る初期の技術に対する言及を提供する。他の場合、アレイはまた、光析出化学(photo deposition chemistry)を使用して構築され得る。
ペプチド(又はペプチド模倣体)のアレイも、アレイにおける別個の予め定められた場所で別個のライブラリーのメンバー(例えば、固有のペプチド配列)それぞれを配する様式で、表面上に合成され得る。ライブラリーのメンバーそれぞれの同一性は、アレイにおけるその空間的な場所により判定される。予め定めた分子(例えば標的又はプローブ)と反応的なライブラリーのメンバーとの間の結合相互作用が生じる、アレイにおける場所が判定され、それにより、空間的な場所に基づき反応的なライブラリーのメンバーの配列の同定が行われる。これらの方法は、米国特許第5,143,854号;WO90/15070及びWO92/10092;Fodor et al. (1991) Science, 251: 767; Dower and Fodor (1991) Ann. Rep. Med. Chem., 26: 271に記載されている。
検出を支援するために、任意の容易に検出可能なレポーター、例えば蛍光性、生物発光性、リン光性、放射性などのレポーターといった標識を使用することができる(上記で議論されるように)。そのようなレポーター、それらの検出、標的/プローブへの結合などは、本文書の他の場所で議論される。プローブ及び標的の標識化はまた、Shalon et al., 1996, Genome Res 6(7):639-45に開示されている。
幾つかの市販で入手可能なマイクロアレイのフォーマットの例は、以下の表1に述べられる(Marshall and Hodgson, 1998, Nature Biotechnology, 16(1), 27-31も参照)。
Figure 0007300831000002
Figure 0007300831000003
アレイベースのアッセイからデータを生成するために、シグナルは、プローブとヌクレオチド配列との間のハイブリダイゼーションの存在又は不在を示すために検出され得る。更に、直接及び間接的な標識化技術も利用され得る。例えば、直接的な標識化は、アレイに関連したプローブへとハイブリダイズするヌクレオチド配列へ直接、蛍光染料を組み込む(例えば、染料は、標識化ヌクレオチド又はPCRプライマーの存在下で酵素的合成によりヌクレオチド配列に組み込まれる)。直接的な標識化のスキームは、例えば同様の化学構造及び特徴を持つ蛍光染料のファミリーの使用により強固なハイブリダイゼーションシグナルをもたらし、且つ簡単に実施することができる。核酸の直接的な標識化を含む場合、シアニン又はアレクサ(alexa)のアナログが、複数の蛍石比較的アレイ解析(multiple-fluor comparative array analyses)に利用され得る。他の実施形態において、間接的な標識化のスキームは、マイクロアレイプローブへのハイブリダイゼーションの前又は後に、核酸にエピトープを組み込むために利用され得る。1つ以上の染色の手順及び試薬は、ハイブリダイズされた複合体(例えば、エピトープに結合し、それによりハイブリダイズされた種のエピトープへの色素分子の結合によって蛍光シグナルをもたらす、蛍光分子)を標識するために使用され得る。
様々な実施形態において、本明細書に記載される又は当該技術分野で既知の適切な配列決定方法が、サンプル内の核酸分子から配列情報を得るために使用される。配列決定は、当該技術分野で周知の古典的なサンガー配列決定方法を通じて遂行され得る。配列決定(Sequence)はまた、ハイスループットシステムを使用して遂行され、その一部は、増大する鎖への組み込みの直後又はその際の配列決定されたヌクレオチドの検出、即ち、リアルタイム又はほぼリアルタイムでの配列の検出を可能にする。場合によっては、ハイスループット配列決定は、1時間につき少なくとも1,000、少なくとも5,000、少なくとも10,000、少なくとも20,000、少なくとも30,000、少なくとも40,000、少なくとも50,000、少なくとも100,000、又は少なくとも500,000の配列のリードを生成し;ここで、配列決定のリードは、1つのリードにつき少なくとも約50、約60、約70、約80、約90、約100、約120、約150、約180、約210、約240、約270、約300、約350、約400、約450、約500、約600、約700、約800、又は約1000の塩基であり得る。
幾つかの実施形態において、ハイスループット配列決定は、HiSeq 2500、HiSeq 1500、HiSeq 2000、又はHiSeq 1000の機械を使用するものなど、Illumina’s Genome Analyzer IIX、MiSeqパーソナルシーケンサー、又はHiSeqシステムにより利用可能な技術の使用を含む。これらの機械は、合成化学による可逆的なターミネーターベースの配列を使用する。これらの機械は、8日で2000億以上のDNAのリードを行うことができる。より小さなシステムが、3、2、1日以下の時間内での実行のために利用され得る。
幾つかの実施形態において、ハイスループット配列決定は、ABI Solid Systemにより利用可能な技術の使用を含む。クローン的に増幅されたDNA断片の超並列配列決定を可能にする、この遺伝子解析プラットフォームは、ビーズに連結した。配列決定の方法論は、染料で標識したオリゴヌクレオチドでの連続的なライゲーションに基づく。
次世代の配列決定は、(例えば、Life Technologies (Ion Torrent)の技術を使用して)イオン半導体配列決定を含み得る。イオン半導体配列決定は、ヌクレオチドがDNAの鎖へ組み込まれる時にイオンが放出され得るという事実を利用することができる。イオン半導体配列決定を行なうために、微細加工されたウェルの高密度アレイを形成することができる。各ウェルは、単一のDNA鋳型を保持することができる。ウェルの下はイオン感受性の層であり、イオン感受性の層の下はイオンセンサーであり得る。ヌクレオチドがDNAに加えられると、H+が放出され、pHの変化として測定され得る。H+イオンは電圧に変換され、半導体センサーにより記録され得る。アレイチップは、1つのヌクレオチドで連続して氾濫させられる(flooded)場合がある。走査、光、又はカメラは必要ではない。場合によっては、IONPROTON(商標)シークエンサーが核酸を配列決定するために使用される。場合によっては、IONPGM(商標)シークエンサーが使用される。Ion Torrent Personal Genome Machine (PGM)。PGMは2時間で1000万のリードを行うことができる。
幾つかの実施形態において、ハイスループット配列決定は、Single Molecule Sequencing by Synthesis(SMSS)の方法など、Helicos BioSciences Corporation(Cambridge, Massachusetts)により利用可能な技術の使用を含む。SMSSは、最大24時間で全体のヒトゲノムの配列決定を可能にするため、固有なものである。最終的に、SMSSは、米国特許出願公開第20060024711号;第20060024678号;第20060012793号;第20060012784号;及び第20050100932号に部分的に記載されている。
幾つかの実施形態において、ハイスループット配列決定は、PicoTiterPlate装置などの454 Lifesciences, Inc.(Branford, Connecticut) により利用可能な技術の使用を含み、これは、機器におけるCCDカメラにより記録される配列決定反応により生成された、化学発光シグナルを伝達するファイバオプティックプレートを含む。このファイバーオプティクスの使用は、4.5時間で最低2000万の塩基対の検出を可能にする。
ビードの増幅、その後でファイバーオプティクスの検出を使用する方法は、Marguiles, M., et al.“Genome sequencing in microfabricated high-density picolitre reactors”, Nature, doi:10.1038/nature03959;
及び同様に、米国特許出願公開第20020012930号;第20030068629号;第20030100102号;第20030148344号;第20040248161号;第20050079510号;第20050124022号;及び第20060078909号に記載されている。
幾つかの実施形態において、ハイスループット配列決定は、Clonal Single Molecule Array(Solexa, Inc.)、又は可逆的なターミネーター化学を利用するsequencing-by-synthesis(SBS)を使用して行なわれる。これらの技術は、米国特許第6,969,488号;第6,897,023号;第6,833,246号;第6,787,308号;及び、米国特許出願公開第20040106110号;第20030064398号;第20030022207号;及びConstans, A. , The Scientist 2003, 17(13):36に部分的に記載されている。
次世代の配列決定技術は、Pacific Biosciencesによるリアルタイム(SMRT(商標))技術を含み得る。SMRTにおいて、4つのDNA塩基の各々は、4つの異なる蛍光染料の1つに付けられ得る。これらの染料はホスホ連結(phospho linked)され得る。単一のDNAポリメラーゼは、ゼロモード導波路(ZMW)の底部にある鋳型の一本鎖DNAの単一分子で固定され得る。ZMWは、(マイクロ秒で)ZMWの中及び外で急速に拡散することができる蛍光ヌクレオチドのバックグラウンドに対する、DNAポリメラーゼによる単一のヌクレオチドの組み込みの観察を可能にする、制限構造となり得る。増大している鎖にヌクレオチドを組み込むのに数ミリ秒かかる場合がある。この間に、蛍光標識は励起され、蛍光シグナルを生成することができ、蛍光標識は切断され得る。ZMWは下から照らすことができる。励起ビームからの減じられた光は、より低い20-30nmのZMWそれぞれに浸透し得る。20ゼプトリットル(10”リットル)の検出限界を持つ顕微鏡が作成され得る。小さな検出量は、バックグラウンドノイズの減少において1000倍の改善をもたらし得る。染料の対応する蛍光の検出は、どの塩基が組み込まれるかを示すことができる。このプロセスは繰り返すことができる。
場合によっては、次世代の配列決定はナノ細孔配列決定である(例えば、Soni GV and Meller A. (2007) Clin Chem 53: 1996-2001を参照)。ナノ細孔は、直径約1ナノメートルの小さな穴であり得る。導電性流体におけるナノ細孔の浸漬、及びそれをわたる電位の適用は、結果として、ナノ細孔を解したイオンの伝導が原因で、僅かな電流をもたらし得る。流れる電流の量はナノ細孔の大きさに敏感であり得る。DNA分子がナノ細孔を通ると、DNA分子上のヌクレオチドはそれぞれ、異なる程度にまでナノ細孔を塞ぐことができる。故に、DNA分子がナノ細孔と通る時の、ナノ細孔を通る電流の変化は、DNA配列のリードを表わすことができる。ナノ細孔配列決定技術は、Oxford Nanopore Technologies;例えばGridlONシステムに由来し得る。単一のナノ細孔は、マイクロウェルの上部にわたる高分子膜に挿入され得る。マイクロウェルはそれぞれ、個々の感知のための電極を有し得る。マイクロウェルは、1つのチップ当たり100,000以上のマイクロウェル(例えば200,000、300,000、400,000、500,000、600,000、700,000、800,000、900,000、又は1,000,000より多く)で、アレイチップへと組み立てられ得る。機器(又はノード)がチップを解析するために使用され得る。データはリアルタイムで解析され得る。1つ以上の機器は一度に操作され得る。ナノ細孔は、タンパク質ナノ細孔、例えばタンパク質アルファ溶血素、七量体タンパク質細孔であり得る。ナノ細孔は、ソリッドステートナノ細孔で出来ており、例えば、合成膜(例えばSiN、又はSiO)に形成されるナノメートルサイズの穴であり得る。ナノ細孔は、ハイブリッド細孔(例えば、ソリッドステート膜へのタンパク質細孔の統合)であり得る。ナノ細孔は、集積化したセンサーを持つナノ細孔であり得る(例えば、トンネル電極検出器、容量検出器又はグラフェン性ナノギャップ若しくはエッジ状態検出器(例えば、Garaj et al. (2010) Nature vol. 67, doi: 10.1038/nature09379を参照))。ナノ細孔は、特定の型の分子を解析するために官能化することができる(例えば、DNA、RNA又はタンパク質)。ナノ細孔配列決定は、「鎖配列決定」を含むことができ、完全なDNAポリマーは、DNAが細孔を転移させる際にリアルタイムで配列決定されながらタンパク質ナノ細孔を通過することができる。酵素は二本鎖DNAの鎖を分離することができ、ナノ細孔を通じて鎖を与えることができる。DNAは一方の末端でヘアピンを有することができ、システムは両方の鎖を読み取ることができる。場合によっては、ナノ細孔配列決定は、「エキソヌクレアーゼ配列決定」であり、個々のヌクレオチドは前進性エキソヌクレアーゼによってDNA鎖から切断されることができ、そのヌクレオチドはタンパク質ナノ細孔を通過することができる。ヌクレオチドは、細孔内の分子(例えば、シクロデキストラン)に一過的に結合することができる。電流の特性的断絶を使用して、塩基を同定する。
GENIA製のナノ細孔配列決定技術を使用できる。操作したタンパク質細孔を、脂質二重層の膜に埋めることができる。「能動的制御」技術を使用して、効果的なナノ細孔-膜アセンブリ及びチャネルを通るDNA運動の制御を可能にする。場合によっては、ナノ細孔配列決定技術は、NABsys製である。ゲノムDNAは、平均長約100kbの鎖に断片化され得る。100kbの断片を一本鎖にし、その後6merのプローブでハイブリダイズさせることができる。プローブを持つゲノム断片は、ナノ細孔を通り抜けることができ、電流対時間の追跡を作り出すことができる。電流追跡は、各ゲノム断片上のプローブ位置を提供することができる。ゲノム断片を並べて、ゲノムに対するプローブマップを作り出すことができる。そのプロセスは、プローブライブラリーに対して並列に行うことができる。各プローブに対するゲノム長のプローブマップを生成することができる。誤りは、「移動窓配列決定バイハイブリダイゼーション(Sequencing By Hybridization)(mwSBH)」と称されるプロセスで直すことができる。場合によっては、ナノ細孔配列決定技術は、IBM/Roche製である。電子ビームを使用して、マイクロチップにナノ細孔サイズの開口部を作製することができる。電界を使用して、ナノ細孔を通じてDNAを引き寄せる又はねじ込むことができる。ナノ細孔におけるDNAトランジスタ装置は、金属と誘電体が交互になったナノメートルサイズの層を含むことができる。DNA骨格中の別個の電荷を、電界によってDNAナノ細孔の内部に閉じ込めることができる。ゲート電圧をオフ/オンすることにより、DNA配列を読み取ることができる。
次世代配列決定は、DNAナノボール配列決定を含むことができる(例えば、Complete Genomicsによって実施されるように、例えば、Drmanac et al. (2010) Science 327: 78-81を参照)。DNAを、単離し、断片化し、サイズ選択することができる。例えば、DNAは、約500bpの平均長へと(例えば、超音波処理によって)断片化することができる。アダプター(Adl)を、断片の末端に結合させることができる。アダプターを使用して、配列決定反応のためのアンカーにハイブリダイズさせることができる。各末端に結合したアダプターを持つDNAを、PCR増幅することができる。アダプター配列を修飾することができ、それにより相補的一本鎖末端が互いに結合して環状DNAを形成する。DNAをメチル化して、その後の工程において使用されるIIS型制限酵素による切断から保護することができる。アダプター(例えば、右のアダプター)は、制限認識部位を有することができ、制限認識部位は非メチル化されたままであり得る。アダプター中にある非メチル化制限認識部位は、制限酵素(例えば、Acul)によって認識され得、DNAは、Aculによって右アダプターの右側13bpで切断されて、線状二本鎖DNAを形成することができる。右及び左のアダプターの第2巡(Ad2)を、線状DNAのいずれかの末端に連結することができ、両方のアダプターが結合しているDNAは全て、PCR増幅することができる(例えば、PCRによって)。Ad2配列を修飾して、それらが互いに結合して環状DNAを形成することを可能にする。DNAはメチル化することができるが、制限酵素認識部位は、左Ad1アダプターにおいて非メチル化のままであり得る。制限酵素(例えば、Acul)を適用することができ、DNAは、Ad1の左側13bpで切断され、線状DNA断片を形成することができる。右及び左のアダプターの第3巡(Ad3)を、線状DNAの右及び左側面に連結することができ、その結果生じる断片はPCR増幅することができる。アダプターは修飾することができ、それにより互いに結合し、環状DNAを形成することができる。III型制限酵素(例えば、EcoP15)を添加することができ、EcoP15は、Ad3の左側26bp及びAd2の右側26bpでDNAを切断することができる。この切断は、DNAの大きなセグメントを除去し、DNAを再び線状化することができる。右及び左のアダプターの第4巡(Ad4)を、DNAに連結することができ、DNAを(例えば、PCRによって)増幅し且つ修飾することができ、それによりそれらは互いに結合し、完成した環状DNA鋳型を形成する。
ローリングサークル複製(例えばPhi29 DNAポリメラーゼを使用する)を使用して、DNAの小さな断片を増幅することができる。4つのアダプター配列は、ハイブリダイズできるパリンドローム配列を含有することができ、一本鎖は、それ自体の上へと折りたたまれて、平均で直径およそ200~300ナノメートルとなり得るDNAナノボール(DNB(商標))を形成することができる。DNAナノボールは、マイクロアレイ(配列決定フローセル)に付着させることができる(例えば、吸着により)。フローセルは、二酸化ケイ素、チタン、及びヘキサメチルジシラザン(HMDS)及びフォトレジスト材料でコーティングされたシリコンウエハであり得る。配列決定は、DNAに蛍光プローブを連結することによる連鎖しない配列決定によって実施することができる。問い合わせられる位置の蛍光の色は、高解像度カメラによって可視化することができる。アダプター配列間のヌクレオチド配列の同一性を決定することができる。
幾つかの実施形態において、ハイスループット配列決定は、AnyDot.chips(Genovoxx,Germany)を使用して行うことができる。特に、AnyDot.chipsは、ヌクレオチド蛍光シグナル検出を10×-50×増強できる。AnyDot.chips及びそれを使用する方法は、国際公開WO 02088382、WO 03020968、WO 03031947、WO 2005044836、PCT/EP05/05657、PCT/EP05/05655、並びにドイツ特許出願第DE 101 49 786、DE 102 14 395、DE 103 56 837、DE 10 2004 009 704、DE 10 2004 025 696、DE 10 2004 025 746、DE 10 2004 025 694、DE 10 2004 025 695、DE 10 2004 025 744、DE 10 2004 025 745、及びDE 10 2005 012 301にある程度記載されている。
他のハイスループット配列決定システムには、Venter, J., et al. Science 16 February 2001; Adams, M. et al. Science 24 March 2000;及びM. J. Levene, et al. Science 299:682-686, January 2003; 並びに米国特許出願公開第2003/0044781号及び第2006/0078937号に開示されるものがある。そのようなシステム全体は、核酸分子上で測定される重合反応による塩基の経時的な付加によって、複数の塩基を有する標的核酸分子を配列決定することを含み、即ち、配列決定される鋳型核酸分子上の核酸重合酵素の活性がリアルタイムで追跡される。次いで配列の塩基付加の各工程でどの塩基が核酸重合酵素の触媒活性により標的核酸の成長相補鎖に組み込まれているかについて同定することにより、配列を推論することができる。標的核酸分子複合体上のポリメラーゼは、標的核酸分子に沿って移動し、活性部位でオリゴヌクレオチドプライマーを伸長するのに適した位置に提供される。それぞれ識別可能な型のヌクレオチドアナログが標的核酸配列中の異なるヌクレオチドに対して相補的である、複数の標識型のヌクレオチドアナログが活性部位のすぐ近くに提供される。成長核酸鎖は、ポリメラーゼを使用して活性部位で核酸鎖にヌクレオチドアナログを付加することによって伸長され、付加されるヌクレオチドアナログは、活性部位で標的核酸のヌクレオチドに相補的である。重合工程の結果としてオリゴヌクレオチドプライマーに付加されたヌクレオチドアナログが、同定される。標識したヌクレオチドアナログを提供する工程と、成長核酸鎖を重合させる工程と、付加されたヌクレオチドアナログを同定する工程は繰り返され、それにより核酸鎖が更に伸長され、標的核酸の配列が決定される。
本開示は、単一DNA分子から複数のリード対を生成する工程と、リード対を使用してDNA分子の複数のコンティグをアセンブルする工程とを含む、ハプロタイプフェージングの方法を提供し、少なくとも1%のリード対が、単一DNA分子上で50kBより長い距離に跨り、ハプロタイプフェージングは、70%を超える精度で実施される。幾つかの実施形態において、少なくとも10%のリード対が、単一DNA分子上で50kBより長い距離に跨る。他の実施形態において、少なくとも1%のリード対が、単一DNA分子上で100kBより長い距離に跨る。幾つかの実施形態において、ハプロタイプフェージングは、90%を超える精度で実施される。
更なる実施形態において、本開示は、(例えばインビトロで)単一DNA分子から複数のリード対を生成する工程と、リード対を使用してDNA分子の複数のコンティグをアセンブルする工程とを含む、ハプロタイプフェージングの方法を提供し、少なくとも1%のリード対が、単一DNA分子上で30kBより長い距離に跨り、ハプロタイプフェージングは70%を超える精度で実施される。幾つかの実施形態において、少なくとも10%のリード対が、単一DNA分子上で30kBより長い距離に跨る。他の実施形態において、少なくとも1%のリード対が、単一DNA分子上で50kBより長い距離に跨る。また他の実施形態において、ハプロタイプフェージングは、90%を超える精度で実施される。幾つかの実施形態において、ハプロタイプフェージングは、70%を超える精度で実施される。
特定の実施形態において、本開示は、本開示の1つ以上の成分を含むキットを更に提供する。キットは、上述のものを含めて、当業者に明らかな任意の用途に使用することができる。キットは、例えば、複数の会合分子、固定剤、エンドヌクレアーゼ(例えば制限エンドヌクレアーゼ)、リガーゼ及び/又はそれらの組合せを含むことができる。幾つかの場合において、会合分子は、例えばヒストンを含むタンパク質であり得る。場合によっては、固定剤は、ホルムアルデヒド又は他の任意のDNA架橋剤であり得る。
場合によっては、キットは複数のビーズを更に含むことができる。ビーズは、常磁性であり及び/又は捕捉剤でコーティングされている。例えば、ビーズは、ストレプトアビジン及び/又は抗体でコーティングすることができる。
場合によっては、キットは、アダプターオリゴヌクレオチド及び/又は配列決定プライマーを含むことができる。更に、キットは、アダプターオリゴヌクレオチド及び/又は配列決定プライマーを使用してリード対を増幅することが可能な装置を含むことができる。
場合によっては、キットは、溶解緩衝液、ライゲーション試薬(例えばdNTP、ポリメラーゼ、ポリヌクレオチドキナーゼ及び/又はリガーゼ緩衝液など)、及びPCR試薬(例えばdNTP、ポリメラーゼ及び/又はPCR緩衝液など)を含むが、これらに限定されない他の試薬を含むこともできる。
キットは、キットの成分を使用するための及び/又はリード対を生成するための指示書を含むこともできる。
本開示の技術は、他のクロマチンアセンブリ手順など他の技術と比較して、多くの利点を提供することができる。利点は、限定されないが、必要な入力DNA量の減少、プロトコルを完了する総合時間の短縮、プロトコルを完了する実地時間の短縮、DNA回収の改善、高価な及び/又は時間のかかる工程の除去、より容易な自動化、より容易なスケールアップ、及びより高いスループットを含む。
本明細書に開示された技術は、少量の入力DNAを必要とする場合がある。例えば、必要な入力DNAは、約5マイクログラム(μg)未満、約4.5μg未満、約4μg未満、約3.5μg未満、約3μg未満、約2.5μg未満、約2μg未満、約1.5μg未満、約1μg未満、約900ナノグラム(ng)未満、約800ng未満、約700ng未満、約600ng未満、約500ng未満、約400ng未満、約300ng未満、約200ng未満、又は約100ng未満であり得る。場合によっては、必要な入力DNAは約500ng未満である。
サンプルから配列決定ライブラリーを調製する経過時間(即ち「実時間」)の合計は短縮され得る。例えば、サンプルから配列決定ライブラリー(例えば、クロマチンアセンブリライブラリー)を調製する合計時間は、約5.5日未満、約5日未満、約4.5日未満、約4日未満、約3.5日未満、約3日未満、約2.5日未満、約2日未満、約1.5日未満、約1日未満、又は約0.5日未満である。場合によっては、配列決定ライブラリーを調製する合計時間は約2日未満である。
配列決定ライブラリーを調製するためにユーザー(例えば科学者又は専門家)から要求される活動時間(即ち「実施時間」)の量は短縮され得る。例えば、実施時間の量は、約8時間未満、約7時間未満、約6時間未満、約5時間未満、約4時間未満、約3時間未満、約2時間未満または約1時間未満である。場合によっては、配列決定ライブラリーを調製するための実施時間の量は約4時間未満である。
例えば架橋逆転(cross-link reversal)工程の後、回収されたDNAの量は、本明細書に開示された技術を使用して改善することができる。例えば、架橋逆転工程の後のDNA回収は、少なくとも5%、少なくとも10%、少なくとも15%、少なくとも20%、少なくとも25%、少なくとも30%、少なくとも35%、少なくとも40%、少なくとも45%、少なくとも50%、少なくとも55%、少なくとも60%、少なくとも65%、少なくとも70%、少なくとも75%、少なくとも80%、少なくとも85%、少なくとも90%、又は少なくとも95%であり得る。場合によっては、架橋逆転工程の後のDNA回収は少なくとも30%から少なくとも50%までである。
高価な又は時間のかかる工程を含む特定の工程は、本開示の技術を使用して回避することができる。例えば、配列決定ライブラリーは、透析を必要とすることなく調製され得る。配列決定ライブラリーは、クロマチンのビオチン化を必要とすることなく調整され得る。配列決定ライブラリーは、クロマチンのプルダウンを必要とすることなく調整され得る。配列決定ライブラリーは、ビオチンビーズの占有工程を必要とすることなく調整され得る。配列決定ライブラリーは、ExoIIIの消化物などの特定の消化物を必要とすることなく調整され得る。必要とされるクロマチンの量も減少することができる。例えば、以前のクロマチンアセンブリライブラリーの調製と比較して、必要とされるクロマチンの量は、少なくとも2倍、少なくとも3倍、少なくとも4倍、少なくとも5倍、少なくとも6倍、少なくとも7倍、少なくとも8倍、少なくとも9倍、又は少なくとも10倍減少され得る。必要とされるクロマチンの量は、約5ユニット未満、約4.5ユニット未満、約4ユニット未満、約3.5ユニット未満、約3ユニット未満、約2.5ユニット未満、約2ユニット未満、約1.5ユニット未満、約1ユニット未満、約0.9ユニット未満、約0.8ユニット未満、約0.7ユニット未満、約0.6ユニット未満、約0.5ユニット未満約0.4ユニット未満、約0.3ユニット未満、約0.2ユニット未満、約0.1ユニット未満であり得る。1ユニットのクロマチンは、クロマチンへとアセンブルされた1マイクログラム(μg)のDNAの等価物である。
図8に例示されるコンピュータシステム(500)は、媒体(511)及び/又はネットワークポート(505)から命令を読み出すことが可能な、論理的な装置として理解され、固定された媒体(512)を持つサーバー(509)に随意に接続され得る。図8に示されるものなどのシステムは、CPU(501)、ディスクドライブ(503)、キーボード(515)及び/又はマウス(516)などの随意の入力装置、及び随意のモニター(507)を含み得る。データ通信は、局所又は遠隔の位置でサーバーに対して示された通信媒体を通じて達成され得る。通信媒体は、データを送信及び/又は受信する任意の手段を含み得る。例えば、通信媒体は、ネットワーク接続、無線接続、又はインターネット接続であり得る。そのような接続は、ワールド・ワイド・ウェブ上での通信を提供することができる。本開示に関するデータは、図8に例示されるように当事者(522)による受理及び/又は検討のためにそのようなネットワーク又は接続によって伝達され得る。
図9は、本開示の実施形態の例と関連して使用され得るコンピュータシステム(100)の第1の例のアーキテクチャを示すブロック図である。図9に表されるように、コンピュータシステムの例は、命令を処理するためのプロセッサ(102)を含み得る。プロセッサの限定されない例は、以下を含む:Intel Xeon(商標)プロセッサ、AMD Opteron(商標)プロセッサ、Samsung 32-bit RISC ARM 1176JZ(F)-S v1.0(商標)プロセッサ、ARM Cortex-A8 Samsung S5PC100(商標)プロセッサ、ARM Cortex-A8 Apple A4(商標)プロセッサ、Marvell PXA 930(商標)プロセッサ、又は機能的に同等なプロセッサ。複数のスレッドの実行が並列処理のために使用され得る。幾つかの実施形態において、複数のプロセッサ、又は複数のコアを持つプロセッサはまた、単一のコンピュータシステム中でも、クラスターの中でも、又は、複数のコンピューター、携帯電話、及び/又は個人用携帯情報端末装置を含むネットワーク上のシステムにわたって分布されても、使用され得る。
図9に例示されるように、高速キャッシュ(104)は、プロセッサ(102)に接続するか、又はその中に組み込まれることで、プロセッサ(102)により近年使用されてきた又は頻繁に使用されている命令又はデータのための高速メモリを提供することができる。プロセッサ(102)は、プロセッサバス(108)によりノースブリッジ(106)に接続される。ノースブリッジ(106)は、メモリバス(112)によりランダムアクセスメモリ(RAM)(110)に接続され、プロセッサ(102)によりRAM(110)へのアクセスを管理する。ノースブリッジ(106)はまた、チップセットバス(116)によりサウスブリッジ(114)に接続される。サウスブリッジ(114)は次に、周辺バス(118)に接続される。周辺バスは、例えばPCI、PCI-X、PCI Express、又は他の周辺バスであり得る。ノースブリッジ及びサウスブリッジは頻繁に、プロセッサチップセットと称され、周辺バス(118)上でプロセッサと、RAMと、周辺コンポーネントとの間のデータ転送を管理する。幾つかの代替的なアーキテクチャにおいて、ノースブリッジの機能性は、別個のノースブリッジチップを使用する代わりにプロセッサに組み込まれ得る。
幾つかの実施形態おいて、システム(100)は、周辺バス(118)に付けられるアクセラレータカード(122)を含み得る。アクセラレータは、特定の処理を促進するためのフィールドプログラマブルゲートアレイ(FPGA)又は他のハードウェアを含み得る。例えば、アクセラレータは、適応データの再構築のために、又は、拡張設定処理に使用される代数式を評価するために使用され得る。
ソフトウェアとデータは、外部記憶装置(124)に記憶され、プロセッサによる使用のためにRAM(110)及び/又はキャッシュ(104)へとロードされ得る。システム(100)は、システムリソースの管理のためのオペレーティングシステムを含み;オペレーティングシステムの限定されない例は、以下を含む:Linux(登録商標)、Windows(商標)、MACOS(商標)、BlackBerry OS(商標)、iOS(商標)、及び他の機能的に同等なOS、同様に、本開示の実施形態の例に従ってデータの記憶と最適化を管理するためのオペレーティングシステム上で実行するアプリケーションソフトウェア。
この例において、システム(100)はまた、ネットワーク接続ストレージ(NAS)などの外部記憶装置、及び分散並列処理に使用され得る他のコンピュータシステムに対するネットワークインターフェースを提供するために、周辺バスに接続されるネットワークインターフェースカード(NIC)(120)及び(121)を含む。
図10は、複数のコンピュータシステム(202a)及び(202b)、複数の携帯電話及び個人用携帯情報端末(202c)、並びにネットワーク接続ストレージ(NAS)(204a)及び(204b)を含むネットワーク(200)を示す略図である。実施形態の例において、システム(202a)、(202b)、及び(202c)は、データ記憶を管理し、ネットワーク接続ストレージ(NAS)(204a)及び(204b)に記憶されたデータに対するデータアクセスを最適化することができる。数学モデルはこのデータに対して使用され、コンピュータシステム(202a)及び(202b)、並びに携帯電話及び個人用携帯情報端末システム(202c)にわたって分散並列処理を使用して評価され得る。コンピュータシステム(202a)及び(202b)、並びに携帯電話及び個人用携帯情報端末システム(202c)はまた、ネットワーク接続ストレージ(NAS)(204a)及び(204b)に記憶されたデータの適応データ再構築に対して並列処理を提供することができる。図10は一例のみを例示しており、様々な他のコンピューターのアーキテクチャ及びシステムは、本開示の様々な実施形態と共に使用され得る。例えば、ブレードサーバーは並列処理を提供するために使用され得る。プロセッサブレードは、並列処理を提供するためにバックプレーンを通じて接続され得る。ストレージはまた、別個のネットワークインターフェースを通ってバックプレーンに、又はネットワーク接続ストレージ(NAS)として接続され得る。
幾つかの実施形態の例において、プロセッサは、別個のメモリ空間を維持し、ネットワークインターフェース、バックプレーン、又は他のプロセッサによる並列処理のための他のコネクターを通じてデータを伝達することができる。他の実施形態において、プロセッサの幾つか又は全てが、共有仮想アドレスメモリ空間を使用することができる。
図11は、実施形態の例に従って共有仮想アドレスメモリ空間を使用するマルチプロセッサコンピュータシステム(300)のブロック図である。システムは、共有メモリサブシステム(304)にアクセス可能な複数のプロセッサ(302a-f)を含む。システムは、メモリサブシステム(304)に複数のプログラマブルハードウェアのメモリアルゴリズムプロセッサ(MAP)(306a-f)を組み込む。MAP(306a-f)は各々、メモリ(308a-f)及び1以上のフィールドプログラマブルゲートアレイ(FPGA)(310a-f)を含み得る。MAPは設定可能な機能ユニットを提供し、特定のアルゴリズム又はその一部は、各プロセッサと密接に協働して処理を行うためにFPGA(310a-f)に提供され得る。例えば、MAPは、データモデルに関する代数式を評価し、且つ実施形態の例における適応データの再構築を行なうために使用され得る。この例において、MAPは各々、このような目的のためのプロセッサ全てにより世界的にアクセス可能である。1つの構成において、MAPは各々、関連するメモリ(308a-f)にアクセスするためにダイレクトメモリアクセス(DMA)を使用することができ、それにより、各マイクロプロセッサ(302a-f)とは別個に、且つこれらから非同期的にタスクを実行することが可能となる。この構成において、MAPは、パイプライン処理(pipelining)及びアルゴリズムの並列の実行のために別のMAPに直接結果を供給することができる。
上述のコンピューターのアーキテクチャ及びシステムは単なる例であり、様々な他のコンピューター、携帯電話、個人用携帯情報端末のアーキテクチャ及びシステムは、共通のプロセッサ、コプロセッサ、FPGA、及び他のプログラム可能論理回路の任意の組み合わせを使用するシステム、システムオンチップ(SOC)、特定用途向け集積回路(ASIC)、及び他の処理要素と論理素子を含む実施形態の例と共に使用され得る。幾つかの実施形態において、コンピュータシステムの全て又は一部は、ソフトウェア又はハードウェアに実装され得る。様々なデータ記憶媒体が、例えばランダムアクセスメモリ、ハードドライブ、フラッシュメモリ、テープドライブ、ディスクアレイ、ネットワーク接続ストレージ(NAS)、及び他のローカル又は分散データ記憶装置及びシステムを含む実施形態の例と共に使用され得る。
実施形態の例において、コンピュータシステムは、上述の又は他のコンピューターのアーキテクチャ及びシステムの何れかで実行するソフトウェアモジュールを使用して実施され得る。他の実施形態において、システムの機能は、ファームウェア、図11で言及されるようなフィールドプログラマブルゲートアレイ(FPGA)などのプログラム可能論理回路、システムオンチップ(SOC)、特定用途向け集積回路(ASIC)、又は他の処理要素及び論理素子において部分的又は完全に実施され得る。例えば、セットプロセッサ及びオプティマイザは、図9に示されるアクセラレータカード(122)などのハードウェアアクセラレータカードの使用によるハードウェアアクセラレーションで実施され得る。
メタゲノミクス及び複合サンプル
生物学又は生医学的なサンプル、生態学又は環境的サンプル、及び食物サンプルの微生物含有量は、培養に依存した方法により頻繁に同定又は定量化される。多くの微生物が培養可能でなく、又は研究所内で培養できないため、かなりの量の微生物の生物多様性を、培養に基づく方法により見落としかねない。何千もの生物が平行して配列決定される、ショットガンメタゲノム配列決定方法により、与えられた複合サンプルに存在する大多数の生物における大多数の遺伝子を研究者が包括的にサンプリングすることが可能となる。この方法により、細菌の多様性の評価、及び解析が困難となり得る培養できない微生物に関する研究が可能となり得る。しかし、支持されていないショットガン配列決定方法は、基準配列無しに、又はde novoで配列をアセンブルすることが必要とされるような長期的な連鎖情報の一部のソース無しにアセンブルするのが困難となり得る、短いリード配列を含むかなりの数のリードを生成する。短いリードのショットガンデータ(例えばConStrains)の生物情報学解析は、ショットガンデータのみを必要とする場合があり;しかし、出力は、配列の機能によりビニングされる(binned)がアセンブルされないコンティグから成り、近年の水平移動セグメントは不正確にビニングされかねない。単一分子の長いリード配列決定(例えばPacific Biosciences & Oxford Nanopore Technologies MinION)は、長い範囲のアセンブリの可能性を提供する;しかし、これらは、適用範囲の乏しい低い存在量のゲノムを提供することができ、アセンブルされた塩基当たりのコストは比較的高価である。16S RNA増幅を使用して、群集16S RNAを深くサンプリングすることができ;しかし、この技術は系統差や病原性の型などを解決することなく、粗い分類の情報のみを提供する。合成の長いリード(例えばMoleculo,10X)は、コンティグの真の足場組みを提供することができ;しかし、サンプルの調整は複雑にされ且つ標準化されかねず、1つのサンプル当たりのコストはより高価になり、高レベルの汚染がMoleculoの研究において報告された。インビボでの近接ライゲーションは、長い範囲の足場組みを提供することができ、宿主を伴うゲノム外の要素(例えばプラスミド)を配することができる;しかし、これは無傷の細胞を必要とし、その結果、ゲノムの不均等なコンパクション又はDNA結合タンパク質との結合までもが原因で、近接データ中の群集成分の不均等な表示が生じかねない。
微生物群集は頻繁に、非常に不均等な存在量で、数十、数百、又は数千もの認識可能な操作的分類単位(OTU)で構成され、各々が様々な量の歪み変化を持つ。この問題が更に悪化すると、微生物は頻繁に、接合交換(conjugal exchange)の様々な手段を通じて遺伝物質を交換し、遺伝物質のこのようなセグメントは、それらの宿主の染色体へと組み込むことができ、その結果、細菌群集内の激しい水平方向の遺伝子移入が生じる。故に、微生物のゲノムは頻繁に、広く存在する遺伝子、及び特定の株に存在する又は存在しない場合もある他のもののコアゲノムに関して述べられる。ヒトの腸のマイクロバイオームなどの、複雑な微生物群集からの構成分子ゲノム、及び複雑な微生物群集の動力学についての説明は、重要且つ困難な問題である。
de novoメタゲノムのアセンブリが困難であったため、様々なより単純な方法が開発され、それらの成分を調べ且つ説明するために広く採用されてきた。例えば、16S RNA増幅及び配列決定は、群集の組成を評価するための共通の方法である。この方法は、様々な刺激又は処理の前後に微生物の群集の動力学を述べるために相対的なフレームワークで使用され得るが、それらの16S領域の外側の実際のゲノムについては何も学習されないため、実際の群集の組成についての非常に狭い見解をもたらす。ビニング方法も、ショットガンリード又はそれらからアセンブルされたコンティグを分類するのに役立つと証明されている。これらの方法は、OTUに対する分離されたゲノム断片の暫定的な割り当てを得るのに役立つ。しかし、前記方法は実質的に仮説を生み出すものであり、これらの断片を順序付けて配向し、又はOTU内で株に断片を割り当てるほどの力はない。重要なことに、前記方法は、現行の連鎖ではなく由来となるOTUを検出するため、水平に移動された配列を識別するのには不適当である。この観点から、k-量体の発生、配列決定の深さ、及び他の特徴に基づくこのようなビニング方法は、高度に隣接するアセンブリが信頼できて高速の経済的に合理的な方法ではこれまで可能ではなかったため、単離されたメタゲノミクス成分を理解するための一時しのぎの方法である。
本明細書に開示される技術は、既存の技術よりも様々な重要な利点をもたらす。先ず、我々の「シカゴ」ライブラリーは、広範囲のゲノム連鎖情報を提供することができ、迅速且つ確実に作成され得る。本明細書に記載されるように、プロトコルは、メタゲノムの群集に由来したDNAの特殊な特徴に対処することができる。配列決定ライブラリーは、2日未満で配列決定する準備ができた状態で生成され得る。加えて、完全にインビトロのプロトコルでこれらのライブラリーを生成することができるため、何れも培養は不必要となり得る。その後、原則としてこれらの技術は、DNAが回収され得る任意のマイクロバイオーム群集のメンバーをアセンブルすることができる。第3に、この方法は、de novoアセンブリ及び足場組みのための他の方法よりも単純で、速く、且つ完全である。
本明細書には、研究所環境において培養することができず且つ様々な環境に存在する微生物など、メタゲノムサンプル中の生物の遺伝子解析のための方法及びツールが開示される。本開示は、結合性のデータを含む複合メタゲノミクスデータセットからのリードデータのde novoゲノムアセンブリの方法を提供する。本明細書で開示される方法及び組成物は、メタゲノミクスサンプルにおいて複合種を均一且つ完全に表わす足場組みのデータを生成する。
図12Aは、近接ライゲーションのための手順の概要を示す。高分子量DNAなどのDNA(1201)は、ヒストン(1202)でインキュベートされ、次に、(例えばホルムアルデヒドで)架橋されて(1203)、クロマチン集合体(1204)を形成する。これは、更なる操作及び解析のために足場へとDNA分子をロックする。その後、DNAは消化され(1205)、消化された末端は、ビオチンなどのマーカーで充填される(1206)。その後、印を付けた末端を互いに無作為に連結し(1207)、次に連結された集合体は、例えばタンパク質消化により遊離される(1208)。その後、マーカーを使用して、ストレプトアビジン-ビオチン結合などを通じてライゲーション結合(1209)を含むDNA分子を選択することができる。その後、これらの分子を配列決定することができ、各リード対におけるリードはソース分子の2つの異なる領域に由来し、幾つかの挿入物により入力DNAの大きさにまで分離される。
図12Bは、別々に又は一緒に利用され得る、メタゲノム解析のためのサンプル調製のための2つのパイプラインを示す。単一のDNA調製物(1210)(例えば排泄物サンプル由来)がプロセスに入力される。排泄物サンプルの場合、集めたDNAは、Qiagenの排泄物DNAキットを使用した調製などに由来する、およそ50キロベースの断片であり得る。このDNAから、インビトロでのクロマチンアセンブリ(1211)(例えば「Chicago」)及びショットガン(1212)ライブラリーの調製物を作ることができる。クロマチンアセンブリライブラリー(1213)及びショットガンライブラリー(1214)は、互いに異なるバーコード(1215)及び(1216)を使用することができる。その後、これら2つのライブラリーは配列決定のためにプールすることができる(1217)。そのようなプロトコルを使用すると、単一のDNA調製物は、2つの配列決定ライブラリーであるショットガン及びインビトロでのクロマチンアセンブリのための入力として機能し得る。1μg未満の入力DNAは、両方のライブラリーを生成することを要求され、これらのライブラリーは、配列決定中にプールするために個々にバーコードを付けることができる。その後、これらのデータは、最初にコンティグへとアセンブルされ、次にインビトロでのクロマチンアセンブリライブラリーからの長い範囲の連鎖情報を使用して足場組みされ得る。これらのデータは、1メガベースより大きな多くの足場を生成し、現在利用可能なものよりも微生物のゲノム構造及び動力学の包括的な観点を可能にする。サンプルから高度に隣接するアセンブリまで進む処理時間は1週未満であり得る。
図12Cは、本開示の手順で利用され得る足場組み技術の典型的な概要を示す。インビトロでのクロマチンアセンブリのリード対を使用し、コンティグの全域木(図示せず)を生成して、どのコンティグ(色つきの矢印)が正確なアセンブリにおいて互いに近接するのかを判定することができる。その後、ローカルウィンドウ(例えば(1220))内で、全ての起こり得る順序付け及び配向を、インビトロでのクロマチンアセンブリデータに対して試験することができる。図1Cに示されるように、緑のコンティグ(1221)の2つの起こり得る配向において、インビトロでのクロマチンアセンブリ対(1222)は、短距離(上部)又は更に長い距離(底部)にまたがる。各々の尤度は、各ライブラリーのために訓練されたインビトロでのクロマチンアセンブリの距離のモデルと比較することができる。近接ライゲーション中に、2つのセグメントを連結する可能性は、2つのセグメントがDNAの線状重合体に沿っている距離がどのくらい離れているかに関するゆっくりと減少する関数により、説明することができる。故に、同じ単一のライブラリーからの短い、中度の、及び長い距離全てをまたぐ対が、回収される。特定の距離の可能性は、減少する指数法則関数により十分にモデル化され得る。即ち、一層長くなる距離にまたがるリード対を観察することは、ますます起こりそうにない。本明細書に開示されるアセンブリ技術(例えば「HiRise」)は、足場へとコンティグを正確に順序付け且つ配向するためにデータのこのファセットを開発することができる。
対象の方法の幾つか実施形態は、近接ライゲーション、及びインビトロでアセンブルされたクロマチン集合体の配列決定を含み、該集合体は、メタゲノムDNAサンプル、又は、例えば生物医学又は生物学的サンプル、生態学又は環境的サンプル、又は食物サンプルなどのサンプルから直接得られる培養されない微生物由来のDNAサンプルを含む。互換的な実施形態において、核酸は、複合体へとアセンブルされ、結合され、内部の二本鎖切断をさらすために切断され、単離及に切断の結合促すように標識され、再び連結することで、配列決定されるペアエンドを生成する。幾つかのそのようなペアエンド配列において、ペアエンドのリードの両末端は、対となったリードの配列が別個のコンティグにマッピングされる場合でさえ、共通の核酸分子にマッピングされると推測される。
同様の好ましい実施形態において、結合した複合体のさらされた末端は、核酸バーコードなどの識別子を使用してタグ付けされ、それにより複合体がタグ又はバーコードを付けられ、結果としてタグに隣接した配列は単一の核酸から恐らく生じると推測される。再び、共通してバーコードを付けた配列は、多数のコンティグにマッピングされ得るが、その後、コンティグは共通の核酸分子にマッピングされると推測される。
同様の好ましい実施形態において、複合体は、核タンパク質、トランスポサーゼ、転写因子、トポイソメラーゼ、特異的又は非特異的な二本鎖DNA結合タンパク質、又は他の適切なタンパク質などの、ヒストン以外の核酸結合タンパク質の追加を通じてアセンブルされる。代替的に又は組み合わせで、複合体は、ヒストン又は他の核酸結合タンパク質ではなくナノ粒子を使用してアセンブルされる。
同様の好ましい実施形態において、自然に生じる複合体は、核酸複合体の連鎖情報を保存することに依存する。幾つかのそのような場合、核酸は、自然にアセンブルされた複合体を保存するように単離され、又は、処置或いは単離の前に固定剤などの安定剤で処理される。
任意のアセンブルされた又は単離された複合体において、架橋は、幾つかの場合に核酸複合体形成を安定させることに依存し得るが、他の場合、核酸結合部分の相互作用は、架橋が無い状態で複合体の完全性を維持するのに十分なものである。
本明細書中の方法と組成物は、単独で、又はショットガン配列決定データなどの、独立して得られた又は生成された配列データと組み合わせて、異種の核酸サンプルにおいてゲノム、染色体、又は独立した核酸分子に関するゲノム情報のアセンブリを生成することができる。ゲノムは、ヒトの口又は腸のマイクロバイオームなどの、及び培養中に増殖しない生物を含む、広範囲のメタゲノミクス群集における豊富な又は稀な生物といった、培養可能又は培養不能な生物を表わしてアセンブルされ得る。生物はまた、多数の異なるヒト個体からの細胞又は核酸を含有するサンプルなどの、他の個体の混合群又は集団からの遺伝物質を持つサンプルにおける個体であり得る。本開示の方法は、場合によっては広く利用可能なハイスループット配列決定技術を使用して、ゲノムのハイスループットの培養の無い(culture-free)アセンブリに、迅速かつ単純な方法を提供する。
標的に依存しない微生物検出の適用
生物学又は生医学的なサンプル、生態学又は環境的なサンプル、工業用微生物サンプル、及び食物サンプルの微生物含有量は、培養に依存した方法により頻繁に同定又は定量化される。微生物の培養は、pH、温度、湿度、及び栄養素を含むがこれらに限定されない様々な要因に依存し得る。未知の又は以前に培養されていない生物のための培養条件を決定することは、頻繁に時間を消耗し且つ困難なプロセスである。
多くの微生物は現在、研究所で培養することができない。かなりの量の微生物の生物多様性が、培養に基づく方法により見落とされてしまう。本開示の方法及び組成物は、研究所環境において培養することができず且つ様々な環境に存在する微生物又はウイルスなど、メタゲノムサンプル中の生物の遺伝子解析に適用され得る。メタゲノムのサンプルの制限されない例は、組織、尿、汗、唾液、痰、及び糞便を含む生物サンプル;空気及び大気;池、湖、海、海洋などの水域から水サンプル;土壌及び泥などの生態学的サンプル;及び食品を含む。様々なメタゲノムサンプル中の微生物含有量の解析は、医学、科学捜査、環境モニタリング、及び食品科学を含むがこれらに限定されない用途に役立つ。
微生物のパネルを含む、個々の微生物又は「微生物シグネチャ(microbial signature)」又は「微生物フィンガープリント」は、は、被験体、例えばヒト又は他の動物などの哺乳動物被験体から得られた生物学又は生医学的なサンプルにおいて同定される。幾つかの態様において、そのような情報は医療の用途又は目的のために使用される。幾つかの態様において、同定は、微生物の属又は種、或いはバクテリア菌株に対する抗生物質抵抗を与えることができる突然変異などの、以前に同定されていない又は共通でない遺伝子突然変異を持つ微生物の属又は種の存在又は不在を判定することを含む。幾つかの態様において、同定は、1つ以上の微生物の種又は1つ以上の微生物の属から微生物DNAのレベルを判定することを含む。場合によっては、微生物シグネチャ又はフィンガープリントは、サンプル中の異なる属又は種からの微生物DNAのレベルと比較して増大した或いは著しく高い、特定の属又は種の微生物DNAのレベルを示す。幾つかの態様において、サンプルの微生物シグネチャ又はフィンガープリントは、サンプル中の他の属又は種からの微生物DNAのレベルと比較して減少した或いは著しく低い、特定の属又は種の微生物DNAのレベルを示す。幾つかの態様において、サンプルの微生物シグネチャ又はフィンガープリントは、サンプル中に存在する様々な型の微生物(例えば、異なる属又は種)の微生物DNAのレベルを定量化することにより判定される。幾つかの態様において、サンプル中に存在する様々な属又は種の微生物DNAのレベルが判定され、対照サンプル又は標準のものと比較される。
幾つかの態様において、病気を患う疑いのある被験体の微生物の属又は種の存在は、微生物の属又は種により引き起こされている病気を患うと確信を持って診断される。場合によっては、この情報を使用して、微生物の属又は種が例えば接触又は接近により他の個体に伝染可能であると疑われる場合、他の個体から個体を隔離する。場合によっては、サンプルに存在する微生物又は微生物種に関する情報を使用し、特定の医療処置を決定して、被験体の微生物を排除し、且つ例えば細菌感染を処置する。
幾つかの態様において、サンプル中の特定の属又は種の微生物DNAのレベルが減少する、又は対照サンプル或いは標準よりも著しく低い場合、サンプルを採取された被験体は、例えば癌(例えば乳癌)などの疾患に悩んでいると診断される。幾つかの態様において、サンプル中に存在する様々な属又は種の微生物DNAのレベルが判定され、サンプル中に存在する他の様々な属又は種の間で比較される。幾つかの態様において、サンプル中の特定の属又は種の微生物DNAのレベルが減少する、又はサンプル中で検出される他の微生物の属又は種の微生物DNAよりも著しく低い場合、DNAを採取された被験体はおそらく、例えば癌などの疾患に悩んでいる。
微生物のパネルを含む個々の微生物又は「微生物シグネチャ」又は「微生物フィンガープリント」は、環境又は生態学的なサンプル、例えば空気サンプル、水サンプル、及び土壌或いは泥サンプルにおいて同定される。幾つかの態様において、微生物の同定、及び環境又は生態学的サンプル中の微生物の多様性の解析を使用して、生態系に対する汚染物質の影響をモニタリングし且つ汚染された環境をきれいにするための戦略を改善する。どのようにして微生物群集が汚染物質に対処するかについての理解の向上は、汚染された部位が汚染から回復する可能性の評価を改善し、生物増強又は生物刺激の可能性を増大させる。そのような情報は、環境群集の機能的な生態学に対する有益な見識を提供する。微生物の解析も場合によってはより広範囲に使用して、空気、水、特定の水域、及び土壌と泥のサンプルに存在する種を同定する。これを使用して、例えば侵襲的な種及び絶滅危惧種の範囲を確立し、且つ季節的な集団を追跡することができる。
環境又は生態学的なサンプル中の微生物群集の同定及び解析も、農業の用途に役立つ。微生物のコンソーシアムは、植物の成長に必要な種々様々な生態系の役目を実行し、空中窒素の固定、栄養循環、疾患の抑止、及び鉄や他の金属の隔離を含む。そのような情報は例えば、作物と家畜における疾患検出、及び微生物と植物との関係の利用により作物の健康を改善する増強された農業慣習の順応を改善するのに有用である。
幾つかの実施形態において、微生物のパネルを含む個々の微生物又は「微生物シグネチャ」又は「微生物のフィンガープリント」は、微生物の産業上のサンプル、例えば、精密化学薬品、農薬及び調合薬などの様々な生物学的に活性の化学物質を産生するために使用される微生物群集において同定される。微生物の群集は多くの生物学上活性な化学物質を産生する。
配列解析に基づいた微生物の検出及び同定も、食品安全性、食物確実性、及び不正行為も検出に役立つ。例えば、メタゲノムサンプル中の微生物の検出及び同定は、腐敗又は汚染の疑いのある食物において、細菌、ウイルス、及び寄生虫を含む、培養可能でない且つ以前に知られていない病原体の検出及び同定を可能にする。米国での食品媒介疾患の約80パーセントが、食中毒を引き起こすとまでは認められない既知の薬剤、食物中にあるが病原性は証明されていない物質、及び未知の薬剤を含む無指定の薬剤により引き起こされるという推定により、全集団の微生物の解析は、食中毒を減らす機会を提供することができる。食物の全体的な供給の認識の増大、及び魚介類と甲殻類などの食物を調達する際の持続可能な慣習の認識の増大により、微生物検出は、食物の確実性を評価するのに、例えば、世界の特定の区域で獲れたものであることを主張する魚が本当にその区域で獲れたものかを判定するのに有用である。
異種のサンプルにおける連鎖測定の適用
本明細書中の方法の適用はまた、異種のサンプル中の既知又は未知の分子のための連鎖測定に関連する。また、本明細書では、新しい生物検出に加えて異種のサンプル中の連鎖情報の測定に関連した適用も熟慮される。幾つかの実施形態において、連鎖情報は、異種の核酸サンプル中の染色体などの核酸について判定される。複数の個体からのDNAを含むサンプルが得られ、犯罪現場、便器又はトイレ、戦場、流し、又はゴミ廃棄物からのサンプルなどがある。核酸配列情報は、例えばショットガン配列決定を介して得られ、連鎖情報が判定される。頻繁に、個体の固有なゲノムの情報は、単一の遺伝子座によっては同定されないが、一塩基多型(SNP)、挿入又は欠失(in/del)、又は点突然変異、又は特性の固有或いは実質的に固有の遺伝子の組み合わせを総体的に表わす対立遺伝子などの遺伝子座の組み合わせにより識別される。多くの場合、個体の特性は特定の個体を同定するのに十分ではない。しかし、本明細書中の方法の実行を通じて利用可能となるような連鎖情報を使用すると、異種のサンプルに存在する集合した対立遺伝子だけでなく、当該技術分野で利用可能なショットガン又は代替的なハイスループット配列決定方法も同様に同定するが、サンプル中の特異的な分子に存在する対立遺伝子の特異的な組み合わせも判定する。故に、サンプル中の特定の対立遺伝子だけでなく、ゲノム情報が以前に得られたゲノム配列又は親類から利用可能な配列情報を介して利用可能である特定の個体に、対立遺伝子の組み合わせをマッピングするのに必要な染色体上でこれら対立遺伝子の組み合わせも判定する。連鎖情報はまた、遺伝子が異種のサンプルに存在すると知られている場合には有益であるが、ゲノムのコンテキストは未知である。例えば、場合によっては、個体は抗生物質治療に耐性のある有害な感染症を抱くことが分かっている。ショットガン配列決定はおそらく、抗生物質耐性遺伝子を同定する。しかし、本明細書中の方法の実行を通じて、有益な情報は、抗生物質耐性遺伝子のゲノムのコンテキストに関して獲得される。故に、抗生物質耐性遺伝子だけでなく、それが存在する生物のゲノムも同定することにより、そのゲノム情報の残りに照らして抗生物質耐性遺伝子宿主を標的とするための代替的な処置を同定することができる。例えば、耐性菌には存在せず、又は第2の抗生物質に対し脆弱性の代謝経路が標的とされ、それにより、第1の選択肢の場合に抗生物質に耐性があるにもかかわらず、耐性菌は取り除かれる。代替的に、患者における抗生物質耐性遺伝子の宿主に関する、より完全なゲノムの情報を使用して、耐性遺伝子が「野生の」微生物の生物から生じるかどうか、或いは、研究所から「逃げた」又は故意に放された微生物の研究所株からおそらく発生したかどうかを判定する。
サンプル
微生物が検出されるサンプルは、微生物の集団又は異種の核酸集団を含む任意のサンプルであり得る。例として、ヒト被験体又は動物被験体からの生物学又は生医学的なサンプル;池、湖、海、海洋などからの水サンプルといった土壌及び水のサンプルを含むがこれらに限定されない、環境及び生態学的なサンプル;又は、傷んでいる又は汚染されている疑いのある食物が挙げられる。
生物学的サンプルは生物学的被験体から得ることができる。被験体は、ヒト、ヒト以外の霊長類、げっ歯類、イヌ、ネコ、ブタ、魚類などを含むがこれらに限定されない、任意の動物(例えば哺乳動物)を指し得る。サンプルは、任意の被験体、個体、又は、例えば哺乳動物及び非哺乳動物、脊椎動物及び無脊椎動物を含むヒト又は非ヒト動物を含む生物学的ソースから得ることができる。サンプルは、例えば、皮膚、心臓、肺、腎臓、乳房、膵臓、肝臓、筋肉、平滑筋、膀胱、胆嚢、結腸、腸、脳、前立腺、食道、及び甲状腺を含む組織サンプルなどの、感染又は汚染された組織サンプルを含み得る。サンプルは、例えば血液、尿、脳脊髄液、精液、唾液、痰、便といった、感染又は汚染された生物学的サンプルを含み得る。
場合によっては、異種のサンプルは、少なくとも2以上の個体に由来する核酸を含み、2以上の個体により使用される便器又はトイレ、或いは、戦場又は犯罪現場などの、少なくとも2の個体の血液又は組織が混じった場所から得られたサンプルなどである。
本明細書に開示される方法の実行を通じた、サンプルのための連鎖情報
サンプルを得る方法は、適切なサンプルの型及び所望の用途のために選択され得る。例えば、組織サンプルは、外科的処置の間に生検又は切除により得られ;血液は静脈穿刺により得られ;及び、唾液、痰、及び便は、レセプタクルにおいて個体により自己提供され得る。
幾つかの態様において、便サンプルは、哺乳動物(例えば、ヒト以外の霊長類、ウマ、ウシ、イヌ、ネコ、ブタ、及びヒト)などの動物に由来する。便サンプルは任意の適切な重量であり得る。便サンプルは、少なくとも50g、60g、70g、80g、90g、100g、110g、120g、130g、140g、150g又はそれ以上であり得る。便サンプルは水を含み得る。幾つかの態様において、便サンプルは、少なくとも60%、65%、70%、75%、80%、85%、90%、又はそれ以上の水を含み得る。幾つかの態様において、便サンプルは保管される。便サンプルは、2-8℃で数日間(3-5日間)、又は-20℃の温度で長期間(例えば5日より長く)保管され得る。幾つかの態様において、便サンプルは、個体又は被験体により提供され得る。幾つかの態様において、便サンプルは、便が堆積される場所から集めることができる。幾つかの態様において、便サンプルは、予め定められた期間にわたり1つの個体から集められた複数のサンプルを含み得る。複数の時点での期間にわたり集められた便サンプルを使用して、例えば感染のための処置の経過中に、個体の便における生物多様性をモニタリングすることができる。幾つかの態様において、便サンプルは、様々な個体、例えば、同じ病原体に感染した又は同じ疾患を患った疑いのある様々な個体からのサンプルを含む。
場合によっては、サンプルは、微生物の集団又は群集を含む、環境又は生態学的なサンプルを含む。環境サンプルの限定されない例は、大気又は空気のサンプル、土壌又は泥のサンプル、及び水サンプルを含む。空気サンプルを解析して、空気、例えば健康を脅かすと考えられる微生物、例えば病気を引き起こすウイルスが存在する疑いのある区域の空気の微生物の組成を測定することができる。幾つかの態様において、空気サンプルの微生物の構成の理解は、環境の変化をモニタリングするために使用され得る。
水サンプルは、公共の安全性と環境のモニタリングを含むがこれらに限定されない目的のために解析され得る。水サンプル、例えば飲料水供給リザーバーからのサンプルを解析して、飲料水供給量における微生物の多様性、及びヒトの健康に対する潜在的な影響を測定することができる。水サンプルを解析して、大気中の気体の局所的な温度及び組成における変化から結果として生じる、微生物環境に対する影響を測定することができる。水サンプル、例えば池、湖、海、海洋、又は他の水域の水サンプルは、その年の様々な時点でサンプリングすることができる。幾つかの態様において、複数のサンプルがその年の様々な時点で得られる。水サンプルは、水域の表面から様々な深さで集めることができる。例えば、水サンプルは、水域の表面で、又は水域の表面から少なくとも1メートル(例えば、少なくとも2、3、4、5、6、7、8、9メートル以上)で集めることができる。幾つかの態様において、水サンプルは、水域の底から集めることができる。
土壌及び泥のサンプルをサンプリングして、微生物の多様性を研究することができる。土壌サンプルは、土壌及び水中のウイルス及び細菌の動作に関する情報を提供することができ、且つ生物的環境浄化に有用であり、そこでは、遺伝子工学を適用して、危険な汚染物質を分解することができる土壌微生物を開発することができる。土壌の微生物群集は、例えば1グラムの土壌において推定される2,000~18,000の異なるゲノムに及ぶ、実質的な数の遺伝子情報を含有する、何千もの異なる生物を持つことができる。土壌サンプルは表面から様々な深さで集めることができる。幾つかの態様において、土壌は表面で集められる。幾つかの態様において、土壌は、表面よりも少なくとも1(例えば、少なくとも2、3、4、5、6、7、8、9、10、又はそれ以上)の深さで集められる。幾つの態様において、土壌は、表面よりも1-10の間(例えば、2-9、3-8、4-7、又は5-6)の深さで集められる。土壌サンプルは、その年の間の様々な時点で集めることができる。幾つかの態様において、土壌サンプルは、冬、春、夏、又は秋など特定の季節に集められる。幾つかの態様において、土壌サンプルは特定の月に集められる。幾つかの態様において、土壌サンプルは、トルネード、ハリケーン、又は雷雨を含むがこれらに限定されない環境現象の後に集められる。場合によっては、複数の土壌サンプルが、時間的経過にわたる微生物の多様性のモニタリングを可能にするための期間にわたって集められる。土壌サンプルは、農業生態系、森林生態系、及び様々な地理的地域の生態系などの様々な生態系から集めることができる。
食物サンプルは、汚染、腐敗、ヒト病気の原因の疑いがある、或いは、対象の微生物又は核酸を持つ疑いがある食物であり得る。食物サンプルは、1つの工場などにおいて小規模で産生され得る。食物サンプルは、大きな食物生産又は食品加工の工場などにおいて工業規模で産生され得る。限定されない食物サンプルの例は、生又は調理済みの魚介類、甲殻類、生又は調理済みの卵、牛肉、豚肉及び鶏肉を含む加熱が不十分な肉、低温殺菌していない牛乳、低温殺菌していないソフトチーズ、未加工のホットドッグ、及びデリ・ミートを含む動物性食品;生鮮品及びサラダを含む植物製品;生鮮品及びフルーツジュースなど果物製品;及び、自家製の缶詰、大量生産缶詰、及びサンドイッチなどの加工及び/又は調理済み食品を含む。幾つの態様において、解析のための食物サンプル、例えば汚染されている又は傷んでいる疑いがある食物サンプルは、例えば20℃~25℃の室温で保管され得る。幾つかの態様において、食物サンプルは、20℃、18℃、16℃、14℃、12℃、10℃、8℃、6℃、4℃、2℃、0℃、-10℃、-20℃、-40℃、-60℃、又は-80℃未満の温度など、室温未満の温度で保管された。幾つかの態様において、食物サンプルは、26℃、28℃、30℃、32℃、34℃、36℃、38℃、40℃、又は50℃より上の温度など、室温より上の温度で保管された。幾つかの態様において、食物サンプルは未知の温度で保管された。食物サンプルは、例えば1日、1週、1か月、又は1年など、特定の期間にわたり保管され得る。場合によっては、食物サンプルは、少なくとも1日、1週、1か月、6か月、1年、2年、又はそれ以上にわたり保管された。食物サンプルは腐敗しやすく、保管期間の制限がある。製造工場で産生された食物サンプルは、特定の生産ロット又は生産期間から得ることができる。食物サンプルは、様々な群集における様々な店、及び様々な製造工場から得られる場合もある。
核酸分子
核酸分子(例えばDNA又はRNA)は、タンパク質、脂質、及び非鋳型核酸などの、様々な他の成分を含有するメタゲノムサンプルから単離することができる。核酸分子は任意の細胞材料から得られ、動物、植物、細菌、真菌類、又は他の細胞生物から得られ得る。本開示での使用のための生物学的サンプルは、ウイルスの粒子又は調製も含む。核酸分子は、生物から直接、或いは、生物から得た生物学的サンプル、例えば血液、尿、脳脊髄液、精液、唾液、痰、便、及び組織から得られ得る。核酸分子は、生物から直接、或いは、生物から得た環境サンプル、例えば空気サンプル、水サンプル、及び土壌サンプルから得られ得る。核酸鋳型は、傷んでいる又は汚染されている疑いのある食物サンプル、例えば肉サンプル、農産物サンプル、果物サンプル、生食品サンプル、加工食品サンプル、冷凍食品サンプルなどから直接得られ得る。
核酸は、様々な方法を使用して抽出且つ精製される。場合によっては、核酸は、フェノール、フェノール/クロロホルム/イソアミルアルコール、或いはTRIzol及びTriReagentを含む同様の製剤での有機抽出により精製される。抽出技術の他の限定されない例は、以下を含む:(1)自動核酸抽出器、例えばApplied Biosystems(Foster City, Calif.)から入手可能なModel 341 DNA Extractorの使用を伴う又は伴わない、例えばフェノール/クロロホルムの有機試薬(Ausubel et al., 1993)を使用する、エタノール沈殿を伴う有機抽出;(2)固定相吸着法(米国特許第5,234,809号;Walsh et al., 1991);及び(3)典型的に「塩析」方法と称される沈澱法などの、塩で誘導された核酸沈澱法(Miller et al., 1988)。核酸の単離及び/又は精製は、磁性粒子の使用を含み、核酸は特異的又は非特異的にその粒子に結合し、その後磁石を使用してビーズを単離し、洗浄し、ビーズから核酸を溶出することができる(例えば米国特許第5,705,628号を参照)。幾つかの実施形態において、サンプルから不要なタンパク質を取り除くのに役立つ酵素消化工程、例えばプロテイナーゼK又は他のプロテアーゼによる消化の後に、上記の単離法があってもよい。例えば米国特許第7,001,724号を参照のこと。必要に応じて、RNase阻害剤を、溶解緩衝液に添加することができる。特定の細胞又はサンプル型について、手順にタンパク質変性/消化工程を加えることができる。精製法は、DNA、RNA、又はその両方を単離することを目的とされ得る。抽出手順の間又はその後にDNAとRNAの両方が一緒に単離されると、更なるステップを利用して、一方又は両方を他とは別々に精製することができる。例えば、サイズ、配列、又は他の物理的若しくは化学的特性に基づく精製により、抽出した核酸の細画分を生成することもできる。最初の核酸単離工程に加えて、本開示の方法における任意の工程の後に、過剰な又は不要な試薬、反応物、又は産物を除去するなどのために、核酸の精製を実施することができる。場合によっては、RNAでコードされたゲノムの検出が熟慮されるなどの場合、核酸サンプルは逆転写酵素で処理され、その結果、相補的DNA分子の合成のための鋳型として核酸サンプル中のRNA分子が役立つ。場合によっては、そのような処置は核酸サンプルの下流の解析を容易にする。
核酸の鋳型分子は、2003年10月9日に公開された米国特許出願公開第2002/0,190,663号A1に記載の通り得ることができる。場合によっては、核酸は、Maniatisら、Maniatis, et al., Molecular Cloning: A Laboratory Manual, Cold Spring Harbor, N.Y., pp. 280-281 (1982)、及び周知の研究所リソースに対する近年の更新版に記載されるものなど、様々な技術によって生体サンプルから抽出される。核酸は、最初に生体サンプルから抽出され、次いでインビトロで架橋され得る。天然の会合タンパク質(例えばヒストン)を、核酸から更に除去することができる。
本明細書に開示される方法は、例えば、組織、細胞培養、体液、動物組織、植物、細菌、真菌、ウイルスなどから単離されるDNAを含めた、任意の高分子量二本鎖DNAに容易に適用することができる。
複数の独立したサンプルの各々は、少なくとも約1ng、2ng、5ng、10ng、20ng、30ng、40ng、50ng、75ng、100ng、150ng、200ng、250ng、300ng、400ng、500ng、1μg、1.5μg、2μg、5μg、10μg、20μg、50μg、100μg、200μg、500μg、又は1000μg、又はそれ以上の核酸材料を独立して含み得る。場合によっては、複数の独立したサンプルの各々は、約1ng、2ng、5ng、10ng、20ng、30ng、40ng、50ng、75ng、100ng、150ng、200ng、250ng、300ng、400ng、500ng、1μg、1.5μg、2μg、5μg、10μg、20μg、50μg、100μg、200μg、500μg、又は1000μg未満又はより多くの核酸を独立して含み得る。
核酸を定量化する様々な方法が利用可能である。核酸を定量化する方法の限定されない例は、分光光度解析、及び、例えば臭化エチジウムなどの、核酸に結合し且つ結合時に蛍光を発する色素の蛍光強度の測定を含む。
核酸複合体
メタゲノム又は他の異種のサンプル(複数可)からのDNAを含む核酸は、場合によっては、核酸複合体を形成するために会合分子又は核酸結合部分に結合される。場合によっては、核酸複合体は、ポリペプチドなどの複数の会合分子又は部分に結合された核酸;非タンパク質有機分子;及びナノ粒子を含む結合剤は、場合によっては接触の複数の点で個々の核酸に結合し、それにより、これら接触の点でのセグメントは、それらの共通のリン酸ジエステル骨格とは独立して一緒に保持される。
場合によっては、核酸の結合は、核酸分子のセグメント間での連鎖、例えば共有結合の形成を含む。連鎖は、核酸分子の離れたセグメント間で形成することができる。場合によっては、核酸複合体を形成するための核酸の結合は、核酸の会合分子又は部分(核酸結合分子又は部分とも称される)への架橋を含む。場合によっては、会合分子は、ペプチド、及びDNA結合タンパク質などのタンパク質を含むがこれらに限定されない、アミノ酸を含む。典型的なDNA結合タンパク質は、ヒストン、例えばヒストン2A、2B、3A、3B、4A、及び4Bなどの天然のクロマチン成分を含む。場合によっては、複数の核酸結合部分は、再構成されたクロマチン又はインビトロでアセンブルされたクロマチンを含む。クロマチンは、長さ約150kbpであるDNA分子から再構成することができる。場合によっては、クロマチンは、長さが少なくとも50、100、125、150、200、250kbp以上のDNA分子から再構成される。場合によっては、結合タンパク質は転写因子又はトランスポサーゼを含む。非タンパク質有機分子はまた本明細書中の開示に適合し、プロタミン、スペルミン、スペルミジン、又は他の正電荷分子などがある。場合によっては、会合分子は、正電荷の表面を持つナノ粒子などのナノ粒子を含む。多くのナノ粒子組成物が、本明細書中の開示に適合する。幾つかの態様において、ナノ粒子は、負電荷核酸を結合するように正のコーティングで覆われたシリコンなどのシリコンを含む。場合によっては、ナノ粒子は白金ベースのナノ粒子である。ナノ粒子は磁性であり、これにより架橋された配列セグメントの単離が容易になり得る。
核酸は、本明細書中の開示と一致する様々な方法により会合分子に結合される。場合によっては、核酸は会合分子に架橋される。架橋の方法は、紫外線照射、化学的及び物理的(例えば、光学的)な架橋を含む。化学架橋剤の限定されない例は、ホルムアルデヒド及びソラレンを含む(Solomon et al., Proc. Natl. Acad. Sci. USA 82:6470-6474, 1985; Solomon et al., Cell 53:937-947, 1988)。場合によっては、架橋は、核酸分子及びクロマチンタンパク質を含む混合物に約2%のホルムアルデヒドを含む溶液を加えることにより行なわれる。架橋DNAに使用され得る薬剤の他の限定されない例は、マイトマイシンC、ナイトロジェンマスタード、メルファラン、1,3-ブタジエンジエポキシド、シス-ジアミンジクロロ白金(II)、及びシクロホスファミドを含むがこれらに限定されない。場合によっては、架橋剤は、約2Å、3Å、4Å、又は5Åなどの比較的短距離で架橋する架橋を形成する。
場合によっては、核酸複合体、例えばインビトロでアセンブルされたクロマチン(本明細書ではクロマチン集合体と称される)に結合した核酸は、ビーズ、例えば磁気ビーズを含むがこれらに限定されない固体支持体に結合される。
幾つかの実施形態において、核酸複合体は、抽出の後又は同時にアセンブルされるのではなく、サンプルに存在する。頻繁に、そのような状況での核酸複合体は、天然のヌクレオソーム、又はサンプルの核酸に複合化される他の天然の核酸結合分子を含む。
天然の又は後に生成される核酸複合体は、場合によっては独立して安定している。場合によっては、天然の又は後に生成される核酸複合体は、架橋剤での処理により安定させられる。
クロマチン再構成
結合部分として再構成されたクロマチンは、多くの方法により遂行される。本明細書で熟慮されるような再構成されたクロマチンは、裸の核酸への幅広い数の結合部分の結合を包含するために広く使用される。結合部分はヒストン及びヌクレオソームを含むが、再構成されたクロマチンの幾つかの解釈は、転写因子、トランスポゾン、又は他のDNAなどの他の核タンパク質、或いは他の核酸結合タンパク質、スペルミン又はスペルミジン、或いは他の非ポリペプチド核酸結合部分、有機又は無機のナノ粒子核酸結合剤などのナノ粒子も含む。
場合によっては、再構成されたクロマチンは、天然の核酸上へのヒストン又はヌクレオソームのリアセンブリなど、裸の核酸上への天然のクロマチン成分又は天然のクロマチン成分の同族体のリアセンブリに関して使用される。
クロマチンを再構成する2つの方法は、(1)DNA上へのヒストンのATPに依存しないランダム沈着、及び(2)周期性ヌクレオソームのATP依存性アセンブリを含む。本開示は、本明細書に開示される1つ以上の方法を含む何れかの方法の使用を熟慮する。クロマチンを生成する両方法の例は、全体において引用により本明細書に組み込まれる、Lusser et al. (“Strategies for the reconstitution of chromatin,” Nature Methods (2004), 1(1):19-26)に見出すことができる。
クロマチンを再構成する他の方法は、裸の核酸へのヌクレオソーム又はヒストンの追加として厳密に定義されても、又は裸の核酸への任意の部分の追加として広く定義されても、本明細書で考慮され、クロマチンの組成もその再構成に対する方法も、幾つかの実施形態における制限とは考慮されない。場合によっては、「クロマチン再構成」は、天然のクロマチンの生成ではなく、核酸結合又は核酸の結合と架橋を容易にする部分を含む表面を持つナノ粒子などのナノ粒子への結合により安定した核酸を含む複合体といった新たな核酸複合体の生成を指す。
代替的に、場合によっては、再構成は行なわれず、天然の核酸複合体は下流の解析のために核酸を安定させることに依存する。大抵、そのような核酸複合体は天然のヒストンを含むが、他の核タンパク質、DNA結合タンパク質、トランスポサーゼ、トポイソメラーゼ、又は他のDNA結合タンパク質を含む複合体が考慮される。
核酸分子の切断
核酸複合体中のメタゲノムサンプルから結合された核酸分子などの核酸分子を切断して、内部の核酸末端をさらし、且つ二本鎖の破壊をもたらすことができる。場合によっては、核酸複合体中の核酸分子などの核酸分子を切断して、核酸末端をさらし、それらのリン酸ジエステル骨格にて物理的に連結されない少なくとも2つの断片又はセグメントを形成する。様々な方法を使用して、内部の核酸末端を切断し、及び/又は、核酸から得た断片を生成することができ、これには、限定されないが、剪断、超音波処理、非特異的エンドヌクレアーゼ処理、又は特異的のエンドヌクレアーゼ処理などの、機械的、化学的、及び酵素的な方法を含む。代替的な方法は、トポイソメラーゼ、塩基修復酵素、Tn5などのトランスポサーゼ(transpose)、又はリン酸ジエステル骨格のニッキング酵素などでの酵素切断を含む。
場合によっては、核酸は消化により切断される。消化は、制限エンドヌクレアーゼと接触させることを含み得る。制限エンドヌクレアーゼは、消化に起因する遊離核酸末端の平均数を調整するための既知のゲノムの配列情報に照らして選択することができる。制限エンドヌクレアーゼは、制限部位として知られている特定の認識ヌクレオチド配列にて、又はその付近で切断し得る。ゲノム全体にわたる、より高い相対存在量を持つ制限部位を有している制限エンドヌクレアーゼを消化中に使用して、より多くの制限部位がより多くの切断された部位に結果として生じる場合があるため、より低い相対存在量を持つ制限部位を有している制限エンドヌクレアーゼと比べて多くの晒された核酸末端を生成することができる。場合によっては、非特異的な制限部位を持つ制限エンドヌクレアーゼ、又は1より多くの制限部位が使用される。非特異的な制限部位の限定されない例はCCTNNである。塩基A、C、G、及びTは、DNA鎖の4つのヌクレオチド塩基、アデニン、シトシン、グアニン、及びチミンを指す。塩基Nは、4つのDNA塩基、A、C、G、及びTの何れかを表わす。切断のために特異的配列を認識するのではなく、対応する制限部位を持つ酵素は、開裂のために1より多くの配列を認識することができる。例えば、認識される最初の5つの塩基は、CCTAA、CCTAT、CCTAG、CCTAC、CCTTA、CCTTT、CCTTG、CCTTC、CCTCA、CCTCT、CCTCG、CCTCC、CCTGA、CCTGT、CCTGG、又はCCTGC(16の可能性)であり得る。場合によっては、非特異的な制限部位を持つ酵素の使用の結果、特定の制限部位を持つ酵素と比較してより多くの切断部位が生じる。制限エンドヌクレアーゼは、少なくとも4、5、6、7、8、又はそれよりも長い塩基対の制限認識配列を持つことができる。核酸複合体を消化するための制限酵素は、一本鎖及び/又は二本鎖の核酸を切断することができる。制限エンドヌクレアーゼは、一本鎖の破壊又は二本鎖の破壊をもたらすことができる。制限エンドヌクレアーゼ切断は、平滑末端、3’オーバーハング、又は5’オーバーハングを産生することができる。3’オーバーハングは、長さが少なくとも1、2、3、4、5、6、7、8、又は9、或いはそれ以上の塩基であり得る。5’オーバーハングは、長さが少なくとも1、2、3、4、5、6、7、8、又は9、或いはそれ以上の塩基であり得る。制限酵素の例は、限定されないが、AatII、Acc65I、AccI、AciI、AclI、AcuI、AfeI、AflII、AflIII、AgeI、AhdI、AleI、AluI、AlwI、AlwNI、ApaI、ApaLI、ApeKI、ApoI、AscI、AseI、AsiSI、AvaI、AvaII、AvrII、BaeGI、BaeI、BamHI、BanI、BanII、BbsI、BbvCI、BbvI、BccI、BceAI、BcgI、BciVI、BclI、BfaI、BfuAI、BfuCI、BglI、BglII、BlpI、BmgBI、BmrI、BmtI、BpmI、Bpul0I、BpuEI、BsaAI、BsaBI、BsaHI、BsaI、BsaJI、BsaWI、BsaXI、BscRI、BscYI、BsgI、BsiEI、BsiHKAI、BsiWI、BslI、BsmAI、BsmBI、BsmFI、BsmI、BsoBI、Bsp1286I、BspCNI、BspDI、BspEI、BspHI、BspMI、BsrBI、BsrDI、BsrFI、BsrGI、BsrI、BssHII、BssKI、BssSI、BstAPI、BstBI、BstEII、BstNI、BstUI、BstXI、BstYI、BstZ17I、Bsu36I、BtgI、BtgZI、BtsCI、BtsI、Cac8I、ClaI、CspCI、CviAII、CviKI-1、CviQI、DdcI、DpnI、DpnII、DraI、DraIII、DrdI、EacI、EagI、EarI、EciI、Eco53kI、EcoNI、EcoO109I、EcoP15I、EcoRI、EcoRV、FatI、FauI、Fnu4HI、FokI、FseI、FspI、HaeII、HaeIII、HgaI、HhaI、HincII、HindIII、HinfI、HinPlI、HpaI、HpaII、HphI、Hpy166II、Hpy188I、Hpy188III、Hpy99I、HpyAV、HpyCH4III、HpyCH4IV、HpyCH4V、KasI、KpnI、MboI、MboII、MfeI、MluI、MlyI、MmeI、MnlI、MscI、MseI、MslI、MspAlI、MspI、MwoI、NaeI、NarI、Nb.BbvCI、Nb.BsmI、Nb.BsrDI、Nb.BtsI、NciI、NcoI、NdeI、NgoMIV、NheI、NlaIII、NlaIV、NmeAIII、NotI、NruI、NsiI、NspI、Nt.AlwI、Nt.BbvCI、Nt.BsmAI、Nt.BspQI、Nt.BstNBI、Nt.CviPII、PacI、PaeR7I、PciI、PflFI、PflMI、PhoI、PleI、PmeI、PmlI、PpuMI、PshAI、PsiI、PspGI、PspOMI、PspXI、PstI、PvuI、PvuII、RsaI、RsrII、SacI、SacII、SalI、SapI、Sau3AI、Sau96I、SbfI、ScaI、ScrFI、SexAI、SfaNI、SfcI、SfiI、SfoI、SgrAI、SmaI、SmlI、SnaBI、SpeI、SphI、SspI、StuI、StyD4I、StyI、SwaI、T、TaqαI、TfiI、TliI、TseI、Tsp45I、Tsp509I、TspMI、TspRI、Tth111I、XbaI、XcmI、XhoI、XmaI、XmnI、及びZraIを含む。
ライゲーション
切断された核酸分子は、様々な方法を使用して、近接ライゲーションにより連結することができる。切断された核酸分子のライゲーションは、酵素及び非酵素のプロトコルにより遂行することができる。非酵素であるライゲーション反応の例は、米国特許第5,780,613号と第5,476,930号に記載される非酵素ライゲーション技術を含み、その各々は全体において引用により本明細書に組み込まれる。酵素ライゲーション反応は、リガーゼ酵素の使用を含むことができる。リガーゼ酵素の限定されない例は、ATP依存性の二本鎖ポリヌクレオチドリガーゼである、NAD+依存性DNA又はRNAリガーゼ、及び一本鎖ポリヌクレオチドリガーゼである。リガーゼの限定されない例は、大腸菌DNAリガーゼ、好熱菌DNAリガーゼ、Tth DNAリガーゼ、Thermus scotoductus DNAリガーゼ(IとII)、T3 DNAリガーゼ、T4 DNAリガーゼ、T4 RNAリガーゼ、T7 DNAリガーゼ、Taqリガーゼ、Ampligase(Epicentre(登録商標)Technologies Corp.)、VanC型リガーゼ、9°N DNAリガーゼ、Tsp DNAリガーゼ、DNAリガーゼI、DNAリガーゼIII、DNAリガーゼIV、Sso7-T3 DNAリガーゼ、Sso7-T4 DNAリガーゼ、Sso7-T7 DNAリガーゼ、Sso7-Taq DNAリガーゼ、Sso7-大腸菌DNAリガーゼ、Sso7-Ampligase DNAリガーゼ、及び熱安定性リガーゼである。リガーゼ酵素は、野生型、突然変異体アイソフォーム、及び遺伝的に設計された変異体であり得る。ライゲーション反応は、緩衝液成分、小分子ライゲーションエンハンサー、及び他の反応成分を含有し得る。
配列決定
本明細書に記載される又は当該技術分野で既知の適切な配列決定方法を使用して、核酸分子から配列情報を得ることができる。配列決定は、古典的なサンガー配列決定方法を通じて遂行することができる。配列決定は、ハイスループット配列決定システムを使用しても遂行することができる。次世代配列決定方法の限定されない例は、単一の分子のリアルタイム配列決定、イオン半導体配列決定、パイロ配列決定、合成による配列決定、ライゲーションによる配列決定、及び連鎖停止反応を含む。
微生物
本明細書で検出された微生物は、細菌、ウイルス、真菌、カビ、又は他の微生物、或いはそれらの組み合わせであり得る。
幾つかの態様において、例えば生体液、又は唾液、血液、及び便を含むがこれらに限定されない固体サンプルなどの生医学的サンプルにて検出された微生物は、病気に関連した少なくとも1つの細菌種である。臨床的に関連する細菌の限定されない例は、Acetobacter aurantius、Acinetobacter baumannii、Actinomyces israelii、Agrobacterium radiobacter、Agrobacterium tumefaciens、Anaplasma phagocytophilum、Azorhizobium caulinodans、Azotobacter vinelandii、Bacillus anthracis、Bacillus brevis、Bacillus cereus、Bacillus fusiformis、Bacillus licheniformis、Bacillus megaterium、Bacillus mycoides、Bacillus stearothermophilus、Bacillus subtilis、Bacteroides fragilis、Bacteroides gingivalis、Bacteroides melaninogenicus(現在はPrevotella melaninogenicaとして知られる)、Bartonella henselae、Bartonella quintana、Bordetella bronchiseptica、Bordetella pertussis、Borrelia burgdorferi、Brucella abortus、Brucella melitensis、Brucella suis、Burkholderia mallei、Burkholderia pseudomallei、Burkholderia cepacia、Calymmatobacterium granulomatis、Campylobacter coli、Campylobacter fetus、Campylobacter jejuni、Campylobacter pylori、Chlamydia trachomatis、Chlamydophila pneumoniae(以前はChlamydia pneumoniaeと呼ばれている)、Chlamydophila psittaci(以前はChlamydia psittaciと呼ばれている)、Clostridium botulinum、Clostridium difficile、Clostridium perfringens(以前はClostridium welchiiと呼ばれている)、Clostridium tetani、Corynebacterium diphtheriae、Corynebacterium fusiforme、Coxiella burnetii、Ehrlichia chaffeensis、Enterobacter cloacae、Enterococcus avium、Enterococcus durans、Enterococcus faecalis、Enterococcus faecium、Enterococcus galllinarum、Enterococcus maloratus、Escherichia coli、Francisella tularensis、Fusobacterium nucleatum、Gardnerella vaginalis、Haemophilus ducreyi、Haemophilus influenzae、Haemophilus parainfluenzae、Haemophilus pertussis、Haemophilus vaginalis、Helicobacter pylori、Klebsiella pneumoniae、Lactobacillus acidophilus、Lactobacillus bulgaricus、Lactobacillus casei、Lactococcus lactis、Legionella pneumophila、Listeria monocytogenes、Methanobacterium extroquens、Microbacterium multiforme、Micrococcus luteus、Moraxella catarrhalis、Mycobacterium avium、Mycobacterium bovis、Mycobacterium diphtheriae、Mycobacterium intracellulare、Mycobacterium leprae、Mycobacterium lepraemurium、Mycobacterium phlei、Mycobacterium smegmatis、Mycobacterium tuberculosis、Mycoplasma fermentans、Mycoplasma genitalium、Mycoplasma hominis、Mycoplasma penetrans、Mycoplasma pneumoniae、Neisseria gonorrhoeae、Neisseria meningitidis、Pasteurella multocida、Pasteurella tularensis、Peptostreptococcus、Porphyromonas gingivalis、Prevotella melaninogenica(以前はBacteroides melaninogenicusと呼ばれている)、Pseudomonas aeruginosa、Rhizobium radiobacter、Rickettsia prowazekii、Rickettsia psittaci、Rickettsia quintana、Rickettsia rickettsii、Rickettsia trachomae、Rochalimaea henselae、Rochalimaea quintana、Rothia dentocariosa、Salmonella enteritidis、Salmonella typhi、Salmonella typhimurium、Serratia marcescens、Shigella dysenteriae、Staphylococcus aureus、Staphylococcus epidermidis、Stenotrophomonas maltophilia、Streptococcus agalactiae、Streptococcus avium、Streptococcus bovis、Streptococcus cricetus、Streptococcus faceium、Streptococcus faecalis、Streptococcus ferus、Streptococcus gallinarum、Streptococcus lactis、Streptococcus mitior、Streptococcus mitis、Streptococcus mutans、Streptococcus oralis、Streptococcus pneumoniae、Streptococcus pyogenes、Streptococcus rattus、Streptococcus salivarius、Streptococcus sanguis、Streptococcus sobrinus、Treponema pallidum、Treponema denticola、Vibrio cholerae、Vibrio comma、Vibrio parahaemolyticus、Vibrio vulnificus、Wolbachia、Yersinia enterocolitica、Yersinia pestis、及びYersinia pseudotuberculosisを含む。
幾つかの態様において、例えば生体液、又は唾液、血液、及び便を含むがこれらに限定されない固体サンプルなどの生医学的サンプルにて検出された微生物は、病気に関連した少なくとも1つのウイルスである。幾つかの態様において、ウイルスはDNAウイルスである。幾つかの態様において、ウイルスはRNAウイルスである。ヒトウイルス感染は、動物由来感染症、或いは、野生又は家庭の動物に由来し得る。様々な動物由来感染症のウイルスは、動物との接触により直接、又は、感染した動物の尿又は糞若しくは吸血節足動物の咬みつきにさらされることで間接的にヒトに感染する。ウイルスがその新しいヒト宿主に適合且つ増殖(replicate)することが可能な場合、ヒトとヒトとの感染が生じる場合もある。幾つかの態様において、生医学的サンプルにて検出された微生物は、動物由来感染症に由来するウイルスである。
幾つかの態様において、例えば生体液、又は唾液、血液、及び便を含むがこれらに限定されない固体サンプルなどの生医学的サンプルにて検出された微生物は、病気に関連した少なくとも1つの真菌である。臨床的に関連する真菌属の限定されない例は、Aspergillus、Basidiobolus、Blastomyces、Candida、Chrysosporium、Coccidioides、Conidiobolus、Cryptococcus、Epidermophyton、Histoplasma、Microsporum、Pneumocystis、Sporothrix、及びTrichophytonを含む。
幾つかの態様において、病気を引き起こす疑いのある食物サンプルなどの食物サンプルにて検出された微生物は、病原菌、ウイルス、又は寄生虫であり得る。病気を引き起こしかねない病原菌、ウイルス、又は寄生虫の限定されない例は、S. enterica及びS. bongoriなどのSalmonella species;C. jejuni、C. coli、及びC. fetusなどのCampylobacter species;Y. enterocolitica及びY. pseudotuberculosisなどのYersinia species;S.sonnei、S.boydii、S.flexneriおよびS.dysenteriaeなどシゲラ種;V. parahaemolyticus、Vibrio cholerae血清群O1とO139、Vibrio cholerae血清群non-O1とnon-O139、Vibrio vulnificusなどのVibrio species;C. burnetiiなどのCoxiella species;家畜における結核の原因物質であるがヒトにも感染し得る、M.bovisなどのMycobacterium species;B. melitensis、B. abortus、B. suis、B. neotomae、B. canis、及びB. ovisなどのBrucella species;Cronobacter species (formery Enterobacter sakazakii);A. hydrophilaなどのAeromonas species;P. shigelloidesなどのPlesiomonas species;F. tularensisなどのFrancisella species;C. perfringens及びC. botulinumなどのClostridium species;S. aureusなどのStaphylococcus species;B. cereusなどのBacillus species;L. monocytogenesなどのListeria species;群AのS. pyogenesなどのStreptococcus species;Noroviruses(NoV、群GI、GII、GIII、GIV、及びGV);A型肝炎ウイルス(HAV、遺伝子型I-VI);E型肝炎ウイルス(HEV);ロタウイルスなどのReoviridaeウイルス;アストロウイルスなどのAstroviridaeウイルス;サポウイルスなどのCalciviridaeウイルス;腸アデノウイルスなどのAdenoviridaeウイルス;パルボウィルスなどのParvoviridaeウイルス;及びAichiウイルスなどのPicornarviridaeウイルスを含む。
本明細書に開示された方法の利益は、前記方法によりサンプル中の未知の同一性の微生物又は病原体の検出、及び、単独で、又はショットガン配列決定若しくは他の手段により生成される同時生成の配列情報などの追加の配列情報と組み合わせてその未知の微生物又は病原体に関する配列情報の部分的又は完全にアセンブルされたゲノムへのアセンブリを容易にすることである。従って、本明細書に開示された方法は、直ぐ上に列挙された生物の1以上の検出には限定されず;これに反して、本明細書に開示される方法を通じて、上記リスト中の未知の病原体、上記リスト上には無い生物、配列情報が利用可能でない生物、又は当該技術分野で知られていない生物に関する実質的に部分的な又は完全なゲノム情報を同定且つ判定することができる。
本明細書に開示される方法は多くの異種の核酸サンプルに適用可能であり、腸内細菌に関する探索的調査;未知の原因の伝染病に苦しむ集団などの病気にかかった個体又は集団における病原体の検出;既知の個人の連鎖情報特徴を持つ核酸の存在のための異種の核酸サンプルのアッセイ;又は、耐抗生物質性の感染症を示す個体における抗生物質耐性の原因となる微生物(複数可)の検出などがある。これら実施形態の多くの共通の態様は、コンティグ、足場、又は部分的若しくは完全なゲノム配列へのショットガン配列情報のアセンブリに適切といった長い範囲の連鎖情報の生成から利益を得ることである。ショットガン又は他のハイスループット配列情報は、上記に列挙された問題の少なくとも一部に関連するが、実質的な利益は、部分的、実質的に完全、又は完全なゲノムまでのより大きくフェージングされた核酸アセンブリへとショットガン配列をアセンブルするために、本明細書に開示される方法の実施の結果から獲得される。従って、本明細書に開示される方法の使用は、当該技術分野で知られているような異種のサンプル上でのショットガン配列決定のみの、実質的により多くの実施を提供する。
汚染された及び/又は傷んだ食物を摂取した後の直接的な細菌感染により引き起こされた病気に加えて、微生物は、病気を引き起こすエンテロトキシンなどの毒素を産生することができる。幾つかの態様において、食物サンプルにて検出された微生物は、腸を標的とするタンパク質外毒素であるエンテロトキシン、及び、共通してカビとして知られている真菌界の生物により産生された有毒な二次代謝産物であるマイコトキシンなどの毒素を産生することができる。
本開示の利益は、アセンブルされるゲノム(複数可)の以前に又は同時に生成された配列情報に依存することなく、異種のサンプルに関する、長い範囲のゲノム隣接情報を得ることが可能となるということである。サンプル中の生物のゲノム又は染色体を表わす足場は、共通のオリゴタグを共有するリード、又は互いに連結又は融合される対になった末端のリードなどの共通のタグ付けしたリードを使用してアセンブルされ、それにより、共通のタグ付けされた配列情報が共通のゲノム又は染色体の分子から生じることを示す。
従って、足場情報は、以前に生成されたコンティグ又は配列リード情報に依存することなく生成される。de novo足場情報の多くの利点がある。例えば、配列のリードは、以前の配列情報が利用可能でなくとも足場に完全に割り当てることができ、それにより、完全に新しいゲノムが以前の配列決定効果に依存することなく足場組みされる。この利益は、異種のサンプルが未知の培養されていない又は培養不能な生物を含む場合に特に有用である。標的とされていない配列のリードの生成に依存する配列決定の計画は、既知のコンティグ配列に割り当てられない配列のリードの集まりを生成し得る一方で、配列のリードが得られない未知の生物の数又は同一性に関する情報はほとんど又は全く存在しない。それらは例えば、1つの個体、ゲノム配列における高度の異種性又は異型接合性を持つ共通の種の個体の集団、密接に関連した種の複合体、又は異なる種の複合体1つの個体を表す。単に配列のリード情報に依存して、前述のシナリオ中では区別されなかった。
しかし、本明細書に開示されるような方法又は組成物を使用して、例えば、共通の遺伝子型又はゲノムのクローン複製を含むサンプル、単一の種の典型の異種の集団を含むサンプル、異なる種の緩く関連した生物を含むサンプル、又はこれらシナリオの組み合わせを区別することができる。独立して足場情報を生成するのではなくコンティグをアセンブルするために配列の類似性に依存して、異型接合性を配列決定の誤差と区別することを要求される。実質的な配列決定の誤差が生じないと更に仮定して、密接に関連したゲノム情報が得られる遺伝子型の数を更に推定することを要求される。例えば、多くの別個の遺伝子座で互いに対してヘテロ接合性である、単一の種の2つの広く異なる典型を含むサンプルを、各々が1つ又はほんのわずかな遺伝子座にて他のものとは異なっている密接に関連した遺伝子型の広範囲の多様性を含むサンプルと区別することはできない。配列のリード情報を単独で使用して、これらシナリオの両方は、実質的な対立遺伝子の多様性を持つ単一のコンティグアセンブリとして現われる。しかし、本明細書に開示された方法と組成物を使用して、対立遺伝子が一定又は未知の配列の相当な領域により分離されたとしても、対立遺伝子が共通の足場へマッピングするという確信をもって判定が可能となる。
本明細書で生成されるこのデータの利益は、DNAゲノムに基づくウイルスの集団又はレトロウイルス若しくは他のRNAに基づくウイルスの集団などのウイルスの集団を含む異種のサンプルが研究される(RNAゲノムの逆転写を介して、又は、代替的に又は組み合わせて、サンプル中のRNA上で複合体をアセンブルすることを介して)と、場合によっては特に役立つ。
ウイルスの集団は頻繁にかなり異種性であるため、集団(少数の非常に異なる集団、又は多くの密接に関連する集団の何れか)内の異種の分布の理解は、処置標的を選択する際に、及び、研究されている異種のサンプル中のウイルスの起源を追跡する際に特に有益である。
このことは、本明細書に開示された組成物及び方法が、コンティグ情報又は同時に生成された配列のリードに適合するということではない。これに反して、本明細書中の方法及び組成物の使用を通じて生成された足場組み情報は特に、足場への改善されたコンティグアセンブリ又はコンティグ配置に適している。実際、同時に生成された配列のリード情報は、本明細書中の開示の幾つかの実施形態においてコンティグへとアセンブルされる。配列のリード情報は、次世代配列決定方法などの従来の配列決定方法を使用して平行に生成される。代替的に又は組み合わせで、対となったリード又はオリゴタグを付けたリード情報は、割り当てられた重複配列を「従来」使用するコンティグを生成するための配列情報そのものとして使用される。この情報を更に使用して、本明細書に開示された組成物及び方法を通じて生成された足場組み情報に照らし、互いに対してコンティグを位置決めする。
本開示の実施形態はまた、以下の番号を付けた実施形態を通じて例示される。
実施形態1は、第1のDNA分子からタグ付けされた配列を生成する方法を含み、該方法は以下を含む:(a)第1の複合体を形成するために複数の会合分子に前記第1のDNA分子を結合する工程であって、前記第1のDNA分子は第1のDNAセグメント及び第2のDNAセグメントを含む、工程;(b)前記第1のDNAセグメント及び前記第2のDNAセグメントにタグを付ける工程であって、それにより少なくとも1つのタグ付けされたDNAセグメントを形成する、工程;(c)複合体を、複合体の成分に直接結合する表面を持つ固体支持体に結合する工程;及び(d)タグに隣接している部分、又はタグを付けた末端とは反対の末端にある部分などの、タグを付けたDNAセグメントの認識可能な部分を配列決定する工程であって、それにより前記タグを付けた配列を得る、工程;ここで、前記複数の会合分子は、工程(a)及び(b)の前、又はその間に、アフィニティー標識で共有結合的に修飾されない。実施形態2は実施形態1の方法を含み、ここで、前記会合分子は、ペプチド結合により結合されたアミノ酸を含む。実施形態3は実施形態1-2の何れか1つの方法を含み、ここで、前記会合分子はポリペプチド又はタンパク質を含む。実施形態4は実施形態1-3の何れか1つの方法を含み、ここで、前記会合分子はヒストンタンパク質を含む。実施形態5は実施形態1-3の何れか1つの方法を含み、ここで、前記ヒストンタンパク質は前記第1のDNA分子とは異なるソースに由来する。実施形態6は実施形態1-3の何れか1つの方法を含み、ここで、前記会合分子はトランスポサーゼを含む。実施形態7は実施形態1-6の何れか1つの方法を含み、ここで、前記第1のDNA分子は、前記会合分子の少なくとも1つに非共有結合的に結合される。実施形態8は実施形態1-7の何れか1つの方法を含み、ここで、前記第1のDNA分子は、前記会合分子の少なくとも1つに共有結合的に結合される。実施形態9は実施形態1-8の何れか1つの方法を含み、ここで、前記第1のDNA分子は、前記会合分子の少なくとも1つに架橋される。実施形態10は実施形態1-9の何れか1つの方法を含み、ここで、前記第1のDNA分子は、固定剤を使用して架橋される。実施形態11は実施形態1-10の何れか1つの方法を含み、ここで、前記固定剤はホルムアルデヒドを含む。実施形態12は実施形態1-11の何れか1つの方法を含み、固体支持体上で前記複数の会合分子を固定する工程を含む。実施形態13は実施形態1-12の何れか1つの方法を含み、ここで、前記固体支持体はビーズを含む。実施形態14は実施形態1-13の何れか1つの方法を含み、ここで、前記ビーズはポリマーを含む。実施形態15は実施形態1-14の何れか1つの方法を含み、ここで、前記ポリマーはポリスチレン又はポリエチレングリコール(PEG)である。実施形態16は実施形態1-13の何れか1つの方法を含み、ここで、前記ビーズは磁気ビーズである。実施形態17は実施形態1-13の何れか1つの方法を含み、ここで、前記ビーズは固相可逆的固定(SPRI)ビーズである。実施形態18は実施形態1-13の何れか1つの方法を含み、ここで、前記固体支持体は表面を含み、前記表面は複数のカルボキシル基を含む。実施形態19は実施形態1-12の何れか1つの方法を含み、ここで、前記固体支持体はどのポリペプチドにも共有結合されない。実施形態20は実施形態1-12の何れか1つの方法を含み、ここで、前記会合分子は、前記固体支持体への固定の前にビオチンに共有結合されない。実施形態21は実施形態1-20の何れか1つの方法を含み、ここで、前記第1のDNAセグメント及び前記第2のDNAセグメントは、前記第1のDNA分子を切断することにより生成される。実施形態22は実施形態1-21の何れか1つの方法を含み、ここで、前記第1のDNA分子は、前記第1のDNA分子が前記複数の会合分子に結合した後に切断される。実施形態23は実施形態1-21の何れか1つの方法を含み、ここで、前記第1のDNA分子は、ヌクレアーゼ酵素を使用して切断される。実施形態24は実施形態1-23の何れか1つの方法を含み、ここで、前記第1のDNAセグメント及び前記第2のDNAセグメントはアフィニティー標識を使用して修飾される。実施形態25は実施形態1-24の何れか1つの方法を含み、ここで、前記アフィニティー標識はビオチンを含む。実施形態26は実施形態1-25の何れか1つの方法を含み、ここで、前記アフィニティー標識はビオチンで修飾したヌクレオシド三リン酸塩(dNTP)である。実施形態27は実施形態1-26の何れか1つの方法を含み、ここで、前記アフィニティー標識はビオチンで修飾したデオキシリボシトシン三リン酸塩(dCTP)である。実施形態28は実施形態1-27の何れか1つの方法を含み、ここで、前記第1のDNAセグメントは、第1のタグで少なくとも第1の末端にてタグ付けされ、第2のDNAセグメントは、第2のタグで少なくとも第2の末端にてタグ付けされる。実施形態29は実施形態1-28の何れか1つの方法を含み、ここで、前記第1のタグ及び前記第2のタグは同一である。実施形態30は実施形態1-28の何れか1つの方法を含み、ここで、前記第1のDNAセグメント及び前記第2のDNAセグメントはトランスポサーゼを使用してタグ付けされる。実施形態31は実施形態1-30の何れか1つの方法を含み、ここで、前記第1のDNAセグメントは前記第2のDNAセグメントでタグ付けされ、前記第2のDNAセグメントは、前記第1のDNAセグメントを前記第2のDNAセグメントに連結することにより前記第1のDNAセグメントでタグ付けされる。実施形態32は実施形態1-31の何れか1つの方法を含み、ここで、前記第1のDNAセグメントは、リガーゼを使用して前記第2のDNAセグメントに連結される。実施形態33は実施形態1-32の何れか1つの方法を含み、ここで、前記連結されたDNAセグメントは、工程(c)の前に切断される。実施形態34は実施形態1-24の何れか1つの方法を含み、ここで、前記連結されたDNAセグメントは、物理的方法を使用して切断される。実施形態35は実施形態1-34の何れか1つの方法を含み、前記連結されたDNAセグメントを配列決定アダプターに接続する工程を含む。実施形態36は実施形態1-35の何れか1つの方法を含み、ここで、前記第1のDNAセグメントは、前記第1のDNAセグメントが前記第2のDNAセグメントに連結される前に10回未満洗浄される。実施形態37は実施形態1-36の何れか1つの方法を含み、ここで、前記第1のDNAセグメントは、前記第1のDNAセグメントが前記第2のDNAセグメントに連結される前に6回未満洗浄される。実施形態38は実施形態1-37の何れか1つの方法を含み、前記タグを付けた配列を使用して前記第1のDNA分子の複数のコンティグをアセンブルする工程を含む。実施形態39は実施形態1-37の何れか1つの方法を含み、前記タグを付けた配列を使用して前記第1のDNAセグメント及び前記第2のDNAセグメントをフェージングする工程を含む。実施形態40は実施形態1-39の何れか1つの方法を含み、前記方法は長くとも2日で完了する。実施形態41は実施形態1-40の何れか1つの方法を含み、ここで、前記第1のDNA分子の結合はインビトロで行われる。実施形態42は実施形態1-41の何れか1つの方法を含み、ここで、前記第1のDNA分子の結合はインビボで行われる。実施形態43は実施形態1-42の何れか1つの方法を含み、ここで、前記方法は長くとも2日で完了する。実施形態44は実施形態1-43の何れか1つの方法を含み、ここで、工程(a)-(d)に必要な実施の時間の量は長くとも6時間である。実施形態45は実施形態1-44の何れか1つの方法を含み、ここで、前記第1のDNA分子は、前記固体支持体に直接結合される。実施形態46は実施形態1-46の何れか1つの方法を含み、ここで、透析は工程(a)-(d)の間で実行されない。
実施形態47は、第1のDNA分子からタグを付けた配列を生成する方法を含み、該方法は以下を含む:(a)複数会合分子に前記第1のDNA分子を連結する工程;(b)固体支持体上で前記第1のDNA分子を固定する工程;(c)第1のDNAセグメント及び第2のDNAセグメントを生成するために前記の第1のDNA分子を切断する工程;(d)前記第1のDNAセグメント及び前記第2のDNAセグメントにタグを付ける工程であって、それにより少なくとも1つのタグを付けたDNAセグメントを形成する、工程;及び(e)前記タグを付けたDNAセグメントを配列決定する工程であって、それにより前記タグを付けた配列を得る、工程;ここで、前記第1のDNA分子は前記固体支持体に直接結合される。実施形態48は実施形態47の方法を含み、ここで、前記会合分子はアミノ酸を含む。実施形態49は実施形態47-48の何れか1つの方法を含み、ここで、前記会合分子はポリペプチド又はタンパク質を含む。実施形態50は実施形態47-49の何れか1つの方法を含み、ここで、前記会合分子はヒストンタンパク質を含む。実施形態51は実施形態47-49の何れか1つの方法を含み、ここで、前記ヒストンタンパク質は前記第1のDNA分子とは異なるソースに由来する。実施形態52は実施形態47-51の何れか1つの方法を含み、ここで、前記会合分子はトランスポサーゼを含む。実施形態53は実施形態47-52の何れか1つの方法を含み、ここで、前記第1のDNA分子は、前記会合分子に非共有結合的に連結される。実施形態54は実施形態47-53の何れか1つの方法を含み、ここで、前記第1のDNA分子は、前記会合分子に共有結合される。実施形態55は実施形態47-54の何れか1つの方法を含み、ここで、前記第1のDNA分子は、前記会合分子に架橋される。実施形態56は実施形態47-55の何れか1つの方法を含み、ここで、前記第1のDNA分子は、固定剤を使用して架橋される。実施形態57は実施形態47-57の何れか1つの方法を含み、ここで、前記固定剤はホルムアルデヒドである。実施形態58は実施形態47-57の何れか1つの方法を含み、ここで、前記固体支持体はビーズを含む。実施形態59は実施形態47-58の何れか1つの方法を含み、ここで、前記ビーズはポリマーを含む。実施形態60は実施形態47-59の何れか1つの方法を含み、ここで、前記ポリマーはポリスチレン又はポリエチレングリコール(PEG)を含む。実施形態61は実施形態47-58の何れか1つの方法を含み、ここで、前記ビーズは磁気ビーズである。実施形態62は実施形態47-58の何れか1つの方法を含み、ここで、前記ビーズはSPRIビーズである。実施形態63は実施形態47-62の何れか1つの方法を含み、ここで、前記固体支持体は表面を含み、前記表面は複数のカルボキシル基を含む。実施形態64は実施形態47-63の何れか1つの方法を含み、ここで、前記固体支持体はどのポリペプチドにも共有結合されない。実施形態65は実施形態47-64の何れか1つの方法を含み、ここで、前記会合分子は、前記固体支持体への固定の前にビオチンに共有結合されない。実施形態66は実施形態47-65の何れか1つの方法を含み、ここで、前記第1のDNA分子は、前記第1のDNA分子が前記複数の会合分子の少なくとも1つに連結した後に切断される。実施形態67は実施形態47-66の何れか1つの方法を含み、ここで、前記第1のDNA分子は、ヌクレアーゼ酵素を使用して切断される。実施形態68は実施形態47-67の何れか1つの方法を含み、ここで、前記第1のDNAセグメント及び前記第2のDNAセグメントはアフィニティー標識を使用して修飾される。実施形態69は実施形態47-68の何れか1つの方法を含み、ここで、前記アフィニティー標識はビオチンを含む。実施形態70は実施形態47-69の何れか1つの方法を含み、ここで、前記アフィニティー標識はビオチンで修飾したヌクレオシド三リン酸塩(dNTP)である。実施形態71は実施形態47-70の何れか1つの方法を含み、ここで、前記アフィニティー標識はビオチンで修飾したデオキシリボシトシン三リン酸塩(dCTP)である。実施形態72は実施形態47-71の何れか1つの方法を含み、ここで、前記第1のDNAセグメントは、第1のタグで少なくとも第1の末端にてタグ付けされ、第2のDNAセグメントは、第2のタグで少なくとも第2の末端にてタグ付けされる。実施形態73は実施形態47-72の何れか1つの方法を含み、ここで、前記第1のタグ及び前記第2のタグは同一である。実施形態74は実施形態47-72の何れか1つの方法を含み、ここで、前記第1のDNAセグメント及び前記第2のDNAセグメントはトランスポサーゼを使用してタグ付けされる。実施形態75は実施形態47-74の何れか1つの方法を含み、ここで、前記第1のDNAセグメントは前記第2のDNAセグメントでタグ付けされ、前記第2のDNAセグメントは、前記第1のDNAセグメントを前記第2のDNAセグメントに連結することにより前記第1のDNAセグメントでタグ付けされる。実施形態76は実施形態47-75の何れか1つの方法を含み、ここで、前記第1のDNAセグメントは、リガーゼを使用して前記第2のDNAセグメントに連結される。実施形態77は実施形態47-76の何れか1つの方法を含み、ここで、前記連結されたDNAセグメントは、物理的方法を使用して切断される。実施形態78は実施形態47-77の何れか1つの方法を含み、前記連結されたDNAセグメントを配列決定アダプターに接続する工程を含む。実施形態79は実施形態47-78の何れか1つの方法を含み、ここで、前記第1のDNAセグメントは、前記第1のDNAセグメントが前記第2のDNAセグメントに連結される前に10回未満洗浄される。実施形態80は実施形態47-79の何れか1つの方法を含み、ここで、前記第1のDNAセグメントは、前記第1のDNAセグメントが前記第2のDNAセグメントに連結される前に6回未満洗浄される。実施形態81は実施形態47-80の何れか1つの方法を含み、前記タグを付けた配列を使用して前記第1のDNA分子の複数のコンティグをアセンブルする工程を含む。実施形態82は実施形態47-80の何れか1つの方法を含み、前記タグを付けた配列を使用して前記第1のDNAセグメント及び前記第2のDNAセグメントをフェージングする工程を含む。実施形態83は実施形態47-82の何れか1つの方法を含み、ここで、タグを付けた配列はリード対を含む。実施形態84は実施形態47-83の何れか1つの方法を含み、前記方法は長くとも2日で完了する。実施形態85は実施形態47-84の何れか1つの方法を含み、ここで、前記第1のDNA分子の結合はインビトロで行われる。実施形態86は実施形態47-85の何れか1つの方法を含み、ここで、前記第1のDNA分子の結合はインビボで行われる。実施形態87は実施形態47-86の何れか1つの方法を含み、ここで、工程(a)-(d)に必要な実施の時間の量は長くとも6時間である。実施形態88は実施形態47-87の何れか1つの方法を含み、ここで、透析は工程(a)-(d)の間で実行されない。
実施形態89は、複数のDNA分子から複数のタグ付けされた配列を生成する方法を含み、該方法は、(a)前記複数のDNA分子を複数の会合分子に結合する工程;(b)複数のDNAセグメントを生成するために前記複数のDNA分子を切断する工程;(c)複数のタグ付けされたDNAセグメントを形成するために前記DNAセグメントの少なくとも一部をタグ付けする工程;および(d)複数のタグ付けされた配列を得るために前記タグ付けされたDNAセグメントを配列決定する工程を含み、ここで前記複数の会合分子は、工程(a)および(b)の前に又はそれらの間にアフィニティー標識で共有結合的に修飾されない。実施形態90は、実施形態89の方法を含み、ここで前記DNA分子からのDNAセグメントの40%未満は、工程(b)の前に共通のリン酸ジエステル結合を有していない他のDNAセグメントに連結される。実施形態91は、実施形態89-90のいずれか1つの方法を含み、ここで前記DNA分子からのDNAセグメントの20%未満は、工程(b)の前に共通のリン酸ジエステル結合を有していない他のDNAセグメントに連結される。実施形態92は、実施形態89-91のいずれか1つの方法を含み、ここで前記会合分子はアミノ酸を含む。実施形態93は、実施形態89-92のいずれか1つの方法を含み、ここで前記会合分子は、ポリペプチドまたはタンパク質を含む。実施形態94は、実施形態89-93のいずれか1つの方法を含み、ここで前記会合分子はヒストンタンパク質を含む。実施形態95は、実施形態89-94のいずれか1つの方法を含み、ここで前記ヒストンタンパク質は、前記DNA分子とは異なるソースからのものである。実施形態96は、実施形態89-95のいずれか1つの方法を含み、ここで前記会合分子はトランスポサーゼを含む。実施形態97は、実施形態89-96のいずれか1つの方法を含み、ここで前記DNA分子は、前記会合分子に非共有結合される。実施形態98は、実施形態89-97のいずれか1つの方法を含み、ここで前記DNA分子は、前記会合分子に共有結合される。実施形態99は、実施形態89-98のいずれか1つの方法を含み、ここで前記DNA分子は前記会合分子に架橋される。実施形態100は、実施形態89-99のいずれか1つの方法を含み、ここで前記DNA分子は、固定剤を使用して架橋される。実施形態101は、実施形態89-100のいずれか1つの方法を含み、ここで前記固定剤はホルムアルデヒドである。実施形態102は、実施形態89-101のいずれか1つの方法を含み、方法は、複数の固体支持体上に前記複数の会合分子を固定化する工程を含む。実施形態103は、実施形態89-102のいずれか1つの方法を含み、ここで前記固体支持体はビーズである。実施形態104は、実施形態89-103のいずれか1つの方法を含み、ここで前記ビーズはポリマーを含む。実施形態105は、実施形態89-104のいずれか1つの方法を含み、ここで前記ポリマーは、ポリスチレンまたはポリエチレングリコール(PEG)を含む。実施形態106は、実施形態89-103のいずれか1つの方法を含み、ここで前記ビーズは磁気ビーズを含む。実施形態107は、実施形態89-103のいずれか1つの方法を含み、ここで前記ビーズはSPRIビーズを含む。実施形態108は、実施形態89-102のいずれか1つの方法を含み、ここで前記固体支持体は表面を含み、および前記表面は複数のカルボキシル基を含む。実施形態109は、実施形態89-102のいずれか1つの方法を含み、ここで前記固体支持体は、ポリペプチドに共有結合的に連結されない。実施形態110は、実施形態89-109のいずれか1つの方法を含み、ここで前記会合分子は、前記固体支持体への固定化の前にビオチンに共有結合的に連結されない。実施形態111は、実施形態89-110のいずれか1つの方法を含み、ここで前記DNAセグメントの一部は、アフィニティー標識を使用して修飾される。実施形態112は、実施形態89-111のいずれか1つの方法を含み、ここで前記アフィニティー標識はビオチンを含む。実施形態113は、実施形態89-112のいずれか1つの方法を含み、ここで前記アフィニティー標識は、ビオチンで修飾されたヌクレオシド三リン酸(dNTP)である。実施形態114は、実施形態89-113のいずれか1つの方法を含み、ここで前記ビオチンで修飾されたヌクレオシド三リン酸(dNTP)は、ビオチンで修飾されたデオキシリボシトシン三リン酸(dCTP)である。実施形態115は、実施形態89-114のいずれか1つの方法を含み、ここで前記DNAセグメントの一部は、第1のタグを使用して、少なくとも第1の末端でタグ付けされる。実施形態116は、実施形態89-115のいずれか1つの方法を含み、ここで前記DNAセグメントは、トランスポサーゼを使用してタグ付けされる。実施形態117は、実施形態89-116のいずれか1つの方法を含み、ここで前記DNAセグメントの一部は、前記DNAセグメントを少なくとも1つの他のDNAセグメントに連結することによってタグ付けされる。実施形態118は、実施形態89-117のいずれか1つの方法を含み、ここでDNAセグメントの前記一部は、リガーゼを使用して前記他のDNAセグメントに連結される。実施形態119は、実施形態89-118のいずれか1つの方法を含み、ここで前記DNA分子は、ヌクレアーゼ酵素を使用して切断される。実施形態120は、実施形態89-119のいずれか1つの方法を含み、ここで前記連結されたDNAセグメントは、工程(c)の前に切断される。実施形態121は、実施形態89-120のいずれか1つの方法を含み、ここで前記連結されたDNAセグメントは、物理的方法を使用して切断される。実施形態122は、実施形態89-121のいずれか1つの方法を含み、方法は、前記連結されたDNAセグメントを配列決定アダプターに結合する工程を含む。実施形態123は、実施形態89-122のいずれか1つの方法を含み、ここで前記DNAセグメントは、連結されて前記連結されたDNAセグメントを形成する前に、10回未満洗浄される。実施形態124は、実施形態89-123のいずれか1つの方法を含み、ここで前記DNAセグメントは、連結されて前記連結されたDNAセグメントを形成する前に、6回未満洗浄される。実施形態125は、実施形態89~124のいずれか1つのいずれか1つの方法を含み、方法は、前記リード対を使用して前記DNA分子の複数のコンティグをアセンブルする工程を含む。実施形態126は、実施形態89~124のいずれか1つのいずれか1つの方法を含み、方法は、前記リード対を使用して前記DNAセグメントをフェージングする工程を含む。実施形態127は、実施形態89~126のいずれか1つのいずれか1つの方法を含み、ここで方法は2日以下で完了する。実施形態128は、実施形態89-127のいずれか1つの方法を含み、ここで工程(a)-(d)に必要とされる実地時間の期間は、6時間以下である。実施形態129は、実施形態89-128のいずれか1つの方法を含み、ここで透析は、工程(a)-(d)間で実行されない。実施形態130は、実施形態89-129のいずれか1つの方法を含み、ここで方法は2日未満で完了する。実施形態131は、実施形態89-130のいずれか1つの方法を含み、ここで前記複数のDNA分子は、約5マイクログラム以下である。実施形態132は、実施形態89-131のいずれか1つの方法を含み、ここで前記複数のDNA分子の前記結合は、インビトロで行われる。実施形態133は、実施形態89-132のいずれか1つの方法を含み、ここで前記複数のDNA分子の前記結合は、インビボで行われる。
実施形態134は、インビトロでの複合体においてDNA断片に結合された複数の会合分子を含む組成物を含み、ここで前記インビトロでの複合体は、固体支持体上で固定化され、および前記固体支持体は、ポリペプチドに共有結合的に連結されない。実施形態135は、実施形態89-134のいずれか1つの組成物を含み、ここで前記固体支持体は、ストレプトアビジンに共有結合的に連結されない。実施形態136は、実施形態89-134のいずれか1つの組成物を含み、ここで前記固体支持体はビーズを含む。実施形態137は、実施形態89-136のいずれか1つの組成物を含み、ここで前記ビーズはポリマーを含む。実施形態138は、実施形態89-137のいずれか1つの組成物を含み、ここで前記ポリマー、ポリスチレンまたはポリエチレングリコール(PEG)を含む。実施形態139は、実施形態89-134のいずれか1つの組成物を含み、ここで前記ビーズはSPRIビーズである。実施形態140は、実施形態89-134のいずれか1つの組成物を含み、ここで前記固体支持体は、複数のカルボキシル基でコーティングされる。実施形態141は、実施形態89-134のいずれか1つの組成物を含み、ここで前記固体支持体は、ポリペプチドに共有結合的に連結されない。実施形態142は、実施形態89-134のいずれか1つの組成物を含み、ここで前記会合分子はアミノ酸を含む。実施形態143は、実施形態89-134のいずれか1つの組成物を含み、ここで前記会合分子は、ポリペプチドまたはタンパク質を含む。実施形態144は、実施形態89-143のいずれか1つの組成物を含み、ここで前記会合分子はヒストンタンパク質を含む。実施形態145は、実施形態89-144のいずれか1つの組成物を含み、ここで前記ヒストンタンパク質は、前記DNA分子とは異なるソースからのものである。実施形態146は、実施形態89-134のいずれか1つの組成物を含み、ここで前記会合分子はトランスポサーゼを含む。実施形態147は、実施形態89-134のいずれか1つの組成物を含み、ここで前記第1のDNA分子は、前記会合分子に非共有結合される。実施形態148は、実施形態89-134のいずれか1つの組成物を含み、ここで前記第1のDNA分子は、前記会合分子に共有結合される。実施形態149は、実施形態89-148のいずれか1つの組成物を含み、ここで前記第1のDNA分子は、前記会合分子に架橋される。実施形態150は、実施形態89-134のいずれか1つの組成物を含み、ここで前記会合分子は、固定剤を用いて前記DNA断片に架橋される。実施形態151は、実施形態89-150のいずれか1つの組成物を含み、ここで前記固定剤はホルムアルデヒドである。実施形態152は、実施形態89-134のいずれか1つの組成物を含み、ここで前記DNA断片は、アフィニティー標識で修飾される。実施形態153は、実施形態89-152のいずれか1つの組成物を含み、ここで前記アフィニティー標識はビオチンを含む。実施形態154は、実施形態89-153のいずれか1つの組成物を含み、ここで前記アフィニティー標識は、ビオチンで修飾されたヌクレオシド三リン酸(dNTP)である。実施形態155は、実施形態89-154のいずれか1つの組成物を含み、ここで前記ビオチンで修飾されたヌクレオシド三リン酸(dNTP)は、ビオチンで修飾されたデオキシリボシトシン三リン酸(dCTP)である。実施形態156は、実施形態89-155のいずれか1つの方法を含み、ここで前記複数のDNA分子の前記結合は、インビトロで行われる。実施形態157は、実施形態89-156のいずれか1つの方法を含み、ここで複数のDNA分子の前記結合は、インビボで行われる。
実施形態158は、複数のDNA分子から複数のタグ付けされた配列を生成する方法を含み、該方法は、(a)複数の会合分子に結合された複数のDNA分子を得る工程;(b)少なくとも複数のDNAセグメントを生成するために前記DNA分子を切断する工程;(c)複数のタグ付けされたDNAセグメントを形成するために前記DNAセグメントの少なくとも一部をタグ付けする工程;および(d)複数のタグ付けされた配列を得るために前記タグ付けされたDNAセグメントを配列決定する工程を含み、ここで前記複数のDNA分子の合計量は、約5マイクログラム(μg)未満である。実施形態159は、複数のDNA分子から複数のタグ付けされた配列を生成する方法を含み、該方法は、(a)複数の会合分子に結合された複数のDNA分子を得る工程;(b)少なくとも複数のDNAセグメントを生成するために前記DNA分子を切断する工程;(c)複数のタグ付けされたDNAセグメントを形成するために前記DNAセグメントの少なくとも一部をタグ付けする工程;および(d)複数のタグ付けされた配列を得るために前記タグ付けされたDNAセグメントを配列決定する工程を含み、ここで透析は、工程(a)から工程(d)の間で実行されない。実施形態160は、複数のDNA分子から複数のタグ付けされた配列を生成する方法を含み、該方法は、(a)複数の会合分子に結合された複数のDNA分子を得る工程;(b)少なくとも複数のDNAセグメントを生成するために前記DNA分子を切断する工程;(c)複数のタグ付けされたDNAセグメントを形成するために前記DNAセグメントの少なくとも一部をタグ付けする工程;および(d)複数のタグ付けされた配列を得るために前記タグ付けされたDNAセグメントを配列決定する工程を含み、ここで工程(a)-(d)に必要とされる実地時間の期間は、6時間未満である。実施形態161は、実施形態158、159、または160のいずれか1つの方法を含み、ここで前記DNA分子からのDNAセグメントの40%未満は、他のDNA分子からのDNAセグメントに連結される。実施形態162は、実施形態158-161のいずれか1つの方法を含み、ここで前記DNA分子からのDNAセグメントの20%未満は、他のDNA分子からのDNAセグメントに連結される。実施形態163は、実施形態158-162のいずれか1つの方法を含み、ここで前記会合分子はアミノ酸を含む。実施形態164は、実施形態158-162のいずれか1つの方法を含み、ここで前記会合分子は、ポリペプチドまたはタンパク質である。実施形態165は、実施形態158-164のいずれか1つの方法を含み、ここで前記会合分子はヒストンタンパク質である。実施形態166は、実施形態158-165のいずれか1つの方法を含み、ここで前記ヒストンタンパク質は、前記DNA分子とは異なるソースからのものである。実施形態167は、実施形態158-166のいずれか1つの方法を含み、ここで前記会合分子はトランスポサーゼである。実施形態168は、実施形態158-167のいずれか1つの方法を含み、ここで前記DNA分子は、前記会合分子に非共有結合される。実施形態169は、実施形態158-168のいずれか1つの方法を含み、ここで前記DNA分子は、前記会合分子に共有結合される。実施形態170は、実施形態158-169のいずれか1つの方法を含み、ここで前記DNA分子は、前記会合分子に架橋される。実施形態171は、実施形態158-170のいずれか1つの方法を含み、ここで前記DNA分子は、固定剤を使用して架橋される。実施形態172は、実施形態158-171のいずれか1つの方法を含み、ここで前記DNA分子は、ホルムアルデヒドを使用して架橋される。実施形態173は、実施形態158-172のいずれか1つの方法を含み、方法は、複数の固体支持体上に前記複数の会合分子を固定化する工程を含む。実施形態174は、実施形態158-173のいずれか1つの方法を含み、ここで前記固体支持体はビーズである。実施形態175は、実施形態158-174のいずれか1つの方法を含み、ここで前記ビーズはポリマーを含む。実施形態176は、実施形態158-175のいずれか1つの方法を含み、ここで前記ポリマーは、ポリスチレンまたはポリエチレングリコール(PEG)である。実施形態177は、実施形態158-176のいずれか1つの方法を含み、ここで前記ビーズは磁気ビーズである。実施形態178は、実施形態158-177のいずれか1つの方法を含み、ここで前記ビーズはSPRIビーズである。実施形態179は、実施形態158-178のいずれか1つの方法を含み、ここで前記固体支持体は表面を含み、および前記表面は複数のカルボキシル基を含む。実施形態180は、実施形態158-179のいずれか1つの方法を含み、ここで前記固体支持体は、ポリペプチドに共有結合的に連結されない。実施形態181は、実施形態158-180のいずれか1つの方法を含み、ここで前記会合分子は、前記固体支持体への固定化前にビオチンに共有結合的に連結されない。実施形態182は、実施形態158-181のいずれか1つの方法を含み、ここで前記DNAセグメントの前記一部は、アフィニティー標識で修飾される。実施形態183は、実施形態158-182のいずれか1つの方法を含み、ここで前記アフィニティー標識はビオチンを含む。実施形態184は、実施形態158-183のいずれか1つの方法を含み、ここで前記アフィニティー標識は、ビオチンで修飾されたヌクレオシド三リン酸(dNTP)である。実施形態185は、実施形態158-184のいずれか1つの方法を含み、ここで前記ビオチンで修飾されたヌクレオシド三リン酸(dNTP)は、ビオチンで修飾されたデオキシリボシトシン三リン酸(dCTP)である。実施形態186は、実施形態158-185のいずれか1つの方法を含み、ここで前記DNAセグメントの一部は、少なくとも第1のタグを用いて第1の末端でタグ付けされる。実施形態187は、実施形態158-186のいずれか1つの方法を含み、ここで前記DNAセグメントは、トランスポサーゼを使用してタグ付けされる。実施形態188は、実施形態158-187のいずれか1つの方法を含み、ここで前記DNAセグメントの一部は、前記DNAセグメントの各々を少なくとも1つの他のDNAセグメントに連結することによってタグ付けされる。実施形態189は、実施形態158-188のいずれか1つの方法を含み、ここでDNAセグメントの前記一部は、リガーゼを使用して前記他のDNAセグメントに連結される。実施形態190は、実施形態158-189のいずれか1つの方法を含み、ここで前記DNA分子は、ヌクレアーゼ酵素を使用して切断される。実施形態191は、実施形態158-190のいずれか1つの方法を含み、ここで前記連結されたDNAセグメントは、工程(c)の前に切断される。実施形態192は、実施形態158-191のいずれか1つの方法を含み、ここで前記連結されたDNAセグメントは、物理的方法を使用して切断される。実施形態193は、実施形態158-192のいずれか1つの方法を含み、方法は、前記連結されたDNAセグメントを配列決定アダプターに結合する工程を含む。実施形態194は、実施形態158-193のいずれか1つの方法を含み、ここで前記DNAセグメントは、連結されて前記連結されたDNAセグメントを形成する前に、約10回未満洗浄される。実施形態195は、実施形態158-194のいずれか1つの方法を含み、ここで前記DNAセグメントは、連結されて前記連結されたDNAセグメントを形成する前に、約6回未満洗浄される。実施形態196は、実施形態158-195のいずれか1つの方法を含み、方法は、前記リード対を使用して前記DNA分子の複数のコンティグをアセンブルする工程を含む。実施形態197は、実施形態158-196のいずれか1つの方法を含み、方法は、前記リード対を使用して前記DNAセグメントをフェージングする工程を含む。実施形態198は、実施形態158-197のいずれか1つの方法を含み、ここで方法は2日以下で完了する。実施形態199は、実施形態158-198のいずれか1つの方法を含み、ここで工程(a)での前記得る工程は、前記複数のDNA分子を前記複数の会合分子に結合する工程を含む。実施形態200は、実施形態158-199のいずれか1つの方法を含み、ここで工程(a)での前記得る工程は、前記複数の会合分子に結合された前記複数のDNA分子を収集する工程を含む。実施形態201は、実施形態158-200のいずれか1つの方法を含み、ここで前記複数のDNA分子の合計量は、4μg以下である。実施形態202は、実施形態158-201のいずれか1つの方法を含み、ここで前記複数のDNA分子の合計量は、3μg以下である。実施形態203は、実施形態158-202のいずれか1つの方法を含み、ここで前記複数のDNA分子の合計量は、2μg以下である。実施形態204は、実施形態158-203のいずれか1つの方法を含み、ここで工程(a)-(d)に必要とされる実地時間の期間は、5時間未満であるか5時間を超える。実施形態205は、実施形態158-204のいずれか1つの方法を含み、ここで工程(a)-(d)に必要とされる実地時間の合計は、4時間未満であるか4時間を超える。実施形態206は、実施形態158-205のいずれか1つの方法を含み、ここで透析は、工程(a)-(d)間で実行されない。実施形態207は、実施形態158-206のいずれか1つの方法を含み、ここで方法は2日未満で完了する。実施形態208は、実施形態158-207のいずれか1つの方法を含み、ここで前記複数のDNA分子の前記結合は、インビトロで行われる。実施形態209は、実施形態158-208のいずれか1つの方法を含み、ここで前記複数のDNA分子の前記結合は、インビボで行われる。
実施形態210は、宿主集団の病原体を検出する方法を含み、該方法は、a)共通の病原体を持つ疑いのある複数の個体の各々から安定したサンプルを得る工程;b)安定したサンプルにおいて二本鎖DNAを切断するように安定したサンプルを処理する工程;c)露出したDNA末端を標識する工程;d)標識されたペアエンドを形成するために標識された露出したDNA末端を連結する工程;e)複数のペア配列リードを生成するために標識されたペアエンドにわたって配列決定する工程;f)複数の配列リードのペア配列リードの各半分を共通の由来となる生物に割り当てる工程を含み、ここで共通の病原体を持つ疑いのある個体に共通する由来となる生物は、病原体である。実施形態211は、実施形態210の方法を含み、ここで由来となる生物の配列リードは、既知の病原体にマッピングされる。実施形態212は、実施形態210-211のいずれか1つの方法を含み、ここで由来となる生物の配列リードは、配列データベース検索において既知の病原体を特定する。実施形態213は、実施形態210-212のいずれか1つの方法を含み、ここで由来となる生物の配列リードは、共通の病原体を持つ疑いのない複数の個体の各々から得られた安定したサンプルから得られた複数のペア配列リードには存在しない。実施形態214は、実施形態210-213のいずれか1つの方法を含み、ここで由来となる生物の配列リードは、配列データベースに表わされない生物を特定する。実施形態215は、実施形態210-214のいずれか1つの方法を含み、ここで安定したサンプルは架橋されている。実施形態216は、実施形態210-215のいずれか1つの方法を含み、ここで安定したサンプルは、ホルムアルデヒドに接触させられている。実施形態217は、実施形態210-215のいずれか1つの方法を含み、ここで安定したサンプルは、ソラレンに接触させられている。実施形態218は、実施形態210-215のいずれか1つの方法を含み、ここで安定したサンプルは、UV放射にさらされている。実施形態219は、実施形態210-218のいずれか1つの方法を含み、ここでサンプルは、DNA結合部分に接触させられている。実施形態220は、実施形態210-219のいずれか1つの方法を含み、ここでDNA結合部分はヒストンを含む。実施形態221は、実施形態210-220のいずれか1つの方法を含み、ここで二本鎖DNAを切断するように安定したサンプルを処理する工程は、サンプルを制限エンドヌクレアーゼに接触させる工程を含む。実施形態222は、実施形態210-221のいずれか1つの方法を含み、ここで二本鎖DNAを切断するように安定したサンプルを処理する工程は、サンプルを超音波処理する工程を含む。実施形態223は、実施形態210-22のいずれか1つの方法を含み、ここで露出したDNA末端を標識する工程は、ビオチン部分を露出したDNA末端に加える工程を含む。実施形態224は、実施形態210-223のいずれか1つの方法を含み、ここでサンプルは、血液、汗、尿、または便に由来する。実施形態225は、実施形態210-224のいずれか1つの方法を含み、ここで方法は2日以下で完了する。実施形態226は、実施形態210-225のいずれか1つの方法を含み、ここで方法を完了するのに必要とされる実地時間の期間は、6時間以下である。実施形態227は、実施形態210-226のいずれか1つの方法を含み、ここで方法は、SPRIビーズを使用する工程を含む。実施形態228は、実施形態210-227のいずれか1つの方法を含み、ここで安定したサンプルは、約5マイクログラム以下のDNAを含む。
実施形態229は、抗生物質耐性遺伝子の微生物宿主を特定する方法を含み、該方法は、a)微生物抗生物質耐性を実証している状態を有している個体から安定したサンプルを得る工程;b)安定したサンプルにおいて二本鎖DNAを切断するように安定したサンプルを処理する工程;c)露出したDNA末端を標識する工程;d)標識されたペアエンドを形成するために標識された露出したDNA末端を連結する工程;およびe)ペア配列を生成するために標識されたペアエンドにわたって配列決定する工程を含み、ここで抗生物質耐性遺伝子配列に隣接している配列は、抗生物質耐性遺伝子の微生物宿主を暗示している。実施形態230は、実施形態229の方法を含み、ここで安定したサンプルは架橋されている。実施形態231は、実施形態229-230のいずれか1つの方法を含み、ここで安定したサンプルは、ホルムアルデヒドに接触させられている。実施形態232は、実施形態229-230のいずれか1つの方法を含み、ここで安定したサンプルは、ソラレンに接触させられている。実施形態233は、実施形態229-230のいずれか1つの方法を含み、ここで安定したサンプルは、UV放射にさらされている。実施形態234は、実施形態229-233のいずれか1つの方法を含み、ここでサンプルは、DNA結合部分に接触させられている。実施形態235は、実施形態229-234のいずれか1つの方法を含み、ここでDNA結合部分はヒストンを含む。実施形態236は、実施形態229-235のいずれか1つの方法を含み、ここで二本鎖DNAを切断するように安定したサンプルを処理する工程は、サンプルを制限エンドヌクレアーゼに接触させる工程を含む。実施形態237は、実施形態229-236のいずれか1つの方法を含み、ここで二本鎖DNAを切断するように安定したサンプルを処理する工程は、サンプルを超音波処理する工程を含む。実施形態238は、実施形態229-237のいずれか1つの方法を含み、ここで露出したDNA末端を標識する工程は、ビオチン部分を露出したDNA末端に加える工程を含む。実施形態239は、実施形態229-238のいずれか1つの方法を含み、方法は、DNAデータベースに対するペア配列を検索する工程を含む。実施形態240は、実施形態229-239のいずれか1つの方法を含み、ここで方法は2日以下で完了する。実施形態241は、実施形態229-240のいずれか1つの方法を含み、ここで方法を完成するのに必要とされる実地時間の期間は、6時間以下である。実施形態242は、実施形態229-241のいずれか1つの方法を含み、ここで方法は、SPRIビーズを使用する工程を含む。実施形態243は、実施形態229-242のいずれか1つの方法を含み、ここで安定したサンプルは、約5マイクログラム以下のDNAを含む。
実施形態244は、異種の核酸サンプルに対するゲノム連鎖情報を判定する方法を含み、該方法は、(a)安定した異種の核酸サンプルを得る工程;(b)安定したサンプルにおいて二本鎖DNAを切断するように安定したサンプルを処理する工程;(c)露出したDNA末端を標識する工程;(d)標識されたペアエンドを形成するために標識された露出したDNA末端を連結する工程;(e)複数のペア配列を生成するために標識されたペアエンドにわたって配列決定する工程;(f)複数の配列リードのペア配列の各半分を共通の由来となる核酸分子に割り当てる工程を含む。実施形態245は、実施形態244の方法を含み、ここで異種の核酸サンプルは、血液、汗、尿または便から得られる。実施形態246は、実施形態244-245のいずれか1つの方法を含み、ここで安定したサンプルは架橋されている。実施形態247は、実施形態244-246のいずれか1つの方法を含み、ここで安定したサンプルは、ホルムアルデヒドに接触させられている。実施形態248は、実施形態244-246のいずれか1つの方法を含み、ここで安定したサンプルは、ソラレンに接触させられている。実施形態249は、実施形態244-246のいずれか1つの方法を含み、ここで安定したサンプルは、UV放射にさらされている。実施形態250は、実施形態244-249のいずれか1つの方法を含み、ここでサンプルは、DNA結合部分に接触させられている。実施形態251は、実施形態244-250のいずれか1つの方法を含み、ここでDNA結合部分はヒストンを含む。実施形態252は、実施形態244-251のいずれか1つの方法を含み、ここで二本鎖DNAを切断するように安定したサンプルを処理する工程は、サンプルを制限エンドヌクレアーゼに接触させる工程を含む。実施形態253は、実施形態244-252のいずれか1つの方法を含み、ここで二本鎖DNAを切断するように安定したサンプルを処理する工程は、サンプルを超音波処理する工程を含む。実施形態254は、実施形態244-253のいずれか1つの方法を含み、ここで露出したDNA末端を標識する工程は、ビオチン部分を露出したDNA末端に加える工程を含む。実施形態255は、実施形態244-254のいずれか1つの方法を含み、方法は、DNAデータベースに対するペア配列を検索する工程を含む。実施形態256は、実施形態244-255のいずれか1つの方法を含み、ここで共通の由来となる核酸分子は、単一の個体にマッピングされる。実施形態257は、実施形態244-256のいずれか1つの方法を含み、ここで共通の由来となる核酸分子は、集団のサブセットを特定する。実施形態258は、実施形態244-257のいずれか1つの方法を含み、ここで方法は2日以下で完了する。実施形態259は、実施形態244-258のいずれか1つの方法を含み、ここで方法を完成するのに必要とされる実地時間の期間は、6時間以下である。実施形態260は、実施形態244-259のいずれか1つの方法を含み、ここで方法は、SPRIビーズを使用する工程を含む。実施形態261は、実施形態244260のいずれか1つの方法を含み、ここで安定したサンプルは、約5マイクログラム以下のDNAを含む。
実施形態262は、メタゲノミクスアセンブリのための方法を含み、該方法は、(a)環境から微生物を収集する工程;(b)微生物から複数のコンティグを得る工程;(c)再構成されたクロマチンの物理レイアウトを探索することによって生成されたデータから複数のリード対を生成する工程;および(d)複数のリード対を複数のコンティグにマッピングし、それによってリードマッピングのデータを生成する工程を含み、ここで異なるコンティグにマッピングされるリード対は、異なるコンティグが共通の種由来であることを示している。実施形態263は、実施形態262のいずれか1つの方法を含み、ここで微生物は、ヒトの腸から収集される。実施形態264は、細菌性の感染病原体を検出する方法を含み、(a)細菌性の感染病原体から複数のコンティグを得る工程;(b)再構成されたクロマチンの物理レイアウトを探索することによって生成されたデータから複数のリード対を生成する工程;(c)複数のリード対を複数のコンティグにマッピングし、それによってリードマッピングのデータを生成する工程;(d)コンティグをゲノムアセンブリへとアセンブルするために、リードマッピングのデータを使用してコンティグを配置する工程;および(e)細菌性の感染病原体の存在を判定するためにゲノムアセンブリを使用する工程を含む。
実施形態265は、宿主集団の病原体を検出する方法を含み、該方法は、a)共通の病原体を持つ疑いのある複数の個体の各々から安定したサンプルを得る工程;b)安定したサンプルにおいて二本鎖DNAを切断するように安定したサンプルを処理する工程;c)第1のバーコードタグを使用して安定したサンプルの第1の部分の露出したDNA末端をタグ付けし、第2のバーコードタグを使用して安定したサンプルの第2の部分の露出した末端をタグ付けする工程;d)複数のバーコードタグ付けされた配列リードを生成するためにバーコードタグ付けされた末端にわたって配列決定する工程;およびe)複数の配列リードの一般にバーコードタグ付けされた配列リードを共通の由来となる生物に割り当てる工程を含み、ここで共通の病原体を持つ疑いのある個体に共通する由来となる生物は、病原体である。実施形態266は、実施形態265の方法を含み、ここで由来となる生物の配列リードは、既知の病原体にマッピングされる。実施形態267は、実施形態265-266のいずれか1つの方法を含み、ここで由来となる生物の配列リードは、配列データベース検索において既知の病原体を特定する。実施形態268は、実施形態265-267のいずれか1つの方法を含み、ここで由来となる生物の配列リードは、共通の病原体を持つ疑いのない複数の個体の各々から得られた安定したサンプルから得られた複数のペア配列リードには存在しない。実施形態269は、実施形態265-268のいずれか1つの方法を含み、ここで由来となる生物の配列リードは、配列データベースに表わされない生物を特定する。実施形態270は、実施形態265-269のいずれか1つの方法を含み、ここで安定したサンプルは架橋されている。実施形態271は、実施形態265-270のいずれか1つの方法を含み、ここで安定したサンプルは、ホルムアルデヒドに接触させられている。実施形態272は、実施形態265-271のいずれか1つの方法を含み、ここで安定したサンプルは、ソラレンに接触させられている。実施形態273は、実施形態265-272のいずれか1つの方法を含み、ここで安定したサンプルは、UV放射にさらされている。実施形態274は、実施形態265-273のいずれか1つの方法を含み、ここでサンプルは、DNA結合部分に接触させられている。実施形態275は、実施形態265-274のいずれか1つの方法を含み、ここでDNA結合部分はヒストンを含む。実施形態276は、実施形態265-275のいずれか1つの方法を含み、ここで二本鎖DNAを切断するように安定したサンプルを処理する工程は、サンプルを制限エンドヌクレアーゼに接触させる工程を含む。実施形態277は、実施形態265-276のいずれか1つの方法を含み、ここで二本鎖DNAを切断するように安定したサンプルを処理する工程は、サンプルを超音波処理する工程を含む。実施形態278は、実施形態265-277のいずれか1つの方法を含み、ここで露出したDNA末端をタグ付けする工程は、ビオチン部分を露出したDNA末端に加える工程を含む。実施形態279は、実施形態265-278のいずれか1つの方法を含み、ここでサンプルは、血液、汗、尿、または便に由来する。実施形態280は、実施形態265-279のいずれか1つの方法を含み、ここで方法は2日以下で完了する。実施形態281は、実施形態265-280のいずれか1つの方法を含み、ここで方法を完成するのに必要とされる実地時間の期間は、6時間以下である。実施形態282は、実施形態265-281のいずれか1つの方法を含み、ここで方法は、SPRIビーズを使用する工程を含む。実施形態283は、実施形態265-282のいずれか1つの方法を含み、ここで安定したサンプルは、約5マイクログラム以下のDNAを含む。
実施形態284は、抗生物質耐性遺伝子の微生物宿主を特定する方法を含み、該方法は、a)微生物抗生物質耐性を実証している状態を有している個体から安定したサンプルを得る工程;b)安定したサンプルにおいて二本鎖DNAを切断するように安定したサンプルを処理する工程;c)第1のバーコードタグを使用して安定したサンプルの第1の部分の露出したDNA末端をタグ付けし、第2のバーコードタグを使用して安定したサンプルの第2の部分の露出した末端をタグ付けする工程;d)複数のバーコードタグ付けされた配列リードを生成するためにバーコードタグ付けされた末端にわたって配列決定する工程を含み、ここで抗生物質耐性遺伝子配列のバーコードタグと同一のバーコードタグを有する配列は、抗生物質耐性遺伝子の微生物宿主を暗示している。実施形態285は、実施形態284の方法を含み、ここで安定したサンプルは架橋されている。実施形態286は、実施形態284-285のいずれか1つの方法を含み、ここで安定したサンプルは、ホルムアルデヒドに接触させられている。実施形態287は、実施形態284-285のいずれか1つの方法を含み、ここで安定したサンプルは、ソラレンに接触させられている。実施形態288は、実施形態284-285のいずれか1つの方法を含み、ここで安定したサンプルは、UV放射にさらされている。実施形態289は、実施形態284-288のいずれか1つの方法を含み、ここでサンプルは、DNA結合部分に接触させられている。実施形態290は、実施形態284-289のいずれか1つの方法を含み、ここでDNA結合部分はヒストンを含む。実施形態291は、実施形態284-290のいずれか1つの方法を含み、ここで二本鎖DNAを切断するように安定したサンプルを処理する工程は、サンプルを制限エンドヌクレアーゼに接触させる工程を含む。実施形態292は、実施形態284-291のいずれか1つの方法を含み、ここで二本鎖DNAを切断するように安定したサンプルを処理する工程は、サンプルを超音波処理する工程を含む。実施形態293は、実施形態284-292のいずれか1つの方法を含み、ここで露出したDNA末端をタグ付けする工程は、ビオチン部分を露出したDNA末端に加える工程を含む。実施形態294は、実施形態284-293のいずれか1つの方法を含み、方法は、DNAデータベースに対するペア配列を検索する工程を含む。実施形態295は、実施形態284-294のいずれか1つの方法を含み、ここで方法は2日以下で完了する。実施形態296は、実施形態284-295のいずれか1つの方法を含み、ここで方法を完成するのに必要とされる実地時間の期間は、6時間以下である。実施形態297は、実施形態284-296のいずれか1つの方法を含み、ここで方法は、SPRIビーズを使用する工程を含む。実施形態298は、実施形態284-297のいずれか1つの方法を含み、ここで安定したサンプルは、約5マイクログラム以下のDNAを含む。
実施形態299は、異種の核酸サンプルに対するゲノム連鎖情報を判定する方法を含み、該方法は、(a)安定した異種の核酸サンプルを得る工程;(b)安定したサンプルにおいて二本鎖DNAを切断するように安定したサンプルを処理する工程;(c)第1のバーコードタグを使用して安定したサンプルの第1の部分の露出したDNA末端をタグ付けし、第2のバーコードタグを使用して安定したサンプルの第2の部分の露出した末端をタグ付けする工程;(d)複数のバーコードタグ付けされた配列リードを生成するためにバーコードタグ付けされた末端にわたって配列決定する工程;(e)一般にタグ付けされた配列リードを共通の由来となる核酸分子に割り当てる工程を含む。実施形態300は、実施形態299の方法を含み、ここで異種の核酸サンプルは、血液、汗、尿または便から得られる。実施形態301は、実施形態299-300のいずれか1つの方法を含み、ここで安定したサンプルは架橋されている。実施形態302は、実施形態299-301のいずれか1つの方法を含み、ここで安定したサンプルは、ホルムアルデヒドに接触させられている。実施形態303は、実施形態299-301のいずれか1つの方法を含み、ここで安定したサンプルは、ソラレンに接触させられている。実施形態304は、実施形態299-301のいずれか1つの方法を含み、ここで安定したサンプルは、UV放射にさらされている。実施形態305は、実施形態299-304のいずれか1つの方法を含み、ここでサンプルは、DNA結合部分に接触させられている。実施形態306は、実施形態299-305のいずれか1つの方法を含み、ここでDNA結合部分はヒストンを含む。実施形態307は、実施形態299-306のいずれか1つの方法を含み、ここで二本鎖DNAを切断するように安定したサンプルを処理する工程は、サンプルをヌクレアーゼに接触させる工程を含む。実施形態308は、実施形態299-307のいずれか1つの方法を含み、ここで前記ヌクレアーゼは制限エンドヌクレアーゼである。実施形態309は、実施形態299-308のいずれか1つの方法を含み、ここで二本鎖DNAを切断するように安定したサンプルを処理する工程は、サンプルを超音波処理する工程を含む。実施形態310は、実施形態299-309のいずれか1つの方法を含み、ここで露出したDNA末端をタグ付けする工程は、ビオチン部分を露出したDNA末端に加える工程を含む。実施形態311は、実施形態299-310のいずれか1つの方法を含み、方法は、DNAデータベースに対するペア配列を検索する工程を含む。実施形態312は、実施形態299-311のいずれか1つの方法を含み、ここで共通の由来となる核酸分子は、単一の個体にマッピングされる。実施形態313は、実施形態299-312のいずれか1つの方法を含み、ここで共通の由来となる核酸分子は、集団のサブセットを特定する。実施形態314は、実施形態299-313のいずれか1つの方法を含み、ここで異種のサンプルは、共通の種の少なくとも2つの個体にマッピングされる核酸を含む。実施形態315は、実施形態299-314のいずれか1つの方法を含み、ここで異種のサンプルは、共通の種の少なくとも3つの個体にマッピングされる核酸を含む。実施形態316は、実施形態299-315のいずれか1つの方法を含み、ここで異種のサンプルは、少なくとも2つの種にマッピングされる核酸を含む。実施形態317は、実施形態299-316のいずれか1つの方法を含み、ここで異種のサンプルは、少なくとも3つの種にマッピングされる核酸を含む。実施形態318は、実施形態299-317のいずれか1つの方法を含み、ここで異種のサンプルは、少なくとも4つの種にマッピングされる核酸を含む。実施形態319は、実施形態299-318のいずれか1つの方法を含み、ここで配列リードは、外因性配列情報とは無関係に少なくとも2つの核酸足場へとアセンブルされる。実施形態320は、実施形態299-319のいずれか1つの方法を含み、ここで配列リードは、外因性配列情報とは無関係に少なくとも3つの核酸足場へとアセンブルされる。実施形態321は、実施形態299-320のいずれか1つの方法を含み、ここで配列リードは少なくとも2つの核酸足場へとアセンブルされ、それにより、第1のゲノムの少なくとも50%および第2のゲノムの少なくとも50%が、前記少なくとも2つの核酸足場で表わされる。実施形態322は、実施形態299-321のいずれか1つの方法を含み、ここで配列リードは少なくとも2つの核酸足場へとアセンブルされ、それにより、第1のゲノムの少なくとも60%および第2のゲノムの少なくとも60%が、前記少なくとも2つの核酸足場で表わされる。実施形態323は、実施形態299-322のいずれか1つの方法を含み、ここで配列リードは少なくとも2つの核酸足場へとアセンブルされ、それにより、第1のゲノムの少なくとも70%および第2のゲノムの少なくとも70%が、前記少なくとも2つの核酸足場で表わされる。実施形態324は、実施形態299-323のいずれか1つの方法を含み、ここで配列リードは少なくとも2つの核酸足場へとアセンブルされ、それにより、第1のゲノムの少なくとも80%および第2のゲノムの少なくとも80%が、前記少なくとも2つの核酸足場で表わされる。実施形態325は、実施形態299-324のいずれか1つの方法を含み、ここで方法は2日以下で完了する。実施形態326は、実施形態299-325のいずれか1つの方法を含み、ここで方法を完成するのに必要とされる実地時間の期間は、6時間以下である。実施形態327は、実施形態299-326のいずれか1つの方法を含み、ここで方法は、SPRIビーズを使用する工程を含む。実施形態328は、実施形態299-327のいずれか1つの方法を含み、ここで安定したサンプルは、約5マイクログラム以下のDNAを含む。
実施形態329は、宿主集団の病原体を検出する方法を含み、該方法は、a)複数の被験体の各々から安定したサンプルを得る工程;b)安定したサンプルにおいて二本鎖DNAを切断するように安定したサンプルを処理し、それによって、露出したDNA末端を生成する工程;c)露出したDNA末端の少なくとも一部を標識する工程;d)標識されたペアエンドを形成するために露出したDNA末端を連結する工程;e)複数のリード対を生成するために標識されたペアエンドの少なくとも認識可能な部分を配列決定する工程;およびf)リード対の各半分を共通の由来となる生物に割り当てる工程を含み、ここで被験体に共通する由来となる生物は、病原体として検出される。実施形態330は、実施形態329の方法を含み、ここで由来となる生物のリード対は、既知の病原体にマッピングされる。実施形態331は、実施形態329-330のいずれか1つの方法を含み、ここで由来となる生物のリード対は、配列データベース検索において既知の病原体を特定する。実施形態332は、実施形態329-331のいずれか1つの方法を含む、由来となる生物のリード対は、共通の病原体を持たない複数の被験体の各々から得られた安定したサンプルから得られた複数のリード対には存在しない。実施形態333は、実施形態329-332のいずれか1つの方法を含み、ここで由来となる生物のリード対は、配列データベースに表わされない生物を特定する。実施形態334は、実施形態329-333のいずれか1つの方法を含み、ここで安定したサンプルは架橋されている。実施形態335は、実施形態329-334のいずれか1つの方法を含み、ここで安定したサンプルは、ホルムアルデヒドに接触させられている。実施形態336は、実施形態329-334のいずれか1つの方法を含み、ここで安定したサンプルは、ソラレンに接触させられている。実施形態337は、実施形態329-334のいずれか1つの方法を含み、ここで安定したサンプルは、UV放射にさらされている。実施形態338は、実施形態329-337のいずれか1つの方法を含む、安定したサンプルは、サンプルをDNA結合部分と接触させることによって得られる。実施形態339は、実施形態329-338のいずれか1つの方法を含み、ここでDNA結合部分はヒストンを含む。実施形態340は、実施形態329-339のいずれか1つの方法を含み、ここで二本鎖DNAを切断するように安定したサンプルを処理する工程は、制限エンドヌクレアーゼに対する安定したサンプルを接触させる工程を含む。実施形態341は、実施形態329-340のいずれか1つの方法を含み、ここで二本鎖DNAを切断するように安定したサンプルを処理する工程は、安定したサンプルを超音波処理する工程を含む。実施形態342は、実施形態329-341のいずれか1つの方法を含み、ここで露出したDNA末端を標識する工程は、ビオチン部分を露出したDNA末端に加える工程を含む。実施形態343は、実施形態329-342のいずれか1つの方法を含み、ここで安定したサンプルは、血液、汗、尿、または便に由来する。実施形態344は、実施形態329-343のいずれか1つの方法を含み、ここで方法は2日以下で完了する。実施形態345は、実施形態329-344のいずれか1つの方法を含み、ここで方法を完成するのに必要とされる実地時間の期間は、6時間以下である。実施形態346は、実施形態329-345のいずれか1つの方法を含み、ここで方法は、SPRIビーズを使用する工程を含む。実施形態347は、実施形態329-346のいずれか1つの方法を含み、ここで安定したサンプルは、約5マイクログラム以下のDNAを含む。
実施形態348は、抗生物質耐性遺伝子の微生物宿主を特定する方法を含み、該方法は、a)微生物抗生物質耐性を実証している状態を有している被験体から安定したサンプルを得る工程;b)安定したサンプルにおいて二本鎖DNAを切断するように安定したサンプルを処理し、それによって、露出したDNA末端を生成する工程;c)露出したDNA末端の少なくとも一部を標識する工程;d)標識されたペアエンドを形成するために標識された露出したDNA末端を連結する工程;およびe)ペア配列を生成するために連結されたペアエンドの少なくとも認識可能な部分を配列決定する工程を含み、ここで抗生物質耐性遺伝子配列に隣接しているペア配列は、抗生物質耐性遺伝子の微生物宿主を暗示している。実施形態349は、実施形態348の方法を含み、ここで安定したサンプルは架橋されている。実施形態350は、実施形態348-349のいずれか1つの方法を含み、ここで安定したサンプルは、ホルムアルデヒドに接触させられている。実施形態351は、実施形態348-349のいずれか1つの方法を含み、ここで安定したサンプルは、ソラレンに接触させられている。実施形態352は、実施形態348-349のいずれか1つの方法を含み、ここで安定したサンプルは、UV放射にさらされている。実施形態353は、実施形態348-352のいずれか1つの方法を含み、ここでサンプルは、DNA結合部分に接触させられている。実施形態354は、実施形態348-353のいずれか1つの方法を含み、ここでDNA結合部分はヒストンを含む。実施形態355は、実施形態348-354のいずれか1つの方法を含み、ここで二本鎖DNAを切断するように安定したサンプルを処理する工程は、サンプルを制限エンドヌクレアーゼに接触させる工程を含む。実施形態356は、実施形態348-355のいずれか1つの方法を含み、ここで二本鎖DNAを切断するように安定したサンプルを処理する工程は、サンプルを超音波処理する工程を含む。実施形態357は、実施形態348-356のいずれか1つの方法を含み、ここで露出したDNA末端を標識する工程は、ビオチン部分を露出したDNA末端に加える工程を含む。実施形態358は、実施形態348-357のいずれか1つの方法を含み、方法は、DNAデータベースに対するペア配列を検索する工程を含む。実施形態359は、実施形態348-358のいずれか1つの方法を含み、ここで方法は2日以下で完了する。実施形態360は、実施形態348-359のいずれか1つの方法を含み、ここで方法を完成するのに必要とされる実地時間の期間は、6時間以下である。実施形態361は、実施形態348-360のいずれか1つの方法を含み、ここで方法は、SPRIビーズを使用する工程を含む。実施形態362は、実施形態348-361のいずれか1つの方法を含み、ここで安定したサンプルは、約5マイクログラム以下のDNAを含む。
実施形態363は、異種の核酸サンプルに対するゲノム連鎖情報を判定する方法を含み、該方法は、(a)異種の核酸サンプルを安定させる工程;(b)安定したサンプルにおいて二本鎖DNAを切断するように安定したサンプルを処理し、それによって、露出したDNA末端を生成する工程;(c)露出したDNA末端の少なくとも一部を標識する工程;(d)標識されたペアエンドを形成するために標識された露出したDNA末端を連結する工程;(e)複数のリード対を生成するために標識されたペアエンドの少なくとも認識可能な部分を配列決定する工程;(f)リード対の各半分を共通の由来となる核酸分子に割り当てる工程を含む。実施形態364は、実施形態363の方法を含み、ここで異種の核酸サンプルは、血液、汗、尿または便から得られる。実施形態365は、実施形態363-364のいずれか1つの方法を含み、ここで安定したサンプルは架橋されている。実施形態366は、実施形態363-365のいずれか1つの方法を含み、ここで安定したサンプルは、ホルムアルデヒドに接触させられている。実施形態367は、実施形態363-365のいずれか1つの方法を含み、ここで安定したサンプルは、ソラレンに接触させられている。実施形態368は、実施形態363-365のいずれか1つの方法を含み、ここで安定したサンプルは、UV放射にさらされている。実施形態369は、実施形態363-368のいずれか1つの方法を含み、ここでサンプルは、DNA結合部分に接触させられている。実施形態370は、実施形態363-369のいずれか1つの方法を含み、ここでDNA結合部分はヒストンを含む。実施形態371は、実施形態363-370のいずれか1つの方法を含み、ここで二本鎖DNAを切断するように安定したサンプルを処理する工程は、サンプルを制限エンドヌクレアーゼに接触させる工程を含む。実施形態372は、実施形態363-371のいずれか1つの方法を含み、ここで二本鎖DNAを切断するように安定したサンプルを処理する工程は、サンプルを超音波処理する工程を含む。実施形態373は、実施形態363-372のいずれか1つの方法を含み、ここで露出したDNA末端を標識する工程は、ビオチン部分を露出したDNA末端に加える工程を含む。実施形態374は、実施形態363-373のいずれか1つの方法を含み、方法は、DNAデータベースに対するペア配列を検索する工程を含む。実施形態375は、実施形態363-374のいずれか1つの方法を含み、ここで共通の由来となる核酸分子は、単一の個体にマッピングされる。実施形態376は、実施形態363-375のいずれか1つの方法を含み、ここで共通の由来となる核酸分子は、集団のサブセットを特定する。実施形態377は、実施形態363-376のいずれか1つの方法を含み、ここで異種のサンプルは、共通の種の少なくとも2つの個体にマッピングされる核酸を含む。実施形態378は、実施形態363-377のいずれか1つの方法を含み、ここで異種のサンプルは、共通の種の少なくとも3つの個体にマッピングされる核酸を含む。実施形態379は、実施形態363-378のいずれか1つの方法を含み、ここで異種のサンプルは、少なくとも2つの種にマッピングされる核酸を含む。実施形態380は、実施形態363-379のいずれか1つの方法を含み、ここで異種のサンプルは、少なくとも3つの種にマッピングされる核酸を含む。実施形態381は、実施形態363-380のいずれか1つの方法を含み、ここで異種のサンプルは、少なくとも4つの種にマッピングされる核酸を含む。実施形態382は、実施形態363-381のいずれか1つの方法を含み、ここで配列リードは、外因性配列情報とは無関係に少なくとも2つの核酸足場へとアセンブルされる。実施形態383は、実施形態363-382のいずれか1つの方法を含み、ここで配列リードは、外因性配列情報とは無関係に少なくとも3つの核酸足場へとアセンブルされる。実施形態384は、実施形態363-383のいずれか1つの方法を含み、ここで配列リードは少なくとも2つの核酸足場へとアセンブルされ、それにより、第1のゲノムの少なくとも50%および第2のゲノムの少なくとも50%が、前記少なくとも2つの核酸足場で表わされる。実施形態385は、実施形態363-384のいずれか1つの方法を含み、ここで配列リードは少なくとも2つの核酸足場へとアセンブルされ、それにより、第1のゲノムの少なくとも60%および第2のゲノムの少なくとも60%が、前記少なくとも2つの核酸足場で表わされる。実施形態386は、実施形態363-385のいずれか1つの方法を含み、ここで配列リードは少なくとも2つの核酸足場へとアセンブルされ、それにより、第1のゲノムの少なくとも70%および第2のゲノムの少なくとも70%が、前記少なくとも2つの核酸足場で表わされる。実施形態387は、実施形態363-386のいずれか1つの方法を含み、ここで配列リードは少なくとも2つの核酸足場へとアセンブルされ、それにより、第1のゲノムの少なくとも80%および第2のゲノムの少なくとも80%が、前記少なくとも2つの核酸足場で表わされる。実施形態388は、実施形態363-387のいずれか1つの方法を含み、ここで方法は2日以下で完了する。実施形態389は、実施形態363-388のいずれか1つの方法を含み、ここで方法を完成するのに必要とされる実地時間の期間は、6時間以下である。実施形態390は、実施形態363-389のいずれか1つの方法を含み、ここで方法は、SPRIビーズを使用する工程を含む。実施形態391は、実施形態363-390のいずれか1つの方法を含み、ここで安定したサンプルは、約5マイクログラム以下のDNAを含む。
実施形態392は、メタゲノミクスアセンブリのための方法を含み、該方法は、(a)環境から微生物を収集する工程;(b)微生物から複数のコンティグを得る工程;(c)再構成されたクロマチンの物理レイアウトを探索することによって生成されたデータから複数のリード対を生成する工程;および(d)複数のリード対を複数のコンティグにマッピングし、それによって、リードマッピングのデータを生成する工程を含み、ここで異なるコンティグにマッピングされるリード対は、異なるコンティグが共通の個体から生じることを示している。実施形態393は、実施形態392のいずれか1つの方法を含み、ここで微生物は、ヒトの腸から収集される。実施形態394は、実施形態392の方法を含み、ここで微生物は、ヒトの皮膚から収集される。実施形態395は、実施形態392-394のいずれか1つの方法を含み、ここで微生物は、有毒廃棄物から収集される。実施形態396は、実施形態392-395のいずれか1つの方法を含み、ここで微生物は、木材またはセルロースの分解から収集される。実施形態397は、実施形態392-396のいずれか1つの方法を含み、ここで微生物は、水環境から収集される。実施形態398は、実施形態392-397のいずれか1つの方法を含み、ここで微生物は、海底から収集される。実施形態399は、実施形態392-398のいずれか1つの方法を含み、ここで微生物は、地球環境から収集される。実施形態400は、実施形態392-399のいずれか1つの方法を含み、ここで微生物は、生物環境から収集される。実施形態401は、実施形態392-400のいずれか1つの方法を含み、ここで異種のサンプルは、共通の種の少なくとも2つの個体にマッピングされる核酸を含む。実施形態402は、実施形態392-401のいずれか1つの方法を含み、ここで異種のサンプルは、共通の種の少なくとも3つの個体にマッピングされる核酸を含む。実施形態403は、実施形態392-402のいずれか1つの方法を含み、ここで異種のサンプルは、少なくとも2つの種にマッピングされる核酸を含む。実施形態404は、実施形態392-403のいずれか1つの方法を含み、ここで異種のサンプルは、少なくとも3つの種にマッピングされる核酸を含む。実施形態405は、実施形態392-404のいずれか1つの方法を含み、ここで異種のサンプルは、少なくとも4つの種にマッピングされる核酸を含む。実施形態406は、実施形態392-405のいずれか1つの方法を含み、ここで配列リードは、外因性配列情報とは無関係に少なくとも2つの核酸足場へとアセンブルされる。実施形態407は、実施形態392-406のいずれか1つの方法を含み、ここで配列リードは、外因性配列情報とは無関係に少なくとも3つの核酸足場へとアセンブルされる。実施形態408は、実施形態392-407のいずれか1つの方法を含み、ここで配列リードは少なくとも2つの核酸足場へとアセンブルされ、それにより、第1のゲノムの少なくとも50%および第2のゲノムの少なくとも50%が、前記少なくとも2つの核酸足場で表わされる。実施形態409は、実施形態392-408のいずれか1つの方法を含み、ここで配列リードは少なくとも2つの核酸足場へとアセンブルされ、それにより、第1のゲノムの少なくとも60%および第2のゲノムの少なくとも60%が、前記少なくとも2つの核酸足場で表わされる。実施形態410は、実施形態392-409のいずれか1つの方法を含み、ここで配列リードは少なくとも2つの核酸足場へとアセンブルされ、それにより、第1のゲノムの少なくとも70%および第2のゲノムの少なくとも70%が、前記少なくとも2つの核酸足場で表わされる。実施形態411は、実施形態392-410のいずれか1つの方法を含み、ここで配列リードは少なくとも2つの核酸足場へとアセンブルされ、それにより、第1のゲノムの少なくとも80%および第2のゲノムの少なくとも80%が、前記少なくとも2つの核酸足場で表わされる。実施形態412は、実施形態392-411のいずれか1つの方法を含み、ここで方法は、SPRIビーズを使用する工程を含む。実施形態413は、実施形態392-412のいずれか1つの方法を含み、ここで安定したサンプルは、約5マイクログラム以下のDNAを含む。
実施形態414は、細菌性の感染病原体を検出する方法を含み、該方法は、(a)細菌性の感染病原体から複数のコンティグを得る工程;(b)再構成されたクロマチンの物理レイアウトを探索することによって生成されたデータから複数のリード対を生成する工程;(c)複数のリード対を複数のコンティグにマッピングし、それによって、リードマッピングのデータを生成する工程;(d)コンティグをゲノムアセンブリへとアセンブルするために、リードマッピングのデータを使用してコンティグを配置する工程;および(e)細菌性の感染病原体の存在を判定するためにゲノムアセンブリを使用する工程を含む。
実施形態415は、生物からゲノム配列情報を得る方法を含み、該方法は、(a)前記生物から安定したサンプルを得る工程;(b)安定したサンプルにおいて二本鎖DNAを切断するように安定したサンプルを処理し、それによって、露出したDNA末端を生成する工程;(c)タグ付けされたDNAセグメントを生成するために露出したDNA末端の少なくとも一部をタグ付けする工程;(d)タグ付けされたDNAセグメントの少なくとも認識可能な部分を配列決定し、それによって、タグ付けされた配列を得る工程;および(e)前記生物のゲノム配列情報を生成するために前記タグ付けされた配列をマッピングする工程を含み、ここで前記ゲノム配列情報は、前記生物のゲノムの少なくとも75%をカバーする。実施形態416は、実施形態415の方法を含み、ここで異種のサンプルは、共通の種の少なくとも2つの個体にマッピングされる核酸を含む。実施形態417は、実施形態415-416のいずれか1つの方法を含み、ここで異種のサンプルは、共通の種の少なくとも3つの個体にマッピングされる核酸を含む。実施形態418は、実施形態415-417のいずれか1つの方法を含み、ここで異種のサンプルは、少なくとも2つの種にマッピングされる核酸を含む。実施形態419は、実施形態415-418のいずれか1つの方法を含み、ここで異種のサンプルは、少なくとも3つの種にマッピングされる核酸を含む。実施形態420は、実施形態415-419のいずれか1つの方法を含み、ここで異種のサンプルは、少なくとも4つの種にマッピングされる核酸を含む。実施形態421は、実施形態415-420のいずれか1つの方法を含み、ここで配列リードは、外因性配列情報とは無関係に少なくとも2つの核酸足場へとアセンブルされる。実施形態422は、実施形態415-421のいずれか1つの方法を含み、ここで配列リードは、外因性配列情報とは無関係に少なくとも3つの核酸足場へとアセンブルされる。実施形態423は、実施形態415-422のいずれか1つの方法を含み、ここで配列リードは少なくとも2つの核酸足場へとアセンブルされ、それにより、第1のゲノムの少なくとも50%および第2のゲノムの少なくとも50%が、前記少なくとも2つの核酸足場で表わされる。実施形態424は、実施形態415-423のいずれか1つの方法を含み、ここで配列リードは少なくとも2つの核酸足場へとアセンブルされ、それにより、第1のゲノムの少なくとも60%および第2のゲノムの少なくとも60%が、前記少なくとも2つの核酸足場で表わされる。実施形態425は、実施形態415-424のいずれか1つの方法を含み、ここで配列リードは少なくとも2つの核酸足場へとアセンブルされ、それにより、第1のゲノムの少なくとも70%および第2のゲノムの少なくとも70%が、前記少なくとも2つの核酸足場で表わされる。実施形態426は、実施形態415-425のいずれか1つの方法を含み、ここで配列リードは少なくとも2つの核酸足場へとアセンブルされ、それにより、第1のゲノムの少なくとも80%および第2のゲノムの少なくとも80%が、前記少なくとも2つの核酸足場で表わされる。実施形態427は、実施形態415-426のいずれか1つの方法を含み、ここで前記生物は、異種のサンプルから収集される。実施形態428は、実施形態415-427のいずれか1つの方法を含み、ここで前記異種のサンプルは、各々が異なるゲノムを含む少なくとも1000の生物を含む。実施形態429は、実施形態415-428のいずれか1つの方法を含み、ここで前記安定したサンプルは、前記生物からのDNAをDNA結合部分に接触させることによって得られる。実施形態430は、実施形態415-429のいずれか1つの方法を含み、ここで前記DNA結合部分はヒストンである。実施形態431は、実施形態415-429のいずれか1つの方法を含み、ここで前記DNA結合部分はナノ粒子である。実施形態432は、実施形態415-429のいずれか1つの方法を含み、ここで前記DNA結合部分はトランスポサーゼである。実施形態433は、実施形態415-432のいずれか1つの方法を含み、ここで前記露出したDNA末端は、トランスポサーゼを使用してタグ付けされる。実施形態434は、実施形態415-433のいずれか1つの方法を含み、ここで露出したDNA末端の部分は、前記露出したDNA末端を別の露出したDNA末端に連結することによってタグ付けされる。実施形態435は、実施形態415-434のいずれか1つの方法を含み、ここで露出したDNA末端の前記部分は、リガーゼを使用して前記他の露出したDNA末端に連結される。実施形態436は、実施形態415-435のいずれか1つの方法を含み、ここで前記ゲノム配列情報は、前記ゲノムから得られた追加のコンティグ配列を使用することなく生成される。実施形態437は、実施形態415-436のいずれか1つの方法を含み、ここで方法は、SPRIビーズを使用する工程を含む。実施形態438は、実施形態415-437のいずれか1つの方法を含み、ここで安定したサンプルは、約5マイクログラム以下のDNAを含む。
実施形態439は、サンプルを分析する方法を含み、該方法は、(a)複数の生物から核酸を含む安定したサンプルを得る工程;(b)安定したサンプルにおいて二本鎖DNAを切断するように安定したサンプルを処理し、それによって、露出したDNA末端を生成する工程;(c)ペアエンドを形成するために前記露出したDNA末端を連結する工程;(d)複数のペア配列リードを生成するために前記ペアエンドにわたって配列決定する工程;および(e)前記複数の配列リードのペア配列リードの各半分を共通の由来となる生物に割り当てる工程を含む。実施形態440は、実施形態439の方法を含み、該方法は、前記連結前に、前記露出したDNA末端を標識する工程をさらに含む。実施形態441は、実施形態439-440のいずれか1つの方法を含み、ここで由来となる生物の配列リードは、配列データベースに表わされない生物を特定する。実施形態442は、実施形態439-441のいずれか1つの方法を含み、方法は、前記配列リードを配列データベースに表わされない遺伝子配列へとアセンブルする工程をさらに含む。実施形態443は、実施形態439-442のいずれか1つの方法を含み、方法は、前記割り当てに基づいて前記サンプルのシグネチャを生成する工程をさらに含む。実施形態444は、実施形態439-443のいずれか1つの方法を含み、ここで前記シグネチャは、前記サンプルの微生物環境を暗示している。実施形態445は、実施形態439-444のいずれか1つの方法を含み、方法は、前記割り当てに基づいて1つ以上の個体の生物の存在を特定する工程をさらに含む。実施形態446は、実施形態439-445のいずれか1つの方法を含み、ここで前記1つ以上の個体の生物は、ヒトである。実施形態447は、実施形態439-446のいずれか1つの方法を含み、ここで安定したサンプルは架橋されている。実施形態448は、実施形態439-447のいずれか1つの方法を含み、ここで安定したサンプルは、ホルムアルデヒドに接触させられている。実施形態449は、実施形態439-447のいずれか1つの方法を含み、ここで安定したサンプルは、ソラレンに接触させられている。実施形態450は、実施形態439-447のいずれか1つの方法を含み、ここで安定したサンプルは、UV放射にさらされている。実施形態451は、実施形態439-450のいずれか1つの方法を含み、ここでサンプルは、DNA結合部分に接触させられている。実施形態452は、実施形態439-451のいずれか1つの方法を含み、ここでDNA結合部分はヒストンを含む。実施形態453は、実施形態439-452のいずれか1つの方法を含み、ここで二本鎖DNA切断するように安定したサンプルを処理する工程は、サンプルをヌクレアーゼ酵素に接触させる工程を含む、実施形態454は、実施形態439-453のいずれか1つの方法を含み、ここで前記ヌクレアーゼ酵素はエンドヌクレアーゼである。実施形態455は、実施形態439-454のいずれか1つの方法を含み、ここで前記エンドヌクレアーゼは制限エンドヌクレアーゼである。実施形態456は、実施形態439-455のいずれか1つの方法を含み、ここで前記ヌクレアーゼ酵素は核酸誘導ヌクレアーゼである。実施形態457は、実施形態439-456のいずれか1つの方法を含み、ここで異種のサンプルは、共通の種の少なくとも2つの個体にマッピングされる核酸を含む。実施形態458は、実施形態439-457のいずれか1つの方法を含み、ここで異種のサンプルは、共通の種の少なくとも3つの個体にマッピングされる核酸を含む。実施形態459は、実施形態439-458のいずれか1つの方法を含み、ここで異種のサンプルは、少なくとも2つの種にマッピングされる核酸を含む。実施形態460は、実施形態439-459のいずれか1つの方法を含み、ここで異種のサンプルは、少なくとも3つの種にマッピングされる核酸を含む。実施形態461は、実施形態439-460のいずれか1つの方法を含み、ここで異種のサンプルは、少なくとも4つの種にマッピングされる核酸を含む。実施形態462は、実施形態439-461のいずれか1つの方法を含み、ここで配列リードは、外因性配列情報とは無関係に少なくとも2つの核酸足場へとアセンブルされる。実施形態463は、実施形態439-462のいずれか1つの方法を含み、ここで配列リードは、外因性配列情報とは無関係に少なくとも3つの核酸足場へとアセンブルされる。実施形態464は、実施形態439-463のいずれか1つの方法を含み、ここで配列リードは少なくとも2つの核酸足場へとアセンブルされ、それにより、第1のゲノムの少なくとも50%および第2のゲノムの少なくとも50%が、前記少なくとも2つの核酸足場で表わされる。実施形態465は、実施形態439-464のいずれか1つの方法を含み、ここで配列リードは少なくとも2つの核酸足場へとアセンブルされ、それにより、第1のゲノムの少なくとも60%および第2のゲノムの少なくとも60%が、前記少なくとも2つの核酸足場で表わされる。実施形態466は、実施形態439-465のいずれか1つの方法を含み、ここで配列リードは少なくとも2つの核酸足場へとアセンブルされ、それにより、第1のゲノムの少なくとも70%および第2のゲノムの少なくとも70%が、前記少なくとも2つの核酸足場で表わされる。実施形態467は、実施形態439-466のいずれか1つの方法を含み、ここで配列リードは少なくとも2つの核酸足場へとアセンブルされ、それにより、第1のゲノムの少なくとも80%および第2のゲノムの少なくとも80%が、前記少なくとも2つの核酸足場で表わされる。実施形態468は、実施形態439-467のいずれか1つの方法を含み、ここで二本鎖DNAを切断するように安定したサンプルを処理する工程は、サンプルを超音波処理する工程を含む。実施形態469は、実施形態439--468のいずれか1つの方法を含み、ここで露出したDNA末端を標識する工程は、ビオチン部分を露出したDNA末端に加える工程を含む。実施形態470は、実施形態439-469のいずれか1つの方法を含み、ここで方法は、SPRIビーズを使用する工程を含む。実施形態471は、実施形態439-470のいずれか1つの方法を含み、ここで安定したサンプルは、約5マイクログラム以下のDNAを含む。
以下の実施例は、本発明の様々な実施形態を例示する目的で与えられ、いかなる方法でも本発明を制限するようには意図されていない。本明細書に記載される方法とともに、本実施例は、好ましい実施形態の代表例である且つ典型的なものであり、本発明の範囲を限定するものとして意図されない。請求項の範囲によって定義される本発明の精神内に包含されるその変化および他の使用が、当業者に想定される。
実施例1.インビトロでクロマチンを生成する方法
クロマチンを再構成する2つのアプローチは、特に注目すべきものであり:1つのアプローチは、DNA上へのヒストンのATP非依存性のランダム沈着を使用することであり、一方でもう1つのアプローチは、周期性ヌクレオソームのATP依存性のアセンブリを使用することである。本開示は、いずれかのアプローチと本明細書に開示される1つ以上の方法との使用を可能にする。クロマチンを生成する両方のアプローチの例は、Lusser et al.(“Strategies for the reconstitution of chromatin,”Nature Methods (2004), 1(1):19-26)に見られ、これは、ここで引用される参考文献を含む、その全体が引用によって本明細書に組み込まれる。
被験体からのゲノム核酸を含むサンプルを使用して核酸ライブラリーを調製し、ライブラリーを続いて配列決定した。一例として、ゲノム核酸を、ヒトのサンプルから収集した。ヒト被験体からの50kbのサンプルを、陽性対照として使用した。一般に、複数のサンプルを調整し、同時に複数のライブラリーを生成した。幾つかの場合では、4つのサンプルおよび50kbのヒト対照を、一度に調製した。幾つかの場合では、9つのサンプルおよび50kbのヒト対照を、一度に調製した。幾つかの場合では、12、15、20またはそれ以上のサンプルを調製した。
反応パラメーターは以下の通りであった:Active Motif Chromatinのアセンブリキットからのコンポーネントのセットを、氷上でシリコン処理したチューブにおいて混合した。幾つかの場合では、反応物の総量の1.25倍の混合物を調製した。一般に、約2.1μlのh-Nap-1を、約2.7μlのコアヒストンおよび約15μlの高塩濃度緩衝液(High Salt Buffer)に加え、溶液(Solution)Aを生成した。溶液Aの成分を混合し、約15分間氷上でインキュベートした。10X ATP再生システム(10X ATP Regeneration System)の混合物を、氷上で混合することによって調製した。簡潔には、約15μlの10X ATP Regen Bufferを、約0.45μlクレアチンキナーゼに加え、溶液Bを生成し、氷上で混合した。
氷上での溶液Aのインキュベーション後に、約96.45μlの低塩濃度緩衝液(Low Salt Buffer)を加えて約3.75μlの溶液Bを生成し、約15μlの10X ATP Regen Systemを加えて溶液Bを生成した。溶液Bを混合し、その約135μlを、約1.5μgのDNAに分配して、溶液Cを生成した。水を溶液4に加えて、約150μlの最終的な量を得た。溶液Cを混合し、一晩27℃でインキュベートした。幾つかの例では、溶液Cを混合し、最大でも、少なくとも、または約12時間、14時間、18時間、20時間、あるいは24時間27℃でインキュベートした。他の例では、溶液Cを混合し、1日、2日、3日、4日、5日、6日、7日、8日、9日、10日間またはそれ以上間27℃でインキュベートした。
およそ10μlの溶液Cを収集し、一晩27℃でのインキュベーション後にシリコン処理したチューブに移した。収集した溶液Cを、色アセンブリ(Chromatic Assembly)の効率を試験するために保管した。典型的に、試験は、MboI消化中にMNase消化によって達成される。
実施例2.緩衝液および溶液
本明細書に記載される緩衝液および溶液は、以下のパラメーターによって調製することができる:
SPRI再構成緩衝液:9gのPEG 8000粉末を約10mlの1M NaClに加えることによって、SPRI再構成緩衝液を通常通り調製した。ある量の水を、50mlまで混合物を完了させるために加えた。 典型的に、PEG 8000粉末の作用濃度は約18%であり、NaClは約1Mであった。
洗浄緩衝液:約500μlの1M Tris-ClpH8.0を約500μlの5M NaClに加えることによって、洗浄緩衝液を通常通り調製した。ある量の水を、50mlまで混合物を完了させるために加えた。幾つかの場合では、Tris-Cl pH8.0の作用濃度は約10mMであり、NaClに関しては約100mMであった。
LWB:約500μlの1M Tris-Cl pH8.0を、約12.5mlの4M LiCl、約100μlの0.5M EDTA、および約200μlの10% Tween 20に加えることによって、LWBを通常通り調製した。ある量の水を、50mlまで混合物を完了させるために加えた。特定の場合では、Tris-Cl pH8.0の作用濃度は10mMであり、LiClは1Mであり、EDTAは1mMであり、およびTween 20は0.05%であった。
NWB:約500μlの1M Tris-Cl pH8.0を、約10mlの56M NaCl、約100μlの0.5M EDTA、および約200μlの10% Tween 20に加えることによって、NWBを通常通り調製した。ある量の水を、50mlまで混合物を完了させるために加えた。様々な場合では、Tris-Cl pH8.0の作用濃度は10mMであり、NaClは1Mであり、EDTAは1mMであり、およびTween 20は0.05%であった。
実施例3.クロマチン捕捉に基づいてリード対を捕捉する方法
ヒト被験体からのゲノムを、500kbのサイズを有する偽コンティグ(pseudo-contigs)へと断片化した。クロマチン捕捉ベースの方法を使用して、生細胞内の染色体の物理レイアウトを探索することによって、複数のリード対を生成した。Lieberman-Aiden et al.(“Comprehensive mapping of long range interactions reveals folding principles of the human genome,”Science (2009), 326(5950):289-293)に提示される方法を含む、任意数のクロマチン捕捉ベースの方法を、リード対を生成するために使用することができ、ここで引用される参考文献を含む、その全体が引用によって本明細書に組み込まれる。
様々な場合では、色アセンブリをホルムアルデヒドで架橋した。一般に、約37%のホルムアルデヒド約4.05μlを、インキュベートした溶液Cに加え、その混合物を、約15分間の室温でインキュベートし、その後、2.5Mのグリシン約8.1μlを加えて、溶液Dを生成した。溶液Dを混合し、約10分間の氷上でインキュベートした。
ホルムアルデヒド架橋後、架橋されたクロマチンを含む溶液Dを、約18%のPEG 8000/1M NaClにおいて再構成された約330μlのGE SPRIビーズに加え、混合し、インキュベーションのために静置させたままにした。上清を除去した。ビーズを、約400μlの1X 10mM Tris/50mM NaClで少なくとも2回洗浄した。上清を除去し、ビーズを乾燥するまで残しておいた。一例では、ビーズを空気乾燥のために残しておいた。
次に、酵素消化のための溶液を調製した。約175μlの水に、約20μlの10X NEB CutSmart Bufferおよび約5μlのNEB MboIを加え、混合して、溶液Eを生成した。およそ200μlの溶液を、乾燥したビーズに加え、約60分間37℃でインキュベートした。幾つかの例では、インキュベーションは、最大でも、少なくとも、または約30分、60分、90分、120分、180分、あるいは240分の間37℃で生じた。特定の例では、インキュベーションは、最大でも、少なくとも、または約1時間、2時間、6時間、12時間、14時間、16時間、あるいは24時間の間4℃で生じた。様々な例では、インキュベーションは、最大でも、少なくとも、または約1時間、2時間、6時間、12時間、1日、2日、5日、あるいは10日の間4℃で生じた。
酵素消化の後、インキュベートしたビーズを、緩衝液の交換のために処理した。簡潔には、溶液Eとビーズを含む混合物上に磁石を置き、上清を廃棄した。沈殿物は、約400μlの1X 10mM Tris/50mM NaClで少なくとも2回洗浄した。一例では、沈殿物/洗浄したビーズを、空気乾燥するまで残しておいた。
最終充填(End-Filling)およびビーズへのビオチンの付加のために、溶液を調製した。簡潔には、約160μlの水を、約20μlの10X NEB緩衝液#2、約1μlの10mM dATP、約1μlの10mM dTTP、約1μlの10mM dGTP、約8μlの10mM ビオチン(Biotin)-dCTP、および約2.5μlの NEB Klenow 5U/μlに加えて、溶液Fを生成した。およそ約200μlの溶液Fをビーズに加え、これをその後、約40分間25℃でインキュベートした。一例では、溶液Fとビーズを含む混合物を、最大でも、少なくとも、または約30分、60分、120分、あるいは180分の間25℃でインキュベートした。
その後、ビーズを緩衝液の交換とともに処理した。磁石を、溶液Fとビーズの混合物に加え、上清を廃棄した。沈殿物を、約400μlの1X 10mM Tris/50mM NaClで少なくとも2回洗浄した。一例では、沈殿物/洗浄したビーズを、空気乾燥するまで残しておいた。
その後、サンプルを、凝集体内の(intra-aggregate)DNA末端ライゲーションのために処理した。簡潔には、約870μlの水を、約100μlの10X T4リガーゼ緩衝液(Ligase Buffer)、約50μlのThermo BSA 20mg/ml、約25μlの10% Triton X-100、および約0.5μlのNEB T4DNAリガーゼ 400U/μlに加えて、溶液Gを生成した。洗浄したビーズを、その後、約200μlの溶液Gとともに加え、約1000RPMに設定された撹拌(Thermo Block振盪機)とともに一晩16℃でインキュベートするまで残しておいた。一例では、洗浄したビーズおよび溶液Gを、最大でも、少なくとも、または約12時間、14時間、16時間、20時間、24時間、あるいは48時間の間インキュベートした。
その後、インキュベートしたビーズを、緩衝液の交換のために処理した。磁石を、溶液Gとビーズの混合物に加え、上清を廃棄した。沈殿物/ビーズを、その後、約400μlの10mM Tris/50mM NaClで少なくとも2回洗浄した。一例では、沈殿物/ビーズを、空気乾燥のために残しておいた。
架橋したアセンブリ中のDNAを、逆架橋(reverse crosslinking)で処理することによって放出した。混合物を架橋反転のために調製した。例えば、約172μlの水を、約10μlの1M Tris pH8.0、約10μlの20% SDS、約0.5μlの0.1M CaCl、および約5μlのNEBプロテイナーゼ(Proteinase)K 20mg/mlに加えて、溶液Iを生成した。一例では、溶液中の各成分の終濃度は以下の通りであった:約50mMのTris pH8.約1%の0、20% SDS、約0.25mMのCaClおよび約0.5mg/mlのNEBプロテイナーゼK。およそ約200μlの溶液Iを、架橋したDNAを含むビーズに加え、その混合物を、約15分間約55℃で、その後、約45分間約68℃でインキュベートするまで残しておいた。
架橋した貯蔵(reserved)溶液を磁石ビーズにさらし、溶液を清潔な1.5mlのチューブに移した。約400μlのNormal SPRIビーズを、架橋した逆溶液(reverse solution)に加え、混合物を約5分間室温でインキュベートした。次に、磁石を混合物に加え、上清を廃棄した。沈殿物/ビーズを、約400μlの80%のエタノールで少なくとも2回洗浄した。上清を廃棄し、沈殿物/ビーズを、約10-15分間空気乾燥するまで残しておいた。最終的に、ビーズを、約100μlのTEで再懸濁し、約2分間インキュベートした。架橋反転からのDNAの量を、キュービット(Qubit)上で検査し、DNAは、始点と比較して少なくとも約75%の回収率を有すると予期された。一例では、75%を超えるDNAは架橋反転から回収した。
DNAの質およびDNA架橋反転の効率を定量化するために、DNAをTapeStation上で分析した。約2μlのゲノムDNAサンプル緩衝液を、8チューブPCRストリップにおいて分配した。簡潔には、約2μlのゲノムDNA分子量マーカーを、第1のチューブに加えた。約2μlのChicago DNAを、以下のチューブに加えた。その後、チューブを閉め、TapeStationボルテックスにおいてボルテックスした。その後、ゲノムDNAテープを、分析のためにマシンに充填した。
約200ngのDNAを断片化にさらした。200ngのDNAを100μlの溶液に加えた。DNAを有する溶液を、少なくとも10分間氷上で冷やした。BioRuptorを4℃に設定し、DNAを有する溶液をBioRuptor上に置き、15秒のオン(ON)/90秒のオフ(OFF)を7サイクル実行した。
断片化したDNAをTapeStationにおいて分析した。約1μlの断片化したDNAを、約4μlのTE中に希釈し、2μlの混合物を、High Sensitivity D1000チップを使用してテープステーション上に充填した。約350ntを中心とした広い分布が予期された。
その後、断片化したDNAを末端修復のために処理した。約67.8μlの水を、約20μl10X NEB T4リガーゼ緩衝液、約3.2μlのdNTP 25mM、約1μlのKlenow、大きな断片(large frag)5U/μl、約3μlのT4 DNA Pol 5U/μl(サーモ(thermo))、および約5μlのT4 PNK 10U/μl(サーモ)に加えることによって、100μlの溶液を調製し、溶液Jを生成した。約100μlの溶液Jを、断片Chicago DNAを有するチューブに加え、約20分間20℃でインキュベートして、断片化した末端を修復した。
約100μlのC1ビーズを収集し、磁石上に置いた。上清を除去し、廃棄した。沈殿物/ビーズを、約400μlの1X TWBで少なくとも2回洗浄した。上清を除去し、廃棄した。その後、沈殿物/ビーズを、約200μlの2X NTB中に再懸濁した。次に、約200μlの末端修復反応物をビーズに加え、混合物を、ある時間の間室温でインキュベートし、チューブをヒールにわたってその末端を回転させた(the tube rotated end over heal)。磁石を溶液上に置き、上清を廃棄した。沈殿物/ビーズを、約400μlの LWBで少なくとも1回洗浄し、その後、約400μlのNWBで少なくとも2回洗浄し、続いて、約400μlの10mM Tris/50mM NaClで少なくとも2回洗浄した。
実施例4.クロマチン捕捉方法に基づいてリード対を生成する方法。
沈殿物/ビーズを、その後、アダプターで連結した。約77.5μlの水を、約20μlの5X Quick Ligase、約1μlのP5/P7アダプター、および約2.5μlのNEB T4 DNAリガーゼ400U/μlに加えることによって、アダプターライゲーション溶液を調製した。沈殿物/ビーズを、約100μlのアダプターライゲーション溶液中に再懸濁した。その後、混合物を約30分間25℃でインキュベートした。磁石を溶液上に置き、上清を廃棄した。沈殿物/ビーズを、約400μlの10mM Tris/50mM NaClで少なくとも2回洗浄し、その後、約400μlのTEで少なくとも2回洗浄した。
約85.25μlの水を、約10μlの10X Thermo Pol、約1μlの25mM dNTP、および約3.75μlのNEB BST Pol 8U/μlに加えることによって、アダプター充填のための溶液を調製した。ビーズを、約100μlのアダプター充填溶液中に再懸濁し、約20分間37℃でインキュベートした。磁石を混合物に加え、上清を廃棄した。沈殿物/ビーズを、約400μlの10mM Tris/50mM NaClで少なくとも2回洗浄した。
約48μlの水を、約2μlのISAプライマー(Primer)(10mM)および約50μlの2X KAPA MIXと混合することによって、インデックス(indexing)PCRのための溶液を調製した。沈殿物/ビーズを、約98μlのインデックスPCR溶液中に再懸濁した。8本のストリップチューブの各チューブに、約2μlのインデックスプライマーを加えた。その後、チューブを覆い、以下のパラメーターを用いるPCR増幅のために送った:13サイクルの増幅のためのPCR混合物。各サイクルは、3分間98℃でのインキュベーションの工程、20秒間98℃で変性させる工程、30秒間65℃でアニールする工程、30秒間72℃での伸長の工程、1分間72℃で伸長を延長する工程、および最終的に次の工程まで12℃で保持する工程を含む。一例では、PCR産物を、最大でも、少なくとも、または約1時間、2時間、5時間、10時間、15時間、20時間、または24時間の間12℃で保持した。一例では、PCR産物を、ガラス状態で、液体窒素中に、4℃、-20℃、-80℃で保存したか、あるいは室温で乾燥した。
増幅したDNAまたはPCR産物を精製するために、少なくとも2つのPCR反応物を、新しい清潔なチューブにおいて組み合わせ、磁石上に置いた。溶液を、清潔な1.5mlのチューブに移し、約200μlのNormal SPRIビーズとともに加えた。ビーズを有する混合物を、約5分間室温でインキュベートした。磁石を混合物に加え、上清を廃棄した。沈殿物/ビーズを、約400μlの80%エタノールで少なくとも2回洗浄した。上清を廃棄した。沈殿物/ビーズを、約10-15分間空気乾燥のために残しておいた。その後、沈殿物/ビーズを、約20μlのTE中に再懸濁し、約2分間インキュベートした。再懸濁したDNAを、例えば広範囲のキュービット上で定量化した。典型的には、濃度は約60ng/μlが予測された。
インデックスPCRのDNA産物を分析した。まず、約0.5μlのPCR DNAを約4.5μlのTEに加えることによってDNAを1:10に希釈した。およそ2μlの混合物を、High Sensitivity D1000チップを使用してテープステーション上に充填した。特定の場合では、約550ntを中心とした広い分布が予期された。幾つかの例では、DNA産物のインデックスPCRを、サイズごとに選択した。簡潔には、PCR DNAサンプルは、TEを用いて約30μlまで完了した(例えば、約18μlのTEを加える)。約10μlの1.5% DF Pippin Prepサンプル緩衝液を、混合物に加えた。Pippin Prep機器を、製造業者のマニュアルに従った調製した。およそ約40μlの調製した混合物をカセットへと加えた。DNAのサイズを、TapeStation分析で観察された分布の中心まわりの広範囲の約300 ntによって選択した。典型的には、DNAのサイズは、約400-700ntである。その後、DNAを、キュービットの高感度分析(High Sensitivity)を使用して定量化し、回収量が約5-10ng/μlであると予期した。その後、約0.5μlを4.5 TEに加えることによって、DNAを1:10に希釈した。約2μlの混合物を、テープステーション上のHigh Sensitivity D1000テープに充填した。その後、濃度をJIRAに記録した。典型的に、濃度をpg/μlとモル濃度の両方に記録した。
幾つかの場合では、クロマチンアセンブリの質を、酵素消化を使用して試験した。一例はMNase消化である。典型的に、使用されるパラメーターは以下のようにリストされる:最初にMNase 50U/μlを水で1:10に希釈することによって、MNase溶液を1:1000に希釈した。例えば、約1μlのMNase 50U/μlを、9μlの水に加えた。1μlの1:10 MNaseを99μlの水に加えることによって、希釈したMNaseを、1:1000にさらに希釈した。
約480μlの水を、約5μlの10Mm Tris-Cl pH8.0、約5μlの1mM CaCl、および約1μlのMNase 5mUに加えることによって、MNase消化混合物を、典型的に、溶液、例えば500μlの混合物中で調製した。一般に、各成分の保存濃度は、約1M Tris-Cl pH8.0、0.1M CaCl、および50mU/μl MNaseであった。
約362.5μlの水を、約100μlの10mM EDTA、約25μlの1% SDS、および約12.5μlの0.5mg/mlプロテイナーゼKに加えることによって、停止緩衝液(Stop Buffer)、例えば500μlの溶液を調製した。特定の場合では、混合物中の各成分の保存濃度は、約0.5MのEDTA、約20%のSDS、および約20mg/mlのプロテイナーゼKである。
クロマチンアセンブリの質を、MNase消化によって試験した。一般に、約45μlのMNase消化混合物を、1.5mlのEppendorfチューブに分配した。その反応物を、約2分間37℃で予め温めた。およそ5μlのアセンブルしたクロマチンを、各チューブに加え、次のサンプルを加える前に約15秒間インキュベートした。約5分後、約50μlの停止緩衝液を、第1のチューブから始めてサンプルに加え、チューブ間で約15秒間待ち、その結果、すべてのサンプルを典型的に約5分間消化させた。その後、サンプルを、約30分間37℃でインキュベートしたままにした。サンプルをMiniElute Reaction Cleanupカラムに移す前に、約300μlのQiagen緩衝液ERCを、インキュベートしたサンプルに加えた。下記は、典型的に製造を示唆した手順である。典型的に、カラムを約1分間遠心分離にかけ、素通り画分を廃棄した。約700μlの緩衝液PEを各カラムに加え、その後、それを約1分間遠心分離にかけ、素通り画分を廃棄した。カラムを、通常、さらに30秒間または1分間遠心分離にかけ、残りのPE緩衝液を溶出した。約10μlのEB緩衝液を、各カラムに加え、通常、約1分間インキュベートした。カラムを遠心分離にかけ、精製したDNAを収集した。MNase消化の効率を試験するために、約2μlの溶出したDNAをTapeStation上に流した(run)。
実施例5.リード対を使用するゲノムアセンブリ
リード対をすべての偽コンティグにマッピングし、2つの別々の偽コンティグにマッピングしたこれらの対を、マッピングデータに基づいて隣接行列をアセンブルするために使用した。より長い接触よりも短い接触の経験的に既知のより高い確率を数学的に組み込むように、偽コンティグのエッジまでのリードの距離の関数を採用することによって、リード対の少なくとも約50%、約60%、約70%、約80%、約90%、約95%または約99%に重みを付けた。その後、各偽コンティグに関して、最も高い合計の重量を有することによって判定された、単一の最良の隣接偽コンティグを見つけることによって偽コンティグを通る経路を判定するために、隣接行列を分析した。これらの方法を実行することによって、すべての偽コンティグの>97%がそれらの正しい隣接値(neibor)を特定したことが分かった。より短いコンティグおよび代替的な重みおよび経路を発見するスキームの影響を試験するために、追加の実験が行われ得る。
代替的に、クロマチン捕捉データを使用するゲノムアセンブリは、de novoゲノムアセンブリの超長尺の足場組みのためにクロマチン捕捉データセットにおけるゲノム近接の信号を活用する計算方法を含むことができる。本明細書に開示される方法とともに使用することができる計算方法の例は、Burton et al. (Nature Biotechnology 31:1119-1125 (2013))によって連結用隣接クロマチン方法(ligating adjacent chromatin method);およびKaplan et al. (Nature Biotechnology 31:1143-47 (2013))によるDNA三角測量法を含み、これらの参考文献は、それらの全体および本明細書に引用される参考文献が本明細書に組み込まれる。さらに、これらの計算方法は、本明細書に提示される他のゲノムアセンブリ方法を含む、組み合わせで使用することができることが理解されるべきである。
例えば、(a)コンティグを染色体群にクラスター化する工程、(b)1つ以上の染色体群内のコンティグを順序付ける工程、およびその後(c)相対的な方向付けを個々のコンティグに割り当てる工程を含む、Burton et al.に基づく連結用隣接クロマチン方法は、本明細書に開示される方法とともに使用することができる。工程(a)に関して、コンティグは、階層的クラスタリングを使用してグループに入れられる。グラフが構築され、各ノードは1つのコンティグを最初に表わし、ノード間の各エッジは、2つのコンティグを連結するクロマチン捕捉リード対の数に等しい重量を有している。コンティグは、グループの数が別々の染色体の予期される数(1つを超えるコンティグを有するグループのみを数える)まで減少されるまで適用される、平均連鎖法の計量(average-linkage metric)を用いる階層的凝集クラスタリングを使用して、一緒に融合される。反復コンティグ(制限断片部位の数によって正規化された、他のコンティグとの平均リンク密度が、2倍を超える平均リンク密度(link density)であるコンティグ)および制限フラグメント部位が非常に少ないコンティグは、クラスター化されない。しかしながら、クラスター化後に、これらのコンティグの各々は、グループとのその平均リンク密度が任意の他のグループとの4倍を超えるその平均リンク密度である場合に、グループに割り当てられる。工程(b)に関して、クラスター化工程でのように、グラフが構築されるが、ノード間のエッジの重みはコンティグ間のクロマチン捕捉リンクの数の逆数に等しく、1コンティグ当たりの制限フラグメント部位の数によって正規化される。短いコンティグはこのグラフから除外される。このグラフのために、最小全域木が計算される。この木における最長の経路(「幹(trunk)」)が見つけられる。その後、全域木は、合計のエッジの重みをヒューリスティックに低く維持する方法で、幹に隣接しているコンティグを幹に加えることによって幹を延ばすように変更される。延長された幹は、各グループのために見つけられた後、以下のように完全な順序に変換される。幹は、幹にないすべてのコンティグを含有している1セットの「分枝(branches)」を残して、全域木から除去される。これらの分枝は、最長の分枝から幹へと再挿入され、その挿入部位は、順序での隣接したコンティグ間のリンクの数を最大限にするように選ばれる。短い断片は再挿入されず、結果として、クラスター化された多くの小さなコンティグが、最終的なアセンブリから省かれる。工程(c)に関して、その順序内の各コンティグの方向付けは、各コンティグ上のクロマチン捕捉リンク配列(alighnments)の正確な位置を考慮に入れることによって決定される。クロマチン捕捉リンクがxのゲノム距離で2つのリードを結合する可能性が、x≧~100kbに対しておよそ1/xであると想定される。重み付き有向非巡回グラフ(WDAG)が構築され、これはコンティグを与えられた順序で方向付けるあらゆる考えられる方法を表わしている。WDAGにおける各エッジは、それらの4つの考えられ得る組み合わせた方向付けの1つで1対の隣接したコンティグに対応しており、エッジの重みは、2つのコンティグ間のクロマチン捕捉リンク距離のセットを観察する対数尤度に設定され、これは、それらが与えられた方向付けですぐに隣接することを想定している。各コンティグに関して、その方向付けに対する品質スコアは、以下のように計算される。このコンティグ間のその現在の方向付けにおける観察されたクロマチン捕捉リンクおよびその隣接値のセットの対数尤度が見られる。その後、コンティグははじかれ(flipped)、対数尤度が再び計算される。方向付けがどのように計算されるかで第1の対数尤度より高くなることが保証される。対数尤度間の差は品質スコアとして得られる。
Kaplan et al.に類似した代替的なDNA三角測量法も、コンティグおよびリード対からゲノムをアセンブルするために本明細書に開示される方法において使用することができる。DNA三角測量は、ゲノム位置を推測するためにハイスループットのインビボのゲノム全体でのクロマチン相互作用データの使用に基づいている。DNA三角測量法に関して、最初に、ゲノムを100kbのビンへと分割することによって、CTRパターンが定量化され、その各々は、大きな仮想のコンティグを表わし、各々の入れられたコンティグに関して、各染色体とのその平均相互作用頻度を計算する。長期にわたる局在化を評価するために、コンティグと両側でのその隣接している1mbとの相互作用データは省かれる。平均相互作用頻度は、染色体間相互作用と染色体内相互作用を強く分離し、コンティグがどの染色体に属するのかを高度に予測する。次に、ナイーブなナイーブベイズ分類器である、簡易な多重クラスモデルは、各コンティグの染色体を各染色体とのその平均の相互作用頻度に基づいて予測するように訓練されている。アセンブルされたゲノムの部分は、クロマチン捕捉相互作用頻度とゲノム距離(DDDパターン)との関連性を記載する確立的な単一パラメーター指数関数的減衰モデルを適合させるために使用される。各使用(turn)において、コンティグは、両側上の1mbの隣接領域とともに、染色体から除去される。その後、相互作用プロファイルおよび衰滅モデルに基づいて、各コンティグの最も可能性が高い位置が予測される。予測誤差は、予測位置と実際位置との間の距離の絶対値として定量化される。
DNA三角測量法と長いインサート(long-insert)ライブラリーとを組み合わせることによって、各コンティグに対する予測性がさらに改善され得る。各コンティグの染色体の配置および近似位置を知ることによって、各コンティグがその近位のコンティグと対となる必要があるだけであるため、長いインサート足場組みの計算複雑性が著しく低下され得、それによって、曖昧なコンティグ結合を分解し、染色体または異なる染色体の遠隔領域に位置するコンティグが不正確に結合されるアセンブリエラーが減少される。
実施例6.ハプロタイプフェージング方法
本明細書に開示される方法によって生成されたリード対が、一般にイントラ染色体間の接触に由来するため、ヘテロ型接合性の部位を含有しているあらゆるリード対も、それらのフェージングに関する情報を伝える。この情報を使用して、短い、中間の及び長い(メガベースの)距離にわたる信頼できるフェージングが、急速且つ正確に実行され得る。1000ゲノムトリオ(母/父親/子のゲノムのセット)の1つからのデータをフェージングする(phase)ように設計された実験は、信頼して推測されたフェージングを有する。さらに、Selvaraj et al.(Nature Biotechnology 31:1111-1118 (2013))に類似した近接ライゲーションを使用するハプロタイプ再構成も、本明細書に開示されるハプロタイプフェージング方法とともに使用され得る。
例えば、近接ライゲーションベースの方法を使用するハプロタイプ再構成はまた、ゲノムをフェージングする際に本明細書に開示される方法に使用され得る。近接ライゲーションベースの方法を使用するハプロタイプ再構成は、ハプロタイプアセンブリのために近接ライゲーションおよびDNA配列決定を確率的アルゴリズムと組み合わせる。最初に、クロマチン捕捉プロトコルなどの染色体捕捉プロトコルを使用して、近接ライゲーション配列決定が実行される。これらの方法は、三次元空間で一緒にループした2つの離れたゲノム遺伝子座からDNA断片を捕捉することができる。結果として生じるDNAライブラリーのショットガンDNA配列決定後、ペアエンドの配列決定リードは、数百の塩基対から何千万もの塩基対の範囲の「インサートサイズ」を有する。したがって、クロマチン捕捉実験で生成された短いDNA断片は、小さなハプロタイプブロックをもたらすことができ、長い断片は、最終的にこれらの小さなブロックを一緒に連結することができる。十分な配列決定の適用範囲があることで、このアプローチは、変異体を不連続のブロックに連結し、すべてのそのようなブロックを単一のハプロタイプへとアセンブルする可能性がある。このデータは、その後、ハプロタイプアセンブリのための確率的アルゴリズムと組み合わせられる。確率的アルゴリズムは、ノードがヘテロ接合変異体に対応し、エッジがヘテロ接合変異体に連結し得る重複配列断片に対応するグラフを利用する。このグラフは、配列決定エラーまたはトランス相互作用に起因する偽エッジを含むかもしれない。その後、入力配列決定リードのセットによって提供されるハプロタイプ情報と最大限に一致している簡潔なソリューションを予測するために、最大切断アルゴリズムが使用される。近接ライゲーションが、従来のゲノム配列決定またはメイトペア配列より大きなグラフを生成するため、ハプロタイプが合理的な速度および高精度で予測され得るように、計算時間およびイテレーションの数が変更される。その後、結果として生じるデータは、Beagleソフトウェアおよびゲノムプロジェクトからの配列決定データを使用してローカルフェージングをガイドするために使用され、高解像度および精度で染色体にわたる(chromosome-spanning)ハプロタイプを生成することができる。
実施例7:メタゲノムアセンブリの方法
微生物が自然環境から収集され、微生物細胞内の架橋を形成するために、ホルムアルデヒドなどの固定剤で固定される。微生物からの複数のコンティグが、ハイスループット配列決定を使用することによって生成される。複数のリード対が、クロマチン捕捉ベースの技術を使用することによって生成される。異なるコンティグにマッピングされるリード対は、どのコンティグが同じ種からのものであるかを示す。
実施例8:極端に長距離のリード対(XLRP)を生成する方法
市販のキットを使用して、DNAは、最大150kbpまでの断片サイズに抽出される。DNAは、Active Motifからの商用のキットを使用して、インビトロでの再構成されたクロマチン構造へとアセンブルされる。クロマチンは、ホルムアルデヒドで固定され、SPRIビーズ上に固定化される。DNA断片は、制限酵素で消化され、一晩インキュベートされる。結果として生じる付着末端は、アルファ-チオ-dGTPおよびビオチン化されたdCTPで充填され、平滑末端を生成する。平滑末端はT4リガーゼで連結される。再構成されたクロマチンは、連結されたDNAを回収するためにプロテイナーゼで消化される。DNAは、ビーズから抽出され、剪断され、および末端はdNTPで修復される。断片は,SPRIビーズを用いてプルダウンによって精製される。幾つかの場合では、アダプターが連結され、断片は、ハイスループット配列決定のためにPCR増幅される。
実施例9:高品質のヒトゲノムアセンブリを生成する方法
相当なゲノム距離を及ぶリード対が本開示によって生成され得るという知識とともに、ゲノムアセンブリのためのこの情報の利用が試験され得る。本開示は、潜在的に染色体長の足場に対するde novoアセンブリの連鎖を著しく改善することができる。アセンブリがどれほど完全に生成され得るか、および本開示を使用してどれだけのデータが必要とされるかについての評価が実行され得る。アセンブリに有益なデータを生成する本発明の方法の有効性を評価するために、標準のIlluminaショットガンライブラリーおよびXLRPライブラリーがアセンブルされ、配列決定され得る。一場合では、標準のショットガンライブラリーおよびXLRPライブラリーの各々の1つのIllumina HiSeqレーンからのデータが使用される。各方法から生成されたデータは、試験され、様々な既存のアセンブラと比較される。随意に、本開示によって生成された固有のデータに具体的に合わせるために、新しいアセンブラも書き込まれる。随意に、本発明の方法によって生成されたアセンブリを、その精度および完全性を評価するべく比較する引用を提供するために、よく特徴づけられたヒトサンプルが使用される。前のプロテオミクス解析において獲得された知識を使用して、XLRPおよびショットガンのデータの効率的且つ有効な利用を促進するために、アセンブラが生成される。2002年12月のマウスゲノム概要の質を備えるゲノムアセンブリ、またはそれより優れたものが、本明細書に記載される方法を使用して生成される。
この解析に使用することができる1つのサンプルは、NA12878である。サンプル細胞からのDNAは、DNA断片長さを最大限にするように設計された様々な公開された技術を使用して抽出される。標準のIllumina TruSeqショットガンライブラリーおよびXLRPライブラリーがそれぞれアセンブルされる。2×150bp配列の単一のHiSeqレーンが各ライブラリーのために得られ、これは、1つのライブラリー当たりおよそ1億5000万のリード対を産出する。ショットガンデータは、全体のゲノムアセンブリに対するアルゴリズムを使用して、コンティグへとアセンブルされる。そのようなアルゴリズムの例は次のものを含む:Chapman et al. (PLOS ONE 6(8):e2350 (2011))に記載されるようなMeraculousまたはSimpson et al. (Genome research 22(3):549-56 (2012))に記載されるようなSGA。XLRPライブラリーリードは、初期アセンブリによって生成されたコンティグに整列させられる。その整列は、コンティグをさらに連結するために使用される。コンティグを結合するためのXLRPライブラリーの有効性が確認されると、Meraculousアセンブリは、ショットガンライブラリーおよびXLRPライブラリーの両方を同時に単一のアセンブリプロセスへと統合するために伸長される。Meraculousは、アセンブラのための強固な基礎を提供する。随意に、本開示の特定のニーズに合わせるために、オールインワンのアセンブラが生成される。本開示によってアセンブルされたヒトゲノムは、ゲノムのアセンブリの質を評価するために、あらゆる既知の配列と比較される。
実施例10:小さなデータセットからの高精度でのヒトサンプルに対するヘテロ接合のSNPのフェージングのための方法
一実験では、試験ヒトサンプルのデータセットにおけるヘテロ接合変異体のおよそ44%が、フェージングされる。制限部位の1つのリード長の距離内にすべて又はほぼすべてのフェージングする変異体が捕捉される。コンピューターによる解析(in silico analysis)を使用することによって、フェージングのためのより多くの変異体が、より長いリード長を使用することによって、および消化のための制限酵素の1つ以上の組み合わせを使用することによって捕捉され得る。制限酵素と異なる制限部位との組み合わせを使用することによって、各リード対に参加する2つの制限部位の1つの範囲内にあるゲノム(及びそれ故ヘテロ接合部位)の割合が増大する。コンピューターによる解析は、本開示の方法が、2つの制限酵素の様々な組み合わせを使用して既知のヘテロ接合位置の95%を超える位置をフェージングすることができることを示している。追加の酵素およびより大きなリード長は、完全な適用範囲およびフェージングまで、観察される且つフェージングされるヘテロ接合部位の分画をさらに増加させる。
2つの制限酵素の様々な組み合わせで達成可能なヘテロ接合部位の適用範囲が計算される。上位の3つの組み合わせは、リードの近位のヘテロ接合部位に関連して、プロトコルを用いて試験される。これらの組み合わせの各々に関して、XLRPライブラリーが生成され、配列決定される。結果として生じるリードは、ヒト参照ゲノムに整列させられ、プロトコルの精度を判定するためにサンプルの既知のハプロタイプと比較される。ヒトサンプルのためのヘテロ接合SNPの90%まで又はそれ以上が、Illumina HiSeqデータの1レーンのみを使用して99%以上の精度でフェージングされる。加えて、リード長を300bpに増大させることによって、さらなる変異体が捕捉される。観察可能な制限部位のまわりリード領域は有効に2倍にされる。追加の制限酵素の組み合わせが実装されて、適用範囲および精度が増大される。
実施例11:高分子量DNAの抽出および効果:
最大150kbpまでのDNAを、市販のキットで抽出した。図7は、XLRPライブラリーが、抽出されたDNAの最大の断片長さまで捕捉リード対から生成され得ることを実証している。したがって、本明細書に開示される方法は、さらにより長く伸びたDNAからリード対を生成することができると予期され得る。高分子量DNAの回収のための多数の良く発達したプロセスがあり、これらの方法は、本明細書に開示される方法またはプロトコルとともに使用され得る。大きな断片長さのDNAを生成するための抽出法を使用して、XLRPライブラリーが、これらの断片から作られ、生成されるリード対は評価され得る。例えば、大きな分子量DNAは、(1)Teague et al.(Proc. Nat. Acad. Sci. USA 107(24):10848-53 (2010))またはZhou et al.(PLOS Genetics, 5(11):e1000711 (2009)に従う細胞の軽度の溶解; および(2)Wing et al.(The Plant Journal:for Cell and Molecular Biology, 4(5):893-8 (1993))に従うアガロースゲルプラグによって、またはBoreal GenomicsからのAurora Systemを使用することによって抽出され得、これらの引用文献は、ここで引用される参考文献を含む、その全体が本明細書に組み込まれる。これらの方法は、次世代配列決定に慣例的に必要とされるものを超えた長いDNA断片を生成することができるが、当該技術分野に既知の他の適切な方法も、類似した結果を達成するために代わりに用いられ得る。Aurora Systemは、非常に優れた結果を提供し、長さがメガベースまでのおよびそれを超える組織または他の調製物からDNAを分離し、濃縮することができる。サンプルレベルで起こり得る差を制御するために単一のGM12878細胞培養物から開始して、これらの方法論の各々を使用して、DNA抽出物が調製される。断片のサイズ分布は、Herschleb et al.(Nature Protocols 2(3):677-84 (2007))に従って、パルスフィールドゲル電気泳動によって評価され得る。前述の方法を使用して、XLRPライブラリーをアセンブルするために極端に大きく伸びたDNAが抽出され、使用され得る。その後、XLRPライブラリーは配列決定され、整列される。結果として生じるリードデータは、リード対間のゲノム距離をゲルから観察された断片サイズと比較することによって解析される。
実施例12:望ましくないゲノム領域からのリード対の減少
望ましくないゲノム領域に相補的なRNAが、インビトロでの転写によって生成され、架橋前に再構成されたクロマチンに加えられる。補足されたRNAが1つ以上の望ましくないゲノム領域に結合すると、RNA結合は、これらの領域で架橋効率を低下させる。それによって、架橋された複合体におけるこれらの領域からのDNAの存在量は減少される。再構成されたクロマチンは固定され、上に記載されるように使用される。幾つかの場合では、RNAは、ゲノムにおいて反復領域を標的とするように設計されている。
実施例13:望ましいクロマチン領域からのリード対の増加
望ましいクロマチン部位からのDNAが、遺伝子アセンブリまたはハプロタイプのために二本鎖型で生成される。したがって、望ましくない領域からのDNAの表現は縮小される。望ましいクロマチン領域からの二本鎖DNAが、複数キロベース間隔でそのような領域でタイルする(tile)プライマーによって生成される。方法の他の実装では、タイル間隔は、望ましい反復効率で異なるサイズの望ましい領域に対処するために様々である。望ましい領域にわたるプライマー結合部位は、随意にDNAを融解することによって、プライマーと接触させられる。タイルされたプライマーを使用して、新しいDNA鎖が合成される。例えば、これらの領域を一本鎖DNAに特異的なエンドヌクレアーゼで標的とすることによって、望ましくない領域が減少または除去される。残りの望ましい領域は、随意に増幅され得る。調製されたたサンプルは、本明細書に別記されるような配列決定ライブラリー調製方法にさらされる。幾つかの実装では、各々の望ましいクロマチン領域の長さまでの距離に及ぶリード対が、各々のそのような望ましいクロマチン領域から生成される。
実施例14:急速なChicagoライブラリー調製プロトコル
このプロトコルは、たったの2日間にわたって実行され、核酸サンプルにおいて隣接情報を判定するための高品質ライブラリーを生成する。
1日目に下記の工程が実行される。
クロマチンアセンブリ。Active Motifキットコンポーネントを氷上で解凍する。一方で、キュービット(広範囲(Broad Range))は、アセンブルされる1μlのgDNAを定量化し、精度のためのサイズ標準を含む。一様な再懸濁を確かなものとするために、ピペット操作前に、特に高い分子量/粘性のサンプルを加熱する。
シリコン処理したチューブにおいて、氷上で順番に以下のActive Motif Chromatinアセンブリキットコンポーネントを一緒に混合する(追加の0.25Xでマスター混合物(master mix)を作る):
h-NAP-1 0.7μl
HeLaコアヒストン 0.9μl
高塩濃度緩衝液 5μl
氷上で15分間インキュベートする。
一方で、氷上で混合することによって10X ATP再生システムを調製する:
10X ATP再生システム 5μl
クレアチンキナーゼ 0.15μl
氷上でのインキュベーション後、以下を順番にヒストン混合物に加える:
低塩濃度緩衝液 32.15μl
ACF 1.25μl
10x ATP Regen System 5μl
45μlのマスター混合物を以下に分配する:
DNA 0.5μg
O DNA+HOの最終的な量は5μlである
27℃で1時間インキュベートする。
ACF/10x ATP Regen Systemが加えられるヒストン混合物におけるDNA濃度は、幾つかの場合において少なくとも100ng/μlであるはずである。しかしながら、その方法は、10μlのDNAサンプルに加えて45μlのマスター混合物を加えることによって、50ng/μlもの少ないDNAを使用して、成功したChicagoライブラリーを与えたクロマチンのアセンブリの実行に成功する。総量のこの10%の増加は、アセンブルされたクロマチンの全体的な質に影響を与えない。
随意に、MNase消化(以下のDpnII消化の間)によってクロマチンアセンブリを試験するために、5μlがシリコン処理したチューブに保管される。
ホルムアルデヒド架橋。37%のホルムアルデヒドチューブ(White Cap 2mlのチューブ@R/T)1.35μlを加える。軽く混合し(Flick mix)、遠心沈殿する。室温(RT)15分間インキュベートする。2.5MのGlycineチューブ(Green Cap 2mlのチューブ@R/T)2.7μlを加える。氷上で10分間インキュベートする。
クロマチンをSPRIビーズに結合する。100μlのSPRIビーズを加え、ピペット操作によって~10回混合する。RTで5分間インキュベートする。5分間磁石上のチューブを浄化し、その後、上清(SN)を廃棄する。250μlの洗浄緩衝液(10mM Tris/50mM NaCl)で2X洗浄する。
消化用(digestion)マスター混合物(以下)は、これらのインキュベーション中に調製され得る。
DpnII消化。SPRIビーズに結合する前に、DpnII Digest混合物の1本のチューブ(紫色のキャップ(Purple cap)2mlのチューブ@-30℃)を氷上で解凍する。洗浄液(wash)を除去した後に、50ulのDpnIIDigest混合物でビーズを再懸濁する。混合物の残りを廃棄する。37℃で1時間>1000rpmでサーモミキサー中で消化する。
緩衝液の交換。サンプルを磁石上に置いて、上清を分離し、廃棄する。250μlの洗浄緩衝液で1X洗浄する。
マスター混合物(以下)は、これらのインキュベーション中に調製され得る。
末端注入(End Fill-In)。DpnII消化が終了する15分前に、End Fill-In Mixの1本のチューブ(緑色のキャップ(Green cap)2mlのチューブ@-30℃)を氷上で解凍する。洗浄液を除去した後に、50ulのEnd Fill-In Mixでビーズを再懸濁する。混合物の残りを廃棄する。
25℃で30分間>1000rpmでサーモミキサー中でインキュベートする。
緩衝液の交換。サンプルを磁石上に置いて、上清を分離し、廃棄する。250μlの洗浄緩衝液で1X洗浄する。
マスター混合物(以下)は、これらのインキュベーション中に調製され得る。
凝集体内のDNA末端ライゲーション。End Fill-In反応が完了する30分前に、凝集体内のライゲーション混合物(Intra-Aggregate Ligation Mix)の1本のチューブ(上げ底3mlのチューブ@-30℃)を氷上で解凍する。洗浄液を除去した後に、250ulの凝集体内の連結混合物でビーズを再懸濁する。混合物の残りを廃棄する。
16℃で少なくとも1時間>1000rpmでサーモミキサー中でインキュベートする。
末端ヌクレオチドの交換。凝集体内のライゲーション(Intra-Aggregate Ligation)反応が完了する5分前に、末端ヌクレオチドの交換混合物(Terminal Nucleotide Exchange Mix)の1本のチューブ(黄色のキャップ(Yellow cap)2mlのチューブ@-30℃)を氷上で解凍する。5ulの末端ヌクレオチドの交換混合物を直接反応物に加える。混合物の残りを廃棄する。
16℃で15分間>1000rpmでサーモミキサー中でインキュベートする。
緩衝液の交換。
サンプルを磁石上に置いて、上清を分離し、廃棄する。250μlの洗浄緩衝液で1X洗浄する。
マスター混合物(以下)は、これらのインキュベーション中に調製され得る。
架橋反転。
末端ヌクレオチドの交換(Terminal Nucleotide Exchange)反応が完了する5分前に、11μlのNEBプロテイナーゼK(20mg/mlの@-30℃)を1つの完全な架橋反転緩衝(Crosslink Reversal Buffer)チューブ(赤色のキャップ(Red Cap)2mlのチューブ@R/T)に加える。上澄みを除去した後に、50ulの架橋反転/プロテイナーゼKの混合物でビーズを再懸濁する。混合物の残りを廃棄する。
55℃で15分間>1000rpmでサーモミキサー中でインキュベートする。
68℃で45分間>1000rpmでサーモミキサー中でインキュベートする。
SPRI上でDNAを精製する。架橋反転反応物を磁石上に置き、上清を分離する。上清(SUPERNATANT)を清潔な1.5mlのチューブに移す。100μlのSPRIビーズを加える;ピペット操作によって~10回混合する。RTで5分間インキュベートする。サンプルを5分間磁石上に置き、その後、引き出し、上清を廃棄する。
新鮮な80%のEtOH250μlで3x洗浄する。乾燥し過ぎないように注意しながら、5分間空気乾燥する。78μlのTEでビーズを再懸濁し、2分間待つ。磁石上に置き、75μlの上清をBioruptor 0.65mlのチューブに移す。1ulのDNAをキュービットHSでる定量化し、予期された回収率は入力の30%-75%である。
2日目に、以下の工程が実行される。
断片化。Bioruptorは、4℃まで冷却される。DNAは最小で10分間氷上で冷やされる。ボルテックスし、サンプルを遠心沈殿する。DNAをまき散らさないように注意して、Bioruptorカルーセル(carrousel)にチューブを入れる。15秒のオン/90秒のオフを4サイクル実行する。カルーセルから除去する。ボルテックスし、チューブを遠心沈殿する。15秒のオン/90秒のオフを3サイクル実行する。カルーセルから除去する。ボルテックスし、チューブを遠心沈殿する。
Chicago DNAをTapeStation上で解析する。High Sensitivity D1000テープを使用してTapeStation上に2ulの断片化されたDNAを充填する。~350ntを中心とした広い分布を予期する。
末端修復。55.5μlの断片化されたDNAを、以下のNEBNext Ultra試薬(Green Cap)を含有しているPCRチューブに移す:末端調製酵素混合物(End Prep Enzyme Mix)3.0μl、末端修復反応緩衝液(End Repair Reaction Buffer)6.5μl。NEB-ENDプロトコルを使用して、PCRマシン中でインキュベートする:20℃で30分間、65℃で30分間、4℃で維持する。
アダプターライゲーション。以下のNEBNext Ultra試薬(Red Cap)を反応物に加える:平滑/TAリガーゼマスター混合物(Ligase Master Mix)15μl、ライゲーションエンハンサー(Ligation Enhancer)1.0μl、ホームメイドのYアダプター(Home Made Y-Adapter)15μM 2.5μl。
NEB-Ligateプロトコルを使用して、PCRマシン中でインキュベートする:
20℃で15分間。
ライゲーション事象の捕捉。各々のChicago反応のために25μlのC1ビーズのマスター混合物を調製する。サンプルを磁石上に置いて、上清を分離し、廃棄する。250μlの1X TWBで2回洗浄する(緩衝液レシピのページを参照)。2X NTBのシカゴ反応の数の倍(times)85μlにおいてビーズを再懸濁する。2X NTB中の85μlのビーズを1セットの清潔な1.5μlのチューブに分配する。85μlの末端修復反応物をビーズに移す。LabQuakeローテータ上で30分間RTでインキュベートする。
サンプルを磁石上に置いて、上清を分離し、廃棄する。250μlのLWBで1X洗浄する。250μlのNWBで2X洗浄する。250μlの洗浄緩衝液で2X洗浄する。
インデックスPCR。以下の49μlの混合物-(マスター混合物+0.25%のRx)中でビーズを再懸濁する:HO 23μl;IS4プライマー(10uM)1.0μl;2X KAPA混合物MIX 25μl。
PCRストリップチューブに移す。各チューブに、10μMのインデックスプライマー1μlを加え、各サンプルに対してインデックスIDを確実に記録する。
これらの工程を13サイクル増幅する:3分間@98℃;20秒間@98℃;30秒間@65℃;30秒間@72℃;工程2からさらに12回繰り返す;1分間@72℃;@12℃を維持する。
SPRI上で増幅されたDNAを精製する。磁石上にサンプルを置いて、上清を分離する。上清を清潔な1.5mlのチューブに移す。100μlのSPRIビーズを加える;ピペット操作によって~10回混合する。RTで5分間インキュベートする。磁石上にサンプルを置いて、5分間上清を分離する;上清を廃棄する。250μlの新鮮な80%のEtOHで2x洗浄する。乾燥し過ぎないように注意しながら、5分間空気乾燥する。32μlのTEでビーズを再懸濁し、2分間待つ。磁石上で濃縮する。溶出されたDNAを新しい1.5mlのチューブに移す。広範囲のキュービット上でDNAを定量化する;予期された濃度は~30ng/ulである。
TapeStation上でインデックスPCR DNAを解析する。0.5ulの精製されたPCRを4.5μlのTEに加えることによって、1:10に希釈する。TapeStation High Sensitivity D1000テープ上に2μlを充填する。~550ntを中心とした広い分布を予期する。
Pippin Prep上でインデックスPCR DNAをサイズ選択する。1.5%のDF Pippin Prepサンプル緩衝液(マーカーK)10μlを加える。製造業者のプロトコルに従って機器およびゲルを調製する。TapeStation解析で観察された分布の中心あたりの300ntの広範囲ウィンドウを使用してサイズ選択する;通常400-700nt。キュービットのHigh Sensitivityを使用してDNAを定量化する;回復はおよそ5-10ng/ulであるはずである。
TapeStation上でサイズ選択されたDNAを解析する。1ulを4ulのTEに加えることによって、1:5に希釈する。TapeStation High Sensitivity D1000テープ上に2ulを充填する。濃度(pg/ulおよびモル濃度の両方)をJIRAへと記録する。
実施例15
Chicagoライブラリーの生成に従って、クロマチンアセンブリを試験するために、小球菌ヌクレアーゼ(MNase)の消化が実行される。
マスター混合物の調製物。消化および停止マスター(Stop master)の混合物は、室温で調製され、MNaseを以下のように1:1000に希釈する:HO中で1:10の希釈液を作る(1μlのMNase 50U/μl+9μlのHO);H2O中で1:1000の希釈液を作る(1μlの1:10希釈+99μlのHO);1μlのMNase 1:1000をMNase消化用緩衝液(MNase Digestion Buffer)(黄色のキャップのチューブ(Yellow Cap Tubes)@R/T)の1本のチューブに加えることによって、MNase消化用混合物(MNase Digestion Mix)を調製する;11μlのNEBプロテイナーゼK20mg/mlを停止緩衝液(青色のキャップのチューブ(Blue Cap Tubes)@R/T)の1本の完全なチューブに加えることによって、停止緩衝液混合物を調製する。
MNase消化。2分間37℃でMNase消化用混合物を予め温める。1本のチューブ当たりのアセンブルされた5μlのクロマチンに45ulを加え、各サンプル間で30秒間待つ。第1のサンプルの追加でタイマーをスタートさせ、サンプルを順序通りに保管する。5分後、第1のチューブから始めて、50μlの停止緩衝液混合物を加える。再び、各サンプルが正確に5分間消化されるように、各チューブ間で30秒間待つ。37℃でさらに30分間インキュベートする。
Qiagen MinEluteキットを使用して精製する:300ulのQiagen緩衝液ERCを加えて、よく混合する;MinElute Reaction Cleanupカラムに移す;1分間遠心分離にかけて、素通り画分を廃棄する;700μlの緩衝液PEを加える(エタノールが加えられたことを確かめる);1分間遠心分離にかけて、素通り画分を廃棄する;1分間遠心分離にかけて、PE緩衝液が残っていないことを確かめる;カラムを1.5mlのチューブに移す;10ulのEB緩衝液を加えて、1分間待つ;1分間遠心分離にかけて、DNAを回収する。
2ulのMNase消化したサンプルをHS DNA 100 TapeStationテープ上に流す。
実施例16.
アニーリングによる増幅アダプター調製。15μMの部分的に二本鎖の増幅アダプターの作成は、以下の通りに達成される。1.5mlのチューブにおいて一緒に混合する:TE+50mMのNaCl中の37.5μlの200μM P5_full_A(オリゴ(oligo)#111);TE+50mMのNaCl中の37.5μlの200μM P7_Y_Rev(オリゴ#132);420μlのTE;5μlのNaCl 5M。サーモサイクラーにおける2本のPCRチューブを等分し、アニールプログラムを実行する:
95℃ 2分;0.1℃/秒で25℃まで低下させる。
増幅アダプターに適したオリゴは、以下に示される(*はホスホロチオエート結合である)。
Figure 0007300831000004
実施例17
SPRIビーズの作成。50mlのチューブへの測定:PEG-8000粉末9g。
その後、以下を加える:
保存濃度 終濃度
1M Tris-Cl pH8.0 500μl 10mM
0.5MのEDTA 100μl 1mM
NaCl 1M
O ~48mLまで
振盪させて、PEGを溶解する。その後、Tweenを加えて、そっと混合する:10%のTween 20250μl 0.05%。
一方で、Sera-Magビーズを再懸濁する。1.5mlのチューブに1mlを移す。磁石上のチューブを浄化し、その後、上清(SN)を廃棄する。1mlのTEでビーズを4X洗浄する。1mlのTE中で再懸濁する。すべてをPEG溶液に移し、反転によって混合する。HOで合計で50mlsにする(Bring up to)。4℃で保存する。各バッチを様々な比率で50bpのラダー(例えば、GeneRulerまたはHyperladder)を用いて較正する。
実施例18:糞便サンプルにおいて核酸に由来するインビトロでアセンブルされたクロマチン凝集体から生成された配列リードを使用するヒト糞便のメタゲノムアセンブリ
糞便メタゲノムアセンブリに対するDNAを、MoBio Powerfecalキットで調製した。糞便サブサンプル(単一の時間点で単一の個体からの収集されたサンプルのサブサンプル)を、キットに提供されるDNA単離のためにプロトコルに従って調製した。~250mgの4つのサブサンプルを調製した。各サンプル間のDNA収率は以下の通りであった:(1)4.28μg;(2)7.28μg;(3)6.48μg;および(4)5.56μg。
4つのサブサンプルの中で最も高いDNA収率があったため、サンプル(2)をさらなる処理のために選択した。TapeStation(Agilent)を使用して、サンプル(2)におけるDNA断片のサイズを解析した。図13Aに示されるように、サンプルの平均断片サイズはおよそ22kbであり、小断片は存在しなかった。メタゲノムアセンブリのために2つのライブラリーを調製した。第1のライブラリーをインビトロでアセンブルされたクロマチン凝集体および近接ライゲーションを使用して調製し、第2のライブラリーをショットガン配列決定のために調製した。
図13Bに示されるように、サンプル(2)からの500ngのDNAおよびインビトロでアセンブルされたクロマチンを使用して、第1のライブラリーを調製した。クロマチンを、サンプル(2)からの裸のDNA1301上でインビトロ1302で再構成した。クロマチンを、その後、1303に示されるようにホルムアルデヒドで固定し、クロマチン凝集体を形成した。固定したクロマチンを、1304に示されるように制限酵素で消化し、遊離付着末端を生成した。遊離末端に、1305に示されるようにビオチン化した(円形)およびチオール化した(正方形)ヌクレオチドを充填した。遊離平滑末端を、1306に示されるように連結した(ライゲーションはアスタリスクによって示される)。1307に示されるように、架橋を反転し、クロマチン関連タンパク質を除去して、ライブラリー断片を得た。ライブラリーをMiSeq(Illumina、2x75bp)上で配列決定した。5,026,934のリード対を生成した。
ショットガン配列決定のために、第2のライブラリーを調製した。第2のライブラリーは、ライブラリー調製キットを使用して2μgのサンプル(2)から調製したTrueSeq PCRのない(-free)ライブラリーであった。ショットガンライブラリーを、MiSeq(Illumina、2x150bp)上で配列決定した。Omega(重複グラフメタゲノムアセンブラ、Haider et al. Bioinformatics (2014) doi: 10.1093/bioinformatics/btu39)を使用してメタゲノムアセンブリを生成する前に、SeqPrepを使用して、リードを刈り込み、融合した。15,758,635のリード対があり、リード対の1,810,877を単一のリードへと融合した。
図14に示されるようにインサート長の分布および適用範囲を評価するために、ショットガンリードをアセンブリにマッピングした。図14では、X軸はbpでのインサート長を示し、Y軸はリード対の数を示す。融合したリード対は破線で示され、融合していないリード対は実線で示される。
インビトロでのクロマチン凝集体で調製したライブラリーからのリードを、インサート長の分布を評価するためにアセンブリにマッピングした。819,566のリード対を同じ足場にマッピングした。マッピング位置間のインサート分布は図15に示される。図15では、X軸はkbでのインサートサイズを示し、Y軸はリード対の数を示す。同じ鎖のリード対は短い破線で示される。2つのリード対のカテゴリーも示される。「内側(innies)」は長い破線で示され、「外側(outties)」は実線で示される。リード対のうち、1,358,770は異なる足場にマッピングした。残りの対はマッピングしなかったか、一意にマッピングしなかった。
図16および図17は、調製のライブラリーの2つの方法を使用するヒット範囲の比較を示す。図16は、インビトロでアセンブルされたクロマチン凝集体(「Chicago」)を使用して調製したライブラリーに対するショットガンを配列決定のために調製したライブラリーからのヒットの散布図を示す。図17は、コンティグ長ごとの1コンティグ当たりのショットガンヒット/インビトロでアセンブルされたクロマチンヒット(「Chicago」)の散布図を示す。足場をアセンブルするための尤度モデルを適用する及びまた不正確に見える入力足場を壊すHiRiseソフトウェアを用いて、リードを解析した。最終的な足場N50は、Omega出力での15.7kbと比較して、約53.4kbである。
実施例19:ヒト集団における未知の病原体の検出および配列決定
被験体の未知の病原体を特定するために、糞便サンプルからリードデータのde novoゲノムアセンブリが使用される。国際保健が改善されるにつれ、原因や病原体源が知られていない疾患の発症(outbreaks)を見つけることはますます一般的になっている。病原体は単離または培養することが難しいため、病原体を単離する試みは、しばしば時間を要し、困難である。
糞便検体及び/又は尿検体は、未知の疾患を患っている疑いのある又は患っていると確証された患者から収集される。糞便のメタゲノムのアセンブリのためのDNAは、MetaHIT(ヒト腸管のメタゲノミクス)方法またはHMP(ヒトマイクロバイオームプロジェクト)方法などの、糞便のDNA抽出法、MO BIOからのMoBio Powerfecalキット、QiagenからのQIAmp DNA Stool Miniキット、またはZymo ResearchからのZR Fecal DNA MiniPrepキットなどの、糞便のDNA抽出キットで調製される。尿からのDNAは、DNA抽出法、あるいはQiagenからのQIAamp DNA Microキット;Intron Biotechnologyからのi-genomic Urine DNA Extraction Miniキット;Zymo ResearchからのZR Urine DNA Isolationキット;Norgen BiotekからのNorgen RNA/DNA/Protein Purificationキット;およびAbcamからのAbcam Urine Isolationキットなどの、DNA抽出物キットで抽出される。
ライブラリーが、インビトロでアセンブルされたクロマチン凝集体および糞便DNAサンプルまたは尿DNAからの500ngのDNAで調製される。クロマチンが、糞便または尿のサンプルからの裸のDNA上でインビトロで再構成され、クロマチンおよびDNAはホルムアルデヒドで固定され、クロマチン凝集体が形成される。固定されたクロマチンは制限酵素で消化され、遊離付着末端が生成される。遊離末端に、ビオチン化された及びチオール化されたヌクレオチドが充填され、その後、遊離平滑末端は連結される。架橋は反転され、クロマチン関連タンパク質は除去されて、ライブラリー断片が得られる。ライブラリーは配列決定され、リード対がアセンブルされる。
その後、被験体集団において病気の又は疾患を患う個体に対応する核酸分子を特定するために、糞便サンプルからのリードデータのde novoゲノムアセンブリが使用される。配列情報が染色体またはゲノムサイズのユニットへとグループ化されるように、核酸情報はゲノムサイズのコンティグへとアセンブルされる。
健康な個体に存在する傾向にある生物に対応するゲノムは、解析においてあまり重視されない。障害の症状を実証している個体において日和見的により豊富である生物に対応するゲノムも、解析においてあまり重視されない。
事前に特徴づけられていない生物に対応するゲノムは特定される。ゲノムは、そこにコードされた代謝経路を判定するために解析され、培養レジメンは、ゲノムを有する微生物の宿主非依存性の培養を促進するように設計されている。代謝経路の解析は、微生物の複製を選択的に阻止する潜在的な薬物標的を特定するために継続される。薬物標的は、そこに生成されたゲノム情報に関連して生成された微生物培養物上で試験され、複製を阻止することが示されている。薬物は、発症の症状を実証している個体に投与され、薬物療法は,症状を緩和することが実証されている。
実施例20:ショットガン配列決定を使用するヒト集団における未知の病原体の検出および配列決定
被験体の未知の病原体のゲノム配列を特定するために、糞便サンプルからのリードデータのde novoショットガン配列決定が使用される。上記の例でのように、核酸は単離され、ショットガン配列決定のみにさらされる。
既知および未知の微生物に対応する配列決定リードが特定される。未知の生物または生物が疾患を患う個体に存在することが判定された。しかしながら、代謝経路情報は判定することができず、ショットガン配列情報は、微生物がどのように培養され得るか、あるいはどの薬物がヒト宿主において微生物の成長または増殖を阻止するのに有用であり得るかに関しての洞察を提供していない。処置レジメンは結果から示唆されていない。
実施例21:患者における抗生物質耐性遺伝子の検出
患者は、抗生物質治療に耐性のある感染を患っている。患者から糞便サンプルが得られ、核酸はサンプルから抽出される。
核酸はショットガン配列の解析にさらされ、多くの配列リードが生成される。幾つかの個々の配列リードは、推定上の宿主生物に確信をもってマッピングされることを可能にするほど十分に長い。幾つかのリードは、推定上の抗生物質耐性の遺伝子座にマッピングし、抗生物質耐性を伝達する遺伝子産物をコードする核酸が患者に存在すると考えられる。
配列情報は、どの抗生物質耐性の遺伝子座がどの宿主の微生物にマッピングされるかの判定を可能にするほど十分ではない。
実施例22:患者における抗生物質耐性の遺伝子宿主の検出
患者は、複数の抗生物質治療に耐性のある感染を患っている。患者から糞便サンプルが得られ、核酸はサンプルから抽出される。
核酸はショットガン配列の解析にさらされ、多くの配列リードが生成される。幾つかの個々の配列リードは、推定上の宿主生物に確信をもってマッピングされることを可能にするほど十分に長い。幾つかのリードは、推定上の抗生物質耐性の遺伝子座にマッピングし、抗生物質耐性を伝達する遺伝子産物をコードする核酸が患者に存在すると考えられる。
核酸は、本明細書に開示されるような解析にさらされる。抗生物質耐性遺伝子に対する共通の核酸分子から生じる核酸配列が判定されるように、連鎖情報が判定される。ショットガン配列情報は、微生物のゲノムに対応するコンティグへとアセンブルされる。
複数の抗生物質耐性遺伝子が単一の微生物宿主にマッピングされることが判定された。また、抗生物質耐性遺伝子の微生物宿主が、アセンブルされた微生物のゲノムから存在する又は存在しない代謝経路の解析に基づいて、前に投与されていない抗生物質に脆弱性である傾向があると判定された。
患者は、前に投与されていない抗生物質を投与され、感染症状が緩和される。
実施例23:患者における抗生物質耐性の遺伝子宿主の検出
患者は、連続して投与された複数の抗生物質の処置に耐性のある感染を患っている。患者から糞便サンプルが得られ、核酸はサンプルから抽出される。
核酸はショットガン配列解析にさらされ、多くの配列リードが生成される。幾つかの個々の配列リードは、推定上の宿主生物に確信をもってマッピングされることを可能にするほど十分に長い。幾つかのリードは、推定上の抗生物質耐性の遺伝子座にマッピングし、抗生物質耐性を伝達する遺伝子産物をコードする核酸が患者に存在すると考えられる。
核酸は、本明細書に開示されるような解析にさらされる。抗生物質耐性遺伝子に対する共通の核酸分子から生じる核酸配列が判定されるように、連鎖情報が判定される。ショットガン配列情報は、微生物のゲノムに対応するコンティグへとアセンブルされる。
複数の抗生物質耐性遺伝子が複数の微生物宿主をマッピングし、微生物宿主が1つを超える微生物耐性遺伝子を所有しないと判定された。
患者は前に投与された抗生物質治療を受けるが、抗生物質は連続ではなくむしろ平行して投与される。すなわち、一度に投与されたときに効果がないと前に分かった抗生物質は同時に投与され、感染症状が緩和される。
実施例24:異種のサンプルにおける個体の配列の検出
対象の個体が見つけられる。個体のゲノム情報は、個体の親によって提供される核酸サンプルから合理的に推測される。個体において予期されたSNP(一塩基多型)パターンが判定される。与えられた染色体上のSNPパターンは、個々に一般的であるが、まとめて、単一の個体において組み合わせで生じそうにない多くのSNPを含む。
個体は1つの位置で存在していると考えられる。その位置は調査され、異種のDNAサンプルがその位置から得られる。DNAはショットガン配列決定にさらされ、数多くのリードが判定される。対象のゲノムの個体に存在すると予期された各SNPが特定される。しかしながら、SNP間の連鎖情報は利用不可能であり、研究者は、検出されたSNPが単一の個体から生じるか、または単一の核酸分子に対応するかどうかを判断することができない。
実施例25:異種のサンプルにおける個体のゲノムシグネチャの検出
上記の実施例24におけるように、対象の個体が見つけられる。DNAはショットガン配列決定にさらされ、数多くのリードが判定される。対象のゲノムの個体に存在すると予期された各SNPが特定される。
部位から得られた異種のDNAの第2のサンプルは、本明細書に開示されるような解析にさらされる。対象のSNPに及ぶ配列リードが特定され、共通のタグ情報を共有する他のリードとともに特定の核酸分子にマッピングされる。SNPのための位相情報が判定され、対象の個体に対する予測されたSNPパターンを有する個体が、最近調査された位置にいたことが判定される。
同時に、その位置での他の個体に対するSNPパターンは、部位から得られた異種のDNAサンプルに由来するショットガンおよび連鎖の情報に基づいて判定される。
実施例26:新規の生物アッセイ
対象の腸バイオームを持つと知られるシロアリが、配列決定に選択される。シロアリは、木材の分解に必要な酵素をコードする遺伝子を欠くと知られている。シロアリの腸が、セルロースを代謝するのに必要な酵素を単独で又は組み合わせてコードする微生物を持つと考えられる。
核酸は、シロアリの集団から得られ、ショットガン配列決定にさらされる。単離されたリードが得られ、これはセルロースを代謝する能力を暗示している。しかしながら、配列リードは、シロアリの腸に住む生物の数または同一性を特定するように高次の足場へとアセンブルすることはできない。
実施例27:新種の生物の発見
対象の腸バイオームを持つと知られるシロアリが、配列決定に選択される。シロアリは、木材の分解に必要な酵素をコードする遺伝子を欠くと知られている。シロアリの腸が、セルロースを代謝するのに必要な酵素を単独で又は組み合わせてコードする微生物を持つと考えられる。
実施例16でのように、核酸がシロアリの集団から得られ、ショットガン配列決定にさらされ、一方で本明細書に開示される方法を使用して、同じ核酸の第2のサンプルが解析にさらされる。ショットガン配列リードは、嫌気性細菌および新規のアルベオラータ種を含む、多くの別々の生物の実質的に完全なゲノムに対応する別々のクラスターにマッピングされる。
ここで生成されたゲノムの解析は、ゲノムの少なくともいくつかが、生物が好気的に又は腸ミクロフロラの他のメンバーによって産生された複合代謝産物の組み合わせの不存在下で培養される必要のある生合成経路を欠くことを示している。したがって、これまで知られていない及び標準アプローチを使用して培養可能ではなさそうな生物に対するゲノムが判定される。
実施例28:糞便のメタゲノミクスアセンブリにおけるスパイクイン実験
複合メタゲノミクス群集からのゲノムのde novoアセンブリは、特別な困難を示す。単一の生物の典型的なde novoアセンブリプロジェクトとは異なり、インプットDNAは、何百または何千までの又はそれ以上の非常に様々な存在量の無関係な生物に由来する。さらに、個々の種が、小さな又は大きな対立遺伝子変異を有する異なる株に表わされ得る。近接ライゲーションによって利用可能な長距離の接触情報を利用する全ゲノムのメタゲノミクスアセンブリに対する新しいアプローチを記載する。ゲノムがよく特徴づけられている細菌種(Streptomyces coelicolor)であるが、糞便サンプルが不在である細菌種からのDNAを加える、1セットの対照実験を実行する。2つのライブラリーを調製する:標準の、短いインサートのショットガンライブラリー、および近接ライゲーションのライブラリーおよび配列の両方。これらのデータを使用して、Streptomyces coelicolorの既知のゲノムの完全なアセンブリを生成することが可能であることを示す。したがって、このアプローチを使用して、複合メタゲノミクスサンプルから微生物のゲノムを正確に再構成することが可能である。
DNA収集:MoBio PowerFecal収集キットを使用して、プロトコルに従い、250mgの糞便サンプルから2マイクログラムのDNAを収集した。ATCCからStreptomyces coelicolorからのゲノムDNA prepを注文した。PowerFecal精製後にDNA断片のサイズ分布を模倣するために、Streptomyces coelicolor DNAをPowerFecalキットに供給されたスピンカラムにかけた。TapeStationトレースにおいて図18に示されるように、糞便のDNA調製物における断片のサイズ分布(1801、青色、x軸上の100bpおよび15000bpでのy軸の上部近くの急上昇)およびStreptomyces coelicolor DNAにおける断片のサイズ分布(1802、緑色、15000bpで100のサンプル強度での急上昇)は、類似した長さのものであった。x軸は、bpでのサイズを示し、左から右に、100、250、400、600、900、1200、1500、2000、2500、3000、4000、7000、15000、および48500が記されている。y軸は蛍光単位(FU)でのサンプル強度を示す。
配列決定ライブラリーの調製:糞便DNAと合計の1%、5%、および10%に加えられたStreptomyces coelicolorとの3つの混合物を調製した。これは、合計のメタゲノミクスサンプルの1%、5%、および10%を含むときにゲノムを正確にアセンブルする困難性に近似する(approximate)ことを意図している。各混合物に関して、以前に記載したように、インビトロで再構成されたクロマチンを使用してIlluminaショットガンライブラリーおよび近接ライゲーションライブラリーを調製した(Putnam et al. Genome Research, 2016)。その後、Illumina MySeqシーケンサー上でこれらのライブラリーを配列決定した。
ショットガンリードおよびコンティグアセンブリの解析:ショットガンリードをStreptomyces coelicolor(GenBank ID:NC_003888.3)の既知のゲノム配列に整列させることによってショットガンデータにおけるStreptomyces coelicolorゲノムの適用範囲を評価した。図19には、スパイクインのStreptomyces coelicolor DNAの各レベルに対するこれらのショットガンデータにおける倍率カバレージの分布が示される。x軸は倍率カバレージを示し、Y軸はS.coelicolor上の位置の数を示す。示されるように、1%のスパイクイン(左端のピーク)実験(中間に13倍の中央値(median))の倍のゲノム適用範囲は、典型的に少なくとも30倍のゲノム適用範囲を必要とする正確なコンティグアセンブリを支持するほど十分には高くない。一方で、5%(中間のピーク)および10%(右端のピーク)のスパイクイン実験は、コンティグアセンブリに対する適用範囲が限定されていないようである。
各データセットに対するコンティグをアセンブルするためにOmega(Haider et al, 2014 Bioinformatics)を使用した。その後、これらのデータにおけるアセンブリの完全性および断片化を評価するために、Streptomyces coelicolorの既知のゲノム配列にこれらのコンティグをマッピングした。図20には、1%(赤、左)、5%(緑、中心)および10%(青、右)のショットガンデータセットに対するコンティグとして存在するStreptomyces coelicolorゲノムの合計量が示される。その各々を囲む外側の黒丸は、Streptomyces coelicolorの全ゲノムサイズに比例している。予測通り、1%のスパイクイン実験はコンティグの多くをゲノムへとアセンブルすることに失敗したが、5%および10%の実験はゲノムのほとんどをコンティグへとアセンブルした。各実験に対するコンティグの総数は表2に与えられる。
Figure 0007300831000005
これらの結果は、メタゲノミクスからのde novoアセンブリに対する幾つかのアプローチにとって典型的なものであり、構成ゲノムのほとんどは、小さなコンティグへとアセンブルされ得る。典型的な場合では、当業者は、例えば、10%のスパイクイン実験における1,524のコンティグがすべてStreptomyces coelicolorからのものであることを知らないであろう。
近接ライゲーションライブラリーの連鎖情報の評価:近接ライゲーションライブラリーが、これらのコンティグの足場を正確に組むのに有用な情報を含むかどうかを判定するために、リード対をこれらのライブラリーからStreptomyces coelicolorの既知のゲノム配列にマッピングした。図21を参照すると、各リード対によって及ぶ距離が示され、ここでx軸はキロベース(kb)単位で及ぶ距離を示し、Y軸はすべてのリード対にわたる累積分布である。近接ライゲーションライブラリーにとって典型的であるように、リード対によって及ぶ距離は、ライブラリーを生成するために使用されるインプットDNA断片のサイズまでのすべての距離をカバーする。これは、インビトロでの近接ライゲーションライブラリー調製が、これらの細菌DNA prepに対しても働き、ゲノムの足場組みおよびアセンブリに有用な情報を含有していることを示している。
ゲノム足場組み:すべてのコンティグの足場を組むために近接ライゲーションライブラリーのデータを使用した。その後、Streptomyces coelicolorゲノムのほとんどを表わすコンティグがある、5%および10%の実験におけるStreptomyces coelicolorに対応するゲノム足場を特定することによって、足場組みの精度および完全性を評価した。1%の実験においてStreptomyces coelicolorの足場を組むことが、足場を組まれるコンティグの適用範囲があまりにも小さいため、この実験に選択されたパラメーター下では不可能であることに留意されたい。代替的なパラメーターは別の結果をもたらし得る。また、これらの実験のいずれかに対するショットガンデータをより多く生成することが、Streptomyces coelicolorを含む、存在するすべてのゲノムに対するコンティグの適用範囲を増大させる傾向にあることにも留意されたい。
図22Aおよび図22Bには、5%および10%の実験においてStreptomyces coelicolorを表わす足場が示される。図22Aは、5%の実験においてここで記載されるような生成された3つの足場に対する既知のStreptomyces coelicolorゲノム(x軸)のドットプロットを描写する。5%の実験において、Streptomyces coelicolorは、近接ライゲーションのデータで足場を組む前に、2,647のコンティグに対する3つの大きな足場に存在する。図22Bは、10%の実験においてここで記載されるような生成された1つの足場に対する既知のStreptomyces coelicolorゲノム(x軸)のドットプロットを描写する。10%の実験において、Streptomyces coelicolorゲノムは、1つの大きな足場に存在する。
実施例29:ヒトの糞便DNA
上に記載されるde novoメタゲノム配列決定およびアセンブリに対するアプローチを評価するために、一連の実験を行った。ショットガンおよび「Chicago」のインビトロでの近接ライゲーションライブラリーを、ヒトの糞便DNA抽出物から生成し、「HiRise」de novoコンティグのアセンブリおよび足場組みを実行した。これらの概念実証実験を、以下を判定するように設計した:(1)糞便サンプルから高分子量DNAを迅速に且つ確実に抽出する方法;(2)主として原核生物からのものである、糞便サンプルから回収されたDNAからインビトロでのクロマチン近接ライゲーションライブラリーを生成するために、Chicagoの研究室プロトコルを使用する方法;(3)Chicagoのデータが、同じDNA prepからメタゲノミクスコンティグの足場を有効に組むために使用され得るかどうか;(4)DNAがメタゲノミクスサンプルへとスパイクされ(spiked)、それ故、同じ方法で処理される、既知のゲノムが、確実にアセンブルされ得るかどうか;および(5)どの方法でHiRiseゲノムのアセンブリ戦略が、メタゲノミクスアセンブリの特別な困難性に適合され得るかどうか。
幾つかの市販のキットを、糞便DNAからのDNA抽出に関して試験した。Qiagen糞便DNAキットは30-40キロベースのDNAを絶えず産出し、これは、試験済みのキットの中では最長であり、短い断片はほとんどなかった(図23Aを参照すると、健康なドナーからDNAを収集するために使用されるQiagen Fecal prepキットからのDNA断片サイズが、単一モードの分布となることが示され、ほとんどの断片が30~40kbの間であった)。(下に記載される)アセンブリ後に、最大のアセンブリ足場の幾つかに対するリードをマッピングし、近接ライゲーション事象間の推測された距離の分布を測定することによって、近接ライゲーションライブラリーを評価した(図23Bを参照すると、アセンブリおよび足場組み後に、このライブラリーからのChicago対(実験2、破線で示される)が、足場にマッピングされた)。典型的なChicagoライブラリーでは、リード対は、インプットDNAのサイズまでの距離に及ぶことができる。この解析は、パイプラインにおける「Chicago」ライブラリーのための標準の品質管理手順の一部であり得、標準のChicagoライブラリーにおける近接ライゲーション産物の分布の有効な評価を提供することができる。この解析が、リードがマッピングされ得ることに対するゲノムアセンブリを必要とし得ることに留意されたい。この解析に関して、これらのデータの足場を組むためにHiRiseのメタゲノムバージョンを使用し、以下に記載されるようにメタゲノミクスデータのために修正した。この解析から、Chicago手順が、糞便サンプルにおけるDNAの少なくとも幾つかの分画に対して予測される通りに実行されることが示され得る。
また、少ない存在量で存在する、混合物の既知の要素であるときの原核生物のゲノムを正確にアセンブルする能力を試験した。この実験では、完全なゲノムが知られている、Streptomyces coelicolorからのDNAを使用した。S.coelicolorからのDNAを、糞便DNA prepに加え、その結果、それは合計のDNA集団の1%であった。重要なことに、インプットS.coelicolor DNAを、糞便prepに使用されるQiagenカラムにかけることによって、糞便DNAに匹敵するサイズに断片化した。この実験では、8.67mbのS.coelicolorゲノムの89%を含む、7.68mbの単一の足場を回収した。この単一の足場(図24を参照)は、既知のゲノムに対する大きな構造上の差がない。S.coelicolorゲノムはX軸の上にあり、ここで生成された足場はY軸に沿っている。新しい足場が参照配列と同じ開始点で始まらないため、ドットプロットはワードラップする(wraps)。アセンブリに誤結合がなく、ほぼ完璧であることに留意されたい。「欠けている(missing)」セグメントは、別の大きな足場としてそれ自体がほぼ完全にアセンブルされる単一の領域であり、2つの足場は、S.coelicolorのほぼ完全なアセンブリを提供する。この解析から、このアセンブリ戦略が、既知のゲノムを、それが全体の群集の微量成分(この試験の場合では1%)であるときでさえも、正確にその足場を組むことができることが示される。
スパイクインの正しく且つほぼ完全なアセンブリを考慮して、次に、足場組み前後のアセンブリの隣接性を評価した。コンティグアセンブリの工程に関して、Meraculousアセンブラのバージョンを使用し、メタゲノムデータにおいて予期されるように広範囲の適用範囲を可能にするために修正した。他のメタゲノムアセンブラの使用にも成功した(図示せず)。その後、標準のHiRiseアプローチで作られた足場にわたる適用範囲の均一性に関する仮定を緩和するHiRise(メタ-HiRise)のメタゲノミクスバージョンを使用して、コンティグの足場を組んだ。
この解析に関して、Metagenomics Community N50(MGC N50)と呼ばれる計量が利用され、これは(1)最大のものから最小のものまで足場を順序付ける、および(2)ショットガンリードをすべての足場にマッピングすることによって計算される。MGC N50は、すべてのショットガンリードの累積カウントが合計の50%に達する足場のサイズである。ショットガンリードが各OTUの群集の存在量の全数調査(census)を表わすという仮定の下で、この計量は、サンプルに存在するOTUの存在量に関連するため、メタゲノムアセンブリの全体的な隣接性について記載している。リードの50%未満がアセンブリに確実にマッピングされ得る場合、MGC N50が未定義であることに留意されたい。ここで収集されたデータを用いて、1.5-25倍の範囲のMGC N50の改善を達成した。さらに、各実験において、幾つかの複数メガベースの足場を生成した。
これらの結果は、長距離の隣接情報を効率的に生成するために本明細書に開示されるインビトロでのクロマチンアセンブリのフレームワークが、メタゲノム関連で適用可能であることを示す。この手順は、約1マイクログラムの高分子量DNAを必要とし得る。この量は、標準の、商用の糞便DNA prepキットを使用して、正常な糞便サンプルから確実に抽出され得る。このDNAは、本明細書で利用されるインビトロでのクロマチンアセンブリ方法に適している。生成された近接ライゲーションライブラリーは、S.coelicolorを用いるスパイクイン陽性対照実験から示されるようにメタゲノムサンプルにおいてゲノムの足場を正確に組むために使用され得る。
実施例30:表現バイアスの最小化
本明細書で開示されるように、Chicagoプロトコルがインプットとして糞便サンプルからのDNAとともに使用され得ることが示されている。プロトコルから発展させる典型的なアプローチが本明細書に議論される。
Chicagoプロトコルは、切断部位がGATCである特定の制限酵素、MboIでのインビトロでのクロマチン凝集体の消化に依存し得る。プロトコルは、MboIのメチル化非感受性イソ制限酵素(例えばDpnII)などの他の制限酵素を使用するために修正され得る。メタゲノムの群集メンバーの塩基組成を変えることは、結果として不均等な切断につながり、それ故、アセンブリライブラリーの不均等な表現につながり得る。図25は、スパイクイン実験におけるショットガンデータに対するChicagoアセンブリデータにおけるリード適用範囲の比率の典型的なプロットを示す。図25に示されるように、足場の1塩基対当たりのショットガン適用範囲は、サンプルにおける存在量に比例すると解釈される。ショットガン適用範囲のChicago適用範囲に対する比率は、約1桁を超えて変動する。この比率が低いときでさえ、多くの場合大きな足場が生成される。この比率は、ほとんどの足場長さに対して10倍を超える範囲である。中間のGCの分画を有する足場が、OTU基準につきChicagoライブラリー効率の因子である塩基組成と一致して、Chicago適用範囲の中間レベルを有していることに留意されたい。このバイアスを縮小するために、様々な戦略が利用され得る。
制限酵素の組み合わせの使用を試験する:極端に高いA/T含量を用いるプロジェクトに関して、制限部位がよりA/T豊富なそのMboI(GATC)である、代替的な制限酵素が使用され得る。メタゲノム群集は、種々様々のG/C含量を有するゲノムを有し、したがって、すべての群集OTUのために効率的なChicagoライブラリー生成をもたらすのに、単一の制限酵素は理想的ではないかもしれない。酵素の組み合わせが、多様な糞便サンプルを有するChicagoライブラリーprepに利用され得る。
制限酵素のないプロトコルをメタゲノミクスの使用に適合させる:制限酵素のないプロトコルはまた、Chicagoライブラリーに利用され得る。そのような方法は、配列非依存性の方法でDNAを切断するヌクレアーゼを利用することができる。平滑末端を架橋し、連結された領域をマークするために、例えば、ビオチン化されたアダプターがその後使用される。
実施例31:メタゲノムアセンブリのソフトウェアプラットホーム
データを解析するために2工程のプロセスを使用した。第1の、ペアエンド断片のショットガンデータを、Meraculousに対する臨機応変な変更を使用して足場へとアセンブルした。同じサンプルからのChicagoデータを加えて、これらのアセンブルされた配列を、HiRiseに対するインプットとして使用した。これらの実験のために、MeraculousおよびHiRiseの両方を、臨機応変に変更し、(1)は異なる種を表わす足場における配列適用範囲(即ち存在量)の変更、および(2)種内の系統間多型を可能にした。他のメタゲノムアセンブラ(例えば、OmegaおよびmetaSpades)での実験は、第一段階に対する変更されたMeraculous(図示せず)に比べて大きな改善をもたらさなかった。HiRiseは、元来二倍性ゲノムアセンブリのために開発され、したがって均一のChicagoおよびショットガンの適用範囲を想定している。この特徴を、足場工程におけるメタゲノムのために変更した。顕著な足場サイズは、このアセンブリ方法論によってChicagoデータを用いて達成可能であった。これらの2工程はまた、分岐系統の改善されたアセンブリおよび個別アセンブリのために統合され得る。
多型部位の改善されたアセンブリ:スパイクイン対照実験では、多くの他のOTUが、糞便サンプルにおいてより高い存在量で存在したという事実にもかかわらず、最長の足場は、S.coelicolorからのものであった(1%のスパイクイン)。重要なことに、(クローン)スパイクイン対照が、系統変動がなかったという点で他のOTUとは分類上異なっていたことに留意する。したがって、系統変動を介して検出およびアセンブルする有効な方法は、種レベルの隣接性を改善することができる。
元のMeraculousアルゴリズムを、二倍性ゲノムのアセンブリ用に設計した。その設定では、多型は等しい頻度の2つの対立遺伝子変異体として現われ、その結果、それらの合計はニ倍性ゲノムの適用範囲の(均一な)深さである。これらの対立遺伝子変異体は、低レベルで生じる(例えば、Illuminaデータで<1%)、配列決定エラーとは容易に差別化され得る。対照的に、メタゲノムにおいて、(1)ハプロタイプが系統存在量に依存して異なる頻度で生じることができ;(2)系統のすべてのハプロタイプにわたる合計深さは、種の存在量を表わし、これは種間(及びそれ故足場間)で異なり;および(3)非常に豊富な種において、低エラー率であっても、真実の変異体の容易に混同され得る繰り返し起こるエラーを引き起こし得る。
したがって、メタゲノムに関して、Meraculousは、(1)(deBruijnグラフ中のフォークとして現われる)頻度が異なるハプロタイプを可能にする、(2)深さが全体的制約よりもむしろ局所的制約となることを可能にし、(3)全体的カットオフよりもむしろ局所的深さに対するエラーをフィルタ処理するように適合され得る。これらの変化は、オープンソースのMeraculousコードに対して行われ、2つ以上の密に関連する系統のスパイクインで生成された試験データで経験的に確証され得る。局所的深さ(各種の存在量)がデータから学習され得るため、Meraculousへのこれらの調節に対する自己一貫性の要素がある。これらのアプローチは、様々な糞便サンプルに対して試験され得、我々のアルゴリズムが強固なものであることを確かなもととしている。
図15Aおよび図15Bに示されるように、予備アセンブリは、Chicagoデータがさらなる足場組みのために残りの利用されていない情報を含むことを示している。例えば、現在のアセンブリ戦略は、広く異なるGC含量または深さを有する足場よりも同じ種からの足場を表わす傾向にある、類似した適用範囲のGC含量および深さを有する多くの連結されていない足場を生成することができる。臨機応変な方法でこれらの足場をグループ化することは、元のビニング戦略の基礎であり、これは、さらなる連鎖のための仮説と見なされ得る。
Chicagoデータが、これらの仮説の非依存性の実験的確証を提供することができたかどうかについて、さらなる調査を実行した。図26Aおよび図26Bは、Chicagoリード対によって高度に結合されるショットガン足場が、適用範囲のGC含量および深さにおいて類似する可能性がかなりあることを示している。図26Aは、スパイクイン実験におけるすべての足場のための適用範囲の深さ(y軸)およびGC含量(カラースケール)を示す;恐らく同じOTUからのものである類似した適用範囲およびGC含量での足場の線条。図26Bは、すべてのChicagoリンクの分画としてのx軸上の各足場の、その1番目から4番目の最も結合された足場に対するChicago結合性を示し、y軸は、GC+足場ペア間の倍率カバレージ空間におけるユークリッド距離を示し、Chicago連鎖と高度に結合される足場ペアは、GC含量および倍率カバレージに類似する傾向がある。分離菌株の既知のゲノムとの比較は、これらが、Chicagoリード対によって支持されるが、現在のHiRiseアルゴリズムによって作られない結合部(joins)であることを更に支持している。これを修正する際に複数の方法が利用され得る。第1に、HiRiseによってこれらの作られていない結合部に与えられる内部重量が解析され、スパイクインのグラウンドトルースまたは既知のゲノムからの外部サポートのいずれかによってガイドされる、改善されたヒューリスティックスが利用され得る。第2に、GC含量および深さを明確に考慮に入れるヒューリスティックスが利用され得る。
GC含量および深さは、足場を仮定された連鎖群へと分割する方法である。元のTysonレポート以来、より精巧な方法が開発され、足場特徴(例えば四量体頻度)の異なる統計的特徴に基づいたこの問題に対する複数のアプローチがある。完全な連鎖情報も、Chicagoデータから抽出され得る。
系統を別々にアセンブルする目的を達成するために、以下の反復手段を実施するソフトウェアモジュールが利用され得る:(1)すべてのリードをマッピングして、初期のMeraculous/HiRiseアセンブリに戻す。BWA-MEMは、系統変動に対して予測された通りに、3-4%まで分岐する配列を容易に整列させることができる汎用アライナ(aligner)である;(2)これらの整列における可変位置を特定し、それらを「フェージングして」、ハプロタイプを抽出する。GATKおよびHapCutを含む既存の方法は、メタゲノムとの使用に適し、2つを超えるハプロタイプおよび不平等な頻度の可能性を顕著に予想し得る。フェージングが複数の変異体上にマッピングされるリード/リード対を必要とするため、ショットガン配列からのハプロタイプの特定は、リード長によって制限され得る;および(3)最終的に、ハプロタイプが適切に多形な部位においてを特定されて、これらのハプロタイプに一致するChicagoリードが特定され、Chicago対を用いて、は系統特異的な足場が生成され得る。異なる系統が構造的変異をしばしば示すため、系統認識のアセンブリはアセンブリ品質を劇的に改善することができ、複数のそのような系統が1つの「コンセンサス(consensus)」種のアセンブリに崩壊される場合、足場組みは構造上の差で終端となる(図27を参照)。図27は、足場組みのパフォーマンスに対する系統変動の効果のグラフを示し、各足場の長さは、系統変動(代替的なベース)の証拠を示す部位のその分画に対して示され、最も変異な足場が上部で特定される。
本開示の好ましい実施形態が、本明細書に示され、記載されているが、このような実施形態がほんの一例として提供されることは、当業者に明白となる。多数の変形、変更、および置換が、本開示から逸脱することなく、当業者によって想到される。本明細書に記載される本開示の実施形態の様々な代案が、本開示の実施において利用され得ることを理解されたい。以下の請求項が本開示の範囲を定義するものであり、これらの請求項の範囲内の方法および構造並びにそれらの同等物が、それによって包含されるものであることが意図されている。

Claims (32)

  1. 少なくとも2つの種を含む、異種のサンプル中の核酸の分子の多様性を分析する方法であって、
    a)少なくとも2つの種からの安定化させた多様な複数の核酸のうちの少なくとも第1のメンバーが、第1の結合部分に連結された第1の核酸セグメントおよび第2の核酸セグメントを含むように、前記少なくとも2つの種からの安定化させた多様な複数の核酸を含む安定化させた核酸サンプルを得る工程であって、第1のリン酸ジエステル骨格が前記第1の核酸セグメントと前記第2の核酸セグメントとの間で切断され、前記少なくとも2つの種からの安定化させた多様な複数の核酸のうちの第2のメンバーが、第2の結合部分に連結された第3の核酸セグメントおよび第4の核酸セグメントを含み、第2のリン酸ジエステル結合は、前記第3の核酸セグメントと前記第4の核酸セグメントとの間で切断される、工程と、
    b)前記第1の核酸セグメントおよび前記第2の核酸セグメントが、前記少なくとも2つの種からの安定化させた多様な複数の核酸の共通の核酸から生じたものとして同定可能であるように、前記第1の核酸セグメントを第1のタグでタグ付けし、前記第2の核酸セグメントを第2のタグでタグ付けし、そして前記第3の核酸セグメントおよび前記第4の核酸セグメントが、前記少なくとも2つの種からの安定化させた多様な複数の核酸の共通の核酸から生じたものとして同定可能であるように、前記第3の核酸セグメントを第3のタグでタグ付けし、前記第4の核酸セグメントを第4のタグでタグ付けする工程と、
    c)前記第1の核酸セグメントの少なくとも同定可能な部分と前記第1のタグ、および、前記第2の核酸セグメントの同定可能な部分と前記第2のタグを含む第1の配列、ならびに前記第3の核酸セグメントの少なくとも同定可能な部分と前記第3のタグ、および、前記第4の核酸セグメントの同定可能な部分と前記第4のタグを含む第2の配列を得る工程と、
    d)前記少なくとも2つの種からの安定化させた多様な複数の核酸の複数の配列のセグメントが少なくとも1つの足場に割り当てられるように、前記第1の配列を含む少なくとも第1の配列足場、および前記第2の配列を含む少なくとも第2の配列足場を少なくとも構築する工程であって、前記少なくとも2つの種からの安定化させた多様な複数の核酸の共通な核酸から生じたものとして同定可能であるようにタグ付けされた核酸セグメントは、共通な足場に割り当てられる、工程と、
    e)構築された複数の配列足場の数をカウントする工程と、を含み、
    生成された足場の数は前記異種のサンプルに存在する種の数に対応する、方法。
  2. 前記第1の核酸セグメントと前記第2の核酸セグメントとをタグ付けする工程は、第1の核酸セグメントに第1のオリゴヌクレオチドを加え、第2の核酸セグメントに第2のオリゴヌクレオチドを加える工程を含み、前記第1のオリゴヌクレオチドと前記第2のオリゴヌクレオチドは第1の配列を含む、請求項1に記載の方法。
  3. 第1の配列を有する核酸セグメントは、第1の足場に割り当てられる、請求項2に記載の方法。
  4. 前記第1の核酸セグメントの前記同定可能な部分をコンティグデータセットにマッピングする工程と、前記コンティグデータセットの任意の一致するコンティグを前記共通の足場へ含める工程を含む、請求項3に記載の方法。
  5. コンティグデータセットは同時に生成される、請求項4に記載の方法。
  6. コンティグデータセットはデータベースから得られる、請求項4に記載の方法。
  7. 前記第1の核酸セグメントと前記第2の核酸セグメントとをタグ付けする工程は、前記第1の核酸セグメントを前記第2の核酸セグメントへ連結する工程を含み、ここで、前記第1の核酸セグメントと前記第2の核酸セグメントは共通の足場に割り当てられる、請求項1に記載の方法。
  8. 前記第1の核酸セグメントの前記同定可能な部分をコンティグデータセットにマッピングする工程と、前記コンティグデータセットの任意の一致するコンティグを前記共通の足場へ含める工程を含む、請求項7に記載の方法。
  9. コンティグデータセットは同時に生成される、請求項8に記載の方法。
  10. コンティグデータセットはデータベースから得られる、請求項8に記載の方法。
  11. 異種のサンプルは複数の対立遺伝子変異体を含む、請求項1に記載の方法。
  12. 対立遺伝子変異体の数は足場の数よりも多い、請求項11に記載の方法。
  13. 対立遺伝子変異体の数は生成された足場の数と等しい、請求項11に記載の方法。
  14. 前記リン酸ジエステル骨格は、安定化させたサンプルを得る工程の後に切断される、請求項1-13のいずれか1つに記載の方法。
  15. 前記安定化させたサンプルは架橋剤に接触させられる、請求項1-13のいずれか1つに記載の方法。
  16. 前記安定化させたサンプルはホルマリン固定パラフィン包埋(FFPE)サンプルである、請求項1-13のいずれか1つに記載の方法。
  17. 逆転写酵素に、前記異種のサンプルを接触させる工程を含む、請求項1-13のいずれか1つに記載の方法。
  18. 核酸配列データベースに対して、前記足場の少なくとも1つを探す工程を含む、請求項1に記載の方法。
  19. 前記足場へ一意的にマッピングされる核酸配列が前記データベースにない場合に、前記足場を新規なものとして分類する工程を含む、請求項18に記載の方法。
  20. 異種のサンプルは、共通の種の少なくとも2つの個体へマッピングされる核酸を含む、請求項1-13のいずれか1つに記載の方法。
  21. 異種のサンプルは、共通の種の少なくとも3つの個体へマッピングされる核酸を含む、請求項1-13のいずれか1つに記載の方法。
  22. 異種のサンプルは、少なくとも2つの種へマッピングされる核酸を含む、請求項1-13のいずれか1つに記載の方法。
  23. 異種のサンプルは、少なくとも3つの種へマッピングされる核酸を含む、請求項1-13のいずれか1つに記載の方法。
  24. 異種のサンプルは、少なくとも4つの種へマッピングされる核酸を含む、請求項1-13のいずれか1つに記載の方法。
  25. 配列リードは、外因性配列情報に関係のない少なくとも2つの核酸足場へアセンブルされる、請求項1-13のいずれか1つに記載の方法。
  26. 配列リードは、外因性配列情報に関係のない少なくとも3つの核酸足場へアセンブルされる、請求項1-13のいずれか1つに記載の方法。
  27. 第1のゲノムの少なくとも50%と第2のゲノムの少なくとも50%が少なくとも2つの核酸足場で表されるように、配列リードは少なくとも2つの核酸足場へアセンブルされる、請求項1-13のいずれか1つに記載の方法。
  28. 第1のゲノムの少なくとも60%と第2のゲノムの少なくとも60%が少なくとも2つの核酸足場で表されるように、配列リードは少なくとも2つの核酸足場へアセンブルされる、請求項1-13のいずれか1つに記載の方法。
  29. 第1のゲノムの少なくとも70%と第2のゲノムの少なくとも70%が少なくとも2つの核酸足場で表されるように、配列リードは少なくとも2つの核酸足場へアセンブルされる、請求項1-13のいずれか1つに記載の方法。
  30. 第1のゲノムの少なくとも80%と第2のゲノムの少なくとも80%が少なくとも2つの核酸足場で表されるように、配列リードは少なくとも2つの核酸足場へアセンブルされる、請求項1-13のいずれか1つに記載の方法。
  31. 固相可逆的固定化(SPRI)ビーズを使用する工程を含む、請求項1-13のいずれか1つに記載の方法。
  32. 安定化させたサンプルは約5マイクログラムを超えないDNAを含む、請求項1-13のいずれか1つに記載の方法。
JP2018519743A 2015-10-19 2016-10-18 ゲノムアセンブリ、ハプロタイプフェージング、および標的に依存しない核酸検出のための方法 Active JP7300831B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021170390A JP2022028662A (ja) 2015-10-19 2021-10-18 ゲノムアセンブリ、ハプロタイプフェージング、および標的に依存しない核酸検出のための方法

Applications Claiming Priority (9)

Application Number Priority Date Filing Date Title
US201562243591P 2015-10-19 2015-10-19
US201562243576P 2015-10-19 2015-10-19
US62/243,591 2015-10-19
US62/243,576 2015-10-19
US201562255953P 2015-11-16 2015-11-16
US62/255,953 2015-11-16
US201662294198P 2016-02-11 2016-02-11
US62/294,198 2016-02-11
PCT/US2016/057557 WO2017070123A1 (en) 2015-10-19 2016-10-18 Methods for genome assembly, haplotype phasing, and target independent nucleic acid detection

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2021170390A Division JP2022028662A (ja) 2015-10-19 2021-10-18 ゲノムアセンブリ、ハプロタイプフェージング、および標的に依存しない核酸検出のための方法

Publications (2)

Publication Number Publication Date
JP2019500009A JP2019500009A (ja) 2019-01-10
JP7300831B2 true JP7300831B2 (ja) 2023-06-30

Family

ID=58557966

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2018519743A Active JP7300831B2 (ja) 2015-10-19 2016-10-18 ゲノムアセンブリ、ハプロタイプフェージング、および標的に依存しない核酸検出のための方法
JP2021170390A Pending JP2022028662A (ja) 2015-10-19 2021-10-18 ゲノムアセンブリ、ハプロタイプフェージング、および標的に依存しない核酸検出のための方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2021170390A Pending JP2022028662A (ja) 2015-10-19 2021-10-18 ゲノムアセンブリ、ハプロタイプフェージング、および標的に依存しない核酸検出のための方法

Country Status (10)

Country Link
US (2) US10457934B2 (ja)
EP (1) EP3365445B1 (ja)
JP (2) JP7300831B2 (ja)
KR (1) KR20180096586A (ja)
CN (1) CN108368542B (ja)
AU (1) AU2016341198B2 (ja)
CA (1) CA3002740A1 (ja)
IL (1) IL258699B (ja)
SG (1) SG11201803289VA (ja)
WO (1) WO2017070123A1 (ja)

Families Citing this family (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9424392B2 (en) 2005-11-26 2016-08-23 Natera, Inc. System and method for cleaning noisy genetic data from target individuals using genetic data from genetically related individuals
US11322224B2 (en) 2010-05-18 2022-05-03 Natera, Inc. Methods for non-invasive prenatal ploidy calling
US9677118B2 (en) 2014-04-21 2017-06-13 Natera, Inc. Methods for simultaneous amplification of target loci
US11339429B2 (en) 2010-05-18 2022-05-24 Natera, Inc. Methods for non-invasive prenatal ploidy calling
US11939634B2 (en) 2010-05-18 2024-03-26 Natera, Inc. Methods for simultaneous amplification of target loci
US11408031B2 (en) 2010-05-18 2022-08-09 Natera, Inc. Methods for non-invasive prenatal paternity testing
EP2854057B1 (en) 2010-05-18 2018-03-07 Natera, Inc. Methods for non-invasive pre-natal ploidy calling
US11332785B2 (en) 2010-05-18 2022-05-17 Natera, Inc. Methods for non-invasive prenatal ploidy calling
US11326208B2 (en) 2010-05-18 2022-05-10 Natera, Inc. Methods for nested PCR amplification of cell-free DNA
US11332793B2 (en) 2010-05-18 2022-05-17 Natera, Inc. Methods for simultaneous amplification of target loci
US10316362B2 (en) 2010-05-18 2019-06-11 Natera, Inc. Methods for simultaneous amplification of target loci
US20190010543A1 (en) 2010-05-18 2019-01-10 Natera, Inc. Methods for simultaneous amplification of target loci
WO2012108920A1 (en) 2011-02-09 2012-08-16 Natera, Inc Methods for non-invasive prenatal ploidy calling
CN109971852A (zh) 2014-04-21 2019-07-05 纳特拉公司 检测染色体片段中的突变和倍性
EP3174980A4 (en) 2014-08-01 2018-01-17 Dovetail Genomics, LLC Tagging nucleic acids for sequence assembly
WO2016134034A1 (en) 2015-02-17 2016-08-25 Dovetail Genomics Llc Nucleic acid sequence assembly
US11807896B2 (en) 2015-03-26 2023-11-07 Dovetail Genomics, Llc Physical linkage preservation in DNA storage
WO2016183106A1 (en) 2015-05-11 2016-11-17 Natera, Inc. Methods and compositions for determining ploidy
US12018314B2 (en) 2015-07-02 2024-06-25 Arima Genomics, Inc. Accurate molecular deconvolution of mixture samples
CA3014911A1 (en) * 2016-02-23 2017-08-31 Dovetail Genomics, Llc Generation of phased read-sets for genome assembly and haplotype phasing
EP3954771A1 (en) 2016-05-13 2022-02-16 Dovetail Genomics, LLC Recovering long-range linkage information from preserved samples
US10428370B2 (en) 2016-09-15 2019-10-01 Sun Genomics, Inc. Universal method for extracting nucleic acid molecules from a diverse population of one or more types of microbes in a sample
US11959125B2 (en) 2016-09-15 2024-04-16 Sun Genomics, Inc. Universal method for extracting nucleic acid molecules from a diverse population of one or more types of microbes in a sample
WO2018067517A1 (en) * 2016-10-04 2018-04-12 Natera, Inc. Methods for characterizing copy number variation using proximity-litigation sequencing
US10011870B2 (en) 2016-12-07 2018-07-03 Natera, Inc. Compositions and methods for identifying nucleic acid molecules
US20210371918A1 (en) 2017-04-18 2021-12-02 Dovetail Genomics, Llc Nucleic acid characteristics as guides for sequence assembly
CN107292124A (zh) * 2017-06-25 2017-10-24 广东国盛医学科技有限公司 基于分层主元深度学习的宏基因组操作分类单元识别方法
US11753637B2 (en) * 2017-06-26 2023-09-12 Phase Genomics Inc. Method for the clustering of DNA sequences
CN112204139A (zh) * 2018-04-02 2021-01-08 太阳基因组学公司 用于从样品中的一种或多种类型的微生物的不同群体中提取核酸分子的通用方法
JP2021520816A (ja) 2018-04-14 2021-08-26 ナテラ, インコーポレイテッド 循環腫瘍dnaの個別化された検出を用いる癌検出およびモニタリングの方法
US11525159B2 (en) 2018-07-03 2022-12-13 Natera, Inc. Methods for detection of donor-derived cell-free DNA
CN113825836A (zh) * 2019-04-09 2021-12-21 阿克生物公司 用于基于核苷酸修饰的耗竭的组合物和方法
US20220177874A1 (en) * 2019-04-28 2022-06-09 The Regents Of The University Of California Methods for library preparation to enrich informative dna fragments using enzymatic digestion
EA202193081A1 (ru) 2019-05-10 2022-02-24 Те Чайниз Юниверсити Ов Гонконг Праймеры и способы анализа для соединения областей с использованием полимераз
AU2020302791A1 (en) * 2019-06-27 2022-02-03 Dovetail Genomics, Llc Methods and compositions for proximity ligation
CN110827917B (zh) * 2019-11-06 2023-10-20 华中科技大学鄂州工业技术研究院 一种基于snp鉴定个体肠道菌群类型的方法
EP4055187A4 (en) 2019-11-06 2023-11-01 The Board of Trustees of the Leland Stanford Junior University METHOD AND SYSTEMS FOR ANALYZING NUCLEIC ACID MOLECULES
WO2021127406A1 (en) * 2019-12-19 2021-06-24 The Regents Of The University Of California Methods of producing target capture nucleic acids
CN115349128A (zh) 2020-02-13 2022-11-15 齐默尔根公司 宏基因组文库和天然产物发现平台
US11783912B2 (en) * 2021-05-05 2023-10-10 The Board Of Trustees Of The Leland Stanford Junior University Methods and systems for analyzing nucleic acid molecules
GB2621782A (en) * 2021-05-05 2024-02-21 Univ Leland Stanford Junior Methods and systems for analyzing nucleic acid molecules
CN113201599B (zh) * 2021-06-03 2023-03-31 北京大学人民医院 一种基于PCR和nanopore测序检测脑脊液感染哪些病原体的方法
CA3227394A1 (en) * 2021-08-17 2023-02-23 Mars, Incorporated Metagenomic filtering and using the microbial signatures to authenticate food raw materials

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014121091A1 (en) 2013-02-01 2014-08-07 The Regents Of The University Of California Methods for genome assembly and haplotype phasing

Family Cites Families (139)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NL154598B (nl) 1970-11-10 1977-09-15 Organon Nv Werkwijze voor het aantonen en bepalen van laagmoleculire verbindingen en van eiwitten die deze verbindingen specifiek kunnen binden, alsmede testverpakking.
US3817837A (en) 1971-05-14 1974-06-18 Syva Corp Enzyme amplification assay
US3939350A (en) 1974-04-29 1976-02-17 Board Of Trustees Of The Leland Stanford Junior University Fluorescent immunoassay employing total reflection for activation
US3996345A (en) 1974-08-12 1976-12-07 Syva Company Fluorescence quenching with immunological pairs in immunoassays
US4277437A (en) 1978-04-05 1981-07-07 Syva Company Kit for carrying out chemically induced fluorescence immunoassay
US4275149A (en) 1978-11-24 1981-06-23 Syva Company Macromolecular environment control in specific receptor assays
US4366241A (en) 1980-08-07 1982-12-28 Syva Company Concentrating zone method in heterogeneous immunoassays
US5242794A (en) 1984-12-13 1993-09-07 Applied Biosystems, Inc. Detection of specific sequences in nucleic acids
US4988617A (en) 1988-03-25 1991-01-29 California Institute Of Technology Method of detecting a nucleotide change in nucleic acids
US5234809A (en) 1989-03-23 1993-08-10 Akzo N.V. Process for isolating nucleic acid
US5143854A (en) 1989-06-07 1992-09-01 Affymax Technologies N.V. Large scale photolithographic solid phase synthesis of polypeptides and receptor binding screening thereof
US5494810A (en) 1990-05-03 1996-02-27 Cornell Research Foundation, Inc. Thermostable ligase-mediated DNA amplifications system for the detection of genetic disease
EP1046421B8 (en) 1990-12-06 2006-01-11 Affymetrix, Inc. (a Delaware Corporation) Methods and reagents for very large scale immobilized polymer synthesis
US5994056A (en) 1991-05-02 1999-11-30 Roche Molecular Systems, Inc. Homogeneous methods for nucleic acid amplification and detection
DE69233331T3 (de) 1991-11-22 2007-08-30 Affymetrix, Inc., Santa Clara Kombinatorische Strategien zur Polymersynthese
US6033854A (en) 1991-12-16 2000-03-07 Biotronics Corporation Quantitative PCR using blocking oligonucleotides
US5348853A (en) 1991-12-16 1994-09-20 Biotronics Corporation Method for reducing non-specific priming in DNA amplification
US5567583A (en) 1991-12-16 1996-10-22 Biotronics Corporation Methods for reducing non-specific priming in DNA detection
ES2204913T3 (es) 1993-04-12 2004-05-01 Northwestern University Metodo para formacion de oligonucleotidos.
US5837832A (en) 1993-06-25 1998-11-17 Affymetrix, Inc. Arrays of nucleic acid probes on biological chips
EP0730663B1 (en) 1993-10-26 2003-09-24 Affymetrix, Inc. Arrays of nucleic acid probes on biological chips
US6110709A (en) 1994-03-18 2000-08-29 The General Hospital Corporation Cleaved amplified modified polymorphic sequence detection methods
US5571639A (en) 1994-05-24 1996-11-05 Affymax Technologies N.V. Computer-aided engineering system for design of sequence arrays and lithographic masks
US5705628A (en) 1994-09-20 1998-01-06 Whitehead Institute For Biomedical Research DNA purification and isolation using magnetic particles
US5795716A (en) 1994-10-21 1998-08-18 Chee; Mark S. Computer-aided visualization and analysis system for sequence evaluation
US5599695A (en) 1995-02-27 1997-02-04 Affymetrix, Inc. Printing molecular library arrays using deprotection agents solely in the vapor phase
US5780613A (en) 1995-08-01 1998-07-14 Northwestern University Covalent lock for self-assembled oligonucleotide constructs
AU2189397A (en) 1996-02-08 1997-08-28 Affymetrix, Inc. Chip-based speciation and phenotypic characterization of microorganisms
US5786146A (en) 1996-06-03 1998-07-28 The Johns Hopkins University School Of Medicine Method of detection of methylated nucleic acid using agents which modify unmethylated cytosine and distinguishing modified methylated and non-methylated nucleic acids
ATE295427T1 (de) 1996-06-04 2005-05-15 Univ Utah Res Found Überwachung der hybridisierung während pcr
US6117635A (en) 1996-07-16 2000-09-12 Intergen Company Nucleic acid amplification oligonucleotides with molecular energy transfer labels and methods based thereon
US6449562B1 (en) 1996-10-10 2002-09-10 Luminex Corporation Multiplexed analysis of clinical specimens apparatus and method
WO1998041651A1 (en) 1997-03-18 1998-09-24 Hsc Research & Development Limited Partnership Method for preparing chromatin
US6969488B2 (en) 1998-05-22 2005-11-29 Solexa, Inc. System and apparatus for sequential processing of analytes
EP1032701A1 (en) 1997-10-28 2000-09-06 The Regents of The University of California Dna base mismatch detection using flow cytometry
US5989823A (en) 1998-09-18 1999-11-23 Nexstar Pharmaceuticals, Inc. Homogeneous detection of a target through nucleic acid ligand-ligand beacon interaction
GB9812768D0 (en) 1998-06-13 1998-08-12 Zeneca Ltd Methods
US20040106110A1 (en) 1998-07-30 2004-06-03 Solexa, Ltd. Preparation of polynucleotide arrays
US20030022207A1 (en) 1998-10-16 2003-01-30 Solexa, Ltd. Arrayed polynucleotides and their use in genome analysis
US6787308B2 (en) 1998-07-30 2004-09-07 Solexa Ltd. Arrayed biomolecules and their use in sequencing
JP2002524091A (ja) 1998-08-21 2002-08-06 ナックスコー・インコーポレイテッド 架橋可能な固定化核酸を用いるアッセイ
US6416950B1 (en) 1998-12-02 2002-07-09 Phylos, Inc. DNA-protein fusions and uses thereof
US8367322B2 (en) 1999-01-06 2013-02-05 Cornell Research Foundation, Inc. Accelerating identification of single nucleotide polymorphisms and alignment of clones in genomic sequencing
US6994969B1 (en) * 1999-04-30 2006-02-07 Methexis Genomics, N.V. Diagnostic sequencing by a combination of specific cleavage and mass spectrometry
US7056661B2 (en) 1999-05-19 2006-06-06 Cornell Research Foundation, Inc. Method for sequencing nucleic acid molecules
US6225109B1 (en) 1999-05-27 2001-05-01 Orchid Biosciences, Inc. Genetic analysis device
US7211390B2 (en) 1999-09-16 2007-05-01 454 Life Sciences Corporation Method of sequencing a nucleic acid
US7244559B2 (en) 1999-09-16 2007-07-17 454 Life Sciences Corporation Method of sequencing a nucleic acid
EP1218543A2 (en) 1999-09-29 2002-07-03 Solexa Ltd. Polynucleotide sequencing
US6582938B1 (en) 2001-05-11 2003-06-24 Affymetrix, Inc. Amplification of nucleic acids
GB0002389D0 (en) 2000-02-02 2000-03-22 Solexa Ltd Molecular arrays
US6448717B1 (en) 2000-07-17 2002-09-10 Micron Technology, Inc. Method and apparatuses for providing uniform electron beams from field emission displays
US6897023B2 (en) 2000-09-27 2005-05-24 The Molecular Sciences Institute, Inc. Method for determining relative abundance of nucleic acid sequences
US7001724B1 (en) 2000-11-28 2006-02-21 Applera Corporation Compositions, methods, and kits for isolating nucleic acids using surfactants and proteases
DE10120797B4 (de) 2001-04-27 2005-12-22 Genovoxx Gmbh Verfahren zur Analyse von Nukleinsäureketten
GB0114853D0 (en) 2001-06-18 2001-08-08 Medical Res Council Happier Mapping
DE10239504A1 (de) 2001-08-29 2003-04-24 Genovoxx Gmbh Verfahren zur Analyse von Nukleinsäurekettensequenzen und der Genexpression
DE10246005A1 (de) 2001-10-04 2003-04-30 Genovoxx Gmbh Gerät zur Sequenzierung von Nukleinsäuremolekülen
US20050124022A1 (en) 2001-10-30 2005-06-09 Maithreyan Srinivasan Novel sulfurylase-luciferase fusion proteins and thermostable sulfurylase
US6902921B2 (en) 2001-10-30 2005-06-07 454 Corporation Sulfurylase-luciferase fusion proteins and thermostable sulfurylase
CA2465588A1 (en) * 2001-11-09 2003-05-22 Aclara Biosciences, Inc. Detection of nucleic acid sequences by cleavage and separation of tag-containing structures
US20050130161A1 (en) 2002-03-08 2005-06-16 Peter Fraser Tagging and recovery of elements associated with target molecules
US20030228627A1 (en) 2002-03-22 2003-12-11 Emerson Beverly M. Assay for p53 function in cells
US20040096870A1 (en) 2002-06-28 2004-05-20 Sention, Inc. Methods of detecting sequence differences
US7563600B2 (en) 2002-09-12 2009-07-21 Combimatrix Corporation Microarray synthesis and assembly of gene-length polynucleotides
US7414117B2 (en) 2002-12-26 2008-08-19 Ngk Insulators, Ltd. Nucleotide derivative and DNA microarray
EP1590477B1 (en) 2003-01-29 2009-07-29 454 Corporation Methods of amplifying and sequencing nucleic acids
US20040197779A1 (en) 2003-04-03 2004-10-07 Apffel James Alexander Methods for analyzing mixtures of proteins
US8741577B2 (en) 2003-04-07 2014-06-03 Bio-Rad Laboratories Inc. Surface immobilised multilayer structure of vesicles
FI20030778A0 (fi) 2003-05-22 2003-05-22 Licentia Oy Taudin määrittäminen tai ennustaminen
US20070111204A1 (en) 2003-06-27 2007-05-17 Kathleen Delgrosso Methods for detecting nucleic acid variations
US20070092929A1 (en) 2003-07-02 2007-04-26 Angelina Dekker Test system for the determination of the presence of an antibiotic in a fluid
GB0316075D0 (en) 2003-07-09 2003-08-13 Molecular Sensing Plc Protease detection assay
WO2005044836A2 (de) 2003-11-05 2005-05-19 Genovoxx Gmbh Makromolekulare nukleotidverbindungen und methoden zu deren anwendung
US7169560B2 (en) 2003-11-12 2007-01-30 Helicos Biosciences Corporation Short cycle methods for sequencing polynucleotides
BRPI0508100A (pt) 2004-02-28 2007-07-17 Chang Ning J Wang complexos de ácido nucléico bem como processo para detecção e sistema multifásico
US20060024711A1 (en) 2004-07-02 2006-02-02 Helicos Biosciences Corporation Methods for nucleic acid amplification and sequence determination
US7361468B2 (en) 2004-07-02 2008-04-22 Affymetrix, Inc. Methods for genotyping polymorphisms in humans
US7276720B2 (en) 2004-07-19 2007-10-02 Helicos Biosciences Corporation Apparatus and methods for analyzing samples
US20060012793A1 (en) 2004-07-19 2006-01-19 Helicos Biosciences Corporation Apparatus and methods for analyzing samples
US20060024678A1 (en) 2004-07-28 2006-02-02 Helicos Biosciences Corporation Use of single-stranded nucleic acid binding proteins in sequencing
GB0422730D0 (en) 2004-10-13 2004-11-17 Lingvitae As Method
US7425415B2 (en) 2005-04-06 2008-09-16 City Of Hope Method for detecting methylated CpG islands
JP2006301289A (ja) 2005-04-20 2006-11-02 Tokyo Ohka Kogyo Co Ltd ネガ型レジスト組成物およびレジストパターン形成方法
US20090233291A1 (en) 2005-06-06 2009-09-17 454 Life Sciences Corporation Paired end sequencing
EP1907571B1 (en) 2005-06-15 2017-04-26 Complete Genomics Inc. Nucleic acid analysis by random mixtures of non-overlapping fragments
CA2614118C (en) 2005-07-04 2013-11-26 Erasmus University Medical Center 4c
US20110027890A1 (en) 2005-12-26 2011-02-03 Kuraray Co., Ltd. Material for cell culture
US20070172839A1 (en) 2006-01-24 2007-07-26 Smith Douglas R Asymmetrical adapters and methods of use thereof
GB0603251D0 (en) 2006-02-17 2006-03-29 Isis Innovation DNA conformation
US8071296B2 (en) 2006-03-13 2011-12-06 Agency For Science, Technology And Research Nucleic acid interaction analysis
WO2007136874A2 (en) 2006-05-18 2007-11-29 President And Fellows Of Harvard College Genomic library construction
EP2057282A4 (en) 2006-08-24 2010-10-27 Univ Massachusetts Medical MAPPING GENOMIC INTERACTIONS
JP5746469B2 (ja) 2006-10-04 2015-07-08 ブルックヘブン サイエンス アソシエイツ Dnaによって導かれたナノ粒子凝集
JP4982746B2 (ja) * 2006-10-16 2012-07-25 独立行政法人農業生物資源研究所 Dnaマーカーを用いたブタの親子判定方法
US8278112B2 (en) 2006-12-21 2012-10-02 The Regents Of The University Of California Site-specific installation of methyl-lysine analogues into recombinant histones
DK2121977T3 (en) 2007-01-11 2017-09-18 Erasmus Univ Medical Center Capture (4C) OF CHROMOSOMES WITH CIRCULAR CONFORMATION
US20100093986A1 (en) 2007-02-02 2010-04-15 Zwick Michael E Methods of direct genomic selection using high density oligonucleotide microarrays
EP2152915A2 (en) 2007-05-14 2010-02-17 Insight Genetics, Inc. Methods of screening nucleic acids for single nucleotide variations
US8951731B2 (en) 2007-10-15 2015-02-10 Complete Genomics, Inc. Sequence analysis using decorated nucleic acids
EP2053132A1 (en) 2007-10-23 2009-04-29 Roche Diagnostics GmbH Enrichment and sequence analysis of geomic regions
US8592150B2 (en) 2007-12-05 2013-11-26 Complete Genomics, Inc. Methods and compositions for long fragment read sequencing
US8263367B2 (en) 2008-01-25 2012-09-11 Agency For Science, Technology And Research Nucleic acid interaction analysis
JP2009219451A (ja) * 2008-03-17 2009-10-01 Kobe Univ 一塩基多型を用いた牛の個体識別法と親子鑑別法
WO2009132315A1 (en) 2008-04-24 2009-10-29 Life Technologies Corporation Method of sequencing and mapping target nucleic acids
US20090298064A1 (en) 2008-05-29 2009-12-03 Serafim Batzoglou Genomic Sequencing
GB0810051D0 (en) 2008-06-02 2008-07-09 Oxford Biodynamics Ltd Method of diagnosis
US8076070B2 (en) * 2008-08-06 2011-12-13 University Of Southern California Genome-wide chromosome conformation capture
WO2010036323A1 (en) 2008-09-25 2010-04-01 University Of Massachusetts Medical School Method of identifing interactions between genomic loci
AU2009316628B2 (en) 2008-11-18 2016-06-16 Bionano Genomics, Inc. Polynucleotide mapping and sequencing
US8703462B2 (en) 2009-02-03 2014-04-22 New England Biolabs, Inc. Generation of random double-strand breaks in DNA using enzymes
US9524369B2 (en) 2009-06-15 2016-12-20 Complete Genomics, Inc. Processing and analysis of complex nucleic acid sequence data
CN102858995B (zh) 2009-09-10 2016-10-26 森特瑞隆技术控股公司 靶向测序方法
WO2011056872A2 (en) 2009-11-03 2011-05-12 Gen9, Inc. Methods and microfluidic devices for the manipulation of droplets in high fidelity polynucleotide assembly
US20110287947A1 (en) 2010-05-18 2011-11-24 University Of Southern California Tethered Conformation Capture
HUE037359T2 (hu) 2010-07-09 2018-08-28 Cergentis B V A fontos V3-D genom-régió szekvenálási stratégiái
WO2012047726A1 (en) 2010-09-29 2012-04-12 The Broad Institute, Inc. Methods for chromatin immuno-precipitations
US9562897B2 (en) 2010-09-30 2017-02-07 Raindance Technologies, Inc. Sandwich assays in droplets
US20120197533A1 (en) 2010-10-11 2012-08-02 Complete Genomics, Inc. Identifying rearrangements in a sequenced genome
DK2630263T4 (da) 2010-10-22 2022-02-14 Cold Spring Harbor Laboratory Varital tælling af nucleinsyrer for at opnå information om antal genomiske kopier
EP2668294B1 (en) 2011-01-28 2021-04-07 The Broad Institute, Inc. Paired end bead amplification and high throughput sequencing
CA2826131C (en) * 2011-02-02 2019-11-05 Jay Ashok Shendure Massively parallel continguity mapping
WO2012150317A1 (en) 2011-05-05 2012-11-08 Institut National De La Sante Et De La Recherche Medicale (Inserm) Linear dna amplification
JP2014516514A (ja) 2011-04-14 2014-07-17 コンプリート・ジェノミックス・インコーポレイテッド 複合核酸配列データの処理および解析
EP2710146A2 (en) 2011-05-18 2014-03-26 Life Technologies Corporation Chromosome conformation analysis
CN103890245B (zh) 2011-05-20 2020-11-17 富鲁达公司 核酸编码反应
US20120330559A1 (en) 2011-06-21 2012-12-27 Life Technologies Corporation Systems and methods for hybrid assembly of nucleic acid sequences
WO2013078470A2 (en) 2011-11-22 2013-05-30 MOTIF, Active Multiplex isolation of protein-associated nucleic acids
LT2841601T (lt) 2012-04-24 2019-07-10 Gen9, Inc. Nukleorūgščių rūšiavimo būdai ir multipleksinis preparatyvinis in vitro klonavimas
KR101974577B1 (ko) 2012-05-21 2019-05-02 삼성전자주식회사 나노입자 제작용 주형 및 이를 이용한 나노입자의 제조 방법
AU2013289993B2 (en) 2012-07-13 2018-05-10 X-Chem, Inc. DNA-encoded libraries having encoding oligonucleotide linkages not readable by polymerases
EP2898096B1 (en) 2012-09-21 2024-02-14 The Broad Institute, Inc. Methods for labeling of rnas
US9411930B2 (en) * 2013-02-01 2016-08-09 The Regents Of The University Of California Methods for genome assembly and haplotype phasing
CA2933387C (en) 2013-12-11 2023-05-02 The Regents Of The University Of California Methods for labeling dna fragments to reconstruct physical linkage and phase
EP3174980A4 (en) * 2014-08-01 2018-01-17 Dovetail Genomics, LLC Tagging nucleic acids for sequence assembly
US20170283860A1 (en) 2014-09-16 2017-10-05 The Board Of Trustees Of The Leland Stanford Junio University Methods and compositions for the removal of aldehyde adducts and crosslinks from biomolecules
JP6808617B2 (ja) * 2014-10-17 2021-01-06 イルミナ ケンブリッジ リミテッド 連続性を維持した転位
WO2016134034A1 (en) 2015-02-17 2016-08-25 Dovetail Genomics Llc Nucleic acid sequence assembly
JP2018518992A (ja) 2015-06-24 2018-07-19 オックスフォード バイオダイナミックス リミテッド 染色体相互作用の部位を用いた検出法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014121091A1 (en) 2013-02-01 2014-08-07 The Regents Of The University Of California Methods for genome assembly and haplotype phasing

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
NICHOLAS H.PUTNAM et.al.,Chromosome-scale shotgun assembly using an in vitro method for long-range linkage.,p.1-25,ARXIV.ORG,CORNELL UNIVERSITY LIBRARY,2015.02.18,DOI:10.48550/arXiv.1502.05331

Also Published As

Publication number Publication date
EP3365445A4 (en) 2019-03-20
US20200131505A1 (en) 2020-04-30
EP3365445B1 (en) 2023-05-31
IL258699A (en) 2018-06-28
CN108368542B (zh) 2022-04-08
IL258699B (en) 2022-04-01
JP2019500009A (ja) 2019-01-10
WO2017070123A1 (en) 2017-04-27
SG11201803289VA (en) 2018-05-30
JP2022028662A (ja) 2022-02-16
CA3002740A1 (en) 2017-04-27
US10457934B2 (en) 2019-10-29
EP3365445A1 (en) 2018-08-29
CN108368542A (zh) 2018-08-03
KR20180096586A (ko) 2018-08-29
US20170314014A1 (en) 2017-11-02
AU2016341198A1 (en) 2018-06-07
AU2016341198B2 (en) 2023-03-09

Similar Documents

Publication Publication Date Title
JP7300831B2 (ja) ゲノムアセンブリ、ハプロタイプフェージング、および標的に依存しない核酸検出のための方法
US20220172799A1 (en) Methods for genome assembly and haplotype phasing
US20220112487A1 (en) Methods for labeling dna fragments to reconstruct physical linkage and phase
CA2956925C (en) Tagging nucleic acids for sequence assembly

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180918

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190408

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190911

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200722

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200729

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20201021

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210128

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20210616

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211018

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20211018

C11 Written invitation by the commissioner to file amendments

Free format text: JAPANESE INTERMEDIATE CODE: C11

Effective date: 20211027

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20211125

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20211129

RD13 Notification of appointment of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7433

Effective date: 20211210

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220117

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20220121

C211 Notice of termination of reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C211

Effective date: 20220127

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20220630

C22 Notice of designation (change) of administrative judge

Free format text: JAPANESE INTERMEDIATE CODE: C22

Effective date: 20221005

C23 Notice of termination of proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C23

Effective date: 20230425

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230620

R150 Certificate of patent or registration of utility model

Ref document number: 7300831

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150