JP2019088295A - ゲノムアセンブリ及びハプロタイプフェージングの方法 - Google Patents

ゲノムアセンブリ及びハプロタイプフェージングの方法 Download PDF

Info

Publication number
JP2019088295A
JP2019088295A JP2019002382A JP2019002382A JP2019088295A JP 2019088295 A JP2019088295 A JP 2019088295A JP 2019002382 A JP2019002382 A JP 2019002382A JP 2019002382 A JP2019002382 A JP 2019002382A JP 2019088295 A JP2019088295 A JP 2019088295A
Authority
JP
Japan
Prior art keywords
dna
molecule
read
pairs
dna molecule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019002382A
Other languages
English (en)
Other versions
JP7028807B2 (ja
Inventor
グリーン,リチャード,イー.ジュニア
E Green Richard Jr
ラレアウ,リアナ,エフ.
F Lareau Liana
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of California
Original Assignee
University of California
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of California filed Critical University of California
Publication of JP2019088295A publication Critical patent/JP2019088295A/ja
Priority to JP2022022549A priority Critical patent/JP2022065109A/ja
Application granted granted Critical
Publication of JP7028807B2 publication Critical patent/JP7028807B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6888Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for detection or identification of organisms
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B35/00ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B35/00ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
    • G16B35/10Design of libraries
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/60In silico combinatorial chemistry
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2521/00Reaction characterised by the enzymatic activity
    • C12Q2521/30Phosphoric diester hydrolysing, i.e. nuclease
    • C12Q2521/301Endonuclease
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2521/00Reaction characterised by the enzymatic activity
    • C12Q2521/30Phosphoric diester hydrolysing, i.e. nuclease
    • C12Q2521/319Exonuclease
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2521/00Reaction characterised by the enzymatic activity
    • C12Q2521/50Other enzymatic activities
    • C12Q2521/501Ligase
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2522/00Reaction characterised by the use of non-enzymatic proteins
    • C12Q2522/10Nucleic acid binding proteins
    • C12Q2522/101Single or double stranded nucleic acid binding proteins
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2523/00Reactions characterised by treatment of reaction samples
    • C12Q2523/10Characterised by chemical treatment
    • C12Q2523/101Crosslinking agents, e.g. psoralen
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2535/00Reactions characterised by the assay type for determining the identity of a nucleotide base or a sequence of oligonucleotides
    • C12Q2535/122Massive parallel sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2563/00Nucleic acid detection characterized by the use of physical, structural and functional properties
    • C12Q2563/131Nucleic acid detection characterized by the use of physical, structural and functional properties the label being a member of a cognate binding pair, i.e. extends to antibodies, haptens, avidin
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2565/00Nucleic acid analysis characterised by mode or means of detection
    • C12Q2565/50Detection characterised by immobilisation to a surface
    • C12Q2565/501Detection characterised by immobilisation to a surface being an array of oligonucleotides

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Analytical Chemistry (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Organic Chemistry (AREA)
  • Molecular Biology (AREA)
  • Biochemistry (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Library & Information Science (AREA)
  • Immunology (AREA)
  • Genetics & Genomics (AREA)
  • General Engineering & Computer Science (AREA)
  • Microbiology (AREA)
  • Computing Systems (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Medicinal Chemistry (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Saccharide Compounds (AREA)
  • Micro-Organisms Or Cultivation Processes Thereof (AREA)
  • General Chemical & Material Sciences (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

【課題】de novoゲノムアセンブリを大きく加速し、改善するゲノムアセンブリ及びハプロタイプフェージングの方法の提供。【解決手段】複数のコンティグを生成するステップと、染色体、クロマチン又は再構成クロマチンの物理的レイアウトをプロービングすることによって作製されるデータから複数のリード対を生成するステップと、前記複数のコンティグに前記複数のリード対をマッピング又はアセンブルするステップと、前記リードマッピング又はアセンブリデータを使用してコンティグの隣接行列を構築するステップと、前記隣接行列を分析して、その順序及び/又はゲノムに対する方向を表す、前記コンティグを通る経路を決定するステップとを含む方法。【選択図】図4

Description

関連出願の相互参照
この出願は、2013年2月1日に出願された米国特許仮出願第61/759,941号、2013年10月17日に出願された米国特許仮出願第61/892,355号の利益を主張するものであり、その開示を参照により本明細書に組み込む。
本開示は、ゲノム内の短、中、長期の接続を同定するためのゲノムアセンブリ及びハプロタイプフェージングの方法を提供する。
高品質で高度に連続したゲノム配列を作製することは、理論的にも、実際にも困難なままである。
次世代配列決定(NGS)データの持続的な欠点は、短いリード長及び比較的小さい挿入サイズにより、ゲノムの大きな反復領域に跨がることができないことである。この不備は、de novoアセンブリに著しく影響を及ぼす。ゲノム再編成の性質及び配置が不確実なので、長い反復領域によって分離されているコンティグは、連結又は再配列できない。更に、バリアントを長距離にわたってハプロタイプと明確に関連付けることができないので、フェージング情報は確定できない。本開示は、適切な入力DNAを用いておよそ数百キロベース、最長メガベースのゲノム距離に跨る非常に長い範囲のリード対(XLRP)を生成することによって、これらの問題の全てを同時に解決することができる。そのようなデータは、動原体を含めた、ゲノム中の大きな反復領域によって示される実質的な障壁を克服するために非常に貴重になり得、費用効果に優れたde novoアセンブリを可能にし、個別化医療のために充分な完全性及び精度の再配列決定データを作製することができる。
著しく重要なことは、非常に離れているが、分子的に連結しているDNAセグメントの間での会合の形成における再構成クロマチンの使用である。本開示は、離れたセグメントを一緒にし、クロマチン高次構造によって共有結合させることを可能にし、それによってDNA分子のこれまで離れていた部分を物理的に接続する。その後の加工により、確かめようとする会合したセグメントの配列が可能になり、ゲノム上での分離が入力DNA分子の完全長まで拡張するリード対を産生することができる。リード対は同じ分子に由来するので、これらの対はフェーズ情報も含有する。
いくつかの実施形態において、本開示は、これまで必要とされてきたデータよりはるかに少ないそれで高品質アセンブリを作製できる方法を提供する。例えば、本明細書に開示する本方法は、Illumina HiSeqの2レーンだけのデータからゲノムアセンブリを提供する。
他の実施形態において、本開示は、長距離リード対手法を使用する染色体レベルのフェージングを生成できる方法を提供する。例えば、本明細書に開示する方法は、90%以上のヘテロ接合単一ヌクレオチド多型(SNP)をフェージングすることができ、その1つ1つについては少なくとも99%以上の精度になる。この精度は、実質的により高コストで、多くの時間と労力を要する方法によって作製されるフェージングと同程度である。
いくつかの例において、メガベース規模までのゲノムDNAの断片を作製できる方法を、本明細書に開示した方法と一緒に使用することができる。長いDNA断片を生成して、それらの抽出によって提供される最長の断片に跨るリード対を生成する本方法の能力を確認することができる。いくつかの場合において、長さ150kbpを超えるDNA断片を抽出し、使用して、XLRPライブラリーを生成することができる。
本開示は、de novoゲノムアセンブリを大きく加速し、改善する方法を提供する。本明細書に開示する方法は、1つ以上の対象由来のゲノムの迅速且つ安価なde novoアセンブリを可能にするデータ分析方法を利用する。本開示は、本明細書に開示する方法がハプロタイプフェージング及びメタゲノミクス分析を含めた様々な適用に使用し得ることを更に提供する。
特定の実施形態において、本開示は、複数のコンティグを生成するステップと、染色体、クロマチン又は再構成クロマチンの物理的レイアウトをプロービングすることによって作製されるデータから複数のリード対を生成するステップと、複数のコンティグに複数のリード対をマッピング又はアセンブルするステップと、リードマッピング又はアセンブリデータを使用してコンティグの隣接行列を構築するステップと、隣接行列を分析して、その順序及び/又はゲノムに対する方向を表す、コンティグを通る経路を決定するステップとを含むゲノムアセンブリの方法を提供する。更なる実施形態において、本開示は、コンティグの端までの各リードの距離の写像を得ることにより少なくとも約90%のリード対に重み付けして、どのリード対が短い範囲の接触を示し、どのリード対がより長い範囲の接触を示すかについての情報を組み込むことを提供する。他の実施形態において、隣接行列を再スケーリングして、クロマチンのスキャフォールド相互作用を調節する1つ以上の薬剤である転写リプレッサーCTCF等に対する保存結合部位など、ゲノムの無差別な領域を表すいくつかのコンティグ上の多くの接触の重みを軽減することができる。他の実施形態において、本開示は、ヒト対象のゲノムアセンブリの方法を提供し、それにより複数のコンティグが、ヒト対象のDNAから生成され、それにより対象のネイキッドDNAから作られるヒト対象の染色体、クロマチン又は再構成クロマチンを分析することにより複数のリード対が生成される。
更なる実施形態において、本開示は、対象のDNAの長いストレッチを不確定なサイズのランダムな断片に断片化するステップと、高スループット配列決定法を使用して断片を配列決定して、複数の配列決定リードを生成するステップと、複数のコンティグを形成するように配列決定リードをアセンブルするステップとを含むショットガン配列決定法を使用することによって複数のコンティグを生成できることを提供する。
特定の実施形態において、本開示は、Hi-Cに基づく技法を使用して染色体、クロマチン又は再構成クロマチンの物理的レイアウトをプロービングすることにより、複数のリード対を生成できることを提供する。更なる実施形態において、Hi-Cに基づく技法は、染色体、クロマチン又は再構成クロマチンをホルムアルデヒドなどの固定剤で架橋して、DNA-タンパク質架橋を形成するステップと、1つ以上の制限酵素で架橋したDNA-タンパク質を切断して、粘着末端を含む複数のDNA-タンパク質複合体を生成するステップと、ビオチンなど1つ以上のマーカーを含有するヌクレオチドで粘着末端を埋めて、次に一緒にライゲーションする平滑末端を作り出すステップと、複数のDNA-タンパク質複合体を断片に断片化するステップと、1つ以上のマーカーを使用することによって断片を含有する接合部をプルダウンするステップと、高スループット配列決定法を使用して断片を含有する接合部を配列決定して、複数のリード対を生成するステップとを含む。更なる実施形態において、本明細書に開示する方法のための複数のリード対は、再構成クロマチンの物理的レイアウトをプロービングすることによって作製されるデータから生成される。
様々な実施形態において、本開示は、複数のリード対が、培養細胞又は一次組織から単離された染色体若しくはクロマチンの物理的レイアウトをプロービングすることによって決定できることを提供する。他の実施形態において、複数のリード対が、1つ以上の対象のサンプルから得られるネイキッドDNAを単離されたヒストンと複合体形成させることによって形成される再構成クロマチンの物理的レイアウトをプロービングすることによって決定できる。
他の実施形態において、本開示は、複数のリード対中にある1つ以上のヘテロ接合性の部位を同定するステップを含む、ハプロタイプフェージングを決定する方法を提供し、一対のヘテロ接合性部位を含むリード対を同定することによって、対立遺伝子のバリアントに対するフェージングデータを決定できる。
様々な実施形態において、本開示は、環境から微生物を収集する改変されたステップと、ホルムアルデヒドなどの固定剤を添加して、各微生物細胞内に架橋を形成する改変されたステップとを含む改変されたHi-Cに基づく方法を使用して、複数の微生物染色体の物理的レイアウトをプロービングすることにより複数のリード対を生成するステップを含み、異なるコンティグにマッピングされるリード対が、どのコンティグが同じ種由来であるかを示す、高スループットな細菌ゲノムアセンブリの方法を提供する。
いくつかの実施形態において、本開示は(a)複数のコンティグを生成するステップと、(b)染色体、クロマチン又は再構成クロマチンの物理的レイアウトをプロービングすることによって生成されるデータから複数のリード対を決定するステップと、(c)複数のコンティグに複数のリード対をマッピングするステップと、(d)リードマッピングデータを使用してコンティグの隣接行列を構築するステップと、(e)隣接行列を分析して、その順序及び/又はゲノムに対する方向を表す、コンティグを通る経路を決定するステップとを含むゲノムアセンブリの方法を提供する。
更なる実施形態において、本開示は、Hi-Cに基づく技法を使用して染色体、クロマチン又は再構成クロマチンの物理的レイアウトをプロービングすることによって複数のリード対を生成する方法を提供する。更なる実施形態において、Hi-Cに基づく技法は、(a)染色体、クロマチン又は再構成クロマチンを固定剤で架橋して、DNA-タンパク質架橋を形成するステップと、(b)1つ以上の制限酵素で架橋したDNA-タンパク質を切断して、粘着末端を含む複数のDNA-タンパク質複合体を生成するステップと、(c)1つ以上のマーカーを含有するヌクレオチドで粘着末端を埋めて、次に一緒にライゲーションされる平滑末端を作り出すステップと、(d)複数のDNA-タンパク質複合体を断片に剪断するステップと、(e)1つ以上のマーカーを使用することによって断片を含有する接合部をプルダウンするステップと、(f)高スループット配列決定法を使用して断片を含有する接合部を配列決定して、複数のリード対を生成するステップとを含む。
特定の実施形態において、複数のリード対が、培養細胞又は一次組織から単離された染色体若しくはクロマチンの物理的レイアウトをプロービングすることによって決定される。他の実施形態において、複数のリード対が、1つ以上の対象のサンプルから得られるネイキッドDNAを単離されたヒストンと複合体形成させることによって形成される再構成クロマチンの物理的レイアウトをプロービングすることによって決定される。
いくつかの実施形態において、コンティグの端までのリードの距離の写像を得ることにより少なくとも約50%、約60%、約70%、約80%、約90%、約95%若しくは約99%又はより多くの複数のリード対に重み付けして、長い接触よりも短い接触のより高い確率を組み込む。いくつかの実施形態において、隣接行列を再スケーリングして、ゲノムの無差別な領域を表すいくつかのコンティグ上の多くの接触の重みを軽減する。
特定の実施形態において、ゲノムの無差別な領域は、クロマチンのスキャフォールド相互作用を調節する1つ以上の薬剤に対する1つ以上の保存結合部位を含む。いくつかの例において、薬剤は転写リプレッサーCTCFである。
いくつかの実施形態において、本明細書に開示する方法は、ヒト対象のゲノムアセンブリを提供し、それにより複数のコンティグが、ヒト対象のDNAから生成され、それにより対象のネイキッドDNAから作られるヒト対象の染色体、クロマチン又は再構成クロマチンを分析することから複数のリード対が生成される。
他の実施形態において、本開示は、複数のリード対中にある1つ以上のヘテロ接合性の部位を同定するステップを含むハプロタイプフェージングを決定する方法を提供し、一対のヘテロ接合性部位を含むリード対を同定することによって、対立遺伝子のバリアントに対するフェージングデータを決定できる。
更に他の実施形態において、本開示は、メタゲノミクスアセンブリの方法を提供し、複数のリード対が、環境から微生物を収集するステップと、固定剤を添加して、各微生物細胞内に架橋を形成するステップとを含む改変されたHi-Cに基づく方法を使用して、複数の微生物染色体の物理的レイアウトをプロービングすることにより生成され、異なるコンティグにマッピングされるリード対が、どのコンティグが同じ種由来であるかを示す。いくつかの例において、固定剤はホルムアルデヒドである。
いくつかの実施形態において、本開示は、単一DNA分子から複数のリード対を生成するステップと、リード対を使用してコンティグをアセンブルするステップとを含む、単一DNA分子に由来する複数のコンティグをアセンブルする方法を提供し、少なくとも1%のリード対が、単一DNA分子上で50kBより長い距離に跨り、リード対は、14日以内に生成される。いくつかの実施形態において、少なくとも10%のリード対が、単一DNA分子上で50kBより長い距離に跨る。他の実施形態において、少なくとも1%のリード対が、単一DNA分子上で100kBより長い距離に跨る。更なる実施形態において、リード対は、7日以内に生成される。
他の実施形態において、本開示は、in vitroで単一DNA分子から複数のリード対を生成するステップと、リード対を使用してコンティグをアセンブルするステップとを含む、単一DNA分子に由来する複数のコンティグをアセンブルする方法を提供し、少なくとも1%のリード対が、単一DNA分子上で30kBより長い距離に跨る。いくつかの実施形態において、少なくとも10%のリード対が、単一DNA分子上で30kBより長い距離に跨る。他の実施形態において、少なくとも1%のリード対が、単一DNA分子上で50kBより長い距離に跨る。
更に他の実施形態において、本開示は、単一DNA分子から複数のリード対を生成するステップと、リード対を使用してDNA分子の複数のコンティグをアセンブルするステップとを含む、ハプロタイプフェージングの方法を提供し、少なくとも1%のリード対が、単一DNA分子上で50kBより長い距離に跨り、ハプロタイプフェージングは、70%を超える精度で実施される。いくつかの実施形態において、少なくとも10%のリード対が、単一DNA分子上で50kBより長い距離に跨る。他の実施形態において、少なくとも1%のリード対が、単一DNA分子上で100kBより長い距離に跨る。更なる実施形態において、ハプロタイプフェージングは、90%を超える精度で実施される。
更なる実施形態において、本開示は、in vitroで単一DNA分子から複数のリード対を生成するステップと、リード対を使用してDNA分子の複数のコンティグをアセンブルするステップとを含む、ハプロタイプフェージングの方法を提供し、少なくとも1%のリード対が、単一DNA分子上で30kBより長い距離に跨り、ハプロタイプフェージングは70%を超える精度で実施される。いくつかの実施形態において、少なくとも10%のリード対が、単一DNA分子上で30kBより長い距離に跨る。他の実施形態において、少なくとも1%のリード対が、単一DNA分子上で50kBより長い距離に跨る。更に他の実施形態において、ハプロタイプフェージングは、90%を超える精度で実施される。更なる実施形態において、ハプロタイプフェージングは、70%を超える精度で実施される。
いくつかの実施形態において、本開示は、(a)in vitroで第1のDNA分子を架橋するステップであって、第1のDNA分子が第1のDNAセグメント及び第2のDNAセグメントを含むステップと、(b)第1のDNAセグメントを第2のDNAセグメントと連結し、それによって連結されたDNAセグメントを形成するステップと、(c)連結DNAセグメントを配列決定し、それによって第1のリード対を得るステップとを含む、第1のDNA分子から第1のリード対を生成する方法を提供する。
いくつかの実施形態において、再構成クロマチン由来などの複数の会合分子は、第1のDNA分子に架橋されている。いくつかの例において、会合分子はアミノ酸を含む。更なる例において、会合分子はペプチド又はタンパク質である。特定の実施形態において、第1のDNA分子は、固定剤で架橋されている。いくつかの例において、固定剤はホルムアルデヒドである。いくつかの実施形態において、第1のDNAセグメント及び第2のDNAセグメントは、第1のDNA分子を切り離すことによって生成される。特定の実施形態において、本方法は、第1のリード対を使用して第1のDNA分子の複数のコンティグをアセンブルするステップを更に含む。いくつかの実施形態において、第1及び第2のDNAセグメントのそれぞれは、少なくとも1つの親和性標識に接続され、連結DNAセグメントは親和性標識を使用して捕捉される。
更なる実施形態において、本方法は(a)再構成クロマチン由来などの複数の会合分子を少なくとも第2のDNA分子に提供するステップと、(b)会合分子を第2のDNA分子に架橋し、それによりin vitroで第2の複合体を形成するステップと、(c)第2の複合体を切り離し、それにより第3のDNAセグメント及び第4のセグメントを生成するステップと、(d)第3のDNAセグメントを第4のDNAセグメントと連結し、それにより第2の連結DNAセグメントを形成するステップと、(e)第2の連結DNAセグメントを配列決定し、それにより第2のリード対を得るステップとを更に含む。いくつかの例において、DNA分子由来のDNAセグメントの40%未満が、他の任意のDNA分子由来のDNAセグメントと連結されている。更なる例において、DNA分子由来のDNAセグメントの20%未満が、他の任意のDNA分子由来のDNAセグメントと連結されている。
他の実施形態において、本開示は、(a)1つ以上のDNA結合分子を第1のDNA分子に提供し、1つ以上のDNA結合分子が既定の配列に結合するステップと、(b)in vitroで第1のDNA分子を架橋するステップであって、第1のDNA分子が第1のDNAセグメント及び第2のDNAセグメントを含むステップと、(c)第1のDNAセグメントを第2のDNAセグメントと連結し、それによって第1の連結DNAセグメントを形成するステップと、(d)第1の連結DNAセグメントを配列決定し、それによって第1のリード対を得るステップとを含む、既定の配列を含む第1のDNA分子から第1のリード対を生成する方法を提供し、既定の配列がリード対中に現れる確率が、既定の配列へのDNA結合分子の結合による影響を受ける方法。
いくつかの実施形態において、DNA結合分子は、既定の配列にハイブリダイズできる核酸である。いくつかの例において、核酸はRNAである。他の例において、核酸はDNAである。他の実施形態において、DNA結合分子は小分子である。いくつかの例において、小分子は100μM未満の結合親和性で、既定の配列に結合する。更なる例において、小分子は1μM未満の結合親和性で、既定の配列に結合する。更なる実施形態において、DNA結合分子は表面又は固体支持体に固定化されている。
いくつかの実施形態において、既定の配列がリード対中に現れる確率は低下する。他の実施形態において、既定の配列がリード対中に現れる確率は増加する。
更に他の実施形態において、本開示は、それぞれ少なくとも第1の配列エレメント及び第2の配列エレメントを含む複数のリード対を含むin vitroライブラリーを提供し、第1及び第2の配列エレメントは単一DNA分子に由来し、リード対の少なくとも1%は、単一DNA分子上で少なくとも50kB離れている第1及び第2の配列エレメントを含む。
いくつかの実施形態において、リード対の少なくとも10%は、単一DNA分子上で少なくとも50kB離れている第1及び第2の配列エレメントを含む。他の実施形態において、リード対の少なくとも1%は、単一DNA分子上で少なくとも100kB離れている第1及び第2の配列エレメントを含む。
更なる実施形態において、リード対の20%未満は、1つ以上の既定の配列を含む。更なる実施形態において、リード対の10%未満は、1つ以上の既定の配列を含む。更に他の実施形態において、リード対の5%未満は、1つ以上の既定の配列を含む。
いくつかの実施形態において、既定の配列は、既定の配列にハイブリダイズできる1つ以上の核酸によって決定される。いくつかの例において、1つ以上の核酸はRNAである。他の例において、1つ以上の核酸はDNAである。更なる例において、1つ以上の核酸は、表面又は固体支持体に固定化されている。
他の実施形態において、既定の配列は、1つ以上の小分子によって決定される。いくつかの例において、1つ以上の小分子が、100μM未満の結合親和性で既定の配列に結合する。更なる例において、1つ以上の小分子が、1μM未満の結合親和性で既定の配列に結合する。
いくつかの実施形態において、本開示は、DNA断片及び再構成クロマチン由来などの複数の会合分子を含む組成物を提供し、(a)会合分子は、in vitro複合体中のDNA断片に架橋されており、(b)in vitro複合体は、固体支持体に固定化されている。
他の実施形態において、本開示は、DNA断片、複数の会合分子及びDNA結合分子を含む組成物を提供し、(a)DNA結合分子は、DNA断片の既定の配列に結合しており、(b)会合分子は、DNA断片に架橋されている。
いくつかの実施形態において、DNA結合分子は、既定の配列にハイブリダイズできる核酸である。いくつかの例において、核酸はRNAである。他の例において、核酸はDNAである。更なる例において、核酸は、表面又は固体支持体に固定化されている。
他の実施形態において、DNA結合分子は小分子である。いくつかの例において、小分子は100μM未満の結合親和性で、既定の配列に結合する。他の例において、小分子は1μM未満の結合親和性で、既定の配列に結合する。
参照文献による組み込み
この明細書に記載の全ての刊行物、特許及び特許出願は、各個々の刊行物、特許又は特許出願は、参照により組み込まれるものと具体的且つ個別的に示されるのと同程度に、参照により本明細書に組み込まれる。この明細書に記載の全ての刊行物、特許及び特許出願は、その全体並びにその中に引用されるいずれの文献も参照により本明細書に組み込まれる。
本開示の新規な特徴は、添付の請求項に詳細に述べられる。本開示の特徴及び利点のより良い理解は、本開示の原則が利用される、例示的な実施形態を述べた以下の詳しい説明を参照することによって得られることになり、以下の図面を伴う。
高スループット配列決定リードを使用するゲノムアセンブリの図解を示す図である。アセンブルされるゲノムを示す(最上部)。一般に、ゲノムは、アセンブルが困難な多くの反復配列を有する。ゲノムからのランダムで高スループットな配列データを収集し(中央)、ゲノム中の固有の領域にある「コンティグ」へとアセンブルする(一番下)。コンティグアセンブリは、多くの反復配列で通常止まる。最終出力は、互いに対するその順序及び方向が未知である何千ものコンティグの組である。図において、それらは、最長から最短へと任意に番号をつけられる。 本開示のHi-Cに基づく手順を例示する図である。(A)DNAがどこで架橋され、加工されて、配列決定用のビオチン化接合部断片を作り出すかを実証する図である、(B〜D)様々な制限酵素に対するヒトchr14上の接触マップデータを提供する。示すように、大部分の接触は染色体に沿って限局する。 ゲノムアセンブリを支援するためにHi-C配列データを使用する本開示の方法を提供する。(A)Hi-Cに基づく手順を使用してDNAが架橋され、加工される場所について例示する図である、(B)リード対データが、ランダムなショットガン配列決定及びアセンブリから生成される、アセンブルされたコンティグにマッピングされる場所を実証する図である、(C)フィルタリング及び重み付けの後に、全てのコンティグ間リード対データを要約する隣接行列を構築できることを示す図である。この行列を再整列して、正しいアセンブリ経路を示すことができる。示されるように、大部分のリード対はコンティグ内にマッピングできる。そこから、接触距離の分布を知ることが可能になる(例えば、図6を参照のこと)。異なるコンティグにマッピングされるリード対は、正しいゲノムアセンブリにおいてコンティグが隣接していることについてのデータを提供する。 本開示の典型的な手順を例示する図である。DNA断片を、最初に生成し、調製し、その後にin vitroクロマチンアセンブリ及びビオチン化し、次いでクロマチン/DNA複合体を、ホルムアルデヒドで固定し、ストレプトアビジンビーズでプルダウンし、次いで複合体を制限消化して、粘着末端を生成し、次いでビオチン化dCTP及び内部を硫酸化GTPで埋め、平滑末端ライゲーションの後に、クロマチン/DNA複合体を、プロテイナーゼ消化、エキソヌクレアーゼ消化及び剪断し、その後に、DNA断片をビオチンでプルダウンし、配列決定アダプターとライゲーションし、最後に、DNA断片をサイズにより選択し、配列決定する。 ゲノム中の反復領域に由来する、ゲノムアセンブリ及び整列化において起こる曖昧性の図解を提供する。(A)連結における不確定性が、反復領域に橋渡しできないリード対に起因することを示す図である。(B)リード対が反復の境界を跨ぐことができないことによる、セグメントの配置の不確定性を示す図である。 ヒトXLRPライブラリーのリード対間のゲノム距離の分布を例示する図である。他の技術で実現可能な最大距離を、比較のために示す。 よく特徴付けられているハプロタイプであるNA12878を用いたサンプルに対するフェージング精度を例示する図である。示した距離は、フェージングされたSNP間のものである。 本開示の様々な実施形態による、典型的なコンピュータシステムの様々な構成要素を例示する図である。 本開示の様々な実施形態に関して使用することができる典型的なコンピュータシステムのアーキテクチャを例示するブロック図である。 本開示の様々な実施形態に関して使用することができる典型的なコンピュータネットワークを例示する線図である。 本開示の様々な実施形態に関して使用することができる別の典型的なコンピュータシステムのアーキテクチャを例示するブロック図である。
本明細書及び添付の特許請求の範囲に使用されるように、単数形、「a」、「and」及び「the」は、文脈に別段の明確な指図がない限り複数の指示対象を含む。したがって、例えば、「コンティグ」への言及は、そのようなコンティグの複数形を含み、「染色体の物理的レイアウトをプロービングする」への言及は、染色体の物理的レイアウトをプロービングするための1つ以上の方法及び当業者に公知のその同等物などへの言及を含む。
「and」の使用は、特に明記しない限り「and/or」も意味する。同様に、「comprise」、「comprises」、「comprising」、「include」、「includes」、及び「including」は、交換可能であり、制限されることを意図しない。
様々な実施形態の説明が、用語「comprising」を使用する場合、いくつかの具体的な例において、実施形態が、言い回し「consisting essentially of」又は「consisting of」を使用して代わりに記述できることを当業者が理解することは、更に理解されるべきである。
本明細書で使用される用語「配列決定リード」とは、配列が決定されたDNAの断片のことを指す。
本明細書で使用される用語「コンティグ」とは、DNA配列の連続した領域のことを指す。「コンティグ」は、重なり合っている配列に対して配列決定リードを比較し、及び/又は配列決定リードを公知の配列のデータベースに対して比較して、どの配列決定リードが連続している確率が高いかについて同定することによるなど、当技術分野において公知の多くの方法によって決定できる。
本明細書で使用される用語「対象」とは、任意の真核又は原核生物を指すことができる。
本明細書で使用される用語「ネイキッドDNA」とは、複合体形成したタンパク質を実質的に含まないDNAのことを指すことができる。例えば、それは、細胞核中に見出される内在性タンパク質の約50%、約40%、約30%、約20%、約10%、約5%、又は約1%未満と複合体形成したDNAのことを指すことができる。
本明細書で使用される用語「再構成クロマチン」とは、単離された核タンパク質をネイキッドDNAと複合体形成させることによって形成されるクロマチンを形成することを指すことができる。
本明細書で使用される用語「read pair(リード対)」又は「read-pair(リード対)」とは、連結されて、配列情報を与える2つ以上のエレメントのことを指すことができる。いくつかの場合において、リード対の数とは、マッピング可能なリード対の数のことを指すことができる。他の場合において、リード対の数とは、生成されたリード対の総数のことを指すことができる。
別段の規定がない限り、本明細書において使用される技術的及び科学的な用語の全ては、この開示が属する当業者にとって一般的に理解されるそれと同じ意味を有する。本明細書に記載される方法及び試薬と類似の又は同等の任意のそれらは、開示する方法及び組成物の実践に使用できるが、典型的な方法及び材料についてここで記述する。
本開示は、非常に長い範囲のリード対を生成し、そのデータを上述した仕事全ての向上に利用するための方法を提供する。いくつかの実施形態において、本開示は、約300万個のリード対だけで、高度に連続しており且つ正確なヒトゲノムアセンブリを作製する方法を提供する。他の実施形態において、本開示は、99%又はより高い精度でヒトゲノム中の90%又はより多くのヘテロ接合バリアントをフェージングする方法を提供する。更に、本開示によって生成されるリード対の範囲を拡張して、より広いゲノム距離に跨ることができる。アセンブリは、非常に長い範囲のリード対ライブラリーだけでなく標準的なショットガンライブラリーからも作製される。更に他の実施形態において、本開示は、これら両方の組の配列決定データを利用することが可能なソフトウェアを提供する。フェージングされたバリアントが、単一の長い範囲のリード対ライブラリーで作製され、それに由来するリードが参照ゲノムにマッピングされ、次いでそれを使用してバリアントを個体の両親の染色体の一方に割り当てる。最後に、本開示は、公知の技法を使用して更により大きなDNA断片を抽出して、非常に長いリードを生成することを提供する。
これらの反復がアセンブリ及び整列化の過程を遮る機序は、極めて直接的であり、結局は曖昧性の結果である(図5)。大きい反復領域の場合、その困難はスパンの1つである。リード又はリード対が、反復領域を跨ぐのに十分な長さでない場合、反復エレメントに接する領域を明確に接続することができない。より小さい反復エレメントの場合、問題は主に配置である。領域がゲノム中に良く見られる2つの反復エレメントに隣接する場合、隣接するエレメントの、そのクラスの他の全てとの類似性のため、その正確な配置を決定することは不可能でないとしても困難になる。両方の場合において、それは、特定の反復の同定、したがって配置を難しくする、反復における特徴的な情報の不足である。必要なことは、反復領域に囲まれた又はそれにより分離された固有のセグメントの間の接続を実験的に確立する能力である。
本開示の方法は、これらの反復領域によってもたらされる実質的な障壁を克服することによりゲノム研究の分野を大いに前進させ、それによりゲノム分析の多くのドメインにおける重要な前進を可能にすることができる。これまでの技術でde novoアセンブリを実行するには、多くの小さいスキャフォールドに断片化したアセンブリを受忍するか又は大量の時間と資源をかけて大きな挿入ライブラリーを作製する若しくは他の手法を使用してより連続したアセンブリを生成するかのいずれかでなければならない。そのような手法には、非常に深い配列決定カバレッジを獲得すること、BAC若しくはフォスミドライブラリーを構築すること、光学的マッピング、又は大概は、これらと他の技法とのいくつかの組合せがあり得る。厳しい資源及び時間要件により、そのような手法はほとんどの小さい研究室にとって手の届かないものであり、モデル生物以外の研究を妨げている。本明細書に記載される方法は非常に長い範囲のリード対を作製することができるので、de novoアセンブリを、1回の配列決定の実行で実現することができる。これによりアセンブリ経費が数桁下がり、必要な時間が数ヶ月又は数年から数週間まで短縮されることになる。いくつかの場合において、本明細書に開示する方法は、14日未満、13日未満、12日未満、11日未満、10日未満、9日未満、8日未満、7日未満、6日未満、5日未満、4日未満、又は前述の指定した時間の任意の2つの範囲で複数のリード対を生成することを可能にする。例えば、本方法は、約10日〜14日間で複数のリード対を生成することを可能にし得る。どんな生態学的地位のゲノムの組み立ても日常的になり、系統発生分析は比較対象の不足に苦しまなくなり、ゲノム10kなどのプロジェクトが現実化する可能性がある。
同様に、医学目的での構造及びフェージング分析の方法も、困難なままである。癌、同じ癌種の個体間、又は同じ腫瘍の中でさえ驚くほど不均一である。結果として生じる効果から原因を引き出すには、サンプル当たり低コストで非常に高い正確さ及びスループットを必要とする。個別化医療のドメインにおいて、ゲノム治療の究極の判断基準の1つは、大小の構造再編成及び新規な突然変異を含めた、完全に特徴付けられ、フェージングされた全バリアントを含む配列決定されたゲノムである。これまでの技術でこれを実現するには、de novoアセンブリに必要とされるそれと類似の取り組みが要求され、現在のところ日常的な医療にするにはあまりに高価で多くの時間と労力を要する。開示される方法は、少ない費用で完全且つ正確なゲノムを速やかに作製することができ、それによってヒト疾患の研究及び治療において高度に探究された可能性を多くもたらすことができる。
最後に、本明細書に開示する方法をフェージングに適用することにより、家族性分析法の精度と統計手法の利便性を組み合わせることができ、いずれかの方法を単独で使用するより、金、労力及びサンプルの節約を可能にする。これまでの技術では高額過ぎる非常に望ましいフェージング分析であるde novoバリアントフェージングは、本明細書に開示する方法を使用して容易に実行することができる。ヒト変形の圧倒的多数は稀れなので(5%未満のわずかな対立遺伝子頻度)、これは特に重要である。フェージング情報は、連鎖していない遺伝子型と比較して、高度に接続するハプロタイプのネットワーク(単一の染色体に割り当てられたバリアントの集合)から大きな利点を得る集団遺伝子研究に有益である。ハプロタイプ情報により、集団サイズ、移動及び部分母集団間の交換における歴史的変化のより高解像度の研究を可能にすることができ、特定のバリアントを個々の両親及び祖父母までさかのぼることが可能になる。単一個体中に一緒にある場合、これにより、疾患と関連付けられたバリアントの遺伝子伝達及びバリアント間の相互影響が次々に明らかになる。本開示の方法は、非常に長い範囲のリード対(XLRP)ライブラリーの調製、配列決定及び分析を最終的に可能にすることができる。
本開示のいくつかの実施形態において、対象から組織又はDNAサンプルを提供することができ、本方法は、アセンブルされたゲノム、コールしたバリアント(大きい構造のバリアントを含める)による整列化、フェージングしたバリアントコール、又は任意の追加の分析を返すことができる。他の実施形態において、本明細書に開示する方法は、個体に対してXLRPライブラリーを直接提供することができる。
本開示の様々な実施形態において、本明細書に開示する方法は、長い距離で隔てられた非常に長い範囲のリード対を生成することができる。この距離の上限は、大きいサイズのDNAサンプルを収集する能力によって改善することができる。いくつかの場合において、リード対は、最長で50、60、70、80、90、100、125、150、175、200、225、250、300、400、500、600、700、800、900、1000、1500、2000、2500、3000、4000、5000kbp又はより長いゲノム距離に跨ることができる。いくつかの例において、リード対は、最長500kbpのゲノム距離に跨ることができる。他の例において、リード対は、最長2000kbpのゲノム距離に跨ることができる。本明細書に開示する方法は、分子生物学における標準的な技法と融和し、その上に組み立てることができ、効率、特異性及びゲノムカバレッジの増大に更に良く適している。いくつかの場合において、リード対は、約1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、60又は90日未満で生成することができる。いくつかの例において、リード対は、約14日未満で生成することができる。更なる例において、リード対は、約10日未満で生成することができる。いくつかの場合において、本開示の方法は、複数のコンティグを正しく順序付け及び/又は方向付けするにあたって少なくとも約50%、約60%、約70%、約80%、約90%、約95%、約99%又は約100%の精度で、約5%、約10%、約15%、約20%、約30%、約40%、約50%、約60%、約70%、約80%、約90%、約95%、約99%又は約100%より多くのリード対を提供することができる。例えば、本方法は、複数のコンティグを正しく順序付け及び/又は方向付けするにあたって約90〜100%の精度を提供することができる。
他の実施形態において、本明細書に開示する方法は、現在利用されている配列決定技術と一緒に使用することができる。例えば、本方法は、よく試験され及び/又は広く配備された配列決定機器と組み合わせて使用することができる。更なる実施形態において、本明細書に開示する方法は、現在利用されている配列決定技術に由来する技術及び手法と一緒に使用することができる。
本開示の方法は、多様な生物についてde novoゲノムアセンブリを劇的に単純化する。これまでの技術を使用すると、そのようなアセンブリは、経済的なメイトペアライブラリーの短い挿入物によって現在のところ制限される。フォスミドで利用可能な40〜50kbpまでのゲノム距離でリード対を生成することはでき得るが、これらは高価で、扱いにくく、ヒトにおいて300kbp〜5Mbpのサイズである動原体内のそれを含めた最長の反復ストレッチに跨るには短過ぎる。本明細書に開示する方法は、長い距離(例えば、メガベース又はそれ以上)に跨ることが可能なリード対を提供することができ、それによってこれらのスキャフォールド完全性の課題を克服することができる。したがって、染色体レベルアセンブリを作製することは、本開示の方法を利用することによって日常的になり得る。現在のとこと研究所に途方もない時間と金をかけ、発展的なゲノムカタログを妨げている、より多くの時間と労力を要するアセンブリの手段は不要になり、より意味がある分析に資源を自由にすることができる。同様に、長い範囲のフェージング情報の獲得は、集団ゲノム、系統発生、及び疾患研究に多大な追加の力を提供することができる。本明細書に開示する方法は、多数の個体に対する正確なフェージングを可能にし、したがって、集団及び深い時間レベルでゲノムをプロービングする能力の広さと深さを拡張する。
個別化医療の分野において、本明細書に開示する方法から生成されるXLRPリード対は、正確で、低コストで、フェージングされ、速やかに作製される個人ゲノムに対して意味がある進歩を表す。現在の方法は、長距離でバリアントをフェージングする能力が不十分であり、それにより複雑なヘテロ接合遺伝子型の表現型の影響の特徴付けを妨げている。加えて、ゲノム疾患に関する実質的な対象となる構造バリアントは、それらを研究するのに使用されるリード及びリード対挿入物と比較して大きいサイズのため、現在の技法では正確に同定し、特徴付けることが困難である。数十キロベース〜メガベース又はより長くに跨るリード対は、この困難を軽減する助けになり得、それにより構造的変形の高度に並列で、個別化された分析が可能になる。
基本的な進化的及び生物医学的研究は、高スループット配列決定の技術的進歩によって駆動されている。全ゲノムの配列決定及びアセンブリが、大きなゲノム配列決定センターの起源になるよう使用されるのに対して、市販の配列決定装置は、大部分の研究大学がこれらの機械を1台又は数台持つには現在十分に安価である。大量のDNA配列データを生成することは、現在比較的安価である。しかしながら現在の技術では、高品質で高度に連続したゲノム配列を作製することは、理論的にも、実際にも困難なままである。更に、ヒトを含めて、分析したいと思う生物の大部分は二倍体なので、各個体はゲノムの2つの半数体コピーを有する。ヘテロ接合性の部位(例えば、母親により与えられる対立遺伝子が、父親により与えられる対立遺伝子と異なる)において、どちらの対立遺伝子の組が、どちらの親に由来するか(ハプロタイプフェージングとして公知である)を知ることは困難である。この情報を使用して、疾患及び形質関連研究など多くの進化的及び生物医学的研究を実施することができる。
様々な実施形態において、本開示は、DNA調製の技術を、所与のゲノム内の短、中、長期の接続を高スループットで発見するためのペアエンド配列決定と組み合わせるゲノムアセンブリの方法を提供する。本開示は、これらの接続を使用して、ハプロタイプフェージング及び/又はメタゲノム研究のためにゲノムアセンブリを支援する方法を更に提供する。本明細書に提示される方法を使用して、対象のゲノムのアセンブリを決定することができるが、本明細書に提示される方法を使用して、染色体など対象のゲノムの一部のアセンブリ、又は様々な長さの対象のクロマチンのアセンブリを決定できることも理解されるべきである。
いくつかの実施形態において、本開示は、対象から得た標的DNAの配列決定断片から複数のコンティグを生成するステップを含む本明細書に開示する1つ以上の方法を提供する。標的DNAの長いストレッチは、1つ以上の制限酵素でDNAを切断する、DNAを剪断する、又はその組合せによって断片化することができる。得られた断片を、高スループット配列決定法を使用して配列決定して、複数の配列決定リードを得ることができる。本開示の方法で使用できる高スループット配列決定法の例には、それだけには限らないが、Roche Diagnostics社によって開発された454パイロシークエンス法、Illumina社によって開発された「クラスタ」配列決定法、Life Technologies社によって開発されたSOLiD及びイオン半導体配列決定法、並びにComplete Genomics社によって開発されたDNAナノボール配列決定法がある。次いで異なる配列決定リードの重なり合う末端をアセンブルして、コンティグを形成することができる。別法として、断片化した標的DNAを、ベクターにクローニングすることができる。次いでDNAベクターで細胞又は生物をトランスフェクトして、ライブラリーを形成する。トランスフェクトした細胞又は生物を複製した後に、ベクターを単離し、配列決定して、複数の配列決定リードを生成する。次いで異なる配列決定リードの重なり合う末端をアセンブルして、コンティグを形成することができる。
図1で示すように、ゲノムアセンブリは、高スループット配列決定技術で特に、問題を含み得る。しばしば、アセンブリは数千又は数万もの短いコンティグからなる。これらコンティグの順序及び方向は通常未知であり、ゲノムアセンブリの有用性を制限している。これらのスキャフォールドを順序付け、方向付けるための技術が存在するが、それらは通常、高価であり、労力を要し、しばしば非常に長い範囲の相互作用の発見に失敗する。
コンティグを生成するために使用される標的DNAを含むサンプルは、体液(例えば、血液、尿、血清、リンパ、唾液、肛門及び膣の分泌物、汗並びに精液)を採取すること、組織を採取すること又は細胞/生物を収集することを含めた多くの手段によって対象から得ることができる。得られたサンプルは、単一型の細胞/生物から構成されてもよく、又は複数の型の細胞/生物から構成されてもよい。DNAを、対象のサンプルから抽出し、調製することができる。例えば、公知の溶解緩衝液、超音波処理技法、エレクトロポレーションなどを使用してサンプルを処理して、ポリヌクレオチドを含む細胞を溶解させることができる。アルコール抽出、セシウム勾配及び/又はカラムクロマトグラフィーを使用することによって標的DNAを更に精製して、タンパク質などの夾雑物を除去することができる。
本開示の他の実施形態において、極めて高分子量のDNAを抽出する方法が提供される。いくつかの場合において、XLRPライブラリーからのデータは、入力DNAの断片サイズを増加させることによって改善することができる。いくつかの例において、細胞からメガベースサイズのDNA断片を抽出することにより、ゲノム中で数メガベース隔てられたリード対を作製することができる。いくつかの場合において、作製されたリード対は、約10kB、約50kB、約100kB、約200kB、約500kB、約1Mb、約2Mb、約5Mb、約10Mb又は約100Mbを超える範囲にわたる配列情報を提供することができる。いくつかの例において、リード対は、約500kBを超える範囲にわたる配列情報を提供することができる。更なる例において、リード対は、約2Mbを超える範囲にわたる配列情報を提供することができる。いくつかの場合において、極めて高分子量のDNAは、非常に穏やかな細胞溶解(Teague,B.ら、(2010)Proc. Nat. Acad. Sci. USA 107(24)、10848〜53頁)及びアガロースプラグ(Schwartz,D. C.及びCantor,C. R. (1984) Cell、37(1)、67〜75頁)によって抽出することができる。他の場合において、長さメガベースまでのDNA分子を精製できる市販の機械を使用して、極めて高分子量のDNAを抽出することができる。
様々な実施形態において、本開示は、生細胞内の染色体の物理的レイアウトをプロービングするステップを含む本明細書に開示する1つ以上の方法を提供する。配列決定よって染色体の物理的レイアウトをプロービングする技法の例には、染色体高次構造捕捉(「3C」)、環状染色体高次構造捕捉(「4C」)、カーボンコピー染色体捕捉(carbon-copy chromosome capture)(「5C」)及びHi-Cに基づく方法など「C」系技法、並びにChIP-ループ、ChIP-PETなどChIPに基づく方法がある。これらの技法は、核内の空間的関係を固めるために生細胞におけるクロマチンの固定を利用する。その後に産物を処理及び配列決定することにより、研究者は、ゲノム領域の中で最も近い会合の基質を回復することができる。更なる分析により、これらの会合を使用して、生きている核内でそれらが物理的に配列されている通りに染色体の三次元幾何学的地図を作製することができる。そのような技法は、生細胞における染色体の別々の空間的組織化について記述しており、染色体座の中の機能的な相互作用の正確な考察を提供する。これらの機能性研究を悩ました問題の1つは、染色体の近接に起因するに過ぎないデータ中に存在する会合である非特異的な相互作用の存在であった。本開示において、本明細書に提示される方法によってこれらの非特異的な染色体内相互作用が捕捉されて、アセンブリに有益な情報が提供される。
いくつかの実施形態において、染色体内相互作用は、染色体接続性と相関する。いくつかの場合において、染色体内データは、ゲノムアセンブリを補助することができる。いくつかの場合において、クロマチンはin vitroで再構築される。クロマチン、特にクロマチンの主要なタンパク質構成要素であるヒストンは、配列決定によってクロマチン高次構造及び構造を検出するために最も一般的な「C」系技法:3C、4C、5C及びHi-Cの下で固定に重要なので、これは有利になり得る。クロマチンは、配列の観点で非常に非特異的であり、通常ゲノムの全体で均一にアセンブルすることになる。いくつかの場合において、クロマチンを使用しない種のゲノムは、再構築クロマチンでアセンブルすることができ、それにより本開示の範囲を生物の全てのドメインに拡張することができる。
クロマチン高次構造捕捉技法について、図2に要約する。要するに、物理的に近接近しているゲノム領域間で架橋が作り出される。クロマチン内におけるタンパク質(ヒストンなど)とDNA分子、例えばゲノムDNAとの架橋は、本明細書の他の場所で更に詳細に記述される適切な方法又は当技術分野において公知の別の方法により達成することができる。いくつかの場合において、2つ以上のヌクレオチド配列は、1つ以上のヌクレオチド配列に結合しているタンパク質を介して架橋することができる。1つの手法は、紫外線照射にクロマチンを露出させることである(Gilmourら、Proc. Nat'l. Acad. Sci. USA、81:4275〜4279頁、1984年)。ポリヌクレオチドセグメントの架橋は、化学的又は物理的な(例えば光学的)架橋など、他の手法を利用して実施することもできる。適切な化学的架橋剤には、それだけには限らないが、ホルムアルデヒド及びソラレンがある(Solomonら、Proc. NatL. Acad. Sci. USA、82:6470〜6474頁、1985年、Solomonら、Cell、53:937〜947頁、1988年)。例えば、架橋は、DNA分子及びクロマチンタンパク質を含む混合物に2%ホルムアルデヒドを添加することによって実施することができる。DNAを架橋するのに使用できる薬剤の他の例には、それだけには限らないが、紫外線、マイトマイシンC、窒素マスタード、メルファラン、1,3-ブタジエンジエポキシド、cisジアミンジクロロ白金(II)及びシクロホスファミドがある。最適には、架橋剤は、約2Åなど比較的短い距離を橋渡しする架橋を形成することになり、それにより可逆的である密接な相互作用を選択する。
いくつかの実施形態において、DNA分子は、架橋の前又は後に免疫沈降することができる。いくつかの場合において、DNA分子は断片化することができる。断片は、アセチル化ヒストン、例えばH3を特異的に認識し、それに結合する抗体などの結合相手と接触させることができる。そのような抗体の例には、それだけには限らないが、抗アセチル化ヒストンH3があり、Upstate Biotechnology社、Lake Placid、N.Y.から入手可能である。免疫沈降からのポリヌクレオチドは、その後免疫沈降から収集することができる。クロマチンを断片化する前に、アセチル化ヒストンを、隣接するポリヌクレオチド配列に架橋することができる。次いでその混合物を処理して、混合物中のポリヌクレオチドを分画する。分割技法は、当技術分野において公知であり、例えばより小さいゲノム断片を生成するための剪断技法を含む。断片化は、例えば、超音波処理、剪断及び/又は制限酵素の使用を含めたクロマチンを断片化するために確立された方法を使用して達成できる。制限酵素は、1、2、3、4、5又は6塩基長の制限部位を有することができる。制限酵素の例には、それだけには限らないがAatII、Acc65I、AccI、AciI、AclI、AcuI、AfeI、AflII、AflIII、AgeI、AhdI、AleI、AluI、AlwI、AlwNI、ApaI、ApaLI、ApeKI、ApoI、AscI、AseI、AsiSI、AvaI、AvaII、AvrII、BaeGI、BaeI、BamHI、BanI、BanII、BbsI、BbvCI、BbvI、BccI、BceAI、BcgI、BciVI、BclI、BfaI、BfuAI、BfuCI、BglI、BglII、BlpI、BmgBI、BmrI、BmtI、BpmI、Bpul0I、BpuEI、BsaAI、BsaBI、BsaHI、BsaI、BsaJI、BsaWI、BsaXI、BscRI、BscYI、BsgI、BsiEI、BsiHKAI、BsiWI、BslI、BsmAI、BsmBI、BsmFI、BsmI、BsoBI、Bsp1286I、BspCNI、BspDI、BspEI、BspHI、BspMI、BspQI、BsrBI、BsrDI、BsrFI、BsrGI、BsrI、BssHII、BssKI、BssSI、BstAPI、BstBI、BstEII、BstNI、BstUI、BstXI、BstYI、BstZ17I、Bsu36I、BtgI、BtgZI、BtsCI、BtsI、Cac8I、ClaI、CspCI、CviAII、CviKI-1、CviQI、DdcI、DpnI、DpnII、DraI、DraIII、DrdI、EacI、EagI、EarI、EciI、Eco53kI、EcoNI、EcoO109I、EcoP15I、EcoRI、EcoRV、FatI、FauI、Fnu4HI、FokI、FseI、FspI、HaeII、HaeIII、HgaI、HhaI、HincII、HindIII、HinfI、HinPlI、HpaI、HpaII、HphI、Hpy166II、Hpy188I、Hpy188III、Hpy99I、HpyAV、HpyCH4III、HpyCH4IV、HpyCH4V、KasI、KpnI、MboI、MboII、MfeI、MluI、MlyI、MmeI、MnlI、MscI、MseI、MslI、MspAlI、MspI、MwoI、NaeI、NarI、Nb.BbvCI、Nb.BsmI、Nb.BsrDI、Nb.BtsI、NciI、NcoI、NdeI、NgoMIV、NheI、NlaIII、NlaIV、NmeAIII、NotI、NruI、NsiI、NspI、Nt.AlwI、Nt.BbvCI、Nt.BsmAI、Nt.BspQI、Nt.BstNBI、Nt.CviPII、PacI、PaeR7I、PciI、PflFI、PflMI、PhoI、PleI、PmeI、PmlI、PpuMI、PshAI、PsiI、PspGI、PspOMI、PspXI、PstI、PvuI、PvuII、RsaI、RsrII、SacI、SacII、SalI、SapI、Sau3AI、Sau96I、SbfI、ScaI、ScrFI、SexAI、SfaNI、SfcI、SfiI、SfoI、SgrAI、SmaI、SmlI、SnaBI、SpeI、SphI、SspI、StuI、StyD4I、StyI、SwaI、T、TaqαI、TfiI、TliI、TseI、Tsp45I、Tsp509I、TspMI、TspRI、Tth111I、XbaI、XcmI、XhoI、XmaI、XmnI、及びZraIがある。得られる断片は、サイズが異なり得る。得られる断片は、5'又は3'末端に一本鎖突出を含むこともできる。
いくつかの実施形態において、超音波処理技法を使用して、約100〜5000ヌクレオチドの断片を得ることができる。別法として、約100〜1000、約150〜1000、約150〜500、約200〜500、又は約200〜400ヌクレオチドの断片を得ることができる。サンプルは、架橋している結合配列セグメントの配列決定用として調製することができる。いくつかの場合において、例えば分子内架橋された2つの配列セグメントをライゲーションすることによりポリヌクレオチドの単一の短いストレッチを作り出すことができる。配列情報は、高スループット配列決定法など、本明細書の他の場所で更に詳細に記述される任意の適切な配列決定技法又は当技術分野において公知の別の技法を使用してサンプルから得ることができる。例えば、ライゲーション産物をペアエンド配列決定に供して、断片の各末端から配列情報を得ることができる。配列セグメントの対は、得られた配列情報で表すことができ、ポリヌクレオチドに沿って2つの配列セグメントを隔てている直線距離を超えてハロタイプ判定情報を関連付ける。
Hi-Cによって生成されるデータの特徴の1つは、ゲノムへマッピングした際に、大部分のリード対が線形に近接近していることが判明するということである。即ち、大部分のリード対が、ゲノム中で互いに近くにあることが判明する。得られたデータセットにおいて、染色体が別個のテリトリーを占有する場合に期待される通り、染色体内接触の確率は、平均して染色体間接触のそれより非常に高い。更に、相互作用の確率は、直線距離に伴い速やかに低下するが、同じ染色体上で>200Mb隔てられている座でさえ異なる染色体上の座より相互作用する可能性が高い。長い範囲の染色体内及び特に染色体間接触の検出において、この短及び中範囲の染色体内接触の「バックグラウンド」は、Hi-C分析を使用して差し引くべきバックグラウンドノイズである。
特に、真核生物におけるHi-C実験は、種特異的及び細胞型特異クロマチン相互作用に加えて、2つの標準的な相互作用パターンを示した。1つ目のパターンである距離依存的な低下(DDD)は、ゲノム距離の関数として相互作用頻度における低下の一般的な傾向である。2つ目のパターンであるシス-トランス比率(CTR)は、数十メガベースの配列によっても隔てられている場合でも、異なる染色体上の座に対してより同じ染色体上に位置する座の間で著しく高い相互作用頻度である。これらのパターンは、一般的なポリマー力学を反映する可能性があり、近位座は、ランダムに相互作用する確率が高く、またほとんど混じり合わずに核内で別個の体積を占有する傾向がある間期染色体の現象である染色体テリトリーの形成など特定の核組織化の特徴を有する。これらの2つのパターンの正確な詳細は、種、細胞型及び細胞の状態間で変化し得るが、それらは遍在しており、顕著である。これらのパターンは非常に強力で、一貫性があり、それらを使用して実験品質を判定し、通常はデータから標準化して詳細な相互作用を明らかにする。しかしながら、本明細書に開示する方法において、ゲノムアセンブリはゲノムの三次元構造を利用することができる。標準的なHi-C相互作用パターンに特定のループ相互作用の分析に対する障害を起こす特徴、即ちそれらの遍在性、強力さ及び一貫性は、コンティグのゲノム位置を推定するための強力なツールとして使用できる。
具体的実施において、染色体内リード対間の物理的な距離の検討から、ゲノムアセンブリに関するデータのいくつかの有用な特徴が示される。第1に、短い範囲の相互作用は、長い範囲の相互作用より一般的である(例えば、図6を参照のこと)。即ち、リード対の各リードは、実際のゲノムにおいて遠く離れている領域とよりも、すぐ近くにある領域と組になる可能性が高い。第2には、中間及び長い範囲の相互作用のロングテールがある。即ち、リード対は、キロベース(kB)又は更にメガベース距離(Mb)で染色体内編成についての情報を保有している。例えば、リード対は、約10kB、約50kB、約100kB、約200kB、約500kB、約1Mb、約2Mb、約5Mb、約10Mb又は約100Mbを超える範囲にわたる配列情報を提供することができる。データのこれら特徴は、同じ染色体上で近くにあるゲノムの領域が、物理的に近接近している可能性が高いことを単純に示しており、それら領域はDNA骨格によって互いに化学的に連結されているので期待された通りの結果である。Hi-Cによって生成されるデータセットなどゲノム全体のクロマチン相互作用のそれは、染色体全体に沿って配列のグループ化及び直線的組織化についての長い範囲の情報を提供することができると推察された。
Hi-Cの実験的方法は、直接的であり、比較的低コストであるが、現在の手順は、ゲノムアセンブリ及びハロタイプ判定のために106〜108個の細胞、特に特定のヒト患者サンプルから得ることが不可能な極めて多量の材料を必要とする。対照的に、本明細書に開示する方法は、著しく少ない細胞由来材料で遺伝子型アセンブリ、ハプロタイプフェージング及びメタゲノミクスの正確且つ予測的な結果をもたらす方法を含む。例えば、約0.1μg、約0.2μg、約0.3μg、約0.4μg、約0.5μg、約0.6μg、約0.7μg、約0.8μg、約0.9μg、約1.0μg、約1.2μg、約1.4μg、約1.6μg、約1.8μg、約2.0μg、約2.5μg、約3.0μg、約3.5μg、約4.0μg、約4.5μg、約5.0μg、約6.0μg、約7.0μg、約8.0μg、約9.0μg、約10μg、約15μg、約20μg、約30μg、約40μg、約50μg、約60μg、約70μg、約80μg、約90μg、約100μg、約150μg、約200μg、約300μg、約400μg、約500μg、約600μg、約700μg、約800μg、約900μg、又は約1000μg未満のDNAを、本明細書に開示する方法で使用することができる。いくつかの例において、本明細書に開示する方法において使用されるDNAは、約1,000,000、約500,000、約100,000、約50,000、約10,000、約5,000、約1,000、約5,000、又は約1,000、約500、又は約100個未満の細胞から抽出することができる。
一般に、Hi-Cに基づく技法など染色体の物理的レイアウトをプロービングする手順は、培養細胞又は一次組織から単離されたクロマチンなど、細胞/生物内で形成されるクロマチンを利用する。本開示は、細胞/生物から単離されるクロマチンだけでなく再構成クロマチンでのそのような技法の使用も提供する。再構成クロマチンは、様々な特徴について細胞/生物内で形成されるクロマチンと区別される。第1に、多くのサンプルの場合、ネイキッドDNAサンプルの収集は、体液を収集する、口腔又は直腸部位を綿棒でふき取る、上皮サンプルを採取する等などによる非侵襲的から侵襲的な様々な方法を使用することにより実現できる。第2に、クロマチンの再構成は、ゲノムアセンブリ並びにハプロタイプフェージングに対する人工産物を生成する染色体間及び他の長い範囲の相互作用の形成を実質的に妨げる。いくつかの場合において、本開示の方法及び組成物に従って、サンプルは、約20、15、12、11、10、9、8、7、6、5、4、3、2、1、0.5、0.4、0.3、0.2、0.1%未満若しくはより少ない染色体間又は分子間架橋を有することができる。いくつかの例において、サンプルは約5%未満の染色体間又は分子間架橋を有することができる。いくつかの例において、サンプルは約3%未満の染色体間又は分子間架橋を有することができる。更なる例において、約1%未満の染色体間又は分子間架橋を有することができる。第3に、架橋能力がある部位の頻度、したがってポリヌクレオチド内の分子内架橋の頻度は調整することができる。例えば、ヌクレオソーム密度を所望の値に調整できるように、ヒストンに対するDNAの比を変化させることができる。いくつかの場合において、ヌクレオソーム密度は、生理的レベル以下に減少する。したがって、架橋の分布は、より長い範囲の相互作用に有利に働くように改変することができる。いくつかの実施形態において、様々な架橋密度を持つサブサンプルを調製して、長短両方の範囲の会合を網羅することができる。例えば、架橋条件は、少なくとも約1%、約2%、約3%、約4%、約5%、約6%、約7%、約8%、約9%、約10%、約11%、約12%、約13%、約14%、約15%、約16%、約17%、約18%、約19%、約20%、約25%、約30%、約40%、約45%、約50%、約60%、約70%、約80%、約90%、約95%又は約100%の架橋が、サンプルDNA分子上で少なくとも約50kb、約60kb、約70kb、約80kb、約90kb、約100kb、約110kb、約120kb、約130kb、約140kb、約150kb、約160kb、約180kb、約200kb、約250kb、約300kb、約350kb、約400kb、約450kb又は約500kb離れているDNAセグメント間に起こるように調整することができる。
様々な実施形態において、本開示は、複数のコンティグに複数のリード対をマッピングすることを可能にする様々な方法を提供する。リードをコンティグ配列にマッピングするための一般公開されているコンピュータプログラムがいくつかある。これらのリードマッピングプログラムデータも、ゲノム内で特定のリードマッピングがどれ程固有かについて記述するデータを提供する。コンティグ内で高い信頼度で独自にマッピングされるリードの集団から、各リード対においてリード間の距離の分布を推測することができる。これらは図6に示されるデータである。リードが異なるコンティグに明確にマッピングされるリード対の場合、このマッピングデータは、問題の2つのコンティグ間の接続を意味する。それは、上記の分析からわかる距離の分布に比例する2つのコンティグ間の距離も意味する。したがって、リードが異なるコンティグにマッピングされる各リード対は、正しいアセンブリにおけるそれらの2つのコンティグ間の接続を意味する。そのようなマッピングされたリード対全てから推測される接続は、隣接行列に要約することができ、各コンティグは、行及び列の両方で表される。コンティグを接続するリード対は、リード対中でリードをマッピングしたコンティグを示す対応する行及び列においてゼロ以外の値として記される。大部分のリード対は、コンティグ内にマッピングでき、そこからリード対間の距離の分布を知ることができ、そこから異なるコンティグにマッピングされるリード対を使用してコンティグの隣接行列を構築できる。
様々な実施形態において、本開示は、リード対データからのリードマッピングデータを使用してコンティグの隣接行列を構築するステップを含む方法を提供する。いくつかの実施形態において、隣接行列は、長い範囲の相互作用よりも短い範囲の相互作用の傾向を組み込むリード対に対する重み付けスキームを使用する(例えば、図3を参照のこと)。より短い距離に跨っているリード対は、より長い距離に跨るリード対より通常一般的である。特定の距離の確率について記述している写像は、この分布を知るために単一コンティグにマッピングされるリード対データを使用して合わせることができる。したがって、異なるコンティグにマッピングされるリード対の重要な特徴の1つは、それらがマッピングされるコンティグ上の位置である。両方ともコンティグの一方の末端近くにマッピングされたリード対の場合、これらコンティグ間の推測される距離は短くなり得、したがって接合されたリード間の距離は小さい。リード対間の距離は、長いより短い方が一般的なので、この構成は、リードがコンティグ端から遠く離れてマッピングされているというよりもこれら2つのコンティグが隣接していることのより強い証拠を提供する。したがって、隣接行列における接続は、コンティグの端までのリードの距離によって更に重み付けされる。更なる実施形態において、隣接行列を更に再スケーリングして、ゲノムの無差別な領域を表すいくつかのコンティグ上の多くの接触の重みを軽減することができる。リードマッピングの割合が高いことにより特定可能なゲノムのこれらの領域は、推測的に、アセンブリに誤った情報を与える可能性がある偽のリードマッピングを含有する可能性が高い。更に他の実施形態において、このスケーリングは、転写リプレッサーCTCF、内分泌受容体、コヒーシン又は共有結合的に修飾されたヒストンなど、クロマチンのスキャフォールド相互作用を調節する1つ以上の薬剤に対する1つ以上の保存結合部位を検索することによって、導くことができる。
いくつかの実施形態において、本開示は、隣接行列を分析して、その順序及び/又はゲノムに対する方向を表す、コンティグを通る経路を決定するステップを含む本明細書に開示する1つ以上の方法を提供する。他の実施形態において、コンティグを通る経路を選択することができ、それにより各コンティグは正確に1回呼び出される。更なる実施形態において、コンティグを通る経路を選択し、それにより隣接行列を通る経路は呼び出される枝重みの合計を最大化する。このようにして、最も確実性が高いコンティグ接続が、正しいアセンブリに提案される。更に他の実施形態において、コンティグを通る経路を選択することができ、それにより各コンティグは正確に1回呼び出され、隣接行列の枝重み付けは最大化される。
二倍体ゲノムにおいて、どちらの対立遺伝子のバリアントが同じ染色体上で連結しているかについて知ることはしばしば重要である。これは、ハプロタイプフェージングとして公知である。高スループット配列データの短いリードにより、どちらの対立遺伝子のバリアントが連結されているかについて稀に直接観察できる。ハプロタイプフェージングの計算による推測は、長距離では信頼できなくなることがある。本開示は、リード対上の対立遺伝子のバリアントを使用してどちらの対立遺伝子のバリアントが連結しているか決定することを可能にする1つ以上の方法を提供する。
様々な実施形態において、本開示の方法及び組成物は、複数の対立遺伝子のバリアントに関して二倍体又は倍数体ゲノムのハプロタイプフェージングを可能にする。したがって本明細書に記載される方法は、連結している対立遺伝子のバリアントの決定が、リード対及び/又は同じリード対を使用してアセンブルしたコンティグのバリアント情報に基づいて連結されることを提供することができる。対立遺伝子のバリアントの例としては、それだけには限らないが、1000ゲノム、UK10K、HapMap及びヒトの間の遺伝的変異を発見するための他のプロジェクトから公知であるものを含む。実証した通り、特定の遺伝子に対する疾患関連性はハプロタイプフェージングデータを有することによって、例えば、シャルコーマリートゥースニューロパチーをもたらすSH3TC2の両方のコピーにある連結していない不活性化突然変異(Lupski JR、Reid JG、Gonzaga-Jauregui Cら、N. Engl. J. Med. 362:1181〜91頁、2010年)及び高コレステロール血症9をもたらすABCG5の両方のコピーにある連結していない不活性化突然変異(Rios J、Stein E、Shendure Jら、Hum. Mol. Genet. 19:4313〜18頁、2010年)の発見によってより容易に明らかにできる。
ヒトは、平均して1,000に1つの部位でヘテロ接合性である。いくつかの場合において、高スループット配列決定法を使用する単一レーンのデータは、少なくとも約150,000,000個のリード対を生成することができる。リード対は、長さ約100塩基対であり得る。これらのパラメータから、ヒトサンプルからの全リードの1/10が、ヘテロ接合性部位を網羅すると推定される。したがって、平均でヒトサンプルからの全リード対の1/100が、一対のヘテロ接合性部位を網羅すると推定される。したがって、単一レーンを使用して約1,500,000個のリード対(150,000,000の1/100)が、フェージングデータを提供する。ヒトゲノムにおけるおよそ3,000,000,000塩基、及び1,000塩基に1つがヘテロ接合性であるとすると、平均な的ヒトゲノムにおいておよそ3,000,000個のヘテロ接合性部位がある。一対のヘテロ接合性部位を表す約1,500,000個のリード対について、高スループット配列法の単一レーンを使用してフェージングしようとする各ヘテロ接合性部位の平均カバレッジは、代表的な高スループット配列決定機を使用して、約(1×)である。したがって、二倍体ヒトゲノムは、本明細書に開示する方法を使用して調製されるサンプルからの配列バリアントと関連する、1レーンの高スループット配列データにより確実且つ完全にフェージングすることができる。いくつかの例において、1レーンのデータは、1組のDNA配列リードデータであり得る。更なる例において、1レーンのデータは、高スループット配列決定機器の1回の実行からの1組のDNA配列リードデータであり得る。
ヒトゲノムは、相同な2組の染色体からなるので、個体の真の遺伝子構造を理解するには、母方及び父方のコピー又は遺伝物質のハプロタイプの概要説明が必要になる。個体のハプロタイプを得ることは、いくつかの方法で有用である。第1に、ハプロタイプは、臓器移植におけるドナー宿主適合の転帰の予測において臨床的に有用であり、疾患関連性を検出する手段として益々使用される。第2に、複雑なヘテロ接合性を示す遺伝子において、ハプロタイプは、2つの有害なバリアントが同じ対立遺伝子上に位置するかどうかに関する情報を提供し、これらのバリアントの遺伝が有害かどうかの予測に大きな影響を及ぼす。第3に、個体グループのハプロタイプは、集団構造及び人類の進化的な歴史に関する情報を提供してきた。最後に、最近記載された、遺伝子発現における広範囲に及ぶ対立遺伝子の不均衡は、対立遺伝子間の遺伝的又は後成的な差異が発現における量的差異の一因となり得ることを示唆している。ハプロタイプ構造の理解により、対立遺伝子の不均衡の一因となるバリアントの機序が詳細に説明されることになる。
特定の実施形態において、本明細書に開示する方法は、長い範囲の連結及びフェージングの必要に応じて、ゲノムの離れた領域の間で会合を固定し、捕捉するためのin vitro技法を含む。いくつかの場合において、本方法は、XLRPライブラリーを構築し、配列決定してゲノム的に非常に離れたリード対を供給すること含む。いくつかの場合において、相互作用は主に、単一DNA断片内のランダムな会合から起こる。いくつかの例において、DNA分子内で互いに近いセグメントはより頻繁に、より高い確率で相互作用するが、分子の離れた部分間の相互作用はより頻度が低くなるので、セグメント間のゲノム距離を推測することができる。したがって、2つの座を接続している対の数と入力DNA上での近接の間に系統的関係がある。図2に実証するように、本開示は、抽出における最大のDNA断片に跨ることができるリード対を作製することができる。このライブラリーに対する入力DNAは、150kbpの最大長を有し、その長さは配列決定データから観察される意味があるリード対の最長である。これは、本方法が、より大きな入力DNA断片が得られた場合に、ゲノム的に更に離れた座を連結できることを示唆している。本方法によって作製されたデータの型を扱うように特に適合させた改善されたアセンブリソフトウェアツールを適用することにより、完全なゲノムアセンブリが可能になり得る。
本開示の方法及び組成物を使用して作製されるデータによって、極めて高いフェージング精度を実現することができる。これまでの方法と比較して、本明細書に記載される方法は、より高い割合のバリアントをフェージングすることができる。フェージングは、高レベルの精度を維持しながら、実現することができる。このフェーズ情報は、より長い範囲、例えば約200kbp、約300kbp、約400kbp、約500kbp、約600kbp、約700kbp、約800kbp、約900kbp、約1Mbp、約2Mbp、約3Mbp、約4Mbp、約5Mbp、又は約10Mbpより長く拡張することができる。いくつかの実施形態において、ヒトサンプルのヘテロ接合性SNPの90%より多くは、約250,000,000個未満のリード又はリード対を使用して、例えばIllumina HiSeqの1レーンだけのデータを使用することにより99%より高い精度でフェージングすることができる。他の場合において、ヒトサンプルのヘテロ接合性SNPの約40%、50%、60%、70%、80%、90%、95%又は99%より多くは、約250,000,000又は約500,000,000個未満のリード若しくはリード対を使用して、例えばIllumina HiSeqの1又は2レーンだけのデータを使用することにより約70%、80%、90%、95%又は99%より高い精度でフェージングすることができる。例えば、ヒトサンプルのヘテロ接合性SNPの95%又は99%より多くは、約250,000,000又は約500,000,000個未満のリードを使用して、約95%又は99%より高い精度でフェージングすることができる。更なる場合において、リード長を約200bp、250bp、300bp、350bp、400bp、450bp、500bp、600bp、800bp、1000bp、1500bp、2kbp、3kbp、4kbp、5kbp、10kbp、20kbp、50kbp又は100kbpに増大することによって、更なるバリアントを捕捉することができる。
本開示の他の実施形態において、XLRPライブラリーからのデータを使用して、長い範囲のリード対のフェージング能力を確認することができる。図6に示すように、それらの結果の精度は、これまで利用可能だった最善の技術と同程度であるが、著しく長い距離にまで更に拡張されている。特定の配列決定法のための現在のサンプル調製手順は、フェージングのために標的した制限部位のリード長内、例えば150bpに位置するバリアントを認識する。一例において、アセンブリの基準サンプルであるNA12878に対して組み立てたXLRPライブラリーから、存在する1,703,909個のヘテロ接合性SNPの44%が、99%より高い精度でフェージングされた。いくつかの場合において、この割合は、賢明な制限酵素の選択又は異なる酵素の組合せによりほとんど全ての可変部位に拡大することができる。
いくつかの実施形態において、本明細書に記載される組成物及び方法は、例えばヒト腸内に見出されるメタゲノムの調査を可能にする。したがって、所与の生態学的環境に住むいくつかの又は全ての生物の部分的若しくは全ゲノム配列を、調査することができる。例は、全ての腸微生物、表皮の特定の領域で見出される微生物及び有毒廃棄物場に生きる微生物のランダムな配列決定を含む。これらの環境における微生物集団の組成は、本明細書に記載される組成物及び方法、並びにそれぞれのゲノムによってコードされる相互関係のある生化学の態様を使用して決定することができる。本明細書に記載される方法は、例えば、2、3、4、5、6、7、8、9、10、12、15、20、25、30、40、50、60、70、80、90、100、125、150、175、200、250、300、400、500、600、700、800、900、1000、5000、10000以上又はより多くの生物及び/若しくは生物のバリアントを含む複雑な生物学的環境からのメタゲノム研究を可能にすることができる。
癌ゲノムの配列決定に必要とされる高い精度は、本明細書に記載される方法及びシステムを使用して実現することができる。癌ゲノムを配列決定する場合、不正確な参照ゲノムは、ベースコーリングが課題になる可能性がある。不均一なサンプル及び少ない出発材料、例えば生検によって得られるサンプルは、更なる課題をもたらす。更に、大規模構造バリアント及び/又はヘテロ接合性の消失の検出は、体細胞バリアント間の分化能力並びにベースコーリングにおけるエラーと同様に、癌ゲノムの配列決定にとってしばしば重大である。
本明細書に記載されるシステム及び方法は、2、3、4、5、6、7、8、9、10、12、15、20個又はより多くの様々なゲノムを含有する複雑なサンプルから正確な長い配列を生成することができる。正常、良性及び/又は腫瘍起源の混合サンプルは、任意選択で正常対照を必要とせずに、分析することができる。いくつかの実施形態において、わずか100ng又は更にわずか数百個のゲノム同等物の出発サンプルを利用して、正確な長い配列を生成する。本明細書に記載されるシステム及び方法は、大規模構造バリアント及び再編成の検出を可能にすることができる。フェージングしたバリアントコールを、約1kbp、約2kbp、約5kbp、約10kbp、20kbp、約50kbp、約100kbp、約200kbp、約500kbp、約1Mbp、約2Mbp、約5Mbp、約10Mbp、約20Mbp、約50Mbp若しくは約100Mbp又はより長いヌクレオチドに跨る長い配列に対して得ることができる、例えば、フェーズバリアントコールを、約1Mbp又は約2Mbpに跨る長い配列に対して得ることができる。
本明細書に記載される方法及びシステムを使用して決定したハプロタイプは、計算資源、例えばクラウドシステムなどネットワーク上の計算資源に割り当てることができる。短いバリアントコールは、計算資源に格納されている関連した情報を使用して、必要に応じて修正することができる。構造バリアントは、短いバリアントコールからの複合情報及び計算資源に格納されている情報に基づいて検出することができる。セグメント重複、構造的変形を起こしやすい領域、極めて変化しやすく医学的に関連するMHC領域、セントロメア及びテロメア領域、並びにそれらに限らないが反復領域、低配列精度、高バリアント率、ALUリピート、セグメント重複又は当技術分野において公知の他の任意の関連する問題がある部分を持つ領域を含めた他の異質染色性領域などの問題があるゲノム部分は、精度を高めるために再組立てすることができる。
サンプル型は、局所的か又はクラウドなどネットワーク化されたかいずれかの計算資源中の配列情報に割り当てることができる。情報の供給源が公知である場合、例えば、情報の供給源が癌又は正常組織由来であるとき、供給源は、サンプル型の一部としてサンプルに割り当てることができる。通常他のサンプル型の例には、それだけには限らないが、組織型、サンプル収集方法、感染の存在、感染の型、処理方法、サンプルサイズ等がある。癌ゲノムと比較する正常ゲノムなど、完全な又は部分的な比較ゲノム配列が利用可能である場合に、サンプルデータと比較ゲノム配列との差異を決定し、任意選択で出力することができる。
本方法は、対象となる選択的なゲノム領域の遺伝情報及び対象となる選択的な領域と相互作用できるゲノム領域の分析において使用することができる。本明細書に開示する増幅法は、それだけに限らないが、米国特許第6,449,562号、第6,287,766号、第7,361,468号、第7,414,117号、第6,225,109号及び第6,110,709号に見出されるものなど、遺伝子分析の技術者に公知の装置、キット及び方法で使用することができる。いくつかの場合において、本開示の増幅法を使用して、DNAハイブリダイゼーション研究用の標的核酸を増幅し、それによって多形の有無を決定することができる。多形又は対立遺伝子は、遺伝的疾患など疾患又は状態と関連付けることができる。他の場合において、多形は疾患又は状態の罹病性、例えば、中毒、退行性及び年齢に関連する状態、癌などと関連する多形と関連している可能性がある。他の場合において、多形は、冠状動脈の健康増進など有益な形質、又はHIV若しくはマラリアなどの疾患に対する抵抗性、又は骨粗鬆症、アルツハイマー病若しくは痴呆症など変性疾患に対する抵抗性に関連することがある。
本開示の組成物及び方法は、診断、予後、治療、患者の層化、薬剤開発、治療選択及びスクリーニング目的に使用することができる。本開示は、本開示の方法を使用して単一の生体分子サンプルから多くの異なる標的分子を1度に分析できるという利点を提供する。これにより、例えば、1つのサンプルで実施すべきいくつかの診断検査が可能になる。
本開示の組成物及び方法は、ゲノム研究に使用することができる。本明細書に記載される方法は、この用途に非常に望ましい答えを速やかに提供することができる。本明細書に記載される方法及び組成物は、診断又は予後のために並びに健康及び疾患の指標として使用することができるバイオマーカーを見出す過程に使用することができる。本明細書に記載される方法及び組成物を使用して、薬物をスクリーニングする、例えば、薬剤開発、治療の選択、治療有効性の決定、並びに/又は医薬開発の標的を同定することができる。身体においてタンパク質が最終的な遺伝子産物なので、薬物を含むスクリーニングアッセイで遺伝子発現を試験する能力は極めて重要である。いくつかの実施形態において、本明細書に記載される方法及び組成物は、タンパク質と遺伝子両方の発現を同時に測定することになり、特定のスクリーニングが実施されるという点で最も多くの情報を得られることになる。
本開示の組成物及び方法は、遺伝子発現分析に使用することができる。本明細書に記載される方法は、ヌクレオチド配列どうしを判別する。標的ヌクレオチド配列間の差異は、例えば、単一核酸塩基差異、核酸欠失、核酸挿入又は再編成であり得る。2つ以上の塩基を含むそのような配列差異を、検出することもできる。本開示の過程は、感染症、遺伝的疾患及び癌を検出することが可能である。それは、環境モニタリング、科学捜査及び食品科学においても有用である。核酸で実施できる遺伝子分析の例には、例えば、SNP検出、STR検出、RNA発現分析、プロモーターメチル化、遺伝子発現、ウイルス検出、ウイルス細分類及び薬物耐性がある。
本方法を、患者から得た若しくは患者に由来した生体分子サンプルの分析に適用して、疾患のある細胞型がサンプル中に存在するかどうか、病期、患者の予後、患者が特定の治療に反応する能力又は患者にとって最善の治療を決定することができる。本方法を適用して、特定の疾患に対するバイオマーカーを同定することもできる。
いくつかの実施形態において、本明細書に記載される方法は、状態の診断に使用される。本明細書では、用語、状態を「診断する」又は「診断」は、状態を予測又は診断すること、状態になりやすい体質を決定すること、状態の治療を監視すること、疾患の治療応答を診断すること、又は状態の予後、状態の進行、若しくは状態の特定の治療への応答を含むことができる。例えば、本明細書に記載される方法のいずれかに従って血液サンプルをアッセイして、サンプル中の疾患マーカー若しくは悪性細胞型の存在及び/又は量を決定し、それによって疾患又は癌を診断若しくは段階付けすることができる。
いくつかの実施形態において、本明細書に記載される方法及び組成物は、状態の診断及び予後に使用される。
多数の免疫性、増殖性、悪性疾患及び障害が、本明細書に記載される方法に特に適している。免疫疾患及び障害には、アレルギー疾患及び障害、免疫機能の障害並びに自己免疫疾患及び状態がある。アレルギー疾患及び障害には、それだけには限らないがアレルギー性鼻炎、アレルギー性結膜炎、アレルギー性喘息、アトピー性湿疹、アトピー性皮膚炎並びに食事性アレルギーがある。免疫不全には、それだけには限らないが重症複合型免疫不全症(SCID)、好酸球増多症候群、慢性肉芽腫性疾患、白血球接着不全症I及びII、高IgE症候群、チェディアック東症候群、好中球増多症、好中球減少症、形成不全症、無ガンマグロブリン血症、高IgM症候群、ディジョージ/口蓋心臓顔面症候群並びにインターフェロンγTH1経路欠損がある。自己免疫性及び免疫性調節不全障害には、それだけには限らないが、関節リウマチ、糖尿病、全身エリテマトーデス、グレーブス病、グラーブ眼障害、クローン病、多発性硬化症、乾癬、全身性硬化症、甲状腺腫及びリンパ腫症性甲状腺腫(橋本病、リンパ腫性甲状腺腫)、円形脱毛症、自己免疫性心筋症、硬化性苔癬、自己免疫性ブドウ膜炎、アジソン病、萎縮性胃炎、重症筋無力症、特発性血小板減少性紫斑病、溶血性貧血、原発性胆汁性肝硬変、ヴェゲナー肉芽腫症、結節性多発性動脈炎及び炎症性腸疾患、同種異系移植拒絶並びに感染性微生物又は環境抗原に対するアレルギー反応による組織破壊がある。
本開示の方法によって評価できる増殖的な疾患及び障害には、それだけには限らないが、新生児における血管腫症、二次進行多発性硬化症、慢性進行性骨髄変性疾患、神経線維腫症、神経節腫症、ケロイド形成、骨のパジェット病、線維嚢胞症(例えば、乳房又は子宮の)、サルコイドーシス、ペーロニー及びデュピュイトラン線維症、肝硬変、アテローム性動脈硬化症並びに脈管再狭窄がある。
本開示の方法によって評価できる悪性疾患及び障害には、血液学的悪性腫瘍及び固形腫瘍がある。
そのような悪性腫瘍は、血液由来細胞に変化を含むので、サンプルが血液サンプルである場合、血液学的悪性腫瘍は本開示の方法に特に適している。そのような悪性腫瘍には、非ホジキンリンパ腫、ホジキンリンパ腫、非B細胞系リンパ腫及び他のリンパ腫、急性又は慢性白血病、赤血球増加症、血小板血症、多発性骨髄腫、骨髄異形成障害、骨髄増殖性疾患、骨髄線維症、非定型的免疫性リンパ球増殖並びに形質細胞疾患がある。
本開示の方法によって評価できる形質細胞疾患には、多発性骨髄腫、アミロイド症及びワルデンストレームマクログロブリン血症がある。
固形腫瘍の例には、それだけには限らないが、大腸癌、乳癌、肺癌、前立腺ガン、脳腫瘍、中枢神経系腫瘍、膀胱腫瘍、黒色腫、肝癌、骨肉腫及び他の骨癌、睾丸及び卵巣の癌腫、頭頸部腫瘍並びに頸部新生物がある。
遺伝的疾患も、本開示の過程によって検出することができる。これは、染色体及び遺伝的な異常又は遺伝的疾患について出生前又は出産後スクリーニングによって実施することができる。検出可能な遺伝的疾患の例には、21-ヒドロキシラーゼ欠損症、嚢胞性線維症、脆弱X症候群、ターナー症候群、デュシェンヌ型筋ジストロフィー、ダウン症候群又は他のトリソミー、心臓病、単一遺伝子疾患、HLAタイピング、フェニルケトン尿症、鎌状赤血球性貧血、テイサックス病、サラセミア、クラインフェルター症候群、ハンチントン病、自己免疫疾患、リピドーシス、肥満異常、血友病、先天性代謝異常及び糖尿病がある。
本明細書に記載される方法を使用して、サンプル中のバクテリア若しくはウイルスそれぞれのマーカーの存在並びに/又は量を決定することによって、病原体感染症、例えば細胞内細菌及びウイルスによる感染症を診断することができる。
本開示の過程によって多種多様な感染症を検出することができる。感染症は、細菌、ウイルス、寄生虫及び真菌の感染因子に起因することができる。薬物に対する様々な感染因子の抵抗性も、本開示を使用して決定できる。
本開示によって検出することができる細菌感染因子には、大腸菌(Escherichia coli)、サルモネラ菌(Salmonella)、赤痢菌(Shigella)、クレブシエラ(KlESBiella)、シュードモナス(Pseudomonas)、リステリアモノサイトゲネス(Listeria monocytogenes)、マイコバクテリウムツベルクローシス(Mycobacterium tuberculosis)、マイコバクテリウムアビウムイントラセルラーレ(Mycobacterium aviumintracellulare)、エルシニア(Yersinia)、フランシセラ(Francisella)、パスツレラ(Pasteurella)、ブルセラ(Brucella)、クロストリジウム(Clostridia)、百日咳菌(Bordetella pertussis)、バクテロイデス(Bacteroides)、黄色ブドウ球菌(Staphylococcus aureus)、肺炎連鎖球菌(Streptococcus pneumonia)、B群溶血性レンサ球菌(B-Hemolytic strep.)、コリネバクテリア(Corynebacteria)、レジオネラ(Legionella)、ミコプラズマ(Mycoplasma)、ウレアプラズマ(Ureaplasma)、クラミジア(Chlamydia)、淋菌(Neisseria gonorrhea)、髄膜炎菌(Neisseria meningitides)、ヘモフィルスインフルエンザ(Hemophilus influenza)、エンテロコッカスフェカーリス(Enterococcus faecalis)、プロテウスブルガリス(Proteus vulgaris)、プロテウスミラビリス(Proteus mirabilis)、ヘリコバクターピロリ(Helicobacter pylori)、トレポネーマパラジウム(Treponema palladium)、ボレリアブルグドルフェリ(Borrelia burgdorferi)、ボレリアレカレンチス(Borrelia recurrentis)、リケッチア病原体(Rickettsial pathogens)、ノカルジア(Nocardia)及び放線菌(Actinomycetes)がある。
本開示によって検出することができる真菌の感染因子には、クリプトコッカスネオフォルマンス(Cryptococcus neoformans)、ブラストミセスダーマチチジス(Blastomyces dermatitidis)、ヒストプラスマカプスラーツム(Histoplasma capsulatum)、コクシジオイデスイミティス(Coccidioides immitis)、パラコクシジオイデスブラジリエンシス(Paracoccidioides brasiliensis)、カンジダアルビカンス(Candida albicans)、アスペルギルスフミガタス(Aspergillus fumigautus)、藻菌類[クモノスカビ属(Rhizopus)](Phycomycetes)、スポロトリックスシェンキイ(Sporothrix schenckii)、クロモミコーシス(Chromomycosis)及びマズラミコーシス(Maduromycosis)がある。
本開示によって検出することができるウイルス感染因子には、ヒト免疫不全ウイルス、ヒトT-細胞リンパ好性ウイルス、肝炎ウイルス(例えば、B型肝炎ウイルス及びC型肝炎ウイルス)、エプスタインバーウイルス、サイトメガロウイルス、ヒトパピローマウイルス、オルトミクソウイルス、パラミクソウイルス、アデノウイルス、コロナウイルス、ラブドウイルス、ポリオウイルス、トーガウイルス、ブニヤウイルス、アリーナウイルス、風疹ウイルス及びレオウイルスがある。
本開示によって検出することができる寄生虫因子には、熱帯熱マラリア原虫(Plasmodium falciparum)、四日熱マラリア原虫(Plasmodium malaria)、三日熱マラリア原虫(Plasmodium vivax)、卵形マラリア原虫(Plasmodium ovale)、回旋糸状虫(Onchoverva volvulus)、リーシュマニア、トリパノソーマ種、住血吸虫種、赤痢アメーバ(Entamoeba histolytica)、クリプトスポリジウム、ジアルジア種、トリコモナス種、大腸バランチジウム(Balatidium coli)、バンクロフト糸状虫(Wuchereria bancrofti)、トキソプラズマ種、ギョウチュウ(Enterobius vermicularis)、回虫(Ascaris lumbricoides)、ヒト鞭虫(Trichuris trichiura)、メジナ虫(Dracunculus medinesis)、吸虫、広節裂頭条虫(Diphyllobothrium latum)、条虫種、ニューモシスチスカリニ(Pneumocystis carinii)及びアメリカ鉤虫(Necator americanis)がある。
本開示は、感染因子による薬剤耐性の検出にも有用である。例えば、バンコマイシン耐性エンテロコッカスヘシュウム(Enterococcus faecium)、メチシリン耐性黄色ぶどう球菌、ペニシリン耐性肺炎球菌(Streptococcus pneumoniae)、多剤耐性ヒト結核菌(Mycobacterium tuberculosis)及びAZT耐性ヒト免疫不全ウイルスの全てを、本開示で同定することができる。
したがって、本開示の組成物及び方法を使用して検出される標的分子は、患者マーカー(癌マーカーなど)か又は細菌若しくはウイルスマーカーなど外来因子による感染症マーカーのいずれかであり得る。
本開示の組成物及び方法を使用して、存在量が生物学的状態若しくは病状の指標となる標的分子、例えば病態の結果として上方制御若しくは下方制御される血液マーカーを同定及び/又は定量化することができる。
いくつかの実施形態において、本開示の方法及び組成物は、サイトカイン発現に使用することができる。本明細書に記載される方法の低い感度は、例えば、癌などの疾患の状態、診断又は予後のバイオマーカーとしてサイトカインの早期検出、及び潜在的状態の同定に役立ち得る。
標的ポリヌクレオチドが得られる異なるサンプルは、同じ個体からの複数のサンプル、異なる個体からのサンプル又はその組合せを含むことができる。いくつかの実施形態において、サンプルは一個人由来の複数のポリヌクレオチドを含む。いくつかの実施形態において、サンプルは2人以上の個体由来の複数のポリヌクレオチドを含む。個体とは、標的ポリヌクレオチドを得ることができる任意の生物又はその部分であり、その限定されない例としては、植物、動物、真菌、原生生物、原核生物、ウイルス、ミトコンドリア及び葉緑体がある。サンプルポリヌクレオチドは、例えば培養細胞系、生検、血液サンプル又は細胞を含有する液体サンプルを含めた、対象から得られる細胞サンプル、組織サンプル又は器官サンプルなど、対象から単離することができる。対象は、動物であり、ウシ、ブタ、マウス、ラット、鶏、ネコ、イヌ等などの動物を含み得るがこれに限定されず、通常ヒトなどの哺乳動物である。化学合成によるなど、サンプルは人工的に得ることもできる。いくつかの実施形態において、サンプルはDNAを含む。いくつかの実施形態において、サンプルはゲノムDNAを含む。いくつかの実施形態において、サンプルは、ミトコンドリアDNA、葉緑体DNA、プラスミドDNA、細菌人工染色体、酵母人工染色体、オリゴヌクレオチドタグ又はその組合せを含む。いくつかの実施形態において、サンプルは、ポリメラーゼ連鎖反応(PCR)、逆転写並びにその組合せを含むがこれに限定されないプライマーとDNAポリメラーゼの任意の適切な組合せを使用するプライマー伸長反応によって生成されるDNAを含む。プライマー伸長反応の鋳型がRNAである場合、逆転写産物は、相補的DNA(cDNA)と呼ばれる。プライマー伸長反応に有用なプライマーは、1つ以上の標的に特異的な配列、ランダム配列、部分的にランダムな配列及びその組合せを含むことができる。プライマー伸長反応に適切な反応条件は、当技術分野において公知である。一般に、サンプルポリヌクレオチドは、サンプル中に存在する任意のポリヌクレオチドを含み、標的ポリヌクレオチドを含むことも含まないこともできる。
いくつかの実施形態において、鋳型核酸分子(例えば、DNA又はRNA)は、タンパク質、脂質及び非鋳型核酸など様々な他の構成要素を含有する生体サンプルから単離される。鋳型核酸分子は、任意の細胞物質から得ることができ、動物、植物、バクテリア、真菌又は他の任意の細胞生物から得ることができる。本開示に使用する生体サンプルは、ウイルス粒子又は調製物を含む。鋳型核酸分子は、生物又は生物から得られる生体サンプル、例えば血液、尿、脳脊髄液、精液、唾液、痰、便及び組織から直接得ることができる。任意の組織又は体液検体が、本開示に使用する核酸の供給源として使用することができる。鋳型核酸分子は、初代細胞培養又は細胞株などの培養細胞から単離することもできる。鋳型核酸が得られる細胞又は組織は、ウイルス若しくは他の細胞内病原体に感染していることもできる。サンプルは、生物検体から抽出される全RNA、cDNAライブラリー、ウイルス又はゲノムDNAであることもできる。サンプルは、非細胞起源の単離されたDNA、例えばフリーザーから増幅/単離されたDNAであることもできる。
核酸の抽出及び精製方法は、当技術分野で周知である。例えば、核酸は、フェノール、フェノール/クロロホルム/イソアミルアルコール、又はTRIzol及びTriReagentを含む類似の処方で有機抽出によって精製することができる。抽出技法の他の限定されない例には、以下がある:(1)自動核酸抽出装置、例えば、Applied Biosystems社(Foster City、Calif.)から入手可能なモデル341DNA Extractorを使用して又は使用しない、例えばフェノール/クロロホルム有機試薬を使用する(Ausubelら、1993年)、エタノール沈殿を伴う有機抽出、(2)固定相吸着法(米国特許第5,234,809号、Walshら、1991年)、及び(3)塩誘発性核酸沈殿法(Millerら(1988)、そのような沈殿法は、一般に「塩析」法と呼ばれる。核酸を単離及び/又は精製するもう一つの例には、磁気粒子の使用があり、核酸は特異的若しくは非特異的にその粒子に結合し、その後磁石を使用してビーズを単離し、洗浄し、ビーズから核酸を溶出することができる(例えば米国特許第5,705,628号を参照のこと)。いくつかの実施形態において、サンプルから不要なタンパク質を取り除くのに役立つ酵素消化ステップ、例えばプロテイナーゼK又は他のプロテアーゼによる消化の後に上記の単離法があってもよい。例えば米国特許第7,001,724号を参照のこと。必要に応じて、RNase阻害剤を、溶解緩衝液に添加することができる。特定の細胞又はサンプル型の場合、手順にタンパク質変性/消化ステップを加えることが望まれる。精製法は、DNA、RNA又は両方を単離することを対象にできる。抽出手順の間又はその後にDNAとRNAの両方が一緒に単離される場合、更なるステップを利用して、一方を若しくは両方を他と別々に精製することができる。例えば、サイズ、配列又は他の物理的若しくは化学的特性による精製により、抽出した核酸の細画分を生成することもできる。最初の核酸単離ステップに加えて、本開示の方法における任意のステップの後に、過剰な若しくは不要な試薬、反応物又は産物を除去するなど、核酸の精製を実施することができる。
鋳型核酸分子は、2003年10月9日に公開された米国特許出願公開第2002/0,190,663号A1に記載の通り得ることができる。通常、核酸は、Maniatisら、Molecular Cloning、A Laboratory Manual、Cold Spring Harbor、N.Y.、280〜281頁(1982)に記載されるものなど、様々な技法によって生体サンプルから抽出することができる。いくつかの場合において、核酸は、生体サンプルからの第1の抽出物であり、次いでin vitroで架橋できる。いくつかの場合において、天然の会合タンパク質(例えばヒストン)を、核酸から更に除去することができる。
他の実施形態において、本開示は、例えば、組織、細胞培養、体液、動物組織、植物、細菌、真菌、ウイルス等から単離されるDNAを含めた、任意の高分子量二本鎖DNAに容易に適用することができる。
いくつかの実施形態においては、複数の独立したサンプルのそれぞれは、少なくとも約1ng、2ng、5ng、10ng、20ng、30ng、40ng、50ng、75ng、100ng、150ng、200ng、250ng、300ng、400ng、500ng、1μg、1.5μg、2μg、5μg、10μg、20μg、50μg、100μg、200μg、500μg、又は1000μg、又はより多くの核酸材料を、それぞれ独立に含むことができる。いくつかの実施形態においては、複数の独立したサンプルのそれぞれは、約1ng、2ng、5ng、10ng、20ng、30ng、40ng、50ng、75ng、100ng、150ng、200ng、250ng、300ng、400ng、500ng、1μg、1.5μg、2μg、5μg、10μg、20μg、50μg、100μg、200μg、500μg、又は1000μg、未満又はより多くの核酸をそれぞれ独立に含むことができる。
いくつかの実施形態において、Epicentre Biotechnologies社(Madison、WI)から入手可能なものなど市販のキットを使用して末端修復を実施して、平滑末端5'リン酸化核酸末端を生成する。
アダプターオリゴヌクレオチドは、少なくともその一部が既知であり、標的ポリヌクレオチドに接合することが可能な配列を有する任意のオリゴヌクレオチドを含む。アダプターオリゴヌクレオチドは、DNA、RNA、ヌクレオチド類似体、非標準ヌクレオチド、標識ヌクレオチド、修飾ヌクレオチド又はその組合せを含むことができる。アダプターオリゴヌクレオチドは、一本鎖、二本鎖又は部分的な二本鎖であり得る。一般に、部分的な二本鎖アダプターは、1つ以上の一本鎖領域及び1つ以上の二本鎖領域を含む。二本鎖アダプターは、互いにハイブリダイズする2つの別々のオリゴヌクレオチドを含むことができ(「オリゴヌクレオチド二本鎖」とも呼ばれる)、ハイブリダイゼーションにより、1つ以上の平滑末端、1つ以上の3'突出、1つ以上の5'突出、ミスマッチ及び/若しくは対にならないヌクレオチドに起因する1つ以上のバルジ、又はこれらの任意の組合せが残り得る。いくつかの実施形態において、一本鎖アダプターは、互いにハイブリダイズすることができる配列を2つ以上含む。一本鎖アダプター中に2つのそのようなハイブリダイズ可能な配列が含有される場合、ハイブリダイゼーションはヘアピン構造を生ずる(ヘアピンアダプター)。アダプターのハイブリダイズした2つの領域が、非ハイブリダイズ領域により互いから隔てられている場合、「バブル」構造が生じる。バブル構造を含むアダプターは、内部ハイブリダイゼーションを含む単一のアダプターオリゴヌクレオチドからなることができ、又は互いにハイブリダイズする2つ以上のアダプターオリゴヌクレオチドを含むことができる。アダプター中の2つのハイブリダイズ可能な配列間など内部配列のハイブリダイゼーションは、一本鎖アダプターオリゴヌクレオチドに二本鎖構造を作製することができる。ヘアピンアダプターと二本鎖アダプター、又は異なる配列のアダプターなど異なる種類のアダプターを組み合わせて使用することができる。ヘアピンアダプター中のハイブリダイズ可能な配列は、オリゴヌクレオチドの一方又は両方の末端を含んでも含まなくてもよい。いずれの末端もハイブリダイズ可能な配列に含まれない場合、両方の末端は「遊離」又は「突出」している。一方の末端だけがアダプター中の別の配列にハイブリダイズ可能である場合、他方の末端は、3'突出又は5'突出などの突出を形成する。5'末端ヌクレオチド及び3'末端ヌクレオチドが相補的であり、互いにハイブリダイズするような、5'末端ヌクレオチドと3'末端ヌクレオチドの両方がハイブリダイズ可能な配列に含まれる場合、末端は「平滑」と呼ばれる。異なるアダプターを、逐次反応で又は同時に標的ポリヌクレオチドに接合することができる。例えば、第1及び第2のアダプターを、同じ反応に添加することができる。アダプターは、標的ポリヌクレオチドと組み合わせる前に操ることができる。例えば、末端リン酸を付加又は除去することができる。
アダプターは、1つ以上の増幅プライマーアニーリング配列又はその相補体、1つ以上の配列決定プライマーアニーリング配列又はその相補体、1つ以上のバーコード配列、複数の異なるアダプター又は異なるアダプターのサブセットの間で共有されている1つ以上の共通配列、1つ以上の制限酵素認識部位、1つ以上の標的ポリヌクレオチド突出と相補的な1つ以上の突出、1つ以上のプローブ結合部位(例えば、Illumina Inc.によって開発されたものなど、大規模並列配列決定用のフローセルなど配列決定プラットフォームに付着させるための)、1つ以上のランダムな又はほぼランダムな配列(例えば、ランダム配列を含むアダプターのプールで表される1つ以上の位置で選択される異なるヌクレオチドのそれぞれを持つ、1つ以上の位置で2つ以上の異なるヌクレオチドの組からランダムに選択される1つ以上のヌクレオチド)、及びその組合せを含むがそれだけには限らない1つ以上の様々な配列エレメントを含有することができる。2つ以上の配列エレメントは、互いに隣接していない(例えば、1つ以上のヌクレオチドによって隔てられている)、互いに隣接している、部分的に重複する、又は完全に重複していることができる。例えば、増幅プライマーアニーリング配列は、配列決定プライマーアニーリング配列としての機能を果たすこともできる。配列エレメントは、アダプターオリゴヌクレオチドの3'末端若しくはその近く、5'末端若しくはその近く、又は内部に位置することができる。アダプターオリゴヌクレオチドが、ヘアピンなど、二次構造を形成できる場合、配列エレメントは、部分的若しくは完全に二次構造の外側に、部分的若しくは完全に二次構造の中側、又は二次構造に関与する配列の間に位置することができる。例えば、アダプターオリゴヌクレオチドがヘアピン構造を含む場合、配列エレメントは、ハイブリダイズ可能な配列間の配列(「ループ」)内を含めて、ハイブリダイズ可能な配列(「ステム」)の内側若しくは外側に部分的又は完全に位置することができる。いくつかの実施形態において、異なるバーコード配列を有する複数の第1のアダプターオリゴヌクレオチド中の第1のアダプターオリゴヌクレオチドは、第1のアダプターオリゴヌクレオチドの全ての間で共通の配列エレメントを複数含む。いくつかの実施形態において、第2のアダプターオリゴヌクレオチドの全ては、第1のアダプターオリゴヌクレオチドによって共有される共通の配列エレメントとは異なる、第2のアダプターオリゴヌクレオチドの全ての間で共通の配列エレメントを含む。配列エレメントにおける差異は、例えば、配列長の変化、1つ以上のヌクレオチドの欠失若しくは挿入、又は1つ以上のヌクレオチド位置におけるヌクレオチド組成の変化(塩基変化又は塩基修飾など)により、異なるアダプターの少なくとも一部が完全に整列しないような任意のものであり得る。いくつかの実施形態において、アダプターオリゴヌクレオチドは、1つ以上の標的ポリヌクレオチドに相補的である5'突出、3'突出又は両方を含む。相補的な突出は、長さ1、2、3、4、5、6、7、8、9、10、11、12、13、14、15又はより長いヌクレオチドを含むがこれに限定されない、1以上のヌクレオチド長であり得る。例えば、相補的突出は、長さ約1、2、3、4、5又は6ヌクレオチドであり得る。相補的突出は、固定された配列を含むことができる。1つ以上のヌクレオチドが、1つ以上の位置で2つ以上の異なるヌクレオチドの組からランダムに選択されるように、ランダム配列を含む相補的突出を持つアダプターのプールで表される1つ以上の位置で選択される異なるヌクレオチドのそれぞれを持つ相補的突出は、1つ以上のヌクレオチドのランダム配列を含むことができる。いくつかの実施形態において、アダプター突出は、制限エンドヌクレアーゼ消化によって作製される標的ポリヌクレオチド突出と相補的である。いくつかの実施形態において、アダプター突出は、アデニン又はチミンから構成される。
アダプターオリゴヌクレオチドは、それらが構成される1つ以上の配列エレメントを収めるのに少なくとも十分な任意の適切な長さを有することができる。いくつかの実施形態において、アダプターは、長さ約10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、90、100、200又はより長いヌクレオチド未満若しくはより長いヌクレオチドである。いくつかの例において、アダプターは長さ約10〜約50ヌクレオチドであり得る。更なる例において、アダプターは長さ約20〜約40のヌクレオチドであり得る。
本明細書では、用語「バーコード」とは、バーコードと関連付けられているポリヌクレオチドのいくつかの特徴を同定可能にする既知の核酸配列のことを指す。いくつかの実施形態において、同定されるポリヌクレオチドの特徴は、ポリヌクレオチドが由来するサンプルである。いくつかの実施形態において、バーコードは少なくとも長さ3、4、5、6、7、8、9、10、11、12、13、14、15又はより長いヌクレオチドであり得る。例えば、バーコードは、少なくとも長さ10、11、12、13、14又は15ヌクレオチドであり得る。いくつかの実施形態において、バーコードは、長さ10、9、8、7、6、5又は4ヌクレオチドより短いことができる。例えば、バーコードは、長さ10ヌクレオチドより短くなることができる。いくつかの実施形態において、いくつかのポリヌクレオチドと関連付けられているバーコードは、他のポリヌクレオチドと関連付けられているバーコードと異なる長さである。一般に、バーコードは、充分な長さのものであり、サンプルが関連付けられているバーコードに基づいてそれらの同定を可能にするのに十分に異なる配列を含む。いくつかの実施形態において、バーコード及びそれが関連付けられているサンプル供給源は、1、2、3、4、5、6、7、8、9、10個又はより多くのヌクレオチドの突然変異、挿入若しくは欠失など、バーコード配列中の1つ以上のヌクレオチドの突然変異、挿入若しくは欠失の後に正確に同定することができる。いくつかの例において、1、2若しくは3個のヌクレオチドを、突然変異、挿入及び/又は欠失させることができる。いくつかの実施形態において、複数のバーコード中の各バーコードは、少なくとも2、3、4、5、6、7、8、9、10又はより多くの位置など、複数の少なくとも2つのヌクレオチド位置で他のいずれのバーコードとも異なる。いくつかの例において、各バーコードは、少なくとも2、3、4又は5つの位置で、他のいずれのバーコードとも異なり得る。いくつかの実施形態において、第1の部位と第2の部位の両方が、複数のバーコード配列の少なくとも1つを含む。いくつかの実施形態において、第2の部位のバーコードは、第1のアダプターオリゴヌクレオチドのバーコードからそれぞれ独立に選択される。いくつかの実施形態において、一対の配列が同じ又は異なる1つ以上のバーコードを含むように、バーコードを有する第1の部位と第2の部位は対にされる。いくつかの実施形態において、本開示の方法は、標的ポリヌクレオチドが接合されたバーコード配列に基づいて、標的ポリヌクレオチドが由来するサンプルを同定するステップを更に含む。一般に、バーコードは、標的ポリヌクレオチドに接合された際に、標的ポリヌクレオチドが由来したサンプルの識別子として機能する核酸配列を含むことができる。
真核生物において、ゲノムDNAは、クロマチンに束ねられて、核内で染色体として構成されている。クロマチンの基本的な構造単位はヌクレオソームであり、ヌクレオソームは、ヒストン八量体の周りに巻き付いた146塩基対(bp)のDNAから構成される。ヒストン八量体は、コアヒストンH2A-H2B二量体とH3-H4二量体それぞれの2コピーから構成される。ヌクレオソームは、DNAに沿って規則的に間隔を置いて配置され、一般に「数珠状」と呼ばれる。
ヌクレオソームへのコアヒストン及びDNAのアセンブリは、シャペロンタンパク質及び関連するアセンブリ因子に媒介される。これらの因子のほぼ全ては、コアヒストン結合タンパク質である。ヌクレオソームアセンブリタンパク質-1(NAP-1)などヒストンシャペロンのいくつかは、ヒストンH3及びH4への結合に対して優先傾向を呈する。新しく合成されたヒストンはアセチル化され、続いてクロマチンにアセンブリされた後に脱アセチル化されることも観察された。したがって、ヒストンアセチル化又は脱アセチル化を媒介する因子は、クロマチンアセンブリ過程において重要な役割を果たす。
一般に、クロマチンを再構成又はアセンブルするために2つのin vitroの方法が開発された。1つ方法はATP非依存的であるが、第2はATP依存的である。クロマチンを再構成するATP非依存的な方法は、DNA及びコアヒストン、プラスNAP-1のようなタンパク質か又はヒストンシャペロンとして作用するための塩のいずれかを含む。この方法は、細胞内の天然のコアヌクレオソーム粒子を正確に模倣しているわけではないDNA上でランダムなヒストンの編成を生じる。これらの粒子は、規則的に順序付けられておらず、拡張されたヌクレオソームアレイ及び使用されるDNA配列が通常250bpを超えないので、しばしばモノヌクレオソームと称される(Kundu、T. K.ら、Mol. Cell 6:551〜561頁、2000年)。より長いDNA配列上で、順序付けられたヌクレオソームの拡張アレイを生成するには、クロマチンはATP依存的な過程でアセンブルされなければならない。
周期的なヌクレオソームアレイのATP依存的なアセンブリは、天然のクロマチンに見られるそれと類似しており、DNA配列、コアヒストン粒子、シャペロンタンパク質及びATP利用クロマチンアセンブリ因子を必要とする。ACF(ATP利用クロマチンアセンブリ及び再形成因子)又はRSF(再形成及び間隔因子)は、広く研究されている2つのアセンブリ因子であり、それらを使用して、in vitroで、拡張され順序付けられたヌクレオソームのアレイからクロマチンを生成する(Fyodorov, D.V.及びKadonaga, J.T.、Method Enzymol. 371:499〜515頁、2003年、Kundu, T. K.ら、Mol. Cell 6:551〜561頁、2000年)。
特定の実施形態において、本開示の方法は、例えば、血漿、血清及び/若しくは尿から単離した遊離DNA、細胞及び/若しくは組織からのアポトーシスDNA、in vitroで酵素的に断片化したDNA(例えば、DNaseI及び/又は制限酵素による)、並びに/又は機械的な力(水剪断、超音波処理、噴霧化等)によって断片化したDNAを含むがこれに限定されない任意の型の断片化した二本鎖DNAに容易に適用することができる。
生体サンプルから得られる核酸を断片化して、分析に適した断片を作製することができる。鋳型核酸は、様々な機械的、化学的及び/又は酵素的な方法を使用して、所望の長さに断片化又は剪断することができる。DNAは、超音波処理、例えばCovaris法、DNaseへの短時間曝露、又は1つ以上の制限酵素の混合物、又はトランスポーゼース若しくはニッキング酵素を使用することによって、ランダムに剪断することができる。RNAは、RNaseへの短時間曝露、熱+マグネシウム又は剪断によって断片化することができる。RNAは、cDNAに変換することができる。断片化を利用する場合、RNAは断片化の前か後にcDNAに変換することができる。いくつかの実施形態において、生体サンプル由来核酸は、超音波処理によって断片化される。他の実施形態において、核酸は水剪断機器によって断片化される。通常、個々の核酸鋳型分子は、約2kb〜約40kb塩基であり得る。様々な実施形態において、核酸は、約6kb〜10kb断片であり得る。核酸分子は、一本鎖、二本鎖又は一本鎖領域を持つ二本鎖(例えば、ステムアンドループ構造)であり得る。
いくつかの実施形態において、架橋したDNA分子は、サイズ選択ステップに供することができる。核酸のサイズ選択は、特定のサイズより小さい又は大きい架橋したDNA分子に対して実施することができる。サイズ選択は、架橋の頻度及び/又は断片化の方法、例えば頻度が高い若しくは稀なカッター制限酵素を選ぶことによって更に影響を受け得る。いくつかの実施形態において、組成物は、約1kb〜5Mb、約5kb〜5Mb、約5kb〜2Mb、約10kb〜2Mb、約10kb〜1Mb、約20kb〜1Mb、約20kb〜500kb、約50kb〜500kb、約50kb〜200kb、約60kb〜200kb、約60kb〜150kb、約80kb〜150kb、約80kb〜120kb若しくは約100kb〜120kbの範囲、又はこれらの値のいずれかに囲まれる任意の範囲(例えば約150kb〜1Mb)にDNA分子を架橋結合することを含むように調製できる。
いくつかの実施形態において、サンプルポリヌクレオチドは1つ以上の特定のサイズ範囲の断片化したDNA分子の集団に断片化される。いくつかの実施形態において、断片は、少なくとも約1、約2、約5、約10、約20、約50、約100、約200、約500、約1000、約2000、約5000、約10,000、約20,000、約50,000、約100,000、約200,000、約500,000、約1,000,000、約2,000,000、約5,000,000、約10,000,000個又はより多くの出発DNAのゲノム同等物から生成することができる。断片化は、化学的、酵素的、機械的断片化含めて当技術分野において公知の方法によって達成することができる。いくつかの実施形態において、断片は、約10〜約10,000、約20,000、約30,000、約40,000、約50,000、約60,000、約70,000、約80,000、約90,000、約100,000、約150,000、約200,000、約300,000、約400,000、約500,000、約600,000、約700,000、約800,000、約900,000、約1,000,000、約2,000,000、約5,000,000、約10,000,000又はより長いヌクレオチドの平均長を有する。いくつかの実施形態において、断片は、約1kb〜約10Mbの平均長を有する。いくつかの実施形態において、断片は、約1kb〜5Mb、約5kb〜5Mb、約5kb〜2Mb、約10kb〜2Mb、約10kb〜1Mb、約20kb〜1Mb約20kb〜500kb、約50kb〜500kb、約50kb〜200kb、約60kb〜200kb、約60kb〜150kb、約80kb〜150kb、約80kb〜120kb若しくは約100kb〜120kb、又はこれらの値のいずれかに囲まれる任意の範囲(例えば約60〜120kb)の平均長を有する。いくつかの実施形態において、断片は、約10Mb未満、約5Mb未満、約1Mb未満、約500kb未満、約200kb未満、約100kb未満又は約50kb未満の平均長を有する。他の実施形態において、断片は、約5kb以上、約10kb以上、約50kb以上、約100kb以上、約200kb以上、約500kb以上、約1Mb以上、約5Mb以上又は約10Mb以上の平均長を有する。いくつかの実施形態において、断片化は、サンプルDNA分子を音波処理に供することを含めて、機械的に達成される。いくつかの実施形態において、断片化は、1つ以上の酵素が二本鎖核酸破断を生成するのに好適な条件下で1つ以上の酵素でサンプルDNA分子を処理することを含む。DNA断片の生成に有用な酵素の例には、配列特異的な及び配列非特異的なヌクレアーゼがある。ヌクレアーゼの限定されない例には、DNaseI、断片化酵素、制限エンドヌクレアーゼ、そのバリアント及びその組合せがある。例えば、DNaseIによる消化は、Mg++の非存在下及びMn++の存在下でDNAのランダムな二本鎖破断を誘導することができる。いくつかの実施形態において、断片化は、1つ以上の制限エンドヌクレアーゼでサンプルDNA分子を処理することを含む。断片化は、5'突出、3'突出、平滑末端、又はその組合せを有する断片を作製することができる。いくつかの実施形態において、断片化が、1つ以上の制限エンドヌクレアーゼの使用を含む場合など、サンプルDNA分子の切断により、予測可能な配列を有する突出が残る。いくつかの実施形態において、本方法は、カラム精製又はアガロースゲルからの単離など標準的な方法によって断片をサイズ選択するステップを含む。
いくつかの実施形態において、断片化したDNAの5'及び/又は3'末端ヌクレオチド配列は、ライゲーションの前に修飾されない。例えば、制限エンドヌクレアーゼによる断片化を使用して、予測可能な突出を残し、その後にDNA断片上にある予測可能な突出と相補的な突出を含む核酸末端とライゲーションすることができる。別の例において、予測可能な平滑末端を残す酵素による切断の後に、続けてアダプター、オリゴヌクレオチド又はポリヌクレオチドなど平滑末端を含む核酸に平滑末端化したDNA断片をライゲーションすることができる。いくつかの実施形態において、断片化したDNA分子を、平滑末端に削って(又は「末端修復して」)、平滑末端を有するDNA断片を作製した後に、アダプターに接合する。平滑末端を削るステップは、3'→5'エキソヌクレアーゼ活性と5'→3'ポリメラーゼ活性の両方を有するDNAポリメラーゼ、例えばT4ポリメラーゼなど適切な酵素とインキュベーションすることによって達成できる。いくつかの実施形態において、末端修復の後に、1つ以上のアデニン、1つ以上のチミン、1つ以上のグアニン若しくは1つ以上のシトシンなど1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20個又はより多くのヌクレオチドの付加を続けて、突出を作製することができる。例えば、末端対は、続けて1、2、3、4、5又は6個のヌクレオチドを付加することができる。ライゲーション反応などにおいて、突出を有するDNA断片は、相補的突出を有するオリゴヌクレオチド、アダプターオリゴヌクレオチド又はポリヌクレオチドなど1つ以上の核酸に接合することができる。例えば、鋳型非依存的なポリメラーゼを使用して末端修復したDNA断片の3'末端に単一アデニンを付加し、その後それぞれ3'末端にチミンを有する1つ以上のアダプターにライゲーションすることができる。いくつかの実施形態において、オリゴヌクレオチド又はポリヌクレオチドなどの核酸は、1つ以上のヌクレオチドにより3'末端を伸長し、その後に5'リン酸化を続けることによって修飾されている平滑末端二本鎖DNA分子に接合することができる。いくつかの場合において、3'末端の伸長は、マグネシウムを含有することができる適切な緩衝液に1つ以上のdNTPの存在下で、Klenowポリメラーゼ若しくは本明細書に提供された任意の適切なポリメラーゼなどのポリメラーゼにより、又は末端デオキシヌクレオチド転移酵素の使用により実施することができる。いくつかの実施形態において、平滑末端を有する標的ポリヌクレオチドは、平滑末端を含む1つ以上のアダプターに接合される。DNA断片分子の5'末端のリン酸化は、例えば、ATP及びマグネシウムを含有する適切な緩衝液中でT4ポリヌクレオチドキナーゼにより実施することができる。任意選択で、例えば、ホスファターゼなど、当技術分野において公知の酵素を使用することによって、断片化したDNA分子を処理して、5'末端又は3'末端を脱リン酸化することができる。
アダプターオリゴヌクレオチド及び標的ポリヌクレオチドなど2つのポリヌクレオチドに関して、本明細書では用語「接続する」、「接合する」及び「ライゲーション」とは、2つの別々のDNAセグメントを共有結合して、連続した骨格を持つ単一のより長いポリヌクレオチドを作製することを指す。2つのDNAセグメントを接合する方法は当技術分野において公知であり、それだけには限らないが、酵素的及び非酵素的(例えば化学的)方法を含む。非酵素的であるライゲーション反応の例には、米国特許第5,780,613号及び第5,476,930号に記載される非酵素的なライゲーション技法があり、それらを参照により本明細書に組み込む。いくつかの実施形態において、アダプターオリゴヌクレオチドは、リガーゼ、例えばDNAリガーゼ又はRNAリガーゼによって標的ポリヌクレオチドに接合される。それぞれ特徴付けられた反応条件を有する複数のリガーゼが当技術分野において公知であり、それだけには限らないが、tRNAリガーゼ、Taq DNAリガーゼ、サームスフィリフォルミス(Thermus filiformis)DNAリガーゼ、大腸菌DNAリガーゼ、Tth DNAリガーゼ、サームススコトダクタス(Thermus scotoductus)DNAリガーゼ(I及びII)、耐熱性リガーゼ、Ampligase耐熱性DNAリガーゼ、VanC-型リガーゼ、9°N DNAリガーゼ、Tsp DNAリガーゼ及び生物資源調査によって発見される新規なリガーゼを含めたNAD+依存的リガーゼ、T4 RNAリガーゼ、T4 DNAリガーゼ、T3 DNAリガーゼ、T7 DNAリガーゼ、Pfu DNAリガーゼ、DNAリガーゼ1、DNAリガーゼIII、DNAリガーゼIV及び生物資源調査によって発見される新規なリガーゼを含めたATP依存性リガーゼ、並びにその野生型、変異体アイソフォーム及び遺伝子操作されたバリアントがある。
ライゲーションは、相補的突出などハイブリダイズ可能な配列を有するDNAセグメントの間で可能である。ライゲーションは、2つの平滑末端の間でも可能である。通常、5'リン酸がライゲーション反応に利用される。5'リン酸は、標的ポリヌクレオチド、アダプターオリゴヌクレオチド又は両方によって提供され得る。5'リン酸は、必要に応じて接合されるDNAセグメントに付加する又はそれから除去することができる。5'リン酸を付加又は除去する方法は当技術分野において公知であり、それだけには限らないが、酵素的及び化学的過程を含む。5'リン酸の付加及び/又は除去に有用な酵素には、キナーゼ、ホスファターゼ及びポリメラーゼがある。いくつかの実施形態において、2つの末端を接合する際に共有結合が2つ作られるように、ライゲーション反応において接合される2つの末端の両方(例えばアダプター末端及び標的ポリヌクレオチド末端)が、5'リン酸を提供する。いくつかの実施形態において、2つの末端を接合する際に共有結合が1つだけ作られるように、ライゲーション反応において接合される2つの末端の一方だけ(例えばアダプター末端及び標的ポリヌクレオチド末端の一方だけ)が、5'リン酸を提供する。
いくつかの実施形態において、標的ポリヌクレオチドの一方又は両方の末端で1つの鎖だけが、アダプターオリゴヌクレオチドに接合される。いくつかの実施形態において、標的ポリヌクレオチドの一方又は両方の末端で両方の鎖が、アダプターオリゴヌクレオチドに接合される。いくつかの実施形態において、3'リン酸はライゲーションの前に除去される。いくつかの実施形態において、アダプターオリゴヌクレオチドが、標的ポリヌクレオチドの両方の末端に付加され、各末端で1つ又は両方の鎖が、1つ以上のアダプターオリゴヌクレオチドに接合される。両方の末端で両方の鎖がアダプターオリゴヌクレオチドに接合される場合、接合の後に、対応する3'末端を伸長するための鋳型としての機能を果たし得る5'突出を残す切断反応を続けることができ、その3'末端は、アダプターオリゴヌクレオチドに由来する1つ以上のヌクレオチドを含むことができる又は含むことができない。いくつかの実施形態において、標的ポリヌクレオチドは、一方の末端で第1のアダプターオリゴヌクレオチド及び他方の末端で第2のアダプターオリゴヌクレオチドに接合される。いくつかの実施形態において、標的ポリヌクレオチドの2つの末端は、単一のアダプターオリゴヌクレオチドの反対の末端に接合される。いくつかの実施形態において、接合される標的ポリヌクレオチド及びアダプターオリゴヌクレオチドは、平滑末端を含む。いくつかの実施形態において、いかなるバーコード配列も2つ以上のサンプルの標的ポリヌクレオチドに接合されないように、各サンプルに対して少なくとも1つのバーコード配列を含む異なる第1のアダプターオリゴヌクレオチドを使用して、各サンプルについて別々のライゲーション反応を実施することができる。接合したアダプターオリゴヌクレオチドを有するDNAセグメント又は標的ポリヌクレオチドは、接合されたアダプターによって「タグ付けされた」と見なされる。
いくつかの場合において、ライゲーション反応は、約0.1ng/μL、約0.2ng/μL、約0.3ng/μL、約0.4ng/μL、約0.5ng/μL、約0.6ng/μL、約0.7ng/μL、約0.8ng/μL、約0.9ng/μL、約1.0ng/μL、約1.2ng/μL、約1.4ng/μL、約1.6ng/μL、約1.8ng/μL、約2.0ng/μL、約2.5ng/μL、約3.0ng/μL、約3.5ng/μL、約4.0ng/μL、約4.5ng/μL、約5.0ng/μL、約6.0ng/μL、約7.0ng/μL、約8.0ng/μL、約9.0ng/μL、約10ng/μL、約15ng/μL、約20ng/μL、約30ng/μL、約40ng/μL、約50ng/μL、約60ng/μL、約70ng/μL、約80ng/μL、約90ng/μL、約100ng/μL、約150ng/μL、約200ng/μL、約300ng/μL、約400ng/μL、約500ng/μL、約600ng/μL、約800ng/μL又は約1000ng/μLのDNAセグメント若しくは標的ポリヌクレオチド濃度で実施することができる。例えば、ライゲーションは、約100ng/μL、約150ng/μL、約200ng/μL、約300ng/μL、約400ng/μL又は約500ng/μLのDNAセグメント若しくは標的ポリヌクレオチド濃度で実施することができる。
いくつかの場合において、ライゲーション反応は、約0.1〜1000ng/μL、約1〜1000ng/μL、約1〜800ng/μL、約10〜800ng/μL、約10〜600ng/μL、約100〜600ng/μL又は約100〜500ng/μLのDNAセグメント若しくは標的ポリヌクレオチド濃度で実施することができる。
いくつかの場合において、ライゲーション反応は、約5分間、約10分間、約20分間、約30分間、約40分間、約50分間、約60分間、約90分間、約2時間、約3時間、約4時間、約5時間、約6時間、約8時間、約10時間、約12時間、約18時間、約24時間、約36時間、約48時間又は約96時間より長く実施することができる。他の場合において、ライゲーション反応は、約5分間、約10分間、約20分間、約30分間、約40分間、約50分間、約60分間、約90分間、約2時間、約3時間、約4時間、約5時間、約6時間、約8時間、約10時間、約12時間、約18時間、約24時間、約36時間、約48時間又は約96時間未満実施することができる。例えば、ライゲーション反応は、約30分〜約90分間実施することができる。いくつかの実施形態において、標的ポリヌクレオチドに対するアダプターの接合は、アダプター由来のヌクレオチド配列を含む3'突出を有する接合されたポリヌクレオチド産物を作製する。
いくつかの実施形態において、標的ポリヌクレオチドに少なくとも1つのアダプターオリゴヌクレオチドを接合した後に、1つ以上の標的ポリヌクレオチドの3'末端は、1つ以上の接合されたアダプターオリゴヌクレオチドを鋳型として使用して伸長される。例えば、標的ポリヌクレオチドの5'末端だけに接合しているハイブリダイズしたオリゴヌクレオチドを2つ含むアダプターにより、未接合の鎖の置き換えと同時に又はその後に、アダプターの接合鎖を鋳型として使用して、標的の未接合の3'末端の伸長が可能になる。接合した産物が5'突出を有し、5'突出を鋳型として使用して相補的3'末端を伸長できるように、ハイブリダイズしたオリゴヌクレオチドを2つ含むアダプターの両方の鎖を標的ポリヌクレオチドに接合できる。更なる例として、ヘアピンアダプターオリゴヌクレオチドを、標的ポリヌクレオチドの5'末端に接合することができる。いくつかの実施形態において、伸長される標的ポリヌクレオチドの3'末端は、アダプターオリゴヌクレオチドからのヌクレオチドを1つ以上含む。両方の末端でアダプターが接合されている標的ポリヌクレオチドの場合、伸長は、5'突出を有する二本鎖標的ポリヌクレオチドの両方の3'末端に実施することができる。この3'末端伸長又は「フィルイン」反応は、鋳型にハイブリダイズしているアダプターオリゴヌクレオチド鋳型に対する相補的配列又は「相補体」を生成し、したがって5'突出を埋めて、二本鎖配列領域を作製する。二本鎖標的ポリヌクレオチドの両方の末端が、相補鎖の3'末端の伸長により埋められる5'突出を有する場合、その産物は、完全に二本鎖である。伸長は、DNAポリメラーゼなど当技術分野において公知の任意の適切なポリメラーゼによって実施することができ、その多くは市販されている。DNAポリメラーゼは、DNA依存性DNAポリメラーゼ活性、RNA依存性DNAポリメラーゼ活性又はDNA依存性及びRNA依存性DNAポリメラーゼ活性を含むことができる。DNAポリメラーゼは耐熱性又は非耐熱性であり得る。DNAポリメラーゼの例には、それだけには限らないが、Taqポリメラーゼ、Tthポリメラーゼ、Tliポリメラーゼ、Pfuポリメラーゼ、Pfutuboポリメラーゼ、Pyrobestポリメラーゼ、Pwoポリメラーゼ、KODポリメラーゼ、Bstポリメラーゼ、Sacポリメラーゼ、Ssoポリメラーゼ、Pocポリメラーゼ、Pabポリメラーゼ、Mthポリメラーゼ、Phoポリメラーゼ、ES4ポリメラーゼ、VENTポリメラーゼ、DEEPVENTポリメラーゼ、EX-Taqポリメラーゼ、LA-Taqポリメラーゼ、Expandポリメラーゼ、Platinum Taqポリメラーゼ、Hi-Fiポリメラーゼ、Tbrポリメラーゼ、Tflポリメラーゼ、Truポリメラーゼ、Tacポリメラーゼ、Tneポリメラーゼ、Tmaポリメラーゼ、Tihポリメラーゼ、Tfiポリメラーゼ、Klenowフラグメント並びにそのバリアント、修飾産物及び誘導体がある。3'末端の伸長は、独立したサンプルから標的ポリヌクレオチドをプールする前か後に実施することができる。
特定の実施形態において、本開示は、標的核酸の濃縮及び標的核酸の分析の方法を提供する。いくつかの場合において、濃縮の方法は、溶液系の形式である。いくつかの場合において、標的核酸は、標識化剤で標識することができる。他の場合において、標的核酸は、標識化剤で標識される1つ以上の会合分子に架橋することができる。標識化剤の例には、それだけには限らないがビオチン、ポリヒスチジンタグ及び化学的タグ(例えば、クリック化学法において使用されるアルキン及びアジド誘導体)がある。更に、標識された標的核酸は捕捉することができ、そのため捕捉剤を使用することによって濃縮することができる。捕捉剤は、ストレプトアビジン及び/又はアビジン、抗体、化学的部分(例えばアルキン、アジ化物)、並びに当技術分野において公知の親和性精製に使用される任意の生物、化学、物理若しくは酵素剤であり得る。
いくつかの場合において、固定化された又は固定化されていない核酸プローブを使用して、標的核酸を捕捉することができる。例えば、標的核酸は、固体支持体上又は溶液中のプローブに対するハイブリダイゼーションによりサンプルから濃縮することができる。いくつかの例において、サンプルはゲノムサンプルであり得る。いくつかの例において、プローブはアンプリコンであり得る。アンプリコンは、既定の配列を含むことができる。更に、ハイブリダイズした標的核酸は、洗浄する及び/又はプローブから溶出することができる。標的核酸は、DNA、RNA、cDNA又はmRNA分子であり得る。
いくつかの場合において、濃縮方法は、プローブに標的核酸を含むサンプルを接触させるステップと、固体支持体に標的核酸を結合させるステップとを含むことができる。いくつかの場合において、サンプルを、化学的、物理的又は酵素的方法を使用して断片化して、標的核酸を産生することができる。いくつかの場合において、プローブは、標的核酸に特異的にハイブリダイズすることができる。いくつかの場合において、標的核酸は、約50〜5000、約50〜2000、約100〜2000、約100〜1000、約200〜1000、約200〜800又は約300〜800、約300〜600又は約400〜600ヌクレオチド残基の平均サイズを有することができる。標的核酸は、サンプル中の結合していない核酸から更に分離することができる。固体支持体を洗浄及び/又は溶出して、濃縮標的核酸を得ることができる。いくつかの例において、濃縮ステップは、約1、2、3、4、5、6、7、8、9又は10回繰り返すことができる。例えば、濃縮ステップは、約1、2又は3回繰り返すことができる。
いくつかの場合において、濃縮法は、プローブ由来アンプリコンを準備することを含むことができ、前記増幅用のプローブは固体支持体に結合している。固体支持体は、サンプルから特異的な標的核酸を捕捉するために、支持体に固定化された核酸プローブを含むことができる。プローブ由来アンプリコンは、標的核酸にハイブリダイズすることができる。プローブアンプリコンへのハイブリダイゼーション後に、サンプル中の標的核酸を、捕捉し(例えば、ビオチン、抗体等の捕捉剤による)、洗浄し及び/又は捕捉したプローブからハイブリダイズした標的核酸を溶出することによって濃縮できる(図4)。標的核酸配列を、例えばPCR法を使用して更に増幅して、濃縮PCR産物の増幅されたプールを作製することができる。
いくつかの場合において、固体支持体は、マイクロアレイ、スライド、チップ、マイクロウエル、カラム、管、粒子又はビーズであり得る。いくつかの例において、固体支持体は、ストレプトアビジン及び/又はアビジンでコーティングされることができる。他の例において、固体支持体は、抗体でコーティングされることができる。更に、固体支持体は、ガラス、金属、セラミック又はポリマー材料を含むことができる。いくつかの実施形態において、固体支持体は、核酸マイクロアレイ(例えばDNAマイクロアレイ)であり得る。他の実施形態において、固体支持体は、常磁性ビーズであり得る。
いくつかの場合において、濃縮方法は、第2の制限酵素による消化、セルフライゲーション(例えば自己環状化)、及び最初の制限酵素による再消化を含むことができる。特定の例において、ライゲーション産物だけが線状化されることになり、アダプターライゲーション及び配列決定に利用可能になる。他の場合において、ライゲーション接合部配列自体を使用して、接合部配列に相補的なベイトプローブを使用するハイブリダイゼーションに基づいて濃縮することができる。
特定の実施形態において、本開示は、濃縮DNAを増幅する方法を提供する。いくつかの場合において、濃縮DNAは、リード対である。リード対は、本開示の方法によって得ることができる。
いくつかの実施形態において、1つ以上の増幅及び/又は複製ステップを使用して、配列決定しようとするライブラリーを調製する。当技術分野において公知の任意の増幅法を使用することができる。使用できる増幅技法の例には、それだけには限らないが、定量的PCR、定量的蛍光PCR(QF-PCR)、多重蛍光PCR(MF-PCR)、リアルタイムPCR(RTPCR)、単一細胞PCR、制限断片長多型PCR(PCR-RFLP)、PCK-RFLPIRT-PCR-IRFLP、ホットスタートPCR、ネステッドPCR、in situポロノニーPCR(polonony PCR)、in situローリングサークル増幅(RCA)、ブリッジPCR、ライゲーション媒介PCR、Qbレプリカーゼ増幅、インバースPCR、ピコタイターPCR及びエマルジョンPCRがある。他の適切な増幅法には、リガーゼ連鎖反応(LCR)、転写増幅、自家持続配列複製法、標的ポリヌクレオチド配列の選択的増幅、共通配列プライムドポリメラーゼ連鎖反応(consensus sequence primed polymerase chain reaction)(CP-PCR)、任意プライムドポリメラーゼ連鎖反応(arbitrarily primed polymerase chain reaction)(AP-PCR)、縮重オリゴヌクレオチドプライムドPCR(DOP-PCR)及び核酸配列ベース増幅(NABSA)がある。本明細書において使用できる他の増幅法は、米国特許第5,242,794号、第5,494,810号、第4,988,617号、及び第6,582,938号に記載されるそれらを含む。
特定の実施形態において、DNA分子を個々の区画に分注した後に、PCRを使用してDNA分子を増幅する。いくつかの場合において、増幅アダプター内の1つ以上の特異的プライミング配列が、PCR増幅に利用される。増幅アダプターは、個々の区画に分注する前か後に断片化したDNA分子にライゲーションすることができる。両方の末端に適切なプライミング配列がある増幅アダプターを含むポリヌクレオチドは、指数的にPCR増幅することができる。例えば、プライミング配列を含む増幅アダプターの不完全なライゲーション効率により、適切なプライミング配列が1つしかないポリヌクレオチドは、直線的な増幅しか受けることができない。更に、適切なプライミング配列を含むアダプターが全くライゲーションされない場合、ポリヌクレオチドは、増幅、例えばPCR増幅から全部まとめて取り除かれ得る。いくつかの実施形態において、PCRサイクルの数は、10〜30サイクルで変化するが、9、8、7、6、5、4、3、2未満のサイクルと同程度に少ない又は40、45、50、55、60サイクルと同程度に多くなることができる。その結果、PCR増幅の後には、適切なプライミング配列を持つ増幅アダプターを保有する指数的に増幅可能な断片は、線形に増幅可能な又は増幅不能な断片と比較して、非常に高い濃度(1000倍又はそれ以上)で存在することができる。全ゲノム増幅技法(ランダム化プライマーによる増幅又はphi29ポリメラーゼを使用する多置換増幅など)と比較して、PCRの恩恵は、それだけには限らないが、より均質な相対的配列カバレッジ、[各断片は、1サイクルにつき最高でも1回しかコピーされ得ず、増幅は、熱サイクルプログラムによって制御されるので、例えばMDAよりキメラ分子の形成率が実質的に低い(Laskenら、2007年、BMC Biotechnology)][キメラ分子は、アセンブリグラフ中に非生物性配列が存在することにより正確な配列アセンブリに大きな課題をもたらすので、より高い率のミスアセンブリ又は非常に曖昧で断片的なアセンブリが生じる可能性があり、特異的配列を持つ特異的なプライミング部位を使用することと比較して、MDAにおいて一般に使用されるランダム化プライマーの結合に起因し得る、配列特異的なバイアスが減少する]、PCRサイクルの数の選択によって制御できる最終的な増幅DNA産物の量の高い再現性、及び当技術分野において公知の一般的な全ゲノム増幅技法と比べて、PCRにおいて一般的に使用されるポリメラーゼによる複製の高い忠実度が挙げられる。
いくつかの実施形態において、フィルイン反応が、第1のプライマー及び第2のプライマーを使用する1つ以上の標的ポリヌクレオチドの増幅の一部として続けられる又は実施され、第1のプライマーは、第1のアダプターオリゴヌクレオチドの1つ以上の相補体の少なくとも一部にハイブリダイズ可能な配列を含み、更に第2のプライマーは、第2のアダプターオリゴヌクレオチドの1つ以上の相補体の少なくとも一部にハイブリダイズ可能な配列を含む。第1及び第2のプライマーのそれぞれは、約10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、90、100ヌクレオチド又はそれ未満若しくはより長いヌクレオチドなど任意の適切な長さであり得、その任意の部分又は全ては、対応する標的配列(例えば約5、10、15、20、25、30、35、40、45、50ヌクレオチド又はそれ未満若しくはより長いヌクレオチド)と相補的であり得る。例えば、約10〜50ヌクレオチドが、対応する標的配列と相補的であり得る。
「増幅」とは、標的配列のコピー数が増加する任意の過程のことを指す。いくつかの場合において、複製反応は、ポリヌクレオチドの相補的コピー/複写を1つだけ作製することができる。標的ポリヌクレオチドのプライマー指向性増幅の方法は、当技術分野において公知であり、それだけには限らないが、ポリメラーゼ連鎖反応(PCR)に基づく方法を含む。PCRによる標的配列の増幅に有利な条件は、当技術分野において公知であり、その過程の様々なステップで最適化することができ、標的型、標的濃度、増幅される配列長、標的及び/又は1つ以上のプライマーの配列、プライマー長、プライマー濃度、使用するポリメラーゼ、反応容積、1つ以上のエレメントと1つ以上の他エレメントの比、その他など反応中のエレメントの特性に依存しており、そのいくつか又は全ては改変することができる。一般に、PCRは、増幅される標的の変性(二本鎖の場合)、標的への1つ以上のプライマーのハイブリダイゼーション及びDNAポリメラーゼによるプライマーの伸長ステップを含み、標的配列を増幅するために繰り返される(又は「サイクルされる」)ステップを伴う。この過程におけるステップは、収率の向上、偽産物形成の低下及び/又はプライマーアニーリングの特異性の増加若しくは低下など様々な結果に対して最適化することができる。最適化の方法は、当技術分野で周知であり、増幅反応におけるエレメントの型若しくは量、並びに/又は特定のステップにおける温度、特定のステップの継続時間及び/若しくはサイクル数などの過程における所与のステップの条件の調整を含む。
いくつかの実施形態において、増幅反応は、少なくとも約5、10、15、20、25、30、35、40、50、60、70、80、90、100、150、200又はより多いサイクルを含むことができる。いくつかの例において、増幅反応は、少なくとも約20、25、30、35又は40サイクルを含むことができる。いくつかの実施形態において、増幅反応は、約5、10、15、20、25、35、40、50、60、70、80、90、100、150、200又はより多くのサイクル以下である。サイクルは、1、2、3、4、5、6、7、8、9、10又はより多くのステップなど、任意の数のステップを含有することができる。ステップは、3'末端伸長(例えばアダプターフィルイン)、プライマーアニーリング、プライマー伸長及び鎖変性を含むがそれには限定されない、所与のステップの目的を実現するのに適切な任意の温度又は温度勾配を含むことができる。ステップは、約1、5、10、15、20、25、30、35、40、45、50、55、60、70、80、90、100、120、180、240、300、360、420、480、540、600、1200、1800秒又はそれ未満若しくはより長い時間を含むがこれに限定されない任意の継続時間、手作業で中断されるまで無制限の時間も含むものであり得る。異なるステップを含む任意の数のサイクルを、任意の順序で組み合わせることができる。いくつかの実施形態において、組合せにおけるサイクルの合計数が約5、10、15、20、25、30、35、40、50、60、70、80、90、100、150、200サイクル又はそれ未満若しくはより多くなるように、異なるステップを含む異なるサイクルが組み合わされる。いくつかの実施形態において、増幅はフィルイン反応の後に実施される。
いくつかの実施形態において、増幅反応は、少なくとも約1、2、3、4、5、6、7、8、9、10、12、14、16、18、20、25、30、40、50、100、200、300、400、500、600、800、1000ngの標的DNA分子で実施することができる。他の実施形態において、増幅反応は、約1、2、3、4、5、6、7、8、9、10、12、14、16、18、20、25、30、40、50、100、200、300、400、500、600、800、1000ng未満の標的DNA分子で実施することができる。
増幅は、独立したサンプルから標的ポリヌクレオチドをプールする前か後に実施することができる。
本開示の方法は、サンプル中に存在する増幅可能な核酸の量を決定することを含む。任意の公知の方法を使用して、増幅可能な核酸を定量化することができ、典型的な方法はポリメラーゼ連鎖反応(PCR)、特に定量的ポリメラーゼ連鎖反応(qPCR)である。qPCRは、ポリメラーゼ連鎖反応に基づく技法であり、それを使用して、標的した核酸分子を増幅し、同時に定量化する。qPCRは、DNAサンプル中の特異的な配列の検出と定量化(入力DNA又は追加の標準化用遺伝子に対して標準化される際に、コピーの絶対数又は相対量として)の両方を可能にする。手順は、ポリメラーゼ連鎖反応の一般的な原則に従っており、反応において各増幅サイクル後に増幅されたDNAが蓄積する際に、リアルタイムでそのDNAを定量化する追加の特徴を伴う。QPCRについては、例えば、Kurnitら(米国特許第6,033,854号)、Wangら(米国特許第5,567,583号及び第5,348,853号)、Maら(The Journal of American Science、2(3)、2006年)、Heidら(Genome Research、986〜994頁、1996年)、Sambrook及びRussell(Quantitative PCR、Cold Spring Harbor Protocols、2006年)、並びにHiguchi米国特許第6,171,785号及び第5,994,056号)に記載されている。これらの内容は、その全体を参照により本明細書に組み込む。
定量化の他の方法には、二本鎖DNAの間に入る蛍光色素及び、相補的DNAとハイブリダイズした場合に、蛍光を発する修飾DNAオリゴヌクレオチドプローブの使用がある。これらの方法は、広く使用することができるが、例として更に詳述した通りリアルタイムPCRにも特に適している。第1の方法において、DNA結合色素は、PCRにおいて全ての二本鎖DNA(ds)に結合し、色素の蛍光を生じる。そのため、PCRの間のDNA産物の増加は、蛍光強度の増加をもたらし、各サイクルで測定され、したがってDNA濃度を定量化することが可能になる。反応は、標準的なPCR反応と同様に調製され、蛍光(ds)DNA色素が添加される。反応はサーモサイクラーで実行され、各サイクルの後に、蛍光レベルが検出器で測定される、色素は、(ds)DNA(即ち、PCR産物)に結合しているときしか蛍光を発さない。標準的な希釈を参照して、PCRにおける(ds)DNA濃度を決定することができる。他のリアルタイムPCR法のように、得られる値は、それと関連付けられた絶対単位を有さない。測定されたDNA/RNAサンプルと標準希釈との比較は、標準に対するサンプルの分数又は比率を与え、異なる組織間又は実験条件間の相対的な比較が可能になる。標的遺伝子の定量化及び/又は発現における精度を確実にするために、安定して発現する遺伝子に対して標準化することができる。未知の遺伝子のコピー数は、既知のコピー数の遺伝子に対して同様に標準化することができる。
第2の方法は、配列特異的RNA又はDNAに基づくプローブを使用して、プローブ配列を含有するDNAだけを定量化する、したがって、レポータープローブの使用は、特異性を著しく高め、いくらかの非特異的DNA増幅の存在下でも定量化を可能にする。全ての遺伝子が同程度の効率で増幅される場合には、これにより多重化、即ち、異なる色の標識を持つ特異的プローブを使用することにより同じ反応においていくつもの遺伝子をアッセイすることが可能になる。
この方法は、プローブの一方の末端に蛍光レポーター(例えば6-カルボキシフルオレスセイン)及び反対の末端に蛍光の消光物質(例えば、6-カルボキシテトラメチルローダミン)を持つDNAに基づくプローブで一般に実施されている。消光物質へのレポーターの近接近は、その蛍光の検出を妨げる。ポリメラーゼ(例えば、Taqポリメラーゼ)の5'→3'エキソヌクレアーゼ活性によるプローブの分解は、レポーター-消光物質の近接を破断し、したがって消光されていない蛍光が放射され、その放射を検出することができる。各PCRサイクルにおけるレポータープローブに標的された産物の増加は、プローブの分解及びレポーターの放出により蛍光の比例した増加がもたらす。反応は、標準的なPCR反応と同様に調製され、レポータープローブが添加される。反応が始まるとき、PCRのアニーリング期の間、プローブとプライマー両方がDNA標的にアニールする。新たなDNA鎖の重合は、プライマーから開始され、一旦、ポリメラーゼがプローブに達すると、その5'→3'エキソヌクレアーゼはプローブを分解し、蛍光レポーターと消光物質とを物理的に分離し、蛍光が増加する。蛍光は、リアルタイムPCRサーモサイクラーで検出及び測定され、産物の指数関数的な増加に対応する蛍光の幾何学的な増加を使用して、各反応における閾値サイクルを決定する。
サイクル数に対する蛍光を対数目盛にプロットすることによって(それで指数的に増加している量は直線を与える)、反応の対数期の間に存在するDNAの相対濃度が決定される。バックグラウンドを越える蛍光の検出の閾値が、決定される。サンプルからの蛍光が閾値と交差するサイクルは、サイクル閾値、Ctと呼ばれる。対数期の間、DNAの量はサイクル毎に2倍になるので、DNAの相対量を算出することができる、例えば別のサンプルより3サイクル早いCtのサンプルは、23 = 8倍多くの鋳型を有する。次いで、結果を、既知の量の核酸の段階希釈(例えば原液、1:4、1:16、1:64)のリアルタイムPCRによって作製される標準曲線と比較することによって、核酸(例えば、RNA又はDNA)の量が決定される。
特定の実施形態において、qPCR反応は、蛍光共鳴エネルギー移動(FRET)を利用する二重発蛍光団手法、例えば、LIGHTCYCLERハイブリダイゼーションプローブを含み、ここで2つのオリゴヌクレオチドプローブが、アンプリコンにアニールする(例えば、米国特許第6,174,670号を参照のこと)。オリゴヌクレオチドは、効果的なエネルギー移動に適合する距離で分離されている発蛍光団とヘッドトゥーテールの方向にハイブリダイズするように設計されている。核酸に結合している又は伸長産物に組み込まれているときにシグナルを放射するよう構造化されている標識オリゴヌクレオチドの他の例には、:SCORPIONSプローブ(例えば、Whitcombeら、Nature Biotechnology 17:804〜807頁、1999年及び米国特許第6,326,145号)、Sunrise(又はAMPLIFLOUR)プライマー(例えばNazarenkoら、Nuc. Acids Res. 25:2516〜2521頁、1997年及び米国特許第6,117,635号)、並びにLUXプライマー及びモレキュラービーコンプローブ(例えば、Tyagiら、Nature Biotechnology 14:303〜308頁、1996年及び米国特許第5,989,823号)がある。
他の実施形態において、qPCR反応は、蛍光Taqman法及びリアルタイムに蛍光を測定することができる機器(例えば、ABI Prism 7700 Sequence Detector)を使用する。Taqman反応は、2つの異なる蛍光色素で標識されているハイブリダイゼーションプローブを使用する。一方の色素は、レポーター色素(6-カルボキシフルオレスセイン)であり、他方は消光色素(6-カルボキシ-テトラメチルローダミン)である。プローブが完全であるとき、蛍光エネルギー移動が起こり、レポーター色素の蛍光放出は消光色素に吸収される。PCRサイクルの伸長段階の間に、蛍光ハイブリダイゼーションプローブは、DNAポリメラーゼの5'→3'核酸分解活性によって切断される。プローブの切断により、レポーター色素の放射は、もはや消光色素へと効率的に移動せず、結果としてレポーター色素の蛍光放射スペクトルが増加する。リアルタイム法又は単一点検出法を含めた任意の核酸定量化法を使用して、サンプル中の核酸の量を定量化することができる。検出は、いくつかの異なる方法(例えば染色、標識プローブとのハイブリダイゼーション、ビオチン化プライマーを組み込み後のアビジン-酵素コンジュゲート検出、 dCTP又はdATPなど、増幅されるセグメントへの32P標識デオキシヌクレオチド三リン酸の組み込み)、及び核酸定量化のための当技術分野において公知の他の任意の適切な検出法を実施できる。定量化は、増幅ステップを含んでも含まなくてもよい。
いくつかの実施形態において、本開示は、連結したDNAセグメントを同定又は定量化するための標識を提供する。いくつかの場合において、連結されたDNAセグメントを標識して、アレイハイブリダイゼーションなど下流の適用を支援することができる。例えば、連結されたDNAセグメントは、ランダムプライミング又はニックトランスレーションを使用して標識することができる。
様々な標識(例えばレポーター)を使用して、増幅ステップを含むがこれに限定されない間に、本明細書に記載されるヌクレオチド配列を標識することができる。適切な標識には、放射性核種、酵素、蛍光、化学発光又は発色剤及びリガンド、補助因子、阻害剤、磁気粒子などがある。そのような標識の例は、米国特許第3,817,837号、米国特許第3,850,752号、米国特許第3,939,350号、米国特許第3,996,345号、米国特許第4,277,437号、米国特許第4,275,149号及び米国特許第4,366,241号に含まれ、その全体を参照により組み込む。
追加の標識には、それだけには限らないがβ-ガラクトシダーゼ、インベルターゼ、緑色蛍光タンパク質、ルシフェラーゼ、クロラムフェニコール、アセチルトランスフェラーゼ、β-グルクロニダーゼ、エキソグルカナーゼ及びグルコアミラーゼがある。蛍光標識、及び特定の化学的性質を持つ特別に合成された蛍光試薬を使用することもできる。蛍光を測定する様々な方法が、利用可能である。例えば、いくつかの蛍光標識は、励起又は放射スペクトルの変化を呈し、いくつかは、1つの蛍光レポーターが蛍光を失う一方で第2のレポーターが蛍光を増加させる共鳴エネルギー移動を呈し、いくつかは蛍光の消失(消光)又は出現を呈し、一方でいくつかは回転運動を報告する。
更に、標識するのに十分な材料を得るために、反応当たりの増幅サイクル数を増加させる代わりに、複数の増幅をプールすることができる。別法として、標識ヌクレオチドは、増幅反応の最後のサイクルに組み込むことができる、例えば30サイクルのPCR(標識なし)+10サイクルのPCR(+標識)。
特定の実施形態において、本開示は、連結したDNAセグメントに結合できるプローブを提供する。本明細書では、用語「プローブ」とは、対象となる別の分子(例えば、別のオリゴヌクレオチド)にハイブリダイズする能力がある分子(例えば、精製した制限消化物のように天然に存在するか又は合成的に、組換え的に若しくはPCR増幅によって作製されるかを問わないオリゴヌクレオチド)のことを指す。プローブがオリゴヌクレオチドであるとき、それらは一本鎖又は二本鎖であり得る。プローブは、特定の標的(例えば、遺伝子配列)の検出、同定及び単離に有用である。いくつかの場合において、プローブは、酵素(例えば、ELISA及び酵素ベースの組織化学的アッセイ)、蛍光、放射性、及び発光性のシステムを含むがこれに限らない任意の検出システムで検出可能である標識と会合させることができる。
アレイ及びマイクロアレイに関しては、用語「プローブ」は、前記プローブにハイブリダイズしたヌクレオチド配列を検出する目的でアレイに貼り付けられるハイブリダイズ可能な任意の材料を指すために使用される。いくつかの場合において、プローブは、約10bp〜500bp、約10bp〜250bp、約20bp〜250bp、約20bp〜200bp、約25bp〜200bp、約25bp〜100bp、約30bp〜100bp、又は約30bp〜80bpであり得る。いくつかの場合において、プローブは、長さ約10bp、約20bp、約30bp、約40bp,約50bp、約60bp、約70bp、約80bp、約90bp、約100bp、約150bp、約200bp、約250bp、約300bp、約400bp又は約500bpより長くなることができる。例えば、プローブは長さ約20〜約50bpであり得る。プローブ設計の例及び理論的根拠は、WO95/11995、欧州特許第717,113号及びWO97/29212に見出すことができる。
いくつかの場合において、制限酵素によって消化される部位の近くにハイブリダイズできるように、1つ以上のプローブを設計することができる。例えば、プローブは、制限酵素認識部位の約10bp、約20bp、約30bp、約40bp、約50bp、約60bp、約70bp、約80bp、約90bp、約100bp、約150bp、約200bp、約250bp、約300bp、約400bp又は約500bpの範囲にあり得る。
他の場合において、単一且つ固有のプローブは、制限酵素によって消化される部位の各側約10bp、約20bp、約30bp、約40bp、約50bp、約60bp、約70bp、約80bp、約90bp、約100bp、約150bp、約200bp、約250bp、約300bp、約400bp又は約500bpの範囲に設計することができる。制限酵素によって消化される部位のいずれの側でもハイブリダイズできるように、プローブを設計することができる。例えば、一次制限酵素認識部位の各側で単一プローブを使用することができる。
更なる場合において、2、3、4、5、6、7、8つ又はより多くのプローブを、制限酵素認識部位の各側で設計することができ、次いでそれらプローブを使用して、同じライゲーション事象を調査することができる。例えば、2又は3つのプローブを制限酵素認識部位の各側で設計することができる。いくつかの例において、一次制限酵素認識部位当たり複数(例えば2、3、4、5、6、7又は8つ又はより多く)のプローブの使用は、個々のプローブから偽陰性の結果を得る問題を最小化するのに有用になり得る。
本明細書では、用語「プローブの組」とは、ゲノム中の一次制限酵素に対する一次制限酵素認識部位の1つ以上にハイブリダイズできるプローブ一式又は集合のことを指す。
いくつかの場合において、1組のプローブは、ゲノムDNA中の制限酵素に対する一次制限酵素認識部位の1つ以上に隣接する核酸配列に対して配列において相補的であり得る。例えば、プローブの組は、ゲノムDNA中の制限酵素認識部位の1つ以上に隣接するヌクレオチドの約10bp〜500bp、約10bp〜250bp、約20bp〜250bp、約20bp〜200bp、約25bp〜200bp、約25bp〜100bp、約30bp〜100bp、又は約30bp〜80bpに対して配列において相補的であり得る。プローブの組は、制限酵素認識部位の片側(例えばいずれか)又は両側に対して配列において相補的であり得る。したがって、プローブはゲノムDNA中の一次制限酵素認識部位の1つ以上の各側に隣接する核酸配列に対して配列において相補的であり得る。更に、プローブの組は、ゲノムDNA中の一次制限酵素認識部位の1つ以上から約10bp、約20bp、約30bp、約40bp、約50bp、約60bp、約70bp、約80bp、約90bp、約100bp、約150bp、約200bp、約250bp、約300bp、約400bp又は約500bp未満にある核酸配列に対して配列において相補的であり得る。
いくつかの場合において、2つ以上のプローブを、ゲノムDNA中の制限酵素認識部位の1つ以上に隣接する配列にハイブリダイズできるように設計することができる。プローブは、重複又は部分的に重複することができる。
プローブ、プローブのアレイ又はプローブの組は、支持体に固定化することができる。支持体(例えば固体支持体)は、ガラス、シリカ、プラスチック、ナイロン又はニトロセルロースなど様々な材料ででき得る。支持体は好ましくは堅く、平面表面を有する。支持体は約1〜10,000,000個の分割された座を有することができる。例えば、支持体は、約10〜10,000,000、約10〜5,000,000、約100〜5,000,000、約100〜4,000,000、約1000〜4,000,000、約1000〜3,000,000、約10,000〜3,000,000、約10,000〜2,000,000、約100,000〜2,000,000又は約100,000〜1,000,000個の分割された座を有することができる。分割された座の密度は、1平方センチメートルの範囲に少なくとも約10、約100、約1000、約10,000、約100,000又は約1,000,000個の分割された座であり得る。いくつかの場合において、分割された各座は、>95%を単一型のオリゴヌクレオチドによって占有できる。他の場合において、各分割された座は、プローブ又は1組のプローブのプールされた混合物によって占有できる。更なる場合において、いくつかの分割された座は、プローブ又は1組のプローブのプールされた混合物によって占有され、他の分割された座は、>95%を単一型のオリゴヌクレオチドによって占有される。
いくつかの場合において、アレイ上の所与のヌクレオチド配列に対するプローブ数は、そのようなアレイにハイブリダイズさせるDNAサンプルに対して大過剰であり得る。例えば、アレイは、入力サンプル中のDNA量に対して約10、約100、約1000、約10,000、約100,000、約1,000,000、約10,000,000又は約100,000,000倍のプローブ数を有することができる。
いくつかの場合において、アレイは、約10、約100、約1000、約10,000、約100,000、約1,000,000、約10,000,000、約100,000,000又は約1,000,000,000個のプローブを有することができる。
プローブのアレイ又はプローブの組は、支持体上で段階的な方式で合成することができ、又は予め合成された形態で結合させることもできる。合成の1つ方法は、VLSIPS(商標)(米国特許第5,143,854号及び欧州特許第476,014号に記載の通り)であり、その方法は、高密度且つ小型化されたアレイにオリゴヌクレオチドプローブを合成するために光の使用を伴う。合成サイクル数を減らすためのマスク設計のアルゴリズムについては、米国特許第5,571,639号及び米国特許第5,593,839号に記載されている。欧州特許第624,059号に記載の通り、アレイは、機械的に制約された流路によってモノマーを支持体のセルに供給することによって組合せ様式で合成することもできる。アレイは、インクジェット式プリンタを使用して支持体に試薬をスポットすることによって合成することもできる(例えば、欧州特許第728,520号を参照のこと)。
いくつかの実施形態において、本開示は、連結したDNAセグメントをアレイにハイブリダイズさせる方法を提供する。「基板」又は「アレイ」は、合成的か又は生合成的かいずれかで調製することができ、様々な異なる形式の生物学的活性についてスクリーニングすることができる意図的に作り出された核酸の集合である(例えば、可溶性分子のライブラリー、及び樹脂ビーズ、シリカチップ又は他の固体支持体に繋がれたオリゴヌクレオチドのライブラリー)。加えて、用語「アレイ」は、基本的に任意の長さ(例えば、長さ1〜約1000ヌクレオチドモノマー)の核酸を基板にスポットすることによって調製できる核酸のライブラリーを含む。
アレイ技術並びに様々な関連技法及び用途については、通常、多くの教科書及び文書に記載されている。例えば、これらには、Lemieuxら、1998年、Molecular Breeding 4、277〜289頁、Schena及びDavis、Parallel Analysis with Biological Chips. in PCR Methods Manual(M. Innis、D. Gelfand、J. Sninsky編)、Schena及びDavis、1999年、Genes, Genomes and Chips. In DNA Microarrays: A Practical Approach(M. Schena編)、Oxford University Press、Oxford, UK、1999年)、The Chipping Forecast(Nature Genetics special issue、1999年1月補足)、Mark Schena(編)、Microarray Biochip Technology、(Eaton Publishing社)、Cortes、2000年、The Scientist 14[17]:25頁、Gwynn及びPage、Microarray analysis、the next revolution in molecular biology、Science、1999年8月6日、並びにEakins及びChu(1999) Trends in Biotechnology 17、217〜218頁がある。
一般に、ライブラリーのメンバーを空間的に分離することにより、任意のライブラリーを、秩序ある方式でアレイに配列することができる。配列するのに適したライブラリーの例には、核酸ライブラリー(DNA、cDNA、オリゴヌクレオチド等を含めたライブラリー)、ペプチド、ポリペプチド及びタンパク質ライブラリー並びにリガンドライブラリーなど任意の分子を含むライブラリーがある。
ライブラリーを固相(例えば固体基板)上に固定又は固定化して、メンバーの拡散及び混合を制限することができる。いくつかの場合において、リガンド結合DNAのライブラリーを、調製することができる。特に、ライブラリーは、膜並びにプラスチック及びガラスなどの無孔基板を含めた実質的に平面の固相に固定化することができる。更に、索引付け(即ち、特定のメンバーの参照又は呼び出し)が容易になるように、ライブラリーを配列することができる。いくつかの例において、ライブラリーのメンバーを、格子形態のスポットとして適用することができる。一般的なアッセイシステムは、この目的に適合させることができる。例えば、アレイは、マイクロプレートの表面に、1つのウェルに複数のメンバーか又は各ウェルに単一メンバーかのいずれかで固定化することができる。更に、ニトロセルロース又はナイロン膜(例えばブロッティング実験に使用される膜)など、固体基板は膜であり得る。代わりの基板は、ガラス又はシリカ製基板を含む。したがって、ライブラリーは、当技術分野において公知の任意の適切な方法、例えば、電荷相互作用によって、又はウェルの壁若しくは底又は膜表面への化学的結合によって固定化することができる。配列及び固定する他の手段、例えば、ピペット操作、液滴接触、圧電手段、インクジェット及びバブルジェット(登録商標)技術、静電塗布等を使用することができる。シリコン製チップの場合には、フォトリソグラフィーを利用して、チップ上にライブラリーを配列及び固定することができる。
ライブラリーは、固体基板上へ「スポットされる」ことによって配列することができ、これは、手によって又はメンバーを正確に置くためのロボット工学を使用することによって行うことができる。一般に、アレイはマクロアレイ又はマイクロアレイと記載することができ、その差異はスポットのサイズである。マクロアレイは、約300ミクロン又はより大きなスポットサイズを含有することができ、既存のゲル及びブロットスキャナによって容易に撮像することができる。マイクロアレイのスポットサイズは、直径200ミクロン未満であり得、これらのアレイは通常数千スポットも含有する。したがって、マイクロアレイは専門のロボット工学及び画像化装置を必要とする場合があり、それらは特別注文する必要があり得る。機器類については、全般的にCortese、2000、The Scientist 14 [11]:26による総説に記載されている。
DNA分子の固定化ライブラリーを作製する技法は、当技術分野に記載されている。通常、従来の方法の大部分は、例えば固体基板上の様々な別々の位置で様々な順列の配列を組み立てるマスキング技法を使用して一本鎖核酸分子ライブラリーを合成する方法について記載した。米国特許第5,837,832号は、極めて大規模な集積技術に基づいてシリコン基板に固定化されたDNAアレイを作製するための改善した方法について記載している。特に、米国特許第5,837,832号は、本開示の固定化されたDNAライブラリーを作製するために使用できる、基板上で空間的に定義済みの場所に特定の組のプローブを合成する「タイリング」と呼ばれる戦略について記載している。米国特許第5,837,832号は、また使用できる従来技法についての参照も提供する。他の場合において、アレイは、光蒸着化学を使用して組み立てることもできる。
ペプチド(又は、ペプチド模倣体)のアレイは、アレイ中の予め定義された別々の場所に各別個のライブラリーメンバー(例えば、固有のペプチド配列)を配置する方式で表面上に合成することもできる。各ライブラリーメンバーの同一性は、アレイ中の空間的場所によって決定される。既定の分子(例えば、標的又はプローブ)と反応性ライブラリーメンバーとの結合相互作用が起こるアレイ中の場所が決定され、それにより空間的場所に基づいて反応性ライブラリーメンバーの配列を同定する。これらの方法については、米国特許第5,143,854号、WO90/15070及びWO92/10092、Fodorら(1991) Science、251:767頁、Dower及びFodor (1991) Ann. Rep. Med. Chem.、26:271頁に記載されている。
検出を補助するために、任意の容易に検出可能なレポーター、例えば、蛍光、生物発光、燐光、放射性レポーター等などの標識を(前述の通り)使用することができる。そのようなレポーター、その検出、標的/プローブに対する結合等については、この文書の別の箇所で述べる。プローブ及び標的の標識については、Shalonら、1996年、Genome Res 6(7):639〜45頁にも開示されている。
いくつかの市販のマイクロアレイ形式の例については、下の表1に述べられる(Marshall及びHodgson、1998年、Nature Biotechnology、16(1)、27〜31頁も参照のこと)。
Figure 2019088295
Figure 2019088295
アレイに基づくアッセイからデータを生成するためにシグナルを検出して、プローブとヌクレオチド配列とのハイブリダイゼーションの存否を表すことができる。更に、直接的及び間接的な標識技法を利用することもできる。例えば、直接標識は、アレイ会合プローブにハイブリダイズするヌクレオチド配列に蛍光色素を直接組み込む(例えば、色素は、標識ヌクレオチド又はPCRプライマーの存在下で酵素的合成によってヌクレオチド配列に組み込まれる)。直接標識のスキームは、例えば類似の化学構造及び特性を持つ蛍光色素のファミリーを使用することにより強いハイブリダイゼーションシグナルを産生することができ、実装しやすくできる。核酸の直接標識を含む場合、シアニン又はalexa類似体を、多重蛍光比較アレイ分析に利用することができる。他の実施形態において、間接標識のスキームを利用して、マイクロアレイプローブにハイブリダイゼーションする前又は後にエピトープを核酸に組み込むことができる。1つ以上の染色手順及び試薬を使用して、ハイブリダイズした複合体を標識することができる(例えば、エピトープに結合する蛍光分子、それによりハイブリダイズした種のエピトープに対する色素分子のコンジュゲーションにより蛍光シグナルを得られる)。
様々な実施形態において、本明細書に記載される適切な配列決定法又は当技術分野において公知の別の方法を使用して、サンプル内の核酸分子から配列情報を得ることになる。配列決定は、当技術分野で周知の古典的なサンガー配列決定方法によって達成できる。配列決定は、高スループットシステムを使用して達成することもでき、そのいくつかは、配列決定されるヌクレオチドが成長鎖に組み込まれた直後又は同時にそれを検出する、即ちリアルタイム又は実質的にリアルタイムで配列を検出することを可能にする。いくつかの場合において、高スループット配列決定は、1時間当たり少なくとも1,000、少なくとも5,000、少なくとも10,000、少なくとも20,000、少なくとも30,000、少なくとも40,000、少なくとも50,000、少なくとも100,000又は少なくとも500,000個の配列リードを生成し、配列決定リードは、リード当たり少なくとも約50、約60、約70、約80、約90、約100、約120、約150、約180、約210、約240、約270、約300、約350、約400、約450、約500、約600、約700、約800、約900又は約1000塩基であり得る。
いくつかの実施形態において、高スループット配列決定は、Illumina社のGenome Analyzer IIX、MiSeq personal sequencer、又はHiSeq 2500、HiSeq 1500、HiSeq 2000若しくはHiSeq 1000機を使用するものなどHiSeq systems社によって市販されている技術の使用を含む。これらの機械は、合成化学による可逆的ターミネーターに基づく配列決定を使用する。これらの機械は、8日間に200,000,000,000個のDNAリード又はより多くを行うことができる。3、2、1日又はより短い時間内で実行するためにより小さいシステムを利用することができる。
いくつかの実施形態において、高スループット配列決定は、ABI Solid System社から入手可能な技術の使用を含む。ビーズに連結されたクローン的に増幅したDNA断片の大規模並列配列決定を可能にするこの遺伝子分析プラットフォーム。配列決定法は、色素標識オリゴヌクレオチドによる逐次ライゲーションに基づく。
次世代配列決定は、イオン半導体配列決定(例えばLife Technologies社の技術を使用する(Ion Torrent))を含むことができる。イオン半導体配列決定は、ヌクレオチドがDNA鎖に組み込まれるときに、イオンが放出し得るという事実を利用することができる。イオン半導体配列決定を実施するために、微小測定ウェルの高密度アレイを、形成することができる。各ウェルには、単一のDNA鋳型を入れておくことができる。ウェルの下にイオン感応性の層があり得、イオン感応性の層の下に、イオンセンサーがあり得る。ヌクレオチドがDNAに添加されると、H+を放出することができ、それをpHの変化として測定することができる。H+イオンは電圧に変換することができ、半導体センサーによって記録することができる。アレイチップは、ヌクレオチドを次々に順次あふれさせることができる。スキャン、光又はカメラは、必要としない。いくつかの場合において、IONPROTON(商標)配列決定装置を使用して核酸を配列決定する。いくつかの場合において、IONPGM(商標)配列決定装置が使用される。Ion Torrent Personal Genome Machine(PGM)。PGMは、2時間に10,000,000個のリードを行うことができる。
いくつかの実施形態において、高スループット配列決定は、単一分子合成時解読法(SMSS)(Single Molecule Sequencing by Synthesis)など、Helicos BioSciences社(Cambridge、Massachusetts)から入手可能な技術の使用を含む。SMSSは、24時間以内での全ヒトゲノムの配列決定を可能にするので、特色がある。最後に、SMSSについては、米国特許出願公開第2006/0024711号、第2006/0024678号、第2006/0012793号、第2006/0012784号、及び第2005/0100932号にある程度記載されている。
いくつかの実施形態において、高スループット配列決定は、機器内のCCDカメラによって記録される配列決定反応によって生成される化学発光シグナルを送る光ファイバープレートを含むPicoTiterPlate装置など、454Lifesciences,Inc.社(Branford、Connecticut)から入手可能な技術の使用を含む。光ファイバーのこの使用により、4.5時間に最低20,000,000塩基対の検出が可能になる。
ビーズ増幅の後に光ファイバー検出を使用する方法については、Marguile, M.、ら「Genome sequencing in microfabricated high-density pricolitre reactors」、Nature、doi:10.1038/nature03959、並びに米国特許出願公開第2002/0,012,930号、第2003/0068629号、第2003/0100102号、第2003/0148344号、第2004/0248161号、第2005/0079510号、第2005/0124022号、及び第2006/0078909号に記載されている。
いくつかの実施形態において、高スループット配列決定は、クローナル単一分子アレイ(Clonal Single Molecule Array)(Solexa,Inc.)又は可逆的ターミネーター化学反応を利用する合成時解読(SBS)を使用して実施される。これらの技術については、米国特許第6,969,488号、第6,897,023号、第6,833,246号、第6,787,308号、及び米国特許出願公開第2004/0106110号、第2003/0064398号、第2003/0022207号、並びにConstans, A.、The Scientist 2003年、17(13):36頁にある程度記載されている。
次世代配列決定技法は、Pacific Biosciences社によるリアルタイム技術[SMRT(商標)]を含むことができる。SMRTにおいて、4種のDNA塩基のそれぞれは、4つの異なる蛍光色素の1つに結合することができる。これらの色素は、リン酸結合であり得る。単一DNAポリメラーゼは、ゼロモード導波路(ZMW)の底で単一分子の鋳型一本鎖DNAにより固定化することができる。ZMWは、ZMWから速やかに(マイクロ秒)拡散することができる蛍光ヌクレオチドのバックグラウンドに対し、DNAポリメラーゼによる単一ヌクレオチドの組み込みの観察を可能にする閉じ込め構造であり得る。成長鎖にヌクレオチドを組み込むのに数ミリ秒かかり得る。この間に、蛍光標識が励起され、蛍光シグナルを発生することができ、蛍光タグは切断されることができる。ZMWは、下面から照らすことができる。励起光線から減弱された光は、各ZMWの20〜30nm下の方を透過することができる。20ゼプトリットル(10-21リットル)の検出限界を持つ顕微鏡を製作することができる。小さい検出容積は、バックグラウンドノイズの減少に1000倍の改善をもたらすことができる。色素の対応する蛍光の検出は、どの塩基が組み込まれたかを示すことができる。その過程を繰り返すことができる。
いくつかの場合において、次世代配列決定は、ナノ細孔配列決定である(例えば、Soni GV及びMeller A. (2007) Clin Chem 53:1996〜2001頁を参照のこと)。ナノ細孔は、直径約1ナノメートル程度の小さい穴であり得る。導電液体にナノ細孔を浸漬し、細孔を横切る電位を印加することにより、ナノ細孔を通るイオンの伝導による微弱電流を得ることができる。流れる電流の量は、ナノ細孔のサイズに感応性であり得る。DNA分子がナノ細孔を通過するとき、DNA分子上の各ヌクレオチドは、異なる程度でナノ細孔を遮ることができる。したがって、DNA分子がナノ細孔を通過するときにナノ細孔を通過する電流の変化は、DNA配列の読み出しを表すことができる。ナノ細孔配列決定技術は、Oxford Nanopore Technologies社製、例えば、GridlONシステムであり得る。単一のナノ細孔を、マイクロウエルの最上部を跨いでポリマー膜に挿入することができる。各マイクロウエルは、個別検知用の電極を有することができる。チップ当たり100,000個又はより多くのマイクロウエル(例えば、200,000、300,000、400,000、500,000、600,000、700,000、800,000、900,000又は1,000,000個以上)を持つマイクロウエルを、アレイチップ内に製造することができる。機器(又は、ノード)を使用して、チップを分析することができる。データは、リアルタイムで分析することができる。1つ以上の機器は、時間で作動することができる。ナノ細孔は、タンパク質ナノ細孔、例えば、タンパク質α-溶血素、七量体タンパク質孔であり得る。ナノ細孔は、固体ナノ細孔製、例えば合成膜(例えば、SiNx又はSiO2)内に形成される1ナノメートルサイズの穴であり得る。ナノ細孔は、複合型細孔(例えば、固体状態の膜へのタンパク質細孔の集積)であり得る。ナノ細孔は、集積化したセンサーを持つナノ細孔であり得る(例えば、トンネル電極検出器、容量検出器又はグラフェン性ナノギャップ若しくはエッジ状態検出器(例えば、Garajら(2010) Nature、67巻、doi:10.1038/nature09379を参照のこと))。ナノ細孔は、特定の型の分子を分析するために官能化することができる(例えば、DNA、RNA又はタンパク質)。ナノ細孔配列決定は、「鎖配列決定」を含むことができ、完全なDNAポリマーは、DNAが細孔を移行する際にリアルタイムに配列決定されながらタンパク質ナノ細孔を通過することができる。酵素は二本鎖DNAの鎖を分離することができ、ナノ細孔を通して鎖を与えることができる。DNAは一方の末端でヘアピンを有することができ、システムは両方の鎖を読み取ることができる。いくつかの場合において、ナノ細孔配列決定は、「エキソヌクレアーゼ配列決定」であり、個々のヌクレオチドは前進性エキソヌクレアーゼによってDNA鎖から切断されることができ、そのヌクレオチドはタンパク質ナノ細孔を通過することができる。ヌクレオチドは、細孔内の分子(例えば、シクロデキストラン)に一過的に結合することができる。電流の特性的断絶を使用して、塩基を同定する。
GENIA社製ナノ細孔配列決定技術を使用できる。操作したタンパク質細孔を、脂質二重層膜に埋めることができる。「能動的制御」技術を使用して、効果的なナノ細孔-膜アセンブリ及びチャネルを通るDNA運動の制御を可能にする。いくつかの場合において、ナノ細孔配列決定技術は、NABsys社製である。ゲノムDNAは、平均長約100kbの鎖に断片化することができる。100kb断片を一本鎖にし、その後6merプローブとハイブリダイズさせることができる。プローブを持つゲノム断片は、ナノ細孔を通り抜けることができ、電流対時間追跡を作り出すことができる。電流追跡は、各ゲノム断片上のプローブ位置を提供することができる。ゲノム断片を並べて、ゲノムに対するプローブマップを作り出すことができる。その過程は、プローブライブラリーに対して並列に行うことができる。各プローブに対してゲノム長のプローブマップを生成することができる。誤りは、「移動窓シーケンシングバイハイブリダイゼーション(Sequencing By Hybridization)(mwSBH)」と称される過程で直すことができる。いくつかの場合において、ナノ細孔配列決定技術は、IBM/Roche社製である。電子ビームを使用して、マイクロチップにナノ細孔サイズの開口部を作製することができる。電界を使用して、ナノ細孔を通してDNAを引き寄せる又はねじ込むことができる。ナノ細孔におけるDNAトランジスタ装置は、金属と誘電体が交互になったナノメートルサイズの層を含むことができる。DNA骨格中の別々の電荷を、電界によってDNAナノ細孔の内部に閉じ込めることができる。ゲート電圧をオン/オフすることにより、DNA配列を読み取ることができる。
次世代配列決定は、DNAナノボール配列決定を含むことができる(例えば、Complete Genomics社によって実施されるように、例えば、Drmanacら(2010) Science 327:78〜81頁を参照のこと)。DNAを、単離し、断片化し、サイズ選択することができる。例えば、DNAは、約500bpの平均長に断片化することができる(例えば、超音波処理によって)。アダプター(Ad1)を、断片の末端に結合させることができる。アダプターを使用して、配列決定反応のためのアンカーにハイブリダイズさせることができる。各末端に結合したアダプターを持つDNAを、PCR増幅することができる。アダプター配列を修飾することができ、それにより相補的一本鎖末端が互いに結合して環状DNAを形成する。DNAをメチル化して、その後のステップにおいて使用するIIS型制限酵素による切断から保護することができる。アダプター(例えば、右アダプター)は、制限認識部位を有することができ、制限認識部位は非メチル化のままであり得る。アダプター中にある非メチル化制限認識部位は、制限酵素(例えば、Acul)によって認識され得、DNAは、Aculによって右アダプターの右側13bpで切断されて、線状二本鎖DNAを形成することができる。右及び左アダプターの第2巡(Ad2)を、線状DNAのいずれかの末端にライゲーションすることができ、両方のアダプターが結合しているDNAは全て、PCR増幅することができる(例えば、PCRによって)。Ad2配列を修飾して、それらが互いに結合し、環状DNAを形成できるようにすることができる。DNAはメチル化することができるが、制限酵素認識部位は、左Ad1アダプターにおいて非メチル化のままであり得る。制限酵素(例えば、Acul)を適用することができ、DNAは、Ad1の左側13bpで切断され、線状DNA断片を形成することができる。右及び左アダプターの第3巡(Ad3)を、線状DNAの右及び左側面にライゲーションすることができ、得られた断片はPCR増幅することができる。アダプターは修飾することができ、それによりそれらは互いに結合し、環状DNAを形成することができる。III型制限酵素(例えば、EcoP15)を添加することができ、EcoP15は、Ad3の左側26bp及びAd2の右側26bpでDNAを切断することができる。この切断は、DNAの大きなセグメントを除去し、DNAを再び線状化することができる。右及び左アダプターの第4巡(Ad4)を、DNAにライゲーションすることができ、DNAを増幅(例えば、PCRによって)し、修飾することができ、それによりそれらは互いに結合し、完成した環状DNA鋳型を形成する。
ローリングサークル複製(例えばPhi29 DNAポリメラーゼを使用する)を使用して、DNAの小さい断片を増幅することができる。4つのアダプター配列は、ハイブリダイズできるパリンドローム配列を含有することができ、一本鎖は、それ自体の上で折りたたまれて、平均で直径およそ200〜300ナノメートルであり得るDNAナノボール(DNB(商標))を形成することができる。DNAナノボールは、マイクロアレイ(配列決定フローセル)に付着させることができる(例えば、吸着による)。フローセルは、二酸化ケイ素、チタン及びヘキサメチルジシラザン(HMDS)及びフォトレジスト材料でコーティングされたシリコンウエハであり得る。配列決定は、DNAに蛍光プローブをライゲーションすることによって、連鎖しない配列決定によって実施することができる。問い合わせられる位置の蛍光の色は、高分解能カメラによって可視化することができる。アダプター配列間のヌクレオチド配列の同一性を決定することができる。
いくつかの実施形態において、高スループット配列決定は、AnyDot.chips(Genovoxx社、Germany)を使用して行うことができる。特に、AnyDot.chipsは、ヌクレオチド蛍光シグナル検出を10×〜50×増強できる。AnyDot.chips及びそれを使用する方法については、国際公開WO 02088382、WO 03020968、WO 03031947、WO 2005044836、PCT/EP 05/05657、PCT/EP 05/05655、並びにドイツ特許出願第DE 101 49 786、DE 102 14 395、DE 103 56 837、DE 10 2004 009 704、DE 10 2004 025 696、DE 10 2004 025 746、DE 10 2004 025 694、DE 10 2004 025 695、DE 10 2004 025 744、DE 10 2004 025 745、及びDE 10 2005 012 301にある程度記載されている。
他の高スループット配列決定システムには、Venter, J.ら、Science、2001年2月16日、Adams, M.ら、Science、2000年3月24日、及びM. J. Leveneら、Science、299:682〜686頁、2003年1月、並びに米国特許出願公開第2003/0044781号及び第2006/0078937号に開示されるものがある。そのようなシステム全体は、核酸分子上で測定される重合反応による塩基の経時的な付加によって、複数の塩基を有する標的核酸分子を配列決定することを含み、即ち、配列決定しようとする鋳型核酸分子上の核酸重合酵素の活性がリアルタイムで追跡される。次いで配列の塩基付加の各ステップでどの塩基が核酸重合酵素の触媒活性により標的核酸の成長相補鎖に組み込まれているかについて同定することにより、配列を推論することができる。標的核酸分子複合体上のポリメラーゼは、標的核酸分子に沿って移動し、活性部位でオリゴヌクレオチドプライマーを伸長するのに適した位置に提供される。それぞれ識別可能な型のヌクレオチド類似体が標的核酸配列中の異なるヌクレオチドに対して相補的である、複数の標識型のヌクレオチド類似体が活性部位のすぐ近くに提供される。成長核酸鎖は、ポリメラーゼを使用して活性部位で核酸鎖にヌクレオチド類似体を付加することによって伸長され、付加されようとするヌクレオチド類似体は、活性部位で標的核酸のヌクレオチドに相補的である。重合ステップの結果としてオリゴヌクレオチドプライマーに付加されたヌクレオチド類似体が、同定される。標識ヌクレオチド類似体を提供するステップと、成長核酸鎖を重合させるステップと、付加されたヌクレオチド類似体を同定するステップは繰り返され、それにより核酸鎖が更に伸長され、標的核酸の配列が決定される。
特定の実施形態において、本開示は、本開示の1つ以上の構成要素を含む、キットを更に提供する。キットは、上述のものを含めて、当業者に明らかな任意の適用に使用することができる。キットは、例えば、複数の会合分子、固定剤、制限エンドヌクレアーゼ、リガーゼ及び/又はその組合せを含むことができる。いくつかの場合において、会合分子は、例えばヒストンを含めたタンパク質であり得る。いくつかの場合において、固定剤は、ホルムアルデヒド又は他の任意のDNA架橋剤であり得る。
いくつかの場合において、キットは、複数のビーズを更に含むことができる。ビーズは、常磁性であり得及び/又は捕捉剤でコーティングされている。例えば、ビーズは、ストレプトアビジン及び/又は抗体でコーティングすることができる。
いくつかの場合において、キットは、アダプターオリゴヌクレオチド及び/又は配列決定プライマーを含むことができる。更に、キットは、アダプターオリゴヌクレオチド及び/又は配列決定プライマーを使用してリード対を増幅することができる装置を含むことができる。
いくつかの場合において、キットは、溶解緩衝液、ライゲーション試薬(例えばdNTP、ポリメラーゼ、ポリヌクレオチドキナーゼ及び/又はリガーゼ緩衝液等)及びPCR試薬(例えばdNTP、ポリメラーゼ及び/又はPCR緩衝液等)を含むがこれに限定されない他の試薬を含むこともできる、
キットは、キットの構成要素を使用するための及び/又はリード対を生成するための指示書を含むこともできる。
図8に例示されるコンピュータシステム500は、媒体511及び/又はネットワークポート505から命令を読み取ることができる論理的装置として理解することができ、任意選択でそのネットワークポートは固定媒体512を有するサーバ509に接続することができる。図8に示すようなシステムは、CPU501、ディスク駆動装置503、キーボード515及び/又はマウス516など任意の入力装置並びに任意のモニタ507を含むことができる。データ通信は、指示された通信媒体よって局所的又は遠隔地でサーバに対して実現することができる。通信媒体は、データを送信及び/又は受信する任意の手段を含むことができる。例えば、通信媒体は、ネットワーク接続、ワイヤレス接続又はインターネット接続であり得る。そのような接続は、ワールドワイドウェブ通信を提供することができる。図8に例示されるように、本開示に関連するデータは、当事者522による受信及び/又は再調査のためにそのようなネットワーク若しくは接続により送信できると想定される。
図9は、本開示の実施形態の例に関連して使用することができるコンピュータシステム100の第1のアーキテクチャ例を例示するブロック図である。図9中に表されるように、例のコンピュータシステムは処理命令用にプロセッサ102を含むことができる。プロセッサの限定されない例には、Intel Xeon(商標)プロセッサ、AMD Opteron(商標)プロセッサ、Samsung 32ビットRISC ARM 1176JZ(F)-S v1.0(商標)プロセッサ、ARM Cortex-A8 Samsung S5PC100(商標)プロセッサ、ARM Cortex-A8 Apple A4(商標)プロセッサ、Marvell PXA 930(商標)プロセッサ又は機能的に同等のプロセッサがある。複数スレッドの遂行を、並列処理に使用することができる。いくつかの実施形態において、クラスタ内の単一のコンピュータシステムにあるか、又は複数のコンピュータ、携帯電話及び/若しくは個人データ補助装置を含めたネットワークを介してシステム全体に分散しているかにかかわらず、複数のコアを持つ多重プロセッサ若しくはプロセッサも使用できる。
図9に例示するように、高速キャッシュ104をプロセッサ102に接続する若しくはそれに組み込んで、プロセッサ102によって最近、又は頻繁に使用される命令若しくはデータ用の高速メモリを提供することができる。プロセッサ102は、プロセッサバス108によってノースブリッジ106に接続される。ノースブリッジ106は、メモリバス112によってランダムアクセスメモリ(RAM)110に接続されており、プロセッサ102によるRAM110へのアクセスを管理する。ノースブリッジ106は、チップセットバス116によってサウスブリッジ114にも接続される。サウスブリッジ114は、次に、周辺バス118に接続される。周辺バスは、例えば、PCI、PCI-X、PCI Express又は他の周辺バスであり得る。ノースブリッジ及びサウスブリッジは、しばしばプロセッサチップセットと称され、プロセッサとRAMと周辺バス118の周辺構成要素との間のデータ移動を管理する。いくつかの代わりのアーキテクチャにおいて、ノースブリッジの機能は、別々のノースブリッジチップを使用する代わりにプロセッサに組み込むことができる。
いくつかの実施形態において、システム100は、周辺バス118に取り付けられたアクセラレータカード122を含むことができる。アクセラレータは、特定の処理を加速するためのフィールドプログラマブルゲートアレイ(FPGA)又は他のハードウェアを含むことができる。例えば、アクセラレータを使用して、適応データを構成し直す又は拡張設定処理に使用される代数式を評価することができる。
ソフトウェア及びデータは、外部記憶装置124に記憶され、プロセッサによる使用のためにRAM110及び/又はキャッシュ104に読み込むことができる。システム100は、システム資源を管理するためのオペレーティングシステム、(オペレーティングシステムの限定されない例には、Linux(登録商標)、Windows(登録商標)、MACOS(商標)、BlackBerry OS(商標)、iOS(商標)及び他の機能的に同等のオペレーティングシステムがある)、並びにデータ記憶及び本開示の実施形態の例による最適化を管理するためにオペレーティングシステム上で実行するアプリケーションソフトウェアを含む。
この例において、システム100は、ネットワークアタッチドストレージ(NAS)などの外部記憶装置及び分散並列処理に使用できる他のコンピュータシステムに対するネットワークインターフェースを得るために周辺バスに接続されたネットワークインターフェースカード(NIC)120及び121も含む。
図10は、複数のコンピュータシステム202a及び202b、複数の携帯電話及び個人データ補助装置202c並びにネットワークアタッチドストレージ(NAS)204a及び204bを持つネットワーク200を示す線図である。実施形態の例において、システム202a、202b及び202cは、データ記憶を管理し、ネットワークアタッチドストレージ(NAS)204a及び204bに記憶されているデータに対するデータアクセスを最適化することができる。数学モデルをデータに使用し、コンピュータシステム202a及び202b並びに携帯電話及び個人データ補助システム202c全体にわたる分散並列処理を使用して評価できる。コンピュータシステム202a及び202b並びに携帯電話及び個人データ補助システム202cが並列処理を行って、ネットワークアタッチドストレージ(NAS)204a及び204bに記憶されているデータの適応データを構成し直すこともできる。図10は単なる例示であり、他の様々なコンピュータアーキテクチャ及びシステムを本開示の様々な実施形態と共に使用できる。例えば、ブレードサーバーを使用して、並列処理を行うことができる。プロセッサブレードを背面電極に接続して、並列処理を行うことができる。記憶装置は、背面電極に又は別々のネットワークインターフェースよってネットワークアタッチドストレージ(NAS)として接続することもできる。
いくつかの実施形態の例において、プロセッサは、別々のメモリスペースを維持し、ネットワークインターフェース、背面電極又は他のプロセッサによる並列処理用の他のコネクタを介してデータを送信することができる。他の実施形態において、プロセッサのいくつか又は全ては、共有仮想アドレスメモリスペースを使用することができる。
図11は、実施形態の例による共有仮想アドレスメモリスペースを使用する多重プロセッサコンピュータシステム300のブロック図である。システムは、共有メモリサブシステム304にアクセスできる複数のプロセッサ302a〜fを含む。システムは、メモリサブシステム304に複数のプログラム可能なハードウェアメモリアルゴリズムプロセッサ(MAP)306a〜fを組み込む。各MAP306a〜fは、メモリ308a〜f及び1つ以上のフィールドプログラマブルゲートアレイ(FPGA)310a〜fを含むことができる。MAPは、設定可能な機能単位を提供し、特定のアルゴリズム又はアルゴリズムの部分を、それぞれのプロセッサと緊密に連携して処理するためにFPGA310a〜fに提供することができる。例えば、MAPを使用して、データモデルに関する代数式を評価し、実施形態の例における適応データを構成し直すことができる。この例において、各MAPは、この目的のプロセッサの全てによって世界的にアクセス可能である。一構成において、各MAPは、ダイレクトメモリアクセス(DMA)を使用して付随するメモリ308a〜fにアクセスすることができ、それによりそれぞれのマイクロプロセッサ302a〜fとは独立して、及びそれらとは非同期でタスクを遂行することが可能になる。この構成において、MAPは、パイプライン及びアルゴリズムの並列遂行のために別のMAPに結果を直接フィードすることができる。
上記のコンピュータアーキテクチャ及びシステムは、単なる例であり、他の様々なコンピュータ、携帯電話、及び個人データ補助アーキテクチャ並びにシステムを、汎用プロセッサ、コプロセッサ、FPGA及び他のプログラム可能な論理デバイス、システムオンチップ(SOC)、特定用途向け集積回路(ASIC)、並びに他の処理及び論理素子の任意の組合せを使用するシステムを含めた実施形態の例と共に使用することができる。いくつかの実施形態において、コンピュータシステムの全部又は一部は、ソフトウェア又はハードウェア内で実装することができる。任意の様々なデータ記憶媒体を、ランダムアクセスメモリ、ハードディスク、フラッシュメモリ、テープ装置、ディスクアレイ、ネットワークアタッチドストレージ(NAS)並びに他の局所的又は分散されたデータ記憶デバイス及びシステムを含めた実施形態の例と共に使用することができる。
実施形態の例において、コンピュータシステムは、上記の又は他のコンピュータアーキテクチャ及びシステムのいずれかの上で遂行するソフトウェアモジュールを使用して実装することができる。他の実施形態において、システムの機能は、ファームウェア、図11に述べたフィールドプログラマブルゲートアレイ(FPGA)などのプログラム可能な論理デバイス、システムオンチップ(SOC)、特定用途向け集積回路(ASIC)又は他の処理及び論理エレメントに部分的に又は完全に実装することができる。例えば、設定プロセッサ及び最適化プログラムは、図9に例示されるアクセラレータカード122などのハードウェアアクセラレータカードを利用してハードウェアアクセラレーションで実装することができる。
以下の実施例は、例示を目的とするものであり、本開示を制限しない。それらは使用され得るものの代表であり、一方で当業者に公知の他の手順を別法として使用することができる。
[実施例1]
in vitroでクロマチンを生成する方法
クロマチンを再構成する2つの手法は、特に注目するものである:1つの手法は、DNAへのヒストンのATP非依存的なランダム沈着を使用することになるが、他の手法は、周期的なヌクレオソームのATP依存的なアセンブリを使用する。本開示は、本明細書に開示する1つ以上の方法による手法のいずれかの使用を可能にする。クロマチンを生成する両方の手法の例は、Lusserら(「Strategies for the reconstitution of chromatin」、Nature Methods (2004)、1(1):19〜26頁)において見出すことができ、その中の引用文献を含めて全体を参照により本明細書に組み込む。
[実施例2]
Hi-Cに基づく技法を使用するゲノムアセンブリ
ヒト対象由来ゲノムを、500kbのサイズを有する偽コンティグに断片化した。Hi-Cに基づく方法を使用して、生細胞内の染色体の物理的レイアウトをプロービングすることによって複数のリード対を生成した。Lieberman-Aidenら(「Comprehensive mapping of long range interactions reveals folding principles of the human genome」、Science (2009)、326 (5950):289〜293頁)に提示される方法を含めて、任意の数のHi-Cに基づく方法を使用して、リード対を生成することができ、その中の引用文献を含めて、完全に本明細書に組み込む。リード対を全ての偽コンティグにマッピングし、2つの別々の偽コンティグにマッピングされた対を使用してマッピングデータに基づく隣接行列を構築する。偽コンティグの端までのリードの距離の写像を得ることにより少なくとも約50%、約60%、約70%、約80%、約90%、約95%若しくは約99%のリード対に重み付けして、経験的に公知の長い接触よりも短い接触のより高い確率を数学的に組み込む。次いで、各偽コンティグについて、隣接行列を分析して、単一の最も隣接する偽コンティグを見つけることによって偽コンティグを通る経路を決定し、その経路は、最高の重み合計を有することによって決定された。これらの方法を実施することにより、全ての偽コンティグの>97%が、正しい隣接を同定することが判明した。追加の実験を実施して、より短いコンティグ並びに代わりの重み付け及び経路を見つけるスキームの影響を試験することができる。
別法として、Hi-Cデータを使用するゲノムアセンブリは、de novoゲノムアセンブリの超長距離スキャフォールドに、Hi-Cデータセット中のゲノム近接シグナルを活用する計算法を含むことができる。本明細書に開示する方法と共に使用できるそのような計算法の例には、Burtonら(Nature Biotechnology 31:1119〜1125頁(2013))による隣接クロマチンライゲーション法、及びKaplanら(Nature Biotechnology 31:1143〜47頁(2013))によるDNA三角測量法があり、その参照、及びその中の任意の引用文献を完全に本明細書に組み込む。更に、これらの計算法は、本明細書に提示される他のゲノムアセンブリ法と組み合わせて使用できることを理解すべきである。
例えば、(a)コンティグを染色体群にクラスタリングするステップと、(b)1つ以上の染色体群の中で、コンティグを順序付けるステップと、次いで(c)相対的な方向を個々のコンティグに割り当てるステップとを含む、Burtonらに基づく隣接クロマチンライゲーション法は、本明細書に開示する方法と共に使用することができる。ステップ(a)の場合、コンティグは、階層的クラスタリングを使用して群に入れられる。各ノードが最初に1つのコンティグを表し、ノード間の各枝が2つのコンティグを連結するHi-Cリード対の数に等しい重みを有するグラフが組み立てられる。コンティグは、平均連結距離による階層的凝集型クラスタリングを使用して一緒に統合され、群の数が別個の染色体から期待される数に減少するまでそれを適用する(2つ以上のコンティグを持つ群だけを計数する)。反復コンティグ(制限断片部位の数により標準化された、他のコンティグを含む平均連結密度が、平均連結密度より2倍大きいコンティグ)及び制限断片部位がほとんどないコンティグは、クラスタされない。しかしながら、クラスタリング後に、その群のコンティグの平均連結密度が任意の他の群の平均連結密度より4倍大きい場合、これらコンティグのそれぞれを、群に割り当てる。ステップ(b)の場合、クラスタリングステップのようにグラフが組み立てられるが、コンティグ間のHi-C連結の数の逆数に等しいノード間の枝重みを持ち、コンティグ当たりの制限断片部位の数によって標準化される。短いコンティグは、このグラフから除外される。最小全域木が、このグラフのために算出される。この木の最長経路である「幹」が、見つけられる。次いで全域木は、合計枝重みを経験的に低く保つ方法で、幹に隣接するコンティグを幹に付加することによって幹を長くするように修飾される。各群について長くなった幹が見られた後に、それを以下の通りに完全な順序に変換する。幹を全域木から除去し、幹中にない全てのコンティグを含有する1組の「枝」を残す。順序付けながら隣接するコンティグ間の連結数を最大化するように、選んだ挿入部位で最初に最も長い枝である幹に、これらの枝を再挿入する。短い断片は、再挿入されない、その結果、クラスタ形成した小さいコンティグの多くは、最終アセンブリから省かれる。ステップ(c)の場合、各コンティグ上のHi-C連結整列化の正確な位置を考慮することによって、その順序の中で各コンティグの方向が決定される。ゲノム距離xで2つのリードを接続しているHi-C連結の尤度は、x ≧約100Kbにつきおおよそ1/xであると仮定される。所与の順序でコンティグを方向付けるために考え得る全ての方法を表す重み付き有向非循環グラフ(WDAG)が、組み立てられる。WDAGにおける各枝は、4つの考え得る方向の組み合わせのうち1つにある、一対の隣接したコンティグに対応し、枝重みは、2つのコンティグ間のHi-C連結距離の組を観察する対数尤度に設定され、それらが所与の方向で直接隣接していると仮定される。各コンティグについて、その方向の品質スコアは、以下の通りに算出される。このコンティグ間で観察されたHi-C連結の組の対数尤度は、その現在の方向及びその近傍に見出される。次いで、コンティグを反転し、対数尤度を再算出する。第1の対数尤度は、方向が算出される方法なので、より高くなると保証される。対数尤度間の差異が、品質スコアと見なされる。
Kaplanらの方法と類似の、代わりのDNA三角測量を本明細書に開示する方法に使用して、コンティグ及びリード対からゲノムをアセンブルすることができる。DNA三角測量は、ゲノムの場所を推測するための、in vivoでの高スループットのゲノム規模クロマチン相互作用データの使用に基づく。DNA三角測量法の場合、CTRパターンは、ゲノムを100kbの瓶に分割し、それぞれが大きな仮想コンティグを表しており、配置されたそれぞれのコンティグについて各染色体の平均相互作用頻度を算出することによって最初に定量化される。長い範囲にわたる局在を評価するために、各側で隣接する1mbを持つコンティグの相互作用データが除かれる。平均相互作用頻度は、染色体内相互作用と染色体間相互作用とを強く隔て、コンティグがどちらの染色体に属しているかについて高度に予測する。次に、単純なマルチクラスモデルである単純ベイズ分類器を訓練して、各染色体の平均相互作用頻度に基づく各コンティグの染色体を予測する。ゲノムのアセンブルされた部分を使用して、Hi-C相互作用頻度とゲノム距離の関係(DDDパターン)を記載している確率的単一パラメータ指数関数的減衰モデルに合わせる。各回に、各側1Mbの隣接領域と共にコンティグは染色体から除去される。次いで、相互作用プロファイル及び減衰モデルに基づく各コンティグに対して最も見込みのある位置が推定される。予測エラーは、予測された位置と実際の位置との距離の絶対値として定量化される。
長い挿入ライブラリーとDNA三角測量を組み合わせることにより、各コンティグに対する予測性を、更に改善することができる。各コンティグは近くのコンティグと対にされれば十分なので、染色体の配置及び各コンティグのおおよその場所を知ることにより、長い挿入スキャフォールドの計算の複雑性を著しく減少させ、それによって、曖昧なコンティグ接合が解消され、染色体の離れた領域又は異なる染色体に位置するコンティグが誤って接合されるアセンブリエラーを減少させる可能性がある。
[実施例3]
ハプロタイプフェージングの方法
本明細書に開示する方法によって生成されるリード対は通常、染色体内接触に由来するので、ヘテロ接合性の部位を含有する任意のリード対は、そのフェージングに関する情報も保有することになる。この情報を使用して、短、中、更に長(メガベース)距離に対する信頼性が高いフェージングを、迅速且つ正確に実施することができる。1000人ゲノムの3人組(母親/父親/子ゲノムの1組)のうちの1組からデータをフェージングするように設計された実験は、確実に推測されるフェージングを有する。加えて、Selvarajら(Nature Biotechnology 31:1111〜1118頁(2013))と類似の近接ライゲーションを使用するハプロタイプ再構築も、本明細書に開示するハプロタイプフェージング法と共に使用することができる。
例えば、近接ライゲーションに基づく方法を使用するハプロタイプ再構築は、ゲノムをフェージングする本明細書に開示する方法に使用することもできる。近接ライゲーションに基づく方法を使用するハプロタイプ再構築は、近接ライゲーション及びDNA配列決定をハプロタイプアセンブリのための確率的アルゴリズムと組み合わせる。第1に、近接ライゲーション配列決定は、Hi-C手順など染色体捕捉手順を使用して実施される。これらの方法は、三次元空間で一緒に巻き付いている2つの離れたゲノム座からDNA断片を捕捉することができる。得られたDNAライブラリーのショットガンDNA配列決定の後に、ペアエンド配列決定リードは、数百塩基対から数千万塩基対の範囲の「挿入サイズ」を有する。したがって、Hi-C実験において生成される短いDNA断片は、小さなハプロタイプブロックを産生することができ、長い断片はこれらの小さいブロックを最終的に連結することができる。十分な配列決定カバレッジにより、この手法は、バリアントを非連続的なブロックに連結し、そのようなブロックの全てを単一ハプロタイプにアセンブルする潜在性を有する。次いでこのデータは、ハプロタイプアセンブリのための確率的アルゴリズムと組み合わされる。確率的アルゴリズムは、ノードがヘテロ接合性バリアントに対応し、枝がバリアントを連結できる重なり合う配列断片に対応するグラフを利用する。このグラフは、配列決定エラー又はトランス相互作用に起因する偽の枝を含有することがある。次いで最大カットアルゴリズムを使用して、入力配列決定リードの組によって得られるハプロタイプ情報と最大限一致する節約解を予測する。近接ライゲーションは、従来のゲノム配列決定又はメイトペア配列決定より大きなグラフを生成するので、計算時間及び繰り返しの数を改変し、それによりハプロタイプを合理的な速度及び高い精度で予測することができる。次いで得られたデータを使用し、Beagleソフトウェア及びゲノムプロジェクトからの配列決定データを使用して局所的フェージングを導き、それにより高分解能及び精度で染色体に跨るハプロタイプを生成することができる。
[実施例4]
メタゲノムアセンブリの方法
微生物を環境から収集し、ホルムアルデヒドなどの固定剤で固定して、微生物細胞内で架橋を形成する。高スループット配列決定を使用することによって、微生物由来の複数のコンティグが生成される。Hi-Cに基づく技法を使用することによって複数のリード対が生成される。異なるコンティグにマッピングされるリード対は、どのコンティグが同じ種由来であるかを示す。
[実施例5]
非常に長い範囲のリード対(XLRP)を作製する方法
市販のキットを使用して、DNAを、150kbpまでの断片サイズに抽出する。Activ Motif製の市販キットを使用して、in vitroでDNAを再構成クロマチン構造にアセンブルする。クロマチンをビオチン化して、ホルムアルデヒドで固定し、ストレプトアビジンビーズに固定化する。DNA断片を制限酵素で消化し、終夜インキュベートする。得られた粘着末端をα-チオ-dGTP及びビオチン化dCTPで埋めて、平滑末端を生成する。平滑末端を、T4リガーゼでライゲーションする。再構成クロマチンをプロテイナーゼで消化して、ライゲーションしたDNAを回収する。DNAをビーズから抽出し、エキソヌクレアーゼ消化に供して、ライゲーションしていない末端からビオチンを除去する。回収したDNAを剪断し、末端をdNTPで埋める。ビオチン化断片を、ストレプトアビジンビーズによるプルダウンで精製する。いくつかの場合において、アダプターをライゲーションし、高スループット配列決定のために断片をPCTで増幅する。
[実施例6]
高品質ヒトゲノムアセンブリを作製する方法
本開示によって相当なゲノム距離に跨るリード対を生成できるという知識により、ゲノムアセンブリに対するこの情報の利用を試験することができる。本開示は、de novoアセンブリの連結を、潜在的には染色体長のスキャフォールドまで、著しく改善することができる。判定は、本開示を使用してどの程度完全なアセンブリを作製できるか、及びどの程度の量のデータを必要とすることになるかについて実施することができる。アセンブリに役立つデータを作製する場合の本方法の有効性を評価するために、標準的なIlluminaショットガンライブラリー及びXLRPライブラリーを組み立て、配列決定することができる。ある場合において、標準的なショットガンライブラリー及びXLRPライブラリーのそれぞれについて、Illumina HiSeqの1レーンのデータを使用する。各方法から生成されたデータを試験し、既存の様々なアセンブラと比較する。任意選択で、本開示によって作製される固有のデータに特に合わせて調整するために、新たなアセンブラについても記される。任意選択で、よく特徴付けられたヒトサンプルを使用して、本方法によって作製されるアセンブリに対して比較するための参照を準備し、それにより本方法の精度及び完全性を判定する。これまでの分析で得られた知見を使用して、アセンブラを作製して、XLRP及びショットガンデータの効果的且つ有効な利用を高める。2002年12月のマウスゲノムドラフト又はより良い品質のゲノムアセンブリを、本明細書に記載される方法を使用して生成する。
この分析に使用できるサンプルの1つは、NA12878である。サンプル細胞のDNAを、DNA断片長を最大化するように設計された様々な公開されている技法を使用して抽出する。標準的なIllumina TruSeqショットガンライブラリー及びXLRPライブラリーが、それぞれ組み立てられる。各ライブラリーについてHiSeqの単一レーンの2×150bpの配列が得られ、ライブラリー当たりおよそ150,000,000個のリード対を産生することができる。ショットガンデータは、全ゲノムアセンブリのアルゴリズムを使用してコンティグにアセンブルされる。そのようなアルゴリズムの例には、Chapmanら(PLOS ONE 6(8):e2350頁(2011))に記載のMeraculous又はSimpsonら(Genome research 22(3):549〜56頁(2012))に記載のSGAがある。XLRPライブラリーリードは、最初のアセンブリによって作製されたコンティグに整列される。整列化を使用して、コンティグを更に連結する。コンティグを接続するにあたってのXLRPライブラリーの効果が一度確かめられるならば、Meraculousアセンブリを拡張して、単一アセンブリ過程にショットガン及びXLRPライブラリーを同時に組み込む。Meraculousは、アセンブラのための強力な基盤を提供する。任意選択で、本開示の特定の必要性を満たすために、オールインワンアセンブラが作製される。本開示によってアセンブルされたヒトゲノムを公知の任意の配列と比較して、ゲノムのアセンブリにおける品質を評価する。
[実施例7]
小さいデータセットから高精度でヒトサンプルのヘテロ接合性SNPをフェージングする方法
一実験において、試験ヒトサンプルデータセット中のヘテロ接合性バリアントのおよそ44%が、フェージングしている。制限部位の1リード長の距離内にある全て又はほとんど全てのフェージングバリアントが捕捉される。in silico分析を使用することによって、フェージングのためのより多くのバリアントは、より長いリード長を使用する及び消化に1つ以上の組合せの制限酵素を使用することによって捕捉することができる。異なる制限部位を持つ制限酵素の組合せを使用することにより、各リード対に関与する2つの制限部位のうち1つの範囲内にあるゲノム(したがって、ヘテロ接合性部位)の割合が増加する。in silico分析は、本開示の方法が2つの制限酵素の様々な組合せを使用して公知のヘテロ接合性位置の95%以上をフェージングできることを示す。追加の酵素並びにより長いリード長は、観察され、フェージングされるヘテロ接合性部位の画分を完全なカバレッジ及びフェージングに至るまで更に増加させる。
2つの制限酵素の様々な組合せで実現可能なヘテロ接合性部位のカバレッジを算出する。リード近接におけるヘテロ接合性部位に関して上位3つの組合せを、本手順で試験する。これらの組合せのそれぞれについて、XLRPライブラリーを作製し、配列決定する。得られたリードを、ヒト参照ゲノムに対して整列し、サンプルの公知のハプロタイプと比較して、手順の精度を決定する。ヒトサンプルのヘテロ接合性SNPの90%以上までが、Illumina HiSeqの1レーンだけのデータを使用して99%以上の高い精度でフェージングされる。加えて、300bpまでリード長を増加させることによって、更なるバリアントが捕捉される。観察可能な制限部位周辺のリードエリアは、効果的に2倍になる。追加の制限酵素の組合せを実装して、カバレッジ及び精度を増加させる。
[実施例8]
高分子量DNAの抽出及び効果
150kbp以下のDNAを、市販のキットで抽出した。図7は、抽出したDNAの最大断片長まで、捕捉リード対からXLRPライブラリーを生成できることを実証している。したがって、本明細書に開示する方法は、更に長いDNAのストレッチからリード対を生成する能力があると期待できる。高分子量DNAを回収するために十分に開発された過程が多数あり、これらの方法は、本明細書に開示する方法又は手順と一緒に使用することができる。大きな断片長のDNAを作製する抽出法を使用して、これらの断片からXLRPライブラリーを作り出し、作製されるリード対を評価することができる。例えば、大きな分子量のDNAは、(1)Teagueら(Proc. Nat. Acad. Sci. USA 107 (24):10848〜53頁(2010))又はZhouら(PLOS Genetics、5(11)、:e1000711頁(2009))による細胞の穏やかな溶解、及び(2)Wingら(The Plant Journal:for Cell and Molecular Biology 4(5):893〜8頁(1993))によるアガロースゲルプラグにより、その参照文献は、その中にあるいずれの引用文献も含めて完全に本明細書に組み込まれる、又はBoreal Genomics製のAurora Systemを使用することによって抽出できる。これらの方法は、次世代配列決定の常法に必要とされるDNAを越える長いDNA断片を生成する能力があるが、当技術分野において公知の他の任意の適切な方法を、類似の結果を実現するために代用することができる。Aurora Systemは他にない結果をもたらし、組織又は他の標本から長さ1メガベースまで、及びそれを超えるDNAを分離し、濃縮することができる。これらの方法のそれぞれを使用し、サンプルレベルで起こり得る差異を制御するために単一のGM12878細胞培養から始め、DNA抽出が調製される。断片のサイズ分布は、Herschlebら(Nature Protocols 2(3):677〜84頁(2007))によるパルスフィールドゲル電気泳動によって評価できる。前述の方法を使用して、極めて大きなDNAストレッチを抽出し、それを使用してXLRPライブラリーを組み立てることができる。次いでXLRPライブラリーを配列決定し、整列する。リード対間のゲノム距離をゲルから観察される断片サイズと比較することによって得られたリードデータを分析する。
[実施例9]
望ましくないゲノム領域からのリード対を減少させる
望ましくないゲノム領域に相補的なRNAが、in vitro転写によって作製され、架橋の前に再構築クロマチンに付加される。補充されたRNAが、1つ以上の望ましくないゲノム領域に結合するので、RNA結合は、これらの領域で架橋効率を低下させる。それにより架橋した複合体におけるこれらの領域からのDNAの存在量は、減少する。再構築クロマチンをビオチン化し、固定化し、上記の通り使用する。いくつかの場合において、RNAは、ゲノム中の反復領域を標的にするように設計される。
[実施例10]
所望のクロマチン領域由来のリード対を増加させる
遺伝子アセンブリ又はハロタイプ判定のために、所望のクロマチン領域由来のDNAを二本鎖形態で作製する。したがって、望ましくない領域由来のDNAの出現量は減少する。所望のクロマチン領域由来の二本鎖DNAは、そのような領域で、複数キロベース間隔でタイルするプライマーによって生成される。本方法の他の実装において、タイリング間隔を変化させて、所望の複製効率を持つ異なるサイズの所望の領域をアドレス指定する。任意選択でDNAを融解させることにより、所望の領域全体のプライマー結合部位をプライマーと接触させる。DNAの新たな鎖を、タイルしたプライマーを使用して合成する。例えば一本鎖DNAに特異的なエンドヌクレアーゼでこれらの領域を標的することにより、望ましくない領域を減少させる又は取り除く。残っている所望の領域は、任意選択で増幅することができる。調製したサンプルを、本明細書他の場所で記載した配列決定ライブラリー調製法に供する。いくつかの実装において、各所望のクロマチン領域の長さまでの距離に跨るリード対を、そのような所望のクロマチン領域のそれぞれから生成する。
本開示の好ましい実施形態について本明細書に示し、記載したが、そのような実施形態がほんの一例として提供されていることは、当業者にとって明らかであろう。多数の変形、変更及び置き換えが、本開示を逸脱することなく当業者には直ちに思いつくであろう。本明細書に記載される本開示の実施形態の様々な代替物が、本開示を実践する際に利用できることを理解すべきである。以下の請求が本開示の範囲を定義し、それによりこれらの請求及びその等価物の範囲内にある方法及び構造は網羅されるものとする。
本開示の好ましい実施形態について本明細書に示し、記載したが、そのような実施形態がほんの一例として提供されていることは、当業者にとって明らかであろう。多数の変形、変更及び置き換えが、本開示を逸脱することなく当業者には直ちに思いつくであろう。本明細書に記載される本開示の実施形態の様々な代替物が、本開示を実践する際に利用できることを理解すべきである。以下の請求が本開示の範囲を定義し、それによりこれらの請求及びその等価物の範囲内にある方法及び構造は網羅されるものとする。本発明は以下の実施形態を包含する。
[1] ゲノムアセンブリの方法であって、
複数のコンティグを生成するステップと、
染色体、クロマチン又は再構成クロマチンの物理的レイアウトをプロービングすることによって作製されるデータから複数のリード対を生成するステップと、
前記複数のコンティグに前記複数のリード対をマッピング又はアセンブルするステップと、
前記リードマッピング又はアセンブリデータを使用してコンティグの隣接行列を構築するステップと、
前記隣接行列を分析して、その順序及び/又はゲノムに対する方向を表す、前記コンティグを通る経路を決定するステップと
を含む方法。
[2] 前記複数のコンティグが、
対象のDNAの長いストレッチを不確定なサイズのランダムな断片に断片化するステップと、
高スループット配列決定法を使用して前記断片を配列決定して、複数の配列決定リードを生成するステップと、
複数のコンティグを形成するように前記配列決定リードをアセンブルするステップと
を含むショットガン配列決定法を使用することによって生成される、実施形態1に記載の方法。
[3] 前記複数のリード対が、Hi-Cに基づく技法を使用して染色体、クロマチン又は再構成クロマチンの前記物理的レイアウトをプロービングすることにより生成される、実施形態1又は実施形態2に記載の方法。
[4] 前記Hi-Cに基づく技法が、
染色体、クロマチン又は再構成クロマチンを固定剤で架橋して、DNA-タンパク質架橋を形成するステップと、
1つ以上の制限酵素で前記架橋したDNA-タンパク質を切断して、粘着末端を含む複数のDNA-タンパク質複合体を生成するステップと、
1つ以上のマーカーを含有するヌクレオチドで前記粘着末端を埋めて、次に一緒にライゲーションされる平滑末端を作り出すステップと、
前記複数のDNA-タンパク質複合体を断片に断片化するステップと、
前記1つ以上のマーカーを使用することによって断片を含有する接合部をプルダウンするステップと、
高スループット配列決定法を使用して断片を含有する前記接合部を配列決定して、複数のリード対を生成するステップと
を含む、実施形態3に記載の方法。
[5] 前記複数のリード対が、培養細胞又は一次組織から単離された染色体若しくはクロマチンの前記物理的レイアウトをプロービングすることによって生成される、前記実施形態のいずれかに記載の方法。
[6] 前記複数のリード対が、1つ以上の対象のサンプルから得られるネイキッドDNAを単離されたヒストンと複合体形成させることによって形成される再構成クロマチンの前記物理的レイアウトをプロービングすることによって生成される、実施形態1から4のいずれかに記載の方法。
[7] 前記複数のリード対の場合に、前記コンティグの端までの前記リードの距離の写像を得ることにより少なくとも約80%の前記リード対に重み付けして、長い接触よりも短い接触のより高い確率を組み込む、前記実施形態のいずれかに記載の方法。
[8] 前記隣接行列を再スケーリングして、前記ゲノムの無差別な領域を表す前記コンティグ上の多くの接触の重みを軽減する、前記実施形態のいずれかに記載の方法。
[9] 前記ゲノムの前記無差別な領域が、クロマチンのスキャフォールド相互作用を調節する1つ以上の薬剤に対する1つ以上の保存結合部位を含む、実施形態8に記載の方法。
[10] 前記1つ以上の薬剤が転写リプレッサーCTCFを含む、実施形態9に記載の方法。
[11] ヒト対象の前記ゲノムアセンブリを提供し、前記複数のコンティグが前記ヒト対象のDNAから生成され、前記複数のリード対が、前記対象のネイキッドDNAから作られる前記ヒト対象の染色体若しくはクロマチン、又は再構成クロマチンを使用することによって生成される、前記実施形態のいずれかに記載の方法。
[12] ハプロタイプフェージングを決定する方法であって、前記実施形態のいずれかに記載の方法を含み、
前記複数のリード対中にある1つ以上のヘテロ接合性の部位を同定するステップと、
一対のヘテロ接合性部位を含むリード対を同定するステップと
を更に含み、前記対のヘテロ接合性部位の前記同定により、対立遺伝子のバリアントに対するフェージングデータを決定できる方法。
[13] メタゲノミクスアセンブリの方法であって、実施形態1に記載の方法を含み、前記複数のリード対が、
環境から微生物を収集するステップと、
固定剤を添加して、各微生物細胞内に架橋を形成するステップと
を含む改変されたHi-Cに基づく方法を使用して、複数の微生物染色体の物理的レイアウトをプロービングすることにより決定され、異なるコンティグにマッピングされるリード対が、どのコンティグが同じ種由来であるかを示す方法。
[14] 前記固定剤が、ホルムアルデヒドである、実施形態13に記載の方法。
[15] 単一DNA分子から生成される複数のコンティグをアセンブルする方法であって、
前記単一DNA分子から複数のリード対を生成するステップと、
リード対を使用して前記コンティグをアセンブルするステップと
を含み、少なくとも1%の前記リード対が、前記単一DNA分子上で少なくとも50kBの距離に跨り、前記リード対が、14日以内に生成される方法。
[16] 少なくとも10%の前記リード対が、前記単一DNA分子上で少なくとも50kBの距離に跨る、実施形態15に記載の方法。
[17] 少なくとも1%の前記リード対が、前記単一DNA分子上で少なくとも100kBの距離に跨る、実施形態15に記載の方法。
[18] 前記リード対が、7日以内に生成される、実施形態15から17のいずれかに記載の方法。
[19] 単一DNA分子に由来する複数のコンティグをアセンブルする方法であって、
in vitroで前記単一DNA分子から複数のリード対を生成するステップと、
前記リード対を使用して前記コンティグをアセンブルするステップと
を含み、少なくとも1%の前記リード対が、前記単一DNA分子上で少なくとも30kBの距離に跨る方法。
[20] 少なくとも10%の前記リード対が、前記単一DNA分子上で少なくとも30kBの距離に跨る、実施形態19に記載の方法。
[21] 少なくとも1%の前記リード対が、前記単一DNA分子上で少なくとも50kBの距離に跨る、実施形態20に記載の方法。
[22] ハプロタイプフェージングの方法であって、
単一DNA分子から複数のリード対を生成するステップと、
前記リード対を使用して前記DNA分子の複数のコンティグをアセンブルするステップとを含み、少なくとも1%の前記リード対が、前記単一DNA分子上で少なくとも50kBの距離に跨り、前記ハプロタイプフェージングが、70%を超える精度で実施される方法。
[23] 少なくとも10%の前記リード対が、前記単一DNA分子上で少なくとも50kBの距離に跨る、実施形態22に記載の方法。
[24] 少なくとも1%の前記リード対が、前記単一DNA分子上で少なくとも100kBの距離に跨る、実施形態22に記載の方法。
[25] 前記ハプロタイプフェージングが、90%を超える精度で実施される、実施形態22から24のいずれかに記載の方法。
[26] ハプロタイプフェージングの方法であって、
in vitroで単一DNA分子から複数のリード対を生成するステップと、
前記リード対を使用して前記DNA分子の複数のコンティグをアセンブルするステップとを含み、少なくとも1%の前記リード対が、前記単一DNA分子上で少なくとも30kBの距離に跨り、前記ハプロタイプフェージングが、70%を超える精度で実施される方法。
[27] 少なくとも10%の前記リード対が、前記単一DNA分子上で少なくとも30kBの距離に跨る、実施形態26に記載の方法。
[28] 少なくとも1%の前記リード対が、前記単一DNA分子上で少なくとも50kBの距離に跨る、実施形態26に記載の方法。
[29] 前記ハプロタイプフェージングが、90%を超える精度で実施される、実施形態26から28のいずれかに記載の方法。
[30] ハプロタイプフェージングが、70%を超える精度で実施される、in vitroハプロタイプフェージングの方法。
[31] 第1のDNA分子から第1のリード対を生成する方法であって、
(a)in vitroで第1のDNA分子を架橋するステップであって、前記第1のDNA分子が第1のDNAセグメント及び第2のDNAセグメントを含むステップと、
(b)前記第1のDNAセグメントを前記第2のDNAセグメントと連結し、それによって連結されたDNAセグメントを形成するステップと、
(c)前記連結DNAセグメントを配列決定し、それによって第1のリード対を得るステップと
を含む方法。
[32] 複数の会合分子が前記第1のDNA分子に架橋されている、実施形態31に記載の方法。
[33] 前記会合分子がアミノ酸を含む、実施形態32に記載の方法。
[34] 前記会合分子がペプチド又はタンパク質である、実施形態33に記載の方法。
[35] 前記第1のDNA分子が、固定剤で架橋されている、実施形態31から34のいずれかに記載の方法。
[36] 前記固定剤が、ホルムアルデヒドである、実施形態35に記載の方法。
[37] 前記第1のDNAセグメント及び前記第2のDNAセグメントが、前記第1のDNA分子を切り離すことによって生成される、実施形態31から36のいずれかに記載の方法。
[38] 前記第1のリード対を使用して前記第1のDNA分子の複数のコンティグをアセンブルするステップを更に含む、実施形態31から37のいずれかに記載の方法。
[39] 前記第1及び前記第2のDNAセグメントのそれぞれが、少なくとも1つの親和性標識に接続され、前記連結DNAセグメントが前記親和性標識を使用して捕捉される、実施形態31から38のいずれかに記載の方法。
[40] (a)複数の会合分子を少なくとも第2のDNA分子に提供するステップと、
(b)前記会合分子を前記第2のDNA分子に架橋し、それによりin vitroで第2の複合体を形成するステップと、
(c)前記第2の複合体を切り離し、それにより第3のDNAセグメント及び第4のセグメントを生成するステップと、
(d)前記第3のDNAセグメントを前記第4のDNAセグメントと連結し、それにより第2の連結DNAセグメントを形成するステップと、
(e)前記第2の連結DNAセグメントを配列決定し、それにより第2のリード対を得るステップと
を更に含む、実施形態31に記載の方法。
[41] 前記DNA分子由来の前記DNAセグメントの40%未満が、他の任意のDNA分子由来のDNAセグメントと連結されている、実施形態40に記載の方法。
[42] 前記DNA分子由来の前記DNAセグメントの20%未満が、他の任意のDNA分子由来のDNAセグメントと連結されている、実施形態40に記載の方法。
[43] 既定の配列を含む第1のDNA分子から第1のリード対を生成する方法であって、
(a)1つ以上のDNA結合分子を前記第1のDNA分子に提供するステップであって、1つ以上の前記DNA結合分子が前記既定の配列に結合するステップと、
(b)in vitroで前記第1のDNA分子を架橋するステップであって、前記第1のDNA分子が第1のDNAセグメント及び第2のDNAセグメントを含むステップと、
(c)前記第1のDNAセグメントを前記第2のDNAセグメントと連結し、それによって第1の連結DNAセグメントを形成するステップと、
(d)前記第1の連結DNAセグメントを配列決定し、それによって前記第1のリード対を得るステップと
を含み、前記既定の配列が前記リード対中に現れる確率が、前記既定の配列への前記DNA結合分子の結合による影響を受ける方法。
[44] 前記DNA結合分子が、前記既定の配列にハイブリダイズできる核酸である、実施形態43に記載の方法。
[45] 前記核酸がRNAである、実施形態44に記載の方法。
[46] 前記核酸がDNAである、実施形態44に記載の方法。
[47] 前記DNA結合分子が小分子である、実施形態43に記載の方法。
[48] 前記小分子が、100μM未満の結合親和性で前記既定の配列に結合する、実施形態47に記載の方法。
[49] 前記小分子が、1μM未満の結合親和性で前記既定の配列に結合する、実施形態47に記載の方法。
[50] 前記DNA結合分子が、表面又は固体支持体に固定化されている、実施形態43から49のいずれかに記載の方法。
[51] 前記既定の配列が前記リード対中に現れる前記確率が低下する、実施形態43に記載の方法。
[52] 前記既定の配列が前記リード対中に現れる前記確率が増加する、実施形態43に記載の方法。
[53] それぞれ少なくとも第1の配列エレメント及び第2の配列エレメントを含む複数のリード対を含むin vitroライブラリーであって、前記第1及び前記第2の配列エレメントが単一DNA分子に由来し、前記リード対の少なくとも1%が、前記単一DNA分子上で少なくとも50kB離れている第1及び第2の配列エレメントを含むライブラリー。
[54] 前記リード対の少なくとも10%が、前記単一DNA分子上で少なくとも50kB離れている第1及び第2の配列エレメントを含む、実施形態53に記載のin vitroライブラリー。
[55] 前記リード対の少なくとも1%が、前記単一DNA分子上で少なくとも100kB離れている第1及び第2の配列エレメントを含む、実施形態54に記載のin vitroライブラリー。
[56] 前記リード対の20%未満が、1つ以上の既定の配列を含む、実施形態53から55のいずれかに記載のin vitroライブラリー。
[57] 前記リード対の10%未満が、1つ以上の既定の配列を含む、実施形態56に記載のin vitroライブラリー。
[58] 前記リード対の5%未満が、1つ以上の既定の配列を含む、実施形態57に記載のin vitroライブラリー。
[59] 前記既定の配列が、前記既定の配列にハイブリダイズできる1つ以上の核酸又は小分子によって決定される、実施形態56から58のいずれかに記載のin vitroライブラリー。
[60] 前記1つ以上の核酸がRNAである、実施形態59に記載のin vitroライブラリー。
[61] 前記1つ以上の核酸がDNAである、実施形態59に記載のin vitroライブラリー。
[62] 前記1つ以上の核酸が、表面又は固体支持体に固定化されている、実施形態59から61のいずれかに記載のin vitroライブラリー。
[63] 前記既定の配列が1つ以上の小分子によって決定される、実施形態59に記載のin vitroライブラリー。
[64] 前記1つ以上の小分子が100μM未満の結合親和性で前記既定の配列に結合する、実施形態63に記載のin vitroライブラリー。
[65] 前記1つ以上の小分子が1μM未満の結合親和性で前記既定の配列に結合する、実施形態63に記載のin vitroライブラリー。
[66] DNA断片及び複数の会合分子を含む組成物であって、前記会合分子が、in vitro複合体中で前記DNA断片に架橋されており、前記in vitro複合体が、固体支持体に固定化されている組成物。
[67] DNA断片、複数の会合分子及びDNA結合分子を含む組成物であって、前記DNA結合分子が、前記DNA断片の既定の配列に結合しており、前記会合分子が、前記DNA断片に架橋されている組成物。
[68] 前記DNA結合分子が、前記既定の配列にハイブリダイズできる核酸である、実施形態67に記載の組成物。
[69] 前記核酸がRNAである、実施形態68に記載の組成物。
[70] 前記核酸が、DNAである、実施形態68に記載の組成物。
[71] 前記核酸が表面又は固体支持体に固定化されている、実施形態68から70のいずれかに記載の組成物。
[72] 前記DNA結合分子が小分子である、実施形態67に記載の組成物。
[73] 前記小分子が、100μM未満の結合親和性で前記既定の配列に結合する、実施形態72に記載の組成物。
[74] 前記小分子が、1μM未満の結合親和性で前記既定の配列に結合する、実施形態72に記載の組成物。

Claims (74)

  1. ゲノムアセンブリの方法であって、
    複数のコンティグを生成するステップと、
    染色体、クロマチン又は再構成クロマチンの物理的レイアウトをプロービングすることによって作製されるデータから複数のリード対を生成するステップと、
    前記複数のコンティグに前記複数のリード対をマッピング又はアセンブルするステップと、
    前記リードマッピング又はアセンブリデータを使用してコンティグの隣接行列を構築するステップと、
    前記隣接行列を分析して、その順序及び/又はゲノムに対する方向を表す、前記コンティグを通る経路を決定するステップと
    を含む方法。
  2. 前記複数のコンティグが、
    対象のDNAの長いストレッチを不確定なサイズのランダムな断片に断片化するステップと、
    高スループット配列決定法を使用して前記断片を配列決定して、複数の配列決定リードを生成するステップと、
    複数のコンティグを形成するように前記配列決定リードをアセンブルするステップと
    を含むショットガン配列決定法を使用することによって生成される、請求項1に記載の方法。
  3. 前記複数のリード対が、Hi-Cに基づく技法を使用して染色体、クロマチン又は再構成クロマチンの前記物理的レイアウトをプロービングすることにより生成される、請求項1又は請求項2に記載の方法。
  4. 前記Hi-Cに基づく技法が、
    染色体、クロマチン又は再構成クロマチンを固定剤で架橋して、DNA-タンパク質架橋を形成するステップと、
    1つ以上の制限酵素で前記架橋したDNA-タンパク質を切断して、粘着末端を含む複数のDNA-タンパク質複合体を生成するステップと、
    1つ以上のマーカーを含有するヌクレオチドで前記粘着末端を埋めて、次に一緒にライゲーションされる平滑末端を作り出すステップと、
    前記複数のDNA-タンパク質複合体を断片に断片化するステップと、
    前記1つ以上のマーカーを使用することによって断片を含有する接合部をプルダウンするステップと、
    高スループット配列決定法を使用して断片を含有する前記接合部を配列決定して、複数のリード対を生成するステップと
    を含む、請求項3に記載の方法。
  5. 前記複数のリード対が、培養細胞又は一次組織から単離された染色体若しくはクロマチンの前記物理的レイアウトをプロービングすることによって生成される、前記請求項のいずれかに記載の方法。
  6. 前記複数のリード対が、1つ以上の対象のサンプルから得られるネイキッドDNAを単離されたヒストンと複合体形成させることによって形成される再構成クロマチンの前記物理的レイアウトをプロービングすることによって生成される、請求項1から4のいずれか一項に記載の方法。
  7. 前記複数のリード対の場合に、前記コンティグの端までの前記リードの距離の写像を得ることにより少なくとも約80%の前記リード対に重み付けして、長い接触よりも短い接触のより高い確率を組み込む、前記請求項のいずれかに記載の方法。
  8. 前記隣接行列を再スケーリングして、前記ゲノムの無差別な領域を表す前記コンティグ上の多くの接触の重みを軽減する、前記請求項のいずれかに記載の方法。
  9. 前記ゲノムの前記無差別な領域が、クロマチンのスキャフォールド相互作用を調節する1つ以上の薬剤に対する1つ以上の保存結合部位を含む、請求項8に記載の方法。
  10. 前記1つ以上の薬剤が転写リプレッサーCTCFを含む、請求項9に記載の方法。
  11. ヒト対象の前記ゲノムアセンブリを提供し、前記複数のコンティグが前記ヒト対象のDNAから生成され、前記複数のリード対が、前記対象のネイキッドDNAから作られる前記ヒト対象の染色体若しくはクロマチン、又は再構成クロマチンを使用することによって生成される、前記請求項のいずれかに記載の方法。
  12. ハプロタイプフェージングを決定する方法であって、前記請求項のいずれかに記載の方法を含み、
    前記複数のリード対中にある1つ以上のヘテロ接合性の部位を同定するステップと、
    一対のヘテロ接合性部位を含むリード対を同定するステップと
    を更に含み、前記対のヘテロ接合性部位の前記同定により、対立遺伝子のバリアントに対するフェージングデータを決定できる方法。
  13. メタゲノミクスアセンブリの方法であって、請求項1に記載の方法を含み、前記複数のリード対が、
    環境から微生物を収集するステップと、
    固定剤を添加して、各微生物細胞内に架橋を形成するステップと
    を含む改変されたHi-Cに基づく方法を使用して、複数の微生物染色体の物理的レイアウトをプロービングすることにより決定され、異なるコンティグにマッピングされるリード対が、どのコンティグが同じ種由来であるかを示す方法。
  14. 前記固定剤が、ホルムアルデヒドである、請求項13に記載の方法。
  15. 単一DNA分子から生成される複数のコンティグをアセンブルする方法であって、
    前記単一DNA分子から複数のリード対を生成するステップと、
    リード対を使用して前記コンティグをアセンブルするステップと
    を含み、少なくとも1%の前記リード対が、前記単一DNA分子上で少なくとも50kBの距離に跨り、前記リード対が、14日以内に生成される方法。
  16. 少なくとも10%の前記リード対が、前記単一DNA分子上で少なくとも50kBの距離に跨る、請求項15に記載の方法。
  17. 少なくとも1%の前記リード対が、前記単一DNA分子上で少なくとも100kBの距離に跨る、請求項15に記載の方法。
  18. 前記リード対が、7日以内に生成される、請求項15から17のいずれか一項に記載の方法。
  19. 単一DNA分子に由来する複数のコンティグをアセンブルする方法であって、
    in vitroで前記単一DNA分子から複数のリード対を生成するステップと、
    前記リード対を使用して前記コンティグをアセンブルするステップと
    を含み、少なくとも1%の前記リード対が、前記単一DNA分子上で少なくとも30kBの距離に跨る方法。
  20. 少なくとも10%の前記リード対が、前記単一DNA分子上で少なくとも30kBの距離に跨る、請求項19に記載の方法。
  21. 少なくとも1%の前記リード対が、前記単一DNA分子上で少なくとも50kBの距離に跨る、請求項20に記載の方法。
  22. ハプロタイプフェージングの方法であって、
    単一DNA分子から複数のリード対を生成するステップと、
    前記リード対を使用して前記DNA分子の複数のコンティグをアセンブルするステップとを含み、少なくとも1%の前記リード対が、前記単一DNA分子上で少なくとも50kBの距離に跨り、前記ハプロタイプフェージングが、70%を超える精度で実施される方法。
  23. 少なくとも10%の前記リード対が、前記単一DNA分子上で少なくとも50kBの距離に跨る、請求項22に記載の方法。
  24. 少なくとも1%の前記リード対が、前記単一DNA分子上で少なくとも100kBの距離に跨る、請求項22に記載の方法。
  25. 前記ハプロタイプフェージングが、90%を超える精度で実施される、請求項22から24のいずれか一項に記載の方法。
  26. ハプロタイプフェージングの方法であって、
    in vitroで単一DNA分子から複数のリード対を生成するステップと、
    前記リード対を使用して前記DNA分子の複数のコンティグをアセンブルするステップとを含み、少なくとも1%の前記リード対が、前記単一DNA分子上で少なくとも30kBの距離に跨り、前記ハプロタイプフェージングが、70%を超える精度で実施される方法。
  27. 少なくとも10%の前記リード対が、前記単一DNA分子上で少なくとも30kBの距離に跨る、請求項26に記載の方法。
  28. 少なくとも1%の前記リード対が、前記単一DNA分子上で少なくとも50kBの距離に跨る、請求項26に記載の方法。
  29. 前記ハプロタイプフェージングが、90%を超える精度で実施される、請求項26から28のいずれか一項に記載の方法。
  30. ハプロタイプフェージングが、70%を超える精度で実施される、in vitroハプロタイプフェージングの方法。
  31. 第1のDNA分子から第1のリード対を生成する方法であって、
    (a)in vitroで第1のDNA分子を架橋するステップであって、前記第1のDNA分子が第1のDNAセグメント及び第2のDNAセグメントを含むステップと、
    (b)前記第1のDNAセグメントを前記第2のDNAセグメントと連結し、それによって連結されたDNAセグメントを形成するステップと、
    (c)前記連結DNAセグメントを配列決定し、それによって第1のリード対を得るステップと
    を含む方法。
  32. 複数の会合分子が前記第1のDNA分子に架橋されている、請求項31に記載の方法。
  33. 前記会合分子がアミノ酸を含む、請求項32に記載の方法。
  34. 前記会合分子がペプチド又はタンパク質である、請求項33に記載の方法。
  35. 前記第1のDNA分子が、固定剤で架橋されている、請求項31から34のいずれか一項に記載の方法。
  36. 前記固定剤が、ホルムアルデヒドである、請求項35に記載の方法。
  37. 前記第1のDNAセグメント及び前記第2のDNAセグメントが、前記第1のDNA分子を切り離すことによって生成される、請求項31から36のいずれか一項に記載の方法。
  38. 前記第1のリード対を使用して前記第1のDNA分子の複数のコンティグをアセンブルするステップを更に含む、請求項31から37のいずれか一項に記載の方法。
  39. 前記第1及び前記第2のDNAセグメントのそれぞれが、少なくとも1つの親和性標識に接続され、前記連結DNAセグメントが前記親和性標識を使用して捕捉される、請求項31から38のいずれか一項に記載の方法。
  40. (a)複数の会合分子を少なくとも第2のDNA分子に提供するステップと、
    (b)前記会合分子を前記第2のDNA分子に架橋し、それによりin vitroで第2の複合体を形成するステップと、
    (c)前記第2の複合体を切り離し、それにより第3のDNAセグメント及び第4のセグメントを生成するステップと、
    (d)前記第3のDNAセグメントを前記第4のDNAセグメントと連結し、それにより第2の連結DNAセグメントを形成するステップと、
    (e)前記第2の連結DNAセグメントを配列決定し、それにより第2のリード対を得るステップと
    を更に含む、請求項31に記載の方法。
  41. 前記DNA分子由来の前記DNAセグメントの40%未満が、他の任意のDNA分子由来のDNAセグメントと連結されている、請求項40に記載の方法。
  42. 前記DNA分子由来の前記DNAセグメントの20%未満が、他の任意のDNA分子由来のDNAセグメントと連結されている、請求項40に記載の方法。
  43. 既定の配列を含む第1のDNA分子から第1のリード対を生成する方法であって、
    (a)1つ以上のDNA結合分子を前記第1のDNA分子に提供するステップであって、1つ以上の前記DNA結合分子が前記既定の配列に結合するステップと、
    (b)in vitroで前記第1のDNA分子を架橋するステップであって、前記第1のDNA分子が第1のDNAセグメント及び第2のDNAセグメントを含むステップと、
    (c)前記第1のDNAセグメントを前記第2のDNAセグメントと連結し、それによって第1の連結DNAセグメントを形成するステップと、
    (d)前記第1の連結DNAセグメントを配列決定し、それによって前記第1のリード対を得るステップと
    を含み、前記既定の配列が前記リード対中に現れる確率が、前記既定の配列への前記DNA結合分子の結合による影響を受ける方法。
  44. 前記DNA結合分子が、前記既定の配列にハイブリダイズできる核酸である、請求項43に記載の方法。
  45. 前記核酸がRNAである、請求項44に記載の方法。
  46. 前記核酸がDNAである、請求項44に記載の方法。
  47. 前記DNA結合分子が小分子である、請求項43に記載の方法。
  48. 前記小分子が、100μM未満の結合親和性で前記既定の配列に結合する、請求項47に記載の方法。
  49. 前記小分子が、1μM未満の結合親和性で前記既定の配列に結合する、請求項47に記載の方法。
  50. 前記DNA結合分子が、表面又は固体支持体に固定化されている、請求項43から49のいずれか一項に記載の方法。
  51. 前記既定の配列が前記リード対中に現れる前記確率が低下する、請求項43に記載の方法。
  52. 前記既定の配列が前記リード対中に現れる前記確率が増加する、請求項43に記載の方法。
  53. それぞれ少なくとも第1の配列エレメント及び第2の配列エレメントを含む複数のリード対を含むin vitroライブラリーであって、前記第1及び前記第2の配列エレメントが単一DNA分子に由来し、前記リード対の少なくとも1%が、前記単一DNA分子上で少なくとも50kB離れている第1及び第2の配列エレメントを含むライブラリー。
  54. 前記リード対の少なくとも10%が、前記単一DNA分子上で少なくとも50kB離れている第1及び第2の配列エレメントを含む、請求項53に記載のin vitroライブラリー。
  55. 前記リード対の少なくとも1%が、前記単一DNA分子上で少なくとも100kB離れている第1及び第2の配列エレメントを含む、請求項54に記載のin vitroライブラリー。
  56. 前記リード対の20%未満が、1つ以上の既定の配列を含む、請求項53から55のいずれか一項に記載のin vitroライブラリー。
  57. 前記リード対の10%未満が、1つ以上の既定の配列を含む、請求項56に記載のin vitroライブラリー。
  58. 前記リード対の5%未満が、1つ以上の既定の配列を含む、請求項57に記載のin vitroライブラリー。
  59. 前記既定の配列が、前記既定の配列にハイブリダイズできる1つ以上の核酸又は小分子によって決定される、請求項56から58のいずれか一項に記載のin vitroライブラリー。
  60. 前記1つ以上の核酸がRNAである、請求項59に記載のin vitroライブラリー。
  61. 前記1つ以上の核酸がDNAである、請求項59に記載のin vitroライブラリー。
  62. 前記1つ以上の核酸が、表面又は固体支持体に固定化されている、請求項59から61のいずれか一項に記載のin vitroライブラリー。
  63. 前記既定の配列が1つ以上の小分子によって決定される、請求項59に記載のin vitroライブラリー。
  64. 前記1つ以上の小分子が100μM未満の結合親和性で前記既定の配列に結合する、請求項63に記載のin vitroライブラリー。
  65. 前記1つ以上の小分子が1μM未満の結合親和性で前記既定の配列に結合する、請求項63に記載のin vitroライブラリー。
  66. DNA断片及び複数の会合分子を含む組成物であって、前記会合分子が、in vitro複合体中で前記DNA断片に架橋されており、前記in vitro複合体が、固体支持体に固定化されている組成物。
  67. DNA断片、複数の会合分子及びDNA結合分子を含む組成物であって、前記DNA結合分子が、前記DNA断片の既定の配列に結合しており、前記会合分子が、前記DNA断片に架橋されている組成物。
  68. 前記DNA結合分子が、前記既定の配列にハイブリダイズできる核酸である、請求項67に記載の組成物。
  69. 前記核酸がRNAである、請求項68に記載の組成物。
  70. 前記核酸が、DNAである、請求項68に記載の組成物。
  71. 前記核酸が表面又は固体支持体に固定化されている、請求項68から70のいずれか一項に記載の組成物。
  72. 前記DNA結合分子が小分子である、請求項67に記載の組成物。
  73. 前記小分子が、100μM未満の結合親和性で前記既定の配列に結合する、請求項72に記載の組成物。
  74. 前記小分子が、1μM未満の結合親和性で前記既定の配列に結合する、請求項72に記載の組成物。
JP2019002382A 2013-02-01 2019-01-10 ゲノムアセンブリ及びハプロタイプフェージングの方法 Active JP7028807B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2022022549A JP2022065109A (ja) 2013-02-01 2022-02-17 ゲノムアセンブリ及びハプロタイプフェージングの方法

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201361759941P 2013-02-01 2013-02-01
US61/759,941 2013-02-01
US201361892355P 2013-10-17 2013-10-17
US61/892,355 2013-10-17

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2015556175A Division JP6466855B2 (ja) 2013-02-01 2014-01-31 ゲノムアセンブリ及びハプロタイプフェージングの方法

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2022022549A Division JP2022065109A (ja) 2013-02-01 2022-02-17 ゲノムアセンブリ及びハプロタイプフェージングの方法

Publications (2)

Publication Number Publication Date
JP2019088295A true JP2019088295A (ja) 2019-06-13
JP7028807B2 JP7028807B2 (ja) 2022-03-02

Family

ID=51262991

Family Applications (3)

Application Number Title Priority Date Filing Date
JP2015556175A Active JP6466855B2 (ja) 2013-02-01 2014-01-31 ゲノムアセンブリ及びハプロタイプフェージングの方法
JP2019002382A Active JP7028807B2 (ja) 2013-02-01 2019-01-10 ゲノムアセンブリ及びハプロタイプフェージングの方法
JP2022022549A Pending JP2022065109A (ja) 2013-02-01 2022-02-17 ゲノムアセンブリ及びハプロタイプフェージングの方法

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2015556175A Active JP6466855B2 (ja) 2013-02-01 2014-01-31 ゲノムアセンブリ及びハプロタイプフェージングの方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2022022549A Pending JP2022065109A (ja) 2013-02-01 2022-02-17 ゲノムアセンブリ及びハプロタイプフェージングの方法

Country Status (9)

Country Link
US (3) US10089437B2 (ja)
EP (2) EP3885446A1 (ja)
JP (3) JP6466855B2 (ja)
CN (2) CN105121661B (ja)
AU (2) AU2014212152B2 (ja)
CA (2) CA2899020C (ja)
GB (2) GB2519255B (ja)
HK (1) HK1218433A1 (ja)
WO (1) WO2014121091A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022065109A (ja) * 2013-02-01 2022-04-26 ザ リージェンツ オブ ザ ユニバーシティ オブ カリフォルニア ゲノムアセンブリ及びハプロタイプフェージングの方法

Families Citing this family (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10847251B2 (en) 2013-01-17 2020-11-24 Illumina, Inc. Genomic infrastructure for on-site or cloud-based DNA and RNA processing and analysis
US9679104B2 (en) 2013-01-17 2017-06-13 Edico Genome, Corp. Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform
US10691775B2 (en) 2013-01-17 2020-06-23 Edico Genome, Corp. Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform
US10068054B2 (en) 2013-01-17 2018-09-04 Edico Genome, Corp. Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform
US9792405B2 (en) 2013-01-17 2017-10-17 Edico Genome, Corp. Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform
US9483610B2 (en) 2013-01-17 2016-11-01 Edico Genome, Corp. Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform
US11091758B2 (en) * 2013-12-11 2021-08-17 The Regents Of The University Of California Methods for labeling DNAa fragments to reconstruct physical linkage and phase
CA2956925C (en) * 2014-08-01 2024-02-13 Dovetail Genomics, Llc Tagging nucleic acids for sequence assembly
WO2016134034A1 (en) 2015-02-17 2016-08-25 Dovetail Genomics Llc Nucleic acid sequence assembly
EP3329491A2 (en) 2015-03-23 2018-06-06 Edico Genome Corporation Method and system for genomic visualization
US11807896B2 (en) 2015-03-26 2023-11-07 Dovetail Genomics, Llc Physical linkage preservation in DNA storage
US11326159B2 (en) 2015-04-06 2022-05-10 The Regents Of The University Of California Methods and compositions for long-range haplotype phasing
AU2016341198B2 (en) * 2015-10-19 2023-03-09 Dovetail Genomics, Llc Methods for genome assembly, haplotype phasing, and target independent nucleic acid detection
US20170270245A1 (en) 2016-01-11 2017-09-21 Edico Genome, Corp. Bioinformatics systems, apparatuses, and methods for performing secondary and/or tertiary processing
US10068183B1 (en) 2017-02-23 2018-09-04 Edico Genome, Corp. Bioinformatics systems, apparatuses, and methods executed on a quantum processing platform
EP3402883A4 (en) * 2016-01-12 2019-09-18 Seqwell, Inc. COMPOSITIONS AND METHODS FOR NUCLEIC ACID SEQUENCING
WO2018037289A2 (en) * 2016-02-10 2018-03-01 Energin.R Technologies 2009 Ltd. Systems and methods for computational demultiplexing of genomic barcoded sequences
US10975417B2 (en) * 2016-02-23 2021-04-13 Dovetail Genomics, Llc Generation of phased read-sets for genome assembly and haplotype phasing
CN105839196B (zh) * 2016-05-11 2018-04-17 北京百迈客生物科技有限公司 一种真核生物DNA的Hi‑C高通量测序建库方法
JP7497976B2 (ja) * 2016-05-13 2024-06-11 ダブテイル ゲノミクス エルエルシー 保存されたサンプルからの長距離連鎖情報の回復
CN106055925B (zh) * 2016-05-24 2018-09-18 中国水产科学研究院 基于转录组双端测序数据组装基因组序列的方法和装置
RU2750706C2 (ru) * 2016-06-07 2021-07-01 Иллюмина, Инк. Биоинформационные системы,устройства и способы выполнения вторичной и/или третичной обработки
CN109997193B (zh) * 2016-11-10 2023-03-14 深圳华大生命科学研究院 一种对特定群中的亚群进行定量分析的方法
US10650312B2 (en) 2016-11-16 2020-05-12 Catalog Technologies, Inc. Nucleic acid-based data storage
GB2563105B (en) 2016-11-16 2022-10-19 Catalog Tech Inc Nucleic acid-based data storage
CN106754868A (zh) * 2016-11-29 2017-05-31 武汉菲沙基因信息有限公司 一种捕获核基因组内相互作用的dna片段的方法
US11021738B2 (en) 2016-12-19 2021-06-01 Bio-Rad Laboratories, Inc. Droplet tagging contiguity preserved tagmented DNA
US20210371918A1 (en) 2017-04-18 2021-12-02 Dovetail Genomics, Llc Nucleic acid characteristics as guides for sequence assembly
US10176296B2 (en) 2017-05-17 2019-01-08 International Business Machines Corporation Algebraic phasing of polyploids
KR102035285B1 (ko) * 2017-05-30 2019-10-22 단국대학교 산학협력단 Dna 샷건 시퀀싱 또는 rna 전사체 어셈블리를 위한 콘티그 프로파일의 업데이트 방법 및 콘티그 형성 방법
CN107704725B (zh) * 2017-08-11 2020-12-01 浙江工业大学 一种不连续多域蛋白结构组装方法
WO2019152543A1 (en) 2018-01-31 2019-08-08 Dovetail Genomics, Llc Sample prep for dna linkage recovery
EP3766077A4 (en) * 2018-03-16 2021-12-08 Catalog Technologies, Inc. CHEMICAL PROCESSES FOR DATA STORAGE BASED ON NUCLEIC ACIDS
CN108985009B (zh) * 2018-08-29 2022-06-07 北京希望组生物科技有限公司 一种获得基因单体型序列的方法及其应用
CN109055491A (zh) * 2018-09-18 2018-12-21 武汉菲沙基因信息有限公司 一种适用于植物的Hi-C高通量测序建库方法
CN113728112A (zh) * 2019-04-28 2021-11-30 加利福尼亚大学董事会 使用酶促消化来富集信息性dna片段的文库制备方法
KR20220017409A (ko) 2019-05-09 2022-02-11 카탈로그 테크놀로지스, 인크. Dna 기반 데이터 저장소에서 검색, 컴퓨팅 및 인덱싱하기 위한 데이터 구조 및 동작
CA3157804A1 (en) 2019-10-11 2021-04-15 Catalog Technologies, Inc. Nucleic acid security and authentication
CN111192627B (zh) * 2019-12-15 2022-09-06 南京理工大学 基于碱基嵌入和直接相关分析的核糖核酸接触图预测方法
CA3183416A1 (en) 2020-05-11 2021-11-18 Catalog Technologies, Inc. Programs and functions in dna-based data storage
CN111564182B (zh) * 2020-05-12 2024-02-09 西藏自治区农牧科学院水产科学研究所 一种高重复原鮡属鱼类的染色体级别组装的方法
CN111627492B (zh) * 2020-05-25 2023-04-28 中国人民解放军军事科学院军事医学研究院 癌症基因组Hi-C数据仿真方法、装置和电子设备
GB202008269D0 (en) * 2020-06-02 2020-07-15 Oxford Biodynamics Ltd Detecting a chromosome marker
CN113215141A (zh) * 2021-02-23 2021-08-06 华南农业大学 细菌hi-c基因组及质粒构象捕获方法
CN115810395B (zh) * 2022-12-05 2023-09-26 武汉贝纳科技有限公司 一种基于高通量测序动植物基因组t2t组装方法
CN116606910B (zh) * 2023-07-21 2023-10-13 中国农业科学院农业基因组研究所 一种适用于微生物群体的宏基因组GutHi-C建库方法及应用

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010036323A1 (en) * 2008-09-25 2010-04-01 University Of Massachusetts Medical School Method of identifing interactions between genomic loci
US20100081141A1 (en) * 2008-08-06 2010-04-01 University Of Southern California Genome-Wide Chromosome Conformation Capture
WO2012005595A2 (en) * 2010-07-09 2012-01-12 Wouter Leonard De Laat V3-d genomic region of interest sequencing strategies
WO2012106546A2 (en) * 2011-02-02 2012-08-09 University Of Washington Through Its Center For Commercialization Massively parallel continguity mapping
JP2016506733A (ja) * 2013-02-01 2016-03-07 ザ リージェンツ オブ ザ ユニバーシティ オブ カリフォルニア ゲノムアセンブリ及びハプロタイプフェージングの方法

Family Cites Families (108)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NL154598B (nl) 1970-11-10 1977-09-15 Organon Nv Werkwijze voor het aantonen en bepalen van laagmoleculire verbindingen en van eiwitten die deze verbindingen specifiek kunnen binden, alsmede testverpakking.
US3817837A (en) 1971-05-14 1974-06-18 Syva Corp Enzyme amplification assay
US3939350A (en) 1974-04-29 1976-02-17 Board Of Trustees Of The Leland Stanford Junior University Fluorescent immunoassay employing total reflection for activation
US3996345A (en) 1974-08-12 1976-12-07 Syva Company Fluorescence quenching with immunological pairs in immunoassays
US4275149A (en) 1978-11-24 1981-06-23 Syva Company Macromolecular environment control in specific receptor assays
US4277437A (en) 1978-04-05 1981-07-07 Syva Company Kit for carrying out chemically induced fluorescence immunoassay
US4366241A (en) 1980-08-07 1982-12-28 Syva Company Concentrating zone method in heterogeneous immunoassays
US5242794A (en) 1984-12-13 1993-09-07 Applied Biosystems, Inc. Detection of specific sequences in nucleic acids
US4988617A (en) 1988-03-25 1991-01-29 California Institute Of Technology Method of detecting a nucleotide change in nucleic acids
US5234809A (en) 1989-03-23 1993-08-10 Akzo N.V. Process for isolating nucleic acid
US5143854A (en) 1989-06-07 1992-09-01 Affymax Technologies N.V. Large scale photolithographic solid phase synthesis of polypeptides and receptor binding screening thereof
US5494810A (en) 1990-05-03 1996-02-27 Cornell Research Foundation, Inc. Thermostable ligase-mediated DNA amplifications system for the detection of genetic disease
ATE199054T1 (de) 1990-12-06 2001-02-15 Affymetrix Inc A Delaware Corp Verbindungen und ihre verwendung in einer binären synthesestrategie
US5994056A (en) 1991-05-02 1999-11-30 Roche Molecular Systems, Inc. Homogeneous methods for nucleic acid amplification and detection
DE69233087T2 (de) 1991-11-22 2003-12-24 Affymetrix Inc N D Ges D Staat Verfahren zur Herstellung von Polymerarrays
US6033854A (en) 1991-12-16 2000-03-07 Biotronics Corporation Quantitative PCR using blocking oligonucleotides
US5567583A (en) 1991-12-16 1996-10-22 Biotronics Corporation Methods for reducing non-specific priming in DNA detection
US5348853A (en) 1991-12-16 1994-09-20 Biotronics Corporation Method for reducing non-specific priming in DNA amplification
DE69433010T2 (de) 1993-04-12 2004-06-09 Northwestern University, Evanston Verfahren zur darstellung von oligonukleotiden
US5837832A (en) 1993-06-25 1998-11-17 Affymetrix, Inc. Arrays of nucleic acid probes on biological chips
AU8126694A (en) 1993-10-26 1995-05-22 Affymax Technologies N.V. Arrays of nucleic acid probes on biological chips
US6110709A (en) 1994-03-18 2000-08-29 The General Hospital Corporation Cleaved amplified modified polymorphic sequence detection methods
US5571639A (en) 1994-05-24 1996-11-05 Affymax Technologies N.V. Computer-aided engineering system for design of sequence arrays and lithographic masks
US5705628A (en) 1994-09-20 1998-01-06 Whitehead Institute For Biomedical Research DNA purification and isolation using magnetic particles
US5795716A (en) 1994-10-21 1998-08-18 Chee; Mark S. Computer-aided visualization and analysis system for sequence evaluation
US5599695A (en) 1995-02-27 1997-02-04 Affymetrix, Inc. Printing molecular library arrays using deprotection agents solely in the vapor phase
US5780613A (en) 1995-08-01 1998-07-14 Northwestern University Covalent lock for self-assembled oligonucleotide constructs
EP0937159A4 (en) 1996-02-08 2004-10-20 Affymetrix Inc SPECIATION OF MICROORGANISMS FROM MICROPLATES AND CHARACTERIZATION OF THE PHENOTYPES THEREOF
US5786146A (en) 1996-06-03 1998-07-28 The Johns Hopkins University School Of Medicine Method of detection of methylated nucleic acid using agents which modify unmethylated cytosine and distinguishing modified methylated and non-methylated nucleic acids
CA2257109C (en) 1996-06-04 2009-10-06 University Of Utah Research Foundation Monitoring hybridization during pcr
US6117635A (en) 1996-07-16 2000-09-12 Intergen Company Nucleic acid amplification oligonucleotides with molecular energy transfer labels and methods based thereon
US6449562B1 (en) 1996-10-10 2002-09-10 Luminex Corporation Multiplexed analysis of clinical specimens apparatus and method
WO1998041651A1 (en) 1997-03-18 1998-09-24 Hsc Research & Development Limited Partnership Method for preparing chromatin
US6969488B2 (en) 1998-05-22 2005-11-29 Solexa, Inc. System and apparatus for sequential processing of analytes
ATE419382T1 (de) 1997-10-28 2009-01-15 Los Alamos Nat Security Llc Identifizierung von dna-polymorphismen mittels durchflusszytometrie
US5989823A (en) 1998-09-18 1999-11-23 Nexstar Pharmaceuticals, Inc. Homogeneous detection of a target through nucleic acid ligand-ligand beacon interaction
GB9812768D0 (en) 1998-06-13 1998-08-12 Zeneca Ltd Methods
US20030022207A1 (en) 1998-10-16 2003-01-30 Solexa, Ltd. Arrayed polynucleotides and their use in genome analysis
US6787308B2 (en) 1998-07-30 2004-09-07 Solexa Ltd. Arrayed biomolecules and their use in sequencing
US20040106110A1 (en) 1998-07-30 2004-06-03 Solexa, Ltd. Preparation of polynucleotide arrays
WO2000032823A1 (en) 1998-12-02 2000-06-08 Phylos, Inc. Dna-protein fusions and uses thereof
US8367322B2 (en) 1999-01-06 2013-02-05 Cornell Research Foundation, Inc. Accelerating identification of single nucleotide polymorphisms and alignment of clones in genomic sequencing
US7056661B2 (en) 1999-05-19 2006-06-06 Cornell Research Foundation, Inc. Method for sequencing nucleic acid molecules
US6225109B1 (en) 1999-05-27 2001-05-01 Orchid Biosciences, Inc. Genetic analysis device
US7244559B2 (en) 1999-09-16 2007-07-17 454 Life Sciences Corporation Method of sequencing a nucleic acid
US7211390B2 (en) 1999-09-16 2007-05-01 454 Life Sciences Corporation Method of sequencing a nucleic acid
EP1218543A2 (en) 1999-09-29 2002-07-03 Solexa Ltd. Polynucleotide sequencing
US6582938B1 (en) 2001-05-11 2003-06-24 Affymetrix, Inc. Amplification of nucleic acids
GB0002389D0 (en) 2000-02-02 2000-03-22 Solexa Ltd Molecular arrays
US6448717B1 (en) 2000-07-17 2002-09-10 Micron Technology, Inc. Method and apparatuses for providing uniform electron beams from field emission displays
WO2002027029A2 (en) 2000-09-27 2002-04-04 Lynx Therapeutics, Inc. Method for determining relative abundance of nucleic acid sequences
US7001724B1 (en) 2000-11-28 2006-02-21 Applera Corporation Compositions, methods, and kits for isolating nucleic acids using surfactants and proteases
DE10120797B4 (de) 2001-04-27 2005-12-22 Genovoxx Gmbh Verfahren zur Analyse von Nukleinsäureketten
GB0114853D0 (en) 2001-06-18 2001-08-08 Medical Res Council Happier Mapping
DE10239504A1 (de) 2001-08-29 2003-04-24 Genovoxx Gmbh Verfahren zur Analyse von Nukleinsäurekettensequenzen und der Genexpression
WO2003031947A2 (de) 2001-10-04 2003-04-17 Genovoxx Gmbh Gerät zur sequenzierung von nukleinsäuremolekülen
DE10149786B4 (de) 2001-10-09 2013-04-25 Dmitry Cherkasov Oberfläche für Untersuchungen aus Populationen von Einzelmolekülen
US6902921B2 (en) 2001-10-30 2005-06-07 454 Corporation Sulfurylase-luciferase fusion proteins and thermostable sulfurylase
US20050124022A1 (en) 2001-10-30 2005-06-09 Maithreyan Srinivasan Novel sulfurylase-luciferase fusion proteins and thermostable sulfurylase
CA2481312A1 (en) 2002-03-08 2003-09-18 The Babraham Institute Tagging and recovery of elements associated with target molecules
DE10214395A1 (de) 2002-03-30 2003-10-23 Dmitri Tcherkassov Verfahren zur Analyse von Einzelnukleotidpolymorphismen
US7563600B2 (en) 2002-09-12 2009-07-21 Combimatrix Corporation Microarray synthesis and assembly of gene-length polynucleotides
US7414117B2 (en) 2002-12-26 2008-08-19 Ngk Insulators, Ltd. Nucleotide derivative and DNA microarray
JP4480715B2 (ja) 2003-01-29 2010-06-16 454 コーポレーション 二重末端シーケンシング
DK1639122T3 (da) 2003-07-02 2009-05-04 Dsm Ip Assets Bv Forbedret testsystem til bestemmelse af nærvær af et antibiotikum i et fluid
GB0316075D0 (en) 2003-07-09 2003-08-13 Molecular Sensing Plc Protease detection assay
WO2005044836A2 (de) 2003-11-05 2005-05-19 Genovoxx Gmbh Makromolekulare nukleotidverbindungen und methoden zu deren anwendung
DE10356837A1 (de) 2003-12-05 2005-06-30 Dmitry Cherkasov Modifizierte Nukleotide und Nukleoside
US7169560B2 (en) 2003-11-12 2007-01-30 Helicos Biosciences Corporation Short cycle methods for sequencing polynucleotides
DE102004009704A1 (de) 2004-02-27 2005-09-15 Dmitry Cherkasov Makromolekulare Nukleotidverbindungen und Methoden zu deren Anwendung
DE102004025745A1 (de) 2004-05-26 2005-12-15 Cherkasov, Dmitry Oberfläche für die Analysen an einzelnen Molekülen
DE102004025694A1 (de) 2004-05-26 2006-02-23 Dmitry Cherkasov Verfahren und Oberfläche zu hochparallelen Analysen von Nukleinsäureketten
DE102004025696A1 (de) 2004-05-26 2006-02-23 Dmitry Cherkasov Verfahren, Oberfläche und Substrate zu hochparallelen Analysen von Nukleinsäureketten
DE102004025695A1 (de) 2004-05-26 2006-02-23 Dmitry Cherkasov Verfahren und Oberfläche zur parallelen Sequenzierung von Nukleinsäureketten
DE102004025744A1 (de) 2004-05-26 2005-12-29 Dmitry Cherkasov Oberfläche für die Analysen an einzelnen Nukleinsäuremolekülen
DE102004025746A1 (de) 2004-05-26 2005-12-15 Dmitry Cherkasov Verfahren, Oberfläche und Substrate zur hochparallelen Sequenzierung von Nukleinsäureketten
US20060024711A1 (en) 2004-07-02 2006-02-02 Helicos Biosciences Corporation Methods for nucleic acid amplification and sequence determination
US7361468B2 (en) 2004-07-02 2008-04-22 Affymetrix, Inc. Methods for genotyping polymorphisms in humans
US20060012793A1 (en) 2004-07-19 2006-01-19 Helicos Biosciences Corporation Apparatus and methods for analyzing samples
US7276720B2 (en) 2004-07-19 2007-10-02 Helicos Biosciences Corporation Apparatus and methods for analyzing samples
US20060024678A1 (en) 2004-07-28 2006-02-02 Helicos Biosciences Corporation Use of single-stranded nucleic acid binding proteins in sequencing
US7425415B2 (en) 2005-04-06 2008-09-16 City Of Hope Method for detecting methylated CpG islands
JP2006301289A (ja) 2005-04-20 2006-11-02 Tokyo Ohka Kogyo Co Ltd ネガ型レジスト組成物およびレジストパターン形成方法
US20090233291A1 (en) 2005-06-06 2009-09-17 454 Life Sciences Corporation Paired end sequencing
DK1907583T4 (da) 2005-06-15 2020-01-27 Complete Genomics Inc Enkeltmolekyle-arrays til genetisk og kemisk analyse
KR101383593B1 (ko) 2005-07-04 2014-04-09 에라스무스 유니버시티 메디칼 센터 염색체 입체형태 칩-상-포착(4c) 에세이
US20070172839A1 (en) 2006-01-24 2007-07-26 Smith Douglas R Asymmetrical adapters and methods of use thereof
US8071296B2 (en) 2006-03-13 2011-12-06 Agency For Science, Technology And Research Nucleic acid interaction analysis
WO2007136874A2 (en) 2006-05-18 2007-11-29 President And Fellows Of Harvard College Genomic library construction
CA2661640A1 (en) 2006-08-24 2008-02-28 University Of Massachusetts Medical School Mapping of genomic interactions
US8278112B2 (en) 2006-12-21 2012-10-02 The Regents Of The University Of California Site-specific installation of methyl-lysine analogues into recombinant histones
BRPI0806565A2 (pt) 2007-01-11 2014-05-06 Erasmus University Medical Center Captura de conformação de cromossomo circular
WO2008097887A2 (en) 2007-02-02 2008-08-14 Emory University Methods of direct genomic selection using high density oligonucleotide microarrays
US8951731B2 (en) 2007-10-15 2015-02-10 Complete Genomics, Inc. Sequence analysis using decorated nucleic acids
EP2053132A1 (en) 2007-10-23 2009-04-29 Roche Diagnostics GmbH Enrichment and sequence analysis of geomic regions
US8592150B2 (en) 2007-12-05 2013-11-26 Complete Genomics, Inc. Methods and compositions for long fragment read sequencing
US20090298064A1 (en) 2008-05-29 2009-12-03 Serafim Batzoglou Genomic Sequencing
US9524369B2 (en) * 2009-06-15 2016-12-20 Complete Genomics, Inc. Processing and analysis of complex nucleic acid sequence data
WO2011106546A1 (en) * 2010-02-25 2011-09-01 Teva Pharmaceutical Industries Ltd. A process for the preparation of rosuvastatin intermediate
US8841075B1 (en) * 2010-04-13 2014-09-23 Cleveland State University Homologous pairing capture assay and related methods and applications
US20110287947A1 (en) 2010-05-18 2011-11-24 University Of Southern California Tethered Conformation Capture
WO2012047726A1 (en) 2010-09-29 2012-04-12 The Broad Institute, Inc. Methods for chromatin immuno-precipitations
US20120197533A1 (en) 2010-10-11 2012-08-02 Complete Genomics, Inc. Identifying rearrangements in a sequenced genome
EP2754078A4 (en) * 2011-04-14 2015-12-02 Complete Genomics Inc PROCESSING AND ANALYSIS OF COMPLEX NUCLEIC ACID SEQUENCE DATA
EP2705156B1 (en) 2011-05-05 2015-08-26 Institut National de la Santé et de la Recherche Médicale (INSERM) Linear dna amplification
WO2012159025A2 (en) 2011-05-18 2012-11-22 Life Technologies Corporation Chromosome conformation analysis
JP6168722B2 (ja) 2012-01-31 2017-07-26 ブラザー工業株式会社 画像形成装置
US9411930B2 (en) * 2013-02-01 2016-08-09 The Regents Of The University Of California Methods for genome assembly and haplotype phasing

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100081141A1 (en) * 2008-08-06 2010-04-01 University Of Southern California Genome-Wide Chromosome Conformation Capture
WO2010036323A1 (en) * 2008-09-25 2010-04-01 University Of Massachusetts Medical School Method of identifing interactions between genomic loci
WO2012005595A2 (en) * 2010-07-09 2012-01-12 Wouter Leonard De Laat V3-d genomic region of interest sequencing strategies
WO2012106546A2 (en) * 2011-02-02 2012-08-09 University Of Washington Through Its Center For Commercialization Massively parallel continguity mapping
JP2016506733A (ja) * 2013-02-01 2016-03-07 ザ リージェンツ オブ ザ ユニバーシティ オブ カリフォルニア ゲノムアセンブリ及びハプロタイプフェージングの方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
METHODS. 2003, VOL. 31, NO. 1, PP. 76-82, JPN6021007395, ISSN: 0004458630 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022065109A (ja) * 2013-02-01 2022-04-26 ザ リージェンツ オブ ザ ユニバーシティ オブ カリフォルニア ゲノムアセンブリ及びハプロタイプフェージングの方法

Also Published As

Publication number Publication date
CN105121661A (zh) 2015-12-02
EP3885446A1 (en) 2021-09-29
CN105121661B (zh) 2018-06-08
AU2020202992B2 (en) 2023-02-23
GB2547875B (en) 2017-12-13
US20220172799A1 (en) 2022-06-02
JP7028807B2 (ja) 2022-03-02
JP6466855B2 (ja) 2019-02-06
EP2951319B1 (en) 2021-03-10
HK1218433A1 (zh) 2017-02-17
WO2014121091A1 (en) 2014-08-07
CA2899020A1 (en) 2014-08-07
GB2547875A (en) 2017-09-06
US20150363550A1 (en) 2015-12-17
CN108624668A (zh) 2018-10-09
AU2014212152A1 (en) 2015-08-06
GB201520448D0 (en) 2016-01-06
AU2020202992A1 (en) 2020-05-28
GB2519255B (en) 2016-01-06
US20190080050A1 (en) 2019-03-14
CA3209385A1 (en) 2014-08-07
GB201501001D0 (en) 2015-03-04
EP2951319A4 (en) 2016-12-21
EP2951319A1 (en) 2015-12-09
US11081209B2 (en) 2021-08-03
US10089437B2 (en) 2018-10-02
JP2016506733A (ja) 2016-03-07
AU2014212152B2 (en) 2020-02-06
JP2022065109A (ja) 2022-04-26
CA2899020C (en) 2023-10-03
CN108624668B (zh) 2022-12-02
GB2519255A (en) 2015-04-15

Similar Documents

Publication Publication Date Title
JP7028807B2 (ja) ゲノムアセンブリ及びハプロタイプフェージングの方法
JP7300831B2 (ja) ゲノムアセンブリ、ハプロタイプフェージング、および標的に依存しない核酸検出のための方法
US20220112487A1 (en) Methods for labeling dna fragments to reconstruct physical linkage and phase
US10526641B2 (en) Tagging nucleic acids for sequence assembly
US20220267826A1 (en) Methods and compositions for proximity ligation

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190212

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190212

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200324

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20200616

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200918

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210309

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20210603

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220118

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220217

R150 Certificate of patent or registration of utility model

Ref document number: 7028807

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150