JP2017530720A - 着床前遺伝子スクリーニングおよび異数性検出 - Google Patents

着床前遺伝子スクリーニングおよび異数性検出 Download PDF

Info

Publication number
JP2017530720A
JP2017530720A JP2017520484A JP2017520484A JP2017530720A JP 2017530720 A JP2017530720 A JP 2017530720A JP 2017520484 A JP2017520484 A JP 2017520484A JP 2017520484 A JP2017520484 A JP 2017520484A JP 2017530720 A JP2017530720 A JP 2017530720A
Authority
JP
Japan
Prior art keywords
chromosome
sequence
sample
nucleic acid
alignment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2017520484A
Other languages
English (en)
Inventor
グレゴリー ポレッカ,
グレゴリー ポレッカ,
Original Assignee
グッド スタート ジェネティクス, インコーポレイテッド
グッド スタート ジェネティクス, インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by グッド スタート ジェネティクス, インコーポレイテッド, グッド スタート ジェネティクス, インコーポレイテッド filed Critical グッド スタート ジェネティクス, インコーポレイテッド
Publication of JP2017530720A publication Critical patent/JP2017530720A/ja
Priority to JP2021145382A priority Critical patent/JP2021184757A/ja
Withdrawn legal-status Critical Current

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/10Ploidy or copy number detection
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/172Haplotypes

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Engineering & Computer Science (AREA)
  • Organic Chemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Physics & Mathematics (AREA)
  • Analytical Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biotechnology (AREA)
  • Microbiology (AREA)
  • General Engineering & Computer Science (AREA)
  • Biochemistry (AREA)
  • Immunology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Pathology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Micro-Organisms Or Cultivation Processes Thereof (AREA)

Abstract

胚の倍数性を判定するための方法が本明細書に提供されている。本方法は、多数のヒトゲノム遺伝子座を増幅するプライマー対を使用して、着床前胚由来の核酸を増幅して多数のアンプリコンを生成するステップ、アンプリコンをシーケンシングして多数の配列リードを生成するステップ、配列リードをゲノム遺伝子座にマッチングし、マッチの数をカウントするステップ、およびマッチの数に基づいて染色体カウントを判定するステップを含み得る。命令を記憶している有形メモリーサブシステムと共役したプロセッサーを備える、染色体カウントを判定するためのシステムも本明細書に提供されている。プロセッサーによって実行されるとき、命令はシステムに、提供される方法を実施する。

Description

本願は、2014年10月17日に提出された米国仮出願第62/065,322号に対する優先権を主張し、その内容を参照として援用する。
本発明は、着床の前の胚のスクリーニングに関する。
子を儲けることが難しい人は、in vitro受精(IVF)に頼ることがあり得る。IVFは、胎外での卵子の受精を伴い、その後母親内への胚の着床が続く。CDCによれば、IVFは、米国で実施される補助生殖医療手順の99%を占める。しかし、IVFには多くの困難が存在する。例えば、図1に示したように、IVFに頼る人の多くは35歳を超える女性であり、35歳は、女性が高齢出産年齢であると言われ、正倍数体胚のパーセンテージが急峻な降下を経験し始める年齢である。CDCによって刊行された2011年の研究によれば、38〜40歳の女性において妊娠をもたらすIVFサイクルのパーセンテージは、わずか約29%であり、わずか約22%が出生をもたらした。「2011 Assisted Reproductive Technology: Fertility Clinic Success Rates Report」を参照。
妊娠の失敗の共通要因は、染色体異数性の存在である。異数性は、染色体の数が、一倍体における数(ヒトにおいて23)の厳密な倍数でない状態である。対照的に、正倍数性は、一倍体における数の厳密な倍数が存在することであり、ヒトにおいて「正常」と見なされる。ほとんどの異数性は、胎仔に対して致死性であるが、トリソミー21(ダウン症候群)、トリソミー18(エドワーズ症候群)、およびトリソミー18(パトー症候群)などの一部は、必ずしも致死性ではないものの子供において先天性欠損、発育不全、および知的障害を引き起こす。
増えてきた証拠は、首尾よい妊娠を実現する機会は、正倍数体胚が移植されると改善することを示す。着床前遺伝子スクリーニング(PGS)は、異数性または正倍数性状態を判定することができるように、1つまたは複数の胚の核型または染色体コピー数を評価し得る一方法である。しかし、PGSは、伝統的なPGS手法に関連した高い費用、およびスクリーニングを完了するのに要する時間に起因して少なくとも部分的に限定されている。
2011 Assisted Reproductive Technology: Fertility Clinic Success Rates Report
本発明は、特に異数性を検出するために着床の前にIVFの候補胚の遺伝子構成をスクリーニングすることによって、IVF手順の成功率を改善し、IVFによって妊娠される小児の健康および幸福を改善するためのシステムおよび方法を提供する。着床前遺伝子スクリーニング(PGS)を使用して胚の核型または染色体コピー数を評価し、胚の正倍数性または異数性状態の判定を可能にすることができる。本発明は、FAST−SeqSなどの次世代DNAシーケンシング(NGS)を用いる合理化したワークフローと共役した、栄養外胚葉生検、その後のガラス化、および後続の凍結胚移植などの手順の使用によって、PGSのより広い採用を可能にする。
本発明の一実施形態によれば、胚の倍数性を判定するための方法が提供されている。多数のヒトゲノム遺伝子座を増幅するプライマー対を使用して、着床前胚由来の核酸が増幅されて多数のアンプリコンが生成される。アンプリコンは、シーケンシングされて多数の配列リードが生成される。配列リードは、ゲノム遺伝子座にマッチングされ、マッチングの数がカウントされる。次いで染色体カウントが、マッチングの数に基づいて判定される。
本方法の一態様では、核酸を含む試料が得られる。別の態様では、試料は、生検によって得られる。本方法のさらに別の態様では、生検は、栄養外胚葉生検である。本方法の一態様では、試料は、着床前胚由来の少なくとも1個の細胞を含む。本発明の別の態様では、試料は、約1〜約8個の細胞を含有する。さらに別の態様では、試料は、約1〜約5個の細胞を含有する。
本方法のさらに別の態様では、プライマー対は、少なくとも4つのヒト染色体上に分布した配列に相補的(complimentary)である。
本方法の別の態様では、アンプリコンのすべてが同一であるわけではない。別の態様では、アンプリコンは、少なくとも1つの目的の染色体上の配列および1つまたは複数の参照染色体上の配列を含む。目的の染色体としては、それだけに限らないが、第9番染色体、第13番染色体、第18番染色体、第21番染色体、X染色体、およびY染色体を挙げることができる。
本方法の別の態様では、染色体カウントは、目的の染色体のzスコアの生成および比較によって判定される。
本方法のさらに別の態様では、胚の正倍数性または異数性状態は、染色体カウントに基づいて判定される。
本方法の別の態様では、配列アダプターおよびバーコードが、核酸の増幅と同時にアンプリコンに付着される。さらに別の態様では、核酸は、断片化される。
本方法の別の態様では、プライマーは、ユニバーサルプライマー結合部位を含有する。本方法のさらに別の態様では、増幅の第2のラウンドを行うことができ、それは、ユニバーサルプライマー結合部位にハイブリダイズする第2のプライマーを使用してシーケンシングアダプターをアンプリコンに付加することを含む。
本発明の別の実施形態によれば、染色体カウントを判定するためのシステムが提供されている。システムは、命令を記憶している有形メモリーサブシステムと共役したプロセッサーを含む。命令がプロセッサーによって実行されるとき、システムは、アンプリコンから配列リードを得るようにされ、アンプリコンは、多数のヒトゲノム遺伝子座を増幅するプライマー対を使用して、着床前胚由来の核酸を増幅することによって生成される。次いでシステムは、配列リードをゲノム遺伝子座にマッチングし、ゲノム遺伝子座におけるマッチングの数をカウントする。次いで染色体カウントが、マッチングの数に基づいて判定される。
システムの一態様では、核酸は、試料から得られる。システムの別の態様では、試料は、生検によって得られる。システムのさらに別の態様では、生検は、栄養外胚葉生検である。システムの別の態様では、試料は、着床前胚由来の約1〜約5個の細胞を含有する。
システムの一態様では、プライマー対は、少なくとも4つのヒト染色体上に分布した配列に相補的である。別の態様では、アンプリコンは、少なくとも1つの目的の染色体上の配列および1つまたは複数の参照染色体上の配列を含む。さらに別の態様では、目的の染色体は、第9番染色体、第13番染色体、第18番染色体、第21番染色体、X染色体、およびY染色体から選択される。
システムのさらに別の態様では、命令はさらに、システムに染色体カウントに基づいて胚の正倍数性または異数性状態を判定および報告させる。
図1は、正倍数体胚数を母体年齢と関係づける先行技術の知見の図である。
図2は、本発明のある特定の実施形態の方法を図示する。
図3は、FAST−SeqSベースPGSの概要図を示す。
図4は、栄養外胚葉生検の概要図を示す。
図5は、本発明のシステムのダイアグラム図を示す。
図6は、正倍数体細胞からの結果を示す。
図7は、異数体細胞からの結果を示す。
図8は、希釈された2個の線維芽細胞についての核型のコール(karyotype call)を示す。
図9は、顕微操作された2個の線維芽細胞についての核型のコールを示す。
図10は、希釈された5個の線維芽細胞についての核型のコールを示す。
図11は、顕微操作された5個の線維芽細胞についての核型のコールを示す。
図12は、試料タイプによる数、特異性、および感度を要約するチャート図である。
着床前遺伝子スクリーニング(PGS)は、in vitro受精設定において着床の前の染色体異常についての胚のスクリーニング(例えば、核型試験または異数性試験)である。PGSを行うことによって、正しい数の染色体を有する胚を移植する可能性は、妊娠率の増大についての可能性が増大するのと同様に増大する。
人体中のほとんどの細胞は、23対の染色体、すなわち合計46の染色体を有する。それぞれの対の一方のコピーは、母親から受け継がれ、他方のコピーは、父親から受け継がれる。染色体の最初の22対(常染色体と呼ばれる)は、最大から最小にむかって、1から22と番号を付けられる。染色体の23番目の対は、性染色体である。正常な女性は、2つのX染色体を有し、一方、正常な男性は、1つのX染色体および1つのY染色体を有する。ダイソミーは、染色体の2つのコピーが存在することである。ヒトなどの生物については、それぞれの染色体の2つのコピー(すなわち、二倍体)が正常状態である。
減数分裂中、生殖細胞が分裂して精子および卵子(配偶子)を創出するとき、それぞれの半分は、同じ数の染色体を有するはずである。しかし、時に、染色体の対全体が、最後には一方の配偶子となり、他方の配偶子は、その染色体をまったく得ないことになる。細胞内に異常数の染色体が存在することは、異数性と呼ばれる。余分のまたは欠けている染色体は、いくつかのヒト出生時欠損を含めた遺伝子障害の一般的な原因である。異数性のタイプとしては、モノソミー(1つのコピーの染色体)、トリソミー(3つのコピーの染色体)、およびテトラソミー(4つのコピーの染色体)が挙げられる。PGSの重要な目的は、それぞれの染色体のコピー数を正確に判定することである。染色体コピー数を正確にコールすることによって、異数性を識別することが可能である。
図2は、本発明のある特定の実施形態による一般的な方法1101を図示する。示したように、胚鋳型DNAが、試料から得られる1105。アダプターおよび試料バーコードが同時に付着されると同時に、DNAが増幅されてアンプリコンが提供される1109。次いでアンプリコンがシーケンシングされてリードカウントが生成される1113。リードカウントは、染色体コピー数を推測するのに使用することができる1117。コピー数/リードカウントに基づいて、胚の倍数性を判定し、または「コールする」ことができる1121。
図3は、FAST−SeqSベースPGSを使用する本発明の一実施形態の概要を提供する。細胞が得られ、溶解されて23の染色体から核酸が放出される。断片が、反復領域の別個のサブセットを増幅してアンプリコンを提供するように設計された単一プライマー対を使用して増幅される。配列アダプターおよびバーコードを、核酸の増幅と同時にアンプリコンに付着させることができる。次いでアンプリコンは、シーケンシングされ、ゲノム遺伝子座における配列にマッチングされる。マッチングの数がカウントされてコピー数が判定され、すなわちコピー数が「コールされる」
着床のために生存可能な胚を得るために、典型的な手順は、女性患者が、卵母細胞(例えば、発達中の卵子)の大集団を生じさせるために制御卵巣刺激(COH)を受けることである。卵母細胞は、卵丘細胞から回収および裸出される。その理由は、これらの細胞が分析中の汚染の源であり得るためである。IVFは、卵母細胞を受精させるのに使用することができる。卵母細胞を受精させるのに使用されるIVF手順の一例は、細胞質内精子注入法(ICSI)である。ICSIでは、卵子中への直接単一精子の注入を伴う。受精した後、胚発生が、典型的には、PGS目的の生検の前に毎日評価される。
PGSを実行するために核酸を試料から得ることができるいくつかの生検方法が存在する。本方法は、生検が実施されることになる着床前段階に応じて異なる。例示的な生検方法としては、それだけに限らないが、極体生検、卵割段階生検(割球生検)、および胚盤胞生検(栄養外胚葉生検)が挙げられる。
極体(PB)生検は、極体のサンプリングであり、極体は、卵子発生中に卵細胞として付随して形成されるが、一般に受精する能力を有さない小さい一倍体細胞である。PGSにおいて極体を使用する主な利点は、これらが、順調な受精または正常な胚発生に必須ではなく、したがって、胚に対して有害な効果がないことを保証することである。PB生検の不利点の1つは、それが、胚への母体寄与についての情報だけを提供することであり、それが、母系伝達される常染色体優性障害およびX連鎖障害の症例が診断され得、常染色体劣性障害が部分的にのみ診断され得る理由である。「Delivery of a chromosomally normal child from an oocyte with reciprocal aneuploid polar bodies」、Scott Jr, Richard T.、Nathan R. Treff、John Stevens、Eric J. Forman、Kathleen H. Hong、Mandy G. Katz-Jaffe、William B. Schoolcraft、Journal of Assisted Reproductive Genetics、29巻、533〜537頁、2012年を参照。
卵割段階生検は一般に、正常に発生中の胚が8細胞期に到達する、受精後3日目の午前に実施される。穴が透明帯にあけられ、核を含有する1つまたは複数の割球が、開口部を通じて穏やかに吸引または押出される。卵割段階生検の利点の1つは、両親の遺伝的入力が研究され得ることである。不利点の1つは、卵割段階胚が、染色体モザイク現象、すなわち、1つの個体中に異なる遺伝子型を有する細胞の2つまたはそれ超の集団の存在を高い割合で有することが判明していることである。このために、割球に関して得られる結果は、胚の残りについて表さない可能性がある。
栄養外胚葉生検は、IVF胚盤胞胚の栄養外胚葉成分から細胞を取り出すことを伴う。栄養外胚葉は、外層が胚の外胚葉と連続しているときの外胚葉、中胚葉、および内胚葉の分化後の哺乳動物胚盤胞の外層である。図4に示したように、このプロセスは、in vitro培養の3日目に透明帯に穴をあけることを伴う。次いで栄養外胚葉は、胞胚形成後に突出し、生検を容易にする。受精後5日目に、典型的には約5個の細胞が、ガラス針またはレーザーエネルギーを使用して、胚を概ねインタクトなままにし、かつ内部細胞塊を喪失することなく、栄養外胚葉から切り取られる。しかし、切り取られる細胞の数は、約1〜約8細胞、または約1〜約5細胞、または約5細胞であり得ることが理解されるべきである。5個超または5個未満、例えば、しかし限定ではなく、1、2、3、4、6、7、または8個の細胞を切り取ることができることなども理解されるべきである。次いで取り出した細胞を全体的な染色体正常性について試験することができる。診断後、PGSから結果を得るのに要する時間の量に応じて、胚を同じサイクル中に元の場所に戻し、または凍結保存し、後続のサイクルで移植することができる。卵母細胞凍結保存(例えば、「卵子凍結」)は、女性の卵母細胞(卵子)が取り出され、凍結され、および貯蔵されるプロセスを指す。ますます一般的となっている凍結保存プロセスの一タイプは、ガラス化である。ガラス化は、高濃度の凍結保護物質を使用することを伴う、超急速凍結保存プロセスである。
試料が得られると、核酸が、分析のために試料から単離される。一般に、核酸は、Maniatisら、Molecular Cloning: A Laboratory Manual、1982年、Cold Spring Harbor、N.Y.、280〜281頁;SambrookおよびRussell、Molecular Cloning: A Laboratory Manual、第3版、Cold Spring Harbor Laboratory Press、2001年、Cold Spring Harbor、N.Y.によって記載されたものまたは米国特許出願公開第2002/0190663号に記載されているものなどの様々な技法によって;生体試料から抽出することができる。
生体試料から得られる核酸を断片化して分析に適当な断片を生成することができる。鋳型核酸は、様々な機械的、化学的および/または酵素的方法を使用して所望の長さに断片化またはせん断することができる。DNAは、超音波処理、例えば、Covaris法、DNaseへの短時間曝露を介して、あるいは1種もしくは複数の制限酵素の混合物、またはトランスポサーゼもしくはニッキング酵素を使用してランダムにせん断することができる。RNAは、RNaseへの短時間曝露、加熱+マグネシウムによって、またはせん断によって断片化することができる。RNAは、cDNAに変換される場合がある。断片化が用いられる場合、RNAは、断片化の前または後にcDNAに変換され得る。一実施形態では、生体試料由来の核酸が超音波処理によって断片化される。別の実施形態では、核酸は、ハイドロシェア(hydroshear)機器によって断片化される。一般に、個々の核酸鋳型分子は、約2kbの塩基〜約40kbであり得る。特定の実施形態では、核酸は、約6kb〜10kbの断片である。核酸分子は、一本鎖、二本鎖、または一本鎖領域を有する二本鎖(例えば、ステム構造およびループ構造)であり得る。
本明細書に記載の生体試料は、界面活性剤または界面活性物質の存在下でホモジナイズまたは分画することができる。緩衝液中の界面活性剤の濃度は、約0.05%〜約10.0%であり得る。界面活性剤の濃度は、最大で界面活性剤が溶液中で可溶性のままである量であり得る。一実施形態では、界面活性剤の濃度は、0.1%〜約2%の間である。界面活性剤、特に非変性性である穏やかなものは、試料を可溶化するように作用することができる。界面活性剤は、イオン性であっても非イオン性であってもよい。非イオン性界面活性剤の例としては、Triton(登録商標)Xシリーズ(Triton(登録商標)X−100 t−オクタ−C−(OCH−CHOH、x=9〜10、Triton(登録商標)X−100R、Triton(登録商標)X−114、x=7〜8)などのtriton、オクチルグルコシド、ポリオキシエチレン(9)ドデシルエーテル、ジギトニン、IGEPAL(登録商標)CA630オクチルフェニルポリエチレングリコール、n−オクチル−ベータ−D−グルコピラノシド(betaOG)、n−ドデシル−ベータ、Tween(登録商標)20ポリエチレングリコールソルビタンモノラウレート、Tween(登録商標)80ポリエチレングリコールソルビタンモノオレエート、ポリドカノール、n−ドデシルベータ−D−マルトシド(DDM)、NP−40ノニルフェニルポリエチレングリコール、C12E8(オクタエチレングリコールn−ドデシルモノエーテル)、ヘキサエチレングリコールモノ−n−テトラデシルエーテル(C14EO6)、オクチル−ベータ−チオグルコピラノシド(オクチルチオグルコシド、OTG)、エマルゲン、およびポリオキシエチレン10ラウリルエーテル(C12E10)が挙げられる。イオン性界面活性剤(アニオン性またはカチオン性)の例としては、デオキシコレート、ドデシル硫酸ナトリウム(SDS)、N−ラウロイルサルコシン、およびセチルトリメチルアンモニウムブロミド(CTAB)が挙げられる。双性イオン性試薬、例えば、Chaps、双性イオン3〜14、および3−[(3−コールアミドプロピル)ジメチル−アンモニオ]−1−プロパンスルホネートなどもまた本発明の精製スキームで使用することができる。尿素が別の界面活性剤または界面活性物質の有無にかかわらず添加され得ることもまた企図されている。
溶解またはホモジナイゼーション溶液は、還元剤などの他の試薬をさらに含有し得る。このような還元剤の例としては、ジチオトレイトール(DTT)、β−メルカプトエタノール、DTE、GSH、システイン、システアミン、トリカルボキシエチルホスフィン(TCEP)、または亜硫酸の塩が挙げられる。
様々な実施形態では、核酸は、例えば、試料から、または試料から単離した後に増幅される。一実施形態では、核酸は、単離および断片化後に増幅されてアンプリコンが提供される。別の実施形態では、核酸は、断片化を必要とすることなく増幅される。増幅は、核酸配列の追加のコピーの生成を指し、一般に、ポリメラーゼ連鎖反応または当技術分野で周知の他の技術においてプライマーを使用して実行される(例えば、DieffenbachおよびDveksler、PCR Primer, a Laboratory Manual、1995年、Cold Spring Harbor Press、Plainview、N.Y.)。増幅反応は、核酸分子を増幅する当技術分野で公知の任意の増幅反応、例えば、ポリメラーゼ連鎖反応(PCR)、ネステッドポリメラーゼ連鎖反応、ポリメラーゼ連鎖反応−一本鎖コンホメーション多型、リガーゼ連鎖反応(Barany, F.、Genome Research、1巻:5〜16頁(1991年);Barany, F.、PNAS、88巻:189〜193頁(1991年);米国特許第5,869,252号;および米国特許第6,100,099号)、鎖置換増幅、ならびに制限断片長多型、転写ベース増幅システム、ローリングサークル増幅、ならびに超分岐ローリングサークル増幅などであり得る。使用することができる増幅技術のさらなる例としては、それだけに限らないが、定量的PCR、定量的蛍光PCR(QF−PCR)、多重蛍光PCR(MF−PCR)、リアルタイムPCR(RTPCR)、単一細胞PCR、制限断片長多型PCR(PCR−RFLP)、RT−PCR−RFLP、ホットスタートPCR、in situポロノニー(polonony)PCR、in situローリングサークル増幅(RCA)、ブリッジPCR、ピコタイターPCR、およびエマルジョンPCRが挙げられる。他の適当な増幅法としては、転写増幅、自己持続配列複製、標的ポリヌクレオチド配列の選択的増幅、コンセンサス配列プライムドポリメラーゼ連鎖反応(CP−PCR)、任意プライムドポリメラーゼ連鎖反応(AP−PCR)、縮退オリゴヌクレオチドプライムドPCR(DOP−PCR)、および核酸ベース配列増幅(NABSA)が挙げられる。本明細書で使用することができる他の増幅法としては、米国特許第5,242,794号;同第5,494,810号;同第4,988,617号;および同第6,582,938号に記載されたものが挙げられる。
ある特定の実施形態では、増幅反応は、ポリメラーゼ連鎖反応(PCR)を含み得る。PCRは、クローニングまたは精製を用いることなくゲノムDNAの混合物中の標的配列のセグメントの濃度を増大させるためのK. B. Mullis(米国特許第4,683,195号および同第4,683,202号、参照により本明細書に援用される)による方法を指す。
一実施形態では、増幅法は、Kindeら、2012年、FAST-SeqS: a simple and efficient method for the detection of aneuploidy by massively parallel sequencing、PLoS One、7巻(7号):e41162頁に記載の方法であって、単一プライマー対がアンプリコンを生成するのに使用される、方法を含み得る。FAST−SeqS(「高速異数性スクリーニング検査−シーケンシング」)を使用することによって、末端修復、末端3’dA付加、またはアダプターへのライゲーションの必要性を不要にすることができる。
プライマーは、それだけに限らないが、適切な配列のクローニング、および当技術分野で周知の方法を使用する直接化学合成(Narangら、Methods Enzymol.、68巻:90頁(1979年);Brownら、Methods Enzymol.、68巻:109頁(1979年))を含めた様々な方法によって調製することができる。プライマーはまた、商業的供給元、例えば、Operon Technologies、Amersham Pharmacia Biotech、Sigma、およびLife Technologiesなどから得ることもできる。プライマーは、同一の融解温度を有し得る。プライマーの長さを5’末端または3’末端で伸長または短縮して所望の融解温度を有するプライマーを生成することができる。また、それぞれのプライマー対のアニーリング位置は、プライマー対の配列および長さが所望の融解温度を生じるように設計することができる。25塩基対より小さいプライマーの融解温度を判定するための最も単純な式は、Wallace規則(Td=2(A+T)+4(G+C))である。それだけに限らないが、Arrayit Corporation(Sunnyvale、Calif.)製Array Designer Software、Olympus Optical Co.,Ltd.(Tokyo、日本)製Oligonucleotide Probe Sequence Design Software for Genetic Analysis、NetPrimer、およびHitachi Solutions America,Ltd.(South San Francisco、Calif.)製DNAsis Max v3.0を含めたコンピュータープログラムもまたプライマーを設計するのに使用することができる。それぞれのプライマーのTM(融解またはアニーリング温度)は、Integrated DNA Technologies,Inc.(Coralville、Iowa)のウェブサイトで入手可能なOligoAnalyzer3.1などのソフトウェアプログラムを使用して計算される。
一実施形態では、プライマーは、ゲノム全体にわたって分散したヒト配列のサブセットにアニールすることができる単一プライマー対である。本明細書に援用されるKindeら、2012年を参照。好ましくは、プライマーは、アンプリコンを生成するためにゲノム全体にわたって、かつ1つまたは複数の目的の染色体の重要な領域全体にわたって核酸の多くの別個の断片を増幅することができる単一プライマー対である。好適な実施形態では、アンプリコンのすべてが同一であるわけではない。プライマー対は、少なくとも第3番、第4番、第5番、第6番、第7番、第8番、第9番、第10番、第11番、第12番、第13番、第14番、第15番、第16番、第17番、第18番、第19番、第20番、第21番、第22番、または第23番のヒト染色体上の配列に相補的であり得る。したがって、アンプリコンが1つまたは複数の参照染色体および少なくとも1つの目的の染色体上の配列を含むことが可能である。一実施形態では、目的の染色体には、第9番染色体、第13番染色体、第18番染色体、第21番染色体、X染色体、およびY染色体が含まれる。
増幅アダプターを断片化された核酸に付着させることができる。アダプターは、Integrated DNA Technologies(Coralville、Iowa)などから商業的に得ることができる。ある特定の実施形態では、アダプター配列は、酵素で鋳型核酸分子に付着される。酵素は、リガーゼまたはポリメラーゼであり得る。リガーゼは、オリゴヌクレオチド(RNAまたはDNA)を鋳型核酸分子にライゲーションすることができる任意の酵素であり得る。適当なリガーゼとしては、New England Biolabs(Ipswich、Mass.)から市販されているT4 DNAリガーゼおよびT4 RNAリガーゼが挙げられる。リガーゼを使用するための方法は、当技術分野で周知である。ポリメラーゼは、鋳型核酸分子の3’および5’末端にヌクレオチドを付加することができる任意の酵素であり得る。
さらに、プライマーは、ユニバーサルプライマー結合部位を含み得、その結果、増幅の第2のラウンドが完了した場合、配列アダプターは、ユニバーサルプライマー結合部位にハイブリダイズする第2のプライマーを使用してアンプリコンに付加され得る。
ある特定の実施形態では、バーコードまたはタグを1つまたは複数の断片またはアンプリコンに付着させることができる。例えば、しかし限定ではなく、バーコードを、多数の断片もしくはアンプリコン、または断片もしくはアンプリコンのそれぞれに付着させることができる。一実施形態では、単一バーコードを断片またはアンプリコンに付着させることができる。他の実施形態では、多数のバーコード、例えば、2つまたはそれ超のバーコードを断片またはアンプリコンに付着させることができる。
バーコード配列は一般に、配列をシーケンシング反応において有用にするある特定の特徴を含む。例えば、バーコード配列は、バーコード配列内にホモポリマー領域、すなわちAAまたはCCCなどの、2つまたはそれ超の連続した同じ塩基を最小限有し、またはまったく有さないように設計することができる。バーコード配列はまた、これらが、ベースバイベース(base-by-base)シーケンシングを実施するとき、塩基付加順序から少なくとも1つの編集距離離れているように設計し、最初と最後の塩基が、配列の予期された塩基とマッチングしないことを保証することもできる。
バーコード配列はまた、それぞれの配列を核酸の特定の部分と関連させて、配列リードを、これらが由来した部分に後で関連付けることが可能となるように設計することもできる。バーコード配列のセットを設計する方法は、例えば、米国特許第6,235,475号に示されており、その内容は、その全体が本明細書に参照により援用されている。ある特定の実施形態では、バーコード配列は、約5ヌクレオチド〜約15ヌクレオチドの範囲であり得る。特定の実施形態では、バーコード配列は、約4ヌクレオチド〜約7ヌクレオチドの範囲であり得る。バーコード配列は、鋳型核酸に沿ってシーケンシングされるので、オリゴヌクレオチド長は、付着された鋳型核酸からの最長リードを可能にするように最小の長さであるはずである。一般に、バーコード配列は、少なくとも1塩基、鋳型核酸分子から間隔をあけることができる(ホモポリマー的組合せを最小限にする)。
本発明の方法では、バーコード配列を鋳型核酸に付着させることを伴う。ある特定の実施形態では、バーコード配列は、酵素を用いて鋳型核酸分子に付着される。酵素は、上記に論じたようにリガーゼまたはポリメラーゼであり得る。バーコード配列を核酸鋳型に付着させることは、米国特許出願公開第2008/0081330号および米国特許出願公開第2011/0301042号に示されており、これらのそれぞれの内容は、その全体が本明細書に参照により援用されている。バーコード配列のセットを設計するための方法およびバーコード配列を付着させるための他の方法は、米国特許第6,138,077号;同第6,352,828号;同第5,636,400号;同第6,172,214号;同第6235,475号;同第7,393,665号;同第7,544,473号;同第5,846,719号;同第5,695,934号;同第5,604,097号;同第6,150,516号;同第RE39,793号;同第7,537,897号;同第6,172,218号;および同第5,863,722号に示されており、これらのそれぞれの内容は、その全体が本明細書に参照により援用されている。一実施形態では、配列アダプターおよび試料特異的バーコードは、それぞれの染色体由来の領域が増幅されるのと同時に付着させることができる。
任意の処理ステップ(例えば、得るステップ、単離するステップ、断片化するステップ、または増幅ステップ)の後、核酸を本発明のある特定の実施形態によってシーケンシングすることができる。シーケンシングは、当技術分野で公知の任意の方法によるものであり得る。DNAシーケンシング技術としては、標識ターミネーターまたはプライマー、およびスラブまたはキャピラリー中のゲル分離を使用する古典的なジデオキシシーケンシング反応(サンガー法)、可逆的に終結させる標識ヌクレオチドを使用する合成によるシーケンシング、ピロシーケンシング、454シーケンシング、Illumina/Solexaシーケンシング、標識オリゴヌクレオチドプローブのライブラリーへの対立遺伝子特異的ハイブリダイゼーション、ライゲーションが後に続く標識クローンのライブラリーへの対立遺伝子特異的ハイブリダイゼーションを使用する合成によるシーケンシング、重合ステップ中の標識ヌクレオチド組込みのリアルタイム監視、ポロニーシーケンシング、およびSOLiDシーケンシングが挙げられる。分離した分子のシーケンシングは、ポリメラーゼまたはリガーゼを使用する逐次または単一伸長反応によって、およびプローブのライブラリーとの単一または逐次ディファレンシャルハイブリダイゼーションによってより最近実証された。
提供される発明の方法において使用することができるシーケンシング技術には、例えば、454シーケンシング(454Life Sciences、a Roche company、Branford、Conn.)(Margulies, Mら、Nature、437巻:376〜380頁(2005年);米国特許第5,583,024号;米国特許第5,674,713号;および米国特許第5,700,673号)が含まれる。454シーケンシングは、2つのステップを伴う。第1のステップでは、DNAがせん断されておよそ300〜800塩基対の断片にされ、断片は、平滑末端化される。次いでオリゴヌクレオチドアダプターが、断片の末端にライゲーションされる。アダプターは、断片の増幅およびシーケンシングのためのプライマーとして機能を果たす。断片は、例えば、5’−ビオチンタグを含有するアダプターBを使用してDNA捕捉ビーズ、例えば、ストレプトアビジンコートビーズに付着させることができる。ビーズに付着された断片は、油−水エマルジョンの液滴内でPCR増幅される。結果は、それぞれのビーズ上のクローン増幅されたDNA断片の多数のコピーである。第2のステップでは、ビーズが、ウェル(ピコリットルサイズの)中に捕捉される。ピロシーケンシングは、並行してそれぞれのDNA断片上で実施される。1つまたは複数のヌクレオチドを付加すると光シグナルが生じ、それは、シーケンシング機器中のCCDカメラによって記録される。シグナル強度は、組み込まれたヌクレオチドの数に比例する。ピロシーケンシングは、ヌクレオチド付加の際に放出されるピロリン酸(PPi)を利用する。PPiは、アデノシン5’ホスホ硫酸の存在下でATPスルフリラーゼによってATPに変換される。ルシフェラーゼは、ATPを使用してルシフェリンをオキシルシフェリンに変換し、この反応により、検出および分析される光が生じる。
提供される発明の方法において使用することができるDNAシーケンシング技術の別の例は、Life Technologies Corporation(Carlsbad、Calif.)からのApplied BiosystemsによるSOLiD技術である。SOLiDシーケンシングでは、ゲノムDNAがせん断されて断片にされ、アダプターが断片の5’および3’末端に付着されて断片ライブラリーが生成される。代わりに、断片の5’および3’末端にアダプターをライゲーションし、断片を環状化し、環状化された断片を消化して内部アダプターを生成し、得られる断片の5’および3’ 末端端にアダプターを付着させてメイト対形成した(mate-paired)ライブラリーを生成することによって内部アダプターを導入することができる。次に、クローンビーズ集団が、ビーズ、プライマー、鋳型、およびPCR成分を含有するマイクロリアクター内で調製される。PCRの後、鋳型が変性され、ビーズが濃縮されて伸長された鋳型を有するビーズが分離される。選択されたビーズ上の鋳型は、ガラススライドへの結合を可能にする3’修飾に付される。配列は、部分的にランダムなオリゴヌクレオチドの、特異的なフルオロフォアによって識別される中央決定塩基(central determined base)(または塩基の対)との逐次ハイブリダイゼーションおよびライゲーションによって判定することができる。色が記録された後、ライゲーションされたオリゴヌクレオチドが切断され、取り出され、次いでプロセスが繰り返される。
提供される発明の方法において使用することができるDNAシーケンシング技術の別の例は、例えば、米国特許出願公開第2009/0026082号、同第2009/0127589号、同第2010/0035252号、同第2010/0137143号、同第2010/0188073号、同第2010/0197507号、同第2010/0282617号、同第2010/0300559号、同第2010/0300895号、同第2010/0301398号、および同第2010/0304982号に記載のイオントレントシーケンシングであり、これらの文献のそれぞれの内容は、その全体が本明細書に参照により援用されている。イオントレントシーケンシングでは、DNAがせん断されておよそ300〜800塩基対の断片にされ、断片は、平滑末端化される。次いでオリゴヌクレオチドアダプターが、断片の末端にライゲーションされる。アダプターは、断片の増幅およびシーケンシングのためのプライマーとして機能を果たす。断片は、表面に付着させることができ、断片が個々に分解できるような分解能で付着される。1つまたは複数のヌクレオチドが付加すると、プロトン(H)が放出され、そのシグナルは、シーケンシング機器で検出および記録される。シグナル強度は、組み込まれたヌクレオチドの数に比例する。
提供される発明の方法において使用することができるシーケンシング技術の別の例は、Illuminaシーケンシングである。Illuminaシーケンシングは、フォールドバックPCRおよびアンカー型プライマーを使用する固体表面上のDNAの増幅に基づく。ゲノムDNAが断片化され、アダプターが断片の5’および3’ 末端に付加される。フローセルチャネルの表面に付着しているDNA断片が、伸長およびブリッジ増幅される。断片は二本鎖となり、二本鎖分子は変性される。変性の前の複数のサイクルの固相増幅により、フローセルのそれぞれのチャネル内に同じ鋳型の一本鎖DNA分子のおよそ1,000コピーの数百万のクラスターを創出することができる。プライマー、DNAポリメラーゼ、および4種のフルオロフォア標識可逆的終結ヌクレオチドが、逐次シーケンシングを実施するのに使用される。ヌクレオチドを組み込んだ後、レーザーが使用されてフルオロフォアが励起され、画像が捕捉され、第1の塩基の正体が記録される。3’ターミネーターおよびフルオロフォアが、それぞれの組み込まれた塩基から除去され、組込み、検出、および識別ステップが繰り返される。この技術によるシーケンシングは、米国特許出願公開第2011/0009278号、米国特許出願公開第2007/0114362号、米国特許出願公開第2006/0024681号、米国特許出願公開第2006/0292611号、米国特許第7,960,120号、米国特許第7,835,871号、米国特許第7,232,656号、米国特許第7,598,035号、米国特許第6,306,597号、米国特許第6,210,891号、米国特許第6,828,100号、米国特許第6,833,246号、および米国特許第6,911,345号に記載されており、これらのそれぞれは、その全体が参照により本明細書に援用されている。
提供される発明の方法において使用することができるシーケンシング技術の別の例としては、Pacific Biosciences(Menlo Park、Calif.)の単一分子、リアルタイム(SMRT)技術が挙げられる。SMRTでは、4つのDNA塩基のそれぞれが、4種の異なる蛍光色素の1つに付着される。これらの色素は、リン酸連結される(phospholinked)。単一DNAポリメラーゼが、ゼロモード導波路(ZMW)において底部の鋳型一本鎖DNAの単一分子とともに固定化される。ZMWは、ZMWの内外に急速に拡散する(マイクロ秒で)蛍光ヌクレオチドのバックグラウンドに対してDNAポリメラーゼによる単一ヌクレオチドの組込みの観察を可能にする閉じ込め構造である。成長中の鎖にヌクレオチドを組み込むのに数ミリ秒を要する。この時間の間に、蛍光標識が励起され、蛍光シグナルを生成し、蛍光タグが切断される。色素の対応する蛍光の検出は、どの塩基が組み込まれたかを示す。プロセスは、繰り返される。
提供される発明の方法において使用することができるシーケンシング技術の別の例は、ナノ細孔シーケンシング(Soni, G. V.およびMeller, A.、Clin Chem、53巻:1996〜2001頁(2007年))である。ナノ細孔は、直径が1ナノメートルのオーダーの小さい穴である。導電性流体中にナノ細孔を液浸し、それにわたって電位を印加すると、ナノ細孔を通じたイオンの伝導に起因してわずかな電流が生じる。流れる電流の量は、ナノ細孔のサイズに感受性である。DNA分子がナノ細孔を通過する際、DNA分子上のそれぞれのヌクレオチドは、異なる程度にナノ細孔を塞ぐ。したがって、DNA分子がナノ細孔を通過する際のナノ細孔を通過する電流の変化は、DNA配列のリードを表す。
提供される発明の方法において使用することができるシーケンシング技術の別の例は、DNAをシーケンシングするための化学的感受性電界効果トランジスタ(chemFET)アレイ(例えば、米国特許出願公開第2009/0026082号に記載の)を使用することを伴う。本技術の一例では、DNA分子を反応チャンバー内に入れ、鋳型分子をポリメラーゼに結合したシーケンシングプライマーにハイブリダイズすることができる。シーケンシングプライマーの3’ 末端で新しい核酸鎖中に1つまたは複数の三リン酸を組み込むと、chemFETによって電流の変化を検出することができる。アレイは、複数のchemFETセンサーを有し得る。別の例では、単一の核酸をビーズに付着させることができ、核酸をビーズ上で増幅させることができ、個々のビーズを、それぞれのチャンバーがchemFETセンサーを有する、chemFETアレイ上の個々の反応チャンバーに移すことができ、核酸をシーケンシングすることができる。
提供される発明の方法において使用することができるシーケンシング技術の別の例では、電子顕微鏡を使用することを伴う(Moudrianakis E. N.およびBeer M.、PNAS、53巻:564〜71頁(1965年))。本技術の一例では、個々のDNA分子が、電子顕微鏡を使用して区別可能である金属標識を使用して標識される。次いでこれらの分子は、平面上に広げられ、電子顕微鏡を使用して画像化されて配列が測定される。
提供される発明の方法において使用することができるシーケンシング技術の別の例では、FAST−SeqS技術を使用することを伴う。反復領域の別個のサブセットを増幅するように設計された単一プライマー対を用いるPCRを使用するFAST−SeqSを参照。このように、シーケンシングプロセスは、末端修復、末端3’−dA付加、またはアダプターへのライゲーションなどのステップがもはや必要でないという事実に起因して合理化されている。さらに、評価されるより少ない数の断片は(全ゲノムと比較して)、ゲノムマッチングおよび分析プロセスを合理化する。
本発明の実施形態によるシーケンシングは、多数のリードを生成する。本発明によるリードは一般に、長さが500塩基未満、200塩基未満、または例えば、約175塩基未満のヌクレオチドデータの配列を含む。一実施形態では、リードは、長さが約150塩基である。
シーケンシングの後、リードを、当技術分野で公知の、または使用のために開発されるアセンブリーおよびアライメントアライメント技術を使用して参照に対してマッピングすることができる。コンティグへの配列リードのアセンブリーを含めた配列リードのアライメントおよびアセンブリーのための様々な戦略は、参照により本明細書に援用されている米国特許第8,209,130号に詳細に記載されている。ストラテジーは、(i)リードをコンティグへとアセンブルし、コンティグを参照に対してアライメントさせること;(ii)個々のリードを参照に対してアライメントさせること;(iii)リードをコンティグへとアセンブルし、コンティグを参照に対してアライメントさせ、個々のリードをコンティグに対してアライメントさせること;または(iv)開発されることが分かっている、もしくは当技術分野で公知の他の戦略を含み得る。マッピングは、アセンブリーステップ、アライメントステップ、または両方を用い得る。アセンブリーは、当技術分野で利用可能な1つのプログラムのいずれかを使用することによって実行することができる。例えば、しかし限定ではなく、マッピングは、Canada’s Michael Smith Genome Sciences Centre(Vancouver、B.C.、CA)製のプログラム「The Short Sequence Assembly by k−mer search and 3’ read Extension」(SSAKE)(例えば、Warrenら、2007年、Assembling millions of short DNA sequences using SSAKE、Bioinformatics、23巻:500〜501頁を参照)によって行うことができる。SSAKEは、リードの表を繰り返し(cycle through)、任意の2つの配列間の最長の可能な重なりについてプレフィックスツリーを探索する。SSAKEは、リードをコンティグへとクラスター化する。
コンティグは、一般に、核酸配列の多数のセグメント、例えば、リードの間または中での関係を指す。配列リードが重なる場合、コンティグは、重なりリードの層状画像として表すことができる。コンティグは、例えば、テキストファイルもしくはデータベース内のいずれの特定の視覚的配置、またはいずれの特定の配置によっても定義されず、これらに限定されない。コンティグは一般に、シーケンシングされる核酸の部分に対応するように組織化されたいくつかのリードからの配列データを含む。コンティグは、表示または記憶されるアセンブリー結果、例えば、一連のリード、または互いに、もしくは参照と比べたこれらの位置についての情報などを含み得る。コンティグは、行が、個々の配列リードであり、列が、その部位にアライメントされることが想定されているそれぞれのリードの塩基を含むグリッドとして構築することができる。コンセンサス配列は、アセンブリーのそれぞれの列中の支配的な塩基を識別することによって作製することができる。本発明によるコンティグは、互いにリードに重なりを示す(または示さない、例えば、単に隣接している)リードの可視的表示を含み得る。コンティグは、多数のリードと関連し、互いに比べたリードの位置を与える一連の座標を含み得る。コンティグは、リードの配列データをトランスフォームすることによって得られるデータを含み得る。例えば、Burrows−Wheelerトランスフォーメーションを、リードに対して実施することができ、コンティグは、リードのトランスフォームされていない配列を必ずしも含むことなくトランスフォームされたデータを含み得る。ヌクレオチド配列データのBurrows−Wheelerトランスフォームは、その全体が参照により本明細書に援用されている、米国特許出願公開第2005/0032095号に記載されている。
リードは、当技術分野で公知の任意の方法によってコンティグにアセンブルすることができる。多数の配列リードの新規アセンブリーのためのアルゴリズムは、当技術分野で公知である。配列リードをアセンブルするための1つのアルゴリズムは、重なりコンセンサスアセンブリー(overlap consensus assembly)として公知である。重なりコンセンサスアセンブリーは、配列リード間の重なりを使用して、これらの間のリンクを創出する。リードは一般に、非ランダムな重なりが仮定されるほど十分重なる領域によって一般に連結される。このようにリードを一緒に連結すると、コンティグ、またはそれぞれのノードがリードに対応し、エッジが2つのリード間の重なりを表す重なりグラフが生成される。重なりグラフを用いたアセンブリーは、例えば、米国特許第6,714,874号に記載されている。
一部の実施形態では、新規アセンブリーは、いわゆる貪欲アルゴリズムによって進行する。貪欲アルゴリズムによるアセンブリーについて、リードの群のうちのリードの1つが選択され、それは、それが相当量の重なりを呈する別のリードと対形成される。一般に、それは、それが他のリードのすべてのうちで最も大きい重なりを呈するリードと対形成される。これらの2つのリードは、併合されて新しいリード配列を形成し、次いでそれは、リードの群に戻され、プロセスが繰り返される。貪欲アルゴリズムによるアセンブリーは、例えば、Schatzら、Genome Res.、20巻:1165〜1173頁(2010年)および米国特許出願公開第2011/0257889号に記載されており、これらのそれぞれは、その全体が参照により本明細書に援用されている。
他の実施形態では、アセンブリーは、ペアワイズアライメント、例えば、網羅的またはヒューリスティック(例えば、網羅的でない)ペアワイズアライメントによって進行する。アライメントは、一般に、以下でより詳細に論じられる。網羅的ペアワイズアライメントは、「ブルートフォース」手法と時に呼ばれ、セットの中の配列のあらゆる可能な対間のあらゆる可能性があるアライメントについてアライメントスコアを計算する。ヒューリスティック多重配列アライメントによるアセンブリーは、ある特定の数学的にありそうもない組合せを無視し、計算的により速いものであり得る。多重配列アライメントによるアセンブリーの1つのヒューリスティック法は、いわゆる「分割統治」ヒューリスティックであり、それは、例えば、米国特許出願公開第2003/0224384号に記載されている。多重配列アライメントによるアセンブリーの別のヒューリスティック法は、プログラムClustalWによって実装されるような漸進的アライメントである(例えば、Thompsonら、Nucl. Acids. Res.、22巻:4673〜80頁(1994年)を参照)。多重配列アライメントによるアセンブリーは、一般に、Lecompte, O.ら、Gene、270巻:17〜30頁(2001年);Mullan, L. J.、Brief Bioinform.、3巻:303〜5頁(2002年);Nicholas, H. B. Jr.ら、Biotechniques、32巻:572〜91頁(2002年);およびXiong, G.、Essential Bioinformatics、2006年、Cambridge University Press、New York、N.Y.に論じられている。
アライメントによるアセンブリーは、互いにリードをアライメントさせることによって、または参照に対してリードをアライメントさせることによって進行することができる。例えば、それぞれのリードを、順に参照ゲノムに対してアライメントさせることによって、リードのすべてが相互関係の中で配置されてアセンブリーが創出される。
コンティグへとリードをアセンブルする一方法では、de Bruijnグラフを作成することを伴う。De Bruijnグラフは、k−merと呼ばれるDNAのより小さい配列にリードをブレイクすることによって算出取り組みを低減し、ここで、パラメータkは、これらの配列の塩基の長さを表す。de Bruijnグラフでは、すべてのリードは、k−mer(リード内の長さkのすべての部分配列)にブレイクされ、k−mer間のパスが計算される。この方法によるアセンブリーでは、リードは、k−merを通るパスとして表される。de Bruijnグラフは、これらのk−mer間の長さk−1の重なりを捕捉し、実際のリード間のものを捕捉しない。したがって、例えば、シーケンシングCATGGAは、以下の2−mer:CA、AT、TG、GG、およびGAを通るパスとして表すことができる。de Bruijnグラフ手法は、冗長性をうまく取り扱い、複雑なパスの算出を扱いやすくする。データセット全体をk−merの重なりに低減することによって、de Bruijnグラフは、ショートリードデータセット中の高い冗長性を低減する。特定のアセンブリーについての最も効率的なk−merサイズが、リードの長さおよび誤り率によって判定される。パラメータkの値は、アセンブリーの品質に大きな影響を有する。良好な値の推定をアセンブリーの前に行うことができ、または最適な値を、値の小さい範囲を試験することによって見つけることができる。de Bruijnグラフを使用するリードのアセンブリーは、米国特許出願公開第2011/0004413号、米国特許出願公開第2011/0015863号、および米国特許出願公開第2010/0063742号に記載されており、これらのそれぞれは、その全体が参照により本明細書に援用されている。
本発明によるコンティグへとリードをアセンブルする他の方法が可能である。例えば、リードは、シーケンシングの間に鋳型核酸中に挿入されるバーコード情報を含有し得る。ある特定の実施形態では、リードは、バーコード情報を参照することによってコンティグへとアセンブルされる。例えば、バーコードを一緒に配置することによってバーコードを識別することができ、リードをアセンブルすることができる。
ある特定の実施形態では、アセンブリーは、互いに関連する様々なリードの予期される位置についての供給された情報を参照することによって進行する。これは、例えば、シーケンシングされている対象核酸が、分子反転プローブによって捕捉された場合得ることができる。その理由は、それぞれのリードの最初の部分(start)が、公知、かつプローブセット設計によって特定されているゲノム位置に由来するためである。それぞれのリードは、それがその既知の相対的なオフセットによって設計および配置されたプローブによって収集することができる。一部の実施形態では、互いに関連するリードの予期される位置についての情報は、プライマーによって増幅される核酸のエリアの位置の知識(例えば、遺伝子内)によって供給される。例えば、シーケンシングは、標的核酸のいくつかの領域が、これらの領域をカバーするように設計され、またはカバーすることが分かっているプライマー対を使用して増幅された後、増幅産物に対して行うことができる。次いで、どのプライマー対がこれらのリードに至る増幅において使用されたかに少なくとも基づいて、リードをアセンブリー中に配置することができる。コンティグへのリードのアセンブリーは、それだけに限らないが、上記に参照した方法を含めた方法の任意の組合せまたはハイブリッドによって進行することができる。
コンティグへのリードのアセンブリーは、Husemann, P.およびStoye, J、Phylogenetic Comparative Assembly、2009年、Algorithms in Bioinformatics:第9回国際ワークショップ、145〜156頁、Salzberg, S.およびWarnow, T.編、Springer-Verlag、Berlin Heidelbergにさらに論じられている。リードをコンティグにアセンブルするためのいくつかの例示的な方法は、例えば、米国特許第6,223,128号、米国特許出願公開第2009/0298064号、米国特許出願公開第2010/0069263号、および米国特許出願公開第2011/0257889号に記載されており、これらのそれぞれは、その全体が本明細書に参照により援用されている。
リードをアセンブルするためのコンピュータープログラムは、当技術分野で公知である。このようなアセンブリープログラムは、単一の一般的用途のコンピューター上で、コンピューターのクラスターもしくはネットワーク上で、または配列分析に専用の特殊演算デバイス上で実行させることができる。
アセンブリーは、例えば、Canada’s Michael Smith Genome Sciences Centre(Vancouver、B.C.、CA)製のプログラム「The Short Sequence Assembly by k−mer search and 3’ read Extension」(SSAKE)(例えば、Warren, R.ら、Bioinformatics、23巻:500〜501頁(2007年)を参照)によって実施することができる。SSAKEは、リードの表を繰り返し、任意の2つの配列間の最長の可能な重なりについてプレフィックスツリーを探索する。SSAKEは、リードをコンティグへとクラスター化する。
別のリードアセンブリープログラムは、Darren PlattおよびDirk Eversによって書かれ、Geeknet(Fairfax、Va.)によって維持されているSourceForgeウェブサイトを通じて入手可能なForge Genome Assemblerである(例えば、DiGuistini, S.ら、Genome Biology、10巻:R94頁(2009年)を参照)。Forgeは、その計算消費およびメモリー消費を、利用可能な場合、複数のノードに分配し、したがって、大きいセットのリードをアセンブルする潜在性を有する。Forgeは、並列MPIライブラリーを使用してC++で書かれた。Forgeは、リード、例えば、Sanger、454、およびIlluminaリードの混合物を取り扱うことができる。
多重配列アライメントによるアセンブリーは、例えば、ユニバーシティカレッジダブリン(Dublin、アイルランド)から入手可能なプログラムClustal Omega(Sievers F.ら、Mol Syst Biol、7巻(2011年))、ClustalW、またはClustalX(Larkin M. A.ら、Bioinformatics、23巻、2947〜2948頁(2007年))によって実施することができる。
当技術分野で公知の別の例示的なリードアセンブリープログラムは、欧州バイオインフォマティクス研究所(Hinxton、UK)のウェブサイトを通じて入手可能なVelvetである(Zerbino D. R.ら、Genome Research、18巻(5号):821〜829頁(2008年))。Velvetは、de Bruijnグラフに基づく手法を実施し、リード対からの情報を使用し、様々な誤差補正ステップを実施する。
リードアセンブリーは、北京ゲノミクス研究所(Beijing、CN)またはBGI Americas Corporation(Cambridge、Mass.)のウェブサイトを通じて入手可能なパッケージSOAPからのプログラムを用いて実施することができる。例えば、SOAPdenovoプログラムは、de Bruijnグラフ手法を実施する。SOAP3/GPUは、参照配列に対してショートリードをアライメントさせる。
別のリードアセンブリープログラムは、Canada’s Michael Smith Genome Sciences Centre(Vancouver、B.C.、CA)製ABySSである(Simpson, J. T.ら、Genome Res.、19巻(6号):1117〜23頁(2009年))。ABySSは、de Bruijnグラフ手法を使用し、並列環境で実行する。
リードアセンブリーはまた、gsAssemblerまたはNewbler(NEW assemBLER)としても公知のRoche’s GS De Novo Assemblerによって行うこともでき、これは、Roche454シーケンサーからのリードをアセンブルするように設計されている(例えば、Kumar, S.ら、Genomics、11巻:571頁(2010年)、およびMarguliesら、Nature、437巻:376〜380頁(2005年)に記載されている)。Newblerは、454Flx Standardリードおよび454Titaniumリード、ならびに単一およびペアエンドリード、ならびに必要に応じてSangerリードを受け入れる。Newblerは、32ビットまたは64ビットバージョンのLinux(登録商標)上で実行される。Newblerは、コマンドラインまたはJava(登録商標)ベースGUIインターフェースを介してアクセスすることができる。
Cortexは、オックスフォード大学でMario CaccamoおよびZamin Iqbalによって創出され、リードアセンブリーを含むゲノム分析のためのソフトウェアフレームワークである。Cortexは、Spanu, P. D.ら、Science、330巻(6010号):1543〜46頁(2010年)に記載されたように使用されるコンセンサスゲノムアセンブリーのためのcortex_conを含む。Cortexは、Iqbalら、De novo assembly and genotyping of variants using colored de Bruijn graphs、Nature Genetics(近刊)に記載された、かつMills, R. E.ら、Nature、470巻:59〜65頁(2010年)に記載されたように使用されるバリエーションおよび集団アセンブリーのためのcortex_varを含む。Cortexは、創作者のウェブサイトを通じて、およびGeeknet(Fairfax、Va.)によって維持されているSourceForgeウェブサイトから入手可能である。
他のリードアセンブリープログラムとしては、Real Time Genomics,Inc.(San Francisco、Calif.)製RTG Investigator;iAssembler(Zhengら、BMC Bioinformatics、12巻:453頁(2011年));TgiCL Assembler(Perteaら、Bioinformatics、19巻(5号):651〜52頁(2003年));Geeknet(Fairfax、Va.)によって維持されているSourceForgeウェブサイトを通じてダウンロードに利用可能なHeng LiによるMaq(Mapping and Assembly with Qualities);Chevreux, B.ら、Genome Sequence Assembly Using Trace Signals and Additional Sequence Information、1999年、Computer Science and Biology: Proceedings of the German Conference on Bioinformatics (GCB)、99巻:45〜56頁に記載されているMIRA3(Mimicking Intelligent Read Assembly);PGA4genomics(Zhao F.ら、Genomics.、94巻(4号):284〜6頁(2009年)に記載されている);ならびにPhrap(例えば、de la Bastide, M.およびMcCombie, W. R.、Current Protocols in Bioinformatics、17巻:11.4.1〜11.4.15頁(2007年)に記載されている)が挙げられる。CLCセルは、CLC bio Germany(Muehltal、Germany)から入手可能なNGSリードのリードマッピングおよび新規アセンブリーのためのde Bruijnグラフベースコンピュータープログラムである。
リードがコンティグへとアセンブルされた後、コンティグを参照ゲノムに沿って配置することができる。ある特定の実施形態では、コンティグは、公知の分子マーカーまたはプローブからの情報によって参照に対して配置される。一部の実施形態では、コンティグまたは参照ゲノム中のタンパク質コード配列データは、アミノ酸配列によって表され、コンティグは、参照ゲノムに沿って配置される。一部の実施形態では、コンティグは、参照ゲノムへのコンティグのアライメントによって配置される。
アライメントは、本明細書では、一般に、1つの配列を別の配列に沿って配置し、それぞれの配列に沿ってギャップを反復して導入し、2つの配列がとのようによくマッチングするかをスコア付けし、好ましくは参照に沿って様々な位置について繰り返すことを伴う。最良スコアのマッチングは、アライメントであると見なされ、配列間の歴史的関係についての推測を表す。アライメントでは、参照中の非マッチング塩基と並行したリード中の塩基は、置換突然変異がそのポイントで起こったことを示す。同様に、1つの配列が他の配列中の塩基と並行してギャップを含む場合、挿入または欠失突然変異(「インデル」)が起こったと推測される。1つの配列が1つの他のものとアライメントされていると特定することが望まれるとき、アライメントは、ペアワイズアライメントと時に呼ばれる。多重配列アライメントは一般に、例えば、一連のペアワイズアライメントを含めた2つまたはそれ超の配列のアライメントを指す。
一部の実施形態では、アライメントのスコア付けでは、置換およびインデルの確率の値を設定することを伴う。個々の塩基がアライメントされるとき、マッチングまたはミスマッチングは、置換確率によってアライメントスコアに寄与し、それは、例えば、マッチングについて1およびミスマッチングについて0.33であり得る。インデルは、例えば、−1であり得るギャップペナルティーによってアライメントスコアから差し引く。ギャップペナルティーおよび置換確率は、配列がどのように突然変異するかについての経験的な知識または演繹的な仮定に基づき得る。これらの値は、得られるアライメントに影響する。特に、ギャップペナルティーと置換確率との間の関係は、得られるアライメント中で置換またはインデルが好都合となるか否かを左右する。
公式に述べると、アライメントは、2つの配列、xおよびy間の推測される関係を表す。例えば、一部の実施形態では、配列xおよびyのアライメントAは、それぞれxおよびyを、(i)|x’|=|y’|であり;(ii)x’およびy’からスペースを除去すると、それぞれxおよびyを取り戻すはずであり;(iii)任意のiについてx’[i]およびy’[i]は、両方がスペースであることはできないように、スペースを含有し得る別の2つのストリングx’およびy’にマッピングする。
ギャップは、x’またはy’のいずれか中の連続したスペースの最大サブストリングである。アライメントAは、以下の3つの種類の領域を含み得る:(i)マッチング対(例えば、x’[i]=y’[i]である);(ii)ミスマッチング対(例えば、x’[i]≠y’[i]であり、両方がスペースではない);または(iii)ギャップ(例えば、x’[i...j]もしくはy’[i...j]は、ギャップである)。ある特定の実施形態では、マッチング対のみが高い正のスコアaを有する。一部の実施形態では、ミスマッチング対は一般に、負のスコアbを有し、長さrのギャップも負のスコアg+rs(式中g、s<0である)を有する。DNAについて、1つの一般的なスコア付けスキーム(例えば、BLASTによって使用される)は、スコアをa=1、b=−3、g=−5、およびs=−2にする。アライメントAのスコアは、すべてのマッチング対、ミスマッチング対、およびギャップのスコアの和である。xおよびyのアライメントスコアは、xおよびyのすべての可能なアライメントの中の最大スコアとして定義することができる。
一部の実施形態では、任意の対は、置換確率の4×4の行列Bによって定義されるスコアaを有する。例えば、B(i,i)=1および0<B(i,j)i<>j<1は、1つの可能なスコア付けシステムである。例えば、転移が、塩基転換より生物学的に起こりそうであると考えられる場合、行列Bは、B(C,T)=0.7およびB(A,T)=0.3、または所望の、もしくは当技術分野で公知の方法によって決定される値の任意の他のセットを含み得る。
本発明の一部の実施形態によるアライメントは、ペアワイズアライメントを含む。ペアワイズアライメントは、一般に、m個の文字を有する配列Q(クエリー)およびn個の文字の参照ゲノムT(標的)について、QとTとの間の可能なローカルアライメントを見つけ、評価することを伴う。任意の1≦i≦nおよび1≦j≦mについて、T[h...i]およびQ[k...j](式中、h≦iおよびk≦jである)の最大の可能なアライメントスコアが算出される(すなわち、位置iで終わるTの任意のサブストリングおよび位置jで終わるQの任意のサブストリングの最良アライメントスコア)。これは、cm個の文字(式中、cは、類似モデルに依存する定数である)を有するすべてのサブストリングを検査し、それぞれのサブストリングを別々にQとアライメントさせることを含み得る。それぞれのアライメントがスコア付けされ、好適なスコアを有するアライメントが、アライメントとして受け入れられる。一部の実施形態では、網羅的ペアワイズアライメントが実施され、これは一般に、QとTとの間のすべての可能なローカルアライメント(必要に応じていくつかの限定的な基準に左右される)がスコア付けされる、上述したペアワイズアライメントを含む。
一部の実施形態では、ペアワイズアライメントは、ドットマトリックス法、動的計画法、またはワード法によって進行する。動的計画法は一般に、Smith−Waterman(SW)アルゴリズムまたはNeedleman−Wunsch(NW)アルゴリズムを実行する。NWアルゴリズムによるアライメントは一般に、線形ギャップペナルティーdとともに類似行列S(a,b)(例えば、上述の行列Bなど)によってアライメントされた文字をスコア付けする。マトリックスS(a,b)は一般に、置換確率を供給する。SWアルゴリズムは、NWアルゴリズムと同様であるが、任意の負のスコア付け行列セルは、ゼロに設定される。SWおよびNWアルゴリズム、ならびにこれらの実施は、ともにその全体が参照により本明細書に援用されている米国特許第5,701,256号および米国特許出願公開第2009/0119313号により詳細に記載されている。これらの方法を実施するための当技術分野で公知のコンピュータープログラムは、以下により詳細に記載されている。
ある特定の実施形態では、網羅的ペアワイズアライメントは、配列データのトランスフォーメーションの使用を通じて参照ゲノムに沿ってコンセンサス配列またはコンティグを配置することによって回避される。本発明の一部の実施形態によるトランスフォーメーションの1つの有用なカテゴリーでは、配列の圧縮インデックスを作製することを伴う(例えば、Lamら、Compressed indexing and local alignment of DNA、2008年、Bioinformatics、24巻(6号):791〜97頁を参照)。例示的な圧縮インデックスとしては、FN−インデックス、圧縮サフィックスアレイ、およびBurrows−Wheelerトランスフォーム(BWT、以下により詳細に記載される)が挙げられる。
ある特定の実施形態では、本発明は、サフィックスツリー(suffix trieとしても公知)を作製することによって網羅的ペアワイズアライメントを回避するアライメントの方法を提供する。参照ゲノムTを仮定して、Tのサフィックスツリーは、Tのすべてのサフィックスを含むツリーであり、その結果それぞれの端は、文字で独自に標識され、根から葉へのパス上の端標識の連鎖は、Tの独自のサフィックスに対応する。それぞれの葉は、対応するサフィックスの開始場所を記憶する。
サフィックスツリー上で、Tの別個のサブストリングは、サフィックスツリーの根からの異なるパスによって表される。次いでQが、根から最大でcm個の文字までのそれぞれのパスに対してアライメントされる(例えば、動的計画を使用して)。パスの共通のプレフィックス構造はまた、異なるパス上の動的計画の共通部分を共有する方法を与える。サフィックスツリーの前順走査が実施される。それぞれのノードにおいて、動的計画表(DP表)が、最大でノードまでのパターンおよびパスをアライメントさせるために維持される。より多くの行がツリーを下りながら表に追加され、対応する行がツリーを登りながら削除される。
ある特定の実施形態では、BWTが、参照Tにインデックスを付けるのに使用され、インデックスは、サフィックスツリーをエミュレートするのに使用される。Burrows−Wheelerトランスフォーム(BWT)(BurrowおよびWheeler、1994年、A block-sorting lossless data compression algorithm、Technical Report 124、Digital Equipment Corporation、CA)は、圧縮技術として発明され、パターンマッチングをサポートするために後に拡張された。BWTを実施するために、最初に、TをアルファベットE上の長さnのストリングであるとする。Tの最後の文字が、E中のいずれの文字よりも小さい独自の特別な文字$であると仮定する。TのサフィックスアレイSA[0,n−1]は、SA[i]が、i番目の辞書編集上で最も小さいサフィックスの開始位置を記憶するようなインデックスのアレイである。TのBWTは、BWT[i]=T[SA[i]−1]であるようなTの順列である。例えば、T=「acaacg$」である場合、SA=(8、3、1、4、2、5、6、7)、およびBWT=「gc$aaacc」である。
アライメントは一般に、TおよびQのサブストリングの中で最良のアライメントスコアを見つけることを伴う。TのBWTを使用すると、同一であるTのサブストリングのアライメントを回避することによってこのステップが速まる。この方法は、ツリーの共通のプレフィックス構造を活用して、同一のサブストリングを1回超アライメントさせることを回避する。サフィックスツリーの前順走査を使用すると、Tのすべての別個のサブストリングが生成される。さらに、最大でcm(式中、cは、通常、2を境界とする定数である)の長さのTのサブストリングのみが考慮され、その理由は、マッチングのスコアは、通常、ミスマッチング/挿入/欠失に起因するペナルティーより小さく、2m超の文字を有するTのサブストリングは、最大でm個のマッチングおよび0未満のアライメントスコアを有するためである。配列データをアライメントさせるための方法の実施は、Lamら、Bioinformatics、24巻(6号):791〜97頁(2008年)により詳細に記載されている。
本発明によるアライメントは、当技術分野で公知の任意の適当なコンピュータープログラムを使用して実施することができる。
BWT手法を実施する1つの例示的なアライメントプログラムは、Geeknet(Fairfax、Va.)によって維持されているSourceForgeウェブサイトから入手可能なBurrows−Wheeler Aligner(BWA)である。BWAは、リード、コンティグ、またはコンセンサス配列を参照に対してアライメントさせることができる。BWTは、1ヌクレオチド当たり2ビットのメモリーを占有し、典型的なデスクトップまたはラップトップコンピューターを用いて4G塩基対もの長いヌクレオチド配列にインデックスを付けることを可能にする。前処理は、BWT(すなわち、参照にインデックスを付けること)およびサポート補助データ構造の構築を含む。
BWAは、ともにBWTに基づく2つの異なるアルゴリズムを実施する。BWAによるアライメントは、低い誤り率(<3%)を伴う最大で約200bpの短いクエリーのために設計されたアルゴリズムbwa−shortを使用して進行することができる(Li H.およびDurbin R.、 Bioinformatics、25巻:1754〜60頁(2009年))。第2のアルゴリズム、BWA−SWは、より多くの誤りを伴うロングリードのために設計されている(Li H.およびDurbin R.(2010年)、Fast and accurate long-read alignment with Burrows-Wheeler Transform.、Bioinformatics、電子出版)。BWA−SWコンポーネントは、ヒューリスティックSmith−Waterman様アライメントを実施して高スコアのローカルヒットを見つける。当業者は、bwa−swは、時に「bwa−long」、「bwa longアルゴリズム」、または同様のものと呼ばれることを認識するであろう。このような使用法は一般に、BWA−SWを指す。
Smith−Watermanアルゴリズムのバージョンを実施するアライメントプログラムは、Geeknet(Fairfax、Va.)によって維持されているSourceForgeウェブサイトから入手可能なMUMmerである。MUMmerは、完全な形態であってもドラフト形態であってもゲノム全体を迅速にアライメントさせるシステムである(Kurtz, S.ら、Genome Biology、5巻:R12頁(2004年);Delcher, A. L.ら、Nucl. Acids Res.、27巻:11頁(1999年))。例えば、MUMmer3.0は、2.4GHz Linux(登録商標)デスクトップコンピューターで78MBのメモリーを使用して13.7秒で2つの5メガベースゲノム間のすべての20塩基対またはそれ超の厳密なマッチングを見つけることができる。MUMmerはまた、不完全なゲノムをアライメントさせることもでき、これは、ショットガンシーケンシングプロジェクト由来の数百または数千のコンティグを容易に取り扱うことができ、システムに含まれているNUCmerプログラムを使用してこれらを別のセットのコンティグまたはゲノムに対してアライメントさせる。種がDNA配列アライメントにとって多岐にわたりすぎて類似を検出することができない場合、PROmerプログラムは、両方の入力配列の6フレーム翻訳に基づいてアライメントを生成することができる。
本発明の実施形態による別の例示的なアライメントプログラムは、Kent Informatics(Santa Cruz、Calif.)製BLATである(Kent, W. J.、Genome Research、4巻:656〜664頁(2002年))。BLAT(これはBLASTではない)は、参照ゲノムのインデックスをRAMなどメモリー内に保持する。インデックスは、すべての非重複k−merを含み(必要に応じてリピートに重く関与しているものを除く)、デフォルトではk=11である。ゲノム自体は、メモリー内に保持されない。インデックスは、相同性である可能性があるエリアを見つけるのに使用され、次いでこれは、詳細なアライメントのためにメモリー内にロードされる。
別のアライメントプログラムは、北京ゲノミクス研究所(Beijing、CN)またはBGI Americas Corporation(Cambridge、Mass.)製SOAP2である。SOAP2は、2−way BWTを実施する(Liら、Bioinformatics、25巻(15号):1966〜67頁(2009年);Liら、Bioinformatics、24巻(5号):713〜14頁(2008年))。
配列をアライメントさせるための別のプログラムは、Bowtieである(Langmeadら、Genome Biology、10巻:R25頁(2009年))。Bowtieは、BWTを作成することによって参照ゲノムにインデックスを付ける。
他の例示的なアライメントプログラムとしては、Efficient Large−Scale Alignment of Nucleotide Databases(ELAND)またはConsensus Assessment of Sequence and Variation(CASAVA)ソフトウェアのELANDv2コンポーネント(Illumina、San Diego、Calif.);Real Time Genomics,Inc.(San Francisco、Calif.)製RTG Investigator;Novocraft(Selangor、Malaysia)製Novoalign;Exonerate、欧州バイオインフォマティクス研究所(Hinxton、UK)(Slater, G.およびBirney, E.、BMC Bioinformatics、6巻:31頁(2005年))、ユニバーシティカレッジダブリン(Dublin、Ireland)製Clustal Omega(Sievers F.ら、Mol Syst Biol、7巻、論文539(2011年));ユニバーシティカレッジダブリン(Dublin、Ireland)製ClustalWまたはClustalX(Larkin M. A.ら、Bioinformatics、23巻、2947〜2948頁(2007年));ならびにFASTA、欧州バイオインフォマティクス研究所(Hinxton、UK)(Pearson W. R.ら、PNAS 85巻(8号):2444〜8頁(1988年);Lipman, D. J.、Science 227巻(4693号):1435〜41頁(1985年))が挙げられる。
少なくとも1つの参照ゲノムのゲノム遺伝子座におけるゲノム配列に対してアライメントされたそれぞれのコンティグを用いて、個々の遺伝子座におけるマッチングアンプリコンの数をカウントすることができる。目的の染色体上(複数可)のゲノム遺伝子座にマッチングしたアンプリコンの数を、参照染色体上のゲノム遺伝子座にマッチングしたアンプリコンの数と比較することができる。
アライメントの出力は、対象核酸の正確な感度のよい解釈を含む。出力は、コンピューターファイルの形式で提供され得る。ある特定の実施形態では、出力は、参照ゲノムの配列に対してアライメントされた核酸の配列などの配列データを含有するFASTAファイル、VCFファイル、テキストファイル、またはXMLファイルである。他の実施形態では、出力は、参照ゲノムと比べた対象核酸中の1つまたは複数の突然変異を記述する座標またはストリングを含有する。当技術分野で公知のアライメントストリングとしては、Simple UnGapped Alignment Report(SUGAR)、Verbose Useful Labeled Gapped Alignment Report(VULGAR)、およびCompact Idiosyncratic Gapped Alignment Report(CIGAR)(Ning, Z.ら、Genome Research、11巻(10号):1725〜9頁(2001年))が挙げられる。これらのストリングは、例えば、欧州バイオインフォマティクス研究所(Hinxton、UK)製Exonerate配列アライメントソフトウェアにおいて実施される。
一部の実施形態では、出力は、例えば、CIGARストリングを含む、配列アライメントマップ(SAM)またはバイナリーアライメントマップ(BAM)ファイルなどの配列アライメントである(SAM形式は、例えば、Liら、The Sequence Alignment/Map format and SAMtools、Bioinformatics、2009年、25巻(16号):2078〜9頁に記載されている)。一部の実施形態では、CIGARは、1行に1つ、ギャップのあるアライメントを表示し、または含む。CIGARは、CIGARストリングとして報告される圧縮されたペアワイズアライメント形式である。CIGARストリングは、長い(例えば、ゲノムの)ペアワイズアライメントを表すのに有用である。CIGARストリングは、参照ゲノム配列に対するリードのアライメントを表すのにSAM形式で使用される。
CIGARストリングは、確立されたモチーフに従う。それぞれの文字は、事象の塩基カウントを与える数値が先行する。使用される文字として、M、I、D、N、およびS(M=マッチング;I=挿入;D=欠失;N=ギャップ;S=置換)を挙げることができる。cigarラインは、マッチング/ミスマッチングおよび欠失(またはギャップ)の配列を定義する。例えば、cigarライン2MD3M2D2Mは、アライメントが、2個のマッチング、1個の欠失(数値1は、いくらかのスペースを節約するために省略される)、3個のマッチング、2個の欠失、および2個のマッチングを含有することを意味することになる。
例示するために、元の配列がAACGCTTであり、CIGARストリングが2MD3M2D2Mである場合、アライメントされる配列は、AA−CGG−TTとなる。さらなる例として、リードの最初の5’ヌクレオチドが、リードとコンティグとの間にインデルまたは置換を含まずにコンティグの5’ 末端から50番目のヌクレオチドに対してアライメントされるように、80bpのリードがコンティグに対してアライメントされる場合、アライメントは、CIGARストリングとして「80M」を生じることになる。
ある特定の実施形態では、コピー数状態の分析および判定、ならびに後続のコピー数の変動の識別の一部として、目的のゲノム領域についての配列リードカウントを内部対照に基づいて正規化することができる。特に、試料内正規化は、試料間の多様なシーケンシング深度を制御するために実施される。試料内の目的のそれぞれのゲノム領域についての配列リードカウントは、試料内のすべての対照参照にわたる合計のリードカウントによって正規化されることになる。
目的のゲノム領域と対照参照との両方についてリードカウントを正規化した後、コピー数状態を判定することができる。一実施形態では、目的の各試料についての正規化された値は、対照試料についての正規化された値と比較される。例えば、比を、比較に基づいて生成することができ、比は、コピー数、および任意のコピー数の変動のさらなる判定要因を示す。特定の試料の目的のゲノム領域の判定されたコピー数が耐容可能なレベル内に入る場合(試験試料と対照試料との間の比によって判定される場合)、目的の領域を含有する染色体の2つのコピーが存在することを示す。特定の試料の目的のゲノム領域の判定されたコピー数が耐容可能なレベルの外に入る場合、目的のゲノム領域は、コピー数の変動を確かに提示し、したがって細胞は異数性であると判定され得る。
例えば、比に基づいて、遺伝子座コピー数は、以下の通りコールされ得る:0.1未満の比は、0のコピー数状態をコールされ得;0.1から0.8の間の比は、1のコピー数状態(モノソミー)をコールされ得;0.8から1.25の間の比は、2のコピー数状態(ダイソミー)をコールされ得;1.25超の比は、3+のコピー数状態(例えば、トリソミー)をコールされ得る。
次いで判定されたコピー数を、胚の正倍数性または異数性状態を判定するのに使用することができる。特に、コピー数状態が正常なコピー状態から変動する(例えば、CNが0、1、または3+である)と判定される場合、それは、異数性を示す。
当業者が、一般に本発明の方法および配列アセンブリーを実施するためにに必要ととするように、または最もよく適するように認識するように、コンピューターシステムまたは機械が使用され得る。図5は、本発明の実施形態によるシステム1201のダイアグラム図を示す。システム1201は、例えば、シーケンシング機器(例えば、IlluminaによるHiSeq 2500またはMiSeq)であり得る分析機器1203を含み得る。機器1203は、配列リードデータなどの結果データを得るためのデータ取得モジュール1205を含む。機器1203は、独自の、例えば、専用の、分析コンピューター1233(入力/出力機構、1つまたは複数のプロセッサー、およびメモリーを含む)を必要に応じて含み得、またはそれと作動可能に共役していてもよい。追加的にまたは代替として、機器1203は、ネットワーク1209を介してサーバー1213またはコンピューター1249(例えば、ラップトップ、デスクトップ、またはタブレット)と作動可能に共役していてもよい。
コンピューター1249は、1つまたは複数のプロセッサーおよびメモリー、ならびに入力/出力機構を含む。本発明の方法がクライアント/サーバーアーキテクチャを用いる場合、本発明の方法のステップは、サーバー1213を使用して実施することができ、サーバーは、データ、命令などを得、またはインターフェースモジュールを介して結果を提供し、またはファイルとして結果を提供することができるプロセッサーおよびメモリーの1つまたは複数を含む。サーバー1213は、コンピューター1249もしくは末端1267によってネットワーク1209を介して連動している場合があり、またはサーバー1213は、端末1267に直接接続される場合があり、端末は、1つまたは複数のプロセッサーおよびメモリー、ならびに入力/出力機構を含み得る。
システム1201では、それぞれのコンピューターは、好ましくは、メモリーおよび少なくとも1つの入力/出力(I/O)機構と共役した少なくとも1つのプロセッサーを含む。
プロセッサーは一般に、中央処理装置(CPU)をもたらすためのチップ、例えば、シングルコアまたはマルチコアチップなどを含むことになる。プロセスは、IntelまたはAMD製チップによってもたらされ得る。
メモリーは、1つまたは複数のセットの命令(例えば、ソフトウェア)が記憶された1つまたは複数の機械可読デバイスを含み得、命令は、開示したコンピューターのいずれか1つのプロセッサーによって実行されるとき、本明細書に記載の方法論または機能の一部またはすべてを達成することができる。ソフトウェアはまた、コンピューターシステムによるその実行中にメインメモリー内かつ/またはプロセッサー内に完全または少なくとも部分的に常駐することもできる。好ましくは、それぞれのコンピューターは、非一時的メモリー、例えば、ソリッドステートドライブ、フラッシュドライブ、ディスクドライブ、ハードドライブなどを含む。機械可読デバイスは、例示的な実施形態では、単一媒体であり得るが、用語「機械可読デバイス」は、1つまたは複数のセットの命令および/またはデータを記憶する単一媒体または複数媒体(例えば、集中型もしくは分散型データベース、ならびに/または関連キャッシュおよびサーバー)を含むように解釈されるべきである。これらの用語は、機械による実行のための一連の命令を記憶、エンコード、またはホールドすることができ、本発明の方法論の任意の1つまたは複数を機械に実施させる任意の1つまたは複数の媒体を含むようにも解釈されるものとする。したがって、これらの用語は、1つまたは複数のソリッドステートメモリー(例えば、加入者識別モジュール(SIM)カード、セキュアデジタルカード(SDカード)、マイクロSDカードもしくはソリッドステートドライブ(SSD))、光学媒体および磁気媒体、ならびに/または1つもしくは複数の任意の他の有形の記憶媒体を含むが、これらに限定されないように解釈されるものとする。
本発明のコンピューターは一般に、1つまたは複数のI/Oデバイス、例えば、ビデオディスプレイユニット(例えば、液晶ディスプレイ(LCD)または陰極線管(CRT))、英数字入力デバイス(例えば、キーボード)、カーソル制御デバイス(例えば、マウス)、ディスクドライブユニット、信号生成デバイス(例えば、スピーカー)、タッチスクリーン、加速度計、マイクロフォン、セルラー無線周波数アンテナ、および例えば、ネットワークインターフェースカード(NIC)、Wi−Fiカード、またはセルラーモデムであり得るネットワークインターフェースデバイスの1つまたは複数などを含むことになる。
他の実施形態は本発明の範囲内および趣旨内である。例えば、ソフトウェアの特質に起因して、上述した機能は、ソフトウェア、ハードウェア、ファームウェア、ハード配線、またはこれらのいずれかの組合せを使用して実施することができる。機能を実施する特徴はまた、機能の一部が異なる物理的な場所で実施されるように分配されることも含めて、様々な位置に物理的に配置することもできる。
試料の異数性状況はまた、zスコアの比較によって判定することもできる。これは、参照試料の群中の目的の染色体内のタグカウントの平均および標準偏差を最初に判定することによって行われ、参照試料は、既知の正倍数体内容物を有する。次いで標準化されたスコア(すなわち、zスコア)が、以下の式を使用して各試料について目的のそれぞれの染色体について創出される:zスコアi,chrN=(chrN−μchrN)sdchrN(式中、iは、標準化される試料を表し、chrNは、試料の染色体の正規化されたタグカウントを表し、μchrNおよびsdchrNは、参照群中のchrNの正規化されたタグカウントの平均および標準偏差をそれぞれ表す)。典型的には、3超のzスコアは、異常値を識別し、異常値の正規化されたタグカウントが、少なくとも3標準偏差、参照群の平均を超えることを示す。しかし、例えば、2などの3未満のzスコアも、異常値を識別し得る。
参照による援用
他の文書、例えば、特許、特許出願、特許刊行物、ジャーナル、書籍、紙、webコンテンツなどへの参照および引用は、本開示全体にわたって行われている。すべてのこのような文書は、すべての目的に関してその全体が参照により本明細書に援用されている。
均等物
本発明およびその多くのさらなる実施形態の様々な改変は、本明細書に示し、記載したものに加えて、本明細書に引用した科学文献および特許文献への参照を含めて、本文書の全内容から当業者に明らかとなる。本明細書の主題は、本発明の様々な実施形態およびこれらの均等物における本発明の実践に適応され得る重要な情報、例証、およびガイダンスを含有する。
(実施例1)
精製ゲノムDNA 12pgの153の試料を19の異数体細胞株から得た。DNAは、2細胞/反応と等価の形質転換リンパ球に由来した。図2および3に示した方法による方法に従って、核酸を試料から得、PCR反応に付し、産物をシーケンシングして、それぞれの染色体についてのカウントデータを生成し、カウントデータを、核型を推測するのに引き続いて使用した。
図6は、正倍数体細胞からの結果を示し、図7は、異数性細胞からの結果を示す。合計で41の真の異数性染色体コール、3630の真の二倍体染色体コール、1の誤った異数体(偽陽性)染色体コール、および0の誤った二倍体(偽陰性)染色体コールが行われた。誤った異数体コールは、他の異数性染色体を含有する試料中にあり、したがって、完全な試料レベルでの特異性、ならびに完全な試料レベルおよび染色体レベルでの感度が得られた。検出された異数性は、トリソミー2、8、9、13、18、20、21、22、2+21、および16+21、XO、XXXX、XXY、およびXYYを含んでいた。
(実施例2)
溶解産物を1〜5個の培養線維芽細胞から得た。図2および3に示した方法による方法に従って、核酸を試料から得、PCR反応に付し、産物をシーケンシングして、それぞれの染色体についてのカウントデータを生成し、カウントデータを、核型を推測するのに引き続いて使用した。検出された異数性は、1、2、または5個の線維芽細胞由来の溶解産物を鋳型として使用したとき、トリソミー13、トリソミー18、XXY、およびXYYであった。結果は、図8〜11に見ることができる。図8および9は、わずか2個の線維芽細胞を使用したときの核型のコールを示す。図8中の細胞を、希釈したが、他方で図9中の細胞は、顕微操作した。図10および11は、5個の線維芽細胞を使用したときの核型のコールを示す。図10中の細胞を希釈したが、他方で図11中の細胞は、顕微操作した。図12は、線維芽細胞の数ごとの数値、特異性、および感度、ならびにこれらが希釈されたか、または顕微操作されたかどうかを要約する。表から分かるように、1〜5個の細胞の試料にわたって、希釈された試料と顕微操作された試料との両方が100%に近い特異性を達成し、すべての試料タイプが100%の感度を達成した。

Claims (26)

  1. 胚の倍数性を判定するための方法であって、
    多数のヒトゲノム遺伝子座を増幅するプライマー対を使用して、着床前胚由来の核酸を増幅して多数のアンプリコンを生成するステップと、
    前記アンプリコンをシーケンシングして多数の配列リードを生成するステップと、
    前記配列リードを前記ゲノム遺伝子座にマッチングして、マッチングの数をカウントするステップと、
    前記マッチングの数に基づいて染色体カウントを判定するステップと
    を含む方法。
  2. 核酸の試料を得るステップをさらに含む、請求項1に記載の方法。
  3. 生検によって前記試料を得るステップをさらに含む、請求項2に記載の方法。
  4. 前記生検が、栄養外胚葉生検である、請求項3に記載の方法。
  5. 前記試料が、前記着床前胚由来の少なくとも1個の細胞を含む、請求項2に記載の方法。
  6. 前記試料が、約1〜約8個の細胞を含有する、請求項5に記載の方法。
  7. 前記試料が、約1〜約5個の細胞を含有する、請求項6に記載の方法。
  8. 前記プライマー対が、少なくとも4つのヒト染色体上に分布した配列に相補的である、請求項1に記載の方法。
  9. 前記アンプリコンのすべてが同一であるわけではない、請求項1に記載の方法。
  10. 前記アンプリコンが、少なくとも1つの目的の染色体上の配列および1つまたは複数の参照染色体上の配列を含む、請求項1に記載の方法。
  11. 前記少なくとも1つの目的の染色体が、第9番染色体、第13番染色体、第18番染色体、第21番染色体、X染色体、およびY染色体からなる群から選択される、請求項10に記載の方法。
  12. 前記染色体カウントを判定するステップが、目的の染色体についてのzスコアの生成および比較を含む、請求項1に記載の方法。
  13. 前記染色体カウントに基づいて前記胚の正倍数性または異数性状態を判定するステップをさらに含む、請求項1に記載の方法。
  14. 配列アダプターおよびバーコードを、前記核酸の増幅と同時に前記アンプリコンに付着させるステップをさらに含む、請求項1に記載の方法。
  15. 前記プライマーが、ユニバーサルプライマー結合部位を含む、請求項1に記載の方法。
  16. 前記ユニバーサルプライマー結合部位にハイブリダイズする第2のプライマーを使用して、シーケンシングアダプターを前記アンプリコンに付加するステップを含む、増幅の第2のラウンドをさらに含む、請求項15に記載の方法。
  17. 前記核酸を断片化するステップをさらに含む、請求項1に記載の方法。
  18. 染色体カウントを判定するためのシステムであって、
    命令を記憶している有形メモリーサブシステムと共役したプロセッサーであって、前記命令が、前記プロセッサーによって実行されるとき、前記システムに、
    多数のヒトゲノム遺伝子座を増幅するプライマー対を使用して、着床前胚由来の核酸を増幅することによって生成されるアンプリコンから配列リードを得るようにさせ、
    前記配列リードを前記ゲノム遺伝子座にマッチングさせ、
    前記ゲノム遺伝子座におけるマッチングの数をカウントさせ、
    前記マッチングの数に基づいて染色体カウントを判定させる、
    プロセッサーを備えるシステム。
  19. 前記核酸が、試料から得られたものである、請求項18に記載のシステム。
  20. 前記試料が、生検によって得られたものである、請求項19に記載のシステム。
  21. 前記生検が、栄養外胚葉生検である、請求項20に記載のシステム。
  22. 前記試料が、前記着床前胚由来の約1〜約5個の細胞を含有する、請求項19に記載のシステム。
  23. 前記プライマー対が、少なくとも4つのヒト染色体上に分布した配列に相補的である、請求項19に記載のシステム。
  24. 前記アンプリコンが、少なくとも1つの目的の染色体上の配列および1つまたは複数の参照染色体上の配列を含む、請求項19に記載のシステム。
  25. 前記目的の少なくとも1つの染色体が、第9番染色体、第13番染色体、第18番染色体、第21番染色体、X染色体、およびY染色体からなる群から選択される、請求項24に記載のシステム。
  26. 前記命令がさらに、前記システムに、前記染色体カウントに基づいて前記胚の正倍数性または異数性状態を判定および報告させる、請求項1に記載のシステム。
JP2017520484A 2014-10-17 2015-10-16 着床前遺伝子スクリーニングおよび異数性検出 Withdrawn JP2017530720A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2021145382A JP2021184757A (ja) 2014-10-17 2021-09-07 着床前遺伝子スクリーニングおよび異数性検出

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201462065322P 2014-10-17 2014-10-17
US62/065,322 2014-10-17
PCT/US2015/056037 WO2016061514A1 (en) 2014-10-17 2015-10-16 Pre-implantation genetic screening and aneuploidy detection

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2021145382A Division JP2021184757A (ja) 2014-10-17 2021-09-07 着床前遺伝子スクリーニングおよび異数性検出

Publications (1)

Publication Number Publication Date
JP2017530720A true JP2017530720A (ja) 2017-10-19

Family

ID=55747437

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2017520484A Withdrawn JP2017530720A (ja) 2014-10-17 2015-10-16 着床前遺伝子スクリーニングおよび異数性検出
JP2021145382A Pending JP2021184757A (ja) 2014-10-17 2021-09-07 着床前遺伝子スクリーニングおよび異数性検出

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2021145382A Pending JP2021184757A (ja) 2014-10-17 2021-09-07 着床前遺伝子スクリーニングおよび異数性検出

Country Status (5)

Country Link
US (1) US20160108475A1 (ja)
EP (2) EP3835429A1 (ja)
JP (2) JP2017530720A (ja)
CA (1) CA3002133A1 (ja)
WO (1) WO2016061514A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3987525A1 (en) * 2019-06-21 2022-04-27 CooperSurgical, Inc. System and method for determining genetic relationships between a sperm provider, oocyte provider, and the respective conceptus

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110288780A1 (en) * 2010-05-18 2011-11-24 Gene Security Network Inc. Methods for Non-Invasive Prenatal Ploidy Calling
WO2013052557A2 (en) * 2011-10-03 2013-04-11 Natera, Inc. Methods for preimplantation genetic diagnosis by sequencing
WO2013148496A1 (en) * 2012-03-26 2013-10-03 The Johns Hopkins University Rapid aneuploidy detection
US20140206552A1 (en) * 2010-05-18 2014-07-24 Natera, Inc. Methods for preimplantation genetic diagnosis by sequencing
US20140228226A1 (en) * 2011-09-21 2014-08-14 Bgi Health Service Co., Ltd. Method and system for determining chromosome aneuploidy of single cell

Family Cites Families (65)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5242794A (en) 1984-12-13 1993-09-07 Applied Biosystems, Inc. Detection of specific sequences in nucleic acids
US4683195A (en) 1986-01-30 1987-07-28 Cetus Corporation Process for amplifying, detecting, and/or-cloning nucleic acid sequences
US4683202A (en) 1985-03-28 1987-07-28 Cetus Corporation Process for amplifying nucleic acid sequences
US5583024A (en) 1985-12-02 1996-12-10 The Regents Of The University Of California Recombinant expression of Coleoptera luciferase
US4988617A (en) 1988-03-25 1991-01-29 California Institute Of Technology Method of detecting a nucleotide change in nucleic acids
US5494810A (en) 1990-05-03 1996-02-27 Cornell Research Foundation, Inc. Thermostable ligase-mediated DNA amplifications system for the detection of genetic disease
US6100099A (en) 1994-09-06 2000-08-08 Abbott Laboratories Test strip having a diagonal array of capture spots
US5869252A (en) 1992-03-31 1999-02-09 Abbott Laboratories Method of multiplex ligase chain reaction
US5695934A (en) 1994-10-13 1997-12-09 Lynx Therapeutics, Inc. Massively parallel sequencing of sorted polynucleotides
US5604097A (en) 1994-10-13 1997-02-18 Spectragen, Inc. Methods for sorting polynucleotides using oligonucleotide tags
US5846719A (en) 1994-10-13 1998-12-08 Lynx Therapeutics, Inc. Oligonucleotide tags for sorting and identification
US5750341A (en) 1995-04-17 1998-05-12 Lynx Therapeutics, Inc. DNA sequencing by parallel oligonucleotide extensions
US5701256A (en) 1995-05-31 1997-12-23 Cold Spring Harbor Laboratory Method and apparatus for biological sequence comparison
US5636400A (en) 1995-08-07 1997-06-10 Young; Keenan L. Automatic infant bottle cleaner
GB9620209D0 (en) 1996-09-27 1996-11-13 Cemu Bioteknik Ab Method of sequencing DNA
US6054276A (en) 1998-02-23 2000-04-25 Macevicz; Stephen C. DNA restriction site mapping
US6223128B1 (en) 1998-06-29 2001-04-24 Dnstar, Inc. DNA sequence assembly system
US6787308B2 (en) 1998-07-30 2004-09-07 Solexa Ltd. Arrayed biomolecules and their use in sequencing
GB9901475D0 (en) 1999-01-22 1999-03-17 Pyrosequencing Ab A method of DNA sequencing
US6818395B1 (en) 1999-06-28 2004-11-16 California Institute Of Technology Methods and apparatus for analyzing polynucleotide sequences
AU7537200A (en) 1999-09-29 2001-04-30 Solexa Ltd. Polynucleotide sequencing
US6582938B1 (en) 2001-05-11 2003-06-24 Affymetrix, Inc. Amplification of nucleic acids
US6714874B1 (en) 2000-03-15 2004-03-30 Applera Corporation Method and system for the assembly of a whole genome using a shot-gun data set
US6448717B1 (en) 2000-07-17 2002-09-10 Micron Technology, Inc. Method and apparatuses for providing uniform electron beams from field emission displays
US20030224384A1 (en) 2001-11-13 2003-12-04 Khalid Sayood Divide and conquer system and method of DNA sequence assembly
US8694263B2 (en) 2003-05-23 2014-04-08 Cold Spring Harbor Laboratory Method of identifying virtual representations of nucleotide sequences
EP1682680B2 (en) 2003-10-31 2018-03-21 AB Advanced Genetic Analysis Corporation Methods for producing a paired tag from a nucleic acid sequence and methods of use thereof
US7393665B2 (en) 2005-02-10 2008-07-01 Population Genetics Technologies Ltd Methods and compositions for tagging and identifying polynucleotides
EP1910537A1 (en) 2005-06-06 2008-04-16 454 Life Sciences Corporation Paired end sequencing
US7329860B2 (en) 2005-11-23 2008-02-12 Illumina, Inc. Confocal imaging methods and apparatus
WO2007087312A2 (en) 2006-01-23 2007-08-02 Population Genetics Technologies Ltd. Molecular counting
WO2007087310A2 (en) 2006-01-23 2007-08-02 Population Genetics Technologies Ltd. Nucleic acid analysis using sequence tokens
US8457900B2 (en) 2006-03-23 2013-06-04 The Regents Of The University Of California Method for identification and sequencing of proteins
US20080050739A1 (en) * 2006-06-14 2008-02-28 Roland Stoughton Diagnosis of fetal abnormalities using polymorphisms including short tandem repeats
US8372584B2 (en) * 2006-06-14 2013-02-12 The General Hospital Corporation Rare cell analysis using sample splitting and DNA tags
US20080085836A1 (en) * 2006-09-22 2008-04-10 Kearns William G Method for genetic testing of human embryos for chromosome abnormalities, segregating genetic disorders with or without a known mutation and mitochondrial disorders following in vitro fertilization (IVF), embryo culture and embryo biopsy
US20080081330A1 (en) 2006-09-28 2008-04-03 Helicos Biosciences Corporation Method and devices for analyzing small RNA molecules
US7754429B2 (en) 2006-10-06 2010-07-13 Illumina Cambridge Limited Method for pair-wise sequencing a plurity of target polynucleotides
US8349167B2 (en) 2006-12-14 2013-01-08 Life Technologies Corporation Methods and apparatus for detecting molecular interactions using FET arrays
US8262900B2 (en) 2006-12-14 2012-09-11 Life Technologies Corporation Methods and apparatus for measuring analytes using large scale FET arrays
CA2672315A1 (en) 2006-12-14 2008-06-26 Ion Torrent Systems Incorporated Methods and apparatus for measuring analytes using large scale fet arrays
US8725425B2 (en) 2007-01-26 2014-05-13 Illumina, Inc. Image data efficient genetic sequencing method and system
US20090119313A1 (en) 2007-11-02 2009-05-07 Ioactive Inc. Determining structure of binary data using alignment algorithms
US20090298064A1 (en) 2008-05-29 2009-12-03 Serafim Batzoglou Genomic Sequencing
US20100035252A1 (en) 2008-08-08 2010-02-11 Ion Torrent Systems Incorporated Methods for sequencing individual nucleic acids under tension
US20100063742A1 (en) 2008-09-10 2010-03-11 Hart Christopher E Multi-scale short read assembly
US8383345B2 (en) 2008-09-12 2013-02-26 University Of Washington Sequence tag directed subassembly of short sequencing reads into long sequencing reads
US20100301398A1 (en) 2009-05-29 2010-12-02 Ion Torrent Systems Incorporated Methods and apparatus for measuring analytes
US8546128B2 (en) 2008-10-22 2013-10-01 Life Technologies Corporation Fluidics system for sequential delivery of reagents
US20100137143A1 (en) 2008-10-22 2010-06-03 Ion Torrent Systems Incorporated Methods and apparatus for measuring analytes
US20110301042A1 (en) 2008-11-11 2011-12-08 Helicos Biosciences Corporation Methods of sample encoding for multiplex analysis of samples by single molecule sequencing
EP2511843B1 (en) 2009-04-29 2016-12-21 Complete Genomics, Inc. Method and system for calling variations in a sample polynucleotide sequence with respect to a reference polynucleotide sequence
US8574835B2 (en) 2009-05-29 2013-11-05 Life Technologies Corporation Scaffolded nucleic acid polymer particles and methods of making and using
US8673627B2 (en) 2009-05-29 2014-03-18 Life Technologies Corporation Apparatus and methods for performing electrochemical reactions
US20120270739A1 (en) * 2010-01-19 2012-10-25 Verinata Health, Inc. Method for sample analysis of aneuploidies in maternal samples
US9732138B2 (en) * 2010-02-09 2017-08-15 Yale University Loss of function mutations in KCNJ10 cause SeSAME, a human syndrome with sensory, neurological, and renal deficits
US10351905B2 (en) * 2010-02-12 2019-07-16 Bio-Rad Laboratories, Inc. Digital analyte analysis
US20110257889A1 (en) 2010-02-24 2011-10-20 Pacific Biosciences Of California, Inc. Sequence assembly and consensus sequence determination
US8700338B2 (en) * 2011-01-25 2014-04-15 Ariosa Diagnosis, Inc. Risk calculation for evaluation of fetal aneuploidy
JP6153874B2 (ja) * 2011-02-09 2017-06-28 ナテラ, インコーポレイテッド 非侵襲的出生前倍数性呼び出しのための方法
US10196681B2 (en) * 2011-10-06 2019-02-05 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
US8209130B1 (en) 2012-04-04 2012-06-26 Good Start Genetics, Inc. Sequence assembly
US20140242581A1 (en) * 2013-01-23 2014-08-28 Reproductive Genetics And Technology Solutions, Llc Compositions and methods for genetic analysis of embryos
KR102665592B1 (ko) * 2013-05-24 2024-05-21 시쿼넘, 인코포레이티드 유전적 변이의 비침습 평가를 위한 방법 및 프로세스
US10851414B2 (en) * 2013-10-18 2020-12-01 Good Start Genetics, Inc. Methods for determining carrier status

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110288780A1 (en) * 2010-05-18 2011-11-24 Gene Security Network Inc. Methods for Non-Invasive Prenatal Ploidy Calling
US20140206552A1 (en) * 2010-05-18 2014-07-24 Natera, Inc. Methods for preimplantation genetic diagnosis by sequencing
US20140228226A1 (en) * 2011-09-21 2014-08-14 Bgi Health Service Co., Ltd. Method and system for determining chromosome aneuploidy of single cell
WO2013052557A2 (en) * 2011-10-03 2013-04-11 Natera, Inc. Methods for preimplantation genetic diagnosis by sequencing
WO2013148496A1 (en) * 2012-03-26 2013-10-03 The Johns Hopkins University Rapid aneuploidy detection

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
KINDE, I., ET AL.: ""FAST-SeqS: a simple and efficient method for the detection of aneuploidy by massively parallel sequ", PLOS ONE, vol. 7, no. 7, JPN6019025818, July 2012 (2012-07-01), pages 41162 - 1, ISSN: 0004501233 *
末岡浩: "「着床前診断のいま」", 医学のあゆみ, vol. 246, no. 2, JPN6020015752, 13 July 2013 (2013-07-13), pages 165 - 169, ISSN: 0004270603 *

Also Published As

Publication number Publication date
EP3240909A1 (en) 2017-11-08
JP2021184757A (ja) 2021-12-09
CA3002133A1 (en) 2016-04-21
US20160108475A1 (en) 2016-04-21
EP3240909A4 (en) 2018-07-04
EP3240909B1 (en) 2020-10-14
WO2016061514A1 (en) 2016-04-21
EP3835429A1 (en) 2021-06-16

Similar Documents

Publication Publication Date Title
US11667965B2 (en) Sequence assembly
US20210057045A1 (en) Determining the Clinical Significance of Variant Sequences
US10706017B2 (en) Methods and systems for storing sequence read data
US9228233B2 (en) Analysis methods
JP2021184757A (ja) 着床前遺伝子スクリーニングおよび異数性検出
US20230235394A1 (en) Chimeric amplicon array sequencing
US20190295690A1 (en) Variant detection of sequencing assays

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180831

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20190628

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190704

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20190930

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20191203

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200106

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200529

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20200824

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20201028

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201130

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20210507

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210907

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20210907

C11 Written invitation by the commissioner to file amendments

Free format text: JAPANESE INTERMEDIATE CODE: C11

Effective date: 20210915

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20211116

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20211117

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20211125