JP2014516514A - 複合核酸配列データの処理および解析 - Google Patents

複合核酸配列データの処理および解析 Download PDF

Info

Publication number
JP2014516514A
JP2014516514A JP2014505385A JP2014505385A JP2014516514A JP 2014516514 A JP2014516514 A JP 2014516514A JP 2014505385 A JP2014505385 A JP 2014505385A JP 2014505385 A JP2014505385 A JP 2014505385A JP 2014516514 A JP2014516514 A JP 2014516514A
Authority
JP
Japan
Prior art keywords
sequence
genome
fading
nucleic acid
dna
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2014505385A
Other languages
English (en)
Other versions
JP2014516514A5 (ja
Inventor
ラドジェ・ドルマナック
ブロック・エイ・ピータース
バーラム・ガファルザデー・ケルマニ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Complete Genomics Inc
Original Assignee
Complete Genomics Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Complete Genomics Inc filed Critical Complete Genomics Inc
Publication of JP2014516514A publication Critical patent/JP2014516514A/ja
Publication of JP2014516514A5 publication Critical patent/JP2014516514A5/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search

Abstract

本発明は、配列正確度の相当な改善につながり、例えば、ロングフラグメントリード(long fragment read)(LFR)法の使用に関連して配列変異をフェージングするために使用できるアルゴリズムを使用する核酸配列データを解析するためのロジックを対象とする。

Description

関連出願の相互参照
本出願は、2011年4月14日に出願された米国仮特許出願第61/517,196号の優先権の利益を主張し、これは参照によりその全文が本明細書に組み込まれる。
本出願は、2011年8月25日に出願された米国仮特許出願第61/527,428号の優先権の利益を主張し、これは参照によりその全文が本明細書に組み込まれる。
本出願は、2011年10月12日に出願された米国仮特許出願第61/546,516号の優先権の利益を主張し、これは参照によりその全文が本明細書に組み込まれる。
複合核酸の解析の改善された技術、特に、例えば、配列正確性を改善する方法および核酸増幅によって導入された多数のエラーを有する配列を解析する方法が必要である。
さらに、高等生物のゲノムへの親の寄与を決定するための改善された技術、すなわち、ヒトゲノムのハプロタイプフェージングが必要である。計算法および実験的フェージングを含めたハプロタイプフェージングの方法は、Browning and Browning, Nature Reviews Genetics 12:703-7014, 2011に概説されている。
本発明は、ロングフラグメントリード(LFR)技術に関連して開発されたアルゴリズムおよび解析技術に基づく、ハプロタイプフェージング、エラー低減およびその他の特徴をもたらす、複合核酸(本明細書に定義されるような)の配列決定からの配列情報の解析のための技術を提供する。
本発明の一態様によれば、1種または複数の生物、すなわち、個体生物または生物の集団の複合核酸(例えば、全ゲノム)の配列を決定するための方法が提供される。このような方法は、(a)1種または複数のコンピューティングデバイスで、複合核酸の複数のリードを受け取ることと、(b)コンピューティングデバイスを用いて、複合核酸のアセンブルされた配列をリードから生成することとを含み、アセンブルされた配列は、70、75、80、85、90または95パーセントまたはそれ以上のコールレートで、メガベースあたり1.0、0.8、0.7、0.6、0.5、0.4、0.3、0.2、0.1、0.08、0.07、0.06、0.05または0.04未満の偽の単一ヌクレオチド変異体を含み、ここで、方法は、1種または複数のコンピューティングデバイスによって実施される。いくつかの態様では、コンピュータによって読み取り可能な一時的でないストレージメディアは、1種または複数のコンピューティングデバイスによって実行されると、1種または複数のコンピューティングデバイスに、このような方法の工程を実施させる命令を含む1種または複数の一連の命令を保存する。
このような方法がハプロタイプフェージングを含む一実施形態によれば、該方法は、アセンブルされた配列において複数の配列変異体を同定することと、配列変異体(例えば、配列変異体の70、75、80、85、90、95パーセントまたはそれ以上)をフェージングして、フェージングされた配列、すなわち、配列変異体がフェージングされている配列を生成することとをさらに含む。このようなフェージング情報は、エラー修正の文脈において使用できる。例えば、一実施形態によれば、このような方法は、少なくとも2種(または3種以上)のフェージングされた配列変異体のフェージングと一致しない配列変異体をエラーと同定することを含む。
別のこのような実施形態にしたがって、このような方法では、複合核酸の複数のリードを受け取る工程は、各アリコートが複合核酸の1種または複数の断片を含む複数のアリコート各々から複数のリードを受け取るコンピューティングデバイスおよび/またはそのコンピュータロジックを含む。このような断片の出自のアリコートに関する情報は、エラーを修正するために、またはそうでなければ「コールなし」であったであろう塩基をコールするのに有用である。1つのこのような実施形態にしたがって、このような方法は、前記アセンブルされた配列の一定位置に、2種以上のアリコートからの前記一定位置の予備的ベースコールに基づいて、塩基をコールするコンピューティングデバイスおよび/またはそのコンピュータロジックを含む。例えば、方法は、前記アセンブルされた配列の一定位置に、少なくとも2種、少なくとも3種、少なくとも4種または5種以上のアリコートからの予備的ベースコールに基づいて、塩基をコールすることを含み得る。いくつかの実施形態では、このような方法は、ベースコールが、少なくとも2種、少なくとも3種、少なくとも4種のアリコートまたは5種以上のアリコートに存在する場合に、ベースコールを真実と同定することを含み得る。いくつかの実施形態では、このような方法は、ベースコールが、アセンブルされた配列中のその位置について予備的ベースコールがなされるアリコートの少なくとも大多数(または少なくとも60%、少なくとも75%または少なくとも80%)に存在する場合に、ベースコールを真実と同定することを含み得る。別のこのような実施形態によれば、このような方法は、ベースコールが2種以上のアリコートからのリード中に3回以上存在する場合に、ベースコールを真実と同定するコンピューティングデバイスおよび/またはそのコンピュータロジックを含む。
別のこのような実施形態によれば、リードが出自するアリコートを、各断片と結合しているアリコート特異的タグ(またはアリコート特異的タグのセット)を同定することによって決定する。このようなアリコート特異的タグは、所望により、エラー修正またはエラー検出コード(例えば、リード−ソロモンエラー修正コード)を含む。本発明の一実施形態によれば、断片および結合しているアリコート特異的タグを配列決定する際、得られたリードは、タグ配列データおよび断片配列データを含む。タグ配列データが正しい、すなわち、タグ配列がアリコート同定のために使用されるタグの配列に対応する場合には、あるいは、タグ配列データがエラー修正コードを使用して修正され得る1種または複数のエラーを有する場合には、このようなタグ配列データを含むリードを、すべての目的について、特に、それだけには限らないが、ハプロタイプフェージング、サンプルマルチプレックス化、ライブラリーマルチプレックス化、フェージングまたは正しいタグ配列データに基づく任意のエラー修正プロセス(例えば、特定のリードの出自のアリコートを同定することに基づくエラー修正プロセス)を含む、タグ配列データを必要とし、第1のアウトプットを作製する第1のコンピュータプロセス(例えば、1種または複数のコンピューティングデバイスで実行されている)のために使用できる。タグ配列が不正確であり、修正され得ない場合には、このような不正確なタグ配列データを含むリードは、廃棄されないが、代わりに、それだけには限らないが、マッピング、アセンブリおよびプールに基づく統計学を含めた、タグ配列データを必要としない、第2のアウトプットを作製する第2のコンピュータプロセス(例えば、1種または複数のコンピューティングデバイスによって実行されている)において使用される。
別の実施形態によれば、このような方法は、複合核酸の領域、ショートタンデムリピートを含む領域の第1のフェージングされた配列を提供するコンピューティングデバイスおよび/またはそのコンピュータロジック;領域の第1のフェージングされた配列のリード(例えば、普通のまたはメイトペアリード)を、領域の第2のフェージングされた配列のリードと比較する(例えば、配列カバレッジを使用して)コンピューティングデバイスおよび/またはそのコンピュータロジック;比較に基づいて、第1のフェージングされた配列または第2のフェージングされた配列の1種におけるショートタンデムリピートの拡大を同定するコンピューティングデバイスおよび/またはそのコンピュータロジックをさらに含む。
別の実施形態によれば、方法は、生物の少なくとも一方の親から遺伝子型データを得、リードおよび遺伝子型データから、複合核酸のアセンブルされた配列を生成するコンピューティングデバイスおよび/またはそのコンピュータロジックをさらに含む。
別の実施形態によれば、方法は、複合核酸の第1の領域について複数のリードをアラインすることと、それによって、アラインされたリード間の重複を作製することと、重複内のN個の候補へテロを同定することと、2〜4の可能性の空間またはその選択された部分空間をクラスタリングし、それによって複数のクラスターを作製することと、同定されるクラスターが各々、実質的にノイズのない中心を含む最高密度を有する2つのクラスターを同定することと、複合核酸の1種または複数のさらなる領域について前述の工程を反復することとを含む工程を実施するコンピューティングデバイスおよび/またはそのコンピュータロジックをさらに含む。各領域の同定されたクラスターは、コンティグを定義でき、これらのコンティグを、互いに対応させて、コンティグのセット、各ハプロタイプのものを形成し得る。
別の実施形態によれば、このような方法は、一定量の複合核酸を提供することおよび複合核酸を配列決定して、リードを作製することをさらに含む。
別の実施形態によれば、このような方法では、複合核酸は、ゲノム、エキソーム、トランスクリプトーム、メチローム、異なる生物のゲノムの混合物および生物の異なる細胞種のゲノムの混合物からなる群から選択される。
本発明の別の態様によれば、前述の方法のいずれかによって生成されるアセンブルされたヒトゲノム配列が提供される。例えば、1種または複数のコンピュータによって読み取り可能な一時的でないストレージメディアは、前述の方法のいずれかによって生成されるアセンブルされたヒトゲノム配列を保存する。別の態様によれば、コンピュータによって読み取り可能な一時的でないストレージメディアは、1種または複数のコンピューティングデバイスによって実行されると、1種または複数のコンピューティングデバイスに、前述の方法のいずれか、一部またはすべてを実施させる命令を含む、1種または複数の一連の命令を保存する。
本発明の別の態様によれば、全ヒトゲノム配列を決定するための方法が提供され、このような方法は、(a)1種または複数のコンピューティングデバイスで、ゲノムの複数のリードを受け取ることと、(b)1種または複数のコンピューティングデバイスを用いて、ゲノムのアセンブルされた配列をリードから生成することとを含み、アセンブルされた配列は、70%以上のゲノムコールレートで、ギガベースあたり600未満の偽のヘテロ接合性単一ヌクレオチド変異体を含む。一実施形態によれば、ゲノムのアセンブルされた配列は、70%以上のゲノムコールレートおよび70%以上のエキソームコールレートを有する。一部の態様では、コンピュータによって読み取り可能な一時的でないストレージメディアは、1種または複数のコンピューティングデバイスによって実行されると、1種または複数のコンピューティングデバイスに本明細書に記載された本発明の方法のいずれかを実施させる命令を含む1種または複数の一連の命令を保存する。
本発明の別の態様によれば、全ヒトゲノム配列を決定する方法が提供され、このような方法は、(a)1種または複数のコンピューティングデバイスで、各アリコートがゲノムの1種または複数の断片を含む複数のアリコート各々から複数のリードを受け取ることと、(b)1種または複数のコンピューティングデバイスを用いて、70%以上のゲノムコールレートでギガベースあたり1000未満の偽の単一ヌクレオチド変異体を含むリードからゲノムのフェージングされた、アセンブルされた配列を生成することとを含む。一部の態様では、コンピュータによって読み取り可能な一時的でないストレージメディアは、1種または複数のコンピューティングデバイスによって実行されると、1種または複数のコンピューティングデバイスにこのような方法を実施させる命令を含む1種または複数の一連の命令を保存する。
図1Aおよび1Bは、配列決定システムの例を示す。 図2は、配列決定機器および/またはコンピュータシステム中か、またはそれとともに使用され得るコンピューティングデバイスの例を示す。 図3は、LFRアルゴリズムの全体構造を示す。 図4は、近くのヘテロ接合性SNPの対解析を示す。 図5は、仮説の選択および仮説へのスコアの割り当ての例を示す。 図6は、グラフ構築を示す。 図7は、グラフ最適化を示す。 図8は、コンティグアラインメントを示す。 図9は、親を利用したユニバーサルフェージングを示す。 図10は、天然のコンティグ分離を示す。 図11は、ユニバーサルフェージングを示す。 図12は、LFRを使用するエラー検出を示す。 図13は、少数のリードにもかかわらず確信のあるヘテロ接合性SNPコールがなされ得る、偽陰性の数を低減する方法の一例を示す。 図14は、ハプロタイプ分解的なクローンカバレッジを使用する、ヒト胚におけるCTGリピート拡大の検出を示す。 図15は、実施例1に記載される多重置換増幅(MDA)プロトコールを使用した、精製ゲノムDNA標準(1.031、8.25および66ピコグラム[pg])およびPVP40の1または10個の細胞の増幅を示すグラフである。 図16は、2種のMDAプロトコールを使用する増幅から得られたGCバイアスに関するデータを示す。全プレートにわたる平均サイクル数を求め、個々のマーカー各々からそれを差し引いて「Δサイクル」数を計算した。Δサイクルを、各マーカーの周囲の1000塩基対のGC含量に対してプロットして、各サンプルの相対GCバイアスを示した(図示せず)。各Δサイクルの絶対値を合計して、「Δの合計」測定値を作成した。低いΔの合計およびGC含量に対するデータの相対的に平坦なプロットは、よく表された全ゲノム配列をもたらす。Δの合計は、本発明者らのMDA法について61であり、SurePlexによって増幅されたDNAについては287であり、これは、本発明者らのプロトコールがSurePlexプロトコールよりもかなり少ないGCバイアスをもたらしたということを示す。 図17は、サンプル7Cおよび10Cのゲノムカバレッジを示す。カバレッジは、ハプロイドゲノムカバレッジに正規化された100キロベースカバレッジウィンドウの10メガベース移動平均を使用してプロットした。コピー数1および3の破線は、それぞれ、ハプロイドおよび三倍体コピー数を表す。両胚とも男性であり、XおよびY染色体のハプロイドコピー数を有する。全染色体または染色体の大きなセグメントのその他の喪失または獲得は、これらのサンプルでは明らかではなかった。 図18は、本発明の方法において使用するためのバーコードアダプター設計の実施形態の概略図である。LFRアダプターは、独特の5’バーコードアダプターと、一般的な5’アダプターと、一般的な3’アダプターとからなる。一般的なアダプターは、3’断片とライゲーションできない3’ジデオキシヌクレオチドを用いて両方とも設計されており、これによって、アダプター二量体形成が排除される。ライゲーション後、アダプターのブロックされた部分を除去し、ブロックされていないオリゴヌクレオチドと置換する。残存するニックを、その後のTaqポリメラーゼを用いるニックトランスレーションおよびT4リガーゼを用いるライゲーションによって回復させる。 図19は、累積GCカバレッジプロットを示す。LFRおよび標準ライブラリーのGCの累積カバレッジを、プロットして、GCバイアスの相違を比較した。サンプルNA19240(aおよびb)について、3種のLFRライブラリー(複製1、複製2および10細胞)および全ゲノム(c)およびコーディングのみの部分(d)の両方について1種の標準ライブラリーがプロットされている。すべてのLFRライブラリーにおいて、高GC領域中のカバレッジの喪失が明らかであり、これは、高割合のGCリッチ領域を含有するコーディング領域(bおよびd)においてより明白である。 図20は、ゲノムアセンブリ間のハプロタイプ解析性能の比較を示す。標準およびLFRがアセンブルされたライブラリーの変異体コールを組み合わせ、指定されている場合を除きフェージングのための遺伝子座として使用した。LFRフェージング率は、親のフェージングされたヘテロ接合性SNPの算出に基づいていた。*親のゲノムデータのない個体については(NA12891、NA12892およびNA20431)、フェージング率は、フェージングされたヘテロ接合性SNPの数を、真実であると予測されるヘテロ接合性SNP数(フェージングされるよう試みられるSNPの数−50,000の予測されたエラー)で除することによって算出した。N50算出は、NCBI build36(NA19240 10個の細胞および高カバレッジならびにNA20431高カバレッジの場合にはbuild37)ヒト参照ゲノムに対するすべてのコンティグの合計のアセンブルされた長さに基づいている。ハプロイド断片カバレッジは、一本鎖に変性され、その後、384ウェルプレート中に分散されているすべてのDNAの結果としての細胞数よりも4倍大きい。不十分な量の出発DNAによって、NA20431ゲノムにおけるより低いフェージング効率が説明される。#10個の細胞のサンプルを、10個を超える細胞を含有するよう個々の十分なカバレッジによって測定し、これは、これらの細胞が、収集の間に種々のステージの細胞周期にあるという結果である可能性が高い。フェージング率は、84%〜97%の範囲であった。 図21は、LFRハプロタイプ解析アルゴリズムを示す。(a)変異抽出:アリコートタグがつけられたリードから変異を抽出する。10塩基のリード−ソロモンコードは、エラー修正によってタグ回復を可能にする。(b)ヘテロ接合性SNP対結合性評価:共有されるアリコートのマトリックスは、特定の区域内の各ヘテロ接合性SNP対について計算される。ループ1は、1つの染色体上のすべてのヘテロ接合性SNP全体にわたっている。ループ2は、ループ1中のヘテロ接合性SNPの区域中にある染色体上のすべてのヘテロ接合性SNP全体にわたっている。この区域は、ヘテロ接合性SNPの予測される数および予測される断片長によって制約される。(c)グラフ作成:方向のないグラフを、ヘテロ接合性SNPに対応するノードおよびそれらのSNP間の関係の最良の仮説の配向および強度に対応する結合を用いて作成する。(本明細書において、「ノード」とは、ポリヌクレオチド配列中のベースコールまたはその他の配列変異体(例えば、ヘテロまたはインデル)に相当する1種または複数の値を有し得るデータ[データ項目またはデータオブジェクト]である)。配向は、二元性である。図21は、それぞれ、ヘテロ接合性SNP対間の反対方向にされた関係、および反対方向にされていない関係を表す。強度は、共有されるアリコートマトリックスの要素に関してファジーロジック演算を使用することによって定義される。(d)グラフ最適化:グラフを最小全域ツリーによって最適化する。(e)コンティグ作製:各部分ツリーを、第1のヘテロ接合性SNPを変更せずに維持することおよび第1のヘテロ接合性SNPへのそのパスに基づいて部分ツリー上のその他のヘテロ接合性SNPを反転することまたは反転しないことによってコンティグへと減少させる。各コンティグへの親1(P1)および親2(P2)の指定は、任意である。染色体レベルのツリー中のギャップは、その染色体上の異なる部分ツリー/コンティグの境界を規定する。(f)LFRコンティグの親染色体へのマッピング:親の情報を使用して、各コンティグのP1およびP2ハプロタイプ上に母標識または父標識をおく。 図22は、複製LFRライブラリー間のハプロタイプ不一致を示す。サンプルNA12877およびNA19240からの2種の複製ライブラリーを、すべての共有されるフェージングされたヘテロ接合性SNP遺伝子座で比較した。最もフェージングされた遺伝子座が2種のライブラリー間で共有されるので、これは包括的比較である。 図23は、LFRによって可能となるエラー低減を示す。単独またはLFRコールと組み合わせた標準ライブラリーヘテロ接合性SNPコールを、複製LFRライブラリーによって独立にフェージングした。一般に、LFRは、およそ10倍多い偽陽性変異体コールを導入した。これは、phi29に基づいた多重置換増幅の際の不正確な塩基の確率論的組込みの結果として起こった可能性が最も高い。ヘテロ接合性SNPコールが、フェージングされる必要があり、3以上の独立ウェル中に見られる場合には、エラー低減は、目覚しく、結果は、エラー修正を行わない標準ライブラリーよりも良好であることが重要である。LFRは、標準ライブラリーからも同様にエラーを除去し、コール正確性をおよそ10倍改善できる。 図24は、コールがない位置でのLFR再コーリングを示す。コールがない位置を救出するLFRの可能性を実証するために、標準ソフトウェアによってコールされない(非コール)染色体18上の3つの例示位置を選択した。それらを、LFRコンティグの一部であるC/Tヘテロ接合性SNPを用いてフェージングすることによって、これらの位置が部分的にかまたは完全にコールされる。共有されるウェル(対中の2つの塩基の各々について少なくとも1つのリードを有するウェル;遺伝子座の評価される対について16対の塩基がある)の分布によって、3つのN/N位置のA/N、C/CおよびT/Cコールへの再コーリングが可能となり、C−A−C−TおよびT−N−C−Cをハプロタイプとして定義する。ウェル情報を使用することによって、ウェル情報がない場合よりも約3倍少ない2〜3の予測されるウェル中に見られる場合に、LFRが、わずか2〜3のリードを用いて対立遺伝子を正確にコールすることが可能となる。 図25は、解析されたサンプル各々の中の複数の有害な変異を有する遺伝子の数を示す。 図26は、NA20431における対立遺伝子発現の相違およびTFBS変更SNPを有する遺伝子を示す。発現において有意な対立遺伝子の相違を実証した遺伝子の包括的でないリストのうち、6種の遺伝子が、TFBSを変更し、対立遺伝子間で見られる発現の相違と相関するSNPを有すると見出された。すべての位置は、NCBI build 37に関連して与えられている。「CDS」は、コード配列を表し、「UTR3」は、3’非翻訳領域を表す。
本明細書において、および添付の特許請求の範囲において、単数形の「1つの(a)」、「1つの(an)」および「その(the)」は、文脈が明確に他を示すのでない限り、複数の言及を含む。したがって、例えば、「ポリメラーゼ」への言及は、1種の物質またはこのような物質の混合物を指し、「方法」への言及は、当業者に公知の同等の工程および/または方法への言及を含むなど。
別に定義されない限り、本明細書において使用されるすべての技術用語および科学用語は、本発明が属する技術分野における当業者によって一般に理解されるものと同一の意味を有する。本明細書に記載されるすべての刊行物は、刊行物中に記載され、目下記載される本発明と関連して使用される可能性のあるデバイス、組成物、製剤および方法論を説明および開示する目的で、参照によって本明細書に組み込まれる。
値の範囲が提供される場合には、その範囲の上限と下限の間の中間の値は各々、文脈が明確に他を示さない限り、下限の単位の10分の1まで、および記載される任意のその他のものまたはその記載される範囲中の中間の値は、本発明内に包含されることが理解される。これらのより小さい範囲の上限および下限は、独立に、同様に本発明内に包含されるより小さい範囲中に含まれる場合もあり、記載された範囲中の任意の具体的に除外される限界の影響下にある場合もある。記載された範囲が、限界の一方または両方を含む場合には、それらの含まれる限界のいずれかまたは両方を除外する範囲も本発明中に含まれる。
以下の説明では、本発明のより完全な理解を提供するよう、多数の具体的な詳細が示されている。しかし、本発明が、これらの具体的な詳細のうち1種または複数を用いずに実施され得ることは当業者には明らかであろう。その他の例では、当業者に周知の特徴および手順は、本発明を曖昧にすることを避けるために説明されていない。
本発明は、主に特定の実施形態を参照して記載されるが、本開示内容を読むと、その他の実施形態が当業者に明らかとなると想定され、このような実施形態は、本発明の方法内に含有されるものとする。
配列決定システムおよびデータ解析
いくつかの実施形態では、DNAサンプル(例えば、全ヒトゲノムを表すサンプル)の配列決定は、配列決定システムによって実施され得る。配列決定システムの2つの例が図1に示されている。
図1Aおよび1Bは、本明細書に記載された実施形態に従う核酸配列解析のための技術および/または方法を実施するよう設定されている例示的配列決定システム190のブロック図である。配列決定システム190は、例えば、配列決定機器191などの1種または複数の配列決定機器、コンピュータシステム197などの1種または複数のコンピュータシステムおよびデータレポジトリ195などの1種または複数のデータレポジトリなどの複数のサブシステムを含みうるか、それと関連している場合もある。図1Aに例示される実施形態では、システム190の種々のサブシステムは、1種または複数のネットワーク193を通じて通信によって接続され得る、これは、リモートシステム間の情報交換を促進するよう設定されている、パケット交換またはその他の種類のネットワークインフラストラクチャデバイス(例えば、ルーター、スイッチなど)を含み得る。図1Bに例示される実施形態では、配列決定システム190は、種々のサブシステム(例えば、配列決定機器(単数または複数)191、コンピュータシステム(単数または複数)197およびおそらくはデータレポジトリ195など)が、通信によっておよび/または機能的に結合しており、配列決定デバイス内に組み込まれている構成要素である配列決定デバイスである。
一部の動作状況では、図1Aおよび1Bに例示される実施形態のデータレポジトリ195および/またはコンピュータシステム(単数または複数)197が、クラウドコンピューティング環境196内に設定され得る。クラウドコンピューティング環境では、有用性およびオンデマンドとして使用するために、データレポジトリを含むストレージデバイスおよび/またはコンピュータシステムを含むコンピューティングデバイスが配置され、例示され得、したがって、クラウドコンピューティング環境は、サービスとして、任意のストレージ関連および/または計算タスクを実施するのに必要な、インフラストラクチャ(例えば、物理的および仮想機械、ロー/ブロックストレージ、ファイアウォール、ロードバランサ、アグリゲータ、ネットワーク、ストレージクラスターなど)、プラットフォーム(例えば、オペレーティングシステム、プログラミング言語実行環境、データベースサーバー、ウェブサーバー、アプリケーションサーバーなどを含み得るコンピューティングデバイスおよび/またはソルーションスタック)およびソフトウェア(例えば、アプリケーション、アプリケーションプログラミングインターフェースまたはAPIなど)を提供する。
種々の実施形態では、本明細書に記載された技術は、上記のサブシステムおよび構成要素のうちいくつかまたはすべて(例えば、配列決定機器、コンピュータシステムおよびデータレポジトリなど)を種々の立体配置およびフォームファクタで含む、種々のシステムおよびデバイスによって実施され得、したがって、図1Aおよび1Bに例示される例示的実施形態および配置は、限定的な意味というよりも例示と考えられるべきものであるということは留意されたい。
配列決定機器191は、生体サンプルの断片に由来する標的核酸192を受け取るよう、また標的核酸での配列決定を実施するよう設定されており、動作可能である。配列決定を実施できる任意の適した機械が使用され得、ここで、このような機械は、それだけには限らないが、ハイブリダイゼーションによる配列決定、ライゲーションによる配列決定、合成による配列決定、単一分子配列決定、任意選択の配列検出、電磁配列検出、電圧変化配列検出およびDNAから配列決定リードを作製するのに適している、任意のその他の現在公知であるか、後に開発される技術を含む種々の配列決定技術を使用し得る。種々の実施形態では、配列決定機器は、標的核酸を配列決定し得、ギャップを含む場合も、含まない場合もあり、メイトペア(またはペアエンド)である場合も、そうではない場合もある配列決定リードを作製し得る。図1Aおよび1Bに示されるように、配列決定機器191は、標的核酸192を配列決定し、配列決定リード194を獲得し、これを、(一時的および/または永久)保存のために1種または複数のデータレポジトリ195に、および/または1種または複数のコンピュータシステム197による処理のために送る。
データレポジトリ195は、ディスクのアレイ(例えば、SCSIアレイなど)、ストレージクラスターまたは任意のその他の適したストレージデバイス組織として設定され得る、1種または複数のストレージデバイス(例えば、ハードディスクドライブ、光ディスク、ソリッドステートドライブなど)に実装され得る。データレポジトリのストレージデバイス(単数または複数)は、システム190に取り付け可能である(例えば、図1Bに示されるように)および/または例えば、グリッド、ストレージクラスター、ストレージエリアネットワーク(SAN)および/またはネットワーク接続ストレージ(NAS)などの適した方法で通信によって相互接続され得る(例えば、図1Aに示されるように)、システム190の内部の/不可欠の構成要素として、または外部構成要素として(例えば、外部ハードドライブまたはディスクアレイなど)設定され得る。種々の実施形態および実装では、データレポジトリは、ファイルとして情報を保存する1種または複数のファイルシステムとして、データレコードで情報を保存する1種または複数のデータベースとして、および/または任意のその他の適したデータストレージ組織としてストレージデバイスに実装され得る。
コンピュータシステム197は、立体配置データおよび/またはオペレーティングシステム(OS)ソフトウェアとともに、本明細書に記載される技術および方法の一部またはすべてを実施できる、および/または配列決定機器191の操作を制御できる、汎用プロセッサ(例えば、中央処理装置またはCPU)、メモリおよびコンピュータロジック199を含む1種または複数のコンピューティングデバイスを含み得る。例えば、本明細書に記載される方法のいずれも(例えば、エラー修正、ハプロタイプフェージングなどのための)、方法の種々の工程を実施するためにロジック199を実行するよう設定され得るプロセッサを含むコンピューティングデバイスによって、全体にまたは部分的に実施され得る。さらに、方法工程は、番号が付けられた工程として示され得るが、本明細書に記載される方法の工程は、同時に(例えば、コンピューティングデバイスのクラスターによって並行して)または異なる順序で実施され得るということは理解される。コンピュータロジック199の機能性は、単一集積モジュールとして実装される場合も(例えば、集積ロジックにおいて)、またはいくつかのさらなる機能性を提供し得る2種以上のソフトウェアモジュールに組み合わされる場合もある。
いくつかの実施形態では、コンピュータシステム197は、単一コンピューティングデバイスであり得る。その他の実施形態では、コンピュータシステム197は、グリッド、クラスターに、またはクラウドコンピューティング環境に通信によっておよび/または機能的に相互接続され得る複数のコンピューティングデバイスを含み得る。このような複数のコンピューティングデバイスは、コンピューティングノード、ブレードまたは任意のその他の適したハードウェア立体配置などの種々のフォームファクタで設定され得る。このような理由で、図1Aおよび1B中のコンピュータシステム197は、限定的な意味というよりも例示と考えられるべきものである。
図2は、配列決定機器(単数または複数)および/またはコンピュータシステム(単数または複数)の一部として種々のデータ処理および/または制御機能性を実施するための命令を実行するよう設定され得る、例示的コンピューティングデバイス200のブロック図である。
図2では、コンピューティングデバイス200は、直接的にか、またはバス275などの1種または複数のシステムバスを介して間接的に相互接続されている、いくつかの構成要素を含む。このような構成要素は、それだけには限らないが、キーボード278、永続的ストレージデバイス(単数または複数)279(例えば、固定ディスク、ソリッドステートディスク、光ディスクなどといった)および1種または複数のディスプレイデバイス(例えば、LCDモニター、フラットパネルモニター、プラズマスクリーンなどといった)が連結され得るディスプレイアダプター282を含み得る。I/Oコントローラー271と連結する周辺機器およびインプット/アウトプット(I/O)デバイスは、それだけには限らないが、1種または複数のシリアルポート、1種または複数のパラレルポートおよび1種または複数のユニバーサルシリアルバス(USB)を含めた当技術分野で公知の任意の数の手段によってコンピューティングデバイス200に接続され得る。コンピューティングデバイス200をネットワーク(例えば、インターネットまたはローカルエリアネットワーク(LAN)など)に接続するために、外部インターフェース(単数または複数)281(ネットワークインターフェースカードおよび/またはシリアルポートを含み得る)を使用してもよい。外部インターフェース(単数または複数)281はまた、例えば、配列決定機器または任意のその構成要素などの種々の外部デバイスからの情報を受け取ることができるいくつかのインプットインターフェースを含み得る。システムバス275を介した相互接続によって、1種または複数のプロセッサ(例えば、CPU)273が、接続された各構成要素と通信し、システムメモリ272からの、および/またはストレージデバイス(単数または複数)279からの命令、ならびに種々の構成要素間の情報の交換を実行する(および/またはその実行を制御する)ことが可能となる。システムメモリ272および/またはストレージデバイス(単数または複数)279は、プロセッサ(単数または複数)273によって実行される一連の命令ならびにその他のデータを保存する、1種または複数のコンピュータによって読み取り可能な一時的でないストレージメディアとして実施され得る。このようなコンピュータによって読み取り可能な一時的でないストレージメディアとして、それだけには限らないが、ランダムアクセスメモリ(RAM)、リードオンリメモリ(ROM)、電磁媒体(例えば、ハードディスクドライブ、ソリッドステートドライブ、サムドライブ、フロッピーディスクなどといった)、コンパクトディスク(CD)またはデジタル多用途ディスク(DVD)などの光媒体、フラッシュメモリなどが挙げられる。種々のデータ値およびその他の構造化または非構造化情報は、ある構成要素またはサブシステムから別の構成要素またはサブシステムへのアウトプットであり得、ディスプレイアダプター282および適したディスプレイデバイスを介してユーザーに示され得、外部インターフェース(単数または複数)281を通ってネットワークでリモートデバイスもしくはリモートデータレポジトリに送られ得るか、または(一時的におよび/もしくは永久的に)ストレージデバイス(単数または複数)279に保存され得る。
コンピューティングデバイス200によって実施される方法および機能性のいずれも、モジュール式にまたは一体的に、ハードウェアおよび/またはコンピュータソフトウェアを使用するロジックの形で実装され得る。本明細書において、「ロジック」とは、1種または複数のコンピューティングデバイスの1種または複数のプロセッサ(例えば、CPU)によって実行されると、1種もしくは複数の機能性を実施するよう、および/または1種もしくは複数の結果もしくはその他のロジック素子によって使用されるデータの形でデータを戻すよう動作可能である一連の命令を指す。種々の実施形態および実装では、任意の所与のロジックは、1種または複数のプロセッサ(例えば、CPU)によって実行可能である1種もしくは複数のソフトウェア構成要素として、特定用途向け集積回路(ASIC)および/もしくはフィールドプログラマブルゲートアレイ(FPGA)などの1種もしくは複数のハードウェア構成要素として、または1種もしくは複数のソフトウェア構成要素および1種もしくは複数のハードウェア構成要素の任意の組合せとして実装され得る。任意の特定のロジックのソフトウェア構成要素(単数または複数)は、それだけには限らないが、独立型のソフトウェアアプリケーションとして、クライエント−サーバーシステムにおけるクライエントとして、クライエント−サーバーシステムにおけるサーバーとして、1種または複数のソフトウェアモジュールとして、1種または複数の機能のライブラリーとして、ならびに1種または複数のスタティックおよび/またはダイナミックリンクライブラリーとして実装され得る。実行の際、任意の特定のロジックの命令は、1種または複数のコンピュータプロセス、スレッド、ファイバーおよびそれだけには限らないが、メモリ、CPU時間、ストレージスペースおよびネットワーク帯域を含み得る割り当てられたコンピューティング資源であり得る、1種または複数のコンピューティングデバイスのハードウェアでインスタンスが作成され得る任意のその他の適したランタイムエンティティとして実施され得る。
LFRプロセスのための技術およびアルゴリズム
ベースコーリング
本発明の組成物および方法を使用して標的核酸を配列決定するための全体的な方法が、本明細書および例えば、すべての目的についてその全文が参照により本明細書に組み込まれる、米国特許出願公開第2010/0105052−A1号;公開特許出願番号WO2007120208、WO2006073504、WO2007133831およびUS2007099208および米国特許出願第11/679,124号;同11/981,761号;同11/981,661号;同11/981,605号;同11/981,793号;同11/981,804号;同11/451,691号;同11/981,607号;同11/981,767号;同11/982,467号;同11/451,692号;同11/541,225号;同11/927,356号;同11/927,388号;同11/938,096号;同11/938,106号;同10/547,214号;同11/981,730号;同11/981,685号;同11/981,797号;同11/934,695号;同11/934,697号;同11/934,703号;同12/265,593号;同11/938,213号;同11/938,221号;同12/325,922号;同12/252,280号;同12/266,385号;同12/329,365号;同12/335,168号;同12/335,188号および同12/361,507号に記載されている。Drmanac et al., Science 327,78-81, 2010も参照のこと。ロングフラグメントリード(Long Fragment Read)(LFR)法は、参照によりその全文が本明細書に組み込まれる、米国特許出願第12/816,365号、同12/329,365号、同12/266,385号および同12/265,593号に、また米国特許第7,906,285号、同7,901,891号および同7,709,197号に開示されている。さらなる詳細および改善が、本明細書において提供される。
いくつかの実施形態では、データ抽出は、2種の画像データ、すなわち表面上のすべてのDNBの位置の境界を画定する明視野像および各配列決定サイクルの間に獲得される蛍光画像のセットに頼る。データ抽出ソフトウェアを使用し、明視野像を用いてすべての対象を同定でき、次いで、このような対象各々のために、ソフトウェアを使用して、各配列決定サイクルの平均蛍光値を計算できる。任意の所与のサイクルについて、その塩基が、A、G、CまたはTであるかどうか問い合わせを行うための、異なる波長で撮られた4種の画像に対応する4つのデータ点がある。これらの生データ点(本明細書において「ベースコール」とも呼ばれる)がひとまとめにされ、各DNBの不連続の配列決定リードが得られる。
コンピューティングデバイスは、同定された塩基の集団をアセンブルして、標的核酸の配列情報を提供および/または標的核酸中の特定の配列の存在を同定できる。例えば、コンピューティングデバイスは、種々のロジックを実行することによって、本明細書に記載された技術およびアルゴリズムに従って同定された塩基の集団をアセンブルし得、このようなロジックの一例として、Java、C++、Perl、Pythonおよび任意のその他の適した従来のおよび/またはオブジェクト指向のプログラミング言語などの任意の適したプログラミング言語で書かれたソフトウェアコードがある。1種または複数のコンピュータプロセスの形態で実行される場合には、このようなロジックは、永続的ストレージ上の種々の構造中に、および/または揮発性メモリに保存され得る構造化または非構造化データを読み、書きおよび/またはそうでなければ処理し得、このようなストレージ構造の例として、それだけには限らないが、ファイル、テーブル、データベース、レコード、アレイ、リスト、ベクター、変数、メモリおよび/またはプロセッサレジスタ、オブジェクト指向のクラスからインスタンスが作成される永続的および/またはメモリデータオブジェクトならびに任意のその他の適したデータ構造が挙げられる。いくつかの実施形態では、同定された塩基は、複数のDNBで実施された複数の配列決定サイクルから得られた重複配列のアラインメントによって完全配列にアセンブルされる。本明細書において、用語「完全配列」とは、部分または全ゲノムの配列ならびに部分または全標的核酸を指す。さらなる実施形態では、1種または複数のコンピューティングデバイスまたはそのコンピュータロジックによって実施されるアセンブリ法は、重複する配列を「つなぎ合わせ」て完全配列を提供するために使用され得るアルゴリズムを使用する。さらなる実施形態では、同定された配列を完全な配列へアセンブルすることを補助するために参照テーブルが使用される。参照テーブルは、最適の生物で既存の配列決定データを使用してコンパイルされ得る。例えば、ヒトゲノムデータは、ftp.ncbi.nih.gov/refseq/releaseにおける全米バイオテクノロジー情報センターによって、またはwww.jcvi.org/researchhuref/におけるthe J.Craig Venter Instituteによって評価され得る。ヒトゲノム情報のすべてまたはサブセットを使用して、特定の配列決定クエリーの参照テーブルを作製できる。さらに、ヒトゲノム内の変異は、それに含有される情報の起源に応じて参照データに傾斜し得るので、特定の参照テーブルは、特定の民族性、地理的遺伝形質を有するヒト、宗教的または文化的に規定された集団からの遺伝子配列を含めた特定の集団に由来する実験データから構築され得る。参照ポリヌクレオチド配列と比較して、ポリヌクレオチド配列中の変異をコールするための、またポリヌクレオチド配列アセンブリ(またはリアセンブリ)のための例示的方法は、例えば、すべての目的について参照により本明細書に組み込まれる、「Method and System for Calling Variations in a Sample Polynucleotide Sequence with Respect to a Reference Polynucleotide Sequence」と題された米国特許公報第2011−0004413号に提供されている。
本明細書において論じられる本発明の実施形態のいずれにおいても、核酸鋳型および/またはDNBの集団は、全ゲノムまたは全標的ポリヌクレオチドを実質的に網羅するためにいくつかの標的核酸を含み得る。本明細書において、「実質的に網羅する」とは、解析されるヌクレオチド(すなわち、標的配列)の量が、標的ポリヌクレオチドの少なくとも2コピー、または別の態様では、少なくとも10コピー、または別の態様では、少なくとも12コピー、または別の態様では、少なくとも100コピーの相当物を含有することを意味する。標的ポリヌクレオチドは、ゲノムDNA断片およびcDNA断片を含めたDNA断片ならびにRNA断片を含み得る。標的ポリヌクレオチド配列を再構築する工程の手引きは、参照により組み込まれる以下の参考文献中に見出すことができる:Lander et al, Genomics, 2: 231-239 (1988); Vingron et al, J. Mol. Biol., 235: 1-12 (1994);および同様の参考文献。
いくつかの実施形態では、4つの画像、各色素のものを、配列決定される複合ヌクレオチドの問い合わされた各位置について作製する。色素およびバックグラウンド強度間のクロストークについて調整することによって、画像中の各スポットの位置および4色各々の得られた強度を決定する。定量的モデルを、得られた四次元データセットにフィッティングすることができる。所与のスポットについて塩基が、どの程度上手く4種の強度がモデルにフィットするかを反映するクオリティスコアとともにコールされる。
各フィールドの4つの画像のベースコーリングは、1種または複数のコンピューティングデバイスまたはそのコンピュータロジックによって、いくつかの工程で実施できる。第1に、画像強度を、修飾された形態学的「画像オープン」操作を使用してバックグラウンドについて修正する。DNBの位置は、カメラピクセル位置とぴったりと合うので、強度抽出は、バックグラウンドが修正された画像からのピクセル強度の簡単なリードアウトとして行う。次いで、これらの強度を、以下に記載されるように、光学および生物学的シグナルクロストーク両方のいくつかの供給源について修正する。次いで、修正された強度を、各DNBについて、4つの可能性あるベースコール結果の一連の4つの可能性を最終的にもたらす確率論的モデルに渡す。次いで、いくつかの測定基準を組み合わせて、予めフィッティングされたロジスティック回帰を使用してベースコールスコアを計算する。
強度修正:生物学的および光学クロストークのいくつかの供給源を、1種または複数のコンピューティングデバイスによって実行されるコンピュータロジックとして実装される線形回帰モデルを使用して修正する。線形回帰は、より計算コストが高く、得られた結果が同様のクオリティを有するデコンボリューション法よりも好ましいものであった。光学クロストークの供給源として、4種の蛍光色素スペクトル間のフィルターバンドオーバーラップおよび近接近での光回折による隣接するDNB間の横クロストークが挙げられる。クロストークの生物学的供給源として、以前のサイクルの不完全な洗浄、プローブ合成エラーおよび隣接する位置のプローブ「スリッピング」混入シグナル、アンカーから「外側の」(より離れた)塩基を問い合わせる場合の不完全なアンカー伸長が挙げられる。線形回帰を使用して、隣接するDNBいずれかの強度または以前のサイクルもしくはその他のDNB位置からの強度を使用して予測され得るDNB強度の一部を決定する。次いで、クロストークのこれらの供給源によって説明され得る強度の一部を、元の抽出された強度から差し引く。回帰係数を決定するために、線形回帰モデルの左側の強度は、主に「バックグラウンド」強度、すなわち、回帰が実施されている所与の塩基がコールされないDNBの強度のみからなる必要がある。これは、元の強度を使用して行われるプレコーリング工程を必要とする。特定のベースコールを有さないDNB(合理的な信頼をもって)が選択されると、コンピューティングデバイスまたはそのコンピュータロジックは、クロストーク供給源の同時回帰を実施する:
隣接するDNBクロストークを上記の回帰を使用して両方修正する。また、各DNBを、利用可能なDNB位置すべてにわたってすべての隣接するものを含む線形モデルを使用して、その特定の区域について修正する。
ベースコール確率:最大強度を使用して塩基をコールすることは、異なる形の4種の塩基のバックグラウンド強度分布の主な原因とならない。このような可能性ある相違に対処するために、バックグラウンド強度の実験による確率分布に基づいて確率論的モデルを開発した。強度が修正されると、コンピューティングデバイスまたはそのコンピュータロジックは、最大強度を使用していくつかのDNBをプレコールし(特定の信頼度閾値を通過するDNB)、これらのプレコールされたDNBを使用して、バックグラウンド強度分布(所与の塩基がコールされないDNBの強度の分布)を導く。このような分布を得る際に、コンピューティングデバイスは、各DNBについて、バックグラウンド強度である強度の実験による確率を説明するその分布の下でのテイル確率を計算できる。したがって、各DNBおよび4種の強度各々について、コンピューティングデバイスまたはそのロジックは、バックグラウンドであるその確率(



)を得、保存することができる。次いで、コンピューティングデバイスは、これらの確率を使用してすべての可能性あるベースコール結果の確率を計算できる。可能性あるベースコール結果は、DNBによって二重に占有され得るか、または一般に、多重に占有され得る、または占有され得ないスポットを説明する必要もある。計算された確率を、その先の確率(多重に占有されるか、または空のスポットの低い先の)と組み合わせることによって、16の可能性ある結果の確率が生じる:


次いで、これらの16の確率を組み合わせて、4種の可能性あるベースコールの4種の確率の減少したセットを得ることができる。すなわち:


スコア計算:ロジスティック回帰を使用して、スコア計算式を導いた。コンピューティングデバイスまたはそのコンピュータロジックをロジスティック回帰にフィッティングして、インプットとしていくつかの測定基準を使用してベースコールの結果をマッピングした。測定基準は、コールされた塩基と次に高い塩基の間の確率比、ベースコールされた塩基強度、ベースコール強度の指標変数およびフィールドのクラスタリングクオリティ全体を説明する測定基準を含んでいた。すべての測定基準を、一致したコールと不一致のコール間の対数オッズ比と共線的であるよう変換した。モデルを、クロス確認を使用してリファインした。最終ロジスティック回帰係数を用いるロジット関数を使用して、製造におけるスコアを計算した。
マッピングおよびアセンブリ
さらなる実施形態では、リードデータは、コンパクトバイナリフォーマットでコード化され、塩基およびクオリティスコアの両方を含む。クオリティスコアは、塩基正確性と相関している。配列アセンブリソフトウェアを含めた解析ソフトウェアロジックはスコアを使用して、リードを用いて個々の塩基から得られた証拠の寄与を決定できる。
リードは、DNB構造のために「ギャップが入る」ことがある。ギャップの大きさは、酵素消化について回る変動性のために変わる(普通+/−1塩基)。cPALのランダムアクセス性のために、リードは、時々、そうでなければハイクオリティのDNB中に読まれない塩基(「コールなし」)を有し得る。リード対は対にする。
リードデータを参照配列に対してアラインできるマッピングソフトウェアロジックを使用して、本明細書に記載された配列決定法によって作成されたデータをマッピングできる。このようなマッピングロジックは、1種または複数のコンピューティングデバイスによって実行されると、一般に、個々のゲノム変異、リードエラーまたは読まれない塩基によって引き起こされるものなどの参照配列からの小さい変異に寛容となる。この性質によって、SNPの直接再構築が可能となることが多い。大規模構造変化または高密度変異の領域を含めた大きな変異のアセンブリを支持するために、DNBの各アームを別個にマッピングし、メイトペア形成制約をアラインメント後に適用してもよい。
本明細書において、用語「配列変異体」または簡単に「変異体」とは、それだけには限らないが、1個または複数の塩基の置換(substitution)または置換(replacement)、1個または複数の塩基の挿入または欠失(「インデル」とも呼ばれる)、逆位、変換、複製またはコピー数変異(CNV)、トリヌクレオチドリピート拡大、構造変異(SV;例えば、染色体内または染色体間再配列、例えば、転座)などを含めた任意の変異体を含む。2倍体ゲノムでは、「異型接合性」または「ヘテロ」とは、遺伝子対中の特定の遺伝子の2種の異なる対立遺伝子である。2種の対立遺伝子は、異なる突然変異体または突然変異体と対を形成している野生型対立遺伝子であり得る。また、本方法を、非2倍体生物の解析、このような生物がハプロイド/一倍体であるか(N=1、ここで、N=染色体のハプロイド数)、倍数体または異数体であるどうかにおいて使用してもよい。
配列リードのアセンブリは、いくつかの実施形態では、DNBリード構造(コールされない塩基を有する、対になった、ギャップの入ったリード)を支援するソフトウェアロジックを利用して、いくつかの実施形態では、ヘテロ接合体部位のフェージングのために、本発明の配列情報作製LFR法では活用されないこともある2倍体ゲノムアセンブリを作製できる。
本発明の方法を使用して、参照配列中に存在しない新規セグメントを再構築できる。いくつかの実施形態では、証拠(Bayesian)推論とBruijinグラフをベースとするアルゴリズムの組合せを利用するアルゴリズムが使用され得る。いくつかの実施形態では、各データセットに対して実験的に較正された統計的モデルが使用され、事前のフィルタリングまたはデータトリミングを伴わずに、すべてのリードデータが使用されることが可能となり得る。大規模構造変異(それだけには限らないが、欠失、転座などを含む)およびコピー数変異も、対をなすリードを利用することによって検出され得る。
LFRデータのフェージング
図3は、LFRデータのフェージングにおける主な工程を説明する。これらの工程は以下のとおりである:
(1)LFRデータを使用するグラフ構築:1種または複数のコンピューティングデバイスまたはそのコンピュータロジックによって、方向のないグラフを作成し、これでは、頂点は、ヘテロ接合性SNPを表し、エッジは、それらのヘテロ接合性SNP間の接続を表す。エッジは、接続の配向および強度からなる。1種または複数のコンピューティングデバイスは、ストレージ構造中にこのようなグラフを保存し得、これとして、それだけには限らないが、ファイル、テーブル、データベースレコード、アレイ、リスト、ベクター、変数、メモリおよび/またはプロセッサレジスタ、オブジェクト指向のクラスからインスタンスが作成される永続的および/またはメモリデータオブジェクトならびに任意のその他の適した一時的および/または永続的データ構造が挙げられる。
(2)メイトペアデータを使用するグラフ構築:工程2は、工程1と同様であり、これでは、接続は、LFRデータとは対照的にメイトペアデータに基づいて行われる。接続がなされるためにDNBは、同一リード中の対象とする2つのヘテロ接合性SNPを用いて見出されなければならない(同一アームまたはメイトアーム)。
(3)グラフ組合せ:コンピューティングデバイスまたはそのコンピュータロジックは、上記のグラフの各々が、N×N疎行列によることを表し、ここで、Nは、その染色体上の候補ヘテロ接合性SNPの数である。2つのノードは、上記の方法の各々において1つの接続のみを有し得る。2つの方法が組み合わされる場合には、2つのノードについて最大2つの接続があり得る。したがって、コンピューティングデバイスまたはそのコンピュータロジックは、1つの接続を、最適の接続として選択するための選択アルゴリズムを使用し得る。これらの研究のために、メイトペアデータのクオリティは、LFRデータのものよりも大幅に劣るということを発見した。したがって、LFR由来の接続のみを使用した。
(4)グラフトリミング:間違った接続の一部を除去するために、一連の発見法を考案し、コンピューティングデバイスによって保存されたグラフデータに適用した。より正確には、ノードは、一方の方向で少なくとも2つの接続およびもう一方の方向で1つの接続という条件を満たさなければならず、そうでなければ、排除する。
(5)グラフ最適化:コンピューティングデバイスまたはそのコンピュータロジックによって、最小全域ツリー(MST)を作製することによってグラフを最適化した。エネルギー関数を−|強度|に設定した。このプロセスの間に、可能であれば、低強度エッジは、より強いパスとの競合のために排除される。したがって、MSTは、最強の最も信頼性のある接続の天然の選択を提供する。
(6)コンティグビルディング:最小全域ツリーが、コンピュータによって読み取り可能なメディアに作製および/または保存されると、コンピューティングデバイスまたはそのロジックは、1つのノード(ここでは、第1のノード)を絶えず有するすべてのノードを再設定できる。この第1のノードは、アンカーノードである。ノードの各々について、次いで、コンピューティングデバイスは、アンカーノードへのパスを見出す。試験ノードの配向は、パス上のエッジの配向の集合体である。
(7)ユニバーサルフェージング:上記の工程後、コンピューティングデバイスまたはそのロジックによって、先の工程(単数または複数)において作り上げられている各コンティグをフェージングする。ここで、この部分の結果は、プレフェージングされた(pre−phased)、フェージングに向き合っている(opposed to phased)と呼ばれ、これは最終フェージングではないことを示す。第1のノードは、アンカーノードとして任意に選択されたので、全コンティグのフェージングは、親の染色体と必ずしも一致しない。ユニバーサルフェージングのために、トリオ情報が利用可能である、コンティグ上の2、3のヘテロ接合性SNPを使用する。次いで、これらのトリオヘテロ接合性SNPを使用して、コンティグのアラインメントを同定する。ユニバーサルフェージング工程の最後に、すべてのコンティグは適切に標識されており、したがって、染色体レベルのコンティグとして考えられ得る。
コンティグ作製
コンティグを作製するために、各ヘテロ接合性SNP対について、コンピューティングデバイスまたはそのコンピュータロジックによって2つの仮説が調べられる:フォワード配向およびリバース配向。フォワード配向とは、2つのヘテロ接合性SNPが、それらが元々列挙されている同一方向で接続している(最初にアルファベット順に)ことを意味する。リバース配向とは、2つのヘテロ接合性SNPが、その元の列挙の逆の順序で接続していることを意味する。図4は、ヘテロ接合性SNP対に対するフォワードおよびリバース配向の割り当てを含む隣接するヘテロ接合性SNPの対解析を表す。
各配向は、対応する仮説の妥当性を示す数的支持を有する。この支持は、図5に示される連結性行列の16セルの関数であり、これは、仮説の選択の一例およびそれに対するスコアの割り当てを示す。関数を単純化するために、16の変数を3:エネルギー1、エネルギー2および不純物に減らす。エネルギー1およびエネルギー2は、各仮説に対応する2つの最高値セルである。不純物は、マトリックス中のセルの合計(仮説に対応する2より大きい)に対する、その他のセルすべての合計の割合である。2つの仮説間の選択は、対応するセルの合計に基づいて行われる。より多い合計を有する仮説が、勝利仮説である。以下の計算のみを使用して、その仮説の強度を割り当てる。強い仮説とは、エネルギー1およびエネルギー2について高い値および不純物について低い値を有するものである。
3つの測定基準エネルギー1、エネルギー2および不純物が、ファジー推論システムに供給され(図6)、0から1の間(0および1を含む)の単一の値−スコア−にその効果が低減される。ファジー推論システム(FIS)は、1種または複数のコンピューティングデバイスによって実行され得るコンピュータロジックとして実装される。
最大予測されるコンティグ長(例えば、20〜50Kb)までの合理的な距離内にある各ヘテロ接合性SNP対に対して、接続性操作が行われる。図6は、グラフ構築を示し、一部の例示的接続性および3つの隣接するヘテロ接合性SNPの強度を表す。
ファジー推論エンジンのルールは、以下のとおりに定義される:
(1)エネルギー1が小さく、エネルギー2が小さい場合は、スコアは、極めて少ない。
(2)エネルギー1が中程度であり、エネルギー2が小さい場合は、スコアは、小さい。
(3)エネルギー1が中程度であり、エネルギー2が中程度である場合には、スコアは、中程度である。
(4)エネルギー1が大きく、エネルギー2が小さい場合には、スコアは、中程度である。
(5)エネルギー1が大きく、エネルギー2が中程度である場合には、スコアは大きい。
(6)エネルギー1が大きく、エネルギー2が大きい場合には、スコアは、極めて大きい。
(7)不純物が小さい場合には、スコアは大きい。
(8)不純物が中程度である場合には、スコアは小さい。
(9)不純物が大きい場合には、スコアは極めて小さい。
各変数について、小さい、中程度および大きいの定義は、異なっており、その特定のメンバーシップ関数によって支配される。ファジー推論システム(FIS)を各変数セットに曝露した後に、インプットセットのルールに対する寄与が、ファジーロジックシステムによって伝播され、アウトプットで単一(脱ファジー化された)数が作製される−−スコア。このスコアは、0から1の間で制限され、1は、最高のクオリティを示す。
FISを各ノード対に適用した後、コンピューティングデバイスまたはそのコンピュータロジックは、完全なグラフを構築する。図7は、このようなグラフの一例を示す。ノードは、勝利仮説の配向に従って色が付けられる。各接続の強度は、対象とするヘテロ接合性SNP対に対するFISの適用に由来する。予備的グラフが構築されると(図7の上部プロット)、コンピューティングデバイスまたはそのコンピュータロジックによって、グラフが最適化され(図7の下部プロット)、それをツリーに低減する。この最適化プロセスは、元のグラフから最小全域ツリー(MST)を作製することによって行われる。MSTは、各ノードから任意のその他のノードへの独特のパスを保証する。
図7は、グラフ最適化を示す。この適用では、各コンティグ上の第1のノードがアンカーノードとして使用され、その他のノードすべては、そのノードへ方向付けられる。各ヒットは、配向に応じて、アンカーノードの配向に対応するために反転しなくてはならないか、そうではない。図8は、所与の実施例のコンティグアラインメントプロセスを示す。このプロセスの最後に、フェージングされたコンティグが利用可能になる。
フェージングのプロセス中のこの時点で、2種のハプロタイプが分離される。これらのハプロタイプのうち一方は、母から来たものであり、一方は父から来たものであることはわかっているが、どちらがどちらの親から来たものであるのか正確にはわかっていない。フェージングの次の工程で、コンピューティングデバイスまたはそのコンピュータロジックは、各ハプロタイプに正しい親の標識(母/父)を割り当てようとする。このプロセスは、ユニバーサルフェージングと呼ばれる。そうするためには、親に対する、少なくとも2、3のヘテロ接合性SNP(コンティグ上の)の関連性を知る必要がある。この情報は、トリオ(母−父−子供)フェージングを行うことによって得ることができる。トリオの配列決定されたゲノムを使用して、親の関連性がわかっている一部の遺伝子座が同定される−より詳しくは、少なくとも1つの親が、同形接合体である場合。次いで、これらの関連性を、コンピューティングデバイスまたはそのコンピュータロジックによって使用して、全コンティグに正しい親の標識(母/父)を割り当てる、すなわち、親を利用したユニバーサルフェージングを実施する(図9)。
高い正確性を保証するために、以下を実施してもよい:(1)可能であれば(例えば、NA19240の場合には)、複数の供給源からトリオ情報を獲得すること(例えば、内部および1000個のゲノム)およびこのような供給源の組合せを使用すること;(2)コンティグが、少なくとも2つの既知トリオフェージングされた遺伝子座を含むことを必要とすること;(3)列を成す一連のトリオミスマッチを有する(セグメントエラーを示す)コンティグを排除すること;(4)トリオ遺伝子座の末端に単一のトリオミスマッチを有する(潜在的セグメントエラーを示す)コンティグを排除すること。
図10は、天然のコンティグ分離を示す。親のデータが使用されようとなかろうと、コンティグは、天然には、特定の点を越えて継続しないことが多い。コンティグ分離の理由は、以下である:(1)特定の領域における普通より多いDNA断片化または増幅の欠如、(2)低いヘテロ接合性SNP密度、(3)参照ゲノム上のポリN配列および(4)DNAリピート領域(ミスマッピングする傾向がある)。
図11は、ユニバーサルフェージングを示す。ユニバーサルフェージングの主要な利点の1つは、全染色体の「コンティグ」を得る能力である。これは、各コンティグが(ユニバーサルフェージング後に)正しい親の標識を有するハプロタイプを保持するために可能である。したがって、母の標識を保持するすべてのコンティグを、同一ハプロタイプ上においてもよい、同様の操作を、父のコンティグにも行ってもよい。
LFR法の主要な利点のもう1つのものは、ヘテロ接合性SNPコーリングの正確性を著しく増大する能力である。図12は、LFR法の使用に起因するエラー検出の2つの例を示す。第1の例は、図12(左)に示されており、これでは、連結性行列は、予測される仮説のいずれも支持しない。これは、ヘテロ接合性SNPの一方が、真にヘテロ接合性SNPではないことを示すものである。この例では、A/Cヘテロ接合性SNPは、実際には、同形接合体遺伝子座(A/A)であり、これはアセンブラーによってヘテロ接合性遺伝子座として間違って標識された。このエラーは同定でき、排除または(この場合には)修正できる。第2の例は、図13(右)に示されており、これでは、この場合の連結性行列は、両仮説を同時に支持する。これは、ヘテロ接合性SNPコールが真実ではないという兆候である。
「健常な」ヘテロ接合性SNP接続マトリックスとは、2つの高いセルのみを有するものである(予測されるヘテロ接合性SNP位置で、すなわち、直線上ではなく)。すべてのその他の可能性が可能性ある問題を指摘し、排除されるか、または対象とする遺伝子座の代替ベースコールを作製するために使用され得る。
LFR法の別の利点は、弱い支持で(例えば、バイアスまたはミスマッチ率のためにDNBをマッピングすることが困難である場合)ヘテロ接合性SNPをコールする能力である。LFR法は、ヘテロ接合性SNPに対して追加の制約を必要とするので、非LFRアセンブラーにおいてヘテロ接合性SNPコールが必要とする閾値は低減され得る。図13は、少数のリードにもかかわらず、確信のあるヘテロ接合性SNPコールがなされ得るこの場合の一例を実証する。図13(右)では、正常なシナリオ下で、少数の支持リードは、任意のアセンブラーが、対応するヘテロ接合性SNPを確信をもってコールするのを妨げた。しかし、連結性行列は、「クリーン」であり、ヘテロ接合性SNPコールをこれらの遺伝子座に、より確信をもって割り当てることができる。
スプライシング部位においてSNPに注釈をつけること
転写されたRNA中のイントロンは、それらがmRNAになる前にスプライシングされる必要がある。スプライシングのための情報は、これらのRNAの配列内に埋め込まれており、コンセンサスに基づいている。スプライシング部位コンセンサス配列中の突然変異は、多数のヒト疾患の原因である(Faustino and Cooper, Genes Dev. 17:419-437, 2011)。スプライシング部位の大部分は、エキソンの周囲の固定位置の簡単なコンセンサスに一致する。これに関して、スプライシング部位突然変異に注釈を付けるようプログラムを開発した。このプログラムでは、コンセンサススプライシング位置モデル(www.life.umd.edu/labs/mount/RNAinfo)を使用した。パターン:エキソンの5’末端領域中のCAG|G(「|」は、エキソンの始まりを表す)および同じエキソンの3’末端領域中のMAG|GTRAG(「|」は、エキソンの最後を表す)について探索を実施する。ここで、M={A,C}、R={A,G}。さらに、スプライシングコンセンサス位置を、2種に分類する:モデルに対するコンセンサスが100%必要とされる場合はI型;モデルに対するコンセンサスが、>50%の場合において保存される場合にはII型。おそらく、I型位置にあるSNP突然変異は、スプライシングを失敗させるのに対し、II型位置にあるSNPは、スプライシング事象の効率を低下させるだけとなる。
スプライシング部位突然変異に注釈を付けるためのプログラムロジックは、2つの部分を含む。パートIでは、インプット参照ゲノムからのモデル位置配列を含有するファイルを作成する。パート2では、配列決定プロジェクトからのSNPを、これらのモデル位置配列と比較し、任意のI型およびII型突然変異を報告する。プログラムロジックは、イントロン中心の代わりにエキソン中心である(ゲノムの構文解析における利便性のために)。所与のエキソンについて、その5’末端に、本発明者らは、コンセンサス「cAGg」を探す(位置−3、−2、−1、0について。0は、エキソンの開始を意味する)。大文字は、I型位置を意味し、小文字は、II型位置を意味する)。エキソンの3’末端では、コンセンサス「magGTrag」について探索を実施する(位置配列−3、−2、−1、0、1、2、3、4について)。これらの必要条件を確信させないゲノムリリースからのエキソンは、簡単に無視される(すべての場合の約5%)。これらのエキソンは、その他の小さいクラスのスプライシング部位コンセンサスに分類され、プログラムロジックによって調査されない。配列決定されたゲノムからの任意のSNPを、これらのゲノム位置でモデル配列と比較する。I型の任意のミスマッチが報告される。II型位置のミスマッチは、突然変異がコンセンサスから逸脱する場合に報告される。
上記のプログラムロジックは、悪いスプライシング部位突然変異の大部分を検出する。報告される悪いSNPは、確かに問題のあるものである。しかし、このプログラムによって検出されないスプライシングの問題を引き起こす多数のその他の悪いSNPがある。例えば、上記のコンセンサスを確信させないヒトゲノム内の多数のイントロンがある。また、イントロンの中央の二分枝点における突然変異も、スプライシングの問題を引き起こし得る。これらのスプライシング部位突然変異は報告されない。
転写因子結合部位(TFBS)に影響を及ぼすSNPの注釈。放出されたヒトゲノム配列(ビルド36またはビルド37のいずれか)からTFBSを見出すためにJASPARモデルが使用される。JASPAR Coreは、行列としてモデル化される、脊椎動物の130のTFBSの位置頻度データの収集物である(Bryne et al., Nucl. Acids Res. 36:D102-D106, 2008; Sandelin et al., Nucl. Acids Res. 23:D91-D94, 2004)。これらのモデルは、JASPARウェブサイト(http://jaspar.genereg.net/cgi-bin/jaspar_db.pl?rm=browse&db=core&tax_group=vertebrates)からダウンロードされる。これらのモデルは、ウェブサイトからダウンロードされる。これらのモデルは、以下の式を使用して位置重み行列(Position Weight Matrices)(PWM)に変換される:wi=log2[(fi+p Ni1/2)/(Ni+Ni1/2)/p](式中、fiは、位置Iの特定の塩基の観察された頻度であり;Niは、位置での総観察結果であり;pは、現在のヌクレオチドのバックグラウンド頻度であり、これは0.25をデフォルトする(bogdan.org.ua/2006/09/11/position-frequency-matrix-to-position-weight-matrix-pfm2pwm.html;Wasserman and Sandelin, Nature Reviews, Genetics 5:P276-287, 2004))。特定のプログラム、mast(meme.sdsc.edu/meme/mast-intro.html)は、TFBS部位についてゲノム内の配列セグメントを検索するために使用される。参照ゲノムにおいてTFBS部位を抽出するためにプログラムを実行した。工程の概略は以下のとおりである:(i)各遺伝子についてmRNAを用いて、ゲノムから推定TFBS含有領域を抽出し[−5000、1000]、0は、mRNA出発位置である。(ii)推定TFBS含有配列について、すべてのPWMモデルのmast検索を実行する。(iii)所与の閾値を超えるヒットを選択する。(iv)複数のまたは重複するヒットを有する領域について、1ヒットのみ、最高mast検索スコアを有するものを選択する。
適したコンピュータによって読み取り可能なメディアにおいて作製および/または保存された参照ゲノムからのTFBSモデルヒットを用いて、コンピューティングデバイスまたはそのコンピュータロジックによって、ヒット領域内に位置するSNPを同定できる。これらのSNPは、モデルおよびヒットスコアにおける変化に影響を与える。第2のプログラムは、SNPを含有するセグメントが、PWMモデルに2回、1回は参照のため、2回目はSNP置換を有するもののために遭遇するように、ヒットスコアにおけるこのような変化を計算するために書かれた。セグメントヒットスコアを、3を超えて低下させるSNPは、悪いSNPとして同定される。
2つの悪いSNPを有する遺伝子の選択。悪いSNPを有する遺伝子は、2つのカテゴリーに分類される:(1)転写されたAA−配列に影響を及ぼすものおよび(2)転写結合部位に影響を及ぼすもの。AA−配列に影響を及ぼすために、以下のSNPサブカテゴリーが含まれる:
(1)ナンセンスまたはノンストップ変異。これらの突然変異は、末端切断型タンパク質または拡張されたタンパク質のいずれかを引き起こす。いずれの状況でも、タンパク質産物の機能は、完全に失われているか、あまり効率的ではないかのいずれかである。
(2)スプライシング部位変異。これらの突然変異は、イントロンのスプライシング部位が破壊される(モデルによって特定のヌクレオチドの100%であることが必要とされる位置について)か、または大きく減少される(モデルによって特定のヌクレオチドの>50%であることが必要とされる部位について)ようにする。SNPは、スプライシング部位ヌクレオチドを、プライシング部位コンセンサス配列モデルによって予測されるようにコンセンサスの50%未満である別のヌクレオチドに突然変異させる。これらの突然変異は、末端切断型で、エキソンが失われている、またはタンパク質産物量が大きく減少しているタンパク質を製造する可能性が高い。
(3)AA変異のPolyphen2注釈。タンパク質のアミノ酸配列の変化を引き起こすが、その長さには変化を引き起こさないSNP、Polyphen2(Adzhubei et al., Nat. Methods 7:248-249, 2010)を、主要な注釈ツールとして使用した。Polyphen2は、SNPに「良性」、「未知」「損傷を与える可能性がある」および「おそらく損傷を与える」を用いて注釈をつける。「損傷を与える可能性がある」および「おそらく損傷を与える」は両方とも、「悪いSNP」として同定された。Polyphen2によって割り当てられるこれらのカテゴリーは、Polyphen2ソフトウェアの構造予測に基づいている。
転写結合部位突然変異のために、TFBS−結合部位のスクリーニングとして参照ゲノムに基づいてモデルのmaxScoreの75%を使用した。maxScoreの<=75%である領域中の任意のモデル−ヒットを除去する。残存するものについて、SNPが、ヒット−スコアを3以上低下させる場合には、有害なSNPと考えられる。
2つのクラスの遺伝子が報告される。クラス1遺伝子は、少なくとも2つの悪いAAに影響を及ぼす突然変異を有していたものである。これらの突然変異は単一対立遺伝子上のすべてである場合も(クラス1.1)、または2種の個別の対立遺伝子上に広がっている場合も(クラス1.2)ある。クラス2遺伝子は、クラス1セットの上位集合である。クラス2遺伝子は、AAに影響を及ぼすか、TFBS部位に影響を及ぼすかに関係なく、少なくとも2つの悪いSNPを含有する遺伝子である。しかし、必要条件は、少なくとも1つのSNPがAAに影響を及ぼすことである。クラス2遺伝子は、クラス1中にあるものか、または1つの有害なAA突然変異および1つまたは複数の有害なTFBSに影響を及ぼす変異を有するもののいずれかである。クラス2.1とは、すべてのこれらの有害な突然変異が、単一対立遺伝子からのものであることを意味するのに対し、クラス2.2とは、有害なSNPが2つの個別の対立遺伝子からのものであることを意味する。
前述の技術およびアルゴリズムは、所望により、配列決定に先立つLFR処理とともに複合核酸を配列決定するための方法(配列決定と組み合わせたLFRは、「LFR配列決定」と呼ばれることもある)に適用可能であり、これは、以下の通り詳細に記載される。複合核酸を配列決定するためのこのような方法は、コンピュータロジックを実行する、1種または複数のコンピューティングデバイスによって実施され得る。このようなロジックの一例として、Java、C++、Perl、Pythonならびに任意のその他の適した従来のおよび/またはオブジェクト指向のプログラミング言語などの任意の適したプログラミング言語で書かれたソフトウェアコードがある。1種または複数のコンピュータプロセスの形態で実行される場合には、このようなロジックは、永続的ストレージ上の種々の構造中に、および/または揮発性メモリに保存され得る構造化または非構造化データを読み、書きおよび/またはそうでなければ処理し得、このようなストレージ構造の例として、それだけには限らないが、ファイル、テーブル、データベース、レコード、アレイ、リスト、ベクター、変数、メモリおよび/またはプロセッサレジスタ、オブジェクト指向のクラスからインスタンスが作成される永続的および/またはメモリデータオブジェクトならびに任意のその他の適したデータ構造が挙げられる。
ロングリード配列決定における正確性の改善
特定のロングリード技術(例えば、ナノ細孔配列決定)を使用するDNA塩基配列決定法では、ロング(例えば、10〜100kb)リード長が利用可能であるが、一般に、高い偽陰性および偽陽性率を有する。このようなロングリード技術から得られた配列の最終正確性は、以下の一般的なプロセスに従ってハプロタイプ情報(完全または部分フェージング)を使用して大幅に増強され得る。
第1にコンピューティングデバイスまたはそのコンピュータロジックによって、リードを互いにアラインする。多数のヘテロ接合性コールが、重複中に存在すると予測される。例えば、200〜500kbの断片が最小10%重複する場合には、これは、>10kbの重複をもたらし、これはおおよそ、10のヘテロ接合性遺伝子座に翻訳され得る。あるいは、各ロングリードを参照ゲノムにアラインし、それによって、リードの複数のアラインメントが暗黙のうちに得られる。
複数のリードアラインメントが達成されると、重複領域が考慮され得る。重複は多数の(例えば、N=10)ヘテロ遺伝子座を含み得るという事実は、ヘテロの組み合わせを考慮するために利用され得る。このコンビナトリアル様式が、ハプロタイプについて可能性の大きな空間(4または4^N;N=10の場合には、4=約100万)をもたらす。N次元空間中のこれらの4点のうち、2点のみが、生物学的に実行可能な情報、すなわち、2つのハプロタイプに相当するものを含有すると予測される。言い換えると、4/2(ここで、1e6/2または約500,000)のノイズ抑制比を有する。実際には、特に、配列はすでにアラインされているので(したがって、よく似ている)、また、各遺伝子座は、普通、3以上の可能性ある塩基を保持しない(それが本当のヘテロである場合)ので、この4空間の多くが縮重している。結果として、この空間の下限は、実際には2(N=10である場合は、2=約1000)。したがって、ノイズ抑制比は、2/2(ここで、1000/2=500)のみとなり得るが、これでも依然として全く目覚しいものである。偽陽性および偽陰性の数が増えるにつれ、空間の大きさが2〜4に拡大し、これは、次に、より高いノイズ抑制比をもたらす。言い換えれば、ノイズが増えるにつれ、自動的により抑制される。したがって、アウトプット生成物は、極めて少量(むしろ一定の)のノイズしか保有しないと予測され、インプットノイズとはほとんど独立している。(代償は、よりノイズの多い条件における収率損失である。)もちろん、これらの抑制比は、(1)エラーが組織的である(またはその他のデータ特異性)、(2)アルゴリズムが最適ではない、(3)重複部分が短いまたは(4)カバレッジ重複性が小さい場合には変更される。Nは、1より大きい任意の整数、例えば、2、3、5、10またはそれ以上であり得る。
大きな初期エラー率を有し得るロングリード配列決定法の正確性を増大するために以下の方法が有用である。
第1に、コンピューティングデバイスまたはそのコンピュータロジックによって、2、3のリード、例えば、5つ以上のリード、例えば、10〜20のリードをアラインする。リードが約100kbであり、共有される重複は、10%であると仮定すると、これは、5つのリードにおいて10kbの重複をもたらす。また、1Kb毎にヘテロがあると仮定する。したがって、この共通領域中に合計10個のヘテロがある。
次に、コンピューティングデバイスまたはそのコンピュータロジックによって、部分(例えば、ちょうどゼロ以外のエレメント)または上記の10の候補へテロのα10可能性(ここで、αは、2〜4の間である)の全行列中が満たされる。一実施では、この行列のα10個のうち2個のみのセルが、高い密度であるはずである(例えば、予め決定され得るか、または動的であり得る閾値によって測定されるように)。これらは、真実のヘテロに対応するセルである。これら2個のセルは、実質的にノイズがない中心と考えられ得る。残りは、特に、エラーが組織的ではない場合には、ほとんど0、時々1メンバーシップを含有するはずである。エラーが組織的である場合には、クラスタリング事象があり得(例えば、ちょうど0または1よりも多くを有する第3のセル)、これは、タスクをより困難にする。しかし、この場合でさえ、偽クラスターのクラスターメンバーシップは、2つの予測されるクラスターのものよりも大幅に弱いはずである(例えば、絶対量または相対量によって測定されるように)。この場合における代償は、出発点が、アラインされたより多数の配列を含むはずであり、これは、より長いリードまたはより大きなカバレッジ重複性を有すること直接的に関連する。
上記の工程は、重複しているリードの間で2つの実行可能なクラスターが観察されると仮定する。多数の偽陽性については、これは、当てはまらない。この場合には、α次元空間、予測される2つのクラスターは不明確となる、すなわち、それらは、高密度を有する単一点である代わりに、対象とするセルの周囲のM個の点の不明確なクラスターとなり、ここで、対象とするこれらのセルは、クラスターの中心にあるノイズを含まない中心である。これによって、各リードにおいて正確な配列が表されていないという事実にもかかわらずクラスタリング法が予測された点の局所性を獲得することが可能となる。クラスター事象はまた、クラスターが不明確である(すなわち、3以上の中心があり得る)場合にも起こり得るが、上記と同様の方法で、スコア(例えば、クラスターのセルの総カウント)を使用して、2倍体生物の2つの真実のクラスターからより弱いクラスターを区別することができる。種々の領域について、本明細書に記載されるように、2つの真実のクラスターを使用して、コンティグを作製でき、コンティグを2つの群に対応させて、複合核酸の大きな領域についてハプロタイプを形成することができる。
最後に、コンピューティングデバイスまたはそのコンピュータロジック集団に基づく(既知)ハプロタイプを使用して、実際のクラスターの発見において信頼度を増大し、および/または追加の手引きを提供できる。この方法を可能にする方法は、観察された各ハプロタイプに重みを提供し、観察されていないハプロタイプに小さいがゼロではない値に提供することである。そうすることによって、対象とする集団において観察されている天然のハプロタイプに向けたバイアスを達成する。
未修正のエラーを有するタグ配列データを有するリードを使用すること
本明細書において論じられるように、本発明の一実施形態によれば、複合核酸のサンプルをいくつかのアリコート(例えば、マルチウェルプレート中のウェル)に分け、増幅し、断片化する。次いで、アリコート特異的タグを断片にライゲーションして、複合核酸の特定の断片が出自するアリコートを同定する。タグは、所望により、エラー修正コード、例えば、リード−ソロモンエラー修正(またはエラー検出)コードを含む。断片が配列決定される場合には、複合核酸配列のタグおよび断片の両方が配列決定される。タグ配列中にエラーがある場合には、断片が出自するアリコートを同定することまたはエラー修正コードを使用して配列を修正することは不可能であり、全リードが廃棄され、多くの配列データの喪失につながり得る。正しいおよび修正されたタグ配列データを含むリードは、正確性は高いが、収率が低く、一方、修正され得ないタグ配列データを含むリードは正確性は低いが収率は高い。代わりに、このような配列データを、特定のタグの特定のアリコートとの結合の同一性によって出自のアリコートを同定するための、このようなデータを必要とするもの以外のプロセスに使用する。正しい(または修正された)タグ配列データを有するリードを必要とするプロセスの例として、それだけには限らないが、サンプルまたはライブラリーマルチプレックス化、フェージングまたはエラー修正または正しい(または修正可能な)タグ配列を必要とする任意のその他のプロセスが挙げられる。修正され得ないタグ配列データを有するリードを使用し得るプロセスの例として、それだけには限らないが、マッピング、参照をベースとするおよび局所デノボアセンブリ、プールをベースとする統計学(例えば、対立遺伝子頻度、デノボ突然変異の位置など)を含めた任意のその他のプロセスが挙げられる。
ロングリードを仮想LFRに変換すること
LFRのために設計されるアルゴリズム(フェージングアルゴリズムを含む)は、ランダム仮想タグ(均一分布を有する)を、(10〜100kb)の長い断片の各々に割り当てることによってロングリードに使用できる。仮想タグは、各コードの真実の均一分布を可能にする利益を有する。LFRは、コードのプーリングにおける相違およびコードのデコーディング効率における相違のために、このレベルの均一性を達成できない。3:1(最大10:1)の割合は、LFRにおける任意の2種のコードの表現において容易に観察され得る。しかし、仮想LFRプロセスは、任意の2つのコードの間で真実の1:1比をもたらす。
複合核酸を配列決定する方法
概要
本発明の一態様によれば、複合核酸を配列決定する方法が提供される。本発明の特定の実施形態によれば、極めて少量のこのような複合核酸、例えば、1pg〜10ngを配列決定するための方法が提供される。増幅後でさえ、このような方法は、高いコールレートおよび正確性を特徴とするアセンブルされた配列をもたらす。その他の実施形態によれば、複合核酸の配列決定においてエラーを同定および排除するために、分注が使用される。別の実施形態によれば、LFRが複合核酸の配列決定に関連して使用される。
本発明の実施は、特に断りのない限り、当技術分野の技術の範囲内にある、有機化学、高分子技術、分子生物学(組換え技術を含む)、細胞生物学、生化学および免疫学の従来の技術および説明を使用し得る。このような従来の技術として、ポリマーアレイ合成、ハイブリダイゼーション、ライゲーションおよび標識を使用するハイブリダイゼーションの検出が挙げられる。適した技術の具体的な例示は、本明細書において以下の実施例を参照することによって行われ得る。しかし、その他の同等の従来の手順ももちろん使用され得る。このような従来の技術および説明は、Genome Analysis: A Laboratory Manual Series (Vols. I〜IV),、Using Antibodies: A Laboratory Manual,Cells: A Laboratory Manual、PCR Primer: A Laboratory ManualおよびMolecular Cloning: A Laboratory Manual (すべてCold Spring Harbor Laboratory Pressから)、Stryer, L. (1995) Biochemistry (4th Ed.) Freeman, New York, Gait, "Oligonucleotides Synthesis: A Practical Approach" 1984, IRL Press, London、Nelson and Cox (2000), Lehninger, Principles of Biochemistry 3rd Ed., W. H. Freeman Pub., New York, N.Y.およびBerg et al. (2002) Biochemistry, 5th Ed., W. H. Freeman Pub., New York, N.Y.などの標準実験マニュアルに見出すことができ、それらのすべてが、すべての目的について参照によりその全文が本明細書に組み込まれる。
本発明の組成物および方法を使用して、標的核酸を配列決定するための全体的な方法が本明細書に、および例えば、米国特許出願公開第2010/0105052号およびUS2007099208および米国特許出願第11/679,124号(US2009/0264299として公開された);同11/981,761号(US2009/0155781);同11/981,661号(US2009/0005252);同11/981,605号(US2009/0011943);同11/981,793号(US2009−0118488);同11/451,691号(US2007/0099208);同11/981,607号(US2008/0234136);同11/981,767号(US2009/0137404);同11/982,467号(US2009/0137414);同11/451,692号(US2007/0072208);同11/541,225号(US2010/0081128;同11/927,356号(US2008/0318796);同11/927,388号(US2009/0143235);同11/938,096号(US2008/0213771);同11/938,106号(US2008/0171331);同10/547,214号(US2007/0037152);同11/981,730号(US2009/0005259);同11/981,685号(US2009/0036316);同11/981,797号(US2009/0011416);同11/934,695号(US2009/0075343);同11/934,697号(US2009/0111705);同11/934,703号(US2009/0111706);同12/265,593号(US2009/0203551);同11/938,213号(US2009/0105961);同11/938,221号(US2008/0221832);同12/325,922号(US2009/0318304);同12/252,280号(US2009/0111115);同12/266,385号(US2009/0176652);同12/335,168号(US2009/0311691);同12/335,188号(US2009/0176234);同12/361,507号(US2009/0263802)、同11/981,804号(US2011/0004413);および同12/329,365号;公開国際特許出願番号WO2007120208、WO2006073504およびWO2007133831に記載され、それらのすべては、すべての目的について参照によりその全文が本明細書に組み込まれる。参照ポリヌクレオチド配列と比較されたポリヌクレオチド配列中の変異をコールするための例示的方法およびポリヌクレオチド配列アセンブリ(または再アセンブリ)のための例示的方法は、例えば、すべての目的のためにその全文が参照により本明細書に組み込まれる米国特許公報第2011−0004413号、(出願番号第12/770,089号)において提供されている。Drmanac et al., Science 327,78-81, 2010も参照のこと。"Identification Of Dna Fragments And Structural Variations"と題された同時係属関連出願番号第61/623,876号も、同様に、その全文が、すべての目的のために参照により組み込まれる。
本方法は、サンプルから標的核酸を抽出することおよび断片化することを含む。一般に、1種または複数のアダプターを含む標的核酸鋳型を製造するために、断片化された核酸が使用される。標的核酸鋳型は、増幅方法に付されて、普通、表面上に配置される核酸ナノボールを形成する。配列決定適用は、普通、コンビナトリアルプローブアンカーライゲーション(「cPAL」)法を含めたライゲーション技術によって配列決定することによって本発明の核酸ナノボール上で実施され、これは、以下にさらに詳細に記載される。本発明の核酸コンストラクト中に単一ヌクレオチド多型(「SNP」)を含むなどの特定の配列(核酸ナノボールならびに直鎖および環状核酸鋳型を含む)を検出するために、cPALおよびその他の配列決定法も使用され得る。上記で参照された特許出願およびDrmanac et al.による引用論文は、例えば、アダプター設計、環状ライブラリーコンストラクトを製造するためのゲノムDNA断片へのアダプターの挿入、DNAナノボール(DNB)を製造するためのこのようなライブラリーコンストラクトの増幅、固相支持体上でのDNBのアレイの製造、cPAL配列決定などを含めた核酸鋳型の調製に関するさらなる詳細な情報を提供し、これらは本明細書に開示された方法に関連して使用される。
本明細書において、用語「複合核酸」とは、同一でない核酸またはポリヌクレオチドの大きな集団を指す。特定の実施形態では、標的核酸は、ゲノムDNA;エキソームDNA(ゲノム中のエキソンのセットを含有する転写される配列が濃縮された全ゲノムDNAのサブセット);トランスクリプトーム(すなわち、細胞もしくは細胞集団中で製造されるすべてのmRNA転写物のセットまたはこのようなmRNAから製造されたcDNA)、メチローム(すなわち、ゲノム中のメチル化部位およびメチル化パターンの集団);ミクロビオーム;異なる生物のゲノムの混合物、ある生物の異なる細胞種のゲノムの混合物;および前述の種類の複合核酸のサブセットを含めた、多数の異なる核酸分子を含むその他の複合核酸混合物(例として、それだけには限らないが、ミクロビオーム、異種移植片、正常および腫瘍細胞の両方を含む固形腫瘍生検などが挙げられる)である。一実施形態では、このような複合核酸は、少なくとも1ギガベース(Gb)(2倍体ヒトゲノムは、およそ6Gbの配列を含む)を含む完全配列を有する。
複合核酸の限定されない例として、ヒト血液または限定されるものではないが、リンパ液、髄液、腹水、乳、尿、便および気管支肺胞洗浄を含めたその他の体液中を循環する核酸であり、例えば、細胞を含まない(CF)か、または細胞と結合している核酸のいずれかとして区別され得る(Pinzani et al.,Methods, 50:302-307, 2010に概説されている)「循環核酸」(CNA)、例えば、妊娠している母体の血流中の循環胎児細胞(例えば、Kavanagh et al., J. Chromatol. B 878:1905-1911, 2010参照のこと)または癌患者の血流からの循環腫瘍細胞(CTC)(例えば、Allard et al., Clin Cancer Res. 10:6897-6904, 2004参照のこと)が挙げられる。別の例として、例えば、生検などからの単一細胞または少数の細胞(例えば、胚盤胞の栄養外胚葉から切り取って調べられる胎児細胞;固形腫瘍の穿刺吸引からの癌細胞など)からのゲノムDNAがある。別の例として、組織中、血液またはその他の体液などの中の病原体、例えば、細菌細胞、ウイルスまたはその他の病原体がある。
本明細書において、用語「標的核酸」(またはポリヌクレオチド)または「対象とする核酸」とは、本明細書に記載される方法による処理および配列決定に適した任意の核酸(またはポリヌクレオチド)を指す。核酸は、一本鎖である場合も、二本鎖である場合もあり、DNA、RNAまたはその他の既知核酸を含み得る。標的核酸は、限定されるものではないが、ウイルス、細菌、酵母、植物、魚、爬虫類、両生類、鳥および哺乳類(それだけには限らないが、マウス、ラット、イヌ、ネコ、ヤギ、ヒツジ、ウシ、ウマ、ブタ、ウサギ、サルおよびその他の非ヒト霊長類およびヒトを含む)を含めた任意の生物のものであり得る。標的核酸は、1頭の個体から得たものであっても、または複数の個体(すなわち、集団)から得たものであってもよい。核酸が得られるサンプルは、細胞の混合物、または生物の混合物でさえよい、混合物からの核酸、ヒト細胞および細菌細胞を含むヒト唾液サンプル;マウス細胞と、翻訳されたヒト腫瘍からの細胞とを含むマウス異種移植片などを含有し得る。
標的核酸は、増幅されない場合も、当技術分野で公知の任意の適した核酸増幅法によって増幅される場合もある。標的核酸は、細胞性および細胞内夾雑物(脂質、タンパク質、炭水化物、配列決定されるべきもの以外の核酸など)を除去するために、当技術分野で公知の方法に従って精製される場合も、精製されない、すなわち、それだけには限らないが、処理および配列決定のために、その核酸を放出するよう破壊される無傷の細胞を含めた、少なくとも一部の細胞性および細胞内夾雑物を含む場合もある。標的核酸は、当技術分野で公知の方法を使用して任意の適したサンプルから得ることができる。このようなサンプルとして、それだけには限らないが、組織、単離細胞または細胞培養物、体液(それだけには限らないが、血液、尿、血清、リンパ、唾液、肛門および膣分泌物、汗および精液を含む);空気、農業、水および土壌サンプルなどが挙げられる。一態様では、本発明の核酸コンストラクトは、ゲノムDNAから形成される。
ショットガン配列決定では高カバレッジが望まれるが、これは、それが、ベースコーリングおよびアセンブリにおいてエラーを克服し得るからである。本明細書において、アセンブルされた配列中の任意の所与の位置について、用語「配列カバレッジ重複性」、「配列カバレッジ」または簡単に「カバレッジ」とは、その位置を表すリードの数を意味する。それは、元のゲノムの長さ(G)、リードの数(N)および平均読み取り長さ(L)からN×L/Gとして算出され得る。カバレッジはまた、各参照位置の塩基の集計を行うことによって直接算出され得る。全ゲノム配列について、カバレッジは、アセンブルされた配列中のすべての塩基の平均として表される。配列カバレッジは、塩基が読まれる(上記のように)回数の平均数である。例えば、最終のアセンブルされた配列中の各塩基が、平均40のリードで表されることを意味する「40×カバレッジ」におけるように、「倍カバレッジ」として表されることが多い。
本明細書において、用語「コールレート」は、例えば、参照ゲノムなどの適した参照配列を通常参照して、完全にコールされている複合核酸の塩基のパーセントの比較を意味する。したがって、全ヒトゲノムについては、「ゲノムコールレート」(または簡単に「コールレート」)は、全ヒトゲノム参照を参照して完全にコールされるヒトゲノムの塩基のパーセントである。「エキソームコールレート」は、エキソーム参照を参照して完全にコールされるエキソームの塩基のパーセントである。エキソーム配列は、配列決定に先立って、DNAサンプルから対象とするゲノム領域を選択的に捕獲する種々の公知の方法によって濃縮されているゲノムの一部を配列決定することによって得られ得る。あるいは、エキソーム配列は、エキソーム配列を含む全ヒトゲノムを配列決定することによって得られ得る。したがって、全ヒトゲノム配列は、「ゲノムコールレート」および「エキソームコールレート」の両方を有し得る。試みられた塩基の総数に対する、A/C/G/T指定を得る塩基の数を反映する「生リードコールレート」もある(時々、用語「カバレッジ」は、「コールレート」の代わりに使用されるが、意味は、文脈から明らかであろう)。
複合核酸の断片の調製
核酸単離。標的ゲノムDNAは、例えば、Sambrook and Russell, Molecular Cloning: A Laboratory Manual、前掲に開示されるような従来の技術を使用して単離される。いくつかの場合には、特に、特定の工程において少量のDNAが使用される場合には、少量のサンプルDNAのみが利用可能であり、例えば、容器壁などへの非特異的結合による喪失の危険がある場合にはいつも、サンプルDNAと混合され、使用される、担体DNA、例えば、非関連環状合成二本鎖DNAを提供することが有利である。
本発明のいくつかの実施形態によれば、ゲノムDNAまたはその他の複合核酸は、個々の細胞または少数の細胞から、精製を伴ってか、または伴わずに得られる。
LFRには長い断片が望ましい。ゲノム核酸の長い断片は、いくつかの異なる方法によって単離できる。一実施形態では、細胞を溶解し、無傷の核を穏やかな遠心分離工程によってペレットにする。次いで、ゲノムDNAを数時間のプロテイナーゼKおよびRNアーゼ消化によって放出させる。材料は、例えば、一定期間(すなわち、2〜16時間)の透析および/または希釈によって、残存する細胞性廃棄物の濃度を低下させるよう処理してもよい。このような方法は、多数の破壊的プロセス(エタノール沈殿法、遠心分離およびボルテックス処理など)を使用する必要がないので、ゲノム核酸は、大部分は無傷のままであり、150キロベースを超える長さを有する大部分の断片が得られる。いくつかの実施形態では、断片は、約5〜約750キロベースの長さである。さらなる実施形態では、断片は、約150〜約600、約200〜約500、約250〜約400および約300〜約350キロベースの長さである。LFRに使用され得る最小断片は、少なくとも2ヘテロ(およそ2〜5kb)を含有するものであり、出発核酸調製の操作に起因するせん断によって制限され得るが、最大の理論上の大きさはない。より大きな断片を生成する技術の結果、より少ないアリコートが必要となり、より短い断片をもたらすものは、より多くのアリコートを必要とし得る。
DNAを単離したら、個々のウェルに分注する前に、材料、特に、各断片の末端からの配列の喪失を避けるよう注意深く断片化するが、これはこのような材料の喪失が、最終ゲノムアセンブリにおいてギャップをもたらし得るからである。一実施形態では、配列喪失は、互いにおよそ100kbの距離でphi29ポリメラーゼなどのポリメラーゼの出発部位を作り出す、ニックを入れる頻度の低い酵素の使用によって避けられる。ポリメラーゼは、新規DNA鎖を作り出すので、それが古い鎖を置換して、ポリメラーゼ開始部位の付近に重複する配列を作り出す。結果として、配列の欠失は極めて少なくなる。
5’エキソヌクレアーゼの制御された使用(例えば、MDAによる増幅の前または増幅中)は、単細胞からの元のDNAの多重複製を促進し、したがってコピーをコピーすることによる初期エラーの増幅を最小にし得る。
その他の実施形態では、長いDNA断片が、例えば、アガロースゲルプラグ中のアガロース中、オイル中に細胞を単離することまたは特別にコーティングされたチューブおよびプレートを使用することを含めた容器に対するDNAのせん断または吸収を最小にする方法で単離および操作される。
いくつかの実施形態では、分注する前に単細胞から断片化されたDNAをさらに複製することは、アダプターを一本鎖プライミングオーバーハングとライゲーションすることおよびアダプター特異的プライマーおよびphi29ポリメラーゼを使用して、長い断片各々から2コピーを作製することによって達成され得る。これは、単細胞から4細胞の価値のあるDNAを作製し得る。
断片化。次いで、標的ゲノムDNAを、酵素消化、せん断または超音波処理を含めた従来の技術によって所望の大きさに分画するか、または断片化し、後者の2種は本発明において特に使用される。
標的核酸の断片の大きさは、使用される供給源標的核酸およびライブラリー構築法に応じて変わり得るが、標準的な全ゲノム配列決定については、このような断片は、通常、50〜600ヌクレオチドの長さの範囲である。別の実施形態では、断片は、300〜600または200〜2000ヌクレオチドの長さである。さらに別の実施形態では、断片は、10〜100、50〜100、50〜300、100〜200、200〜300、50〜400、100〜400、200〜400、300〜400、400〜500、400〜600、500〜600、50〜1000、100〜1000、200〜1000、300〜1000、400〜1000、500〜1000、600〜1000、700〜1000、700〜900、700〜800、800〜1000、900〜1000、1500〜2000、1750〜2000および50〜2000ヌクレオチドの長さである。LFRには、より長い断片が有用である。
さらなる実施形態では、特定の大きさまたは特定の範囲の大きさの断片が単離される。このような方法は、当技術分野で周知である。例えば、ゲル画分を使用して、例えば、500塩基対+50塩基対の、一定範囲の塩基対内の特定の大きさの断片の集団を製造することができる。
多くの場合には、溶解および抽出の際に生じたせん断力によって、所望の範囲の断片が生成するので、抽出されたDNAの酵素消化は必要ではない。さらなる実施形態では、制限エンドヌクレアーゼを使用する酵素的断片化によってより短い断片(1〜5kb)が作製され得る。なおさらなる実施形態では、約10〜約1,000,000ゲノムと同等のDNAが、断片の集団が全ゲノムに及ぶことを確実にする。重複する断片のこのような集団から作製された核酸鋳型を含有するライブラリーは、したがって、その配列が、同定され、アセンブルされると、全ゲノムの配列のほとんどまたはすべてを提供する標的核酸を含む。
本発明のいくつかの実施形態では、断片を調製するために、制御された無作為の酵素的(「CoRE」)断片化法が使用される。CoRE断片化は、酵素的エンドポイントアッセイであり、酵素的断片化の欠点(基質または酵素濃度の変異に対する感度および消化時間に対する感度を含む)の多くを伴わずに、酵素的断片化の利点(少量および/または小容積のDNAでそれを使用する能力など)を有する。
一態様では、本発明は、本明細書においてControlled Random Enzymatic(CoRE)断片化と呼ばれる断片化法を提供し、これは、単独または当技術分野で公知のその他の機械的および酵素的断片化法と組み合わせて使用され得る。CoRE断片化は、一連の3つの酵素的工程を含む。第1に、核酸は、増幅産物の両鎖中のTの位置の規定の、制御可能な割合での、dUTPまたはUTPの置換をもたらすよう、一定割合のデオキシウラシル(「dU」)またはウラシル(「U」)が添加されたdNTPの存在下で実施される増幅方法に付される。本発明のこの工程では、任意の適した増幅方法が使用され得る。特定の実施形態では、両鎖上の特定の点においてdUTPまたはUTP置換を有する増幅産物を作製するために、dTTPに対して規定の割合のdUTPまたはUTPが添加されたdNTPの存在下での多重置換増幅(MDA)が使用される。
ウラシル部分の増幅および挿入後、普通、UDG、EndoVIIIおよびT4PNKの組合せによってウラシルを切り出して、機能的5’リン酸および3’ヒドロキシル末端を有する単一塩基ギャップを作製する。MDA産物中のUの頻度によって規定される平均間隔で単一塩基ギャップが作製される。すなわち、dUTPの量が多いほど、得られる断片は短い。当業者には明らかであろうが、化学的にか、またはその他の酵素的に感受性の高いヌクレオチドなど、切断を同様にもたらし得る修飾されたヌクレオチドとのヌクレオチドの選択的置換をもたらすその他の技術も使用され得る。
ギャップのある核酸の、エキソヌクレアーゼ活性を有するポリメラーゼでの処理は、反対側の鎖上のニックが収束するまで、核酸の長さに沿ったニックの「翻訳」または「転位」をもたらし、それによって二本鎖の切断を作り出し、相対的に均一な大きさの二本鎖断片の相対的な集団が得られる。ポリメラーゼ(例えば、Taqポリメラーゼ)のエキソヌクレアーゼ活性は、ニックに隣接する短いDNA鎖を切り出し、一方で、ポリメラーゼ活性が、その鎖中のニックおよびその後のヌクレオチドを「埋める」(本質的に、Taqは鎖に沿って移動し、エキソヌクレアーゼ活性を使用して塩基を切り出、同一塩基を付加し、酵素が末端に到達するまでニックが鎖に沿って転位される結果となる)。
二本鎖断片の大きさ分布は、酵素処理の期間または程度によってというよりも、MDA反応において使用されたdUTPまたはUTPに対するdTTPの割合の結果であるので、このCoRE断片化法は、高い程度の断片化再現性を示し、すべて同様の大きさである二本鎖核酸断片の集団をもたらす。
断片末端修復および修飾。特定の実施形態では、断片化後、標的核酸をさらに修飾して、それらを本発明の方法のマルチプルアダプターの挿入のために準備する。
物理的断片化後、標的核酸は、高い頻度で、平滑末端およびオーバーハング末端の組合せならびに末端のリン酸およびヒドロキシル化学構造の組合せを有する。この実施形態では、標的核酸を、いくつかの酵素で処理して、特定の化学構造を有する平滑末端を作製する。一実施形態では、ポリメラーゼおよびdNTPを使用して、オーバーハングの任意の5’一本鎖を埋めて、平滑末端を作製する。3’エキソヌクレアーゼ活性を有するポリメラーゼ(常にではないが、一般には、5’活性のものと同一の酵素、例えば、T4ポリメラーゼ)を使用して、3’オーバーハングを除去する。適したポリメラーゼとして、それだけには限らないが、T4ポリメラーゼ、Taqポリメラーゼ、大腸菌(E.coli)DNAポリメラーゼ1、クレノウ断片、逆転写酵素、野生型phi29ポリメラーゼを含めたphi29関連ポリメラーゼおよびこのようなポリメラーゼの誘導体、T7 DNAポリメラーゼ、T5 DNAポリメラーゼ、RNAポリメラーゼが挙げられる。これらの技術を使用して、平滑末端を作製でき、これらはさまざまな適用において有用である。
さらなる任意選択の実施形態では、標的核酸が互いにライゲーションすることを避けるために末端の化学構造を変更する。例えば、ポリメラーゼに加えて、平滑末端を作製するプロセスにプロテインキナーゼを使用し、その3’ホスファターゼ活性を利用することによって、3’リン酸基をヒドロキシル基に変換してもよい。このようなキナーゼとして、それだけには限らないが、T4キナーゼなどの市販のキナーゼならびに市販されていないが、所望の活性を有するキナーゼを挙げることができる。
同様に、ホスファターゼを使用して、末端リン酸基をヒドロキシル基に変換してもよい。適したホスファターゼとして、それだけには限らないが、当技術分野で公知である、アルカリホスファターゼ(ウシ腸ホスファターゼを含む)、南極ホスファターゼ、アピラーゼ、ピロホスファターゼ、無機(酵母)熱安定性無機ピロホスファターゼなどが挙げられる。
これらの修飾は、本発明の方法の後の工程において標的核酸が互いにライゲーションすることを防ぎ、したがって、標的核酸の末端にアダプター(および/またはアダプターアーム)がライゲーションされる工程の間に、標的核酸がアダプターとライゲーションするがその他の標的核酸とはライゲーションしないことを確実にする。標的核酸は、所望の配向でアダプターにライゲーションされ得る。末端を修飾することによって、標的核酸が互いにライゲーションする、および/またはアダプターが互いにライゲーションするという望ましくない立体配置を避ける。各アダプター−標的核酸ライゲーションの配向はまた、アダプターおよび標的核酸両方の末端の化学構造の制御によって制御され得る。このような修飾は、未知立体配置でライゲーションしている種々の断片を含有する核酸鋳型の生成を防ぎ、ひいては、このような望ましくない鋳型から配列同定およびアセンブリにおいてエラーを低減および/または除去し得る。
DNAを断片化後に変性させて、一本鎖断片を製造してもよい。
増幅。一実施形態では、断片化後に(実際には、本明細書において概説された任意の工程の前または後)、断片化された核酸の集団に増幅工程を適用し、すべての断片の十分に高い濃度が、その後の工程に利用可能であるということを確実にすることができる。本発明の一実施形態によれば、本明細書に記載される方法によって配列決定するための十分な核酸を製造するために、このような複合核酸が増幅される、高等生物のものを含めた少量の複合核酸を配列決定するための方法が提供される。本明細書に記載される配列決定法は、十分な増幅を用いた出発材料と同等のゲノムの画分を用いた場合でさえ、高コールレートで高度に正確な配列を提供する。細胞は、およそ6.6ピコグラム(pg)のゲノムDNAを含むということは留意されたい。本発明の方法によって、ヒトなどの高等生物を含めた生物の単細胞または少数の細胞から得られた全ゲノムまたはその他の複合核酸を実施することができる。高等生物の複合核酸を配列決定することは、例えば、200ng、400ng、600ng、800ng、1μg、2μg、3μg、4μg、5μg、10μgまたはそれ以上の量の複合核酸を製造するよう当技術分野で公知の任意の核酸増幅法によって増幅される、1pg、5pg、10pg、30pg、50pg、100pgまたは1ngの複合核酸を出発材料として使用して達成できる。本発明者らはまた、GCバイアスを最小にする核酸増幅プロトコールを開示する。しかし、増幅およびその後のGCバイアスの必要性は、1個の細胞または少数の細胞を単離することと、それらを当技術分野で公知の適した培養条件下で十分な時間培養することと、出発細胞(単数または複数)の後代を配列決定のために使用することとによってさらに簡単に低減され得る。
このような増幅方法として、それだけには限らないが、多重置換増幅(MDA)、ポリメラーゼ連鎖反応(PCR)、ライゲーション鎖反応(オリゴヌクレオチドリガーゼ増幅OLAと呼ばれることもある)、サイクリングプローブ技術(cycling probe technology)(CPT)、鎖置換アッセイ(strand displacement assay)(SDA)、転写媒介性増幅(transcription mediated amplification)(TMA)、核酸配列をベースとする増幅(nucleic acid sequence based amplification)(NASBA)、ローリングサークル増幅(rolling circle amplification)(RCA)(環状化断片のための)および侵入的切断技術(invasive cleavage technology)が挙げられる。
増幅は、断片化後または本明細書に概説された任意の工程の前もしくは後に実施され得る。
GCバイアスが低減されたMDA増幅プロトコール。一態様では、本発明は、ライブラリー構築および配列決定に先立って、アリコートあたり約10MbのDNAが、出発DNAの量に応じて、例えば、およそ30,000倍に正確に増幅されるサンプルの調製の方法を提供する。
本発明のLFR法の一実施形態によれば、LFRは、ゲノム核酸、普通は、ゲノムDNAを5’エキソヌクレアーゼで処理して3’一本鎖オーバーハングを作製することで始まる。このような一本鎖オーバーハングは、MDA開始部位として働く。エキソヌクレアーゼの使用はまた、増幅の前の熱またはアルカリ変性工程の必要性を排除し、断片の集団にバイアスを導入しない。別の実施形態では、アルカリ変性を5’エキソヌクレアーゼ処理と組み合わせ、これは、いずれかの処理単独で見られるものよりも大きいバイアスの低減をもたらす。5’エキソヌクレアーゼを用いて、および所望により、アルカリ変性を用いて処理されたDNAを、次いで、サブゲノム濃度に希釈し、上記で論じたように、いくつかのアリコート中に分散させる。アリコート中、例えば、複数のウェル中に分離した後、各アリコート中の断片を増幅する。
一実施形態では、phi29に基づく多重置換増幅(MDA)を使用する。多数の研究によって、phi29に基づくMDAによって導入される、望まない増幅バイアス、バックグラウンド生成物形成およびキメラアーチファクトの範囲が調べられているが、これらの欠点(short comings)の多くは、増幅の極端な条件下(100万倍超)で起こった。一般に、LFRは、実質的に低いレベルの増幅を使用し、長いDNA断片(例えば、約100kb)を用いて出発し、効率的なMDAおよびより許容されるレベルの増幅バイアスおよびその他の増幅関連問題をもたらす。
本発明者らは、MDAと関連している問題を克服するために、プロトコールをさらに改善するために、種々の添加物(例えば、DNA修飾酵素、糖および/またはDMSOのような化学物質)を使用し、および/または、MDAの反応条件の異なる構成要素が低減されるか、増大されるか、または置換される改善されたMDAプロトコールを開発した。キメラを最小にするために、キメラ形成の一般的な機序であるDNA鎖を伸長するための不正確な鋳型として作用することから、置換された一本鎖DNAのアベイラビリティーを低減するよう試薬を含めてもよい。MDAによって導入されたカバレッジバイアスの主要な供給源は、GCリッチ対ATリッチ領域間の増幅における相違によって引き起こされる。これは、MDA反応において異なる試薬を使用することによって、および/またはプライマー濃度を調整して、ゲノムのすべての%のGC領域中を均一にプライムするための環境を作ることによって修正され得る。いくつかの実施形態では、MDAのプライミングにおいてランダムヘキサマーを使用する。その他の実施形態では、バイアスを低減するためにその他のプライマー設計が使用される。さらなる実施形態では、MDAの前またはその間の5’エキソヌクレアーゼの使用が、特に、長いセグメントの複製(すなわち、一部の癌細胞において)および複合リピートを特徴とする領域を配列決定するのに有用であるより長い(すなわち、200kb〜1Mb)断片を用いる場合に、低バイアスの上首尾のプライミングを開始するのに役立ち得る。
いくつかの実施形態では、10,000倍ほどにサンプルを調製するのに必要なMDA増幅ラウンド数を低減し、MDAに起因するバイアスおよびキメラ形成をさらに低減する、改善された、より効率的な断片化および連結工程が使用される。
いくつかの実施形態では、MDA反応は、CoRE断片化のための調製において、増幅産物中にウラシルを導入するよう設計される。いくつかの実施形態では、ランダムヘキサマーを使用する標準MDA反応を使用して、各ウェルにおいて断片を増幅する。あるいは、ランダム8マープライマーを使用して、断片の集団における増幅バイアス(例えば、GCバイアス)を低減してもよい。さらなる実施形態では、また、MDA反応にいくつかの異なる酵素を添加して、増幅のバイアスを低減してもよい。例えば、低濃度の非前進型5’エキソヌクレアーゼおよび/または一本鎖結合性タンパク質を使用して、8マーの結合部位を作製してもよい。ベタイン、DMSOおよびトレハロースなどの化学物質も、バイアスを低減するために使用できる。
各アリコート中の断片を増幅した後、増幅産物を、所望により、断片化の別のラウンドに付してもよい。いくつかの実施形態では、CoRE法を使用して、増幅後に各アリコート中の断片をさらに断片化する。このような実施形態では、各アリコート中の断片のMDA増幅は、MDA産物中にウラシルを組み込むよう設計される。MDA産物を含有する各アリコートを、ウラシルDNAグリコシラーゼ(UDG)と、DNAグリコシラーゼ−リアーゼエンドヌクレアーゼVIIIと、T4ポリヌクレオチドキナーゼとの混合物を用いて処理し、ウラシル塩基を切り出し、機能的5’リン酸および3’ヒドロキシル基を有する単一塩基ギャップを作製する。Taqポリメラーゼなどのポリメラーゼの使用によるニックトランスレーションは、二本鎖平滑末端切断をもたらし、MDA反応に添加されるdUTPの濃度に応じて一定の大きさの範囲のライゲーション可能な断片をもたらす。いくつかの実施形態では、使用されるCoRE法は、重合によってウラシルを除去することおよびphi29による鎖置換を含む。MDA産物の断片化はまた、超音波処理または酵素処理によって達成され得る。この実施形態において使用され得る酵素処理として、それだけには限らないが、DNアーゼI、T7エンドヌクレアーゼI、小球菌ヌクレアーゼなどが挙げられる。
MDA産物の断片化後、得られた断片の末端を修復してもよい。多数の断片化技術が、オーバーハング末端を有する末端ならびに3’および5’ヒドロキシル基ならびに/または3’および5’リン酸基などの後のライゲーション反応では有用ではない官能基を有する末端をもたらし得る。平滑末端を有するよう修復される断片を有することが有用であり得る。標的配列の「重合」を防ぐためにリン酸およびヒドロキシル基を付加または除去するよう末端を修飾することもまた望ましいことであり得る。例えば、ホスファターゼを使用して、すべての末端がヒドロキシル基を含有するようリン酸基を排除してもよい。次いで、各末端を、所望の成分間のライゲーションを可能にするよう選択的に変更してもよい。断片の一方の末端を、アルカリホスファターゼを用いる処理によって「活性化」してもよい。次いで、LFR法における同一アリコートから来た断片を同定するために、断片をアダプターでタグ付けしてもよい。
各アリコート中の断片のタグ付け。増幅後、各断片が出自するアリコートを同定するために、各アリコート中のDNAをタグ付けする。さらなる実施形態では、各アリコート中の増幅されたDNAを、さらに断片化し、その後、同一アリコートからの断片がすべて、同一タグを含むよう、アダプターでタグ付けする;例えば、参照により本明細書に組み込まれるUS2007/0072208参照のこと。
一実施形態によれば、アダプターは、2つのセグメントで設計される。1つのセグメントは、すべてのウェルに共通しており、本明細書においてさらに記載される方法を使用して、平滑末端が断片と直接ライゲーションする。「共通の」アダプターは、2つのアダプターアームとして付加される。一方のアームは、断片の5’末端とライゲーションされる平滑末端であり、もう一方のアームは、断片の3’末端とライゲーションされる平滑末端である。タギングアダプターの第2のセグメントは、各ウェルに独特である「バーコード」セグメントである。このバーコードは、一般に、独特の配列のヌクレオチドであり、特定のウェル中の各断片に、同一のバーコードが与えられる。したがって、すべてのウェルからのタグ付けされた断片が、配列決定適用のために再度組み合わされる場合に、同一ウェルからの断片が、バーコードアダプターの同定によって同定され得る。バーコードは、共通アダプターアームの5’末端にライゲーションされる。共通アダプターおよびバーコードアダプターは、断片に、逐次ライゲーションされても、同時にライゲーションされてもよい。本明細書においてさらに詳細に記載されるように、共通アダプターおよびバーコードアダプターの末端を、各アダプターセグメントが、正しい配向で、適切な分子とライゲーションするよう修飾してもよい。このような修飾は、断片が互いにライゲーションできないことおよびアダプターセグメントが唯一、示された配向でライゲーションできることを確実にすることによって、アダプターセグメントまたは断片の「重合」を防ぐ。
さらなる実施形態では、各ウェルにおいて断片をタグ付けするために使用されるアダプターに、3セグメント設計が使用される。この実施形態は、バーコードアダプターセグメントが2つのセグメントに分かれている点を除いて、上記のバーコードアダプター設計と同様である。この設計によって、異なるバーコードセグメントを一緒にライゲーションして、完全バーコードセグメントを形成することによって、コンビナトリアルバーコードアダプターセグメントが作製されるのを可能にすることによって、より広い範囲の可能性あるバーコードが可能となる。このコンビナトリアル設計は、作製されることを必要とするフルサイズバーコードアダプターの数を低減しながら、可能性あるバーコードアダプターのより大きなレパートリーを提供する。さらなる実施形態では、各アリコートの独特の同定は、8〜12塩基対のエラー補正バーコードを用いて達成される。いくつかの実施形態では、ウェルと同数(上記の限定されない例では、384および1536)のアダプターが使用される。さらなる実施形態では、アダプターを作製することと関連する費用が、2セットの40のハーフバーコードアダプターに基づく新規コンビナトリアルタギングアプローチによって低減される。
一実施形態では、ライブラリー構築は、2種の異なるアダプターを使用することを含む。AおよびBアダプターは、異なるハーフバーコード配列を各々が含有し、数千の組合せを生じるよう容易に修飾される。さらなる実施形態では、バーコード配列を同一アダプター上に組み込む。これは、Bアダプターを、各々が、ライゲーションに使用される共通の重複配列によって分けられたハーフバーコード配列を有する2つの部分に切断することによって達成できる。2つのタグ成分は、各々4〜6塩基を有する。8塩基(2×4塩基)タグセットは、65,000種のアリコートに独特にタグ付けすることができる。1個の追加の塩基(2×5塩基)によって、エラー検出が可能となり、リード−ソロモン設計を使用して10,000種以上のアリコートにおける実質的なエラー検出および修正を可能にするために、12塩基タグ(2×6塩基、1200万種の独特のバーコード配列)を設計してもよい(参照により本明細書に組み込まれる、US2010/0199155として公開された米国特許出願第12/697,995号)。2×5塩基および2×6塩基タグの両方とも、最適の解読効率を達成するために縮重塩基(すなわち、「ワイルドカード」)の使用を含み得る。
各ウェル中の断片をタグ付けした後、すべての断片を組合せるか、またはプールして、単一集団を形成する。次いで、これらの断片を使用して、配列決定のための核酸鋳型またはライブラリーコンストラクト作製してもよい。これらのタグ付けされた断片から作製された核酸鋳型は、各断片に付着しているバーコードタグアダプターによって、特定のウェルに属するとして同定可能となる。
ロングフラグメントリード(Long Fragment Read)(LFR)技術
概説
個体のヒトゲノムは、天然では2倍体であり、相同染色体の半分が各親に由来する。各個体染色体で変異が生じる状況は、ゲノムの遺伝子およびその他の転写領域の発現および調節に対して重大な影響を有し得る。さらに、遺伝子の一方または両方の対立遺伝子内で2つの潜在的に有害な突然変異が起こるかどうかを調べることは、最も臨床的に重要なことである。
全ゲノム配列決定のための現在の方法は、費用効率の高い方法で親染色体を別個にアセンブルする能力および変異が同時に生じる文脈(ハプロタイプ)を記述する能力を欠く。シミュレーション実験は、染色体レベルのハプロタイプ解析には、少なくとも70〜100kbの範囲にわたる対立遺伝子連鎖情報が必要であるということを示す。これは、長いDNA分子の均一な増幅が困難であることによるおよび配列決定における連鎖情報の喪失のために1000塩基未満のリードに制限される、増幅されたDNAを使用する既存の技術をもってしては達成され得ない。メイトペア技術は、延長されたリード長の同等物を提供し得るが、このようなDNAライブラリーの作製における非効率性のために(数kbより長い長さのDNAを環状化する困難さのために)10kb未満に制限される。このアプローチはまた、すべてのヘテロ接合体を連鎖させるのに極度のリードカバレッジを必要とする。
100kb超のDNA断片の単一分子配列決定は、そのような長い分子を処理することが実現可能であれば、単一分子配列決定の正確性が高ければ、検出/機器費用が低ければ、ハプロタイプ解析にとって有用である。これは、100kbの断片に関しては言うまでもなく、短い分子で高収率で達成することも極めて困難である。
最も最近のヒトゲノム配列決定は、数百ナノグラムのDNAで出発し、短いリード長(<200bp)、高度に並列処理されたシステムで実施された。これらの技術は、多量のデータを迅速に、経済的に作成することにおいて優れている。残念ながら、小さいメイト−ギャップサイズ(500bp〜10kb)と組み合わされることが多い短いリードは、数キロベースを超えるほとんどのSNPフェージング情報を排除する(McKernan et al., Genome Res. 19:1527,2009)。さらに、複数の処理工程において、せん断の結果としての断片化を伴わずに長いDNA断片を維持することは極めて困難である。
現在のところ、3人のゲノム、すなわち、J.Craig Venterによるもの(Levy et al., PLoS Biol. 5:e254, 2007)である、グジャラート系インド人(HapMapサンプルNA20847;Kitzman et al., Nat. Biotechnol. 29:59, 2011)および2人のヨーロッパ人(Max Planck One[MP1];Suk et al., Genome Res., 2011; genome.cshlp.org/content/early/2011/09/02/gr.125047.111.full.pdf;およびHapMapサンプルNA12878;Duitama et al., Nucl. Acids Res. 40:2041-2053, 2012)が配列決定され、2倍体としてアセンブルされている。すべてが、ヒト参照ゲノムの構築の際に使用された細菌人工染色体(BAC)配列決定と同様のプロセス(Venter et al., Science 291:1304, 2001; Lander et al., Nature 409:860, 2001)で長いDNA断片をコンストラクト中にクローニングすることを含んでいた。これらのプロセスは、長いフェージングされたコンティグを作製するが(350kb[Levy et al., PLoS Biol. 5:e254, 2007]、386kb[Kitzman et al., Nat. Biotechnol. 29:59-63, 2011]および1Mb[Suk et al., Genome Res. 21:1672-1685, 2011]のN50)、それらは、多量の初期DNA、大規模なライブラリー処理を必要とし、日常的な臨床環境において使用するには費用がかかりすぎる。
さらに、全染色体ハプロタイプ解析は、分裂中期染色体の直接単離によって実証されている(Zhang et al., Nat. Genet. 38:382-387, 2006; Ma et al., Nat. Methods 7:299-301, 2010; Fan et al., Nat. Biotechnol. 29:51-57, 2011; Yang et al., Proc. Natl. Acad. Sci. USA 108:12-17, 2011)。これらの方法は、長い範囲のハプロタイプ解析にとっては優れているが、全ゲノム配列決定にはまだ使用されておらず、全分裂中期染色体の調製および単離を必要とし、これは、一部の臨床サンプルにとっては、挑戦的なものであり得る。
LFR法は、これらの制限を克服する。LFRは、DNA調製およびタギングを含み、関連アルゴリズムおよびソフトウェアとともに、大幅に低減された実験および計算費用で、2倍体ゲノムにおける親染色体の分離された配列の正確なアセンブリ(すなわち、完全ハプロタイプ解析)を可能にする。
LFRは、母方および父方成分の両方のゲノムの任意の所与の領域が、同一アリコート中に表される可能性が低いような、多数の異なるアリコートにわたるゲノムDNA(またはその他の核酸)の長い断片の物理的分離に基づいている。各アリコート中に独特の識別子を入れることおよび多数のアリコートを集合体中で解析することによって、DNA配列データを2倍体ゲノムにアセンブルすることができる、例えば、各親の染色体の配列を決定することができる。LFRは、大断片(例えば、BAC)ライブラリーを使用するハプロタイプ解析アプローチにおけるように、複合核酸の断片をベクターにクローニングすることを必要としない。LFRは、生物の個々の染色体の直接単離も必要としない。最後に、LFRは、個体生物で実施でき、ハプロタイプフェージングを達成するために生物の集団を必要としない。
本明細書において、用語「ベクター」とは、外来DNAの断片が挿入されるプラスミドまたはウイルスベクターを意味する。ベクターは、外来DNAを、適した宿主細胞に導入するために使用され、ここで、ベクターおよび挿入された外来DNAは、例えば、機能的複製起点または自立複製配列がベクター中に存在するために複製する。本明細書において、用語「クローニング」とは、DNAの断片のベクターへの挿入および適した宿主細胞における挿入された外来DNAを有するベクターの複製を指す。
LFRは、本明細書において詳細に論じられた配列決定法と一緒に、より一般には、短リード法および長リード法の両方を含めた当技術分野で公知の任意の配列決定技術とともの前処理法として使用され得る。LFRはまた、例えば、トランスクリプトーム、メチロームなどの解析を含めた種々の種類の解析とともに使用され得る。極めて少ないインプットDNAしか必要としないので、LFRは、1個または少数の細胞の配列決定およびハプロタイプ解析に使用され得、これは、癌、出生前診断および個人化医療にとって特に重要であり得る。これは、家族性遺伝病の同定などを容易にし得る。2倍体サンプルにおいて2セットの染色体からのコールを区別することを可能にすることで、LFRはまた、低カバレッジでの、変異体および非変異体位置の高信頼性コーリングを可能にする。LFRのさらなる適用は、癌ゲノムにおける大規模な再構成の解明および代替スプライシング転写物の全長配列決定を含む。
LFRは、このような複合核酸のせん断および過度の断片化を伴わずに、このような複合核酸を放出するために穏やかに破壊される、細胞および組織を含む、精製されているか、またはされていない、それだけには限らないが、ゲノムDNAを含めた複合核酸を処理および解析するために使用され得る。
一態様では、LFRは、およそ100〜1000kbの長さの仮想リード長をもたらす。
さらに、LFRはまた、任意の短リード技術の計算の要求および関連費用を著しく低減し得る。重要なことに、LFRは、それが全体の収率を低減する場合には、延長配列決定リード長の必要性を除去する。LFRのさらなる利益は、現在の配列決定技術に起因し得るエラーまたは疑わしいベースコール、普通、100kbに1つまたはヒトゲノムあたり30,000の偽陽性およびヒトゲノムあたり同様の数の未検出変異体の相当な(10〜1000倍)低減である。このエラーの著しい低減によって、検出された変異体のフォローアップ確認の必要性が最小化され、診断適用のためのヒトゲノム配列決定の採用が促進される。
すべての配列決定プラットフォームに適用され得ることに加え、LFRをベースとする配列決定は、それだけには限らないが、癌ゲノムにおける構造転位の研究、メチル化部位のハプロタイプを含めた全メチローム解析および植物において見られるもののような複雑な倍数体ゲノムでさえの、メタゲノミクスまたは新規ゲノム配列決定のためのデノボアセンブリ適用を含めた任意の適用に適用され得る。
LFRは、親のまたは関連する染色体のまさにコンセンサス配列に対立するものとして(その高い類似性および長い反復配列の存在およびセグメント複製にもかかわらず)個々の染色体の実際の配列を生成する能力を提供する。この種のデータを作製するためには、一般に、100kb〜1Mbなどの長いDNA範囲にわたって配列の連続性が確立される。
本発明のさらなる態様は、全染色体ハプロタイプおよび構造変異マッピングおよびヒトゲノムあたり300未満のエラーに修正する偽陽性/陰性エラーのLFRデータを効率的に使用するためのソフトウェアおよびアルゴリズムを含む。
さらなる態様において、本発明のLFR技術は、各アリコート中のDNAの複雑性を、使用されるアリコートおよび細胞の数に応じて100〜1000倍低減する。>100kbの長さのDNAにおける複雑性低減およびハプロタイプ分離は、より効率的な、費用効率のよい(費用において最大100倍の低減)アセンブルにおいて役立ち、ヒトおよびその他の2倍体ゲノムにおけるその他のすべての変異を検出し得る。
本明細書に記載されるLFR法は、当技術分野で公知の任意の配列決定法を使用して2倍体ゲノムを配列決定するための前処理工程として使用できる。さらなる実施形態では、本明細書に記載されるLFR法が、例えば、それだけには限らないが、合成によるポリメラーゼベースの配列決定(例えば、HiSeq 2500系、Illumina,San Diego,CA)、ライゲーションベースの配列決定(例えば、SOLiD 5500、Life Technologies Corporation,Carlsbad,CA)、イオン半導体配列決定(例えば、Ion PGMまたはIon Proton sequencers,Life Technologies Corporation,Carlsbad,CA)、ゼロモード導波管(例えば、PacBio RS sequencer、Pacific Biosciences,Menlo Park,CA)、ナノ細孔配列決定(例えば、Oxford Nanopore Technologies Ltd.,Oxford,United Kingdom)、ピロ配列決定(例えば、454 Life Sciences,Branford,CT)またはその他の配列決定技術を含めた任意の数の配列決定プラットフォームで使用され得る。これらの配列決定技術のうち一部は、短リード技術であるが、その他のものは、長いリード、例えば、GS FLX+(454 Life Sciences;最大1000bp)、PacBio RS(Pacific Biosciences; およそ1000bp)およびナノ細孔配列決定(Oxford Nanopore Technologies Ltd.;100kb)をもたらす。ハプロタイプフェージングには、より長いリードが有利であり、これは、かなり少ない計算しか必要としないが、高いエラー率を有する傾向があり、このような長いリード中のエラーは、ハプロタイプフェージングの前に本明細書に示される方法に従って同定され、修正される必要があり得る。
本発明の一実施形態によれば、LFRの基本工程は、(1)複合核酸(例えば、ゲノムDNA)の長い断片を、各アリコートがゲノムに相当するDNAの画分を含有するアリコートに分離することと、(2)各アリコート中のゲノム断片を増幅することと、(3)増幅されたゲノム断片を断片化して、ライブラリー構築に適した大きさの短い断片(一実施形態では、例えば、約500塩基の長さ)を作製することと、(4)短い断片にタグ付けして、短い断片が出自するアリコートの同定を可能にすることと、(5)タグ付けされた断片をプールすることと、(6)プールされた、タグ付けされた断片を配列決定することと、(7)得られた配列データを解析して、データをマッピングおよびアセンブルし、ハプロタイプ情報を得ることとを含む。一実施形態によれば、LFRは、各ウェル中にハプロイドゲノムの10〜20%を有する384ウェルプレートを使用し、各断片の母方および父方対立遺伝子両方の理論上19〜38×の物理的カバレッジが得られる。19〜38×の初期DNA重複性によって、完全ゲノムカバレッジおよび高い変異体コーリングおよびフェージング正確性が確実になる。LFRは、複合核酸の断片のベクターへのサブクローニングまたは個々の染色体(例えば、分裂中期染色体)を単離する必要性を回避し、十分に自動化され得、そのためにハイスループットの費用効率の高い適用に適したものになる。
本発明者らはまた、エラー低減および本明細書に詳述したようなその他の目的のために、LFRを使用するための技術を開発した。LFR法は、すべて、参照によりその全文が本明細書に組み込まれる、米国特許出願第12/816,365号、同12/329,365号、同12/266,385号および同12/265,593号において、また米国特許第7,906,285号、同7,901,891号および同7,709,197号において開示されている。
本明細書において、用語「ハプロタイプ」とは、一緒に伝達される染色体上の隣接位置(遺伝子座)の対立遺伝子の組合せ、あるいは、統計学的に関連している染色体対の単一染色体上の1セットの配列変異体を意味する。どのヒト個体も、2セットの染色体を有し、一方は父方であり、もう一方は母方である。普通、DNA塩基配列決定法は、遺伝子型情報、DNAのセグメントにそって正しく並べられていない対立遺伝子の配列のみをもたらす。遺伝子型のハプロタイプを推測することによって、正しく並べられていない対各々中の対立遺伝子が、各々、ハプロタイプと呼ばれる2つの別個の配列に分離される。ハプロタイプ情報は、疾患関連研究を含めた多数の異なる種類の遺伝子解析にとって必要であり、これによって、集団祖先に関して推測される。
本明細書において、用語「フェージング」(または解明)とは、配列データを2セットの親染色体またはハプロタイプに分類することを意味する。ハプロタイプフェージングとは、インプットとして、いくつかの個体の1セットの遺伝子型を受け取り、各個体の、一方が父方であり、もう一方が母方である1対のハプロタイプをアウトプットするという問題を指す。フェージングは、配列データをゲノムの一定領域またはリードまたはコンティグ中のわずか2種の配列変異体にわたって解明することを含み得、これは、局所フェージングまたはマイクロフェージングと呼ばれることもある。一般に、約10種を超える配列変異体またはさらに全ゲノム配列さえも含む長いコンティグのフェージングも含む場合があり、これは、「ユニバーサルフェージング」と呼ばれ得る。所望により、配列変異体のフェージングは、ゲノムアセンブリの間に行われる。
複合核酸のゲノム相当物のアリコート画分
LFRプロセスは、各アリコートが、ハプロイドゲノムの画分を含有するような、多数のアリコートへの長い断片でのゲノムの確率論的物理的分離に基づいている。各プール中のゲノムの画分が減少するにつれ、同一プール中に両親の染色体からの対応する断片を有する統計的見込みは、著しく減少する。
いくつかの実施形態では、10%ゲノム相当物が、マルチウェルプレートの各ウェルに分注される。その他の実施形態では、複合核酸のゲノム相当物の1%〜50%が、各ウェル中に分注される。上記のように、アリコートおよびゲノム相当物の数は、アリコートの数、元の断片の大きさまたはその他の因子に応じて変わり得る。所望により、二本鎖核酸(例えば、ヒトゲノム)を変性させ、その後分注し、したがって、一本鎖相補体は、異なるアリコートに分配され得る。一実施形態によれば、各アリコートは、複合核酸の鎖の大多数の2、4、6またはそれ以上のコピー(または相補体)(二本鎖核酸が、分注の前に変性される場合には、2、4、6またはそれ以上の相補体)を含む。
例えば、アリコートあたり0.1ゲノム相当物(およそ0.66ピコグラムすなわちpgのDNA、ヒトゲノムあたりおよそ6.6pgで)で、2種の断片が重複する10%の機会およびそれらの断片が別個の親の染色体に由来する50%の機会があり、これは、アリコート中の塩基対の95%が重複していないこと、すなわち、特定のアリコートが、母方および父方染色体両方に由来する断片をアリコートが含有するので、所与の断片について役に立たないという全部で5%の機会をもたらす。役に立たないアリコートは、このようなアリコートに起因する配列データが、ヘテロの対間の連結性行列中に増大した量の「ノイズ」すなわち、不純物を含有するので、同定され得ない。ファジー推論システム(Fuzzy interference systems)(FIS)によって、特定の程度の不純物に対する頑強性が可能となる、すなわち、不純物にかかわらず正しい連結を行い得る(特定の程度まで)。より少量のゲノムDNAでさえ、特に、マイクロ−またはナノ液滴またはエマルジョンという状況で使用され得、これでは、各液滴は、1種のDNA断片(例えば、ゲノムDNAの単一の50kbの断片またはおよそ1.5×10−5ゲノム相当物)を含み得る。ゲノム相当物の50パーセントでさえ、アリコートの大部分が情報価値がある。高レベル、例えば、ゲノム相当物の70パーセントで、情報価値があるウェルが同定され、使用され得る。本発明の一態様によれば、複合核酸のゲノム相当物の0.000015、0.0001、0.001、0.01、0.1、1、5、10、15、20、25、40、50、60または70パーセントが、各アリコート中に存在する。
当然のことではあるが、希釈係数は、断片の元の大きさに応じて変わり得る。すなわち、ゲノムDNAを単離するための穏やかな技術を使用して、おおよそ100kbの断片を得ることができ、次いで、これを分注する。より大きな断片を可能にする技術は、より少ないアリコートの必要性をもたらし、より短い断片をもたらすものは、より多い希釈を必要とし得る。
本発明者らは、DNA精製を伴わない同一反応において6つの酵素的工程のすべてを成功裏に実施し、これは小型化および自動化を促進し、LFRをさまざまなプラットフォームおよびサンプル調製法に適応させることを実現可能にする。
一実施形態によれば、各アリコートは、マルチウェルプレート(例えば、384ウェルプレート)の別個のウェル中に含有される。しかし、当技術分野で公知の任意の適当な種類の容器またはシステムを使用してアリコートを保持してもよく、または本明細書に記載されるように、マイクロ液滴またはエマルジョンを使用してLFRプロセスを実施してもよい。本発明の一実施形態によれば、容積は、マイクロリットル未満のレベルに低減される。一実施形態では、自動化ピペッティングアプローチが、1536ウェル形式で使用され得る。
一般に、アリコートの数が、例えば1536に、増大するにつれ、ゲノムのパーセントは、ハプロイドゲノムのおよそ1%に低減し、同一ウェル中の母方および父方ハプロタイプの散在的存在が減少するので、ハプロタイプの統計的支持は著しく増大する。結果として、アリコートあたり自然な頻度の混合ハプロタイプを有する多数の小アリコートによって、より少ない細胞の使用が可能となる。同様に、より長い断片(例えば、300kbまたはそれ以上)は、ヘテロ接合性遺伝子座を欠くセグメントにまたがるのに役立つ。
50〜100nlの非接触ピペッティングを提供するナノリットル(nl)分配ツール(例えば、Hamilton Robotics Nano Pipetting head、TTP LabTech Mosquitoおよびその他のもの)を、迅速で低費用のピペッティングに使用して、10のゲノムライブラリーを並列にできる。アリコート数の増大(384ウェルプレートと比較して)は、各ウェル内のゲノムの複雑性の大きな低減をもたらし、計算の全体費用を10倍を超えて低減し、データの品質を高める。さらに、このプロセスの自動化は、スループットを増大し、ライブラリーの製造の実際的な費用を低下させる。
マイクロ液滴およびエマルジョンを含めたより少ないアリコート容積を使用するLFR
なおさらなる費用低減およびその他の利点は、マイクロ液滴を使用して達成され得る。いくつかの実施形態では、LFRは、エマルジョンまたはマイクロ流体デバイスにおいてコンビナトリアルタギングを用いて実施される。10,000アリコートにおけるピコリットルレベルへの容積の低減は、より少ない試薬および計算費用によってさらに大きな費用低減を達成し得る。
一実施形態では、LFRは、384ウェル形式においてウェルあたり10マイクロリットル(μl)容量の試薬を使用する。このような容積は、例えば、1536ウェル形式において市販の自動化ピペッティングアプローチを使用することによって低減され得る。さらなる容量低減は、50〜100nlの非接触ピペッティングを提供するナノリットル(nl)分配ツール(例えば、Hamilton Robotics Nano Pipetting head、TTP LabTech Mosquitoおよびその他のもの)を使用して達成され得、これを、数十のゲノムライブラリーを並行して作製するための迅速で低費用のピペッティングに用いることができる。アリコート数の増大は、各ウェル内のゲノムの複雑性の大きな低減をもたらし、計算の全体費用を低減し、データの品質を高める。さらに、このプロセスの自動化は、スループットを増大し、ライブラリーの製造の費用を低下させる。
さらなる実施形態では、各アリコートの独特の同定は、8〜12塩基対のエラー修正バーコードを用いて達成される。いくつかの実施形態では、ウェルと同数のアダプターが使用される。
さらなる実施形態では、新規コンビナトリアルタギングアプローチが、2セットの40のハーフバーコードアダプターに基づいて使用される。一実施形態では、ライブラリー構築は、2種の異なるアダプターを使用することを含む。AおよびBアダプターは、異なるハーフバーコード配列を各々が含有し、数千の組合せを生じるよう容易に修飾される。さらなる実施形態では、バーコード配列を同一アダプター上に組み込む。これは、Bアダプターを、各々が、ライゲーションに使用される共通の重複配列によって分けられたハーフバーコード配列を有する2つの部分に切断することによって達成できる。2つのタグ成分は、各々4〜6塩基を有する。8塩基(2×4塩基)タグセットは、65,000種のアリコートに独特にタグ付けすることができる。1個の追加の塩基(2×5塩基)によって、エラー検出が可能となり、リード−ソロモン設計を使用して10,000種以上のアリコートにおける実質的なエラー検出および修正を可能にするために、12塩基タグ(2×6塩基、1200万種の独特のバーコード配列)を設計してもよい。例示的実施形態では、2×5塩基および2×6塩基タグの両方とも、縮重塩基(すなわち、「ワイルドカード」)の使用を含み、最適の解読効率を達成するために使用される。
ピコリットルレベルへの容積の低減は(例えば、10,000アリコートにおける)、試薬および計算費用のさらに大きな低減を達成し得る。いくつかの実施形態では、このレベルの費用低減および大規模な分注は、LFRプロセスの、エマルジョンまたはマイクロ流体型デバイスへのコンビナトリアルタギングとの組合せによって達成される。DNA精製を伴わずに同一反応においてすべての酵素工程を実施する能力は、このプロセスを小型化および自動化する能力を促進し、さまざまなプラットフォームおよびサンプル調製法への適応性をもたらす。
一実施形態では、LFR法は、エマルジョン型デバイスとともに使用される。LFRをエマルジョン型デバイスに適応させるための第1の工程は、液滴あたり単一の独特のバーコードを有するコンビナトリアルバーコードタグ付けされたアダプターのエマルジョン試薬を調製することである。100のハーフバーコード2セットが、10,000アリコートを独特に同定するのに十分である。しかし、ハーフバーコードアダプターの数を300超に増大させると、同一組合せのバーコードを含有する任意の2種のアリコートの見込みが低い、サンプルDNAと組み合わされるバーコード液滴の無作為付加が可能となり得る。コンビナトリアルバーコードアダプター液滴は、数千のLFRライブラリーのための試薬として、単一チューブ中に作製され、保存され得る。
一実施形態では、本発明は、10,000〜100,000またはそれ以上のアリコートライブラリーに拡大される。さらなる実施形態では、LFR法は、最初のハーフバーコードアダプターの数を増大することによって、このようなスケールアップに適応される。次いで、これらのコンビナトリアルアダプター液滴は、ハプロイドゲノムの1%未満に相当するライゲーション準備のできたDNAを含有する液滴と1対1で融合される。液滴あたり1nlおよび10,000液滴の控えめな見積もりを使用して、これは、全LFRライブラリーについて10μlの総容量に相当する。
最近の研究はまた、増幅(例えば、MDAによる)後のGCバイアスの改善およびナノリットルサイズへの反応容積の低減によるバックグラウンド増幅の低減を示唆した。
現在、数種のマイクロ流体デバイス(例えば、Advanced Liquid Logic、Morrisville、NCによって販売されるデバイス)またはピコ/ナノ液滴作製、融合(3000/秒)および収集機能を有し、LFRのこのような実施形態において使用され得るピコ/ナノ液滴(例えば、RainDance Technologies、Lexington、MA)がある。その他の実施形態では、約10〜20ナノリットルの液滴を、改善されたナノピペッティングもしくは超音波液滴放出技術(例えば、LabCyte Inc.、Sunnyvale、CA)を使用して、または最大9216の個々の反応ウェルを操作できるマイクロ流体デバイス(例えば、Fluidigm、South San Francisco、CAによって製造されるもの)を使用して、3072〜6144形式(計算費用節約および少数の細胞からゲノムDNAを配列決定する能力を失わない、60μlの依然として費用効率の高い総MDA容量)またはそれ以上でプレート中またはガラススライド上に置く。アリコートの数を増大することは、各ウェル内のゲノムの複雑性の大きな低減をもたらし、計算の全体費用を低減し、データの品質を高める。さらに、このプロセスの自動化は、スループットを増大し、ライブラリーの製造の費用を低下させる。
増幅
一実施形態によれば、LFRプロセスは、ゲノムDNAの、5’エキソヌクレアーゼでの短い処理で始まり、3’一本鎖オーバーハングを作製し、これはMDA開始部位として働く。エキソヌクレアーゼの使用によって、増幅の前の熱またはアルカリ変性の必要性が排除され、バイアスを断片の集団に導入しない。アルカリ変性を、5’エキソヌクレアーゼ処理と組合せてもよく、これは、バイアスのさらなる低減をもたらす。次いで、DNAをゲノム濃度以下に希釈し、分注する。分注後、各ウェル中の断片を、例えば、MDA法を使用して増幅する。特定の実施形態では、MDA反応は、改変phi29ポリメラーゼをベースとする増幅反応であるが、別の既知増幅方法が使用される場合もある。
いくつかの実施形態では、MDA反応は、ウラシルを増幅産物中に導入するよう設計される。いくつかの実施形態では、ランダムヘキサマーを使用する標準MDA反応が使用されて、各ウェル中の断片を増幅する。多数の実施形態では、断片の集団において増幅バイアスを低減するために、ランダムヘキサマーよりも、ランダム8マープライマーが使用される。さらなる実施形態では、増幅のバイアスを低減するために、MDA反応にいくつかの異なる酵素も付加され得る。例えば、低濃度の非前進型5’エキソヌクレアーゼおよび/または一本鎖結合タンパク質を使用して、8マーの結合部位を作製してもよい。ベタイン、DMSOおよびトレハロースなどの化学物質も、同様の機序によってバイアスを低減するために使用できる。
断片化
一実施形態によれば、各ウェル中のDNAの増幅後、増幅産物を断片化のラウンドに付す。いくつかの実施形態では、増幅後、各ウェル中の断片をさらに断片化するために上記のCoRE法を使用する。CoRE法を使用するために、各ウェル中の断片を増幅するために使用されるMDA反応は、MDA産物中にウラシルを組み込むよう設計される。MDA産物の断片化はまた、超音波処理または酵素処理によって達成され得る。
MDA産物を断片化するためにCoRE法が使用される場合には、増幅されたDNAを含有する各ウェルを、ウラシルDNAグリコシラーゼ(UDG)と、DNAグリコシラーゼ−リアーゼエンドヌクレアーゼVIIIと、T4ポリヌクレオチドキナーゼとの混合物を用いて処理して、ウラシル塩基を切り出し、機能的5’リン酸および3’ヒドロキシル基を有する単一塩基ギャップを作製する。Taqポリメラーゼなどのポリメラーゼの使用によるニックトランスレーションは、二本鎖平滑末端切断をもたらし、MDA反応に添加されるdUTPの濃度に応じて一定の大きさの範囲のライゲーション可能な断片をもたらす。いくつかの実施形態では、使用されるCoRE法は、重合によってウラシルを除去することおよびphi29による鎖置換を含む。
MDA産物の断片化後、得られた断片の末端を修復してもよい。このような修復は、多数の断片化技術が、オーバーハング末端を有する末端ならびに3’および5’ヒドロキシル基ならびに/または3’および5’リン酸基などの後のライゲーション反応では有用ではない官能基を有する末端をもたらし得るので必要であり得る。本発明の多数の態様では、平滑末端を有するよう修復される断片を有することは、有用であり、いくつかの場合には、リン酸およびヒドロキシル基の正しい配向が存在せず、したがって、標的配列の「重合」を妨げるよう、末端の化学構造を変更することが望ましい場合もある。末端の化学構造にわたる制御は、当技術分野で公知の方法を使用して提供され得る。例えば、いくつかの状況では、すべての末端がヒドロキシル基を含有するよう、ホスファターゼの使用によって、すべてのリン酸基が排除される。次いで、各末端を、所望の成分間のライゲーションを可能にするよう選択的に変更してもよい。次いで、断片の一方の末端を、いくつかの実施形態では、アルカリホスファターゼを用いる処理によって「活性化」してもよい。
断片化後、および、所望により末端修復後、断片をアダプターでタグ付けする。
タグ付け
一般に、タグアダプターアームは、2つのセグメントで設計される。1つのセグメントは、すべてのウェルに共通しており、本明細書においてさらに記載される方法を使用して、平滑末端が断片と直接ライゲーションする。第2のセグメントは、各ウェルに独特であり、「バーコード」配列を含有し、その結果、各ウェルの内容物は組み合わされる場合に、各ウェルからの断片が同定され得る。
一実施形態によれば、「共通」アダプターは、2つのアダプターアームとして付加され、一方のアームは、断片の5’末端とライゲーションされる平滑末端であり、もう一方のアームは、断片の3’末端とライゲーションされる平滑末端である。タギングアダプターの第2のセグメントは、各ウェルに独特である「バーコード」セグメントである。このバーコードは、一般に、独特の配列のヌクレオチドであり、特定のウェル中の各断片には、同一バーコードが与えられる。したがって、すべてのウェルからのタグ付けされた断片が、配列決定適用のために再度組み合わされる場合に、同一ウェルからの断片が、バーコードアダプターの同定によって同定され得る。バーコードは、共通アダプターアームの5’末端にライゲーションされる。共通アダプターおよびバーコードアダプターは、断片に、逐次ライゲーションされても、同時にライゲーションされてもよい。共通アダプターおよびバーコードアダプターの末端を、各アダプターセグメントが、正しい配向で、適切な分子とライゲーションするよう修飾してもよい。このような修飾は、断片が互いにライゲーションできないことおよびアダプターセグメントが唯一、示された配向でライゲーションできることを確実にすることによって、アダプターセグメントまたは断片の「重合」を防ぐ。
さらなる実施形態では、各ウェルにおいて断片をタグ付けするために使用されるアダプターに、3セグメント設計が使用される。この実施形態は、バーコードアダプターセグメントが2つのセグメントに分かれている点を除いて、上記のバーコードアダプター設計と同様である。この設計によって、異なるバーコードセグメントを一緒にライゲーションして、完全バーコードセグメントを形成することによって、コンビナトリアルバーコードアダプターセグメントが作製されるのを可能にすることによって、より広い範囲の可能性あるバーコードが可能となる。このコンビナトリアル設計は、作製されることを必要とするフルサイズバーコードアダプターの数を低減しながら、可能性あるバーコードアダプターのより大きなレパートリーを提供する。
一実施形態によれば、各ウェル中の断片をタグ付けした後、すべての断片を組み合わせて、単一集団を形成する。次いで、これらの断片を使用して、配列決定のための本発明の核酸鋳型を作製できる。これらのタグ付けされた断片から作製された核酸鋳型は、各断片と結合しているバーコードタグアダプターによって、特定のウェルから出自したものと同定可能である。同様に、タグを配列決定する際、結合しているゲノム配列も、そのウェルから出自したものと同定可能である。
いくつかの実施形態では、本明細書に記載されるLFR法は、すべての目的について参照によりその全文が本明細書に組み込まれる2006年6月13日に出願された、米国特許出願第11/451,692号に記載されるように、複数のレベルまたは層の断片化/分注を含まない。すなわち、一部の実施形態は、単一ラウンドの分注のみを使用し、同様に、各アリコートのための別個のアレイを使用するのではなく、単一アレイのためにアリコートを再プールすることを可能にする。
複合核酸の供給源として1個または少数の細胞を使用するLFR
一実施形態によれば、個々の細胞または少数の細胞のゲノムを解析するために、LFR法が使用される。この場合においてDNAを単離するためのプロセスは、上記の方法と同様であるが、より少ない容量で起こり得る。
上記で論じたように、細胞からゲノム核酸の長い断片を単離することは、いくつかの異なる方法によって達成され得る。一実施形態では、細胞を溶解し、穏やかな遠心分離工程を用いて無傷の核をペレットにする。次いで、ゲノムDNAを、数時間のプロテイナーゼKおよびRNアーゼ消化によって放出させる。次いで、いくつかの実施形態では、この材料を、残存する細胞性廃棄物の濃度を低下させるよう処理してもよく、このような処理は、当技術分野で周知であり、それだけには限らないが、一定時間(例えば、2〜16時間)の透析および/または希釈を挙げることができる。核酸を単離するこのような方法は、多数の破壊的プロセス(エタノール沈殿、遠心分離およびボルテックス処理など)を含まず、ゲノム核酸は、大部分は無傷のままであり、150キロベースを超える長さを有する大部分の断片が得られる。いくつかの実施形態では、断片は、約100〜約750キロベースの長さである。さらなる実施形態では、断片は、約150〜約600、約200〜約500、約250〜約400および約300〜約350キロベースの長さである。
DNAを単離したら、個々のウェルに分注する前に、材料の喪失を避けるよう、特に、各断片の末端からの配列の喪失を避けるよう注意深く断片化されなければならないが、これは、このような材料の喪失が、最終ゲノムアセンブリにおいてギャップをもたらし得るからである。いくつかの場合には、配列喪失は、互いにおよそ100kbの距離でphi29ポリメラーゼなどのポリメラーゼの出発部位を作り出す、あまりニックを入れない酵素の使用によって避けられる。ポリメラーゼは、新規DNA鎖を作り出すので、それが古い鎖を置換して、最終結果としてポリメラーゼ開始部位の付近に重複する配列が存在し、その結果、配列の欠失は極めて少なくなる。
いくつかの実施形態では、5’エキソヌクレアーゼの制御された使用(MDA反応の前またはその間のいずれか)は、単細胞からの元のDNAの多重複製を促進し、従ってコピーをコピーすることによる初期エラーの増幅を最小にし得る。
一態様では、本発明の方法は、単細胞から高品質のゲノムデータをもたらす。DNAの喪失がないと仮定すると、多くの調製物から得られた相当な量のDNAを使用する代わりに少数の細胞(10個以下)の細胞で出発することは利点がある。10個未満の細胞で出発することおよび実質的にすべてのDNAを忠実に分注することによって、ゲノムの任意の所与の領域の長い断片中の均一なカバレッジが確実になる。5個以下の細胞で出発することによって、リードの総数を120Gb(6Gbの2倍体ゲノムの20倍のカバレッジ)を超えて増大せずに、各アリコート中の各100kbのDNA断片あたり4倍以上のカバレッジが可能となる。しかし、2、3個の細胞から配列決定するためには、多数のアリコート(10,000以上)およびより長いDNA断片(>200kb)が、さらにより重要であるが、これは、任意の所与の配列にとって、出発細胞数と同じだけ多数の重複断片があるだけであり、一アリコートにおける両親染色体からの重複断片の出現は、情報の壊滅的な喪失であり得るからである。
LFRは、出発インプットゲノムDNAに値する約10個のみの細胞で出発して優れた結果をもたらし、1個の単細胞でさえ、LFRを実施するのに十分なDNAを提供するのでこの問題によく適している。LFRにおける第1の工程は、一般に、低バイアスの全ゲノム増幅であり、これは、単細胞ゲノム解析において特に役立ち得る。取り扱いにおけるDNA鎖切断およびDNA喪失のために、単一分子配列決定法でさえ、単細胞からのある程度のDNA増幅を必要とする可能性が高い。単細胞を配列決定する困難さは、全ゲノムを増幅しようとすることから生じる。MDAを使用して細菌で実施された研究は、最終のアセンブルされた配列においてゲノムのおよそ半分の喪失に悩まされ、配列決定された領域にわたってカバレッジの相当高い量の変動があった。これは、ニックを有する初期ゲノムDNAおよび末端の複製され得ず、したがって、MDAプロセスの間、失われている鎖切断の結果として部分的に説明され得る。LFRは、MDAに先立ってゲノムの長い重複する断片を作製することによってこの問題に対する解決法を提供する。本発明の一実施形態によれば、これを達成するために、細胞からゲノムDNAを単離するために穏やかなプロセスが使用される。次いで、大部分は無傷のゲノムDNAを、高頻度でニックを入れるニッカーゼを用いて軽く処理し、その結果、半無作為にニックの入ったゲノムが得られる。次いで、phi29の鎖置換能を使用して、ニックから重合し、極めて長い(>200kb)の重複断片を作製する。次いで、これらの断片を、LFRの出発鋳型として使用する。
LFRを使用するメチル化解析
さらなる態様において、本発明の方法および組成物は、ゲノムメチル化解析に使用される。ゲノム全体のメチル化解析のために現在利用可能ないくつかの方法がある。1つの方法は、ゲノムDNAの重硫酸塩処理および反復エレメントまたはメチル化特異的制限酵素断片化によって得られたゲノムの画分を配列決定することを含む。この技術は、総メチル化に関する情報をもたらすが、遺伝子座特異的データは提供しない。次に高レベルの分解能は、DNAアレイを使用し、チップ上の特徴の数によって制限される。最後に、最高の分解能の、最も費用のかかるアプローチは、重硫酸塩処理と、それに続く全ゲノムの配列決定を必要とする。LFRを使用して、ゲノムのすべての塩基を配列決定し、ヒトゲノム中のシトシン位置ごとのメチル化のレベルに関するデジタル情報(すなわち、5塩基配列決定)を用いて完全な2倍体ゲノムをアセンブルすることが可能である。さらに、LFRによって、ハプロタイプを配列決定するために100kbまたはそれ以上のメチル化された配列が、連結されるのを防ぐことを可能にし、メチル化ハプロタイプ解析、現在利用可能であるいかなる方法をもってしても達成不可能である情報を提供する。
一つの制限されない例示的実施形態では、ゲノムDNAをまず分注し、MDAのために変性させる方法においてメチル化状態が得られる。次いで、DNAを、重硫酸塩を用いて処理する(変性DNAを必要とする工程)。残存する調製物は、例えば、2006年6月13日に出願された米国出願番号第11/451,692号および2008年12月15日に出願された同12/335,168号に記載される方法をたどり、それらは各々、すべての目的について、特に、ロングフラグメントリード技術の断片の混合物の核酸解析に関連するすべての技術について参照によりその全文が本明細書に組み込まれる。
一態様では、MDAは、リードの任意の所与のシトシン位置50%について、独立に、亜硫酸水素塩によって影響を受けていない(すなわち、シトシンの反対側の塩基、グアニンが重硫酸塩によって影響を受けていない)とし、50%がメチル化状態を提供する特定の断片の各鎖を増幅する。アリコートあたりのDNA複雑性の低減は、情報価値のあまりない、ほとんどが3塩基(A、T、G)のリードの正確なマッピングおよびアセンブリに役立つ。
亜硫酸水素塩処理は、DNAを断片化すると報告されている。しかし、変性および重硫酸塩バッファーの注意深い滴定によって、ゲノムDNAの過剰の断片化を避けることができる。LFRでは、シトシンのウラシルへの50%変換が許容され、DNAの亜硫酸水素塩への曝露の低減を可能にして、断片化を最小にすることができる。いくつかの実施形態では、分注後のある程度の断片化はハプロタイプ解析に影響を及ぼさないので許容される。
癌ゲノムの解析のためのLFRの使用
90%を超える癌が、異数性と呼ばれる、ヒトゲノムの領域において大幅な喪失または獲得を有するということが示唆されており、一部の個々の癌は、一部の染色体の4コピーを超えて含有すると観察されている。染色体および染色体内の領域のコピー数のこの増大した複雑性のために、癌ゲノムを配列決定することが実質的により困難になる。LFR技術の、ゲノムの極めて長い(>100kb)断片を配列決定し、アセンブルする能力は、それを完全癌ゲノムの配列決定によく適しているものにする。
複数のアリコートにおいて標的核酸を配列決定することによるエラー低減
一実施形態によれば、LFRに基づくフェージングが実施されず、標準配列決定アプローチが使用される場合さえ、標的核酸は、各々が一定量の標的核酸を含有する複数のアリコートに分けられる。各アリコートでは、標的核酸を断片化し(断片化が必要とされる場合には)、断片を、アリコート特異的タグ(またはタグのアリコート特異的セット)を用いてタグ付けし、その後増幅する。あるいは、組織サンプルを扱う場合には、1個または複数の細胞を、いくつかのアリコートの各々に分配し、その後、細胞破壊、断片化、アリコート特異的タグを用いて断片にタグ付けすることおよび増幅を行ってもよい。いずれの場合にも、各アリコートから増幅されたDNAを別個に配列決定することも、プールし、プール後に配列決定することもできる。このアプローチの利点は、増幅(各アリコートにおいて起こるその他の工程)の結果として導入されるエラーを同定し、修正できることである。例えば、配列データの特定の位置(例えば、参照に対して)のベースコール(例えば、A、C、GまたはTなどの特定の塩基を同定する)は、ベースコールが、2種以上のアリコート(またはその他の閾値数)からの配列データ中に、または予測されるアリコートの実質的過半数中に(例えば、少なくとも51、70または80パーセントに)存在する場合に真実と認められ得、これでは、分母は、特定の位置にベースコールを有するアリコートに制限され得る。ベースコールは、ヘテロまたは可能性あるヘテロの一方の対立遺伝子を変更することを含み得る。特定の位置のベースコールは、1種のみのアリコート(またはアリコートのその他の閾値数)において、またはアリコートの実質的少数において(例えば、10、5もしくは3アリコート未満、または20もしくは10パーセントなどの相対的数字を用いた尺度として)存在する場合には、偽と認められ得る。閾値は、予め決定してもよく、または配列決定データに基づいて動的に決定してもよい。特定の位置のベースコールは、予測されるアリコートの実質的少数において、および実質的過半数において(例えば、40〜60パーセントにおいて)存在しない場合に、「コールなし」と変換され/認められ得る。いくつかの実施形態および実装では、何がアリコートの実質的少数または実質的過半数と考慮され得るかを特性決定するために、種々のパラメータ(例えば、分布、確率および/またはその他の関数または統計における)が使用され得る。このようなパラメータの例として、それだけには限らないが、特定の塩基を同定するベースコールの数、特定の位置のコールされた塩基カバレッジまたは総数、特定のベースコールを含む配列データを生じさせた個別のアリコートの数および/または同一性、特定の位置に少なくとも1つのベースコールを含む配列データを生じさせた個別のアリコートの総数、特定の位置の参照塩基などのうち1種または複数が挙げられる。一実施形態では、特定のベースコールについての上記のパラメータの組合せは、特定のベースコールのスコア(例えば、確率)を決定するための関数へのインプットであり得る。スコアは、ベースコールが認められる(例えば、閾値を上回る)、エラーである(例えば、閾値を下回る)、またはコールなしである(例えば、ベースコールのスコアのすべてが閾値を下回る場合)かどうかを決定する一部として、1種または複数の閾値に対して比較できる。ベースコールの決定は、その他のベースコールのスコアに応じて変わり得る。
1つの基本例として、Aのベースコールが、対象とする位置のリードを含有するアリコートの35%超(スコアの一例)において見られ、Cのベースコールが、これらのアリコートの35%超において見られ、その他のベースコールが各々、20%未満のスコアを有する場合には、その位置は、AおよびCからなるヘテロと考えられ得、おそらくは、その他の判定基準(例えば、対象とする位置のリードを含有するアリコートの最小数)の影響を受ける。したがって、各スコアは、別の関数(例えば、比較またはファジーロジックを使用し得る発見法)へのインプットであり、位置のベースコール(単数または複数)の最終決定を提供し得る。
別の例として、ベースコールを含有する特定の数のアリコートを、閾値として使用してもよい。例えば、癌サンプルを解析する場合、低有病率体細胞突然変異があり得る。このような場合には、ベースコールは、その位置をカバーする10%未満のアリコートにおいて現れ得るが、ベースコールは、依然として正しいと考えられ得、おそらくは、その他の判定基準の影響を受ける。したがって、種々の実施形態は、絶対数または相対数または両方(例えば、比較またはファジーロジックへのインプットとして)を使用し得る。また、アリコートのこのような数は、関数(上記の)へのインプットならびに各数に対応する閾値であり得、関数はスコアを提供し得、これも1種または複数の閾値と比較して特定の位置のベースコールについて最終決定できる。
エラー修正関数のさらなる例は、生リード中のエラーを配列決定することに関し、これはその他の変異体コールおよびそのハプロタイプと一致しない推定変異体コールにつながる。それぞれのハプロタイプに属する9および8アリコート中に変異体Aの20リードが見られ、6ウェル中に変異体Gの7リードが見られる(そのうち5または6が、A−リードを有するアリコートと共有される)場合には、2倍体ゲノムについては、各ハプロタイプの位置に1種の変異体のみが存在し得るので、ロジックは変異体Gを配列決定エラーとして拒絶し得る。変異体Aは、実質的により多くのリードで支持され、G−リードは、A−リードのアリコートに実質的に追随し、このことは、それらがAの代わりにGを間違って読むことによって生じる可能性が最も高いことを示す。Gリードは、ほぼ例外なく、Aとは別のアリコートにあり、このことは、G−リードが間違ってマッピングされていることおよびそれらが混入DNAから来たことを示し得る。
ショートタンデムリピートを有する領域中の拡大を同定すること
DNA中のショートタンデムリピート(STR)は、強い周期パターンを有するDNAのセグメントである。STRは、2以上のヌクレオチドのパターンが反復され、反復配列が互いに直接隣接する場合に生じ、リピートは、完全である場合も、不完全である場合もある、すなわち、周期的モチーフと対応しない2、3の塩基対があり得る。パターンは、一般に、2〜5塩基対(bp)の範囲の長さである。STRは、通常、非コード領域中、例えば、イントロン中に位置する。ショートタンデムリピート多型(STRP)は、相同STR遺伝子座が、個体間のリピート数の点で異なる場合に生じる。STR解析は、法医学的目的で遺伝子プロフィールの決定のために使用されることが多い。遺伝子のエキソン中に生じるSTRはヒト疾患と結びついている超可変領域を表し得る(Madsen et al, BMC Genomics 9:410, 2008)。
ヒトゲノム(その他の生物のゲノム)では、STRは、トリヌクレオチドリピート、例えば、CTGまたはCAGリピートを含む。トリヌクレオチドリピート拡大はまた、トリプレットリピート拡大としても知られ、DNA複製の際の翻訳スリップによって引き起こされ、ハンチントン病などのトリヌクレオチドリピート障害として分類される特定の疾患と関連している。一般に、拡大が大きいほど、疾患を引き起こし、疾患の重度を増大する可能性がより高い。この性質が、これらのリピートの拡大による、トリヌクレオチドリピート障害において見られる「表現促進」という特徴、すなわち、罹患家族の後に続く世代を通して疾患の発症の年齢の低下する傾向および症状の重度の増大する傾向をもたらす。トリヌクレオチドリピートの拡大の同定は、トリヌクレオチドリピート障害の発症の年齢および疾患進行の正確な予測にとって有用であり得る。
トリヌクレオチドリピートなどのSTRの拡大は、次世代配列決定法を使用して同定するのが困難であり得る。このような拡大は、ライブラリーにおいてマッピングされない、失われているか、または過小評価されて場合がある。LFRを使用して、STR領域における配列カバレッジの大幅な低下を確かめることが可能である。例えば、STRを有する領域は、このようなリピートを含まない領域と比較して低レベルのカバレッジを特徴的に有し、領域の拡大がある場合には、その領域においてカバレッジの大幅な低下があり、カバレッジ対ゲノム中の位置のプロットにおいて観察可能である。
図14は、罹患胚におけるCTGリピート拡大の検出の一例を示す。LFRを使用して、胚の親のハプロタイプを決定した。平均正規化クローンカバレッジ対位置のプロットにおいて、拡大されたCTGリピートを有するハプロタイプは、拡大領域を超えるDNBを有さないか、または極めて少数のDNBしか有さず、これが、領域中のカバレッジの低下につながる。低下はまた、両ハプロタイプの組み合わされた配列カバレッジにおいて検出され得る。しかし、1種のハプロタイプの低下は同定することはより困難であり得る。例えば、配列カバレッジが、平均で約20である場合には、拡大領域を有する領域は、罹患ハプロタイプが、拡大領域においてゼロカバレッジを有する場合には、例えば、10への大幅な低下を有する。したがって、50%の低下が起こる。しかし、2種のハプロタイプの配列カバレッジが比較される場合には、カバレッジは、正常ハプロタイプでは10であり、罹患ハプロタイプでは0であり、10の低下であるが、100%の全体のパーセンテージ低下である。または、組み合わされた配列カバレッジについて2:1である(正常対拡大領域におけるカバレッジ)相対量を解析できるが、無限またはゼロ(割合が形成される方法に応じて)である10:0(ハプロタイプ1対ハプロタイプ2)であり、したがって、大きな違いである。
配列データの診断的使用
本発明の方法を使用して作製された配列データは、さまざまな目的について有用である。実施形態によれば、本発明の配列決定法は、例えば、胚もしくは胎児の性別などの患者のまたは胚もしくは胎児の特徴もしくは医学的状態または例えば、嚢胞性繊維症、鎌形赤血球貧血、マルファン症候群、ハンチントン舞踏病およびヘモクロマトーシスまたは乳癌などの種々の癌を含めた、遺伝的成分を有する疾患の存在もしくは予後に関して情報価値がある、複合核酸の配列、例えば、全ゲノム配列中の配列変異を同定するために使用される。別の実施形態によれば、本発明の配列決定法は、患者(それだけには限らないが、胎児または胚を含む)からの1から20個の間の細胞で始まり、配列に基づいて患者の特徴を評価する配列情報を提供するために使用される。
癌診断法
全ゲノム配列決定は、疾患の遺伝的基礎の評価において価値あるツールである。遺伝的基礎があるいくつかの疾患、例えば、嚢胞性繊維症が知られている。
全ゲノム配列決定の1つの適用は、癌を理解することである。癌ゲノミクスに対する、次世代配列決定の最も重要な影響は、単一患者の対応する腫瘍および正常ゲノムならびに所与の癌の種類の複数の患者サンプルを、再配列決定し、解析し、比較する能力であった。全ゲノム配列決定を使用して、生殖系列感受性遺伝子座、体細胞単一ヌクレオチド多型(SNP)、小さい挿入および欠失(インデル)突然変異、コピー数変異(CNV)および構造変異体(SV)を含めた、配列変異の全範囲を考えることができる。
一般に、癌ゲノムは、体細胞ゲノム変更が上に重ねられた患者の生殖系列DNAからなる。配列決定によって同定される体細胞突然変異は、「ドライバー」または「パッセンジャー」突然変異のいずれかとして分類できる。いわゆるドライバー突然変異は、細胞に増殖または生存優位性を付与することによって、直接、腫瘍進行の一因となる突然変異である。パッセンジャー突然変異は、細胞分裂、DNA複製および修復におけるエラーの間に獲得された中立的体細胞突然変異を包含し、これらの突然変異は、細胞が表現型的に正常でありながら、または腫瘍性変化の兆候後に獲得される場合もある。
歴史的に、癌の分子機構を解明しようと試みられており、いくつかの「ドライバー」突然変異またはHER2/neu2などのバイオマーカーが同定されている。このような遺伝子に基づき、既知遺伝子変更を有する腫瘍を特異的に標的とするための治療計画が開発されている。このアプローチの最良に定義された例は、トラスツズマブ(ヘルセプチン)による乳癌細胞においてHER2/neuのターゲッティングである。しかし、癌は、単純な単一遺伝子疾患ではなく、代わりに、個体間で異なり得る遺伝子変更の組合せを特徴とする。結果として、ゲノムのこれらのさらなる混乱が、一部の薬物療法を、特定の個体にとって無効にし得る。
全ゲノム配列決定のための癌細胞は、全腫瘍の生検(少数の癌のマイクロ生検を含む)、患者の血流もしくはその他の体液から単離された癌細胞または当技術分野で公知の任意のその他の供給源から得ることができる。
着床前遺伝子診断
本発明の方法の1つの適用は、着床前遺伝子診断のためである。生まれた赤ちゃんの約2〜3%は、いくつかの種類の主要な先天性欠損症を有する。遺伝物質(染色体)の異常な分離によるいくつかの問題のリスクは、母体の年齢とともに増大する。約50%の確率で、これらの種類の問題は、ダウン症候群によるものであり、これは染色体21の3番目のコピーである(トリソミー21)。他の半分は、トリソミー、点突然変異、構造変異、コピー数変異などを含めた他の種類の染色体異常に起因する。これらの染色体の問題のうち多くは、重篤に罹患した赤ちゃんまたは出産まででさえ生存しない赤ちゃんとなる。
遺伝医学および(臨床)遺伝学では、着床前遺伝子診断(PGDまたはPIGD)(胚スクリーニングとしても知られる)とは、着床に先立って胚で、時には、受精に先立って卵母細胞でさえ実施される手順を指す。PGDは、両親が選択的妊娠中絶を避けることを可能にできる。用語着床前遺伝子スクリーニング(PGS)は、特定の疾患を探すのではなく、例えば、疾患につながり得る遺伝子状態によるリスクにある胚を同定するためにPGD技術を使用する手順を示すために使用される。受精の前に生殖細胞で実施される手順は、代わりに、卵母細胞選択または精子選択の方法と呼ばれ得るが、これらの方法および目的は、PGDと部分的に重複する。
着床前遺伝子プロファイリング(PGP)とは、妊娠の成功のために最大の機会を有すると思われる胚の選択を実施するための補助的生殖技術の方法である。母方年齢が高齢の女性のために、また繰り返しin vitro受精(IVF)に失敗した患者のために使用される場合には、PGPは、異数性、相互転座およびロバートソン型転座ならびに染色体逆位または欠失などのその他の異常などの染色体異常の検出のためのスクリーニングとして主に実施される。さらに、PGPは、種々の疾患状態を含めた特徴の遺伝子マーカーを調べることができる。PGPの使用の背後にある原理は、数的染色体異常によって、妊娠喪失のほとんどの症例が説明され、ヒト胚の多くの割合が異数体であるということが知られているので、正倍数体胚の選択的置換は、IVF治療の成功の機会を増大するはずであるということである。全ゲノム配列決定は、アレイ比較ゲノムハイブリダイゼーション(aCGH)、定量的PCRおよびSNPマイクロアレイのような包括的染色体解析法のこのような方法の代替法を提供する。全ゲノム配列決定全体は、例えば、単一塩基変化、挿入、欠失、構造変異およびコピー数変異に関する情報を提供し得る。
PGDは、種々の発生段階から得られた細胞で実施され得るので、生検手順はそれに応じて変わる。生検は、それだけには限らないが、未受精および受精卵母細胞(極体、PBについて)を含めたすべての着床前段階で、3日目卵割期胚(卵割球について)でおよび胚盤胞(栄養外胚葉細胞について)で実施され得る。
前述の発明の詳細な説明を考慮して、本発明の一態様によれば、生物(例えば、単一の、個体生物であろうと、2以上の個体を含む集団であろうと、ヒトなどの哺乳類)の複合核酸を配列決定するための方法が提供され、このような方法は、(a)複合核酸のサンプルを分注して、各アリコートが一定量の複合核酸を含む複数のアリコートを生成することと、(b)各アリコートからの一定量の複合核酸を配列決定して、各アリコートから1種または複数のリードを生成することと、(c)各アリコートからのリードをアセンブルして、70、75、80、85、90または95パーセントまたはそれ以上のコールレートで、メガベースあたり1、0.8、0.7、0.6、0.5、0.4、0.3、0.2、0.1、0.08、0.06、0.04以下またはそれより少ない偽の単一ヌクレオチド変異体を含む複合核酸のアセンブルされた配列を生成することとを含む。複合核酸が、哺乳類(例えば、ヒト)ゲノムである場合には、アセンブルされた配列は、所望により、70パーセントまたはそれ以上のゲノムコールレートおよび70、75、80、85、90または95パーセントまたはそれ以上のエキソームコールレートを有する。一実施形態によれば、複合核酸は、少なくとも1ギガベースを含む。
このような方法の一実施形態によれば、複合核酸は二本鎖であり、方法は、分注する前に二本鎖複合核酸の一本鎖を分離することを含む。
別の実施形態によれば、このような方法は、各アリコート中の複合核酸の量を断片化して、複合核酸の断片を生成することを含む。一実施形態によれば、このような方法は、各アリコート中の複合核酸の断片をアリコート特異的タグ(またはアリコートのセットに特異的なタグ)でタグ付けし、それによって、タグ付けされた断片が出自するアリコートが決定可能となることをさらに含む。一実施形態では、このようなタグは、例えば、それだけには限らないが、リード−ソロモンエラー修正コードを含めたエラー修正コードまたはエラー検出コードを含むタグを含むポリヌクレオチドである。
別の実施形態によれば、このような方法は、配列決定する前にアリコートをプールすることを含む。
このような方法の別の実施形態によれば、配列は、配列中の位一定位置におけるベースコールを含み、このような方法は、ベースコールが、2種以上のアリコートから出自するか、または2種以上のアリコートから出自する3種以上のリードから出自する場合に、ベースコールを真実と同定することを含む。
別の実施形態によれば、このような方法は、アセンブルされた配列において複数の配列変異体を同定することと、配列変異体をフェージングすることとを含む。
このような方法の別の実施形態によれば、複合核酸のサンプルは、生物の1〜20個の細胞、または精製されていても精製されていなくてもよい細胞から単離されたゲノムDNAを含む。別の実施形態によれば、サンプルは、1pg〜100ngの間、例えば、1pg、6pg、10pg、100pg、1ng、10ngもしくは100ngのゲノムDNA、または1pg〜1ngまたは1pg〜100pgまたは6pg〜100pgを含む。参照目的には、単一ヒト細胞は、およそ6.6pgのゲノムDNAを含有する。
別の実施形態によれば、このような方法は、各アリコート中の前記一定量の複合核酸を増幅することを含む。
このような方法の別の実施形態によれば、複合核酸は、ゲノム、エキソーム、トランスクリプトーム、メチローム、異なる生物のゲノムの混合物、ある生物の異なる細胞種のゲノムの混合物およびそのサブセットからなる群から選択される。
このような方法の別の実施形態によれば、アセンブルされた配列は、80x、70x、60x、50x、40x、30x、20x、10xまたは5xのカバレッジを有する。長いリードでは、低いカバレッジが使用され得る。
本発明の別の態様によれば、70パーセントまたはそれ以上のコールレートで、メガベースあたり1より少ない偽の単一ヌクレオチド変異体を含む、哺乳類の複合核酸のアセンブルされた配列が提供される。
本発明の別の態様によれば、(a)1pg〜10ngの複合核酸を含むサンプルを用意することと、(b)複合核酸を増幅して、増幅された核酸を生成することと、(c)増幅された核酸を配列決定して、複合核酸の少なくとも70パーセントのコールレートを有する配列を生成することとを含む、生物の複合核酸を配列決定するための方法が提供される。1つのこのような方法によれば、複合核酸は精製されていない。別の実施形態によれば、このような方法は、多重置換増幅(multiple displacement amplification)によって複合核酸を増幅することを含む。別の実施形態によれば、このような方法は、複合核酸を少なくとも10、100、1000、10,000または100,000倍またはそれ以上に増幅することを含む。このような方法の別の実施形態によれば、サンプルは、複合核酸を含む1〜20個の細胞(または細胞核)を含む。別の実施形態によれば、このような方法は、細胞(または核)を溶解することを含み、細胞は、複合核酸および細胞夾雑物を含み、細胞夾雑物の存在下で複合核酸を増幅することを含む。このような方法の別の実施形態によれば、細胞は、高等生物の血液からの循環非血液細胞である。このような方法の別の実施形態によれば、アセンブルされた配列は、70、75、80、85、90または95パーセントまたはそれ以上のコールレートを有する。このような方法の別の実施形態によれば、配列は、メガベースあたり、2、1、0.8、0.7、0.6、0.5、0.4、0.3、0.2、0.1、0.08、0.06、0.04またはそれより少ない偽の単一ヌクレオチド変異体を含む。別の実施形態によれば、このような方法は、サンプルを分注して、複数のアリコートを得、各アリコートは、一定量の複合核酸を含む、ことと、各アリコート中の前記量の複合核酸を増幅して、各アリコート中の増幅された核酸を生成することと、各アリコートからの増幅された核酸を配列決定して、各アリコートから1種または複数のリードを生成することと、リードをアセンブルして、配列を生成することとをさらに含む。別の実施形態によれば、このような方法は、各アリコート中の増幅された核酸を断片化して、各アリコート中の増幅された核酸の断片を生成することと、アリコート特異的タグを用いて各アリコート中の増幅された核酸の断片をタグ付けして、各アリコート中のタグ付けされた断片を生成することとをさらに含む。このような方法の別の実施形態によれば、配列の位置でのベースコールは、2種以上のアリコートからのリード中に、より厳しくは、2種以上のアリコートからのリード中に3回以上存在する場合に真実として認められる。別の実施形態によれば、このような方法は、生物の特徴(例えば、医学的状態)に関して情報価値がある配列中の配列変異を同定することをさらに含む。別の実施形態によれば、細胞は、それだけには限らないが、母体の血液からの胎児細胞を含めた高等生物の血液(またはその他のサンプル)からの循環非血液細胞および癌を有する患者の血液からの癌細胞である。本発明の別の実施形態によれば、複合核酸は、循環核酸(CNA)である。したがって、評価されるべき生物の特徴として、それだけには限らないが、癌の存在および癌に関する情報、生物が妊娠しているかどうか、妊娠個体によって保有される胎児に関する性別または遺伝情報が挙げられる。例えば、このような方法は、疾患の見込み、医療診断または予後などと相関している、単一塩基変異、挿入、欠失、コピー数変異、構造変異または再構成などを同定するのに有用である。本発明の別の実施形態によれば、(a)胚の約1〜20個の間の細胞を用意することと、(b)前記細胞のゲノムDNAを配列決定することによって生成される、少なくとも80パーセントのコールレートを有するアセンブルされた配列を得ることと、(c)アセンブルされた配列を参照配列と比較して、胚の遺伝子状態を評価することとを含む、胚の遺伝子状態(例えば、性別、父系性、遺伝子異常または疾病素因と関連している遺伝子型の有無など)を評価するための方法が提供される。例えば、このような方法は、疾患の見込み、医療診断または予後などと相関している、単一塩基変異、挿入、欠失、コピー数変異、構造変異または再構成などを同定するのに有用である。別の実施形態によれば、(a)胚の約1〜20個の間の細胞を用意することと、(b)前記細胞のゲノムDNAを配列決定することによって生成される、胚のゲノムの少なくとも80パーセントのコールレートを有するアセンブルされた配列を得ることと、(c)アセンブルされた配列を参照配列と比較して、胚の遺伝子状態を評価することとを含む、胚の遺伝子状態(例えば、性別、父系性、遺伝子異常または疾病素因と関連している遺伝子型の有無など)を評価するための方法が提供される。
本発明の別の態様によれば、アセンブルされた全ヒトゲノム配列が提供され、配列は、メガベースあたり1以下の偽の単一ヌクレオチド変異体および少なくとも70パーセントのコールレートを含み、配列は、1pg〜10ngの間のヒトゲノムDNAを配列決定することによって得られる。
本発明の別の態様によれば、複数の染色体を含む個体生物のゲノムの配列変異体をフェージングするための方法が提供され、方法は、(a)前記複数の染色体各々のベクターフリー断片の混合物を含むサンプルを用意することと、(b)ベクターフリー断片を配列決定して、複数の配列変異体を含むゲノム配列を得ることと、(c)配列変異体をフェージングすることとを含む。一実施形態によれば、このような方法は、配列変異体のうち少なくとも70、75、80、85、90または95パーセントまたはそれ以上をフェージングすることを含む。このような方法の別の実施形態によれば、ゲノム配列は、ゲノムの少なくとも70パーセントのコールレートを有する。このような方法の別の実施形態によれば、サンプルは、個体生物の1pg〜10ngのゲノム、または1〜20個の細胞を含む。このような方法の別の実施形態によれば、ゲノム配列は、メガベースあたり1より少ない偽の単一ヌクレオチド変異体を有する。
本発明の別の態様によれば、複数の染色体を含む個体生物のゲノムの配列変異体をフェージングするための方法が提供され、方法は、前記複数の染色体の断片を含むサンプルを用意することと、断片を配列決定して、断片をベクター中にクローニングせずに、複数の配列変異体を含む全ゲノム配列を生成することと、配列変異体をフェージングすることとを含む。このような方法の一実施形態によれば、配列変異体をフェージングすることは、全ゲノム配列のアセンブリの間に起こる。
DNA増幅方法の比較
着床前遺伝子診断(PGD)は、インビトロ(in vitro)受精(IVF)によって作製された胚(普通、サイクルあたり平均で10個)の、未来の母に移される前の遺伝子スクリーニングからなる出生前診断の形である。普通、母方年齢が高齢の女性(>34歳)または遺伝病が伝達されるリスクのあるカップルに適用される。遺伝子スクリーニングに使用される現在の技術として、蛍光in situハイブリダイゼーション(FISH)、競合ゲノムハイブリダイゼーション(CGH)、染色体異常の検出のためのアレイCGHおよびSNPアレイならびにPCRおよび遺伝子欠陥の検出のためのSNPアレイがある。単一遺伝子欠陥のためのPGDは、現在、各患者にとって独特の特注設計されたアッセイからなり、バックアップとして、また制御するため、および汚染をモニタリングするための連鎖解析を用いる特定の突然変異検出を含むことが多い。普通、1個の細胞を、発生の3日目の各胚から生検によって得、結果は5日目に与えられ、これは、胚が移植され得る最後である。胚盤胞(5日目胚)の栄養外胚葉から得られた3〜15個の細胞の生検からなる胚盤胞生検とそれに続く胚凍結が適用されるようになってきた。胚は、潜在力の大幅な喪失を伴わずに、無期限に凍結されたままであり得、これは、全ゲノム配列決定に適しており、生検がある場所で得られ、次いで、全ゲノム配列決定のために別の場所に移すことを可能にする。胚盤胞生検の全ゲノム配列決定は、この技術によって同定され得る単一遺伝子欠陥およびその他の遺伝子異常についての「ユニバーサル」PGD試験を可能にする。
従来の卵巣刺激および卵子回収後に、PGD試験における精子混入を避けるために、卵子を細胞質内精子注射(ICSI)によって受精させた。3日目まで成長させた後、胚を、微細ガラス針を使用して生検によって得、各胚から1個の細胞を回収した。各卵割球を清潔な試験管に個別に加え、分子等級のオイルで蓋をし、PGD実験室まで氷上で輸送した。サンプルを、遺伝子DMPK中のCTGリピート拡大の突然変異および2種の連鎖マーカーを増幅するよう設計された試験を使用して、到着後直ちに処理した。
臨床PGD試験および胚移植後、使用されなかった胚をIVF診療所に供与し、新規PGD試験様式の開発に使用した。8種の胚盤胞を供与し、これらの実験に使用した。
胚盤胞生検は、細胞あたりおよそ6.6ピコグラム(pg)のゲノムDNAを提供する。増幅によって、全ゲノム配列決定に十分なDNAが提供される。図15は、本発明者らのプロトコール(以下に記載される)を使用するMDAによる、1.031pg、8.25pgおよび66pgの精製ゲノムDNA標準およびPVP40の1個または10個の細胞の増幅の結果を示す。MDA反応は、特定の配列決定法に必要なDNAの量を得るために、必要な限り(例えば、30分から120分)行ってよい。増幅程度が大きいほど、より多くのGCバイアスが結果として生じることが予測される。
GCバイアスの導入を最小にしながら、全ゲノム配列解析に十分な品質の鋳型DNAを作製するための方法を同定するために、2つのDNA増幅方法を比較した。本発明者らは、本発明者らのプロトコールを、アレイCGHのためによく使用されるSurePlex増幅システム(Rubicon Genomics Inc.、Ann Arbor、Michigan)および改変MDAと比較した。
10〜20個の細胞の生検を、筋緊張性ジストロフィーのR−1MT突然変異の影響を受けた胚から入手した。サンプルを溶解し、DNAを単一試験管中で変性させ、次いで、本発明者らのプロトコールおよび製造業者の命令に従ってSurePlexキットを使用するMDAによって増幅した。両増幅方法によっておよそ2μgのDNAを作製した。全ゲノム配列解析に先立って、増幅されたサンプルを、ゲノム中に広がる96種の独立qPCRマーカーを用いてスクリーニングして、最も少ない量のバイアスを有するサンプルを選択した。図16は、結果を示す。手短には、本発明者らは、全プレートにわたる平均サイクル数を決定し、個々のマーカー各々からそれを差し引き、「Δサイクル」数を計算した。Δサイクルを、各マーカーの周囲の1000塩基対のGC含量に対してプロットして、各サンプルの相対GCバイアスを示した。サンプルの全体の「ノイズ」のを感じ取るために、各Δサイクルの絶対値を合計して、「Δの合計」測定値を作成した。低いデルタの合計およびGC含量に対するΔの相対的に平坦なプロッティングは、本発明者らの経験ではよく表された全ゲノム配列をもたらす。本発明者らのMDA法のΔの合計は、61であり、SurePlexによって増幅されたDNAについては287であり、これは、本発明者らのプロトコールが、SurePlexプロトコールよりもかなり少ないGCバイアスをもたらしたことを示す。
着床前遺伝子診断(PGD)において使用するための胚盤胞生検の完全ゲノム配列決定
本明細書に記載されるように、改変多重置換増幅(MDA)(Dean et al.(2002) Proc Natl Acad Sci U S A 99, 5261-5266)を使用して、全ゲノム配列解析にとって十分な鋳型DNA(およそ1μg)を作製した。手短には、5日齢の胚盤胞各々から5〜20個の細胞を単離し、凍結し、それらが単離された実験室からドライアイス上において輸送した。サンプルを解凍し、溶解して、ゲノムDNAを放出させた。ゲノムDNAを細胞夾雑物から精製せず、1μlの400 mM KOH/10mM EDTAの添加によってDNAをアルカリ変性させた。胚のゲノムDNAは、配列決定にとって十分な量のDNA(約1μg)を作製するためにphi29ポリメラーゼに基づく多重置換増幅(MDA)反応を使用して増幅した全ゲノムとした。アルカリ変性の1分後、変性DNAにチオ保護されたランダム8マーを添加した。2分後、混合物を中和し、50mM Tris−HCl(pH7.5)、10mM MgCl、10mM(NHSO、4mM DTT、250μM dNTP(USB、Cleveland、OH)および12ユニットのphi29ポリメラーゼ(Enzymatics、Beverly、MA)の最終濃度を含有するマスター混合物を添加して、100μlの総反応容量を作製した。MDA反応物を37℃で45分間インキュベートし、65℃で5分間不活化した。MDA反応によっておよそ2μgのDNAが作製された。次いで、この増幅されたDNAを断片化し、上記のようにライブラリー構築および配列決定に使用した。
筋緊張性ジストロフィー1型(DM1)は、筋緊張性ジストロフィープロテインキナーゼ(DMPK)をコードする遺伝子の3’−非翻訳領域におけるトリヌクレオチドリピート拡大、シトシン−チミン−グアニン(CTG)によって引き起こされる常染色体優性疾患である。本発明者は、DMPK CTGリピート領域中のクローンカバレッジを調べた。本明細書に記載された配列決定技術は、通常、約400bpに広がる35bpペアエンドリードをもたらす。罹患していない個体および1種の未知サンプルについては、400bpは、両対立遺伝子のこのCTGリピート領域に広がるのに十分であり、およそ2のコピー数をもたらす。罹患個体および1種の未知サンプルでは、約1のコピー数が観察され、これは、400bpのペアエンドには広がるのにリピート拡大が大きすぎることを示唆し、罹患していない対立遺伝子のみがこの領域においてカバレッジを有する。
以下の表1は、PGD胚サンプルのマッピングおよびアセンブリについての概略情報を提供する。すべての変異およびマッピング統計学は、全米バイオテクノロジー情報センター(NCBI)バージョン37ヒトゲノム参照アセンブリに関するものである。サンプル2A、5Bおよび5Cの増幅は、品質が悪く、その結果、コールされるゲノムが少なく、f同定されるSNPの総数が低減する。サンプル5Bおよび5Cは、同一胚から得られた別個の生検である。サンプルNA20502を、ライブラリー調製に先立って任意の増幅を伴わない標準手順に従って処理した。
図17は、2種のサンプル(7Cおよび10C)のゲノムカバレッジを示す。カバレッジを、ハプロイドゲノムカバレッジに対して正規化された100キロベースカバレッジウィンドウの10メガベース移動平均を使用してプロットした。コピー数1および3の破線は、それぞれ、ハプロイドおよび三倍体コピー数を表す。両胚とも男性であり、XおよびY染色体のハプロイドコピー数を有する。これらのサンプルでは、全染色体または染色体の大きなセグメントのその他の喪失または獲得は明らかではなかった。
85%のゲノムカバレッジを達成する最も不十分な実施のサンプルおよびゲノムの95%をカバーする最良のサンプル、数マイクログラムの精製された、増幅されていないヒトゲノムDNAを使用する上記の方法(「標準配列決定」)による標準全ゲノム配列決定法と同様のレベル。一般に、カバレッジは、標準配列決定と比較して「ノイジー」であったが、10メガベースの移動平均を使用することによって、全染色体および染色体アーム増幅および欠失の正確な検出が可能となる。本発明者らはまた、多数の多型が検出され得ることおよびDMPK突然変異を別として、特定の疾患の発症のリスクを胚盤胞移植選択に使用できることを実証する。
この実施例では、出発ゲノムDNAを過度に増幅して(必要なもののおよそ10倍)、十二分な量のゲノムDNAが配列決定に利用可能であることを確実にした。増幅の程度の低減は、配列カバレッジおよび配列決定品質を改善すると予測される。増幅はまた、生検組織(または癌生検またはニードル吸引物、胎児または血流から単離された癌細胞(単数または複数)など)といったその他の出発材料)が培養において増殖するのを可能にすることによって低減され得る。このアプローチは、プロセスの全体所要時間に幾分かを加える。しかし、少数の利用可能な細胞を培養することは、染色体複製の細胞プロセスにおいてゲノムDNAの高い忠実性の「増幅」をもたらす。
DMPK突然変異は、トリヌクレオチドリピート疾患であるので、約400bp長のメイトペアリードを使用する現在の配列決定法を使用して突然変異を解析することは困難である。より長いメイトペアリード(例えば、1キロベース以上)を使用して、これらの領域にわたって広がり、ひいては、配列決定してもよく、その結果、リピートの大きさが正確に決定される。
10〜20個のヒト細胞からの臨床上正確なゲノム配列決定およびハプロタイプ解析
この実施例では、長いヒトゲノムDNA(50% 60〜500kbの長さ)の65〜130pg(10〜20個の細胞)を、384のアリコートに分け、増幅し、断片化し、各アリコートにおいてタグ付けした。DNAクローニングまたは分裂中期染色体の分離を伴わずに、配列決定した後、2倍体(フェージングした)ゲノムをアセンブルした。10個のLFRライブラリーを使用して、7種の個別のゲノムから約3.3テラベース(Tb)のマッピングされたリードを作製した。最大97%のヘテロ接合性の単一ヌクレオチド変異体(SNV)をコンティグにアセンブルし、ここで、カバーされる塩基の50パーセント(N50)がヨーロッパ人民族性のサンプルについて約500kbまたアフリカ人サンプルについて約1Mbより長いコンティグになった。複製ライブラリー間の大規模比較では、LFRハプロタイプは、高度に正確であり、10メガベース(Mb)あたり1つの偽陽性SNVを有するとわかった。100ピコグラム(pg)のDNAでの出発および10,000倍のインビトロ増幅にもかかわらず、非LFRゲノムと比較して、正確性のこの20〜30倍の増大(Drmanac et al., Science 327:78, 2010; Roach et al., Am. J. Hum. Genet. 89:382-397, 2011)が達成されるが、これはほとんどのエラーが真実のハプロタイプとは一致しないからである。本発明者らは、10〜20個のヒト細胞からの、費用効率の高い、臨床上正確なゲノム配列決定およびハプロタイプ解析を実証した。
LFR技術は、臨床的に関連する費用およびスケールでの、別個の親染色体の完全な配列決定およびアセンブリを可能にする全分裂中期染色体のクローニングまたは単離を伴わない、費用効率の高いDNA前処理工程である。本発明者らは、上記に詳細に記載されるショートリード配列決定技術を使用したが、LFRは、任意の配列決定法の前の前処理工程としての使用のために適応され得る。
LFRは、長い範囲でフェージングされたSNPを作製できるが、これは、それが10〜1000kbの長さの断片の単一分子配列決定と概念上同様であるからである。これは、フォスミドクローンの分注と同様に、任意のDNAクローニング工程を伴わない、対応する親のDNA断片の物理的に個別のプールへの確率論的分離と、それに続いて断片化して、より短い断片を作製することとによって達成される(Kitzman et al., Nat. Biotechnol. 29:59-63, 2011; Suk et al., Genome Res. 21:1672-1685, 2011)。各プールへのゲノムの分画が、ハプロイドゲノムよりも少なく低減するので、同一プール中に両親染色体からの対応する断片を有する統計的見込みは、著しく減少する。同様に、より多くの個々のプールが調べられるほど、母方および父方相同体からの断片が別個のプールにおいて解析される回数は多い。
例えば、各ウェルに0.1ゲノム相当物を有する384ウェルプレートは、各断片の母方および父方対立遺伝子の理論上19×カバレッジをもたらす。約19×というこのような高い初期DNA重複性は、約3×(Kitzman et al., Nat. Biotechnol 29:59-63, 2011)〜約6×(Suk et al., Genome Res. 21:1672-1685, 2011)の範囲のカバレッジをもたらすフォスミドプールを使用する戦略を使用して達成されるものよりも完全なゲノムカバレッジおよび高い変異体コーリングおよびフェージング正確性をもたらす。
ハイスループット法でLFRライブラリーを調製するために、本発明者らは、同一の384ウェルプレートにおいて、すべてLFR特異的工程を実施する自動化プロセスを開発した。以下は、プロセスの概観である。第1に、改変されたphi29に基づく多重置換増幅(MDA;Dean et al., Proc. Natl. Acad. Sci. U.S.A. 99:5261, 2002)を使用する高度均一な増幅を実施して、各断片を約10,000倍複製する。次いで、介在する精製工程を伴わない各ウェル内での酵素工程のプロセスによって、DNAを断片し、バーコードアダプターとライゲーションする。手短には、長いDNA分子を、制御されたランダムな酵素による断片化(Controlled Random Enzymatic fragmenting)(CoRE)によって処理して、平滑末端の300〜1,500bpの断片にする。CoREは、ウラシルDNAグリコシラーゼおよびエンドヌクレアーゼIVによってMDAの際に所定の頻度で組み込まれているウリジン塩基を除去することによってDNAを断片化する。大腸菌(E.coli)ポリメラーゼ1を用いた、得られた単一塩基ギャップからのニックトランスレーションは、断片を分解し、平滑末端を作製する。次いで、各バーコードの配列および濃度の相違によって引き起こされる任意のバイアスを低減するよう設計されている(図18)、独特の10塩基リード−ソロモンエラー修正バーコードアダプター(参照により本明細書に組み込まれる、WO2010/091107として公開されたPCT/US2010/023083)を、高収率、低キメラ形成プロトコール(Drmanac et al., Science 327:78, 2010)を使用して各ウェル中の断片化されたDNAにライゲーションする。最後に、すべて384のウェルを組み合わせ、ライゲーションされたアダプターに共通のプライマーを使用する不飽和ポリメラーゼ連鎖反応を使用して、ショートリード配列決定プラットフォームに十分な鋳型を作製する。以下は、本発明者らが使用したLFRプロトコールに関するより詳細を提供する。
高分子量DNAを、RecoverEase DNA単離キット(Agilent,La Jolla,CA)を製造業者のプロトコールに従って使用して細胞系統GM12877、GM12878、GM12885、GM12886、GM12891、GM12892 GM19240およびGM20431(Coriell Institute for Medical Research,Camden,NJ)から精製した。高分子量DNAを部分的にせん断して、Rainin P1000ピペットを使用するピペッティング20〜40回による操作により従うようにする。0.5×TBEバッファーを用いる1%アガロースゲル上で、BioRad CHEF−DR IIを以下のパラメータ:6V/cm、50〜90秒の傾斜を付けたスイッチ時間および合計20時間の実行とともに使用して、200ngのゲノムDNAを解析した。500ngの酵母染色体PFGマーカー(New England Biolabs,Ipswich,MA)およびラムダラダーPFGマーカー(New England Biolabs,Ipswich,MA)を使用して、精製ゲノムDNAの長さを決定した。
さらに、不死化細胞株GM19240(Coriell Institute for Medical Research,Camden,NJ)を、細胞培養の標準環境条件下で10% FBSを補給したRPMIにおいて増殖させた。個々の細胞を、ミクロマニピュレーター(Eppendorf,Hamburg,Germany)を用いて200倍の倍率下で単離し、10ulのdHOを有する1.5mlのマイクロチューブ中に入れた。1ulの20mM KOHおよび0.5mM EDTAを用いて細胞を変性させた。次いで、変性細胞をLFRプロセスに入れた。
種々の細胞株の各々からのDNAを希釈し、20mM KOHおよび0.5mM EDTAの溶液中、50pg/ulの濃度で変性させた。室温で1分インキュベートした後、120pgの変性DNAを回収し、32ulの1mM 3’チオ保護ランダムオクタマー(IDT,Coralville,IA)に加えた。2分後、混合物をdH2Oで400ulの容量にし、1ulを384ウェルプレートの各ウェルに分配した。各ウェルに1μlの2×phi29ポリメラーゼ(Enzymatics Inc.,Beverly,MA)に基づく多重置換増幅(MDA)混合物を加えて、およそ3〜10ナノグラムのDNA(10,000〜25,000倍の増幅)を作製した。MDA反応物は、50mM Tris−HCl(pH 7.5)、10mM MgCl、10mM (NHSO、4mM DTT、250μM dNTP(USB,Cleveland,OH)、10μMの2’−デオキシウリジン5’−トリホスフェート(dUTP)(USB,Cleveland,OH)および0.25ユニットのphi29ポリメラーゼからなっていた。
次いで、制御されたランダムな酵素による断片化(Controlled Random Enzymatic Fragmentation)(CoRE)を実施した。MDA反応物を、0.031ユニットのエビアルカリホスファターゼ(SAP)(USB,Cleveland,OH)、0.039ユニットのウラシルDNAグリコシラーゼ(New England Biolabs,Ipswich,MA)および0.078ユニットのエンドヌクレアーゼIV(New England Biolabs,Ipswich,MA)の混合物とともに、37℃で120分、インキュベートすることによって、過剰のヌクレオチドを不活化し、ウラシル塩基を除去した。SAPを、65℃で15分間熱不活化した。0.1ナノモルのdNTP(USB,Cleveland,OH)を添加した同一バッファー中で、0.1ユニットの大腸菌DNAポリメラーゼ1(New England Biolabs,Ipswich,MA)を用いる60分の室温でのニックトランスレーションによって、ギャップを分解し、DNAを、300〜1,300塩基対の断片に断片化した。大腸菌DNAポリメラーゼ1を、65℃で10分間熱不活化した。残存する5’リン酸を、0.031ユニットのSAP(USB,Cleveland,OH)とともに、37℃で60分間インキュベートすることによって除去した。SAPを、65℃で15分間熱不活化した。
次いで、タグ付けされたアダプターライゲーションおよびニックトランスレーションを実施した。2部分方向性ライゲーションアプローチを使用して、各ウェルに独特の10塩基のDNAバーコードアダプターを断片化されたDNAと結合した。およそ0.03pmolの断片化MDA産物を、50mM Tris−HCl(pH7.8)、2.5% PEG8000、10mM MgCl2、1mM rATP、100倍モル過剰の5’リン酸化(5’PO)および3’ジデオキシ末端(3’dd)共通Ad1(図18)および75ユニットのT4 DNAリガーゼ(Enzymatics,Beverly,MA)を7μlの総容量で含有する反応物中で、室温で4時間インキュベートした。Ad1は、独特のバーコードアダプターとのハイブリダイゼーションおよびライゲーションのための共通オーバーハングを含有していた。4時間後、各ウェルに200倍モル過剰の独特の5’リン酸化されたタグ付きアダプターを加え、16時間インキュベートさせた。384ウェルを、約2.5mlの総容量に組み合わせ、2.5mlのAMPureビーズ(Beckman−Coulter,Brea,CA)の添加によって精製した。1ラウンドのPCRを実施して、一方の側に5’アダプターおよびタグを有し、もう一方の側に3’平滑末端を有する分子を作製した。上記の5’アダプターと同様に、3’アダプターをライゲーション反応物中に加えた。ライゲーションによって作製されたニックを塞ぐために、DNAを、0.33μMのAd1 PCR1プライマー、10mM Tris−HCl(pH78.3)、50mM KCl、1.5mM MgCl2、1mM rATP、100μM dNTPを含有する反応物中で、60℃で5分間インキュベートして、3’ジデオキシ末端化Ad1オリゴを、3’−OH末端化Ad1 PCR1プライマーと交換する。次いで、反応物を37℃に冷却し、90ユニットのTaq DNAポリメラーゼ(New England Biolabs,Ipswich,MA)および21600ユニットのT4 DNAリガーゼの添加後、37℃でさらに30分間インキュベートして、Ad1 PCR1プライマー3’−OH末端からのTaqによって触媒されるニックトランスレーションによって機能性5’−POgDNA末端を作製し、T4 DNAライゲーションによって得られた修復されたニックを塞いだ。この時点で、材料を標準DNAナノアレイ配列決定法に組み込んだ。
RNA−Seqデータは、150〜200bpの平均インサートサイズを有する配列決定ライブラリーを調製するためにOvation RNA−Seqキット(NuGen,San Carlos,CA)およびSPRIWork(Beckman−Coulter,Brea,CA)を使用して、全RNAから出発して導いた。75bpのペアエンド配列決定反応を、個別化遺伝医学のセンター(Center of Personalized Genetic Medicine)(Harvard Medical School,Boston,MA)のHiSeq 2000(Illumina,San Diego,CA)で実施した。bowtie v0.12.7(Langmead et al., Genome Biol. 10:R25, 2009)を使用してtophat v1.2.0(Trapnell et al., Bioinformatics 25:1105-1111, 2009)を用いて、ペアエンドリードをアセンブルし、参照のためのhg19および既知SNPに注釈を付けるためのdbSNPバージョン132とともに、GATK UnifiedGenotyper v1.1(http://www.broadinstitute.org/gsa/wiki/index.php/GATK_release_1.1)を使用して単一ヌクレオチド変異体(SNV)をコールした。SNVを、RefSeqから得た遺伝子に、cufflinks v1.0.3(http://cufflinks.cbcb.umd.edu/tutorial.html)によって同定されるトランスクリプトームにおけるアイソフォームの両方にマッピングした。
同時発現される対立遺伝子のハプロタイプを同定するために、同一LFRコンティグ上および同一遺伝子上の両方に生じ、少なくとも1つのその他のヘテロ接合性SNVを有するヘテロ接合性SNVについて、データを選別した。転写物が対立遺伝子特異的発現を示す場合には、LFRフェージングされたハプロタイプ上で発現されるヘテロ接合性対立遺伝子はすべて、もう一方のハプロタイプ上のその対応物よりも高い、またはすべてより低いリード数を有するはずである。ここで、本発明者らは、より高く発現されるハプロタイプを、そのヘテロ対立遺伝子の大部分が、その対応物よりも高い発現を示すものと同定する。ヘテロ接合性は、その発現が、その含有ハプロタイプと一致する場合に「一致した」とカウントされる。ハプロタイプ大多数がない関係の場合には、ヘテロ接合性SNVの半分を、一致するとカウントする。さらに、仮にも考えられるには、ヘテロ接合性SNVは、少なくとも20倍のRNA−Seqリードカバレッジを有する必要がある。ヘテロ接合性SNVは、二項式試験を使用してASEおよびカバレッジを無作為に選択する確率を比較することによって、GATK genotyperからのノイズについてさらに選別される。
エラー修正目的について、各DNBに、未知エラー位置の1塩基エラー修正能またはエラー位置が既知である場合の2塩基エラー修正能を有する、10塩基のリード−ソロモンコードを用いてタグ付けした(参照により本明細書に組み込まれる、US2010/0199155として公開された、米国特許出願第12/697,995号)。これらの384コードは、上記の特性を有する4096のリード−ソロモンコードの包括的セットから選択した(参照により本明細書に組み込まれる、米国特許出願第12/697,995号)。このセットから得た各コードは、セット中の任意のその他のコードに対して3の最小ハミング距離を有する。この研究については、エラーの位置が未知であると仮定される。
結果。LFRの、正確な2倍体ゲノム配列を決定する力を実証するために、本発明者らは、ヨルバ族人の女性のHapMapサンプルNA19240の3つのライブラリーを作製した。NA19240は、HapMap Project(Consortium, Nature 437:1299-1320, 2005; Frazer et al., Nature 449:851-861, 2007)、HapMap1,000 Genomes Project(Nature 467:1061-1073, 2010)および本発明者らの取り組み(www.completegenomics.com/sequence-data/download-data/)において、トリオの一部として(NA19240は、サンプルNA19238およびNA19239の娘である)大規模に調べたられた。結果として、親のサンプルNA19238およびNA19239の重複性配列データに基づいて170万のヘテロ接合性SNPについて高度に正確なハプロタイプ情報が作製され得る。対応する不死化B細胞株から得た10個の細胞(65pgのDNA)で出発して1個のNA19240 LFRライブラリーを作製した。60×の総有効リードカバレッジに基づいて、断片の384の個別のプールまたはアリコートを使用して、本発明者らは、DNAがウェルへの分配前に変性される場合には、出発細胞の最適数は、10であろうということを推定した(dsDNAの20個の細胞に相当する;以下の表1)。2つの複製ライブラリーを、推定100〜130pg(15〜20個細胞に相当する)の変性高分子量ゲノムDNのから製造した。変性単離DNAから出発すると、ライブラリーあたりの最適量は約100pgとなることが決定された。この量は、断片の確率論的サンプリングを最小にすることによって、より均一なゲノムカバレッジを達成するよう選択された。
3種のライブラリーすべてを、DNAナノアレイ配列決定(Drmanac et al., Science 327:78-81, 2010)を使用して解析した。特別注文のアラインメントアルゴリズム(Drmanac et al., Science 327:78-81, 2010; Carnevali et al., J. Computational Biol., 19, 2011)を使用して、35塩基のメイトペアリードを参照ゲノムに対してマッピングし、マッピングされたデータの230Gbを超える平均が得られ、80×より高い平均ゲノムカバレッジを有していた(以下の表1)。マッピングされたLFRデータの解析によって、MDAに起因する2つの個別の特徴:GCリッチ配列のわずかな表現不足(図19)およびキメラ配列の増加が示された。さらに、100kbのウィンドウに渡って正規化されたカバレッジは、およそ2倍より可変である。それにもかかわらず、ほとんどすべてのゲノム領域が、十分なリード(5以上)でカバーされ、これは、本発明者らのプロトコールによる10,000倍MDA増幅は、包括的ゲノム配列決定に使用され得ることを実証する。
各ライブラリー内のその物理的なウェルの位置に基づいて、グループマッピングされるリードにバーコードを図的に使用し、これは、カバレッジの態度、すなわち、ほとんどリードのないカバレッジを有する長いスパンの間に分散された、カバレッジの低密度の領域を示した。各ウェルの平均で、約60kbのN50を有する10kb〜300kb超の長さの範囲の断片中に、10〜20%のハプロイドゲノム(300〜600Mb)を含有していた(図20)。初期断片カバレッジは、染色体間で極めて均一であった。すべての検出された断片から推定されるように、抽出されたDNAから2つのライブラリーを作製するために実際に使用されたDNAの総量は、約62pgおよび84pg(9.4および12.7個の細胞に相当、図20)であった。これは、予測された100〜130pg少なく、幾分かの喪失または検出されていないDNAまたはDNA定量化の不正確さを示す。興味深いことに、10細胞ライブラリーは、約90pg(13.6個の細胞)のDNAから作製されると思われ、これは、細胞の一部が、単離の際にS相にあることによる可能性が最も高い(図20)。
約40の個々のウェルから得られる低カバレッジリードデータ(2×カバレッジ未満)をまとめるよう設計された、2工程の特別注文のハプロタイプ解析アルゴリズムを使用して、異なるウェル中に位置する同一の親染色体の断片から得られる重複するヘテロ接合性SNPを、ハプロタイプコンティグとしてアセンブルした(図21)。その他の実験アプローチとは異なり(Kitzman et al., Nat. Biotechnol. 29:59-63, 2011; Suk et al., Genome Res. 21:1672-1685, 2011; Duitama et al., Nucleic Acids Res. 40:2041-2053, 2012)、LFRは、各初期断片についてハプロタイプを規定しない。代わりに、LFRは、所与のリードカバレッジおよびアリコートの数についてDNA断片のインプットを最大にすることによってゲノムの完全な表示を保証する。
第1の工程では、フェージングされていないNA19240ゲノムアセンブリからのヘテロ接合性SNP(www.completegenomics.com/sequence-data/download-data/)を、各LFRライブラリーと組み合わせて、フェージングのためのSNPの包括的セットを作製する。次いで、各染色体についてネットワークを構築し、これでは、ノードは、ヘテロ接合性SNPコールに対応し、接続は、SNPの各対間の接続性のスコアと関連していた。接続のスコアとともに、ヘテロ接合性SNPの各対の最良仮説についての検索の一部として配向も得られた。次いで、この接続の高度に重複性の低密度のネットワークを、ドメイン知識を使用して取り除き、続いて、クラスカルの最小全域ツリー(MST)アルゴリズムを使用して最適化した。この結果、これらのライブラリーについて、950〜1200kbのN50を有する長いコンティグが得られた(図20)。
合計およそ240万のヘテロ接合性SNPを、LFRによって各ライブラリーにおいてフェージングした(図20)。LFRは、これらのライブラリーにおいてフェージングすると予測されているヘテロ接合性SNPのおよそ90%をフェージングした。10の細胞ライブラリーが、変異体の98%にわたって、単離DNAから作製された2つのライブラリーによってフェージングし、これは、LFRの少数の単離細胞から作用する力を実証する。リードの数を約160×カバレッジに2倍にすることによって、フェージングされたヘテロ接合性SNPの数が258万超にさらに増大し、それによって、フェージング率が96%に増大した(図20)。各々、80×カバレッジを有する複製1および2を組み合わせること(合計768の独立ウェル)によって、265万超のフェージングされたヘテロ接合性SNPをもたらし、97%のフェージング率をもたらした。フェージングのためにLFRライブラリーにおいてコールされるSNP遺伝子座のみを使用すること(LFRアルゴリズムの工程1を省くこと)は、大抵は、5〜15%というフェージングされるSNPの総数の低減をもたらした(図20)。
重要なことに、LFRのみによってフェージングされるSNPの数(わずか10〜20個の細胞のDNAから出発して)は、現在のフォスミドアプローチによってフェージングされたSNPの数よりもわずかに高かった(Kitzman et al., Nat. Biotechnol. 29:59-63, 2011; Suk et al., Genome Res. 21:1672-1685, 2011; Duitama et al., Nucleic Acids Res. 40:2041-2053, 2012)。子供たちにおける変異体の大きな画分が、両親によって共有されるので、これは、標準的な親配列を使用することによってフェージングされ得るヘテロ接合性SNPの実質的に81%超である(Roach et al., Am. J. Hum. Genet. 89:382-397, 2011)。768ウェルのライブラリーに、親由来のハプロタイプデータを加えることによって、フェージング率を98%に改善する。約115,000(約4%)のフェージングされたヘテロ接合性SNPは、高カバレッジLFRライブラリーに由来し、標準ライブラリーではコールされず、これは、MDA増幅および160×カバレッジは、いくつかの領域が、正しくコールされるよう十分なリード(5以上)を得るのに役立つということを示す。高カバレッジLFRフェージング率は、ハプロタイプ完全性対フェージングエラー間のバランスをとるよう調整できる。
ヨーロッパ人家系のハプロタイプ解析。LFRの性能のさらなる本発明者らの理解のために、本発明者らは、ヨーロッパ人祖先の家系からさらなるライブラリーを作製した。CEPHファミリー1463を選択したが、これは、3世代の個体を有し、遺伝の包括的研究を可能にするからである。このファミリーは、公開データ放出の一部として先に研究されている(www.completegenomics.com/sequence-data/download-data/)。各世代の個体からライブラリーを製造した。NA12877、NA12885、NA12886、NA12891およびNA12892について合計1.6Tb超の配列データを作製した。一般に、フェージングは、すべてのサンプルにわたって極めて高く、試みられたSNPのおよそ92%がコンティグにフェージングした(図20)。2つのLFRライブラリー(図20)またはLFRを親に基づくフェージングと組み合わせることで、フェージングされるSNPの全体の率が97%に改善された。すべての解析されるファミリーメンバーにわたるN50コンティグ長は、500〜600kbの間であった。この長さは、NA19240のものよりも大幅に小さい。いくつかの異なる民族のゲノム中にわたるSNPの分布の調査によって、この相違の説明がつく。
非アフリカ人集団における低異型接合性の起源および影響。NA19240においてよりもヨーロッパ人家系サンプルにおいて、30kb〜3Mbの低異型接合性(RLH、10kbあたり1.4未満のヘテロ接合性SNPを有する30kbのゲノム領域として定義される、中程度の密度よりもおよそ7倍低い)のおよそ2倍多い領域があり、これによって、非アフリカ人におけるこれまでに報告された相対的に過剰のホモ接合体(Gibson et al., Hum. Mol. Genet. 15:789-795, 2006; Lohmueller et al., Nature 451:994-997, 2008)が明確になり、52種の完全ゲノムの解析によってさらに支持される(Nicholas Schork, personal communication)。これらの領域は、フェージングに対する障壁であり、2倍小さいN50コンティグ長をもたらす。ヨーロッパ人ゲノムにおけるコンティグの90%超が、これらのRLHに終わり、これは非関連個体間で変動する。
非アフリカ人ゲノム中のすべてのヘテロ接合性SNPのおよそ3%(すべてのフェージングされないヘテロ接合性SNPの30〜60%)が、これらのRLHに属し、これらのゲノムの極めて大きな画分をカバーする(30〜40%)。中国人およびヨーロッパ人のゲノムでは、長いRLHがMbあたり約45のヘテロ接合性SNPをクラスター化し(ゲノム平均は、RLHの外側でMbあたりおよそ1000)、これは、彼らが、約37,000〜43,000年前に共通の祖先を共有していたことを示す(20年世代あたり60〜70SNPという突然変異率に基づいて;Roach et al., Science 328:636-639, 2010; Conrad et al., Nat. Genet. 43:712-714, 2011)。これは、おそらく、アフリカからのヒトの大量移動の時点での、またはその後の、また10,000〜65,000年目の最近決定された範囲内の強力な障害によるものである(Li and Durbin, Nature 475:493-496, 2011)。さらに、アフリカ人の女性(NA19240)と比較した場合に、ヨーロッパ人およびインド人の女性では(NA12885、NA12892およびNA20847)、X染色体上に過剰のRLHが観察され、それぞれ、この染色体の約50%対17%をカバーする(これらの同一個体中の全ゲノムについて30%対14%)。これは、X染色体についてのさらに強いアフリカからの障害を示す。可能性ある説明は、実質的により少ない女性がアフリカを離れ、複数の男性と子孫を有したということである。
これらの観察結果は、数千のさまざまなゲノムにおける、ハプロタイプ解析を含めた全ゲノム変異解析は、ヒト疾患およびその他の極端な表現型に対する、ヒト集団遺伝学および各々>100のホモ接合体変異体を含むことが多い、これらの大規模な「近交」領域の影響の深い理解を提供する。さらに、>100kbの長さの約2,000RLHが、すべての非アフリカ人個体中に存在することを示す。最近の障害または近系交配に起因し得るよう制限された数の高頻度ハプロタイプを有する集団(Gibson et al., Hum. Mol. Genet. 15:789-795, 2006)はまた、両親中に存在する同一ヘテロ接合性SNPの長いランを有し得、短いLFRコンティグのフェージングまたは割り当てのための親の使用を制限する。したがって、集団史および一部の繁殖パターンは、非アフリカ人の女性のX染色体によって示されるようにフェージングを的なものにし得る。これらの要因にもかかわらず、LFRフェージング性能は、ヨーロッパ人およびアフリカ人個体の両方においてフェージングされた、最大97%のヘテロ接合性SNPとおよそ同等であり、すべての集団にわたって翻訳するはずであるという結果。LFRを、以下に記載される一方の親の標準遺伝子型判定と組み合わせること(上記で論じたように、一部の家族ではより制限される戦略)に加え、300kbより長い初期DNA断片を使用すること、例えば、細胞または事前に精製されたDNAをゲルブロック中に捕捉することによって(Cook、EMBO J. 3:1837-1842, 1984)、すべてのRLHおよびこれらの領域において生じるデノボ突然変異のハプロタイプの約95%に広がる。これは、40kbの断片に制限される、現在のフォスミドクローニング戦略を用いた場合には実現可能ではない(Kitzman et al., Nat. Biotechnol. 29:59-63, 2011; Suk et al., Genome Res. 21:1672-1685、2011)。
LFR再現性およびフェージングエラー率解析。LFRの再現性を理解しようとして、本発明者らは、2種のNA19240複製ライブラリー間のハプロタイプデータを比較した。一般に、ライブラリーは極めて一致しており、両ライブラリーによってフェージングされた約220万のヘテロ接合性SNPにおいて、ライブラリーあたり64の相違しかない(図22)。これは、0.003%のフェージングエラー率または44Mb中1エラーに相当する。LFRはまた、複数の方法によってこれまでに配列決定されている親ゲノムNA19238およびNA19239から作製された保存的であるが、正確な全染色体フェージングと比較した場合に高度に正確であった。157万の比較できる個々の遺伝子座中で、LFRが親のハプロタイプ解析のものと一致しない変異体にフェージングする約60の例しか見られなかった(不一致の半分が、親のゲノム中のエラーの配列決定による場合は、0.002%の偽フェージング率)。LFRデータはまた、ライブラリーあたり約135のコンティグ(2.2%)を含有しており、1つまたは複数の反対方向にされたハプロタイプブロックを有していた(図22)。これらの解析を、サンプルNA12877のヨーロッパ人の複製ライブラリー(図22)に拡張し、それらを、NA12877の4人の子供およびその母NA12878を使用して最近の高品質のファミリーベースの解析(Roach et al., Am. J. Hum. Genet. 89:382-397, 2011)と比較し、各方法が観察された不一致の半分に寄与すると仮定すると同様の結果が得られる。NA19240およびNA12877ライブラリーでは、いくつかのコンティグが、数十もの反対方向にされたセグメントを有していた。これらのコンティグの大多数は、低異型接合性(RLH)の領域、低いリードカバレッジ領域または予想外な多数のウェル中で観察される反復性領域(例えば、テロメア周辺または動原体領域)中に位置する傾向がある。
親の染色体にハプロタイプコンティグを割り当てること。最もひどいエラーは、LFRフェージングアルゴリズにこれらの領域中でコンティグを終了させることによって修正され得る。あるいは、これらのエラーは、LFRアセンブリへの、少なくとも一方の親から得た標準的な高密度アレイ遺伝子型データ(約100万またはそれ以上のSNP)の簡単な、低費用の添加で除去され得る。さらに、本発明者らは、親の遺伝子型は、全染色体にわたってLFRによってフェージングされるヘテロ接合性SNPの98%を接続することができることを見出した。さらに、このデータによって、ハプロタイプが母方および父方系統に割り当てられること、遺伝子診断に親の刷り込みを組み込むのに有用である情報が可能になる。親のデータが利用可能でない場合は、集団遺伝子型データを使用して、全染色体にわたってLFRコンティグを接続してもよいが、このアプローチはフェージングエラーを増大し得る(Browning and Browning, Nat. Rev. Genet. 12:703-714, 2011)。全染色体ハプロタイプ解析を実証した分裂中期染色体分離などの技術的に挑戦的なアプローチでさえ、何らかの形の親の遺伝子型データなしには親の出自を割り当てることはできない(Fan et al., Nat. Biotechnol. 29:51-57, 2011)。2つの簡単な技術、LFRおよび親の遺伝子型判定のこの組合せは、正確な、完全な、注釈つきハプロタイプを低費用で提供する。
フェージングデノボ突然変異。本発明者らの2倍体ゲノム配列決定の完全性および正確性の実証として、本発明者らは、NA19240のゲノムにおいて最近報告された35のデノボ突然変異のフェージング(Conrad et al., Nat. Genet. 43:712-714, 2011)を評価した。これらの突然変異のうち34種は、標準ゲノムまたはLFRライブラリーの1種のいずれかにおいてコールされた。それらのうち、32種のデノボ突然変異は、2つの複製LFRライブラリーのうち少なくとも1つにおいてフェージングされた(各親から出自する16種)。驚くことではないが、2種のフェージングされない変異体は、RLH中にある。これらの32種の変異体のうち、21種は、Conrad et al.(同書)によってフェージングされ、18種は、LFRフェージング結果と一致した。3種の不一致は、これまでの研究におけるエラーによるものである可能性が高く(Matthew Hurles personal communication)、LFR正確性を確認するが、報告の実質的な結論に影響を及ぼさない。
LFRライブラリーのみを使用する100pgのDNAからのゲノム配列決定およびハプロタイプ解析。上記の解析は、標準およびLFRライブラリーの両方からのヘテロ接合性SNPを組み入れた。しかし、10〜20個の細胞において見られるものと同等のDNA量で出発する結果として予測されると仮定すると、LFRライブラリーのみを使用することが可能である。本発明者らは、MDAが十分に均一な増幅を提供し、高い(80×)全体的なリードカバレッジを有し、単独で取られたLFRライブラリーによって、本発明者らの標準ライブラリー変異コーリングアルゴリズムに任意の改変を伴わずに、最大93%のヘテロ接合性SNPの検出が可能となることを実証した。LFRライブラリーのみを使用する可能性を実証するために、本発明者らは、NA19240複製1ならびに同一ライブラリーからのさらなる250Gbのリード(合計500Gb)をフェージングした。本発明者らは、それぞれ、フェージングされたSNPの総数の15%および5%の減少を観察した(図20)。この結果は、このライブラリーが200pgという最適量の代わりに60pgのDNAから作製されたことを考えれば(以下の表1)、また、これまでに記載された、MDAによるインビトロ増幅の間に組み込まれるGCバイアスを考えれば、驚くべきものではない。別の285GbのLFRライブラリーは、組み合わされた標準およびLFRライブラリーから得られたすべての変異体の90%を、単独でコールし、フェージングした(図20)。フェージングされた総SNPの低減にもかかわらず、コンティグ長は、影響を受けず長かった(N50>1Mb)。
10個の細胞からの正確なゲノム配列決定のためのLFRによって可能になったエラー低減。相当なエラー率(100〜1,000のコールされたキロベース中、約1SNV)は、すべての現在の大規模並列化配列決定技術の共通の特性である。これらの率は、診断的用途にはおそらくは高すぎ、新規突然変異を探索する多数の研究を困難にする。偽陽性変異の大半は、母方または父方染色体で起こる可能性が高いというはない。周囲の真の変異との一致した接続性のこの欠如は、最終のアセンブルされたハプロタイプからこれらのエラーを排除するためにLFRによって利用され得る。ヨルバ族人トリオおよびヨーロッパ人家系の両方とも、LFRのエラー低減力を実証するための優れたプラットフォームを提供する。本発明者らは、両対立遺伝子でヒト参照ゲノムに対応するので、個々の親の各々において高信頼度で報告された、NA19240およびNA12877(すべてのヘテロ接合性SNPの>85%)中の一連のヘテロ接合性SNPを定義した。NA19240には約44,000およびNA12877には30,000の、この基準を満たすヘテロ接合性SNPがある。親のゲノム中にそれらが存在しないために、これらの変異は、デノボ突然変異、細胞株特異的体細胞突然変異または偽陽性変異体である。およそ1,000〜1,500のこれらの変異体は、サンプルNA19240およびNA12877(図23)から得た2種の複製ライブラリーの各々において再現性よくフェージングされた。これらの数は、NA19240におけるデノボおよび細胞株特異的突然変異についてこれまでに報告されたものと同様である(Conrad et al., Nat. Genet. 43:712-714, 2011)。残りの変異体は、初期偽陽性である可能性が高く、そのうち、ライブラリーあたり約500のみがフェージングされた。これは、フェージングされる変異における偽陽性率の60倍の低減に相当する。これらの偽変異体のうち約2,400のみが標準ライブラリー中に存在し、そのうち、約260のみがフェージングされる(20Mb中<1偽陽性SNV;5700ハプロイドMb/260エラー)。各LFRライブラリーは、フェージングの前のライブラリー特異的偽陽性コールにおいて、標準法によって配列決定されたゲノムと比較して15倍の増大を示す。これらの偽陽性SNVの大多数は、MDAによって導入されている可能性が高い;希な細胞株変異体のサンプリングは、より小さいパーセンテージトの原因となり得る。100pgのDNAからLFRライブラリーを作製することおよびMDA増幅による多数のエラーの導入にもかかわらず、LFRフェージングアルゴリズムを適用することによって、全体の配列決定エラー率が99.99999%に低減される(約600の偽ヘテロ接合性SNV/6Gb)、同じライゲーションに基づく配列決定化学を使用して観察されるエラー率よりもおよそ10倍低い(Roach et al., Am. J. Human Genet. 89:382-397, 2011)。
LFR情報を用いるベースコーリングの改善。フェージングおよび偽陽性ヘテロ接合性SNVの排除に加えて、LFRは、各ベースコールを支持するリードのウェル起源を評価することによって、「コールなし」位置を「救出」できるか、またはその他のコール(例えば、同形接合体参照または同形接合体変異体)を検証できる。実証として、本発明者らは、NA19240のゲノム中の位置が、コールされないが、隣接するフェージングされたヘテロ接合性SNPに隣接するものを複製することを見出した。これらの例では、位置は、隣接するフェージングされたSNPとコールなし位置の間の共有されるウェルの存在のために、フェージングされるヘテロ接合性SNPとして「再コール」され得た(図24)。LFRは、すべてのコールなし位置を救出できない場合もあるが、この簡単な実証は、コールなしを救出するためのすべてのゲノム位置のより正確なコーリングにおけるLFRの有用性を強調する。
アフリカ人および非アフリカ人ゲノム中に存在する高度に多岐にわたるハプロタイプ。HapMapプロジェクトなどの大規模遺伝子型判定によって可能になるハプロタイプ解析は、集団遺伝学を理解するために非常に重要である。しかし、個体の完全なハプロタイプの解明は、非常に困難であるか、または禁制的に費用がかかるものであった。反復領域の偽マッピングのために蓄積された選別された、クラスター化された偽ヘテロ接合体の高度に正確なハプロタイプ(Li and Durbin, Nature 475:493-496, 2011; Roach et al., Science 328:636-639, 2010)は、個々のゲノムに見られる集団事象の多くの理解に役立つ。実証として、本発明者らは、母方および父方コピー間の高度分岐の領域について、NA19240のLFRコンティグをスキャンした。7000の、>33SNVを含有する10kb領域を同定し;予測された10SNVを上回る3倍の増大。100万年あたり0.1%の不変の変異および0.15%の塩基相違(共通の祖先から進化する、ヒトおよびチンパンジーゲノムの1%分岐、約600万年に基づいて)を仮定して、本発明者らの計算は、このアフリカ人のゲノムに見出されるこれらの領域の約50Mb(「非近交系」ゲノムの約2.0%)は、150万年にわたって別個に進化してきた可能性があることを示唆する。この推定値は、チンパンジー−ヒト分離が、500万年未満前である場合には(Hobolth et al., Genome Res. 21:349-356, 2011)100万年に近い。この全ゲノム解析は、アフリカにおける別個のHomo種の可能性ある異種交配を仮定する、アフリカ人集団における2、3の標的とされるゲノム領域に関するHammer et al.(Proc. Natl. Acad. Sci. U.S.A. 108:15123-15128, 2011)による最近の研究と一致する。本発明者らの解析は、ヨーロッパ人非近交系ゲノムの2.1%もまた同様に分岐した配列を、大部分は個別のゲノム位置に有することを示す。これらのうち大多数は、アフリカからのヒトの集団移動の前に導入された可能性が高い。
個々のゲノムは、両対立遺伝子中に不活化変異を有する多数の遺伝子を含有する。高度に正確な2倍体ゲノムは、ヒトゲノム配列決定が、臨床設定において価値あるものであるために不可欠なものである。診断/予後環境においてLFRが使用され得る方法を実証するために、本発明者らは、ナンセンスおよびスプライシング部位を撹乱する変異についてNA19240のコーディングSNPデータを解析した。本発明者らは、PolyPhen2(Adzhubei et al., Nat. Methods 7:248-249, 2010)を使用してミスセンス変異のすべてをさらに解析して、有害な変化をコードしていた変異のみを選択した。「損傷を与える可能性がある」および「おそらく損傷を与える」は両方とも、すべてのナンセンス突然変異がそうであるようにタンパク質機能に有害であると考えられる。3485種の変異体が、これらの判定基準に対応した。フェージングおよび偽陽性を除去した後、1252種のみの変異体が残った;情報を誤った方向に導く可能性の重要な低減。本発明者らは、同一遺伝子において少なくとも2つが同時に起きている316種のヘテロ接合性変異体のみに調べるリストをさらに低減した。本発明者らは、フェージングデータを使用して、79遺伝子内で同一対立遺伝子中に起きている189種の変異体を同定できた。残りの127種のSNPは、各対立遺伝子中に少なくとも1つの有害な変異を有する47遺伝子にわたって分散していることがわかった(図25)。2種のLFRライブラリーを組み合わせることによるNA19240のハプロタイプ解析は、この数を65遺伝子に増大する。この解析をヨーロッパ人家系に拡大することによって、同様の数の遺伝子(両対立遺伝子中にコーディング突然変異を有する32〜49)が、有効なタンパク質産物がほとんど発現されない〜全く発現されない点に変更された可能性があることが実証された(図25)。この解析を、転写因子結合部位(TFBS)を撹乱する変異体に拡大することによって、個体あたりさらに約100遺伝子を導入する。これらのうち多くは、機能性変化の部分的喪失または喪失なしである可能性が高い。LFRの高正確性のために、これらの変異体が配列決定エラーの結果である可能性は低い。発見された有害な突然変異の多くは、これらの細胞株の増殖において導入され得る。2、3のこれらの遺伝子は、非関連個体において見出され、これは、それらが、不適切に注釈がつけられる可能性があることまたは組織的マッピングまたは参照エラーの結果であることを示唆する。NA19240のゲノムは、さらに約10種の遺伝子を機能カテゴリーは完全に喪失して含有しており;これは、アフリカ人ゲノムに注釈を付けるためにヨーロッパ人参照ゲノムを使用することによって導入されたバイアスによる可能性が最も高い。それにもかかわらず、これらの数は、いくつかフェージングされる個々のゲノムに関する最近の研究において見られるものと同様であり(Suk et al., Genome Res. 21:1672-1685, 2011; Lohmueller et al., Nature 451:994-997, 2008)、最も全身的に健康な個体が、普通の生活に絶対的に必要ではなく、役に立たないタンパク質産物をコードする、少数の遺伝子を有する可能性が高いことを示唆する。本発明者らは、LFRは、大きなゲノム距離にわたってSNPをハプロタイプ中におくことができ、そこで、それらのSNPのフェージングが、機能の潜在的に完全な喪失を生じさせ得ることを実証した。この種の情報は、患者ゲノムの有効な臨床解釈にとって、また担体スクリーニングにとって決定的となる。
対立遺伝子発現の相違と関連しているTFBS撹乱。シス調節領域およびコード配列の両方を包含する長いハプロタイプは、遺伝子の各対立遺伝子の発現レベルの理解および予測にとって決定的である。NA20431から得たリンパ球のRNA配列決定から得た包括的でない発現データの5.6Gbを解析することによって、本発明者らは、対立遺伝子発現において重大な同意を有する少数の遺伝子を同定した。それらの遺伝子の各々において、転写開始部位の上流の調節領域の5kbよび下流の1kbを、300種の種々の転写因子の結合部位を大幅に変更するSNVについてスキャンした(Sandelin et al., 32:D91-D94, 2004)。6例では(図26)、2つの対立遺伝子の間の1〜3個の塩基が、各遺伝子において異なり、1種または複数の推定結合部位に重大な影響を引き起こし、観察された対立遺伝子間の発現の相違を説明する可能性があるとわかった。これは、ただ1つのデータセットであるが、転写因子結合に対してこれらの変化どの程度大きな影響を有するかは現在明らかではなく、これらの結果は、LFRハプロタイプ解析を使用して実現可能になるこの種の大規模研究を用いると(Rozowsky et al., Mol. Syst. Biol. 7:522, 2011)、転写因子結合部位への配列変化の結果は解明され得るということを実証する。
考察。本発明者らは、LFRの、ゲノム中のすべての検出されたヘテロ接合性SNPの最大97%を、DNAの長い近接するストレッチに、正確にフェージングする力を実証した(N50 400〜1500kbの長さ)。標準ライブラリーから得た候補ヘテロ接合性SNPを伴わずに、したがって、10〜20個のヒト細胞のみを使用してフェージングされた8個のLFRライブラリーは、現在の実施の制限にもかかわらず利用可能なSNPの85〜94%にフェージングできる。いくつかの例では、この論文において使用されるLFRライブラリーは、最適未満の出発インプットDNA(例えば、NA20431)を有していた。2つの複製ライブラリー(サンプルNA19240およびNA12877)を組み合わせることによって、またはより多くのDNA(NA12892)を用いて出発することによって見られるフェージング率改善は、この結論と一致する。さらに、GCリッチ配列の提示不測は、コールされるゲノムの減少をもたらした(標準ライブラリーについて90〜93%対>96%)。MDA法の改善は(例えば、領域特異的プライマーの添加またはその他の工程における収率を改善することによって少ない増幅を使用することによる)、または本発明者らが、LFRライブラリーにおいて塩基および変異体コーリングを実施する方法では、おそらくは、ウェルへのリードの割り当てを使用することによって、これらの領域のカバレッジの増大に役立つ。さらに、全ゲノム配列決定の費用が低下し続けるにつれ、コールレートおよびフェージングを著しく改善するより高いカバレッジライブラリーがより入手可能になる。
コンセンサスハプロイド配列は、多数の適用にとって十分であるが、個別化ゲノミクスにとって2つの極めて重要なデータ部分:フェージングされたヘテロ接合性変異体ならびに偽陽性および陰性変異体コールの同定を欠く。個別化ゲノミクスの目標の1つは、疾患を引き起こす変異体を検出することおよび個体がこのような変異体を保持するか、または1種もしくは2種の影響を受けていない対立遺伝子を有するかどうかの決定において極めて確信があることである。母方および父方染色体両方から独立に配列データを提供することによって、LFRは、1種の対立遺伝子のみがカバーされているゲノムアセンブリ中の領域を検出できる。同様に、LFRは、独立に、別個のアリコートにおいて、母方および父方染色体を10〜20回配列決定するので、偽陽性コールは避けられる。結果は、いくつかのアリコート中で、1種の親の対立遺伝子上の同一塩基位置で、ランダム配列エラーが反復的に生じる統計的低い可能性である。したがって、LFRは、最初に、インビトロDNA増幅を使用することおよび得られる多数の避けることができないポリメラーゼエラーにもかかわらず、2、3の(好ましくは、10〜20個)ヒト細胞からのゲノムの正確な、費用効率の高い両方の配列決定を可能にする。さらに、数百キロベースにわたってSNPを、複数のメガベース(またはさらには、LFRを、日常的な、一方または両方の親の遺伝子型判定と統合することによる全染色体)にフェージングすることによって、LFRは、化合物調節性変異体の効果および対立遺伝子特異的遺伝子発現に対する親の刷り込みおよび種々の組織種における機能を、より正確に予測できる。総合すると、これは、タンパク質機能の獲得または喪失を引き起こし得る可能性あるゲノム変化についての高度に正確なレポートを提供する。どの患者にとっても安価に得られるこの種の情報は、ゲノムデータの臨床使用にとって決定的なものとなる。さらに、細胞から出発する、上首尾の、手ごろな価格のヒトゲノムの2倍体配列決定は、循環腫瘍細胞またはインビトロ受精によって作製された着床前胚などの多様な組織供給源からの微小生検の包括的な、正確な遺伝子スクリーニングの可能性を開く。
本発明は、好ましい実施形態に関連して詳細に記載されるように、多数の異なる形態での実施形態によって満たされるが、本開示内容は、本発明の原理の例示として考えられるべきであって、本発明を、本明細書において例示され、記載される特定の実施形態に制限しようとするものではないということは理解される。当業者によって、本発明の趣旨から逸脱することなく多数の改変がなされ得る。本発明の範囲は、添付の特許請求の範囲およびその等価物によって測られる。要約および題名は、その目的は、適当な権力者ならびに一般の人々が、本発明の全体的な性質を迅速に決定することを可能にすることであるので、本発明の範囲の制限と解釈されてはならない。以下の特許請求の範囲において、用語「手段(means)」が使用される限り、本明細書に列挙された特徴または要素のいずれも、米国特許法第112条第6項に従うミーンズ−プラス−ファンクション制限と解釈されなければならない。

Claims (39)

  1. 1種または複数の生物の複合核酸の配列を決定する方法であって、
    (a)1種または複数のコンピューティングデバイスで、複合核酸の複数のリードを受け取ることと、
    (b)1種または複数のコンピューティングデバイスを用いて、リードから複合核酸のアセンブルされた配列を生成することと
    を含み、アセンブルされた配列が70%以上のコールレートでメガベースあたり1未満の偽の単一ヌクレオチド変異体を含む、方法。
  2. 前記アセンブルされた配列中の複数の配列変異体を同定することと、前記複数の配列変異体をフェージングして、フェージングされた配列を生成することとをさらに含む、請求項1に記載の方法。
  3. 少なくとも3種の配列変異体をフェージングすることと、前記少なくとも2種の配列変異体のフェージングと一致しない配列変異体をエラーと同定することとを含む、請求項2に記載の方法。
  4. アセンブルされた配列が全ゲノム配列である、配列変異体の少なくとも70パーセントをフェージングすることを含む、請求項2に記載の方法。
  5. アセンブルされた配列が全ゲノム配列である、配列変異体の少なくとも80パーセントをフェージングすることを含む、請求項2に記載の方法。
  6. アセンブルされた配列が全ゲノム配列である、配列変異体の少なくとも85パーセントをフェージングすることを含む、請求項2に記載の方法。
  7. アセンブルされた配列が全ゲノム配列である、配列変異体の少なくとも90パーセントをフェージングすることを含む、請求項2に記載の方法。
  8. アセンブルされた配列が全ゲノム配列である、配列変異体の少なくとも95パーセントをフェージングすることを含む、請求項2に記載の方法。
  9. 前記複合核酸の複数のリードを受け取る前記工程が、複合核酸の1種または複数の断片を含む複数のアリコート各々から複数のリードを受け取ることからなる、請求項1に記載の方法。
  10. 前記アセンブルされた配列の一定位置に、2種以上のアリコートからの前記一定位置についての予備的ベースコールに基づいて、塩基をコールすることを含む、請求項9に記載の方法。
  11. ベースコールが、2種以上のアリコートからのリード中に3回以上存在する場合に、ベースコールを真実と同定することを含む、請求項9に記載の方法。
  12. アリコート特異的タグが、断片の各々と結合しており、アリコート特異的タグを同定することによって、リードが出自するアリコートを決定することをさらに含む、請求項9に記載の方法。
  13. アリコート特異的タグがエラー修正コードを含み、各リードが、タグ配列データおよび断片配列データを含み、タグ配列データが、正しいタグ配列データまたは1種もしくは複数のエラーを含む不正確なタグ配列データのいずれかである、
    (c)エラー修正コードを使用して、不正確なタグ配列データを修正し、それによって、修正されたタグ配列データおよび修正され得ないタグ配列データを生成することと、
    (d)タグ配列データを必要とし、かつ第1のアウトプットを生成する第1のコンピュータプロセスにおいて、正しいタグ配列データおよび修正されたタグ配列データを含むリードを使用することと、
    (e)タグ配列データを必要とせず、かつ第2のアウトプットを生成する第2のコンピュータプロセスにおいて、修正され得ないタグ配列データを含むリードを使用することと
    をさらに含む、請求項12に記載の方法。
  14. 前記第1のコンピュータプロセスが、サンプルマルチプレックス化、ライブラリーマルチプレックス化、フェージングおよびタグ配列データを使用するエラー修正プロセスを含むリストから選択される、請求項13に記載の方法。
  15. 第2のコンピュータプロセスが、マッピング、アセンブリおよびプールに基づく統計学を含む、請求項13に記載の方法。
  16. エラー修正コードが、リード−ソロモンコードである、請求項13に記載の方法。
  17. (c)複合核酸の、ショートタンデムリピートを含む領域の第1のフェージングされた配列を用意することと、
    (d)領域の第1のフェージングされた配列のリードを、領域の第2のフェージングされた配列のリードと比較することと、
    (e)比較に基づいて、第1のフェージングされた配列または第2のフェージングされた配列の一方におけるショートタンデムリピートの拡大を同定することと
    をさらに含む、請求項1に記載の方法。
  18. 生物の少なくとも一方の親から遺伝子型データを得ることと、前記少なくとも一方の親のリードおよび遺伝子型データから複合核酸のアセンブルされた配列を生成することとをさらに含む、請求項1に記載の方法。
  19. 集団遺伝子型データを加えることと、リードおよび集合遺伝子型データから複合核酸のアセンブルされた配列を生成することとをさらに含む、請求項1に記載の方法。
  20. (c)複合核酸の第1の領域について複数のリードをアラインし、それによって、アラインされたリード間の重複を作り出すことと、
    (d)Nが2より大きい整数である、重複内のN個の候補へテロを同定することと、
    (e)N個の候補へテロについて2〜4の可能性の空間または前記空間の選択された部分空間をクラスタリングし、それによって複数のクラスターを作り出すことと、
    (f)同定されるクラスターが各々、実質的にノイズのない中心を含む、最高密度を有する2つのクラスターを同定することと、
    (g)複合核酸の1種または複数のさらなる領域について、工程(a)〜(d)を反復することと
    をさらに含む、請求項1に記載の方法。
  21. アセンブルされた配列が、メガベースあたり0.8より少ない偽の単一ヌクレオチド変異体を含む、請求項1に記載の方法。
  22. アセンブルされた配列が、メガベースあたり0.6より少ない偽の単一ヌクレオチド変異体を含む、請求項1に記載の方法。
  23. アセンブルされた配列が、メガベースあたり0.4より少ない偽の単一ヌクレオチド変異体を含む、請求項1に記載の方法。
  24. アセンブルされた配列が、メガベースあたり0.2より少ない偽の単一ヌクレオチド変異体を含む、請求項1に記載の方法。
  25. アセンブルされた配列が、メガベースあたり0.1より少ない偽の単一ヌクレオチド変異体を含む、請求項1に記載の方法。
  26. アセンブルされた配列が、複合核酸の少なくとも80パーセントのコールレートを有する、請求項1に記載の方法。
  27. アセンブルされた配列が、少なくとも85パーセントのコールレートを有する、請求項1に記載の方法。
  28. アセンブルされた配列が、少なくとも90パーセントのコールレートを有する、請求項1に記載の方法。
  29. (a)一定量の複合核酸を用意することと、(b)前記一定量の複合核酸を配列決定して、前記複数のリードを生成することとをさらに含む、請求項1に記載の方法。
  30. 複合核酸が、ゲノム、エキソーム、トランスクリプトーム、メチローム、異なる生物のゲノムの混合物および生物の異なる細胞種のゲノムの混合物およびそのサブセットからなる群から選択される、請求項1に記載の方法。
  31. 生物が哺乳類である、請求項1に記載の方法。
  32. 生物がヒトである、請求項1に記載の方法。
  33. 請求項1に記載の方法によって生成されたアセンブルされたヒトゲノム配列を保存する、1種または複数のコンピュータによって読み取り可能な一時的でないストレージメディア。
  34. 1種または複数のコンピューティングデバイスによって実行されると、1種または複数のコンピューティングデバイスに請求項1に記載の方法を実施させる命令を保存する、コンピュータによって読み取り可能な一時的でないストレージメディア。
  35. ヒトゲノムの配列を決定する方法であって、
    (a)1種または複数のコンピューティングデバイスで、ゲノムの複数のリードを受け取ることと、
    (b)1種または複数のコンピューティングデバイスを用いて、ゲノムのアセンブルされた配列をリードから生成することと
    を含み、アセンブルされた配列は、70%以上のゲノムコールレートでギガベースあたり600未満の偽の単一ヌクレオチド変異体を含む、方法。
  36. ヒトゲノムのアセンブルされた配列が、70%のゲノムコールレートおよび70%以上のエキソームコールレートを含む、請求項34に記載の方法。
  37. 1種または複数のコンピューティングデバイスによって実行されると、1種または複数のコンピューティングデバイスに請求項35に記載の方法を実施させる命令を保存する、コンピュータによって読み取り可能な一時的でないストレージメディア。
  38. ヒトゲノムの配列を決定する方法であって、
    (a)1種または複数のコンピューティングデバイスで、各アリコートがヒトゲノムの断片を含む複数のアリコート各々から複数のリードを受け取ることと、
    (b)1種または複数のコンピューティングデバイスを用いて、ゲノムのフェージングされたアセンブルされた配列をリードから生成することと
    を含み、アセンブルされた配列は、70%以上のゲノムコールレートでギガベースあたり1000未満の偽の単一ヌクレオチド変異体を含む、方法。
  39. 1種または複数のコンピューティングデバイスによって実行されると、1種または複数のコンピューティングデバイスに請求項38に記載の方法を実施させる命令を保存する、コンピュータによって読み取り可能な一時的でないストレージメディア。
JP2014505385A 2011-04-14 2012-04-13 複合核酸配列データの処理および解析 Pending JP2014516514A (ja)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US201161517196P 2011-04-14 2011-04-14
US61/517,196 2011-04-14
US201161527428P 2011-08-25 2011-08-25
US61/527,428 2011-08-25
US201161546516P 2011-10-12 2011-10-12
US61/546,516 2011-10-12
PCT/US2012/033686 WO2012142531A2 (en) 2011-04-14 2012-04-13 Processing and analysis of complex nucleic acid sequence data

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2017083584A Division JP2017184742A (ja) 2011-04-14 2017-04-20 複合核酸配列データの処理および解析

Publications (2)

Publication Number Publication Date
JP2014516514A true JP2014516514A (ja) 2014-07-17
JP2014516514A5 JP2014516514A5 (ja) 2015-05-28

Family

ID=47010019

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2014505385A Pending JP2014516514A (ja) 2011-04-14 2012-04-13 複合核酸配列データの処理および解析
JP2017083584A Pending JP2017184742A (ja) 2011-04-14 2017-04-20 複合核酸配列データの処理および解析

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2017083584A Pending JP2017184742A (ja) 2011-04-14 2017-04-20 複合核酸配列データの処理および解析

Country Status (8)

Country Link
US (1) US20140051588A9 (ja)
EP (1) EP2754078A4 (ja)
JP (2) JP2014516514A (ja)
CN (2) CN107368705B (ja)
AU (1) AU2012242525B2 (ja)
CA (1) CA2833165A1 (ja)
HK (1) HK1246901A1 (ja)
WO (1) WO2012142531A2 (ja)

Families Citing this family (157)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2006259565B2 (en) 2005-06-15 2011-01-06 Complete Genomics, Inc. Single molecule arrays for genetic and chemical analysis
US10081839B2 (en) 2005-07-29 2018-09-25 Natera, Inc System and method for cleaning noisy genetic data and determining chromosome copy number
US11111544B2 (en) 2005-07-29 2021-09-07 Natera, Inc. System and method for cleaning noisy genetic data and determining chromosome copy number
US9424392B2 (en) 2005-11-26 2016-08-23 Natera, Inc. System and method for cleaning noisy genetic data from target individuals using genetic data from genetically related individuals
US10083273B2 (en) 2005-07-29 2018-09-25 Natera, Inc. System and method for cleaning noisy genetic data and determining chromosome copy number
US11111543B2 (en) 2005-07-29 2021-09-07 Natera, Inc. System and method for cleaning noisy genetic data and determining chromosome copy number
US8592150B2 (en) 2007-12-05 2013-11-26 Complete Genomics, Inc. Methods and compositions for long fragment read sequencing
US9524369B2 (en) 2009-06-15 2016-12-20 Complete Genomics, Inc. Processing and analysis of complex nucleic acid sequence data
US10017812B2 (en) 2010-05-18 2018-07-10 Natera, Inc. Methods for non-invasive prenatal ploidy calling
EP2473638B1 (en) 2009-09-30 2017-08-09 Natera, Inc. Methods for non-invasive prenatal ploidy calling
US11408031B2 (en) 2010-05-18 2022-08-09 Natera, Inc. Methods for non-invasive prenatal paternity testing
US11326208B2 (en) 2010-05-18 2022-05-10 Natera, Inc. Methods for nested PCR amplification of cell-free DNA
US11939634B2 (en) 2010-05-18 2024-03-26 Natera, Inc. Methods for simultaneous amplification of target loci
US20190010543A1 (en) 2010-05-18 2019-01-10 Natera, Inc. Methods for simultaneous amplification of target loci
EP2572003A4 (en) 2010-05-18 2016-01-13 Natera Inc METHOD FOR NONINVASIVE PRANATAL PLOIDIE ASSIGNMENT
US11332793B2 (en) 2010-05-18 2022-05-17 Natera, Inc. Methods for simultaneous amplification of target loci
US11339429B2 (en) 2010-05-18 2022-05-24 Natera, Inc. Methods for non-invasive prenatal ploidy calling
US9677118B2 (en) 2014-04-21 2017-06-13 Natera, Inc. Methods for simultaneous amplification of target loci
US11322224B2 (en) 2010-05-18 2022-05-03 Natera, Inc. Methods for non-invasive prenatal ploidy calling
US11332785B2 (en) 2010-05-18 2022-05-17 Natera, Inc. Methods for non-invasive prenatal ploidy calling
US10316362B2 (en) 2010-05-18 2019-06-11 Natera, Inc. Methods for simultaneous amplification of target loci
CN103608466B (zh) 2010-12-22 2020-09-18 纳特拉公司 非侵入性产前亲子鉴定方法
US10584381B2 (en) 2012-08-14 2020-03-10 10X Genomics, Inc. Methods and systems for processing polynucleotides
US10752949B2 (en) 2012-08-14 2020-08-25 10X Genomics, Inc. Methods and systems for processing polynucleotides
EP3901273A1 (en) 2012-08-14 2021-10-27 10X Genomics, Inc. Microcapsule compositions and methods
US10323279B2 (en) 2012-08-14 2019-06-18 10X Genomics, Inc. Methods and systems for processing polynucleotides
US11591637B2 (en) 2012-08-14 2023-02-28 10X Genomics, Inc. Compositions and methods for sample processing
US9951386B2 (en) 2014-06-26 2018-04-24 10X Genomics, Inc. Methods and systems for processing polynucleotides
US9701998B2 (en) 2012-12-14 2017-07-11 10X Genomics, Inc. Methods and systems for processing polynucleotides
CN105264532B (zh) 2012-11-19 2019-02-26 雅普顿生物系统公司 用于检测多个单分子靶分析物的方法和试剂盒
US10829816B2 (en) * 2012-11-19 2020-11-10 Apton Biosystems, Inc. Methods of analyte detection
US10533221B2 (en) 2012-12-14 2020-01-14 10X Genomics, Inc. Methods and systems for processing polynucleotides
US9679104B2 (en) 2013-01-17 2017-06-13 Edico Genome, Corp. Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform
US10691775B2 (en) 2013-01-17 2020-06-23 Edico Genome, Corp. Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform
US10847251B2 (en) 2013-01-17 2020-11-24 Illumina, Inc. Genomic infrastructure for on-site or cloud-based DNA and RNA processing and analysis
US9483610B2 (en) 2013-01-17 2016-11-01 Edico Genome, Corp. Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform
US9792405B2 (en) 2013-01-17 2017-10-17 Edico Genome, Corp. Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform
US10068054B2 (en) 2013-01-17 2018-09-04 Edico Genome, Corp. Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform
US20140242581A1 (en) * 2013-01-23 2014-08-28 Reproductive Genetics And Technology Solutions, Llc Compositions and methods for genetic analysis of embryos
US9411930B2 (en) 2013-02-01 2016-08-09 The Regents Of The University Of California Methods for genome assembly and haplotype phasing
US10089437B2 (en) * 2013-02-01 2018-10-02 The Regents Of The University Of California Methods for genome assembly and haplotype phasing
WO2014124338A1 (en) 2013-02-08 2014-08-14 10X Technologies, Inc. Polynucleotide barcode generation
WO2014129894A1 (en) * 2013-02-19 2014-08-28 Cergentis B.V. Sequencing strategies for genomic regions of interest
US9328382B2 (en) 2013-03-15 2016-05-03 Complete Genomics, Inc. Multiple tagging of individual long DNA fragments
WO2014151554A1 (en) * 2013-03-15 2014-09-25 The Trustees Of The University Of Pennsylvania Phi29 method for library preparation
CN106062207B (zh) * 2013-07-19 2020-07-03 路德维格癌症研究有限公司 全基因组且靶向的单体型重构
US9116866B2 (en) 2013-08-21 2015-08-25 Seven Bridges Genomics Inc. Methods and systems for detecting sequence variants
US9898575B2 (en) 2013-08-21 2018-02-20 Seven Bridges Genomics Inc. Methods and systems for aligning sequences
WO2015027245A1 (en) * 2013-08-23 2015-02-26 Complete Genomics, Inc. Long fragment de novo assembly using short reads
US10395758B2 (en) 2013-08-30 2019-08-27 10X Genomics, Inc. Sequencing methods
US10262755B2 (en) 2014-04-21 2019-04-16 Natera, Inc. Detecting cancer mutations and aneuploidy in chromosomal segments
US10577655B2 (en) 2013-09-27 2020-03-03 Natera, Inc. Cell free DNA diagnostic testing standards
CN105593683B (zh) * 2013-10-01 2018-11-30 考利达基因组股份有限公司 鉴定基因组中的变异的定相和连接方法
CA2927637A1 (en) 2013-10-18 2015-04-23 Seven Bridges Genomics, Inc. Methods and systems for identifying disease-induced mutations
KR20160062763A (ko) 2013-10-18 2016-06-02 세븐 브릿지스 지노믹스 인크. 유전자 샘플을 유전자형 결정하기 위한 방법 및 시스템
WO2015058095A1 (en) 2013-10-18 2015-04-23 Seven Bridges Genomics Inc. Methods and systems for quantifying sequence alignment
WO2015058120A1 (en) 2013-10-18 2015-04-23 Seven Bridges Genomics Inc. Methods and systems for aligning sequences in the presence of repeating elements
US9063914B2 (en) 2013-10-21 2015-06-23 Seven Bridges Genomics Inc. Systems and methods for transcriptome analysis
US9824068B2 (en) 2013-12-16 2017-11-21 10X Genomics, Inc. Methods and apparatus for sorting data
CN105980578B (zh) * 2013-12-16 2020-02-14 深圳华大智造科技有限公司 用于使用机器学习进行dna测序的碱基判定器
US10867693B2 (en) 2014-01-10 2020-12-15 Seven Bridges Genomics Inc. Systems and methods for use of known alleles in read mapping
US9817944B2 (en) 2014-02-11 2017-11-14 Seven Bridges Genomics Inc. Systems and methods for analyzing sequence data
AU2015243445B2 (en) 2014-04-10 2020-05-28 10X Genomics, Inc. Fluidic devices, systems, and methods for encapsulating and partitioning reagents, and applications of same
CN106460070B (zh) 2014-04-21 2021-10-08 纳特拉公司 检测染色体片段中的突变和倍性
MX2016016902A (es) 2014-06-26 2017-03-27 10X Genomics Inc Metodos para analizar acidos nucleicos de celulas individuales o poblaciones de celulas.
MX2016016713A (es) 2014-06-26 2017-05-23 10X Genomics Inc Procesos y sistemas para el montaje de secuencias de acido nucleico.
EP3174980A4 (en) 2014-08-01 2018-01-17 Dovetail Genomics, LLC Tagging nucleic acids for sequence assembly
CN107408043A (zh) 2014-10-14 2017-11-28 七桥基因公司 用于序列流水线中的智能工具的系统和方法
US10429342B2 (en) 2014-12-18 2019-10-01 Edico Genome Corporation Chemically-sensitive field effect transistor
US9857328B2 (en) 2014-12-18 2018-01-02 Agilome, Inc. Chemically-sensitive field effect transistors, systems and methods for manufacturing and using the same
US9859394B2 (en) 2014-12-18 2018-01-02 Agilome, Inc. Graphene FET devices, systems, and methods of using the same for sequencing nucleic acids
US10006910B2 (en) 2014-12-18 2018-06-26 Agilome, Inc. Chemically-sensitive field effect transistors, systems, and methods for manufacturing and using the same
US10020300B2 (en) 2014-12-18 2018-07-10 Agilome, Inc. Graphene FET devices, systems, and methods of using the same for sequencing nucleic acids
US9618474B2 (en) 2014-12-18 2017-04-11 Edico Genome, Inc. Graphene FET devices, systems, and methods of using the same for sequencing nucleic acids
WO2016114970A1 (en) 2015-01-12 2016-07-21 10X Genomics, Inc. Processes and systems for preparing nucleic acid sequencing libraries and libraries prepared using same
KR20170106979A (ko) * 2015-01-13 2017-09-22 10엑스 제노믹스, 인크. 구조 변이 및 위상 조정 정보를 시각화하기 위한 시스템 및 방법
CN105986011B (zh) * 2015-01-30 2019-10-15 深圳华大基因研究院 一种杂合性缺失的检测方法
AU2016219480B2 (en) 2015-02-09 2021-11-11 10X Genomics, Inc. Systems and methods for determining structural variation and phasing using variant call data
NZ734854A (en) 2015-02-17 2022-11-25 Dovetail Genomics Llc Nucleic acid sequence assembly
US10192026B2 (en) 2015-03-05 2019-01-29 Seven Bridges Genomics Inc. Systems and methods for genomic pattern analysis
US9940266B2 (en) 2015-03-23 2018-04-10 Edico Genome Corporation Method and system for genomic visualization
US11807896B2 (en) 2015-03-26 2023-11-07 Dovetail Genomics, Llc Physical linkage preservation in DNA storage
US11479812B2 (en) 2015-05-11 2022-10-25 Natera, Inc. Methods and compositions for determining ploidy
US10275567B2 (en) 2015-05-22 2019-04-30 Seven Bridges Genomics Inc. Systems and methods for haplotyping
US10793895B2 (en) 2015-08-24 2020-10-06 Seven Bridges Genomics Inc. Systems and methods for epigenetic analysis
US10724110B2 (en) 2015-09-01 2020-07-28 Seven Bridges Genomics Inc. Systems and methods for analyzing viral nucleic acids
US10584380B2 (en) 2015-09-01 2020-03-10 Seven Bridges Genomics Inc. Systems and methods for mitochondrial analysis
US11347704B2 (en) 2015-10-16 2022-05-31 Seven Bridges Genomics Inc. Biological graph or sequence serialization
JP7300831B2 (ja) 2015-10-19 2023-06-30 ダブテイル ゲノミクス エルエルシー ゲノムアセンブリ、ハプロタイプフェージング、および標的に依存しない核酸検出のための方法
US20170141793A1 (en) * 2015-11-13 2017-05-18 Microsoft Technology Licensing, Llc Error correction for nucleotide data stores
US11371094B2 (en) 2015-11-19 2022-06-28 10X Genomics, Inc. Systems and methods for nucleic acid processing using degenerate nucleotides
US20170199960A1 (en) 2016-01-07 2017-07-13 Seven Bridges Genomics Inc. Systems and methods for adaptive local alignment for graph genomes
US20170270245A1 (en) 2016-01-11 2017-09-21 Edico Genome, Corp. Bioinformatics systems, apparatuses, and methods for performing secondary and/or tertiary processing
US10068183B1 (en) 2017-02-23 2018-09-04 Edico Genome, Corp. Bioinformatics systems, apparatuses, and methods executed on a quantum processing platform
US10364468B2 (en) 2016-01-13 2019-07-30 Seven Bridges Genomics Inc. Systems and methods for analyzing circulating tumor DNA
US10460829B2 (en) 2016-01-26 2019-10-29 Seven Bridges Genomics Inc. Systems and methods for encoding genetic variation for a population
US11081208B2 (en) 2016-02-11 2021-08-03 10X Genomics, Inc. Systems, methods, and media for de novo assembly of whole genome sequence data
KR20180116377A (ko) 2016-02-23 2018-10-24 더브테일 제노믹스 엘엘씨 게놈 어셈블리를 위한 페이징된 판독 세트의 생성 및 반수체형 페이징
US10262102B2 (en) 2016-02-24 2019-04-16 Seven Bridges Genomics Inc. Systems and methods for genotyping with graph reference
KR102412442B1 (ko) 2016-05-13 2022-06-22 더브테일 제노믹스 엘엘씨 보존된 샘플로부터의 장범위 링키지 정보의 회수
EP3459115A4 (en) 2016-05-16 2020-04-08 Agilome, Inc. GRAPHEN-FET DEVICES, SYSTEMS AND METHODS FOR USE THEREOF FOR SEQUENCING NUCLEIC ACIDS
US10790044B2 (en) 2016-05-19 2020-09-29 Seven Bridges Genomics Inc. Systems and methods for sequence encoding, storage, and compression
US10600499B2 (en) 2016-07-13 2020-03-24 Seven Bridges Genomics Inc. Systems and methods for reconciling variants in sequence data relative to reference sequence data
US11289177B2 (en) 2016-08-08 2022-03-29 Seven Bridges Genomics, Inc. Computer method and system of identifying genomic mutations using graph-based local assembly
US11250931B2 (en) 2016-09-01 2022-02-15 Seven Bridges Genomics Inc. Systems and methods for detecting recombination
US11485996B2 (en) 2016-10-04 2022-11-01 Natera, Inc. Methods for characterizing copy number variation using proximity-litigation sequencing
US10319465B2 (en) 2016-11-16 2019-06-11 Seven Bridges Genomics Inc. Systems and methods for aligning sequences to graph references
US10011870B2 (en) 2016-12-07 2018-07-03 Natera, Inc. Compositions and methods for identifying nucleic acid molecules
CN108234551B (zh) * 2016-12-15 2021-06-25 腾讯科技(深圳)有限公司 一种数据处理方法及装置
US10550429B2 (en) 2016-12-22 2020-02-04 10X Genomics, Inc. Methods and systems for processing polynucleotides
US10011872B1 (en) 2016-12-22 2018-07-03 10X Genomics, Inc. Methods and systems for processing polynucleotides
US10815525B2 (en) 2016-12-22 2020-10-27 10X Genomics, Inc. Methods and systems for processing polynucleotides
CN117512066A (zh) 2017-01-30 2024-02-06 10X基因组学有限公司 用于基于微滴的单细胞条形编码的方法和系统
US10995333B2 (en) 2017-02-06 2021-05-04 10X Genomics, Inc. Systems and methods for nucleic acid preparation
WO2018156418A1 (en) 2017-02-21 2018-08-30 Natera, Inc. Compositions, methods, and kits for isolating nucleic acids
US10726110B2 (en) 2017-03-01 2020-07-28 Seven Bridges Genomics, Inc. Watermarking for data security in bioinformatic sequence analysis
US11347844B2 (en) 2017-03-01 2022-05-31 Seven Bridges Genomics, Inc. Data security in bioinformatic sequence analysis
KR20190133016A (ko) 2017-03-17 2019-11-29 앱톤 바이오시스템즈, 인코포레이티드 시퀀싱 및 고 해상도 이미징
CN110870018A (zh) 2017-05-19 2020-03-06 10X基因组学有限公司 用于分析数据集的系统和方法
US10837047B2 (en) 2017-10-04 2020-11-17 10X Genomics, Inc. Compositions, methods, and systems for bead formation using improved polymers
WO2019084043A1 (en) 2017-10-26 2019-05-02 10X Genomics, Inc. METHODS AND SYSTEMS FOR NUCLEIC ACID PREPARATION AND CHROMATIN ANALYSIS
WO2019084165A1 (en) 2017-10-27 2019-05-02 10X Genomics, Inc. METHODS AND SYSTEMS FOR SAMPLE PREPARATION AND ANALYSIS
CN111051523B (zh) 2017-11-15 2024-03-19 10X基因组学有限公司 功能化凝胶珠
US10829815B2 (en) 2017-11-17 2020-11-10 10X Genomics, Inc. Methods and systems for associating physical and genetic properties of biological particles
WO2019108851A1 (en) 2017-11-30 2019-06-06 10X Genomics, Inc. Systems and methods for nucleic acid preparation and analysis
SG11202007686VA (en) 2018-02-12 2020-09-29 10X Genomics Inc Methods characterizing multiple analytes from individual cells or cell populations
US11639928B2 (en) 2018-02-22 2023-05-02 10X Genomics, Inc. Methods and systems for characterizing analytes from individual cells or cell populations
CN112262218A (zh) 2018-04-06 2021-01-22 10X基因组学有限公司 用于单细胞处理中的质量控制的系统和方法
US11932899B2 (en) 2018-06-07 2024-03-19 10X Genomics, Inc. Methods and systems for characterizing nucleic acid molecules
US11703427B2 (en) 2018-06-25 2023-07-18 10X Genomics, Inc. Methods and systems for cell and bead processing
US11525159B2 (en) 2018-07-03 2022-12-13 Natera, Inc. Methods for detection of donor-derived cell-free DNA
US20200032335A1 (en) 2018-07-27 2020-01-30 10X Genomics, Inc. Systems and methods for metabolome analysis
CN109273052B (zh) * 2018-09-13 2022-03-18 北京百迈客生物科技有限公司 一种基因组单倍体组装方法及装置
US11836430B2 (en) 2018-10-23 2023-12-05 Mgi Tech Co., Ltd. FPGA-based resequencing analysis method and device
US11459607B1 (en) 2018-12-10 2022-10-04 10X Genomics, Inc. Systems and methods for processing-nucleic acid molecules from a single cell using sequential co-partitioning and composite barcodes
WO2020123647A1 (en) * 2018-12-12 2020-06-18 University Of Washington Current-to-current nanopore data blast alignment
US11845983B1 (en) 2019-01-09 2023-12-19 10X Genomics, Inc. Methods and systems for multiplexing of droplet based assays
US20220195624A1 (en) 2019-01-29 2022-06-23 Mgi Tech Co., Ltd. High coverage stlfr
EP3921638A4 (en) 2019-02-05 2022-08-24 AMMR Joint Venture ENHANCED SELECTION OF EFFECTIVE TARGETED GENOME MANIPULATION AGENTS
US11467153B2 (en) 2019-02-12 2022-10-11 10X Genomics, Inc. Methods for processing nucleic acid molecules
US11851683B1 (en) 2019-02-12 2023-12-26 10X Genomics, Inc. Methods and systems for selective analysis of cellular samples
CN113614245A (zh) 2019-02-12 2021-11-05 10X基因组学有限公司 用于加工核酸分子的方法
US11655499B1 (en) 2019-02-25 2023-05-23 10X Genomics, Inc. Detection of sequence elements in nucleic acid molecules
CN113767178A (zh) 2019-03-11 2021-12-07 10X基因组学有限公司 用于处理光学标签化珠粒的系统和方法
US11210554B2 (en) 2019-03-21 2021-12-28 Illumina, Inc. Artificial intelligence-based generation of sequencing metadata
US11676685B2 (en) 2019-03-21 2023-06-13 Illumina, Inc. Artificial intelligence-based quality scoring
US11593649B2 (en) 2019-05-16 2023-02-28 Illumina, Inc. Base calling using convolutions
KR20220143854A (ko) 2020-02-20 2022-10-25 일루미나, 인코포레이티드 인공 지능 기반 다-대-다 염기 호출
CN111445953B (zh) * 2020-03-27 2022-04-26 武汉古奥基因科技有限公司 一种利用全基因组比对拆分四倍体鱼类亚基因组的方法
US11851700B1 (en) 2020-05-13 2023-12-26 10X Genomics, Inc. Methods, kits, and compositions for processing extracellular molecules
CN111755074B (zh) * 2020-07-03 2022-05-17 桂林电子科技大学 一种酿酒酵母菌中dna复制起点的预测方法
CN112712853B (zh) * 2020-12-31 2023-11-21 北京优迅医学检验实验室有限公司 一种无创产前检测装置
AU2022227563A1 (en) 2021-02-23 2023-08-24 10X Genomics, Inc. Probe-based analysis of nucleic acids and proteins
US20220336052A1 (en) * 2021-04-19 2022-10-20 University Of Utah Research Foundation Systems and methods for facilitating rapid genome sequence analysis
CA3216428A1 (en) * 2021-05-05 2022-11-10 The Board Of Trustees Of The Leland Stanford Junior University Methods and systems for analyzing nucleic acid molecules
CN115035948B (zh) * 2022-07-20 2023-01-24 北京阅微基因技术股份有限公司 一种str引物的设计方法和系统
CN115985400B (zh) * 2022-12-02 2024-03-15 江苏先声医疗器械有限公司 一种宏基因组多重比对序列重分配的方法及应用

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7565346B2 (en) * 2004-05-31 2009-07-21 International Business Machines Corporation System and method for sequence-based subspace pattern clustering
US20110033854A1 (en) * 2007-12-05 2011-02-10 Complete Genomics, Inc. Methods and compositions for long fragment read sequencing

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7534568B2 (en) * 1999-10-29 2009-05-19 Hologic Inc. Methods for detection of a target nucleic acid by forming a cleavage structure with a cleavage resistant probe
CA2468601A1 (en) * 2001-12-03 2003-06-12 Dnaprint Genomics, Inc. Methods and apparatus for complex genetics classification based on correspondence analysis and linear/quadratic analysis
US20040072217A1 (en) * 2002-06-17 2004-04-15 Affymetrix, Inc. Methods of analysis of linkage disequilibrium
JP2004234580A (ja) * 2003-01-31 2004-08-19 Fujitsu Ltd ゲノム情報解析支援方法、ゲノム情報解析支援プログラムおよびゲノム情報解析支援装置
US7584058B2 (en) * 2003-02-27 2009-09-01 Methexis Genomics N.V. Genetic diagnosis using multiple sequence variant analysis
US20060073501A1 (en) * 2004-09-10 2006-04-06 Van Den Boom Dirk J Methods for long-range sequence analysis of nucleic acids
AU2006259565B2 (en) * 2005-06-15 2011-01-06 Complete Genomics, Inc. Single molecule arrays for genetic and chemical analysis
AU2007249635B2 (en) * 2005-10-07 2012-05-31 Complete Genomics, Inc. High throughput genome sequencing on DNA arrays
CN1807580B (zh) * 2006-01-23 2010-05-12 重庆大学 一种从感病昆虫血淋巴中分离纯化昆虫病原真菌菌体的方法
EP1995320A3 (en) * 2007-05-23 2009-01-07 Syngeta Participations AG Polynucleotide markers
JP2010533477A (ja) * 2007-06-13 2010-10-28 ディコーデ ジェネテクス イーエイチエフ 水晶体落屑症候群および緑内障の診断、予後診断および治療における使用のためのマーカーとしての染色体15q24上の遺伝的変異
US8407554B2 (en) * 2009-02-03 2013-03-26 Complete Genomics, Inc. Method and apparatus for quantification of DNA sequencing quality and construction of a characterizable model system using Reed-Solomon codes
EP2282031B1 (en) * 2009-07-02 2012-06-06 Eurocopter Deutschland GmbH Filtering device with integrated bypass for an air inlet

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7565346B2 (en) * 2004-05-31 2009-07-21 International Business Machines Corporation System and method for sequence-based subspace pattern clustering
US20110033854A1 (en) * 2007-12-05 2011-02-10 Complete Genomics, Inc. Methods and compositions for long fragment read sequencing

Also Published As

Publication number Publication date
WO2012142531A3 (en) 2014-05-08
HK1246901A1 (zh) 2018-09-14
US20140051588A9 (en) 2014-02-20
EP2754078A4 (en) 2015-12-02
WO2012142531A2 (en) 2012-10-18
AU2012242525A1 (en) 2013-05-02
CN107368705B (zh) 2021-07-13
US20130059740A1 (en) 2013-03-07
AU2012242525B2 (en) 2015-09-17
CN103843001B (zh) 2017-06-09
CN103843001A (zh) 2014-06-04
CN107368705A (zh) 2017-11-21
CA2833165A1 (en) 2012-10-18
EP2754078A2 (en) 2014-07-16
JP2017184742A (ja) 2017-10-12

Similar Documents

Publication Publication Date Title
JP6297972B2 (ja) 少量の複合核酸の配列決定
JP2017184742A (ja) 複合核酸配列データの処理および解析
US10023910B2 (en) Multiple tagging of individual long DNA fragments
US20210262026A1 (en) Universal short adapters for indexing of polynucleotide samples
US20210254154A1 (en) Optimal index sequences for multiplex massively parallel sequencing
US20180195123A1 (en) Compositions and methods for genetic analysis of embryos
AU2015264833B2 (en) Processing and analysis of complex nucleic acid sequence data

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150406

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150406

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160223

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20160520

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160708

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20161220