JP7113053B2 - 核酸配列アセンブリ - Google Patents

核酸配列アセンブリ Download PDF

Info

Publication number
JP7113053B2
JP7113053B2 JP2020168530A JP2020168530A JP7113053B2 JP 7113053 B2 JP7113053 B2 JP 7113053B2 JP 2020168530 A JP2020168530 A JP 2020168530A JP 2020168530 A JP2020168530 A JP 2020168530A JP 7113053 B2 JP7113053 B2 JP 7113053B2
Authority
JP
Japan
Prior art keywords
read
contigs
contig
computer
paired
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020168530A
Other languages
English (en)
Other versions
JP2021007039A (ja
Inventor
エイチ. パトナム,ニコラス
シー. スタイツ,ジョナサン
ジェイ. ライス,ブランドン
Original Assignee
ダブテイル ゲノミクス エルエルシー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ダブテイル ゲノミクス エルエルシー filed Critical ダブテイル ゲノミクス エルエルシー
Publication of JP2021007039A publication Critical patent/JP2021007039A/ja
Application granted granted Critical
Publication of JP7113053B2 publication Critical patent/JP7113053B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • C12Q1/6874Methods for sequencing involving nucleic acid arrays, e.g. sequencing by hybridisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search

Description

本出願は、全体において参照によって本明細書に明確に組み込まれる、2015年2月17日出願の米国仮特許出願第62/117,256号の利益を主張し、且つ、全体において参照によって本明細書に明確に組み込まれる、2016年2月11日出願の米国仮特許出願第62/294,208号の利益も同様に主張する。
現時点でアクセス可能且つ手頃な高スループット配列決定方法は、短距離の配列の近接性及びゲノム変異の特性付けに最も良く適している。長距離の結合及びハプロタイプの位相合せの達成は、長い(例えば、数十キロベース)配列を直接且つ正確に読み取る能力、又は、ペアとなった或いはグループ分けされた配列のリードを通じた結合及び位相の関係の捕捉の何れかを要する。しかし、配列決定情報のグループ分け、及び、長距離の結合とハプロタイプ位相合せの達成に必要な配列決定情報のアセンブリの生成は、計算的に集約的なものであり、且つ時間を消費してしまう。本明細書には、ペアになった又はグループ分けされた配列のリードによって通知された配列情報から、染色体規模の近接性を持つアセンブリを得るための、計算上効果的な方法及びシステムが開示される。
本明細書には、核酸データのスキャフォールディングに関連する、方法、組成物、アルゴリズム、及びシステムが開示される。本明細書における手法は、リードペア(read pair)のリードがデータセットにおいてマッピングされるコンティグの位相又は物理的結合の情報に関する情報を推測するために、リードペアを利用する。核酸データセットにおけるコンティグは、それらの相対的な位置決めに関連するスコア又はパラメータに対するそのような活性の影響を考慮すると、端から端まで順序づけられ、配向され、又は融合され、或いは、場合によっては一方が他方に挿入される(総体的に、「スキャフォールドされる」)。
場合によっては、スコア又はパラメータは、1つ又は別のコンティグ構成のリードペアのデータセットに関する集合的なリードペアの分離に対するコンティグの再配置の結果として生じるインパクトの尺度である。それを生成するのに使用される手法に依存して、リードペアのデータセットは、特定のリードペア分離の分布曲線を持つこともある。度数に応じてリードペア分離としてマッピングされると、与えられたリードペアのデータセットに関して予期されたリードペアの距離分布を判定することができる。その後、核酸サンプル及びリードペアの生成方法を考慮して予期されるリードペアの距離分布に、データセットに関するリードペアの距離分布を一致、接近、又はより近くに接近させるように、一連のコンティグに対してリードペアをマッピングして、コンティグを位置決めしてもよい(順に、配向、又はその他)。
コンティグの位置決めは、コンティグ又はスキャフォールドを互いに対して順序付けること、コンティグ又はスキャフォールドを互いに対して配向すること、コンティグ又はスキャフォールドを端から端まで結合すること、コンティグ又はコンティグのスキャフォールドにおける間隙に1以上のコンティグを挿入すること、又はデータセットにおいて誤ってアセンブルされるコンティグ又はスキャフォールドを分割することを多様に含む。場合によっては、このプロセスは、最適な又は最適化された構成を得るまで継続される一方、代替的な場合においては、このプロセスは、初期のコンティグ又はスキャフォールドの構成にわたる改善を達成するためにのみ実行される。代替的に、前記プロセスは、サンプルのコンティグのセットの一部の画分が、例えば70%、75%、80%、85%、90%、95%、99%、99.9%、又はそれ以上、正確にスキャフォールドされるまで継続される。多くの場合、配列データセットは、ヒト又は倍数体植物サンプルのゲノム或いはトランスポゾンが豊富なゲノムサンプルなどの、複雑なゲノムサンプルさえも表示し、コンティグの順序づけ、配向、端から端までの組み合わせ、別のスキャフォールド内の1つのスキャフォールドの組み合わせ、或いは、スキャフォールド又はコンティグを壊す(総体的に「スキャフォールドする」)ことによる、データセットの構成及びデータセットの改善の計算上の評価は、わずか8時間、7時間、6時間、5時間、4時間、又は4時間未満で完了する。
スコア評価は、隣接したコンティグ又はスキャフォールドのサブセットを一度に調べることにより、全体的又は局所的に、或いは全体的且つ局所的に行われる。局所的に行なわれると、例えば、2、3、4、5、6、又は6より多くのコンティグのサブセットが、最適化されたスコアを判定するために調べられ、その後、以前のウィンドウについて判定される最適化された構成を頻繁に考慮して、「ウィンドウ」が1つのコンティグに移り、プロセスが繰り返される。代替的に、サブセットは、0.01%、0.1%、1%、又は5%などの、合計の核酸配列セット(例えば、1つ又は複数のゲノム)の画分として一度に定義される。場合によっては、「ウィンドウ」のサイズは変動し、それにより、容易にアセンブルされた領域は、より大きなウィンドウを割り当てられ、一方で、より多くの負荷のある領域、又は、より高密度のリード、或いは矛盾且つ複雑な分析であるより高密度のリードを持つ領域は、より小さなウィンドウのサイズを割り当てられる。
本明細書には、核酸配列情報のコンティグをスキャフォールドする方法が提供され、該方法は、初期の構成を持つ一連のコンティグ配列を得る工程;一連のペアエンドリードを得る工程;標準のペアエンドリードの距離度数データを得る工程;少なくとも1つのペアエンドリードに共存する配列を共有するコンティグのペアをグループ分けする工程;及び、コンティグを分離するためにマッピングされるリードペアに関するリードペアの距離度数データが、初期の構成におけるコンティグ配列のリードペア度数データに比べて、標準のペアエンドリードの距離度数データとより近くに近似するように、グループ分けされたコンティグ配列をスキャフォールドする工程を含む。スキャフォールドする工程は、一連のコンティグのセットを順序付けること、一連のコンティグを配向すること、少なくとも2つのコンティグを端から端まで融合すること、1つのコンティグを別のコンティグに挿入すること、及び1つのコンティグを少なくとも2つの構成要素であるコンティグへと切断することの、少なくとも1つを含む。幾つかの方法において、標準のペアエンドリード度数は、両方のリードが共通のコンティグに対してマッピングされる、ペアエンドリードから得られる。代替的に又は組み合わせにおいて、標準のペアエンドリード度数は、以前に生成された曲線から得られる。初期の構成は、ランダムな構成であるか、又は予め構成されている。好ましい実施形態において、コンティグを分離するためにマッピングされるリードペアに関するリードペアの距離度数データは、リードペア距離の尤度が増大する場合に、ペアエンドリードの距離度数データとより近くに近似する。多くの場合、リードペア距離の尤度は最大限にされる。コンティグを分離するためにマッピングされるリードペアに関するリードペアの距離度数データは、リードペアの距離度数データと標準のペアエンドリードの距離度数データとの間の差の統計的な尺度が減少する場合に、ペアエンドリードの距離度数データとより近くに近似する。多くの統計的な尺度が利用可能である。例えば、リードペアの距離度数データと標準のペアエンドリードの距離度数データとの間の距離の統計的な尺度は、様々な場合において、ANOVA、t-検定、及びX二乗検定(X-squared test)の少なくとも1つを含む。コンティグを分離するためにマッピングされるリードペアに関するリードペアの距離度数データは、得られる順序づけたコンティグの中のリードペアの距離分布の偏差が、標準のペアエンドリードの距離度数と比べて減少する場合に、ペアエンドリードの距離度数データとより近くに一致する。代替的に又は組み合わせにおいて、得られる順序付けたコンティグ中のリードペアの距離分布の偏差は、標準のペアエンドリードの距離度数と比べて最小化される。幾つかのスキャフォールドの評価において、第1のクラスター及び第2のクラスターに関連した、ペアエンドリードにおける配列を共有するコンティグは、より多くの共有されたエンドのリードを持つクラスターに割り当てられる。クラスター化は頻繁に、生体における染色体の数以上である多くのグループに、コンティグを配することを含む。頻繁に、ほんの1つのペアエンドリードを、クラスターの1つのコンティグと共有するコンティグは、当該クラスターに含まれていない。反復配列を含む、少なくとも1つのペアエンドリードのみをクラスターと共有するコンティグは頻繁に、前記クラスターに含まれていない。同様に、低品質の配列を含む、少なくとも1つのペアエンドリードのみをクラスターと共有するコンティグは頻繁に、前記クラスターに含まれていない。幾つかの方法において、一連のペアエンドリードは、核酸内に内部の二本鎖切断を生成するためにサンプルDNAを消化すること、少なくとも1つの再連結結合部を形成するために二本鎖切断が再連結するのを可能にすること、及び、少なくとも1つの再連結結合部にわたり配列決定を行うことにより、得られる。DNAは、核タンパク質又はナノ粒子などの少なくとも1つのDNA結合剤に、幾つかの手法においてはペアリード生成に架橋結合される。DNAは、再構成された染色質へと再びアセンブルされる、分離された裸のDNAであるが、特にDNA分子が互いに結合しない場合、結合タンパク質を持つDNAは一部の状況下で適切となる。頻繁に、再構成された染色質は架橋結合される。再構成された染色質はDNA結合タンパク質を含む。代替的に又は組み合わせにおいて、再構成された染色質はナノ粒子を含む。好ましくは、場合によっては、コンティグのクラスター化は、生体に関する染色体の数とは無関係である。第1のクラスター及び第2のクラスターに関連した、ペアエンドリードにおける配列を共有するコンティグは、多くの場合に、より多くの共有されたエンドのリードを持つクラスターに割り当てられる。代替的に又は組み合わせにおいて、第1のクラスター及び第2のクラスターに関連した、ペアエンドリードにおける配列を共有するコンティグは、より大きなリードペアの距離の尤度値を有しているクラスターに割り当てられ、又は、第1のクラスター及び第2のクラスターに関連した、ペアエンドリードにおける配列を共有するコンティグは、標準のリードペアの距離分布に比べて、そのリードペアの分布における偏差が低いクラスターに割り当てられる。代替的に、第1のクラスター及び第2のクラスターに関連した、ペアエンドリードにおける配列を共有するコンティグは、各クラスターから除外される。頻繁に、クラスター化は、生体における染色体の数以上である多くのグループに、コンティグを配することを含む。幾つかのスキャフォールディングは、前記クラスター化されたコンティグの推定上の隣接するコンティグの第1のセットを選択すること、前記リードペアに関するリードペアの距離の総計的な尺度を減らす、推定状の隣接するコンティグの第1のセットの最小の距離順序を判定すること、及び、リードペアの前記総計的な尺度を減らすように推定状の隣接するコンティグの第1のセットをスキャフォールドすることを含む。推定上の隣接したコンティグの第1のセットは2つのコンティグから成る。代替的に、推定上の隣接したコンティグの第1のセットは3つのコンティグから成る。代替的に、推定上の隣接したコンティグの第1のセットは4つのコンティグから成る。代替的に、推定上の隣接したコンティグの第1のセットは4つのコンティグを含む。幾つかのスキャフォールディングは、推定上の隣接したコンティグの第1のセットにおける各コンティグの順序と配向を判定することを含む。最小の距離順序の判定は、場合によっては全ての起こり得るコンティグ構成に関して前記セットの2つのコンティグに対しマッピングされるリードを含む、少なくとも1つのリードペアに関する予期されるリードペアの距離を比較することを含む。スキャフォールディングは頻繁に、前記リードペアに関して最小のリードペア距離に対応するコンティグの配向を選択することを含む。幾つかの方法は、最大尤度のリードペア距離分布に対応するコンティグの配向を選択することを更に含む。幾つかの方法は、前記コンティグクラスターのリードペアの総計的な尺度に関して最小のリードペア距離に対応するコンティグ配向を選択することを更に含む。幾つかの方法において、予期されたリードペアの距離は、ペアエンドリードの距離度数データと比較される。幾つかの方法において、前記ペアエンドリードの距離度数データとの比較は、式1を使用することを含む。幾つかの方法は、前記クラスター化されたコンティグの推定上の隣接したコンティグの第2のセットを選択することを含み、当該第2のセットは、前記第1のセットの終端のコンティグの1つを除いて全て、及び前記クラスター化されたコンティグの1つの追加のコンティグを含み、及び、前記方法は、リードペアの距離の前記総計的な尺度を減らすように推定状の隣接したコンティグの第2のセットをスキャフォールドすることを含む。幾つかの方法は、前記クラスター化されたコンティグの推定上の隣接したコンティグの第3のセットを選択することを含み、当該第3のセットは、前記第2のセットの終端のコンティグの1つを除いて全て、及び前記第1のセット及び第2のセットに含まれていない、前記クラスター化されたコンティグの1つの追加のコンティグを含み、及び、前記方法は、リードペアの距離の前記総計的な尺度を減らすように推定状の隣接したコンティグの第3のセットをスキャフォールドすることを含む。この後に、多くの場合において、前記クラスター化されたコンティグの大多数が順序付けられるまで、少なくとも1つの追加のセットが反復して選択される。選択は頻繁に、前記クラスター化されたコンティグがそれぞれ順序付けられるまで少なくとも1つの追加のセットを反復して選択することを必要とする。核酸配列は、1つのゲノム、又は場合によっては複数のゲノムなどのサンプルに由来する。幾つかの実施形態において、前記方法は、本明細書において議論されるようなコンティグ及びリードペアのデータを受け取り、上記で議論されるようなデータを処理し、及び、上記で議論されるようなパラメータが改善された、スキャフォールドされたコンティグのデータを出力するように構成されるプロセッサを含む、コンピュータにより実施されたシステム上で行われる。
本明細書には、クラスターにおけるコンティグをスキャフォールドする方法が提供され、該方法は:コンティグの各ペアに関して対数尤度比スコアを割り当てる工程;対数尤度比スコアにより接続を選別する工程;及びアセンブリの合計スコアを増やすように、対数尤度比スコアの減少する順序でコンティグの接続を許容又は拒絶する工程を含む。幾つかの方法において、スキャフォールディングは、一連のコンティグのセットを順序付けること、及び/又は一連のコンティグを配向すること、及び/又は2つのコンティグを端から端まで融合すること、及び/又は1つのコンティグを別のコンティグに挿入すること、及び/又は1つのコンティグを少なくとも2つの構成要素であるコンティグへと切断することを含む。多くの場合、コンティグは1つ又は複数のゲノムを含む。幾つかの実施形態において、前記方法は、本明細書において議論されるようなコンティグ及びリードペアのデータを受け取り、上記で議論されるようなデータを処理し、及び、上記で議論されるようなパラメータが改善された、スキャフォールドされたコンティグのデータを出力するように構成されるプロセッサを含む、コンピュータにより実施されたシステム上で行われる。
本明細書には、クラスター内の複数のコンティグの局所的に最適なコンティグ構成を判定する方法が提供される。幾つかのそのような方法は、a)コンティグのクラスターに沿って位置iにて始まるサイズwのコンティグの配列ウィンドウを識別する工程;b)ウィンドウにおける各位置iの互換的な順序及び配向のスコアを調べることにより、ウィンドウのコンティグについてのw!2の順序付け及び配向の選択肢を考慮する工程;c)最適なスコアを得るために前記ウィンドウの前記wのコンティグを配向且つ順序付ける工程;d)ウィンドウを位置i+1へと移す工程;及びe)最適なスコアを判定するために、前記wのコンティグの順序付け及び配向を用いて、位置i+1にて前記ウィンドウに関して工程(a)、(b)、及び(c)を繰り返す工程を含み;それにより、スコアに対して、局所的に最適な構成における前記複数のコンティグを配向且つ順序付ける。幾つかの方法において、クラスターにおける複数のコンティグに対してマッピングされるリードペアのデータが得られ、標準のペアエンドリード度数データが得られ、及び、前記wのコンティグの配向及び順序付けに関するスコアは、クラスターにおける複数のコンティグに対してマッピングされるリードペアのデータに関するリードペアの距離データのセットが、どのくらい近くに標準のペアエンドリード度数データのセットに一致するのかについての尺度である。幾つかの方法において、クラスターにおける複数のコンティグに対してマッピングされるリードペアのデータが得られ、スコアは合計のリードペアの距離であり、スコアは合計のリードペアの距離が最小化される場合に最適化される。ウィンドウのサイズwは3であり、又は代替的にwは4であり、又は代替的にwは5であり、又は代替的にwは6である。場合によっては、wは第1のクラスターに関する第1の値を有し、wは第2のクラスターにて第2の値を有している。wは、幾つかの方法において、セットのコンティグの1%、又は代替的にセットのコンティグの5%、或いは代替的にセットのコンティグの10%を含むように選択される。多くの方法において、スコアはリードペアの距離尤度スコアであり、スコアは、与えられたウィンドウのサイズについて最大限にされる場合に最適となる。スコアは、幾つかの例示的実施形態において式1を使用して計算される。スコアは、予期されたリードペアの分布からの偏差であり、場合によってスコアが与えられたウィンドウのサイズについて最小化される場合に最適となる。複数のコンティグは、1つ又は複数のゲノム、或いは非ゲノム核酸ソースを含む。幾つかの実施形態において、前記方法は、本明細書において議論されるようなコンティグ及びリードペアのデータを受け取り、上記で議論されるようなデータを処理し、及び、上記で議論されるようなパラメータが改善された、スキャフォールドされたコンティグのデータを出力するように構成されるプロセッサを含む、コンピュータにより実施されたシステム上で行われる。
本明細書には、核酸配列アセンブリのための方法が提供され、該方法は:精製されたDNAを得る工程;DNA/染色質複合体を形成するために精製されたDNAをDNA結合剤と結合させる工程;粘着末端を残すために制限酵素によりDNA染色質複合体をインキュベートする工程;DNAの端部を結合するために連結を行なう工程;ペアエンドリードを生成するために連結されたDNA結合にわたり配列決定を行う工程;及び精製されたDNAの配列を表すコンティグを含む核酸のデータセットをスキャフォールドするためにペアエンドリードを使用する工程を含む。幾つかの方法において、精製されたDNAは、1つ又は複数のゲノムに由来する。幾つかの実施形態において、前記方法は、本明細書において議論されるようなコンティグ及びリードペアのデータを受け取り、上記で議論されるようなデータを処理し、及び、上記で議論されるようなパラメータが改善された、スキャフォールドされたコンティグのデータを出力するように構成されるプロセッサを含む、コンピュータにより実施されたシステム上で行われる。
本明細書には、繰返しのコンティグ領域に対しマッピングされるリードペア配列のリードを識別する方法が提供され、該方法は:核酸サンプルのためにコンティグのデータセットを得る工程;隣接していない物理的に結合した配列情報に対応する少なくとも1つのリードペアの配列のリードを得る工程;及び、リードペアの配列のリードの少なくとも1つのリードがコンティグのデータセットの2つの別個の座位に対してマッピングされる場合にリードペアの配列のリードを除外する工程を含む。幾つかの方法において、繰返しの領域は、第1の閾値を越える、ショットガンリード深さを持つ配列を含む。幾つかの方法において、繰返しの領域は、第2の閾値を越えるリードの深さを持つ塩基の位置を含む。頻繁に、第1の閾値及び第2の閾値は、リード深さの全体的な分布に対して固定される。第1の閾値は、多くの場合にリードの深さの全体的な分布の3倍である。代替的に、第1の閾値は、このセット内で、又は該セットに隣接して、2、2.5、3.5、4、4.5、5、5.5、6、又は非整数の値である。第2の閾値は頻繁に、リードの深さの全体的な分布の3.5倍である。代替的に、第2の閾値は、このセット内で、又は該セットに隣接して、2、2.5、3、4、4.5、5、5.5、6、又は非整数の値である。幾つかの方法において、精製されたDNAは、1つ又は複数のゲノムに由来する。幾つかの実施形態において、前記方法は、本明細書において議論されるようなコンティグ及びリードペアのデータを受け取り、上記で議論されるようなデータを処理し、及び、上記で議論されるようなパラメータが改善された、スキャフォールドされたコンティグのデータを出力するように構成されるプロセッサを含む、コンピュータにより実施されたシステム上で行われる。
本明細書には、コンティグのアセンブリの決定を誘導する方法が提供され、該方法は、第1のコンティグと第2のコンティグとの間の全域(spanning)リードペアの配列の数及び示唆された分離を観察する可能性を判定する工程を含み、ここで、コンティグは、セット[++、+-、-+、--]内にoの相対的な配向を有ししており、間隙の長さにより分離される。幾つかの方法は更に、分離距離にわたるリードペアの配列の分布の可能性を標準化する工程を含み、該工程は、リードペアの配列を、核酸サンプルを独立してサンプリングするノイズペアと比較することを含む。場合によっては、核酸サンプルはゲノムを含む。代替的に、核酸サンプルは複数のゲノム、又は非ゲノムソースを含む。頻繁に、ノイズペアの総数は、コンティグペアのサンプルについての結合の密度を表にすることにより判定される。更に本明細書には、密度の最高及び最低1%が除外される方法が提供される。該方法に対する代案において、最高.5%、.6%、.7%、.8%、.9%、1.1%、1.2%、1.3%、1.4%、1.5%、1.6%、1.7%、1.8%、1.9%、2%、3%、4%、5%、又は5%より多くが除外され、同様に最低.5%、.6%、.7%、.8%、.9%、1.1%、1.2%、1.3%、1.4%、1.5%、1.6%、1.7%、1.8%、1.9%、2%、3%、4%、5%、又は5%より多くが除外される。幾つかの方法はコンティグの順序を判定する工程を含む。幾つかの方法はコンティグの配向を判定する工程を含む。幾つかの方法は、コンティグの順序と配向の両方を判定する工程を含む。幾つかの実施形態において、前記方法は、本明細書において議論されるようなコンティグ及びリードペアのデータを受け取り、上記で議論されるようなデータを処理し、及び、上記で議論されるようなパラメータが改善された、スキャフォールドされたコンティグのデータを出力するように構成されるプロセッサを含む、コンピュータにより実施されたシステム上で行われる。
本明細書には、コンティグの誤った結合の矯正のための方法が提供され、該方法は、初期の構成を持つ一連のコンティグ配列を得る工程;一連のペアエンドリードを得る工程;標準のペアエンドリードの距離度数データを得る工程;少なくとも1つのペアエンドリードに共存する配列を共有するコンティグのペアをグループ分けする工程;コンティグのグループ分けのためのリードペアの度数データを、標準のペアエンドリード距離度数データと比較する工程;グループ分けしたコンティグに分裂を導入することにより、コンティグのグループ分けのためのリードペアの度数データが、標準のペアエンドリードの距離度数データと近くに近似するかどうかを判定する工程;及び、コンティグのグループ分けのためのリードペアの度数データが標準のペアエンドリードの距離度数データとより近くに近似する場合に、コンティグに分裂を導入する工程を含む。幾つかの方法において、第1の位置は、分裂を導入する前に前記閾値より下の前記対数尤度を持つ少なくとも1つの隣接した第2の位置と融合される。第2の隣接した位置は、第1の位置から300以下の塩基対である。代替的に、第2の位置は、第1の位置から1000以下の塩基対の位置を含んでいない。代替的に、第2の隣接した位置は、50、100、150、200、250、350、400、450、500、550、600、650、700、750、800、850、900、950、1100、1200、1300、1400、1500、1600、1700、1800、1900、又は2000以下、或いは、列挙した値に及ぶ範囲内の整数の値である。更に本明細書には、対数尤度の変化の判定が、コンティグの密度をマッピングする平均のペアエンドの識別、密度をマッピングする平均のペアエンドの、少なくとも3xの密度をマッピングするペアエンドを持つコンティグのセグメントの識別、及び、密度をマッピングする平均のペアエンドの、少なくとも3xの密度をマッピングするペアエンドを持つコンティグのセグメントの除外を含む、方法が提供される。代替的に、1.5x、1.6x、1.7x、1.8x、1.9x、2.0x、2.1x、2.2x、2.3x、2.4x、2.5x、2.6x、2.7x、2.8x、2.9x、3.1x、3.2x、3.3x、3.4x、3.5x、3.6x、3.7x、3.8x、3.9x、4x、4.1x、4.2x、4.3x、4.4x、4.5x、4.6x、4.7、4.8x、4.9x、5x、又は5xより多くの閾値が使用される。更に本明細書には、コンティグ配列のセットが1つのゲノムに由来する方法が提供される。更に本明細書には、コンティグ配列のセットが複数のゲノムに由来する方法が提供される。幾つかの実施形態において、前記方法は、本明細書において議論されるようなコンティグ及びリードペアのデータを受け取り、上記で議論されるようなデータを処理し、及び、上記で議論されるようなパラメータが改善された、スキャフォールドされたコンティグのデータを出力するように構成されるプロセッサを含む、コンピュータにより実施されたシステム上で行われる。
本明細書には、コンティグアセンブリのための方法が提供され、該方法は:出発アセンブリの分裂したコンティグを示す工程であって、分裂したコンティグはノードであり、分裂したコンティグのエッジは整数の順序付けられたペアのリストにより標識され、分裂したコンティグのエッジはマッピングされたリードペアの配列に対応する、工程;及びマッピングされた接続の閾値の数よりも少ないエッジを排除する工程を含む。幾つかの方法において、閾値の数は5%未満である。代替的に、閾値の数は、20%、15%、14%、13%、12%、11%、10%、9%、8%、7%、6%、4%、3%、2%、1%、又はそれ以下である。場合によっては、閾値の数はtリンクよりも少ない。幾つかの方法において、コンティグは、コンティグの長さに対する、対応するノードのグラフにおける程度の比率が、全ての値の分布のハイエンド(high end)の約5%を超える塩基対であるエッジを含む。幾つかの方法において、コンティグは1つのゲノムに由来する。幾つかの方法において、コンティグは複数のゲノムに由来する。幾つかの実施形態において、前記方法は、本明細書において議論されるようなコンティグ及びリードペアのデータを受け取り、上記で議論されるようなデータを処理し、及び、上記で議論されるようなパラメータが改善された、スキャフォールドされたコンティグのデータを出力するように構成されるプロセッサを含む、コンピュータにより実施されたシステム上で行われる。
本明細書には、少なくとも1つのスキャフォールドへとコンティグ配列の情報をアセンブルする方法が提供され、該方法は、複数のコンティグに対応する配列情報を得る工程、複数のコンティグにより表される核酸サンプルからペアエンドリードを得る工程、及び、予測されたリードペアの距離データのセットからのリードペアの距離パラメータの偏差が最小化されるように複数のコンティグを構成する工程を含み、ここで、構成する工程は8時間未満で生じる。予測されたリードペアの距離データのセットは、多くの好ましい実施形態においてリードペアの距離尤度曲線を含む。場合によっては、リードペアの距離パラメータは、リードペアの距離尤度曲線に対して最大の距離尤度である。代替的に、リードペアの距離パラメータは、リードペアの距離尤度曲線に対して最小の変異である。コンティグの局所的に隣接したセットは2つのコンティグを含む。代替的に、コンティグの局所的に隣接したセットは3つのコンティグを含む。代替的に、コンティグの局所的に隣接したセットは4つのコンティグを含む。代替的に、コンティグの局所的に隣接したセットは5つのコンティグを含む。代替的に、コンティグの局所的に隣接したセットは6つのコンティグを含む。好ましくは、構成する工程は7時間で生じる。代替的に、構成する工程は、6時間未満、5時間、4時間、3時間、2時間、1時間、又は1時間未満で生じる。コンティグの情報は多くの場合において1つのゲノムに由来する。代替的に、コンティグの配列情報は複数のゲノムに由来する。幾つかの実施形態において、前記方法は、本明細書において議論されるようなコンティグ及びリードペアのデータを受け取り、上記で議論されるようなデータを処理し、及び、上記で議論されるようなパラメータが改善された、スキャフォールドされたコンティグのデータを出力するように構成されるプロセッサを含む、コンピュータにより実施されたシステム上で行われる。
本明細書には、一連のコンティグ配列をスキャフォールドする方法が提供され、該方法は、核酸サンプルを表す一連のコンティグ配列を得る工程、核酸サンプルに関するリードペアのデータを得る工程、及び、核酸サンプルに関するリードペアのデータが予期されたリードペアの分布とより近くに近似するように、一連のコンティグ配列を順序付け且つ配向する工程を含み、ここで、一連のコンティグ配列の70%が、8時間以下で核酸サンプルにおける配列の相対的な順序及び配向と一致するように順序付けられ且つ配向される。スキャフォールディングは、一連のコンティグのセットを順序付けること、一連のコンティグを配向すること、少なくとも2つのコンティグを端から端まで融合すること、1つのコンティグを別のコンティグに挿入すること、及び/又は1つのコンティグを少なくとも2つの構成要素であるコンティグへと切断することの、少なくとも1つを含む。幾つかの方法において、一連のコンティグ配列の80%が、8時間以下で核酸サンプルにおける配列の相対的な順序及び配向と一致するように順序付けられ且つ配向される。代替的に、一連のコンティグ配列の90%が、8時間以下で核酸サンプルにおける配列の相対的な順序及び配向と一致するように順序付けられ且つ配向される。代替的に、一連のコンティグ配列の95%が、8時間以下で核酸サンプルにおける配列の相対的な順序及び配向と一致するように順序付けられ且つ配向される。場合によっては、一連のコンティグ配列の70%が、4時間以下、又は代替的に2時間以下、或いは代替的に1時間以下で核酸サンプルにおける配列の相対的な順序及び配向と一致するように順序付けられ且つ配向される。コンティグの情報は多くの場合において1つのゲノムに由来する。代替的に、コンティグの配列情報は複数のゲノムに由来する。
本明細書には、一連の核酸配列データを構成する方法が提供され、該方法は:スキャフォールドを含む複数のコンティグに対応する配列情報を得る工程、ペアエンドリードの情報を得る工程、及び、ペアエンドリードの情報に関するペアエンドリードの距離分布が基準のペアエンドリードの距離分布に近似するよう全体的に最適化されるように複数のコンティグを構成する工程を含み、ここで、構成する工程は8時間未満で生じる。コンティグの情報は多くの場合において1つのゲノムに由来する。代替的に、コンティグの配列情報は複数のゲノムに由来する。幾つかの実施形態において、前記方法は、本明細書において議論されるようなコンティグ及びリードペアのデータを受け取り、上記で議論されるようなデータを処理し、及び、上記で議論されるようなパラメータが改善された、スキャフォールドされたコンティグのデータを出力するように構成されるプロセッサを含む、コンピュータにより実施されたシステム上で行われる。
本明細書には、スキャフォールドアセンブリを改善する方法が提供され、該方法は、各ノードが少なくとも1つのコンティグ配列を含む複数の結合されたノードペアを含んでいるスキャフォールドのセットを得る工程、複数の結合されたノードペアに対してマッピングされたペアエンドリードの情報を得る工程、結合されたノードペアにより共有されるリードペアの数を計数する工程、前記数を閾値と比較する工程、及び、前記数が閾値より下に落ち込む場合にノードペアを結合されていないノードへと切断する工程を含む。場合によっては、固有のコンティグ配列に対してマッピングされるリードペアのみが計数される。更に本明細書には、別個のリードペアエンドの閾値の数がマッピングされるコンティグ配列セグメントに対してマッピングされるリードペアが破棄される方法が提供される。閾値の数は、多くの場合、繰返しでない配列に関して3xの平均数である。代替的に、1.5x、1.6x、1.7x、1.8x、1.9x、2x、2.1x、2.2x、2.3x、2.4x、2.5x、2.6x、2.7x、2.7x、2.8x、2.9x、3.1x、3.2x、3.3x、3.4x、3.5x、3.6x、3.7x、3.8x、3.9x、4x、4.5x、5x、又は5xより多くの閾値が利用される。コンティグの情報は多くの場合において1つのゲノムに由来する。代替的に、コンティグの配列情報は複数のゲノムに由来する。幾つかの実施形態において、前記方法は、本明細書において議論されるようなコンティグ及びリードペアのデータを受け取り、上記で議論されるようなデータを処理し、及び、上記で議論されるようなパラメータが改善された、スキャフォールドされたコンティグのデータを出力するように構成されるプロセッサを含む、コンピュータにより実施されたシステム上で行われる。
本明細書には、スキャフォールドアセンブリを改善する方法が提供され、該方法は、各ノードが少なくとも1つのコンティグ配列を含む複数の結合されたノードペアを含んでいるスキャフォールドのセットを得る工程、複数の結合されたノードに対してマッピングされたペアエンドリードの情報を得る工程、標準のペアエンドリードの距離度数データを得る工程;複数の結合されたノードに対してマッピングされたペアエンドリードの情報に関するペアエンドリードの度数データを、標準のペアエンドリードの距離度数データと比較する工程;及び、結合されたノードの切断が、結果として、標準のペアエンドリードの距離度数データとより近くに近似するように複数の結合されたノードに対してマッピングされたペアエンドリードの情報に関する、ペアエンドリードの度数データをもたらす場合に、少なくとも1つの結合されたノードを切断する工程を含む。コンティグの情報は多くの場合において1つのゲノムに由来する。代替的に、コンティグの配列情報は複数のゲノムに由来する。幾つかの実施形態において、前記方法は、本明細書において議論されるようなコンティグ及びリードペアのデータを受け取り、上記で議論されるようなデータを処理し、及び、上記で議論されるようなパラメータが改善された、スキャフォールドされたコンティグのデータを出力するように構成されるプロセッサを含む、コンピュータにより実施されたシステム上で行われる。
本明細書には、スキャフォールドアセンブリの方法が提供され、該方法は、一連のコンティグ配列を得る工程、及び一連のペアエンドリードを含む入力データを得る工程を含み、ここで、ペアエンドリードの少なくとも1%が少なくとも1kbのリードペアの距離を含み、一連のペアエンドリードは自然配向でペアエンドリードを含み、リードペアの配列決定のエラー率は0.1%以下であり、入力データのRN50はアセンブルされたスキャフォールドの20%未満であり、前記方法は更に、スキャフォールドを出力する工程を含み、スキャフォールドのRN50は入力のRN50の少なくとも2xである。随意に、エラー率は、12%。11%、10%、9%、8%、7%、6%、5%、4%、3%、2%、1%、0.9%、0.8%、0.7%、0.6%、0.5%、0.4%、0.3%、0.2%、0.1%、0.09%、0.08%、0.07%、0.06%、0.05%、0.04%、0.03%、0.02%、0.01%、0.001%、0.0001%未満、又は0.00001%以下である。幾つかの実施形態において、前記方法は、本明細書において議論されるようなコンティグ及びリードペアのデータを受け取り、上記で議論されるようなデータを処理し、及び、上記で議論されるようなパラメータが改善された、スキャフォールドされたコンティグのデータを出力するように構成されるプロセッサを含む、コンピュータにより実施されたシステム上で行われる。
本明細書には、スキャフォールドアセンブリのための方法が提供され、該方法は:Tコンティグ配列を含む一連のコンティグ配列を得る工程、一連のペアエンドリードを得る工程を含み、ここで、ペアエンドリードの少なくとも1%は少なくとも1kbのリードペアの距離を含み、一連のペアエンドリードは自然な飛行でペアエンドリードを含み、リードペアの配列決定のエラー率は0.1%未満であり、及び前記方法は更に、Tを含むスキャフォールドを出力する工程を含み、Tは<Tである。場合によっては、Tは3未満である。随意に、エラー率は、12%。11%、10%、9%、8%、7%、6%、5%、4%、3%、2%、1%、0.9%、0.8%、0.7%、0.6%、0.5%、0.4%、0.3%、0.2%、0.1%、0.09%、0.08%、0.07%、0.06%、0.05%、0.04%、0.03%、0.02%、0.01%、0.001%、0.0001%未満、又は0.00001%以下である。代替的に、Tは、10、9、8、7、6、5、又は4未満となるように選択される。場合によっては、Tが2であり、場合によっては、Tは1つのコンティグである。Tは、多くの場合においてTの50%、40%、30%、20%、10%、5%、3%、2%、又は1%未満である。コンティグの情報は多くの場合において1つのゲノムに由来する。代替的に、コンティグの配列情報は複数のゲノムに由来する。幾つかの実施形態において、前記方法は、本明細書において議論されるようなコンティグ及びリードペアのデータを受け取り、上記で議論されるようなデータを処理し、及び、上記で議論されるようなパラメータが改善された、スキャフォールドされたコンティグのデータを出力するように構成されるプロセッサを含む、コンピュータにより実施されたシステム上で行われる。
本明細書には、核酸配列データ処理の方法が提供され、該方法は:リードペアを含む入力データを受け取る工程を含み、該リードペアの少なくとも1%は、少なくとも1kbまで分離され且つ自然な配向にある2つの核酸セグメントからの配列データを含み、入力データのRN50はアセンブルされたスキャフォールドの20%未満であり、前記入力データのエラー率は0.1%未満であり;及び前記方法は更にスキャフォールドを含む出力データを出力する工程を含み、出力データのRN50は入力データのRN50の少なくとも2xである。幾つかの方法において、出力データのRN50は、入力データのRN50の少なくとも10x、又は代替的に3x、4x、5x、6x、7x、8x、9x、11x、12x、13x、14x、15x、16x、17x、18x、19x、20x、30x、40x、50x、60x、70x、80x、90x、100x、500x、1000x、又は1000xより上である。更に本明細書には、スキャフォールドが正確な順序及び配向で標的ゲノムサンプル配列の少なくとも90%を含む方法が、提供される。更に本明細書には、スキャフォールドが正確な順序及び配向で標的ゲノムサンプル配列の少なくとも99%を含む方法が、提供される。幾つかの実施形態において、前記方法は、本明細書において議論されるようなコンティグ及びリードペアのデータを受け取り、上記で議論されるようなデータを処理し、及び、上記で議論されるようなパラメータが改善された、スキャフォールドされたコンティグのデータを出力するように構成されるプロセッサを含む、コンピュータにより実施されたシステム上で行われる。
本明細書には、核酸配列データ処理の方法が提供され、該方法は:リードペアを含むデータセットを出力する工程を含み、該リードペアの少なくとも1%は、少なくとも1kbまで分離され且つ自然配向にある2つの核酸セグメントからの配列データを含み、出力データのRN50はアセンブルされたスキャフォールドの20%未満であり、前記出力データのエラー率は0.1%未満であり;及び前記方法は更にスキャフォールドを含むデータセットを受け取る工程を含み、出力データのRN50は入力データのRN50の少なくとも2xである。幾つかの方法において、出力データのRN50は、入力データのRN50の少なくとも10x、又は代替的に3x、4x、5x、6x、7x、8x、9x、11x、12x、13x、14x、15x、16x、17x、18x、19x、20x、30x、40x、50x、60x、70x、80x、90x、100x、500x、1000x、又は1000xより上である。更に本明細書には、スキャフォールドが正確な順序及び配向で標的ゲノムサンプル配列の少なくとも90%を含む方法が、提供される。更に本明細書には、スキャフォールドが正確な順序及び配向で標的ゲノムサンプル配列の少なくとも99%を含む方法が、提供される。幾つかの実施形態において、前記方法は、本明細書において議論されるようなコンティグ及びリードペアのデータを受け取り、上記で議論されるようなデータを処理し、及び、上記で議論されるようなパラメータが改善された、スキャフォールドされたコンティグのデータを出力するように構成されるプロセッサを含む、コンピュータにより実施されたシステム上で行われる。
本明細書には、核酸配列データ処理の方法が提供され、該方法は:リードペアを含む入力データを受け取る工程を含み、該リードペアの少なくとも1%は、少なくとも1kbまで分離され且つ自然な配向にある2つの核酸セグメントからの配列データを含み、入力データのN50はアセンブルされたスキャフォールドの20%未満であり、前記出力データのエラー率は0.1%未満であり;及び前記方法は更にスキャフォールドを含む出力データを出力する工程を含み、出力データのN50は入力データのRN50の少なくとも2xである。随意に、エラー率は、12%。11%、10%、9%、8%、7%、6%、5%、4%、3%、2%、1%、0.9%、0.8%、0.7%、0.6%、0.5%、0.4%、0.3%、0.2%、0.1%、0.09%、0.08%、0.07%、0.06%、0.05%、0.04%、0.03%、0.02%、0.01%、0.001%、0.0001%未満、又は0.00001%以下である。コンティグの情報は多くの場合において1つのゲノムに由来する。代替的に、コンティグの配列情報は複数のゲノムに由来する。幾つかの実施形態において、前記方法は、本明細書において議論されるようなコンティグ及びリードペアのデータを受け取り、上記で議論されるようなデータを処理し、及び、上記で議論されるようなパラメータが改善された、スキャフォールドされたコンティグのデータを出力するように構成されるプロセッサを含む、コンピュータにより実施されたシステム上で行われる。
本明細書には、核酸配列データ処理の方法が提供され、該方法は:リードペアを含む出力データを出力する工程を含み、該リードペアの少なくとも1%は、少なくとも1kbまで分離され且つ自然配向にある2つの核酸セグメントからの配列データを含み、出力データのN50はアセンブルされたスキャフォールドの20%未満であり、前記出力データのエラー率は0.1%未満であり;及び前記方法は更にスキャフォールドを含む入力データを受け取る工程を含み、出力データのN50はアセンブルされたスキャフォールドの20%未満である。コンティグの情報は多くの場合において1つのゲノムに由来する。随意に、エラー率は、12%。11%、10%、9%、8%、7%、6%、5%、4%、3%、2%、1%、0.9%、0.8%、0.7%、0.6%、0.5%、0.4%、0.3%、0.2%、0.1%、0.09%、0.08%、0.07%、0.06%、0.05%、0.04%、0.03%、0.02%、0.01%、0.001%、0.0001%未満、又は0.00001%以下である。代替的に、コンティグの配列情報は複数のゲノムに由来する。幾つかの実施形態において、前記方法は、本明細書において議論されるようなコンティグ及びリードペアのデータを受け取り、上記で議論されるようなデータを処理し、及び、上記で議論されるようなパラメータが改善された、スキャフォールドされたコンティグのデータを出力するように構成されるプロセッサを含む、コンピュータにより実施されたシステム上で行われる。
本明細書には、少なくとも1つのペアエンドリードを共有する2つの拡散コンティグを結合する尤度を評価する方法が提供され、該方法は:第1のコンティグに対しマッピングされたショットガンリードの密度を判定する工程、第2のコンティグに対しマッピングされたショットガンリードの密度を判定する工程、第1のコンティグと第2のコンティグを結合するための尤度スコアを判定する工程、及び、第1のコンティグに対しマッピングされたショットガンリードの密度が、第2のコンティグに対しマッピングされたショットガンリードの密度と著しく異なる場合に、尤度スコアを減らす工程を含む。幾つかの方法において、尤度スコアは対数尤度スコアである。頻繁に、前記スコアは本明細書に示されるように減らされる。頻繁に、前記スコアは、第1のコンティグに対しマッピングされたショットガンリードの密度と、第2のコンティグに対しマッピングされたショットガンリードの密度の、より小さな密度からより大きな密度の比率として減らされる。コンティグの情報は多くの場合において1つのゲノムに由来する。代替的に、コンティグの配列情報は複数のゲノムに由来する。幾つかの実施形態において、前記方法は、本明細書において議論されるようなコンティグ及びリードペアのデータを受け取り、上記で議論されるようなデータを処理し、及び、上記で議論されるようなパラメータが改善された、スキャフォールドされたコンティグのデータを出力するように構成されるプロセッサを含む、コンピュータにより実施されたシステム上で行われる。
<参照による組み込み>
本明細書で挙げられる全ての刊行物、特許、及び特許出願は、あたかも個々の刊行物、特許、又は特許出願がそれぞれ参照により本明細書に具体的且つ個別に組み込まれるのと同じ程度にまで、参照により本明細書に組み込まれている。
本開示の新規な特徴は、特に添付の請求項、本明細書における概要、及び詳細な説明にて、説明されている。本開示の特徴及び利点のより良い理解は、本開示の原理が用いられる実施形態を説明する以下の詳細な説明と、以下の添付図面とを参照することによって得られる。
新規の配列決定のための材料を生成するためのフロープロセスを表す。 基準のヒトゲノムアセンブリhg19に対しマッピングされた、様々な配列決定ライブラリのためのリードペア分離を示す。 様々なリードペア分離ビンにおける被覆率(推定されたゲノムサイズに分割されたリードペア分離の合計)のチャートである。 リードペアのGRCh38基準配列上のマッピングされた場所が、GM12878と基準との間の構造差の付近でプロットされることを示す。図4Aは、隣接している20kbの繰返し領域による80Kbの逆位に関するデータを表す。 リードペアのGRCh38基準配列上のマッピングされた場所が、GM12878と基準との間の構造差の付近でプロットされることを示す。図4Bは、段階的なヘテロ接合の欠失に関するデータを表す。 新たな配列決定のための材料を生成するためのフロープロセスを表す。 本発明の幾つかの実施形態と一致するコンピュータシステムの例を示す。 本発明の例となる実施形態と一致するコンピュータシステム(2000)の第1の実例アーキテクチャを示すブロック図である。 本発明の例となる実施形態と一致する、複数のコンピュータシステム、複数の携帯電話、及び個人用携帯情報端末、及びネットワーク接続ストレージ(NAS)を組み込むように構成されたネットワーク(800)を実証する図である。 本発明の例となる実施形態と一致する、共有仮想アドレスメモリ空間を用いるマルチプロセッサーコンピュータシステム(900)のブロック図である。 初期のコンティグアセンブリ(図10のA)から、「ウィンドウ」分析(図10のD)のための直線状に順序付けられたコンティグの生成までの典型的なワークフローを表す。 最小の全域木を表す。ノードラベルはコンティグサイズをkbで示し、エッジのラベルは、示されたコンティグのペアエッジそれぞれにおけるリンクの数を示す。
短いリードデータからの、長距離且つ非常に正確な新たなアセンブリは、ゲノミクスにおいて最も緊急な難問の1つである。我々は本明細書において、数百キロベースまでのDNA結合が、近接連結ライブラリの産生のための基質として、生きた染色体よりも再構成された染色質を用いてインビトロで生成されることを実証する。結果として生じるライブラリは、リードペア内の距離とリード数との規則的な関係を含む、長距離のゲノムアセンブリ及び位相合せに有用なHi-Cデータの特徴の多くを共有する。このインビトロの長距離のメイトペアライブラリを、標準の全体のゲノムショットガン及びジャンピングライブラリと組み合わせて、我々は、わずかな費用及び労力で、より高価な方法に匹敵する長期にわたる精度及び近接性を持つ長距離の正確且つ新規のヒトゲノムアセンブリを生成した。この方法は、高分子量DNAの適度な量しか使用せず、通常は任意の種に適用可能である。本明細書において我々は、新たな核酸配列アセンブリ(例えば、ゲノム又は一連の染色体を表すスキャフォールドへの)又はヒト及びワニを用いるスキャフォールドアセンブリ用だけでなく、構造の変異の識別及びヘテロ接合の変形の位相合せのための効果的なツールとして、この配列データの値を実証する。
本明細書には、例示的実施形態においてインビトロの再構成された染色質に基づく配列アセンブリ手法が開示される。本明細書における方法、システム及び組成物を通じて、ゲノム又は他の大きな配列データセットの非常に高度な新たなアセンブリ及びスキャフォールディングが達成され、それによりコンティグは、適切なように相内でグループ分けされ、順序付けられ、配向され、融合され、又は分裂される(spit)。同様に、以前に利用可能であったコンティグ及びスキャフォールドの配列情報を再びアセンブルする及びスキャフォールディングすることにより既存のアセンブリを改善するための有用性が、実証される。場合によっては、リードペアを生成するためのIllumina HiSeq配列決定の1つのライブラリ及び1つのレーンで、スキャフォールドN50は約500kbpから10Mbpに増大される。本明細書に開示される方法は、任意の核酸サンプル(例えば、1つ又は複数のゲノム)を分析するために使用され、特に、アセンブルが困難な、トランスポゾンの、又は他の反復要素の豊富な反復又は倍数体のゲノムを含むゲノムサンプル、或いは、特に8、7、6、5、4、3、2時間以下、又は2未満時間でアセンブルを行うのに計算上集中的であるサンプルリードデータセットを結果としてもたらす他のサンプルに適切である。幾つかの実施形態において、前記方法は、本明細書において議論されるようなコンティグ及びリードペアのデータを受け取り、上記で議論されるようなデータを処理し、及び、上記で議論されるようなパラメータが改善された、スキャフォールドされたコンティグのデータを出力するように構成されるプロセッサを含む、コンピュータにより実施されたシステム上で行われる。
本明細書及び添付の請求項で使用されるように、単数形「a」、「an」、及び「the」は、他に内容が明確に指示しない限り、複数の指示対象を含む。故に、例えば、「コンティグ」に対する言及は、そのようなコンティグを複数含み、「染色体の物理レイアウトをプローブする」に対する言及は、1つの実態を指すための文脈により示されない限り、当業者に既知の染色体及びその同等物の物理レイアウトをプローブする1以上の方法に対する言及を含んでいる。また、「及び」の使用は、特に明記しない限り、「及び/又は」を意味する。同様に、「含む(comprise)」、「含む(comprises)」、「含むこと(comprising)」、「含む(include)」、「含む(includes)」、及び「含むこと(including)」は互換的なものであり、区別するようには意図されていない。
様々な実施形態の記載が用語「含むこと(comprising)」を使用する場合、当業者は、幾つかの特定の例において、言語「~から実質的に成る」又は「~から成る」を使用して代替的に記載される追加の別個の実施形態が示唆されると理解することを、更に理解されたい。
用語「リード」又は「配列決定のリード」は、本明細書で使用されるように、配列が判定されたDNAのセグメントの配列情報を指す。
用語「コンティグ」は、本明細書で使用されるように、DNA配列の隣接する領域を指す。「コンティグ」は、当該技術分野で既知である任意の数の方法、例えば、配列を重複させるために配列決定のリードを比較すること、及び/又は、どの配列決定のリードが隣接する可能性が高いかを識別するために既知の配列のデータベースに対して配列決定のリードを比較することにより判定され得る。コンティグは頻繁に、個々の配列のリード、或いは、重複するエンド又はエッジ配列を持つ配列のリードと組み合わせて以前にアセンブルされた配列情報からアセンブルされる。一般的ではあるが、非排他的に、コンティグは、多くの場合は判定されていない配列の間隙又は領域に介入することなく、又は代替的に、既知の配列及び道の長さの領域に介入することなく、より大きな配列のグループ分けに集まる、重複する配列のリードを含む。
用語「スキャフォールド」は、本明細書で使用されるように、1つの物理的分子に対応する少なくとも1つのコンティグ又は配列のリードからの配列情報をさせ、それにより、スキャフォールドの全ての配列情報は、共通の位相を共有し、或いは配列情報が表す核酸が物理的に結合されることを反映する。場合によっては、スキャフォールド配列は、1つのコンティグへとアセンブルされないが、未知の配列の、未知の長さの、或いは未知の配列と長さを持つ、その構成要素であるコンティグ又は配列のリードの間に、少なくとも1つの間隙を持つ場合がある。幾つかのそのような場合において、間隙のある配列はそれにもかかわらず、構成要素である配列が位相にあり又は1つの物理的分子に対してマッピングされると見出されるという事実により、1つのスキャフォールドを構成する。場合によっては、スキャフォールドは1つのコンティグを含み、つまり、場合によっては、スキャフォールドは何の間隙も無い配列の隣接する範囲を含む。
動詞として、用語「スキャフォールドする」は、コンティグ又はスキャフォールドを順序付ける、配向する、端から端まで融合する、1つのコンティグ又はスキャフォールド別のコンティグ又はスキャフォールド中で融合する、及び切断することの少なくとも1つを指し、本明細書に提示される方法により知らされるように、コンティグ又はスキャフォールドを順序付ける、配向する、端から端まで融合する、1つの別の中で融合する、及び切断することを全て含む。スキャフォールディングは、真核生物の染色体上でのコンティグのマッピングから生じ、又は不均一なサンプルにおける複数の生体のゲノムに対応し得るように、1つの分子の1つの位相の上で、複数のスキャフォールドの上で、複数のコンティグをアセンブルするように行われる。
本明細書で使用されるように、「自然配向」は、ペアリードの文脈において、それらが由来する核酸分子セグメントを表す配向又はその配向においてペア配列が生じる、ペアリードを指す。
用語「被験体」は、本明細書で使用されるように、任意の真核又は原核の(真正細菌又は古細菌の)生物又はウイルスを指す場合がある。被験体は代替的に、複数の生物及び/又はウイルスからの核酸材料を含む環境サンプルなどの、その生物の起源とは独立したサンプルを指す場合もある。例えば、被験体はヒトなどの哺乳動物であり得るか、又は、ヒト及び実質的に非ヒトの核酸配列の両方を含むと予想される、例えばヒトの腸から得られるサンプルであり得る。
用語「核酸」又は「ポリヌクレオチド」は、本明細書で使用されるように、一本鎖又は二本鎖の何れかの形態である、デオキシリボヌクレオチド(DNA)又はリボヌクレオチド(RNA)のポリマーを指す場合がある。具体的に限定されない場合に限り、この用語は、自然に生じる核酸の既知のアナログを含有する核酸分子を包含しており、前記アナログは、基準のヌクレオチドと同様の結合特性を有し、及び/又は自然に生じるヌクレオチドと同様の様式で代謝される。
用語「裸のDNA」は、本明細書で使用されるように、複合化されたタンパク質又はナノ粒子が実質的に無いDNAを指す場合がある。
用語「再構成された染色質」は、本明細書で使用されるように、単離された核タンパク質、又は裸のDNAに対する他の核酸の結合部分を複合化することにより形成された染色質を指す場合がある。場合によっては、再構成された染色質は実際に、ヒストンなどの核酸及び染色質の構成要素を含み、一方で代替的な実施形態において、「再構成された染色質」は、タンパク質、ナノ粒子、又は、例えば特異的又は非特異的に核酸を結合するスペルミジン又はスペルミンなどの非タンパク質分子などの、少なくとも1つの核酸結合部分と組み合わせて裸のDNA又は抽出されたDNAから形成された任意の複合体を指すために、より口語的に使用される。
用語「ナノ粒子」は、本明細書で使用されるように、DNAを結合するために修飾され得るナノメートル規模の球体を指す場合がある。場合によっては、ナノ粒子は、(例えば、アミン含有分子で覆うことにより)それらの表面上で正に荷電される。その全体において引用により本明細書に組み込まれる、Zinchenko, A. et al.(2005) “Compaction of Single-Chain DNA by Histone-Inspired Nanoparticles” Physical Review Letters, 95(22), 228101を参照。幾つかの実施形態において、再構成された染色質は、裸のNDAに対する結合ナノ粒子により合成される。
用語「リードペア(“read pair” or “read-pair”)」は、本明細書で使用されるように、自然の核酸サンプル中で隣接していないが本明細書又は他の場所で開示されるような化学操作又は酵素操作の結果として隣接して共有結合され、且つ、単一の配列決定のリードとして配列される、核酸配列の2以上のスパン(spans)を指す場合がある。場合によっては、「リードペア」は、人為的に結合される2つの核酸領域にわたり配列決定することにより得られた、配列情報を指す。場合によっては、リードペアの数は、マッピング可能なリードペアの数を指す場合がある。他の場合において、リードペアの数は、生成されたリードペアの総数を指す場合がある。
本明細書で使用されるように、「サンプル」は、スキャフォールド情報が生成又は改善されることとなる核酸材料を指す。幾つかのサンプルは、細胞単一培養物(cell monoculture)、又は単一の多細胞個体からの組織といった均質なソースに由来する。場合によっては、サンプルは、個体の腫瘍サンプルに発生し得る変異といった配列変異を含む。場合によっては、サンプルは不均一なソースに由来するものであり、それによりサンプルは、ヒトの腸又は排泄物のサンプル、環境サンプル、又は生物の混合物などの、複数の生物からの核酸を含む。
本明細書で使用されるように、用語「約」の付く数は、その数を明確に列挙することに加えて、その数のプラス又はマイナス10%の数量を指すために使用される。
他に定義されない限り、本明細書で使用される全ての技術用語及び科学用語は、本開示が属する分野における当業者に共通して理解されるような意味を有する。本明細書に記載されるものと同様又は同等の方法及び試薬が、開示された方法及び組成物の実施に使用され得るが、ここでは例示的な方法及び材料が記載されている。
本明細書には、核酸の配列相又は物理的結合を示すリードペア情報などの、リードペア配列情報といった配列グループ化情報の使用により、より大きなコンティグ及びスキャフォールドへの単一リード及びコンティグの核酸配列アセンブリなどの配列アセンブリに関する組成物、システム、及び方法が開示される。
ゲノミクスの主な目標は、少ない労力及びコストによる、完全長のハプロタイプ分解された(resolved)染色体配列の正確な再構成である。現時点でアクセス可能且つ手頃な高スループット配列決定方法は、短距離の配列の近接性及びゲノム変異の特性付けに最も良く適している。長距離の結合及びハプロタイプの位相合せの達成は、長い(例えば、数十キロベース)配列を直接且つ正確に読み取る能力、又は、ペアとなった或いはグループ分けされた配列のリードを通じた結合及び位相の関係の捕捉の何れかを要する。これらの方法は、ゲノムのサンプルのための完全なサンプルのハプロタイプのマップ情報を生成するのに必要な配列情報の慣例的又は商業的な計算上の分析が排除されるように、技術的に困難であり、且つ計算上集約的なものである。
高スループット配列決定方法は、ゲノミクスの分野における変革を誘発した。DNAの何百万もの短い断片からデータを直ちに作成することにより、ゲノムの再配列決定のコストは劇的に低下、即ち1つのヒトゲノム当たり1,000ドルに急速に近づき、且つ、また更に低下するものと予想されている。
しかし、短いリード配列の、長い隣接するゲノムアセンブリへの形質転換には、実質的な障害が残っている。低コストの配列データから基準品質アセンブリを作り出すことの難問は、今日の技術により生成されたアセンブリの品質と、ヒト基準アセンブリとの比較において明らかである(Alkan et al., 2011)。
BACクローン配列決定、物理的マップ、及びSanger配列決定を含む多くの技術が、38.5Mbp N50の長さ、及び100,000の塩基当たり1のエラー率を持つ、高品質且つ高度に隣接したヒトの参照標準を作り出すために使用された(International Human Genome Sequencing Consortium, 2004)。対照的に、複数のインサートサイズを持つライブラリからの非常に高い被覆率のデータセット上で各々が作成者により実行される、全ゲノムショットガン(WGS)アセンブリのソフトウェアパイプラインのパフォーマンスの近年の比較により、魚のゲノム上では4.5Mbpまでに及ぶN50スキャフォールドの長さを持ち、且つヘビのゲノムでは4.0Mbpに及ぶ長さを持つアセンブリが作成された(Bradnam et al., 2013)。
リードが短い配列の高い被覆率が、高品質且つ高度に隣接するアセンブリを獲得するのに十分なことは、稀である。これは主に、大小両方の規模での反復的な内容物によるものであり、セントロメア及びテロメアの近くの反復構造、ジンクフィンガー遺伝子のような大きなパラロガス遺伝子ファミリー、及びLINEとSINEなどの散在した核要素の分布を含む。そのようなアセンブルが困難な内容物は、多くの真核生物のゲノム、例えばヒトゲノムの60-70%で大部分を構成する(de Koning et al., 2011)。そのような繰り返しが入力配列データに及ぶことができない場合、断片化され且つ不正確なアセンブリが結果として生じる。通常、新たにアセンブリのための出発点は、深い被覆率(最小50X-200X)、2~8kbpの間のインサートサイズを持つ中距離の「メイトペア」ライブラリを備えた短距離(300-500bp)のペアエンドの「ショットガン」データ、及び頻繁に、より長い距離(35kbp)のフォスミドエンドペアを組み合わせる(Gnerre et al., 2011; Salzberg et al., 2012)。
低コスト配列データは有用であるが、位相情報が起因し得るより大きなコンティグ又はスキャフォールドへと仕上げることは困難である。従って、ゲノム再編成に関する有益な情報、又は、単一の遺伝子座(シス又はトランスであり、2つの独立して突然変異した対立遺伝子又は二重突然変異対立遺伝子と組み合わせた単一の野生型対立遺伝子に対応する)内に分散した多数の突然変異の相に関するより単純な情報は頻繁に、幾つかの低コストの配列アセンブリから利用することはできない。
新たにアセンブリの近接性及び正確性を増大させるための多くの方法が、近年開発されている。広くは、そのような方法は、配列決定から生成されるリードの長さを増大させること、又はペアの短いリードの間のインサートサイズを増大させることを試みている。例えば、PacBio RS IIは、長さ23kbp(中間で2kbp)までの生のリードを生成することができる。しかし、この手法は、~15%もの高さのエラー率に悩まされると報告されており、高スループットの短いリードよりも、~100倍高価なままである(Koren et al., 2012; Quail et al., 2012)。Oxford Nanoporeから市販で入手可能な長いリードは有望なものではあるが、頻繁により高いエラー率及びより低いスループットを有している。Illumina’s TruSeq Synthetic Long-Readの技術(以前はMoleculo)は現在、最大10kbpのリードに制限されている(Voskoboynik et al., 2013)。
多くの改善にもかかわらず、フォスミドのライブラリの作成(Williams et al., 2012; Wu et al., 2012)は、時間がかかり、高価なままである。
現在まで、配列決定のコミュニティーは、何千もの脊椎のある種(Haussler et al., 2009)又は何十万ものヒト(Torjesen,2013)の配列決定のような、大規模の計画に必要とされる規模及びコストにおいて利用可能な、大きなインサート又は長いリードのための一貫して優れた技術に決定していなかった。
本明細書には、核酸配列アセンブリのための方法、及びコンピュータにより実施されるシステムが開示される。本明細書に開示される方法は特に、ペアエンドリードを用いた分析及び配列の改善に適している。ペアエンドリード又はリードペアは多くの異なる手法を使用して生成される。幾つかの手法は、数百キロベースまで分離される長距離のリードペアを生成するためのインビトロの方法、及び、リードペアにおける各リードがマッピングされるコンティグへの共通の相又は物理的結合の情報を割り当てる際のそれらの使用を含む。本明細書における開示の幾つかの実施形態の中心となるのは、新たにスキャフォールドアセンブリを改善し且つ位相合せするのに役立つ長距離のリードペアデータを生成するための、距離とリード数との関係を利用するHi-Cの予想外に有効な改善である。その前身となるHi-Cの方法とは異なり、本明細書に開示される幾つかの手法は、固定、ペアエンドの形成、及び後の工程のための基質としてインビトロの再構成された染色質を使用する。結果として生じるデータは、リードペア数の間の関係及びリード間の距離を含む、Hi-Cデータの特徴の多くを共有する。しかし、多くの実施形態において、それにより生成されたペアエンドリードは、宿主細胞内の三次元の染色質又は他の核酸の構成に関する情報、Hi-C技術の特に有益な目的である情報を欠いているが、これは、位相内に無い又は互いに物理的に連結していない分子からの核酸配列の近接情報を含み得る。このような新たなインビトロのデータは、単離に使用され得るか、又は、ペアエンドのショットガンリード又は他の以前に生成されたコンティグ情報と組み合わせることで、価格及び時間の一部に関してフォスミドベースのアセンブリに匹敵する正確性と近接性を持つ新規のスキャフォールドアセンブリを生成することができる。そのような進展の分析に関連した方法、組成物、及びコンピュータ実装システムは、新規のアセンブリの品質を改善し、ハプロタイプを位相合せし、及び構造変異種を識別するための有用性として、本明細書に開示される。
本明細書における開示は、わずか約10,000、約20,000、約50,000、約100,000、約200,000、約500,000、約100万、約200万、約500万、約1000万、約2000万、約3000万、約4000万、約5000万、約6000万、約7000万、約8000万、約9000万、約1億、約2億、約3億、約4億、約5億、約6億、約7億、約8億、約9億、約10億のリードペア、又は10億より多くの塩基対を用いて、高度に隣接し且つ正確なヒトゲノムアセンブリを生成することができる方法及び計算システムを提供する。場合によっては、本開示は、約50%、60%、70%、75%、80%、85%、90%、91%、92、93%、94%、95%、96%、97%、98%、99%、又はそれより多くの精度で、ヒトゲノムにおけるヘテロ接合型変異体の約50%、60%、70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、又はそれより多くを位相合せする、方法及び計算システムを提供する。
リードペアのエンドの生成及び配列決定に関連する組成物及び方法、並びにタグを付けたエンドのリードを生成する代替的な方法は、例えば、その全体において引用により本明細書に組み込まれる、2014年8月7日公開の米国特許公開US20140220587に見出される。
本明細書に開示される実施形態は、以下の工程の各々までを含む以下の工程の少なくとも1つを、単独で、又は本明細書に開示される或いは当業者に既知の付加的な工程と合わせて、含んでいる:
1.入力の前処理
2.コンティグ間連結グラフの構築
3.スキャフォールド構築物にシード値をもたらす
4.局所の順序、配向、及び間隙の大きさの改善
5.ペアのスキャフォールドの混合に関するスコアの計算
6.接合の貪欲な受け入れ
幾つかの実施形態において、一連の前述の工程は組み合わせて実行される。場合によっては、工程4、5、及び6の少なくとも1つが、例えばアセンブリの品質の持続した改善を達成するために反復して実行される。
本明細書に開示される幾つかの方法及びシステムは、3つの入力を考慮する:
1.開始アセンブリの配列(随意にFASTAのフォーマットにある);
2.開始アセンブリへのペアリードの位置合わせ(随意にBAMのフォーマットで、分類され、且つインデックスを付けられる);
3.開始アセンブリへのショットガンリードの位置合わせ(随意にBAMのフォーマットで、分類され、且つインデックスを付けられる)。
代替的なデータフォーマットが考慮され、方法及びシステムは特定のデータフォーマット又はインデクシングには限定されない。開始アセンブリは、配列のリードからアセンブルされた少なくとも1つのコンティグを含み、及び場合によっては、配列フォーマットとは独立して、少なくとも1つのコンティグを含む少なくとも1つのスキャフォールドを含む。
ペアリード、ペアエンドリード、又はリードペアは、代替的に言及されるように、配列フォーマットとは独立して、隣接していない標的サンプル配列に対応する配列情報を含む。多くの場合、ペアリードは、サンプル核酸配列における共通の分子の長距離まで離れた位置から、単一の物理的分子のリード配列に対応する。
本明細書には、コンティグデータを、互いに対するコンティグの相対位置、相対配向の少なくとも1つを表すスキャフォールドへとアセンブルするための方法と計算システムが開示される。場合によっては、個々のコンティグは、比較可能な大きさであるが改善された配列品質を持つコンティグ又はスキャフォールドを形成するため、その位置及び/又は配向が決定された隣接するコンティグを結合することにより、又は、少なくとも1つのコンティグを、間隙、或いは第2のスキャフォールド又はコンティグのアセンブルされていない領域へと挿入することにより、前記プロセスにおいて融合される。
サンプルに関するペアエンドリード情報は、本明細書に開示され、本明細書に組み込まれ、又は当業者に既知の方法を用いて生成される。場合によっては、ペアのタグを付けたエンドのリードなどの、タグを付けたエンドのリードは、本明細書のあらゆる場所で議論されるようなペアエンドリードに置き換わる。幾つかの例において、ペアエンドリード又は他の情報は、ショットガン配列決定コンティグ情報などのコンティグ情報を組み合わせて使用され、場合によっては同時に生成され、及び、他の場合においては、例えば平行して実行される以前の配列決定の労力又はショットガン配列決定の労力から独立して獲得される。場合によっては、コンティグ情報は、配列データベース又は以前の配列決定の労力から獲得される。
ペアエンドリードは、本明細書に開示されるように、又は、当業者に既知の或いは本明細書における開示に適合する他の方法を介して生成される。ペアリードの生成における軽微且つ主要な変異が考慮される。ペアリードは、処理の前にサンプル材料において隣接しない、1対のリード配列を含む。大半の場合、ペアリードは、単一の物理的な分子に対しマッピングされるが、互いに幾つか距離が空いている。場合によっては、別個の物理的な分子からのペアを含む、ペアリードが生成される。本明細書に開示される方法において、そのようなペアエンドリードは比較的稀であり、これらは頻繁に、本明細書に開示されるアセンブリプロセスにおいて早期に分析から除外される。
両方のリードが単一の物理的な分子から生じる、ペアエンドリードの中で、幾つかのペアリードが、わずか100、200、300、400、500、又は500より多くの塩基対である領域から離れて生じ、一方で他の幾つかのペアリードは、単一の物理的な分子上で1、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、60、70、80、90、100kb、又は100kbより多くによって分離される配列から生じる。頻繁に、一連のペアエンドリードは、幾つかのリードペアがそれらの自然の配向において核酸セグメントを表示するように、ペアエンドリードの距離の分布を含む。
幾つかの実施形態において、本明細書に開示される方法は、生体に関する染色体の数とは無関係の方法でコンティグをグループ分けする。結果として生じるより小さなコンティグクラスターをスキャフォールドへとアセンブルするための幾つかの関連技術におけるよりも、シングルリンクのクラスタリングのためのコンティグ間リンク上の保存的な閾値が適用され、後のスキャフォールディングの連結は本明細書に開示される様々な方法により可能である。このような実施形態における利益は、予期された合計の染色体の長さ又は数を引き出す(force)ために相殺誤差によってアセンブリ誤差が「広がらない」ということである。正確なコンティグ、又はその位置でアセンブルされ又はスキャフォールドされる誤って配されたコンティグにより変位されたスキャフォールドが、配列精度を犠牲にして全体的な染色の数又は長さを保持するように第2の位置へと「引き出され」なければならないため、染色体のサイズ又は数に依存した方法を使用すると、1つの誤って配されたコンティグは頻繁に複数の誤差へと繋がる。
ペアエンドの配列は、コンティグ情報、及び場合によっては、完全なヒトゲノムプロジェクトに利用可能な配列情報などの以前の既存のスキャフォールド情報へとマッピングされる。ペアエンドは、場合によっては、1対の1つ又は両方の配列がスキャフォールドの単一のコンティグ又は固有の領域へと一意的にマッピングされるように選択される。コンティグ又はスキャフォールド上で互いに関連して判定され得る別個の位置へと、ペアの両方のリードが一意的にマッピングされるペアエンドリードのために、ペアにおけるリード間の距離が判定される。リードペアの距離度数曲線はこのデータから計算され、及び場合によっては、広範囲のリードペア距離にわたって与えられたリードペア距離に関する度数予測値をもたらすように外挿される。結果的に、例えば1つのコンティグの別のコンティグへの2以上の相対的な配向に対応する、2以上の別個のリードペア距離が可能である単一のリードペアのために、どのコンティグ配向がリードペア距離へとより可能に対応するのかを判定することができる。同様に、複数のリードペアが1対のコンティグにマッピングされる場合、個々のリードペアのための、及びセットに関する総計の距離のための最も可能なリードペア距離を判定することができる。場合によっては、複数のリードペア距離に対するコンティグ配向の相対的な影響を評価することにより、及び、全体でより可能な又は最も可能なリードペア距離のセットに通じる配向を選択することにより、与えられたコンティグペアの「総計の最も好ましい配向」を判定することができる。
一般的に、個々のリードペアに関して、及び大半のリードペア距離分布に関して、より短いリードペア距離が、より可能となる。しかし、複数のリードペア距離が、1対のコンティグ又は複数のコンティグについて予測されると、最も可能なリードペア分布は、場合によっては短い及び長いリードペア距離の両方を含み、それにより、リードペア距離の分布は、全体のリードペア長さの単純な最小化よりも、予測されたリードペア分布をより近くに反映する。
図2において、本明細書に記載されるようなリードペア距離度数曲線の例を見ることができる。データは、リードペア距離に応じて出現度数として示され、及び、「指数関数的に」又は「対数的に」減少して、リードペア距離を増大させると観察される。代替的なデータの描写は、本明細書における開示と一致している。
場合によっては、一連のリードペアデータがサンプルのために生成されると、リードペア距離の曲線が独立して判定される。代替的に又は組み合わせにおいて、以前に判定されたリードペアデータは、リードペア距離の曲線を生成するために使用される。場合によっては、以前に生成された、又は独立して生成されたリードペア曲線が使用される。
順序情報又は配向情報、或いは順序と配向の情報を持つスキャフォールドへとコンティグを組み込むために、ペアリードが選択され、ペアの両方のリードが別個の位置へと一意的にマッピングされるが、リードペアの2つのリードの別個の位置は、コンティグ又はスキャフォールド上で互いに対して判定することができない。この状況は例えば、リードペアの別個のリードが、共通のスキャフォールド上で確信をもって配されない別々のコンティグにマッピングされる時に、又は、互いに対するコンティグの距離、配向、又は距離と配向が分からないように、別々のデータが別のコンティグに対する1つのコンティグの位置に疑いを抱かせる場合に、生じる。
品質の低いリードが除外されるように、随意に、リードペア配列がコンティグ分析の前に選別される。場合によっては、単一のコンティグに一意にマッピングしない少なくとも1つのリードを有するリードペアが除外されるように、リードペア配列がコンティグ分析の前に選別される。場合によっては、リードペア配列がマッピングするコンティグごとの単一の位置に一意にマッピングしない少なくとも1つのリードを有するリードペアが除外されるように、リードペア配列がコンティグ分析の前に選別される。場合によっては、リードペアの配列ペアの少なくとも1つが、不均衡な数のリードペア配列がマッピングする領域にマッピングする場合に、例えば、あらかじめスキャフォールドされた配列データセット、または配列アセンブリの対象であるデータセットの叙述にわたり、リードペア「ヒット」におけるスパイクによって同定される場合に、リードペアは選別される。いくつかの選別手法では、ステップサイズは、例えば1000bpと定義され、各ステップにおいては、連結のための大部分の支持を占める可能性のある、連結された領域に隣接するリードペアのビンが有る状態および無い状態で、連結されたコンティグのための支持が計算される。代替的なステップサイズは、100、200、300、400、500、600、700、800、900、1500、2000、3000、4000、5000、10000または10000を超えるサイズも検討される。ビンが、ヒット分布の平均値、中央値または代表値に基づいた閾値を超えるリードペアの数を有する場合は、リードペアは除外される。場合によっては、閾値は、平均値、中央値または代表値の1.5x、1.6x、1.7x、1.8x、1.9x、2x、2.1x、2.2x、2.3x、2.4x、2.5x、2.6x、2.7x、2.8x、2.9x、3x、3.1x、3.2x、3.3x、3.4x、3.5x、3.6x、3.7x、3.8x、3.9x、4x、4.5x、5x、または5xを超えるように選択される。配列リード選別のためのパラメータおよび基準は、当業者に知られており、多くの選別パラメータが本明細書で検討される。場合によっては、最多数のリードがマッピングするビンを備える少なくとも単一の塩基によって重複するリードが、分析から除外される。
コンティグは、初期のコンティグの位置決めを生成するために互いに対してグループ分けされる。コンティグの位置決めのための多数の手法が本明細書で検討され、そして代替的な実施形態は、初期のコンティグの順序および/または配向の選択において異なる。例えば、場合によっては、コンティグは、以前に生成されたドラフト、完全なゲノムスキャフォールドまたは染色体マップ上にマッピングされる。そのようなマップは、標的種の以前の配列決定から、重要なゲノム規模のシンテニーが予期されるもしくは知られるための関連した種のような密接に関連した種の以前の配列決定から、または、代表的なゲノムが配列決定されている種の別個の集団のために、得られる。例えば、ネアンデルタールのゲノムは、ヒトゲノムスキャフォールドに対してマッピングされ、野生ナス科(wild Solenaceae)のファミリーメンバーは栽培されたトマト(Lycopersicon esculentum)のゲノムに対してマッピングされ、または特定の植物品種は近縁種の配列決定が最も近いゲノムに従って整列される。当技術分野で知られている位相決定の代替的な方法または計算システムを用いた順序付けなどの他の初期のコンティグの位置決めの方法は、本明細書で検討され、一貫している。
いくつかの場合、コンティグは、共有リードペアの数に従ってグループ分けされる。すなわち、場合によっては、より多くのリードペアを共有するコンティグは、互いに近接してグループ分けされるが、少数のリードペアしか共有しないコンティグは、互いに比較的離れて位置決めされる。
いくつかの局所的なグループ分けについて、コンティグは直線的に整列される。しかしながら、初期のグループ分けは、大量の分枝したコンティグまたは環状コンティグの配向をしばしば表し、場合によっては、初期のグループ分けは例えば、遺伝的または物理的結合グループに関する既知の遺伝情報、または染色体数に関する既知の細胞学的情報に基づいて予測されるよりも実質的に大きいグループを含む。
場合によっては、初期のグループ分けは、共有ペアエンドリードによって表されるようなコンティグ間の関係の強度について評価される。例えば、共有ペアエンドリードの数が2、3、4、5、6、7、8、9、10、11、12、13、14、15、または、場合によっては15を超える閾値数である場合、ペアエンドリードの閾値未満のコンティグは、場合によっては分離される。
少なくとも1つのリードペアを共有するコンティグは同定され、単一の物理結合グループへとグループ分けされる。場合によっては、コンティグは少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、または20よりも多いペアエンドリード共有する場合、単一の物理的結合グループへとグループ分けされる。場合によっては、この閾値は、配列決定されている核酸サンプルに従って変動する。
場合によっては、コンディグは、例えば、前もって生成されたまたは前もって得られたスキャフォールド情報、コンティグ間で共有されるリードペアの総数、またはコンティグの長さもしくは固有のコンティグ配列によって標準化されたコンティグ間で共有されるリードペアの総数に基づいて、互いに対してあらかじめ順序付けされている。
共有リードペアの生の数(raw number)を数える代わりに、場合によっては、コンティグは各リードペアのリードペア距離に関して評価され、確率値が閾値より下となる距離を有するリードペアが、一般的なリードペアの評価から除外される。
したがって、初期の評価においてコンティグのペアが近位のグループ分けを確実にするという判定(すなわち、それらが一般的な「エッジ」に一時的に配置されるかどうか)は、共有ペアリードの総数か、または閾値距離確率を有する共有ペアリードの総数によって判定される。場合によっては、コンティグエッジの判定と関係があるペアエンドリードの代替的な評価が用いられる。
コンティグは、局所的に直線状の配置へと位置決めされる。場合によっては、局所的に直線状の配置は、1つのエンドで他のコンティグにそれらを連結するためには不十分なリードペアを有する切断点によって境界が定められる。場合によっては、局所的に直線状の配置は分枝点によって1つのエンドにおいて境界が定められ、それによって、単一のコンティグは、1つのエンドで2つの別々のコンティグに等しく強力に結合される。場合によっては、分枝点によって1つのエンドで境界が定められたコンティグの直線状の配置は分枝点で切断され、別々の直線状のグループ分けとして扱われる。場合によっては、代替的に、分枝点の接合部は切断され、代替的なアセンブリ条件下で再アセンブルされ、結果として、変更されたアセンブリ条件またはアセンブリ条件の第2のセットの下、分枝はもはや同程度に可能ではなく、単一の分枝はコンティグの直線状の配置を継続するために選択される。
いくつかの場合、特に短い分枝または短いコンティグを含む分枝の場合、分枝は、分枝点における他のエッジコンティグ間にマッピングするコンティグまたは直線状のコンティグのセットを表す。小さなコンティグは、偶然でもそうでなくても、多数のリードペアエンドのマッピング目標になる可能性が低い。結果として、短いコンティグは、それらにマッピングする1つまたは少数のリードペアエンドを有するだけでもよく、結果として1つの隣接するコンティグへの予測される結合をもたらす。この状態は、分枝点の1つのメンバーが集合的に比較的長い配列を表さない、シングルトンコンティグまたはコンティグの直線状のグループ分け、もしくはクラスターである時に、しばしば観察される。場合によっては、小さい分枝点コンティグまたはコンティグの直線状の配列は、隣接する直線状のコンティグシリーズの様々なアセンブリに対するリードペア距離およびリードペア距離確率に対する影響について評価され、その結果、小さな分枝点コンティグまたはコンティグの直線状の配列は、リードペア距離に対する局所的な影響が良好であれば分枝点に挿入される。場合によっては、リードペア距離に対するコンティグまたはコンティグシリーズ挿入の影響は、挿入部位から遠く離れている位置に挿入されている、挿入されたコンティグまたはコンティグのセットに対して挿入されるような、同一のコンティグまたはコンティグシリーズのリードペアエッジスコアに対する相対的な影響を比較することによって評価される。
初期のコンティグの直線状のグループ分けの概略図は、図10のA~Dに示されている。コンティグは円として描かれ、コンティグペアエッジは線として描かれる。図10のAには、初期のグループ分けが示される。場合によっては、初期のグループ分けは比較的あまり厳重ではなく、全てのコンティグが単一のクラスターに結合される。図10のBでは、コンティグエッジが評価され、コンティグ、スキャフォールドまたはノード間のあまり厳重ではない結合が除去される。続く高度に厳重なグループ分けは、多くの場合、結合グループ(染色体または染色体部分)に対応する、またはマッピングする。図10のCでは、グラフ内のサイクルは、分枝ツリーを形成する可能性がより弱いまたはより低い残りのエッジを切断することによって除去される。図10のDでは、分枝ツリーは、直線状のスキャフォールドをもたらすために分枝点で切断される。場合によっては、図10のDの直線状のスキャフォールドに対して回帰ウィンドウ分析を行う。
図11は、模範的な最小全域木を示す。サイクルは切断されているが、複数の分枝がクラスター内に示される。コンティグはノードとして示され、長さは各楕円内に示され、そして各コンティグペアエッジの数値はそのエッジをサポートするリードペアの数を示す。この段階での枝の大部分が小さなコンティグまたはコンティググループの短いグループ分けに対応することが、観察される。多くの場合、これらの分枝は、さらなる分析によって、それらが隣接してマッピングされるノードのような、隣接するノード間でマッピングすること、またはノード内の不確定配列の間隙または領域にマッピングすることが分かった。小さなスキャフォールド、コンティグまたはノードがしばしば分枝として現れる1つの理由は、その長さが比較的短く、それぞれ隣接するノードにマッピングするリードペア配列によってヒットされる傾向が低いためである。
本明細書に開示される方法または順序付けの代替的な方法を使用して、コンティグを局所的に直線状の順序にグループ分けした上で、コンティグは、リードペア距離確率の局所的に網羅的な評価を使用して再び位置決めされる。
コンティグの直線状のグループ分けが同定され、コンティグの直線状のグループの1つのエンドのサブグループのような、コンティグの「ウィンドウ」または局所的に隣接するサブグループが選択される。代替的に、グループ分けが直線的ではなくても、局所的なクラスターへとグループ分けされたコンティグ、またはターゲット「ウィンドウサイズ」に分割可能なグループ分けは、以下で分析される。多くのウィンドウサイズは、本明細書の開示に対応しており、そのウィンドウサイズは、2、3、4、5、6、7、8、9、10、または10よりも上であり、コンティグの直線状のグループ分けの全長を含んでいる。いくつかの模範的な実施形態では、ウィンドウサイズは、3または4である。一般に、より大きなウィンドウサイズは、評価されたコンティグリードペアの特性または指標(予測されたリードペア距離の最大尤度、予想される尤度距離からの最小全体偏差、最小全長距離、または代替指標など)に関して、最終的な順序が最適であるという、より大きな計算上の信頼性を提供する。しかしながら、より大きいウィンドウサイズは、実質的により長い計算時間を必要とし、場合によっては、またはいくつかのコンピュータシステムでは、より大きなウィンドウサイズは、時間またはコストに関して計算上極端なものである。3から4のウィンドウサイズがが、追加されるウィンドウサイズを網羅的に調査するために必要な追加の計算時間無しに、より大きなウィンドウの精度に近似するスキャフォールディング精度を達成することが分かった。
しばしば、単一のウィンドウサイズは、望まれる計算負荷または計算時間に適応するように選択され、スキャフォールドまたはコンティグデータセット全体に繰り返し使用される。しかしながら、代替案は本明細書に開示される方法とも一致する。場合によっては、ウィンドウサイズはデータセットの異なる領域に従って変動し、結果として、ウィンドウは、ウィンドウ共通のマッピングされたリードペアの最小、最大または平均目標数を含むように定義される。場合によっては、ウィンドウサイズは、代替的に、または組み合わせて、基礎となる配列の計算複雑性を反映するために選択され、結果として、計算上負荷のある領域のような反復領域または不十分な配列品質の配列に、より簡単な配列の領域と比較してより大きなまたはより少ない計算能力が提供される。場合によっては、ウィンドウサイズは、単独または本明細書の他の箇所に列挙された因子と組み合わせて、最小または最大範囲のコンティグ配列長さによって与えられる。よく特徴付けられたゲノムに対し、ウィンドウサイズは、トランスポゾンの豊富な領域、テロメア、セントロメア、リボソーム反復領域、および/または複合遺伝子座または反復遺伝子座に適応するために、随意に変更される。
ウィンドウ内にあるコンティグセットの各リードペアまたはリードペアのサブセットに対し、リードペアが互いに対してマッピングする2つのコンティグのための4つの配向のそれぞれは、2つのコンティグ間で共有される各リードペアを含む少なくとも1つのリードペアの間の距離に対する与えられた配向を有する距離の影響について評価される。場合によっては、距離の組み合わせの確率は、与えられた配向について、コンティグの他の配向と比較して与えられた配向の総計の相対確率が評価され得るように判定される。本明細書に開示されたいくつかの方法では、最も高い総計の距離確率をもたらす配向は、互いに対するコンティグ配列の物理的位置の最も可能な反映として選択される。場合によっては、予期されるリードペア分布から最も低い偏差を表すリードペア距離をもたらす配向が選択される。他の順序付けの基準は、全リードペアの長さを最小化すること、閾値長さまたは代替的な基準を超えるリードペアの数を最小化することのような代替的な実施形態において検討される。
本明細書の他の箇所で論じられるように、いくつかの実施形態では、2つより多いコンティグのグループが、それらの順序、配向、または順序および配向に関して評価される。場合によっては、2、3、4、5、6、7、8、9、10、または10より多いコンティグの「ウィンドウ」が、それらの配向、順序、または互いに対する配向および順序を判定するために同時に評価される。実際に計算時間は、与えられたウィンドウ内の約4つのコンティグよりも大きいグループ分けの分析を妨げる。しかしながら、上記された、および本明細書の他の箇所で論じられた他の形態と同じく、単一のウィンドウ内で一度に多数のコンティグを分析することが検討される。
ウィンドウ分析をより詳細に見ると、コンティグを結合するリードペアの分離の確率モデルを考慮して、コンティグの構成を改善するための本明細書に開示された方法および計算システムが開発され、試験された。いくつかの方法は、コンティグのクラスターの初期の順序付けにわたってサイズwのウィンドウをスライドさせる、動的プログラミングアルゴリズムに関する。複数の位置iまで、場合によっては各位置iでは、ウィンドウ内のコンティグを順序付けおよび配向付する全てのw!2の方法を考慮し、ウィンドウ内のコンティグの現在の構成で終わる現在のウィンドウ位置の端部までの全てのコンティグの最適な順序付けおよび配向を表すスコアを記憶する。そのためには、位置i-1、i-2...i-wでウィンドウ内の「適合性のある」順序および配向のスコアを見て、現在の構成を用いてそれらの順序付けの拡張を評価する。w!2は、そのような急勾配関数であるため、本方法は、実際にはwが小さい値になるように限定されている。いくつかのデータの試験では、w=3は、いくつかのデータセットのための構成精度を大幅に向上させることができる。不変的なおよび可変的なウィンドウサイズ選択のための代替的な論理的根拠として、代替的なウィンドウサイズが検討される。ウィンドウのための最適なスコアまたは局所的に最大のスコアを発見した上で、コンティグはスキャフォールドされ、それによって前記最適なスコアまたは局所的な最大スコアが達成される。その後、ウィンドウは1つの位置へと進められ、分析が繰り返される。
ウィンドウ分析は、初期コンティグの順序付けプロセスのいくつかの実施形態とは異なるが、なぜならば、初期の順序付けとは異なり、ウィンドウ分析は、コンティグ順序およびコンティグ配向の両方を含むすべての可能なコンティグ構成、ならびリードペア長さに対する、および計算されたまたは前もって判定されたリードペア長さ確率曲線に関するリードペア長さ確率に対する各構成の影響をしばしば局所的に網羅するからである。すなわち、いくつかのウィンドウ分析では、ウィンドウ内の全ての可能なコンティグ構成が評価され、場合によっては、リードペア長さに対するコンティグ構成の全ての可能な影響は、コンティグまたはスキャフォールドの順序付けおよび配向において反映されたリードペア長さの組み合わせが、リードペア長さ確率曲線の観点から局所的に最も可能性が高いことについて判定され、評価される。
多くの方法およびアルゴリズムは、2つのコンティグ間で共有されるリードペアのセットのための相対的な総計の確率の計算に対して利用可能である。本明細書に開示される1つの模範的なアルゴリズムは以下の通りである。
Figure 0007113053000001
(式1)
この尤度関数は、コンティグが相対的な配向o
Figure 0007113053000002
を有し、長さgの間隙によって分離されると仮定して、数n、およびコンティグ1と2との間のスパニングリードペアdiの示唆される分離を観察する確率を与える。
代替的なアルゴリズムが検討され、本明細書の開示と一致することが理解される。いくつかのアルゴリズムは、相対的なコンティグの配向に対する全リードペア距離を評価することを含み、その結果、最小の全リードペア距離が評価され、最小の全リードペア長さの合計に対応する配向が選択される。代替的に、または組み合わせて、予期されるリードペア分布パターンから与えられたコンティグ配向セットのためのリードペア距離の変動が評価され、その変動を最小にするコンティグ配向が選択される。
上に述べたように、いくつかの実施形態では、2、3、4、5、6または6より大きいコンティグのウィンドウが、その成分コンティグの相対的な順序、配向または構成などのスキャフォールディングに関して評価される。グループ内のコンティグの2つに共通するリードペアのための総計の相対距離度数を、外的制約の観点から最小化するまたは減少させる2、3、4、5、6、または6より多いコンティグのセット、または予測されるリードペア距離の発生の尤度を最大にする順序付けのための順序、配向または構成を含むスキャフォールドを判定する上で、そのグループ内のコンティグは適宜に順序付けられ、配向さられる。
与えられたウィンドウ内のコンティグのセットを順序付け、配向、または順序付けおよび配向する上で、最適に判定された順序における1つの末端コンティグが除外され、残りのコンティグは本明細書で論じられるように、コンティグの予備的な順序付けに基づいて、1つの付加的な新しいコンティグと組み合わせて再度分析され、隣接するコンティグを推定的に表すものとして再度同定される。
このプロセスは、例えば、推定のコンティグ順序の一端から他端まで一方向に繰り返される。代替的な実施形態では、ウィンドウの配向は、順序付けられたコンティグセット内のランダムな位置から始まり、コンティグエッジに向かって一方向にもしくは両方のエッジに向かって双方向に段階的に進むか、またはスキャフォールドのいずれかの端部から始まり、内部合流点に進む。
代替的な実施形態では、ウィンドウは、1つの工程で2つまたは3つのコンティグにより「移動」され、その結果、単一のコンティグが同時に排除されそして追加されるのではなく、むしろ、2つまたは3つの隣接するコンティグが、コンティグの順序付けされたウィンドウの片方から除去され、そして対応する数がもう片方に追加される。
場合によっては、グループの全てのコンティグに至るまでの大部分が、本明細書で選択されたとおりにパラメータを最小化または最大化するように順序付けられるまで、ウィンドウ分析が継続される。ウィンドウ分析の多くの実施形態の共通の特徴は、与えられたウィンドウ内のコンティグに対して各コンティグを含むウィンドウコンティググループのサブセットについて局所的な最大または最小をもたらす配向が網羅的に調査されるように全ての配向が網羅的に分析され、および場合によっては、リードペア距離に関する局所的な最大または最小のパラメータが、コンティグのグループ分けにおいて、のために同定される。
部分的に完全な、または完全なウィンドウ分析から結果として生じるコンティグの配向は、場合によっては、単一のスキャフォールドまたはデータセットサイズの「ウィンドウ」内の全てのコンティグを網羅的に分析することによって生成されるような、全体的に最適化されたコンティグの配向と同一または実質的に類似するコンティグの配向を表す。しかしながら、本明細書のウィンドウ分析を用いることにより、実質的に少ないコンティグの配向の空間は、局所的に最適化されたコンティグの配向に達するために分析される必要があり、実質的により少ない計算時間または計算能力は、局所的に最適な配向に達するために占有される必要がある。
いくつかの実施形態では、(i)挿入分布のモデルは、既知の配列ライブラリからリードペアの観測されたデータ分布に基づいて構築され、(ii)生成されたリードペアは、モデルに対して個別に順位付けされ、(iii)モデルとの比較に基づいて、リードペアにスコアが与えられ、そして(iv)高いスコアを有するリードペアは、モデルに最も適合するリードペアである。
いくつかの実施形態では、(i)挿入分布のモデルは、前もってマッピングされていない配列ライブラリからリードペアの観測データ分布に基づいて構築され、(ii)その後、生成されたリードペアは、モデルに対して個別に順位付けされ、(iii)モデルとの比較に基づいて、リードペアにスコアが与えられ、(iv)高いスコアを有するリードペアは、モデルに最も適合するリードペアであり、そして(v)モデルは、スキャフォールド内のコンティグの、より可能性のある配置を作成するスコアを生成するために、変更される。
場合によっては、1つのウィンドウ(w)は一度に1、2、3、4、またはそれよりも多くのコンティグを確認し、かつ重複するウィンドウのみ一度に表示されるように、回帰アルゴリズムが使用される。アルゴリズムの回帰的な性質の結果、ウィンドウは、ウィンドウが終点に進入するかスキャフォールド内の開始地点に戻るまで、スキャフォールド上のまたは他のグループ分けされた核酸データセット上のコンティグを通って徐々に進行する。
多くのプロトコルによって生成されたペアエンドは、本明細書の分析およびコンピュータにより実施されるシステムと一致する。いくつかの実施形態では、当技術分野で知られているDNA抽出の方法を含むDNA抽出プロトコルが使用される。いくつかの実施形態では、市販のDNA抽出キットが使用される。模範的な市販のDNA抽出キットには、Qiagen BloodおよびCell Midi kitsが含まれる。いくつかの実施形態において、DNA抽出のための開始組織は、ヒト由来の体液または組織である。いくつかの実施形態では、DNA抽出のためのサンプルは、非ヒト動物、植物または真菌由来である。いくつかの実施形態では、DNAのソースは微生物またはウイルス由来である。
いくつかの実施形態において、細胞核は、細胞溶解および遠心分離プロトコル、または当技術分野で知られる任意の他の細胞単離方法を用いて、細胞から単離される。いくつかの実施形態では、非DNA細胞成分を分解するために、核を酵素で消化する。模範的な酵素は、プロテイナーゼKおよびRNAseAが挙げられる。いくつかの実施形態において、細胞またはウイルスDNAは、当技術分野で良く知られている方法を用いて精製および単離される。模範的なキットは、DNAを洗浄し、溶出し、イソプロパノール中で沈殿させ、遠心分離によってペレット状にするQiagenゲノムカラムである。乾燥後、ペレットを200μL TE(Qiagen)内で再懸濁する。代替的な実施形態では、核酸は、全細胞から、または複数の細胞型もしくは複数のソース由来の核酸を含むサンプルから単離される。いくつかの実施形態において、DNAは新規に合成される。
場合によっては、二本鎖切断中に物理的結合情報を保存するように、ペアエンドが、再アセンブルされた染色質の切断されたクラスターの再連結によって生成される。染色質は、当技術分野で知られている任意の方法を用いて、精製DNAと共に再アセンブルされる。例えば染色質は、Active Motif in vitro Chromatin Assembly kitを使用して、ゲノムDNAから27℃で一晩にわたりアセンブルされる。さらなる実施形態では、成功した染色質アセンブリを確認するために、インキュベーション後に試験を行う。試験の一例は、成功した染色質アセンブリを確認するためにMNase消化のためのサンプルの10%を使用することである。「再アセンブルされた染色質」は非常に広く使用され、ヒストン、ヌクレオソーム、または、例えば転写因子、DNA結合タンパク質、トランスポゼース、もしくは核酸結合に関与する他の核タンパク質などの他の核タンパク質のような生物学的な染色質成分の再構成物、および核酸分子への非タンパク質ナノ粒子の添加によって生成されるような人工的に再構成された染色質の両方を指す。
染色質は、幾つかの場合において選別試薬への染色質の結合および結合した対の分離を促進する試薬で標識される。一例では、標識試薬はビオチンである。より具体的な例では、染色質は、ヨードアセチル-PEG-2-ビオチン(IPB)でビオチン化される。幾つかの実施形態では、DNAおよび染色質の複合体は、固定試薬で固定される。幾つかの場合では、DNA-染色質複合体は、15分間室温(RT)で1%のホルムアルデヒド中で固定され、続いて、2.5Mのグリシンの2倍のモル過剰量でクエンチされる。幾つかの実施形態では、DNA-染色質複合体は、DNA断片を作り出す反応にさらされる。幾つかの実施形態では、DNA-染色質複合体は、制限酵素での消化にさらされる。幾つかの場合では、DNAは、MboIまたはMluCIのいずれかで消化される。
非結合のストレプトアビジン部位は、随意に、RTで15分間遊離ビオチンの存在下でビーズをインキュベートすることよって占められる。幾つかの実施形態では、dNTP、例えば、-S-dGTPおよびビオチン化されたdCTPでインキュベートすることによって、粘着末端が充填される。幾つかの実施形態では、dNTP充填(fill-in)によって生成された平滑末端を連結するために、連結工程が実行される。幾つかの実施形態では、DNAは、ビオチン化された遊離末端を除去するためにエキソヌクレアーゼで消化される。幾つかの場合では、エキソヌクレアーゼは、エキソヌクレアーゼIII(#M0206S、NEB)である。
幾つかの実施形態では、DNAは剪断力にさらされる。さらなる実施形態では、剪断されたDNAは、クレノウポリメラーゼおよびT4 PNKとともに充填される。幾つかの実施形態では、充填反応に続いて、DNAは、例えば、プルダウンされた反応によって濃縮される。
幾つかの実施形態では、制限酵素の消化認識部位(cites)の選択によって生成された接合部によって、配列リードが定義される。例えば、MboIおよびMluCIが使用される場合、配列リードは、接合部が存在するときはいつでも切り詰められる(MboIに対してGATCGATC、MluCIに対してAATTAATT)。幾つかの実施形態では、リードは、その後、順方向および逆方向のリードを独立してアライメントさせる-xオプションとともにSMALT[http://www.sanger.ac.uk/resources/software/smalt/]を使用してアライメントされる。幾つかの実施形態では、Picard-tools MarkDuplicates[http://broadinstitute.github.io/picard/]を使用して、PCR複製物がマークされる。幾つかの実施形態では、非重複のリードペアは、両方のリードが、マッピングされ、10を超えるマッピング品質を有する分析に使用される。
<スキャフォールディング - 入力の前処理>
例えばコンピュータにより実施されるシステム上での入力の前処理は、随意に、ウィンドウ分析前に又はそれとは無関係に利用される。アセンブリまたはコンティグセットまたはスキャフォールドセットの高反復領域にマッピングされるペアリードは、さらなる分析から除去され、それによって、一意にマッピングする配列を含むようにリードペア集団をきれいにする(clean)。幾つかの場合では、アセンブリへの全ゲノムショットガンリードのアライメントが、これらの領域を特定するために使用される。代替的に又は加えて、閾値を超えるマッピングされたショットガンリード深さを有している開始アセンブリの区間にマッピングされるリードペアは除外される。幾つかの領域がリードペアのための「ホットスポット」であること、およびそのようなホットスポット領域からのペアデータの包含が、ダウンストリーム分析を偏らせ(bias)得ることが観察されている。幾つかの場合では、2閾値法が使用され、その結果、区間が「トリガー」t2を超えるマッピングされたリード深さを有する少なくとも1つの塩基を含む場合、「カットオフ」t1を超える深さを有するその区間にマッピングされるリードがすべて除外される。幾つかの場合では、二重閾値戦略が使用され、それによって、t1またはt2を超えるマッピングされたリード深さを有する少なくとも1つの塩基を含む、t1を超えるマッピングされたショットガンリード深さを有する開始アセンブリの区間はすべて、特定され、除外される。幾つかの典型的な実施形態では、アセンブリの約0.5%がマスクされるように、またはアセンブリの0.05、0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9、1.0、1.1、1.2、1.3、1.4、1.5、2、3、4、5、6、7、8、9、10、15、20、30、40、50、60、70、80%、またはそれ以上がマスクされるように、t1およびt2が選択される。幾つかの実施形態では、アセンブリの約0.5%がマスクされるように、t1およびt2が設定される。幾つかの場合では、マスクされるアセンブリのパーセントは、反復するアセンブリの割合による影響を受ける。幾つかの実施形態では、マッピングされたショットガンリードの深さに関する閾値のセットは、t1が3xであり、t2が3.5xであるものであり、ここでxは、深さの分布全体の平均と等しい。例えば、特定のヒトのアセンブリ(human assembly)の場合には、t1が87であり、t2が102であり、102の閾値が達成される場合、87以上の深さに対するヒット(hits)を有している領域がマスクされる。本例では、「x」は29であり、3xは87であり、および102は3.5xである。幾つかの実施形態では、t1は、2x、2.0x、2.1x、2.2x、2.3x、2.4x、2.5x、2.6x、2.7x、2.8x、2.9x、3.0x、3.1x、3.2x、3.3x、3.4x、3.5x、3.6x、3.7x、3.8x、3.9x、4.0x未満、または4.0x以上から選択される。幾つかの実施形態では、t2は、2x、2.0x、2.1x、2.2x、2.3x、2.4x、2.5x、2.6x、2.7x、2.8x、2.9x、3.0x、3.1x、3.2x、3.3x、3.4x、3.5x、3.6x、3.7x、3.8x、3.9x、4.0x、4.1x、4.2x、4.3x、4.4x、4.5x、4.6x、4.7x、4.8x、4.9x、5.0x未満、または5.0x以上から選択される。
幾つかの場合では、リードペアは、少なくとも2つのリードペアリンクによって4つを超える他の入力コンティグ(input contigs)に結合されるアセンブリ上の1Kbpのウィンドウ内に該当する場合、除外される。幾つかの場合では、除外ウィンドウは、100bp、100bp、200pb、300pb、400pb、500pb、600pb、700pb、800pb、900pb、1kb、1.1kb、1.2kb、1.3kb、1.4kb、1.5kb、2kb、3kb、4kb 5kb未満、または5kb以上である。幾つかの場合では、除外ウィンドウは、領域が2、3、4、5、6、7、またはそれ以上の他の入力コンティグに結合される場合に引き起こされる。
<スキャフォールディング - 尤度モデルパラメータの推測>
幾つかの場合では、尤度モデルパラメータは、入力処理前に推測される。本明細書に開示される方法およびシステムの幾つかの工程は、アセンブリ決定を誘導するために又はスキャフォールディング内のコンティグ構成を最適化するために、リードペアデータの尤度モデルを使用することができる。幾つかの実施形態では、尤度は、アセンブリ決定を誘導するかために又はスキャフォールディング内のコンティグ構成を最適化するために使用される。幾つかの場合では、尤度関数は以下である:
Figure 0007113053000003
(式1)
コンティグが、相対配向o,
Figure 0007113053000004
を有し、長さgの間隙によって分離されることを想定すると、この尤度関数は、数nを観察する確率およびコンティグ1と2との間のリードペアdiの暗示される分離(implied separations)を与える。関数f(x)は、リードペアのゲノミクスの分離距離にわたる正常化された確率分布であり、核酸サンプルを独立してサンプリングする「ノイズ」ペアからの寄与度を有すると想定される。f(x)=p/G+(1-p)f’(x)であり、f’(x)(式2)は、指数分布の合計として表わされる。これらのパラメータの少なくとも1つの評価を含む代替関数が、本開示と一致するものとして熟考される。
幾つかの実施形態では、利用可能な開始アセンブリの近接性(contiguity)が限定されるときにN、p、G、およびf’(x)のロバスト推定値を得るために、産物N pの推定値、密度の最高および最低の1%を除く、コンティグペアのサンプルのための(n/lとして定義された)リンクの密度を集計することによる「ノイズ」ペアの総数、およびGの値としての入力コンティグの長さの合計を使用する、セッティング
Figure 0007113053000005
(式3)が判定される。
幾つかの場合では、残りのパラメータは、
Figure 0007113053000006
(式4)の倍数補正因子を分離xでの平滑化数(smoothed counts)に適用した後に、開始アセンブリコンティグにマッピングされたリードペアの観察された分離のヒストグラムに対する最小自乗によってN f(x)において固定される。本明細書の概念の代替的な方程式および数学的表現は、本明細書の方法およびシステムの幾つかの実施形態と一致して熟考される。
<スキャフォールディング - メタゲノムの尤度モデルパラメータ>
幾つかの典型的な実施形態では、入力データは、複数のソース(例えばメタゲノムのライブラリ)からの核酸の混合物を含むサンプルから得られる。幾つかのそのような状況では、本明細書に開示される幾つかの方法および計算システムにおいて使用される尤度モデルは、混合された核酸サンプルかメタゲノムのライブラリに由来する入力データを構成する(account for)ように修正される。幾つかの場合では、尤度スコアが、それぞれの長さ(例えばlおよびl)およびカウント(例えばsおよびs)を有する2つのフラグメントのために計算されていると想定される。幾つかの場合では、カウントは、フラグメントの長さおよび入力された混合した核酸サンプル中のその相対的存在量の産物にほぼ比例する量である。限定しない例として、sおよびsは、適切な配列決定ライブラリから各コンティグにマッピングされるリードの数であり得る。幾つかの実施形態では、尤度スコアは、ノイズリードおよびリードペアの予測される数を構成するように修正される。幾つかの場合では、尤度スコア
Figure 0007113053000007
(式5)は、ノイズリード
Figure 0007113053000008
(式6)およびリードペア
Figure 0007113053000009
(式7)の予測される数のために修正される。幾つかの場合では、リードペアの有効な総数が計算される。幾つかの場合では、リードペアの有効な総数は、
Figure 0007113053000010
(式8)である。幾つかの場合では、連結される2つのフラグメントにマッピングされたリードペアの密度間の不一致が増加するにつれ尤度スコアを減少させるスコアペナルティーなどの、スコアペナルティーが適用される。限定しない例として、ペナルティーは以下のように計算される:
Figure 0007113053000011
(式9)
<スキャフォールディング - 入力コンティグにおける低支持の連結部(low-support joins)の切断>
コンティグ、スキャフォールドまたはアセンブリの情報が部分的に分解されるように、例えば、比較的弱いアセンブリ決定がダウンストリーム分析において永続化されないように、入力アセンブリデータが随意に処理される。例えば、開始アセンブリにおいて候補の誤連結部(misjoins)を特定し、切断するために、尤度モデルを使用して、開始アセンブリにおいて各コンティグの各位置iの左側および右側を連結することによって獲得された対数尤度変化を計算する(例えば、位置iでの切断によって作成される2つのコンティグに対する対数尤度比(LLR)L=ln L(g=0)=L(g=∞))。幾つかの実施形態では、この支持が、入力コンティグの最大の内部セグメントにわたって閾値t以下にあるときに、セグメントは「低支持」セグメントとして定義される。幾つかの実施形態では、例えば互いに300bp以内に位置する、および例えばコンティグエンドの1Kbp以内の低支持セグメントを除く低支持セグメントを融合した後に、セグメントのサイズに依存して、追加の修正が行われる。例えば、1000bpより下のセグメントに対しては、コンティグにおいてセグメントの中点で切断が導入され、セグメントが1000bpより長い場合は、セグメントの各エンドに切断が導入される。幾つかの場合では、100bp、100bp、200pb、300pb、400pb、500pb、600pb、700pb、800pb、900pb、1kb、1.1kb、1.2kb、1.3kb、1.4kb、1.5kb、2kb、3kb、4kb、5kbより長い、または5kb以上である場合、切断はセグメントの各エンドに導入される。
<スキャフォールディング - コンティグ間を結合するグラフ構築>
アセンブリのプロセスの間に、生成された結合するデータは、開始アセンブリの(破損された)コンティグがノードであり、エッジが整数の順序対のリスト(その各々は、マッピングされたペアからのリードの2つのコンティグにおける位置を表わしている)で標識されるグラフとして随意に表わされる。幾つかの実施形態では、スキャフォールディングの初期工程は、生成されたリンクtの閾値数より少ない閾値数を有するエッジを除外することによってグラフを連結成分へと分割することにより作成されたデータのサブセット上で平行して実行され、ここで最低の整数閾値は、入力コンティグの5%以上を含む連結成分を生じさせなかった。特定のデータセットか分析システムの詳細に依存して、閾値tは、入力コンティグの0.5、0.6、0.7、0.8、0.9、1.0、1.1、1.2、1.3、1.4、1.5、2、3、4、5、6、7、8、9、10、15、20%未満またはおよそのそれらの%未満、あるいは20%以上を除外するように選択される。
<スキャフォールディング - スキャフォールド構築のシード>
幾つかの実施形態では、スキャフォールド構築の反復位相は、コンティグ間のグラフのエッジをフィルター処理し、それを高信頼度の線形のサブグラフへと分解することによってシード値が与えられる(seeded)。幾つかの場合では、コンティグ間のエッジがフィルター処理され、フィルター処理されたグラフの最小スパニングフォレストが発見される(下記の「エッジフィルタリング」を参照)。幾つかの場合では、グラフは、程度1のノードを除去し、続いて2を超える程度のノードを除去する、3回連続のラウンドによって直線化される。幾つかの場合では、結果として生じるグラフの連結成分の各々は、線形トポロジーを有し、入力コンティグのサブセットの順序付けを定義した。幾つかの場合では、初期のスキャフォールドの生成に結果的に達する工程は、各直線成分に対するコンティグ配向の最大尤度の選択を見つけることである。幾つかの実施形態では、グラフは、ノード除去の1、2、4、5、6回、または6回以上の連続のラウンドによって直線化される。幾つかの実施形態では、除去されたノードの程度は様々である。幾つかの場合では、最大尤度の選択は、最大尤度を判定するために特定の方程式を使用して計算される。幾つかの場合では、最大尤度は、最も可能性の高い順序、配向、または順序及び配向の一般的な評価である。
<スキャフォールディング - エッジフィルタリング>
フィルターは、直線化の前にコンティグ間のグラフのエッジに随意に適用される。典型的なフィルターは以下を含む:t未満のリンクを有するエッジの除外および「無差別の(promiscuous)」コンティグからのエッジの除外。「無差別の」コンティグは、塩基対におけるコンティグ長さに対応するノードのグラフにおける程度の比率がtを超えるものとして特定されるか、あるいはフィルター(1)をdを超える他のコンティグに通すリンクを有する。閾値tおよびdは、幾つかの場合において対応する値の分布の上部の尾部(tail)のおよそ5%を除外するように選択される。幾つかの場合では、閾値tおよびdは、対応する値の分布の上部の尾部のおよそ0.5、0.6、0.7、0.8、0.9、1.0、1.1、1.2、1.3、1.4、1.5、2、3、4、5、6、7、8、9、10、15、20%未満、または20%以上を除外するために選択された。幾つかの実施形態では、tは、7より下、7、8、9、10、11、12、13、14から15まで、または15以上の範囲である。幾つかの実施形態では、tは、0.01、0.02、0.03、0.04、0.05、0.06、0.07、0.08、0.09から、0.1までの範囲である。幾つかの実施形態では、dは、5未満、5、6、7、8、9、10、11、12、13、14、15、または15以上の範囲である。幾つかの実施形態では、t、t、およびdが、それぞれ11、0.04、および10であるときに、改善されたパフォーマンスが得られることが分かる。
<スキャフォールディング - コンティグの配向>
各入力スキャフォールドは、フォワードおよびリバースの塩基配列、または「Watson」および「Crick」のDNA鎖に対応する、最終アセンブリにおける2つの配向のうちの1つを有する。本明細書で開示されるように、各線状紐部におけるスキャフォールドに最適な配向は、以下に示されるような再帰関連性を使用して動的プログラミングなどの分析によって見つけられる。長さnのスキャフォールドの順序付きリストにおいて、スキャフォールドi-kからiが特定の配向
Figure 0007113053000012
を有するような、最大でスキャフォールドiまでのスキャフォールドに対する配向選択の最も高いスコアリング配列のスコアは、以下によって与えられる:
Figure 0007113053000013
(式10)
随意に、コンティグkから戻る(steps back)リンクを含むことによって、配向精度の改善がもたらされる。幾つかの場合では、上に議論されるように、分枝したコンティグの順序付けを結果としてもたらす状況に類似した状況において、小さなインターカレートされたスキャフォールドが、片面上に結合と、故に配向情報を有するだけであるかもしれず、隣接するスキャフォールドに関する重要な配向情報が、それを飛び越えるリンクから送られるため、配向精度が改善される。
<スキャフォールディング - 成分内のスキャフォールディングの融合>
コンティグエンドは、スキャフォールドにおけるそれらの位置と相対的な随意に指定された分類である。例えば、コンティグエンドは、スキャフォールドのエンドに位置する場合には「自由」として分類され、スキャフォールドの内部にある場合には「埋設された(buried)」として分類される。幾つかの実施形態では、各連結成分内のすべてのコンティグエンドのペアに関して、それらを連結するためのLLRスコアは、gの「標準」間隙寸法で計算される。幾つかの実施形態では、候補連結部は、スコアの降順で分類され、1セットの基準に従って評価される。典型的なセットの基準が続く。両エンドが、自由であり、異なるスキャフォールドからのものである場合、端と端との2つのスキャフォールドの結合を試験する。片側のエンドが埋設されて他エンドが自由であり、両エンドが異なるスキャフォールドからのものである場合、埋設されたエンドに隣接した間隙への自由エンドのスキャフォールドの挿入を試験する。片側のエンドまたは両エンドが埋設されて、両エンドが同じスキャフォールド上にある場合、両エンド間のスキャフォールド部分の逆位を試験する。両エンドが埋設されて、異なるスキャフォールドからのものである場合、端と端でスキャフォールドを連結するすべての4つの方法を試験する。幾つかの実施形態では、すべての場合に関して、考えられ得る連結部、挿入部および反転部が、変化による影響を受けたすべてのコンティグのペア間のLLRスコアを合計することによってLLRスコアの総変化を計算することにより試験される。変更がLLRスコアを増大させた場合、最適な移動が許容される。
<スキャフォールディング - 局所的な順序、配向および間隙寸法の改善>
各スキャフォールドにおけるコンティグの局所的な順序付けおよび配向の両方を改善するために、各スキャフォールドの順序付けされ、配向されたコンティグにわたってサイズwのウィンドウをスライドさせる、動的プログラミングアルゴリズムが随意に適用される。各位置iでは、ウィンドウ内でコンティグを順序付けし配向するすべてのw!2の方法が考慮され、ウィンドウにおいてコンティグの現行の構成で終端する現行のウィンドウ位置のエンドまでのすべてのコンティグの最適な順序付け及び配向を表わすスコアが保存された。位置
Figure 0007113053000014
でのウィンドウにおけるすべての「適合性のある」順序および配向のスコア、および現行の構成でそれらの順序付けの拡張のスコアが使用された。w!2がそのような急勾配関数であるため、方法は、実施時にwの小さな値に一般に限定される。幾つかの実施形態では、wは、2、3、4、5、6、7、8、9、10、またはそれ以上である。幾つかの典型的なデータに関する試験において、w=3は、幾つかのデータセットに対する構成精度を劇的に改善する。幾つかの実施形態では、リードペアの結合の分離の確率モデルを与えられたコンティグの構成を改善する方法が提供される。そのような方法は、コンティグの初期の順序付けにわたってサイズwのウィンドウをスライドさせる動的プログラミングアルゴリズムである。
<スキャフォールディング - 繰り返し連結>
初期のスキャフォールドが各連結成分内に構築された後、結果として生じるスキャフォールドは、単一のプールに戻され、端と端との及びインターカレートするスキャフォールド連結の複数のラウンドが実行される。各ラウンドでは、すべてのスキャフォールドのペアが比較され、尤度スコアが、端と端との及びインターカレートする連結のために平行して計算される。その後、候補連結部は分類され、矛盾しない連結部は、尤度スコアの増加の降順で許容される。
<分割の利点>
本明細書において、高スループットの配列決定データからの新規のアセンブルされたコンティグのスキャフォールディングを劇的に改善することができる、長距離のメイトペアデータのインビトロでの生成のための方法およびコンピュータにより実施されるシステムが記載される。これらのアプローチは、既存の方法以上の幾つかの利点を有する。
第1に、データライブラリ構築は、生きた生体物質、例えば、一次または形質転換された組織培養物、あるいは生体を必要としない。本明細書に記載されるライブラリは、10、9、8、7、6、5、4、3、2、1マイクログラム、または1マイクログラム未満などの、わずか5.0マイクログラムまたはそれ以下のインプットDNAから生成される。さらに、インビトロでの染色質再構成は、ヒトのヒストンおよび染色質のアセンブリ因子に基づくが、種々様々な植物、動物、および微生物からのDNAは、記載されるプロトコルを使用してインビトロでの染色質アセンブリ用の基質になり得る。
第2に、データが、インビボでのソースで得られた染色質よりもむしろインビトロでアセンブルされた染色質の近接連結から生成されるため、アセンブリを混乱させる可能性のある交絡生体信号がない。Hi-C及び/又はインビボでの染色質から生成された他の近接連結データは、その内で生物学的関連性のある長距離の近接情報を搬送するが、持続性であり、ゲノムまたはスキャフォールドのアセンブリにとって交絡である可能性がある。幾つかの実施形態では、本明細書に提供される方法は、結果としてノイズの低バックグラウンド速度および持続性且つスプリアスのリードペアの事実上の欠如をもたらす。
第3に、インビボでのHi-C方法とは対照的に、生成されたリードペアの最大分離は、インプットDNAの分子量によってのみ限定される。これによって、短いフラグメントのIllumina配列+生成されたライブラリだけを使用する脊椎動物の核酸スキャフォールドまたはゲノムの高度に隣接するスキャフォールディングの生成が可能になった。
第4に、これらのライブラリは、長距離の「メイトペア」とフォスミドライブラリの組み合わせを作り出す及び配列決定する必要性を除去し、そのようなライブラリを作り出すのに通常必要とされる高分子量DNAを剪断する又はサイズ選択するための高価で専門的な機器の使用を必要としない。
したがって、既存の方法よりかなり長距離ののコンティグアセンブリのスキャフォールドを生成するバイオインフォマティクス法を使用する、DNAライブラリの構築方法および計算システムが提供される。幾つかの実施形態では、本明細書に提供されるDNAライブラリの構築方法はまた、核酸サンプルまたはゲノムの変更を特定するために提供される。しばしば、本明細書に提供されるDNAライブラリの構築方法および計算システムは、低い労力およびコストで全長のハプロタイプ分解された染色体配列の正確な再構成をもたらす。
順序付け及び配向精度の両方を改善するために、順序付け及び配向の問題は、順序付け及び配向の工程を統合することによって解決される。一例では、初期のグラフが構築され、このグラフにおいて、ノードはコンティグエンドであり、各コンティグの2つのエンドノードはエッジによって連結される。具体的な短い間隙寸法の仮定の下でのコンティグ間のエッジの対数尤度比スコアは、計算され、続いて分類された。エッジスコアの降順でリストを当たると、新しいエッジが、アセンブリの合計スコアを増加または減少させるかによって、受理されるか又は拒絶される。既存のスキャフォールドの間隙へのコンティグのインターカレーションを含蓄するエッジの許容が、間隙の両側の結合されたコンティグのペア間の間隙寸法を増大させるため、陽性スコアを有するエッジでさえアセンブリにおいてコンティグのスコアの合計を減少させ得、これが、コンティグに対してより低いスコアを与える可能性があることが留意される。
さらに、最大尤度の間隙寸法の計算の効率が改善される。報告されたアセンブリの精度は、連続するコンティグ間の未知の配列の長さを推定することによって向上される。ライブラリのリードペア間の分離dに関するモデル確率密度関数(PDF)を含むライブラリ生成プロセスのモデルを考慮すると、最大尤度の間隙長さは、例えば、間隙に及ぶペアの分離diの結合尤度を最大限にすることによって見つけられる。微分可能なモデルPDFに関して、効率的な反復最適化方法(例えばNewton-Raphson)が使用される。
<成功を特定するためのパラメータ>
本明細書における多くの方法および計算システムは、少なくとも2つの順序、配向、スキャフォールド接続状態、コンティグ切断評価、または他の考えられ得る配列の再位置決め(総じて「スキャフォールディング」)の評価を含む。開始または以前のデータに関する改善を表わすスキャフォールディングを数的に評価するために、多くのアプローチが利用可能である。典型的な実施形態では、コンティグまたはスキャフォールドの構成は、(例えば、同じコンティグにマッピングされる両エンドを有するリードペアから)予期されたか、独立して判定されたか、または同時に判定された曲線により近く近似するリードペア分離距離の分布曲線を生成する場合に好ましい。曲線は、例えば、上の式1を使用して評価において有利にスコアを得る場合、予期されたか、独立して判定されたか、または同時に判定された曲線により近く近似する。分散分析(ANOVA)試験、共変動の評価、または他の試験などの、代替的評価が、当業者にとって利用可能である。
交互に又は組み合わせて、全体的なスキャフォールディング有効性のための別々のスコアあるいはメトリックスが使用される。幾つかの尺度は、既知の核酸アセンブリに対するパーセントアライメントを含み、その結果、パーセントアライメントの改善につながるスキャフォールディングが好まれる。幾つかの場合では、改善は、少なくとも50%、60%、70%、75%、80%、85%、90%、95%、99%、99.5%、99.9%、または99.9%以上のパーセントアライメントにつながる。
別の尺度は、N50などの全体的なスキャフォールド集団に対するスキャフォールドの効果である。すなわち、幾つかの場合では、スキャフォールディングは、配列データセットに対する結果として生じたN50が増加した場合に好ましい。幾つかの場合では、改善は、少なくとも0.5%、1% 2% 3%、4%、5%、10%、20%、30%、40%、50%、60%、70%、80%、90%、100%、150%、200%、250%、300%、400%、500%、600%、700%、800%、900%、1000%、1500%、2000%、2500%、3000%、4000%、5000%、6000%、7000%、8000%、9000%、10,000%、15,000%、20,000%、25,000%、30,000%、35,000%、40,000%、45,000%、50,000%、55,000%、60,000%、65,000%、70,000%、75,000%、80,000%、85,000%、90,000%、95,000%、100,000%、または100,000%以上のパーセント増加につながる。
交互に又は組み合わせて、全体的なスキャフォールド集団に対する効果の追加のメトリックスが使用される。1つのそのようなメトリックスはRN50測定値である。RN50は以下の通りに理解される。1セットの配列Sおよび基準配列Rに関して、Rに関するSのRN50または「基準のN50」は、Tにおける最短の配列の長さであり、ここでTは、Tにおける配列が、Rの長さの少なくとも50%をカバーするような方法でRにアライメントされ得るように、Sの最小(最小基数)のサブセットである。
Tにおけるすべの配列がRN50と少なくとも同じくらい大きいため、これは、Rのランダムに選択された塩基が、少なくとも長さRN50であるTにおける(および故にSにおける)配列に対するアラインメントによって範囲が及ぶ少なくとも50%の確率を有することを意味する。
幾つかの場合では、初期のRN50は、ゲノム配列などのサンプル配列に、0.5%、1%、2%、3%、4%、5%、10%、20%、30%、40%、または50%である値、あるいはこの範囲内の別の数値を有する。幾つかの場合では、最終的なRN50が、初期のRN50より大きい値を有する。幾つかの場合では、改善は、少なくとも0.5%、1%、2%、3%、4%、5%、10%、20%、30%、40%、50%、60%、70%、80%、90%、または90%、100%以上、2x、5x、10x、20x、50x、100x、200x、500x、1000x、2000x、5000x、10000x、または10000x以上のRN50のパーセント増加につながる。
本開示と一致するスキャフォールディングの成功の交互のメトリックスが熟考される。
図面を参照すると、図1のA-Fは、DNAライブラリ生成プロトコルの典型的な概要図を例証する。図1のAでは、染色質(円として描写されるヌクレオソーム)は、インビトロで裸のDNA(黒鎖(black strand))上に再構成される。図1のBでは、染色質は、ホルムアルデヒドで固定される(細線は交差結合である)。固定された染色質は、ストレプトアビジンのビーズ上へと引き下げられ、制限酵素で切断され、自由粘着末端がもたらされる(図1のC)。図1のDでは、粘着末端は、ビオチン化された(より小さな円)およびチオール化された(小さな正方形)ヌクレオチドとともに充填される。図1のEでは、自由平滑末端は連結される(アスタリスクによって示される連結)。図1のFでは、交差結合が逆転され、タンパク質が除去されて、ライブラリの断片が得られる。ライブラリの断片は、非連結型の末端からビオチン化されたヌクレオチドを除去するために消化される。ライブラリの断片は、ストレプトアビジンでコーティングしたビーズとともに選択され、その後、配列決定に備えて、アダプターを上に連結させる。
幾つかの実施形態では、基準アセンブリにマッピングされた幾つかの生成されたライブラリのためのリードペア分離が比較される。例えば、図2は、hg19などの、基準ヒトアセンブリにマッピングされた幾つかの生成されたライブラリのためのリードペア分離の例を提供する。当該図では、プロットの右側で下の角括弧によって印されたデータ傾向は、50Kbp入力のヒト配列決定ライブラリに対応している。プロットの右側で下の矢印によって印されたデータ傾向は、150Kbp入力のヒト配列決定ライブラリに対応している。プロットの右側で中央の矢印によって印されたデータ傾向は、150Kbp入力のヒト配列決定ライブラリに対応している。プロットの右側で上の矢印によって印されたデータ傾向は、ヒトHi-Cライブラリに対応している(Kalhor et al., 2012)。暗い垂直線は、代替のメイトペア技術に対する最大の公示された(advertised)または実証された能力を示す。
推定の隣接する核酸またはゲノムのサイズで割られたリードペア分離の合計が、代替または追加のメトリックスとしての分離範囲によってグループ分けされた様々なリードペアに対して計算される。そのような比較の典型的な概要は、図3に示される。
図4Aおよび4Bを参照すると、再びアセンブルされた染色質からのDNAの近接連結から生成されたリードペアの基準配列(例えばGRCh38)上のマッピングされた位置の例が提供され、これらはGM12878と基準との間の構造差の近くにプロットされる。生成された各リードペアは、対角線の上および下の両方に表わされる。対角線の上では、陰影は、示されたスケールのマップ品質のスコアを示し、対角線の下では、陰影は、位相合わせされたSNPの重複に基づいた生成されたリードペアの推論されたハプロタイプ相を示す。幾つかの実施形態では、図4Bで例証されるように、生成されたプロットは、隣接する反復領域を有する逆位を描写する。幾つかの実施形態では、図4Bで例証されるように、生成されたプロットは、位相合わせされたヘテロ接合の欠失に関するデータを描写する。
図5を参照すると、染色質のリアセンブリおよび処理の例が提供される。幾つかの実施形態では、精製された高分子量DNAは、(ヒストンおよび染色質のアセンブリ因子を用いて)インビトロでの染色質アセンブリにさらされ、その後、ビオチン化される。幾つかの実施形態では、結果として生じるDNA-染色質複合体は、その後、固化剤で固定される。図5では、固化剤はホルムアルデヒドである。さらなる実施形態では、DNA-染色質複合体は、ストレプトアビジンのビーズを用いて引き下げられる。さらなる実施形態では、DNA-染色質複合体は、制限酵素消化で処理される。図5で例証されるように、幾つかの場合では、制限酵素はMboIである。幾つかの場合では、制限酵素は、粘着末端を残す、例えば、二本鎖DNA中でオーバーハングする酵素である。幾つかの実施形態では、粘着末端は、標識されたヌクレオチドとともに充填される。幾つかの場合では、標識されたヌクレオチドは、ビオチン化または硫酸化される。図5で例証されるように、幾つかの場合では、硫酸化されたdGTPを用いて内部充填が実行され、ビオチン化されたdCTPを用いて外部充填が行われる。幾つかの実施形態では、平滑末端の連結工程が実行され、充填末端が連結される。幾つかの実施形態では、DNA-染色質複合体は、複合体からDNAを放出するために酵素消化にさらされる。図5で例証されるように、幾つかの実施形態では、酵素はプロテイナーゼKである。幾つかの実施形態では、DNAは、標識されたヌクレオチドを除去するために制限酵素で処理される。例えば、図5で例証されるように、ExoIII消化による処理によって、末端上のビオチン化されたシトシンを除去する。幾つかの実施形態では、DNA断片は、剪断、プルダウン、およびIllumina互換性のライブラリ生成プロトコルの使用による分析によって調製され、ビーズ上の洗剤および再懸濁の代りに、反応間の正常なクリーンアップ工程が除去される。
様々な実施形態では、本発明の方法およびシステムは、コンピュータシステムズ上のソフトウエアプログラムおよびそれらの使用をさらに含む。コンピュータシステムズは、ユーザー間でインターフェース接続するようにプログラムされ得る。
図6で例証されるコンピュータシステム(600)は、媒体(611)、及び/又は固定媒体(612)を有するサーバー(609)に随意に接続され得るネットワークポート(605)からの命令を読み取る論理装置として理解され得る。図6に示されるものなどの、システムは、CPU(601)、ディスクドライブ(603)、キーボード(615)及び/又はマウス(616)などの随意の入力デバイス、および随意のモニター(607)を含むことができる。データ通信は、示された通信媒体を介してローカルまたはリモートの場所でのサーバーへと達成される。通信媒体は、データを送信及び/又は受信する、あらゆるデバイス、装置またはアプローチを含むことができる。例えば、通信媒体は、ネットワーク接続、ワイヤレス接続またはインターネット接続であり得る。そのような接続は、ワールドワイドウェブ上の通信を提供することができる。本開示に関連するデータが、図6に例証されるようにパーティー(622)による受信及び/又はレビューのためのそのようなネットワークまたは接続にわたって送信され得ることが予想される。
図7は、本明細書に記載される実例の実施形態で使用されるコンピュータシステム(700)の第1の実例のアーキテクチャを例証するブロック図である。図7に描写されるように、実例のコンピュータシステムは、処理命令のためのプロセッサ(702)を含む。プロセッサの限定しない例は以下を含む:Intel XeonTMプロセッサ、AMD OpteronTMプロセッサ、Samsung 32-bit RISC ARM 1176JZ(F)-S v1.0TMプロセッサ、ARM Cortex-A8 Samsung S5PC100TMプロセッサ、ARM Cortex-A8 Apple A4TMプロセッサ、Marvell PXA 930TMプロセッサ、または機能的に同等なプロセッサ。実行の複数のスレッドを並列処理に使用することができる。幾つかの実施形態では、複数のコアを備えた複数のプロセッサが、単一のコンピュータシステム中であろうと、クラスター中であろうと、あるいは複数のコンピュータ、携帯電話、及び/又は携帯電話端末装置を含むネットワーク上のシステムにわたって分散されて、使用される。
図7に例証されるように、高速キャッシュ(704)は、プロセッサ(702)に接続されるか、またはそこに組み込まれ、プロセッサ(702)によって最近または頻繁に使用されている、命令またはデータ用の高速メモリを提供する。プロセッサ(702)は、プロセッサバス(708)によってノースブリッジ(706)に接続される。ノースブリッジ(706)は、メモリバス(712)によってランダムアクセスメモリ(RAM)(710)に接続され、プロセッサ(702)によってRAM(710)へのアクセスを管理する。ノースブリッジ(706)はまた、チップセットバス(716)によってサウスブリッジ(714)に接続される。サウスブリッジ(714)は、順に、周辺バス(718)に接続される。周辺バスは、例えばPCI、PCI-X、PCI Express、または他の周辺バスである。ノースブリッジおよびサウスブリッジは、しばしば、プロセッサチップセットと呼ばれ、プロセッサ、RAM、および周辺バス(718)上の周辺コンポ--ネントの間のデータ転送を管理する。幾つかの代替的なアーキテクチャでは、ノースブリッジの機能は、別々のノースブリッジチップを使用する代わりにプロセッサに組み込まれる。
幾つかの実施形態では、システム(700)は、周辺バス(718)に付けられたアクセラレータカード(722)を含む。アクセラレータは、フィールドプログラマブルゲートアレイ(FPGA)または特定の処理を加速させるための他のハードウェアを含むことができる。例えば、アクセラレータは、幾つかの場合に、適合データ再構成のために、または拡張セットの処理に使用される代数式を評価するために使用される。
ソフトウェアおよびデータは、外部記憶装置(724)に記憶され、プロセッサによる使用のためにRAM(710)及び/又はキャッシュ(704)にロードされ得る。システム(2000)は、システムリソースを管理するためのオペレーティングシステムを含み、オペレーティングシステムの限定しない例は、以下を含む:Linux(登録商標)、WindowsTM、MACOSTM、BlackBerry OSTM、iOSTM、および他の機能的に同等なオペレーティングシステムの他に、本発明の実例の実施形態に従ってデータの記憶および最適化を管理するためのオペレーティングシステム上で実行するアプリケーションソフトウェア。
この例において、システム(700)はまた、ネットワーク接続ストレージ(NAS)、および分散並列処理に使用することができる他のコンピュータシステムなどの、外部記憶装置にネットワークインターフェースを提供するために周辺バスに接続されたネットワークインターフェースカード(NIC)(720)および(721)を含む。
図8は、複数のコンピュータシステム(802a)および(802b)、複数の携帯電話および携帯電話端末(800c)、ならびにネットワーク接続ストレージ(NAS)(804a)および(804b)を備えたネットワーク(800)を示す図である。実例の実施形態では、システム(802a)、(802b)、および(800c)は、データ記憶を管理し、ネットワーク接続ストレージ(NAS)(804a)および(804b)に保存されたデータのためのデータアクセスを最適化することができる。数理モデルが、幾つかの場合においてデータに使用され、コンピュータシステム(802a)および(802b)、および携帯電話および携帯電話端末のシステム(800c)にわたって分散並列処理を使用して評価される。コンピュータシステム(802a)および(802b)、および携帯電話および携帯電話端末のシステム(800c)はまた、ネットワーク接続ストレージ(NAS)(804a)および(804b)に保存されたデータの適合データ再構成のための並列処理を提供することができる。図8は、例のみを例証し、種々様々な他のコンピュータアーキテクチャおよびシステムが、本発明の様々な実施形態に関連して使用され得る。幾つかの例では、並列処理を提供するために、ブレードサーバーが使用される。並列処理を提供するために、プロセッサブレードがバックプレーンを介して接続され得る。記憶装置もバックプレーンに接続され得るか、あるいは別々のネットワークインターフェースを介してネットワーク接続ストレージ(NAS)として接続され得る。
幾つかの例実施形態では、プロセッサは、別々のメモリ空間を維持することができ、ネットワークインターフェース、バックプレーン、または他のプロセッサによる並列処理のための他のコネクターを介してデータを送信することができる。他の実施形態では、プロセッサの幾つか又はすべては、共有仮想アドレスメモリ空間を使用することができる。
図9は、実例の実施形態に従い共有仮想アドレスメモリ空間を使用する、マルチプロセッサコンピュータシステム(900)のブロック図である。該システムは、共有メモリサブシステム(904)にアクセスすることができる複数のプロセッサ(902a-f)を含む。該システムは、メモリサブシステム(904)に複数のプログラマブルハードウェアメモリのアルゴリズムプロセッサ(MAP)(906a-f)を組み込む。各MAP(906a-f)は、メモリ(908a-f)および1つ以上のフィールドプログラマブルゲートアレイ(FPGA)(910a-f)を含むことができる。MAPは、設定可能な機能ユニットを提供し、特定のアルゴリズムまたはアルゴリズムの部分が、それぞれのプロセッサと密に協働して処理するためのFPGA(910a-f)に提供される。例えば、MAPは、幾つかの場合において、データモデルに関する代数式を評価するために、および実例の実施形態において適合データ再構成を実行するために使用される。本例において、各MAPは、これらの目的のためにプロセッサのすべてによって全体的に利用可能である。一構成において、各MAPは、関連メモリ(908a-f)にアクセスするためにダイレクトメモリアクセス(DMA)を使用することができ、それによって、それぞれのマイクロプロセッサ(902a-f)とは無関係に及び非同期的にタスクを実行することが可能になる。この構成において、MAPは、アルゴリズムのパイプライン処理および並列実行のために別のMAPに直接結果を供給することができる。
上記のコンピュータアーキテクチャおよびシステムは、例のみであり、汎用プロセッサ、コプロセッサ、FPGAおよび他のプログラマブルロジックデバイスの任意の組み合わせを使用するシステム、システムオンチップ(SOC)、特定用途向け集積回路(ASIC)、および他の処理および論理の素子を含む、種々様々な他のコンピュータ、携帯電話、携帯電話端末のアーキテクチャおよびシステムが、実例の実施形態において使用される。幾つかの実施形態では、コンピュータシステムのすべて又は一部は、ソフトウェアまたはハードウェアにおいて実施される。ランダムアクセスメモリ、ハードドライブ、フラッシュメモリ、テープドライブ、ディスクアレイ、ネットワーク接続ストレージ(NAS)、および他のローカルまたは分散型のデータ記憶装置およびシステム含む、あらゆる種類のデータ記憶装置媒体が、実例の実施形態に関連して使用され得る。
実例の実施形態では、コンピュータシステムは、上記または他のコンピュータアーキテクチャおよびシステムのいずれかで実行するソフトウェアモジュールを使用して実施される。他の実施形態では、システムの機能は、ファームウェア、図9で参照されるようなフィールドプログラマブルゲートアレイ(FPGA)などのプログラマブルロジックデバイス、システムオンチップ(SOC)、特定用途向け集積回路(ASIC)、または他の処理および論理の素子において、部分的または完全に実施される。
本出願の出願時の使用における方法と比べて、本明細書に開示される方法およびシステムは、多くの利点を提供する。
本明細書に開示される幾つかの方法および計算システムは、生体に対する染色体の数とは無関係な方法でコンティグをクラスター化する。結果として生じるより小さなコンティグのクラスターをスキャフォールドへとアセンブルするために、シングルリンクのクラスタリングのためのコンティグ間のリンク上のより控えめな閾値が適用され、本明細書に開示される様々な方法によって、続くスキャフォールディングの連結が可能になる。
幾つかの実施形態では、本明細書に開示される方法は、クラスタリングを本質的に含んでいないが、全域木工程に直接関係し、トポロジー的なツリープルーニングが後に続く。幾つかの実施形態では、1つを超えるクラスタリング方法、例えば、Markov Cluster Algorithm(MCLアルゴリズム)が使用される。理論に限定されることなく、ミスアセンブリは、これらのエッジを特に気を付けて処理し、アセンブリの誤連結を回避することによるトポロジー的なプルーニングによって防ぐことができる。
スキャフォールドにおいてコンティグの順序を固定した後に、配向は、幾つかの場合において動的プログラミングアルゴリズムの使用によって最適化される。順序付けにおいて隣接するコンティグのペアにマッピングされるそのようなアプローチのみのリードペアは、最適化されているスコアに寄与し、出されてアセンブルされていない(out and unassembled)優れたフラグメントペアの最大の分離より短いコンティグは除外される。配向工程を改善するために、最も近隣のコンティグスコアの相互作用に加えて、最も近隣のコンティグスコアの相互作用ではないコンティグは、多くてもw-2の干渉コンティグ内でコンティグのペアにマッピングされるすべてのペアからのデータを組み込むアルゴリズムを使用することによって、例えば、2、3、4、5、6、7、8、9、10または10以上などの、順序付けにおいて2つ以上のコンティグの値を使用することによって、考慮され得る。
幾つかの実施形態では、インターカレーション工程の精度が改善される。いかなる理論にも縛られることなく、トランクの生成後の優れたリードペア間の最大の分離より短いコンティグを備えたアセンブリにおいて、順序付けに沿ったwコンティグの近隣内のコンティグからのデータは、トランクからコンティグを除外し、隣接したコンティグ間の結合の量を最大限にする部位でそれに再挿入するときに含まれる。
配向工程は、幾つかの場合において、最も近隣のコンティグスコアの相互作用以上に考慮することによって改善される。スキャフォールドにコンティグの順序を固定した後に、コンティグ配向は、動的プログラミングアルゴリズムを使用することによって最適化される。順序付けにおいて隣接したコンティグのペアにマッピングされるリードペアだけが、最適化されているスコアに寄与する。幾つかの場合では、順序付けにおいて多くてもw-2の干渉コンティグ内でコンティグのペアにマッピングされるすべてのペアからのデータを組み込むアルゴリズムが、優れたフラグメントペアの最大の分離より短いコンティグを備えたアセンブリに使用される。例えば、2、3、4、5、6、7、8、9、10、または10以上などの、順序付けにおける2つ以上のコンティグの値を使用する。
幾つかの実施形態では、順序付け及び配向をさらにより堅く統合することによって順序付け及び配向両方の精度が改善される。ノードがコンティグエンドであり、各コンティグの2つのエンドノードがエッジによって連結される、初期のグラフが構築される。特定の短い間隙寸法を仮定したコンティグ間エッジの対数尤度比スコアが計算され、その後、分類された。エッジスコアの降順でリストを当たると、新しいエッジが、アセンブリの合計スコアを増大させるか又は減少させるかに従って受理または拒絶される。既存のスキャフォールドの間隙へのコンティグのインターカレーションを含蓄するエッジを許容することによって、間隙の両側の結合されたコンティグのペア間の間隙寸法が増大されるため(これはより低いスコアを与える可能性がある)、陽性スコアを有するエッジでさえ、アセンブリにおけるコンティグのシコアの合計を減少させ得ることが留意される。
さらに、最大尤度の間隙寸法が効率的に計算される。報告されたアセンブリの全体の精度は、連続するコンティグ間の未知の配列の長さを推定することによって増大される。ライブラリのリードペア間の分離dに関するモデル確率密度関数(PDF)を含むライブラリ生成プロセスのモデルを考慮すると、最大尤度の間隙長さは、間隙に及ぶペアの分離diの結合尤度を最大限にすることによって見つけられる。微分可能なモデルPDFに関して、効率的な反復最適化方法(例えばNewton-Raphson)が、幾つかの場合において使用される。
本明細書に開示される方法および組成物の要素は、コンティグが、8、7、6、5、4、3、2、または2時間未満などの、比較的短い時間で実行可能または入手可能である一方で、例えば、コンティグ順序、配向、または順序及び配向に対する2、3、4、5、6、または6以上のコンティグのコンティグウィンドウの中で局所最適である構成へとアセンブルされることである。したがって、幾つかの場合では、本明細書の方法によって、大量の計算時間を使用せず、また全体的に非常に大規模な計算的空間を探索する必要とすることなく、高度な計算能力が計算集約的な問題に当てられることが可能となる。むしろ、局所的な順序付けは、コンティグの適度に正確な順序付けを達成し、その後、計算集約は、ほとんどの場合一度にすべてのコンティグを全体的に最適化するよりもむしろ、コンティグのローカルウィンドウを最適化して消費される。幾つかの場合では、3、4、5、または6の範囲のウィンドウサイズを使用して、構成最適化が、8、7、6、5、4、3、2、または2時間未満に行われる。より大きなウィンドウサイズについては、構成最適化は、最大1週間で数日で達成される。
<デジタル処理装置>
幾つかの実施形態では、本明細書に記載されるコンティグのアセンブリ方法は、デジタル処理装置、またはその使用を含む。さらなる実施形態では、デジタル処理装置は、装置の機能を実行する1つ以上のハードウェア中央処理装置(CPU)を含む。またさらなる実施形態では、デジタル処理装置は、実行可能命令を実行するように構成されたオペレーティングシステムをさらに含む。幾つかの実施形態では、デジタル処理装置は、コンピュータネットワークに随意に接続される。さらなる実施形態では、デジタル処理装置は、ワールドワイドウェブにアクセスするようにインターネットに随意に接続される。またさらなる実施形態では、デジタル処理装置は、クラウド・コンピューティング・インフラストラクチャーに随意に接続される。他の実施形態では、デジタル処理装置は、イントラネットに随意に接続される。他の実施形態では、デジタル処理装置は、データ記憶装置に随意に接続される。
本明細書の記載に従って、適切なデジタル処理装置は、限定しない例として、サーバーコンピュータ、デスクトップコンピュータ、ラップトップコンピュータ、ノート型コンピュータ、サブノート型コンピュータ、ネットブックコンピュータ、ネットパッドコンピュータ、セットトップコンピュータ、メディアストリーミング装置、ハンドヘルドコンピュータ、インターネットアプライアンス、モバイルスマートフォン、タブレットコンピュータ、携帯情報端末、ビデオゲーム機、および媒体を含む。当業者は、多くのスマートフォンが、本明細書に記載されるシステムにおける使用に適していることを認識する。当業者はまた、随意のコンピュータネットワーク接続性を有する、選択したテレビ、ビデオプレーヤー、およびデジタル音楽プレーヤーが、本明細書に記載されるシステムにおける使用に適していることも認識する。適切なタブレットコンピュータは、当業者に既知の、ブックレット、スレート、および変換可能な構成を備えたものを含む。
幾つかの実施形態では、デジタル処理装置は、実行可能命令を実行するように構成されたオペレーティングシステムを含む。オペレーティングシステムは、例えば、装置のハードウェアを管理し、アプリケーションの実行のためのサービスを提供する、プログラム及びデータを含むソフトウェアである。当業者は、適切なサーバーのオペレーティングシステムが、限定しない例として、FreeBSD、OpenBSD、NetBSD(登録商標)、Linux(登録商標)、Apple(登録商標)Mac OS X Server(登録商標)、Oracle(登録商標)Solaris(登録商標)、Windows Server(登録商標)、およびNovel(登録商標)NetWare(登録商標)を含むことを認識する。当業者は、適切なパーソナルコンピュータのオペレーティングシステムが、限定しない例として、Microsoft(登録商標)Window(登録商標)、Apple(登録商標)Mac OS X(登録商標)、UNIX(登録商標)、およびGNU/Linux(登録商標)などのUNIX(登録商標)様のオペレーティングシステムを含むことを認識する。幾つかの実施形態では、オペレーティングシステムは、クラウドコンピューティングによって提供される。当業者はまた、適切なモバイルスマートフォンのオペレーティングシステムが、限定しない例として、Nokia(登録商標)Symbian(登録商標)OS、Apple(登録商標)iOS(登録商標)、Research In Motion(登録商標)BlackBerry OS(登録商標)、Google(登録商標)、Android(登録商標)、Microsoft(登録商標)Windows Phone(登録商標)OS、Microsoft(登録商標)Windows Mobile(登録商標)OS、Linux(登録商標)、およびPalm(登録商標)WebOS(登録商標)を含むことも認識する。
幾つかの実施形態では、装置は、記憶装置及び/又はメモリ装置を含む。記憶装置及び/又はメモリ装置は、一時的又は恒久的にデータまたはプログラムを保存するために使用される1以上の物理的な機器である。幾つかの実施形態では、メモリ装置は、揮発性メモリであり、保存した情報を維持するための動力を必要とする。幾つかの実施形態では、メモリ装置は、不揮発性メモリであり、デジタル処理装置に動力が供給されないときに保存した情報を保持する。さらなる実施形態では、不揮発性メモリは、フラッシュメモリを含む。幾つかの実施形態では、不揮発性メモリは、ダイナミック・ランダム・アクセス・メモリ(DRAM)を含む。幾つかの実施形態では、不揮発性メモリは、強誘電体ランダムアクセスメモリ(FRAM)を含む。幾つかの実施形態では、不揮発性メモリは、相変化ランダムアクセスメモリ(PRAM)を含む。随意に、装置は、限定しない例として、CD-ROM、DVD、フラッシュメモリ装置、磁気ディスクドライブ、磁気テープドライブ、光ディスクドライブ、およびクラウドコンピューティングベースのストレージを含む、記憶装置である。さらなる実施形態では、記憶装置及び/又はメモリ装置は、本明細書に開示されるものなどの装置の組み合わせである。
幾つかのデジタル処理装置は、陰極線管(CRT)、液晶ディスプレイ(LCD)、薄膜トランジスター液晶ディスプレイ(TFT-LCD)、単純マトリクス方式OLED(PMOLED)またはアクティブマトリックスOLED(AMOLED)ディスプレイ、
プラズマディスプレイ、ビデオプロジェクター、あるいは本明細書に開示されるものなどの装置の組み合わせなどの、有機発光ダイオード(OLED)ディスプレイなどの、ユーザーに目視情報を送信するためのディスプレイを含む。
多くの場合、デジタル処理装置は、キーボード、限定しない例として、マウス、トラックボール、トラックパッド、ジョイスティック、ゲームコントローラー、またはスタイラスを含む、ポインティングデバイスなどの、ユーザーから情報を受信するための入力デバイスを含む。幾つかの実施形態では、入力デバイスは、タッチスクリーンまたはマルチタッチスクリーン、音声または他の音入力を捕らえるためのマイクロフォン、あるいは運動または視覚入力を捕らえるためのビデオカメラまたは他のセンサーである。さらなる実施形態では、入力デバイスは、Kinect、Leap Motionなどである。多くの場合、入力デバイスは、本明細書に開示されるものなどの装置の組み合わせである。
<非一時的コンピュータ可読記憶媒体>
幾つかの実施形態では、本明細書に開示されるコンティグのアセンブリ方法は、随意にネットワーク化されたデジタル処理装置のオペレーティングシステムによって実行可能な命令を含むプログラムでコードされた1つ以上の非一時的なコンピュータ可読記憶媒体を含む。さらなる実施形態では、コンピュータ可読記憶媒体は、随意に、デジタル処理装置の有形成分である。またさらなる実施形態では、コンピュータ可読記憶媒体は、随意に、デジタル処理装置から取り外し可能である。幾つかの実施形態では、コンピュータ可読記憶媒体は、限定しない例として、CD-ROM、DVD、フラッシュメモリ装置、ソリッドステートメモリ、磁気ディスクドライブ、磁気テープドライブ、光ディスクドライブ、クラウドコンピューティングのシステムおよびサービスなどを含む。幾つかの場合では、プログラムおよび命令は、記憶媒体上に、恒久的に、略恒久的に、半恒久的に、または非一時的にコードされる。
<コンピュータプログラム>
幾つかの実施形態では、本明細書に開示されるコンティグのアセンブリ方法は、少なくとも1つのコンピュータプログラム、またはその使用を含む。コンピュータプログラムは、デジタル処理装置のCPUにおいて実行可能であり、タスクを実行するように書き込まれた、命令のシーケンス(sequence)を含む。コンピュータ可読命令は、特定のタスクを実行するか又は特定の抽象データ型を実施する、機能、対象(objects)、アプリケーションプログラムインターフェース(API)、データ構造などのプログラムモジュールとして実行され得る。本明細書で提供される開示に照らして、当業者は、コンピュータプログラムが様々な言語の様々なバージョンで書き込まれ得ることを認識する。
コンピュータ可読命令の機能性は、様々な環境に応じて組み合わせられるか、または分配され(distributed)得る。幾つかの実施形態では、コンピュータプログラムは、命令の1つのシーケンスを含む。幾つかの実施形態では、コンピュータプログラムは、命令の複数のシーケンスを含む。幾つかの実施形態では、コンピュータプログラムは、1つの場所から提供される。他の実施形態では、コンピュータプログラムは、複数の場所から提供される。様々な実施形態では、コンピュータプログラムは、1以上のソフトウェアモジュールを含む。様々な実施形態では、コンピュータプログラムは、部分的または全体的に、1以上のウェブアプリケーション、1以上のモバイルアプリケーション、1以上の独立型アプリケーション、1以上のウェブブラウザプラグイン、拡張、アドイン、またはアドオン、あるいはそれらの組み合わせを含む。
<ウェブアプリケーション>
幾つかの実施形態では、コンティグのアセンブリ方法を実施するコンピュータプログラムまたはコンピュータにより実施されるシステムは、ウェブアプリケーションを含む。本明細書に提供される開示に照らして、当業者は、ウェブアプリケーションが、様々な実施形態において、1つ以上のソフトウェアフレームワークおよび1つ以上のデータベースシステムを利用することを認識する。幾つかの実施形態では、ウェブアプリケーションは、マイクロソフト(登録商標).NETまたはRuby on Rails(RoR)などの、ソフトウェアフレームワーク上で作成される。幾つかの実施形態では、ウェブアプリケーションは、限定しない例として、リレーショナル、非リレーショナル、オブジェクト指向、アソシアティブ、およびXMLのデータベースシステムを含む、1つ以上のデータベースシステムを利用する。さらなる実施形態では、適切なリレーショナルデータベースシステムは、限定しない例として、マイクロソフト(登録商標)SQL Server、mySQL(商標)、およびOracle(登録商標)を含む。当業者はまた、ウェブアプリケーションが、様々な実施形態において、1つ以上の言語の1つ以上のバージョンで書き込まれることを認識する。ウェブアプリケーションは、1つ以上のマークアップ言語、提示定義言語、クライアント側スクリプト言語、サーバー側コーディング言語、データベース問い合わせ言語、あるいはそれらの組み合わせで書き込まれ得る。幾つかの実施形態では、ウェブアプリケーションは、ハイパーテキストマークアップ言語(HTML)、拡張可能なハイパーテキストマークアップ(XHTML)、または拡張マークアップ言語(XML)などの、マークアップ言語である程度まで書き込まれる。幾つかの実施形態では、ウェブアプリケーションは、カスケーディング・スタイル・シート(CSS)などの表現定義言語である程度まで書き込まれる。幾つかの実施形態では、ウェブアプリケーションは、Asynchronous JavascriptおよびXML(AJAX)、Flash(登録商標)Actionscrip、Javascript、またはSilverlight(登録商標)などの、クライアント側スクリプト言語である程度まで書き込まれる。幾つかの実施形態では、ウェブアプリケーションは、Active Server Pages(ASP)、ColdFusion(登録商標)、Perl、Java(登録商標)、JavaServer Pages(JSP)、Hypertext Preprocessor(PHP)、Python(商標)、Ruby、Tcl、Smalltalk、WebDNA(登録商標)、またはGroovyなどの、サーバー側コーディング言語である程度まで書き込まれる。幾つかの実施形態では、ウェブアプリケーションは、構造化照会言語(SQL)などのデータベース問い合わせ言語である程度まで書き込まれる。幾つかの実施形態では、ウェブアプリケーションは、IBM(登録商標)Lotus Domino(登録商標)などのエンタープライズサーバー製品を統合する。幾つかの実施形態では、ウェブアプリケーションは、メディアプレイヤー要素を含む。様々なさらなる実施形態では、メディアプレイヤー要素は、限定しない例として、Adobe(登録商標)Flash(登録商標)、HTML 5、Apple(登録商標)QuickTime(登録商標)、Microsoft(登録商標)Silverlight(登録商標)、Java(登録商標)、およびUnity(登録商標)を含む、多くの適切なマルチメディア技術の1つ以上を利用する。
<モバイルアプリケーション>
幾つかの実施形態では、本明細書に開示されるコンティグのアセンブリ方法を実施するコンピュータプログラムは、モバイルのデジタル処理装置に提供されるモバイルアプリケーションを含む。幾つかの実施形態では、モバイルアプリケーションは、モバイルのデジタル処理装置に、それが製造される時に提供される。他の実施形態では、モバイルアプリケーションは、本明細書に記載されるコンピュータネットワークを介してモバイルのデジタル処理装置に提供される。
本明細書に提供される開示に照らして、モバイルアプリケーションは、当該技術分野に既知のハードウェア、言語、および開発環境を使用して、当業者に既知の技術によって作成される。当業者は、モバイルアプリケーションが幾つかの言語で書き込まれることを認識する。適切なプログラミング言語は、限定しない例として、C、C++、C#、Objective-C、Java(登録商標)、Javascript、Pascal、Object Pascal、Python(商標)、Ruby、VB.NET、WML、およびCSSを備える又はそれがないXHTML/HTML、あるいはそれらの組み合わせを含む。
適切なモバイルアプリケーションの開発環境は、幾つかのソースから入手可能である。市販の開発環境は、限定しない例として、AirplaySDK、alcheMo、Appcelerator(登録商標)、Celsius、Bedrock、Flash Lite、.NET Compact Framework、Rhomobile、およびWorkLight Mobile Platformを含む。限定しない例として、Lazarus、MobiFlex、MoSync、およびPhonegapを含む、他の開発環境は、費用をかけずに入手可能である。さらに、モバイルデバイスの製造業者は、限定しない例として、iPhone(登録商標)およびiPad(登録商標)(iOS)SDK、Android(商標)SDK、BlackBerry(登録商標)SDK、BREW SDK、Palm(登録商標)OS SDK、Symbian SDK、webOS SDK、およびWindows(登録商標)Mobile SDKを含む、ソフトウェアディベロッパーキットを提供している。
当業者は、限定しない例として、Apple(登録商標)App Store、Android(商標)Market、BlackBerry(登録商標)App World、Palmデバイス用のApp Store、webOS用のApp Catalog、Mobile用のWindows(登録商標)Marketplace、Nokia(登録商標)デバイス用のOvi Store、Samsung(登録商標)App、およびNintendo(登録商標)DSi Shopを含む、モバイルアプリケーションの提供に利用可能である幾つかの商用フォーラムを認識する。
<独立型アプリケーション>
幾つかの実施形態では、本明細書に開示されるコンティグのアセンブリ方法を実施するコンピュータプログラムは、既存プロセスに対するアドオンではなく(例えば、プラグインではない)、独立したコンピュータプロセスとして実行されるプログラムである、独立型アプリケーションを含む。当業者は、独立型アプリケーションがしばしばコンパイルされることを認識する。コンパイラは、プログラミング言語で書き込まれたソースコードを、アセンブリ言語またはマシンコードなどのバイナリー化されたオブジェクトコードに変換するコンピュータプログラムである。適切なコンパイルされたプログラミング言語は、限定しない例として、C、C++、Objective-C、COBOL、Delphi、Eiffel、Java(登録商標)、Lisp、Python(商標)、Visual Basic、およびVB.NET、あるいはそれらの組み合わせを含む。コンパイルは、少なくとも部分的に、実行可能プログラムを作成するためにしばしば実行される。幾つかの実施形態では、コンピュータプログラムは、1つ以上の実行可能なコンパイルされたアプリケーションを含む。
<ウェブブラウザのプラグイン>
幾つかの実施形態では、コンティグのアセンブリ方法は、ウェブブラウザのプラグインを含む。コンピューティングにおいて、プラグインは、より大きなソフトウェアアプリケーションに特定の機能性を加える1つ以上のソフトウェアコンポーネントである。ソフトウェアアプリケーションのメーカーは、サードパーティーのディベロッパーが、アプリケーションを拡張する能力を作り出す、容易に加える新しい特徴をサポートする、およびアプリケーションのサイズを縮小することができるプラグインをサポートしている。サポートされるときに、プラグインは、ソフトウェアアプリケーションの機能性をカスタマイズにすることができる。例えば、プラグインは、ビデオを再生する、対話機能を生成する、ウイルスをスキャンする、および特別のファイルタイプを表示するためにウェブブラウザにおいて一般に使用される。当業者は、Adobe(登録商標)Flash(登録商標)Player、Microsoft(登録商標)Silverlight(登録商標)、およびApple(登録商標)QuickTime(登録商標)を含む、幾つかのウェブブラウザのプラグインに精通しているだろう。幾つかの実施形態では、ツールバーは、1つ以上のウェブブラウザ拡張、アドイン、またはアドオンを含む。幾つかの実施形態では、ツールバーは、1つ以上のエクスプローラバー、ツールバンド、またはデスクバンドを含む。
本明細書に提供される開示に照らして、当業者は、限定しない例として、C++、Delphi、Eiffel、Java(登録商標)、PHP、Python(商標)、およびVB.NET、あるいはそれらの組み合わせを含む、様々なプログラミング言語でのプラグインの開発を可能にする、幾つかのプラグインフレームワークが利用可能であることを認識する。
ウェブブラウザ(インターネットブラウザとも呼ばれる)は、ワールドワイドウェブ上で情報リソースを検索、提示、および横断するためのネットワーク接続されたデジタル処理装置との使用のために設計された、ソフトウェアアプリケーションである。適切なウェブブラウザは、限定しない例として、Microsoft(登録商標)Internet Explorer(登録商標)、Mozilla(登録商標)Firefox(登録商標)、Google(登録商標)Chrome、Apple(登録商標)Safari(登録商標)、Opera Software(登録商標)Opera(登録商標)、およびKDE Konquerorを含む。幾つかの実施形態では、ウェブブラウザは、モバイルウェブブラウザである。モバイルウェブブラウザ(マイクロブラウザ、ミニブラウザ、およびワイヤレスブラウザとも呼ばれる)は、限定しない例として、ハンドヘルドコンピュータ、タブレットコンピュータ、ネットブックコンピュータ、サブノートブックコンピュータ、スマートフォン、音楽プレーヤー、携帯情報端末(PDA)、およびハンドヘルドビデオゲームシステムを含む、モバイルデジタル処理装置上の使用のために設計されている。適切なモバイルウェブブラウザは、限定しない例として、Google(登録商標)Android(登録商標)ブラウザ、RIM BlackBerry(登録商標)ブラウザ、Apple(登録商標)Safari(登録商標)、Palm(登録商標)Blazer、Palm(登録商標)WebOS(登録商標)ブラウザ、モバイル用Mozilla(登録商標)Firefox(登録商標)、マイクロソフト(登録商標)Internet Explorer(登録商標)Mobile、Amazon(登録商標)Kindle(登録商標)Basic Web、Nokia(登録商標)ブラウザ、Opera Software(登録商標)Opera(登録商標)Mobile、およびSony(登録商標)PSP(商標)ブラウザを含む。
<ソフトウェアモジュール>
幾つかの実施形態では、本明細書に開示されるコンティグのアセンブリ方法は、ソフトウェア、サーバー、及び/又はデータベースモジュール、あるいはその使用を含む。本明細書に提供される開示に照らして、ソフトウェアモジュールは、当該技術分野に既知のマシン、ソフトウェア、および言語を使用して、当業者に既知の技術によって作成される。本明細書に開示されるソフトウェアモジュールは、多くの方法で実施される。様々な実施形態では、ソフトウェアモジュールは、ファイル、コードのセクション、プログラミングオブジェクト、プログラミング構造、あるいはそれらの組み合わせを含む。さらに様々な実施形態では、ソフトウェアモジュールは、複数のファイル、複数のコードのセクション、複数のプログラミングオブジェクト、複数のプログラミング機構、あるいはそれらの組み合わせを含む。様々な実施形態では、1つ以上のソフトウェアモジュールは、限定しない例として、ウェブアプリケーション、モバイルアプリケーション、および独立型アプリケーションを含む。幾つかの実施形態では、ソフトウェアモジュールは、1つのコンピュータプログラムまたはアプリケーションにある。他の実施形態では、ソフトウェアモジュールは、1つを超えるコンピュータプログラムまたはアプリケーションにある。幾つかの実施形態では、ソフトウェアモジュールは、1つのマシン上でホストされる。他の実施形態では、ソフトウェアモジュールは、1つを超えるマシン上でホストされる。さらなる実施形態では、ソフトウェアモジュールは、クラウドコンピューティングプラットホーム上でホストされる。幾つかの実施形態では、ソフトウェアモジュールは、1つの位置で1つ以上のマシン上でホストされる。他の実施形態では、ソフトウェアモジュールは、1つを超える位置で1つ以上のマシン上でホストされる。
<データベース>
幾つかの実施形態では、本明細書に開示されるコンティグのアセンブリ方法は、1つ以上のデータベース、またはその使用を含む。本明細書で提供される開示に照らして、当業者は、多くのデー夕ベースが、コンティグ情報の保管および検索に適していることを認識する。様々な実施形態では、適切なデータベースは、限定されないが、リレーショナルデータベース、非リレーショナルデータベース、オブジェクト指向型データベース、オブジェクトデータベース、実体関連モデルデータベース、連想型データベース、およびXMLデータベースを含む。他の実施形態では、デー夕ベースは、インターネットベースである。更なる実施形態では、データベースは、ウェブベースである。また更なる実施形態では、デー夕ベースは、クラウドコンピューティングベースである。他の実施形態において、データベースは、1つ以上のローカルコンピュータ記憶デバイスベースである。
<列挙された実施形態>
本明細書の開示は、番号付けされた実施形態の非制限的なリストとしてさらに示される。
1. 核酸配列情報のコンティグをスキャフォールドするための方法であって、当該方法は、
初期の構成を有するコンティグ配列のセットを得る工程;ペアエンドリードのセットを得る工程;標準的なペアエンドリードの距離度数データを得る工程;
少なくとも1つのペアエンドリードにおいて共存する配列を共有するコンティグペアをグループ分けする工程;および
コンティグを分離するためにマッピングされるリードペアのためのリードペア距離度数データが、初期の構成におけるコンティグ配列のリードペア度数データに対して標準的なペアエンドリード距離度数データにより近く近似するように、グループ化されたコンティグ配列をスキャフォールドする工程、
を含むことを特徴とする、方法である。
2. スキャフォールドする工程が、一連のコンティグを順序付けする工程を含む、列挙された実施形態1に記載の方法により実施される。
3. スキャフォールドする工程が、一連のコンティグを配向する工程を含む、列挙された実施形態1に記載の方法により実施される。
4. スキャフォールドする工程が、少なくとも2つのコンティグの端と端を融合する工程を含む、列挙された実施形態1に記載の方法により実施される。
5. スキャフォールドする工程が、第2コンティグに1つのコンティグを挿入する工程を含む、列挙された実施形態1に記載の方法により実施される。
6. スキャフォールドする工程が、少なくとも2つの成分のコンティグへ、コンティグを切断する工程を含む、列挙された実施形態1に記載の方法により実施される。
7. 標準的なペアエンドリード度数が、両方のリードが共通のコンティグにマッピングされるペアエンドリードから得られる、列挙された実施形態1に記載の方法により実施される。
8. 標準的なペアエンドリード度数が、事前に生成された曲線から得られる、列挙された実施形態1に記載の方法により実施される。
9. 初期構成がランダムな構成である、列挙された実施形態1の方法により実施される。
10. コンティグを分離するためにマップピングされるリードペアのためのリードペア距離度数データが、リードペア距離尤度が増大するときにペアエンドリード距離度数データにより近く近似する、列挙された実施形態1に記載の方法により実施される。
11. リードペア距離尤度が最大化される、列挙された実施形態10に記載の方法により実施される。
12. コンティグを分離するためにマッピングされるリードペアのリードペア距離度数データが、リードペアの距離度数データと標準的なペアエンドリード距離度数データとの間の差の統計的尺度が減少する際に、ペアエンドリード距離度数データにより近く近似する、列挙された実施形態1に記載の方法により実施される。
13. リードペア距離度数データと標準的なペアエンドリード距離度数データとの間の距離の統計的尺度が、ANOVA、t検定、およびX2乗検定の少なくとも1つを含む、列挙された実施形態12に記載の方法により実施される。
14. コンティグを分離するためにマッピングされるリードペアのリードペア距離が、標準的なペアエンドリード距離度数と比較して得られた順序付けされたコンティグ中のリードペア距離分布の偏差が減少するとき、ペアエンドリード距離度数データとより近く一致する、列挙された実施形態1に記載の方法により実施される。
15. 標準的なペアエンドリード距離度数と比較して得られた順序付けされたコンティグ中のリードペア距離分布の偏差が最小限に抑えられる、列挙された実施形態14に記載の方法により実施される。
16. 第1のクラスターと第2のクラスターに関連するペアエンドリード中の配列を共有するコンティグが、より多くの共有エンドリードを有するクラスターに割り当てられる、列挙された実施形態1に記載の方法により実施される。
17. 前記クラスター化する工程が、生体中の染色体の数以上である多くのグループにコンティグを配置する工程を含む、列挙された実施形態1-16のいずれか1つに記載の方法により実施される。
18. 単一のペアエンドリードのみをクラスターの1つのコンティグと共有するコンティグが、そのクラスターには含まれない、列挙された実施形態11-17のいずれか1つに記載の方法により実施される。
19. 反復配列を含む少なくとも1つのペアエンドリードのみをクラスターと共有するコンティグが、そのクラスターには含まれない、列挙された実施形態1-18のいずれか1つに記載の方法により実施される。
20. 低品質の配列を含む少なくとも1つのペアエンドリードのみをクラスターと共有するコンティグが、そのクラスターには含まれない、列挙された実施形態1-19のいずれか1つに記載の方法により実施される。
21. ペアエンドリードのセットが、核酸内で内部二本鎖切断を生じさせるためにサンプルDNAを消化し、少なくとも1つの再連結接合部を形成するために二本鎖切断を再連結し、および少なくとも1つの再連結接合部にわたって配列決定することにより得られる、列挙された実施形態1-20のいずれか1つに記載の方法により実施される。
22. DNAが、少なくとも1つのDNA結合剤に架橋される、列挙された実施形態21に記載の方法により実施される。
23. DNAが単離した裸のDNAである、列挙された実施形態21に記載の方法により実施される。
24. 単離したDNAが、再構成された染色質へ再アセンブリされる、列挙された実施形態22の方法により実施される。
25. 再構成された染色質が架橋される、列挙された実施形態24の方法により実施される。
26. 再構成された染色質がDNA結合タンパク質を含む、列挙された実施形態23の方法により実施される。
27. 再構成された染色質がナノ粒子を含む、列挙された実施形態23の方法により実施される。
28. コンティグの前記クラスター化する工程が、生体のための染色体の数と無関係である、列挙された実施形態1-27のいずれか1つの方法により実施される。
29. 第1のクラスターと第2のクラスターに関連するペアエンドリード中の配列を共有するコンティグが、より多い共有エンドリードを有するクラスターに割り当てられる、列挙された実施形態1-28のいずれか1つに記載の方法により実施される。
30. 第1のクラスターと第2のクラスターに関連するペアエンドリード中の配列を共有するコンティグが、より大きなリードペア距離尤度値を有するクラスターに割り当てられる、列挙された実施形態1-28のいずれか1つに記載の方法により実施される。
31. 第1のクラスターと第2のクラスターに関連するペアエンドリード中の配列を共有するコンティグが、標準的なリードペア距離分布と比較してそのリードペア分布中で偏差が少ないクラスターに割り当てられる、列挙された実施形態1-28のいずれか1つに記載の方法により実施される。
32. 第1のクラスターと第2のクラスターに関連したペアエンドリードの中の配列を共有するコンティグが、各クラスターから除外される、列挙された実施形態1-29のいずれか1つに記載の方法により実施される。
33. 前記クラスター化する工程が、生体中の染色体の数以上である多くのグループにコンティグを配置する工程を含む、列挙された実施形態1-32のいずれか1つに記載の方法により実施される。
34. 前記スキャフォールドする工程が、前記クラスター化されたコンティグの推定上の隣接するコンティグの第1のセットを選択する工程、前記リードペアに関してリードペアの距離の統計的尺度を減少させる推定上の隣接するコンティグの前記第1のセットの最小限の距離順序を判定する工程、および、リードペア距離の前記統計的尺度を減少させるために、推定上の隣接するコンティグの前記第1のセットをスキャフォールドする工程を含む、列挙された実施形態1-33のいずれか1つに記載の方法により実施される。
35. 推定上の隣接するコンティグの前記第1のセットが2つのコンティグから成る、列挙された実施形態34の方法により実施される。
36. 推定上の隣接するコンティグの前記第1のセットが3つのコンティグから成る、列挙された実施形態34の方法により実施される。
37. 推定上の隣接するコンティグの前記第1のセットが4つのコンティグから成る、列挙された実施形態34の方法により実施される。
38. 推定上の隣接するコンティグの前記第1のセットが4つのコンティグを含む、列挙された実施形態34の方法により実施される。
39. 前記スキャフォールドする工程が、推定上の隣接したコンティグの前記第1のセットにおける各コンティグの順序および配向を判定する工程を含む、列挙された実施形態34の方法により実施される。
40. 前記最小限の距離順序を判定する工程が、すべての可能なコンティグ構成についての前記セットの2つのコンティグにマッピングされているリードを含む少なくとも1つのリードペアのための予想されるリードペア距離を比較する工程を含む、列挙された実施形態34または35のいずれか1つに記載の方法により実施される。
41. 前記リードペアの最小限のリードペア距離に対応するコンティグ配向を選択する工程をさらに含む、列挙された実施形態40に記載の方法により実施される。
42. 最大尤度のリードペア距離分布に対応するコンティグ配向を選択する工程をさらに含む、列挙された実施形態40に記載の方法により実施される。
43. 前記コンティグクラスターのリードペアの統計的尺度のための最小限のリードペア距離に対応するコンティグ配向を選択する工程をさらに含む、列挙された実施形態40または41のいずれか1つに記載の方法により実施される。
44. 予想されるリードペア距離は、前記ペアエンドリード距離度数データと比較される、列挙された実施形態40-43のいずれか1つに記載の方法により実施される。
45. 前記ペアエンドリード距離度数データと比較する工程が、式1を用いる工程を含む、列挙された実施形態44に記載の方法により実施されるシステムである。
46. 前記クラスター化されたコンティグの推定上の隣接するコンティグの第2のセットを選択する工程であって、前記第2のセットが前記第1のセットの1つのエンド末端のコンティグを除くすべてと、前記クラスター化されたコンティグの1つの追加のコンティグを含む工程、およびリードペアの距離の前記統計的尺度を減少させるために、推定上の隣接するコンティグの前記第2のセットをスキャフォールドする工程をさらに含む、列挙された実施形態34-45のいずれか1つに記載の方法により実施される。
47. 前記クラスター化されたコンティグの推定上の隣接するコンティグの第3のセットを選択する工程であって、前記第3のセットが前記第2のセットの1つのエンド末端のコンティグを除くすべてと、前記第1のセットと前記第2のセットに含まれない前記クラスター化されたコンティグの1つの追加のコンティグを含む工程、およびリードペアの距離の前記統計的尺度を減少させるために、推定上の隣接するコンティグの前記第3のセットをスキャフォールドする工程をさらに含む、列挙された実施形態46に記載の方法により実施される。
48. 前記クラスター化されたコンティグの大多数が順序付けされるまで、少なくとも1つの追加のセットを反復して選択する工程をさらに含む、列挙された実施形態47に記載の方法により実施される。
49. 前記クラスター化されたコンティグのそれぞれが順序付けされるまで、少なくとも1つの追加のセットを反復して選択する工程をさらに含む、列挙された実施形態48に記載の方法により実施される。
50. 核酸配列がゲノムに由来する、列挙された実施形態1-49のいずれか1つに記載の方法により実施される。
51. 核酸配列が複数のゲノムに由来する、列挙された実施形態1-49のいずれか1つに記載の方法により実施される。
52. クラスター内のコンティグをスキャフォールドするための方法であって、当該方法が、
a)コンティグの各ペアのための対数尤度比率スコアを割り当てる工程;
b)比率スコアにより結合部を分類する工程;および
c)アセンブリの総合スコアを増大させるために、比率スコアの降順でコンティグ結合部を受理する工程、または拒絶する工程、
を含むことを特徴とする、方法である。
53. スキャフォールドする工程が、コンティグのセットを順序付けする工程を含む、列挙された実施形態52に記載の方法により実施される。
54. スキャフォールドする工程が、コンティグのセットを配向する工程を含む、列挙された実施形態52に記載の方法により実施される。
55. スキャフォールドする工程が、少なくとも2つのコンティグの端と端を融合する工程を含む、列挙された実施形態52に記載の方法により実施される。
56. スキャフォールドする工程が、第2コンティグに1つのコンティグを挿入する工程を含む、列挙された実施形態52に記載の方法により実施される。
57. スキャフォールドする工程が、少なくとも2つの成分のコンティグへ、コンティグを切断する工程を含む、列挙された実施形態52に記載の方法により実施される。
58. コンティグがゲノムを含む、列挙された実施形態52に記載の方法により実施される。
59. コンティグが複数のゲノムを含む、列挙された実施形態52に記載の方法により実施される。
60. クラスター中で複数のコンティグの局所的に最適なコンティグ構成を判定するための方法であって、当該方法が:
a)コンティグのクラスターに沿って位置iから始まるサイズwコンティグの配列ウィンドウを特定する工程;
b)ウィンドウにおける各位置iの中の適合性のある順序と配向のスコアを調べることによりウィンドウwのコンティグのためのw!2の順序付けと配向のオプションを考慮する工程;
c)最適なスコアを得るために前記ウィンドウ内の前記wコンティグを配向および順序付けする工程;
d)ウィンドウを位置i+1に移動させる工程;および、
e)最適なスコアを判定するための前記wコンティグの配向および順序付けを使用して、位置i+1で前記ウィンドウのための工程(a)、(b)および(c)を繰り返す工程であって、それにより、スコアに対する局所的に最適な構成中の前記複数のコンティグを配向および順序付けする、繰り返す工程、
を含むことを特徴とする、方法である。
61. クラスター中の複数のコンティグにマッピングされているリードペアデータが得られ、標準的なペアエンドリード度数データセットが得られ、および、前記wコンティグの配向および順序付けのためのスコアが、クラスター中の複数のコンティグにマッピングされているリードペアデータのためのリードペア距離データセットが標準的なペアエンドリード度数データセットにどれだけ近く一致しているかの尺度である、列挙された実施形態60に記載の方法により実施される。
62. クラスター中の複数のコンティグにマッピングされるリードペアデータが得られ、スコアは合計のリードペア距離であり、および、合計のリードペア距離が最小限に抑えられるとき、スコアは最適化される、列挙された実施形態60に記載の方法により実施される。
63. wが3である、列挙された実施形態60に記載の方法により実施される。
64. wが4である、列挙された実施形態60に記載の方法により実施される。
65. wが5である、列挙された実施形態60に記載の方法により実施される。
66. wが6である、列挙された実施形態60に記載の方法により実施される。
67. wが第1クラスターに対する第1値を有し、またwが第2クラスターで第2値を有する、列挙された実施形態60に記載の方法により実施される。
68. wが、セットのコンティグの1%を含むために選択される、列挙された実施形態60に記載の方法により実施される。
69. wが、セットのコンティグの5%を含むために選択される、列挙された実施形態60に記載の方法により実施される。
70. wが、セットのコンティグの10%を含むために選択される、列挙された実施形態60に記載の方法により実施される。
71. スコアがリードペア距離尤度スコアであり、スコアが、与えられたウィンドウサイズに対して最大化されるときに最適である、列挙された実施形態60に記載の方法により実施される。
72. スコアが式1を使用して計算される、列挙された実施形態70に記載の方法により実施される。
73. スコアが予想されるリードペア分布からの偏差であり、スコアが、与えられたウィンドウサイズに対して最小限に抑えられるときに最適である、列挙された実施形態60に記載の方法により実施される。
74. 複数のコンティグがゲノムを含む、列挙された実施形態60-73のいずれか1つに記載の方法により実施される。
75. 複数のコンティグが複数のゲノムを含む、列挙された実施形態60-73のいずれか1つに記載の方法により実施される。
76. 核酸配列アセンブリのための方法であって、当該方法が:
a)精製DNAを得る工程;
b)DNA/染色質複合体を形成するために精製DNAとDNA結合剤を結合する工程;
c)粘着末端を残すために制限酵素でDNA/染色質複合体をインキュベートする工程;
d)DNAの末端を連結するためにライゲーションを実施する工程;
e)ペアエンドリードを生成するために連結されたDNA接合部にわたって配列決定する工程;および、
f)精製DNAの配列を表わすコンティグを含む核酸データセットをスキャフォールドするためにペアエンドリードを使用する工程、
を含むことを特徴とする、方法である。
77. 精製DNAがゲノムに由来する、列挙された実施形態76に記載の方法により実施される。
78. 精製DNAが複数のゲノムに由来する、列挙された実施形態76に記載の方法により実施される。
79. 反復コンティグ領域にマッピングされるリードペア配列リードを特定するための方法であって、当該方法が:
核酸サンプルのためのコンティグデータセットを得る工程;
隣接していない物理的に結合した配列情報に対応する少なくとも1つのリードペア配列リードを得る工程;および、
リードペア配列リードの少なくとも1つのリードがコンティグデータセットの2つの異なる座位にマッピングされる場合に、リードペア配列リードを除外する工程、
を含むことを特徴とする、方法である。
80. 反復領域が、第1閾値を超えるあらかじめ与えられたショットガンリード深さを有する配列を含む、列挙された実施形態79に記載の方法により実施される。
81. 反復領域が、第2閾値を超えるリード深さを有する塩基位置を含む、列挙された実施形態80に記載の方法により実施される。
82. 第1閾値および第2閾値が、リード深さの全面的分布に関して固定される、列挙された実施形態81に記載の方法により実施される。
83. 第1閾値が、リード深さの全面的分布の3倍である、列挙された実施形態82に記載の方法により実施される。
84. 第2閾値が、リード深さの全面的分布の3. 5倍である、列挙された実施形態82に記載の方法により実施される。
85. 核酸サンプルがゲノムを含む、列挙された実施形態79-84のいずれか1つに記載の方法により実施される。
86. 核酸サンプルが複数のゲノムを含む、列挙された実施形態79-84のいずれか1つに記載の方法により実施される。
87. コンティグアセンブリ決定を誘導するための方法であって、当該方法が、
第1コンティグと第2コンティグとの間におよぶリードペア配列の数および示唆される分離を観察する可能性を判定する工程であって、当該コンティグが、セット[++、+-、-+、--]内のoの相対的配向を有し、間隙長さによって分離される、工程
を含むことを特徴とする、方法である。
88. 分離距離にわたるリードペア配列の分布の確率を正規化する工程を含み、当該正規化は、リードペア配列と、核酸サンプルを独立してサンプリングするノイズペアとを比較することを含む、列挙された実施形態87に記載の方法により実施される。
89. 核酸サンプルがゲノムを含む、列挙された実施形態88に記載の方法により実施される。
90. 核酸サンプルが複数のゲノムを含む、列挙された実施形態88に記載の方法により実施される。
91. ノイズペアの総数が、コンティグペアのサンプルに関する結合の密度を集計することにより判定される、列挙された実施形態88に記載の方法により実施される。
92. 密度の最も高い1%および最も低い1%が除外される、列挙された実施形態91の方法により実施される。
93. コンティグ順序を判定する工程をさらに含む、列挙された実施形態87の方法により実施される。
94. コンティグ配向を判定する工程をさらに含む、列挙された実施形態87の方法により実施される。
95. コンティグ誤連結修正のための方法であって、当該方法が、
初期の構成を有するコンティグ配列のセットを得る工程;
ペアエンドリードのセットを得る工程;
標準的なペアエンドリードの距離度数データを得る工程;
少なくとも1つのペアエンドリードにおいて共存する配列を共有するコンティグペアをグループ分けする工程;
コンティグのグループ分けのためのリードペア度数データを標準的なペアエンドリード距離度数データと比較する工程;
グループ分けしたコンティグに切断を導入することにより、コンティグのグループ分けのためのリードペア度数データが、標準的なペアエンドリードの距離度数データにさらにより近く近似するかどうかを判定する工程;および、
コンティグのグループ分けのためのリードペアの度数データが標準的なペアエンドリードの距離度数データとさらにより近く近似する場合には、コンティグに切断を導入する工程、
を含むことを特徴とする、方法である。
96. 第1位置が、切断を導入する工程の前に前記尤度未満の前記対数閾値を有する少なくとも1つの隣接した第2位置と融合される、列挙された実施形態95に記載の方法により実施される。
97. 第2隣接位置が、第1位置から300塩基対を超えない、列挙された実施形態95に記載の方法により実施される。
98. 第2位置が、第1位置から1000塩基対を超える位置を含まない、列挙された実施形態95に記載の方法により実施される。
99. 対数尤度の変更を判定する工程は、コンティグのための平均のペアエンドマッピング密度を特定する工程、平均的なペアエンドマッピング密度の少なくとも3倍の数値のペアエンドマッピング密度を有するコンティグのセグメントを特定する工程、および平均的なペアエンドマッピング密度の少なくとも3倍の数値のペアエンドマッピング密度を有するコンティグのセグメントを除外する工程を含む、列挙された実施形態95-98のいずれか1つに記載の方法により実施される。
100. コンティグ配列のセットがゲノムに由来する、列挙された実施形態95-99のいずれか1つに記載の方法により実施される。
101. コンティグ配列のセットが複数のゲノムに由来する、列挙された実施形態95-99のいずれか1つに記載の方法により実施される。
102. コンティグアセンブリのための方法であって、当該方法が:
開始アセンブリの切断されたコンティグを示す工程であって、当該切断されたコンティグがノードであり、切断されたコンティグのエッジが整数の順序付けられたペアのリストで標識され、切断のエッジがマッピングされたリードペア配列に対応する、工程、および、
マッピングされた結合部の閾値数よりも少数のエッジを除外する工程、
を含むことを特徴とする、方法である。
103. 閾値数が5%未満である、列挙された実施形態102に記載の方法により実施される。
104. 閾値数がtL結合よりも少ない、列挙された実施形態102に記載の方法により実施される。
105. コンティグ長さに対する対応ノードのグラフ中の程度の比が塩基対であるエッジを含むコンティグは、分布のすべての値の上限の約5%を超過する、列挙された実施形態102の方法により実施される。
106. コンティグがゲノムに由来する、列挙された実施形態102-105のいずれか1つに記載の方法により実施される。
107. コンティグが複数のゲノムに由来する、列挙された実施形態102ー105のいずれか1つに記載の方法により実施される。
108. 少なくとも1つのスキャフォールドへコンティグ配列情報をアセンブルする方法であって、当該方法が、
複数のコンティグに対応する配列情報を得る工程、
複数のコンティグによって示される核酸サンプルからペアエンドリード情報を得る工程、および、
予測されるリードペア距離データセットからのリードペア距離パラメータの偏差が最小化されるように複数のコンティグを構成する工程であって、当該構成する工程が8時間未満で生じる、工程、
を含むことを特徴とする、方法である。
109. 予測されるリードペア距離データセットが、リードペア距離尤度曲線を含む、列挙された実施形態108に記載の方法により実施される。
110. リードペア距離パラメータが、リードペア距離尤度曲線に対して最大距離尤度である、列挙された実施形態108または109に記載のいずれか1つに記載の方法により実施される。
111. リードペア距離パラメータが、リードペア距離尤度曲線に対して最小限の変動である、列挙された実施形態108または109のいずれか1つに記載の方法により実施される。
112. コンティグの局所的に隣接したセットが2つのコンティグを含む、列挙された実施形態108-111のうちいずれか1つに記載の方法により実施される。
113. 前期コンティグの局所的に隣接したセットが3つのコンティグを含む、列挙された実施形態108-111のうちいずれか1つに記載の方法により実施される。
114. 前期コンティグの局所的に隣接したセットが4つのコンティグを含む、列挙された実施形態108-111のうちいずれか1つに記載の方法により実施される。
115. 前期コンティグの局所的に隣接したセットが5つのコンティグを含む、列挙された実施形態108-111のうちいずれか1つに記載の方法により実施される。
116. 前期コンティグの局所的に隣接したセットが6つのコンティグを含む、列挙された実施形態108-111のうちいずれか1つに記載の方法。
117. 構成が7時間未満以内に生じる、列挙された実施形態108-116のいずれか1つの方法により実施される。
118. 構成が6時間未満以内に生じる、列挙された実施形態108-116のいずれか1つの方法により実施される。
119. 構成が5時間未満以内に生じる、列挙された実施形態108-116のいずれか1つの方法により実施される。
120. 構成が4時間未満以内に生じる、列挙された実施形態108-116のいずれか1つの方法により実施される。
121. 構成が3時間未満以内に生じる、列挙された実施形態108-116のいずれか1つの方法により実施される。
122. 構成が2時間未満以内に生じる、列挙された実施形態108-116のいずれか1つの方法により実施される。
123. 構成が1時間未満以内に生じる、列挙された実施形態108-116のいずれか1つの方法により実施される。
124. コンティグ情報がゲノムに由来する、列挙された実施形態108-123のいずれか1つに記載の方法により実施される。
125. コンティグ配列情報が複数のゲノムに由来する、列挙された実施形態108-123のいずれか1つに記載の方法により実施される。
126. コンティグ配列のセットをスキャフォールドする方法であって、当該方法が、
核酸サンプルの代表的なコンティグ配列のセットを得る工程、
核酸サンプル用のリードペアデータを得る工程、および、
核酸サンプル用のリードペアが予想されるリードペア分布により近く近似するようにコンティグ配列のセットを順序付けし、配向する工程であって、当該コンティグ配列のセットの70%が、わずか8時間で核酸サンプル中においてそれらの配列の相対的な順序と配向に一致するように順序付けられ、配向される、工程、
を含むことを特徴とする、方法である。
127. スキャフォールドする工程が、コンティグのセットを順序付ける工程を含む、列挙された実施形態126に記載の方法により実施される。
128. スキャフォールドする工程は、コンティグのセットを配向する工程を含む、列挙された実施形態126に記載の方法。
129. スキャフォールドする工程は少なくとも2つのコンティグの端と端を融合する工程を含む、列挙された実施形態126に記載の方法。
130. スキャフォールドする工程は1つのコンティグを第2のコンティグに挿入する工程を含む、列挙された実施形態126に記載の方法。
131. スキャフォールドする工程はコンティグを少なくとも2つの構成コンティグへと切断する工程を含む、列挙された実施形態126に記載の方法。
132. コンティグ配列のセットの80%は、わずか8時間で核酸サンプル中のそれらの配列の相対的な順序と配向に一致するように、順序付けされ、および配向される、列挙された実施形態126に記載の方法。
133. コンティグ配列のセットの90%は、わずか8時間で核酸サンプル中のそれらの配列の相対的な順序と配向に一致するように順序付けされ、および配向される、列挙された実施形態126に記載の方法。
134. コンティグ配列のセットの95%は、わずか8時間で核酸サンプル中のそれらの配列の相対的な順序と配向に一致するように順序付けされ、および配向される、列挙された実施形態126に記載の方法。
135. コンティグ配列のセットの70%は、わずか4時間で核酸サンプル中のそれらの配列の相対的な順序と配向に一致するように順序付けされ、および配向される、列挙された実施形態126に記載の方法。
136. コンティグ配列のセットの70%は、わずか2時間で核酸サンプル中のそれらの配列の相対的な順序と配向に一致するように順序付けされ、および配向される、列挙された実施形態126に記載の方法。
137. コンティグ配列のセットの70%は、わずか1時間で核酸サンプル中のそれらの配列の相対的な順序と配向に一致するように順序付けされ、および配向される、列挙された実施形態126に記載の方法。
138. コンティグ配列のセットはゲノムに由来する、列挙された実施形態126-137のいずれか1つに記載の方法。
139. コンティグ配列のセットは複数のゲノムに由来する、列挙された実施形態126-137のいずれか1つに記載の方法。
140. 核酸配列データのセットを構成する方法であって、
複数のコンティグに対応する配列情報を得る工程、ペアエンドリード情報を得る工程、および、ペアエンドリード情報のためのペアエンドリード距離分布が、基準のペアエンドリード距離分布に近似するように全体的に最適化されるように、複数のコンティグを構成する工程を含み、
上記の構成はわずか8時間で生じる、方法。
141. 核酸配列データのセットはゲノムに由来する、列挙された実施形態140に記載の方法。
142. 核酸配列データのセットは複数のゲノムに由来する、列挙された実施形態140に記載の方法。
143. 上記の構成はわずか4時間で生じる、列挙された実施形態140に記載の方法。
144. 上記の構成はわずか2時間で生じる、列挙された実施形態140に記載の方法。
145. スキャフォールドのアセンブリを改善する方法であって、
複数の連結したノードペアを含むスキャフォールドセットを得る工程であって、ノードペアの各ノードが少なくとも1つのコンティグ配列を含む、工程と、複数の連結したノードにマッピングされたペアエンドリード情報を得る工程と、連結されたノードペアによって共有されるリードペアの数を数える工程と、上記数を閾値と比較する工程と、上記数が閾値以下である場合にノードペアを連結していないノードへと切断する工程を含む、方法。
146. 固有のコンティグ配列にマッピングされたリードペアだけが数えられる、列挙された実施形態145に記載の方法。
147. 異なるペアエンド閾値数がマッピングされるコンティグ配列セグメントに対するリードペアのマッピングは廃棄される、列挙された実施形態145に記載の方法。
148. 閾値数は非反復配列について代表数の3倍である、列挙された実施形態145に記載の方法。
149. スキャフォールドセットはゲノムを含む、列挙された実施形態145-148のいずれか1つに記載の方法。
150. スキャフォールドセットは複数のゲノムを含む、列挙された実施形態145-148のいずれか1つに記載の方法。
151. スキャフォールドのアセンブリを改善する方法であって、
複数の連結したノードペアを含むスキャフォールドセットを得る工程であって、ノードペアの各ノードが少なくとも1つのコンティグ配列を含む、工程と、連結されたノードペアによって共有されるリードペアの数を数える工程と、上記数を閾値と比較する工程と、標準的なペアエンドリード距離度数データを得る工程と、複数の連結されたノードにマッピングされたペアエンドリード情報に関するペアエンドリード度数データを、標準的なペアエンドリード距離度数データと比較する工程と、連結されたノードの切断が、標準的なペアエンドリード距離度数データにより近く近似する複数の連結されたノードにマッピングされたペアエンドリード情報のためのペアエンドリード度数データをもたらす場合に、少なくとも1つの連結したノードを切断する工程とを含む、方法。
152. スキャフォールドセットはゲノムを含む、列挙された実施形態151に記載の方法。
153. スキャフォールドセットは複数のゲノムを含む、列挙された実施形態151に記載の方法。
154.スキャフォールドのアセンブリの方法であって、
1セットのコンティグを得る工程と、ペアエンドリードを含む入力データを得る工程であって、ペアエンドリードの少なくとも1%が少なくとも1kbのリードペア距離を含み、ペアエンドリードのセットが自然配向のペアエンドリードを含み、リードペアのための配列決定のエラー率が0.1%以下であり、および入力データのRN50が組み立てられたスキャフォールドの20%以下である、工程と、
スキャフォールドを出力する工程であって、スキャフォールドのRN50が入力のRN50の少なくとも2倍である、工程を含む、方法。
155. スキャフォールドのRN50が入力のRN50の少なくとも10倍である、列挙された実施形態154に記載の方法。
156. スキャフォールドのアセンブリの方法であって、
T0コンティグ配列を含むコンティグ配列のセットを得る工程と、ペアエンドリードのセットを得る工程であって、ペアエンドリードの少なくとも1%が少なくとも1kbのリードペア距離を含み、ペアエンドリードのセットが自然配向のペアエンドリードを含み、リードペアのための配列決定のエラー率が0.1%以下である、工程と、T1コンティグ配列を含むスキャフォールドを出力する工程であって、T1<T0である、工程を含む、方法。
157. T1は3未満である、列挙された実施形態156に記載の方法。
158. T1はT0の10%未満である、列挙された実施形態156に記載の方法。
159. T1はT0の1%未満である、列挙された実施形態156に記載の方法。
160. コンティグ配列のセットはゲノムを含む、列挙された実施形態156-159のいずれか1つに記載の方法。
161. コンティグ配列のセットは複数のゲノムを含む、列挙された実施形態156-159のいずれか1つに記載の方法。
162. 核酸配列データ処理の方法であって、
リードペアを含む入力データを受け取る工程であって、上記リードペアの少なくとも1%が少なくとも1kbによっておよび自然配向に分離した2つの核酸セグメントからの配列データを含み、入力データ用のRN50がアセンブルしたスキャフォールドの20%以下であり、および、上記入力データのエラー率が0.1%以下である、工程と、
スキャフォールドを含む出力データを出力する工程であって、出力データのRN50が入力のRN50の少なくとも2倍である、工程を含む、方法。
163. 出力データのRN50が入力のRN50少なくとも10倍である、列挙された実施形態162に記載の方法。
164. スキャフォールドは正確な順序と配向の標的ゲノムのサンプル配列の少なくとも90%を含む、列挙された実施形態162に記載の方法。
165. スキャフォールドは正確な順序と配向の標的ゲノムのサンプル配列の少なくとも99%を含む、列挙された実施形態162に記載の方法。
166. コンティグ配列のセットはゲノムを含む、列挙された実施形態162-165のいずれか1つに記載の方法。
167. コンティグ配列のセットは複数のゲノムを含む、列挙された実施形態162-165のいずれか1つに記載の方法。
168. 核酸配列データ処理の方法であって、
リードペアを含む前処理されたデータセットを出力する工程であって、上記リードペアの少なくとも1%が少なくとも1kbによっておよび自然配向に分離された2つの核酸セグメントからの配列データを含み、前処理されたデータセットのRN50がアセンブルされたスキャフォールドの20%以下であり、および上記出力データの誤り率が0.1%以下である、工程と、
スキャフォールドを含む処理されたデータセットを受け取る工程であって、出力データのRN50が入力のRN50の少なくとも2倍である、工程を含む、方法。
169. 出力データのRN50が入力のRN50の少なくとも10倍である、列挙された実施形態168に記載の方法。
170. スキャフォールドは正確な順序と配向の標的ゲノムのサンプル配列の少なくとも90%を含む、列挙された実施形態168に記載の方法。
171. スキャフォールドは正確な順序と配向の標的ゲノムのサンプル配列の少なくとも99%を含む、列挙された実施形態168に記載の方法。
172. 上記リードペアの少なくとも10%は少なくとも1kbによっておよび自然配向に分離された2つの核酸セグメントからの配列データを含む、列挙された実施形態168に記載の方法。
173. 核酸配列データ処理を方法であって、
リードペアを含む入力データを受け取る工程であって、上記リードペアの少なくとも1%が少なくとも1kbによっておよび自然配向に分離した2つの核酸セグメントからの配列データを含み、入力データのRN50がアセンブルしたスキャフォールドの20%以下であり、および、上記出力データのエラー率が0.1%以下である、工程と、
および、スキャフォールドを含む出力データを出力する工程であって、出力データのN50が入力のN50少なくとも2倍である、工程を含む、方法。
174. 出力データのN50は入力のRN50の少なくとも10倍である、列挙された実施形態173に記載の方法。
175. スキャフォールドは正確な順序と配向の標的ゲノムのサンプル配列の少なくとも90%を含む、列挙された実施形態173に記載の方法。
176. スキャフォールドは正確な順序と配向の標的ゲノムのサンプル配列の少なくとも99%を含む、列挙された実施形態173に記載の方法。
177. 上記リードペアの少なくとも10%は少なくとも1kbによっておよび自然配向に分離された2つの核酸セグメントからの配列データを含む、列挙された実施形態173に記載の方法。
178. 核酸配列データ処理を含む方法であって、
リードペアを含む前処理されたデータセットを出力する工程であって、上記リードペアの少なくとも1%が少なくとも1kbによっておよび自然配向に分離した2つの核酸セグメントからの配列データを含み、入力データのRN50がアセンブルしたスキャフォールドの20%以下であり、および、上記出力データのエラー率が0.1%以下である、工程と、
および、スキャフォールドを含む処理されたデータセットを受け取る工程であって、処理データのN50が前処理されたデータセットのN50の少なくとも2倍である、工程を含む、方法。
179. 出力データのN50は入力のRN50の少なくとも10倍である、列挙された実施形態178に記載の方法。
180. スキャフォールドは正確な順序と配向の標的ゲノムのサンプル配列の少なくとも90%を含む、列挙された実施形態178に記載の方法。
181. スキャフォールドは正確な順序と配向の標的ゲノムのサンプル配列の少なくとも99%を含む、列挙された実施形態178に記載の方法。
182. 上記リードペアの少なくとも10%は少なくとも1kbによっておよび自然配向に分離された2つの核酸セグメントからの配列データを含む、列挙された実施形態178に記載の方法。
183. 核酸配列データはゲノムに由来する、列挙された実施形態178-182のいずれか1つに記載の方法。
184. 核酸配列データは複数のゲノムに由来する、列挙された実施形態178-182のいずれか1つに記載の方法。
185. 少なくとも1つのペアエンドリードを共有する2つの核酸コンティグを連結する尤度を評価する方法であって、
第1のコンティグに対するマッピングされたショットガンリードの密度を判定する工程と、第2のコンティグに対するマッピングされたショットガンリードの密度を判定する工程と、第1のコンティグと第2のコンティグを連結するための尤度スコアを判定する工程と、第1のコンティグに対するマッピングされたショットガンリードの密度が第2のコンティグに対するマッピングされたショットガンリードの密度と大きく異なるときに、尤度スコアを減少させる工程とを含む、方法。
186. 尤度スコアは対数尤度スコアである、列挙された実施形態185に記載の方法。
187. 尤度スコアは本明細書で示される通りに減少する、列挙された実施形態185に記載の方法。
188. 尤度スコアは、第1のコンティグに対するマッピングされたショットガンリードの密度と第2のコンティグに対するマッピングされたショットガンリードの密度の小さい方対大きい方の比率として減少する、列挙された実施形態185に記載の方法。
189. 2つの核酸コンティグは異質的なサンプルに由来する、列挙された実施形態185に記載の方法。
190. 2つの核酸コンティグはメタゲノミクスサンプルに由来する、列挙された実施形態185に記載の方法。
191. 2つの核酸コンティグは別々の個々の生体に由来する、列挙された実施形態185に記載の方法。
192. 2つの核酸コンティグは別々の種に由来する、列挙された実施形態185に記載の方法。
193. プロセッサを含む、コンピュータは、核酸配列情報のコンティグをスキャフォールドするためのコンピュータにより実施されるシステムであって、当該プロセッサが、
初期の構成を有するコンティグ配列のセットを受け取り、
ペアエンドリードのセットを受け取り、
標準的なペアエンドリード距離度数データを受け取り、
少なくとも1つのペアエンドリード中に共存する配列を共有するコンティグペアがグループ分けされるように、コンティグペアを処理し、
コンティグを分離するためにマッピングされるリードペアのリードペア距離度数データが、初期の構成のコンティグ配列のリードペア度数データに対して標準的なペアエンドリード距離度数データにより近く近似するように、グループ化されたコンティグ配列をスキャフォールドし、および、
ネットワーク、スクリーン、またはサーバーへ処理されたコンティグスキャフォールドを出力する、ように構成される、システム。
194. スキャフォールドすることはコンティグのセットを順序付けることを含む、列挙された実施形態193に記載のコンピュータにより実施されるシステム。
195. スキャフォールドすることはコンティグのセットを配向することを含む、列挙された実施形態193に記載のコンピュータにより実施されるシステム。
196. スキャフォールドすることは少なくとも2つのコンティグの端から端を融合することを含む、列挙された実施形態193に記載のコンピュータにより実施されるシステム。
197. スキャフォールドすることは第1のコンティグを第2のコンティグに挿入することを含む、列挙された実施形態193に記載のコンピュータにより実施されるシステム。
198. スキャフォールドすることはコンティグを少なくとも2つの構成コンティグへと切断することを含む、列挙された実施形態193に記載のコンピュータにより実施されるシステム。
199. 標準的なペアエンドリード度数は 両方のリードが共通のコンティグにマッピングされるペアエンドリードから得られる、列挙された実施形態193に記載のコンピュータにより実施されるシステム。
200. 標準的なペアエンドリード度数は、事前に生成された曲線から得られる、列挙された実施形態193に記載のコンピュータにより実施されるシステム。
201. 初期の構成は無作為の構成である、列挙された実施形態193に記載のコンピュータにより実施されるシステム。
202. コンティグを分離するためにマッピングされるリードペアのリードペア距離度数データは、リードペア距離尤度が増大するときにペアエンドリード距離度数データにより近く近似する、列挙された実施形態193に記載のコンピュータにより実施されるシステム。
203. リードペア距離尤度は最大化される、列挙された実施形態202に記載のコンピュータにより実施されるシステム。
204. コンティグを分離するためにマッピングされるリードペアのリードペア距離度数データは、リードペアの距離度数データと標準的なペアエンドリード距離度数データとの間の差の統計的尺度が減少する際に、ペアエンドリード距離度数データにより近く近似する、列挙された実施形態193に記載のコンピュータにより実施されるシステム。
205. リードペア距離度数データと標準的なペアエンドリード距離度数データとの間の距離の統計的尺度は、ANOVA、t検定、およびX2乗検定の少なくとも1つを含む、列挙された実施形態204に記載のコンピュータにより実施されるシステム。
206. コンティグを分離するためにマッピングされるリードペアのリードペア距離は、標準的なペアエンドリード距離度数と比較して得られた順序付けされたコンティグ中のリードペア距離分布の偏差が減少するときに、ペアエンドリード距離度数データと厳密に一致する、列挙された実施形態193に記載のコンピュータにより実施されるシステム。
207. 標準的なペアエンドリード距離度数と比較して得られた順序付けされたコンティグ中のリードペア距離分布の偏差は最小限に抑えられる、列挙された実施形態206に記載のコンピュータにより実施されるシステム。
208. 第1のクラスターと第2のクラスターに関連するペアエンドリード中の配列を共有するコンティグは、より多くの共有される末端リードを有するクラスターに割り当てられる、列挙された実施形態193に記載のコンピュータにより実施されるシステム。
209. クラスター化は、生体中の染色体の数以上である多くのグループにコンティグをグループ分けすることを含む、列挙された実施形態193-208のいずれか1つに記載のコンピュータにより実施されるシステム。
210. 単一のペアエンドリードのみをクラスターの1つのコンティグと共有するコンティグは、そのクラスターには含まれない、列挙された実施形態193-209のいずれか1つに記載のコンピュータにより実施されるシステム。
211. 反復配列を含む少なくとも1つのペアエンドリードのみをクラスターと共有するコンティグは、そのクラスターには含まれない、列挙された実施形態193-210のいずれか1つに記載のコンピュータにより実施されるシステム。
212. 低品質の配列を含む少なくとも1つのペアエンドリードのみをクラスターと共有するコンティグは、そのクラスターには含まれない、列挙された実施形態193-211のいずれか1つに記載のコンピュータにより実施されるシステム。
213. ペアエンドリードのセットは、核酸内で内部二本鎖切断を生じさせるためにサンプルDNAを消化し、少なくとも1つの再連結接合部を形成するために二本鎖切断を再連結し、および少なくとも1つの再連結接合部にわたって配列決定することにより得られる、列挙された実施形態193-212のいずれか1つに記載のコンピュータにより実施されるシステム。
214. DNAは少なくとも1つのDNA結合剤に架橋される、列挙された実施形態213に記載のコンピュータにより実施されるシステム。
215. DNAは分離された裸のDNAである、列挙された実施形態213に記載のコンピュータにより実施されるシステム。
216. 分離されたDNAは再構成された染色質へ再度アセンブルされる、列挙された実施形態214に記載のコンピュータにより実施されるシステム。
217. 再構成された染色質は架橋される、列挙された実施形態216に記載のコンピュータにより実施されるシステム。
218. 再構成された染色質はDNA結合タンパク質を含む、列挙された実施形態216に記載のコンピュータにより実施されるシステム。
219. 再構成された染色質はナノ粒子を含む、列挙された実施形態216に記載のコンピュータにより実施されるシステム。
220. コンティグのクラスター化は生体に関して数または染色体とは無関係である、列挙された実施形態193-219のいずれか1つに記載のコンピュータにより実施されるシステム。
221. 第1のクラスターと第2のクラスターに関連するペアエンドリード中の配列を共有するコンティグは、より多くの数の共有される末端リードを有するクラスターに割り当てられる、列挙された実施形態193-220のいずれか1つに記載のコンピュータにより実施されるシステム。
222. 第1のクラスターと第2のクラスターに関連するペアエンドリード中の配列を共有するコンティグは、より大きなリードペア距離尤度値を有するクラスターに割り当てられる、列挙された実施形態193-220のいずれか1つに記載のコンピュータにより実施されるシステム。
223. 第1のクラスターと第2のクラスターに関連するペアエンドリード中の配列を共有するコンティグは、標準的なリードペア距離分布と比較してそのリードペア分布中で偏差が少ないクラスターに割り当てられる、列挙された実施形態193-220のいずれか1つに記載のコンピュータにより実施されるシステム。
224. 第1のクラスターと第2のクラスターに関連したペアエンドリードの中の配列を共有するコンティグは、各クラスターから除外される、列挙された実施形態193-221のいずれか1つに記載のコンピュータにより実施されるシステム。
225. クラスター化は、生体中の染色体の数以上である多くのグループにコンティグを分類することを含む、列挙された実施形態193-224のいずれか1つに記載のコンピュータにより実施されるシステム。
226. スキャフォールドすることは、クラスター化されたコンティグの推定上の隣接するコンティグの第1のセットを選択すること、上記リードペアに関してリードペアの距離の総計尺度を減少させる推定上の隣接するコンティグの第1のセットの最小限の距離順序を決定すること、および、リードペア距離の総計尺度を減少させるために、推定上の隣接するコンティグの第1のセットをスキャフォールドすることを含む、列挙された実施形態193-225のいずれか1つに記載のコンピュータにより実施されるシステム。
227. 推定上の隣接するコンティグの第1のセットが2つのコンティグからなる、列挙された実施形態226に記載のコンピュータにより実施されるシステム。
228. 推定上の隣接するコンティグの第1のセットが3つのコンティグからなる、列挙された実施形態226に記載のコンピュータにより実施されるシステム。
229. 推定上の隣接するコンティグの第1のセットが4つのコンティグからなる、列挙された実施形態226に記載のコンピュータにより実施されるシステム。
230. 推定上の隣接するコンティグの第1のセットが4つのコンティグを含む、列挙された実施形態226に記載のコンピュータにより実施されるシステム。
231. スキャフォールドすることは、推定上の隣接するコンティグの第1のセットにおける各コンティグの順序と配向を決定することを含む、列挙された実施形態226に記載のコンピュータにより実施されるシステム。
232. 最小限の距離順序を決定することは、すべての可能なコンティグ構成についての上記の設定の2つのコンティグに対するリードマッピングを含む少なくとも1つのリードペアのための予想されるリードペア距離を比較することを含む、列挙された実施形態226-227のいずれか1つに記載のコンピュータにより実施されるシステム。
233. 上記のリードペアの最小限のリードペア距離に対応するコンティグ配向を選択することをさらに含む、列挙された実施形態232に記載のコンピュータにより実施されるシステム。
234. 最大尤度のリードペア距離分布に対応するコンティグ配向を選択することをさらに含む、列挙された実施形態232に記載のコンピュータにより実施されるシステム。
235. 上記のコンティグクラスターのリードペアの総計尺度のための最小限のリードペア距離に対応するコンティグ配向を選択することをさらに含む、列挙された実施形態232-233のいずれか1つに記載のコンピュータにより実施されるシステム。
236. 予想されるリードペア距離は、上記ペアエンドリード距離度数データと比較される、列挙された実施形態232-235のいずれか1つに記載のコンピュータにより実施されるシステム。
237. 上記ペアエンドリード距離度数データと比較することは、式1を用いることを含む、列挙された実施形態236に記載のコンピュータにより実施されるシステム。
238. 上記クラスター化されたコンティグの推定上の隣接するコンティグの第2のセットを選択することであって、上記第2のセットが上記第1のセットの1つのエンド末端のコンティグを除くすべてと、上記クラスター化されたコンティグの1つの追加のコンティグを含む、ことと、リードペアの距離の上記総計尺度を減少させるために、推定上の隣接するコンティグの第2のセットをスキャフォールドすることとをさらに含む、列挙された実施形態226-237のいずれか1つに記載のコンピュータにより実施されるシステム。
239. 上記クラスター化されたコンティグの推定上の隣接するコンティグの第3のセットを選択することであって、上記第3のセットが上記第2のセットの1つのエンド末端のコンティグを除くすべてと、第1のセットと第2のセットに含まれない上記クラスター化されたコンティグの1つの追加のコンティグを含む、ことと、リードペアの距離の上記総計尺度を減少させるために、推定上の隣接するコンティグの第3のセットをスキャフォールドすることとをさらに含む、列挙された実施形態238に記載のコンピュータにより実施されるシステム。
240. 上記クラスター化されたコンティグの大部分が順序付けされるまで、少なくとも1つの追加のセットを繰り返し選択することをさらに含む、列挙された実施形態239に記載のコンピュータにより実施されるシステム。
241. 上記クラスター化されたコンティグの各々が順序付けされるまで、少なくとも1つの追加のセットを繰り返し選択することをさらに含む、列挙された実施形態240に記載のコンピュータにより実施されるシステム。
242. 核酸配列はゲノムに由来する、列挙された実施形態193-241のいずれか1つに記載のコンピュータにより実施されるシステム。
243. 核酸配列は複数のゲノムに由来する、列挙された実施形態193-241のいずれか1つに記載のコンピュータにより実施されるシステム。
244. クラスター中のコンティグをスキャフォールドするためのコンピュータにより実施されるシステムであって、該システムはプロセッサを含み、プロセッサはコンティグのセットを受け取り、
a)各ペアのコンティグについて対数尤度比スコアを割り当て、
b)対数尤度比スコアによって接続を分類し、
および、c)アセンブリの合計スコアを増加させるために、尤度比スコアの次数を減少させる際にコンティグ接続を受け入れるかまたは拒否することによって、上記コンティグを処理し、
ならびに、ネットワーク、スクリーン、またはサーバーへ処理されたコンティグスキャフォールドを出力するように構成される、コンピュータにより実施されるシステム。
245. スキャフォールドすることはコンティグのセットを順序付けることを含む、列挙された実施形態244に記載のコンピュータにより実施されるシステム。
246. スキャフォールドすることはコンティグのセットを配向させることを含む、列挙された実施形態244に記載のコンピュータにより実施されるシステム。
247. スキャフォールドすることは少なくとも2つのコンティグの端から端を融合することを含む、列挙された実施形態244に記載のコンピュータにより実施されるシステム。
248. スキャフォールドすることは1つのコンティグを第2のコンティグに挿入することを含む、列挙された実施形態244に記載のコンピュータにより実施されるシステム。
249. スキャフォールドすることはコンティグを少なくとも2つの構成コンティグへと切断することを含む、列挙された実施形態244に記載のコンピュータにより実施されるシステム。
250. コンティグはゲノムを含む、列挙された実施形態244に記載のコンピュータにより実施されるシステム。
251. コンティグは複数のゲノムを含む、列挙された実施形態244に記載のコンピュータにより実施されるシステム。
252. クラスター内の複数のコンティグの局所的に最適なコンティグ構成を決定するためのコンピュータにより実施されるシステムであって、コンピュータにより実施されるシステムはプロセッサを含み、プロセッサは、
コンティグのセットを受け取り;
a)コンティグのクラスターに沿った位置iから始まるサイズwのコンティグの配列ウインドウを特定すること、
b)ウインドウ中の各位置iにおける適合性のある順序と配向のスコアを調べることによりウインドウwのコンティグ用のw!2順序付けと配向のオプションを考慮することと、
c)最適なスコアを得るために、上記ウインドウ中の上記wコンティグを配向して順序付けすることと、
d)i+1の位置を決めるためにウインドウを変えることと、および、
e)最適なスコアを決定するために、上記wコンティグの配向と順序付けを用いて、位置i+1で上記ウインドウについて工程(a)、(b)、および(c)を繰り返すこと、によってコンティグの上記セットを処理し、
それにより、スコアに対する局所的に最適な構成中の上記複数のコンティグを配向および順序付けし;
ならびに、ネットワーク、スクリーン、またはサーバーに局所的に最適な構成を出力する、ように構成される、コンピュータにより実施されるシステム。
253. クラスター中の複数のコンティグにマッピングされるリードペアデータが得られ、標準的なペアエンドリード度数データセットが得られ、および、上記のwコンティグを配向させ、および順序付けるためのスコアは、クラスター中の複数のコンティグにマッピングされるリードペアデータのためのリードペア距離データセットが標準的なペアエンドリード度数データセットにどれだけより近く一致するかの尺度である、列挙された実施形態252に記載のコンピュータにより実施されるシステム。
254. クラスター中の複数のコンティグにマッピングされるリードペアデータが得られ、スコアは完全なリードペア距離であり、および、完全なリードペア距離が最小限に抑えられるとき、スコアは最適化される、列挙された実施形態252に記載のコンピュータにより実施されるシステム。
255. wは3である、列挙された実施形態252に記載のコンピュータにより実施されるシステム。
256. wは4である、列挙された実施形態252に記載のコンピュータにより実施されるシステム。
257. wは5である、列挙された実施形態252に記載のコンピュータにより実施されるシステム。
258. wは6である、列挙された実施形態252に記載のコンピュータにより実施されるシステム。
259. wは第1のクラスターに対する第1の値を有し、wは第2のクラスターで第2の値を有する、列挙された実施形態252に記載のコンピュータにより実施されるシステム。
260. wはセットのコンティグの1%を含むように選択される、列挙された実施形態252に記載のコンピュータにより実施されるシステム。
261. wはセットのコンティグの5%を含むように選択される、列挙された実施形態252に記載のコンピュータにより実施されるシステム。
262. wはセットのコンティグの1%を含むように選択される、列挙された実施形態252に記載のコンピュータにより実施されるシステム。
263. スコアはリードペア距離尤度スコアであり、スコアは、所定のウィンドウサイズについて最大化されるときに最適である、列挙された実施形態252に記載のコンピュータにより実施されるシステム。
264. スコアは式1を使用して計算される、列挙された実施形態263に記載のコンピュータにより実施されるシステム。
265. スコアは予想されるリードペア分布からの偏差であり、スコアは所定のウィンドウサイズについて最小限に抑えられるときに最適である、列挙された実施形態252に記載のコンピュータにより実施されるシステム。
266. 複数のコンティグはゲノムを含む、列挙された実施形態252-265に記載のいずれか1つに記載のコンピュータにより実施されるシステム。
267. 複数のコンティグは複数のゲノムを含む、列挙された実施形態252-265のいずれか1つに記載のコンピュータにより実施されるシステム。
268. 核酸配列アセンブリのための方法であって、
a)精製されたDNAを得る工程と、
b)DNA/染色質複合体を形成するために精製されたDNAをDNA結合剤に結合させる工程と、
c)粘着末端を残すために制限酵素でDNA染色質複合体をインキュベートする工程と、
d)DNAの末端を連結するために連結反応を行う工程と、;
e)ペアエンドリードを生成するために連結されたDNA接合部全体を配列決定する工程と、および、
f)ペアエンドリードを受け取るとともに処理し、ネットワーク、スクリーン、またはサーバーに、精製されたDNAの配列を表すコンティグを含むスキャフォールド核酸データセットを出力するように構成されたプロセッサを含む、コンピュータにより実施されるシステムを使用する工程とを含む、方法。
269. 精製されたDNAはゲノムに由来する、列挙された実施形態268に記載の方法。
270. 精製されたDNAは複数のゲノムに由来する、列挙された実施形態268に記載の方法。
271. 反復のコンティグ領域に対するリードペアの配列リードマッピングを特定するためのコンピュータにより実施されるシステムであって、該システムはプロセッサを含み、該プロセッサは、核酸サンプル用のコンティグデータセットを受け取り、隣接していない物理的に連結した配列情報に対応する少なくとも1つのリードペアの配列リードを受け取り、および、リードペアの配列リードの少なくとも1つのリードがコンティグデータセットの2つの異なる座位にマッピングされる場合に、リードペアの配列リードを除外する、ように構成される、コンピュータにより実施されるシステム。
272. 反復領域は、第1の閾値を超えるショットガンリード深さを有する配列を含む、列挙された実施形態271に記載のコンピュータにより実施されるシステム。
273. 反復領域は、第2の閾値を越えるリード深さを有する塩基位置を含む、列挙された実施形態272に記載のコンピュータにより実施されるシステム。
274. 第1の閾値と第2の閾値はリード深さの全体的な分布に対して固定される、列挙された実施形態273に記載のコンピュータにより実施されるシステム。
275. 第1の閾値はリード深さの全体的な分布の3倍である、列挙された実施形態274に記載のコンピュータにより実施されるシステム。
276. 第2の閾値はリード深さの全体的な分布の3.5倍である、列挙された実施形態274に記載のコンピュータにより実施されるシステム。
277. 核酸サンプルはゲノムを含む、列挙された実施形態271-276のいずれか1つに記載のコンピュータにより実施されるシステム。
278. 核酸サンプルは複数のゲノムを含む、列挙された実施形態271-276のいずれか1つに記載のコンピュータにより実施されるシステム。
279. プロセッサを含む、コンティグアセンブリ決定をガイドするためのコンピュータにより実施されるシステムであって、該プロセッサは、
コンティグデータセットを受け取ること、第1のコンティグと第2のコンティグとの間にまたがるリードペア配列の数と黙示的な分離を観察する確率を決定するためにデータセットを処理することであって、コンティグがセット[++、+-、-+、--]内のoの相対的な配向を有し、ギャップ長により分離される、こと、および、ネットワーク、スクリーン、またはサーバーへデータセットと決定された確率とを出力することを行うように構成される、システム。
280. 分離距離にわたるリードペア配列の分布の確率を正規化する工程を含み、正規化は、リードペア配列を、核酸サンプルを独立してサンプリングするノイズペアと比較することを含む、列挙された実施形態279に記載のコンピュータにより実施されるシステム。
281. 核酸サンプルはゲノムを含む、列挙された実施形態280に記載のコンピュータにより実施されるシステム。
282. 核酸サンプルは複数のゲノムを含む、列挙された実施形態280に記載のコンピュータにより実施されるシステム。
283. ノイズペアの総数はコンティグペアのサンプルに関する連結の密度を集計することにより決定される、列挙された実施形態280に記載のコンピュータにより実施されるシステム。
284. 密度の最大と最少の1%が除外される、列挙された実施形態283に記載のコンピュータにより実施されるシステム。
285. コンティグ順序を決定することをさらに含む、列挙された実施形態279に記載のコンピュータにより実施されるシステム。
286. コンティグ配向を決定することをさらに含む、列挙された実施形態279に記載のコンピュータにより実施されるシステム。
287. プロセッサを含むコンティグ誤連結部修正のためのコンピュータにより実施されるシステムであって、該プロセッサは、
初期の構成を有するコンティグ配列のセットを受け取り、
ペアエンドリードのセットを受け取り、
標準的なペアエンドリード距離度数データを受け取り、
少なくとも1つのペアエンドリード中に共存する配列を共有するグループへとコンティグペアを処理し、
標準的なペアエンドリード距離度数データと比較することと、および、グループ分けのコンティグ中に切断を導入することにより、コンティグのグループ分けのためのリードペア度数データが標準的なペアエンドリード距離度数データにより近く近似するかどうかを判定することとによって、コンティグのグループ分けに関してリードペア度数データを処理し、および、
もし近似する場合に、上記切断を導入し、ならびに、
ネットワーク、スクリーン、またはサーバーへ処理されたコンティグデータセットを出力するように構成される、システム。
288. 第1の位置は、切断を導入する前に、上記閾値以下の対数尤度を有する少なくとも1つの隣接する第2の位置と融合される、列挙された実施形態287に記載のコンピュータにより実施されるシステム。
289. 第2の隣接する位置は、第1の位置からの300以下の塩基対である、列挙された実施形態287に記載のコンピュータにより実施されるシステム。
290. 第2の位置は、第1の位置からの1000を超える塩基ペアの位置を含まない、列挙された実施形態287に記載のコンピュータにより実施されるシステム。
291. 対数尤度の変化の判定は、コンティグの平均的なペアエンドマッピング密度を特定すること、コンティグのセグメントを特定すること、平均的なペアエンドマッピング密度の少なくとも3倍のペアエンドマッピング密度を有するコンティグのセグメンを特定すること、および、平均的なペアエンドマッピング密度の少なくとも3倍のペアエンドマッピング密度を有するコンティグのセグメンを除外することを含む、列挙された実施形態287-290のいずれか1つに記載のコンピュータにより実施されるシステム。
292. コンティグ配列のセットはゲノムに由来する、列挙された実施形態287-291のいずれか1つに記載のコンピュータにより実施されるシステム。
293. コンティグ配列のセットは複数のゲノムに由来する、列挙された実施形態287-291のいずれか1つに記載のコンピュータにより実施されるシステム。
294. プロセッサを含む、コンティグアセンブリのためのコンピュータにより実施されるシステムであって、該プロセッサは、コンティグのセットを受け取り、かつ、以下の工程:
開始アセンブリの切断したコンティグを示す工程であって、切断されたコンティグがノードであり、切断されたコンティグのエッジが整数の順序付けられたペアのリストで標識され、切断のエッジはマッピングされたリードペア配列に対応する、工程、
および、マッピングされた接続の閾値数よりも少ないエッジを除外する工程、によってコンティグの上記セットを処理するように構成される、システム。
295. 閾値数は5%未満である、列挙された実施形態294に記載のコンピュータにより実施されるシステム。
296. 閾値数はtLリンクよりも少ない、列挙された実施形態294に記載のコンピュータにより実施されるシステム。
297. コンティグ長さに対する対応ノードのグラフ中の程度の比が塩基対であるエッジを含むコンティグは、分布のすべての値の上限の約5%を超過する、列挙された実施形態294に記載のコンピュータにより実施されるシステム。
298. コンティグはゲノムに由来する、列挙された実施形態294-297のいずれか1つに記載のコンピュータにより実施されるシステム。
299. コンティグは複数のゲノムに由来する、列挙された実施形態294-297のいずれか1つに記載のコンピュータにより実施されるシステム。
300. プロセッサを含む、少なくとも1つのスキャフォールドへコンティグ配列情報をアセンブルするコンピュータにより実施されるシステムであって、該プロセッサは、
複数のコンティグに対応する配列情報を受け取ること、複数のコンティグによって表される核酸サンプルからペアエンドリード情報を受け取ること、予測されるリードペア距離情報データセットからのリードペア距離パラメータの偏差が最小限に抑えられるように複数のコンティグを構成することによって複数のコンティグを処理することであって、この構成が8時間未満で生じること、および、ネットワーク、スクリーン、またはサーバーへ最小限に抑えられた偏差を含む上記構成されたコンティグを出力することを行うように構成される、システム。
301. 予測されたリードペア距離情報データセットはリードペア距離尤度曲線を含む、列挙された実施形態300に記載のコンピュータにより実施されるシステム。
302. リードペア距離パラメータはリードペア距離尤度曲線に対して最大距離尤度である、列挙された実施形態300-301に記載のいずれか1つに記載のコンピュータにより実施されるシステム。
303. リードペア距離パラメータはリードペア距離尤度曲線に対して最小限の変動である、列挙された実施形態300-301のいずれか1つに記載のコンピュータにより実施されるシステム。
304. コンティグの局所的に隣接するセットは2つのコンティグを含む、列挙された実施形態300-303のいずれか1つに記載のコンピュータにより実施されるシステム。
305. コンティグの局所的に隣接するセットは3つのコンティグを含む、列挙された実施形態300-303のいずれか1つに記載のコンピュータにより実施されるシステム。
306. コンティグの局所的に隣接するセットは4つのコンティグを含む、列挙された実施形態300-303のいずれか1つに記載のコンピュータにより実施されるシステム。
307. コンティグの局所的に隣接するセットは5つのコンティグを含む、列挙された実施形態300-303のいずれか1つに記載のコンピュータにより実施されるシステム。
308. コンティグの局所的に隣接するセットは6つのコンティグを含む、列挙された実施形態300-303のいずれか1つに記載のコンピュータにより実施されるシステム。
309. 構成は7時間未満で生じる、列挙された実施形態300-308のいずれか1つに記載のコンピュータにより実施されるシステム。
310. 構成は6時間未満で生じる、列挙された実施形態300-308のいずれか1つに記載のコンピュータにより実施されるシステム。
311. 構成は5時間未満で生じる、列挙された実施形態300-308のいずれか1つに記載のコンピュータにより実施されるシステム。
312. 構成は4時間未満で生じる、列挙された実施形態300-308のいずれか1つに記載のコンピュータにより実施されるシステム。
313. 構成は3時間未満で生じる、列挙された実施形態300-308のいずれか1つに記載のコンピュータにより実施されるシステム。
314. 構成は2時間未満で生じる、列挙された実施形態300-308のいずれか1つに記載のコンピュータにより実施されるシステム。
315. 構成は1時間未満で生じる、列挙された実施形態300-308のいずれか1つに記載のコンピュータにより実施されるシステム。
316. コンティグ情報はゲノムに由来する、列挙された実施形態300-315のいずれか1つに記載のコンピュータにより実施されるシステム。
317. コンティグ配列情報は複数のゲノムに由来する、列挙された実施形態300-315のいずれか1つに記載のコンピュータにより実施されるシステム。
318. プロセッサを含むコンティグ配列のセットに足場を設けるコンピュータにより実施されるシステムであって、該プロセッサは、
核酸サンプルの代表的なコンティグ配列のセットを受け取ること、核酸サンプル用のリードペアデータを受け取ること、および、核酸サンプル用のリードペアデータが予想されるリードペア分布によりより近く近似するようにコンティグのセットを順序付けて配向することにより受け取ったデータを処理することであって、コンティグ配列のセットの70%がわずか8時間で核酸サンプル中のそれらの配列の相対的な順序と配向に一致するように順序付けられ配向される、こと、
ならびに、ネットワーク、スクリーン、またはサーバーに順序付けされて配向されたデータを出力すること、を行うように構成される、システム。
319. スキャフォールドすることは、コンティグのセットを順序付けることを含む、列挙された実施形態318に記載のコンピュータにより実施されるシステム。
320. スキャフォールドすることはコンティグのセットを配向することを含む、列挙された実施形態318に記載のコンピュータにより実施されるシステム。
321. スキャフォールドすることは少なくとも2つのコンティグの端から端を融合することを含む、列挙された実施形態318に記載のコンピュータにより実施されるシステム。
322. スキャフォールドすることは1つのコンティグを第2のコンティグに挿入することを含む、列挙された実施形態318に記載のコンピュータにより実施されるシステム。
323. スキャフォールドすることはコンティグを少なくとも2つの構成コンティグへと切断することを含む、列挙された実施形態318に記載のコンピュータにより実施されるシステム。
324. コンティグ配列のセットの80%は、わずか8時間で核酸サンプル中のそれらの配列の相対的な順序と配向に一致するように、順序付けされ、および配向される、列挙された実施形態318に記載のコンピュータにより実施されるシステム。
325. コンティグ配列のセットの90%は、わずか8時間で核酸サンプル中のそれらの配列の相対的な順序と配向に一致するように順序付けされ、および配向される、列挙された実施形態318に記載のコンピュータにより実施されるシステム。
326. コンティグ配列のセットの95%は、わずか8時間で核酸サンプル中のそれらの配列の相対的な順序と配向に一致するように順序付けされ、および配向される、列挙された実施形態318に記載のコンピュータにより実施されるシステム。
327. コンティグ配列のセットの70%は、わずか4時間で核酸サンプル中のそれらの配列の相対的な順序と配向に一致するように順序付けされ、および配向される、列挙された実施形態318に記載のコンピュータにより実施されるシステム。
328. コンティグ配列のセットの70%は、わずか2時間で核酸サンプル中のそれらの配列の相対的な順序と配向に一致するように順序付けされ、および配向される、列挙された実施形態318に記載のコンピュータにより実施されるシステム。
329. コンティグ配列のセットの70%は、わずか1時間で核酸サンプル中のそれらの配列の相対的な順序と配向に一致するように順序付けされ、および配向される、列挙された実施形態318に記載のコンピュータにより実施されるシステム。
330. コンティグ配列のセットはゲノムに由来する、列挙された実施形態318-329のいずれか1つに記載のコンピュータにより実施されるシステム。
331. コンティグ配列のセットは複数のゲノムに由来する、列挙された実施形態318-329のいずれか1つに記載のコンピュータにより実施されるシステム。
332. プロセッサを含む核酸配列データのセットを構成するコンピュータにより実施されるシステムであって、該プロセッサは、
複数のコンティグに対応する配列情報を受け取ること、ペアエンドリード情報を受け取ること、ペアエンドリード情報のためのペアエンドリード距離分布が基準のペアエンドリード距離分布に全体的に最適化されるように、複数のコンティグを構成することによって受信されたデータを処理することであって、構成がわずか8時間で生じる、こと、および、ネットワーク、スクリーン、またはサーバーに上記構成された複数のコンティグを出力することを行うように構成される、システム。
333. 核酸配列データのセットはゲノムに由来する、列挙された実施形態332に記載のコンピュータにより実施されるシステム。
334. 核酸配列データのセットは複数のゲノムに由来する、列挙された実施形態332に記載のコンピュータにより実施されるシステム。
335. 構成はわずか4時間で生じる、列挙された実施形態332に記載のコンピュータにより実施されるシステム。
336. 構成はわずか2時間で生じる、列挙された実施形態332に記載のコンピュータにより実施されるシステム。
337. プロセッサを含むスキャフォールドアセンブリを改善するコンピュータにより実施されるシステムであって、該プロセッサは、
複数の連結したノードペアを含むスキャフォールドセットを受け取ることであって、ノードペアの各ノードが少なくとも1つのコンティグ配列を含む、こと、複数の連結したノードにマッピングされたペアエンドリード情報を受け取ること、連結したノードペアによって共有されるリードペアの数を数え、上記数を閾値と比較し、および、上記の数が閾値以下である場合にノードペアを連結していないノードに切断することることにより受信データを処理すること、ならびに、ネットワーク、スクリーン、またはサーバーに上記処理されたデータを出力することを行うように構成される、システム。
338. 固有のコンティグ配列にマッピングされたリードペアだけが数えられる、列挙された実施形態337に記載のコンピュータにより実施されるシステム。
339. 異なるペアエンド閾値数がマッピングされるコンティグ配列セグメントに対するリードペアのマッピングは廃棄される、列挙された実施形態337に記載のコンピュータにより実施されるシステム。
340. 閾値数は非反復配列について平均数の3倍である、列挙された実施形態337に記載のコンピュータにより実施されるシステム。
341. スキャフォールドセットはゲノムを含む、列挙された実施形態337-340のいずれか1つに記載のコンピュータにより実施されるシステム。
342. スキャフォールドセットは複数のゲノムを含む、列挙された実施形態337-340のいずれか1つに記載のコンピュータにより実施されるシステム。
343. プロセッサを含むスキャフォールドアセンブリを改善するコンピュータにより実施されるシステムであって、該プロセッサは、
複数の連結したノードペアを含むスキャフォールドセットを受け取ることであって、ノードペアの各ノードが少なくとも1つのコンティグ配列を含む、こと、複数の連結したノードにマッピングされたペアエンドリード情報を受け取ること、標準的なペアエンドリード距離度数データを受け取ること、複数の連結されたノードにマッピングされたペアエンドリード情報用のペアエンドリード度数データを、標準的なペアエンドリード距離度数データと比較し、および、連結されたノードの切断が、標準的なペアエンドリード距離度数データにより近く近似する複数の連結されたノードにマッピングされたペアエンドリード情報のためのペアエンドリード度数データをもたらす場合に、少なくとも1つの連結したノードを切断することによって、受信されたデータを処理すること、ならびに、ネットワーク、スクリーン、またはサーバーに処理されたデータを出力することを行うように構成される、システム。
344. スキャフォールドセットはゲノムを含む、列挙された実施形態343に記載のコンピュータにより実施されるシステム。
345. スキャフォールドセットは複数のゲノムを含む、列挙された実施形態343に記載のコンピュータにより実施されるシステム。
346. プロセッサを含むスキャフォールドアセンブリのコンピュータにより実施されるシステムであって、該プロセッサは、
コンティグ配列のセットを受け取ること、ペアエンドリードのセットを含む入力されたデータを受け取ることであって、ペアエンドリードの少なくとも1%が少なくとも1kbのリードペア距離を含み、ペアエンドリードのセットが自然配向のペアエンドリードを含み、リードペアのための配列決定のエラー率が0.1%以下であり、および入力データのRN50が組み立てられたスキャフォールドの20%以下である、こと、ならびに、スキャフォールドを出力することであって、スキャフォールドのRN50が入力のRN50の少なくとも2倍である、ことを行うように構成される、システム。
347. スキャフォールドのRN50が入力のRN50の少なくとも10倍である、列挙された実施形態346に記載のコンピュータにより実施されるシステム。
348. プロセッサを含むスキャフォールドアセンブリのコンピュータにより実施されるシステムであって、該プロセッサは、
T0コンティグ配列を含むコンティグ配列のセットを受け取ること、ペアエンドリードのセットを受け取ることであって、ペアエンドリードの少なくとも1%が少なくとも1kbのリードペア距離を含み、ペアエンドリードのセットが自然配向のペアエンドリードを含み、リードペアのための配列決定のエラー率が0.1%以下である、こと、およびT1コンティグ配列を含むスキャフォールドを出力することであって、T1<T0である、ことを行うように構成される、システム。
349. T1は3未満である、列挙された実施形態348に記載のコンピュータにより実施されるシステム。
350. T1はT0の10%未満である、列挙された実施形態348に記載のコンピュータにより実施されるシステム。
351. T1はT0の1%未満である、列挙された実施形態348に記載のコンピュータにより実施されるシステム。
352. コンティグ配列のセットはゲノムを含む、列挙された実施形態348-351のいずれか1つに記載のコンピュータにより実施されるシステム。
353. コンティグ配列のセットは複数のゲノムを含む、列挙された実施形態348-351のいずれか1つに記載のコンピュータにより実施されるシステム。
354. プロセッサを含む、核酸配列データ処理のコンピュータにより実施されるシステムであって、該プロセッサは、
リードペアを含む入力データを受け取ること、上記リードペアの少なくとも1%が少なくとも1kbによっておよび自然配向に分離した2つの核酸セグメントからの配列データを含み、入力データ用のRN50がアセンブルしたスキャフォールドの20%以下であり、および、上記入力データのエラー率が0.1%以下である、こと、
および、スキャフォールドを含む出力データを出力することであって、出力データ用のRN50が入力のRN50の少なくとも2倍である、ことを行うように構成される、システム。
355. 出力データのRN50が入力のRN50少なくとも10倍である、列挙された実施形態354に記載のコンピュータにより実施されるシステム。
356. スキャフォールドは正確な順序と配向の標的ゲノムのサンプル配列の少なくとも90%を含む、列挙された実施形態354に記載のコンピュータにより実施されるシステム。
357. スキャフォールドは正確な順序と配向の標的ゲノムのサンプル配列の少なくとも99%を含む、列挙された実施形態354に記載のコンピュータにより実施されるシステム。
358. コンティグ配列のセットはゲノムを含む、列挙された実施形態354-357のいずれか1つに記載のコンピュータにより実施されるシステム。
359. コンティグ配列のセットは複数のゲノムを含む、列挙された実施形態354-357のいずれか1つに記載のコンピュータにより実施されるシステム。
360. プロセッサを含む核酸配列データ処理のコンピュータにより実施されるシステムであって、該プロセッサは、
リードペアを含む前処理されたデータセットを出力することであって、上記リードペアの少なくとも1%が少なくとも1kbによっておよび自然配向に分離された2つの核酸セグメントからの配列データを含み、前処理されたデータセットのRN50がアセンブルされたスキャフォールドの20%以下であり、および上記出力データの誤り率が0.1%以下である、ことと、
および、スキャフォールドを含む処理されたデータセットを受け取ることであって、出力データ用のRN50が入力のRN50の少なくとも2倍である、ことを行うように構成される、システム。
361. 出力データのRN50が入力のRN50の少なくとも10倍である、列挙された実施形態360に記載のコンピュータにより実施されるシステム。
362. スキャフォールドは正確な順序と配向の標的ゲノムのサンプル配列の少なくとも90%を含む、列挙された実施形態360に記載のコンピュータにより実施されるシステム。
363. スキャフォールドは正確な順序と配向の標的ゲノムのサンプル配列の少なくとも99%を含む、列挙された実施形態360に記載のコンピュータにより実施されるシステム。
364. 上記リードペアの少なくとも10%は少なくとも1kbによっておよび自然配向に分離された2つの核酸セグメントからの配列データを含む、列挙された実施形態360に記載のコンピュータにより実施されるシステム。
365. プロセッサを含む、核酸配列データ処理のコンピュータにより実施されるシステムであって、該プロセッサは、
リードペアを含む入力データを受け取ること、上記リードペアの少なくとも1%が少なくとも1kbによっておよび自然配向に分離した2つの核酸セグメントからの配列データを含み、入力データのRN50がアセンブルしたスキャフォールドの20%以下であり、および、上記出力データのエラー率が0.1%以下である、ことと、
および、スキャフォールドを含む出力データを出力することであって、出力データのN50が入力のN50少なくとも2倍である、ことを行うように構成される、システム。
366. 出力データのN50は入力のRN50の少なくとも10倍である、列挙された実施形態365に記載のコンピュータにより実施されるシステム。
367. スキャフォールドは正確な順序と配向の標的ゲノムのサンプル配列の少なくとも90%を含む、列挙された実施形態365に記載のコンピュータにより実施されるシステム。
368. スキャフォールドは正確な順序と配向の標的ゲノムのサンプル配列の少なくとも99%を含む、列挙された実施形態365に記載のコンピュータにより実施されるシステム。
369. 上記リードペアの少なくとも10%は少なくとも1kbによっておよび自然配向に分離された2つの核酸セグメントからの配列データを含む、列挙された実施形態365に記載のコンピュータにより実施されるシステム。
370. プロセッサを含む核酸配列データ処理のコンピュータにより実施されるシステムであって、該プロセッサは、
リードペアを含む前処理されたデータセットを出力することであって、上記リードペアの少なくとも1%が少なくとも1kbによっておよび自然配向に分離した2つの核酸セグメントからの配列データを含み、入力データのRN50がアセンブルしたスキャフォールドの20%以下であり、および、上記出力データのエラー率が0.1%以下である、ことと、
スキャフォールドを含む、処理されたデータセットを受け取ることであって、処理データのN50が前処理されたデータセットのN50の少なくとも2倍である、ことを行うように構成される、システム。
371. 出力データのN50は入力のRN50の少なくとも10倍である、列挙された実施形態370に記載のコンピュータにより実施されるシステム。
372. スキャフォールドは正確な順序と配向の標的ゲノムのサンプル配列の少なくとも90%を含む、列挙された実施形態370に記載のコンピュータにより実施されるシステム。
373. スキャフォールドは正確な順序と配向の標的ゲノムのサンプル配列の少なくとも99%を含む、列挙された実施形態370に記載のコンピュータにより実施されるシステム。
374. 上記リードペアの少なくとも10%は少なくとも1kbによっておよび自然配向に分離された2つの核酸セグメントからの配列データを含む、列挙された実施形態370に記載のコンピュータにより実施されるシステム。
375. 核酸配列データはゲノムに由来する、列挙された実施形態370-374のいずれか1つに記載のコンピュータにより実施されるシステム。
376. 核酸配列データは複数のゲノムに由来する、列挙された実施形態370-374のいずれか1つに記載のコンピュータにより実施されるシステム。
377. 少なくとも1つのペアエンドリードを共有する2つの核酸コンティグを連結する尤度を評価するコンピュータにより実施されるシステムであって、該プロセッサは、
コンティグのセットを受け取ることと、
第1のコンティグに対するマッピングされたショットガンリードの密度を判定し、第2のコンティグに対するマッピングされたショットガンリードの密度を判定し、第1のコンティグと第2のコンティグを連結するために尤度スコアを決定し、および、第1のコンティグに対するマッピングされたショットガンリードの密度が第2のコンティグに対するマッピングされたショットガンリードの密度と大きく異なるときに、尤度スコアを減少させることにより、コンティグの上記セットを処理することと、ならびに、ネットワーク、スクリーン、またはサーバーへのコンティグの処理されたセットを出力することを行うように構成される、システム。
378. 尤度スコアは対数尤度スコアである、列挙された実施形態377に記載のコンピュータにより実施されるシステム。
379. 尤度スコアは本明細書で示される通りに減少する、列挙された実施形態377に記載のコンピュータにより実施されるシステム。
380. 尤度スコアは、第1のコンティグに対するマッピングされたショットガンリードの密度と第2のコンティグに対するマッピングされたショットガンリードの密度の小さい方対大きい方の比率として減少する、列挙された実施形態377に記載のコンピュータにより実施されるシステム。
381. 2つの核酸コンティグは異質的なサンプルに由来する、列挙された実施形態377に記載のコンピュータにより実施されるシステム。
382. 2つの核酸コンティグはメタゲノミクスサンプルに由来する、列挙された実施形態377に記載のコンピュータにより実施されるシステム。
383. 2つの核酸コンティグは別々の個々の生体に由来する、列挙された実施形態377に記載のコンピュータにより実施されるシステム。
384. 2つの核酸コンティグは別々の種に由来する、列挙された実施形態377に記載のコンピュータにより実施されるシステム。
実施例
実施例1:再構築された染色質から生成されたペアリードを用いるゲノム解読
5.5μgの高分子量DNAが、ヒト細胞株GM12878と野生の捕獲されたアメリカアリゲーターの血液から抽出された。高分子量DNAは約150Kbpの断片中で抽出された。染色質は、精製されたヒストンおよび染色質アセンブリ因子をDNAと組み合わせることにより、再構成された。次いで、再構成された染色質をホルムアルデヒドで固定し、配列データライブラリを作製した。図1のAからFは、これらの工程の概略図を示す。
ヒトGM12878サンプルについては、4bp5’オーバーハングを生成する制限酵素MboIおよびMluCI、これらを用いて2つのDNAライブラリが生成された。これらのバーコードが付けられたライブラリはプールされ、ペア100bpリード中のシングルIllumina Hiseq2500レーン上で配列決定され、46M MboIおよび52M MluCIライブラリリードペアを生成した。比較のために、図2に示すように、名目上は40KbpのDNAについて第3のライブラリを調製した。
アメリカアリゲーターゲノム(Alligator mississippiensis)については、我々は単一のMboIライブラリを構築し、シングルレーン上でそれを配列決定し、132Mリードペアを得た。スキャフォールドアセンブリとハプロタイプ位相合わせ用のこれらのデータの有用性を判定するために、我々は、GM12878ライブラリデータを基準のヒト・アセンブリ(hg19)にアライメントした(図2)。生成されたライブラリは、関連していない500Kbpゲノムウィンドウ間におおよそ1つのスプリアスリンクのバックグラウンドノイズ率を有するゲノム上の最大150Kbpの分離の有用な結合情報を提供した(このような結合の平均値は0.97)。GM12878ライブラリからの配列のシングルレーンは、それぞれ0-1、1-5、5-10、10-25、25-50、および50-200Kbpライブラリにおいて3.8倍、8.4倍、8.6倍、18.6倍、13.5倍、6.5倍の物理的カバレッジに等しい結合情報を提供し、一方でアリゲーターについては、図3に示すように、比較可能なカバレッジの推定値は、それぞれ5.4倍、16.7倍、16.7倍、42.2倍、36.1倍、および16.5倍であった。
実施例2:リードペアデータに基づいた核酸スキャフォールディング
ライブラリから抽出されたデータのパワーおよび有用性を判定するために、コンティグアセンブリおよびスキャフォールディングは、一般的な300-500bpインサートIlluminaショットガンライブラリおよび上記のライブラリのみを用いて行った。MERACULOUS[pmid2187654]を33Kbpという典型的なサイズ(N50)のスキャフォールドに用いてGM12878(Chapmanら、2011)から得られた84倍101bpペアエンドIlluminaショットガンデータセットが最初にアセンブルされた。生成されたライブラリから得られたリードペアは、本明細書に記載されている通り、この初期アセンブリに対してマッピングされた。リードペアの68.9%は順方向および逆方向リードの両方が20以上のマップ品質を有するようにマッピングされ、それゆえアセンブリ内で一意にマッピングされているとみなされ、複製物ではなかった。これらのリードペアの26.8%は、異なるコンティグにマッピングされた順方向および逆方向リードを有し、ゆえに、アセンブリをさらにスキャフォールドするために情報を与えられる可能性があった。同じライブラリデータが、ペア250bpリード中の50倍カバレッジのDiscoverアセンブリをスキャフォールドするためにも使用された(Sharpeら、2015)。
尤度モデルは、生成されたライブラリがどのようにゲノムDNAをサンプルするかを記述するために開発され、リードペアに基づきコンティグを切断し再スキャフォールドする“HiRise”と呼ばれるソフトウェアパイプラインは、コンティグと結合する。モデリングには、結果として得られたアセンブリの局所的および全体的スケールでの完全性、近接性および正確性を、2つの主要なWGSアセンブラ:MERACULOUS(Chapmanら、2011)およびALLPATHS-LG(APLG)(Gnerreら、2011)、により作成されたフォスミドエンドペアでの広範なカバレッジを含む、豊富なWGSデータセットのアセンブリに対して比較することが含まれた(表1)。アライメントに基づくアセンブリ品質の比較の構築に関わる任意の選択を回避するために、比較は、二倍体12878NAアセンブリの各ハプロタイプにおいて正確に1度生じるすべての異なる101bp配列の、ランダムに選択されたサブセットである2540万の101bp配列のアセンブルされた位置に基づいていた(Rozowskyら、2011)。
Figure 0007113053000015
表1:スキャフォールディング結果。誤連結部を特定するための3つの異なる閾値での誤連結部を含むスキャフォールドにおける各アセンブリの画分。スキャフォールドN50 50Kbpの分離不一致(separation discrepancy) 95%の信頼区間(Confidence Interval)(95%CI=x平均:アセンブリ内に固有の101-merタグのペアがあると仮定した場合、それらの95%は基準における互いの50Kbpプラスマイナス以内である。)完全性(%C);誤配向101merの画分。
実施例3:長距離スキャフォールディング精度の判定
HiRiseパイプラインが生産したスキャフォールドは、公開されているMERACULOUSおよびAPLGアセンブリよりも長く、かつ全体的な誤アセンブリの率が低く、どちらもペアフォスミドエンドリード中の深いカバレッジに依存する。表1は、誤連結を含むスキャフォールド中に見られる全アセンブリの画分を示し、誤連結は、二倍体基準における1以上の染色体からの少なくとも5Kbp、10Kbpまたは50Kbpの範囲に及ぶ一続きの一意の101-merを有するものとして定義される。また、表1は、NA12878の他のアセンブリと比較された、HiRiseアセンブリの4回の連続的なラウンドの完全性と近接性の尺度も示す。
本明細書で提供される方法によって作製されたリードペアを作製するDNA連結事象は、定義された相対的な鎖のリードペアを生成するように強制されていないので、スキャフォールド中のコンティグの相対的な配向はリード密度情報から推測せねばならない。その結果、HiRise計算を用いて到達したスキャフォールドは、他のアセンブリに見られるよりも誤配向101-merの割合が高く(1.3%)、そのほとんどが小さなコンティグで発生した。誤配向101-merを含むコンティグの中央サイズは2.1Kbpであった。
実施例4:改良されたアリゲーターアセンブリ
本明細書に記載されている新規染色質リモデリング方法を用いてアメリカアリゲーター(Alligator mississippiensis)について構築されたシングルDNA断片ライブラリが生成され、Illumina Hiseq 2500上で2億1070万のリードが配列決定された。リードペアは、公開されているデータ(Greenら、2014)を使用して作製された新規アセンブリ(N50 81Kbp)に対しマッピングされ、HiRiseスキャフォールディングパイプラインを適用された。結果として生じるアセンブリは10.3MbpのスキャフォールドN50を有する。これらのスキャフォールドの精度を評価するために、前もって生成された1,485個の細菌人工染色体(BAC)末端配列(Shedlockら、2007)のあつまりをアセンブリにアライメントさせた。それらのうち1,298のペアが、コンティグアセンブリおよびHiRiseにスキャフォールドされたバージョンに対し90%のカバレッジと95%の同一性を有するGMAP(WuおよびWatanabe、2005)によって一意にアライメントされた。入力アセンブリにおいて、12.5%のBACエンドペアが予期された配向および分離を伴い同スキャフォールドにおいて捕捉された。HiRiseアセンブリにおいては、96.5%のBACエンドペアは同スキャフォールドにおいてアライメントされ、98.1%のBACエンドペアが同じスキャフォールドにあり正しく相対的に配向されている。5つの(0.39%)BACエンドペアは、同じスキャフォールド上に置かれているが、インサートサイズよりも著しく長い距離をとって置かれ、そして、14の(1.08%)BACエンドペアは別々のスキャフォールド上に置かれているが、インサートサイズよりも長く、スキャフォールドのエッジから充分離れた距離をとって置かれたが、これは誤連結部の全体的な密度が8.36Mbpのアセンブリにつき1未満であると示唆している。
実施例5:位相精度の評価
順方向および逆方向リードがヘテロ接合部位をカバーしているリードペアが、ハプロタイプ位相を直接リードするために用いられた。本明細書に記載されている新規染色質リモデリング方法および断片化方法によって生成されたリードペア中でカバーされている距離は、インプットDNAのサイズと同程度である可能性があるため、GM12878サンプルにおけるハプロタイプの位相を判定するための位相情報およびその有用性が評価された。GM12878はトリオシーケンシングされた個体由来であるため、信頼できるハプロタイプ位相情報を用いて位相合わせ情報の精度を評価した。ハプロタイプ情報を与えた、10Kbpと150Kbpの間の範囲内のリードペアは、GM12878についての既知のハプロタイプ位相と99.83%一致した。
実施例6:構造変異体の特定
基準に対し1つの個体からペア配列リードをマッピングすることは、連続した核酸またはゲノム構造における相違、例えば、逆位、欠失および重複を特定するための最も一般的に使用される配列に基づく方法である(Tuzunら、2005)。図4Aおよび4Bは、ヒト基準ゲノムGRCh38にマッピングされたGM12878由来の再アセンブリされた染色質から得られたDNAの近接連結によって生成されたリードペアが、そのような2つの構造差をどのようにして明らかにするかを示す。構造差を特定するためのリードペアデータの感度および特異性を算定するために、ヘテロ接合性逆位の効果をシミュレートするように構築された模擬データセット上の最大尤度識別器がテストされた。テストデータは、GRCh38基準配列に生成されたNA12878リードのマッピングから定義された長さLの区間をランダムに選択し、生成された各リードペアを独立してランダムに逆位または基準ハプロタイプに割り当て、それに応じてマッピングされた座標を編集することによって構築された。非対立遺伝子相同組換えが、ヒトゲノムで観察される構造変異体の大部分の要因であり、結果として、多くの変異体切断点が繰返された配列の長いブロックにおいて生じる(Kiddら、2008)。逆位切断点を囲む繰返しの配列の長さの変化の影響は、それらの距離Wの範囲内でマッピングされたすべてのリードを除去することによってシミュレートされた。逆位切断点に繰返しの配列が存在しない場合、それぞれ1Kbp、2Kbpおよび5Kbpの逆位について、感度(特異性)はそれぞれ0.76(0.88)、0.89(0.89)および0.97(0.94)であった。逆位切断点での繰返しの(マッピングできない)配列の1Kbpの領域をシミュレーションに使用した時、5Kbp逆位に対する感度(特異性)は0.81(0.76)であった。
実施例7:DNA調製
DNAは、製造業者のインストラクションに従いQiagen BloodおよびCell Midi kitsにより抽出された。要するに、細胞を溶解し、遠心分離して核を単離した。核は、さらに、プロテイナーゼKとRNAse Aを組み合わせたものにより消化された。DNAはQiagen genomic columnに結合され、洗浄され、溶出され、イソプロパノール中で沈殿され、遠心分離によってペレット化された。乾燥の後、ペレットは、200μLのTE(Qiagen)中に再懸濁された。
実施例8:染色質アセンブリ
染色質は、Active Motif in vitro Chromatin Assembly kitを用いて、一晩中27度でゲノムDNAからアセンブルされた。インキュベーション後、サンプルの10%をMNase消化に用いて、染色質アセンブリの成功を確認した。
実施例9:ビオチン化および制限消化
染色質をヨードアセチル-PEG-2-ビオチン(IPB)でビオチン化した。ビオチン化に続いて、染色質を1%ホルムアルデヒド中において室温(RT)で15分間固定し、続いて2.5Mグリシンの2倍モル過剰量でクエンチした。Slide-A-Lyzer 20KDa MWCO dialysis cassettee(Pierce)中で、1Lの透析バッファー(10mm Tris-Cl、pH8.0、1mM EDTA)に対して、染色質を、4度で最低3時間透析することにより、過剰IPBおよび架橋したグリシンを除去した。続いて、染色質を37度で4時間、1倍のCutSmart中のMboIまたはMluCIのいずれかで消化した。染色質を、50 KDa MWCOdialysis Flex tube(IBI Scientific#IB48262)中で、4度で2時間、再度透析した後、新鮮なバッファーで一晩中再度透析して、酵素および短い遊離DNA断片を除去した。
PBS+0.1% Tween-20中で洗浄および再懸濁した後、染色質に添加し、室温で1時間インキュベートすることによって、Dynabead MyOne C1ストレプトアビジンビーズが調製された。次いで、ビーズを磁気濃縮器ラック上で濃縮し、その後、洗浄し、再濃縮し、100μLの1倍NEBuffer 2の中で再懸濁した。
実施例10:dNTP充填
充填反応中に標識化されたdNTP(図1のAからF)を捕捉させないために、遊離ビオチンの存在下にて15分間室温でビーズをインキュベートすることにより、非結合ストレプトアビジン部位が占められた。続いて、ビーズを2回洗浄した後、100μLの1X NEBuffer の中で再懸濁した。全容量165μl中25UのKlenow(#M0210M、NEB)とともにa-S-dGTPおよびビオチン化dCTPを含むdNTPによって25度で40分間インキュベートすることにより、粘着末端が充填された。充填反応は7μLの0.5M EDTAを加えることにより止まった。次いで、ビーズを連結前ウォッシュバッファー(PLWB:50mM Tris7.4; 0.4% Triton X-100; 0.1mM EDTA)の中で2回洗浄した後、100μLのPLWBの中で再懸濁した。
実施例11:連結
連結は、少なくとも1mLのT4連結バッファー中、16℃で少なくとも4時間行われた。異なる染色質凝集体間の交差連結を最小にするために、大量の連結が使用された。連結反応は40μLの0.5M EDTAを加えることにより止められた。ビーズは濃縮され、100μLの抽出バッファー(50mM Tris-Cl pH8.0、 1mM EDTA、0.2%SDS)の中で再懸濁された。400ugのプロテイナーゼK(#P8102S、NEB)を添加した後、ビーズを55度で一晩インキュベートし、続いて55度で追加の200μgのプロテイナーゼKで2時間消化した。DNAは、2:1の比のSPRIビーズ、カラム精製キット、またはフェノール:クロロホルム抽出のいずれかを用いて、再び回収された。DNAは、低TE(10mM Tris-Cl pH8.0、 0.5mM EDTA)へ溶出された。
実施例12:エキソヌクレアーゼ消化
次に、DNAを、40分間37度で100UのエキソヌクレアーゼIII(#M0206S、NEB)を用いて消化し、ビオチン化した遊離末端を除去して、続いてSPRIクリーンアップおよび101μLの低TEへの溶出を行った。
実施例13:せん断およびライブラリ調製
DNAは、30秒間オン/30秒間オフの60回のサイクルの間、「低」に設定されたDiagenode Bioruptorを用いてせん断された。せん断の後、DNAはKlenowポリメラーゼとT4 PNK(#EK0032 Thermo Scientific)で20度で30分間充填された。充填反応後、DNAは、200μLの2倍NTB(2M NaCl、10mM Tris pH8.0、0.1mM EDTApH8.0、0.2% Triton X-100)の中で再懸濁させる前にTween ウォッシュバッファーで2回洗浄することによって調製されたC1ビーズ上にプルダウンされた。一旦サンプルを加えたら、ビーズはロッキングしながら室温で20分間インキュベートされた。続いて、ビオチン化されていないDNA断片を、低TE中に再懸濁させる前にビーズを3回洗浄することにより除去した。配列決定ライブラリは確立されたプロトコルを用いて生成された。(MeyerおよびKircher、2010)
実施例14:リードマッピング
接合部が存在する場合は常に配列リードは切り詰められた。(MboIについては、SEQ ID NO.1:GATCGATC、MluCIについては、SEQ ID NO.2:AATTAATT)その後、リードは、独立して順方向および逆方向リードをアライメントするための-xオプションを含むSMALT[http://www.sanger.ac.uk/resources/software/smalt/]を用いて、アライメントされた。PCR複製物は、Picard-tools MarkDuplicates[http://broadinstitute.github.io/picard/]を用いてマークされた。両方のリードがマッピングされ、マッピング品質が10より大きい場合は、非重複リードペアを分析に使用した。
実施例15:新規アセンブリ
ヒトおよびアリゲーターの新規ショットガンアセンブリは、公開されているショートインサートおよびメイトペアリード(SimpsonおよびDubrin、2012; Greenら、2014)を用いて、Meraculous2.0.3(Chapmanら、2011)により生成された。アリゲーターメイトペアリードはTrimmomatic(Bolgerら、2014)でアダプタートリミングされた。いくつかの重複するアリゲーターショートインサートリードは“融合”された。これらは、順方向および逆方向リードへと戻された(unmerged back)。

Claims (20)

  1. コンピュータにより実施される核酸配列データアセンブリのための方法であって、該方法は、
    (a)ペアエンドリードのセットを得る工程、
    (b)標準的なペアエンドリード距離度数データを得る工程、
    (c)グループ分けされた、コンティグペアを得る工程、
    (d)コンティグを分離するためにマッピングされるリードペアのリードペア距離度数データが、前記標準的なペアエンドリード距離度数データを近似するように、グループ化されたコンティグ配列をスキャフォールドし、それによって、核酸の核酸配列データをアセンブリしてなる、コンピュータにより実施される方法。
  2. コンティグを分離するためにマッピングされるリードペアのリードペア距離度数データは、リードペア距離尤度が増大するときにペアエンドリード距離度数データにより近く近似する、請求項1に記載のコンピュータにより実施される方法。
  3. リードペア距離尤度は最大化される、請求項2に記載の、コンピュータにより実施される方法。
  4. コンティグを分離するためにマッピングされるリードペアのリードペア距離度数データは、リードペアの距離度数データと標準的なペアエンドリード距離度数データとの間の差の統計的尺度が減少する際に、ペアエンドリード距離度数データにより近く近似する、請求項1に記載の、コンピュータにより実施される方法。
  5. リードペア距離度数データと標準的なペアエンドリード距離度数データとの間の距離の統計的尺度は、ANOVA、t検定、およびX2乗検定の少なくとも1つを含む、請求項4に記載の、コンピュータにより実施される方法。
  6. コンティグを分離するためにマッピングされるリードペアのリードペア距離は、標準的なペアエンドリード距離度数と比較して得られた順序付けされたコンティグ中のリードペア距離分布の偏差が減少するときに-、ペアエンドリード距離度数データとより近く一致する、請求項5に記載の、コンピュータにより実施される方法。
  7. 標準的なペアエンドリード距離度数と比較して得られた順序付けされたコンティグ中のリードペア距離分布の偏差は最小限に抑えられる、請求項6に記載の、コンピュータにより実施される方法。
  8. グループ分けされた、コンティグペアを得る工程が、生物学的なサンプルからDNAを抽出する工程と、当該DNAを配列する工程を含んでなる請求項1に記載の、コンピュータにより実施される方法。
  9. ペアエンドリードのセットを得る工程が、核酸内で内部二本鎖切断を生じさせるためにサンプルDNAを消化し、複数の再連結接合部を形成するために二本鎖切断を再連結し、および複数の再連結接合部にわたって配列決定すること、を含んでなる請求項1に記載の、コンピュータにより実施される方法。
  10. 前記サンプルDNAは少なくとも1つのDNA結合剤に架橋される、請求項9に記載の、コンピュータにより実施される方法。
  11. 前記サンプルDNAは分離された裸のDNAである、請求項9に記載の、コンピュータにより実施される方法。
  12. 前記分離されたDNAは再構成された染色質へ再度アセンブルされる、請求項11に記載の、コンピュータにより実施される方法。
  13. 再構成された染色質は架橋される、請求項12に記載の、コンピュータにより実施される方法。
  14. 標準的なペアエンドリード距離度数データが、両方のリードが共通のコンティグに対してマッピングされるペアエンドリードから得られる請求項1に記載の、コンピュータにより実施される方法。
  15. 標準的なペアエンドリード距離度数データが、以前に生成された曲線から得られる請求項1に記載の、コンピュータにより実施される方法。
  16. 前記スキャフォールドすることが、グループ化されたコンティグの推定上の隣接するコンティグの第1のセットを選択すること、前記リードペアに関してリードペアの距離の統計的尺度を減少させる推定上の隣接するコンティグの前記第1のセットの最小限の距離順序を判定すること、およびこと、を含んでなる請求項1に記載の、コンピュータにより実施される方法。
  17. 最小限の距離順序を判定することが、全ての起こり得るコンティグ構成に関して前記セットの2つのコンティグに対しマッピングされるリードを含む、少なくとも1つのリードペアに関する予期されるリードペアの距離を比較することを含む請求項16に記載の、コンピュータにより実施される方法。
  18. 最大尤度のリードペア距離分布に対応するコンティグの配向を選択することを含む請求項17に記載の、コンピュータにより実施される方法。
  19. 前記核酸配列データがゲノムに由来する請求項1に記載の、コンピュータにより実施される方法。
  20. 前記核酸配列データが複数のゲノムを含む異質のサンプルに由来する請求項1に記載の、コンピュータにより実施される方法。
JP2020168530A 2015-02-17 2020-10-05 核酸配列アセンブリ Active JP7113053B2 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201562117256P 2015-02-17 2015-02-17
US62/117,256 2015-02-17
US201662294208P 2016-02-11 2016-02-11
US62/294,208 2016-02-11

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2017561612A Division JP6777966B2 (ja) 2015-02-17 2016-02-17 核酸配列アセンブリ

Publications (2)

Publication Number Publication Date
JP2021007039A JP2021007039A (ja) 2021-01-21
JP7113053B2 true JP7113053B2 (ja) 2022-08-04

Family

ID=55587335

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2017561612A Active JP6777966B2 (ja) 2015-02-17 2016-02-17 核酸配列アセンブリ
JP2020168530A Active JP7113053B2 (ja) 2015-02-17 2020-10-05 核酸配列アセンブリ

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2017561612A Active JP6777966B2 (ja) 2015-02-17 2016-02-17 核酸配列アセンブリ

Country Status (11)

Country Link
US (4) US9715573B2 (ja)
EP (2) EP4030437A1 (ja)
JP (2) JP6777966B2 (ja)
KR (1) KR20170134379A (ja)
CN (1) CN107533590B (ja)
AU (1) AU2016220135B2 (ja)
CA (1) CA2976902A1 (ja)
IL (1) IL254000B (ja)
NZ (1) NZ734854A (ja)
SG (2) SG10202000731WA (ja)
WO (1) WO2016134034A1 (ja)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2956925C (en) * 2014-08-01 2024-02-13 Dovetail Genomics, Llc Tagging nucleic acids for sequence assembly
SG10202000731WA (en) 2015-02-17 2020-03-30 Dovetail Genomics Llc Nucleic acid sequence assembly
WO2016154540A1 (en) 2015-03-26 2016-09-29 Dovetail Genomics Llc Physical linkage preservation in dna storage
AU2016341198B2 (en) 2015-10-19 2023-03-09 Dovetail Genomics, Llc Methods for genome assembly, haplotype phasing, and target independent nucleic acid detection
CA3014911A1 (en) 2016-02-23 2017-08-31 Dovetail Genomics, Llc Generation of phased read-sets for genome assembly and haplotype phasing
AU2017263810B2 (en) 2016-05-13 2023-08-17 Dovetail Genomics Llc Recovering long-range linkage information from preserved samples
JP7140754B2 (ja) * 2016-09-02 2022-09-21 ルートヴィヒ インスティテュート フォー キャンサー リサーチ リミテッド クロマチン相互作用のゲノムワイドな同定
JP7297774B2 (ja) * 2017-11-09 2023-06-26 ダブテイル ゲノミクス エルエルシー 構造変異の分析
WO2019147921A1 (en) 2018-01-26 2019-08-01 Nantcell, Inc. Rapid verification of virus particle production for a personalized vaccine
US20210046177A1 (en) 2018-01-26 2021-02-18 Nantcell, Inc. Compositions and methods for combination cancer vaccine and immunologic adjuvant therapy
CA3090102A1 (en) 2018-01-31 2019-08-08 Dovetail Genomics, Llc Sample prep for dna linkage recovery
CN108460248B (zh) * 2018-03-08 2022-02-22 北京希望组生物科技有限公司 一种基于Bionano平台检测长串联重复序列的方法
CN108897986B (zh) * 2018-05-29 2020-11-27 中南大学 一种基于蛋白质信息的基因组序列拼接方法
WO2020023882A1 (en) * 2018-07-27 2020-01-30 Myriad Women's Health, Inc. Method for detecting genetic variation in highly homologous sequences by independent alignment and pairing of sequence reads
JP2021536612A (ja) * 2018-08-31 2021-12-27 ガーダント ヘルス, インコーポレイテッド マージされたリードおよびマージされないリードに基づいた遺伝的変異体の検出
CN109273052B (zh) * 2018-09-13 2022-03-18 北京百迈客生物科技有限公司 一种基因组单倍体组装方法及装置
EP3915118A1 (en) * 2019-01-25 2021-12-01 Pacific Biosciences Of California, Inc. Systems and methods for graph based mapping of nucleic acid fragments
WO2021163637A1 (en) 2020-02-13 2021-08-19 Zymergen Inc. Metagenomic library and natural product discovery platform

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110288845A1 (en) 2008-12-12 2011-11-24 Peixiang Ni Construction method and system of fragments assembling scaffold, and genome sequencing device
JP2012514977A (ja) 2009-01-13 2012-07-05 キージーン・エン・フェー 新規ゲノム配列決定戦略

Family Cites Families (142)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NL154598B (nl) 1970-11-10 1977-09-15 Organon Nv Werkwijze voor het aantonen en bepalen van laagmoleculire verbindingen en van eiwitten die deze verbindingen specifiek kunnen binden, alsmede testverpakking.
US3817837A (en) 1971-05-14 1974-06-18 Syva Corp Enzyme amplification assay
US3939350A (en) 1974-04-29 1976-02-17 Board Of Trustees Of The Leland Stanford Junior University Fluorescent immunoassay employing total reflection for activation
US3996345A (en) 1974-08-12 1976-12-07 Syva Company Fluorescence quenching with immunological pairs in immunoassays
US4277437A (en) 1978-04-05 1981-07-07 Syva Company Kit for carrying out chemically induced fluorescence immunoassay
US4275149A (en) 1978-11-24 1981-06-23 Syva Company Macromolecular environment control in specific receptor assays
US4366241A (en) 1980-08-07 1982-12-28 Syva Company Concentrating zone method in heterogeneous immunoassays
US5242794A (en) 1984-12-13 1993-09-07 Applied Biosystems, Inc. Detection of specific sequences in nucleic acids
US4988617A (en) 1988-03-25 1991-01-29 California Institute Of Technology Method of detecting a nucleotide change in nucleic acids
US5234809A (en) 1989-03-23 1993-08-10 Akzo N.V. Process for isolating nucleic acid
US5143854A (en) 1989-06-07 1992-09-01 Affymax Technologies N.V. Large scale photolithographic solid phase synthesis of polypeptides and receptor binding screening thereof
US5494810A (en) 1990-05-03 1996-02-27 Cornell Research Foundation, Inc. Thermostable ligase-mediated DNA amplifications system for the detection of genetic disease
AU663300B2 (en) 1990-12-06 1995-10-05 Affymetrix, Inc. Very large scale immobilized polymer synthesis
US5994056A (en) 1991-05-02 1999-11-30 Roche Molecular Systems, Inc. Homogeneous methods for nucleic acid amplification and detection
ATE262374T1 (de) 1991-11-22 2004-04-15 Affymetrix Inc Kombinatorische strategien für polymersynthese
US6033854A (en) 1991-12-16 2000-03-07 Biotronics Corporation Quantitative PCR using blocking oligonucleotides
US5348853A (en) 1991-12-16 1994-09-20 Biotronics Corporation Method for reducing non-specific priming in DNA amplification
US5567583A (en) 1991-12-16 1996-10-22 Biotronics Corporation Methods for reducing non-specific priming in DNA detection
DE69433010T2 (de) 1993-04-12 2004-06-09 Northwestern University, Evanston Verfahren zur darstellung von oligonukleotiden
US5837832A (en) 1993-06-25 1998-11-17 Affymetrix, Inc. Arrays of nucleic acid probes on biological chips
AU8126694A (en) 1993-10-26 1995-05-22 Affymax Technologies N.V. Arrays of nucleic acid probes on biological chips
US6110709A (en) 1994-03-18 2000-08-29 The General Hospital Corporation Cleaved amplified modified polymorphic sequence detection methods
US5571639A (en) 1994-05-24 1996-11-05 Affymax Technologies N.V. Computer-aided engineering system for design of sequence arrays and lithographic masks
US5705628A (en) 1994-09-20 1998-01-06 Whitehead Institute For Biomedical Research DNA purification and isolation using magnetic particles
US5795716A (en) 1994-10-21 1998-08-18 Chee; Mark S. Computer-aided visualization and analysis system for sequence evaluation
US5599695A (en) 1995-02-27 1997-02-04 Affymetrix, Inc. Printing molecular library arrays using deprotection agents solely in the vapor phase
US5780613A (en) 1995-08-01 1998-07-14 Northwestern University Covalent lock for self-assembled oligonucleotide constructs
AU2189397A (en) 1996-02-08 1997-08-28 Affymetrix, Inc. Chip-based speciation and phenotypic characterization of microorganisms
US5786146A (en) 1996-06-03 1998-07-28 The Johns Hopkins University School Of Medicine Method of detection of methylated nucleic acid using agents which modify unmethylated cytosine and distinguishing modified methylated and non-methylated nucleic acids
DE69733282T2 (de) 1996-06-04 2006-01-19 University Of Utah Research Foundation, Salt Lake City Überwachung der Hybridisierung während PCR
US6117635A (en) 1996-07-16 2000-09-12 Intergen Company Nucleic acid amplification oligonucleotides with molecular energy transfer labels and methods based thereon
US6449562B1 (en) 1996-10-10 2002-09-10 Luminex Corporation Multiplexed analysis of clinical specimens apparatus and method
WO1998041651A1 (en) 1997-03-18 1998-09-24 Hsc Research & Development Limited Partnership Method for preparing chromatin
US6969488B2 (en) 1998-05-22 2005-11-29 Solexa, Inc. System and apparatus for sequential processing of analytes
ES2320604T3 (es) 1997-10-28 2009-05-25 Los Alamos National Security, Llc Identificacion de polimorfismos del adn mediante la utilizacion de citometria de flujo.
US5989823A (en) 1998-09-18 1999-11-23 Nexstar Pharmaceuticals, Inc. Homogeneous detection of a target through nucleic acid ligand-ligand beacon interaction
GB9812768D0 (en) 1998-06-13 1998-08-12 Zeneca Ltd Methods
US20030022207A1 (en) 1998-10-16 2003-01-30 Solexa, Ltd. Arrayed polynucleotides and their use in genome analysis
US6787308B2 (en) 1998-07-30 2004-09-07 Solexa Ltd. Arrayed biomolecules and their use in sequencing
US20040106110A1 (en) 1998-07-30 2004-06-03 Solexa, Ltd. Preparation of polynucleotide arrays
JP2002524091A (ja) 1998-08-21 2002-08-06 ナックスコー・インコーポレイテッド 架橋可能な固定化核酸を用いるアッセイ
WO2000032823A1 (en) 1998-12-02 2000-06-08 Phylos, Inc. Dna-protein fusions and uses thereof
US8367322B2 (en) 1999-01-06 2013-02-05 Cornell Research Foundation, Inc. Accelerating identification of single nucleotide polymorphisms and alignment of clones in genomic sequencing
US6994969B1 (en) 1999-04-30 2006-02-07 Methexis Genomics, N.V. Diagnostic sequencing by a combination of specific cleavage and mass spectrometry
US7056661B2 (en) 1999-05-19 2006-06-06 Cornell Research Foundation, Inc. Method for sequencing nucleic acid molecules
US6225109B1 (en) 1999-05-27 2001-05-01 Orchid Biosciences, Inc. Genetic analysis device
US7211390B2 (en) 1999-09-16 2007-05-01 454 Life Sciences Corporation Method of sequencing a nucleic acid
US7244559B2 (en) 1999-09-16 2007-07-17 454 Life Sciences Corporation Method of sequencing a nucleic acid
EP1218543A2 (en) 1999-09-29 2002-07-03 Solexa Ltd. Polynucleotide sequencing
US6582938B1 (en) 2001-05-11 2003-06-24 Affymetrix, Inc. Amplification of nucleic acids
GB0002389D0 (en) 2000-02-02 2000-03-22 Solexa Ltd Molecular arrays
US6448717B1 (en) 2000-07-17 2002-09-10 Micron Technology, Inc. Method and apparatuses for providing uniform electron beams from field emission displays
WO2002027029A2 (en) 2000-09-27 2002-04-04 Lynx Therapeutics, Inc. Method for determining relative abundance of nucleic acid sequences
US7001724B1 (en) 2000-11-28 2006-02-21 Applera Corporation Compositions, methods, and kits for isolating nucleic acids using surfactants and proteases
WO2002079502A1 (en) 2001-03-28 2002-10-10 The University Of Queensland A method for nucleic acid sequence analysis
DE10120797B4 (de) 2001-04-27 2005-12-22 Genovoxx Gmbh Verfahren zur Analyse von Nukleinsäureketten
GB0114853D0 (en) 2001-06-18 2001-08-08 Medical Res Council Happier Mapping
DE10239504A1 (de) 2001-08-29 2003-04-24 Genovoxx Gmbh Verfahren zur Analyse von Nukleinsäurekettensequenzen und der Genexpression
US20050227231A1 (en) 2001-10-04 2005-10-13 Dimitri Tcherkassov Device for sequencing nucleic acid molecules
US6902921B2 (en) 2001-10-30 2005-06-07 454 Corporation Sulfurylase-luciferase fusion proteins and thermostable sulfurylase
US20050124022A1 (en) 2001-10-30 2005-06-09 Maithreyan Srinivasan Novel sulfurylase-luciferase fusion proteins and thermostable sulfurylase
WO2003042657A2 (en) 2001-11-09 2003-05-22 Aclara Biosciences Inc. Detection of nucleic acid sequences by cleavage and separation of tag-containing structures
JP2005519306A (ja) 2002-03-08 2005-06-30 ザ・バブラハム・インスティテュート 標的分子と関係するエレメントの標識化及び回収
US20030228627A1 (en) 2002-03-22 2003-12-11 Emerson Beverly M. Assay for p53 function in cells
AU2003243700B2 (en) 2002-06-28 2009-04-30 Qiagen Mansfield, Inc. Methods of detecting sequence differences
US7563600B2 (en) 2002-09-12 2009-07-21 Combimatrix Corporation Microarray synthesis and assembly of gene-length polynucleotides
US7414117B2 (en) 2002-12-26 2008-08-19 Ngk Insulators, Ltd. Nucleotide derivative and DNA microarray
WO2004070007A2 (en) 2003-01-29 2004-08-19 454 Corporation Method for preparing single-stranded dna libraries
US20040197779A1 (en) 2003-04-03 2004-10-07 Apffel James Alexander Methods for analyzing mixtures of proteins
US8741577B2 (en) 2003-04-07 2014-06-03 Bio-Rad Laboratories Inc. Surface immobilised multilayer structure of vesicles
FI20030778A0 (fi) 2003-05-22 2003-05-22 Licentia Oy Taudin määrittäminen tai ennustaminen
US20070111204A1 (en) 2003-06-27 2007-05-17 Kathleen Delgrosso Methods for detecting nucleic acid variations
PT1639122E (pt) 2003-07-02 2009-04-09 Dsm Ip Assets Bv Sistema de teste aperfeiçoado para determinar a presença de um antibiótico num fluido
GB0316075D0 (en) 2003-07-09 2003-08-13 Molecular Sensing Plc Protease detection assay
EP1725572B1 (de) 2003-11-05 2017-05-31 AGCT GmbH Makromolekulare nukleotidverbindungen und methoden zu deren anwendung
US7169560B2 (en) 2003-11-12 2007-01-30 Helicos Biosciences Corporation Short cycle methods for sequencing polynucleotides
US20050260625A1 (en) 2004-02-28 2005-11-24 Wang Chang-Ning J Process and system for crosslinking polynucleotide molecules
US20060024711A1 (en) 2004-07-02 2006-02-02 Helicos Biosciences Corporation Methods for nucleic acid amplification and sequence determination
US7361468B2 (en) 2004-07-02 2008-04-22 Affymetrix, Inc. Methods for genotyping polymorphisms in humans
US20060012793A1 (en) 2004-07-19 2006-01-19 Helicos Biosciences Corporation Apparatus and methods for analyzing samples
US7276720B2 (en) 2004-07-19 2007-10-02 Helicos Biosciences Corporation Apparatus and methods for analyzing samples
US20060024678A1 (en) 2004-07-28 2006-02-02 Helicos Biosciences Corporation Use of single-stranded nucleic acid binding proteins in sequencing
GB0422730D0 (en) 2004-10-13 2004-11-17 Lingvitae As Method
US7425415B2 (en) 2005-04-06 2008-09-16 City Of Hope Method for detecting methylated CpG islands
JP2006301289A (ja) 2005-04-20 2006-11-02 Tokyo Ohka Kogyo Co Ltd ネガ型レジスト組成物およびレジストパターン形成方法
US20090233291A1 (en) 2005-06-06 2009-09-17 454 Life Sciences Corporation Paired end sequencing
WO2006138257A2 (en) 2005-06-15 2006-12-28 Callida Genomics, Inc. Single molecule arrays for genetic and chemical analysis
WO2007004057A2 (en) 2005-07-04 2007-01-11 Erasmus University Medical Center Chromosome conformation capture-on-chip (4c) assay
US20110027890A1 (en) 2005-12-26 2011-02-03 Kuraray Co., Ltd. Material for cell culture
US20070172839A1 (en) 2006-01-24 2007-07-26 Smith Douglas R Asymmetrical adapters and methods of use thereof
GB0603251D0 (en) 2006-02-17 2006-03-29 Isis Innovation DNA conformation
US8071296B2 (en) 2006-03-13 2011-12-06 Agency For Science, Technology And Research Nucleic acid interaction analysis
WO2007136874A2 (en) 2006-05-18 2007-11-29 President And Fellows Of Harvard College Genomic library construction
EP2057282A4 (en) 2006-08-24 2010-10-27 Univ Massachusetts Medical MAPPING GENOMIC INTERACTIONS
MX2009003687A (es) 2006-10-04 2009-08-25 Brookhaven Science Ass Llc Conjuntos de nanoparticulas guiados por adn.
US8278112B2 (en) 2006-12-21 2012-10-02 The Regents Of The University Of California Site-specific installation of methyl-lysine analogues into recombinant histones
WO2008084405A2 (en) 2007-01-11 2008-07-17 Erasmus University Medical Center Circular chromosome conformation capture (4c)
US20100093986A1 (en) 2007-02-02 2010-04-15 Zwick Michael E Methods of direct genomic selection using high density oligonucleotide microarrays
US7906287B2 (en) 2007-05-14 2011-03-15 Insight Genetics, Inc. Methods of screening nucleic acids for single nucleotide variations
WO2009052214A2 (en) 2007-10-15 2009-04-23 Complete Genomics, Inc. Sequence analysis using decorated nucleic acids
EP2053132A1 (en) 2007-10-23 2009-04-29 Roche Diagnostics GmbH Enrichment and sequence analysis of geomic regions
US8592150B2 (en) 2007-12-05 2013-11-26 Complete Genomics, Inc. Methods and compositions for long fragment read sequencing
US8263367B2 (en) 2008-01-25 2012-09-11 Agency For Science, Technology And Research Nucleic acid interaction analysis
WO2009132315A1 (en) 2008-04-24 2009-10-29 Life Technologies Corporation Method of sequencing and mapping target nucleic acids
US20090298064A1 (en) 2008-05-29 2009-12-03 Serafim Batzoglou Genomic Sequencing
GB0810051D0 (en) 2008-06-02 2008-07-09 Oxford Biodynamics Ltd Method of diagnosis
US8076070B2 (en) 2008-08-06 2011-12-13 University Of Southern California Genome-wide chromosome conformation capture
WO2010036323A1 (en) 2008-09-25 2010-04-01 University Of Massachusetts Medical School Method of identifing interactions between genomic loci
WO2010059731A2 (en) 2008-11-18 2010-05-27 Bionanomatrix, Inc. Polynucleotide mapping and sequencing
EP2393940B1 (en) 2009-02-03 2014-12-17 New England Biolabs, Inc. Generation of random double-strand breaks in dna using enzymes
US9524369B2 (en) 2009-06-15 2016-12-20 Complete Genomics, Inc. Processing and analysis of complex nucleic acid sequence data
WO2011032040A1 (en) 2009-09-10 2011-03-17 Centrillion Technology Holding Corporation Methods of targeted sequencing
WO2011056872A2 (en) 2009-11-03 2011-05-12 Gen9, Inc. Methods and microfluidic devices for the manipulation of droplets in high fidelity polynucleotide assembly
US20110287947A1 (en) 2010-05-18 2011-11-24 University Of Southern California Tethered Conformation Capture
CA2804450C (en) 2010-07-09 2022-10-11 Max Jan van Min 3-d genomic region of interest sequencing strategies
WO2012047726A1 (en) 2010-09-29 2012-04-12 The Broad Institute, Inc. Methods for chromatin immuno-precipitations
EP2622103B2 (en) 2010-09-30 2022-11-16 Bio-Rad Laboratories, Inc. Sandwich assays in droplets
US20120197533A1 (en) * 2010-10-11 2012-08-02 Complete Genomics, Inc. Identifying rearrangements in a sequenced genome
EP4328321A2 (en) 2010-10-22 2024-02-28 Cold Spring Harbor Laboratory Varietal counting of nucleic acids for obtaining genomic copy number information
WO2012103442A2 (en) 2011-01-28 2012-08-02 The Broad Institute, Inc. Paired end bead amplification and high throughput sequencing
CN103443338B (zh) 2011-02-02 2017-09-22 华盛顿大学商业化中心 大规模平行邻接作图
AU2012242525B2 (en) 2011-04-14 2015-09-17 Complete Genomics, Inc. Processing and analysis of complex nucleic acid sequence data
EP2705156B1 (en) 2011-05-05 2015-08-26 Institut National de la Santé et de la Recherche Médicale (INSERM) Linear dna amplification
EP2710146A2 (en) 2011-05-18 2014-03-26 Life Technologies Corporation Chromosome conformation analysis
US9074204B2 (en) 2011-05-20 2015-07-07 Fluidigm Corporation Nucleic acid encoding reactions
WO2012177774A2 (en) 2011-06-21 2012-12-27 Life Technologies Corporation Systems and methods for hybrid assembly of nucleic acid sequences
US20140136121A1 (en) * 2011-07-05 2014-05-15 Bgi Tech Solutions Co., Ltd. Method for assembling sequenced segments
WO2013078470A2 (en) 2011-11-22 2013-05-30 MOTIF, Active Multiplex isolation of protein-associated nucleic acids
US10081807B2 (en) 2012-04-24 2018-09-25 Gen9, Inc. Methods for sorting nucleic acids and multiplexed preparative in vitro cloning
KR101974577B1 (ko) 2012-05-21 2019-05-02 삼성전자주식회사 나노입자 제작용 주형 및 이를 이용한 나노입자의 제조 방법
NZ739931A (en) 2012-07-13 2019-08-30 X Chem Inc Dna-encoded libraries having encoding oligonucleotide linkages not readable by polymerases
EP2898096B1 (en) 2012-09-21 2024-02-14 The Broad Institute, Inc. Methods for labeling of rnas
US9411930B2 (en) * 2013-02-01 2016-08-09 The Regents Of The University Of California Methods for genome assembly and haplotype phasing
JP6466855B2 (ja) 2013-02-01 2019-02-06 ザ リージェンツ オブ ザ ユニバーシティ オブ カリフォルニア ゲノムアセンブリ及びハプロタイプフェージングの方法
EP3540074A1 (en) 2013-12-11 2019-09-18 The Regents of the University of California Method of tagging internal regions of nucleic acid molecules
CA2956925C (en) 2014-08-01 2024-02-13 Dovetail Genomics, Llc Tagging nucleic acids for sequence assembly
US20170283860A1 (en) 2014-09-16 2017-10-05 The Board Of Trustees Of The Leland Stanford Junio University Methods and compositions for the removal of aldehyde adducts and crosslinks from biomolecules
CA2964799A1 (en) 2014-10-17 2016-04-21 Illumina Cambridge Limited Contiguity preserving transposition
SG10202000731WA (en) * 2015-02-17 2020-03-30 Dovetail Genomics Llc Nucleic acid sequence assembly
WO2016154540A1 (en) 2015-03-26 2016-09-29 Dovetail Genomics Llc Physical linkage preservation in dna storage
WO2016207647A1 (en) 2015-06-24 2016-12-29 Oxford Biodynamics Limited Epigenetic chromosome interactions
AU2016341198B2 (en) 2015-10-19 2023-03-09 Dovetail Genomics, Llc Methods for genome assembly, haplotype phasing, and target independent nucleic acid detection

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110288845A1 (en) 2008-12-12 2011-11-24 Peixiang Ni Construction method and system of fragments assembling scaffold, and genome sequencing device
JP2012511753A (ja) 2008-12-12 2012-05-24 シェンチェン ホワダ ジーン インスティテュート 断片アセンブリングスキャフォールドの構築方法及びシステム、並びにゲノム配列決定装置
JP2012514977A (ja) 2009-01-13 2012-07-05 キージーン・エン・フェー 新規ゲノム配列決定戦略

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
吉川 舜亮,"Sparse k-mer graphアルゴリズムの評価とVelvetへの実装",電子情報通信学会技術研究報告,日本,一般社団法人電子情報通信学会,2013年06月20日,第113巻第111号,p.1-7,ISSN:0913-5685

Also Published As

Publication number Publication date
EP3259696A1 (en) 2017-12-27
AU2016220135B2 (en) 2021-07-29
CN107533590A (zh) 2018-01-02
JP6777966B2 (ja) 2020-10-28
US20230178184A1 (en) 2023-06-08
WO2016134034A1 (en) 2016-08-25
AU2016220135A1 (en) 2017-09-14
NZ734854A (en) 2022-11-25
KR20170134379A (ko) 2017-12-06
US20190180843A1 (en) 2019-06-13
CA2976902A1 (en) 2016-08-25
SG11201706730XA (en) 2017-09-28
SG10202000731WA (en) 2020-03-30
EP4030437A1 (en) 2022-07-20
US20160246922A1 (en) 2016-08-25
US9715573B2 (en) 2017-07-25
US11600361B2 (en) 2023-03-07
JP2021007039A (ja) 2021-01-21
JP2018512092A (ja) 2018-05-10
US20170300615A1 (en) 2017-10-19
CN107533590B (zh) 2021-10-26
IL254000A0 (en) 2017-10-31
IL254000B (en) 2021-09-30
US10318706B2 (en) 2019-06-11

Similar Documents

Publication Publication Date Title
JP7113053B2 (ja) 核酸配列アセンブリ
JP7297774B2 (ja) 構造変異の分析
US20210371904A1 (en) Recovering Long-Range Linkage Information From Preserved Samples
JP2018509928A (ja) 環状化メイトペアライブラリーおよびショットガン配列決定を用いて、ゲノム変異を検出するための方法
Rayamajhi et al. Evaluating Illumina-, Nanopore-, and PacBio-based genome assembly strategies with the bald notothen, Trematomus borchgrevinki
McKain et al. Ancestry of the two subgenomes of maize
Cameron et al. GRIDSS2: harnessing the power of phasing and single breakends in somatic structural variant detection
US11821031B2 (en) Systems and methods for graph based mapping of nucleic acid fragments
Voshall et al. A consensus-based ensemble approach to improve de novo transcriptome assembly
Linheiro et al. Quantification of the effects of chimerism on read mapping, differential expression and annotation following short-read de novo assembly.
Spinozzi Anti-Cancer Drug Resistance Causal Modeling from Lentiviral-Vector Integration Site Studies
O'Connell Developing and Applying Chromatin Proximity Ligation Methods
SHAOJIANG Paired End Transcriptome Assembly and Genomic Variants Management for Next Generation Sequencing Data
McCoy et al. Illumina TruSeq Synthetic Long-Reads Empower De Novo Assembly and Resolve
Lee Algorithms and Applications in Genome Assembly using Long Read Sequencing Technology

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201102

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201102

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220202

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220428

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220629

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220725

R150 Certificate of patent or registration of utility model

Ref document number: 7113053

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150