JP7113053B2 - 核酸配列アセンブリ - Google Patents
核酸配列アセンブリ Download PDFInfo
- Publication number
- JP7113053B2 JP7113053B2 JP2020168530A JP2020168530A JP7113053B2 JP 7113053 B2 JP7113053 B2 JP 7113053B2 JP 2020168530 A JP2020168530 A JP 2020168530A JP 2020168530 A JP2020168530 A JP 2020168530A JP 7113053 B2 JP7113053 B2 JP 7113053B2
- Authority
- JP
- Japan
- Prior art keywords
- read
- contigs
- contig
- computer
- paired
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/20—Sequence assembly
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12Q—MEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
- C12Q1/00—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
- C12Q1/68—Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
- C12Q1/6869—Methods for sequencing
- C12Q1/6874—Methods for sequencing involving nucleic acid arrays, e.g. sequencing by hybridisation
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
Description
本明細書で挙げられる全ての刊行物、特許、及び特許出願は、あたかも個々の刊行物、特許、又は特許出願がそれぞれ参照により本明細書に具体的且つ個別に組み込まれるのと同じ程度にまで、参照により本明細書に組み込まれている。
1.入力の前処理
2.コンティグ間連結グラフの構築
3.スキャフォールド構築物にシード値をもたらす
4.局所の順序、配向、及び間隙の大きさの改善
5.ペアのスキャフォールドの混合に関するスコアの計算
6.接合の貪欲な受け入れ
1.開始アセンブリの配列(随意にFASTAのフォーマットにある);
2.開始アセンブリへのペアリードの位置合わせ(随意にBAMのフォーマットで、分類され、且つインデックスを付けられる);
3.開始アセンブリへのショットガンリードの位置合わせ(随意にBAMのフォーマットで、分類され、且つインデックスを付けられる)。
例えばコンピュータにより実施されるシステム上での入力の前処理は、随意に、ウィンドウ分析前に又はそれとは無関係に利用される。アセンブリまたはコンティグセットまたはスキャフォールドセットの高反復領域にマッピングされるペアリードは、さらなる分析から除去され、それによって、一意にマッピングする配列を含むようにリードペア集団をきれいにする(clean)。幾つかの場合では、アセンブリへの全ゲノムショットガンリードのアライメントが、これらの領域を特定するために使用される。代替的に又は加えて、閾値を超えるマッピングされたショットガンリード深さを有している開始アセンブリの区間にマッピングされるリードペアは除外される。幾つかの領域がリードペアのための「ホットスポット」であること、およびそのようなホットスポット領域からのペアデータの包含が、ダウンストリーム分析を偏らせ(bias)得ることが観察されている。幾つかの場合では、2閾値法が使用され、その結果、区間が「トリガー」t2を超えるマッピングされたリード深さを有する少なくとも1つの塩基を含む場合、「カットオフ」t1を超える深さを有するその区間にマッピングされるリードがすべて除外される。幾つかの場合では、二重閾値戦略が使用され、それによって、t1またはt2を超えるマッピングされたリード深さを有する少なくとも1つの塩基を含む、t1を超えるマッピングされたショットガンリード深さを有する開始アセンブリの区間はすべて、特定され、除外される。幾つかの典型的な実施形態では、アセンブリの約0.5%がマスクされるように、またはアセンブリの0.05、0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9、1.0、1.1、1.2、1.3、1.4、1.5、2、3、4、5、6、7、8、9、10、15、20、30、40、50、60、70、80%、またはそれ以上がマスクされるように、t1およびt2が選択される。幾つかの実施形態では、アセンブリの約0.5%がマスクされるように、t1およびt2が設定される。幾つかの場合では、マスクされるアセンブリのパーセントは、反復するアセンブリの割合による影響を受ける。幾つかの実施形態では、マッピングされたショットガンリードの深さに関する閾値のセットは、t1が3xであり、t2が3.5xであるものであり、ここでxは、深さの分布全体の平均と等しい。例えば、特定のヒトのアセンブリ(human assembly)の場合には、t1が87であり、t2が102であり、102の閾値が達成される場合、87以上の深さに対するヒット(hits)を有している領域がマスクされる。本例では、「x」は29であり、3xは87であり、および102は3.5xである。幾つかの実施形態では、t1は、2x、2.0x、2.1x、2.2x、2.3x、2.4x、2.5x、2.6x、2.7x、2.8x、2.9x、3.0x、3.1x、3.2x、3.3x、3.4x、3.5x、3.6x、3.7x、3.8x、3.9x、4.0x未満、または4.0x以上から選択される。幾つかの実施形態では、t2は、2x、2.0x、2.1x、2.2x、2.3x、2.4x、2.5x、2.6x、2.7x、2.8x、2.9x、3.0x、3.1x、3.2x、3.3x、3.4x、3.5x、3.6x、3.7x、3.8x、3.9x、4.0x、4.1x、4.2x、4.3x、4.4x、4.5x、4.6x、4.7x、4.8x、4.9x、5.0x未満、または5.0x以上から選択される。
幾つかの場合では、尤度モデルパラメータは、入力処理前に推測される。本明細書に開示される方法およびシステムの幾つかの工程は、アセンブリ決定を誘導するために又はスキャフォールディング内のコンティグ構成を最適化するために、リードペアデータの尤度モデルを使用することができる。幾つかの実施形態では、尤度は、アセンブリ決定を誘導するかために又はスキャフォールディング内のコンティグ構成を最適化するために使用される。幾つかの場合では、尤度関数は以下である:
<スキャフォールディング - メタゲノムの尤度モデルパラメータ>
幾つかの典型的な実施形態では、入力データは、複数のソース(例えばメタゲノムのライブラリ)からの核酸の混合物を含むサンプルから得られる。幾つかのそのような状況では、本明細書に開示される幾つかの方法および計算システムにおいて使用される尤度モデルは、混合された核酸サンプルかメタゲノムのライブラリに由来する入力データを構成する(account for)ように修正される。幾つかの場合では、尤度スコアが、それぞれの長さ(例えばl1およびl2)およびカウント(例えばs1およびs2)を有する2つのフラグメントのために計算されていると想定される。幾つかの場合では、カウントは、フラグメントの長さおよび入力された混合した核酸サンプル中のその相対的存在量の産物にほぼ比例する量である。限定しない例として、s1およびs2は、適切な配列決定ライブラリから各コンティグにマッピングされるリードの数であり得る。幾つかの実施形態では、尤度スコアは、ノイズリードおよびリードペアの予測される数を構成するように修正される。幾つかの場合では、尤度スコア
コンティグ、スキャフォールドまたはアセンブリの情報が部分的に分解されるように、例えば、比較的弱いアセンブリ決定がダウンストリーム分析において永続化されないように、入力アセンブリデータが随意に処理される。例えば、開始アセンブリにおいて候補の誤連結部(misjoins)を特定し、切断するために、尤度モデルを使用して、開始アセンブリにおいて各コンティグの各位置iの左側および右側を連結することによって獲得された対数尤度変化を計算する(例えば、位置iでの切断によって作成される2つのコンティグに対する対数尤度比(LLR)Li=ln L(g=0)=L(g=∞))。幾つかの実施形態では、この支持が、入力コンティグの最大の内部セグメントにわたって閾値tb以下にあるときに、セグメントは「低支持」セグメントとして定義される。幾つかの実施形態では、例えば互いに300bp以内に位置する、および例えばコンティグエンドの1Kbp以内の低支持セグメントを除く低支持セグメントを融合した後に、セグメントのサイズに依存して、追加の修正が行われる。例えば、1000bpより下のセグメントに対しては、コンティグにおいてセグメントの中点で切断が導入され、セグメントが1000bpより長い場合は、セグメントの各エンドに切断が導入される。幾つかの場合では、100bp、100bp、200pb、300pb、400pb、500pb、600pb、700pb、800pb、900pb、1kb、1.1kb、1.2kb、1.3kb、1.4kb、1.5kb、2kb、3kb、4kb、5kbより長い、または5kb以上である場合、切断はセグメントの各エンドに導入される。
アセンブリのプロセスの間に、生成された結合するデータは、開始アセンブリの(破損された)コンティグがノードであり、エッジが整数の順序対のリスト(その各々は、マッピングされたペアからのリードの2つのコンティグにおける位置を表わしている)で標識されるグラフとして随意に表わされる。幾つかの実施形態では、スキャフォールディングの初期工程は、生成されたリンクtLの閾値数より少ない閾値数を有するエッジを除外することによってグラフを連結成分へと分割することにより作成されたデータのサブセット上で平行して実行され、ここで最低の整数閾値は、入力コンティグの5%以上を含む連結成分を生じさせなかった。特定のデータセットか分析システムの詳細に依存して、閾値tLは、入力コンティグの0.5、0.6、0.7、0.8、0.9、1.0、1.1、1.2、1.3、1.4、1.5、2、3、4、5、6、7、8、9、10、15、20%未満またはおよそのそれらの%未満、あるいは20%以上を除外するように選択される。
幾つかの実施形態では、スキャフォールド構築の反復位相は、コンティグ間のグラフのエッジをフィルター処理し、それを高信頼度の線形のサブグラフへと分解することによってシード値が与えられる(seeded)。幾つかの場合では、コンティグ間のエッジがフィルター処理され、フィルター処理されたグラフの最小スパニングフォレストが発見される(下記の「エッジフィルタリング」を参照)。幾つかの場合では、グラフは、程度1のノードを除去し、続いて2を超える程度のノードを除去する、3回連続のラウンドによって直線化される。幾つかの場合では、結果として生じるグラフの連結成分の各々は、線形トポロジーを有し、入力コンティグのサブセットの順序付けを定義した。幾つかの場合では、初期のスキャフォールドの生成に結果的に達する工程は、各直線成分に対するコンティグ配向の最大尤度の選択を見つけることである。幾つかの実施形態では、グラフは、ノード除去の1、2、4、5、6回、または6回以上の連続のラウンドによって直線化される。幾つかの実施形態では、除去されたノードの程度は様々である。幾つかの場合では、最大尤度の選択は、最大尤度を判定するために特定の方程式を使用して計算される。幾つかの場合では、最大尤度は、最も可能性の高い順序、配向、または順序及び配向の一般的な評価である。
フィルターは、直線化の前にコンティグ間のグラフのエッジに随意に適用される。典型的なフィルターは以下を含む:tL未満のリンクを有するエッジの除外および「無差別の(promiscuous)」コンティグからのエッジの除外。「無差別の」コンティグは、塩基対におけるコンティグ長さに対応するノードのグラフにおける程度の比率がtpを超えるものとして特定されるか、あるいはフィルター(1)をdmを超える他のコンティグに通すリンクを有する。閾値tpおよびdmは、幾つかの場合において対応する値の分布の上部の尾部(tail)のおよそ5%を除外するように選択される。幾つかの場合では、閾値tpおよびdmは、対応する値の分布の上部の尾部のおよそ0.5、0.6、0.7、0.8、0.9、1.0、1.1、1.2、1.3、1.4、1.5、2、3、4、5、6、7、8、9、10、15、20%未満、または20%以上を除外するために選択された。幾つかの実施形態では、tLは、7より下、7、8、9、10、11、12、13、14から15まで、または15以上の範囲である。幾つかの実施形態では、tpは、0.01、0.02、0.03、0.04、0.05、0.06、0.07、0.08、0.09から、0.1までの範囲である。幾つかの実施形態では、dmは、5未満、5、6、7、8、9、10、11、12、13、14、15、または15以上の範囲である。幾つかの実施形態では、tL、tp、およびdmが、それぞれ11、0.04、および10であるときに、改善されたパフォーマンスが得られることが分かる。
各入力スキャフォールドは、フォワードおよびリバースの塩基配列、または「Watson」および「Crick」のDNA鎖に対応する、最終アセンブリにおける2つの配向のうちの1つを有する。本明細書で開示されるように、各線状紐部におけるスキャフォールドに最適な配向は、以下に示されるような再帰関連性を使用して動的プログラミングなどの分析によって見つけられる。長さnのスキャフォールドの順序付きリストにおいて、スキャフォールドi-kからiが特定の配向
コンティグエンドは、スキャフォールドにおけるそれらの位置と相対的な随意に指定された分類である。例えば、コンティグエンドは、スキャフォールドのエンドに位置する場合には「自由」として分類され、スキャフォールドの内部にある場合には「埋設された(buried)」として分類される。幾つかの実施形態では、各連結成分内のすべてのコンティグエンドのペアに関して、それらを連結するためのLLRスコアは、g0の「標準」間隙寸法で計算される。幾つかの実施形態では、候補連結部は、スコアの降順で分類され、1セットの基準に従って評価される。典型的なセットの基準が続く。両エンドが、自由であり、異なるスキャフォールドからのものである場合、端と端との2つのスキャフォールドの結合を試験する。片側のエンドが埋設されて他エンドが自由であり、両エンドが異なるスキャフォールドからのものである場合、埋設されたエンドに隣接した間隙への自由エンドのスキャフォールドの挿入を試験する。片側のエンドまたは両エンドが埋設されて、両エンドが同じスキャフォールド上にある場合、両エンド間のスキャフォールド部分の逆位を試験する。両エンドが埋設されて、異なるスキャフォールドからのものである場合、端と端でスキャフォールドを連結するすべての4つの方法を試験する。幾つかの実施形態では、すべての場合に関して、考えられ得る連結部、挿入部および反転部が、変化による影響を受けたすべてのコンティグのペア間のLLRスコアを合計することによってLLRスコアの総変化を計算することにより試験される。変更がLLRスコアを増大させた場合、最適な移動が許容される。
各スキャフォールドにおけるコンティグの局所的な順序付けおよび配向の両方を改善するために、各スキャフォールドの順序付けされ、配向されたコンティグにわたってサイズwのウィンドウをスライドさせる、動的プログラミングアルゴリズムが随意に適用される。各位置iでは、ウィンドウ内でコンティグを順序付けし配向するすべてのw!2wの方法が考慮され、ウィンドウにおいてコンティグの現行の構成で終端する現行のウィンドウ位置のエンドまでのすべてのコンティグの最適な順序付け及び配向を表わすスコアが保存された。位置
初期のスキャフォールドが各連結成分内に構築された後、結果として生じるスキャフォールドは、単一のプールに戻され、端と端との及びインターカレートするスキャフォールド連結の複数のラウンドが実行される。各ラウンドでは、すべてのスキャフォールドのペアが比較され、尤度スコアが、端と端との及びインターカレートする連結のために平行して計算される。その後、候補連結部は分類され、矛盾しない連結部は、尤度スコアの増加の降順で許容される。
本明細書において、高スループットの配列決定データからの新規のアセンブルされたコンティグのスキャフォールディングを劇的に改善することができる、長距離のメイトペアデータのインビトロでの生成のための方法およびコンピュータにより実施されるシステムが記載される。これらのアプローチは、既存の方法以上の幾つかの利点を有する。
本明細書における多くの方法および計算システムは、少なくとも2つの順序、配向、スキャフォールド接続状態、コンティグ切断評価、または他の考えられ得る配列の再位置決め(総じて「スキャフォールディング」)の評価を含む。開始または以前のデータに関する改善を表わすスキャフォールディングを数的に評価するために、多くのアプローチが利用可能である。典型的な実施形態では、コンティグまたはスキャフォールドの構成は、(例えば、同じコンティグにマッピングされる両エンドを有するリードペアから)予期されたか、独立して判定されたか、または同時に判定された曲線により近く近似するリードペア分離距離の分布曲線を生成する場合に好ましい。曲線は、例えば、上の式1を使用して評価において有利にスコアを得る場合、予期されたか、独立して判定されたか、または同時に判定された曲線により近く近似する。分散分析(ANOVA)試験、共変動の評価、または他の試験などの、代替的評価が、当業者にとって利用可能である。
幾つかの実施形態では、本明細書に記載されるコンティグのアセンブリ方法は、デジタル処理装置、またはその使用を含む。さらなる実施形態では、デジタル処理装置は、装置の機能を実行する1つ以上のハードウェア中央処理装置(CPU)を含む。またさらなる実施形態では、デジタル処理装置は、実行可能命令を実行するように構成されたオペレーティングシステムをさらに含む。幾つかの実施形態では、デジタル処理装置は、コンピュータネットワークに随意に接続される。さらなる実施形態では、デジタル処理装置は、ワールドワイドウェブにアクセスするようにインターネットに随意に接続される。またさらなる実施形態では、デジタル処理装置は、クラウド・コンピューティング・インフラストラクチャーに随意に接続される。他の実施形態では、デジタル処理装置は、イントラネットに随意に接続される。他の実施形態では、デジタル処理装置は、データ記憶装置に随意に接続される。
プラズマディスプレイ、ビデオプロジェクター、あるいは本明細書に開示されるものなどの装置の組み合わせなどの、有機発光ダイオード(OLED)ディスプレイなどの、ユーザーに目視情報を送信するためのディスプレイを含む。
幾つかの実施形態では、本明細書に開示されるコンティグのアセンブリ方法は、随意にネットワーク化されたデジタル処理装置のオペレーティングシステムによって実行可能な命令を含むプログラムでコードされた1つ以上の非一時的なコンピュータ可読記憶媒体を含む。さらなる実施形態では、コンピュータ可読記憶媒体は、随意に、デジタル処理装置の有形成分である。またさらなる実施形態では、コンピュータ可読記憶媒体は、随意に、デジタル処理装置から取り外し可能である。幾つかの実施形態では、コンピュータ可読記憶媒体は、限定しない例として、CD-ROM、DVD、フラッシュメモリ装置、ソリッドステートメモリ、磁気ディスクドライブ、磁気テープドライブ、光ディスクドライブ、クラウドコンピューティングのシステムおよびサービスなどを含む。幾つかの場合では、プログラムおよび命令は、記憶媒体上に、恒久的に、略恒久的に、半恒久的に、または非一時的にコードされる。
幾つかの実施形態では、本明細書に開示されるコンティグのアセンブリ方法は、少なくとも1つのコンピュータプログラム、またはその使用を含む。コンピュータプログラムは、デジタル処理装置のCPUにおいて実行可能であり、タスクを実行するように書き込まれた、命令のシーケンス(sequence)を含む。コンピュータ可読命令は、特定のタスクを実行するか又は特定の抽象データ型を実施する、機能、対象(objects)、アプリケーションプログラムインターフェース(API)、データ構造などのプログラムモジュールとして実行され得る。本明細書で提供される開示に照らして、当業者は、コンピュータプログラムが様々な言語の様々なバージョンで書き込まれ得ることを認識する。
幾つかの実施形態では、コンティグのアセンブリ方法を実施するコンピュータプログラムまたはコンピュータにより実施されるシステムは、ウェブアプリケーションを含む。本明細書に提供される開示に照らして、当業者は、ウェブアプリケーションが、様々な実施形態において、1つ以上のソフトウェアフレームワークおよび1つ以上のデータベースシステムを利用することを認識する。幾つかの実施形態では、ウェブアプリケーションは、マイクロソフト(登録商標).NETまたはRuby on Rails(RoR)などの、ソフトウェアフレームワーク上で作成される。幾つかの実施形態では、ウェブアプリケーションは、限定しない例として、リレーショナル、非リレーショナル、オブジェクト指向、アソシアティブ、およびXMLのデータベースシステムを含む、1つ以上のデータベースシステムを利用する。さらなる実施形態では、適切なリレーショナルデータベースシステムは、限定しない例として、マイクロソフト(登録商標)SQL Server、mySQL(商標)、およびOracle(登録商標)を含む。当業者はまた、ウェブアプリケーションが、様々な実施形態において、1つ以上の言語の1つ以上のバージョンで書き込まれることを認識する。ウェブアプリケーションは、1つ以上のマークアップ言語、提示定義言語、クライアント側スクリプト言語、サーバー側コーディング言語、データベース問い合わせ言語、あるいはそれらの組み合わせで書き込まれ得る。幾つかの実施形態では、ウェブアプリケーションは、ハイパーテキストマークアップ言語(HTML)、拡張可能なハイパーテキストマークアップ(XHTML)、または拡張マークアップ言語(XML)などの、マークアップ言語である程度まで書き込まれる。幾つかの実施形態では、ウェブアプリケーションは、カスケーディング・スタイル・シート(CSS)などの表現定義言語である程度まで書き込まれる。幾つかの実施形態では、ウェブアプリケーションは、Asynchronous JavascriptおよびXML(AJAX)、Flash(登録商標)Actionscrip、Javascript、またはSilverlight(登録商標)などの、クライアント側スクリプト言語である程度まで書き込まれる。幾つかの実施形態では、ウェブアプリケーションは、Active Server Pages(ASP)、ColdFusion(登録商標)、Perl、Java(登録商標)、JavaServer Pages(JSP)、Hypertext Preprocessor(PHP)、Python(商標)、Ruby、Tcl、Smalltalk、WebDNA(登録商標)、またはGroovyなどの、サーバー側コーディング言語である程度まで書き込まれる。幾つかの実施形態では、ウェブアプリケーションは、構造化照会言語(SQL)などのデータベース問い合わせ言語である程度まで書き込まれる。幾つかの実施形態では、ウェブアプリケーションは、IBM(登録商標)Lotus Domino(登録商標)などのエンタープライズサーバー製品を統合する。幾つかの実施形態では、ウェブアプリケーションは、メディアプレイヤー要素を含む。様々なさらなる実施形態では、メディアプレイヤー要素は、限定しない例として、Adobe(登録商標)Flash(登録商標)、HTML 5、Apple(登録商標)QuickTime(登録商標)、Microsoft(登録商標)Silverlight(登録商標)、Java(登録商標)、およびUnity(登録商標)を含む、多くの適切なマルチメディア技術の1つ以上を利用する。
幾つかの実施形態では、本明細書に開示されるコンティグのアセンブリ方法を実施するコンピュータプログラムは、モバイルのデジタル処理装置に提供されるモバイルアプリケーションを含む。幾つかの実施形態では、モバイルアプリケーションは、モバイルのデジタル処理装置に、それが製造される時に提供される。他の実施形態では、モバイルアプリケーションは、本明細書に記載されるコンピュータネットワークを介してモバイルのデジタル処理装置に提供される。
幾つかの実施形態では、本明細書に開示されるコンティグのアセンブリ方法を実施するコンピュータプログラムは、既存プロセスに対するアドオンではなく(例えば、プラグインではない)、独立したコンピュータプロセスとして実行されるプログラムである、独立型アプリケーションを含む。当業者は、独立型アプリケーションがしばしばコンパイルされることを認識する。コンパイラは、プログラミング言語で書き込まれたソースコードを、アセンブリ言語またはマシンコードなどのバイナリー化されたオブジェクトコードに変換するコンピュータプログラムである。適切なコンパイルされたプログラミング言語は、限定しない例として、C、C++、Objective-C、COBOL、Delphi、Eiffel、Java(登録商標)、Lisp、Python(商標)、Visual Basic、およびVB.NET、あるいはそれらの組み合わせを含む。コンパイルは、少なくとも部分的に、実行可能プログラムを作成するためにしばしば実行される。幾つかの実施形態では、コンピュータプログラムは、1つ以上の実行可能なコンパイルされたアプリケーションを含む。
幾つかの実施形態では、コンティグのアセンブリ方法は、ウェブブラウザのプラグインを含む。コンピューティングにおいて、プラグインは、より大きなソフトウェアアプリケーションに特定の機能性を加える1つ以上のソフトウェアコンポーネントである。ソフトウェアアプリケーションのメーカーは、サードパーティーのディベロッパーが、アプリケーションを拡張する能力を作り出す、容易に加える新しい特徴をサポートする、およびアプリケーションのサイズを縮小することができるプラグインをサポートしている。サポートされるときに、プラグインは、ソフトウェアアプリケーションの機能性をカスタマイズにすることができる。例えば、プラグインは、ビデオを再生する、対話機能を生成する、ウイルスをスキャンする、および特別のファイルタイプを表示するためにウェブブラウザにおいて一般に使用される。当業者は、Adobe(登録商標)Flash(登録商標)Player、Microsoft(登録商標)Silverlight(登録商標)、およびApple(登録商標)QuickTime(登録商標)を含む、幾つかのウェブブラウザのプラグインに精通しているだろう。幾つかの実施形態では、ツールバーは、1つ以上のウェブブラウザ拡張、アドイン、またはアドオンを含む。幾つかの実施形態では、ツールバーは、1つ以上のエクスプローラバー、ツールバンド、またはデスクバンドを含む。
幾つかの実施形態では、本明細書に開示されるコンティグのアセンブリ方法は、ソフトウェア、サーバー、及び/又はデータベースモジュール、あるいはその使用を含む。本明細書に提供される開示に照らして、ソフトウェアモジュールは、当該技術分野に既知のマシン、ソフトウェア、および言語を使用して、当業者に既知の技術によって作成される。本明細書に開示されるソフトウェアモジュールは、多くの方法で実施される。様々な実施形態では、ソフトウェアモジュールは、ファイル、コードのセクション、プログラミングオブジェクト、プログラミング構造、あるいはそれらの組み合わせを含む。さらに様々な実施形態では、ソフトウェアモジュールは、複数のファイル、複数のコードのセクション、複数のプログラミングオブジェクト、複数のプログラミング機構、あるいはそれらの組み合わせを含む。様々な実施形態では、1つ以上のソフトウェアモジュールは、限定しない例として、ウェブアプリケーション、モバイルアプリケーション、および独立型アプリケーションを含む。幾つかの実施形態では、ソフトウェアモジュールは、1つのコンピュータプログラムまたはアプリケーションにある。他の実施形態では、ソフトウェアモジュールは、1つを超えるコンピュータプログラムまたはアプリケーションにある。幾つかの実施形態では、ソフトウェアモジュールは、1つのマシン上でホストされる。他の実施形態では、ソフトウェアモジュールは、1つを超えるマシン上でホストされる。さらなる実施形態では、ソフトウェアモジュールは、クラウドコンピューティングプラットホーム上でホストされる。幾つかの実施形態では、ソフトウェアモジュールは、1つの位置で1つ以上のマシン上でホストされる。他の実施形態では、ソフトウェアモジュールは、1つを超える位置で1つ以上のマシン上でホストされる。
幾つかの実施形態では、本明細書に開示されるコンティグのアセンブリ方法は、1つ以上のデータベース、またはその使用を含む。本明細書で提供される開示に照らして、当業者は、多くのデー夕ベースが、コンティグ情報の保管および検索に適していることを認識する。様々な実施形態では、適切なデータベースは、限定されないが、リレーショナルデータベース、非リレーショナルデータベース、オブジェクト指向型データベース、オブジェクトデータベース、実体関連モデルデータベース、連想型データベース、およびXMLデータベースを含む。他の実施形態では、デー夕ベースは、インターネットベースである。更なる実施形態では、データベースは、ウェブベースである。また更なる実施形態では、デー夕ベースは、クラウドコンピューティングベースである。他の実施形態において、データベースは、1つ以上のローカルコンピュータ記憶デバイスベースである。
<列挙された実施形態>
1. 核酸配列情報のコンティグをスキャフォールドするための方法であって、当該方法は、
初期の構成を有するコンティグ配列のセットを得る工程;ペアエンドリードのセットを得る工程;標準的なペアエンドリードの距離度数データを得る工程;
少なくとも1つのペアエンドリードにおいて共存する配列を共有するコンティグペアをグループ分けする工程;および
コンティグを分離するためにマッピングされるリードペアのためのリードペア距離度数データが、初期の構成におけるコンティグ配列のリードペア度数データに対して標準的なペアエンドリード距離度数データにより近く近似するように、グループ化されたコンティグ配列をスキャフォールドする工程、
を含むことを特徴とする、方法である。
2. スキャフォールドする工程が、一連のコンティグを順序付けする工程を含む、列挙された実施形態1に記載の方法により実施される。
3. スキャフォールドする工程が、一連のコンティグを配向する工程を含む、列挙された実施形態1に記載の方法により実施される。
4. スキャフォールドする工程が、少なくとも2つのコンティグの端と端を融合する工程を含む、列挙された実施形態1に記載の方法により実施される。
5. スキャフォールドする工程が、第2コンティグに1つのコンティグを挿入する工程を含む、列挙された実施形態1に記載の方法により実施される。
6. スキャフォールドする工程が、少なくとも2つの成分のコンティグへ、コンティグを切断する工程を含む、列挙された実施形態1に記載の方法により実施される。
7. 標準的なペアエンドリード度数が、両方のリードが共通のコンティグにマッピングされるペアエンドリードから得られる、列挙された実施形態1に記載の方法により実施される。
8. 標準的なペアエンドリード度数が、事前に生成された曲線から得られる、列挙された実施形態1に記載の方法により実施される。
9. 初期構成がランダムな構成である、列挙された実施形態1の方法により実施される。
10. コンティグを分離するためにマップピングされるリードペアのためのリードペア距離度数データが、リードペア距離尤度が増大するときにペアエンドリード距離度数データにより近く近似する、列挙された実施形態1に記載の方法により実施される。
11. リードペア距離尤度が最大化される、列挙された実施形態10に記載の方法により実施される。
12. コンティグを分離するためにマッピングされるリードペアのリードペア距離度数データが、リードペアの距離度数データと標準的なペアエンドリード距離度数データとの間の差の統計的尺度が減少する際に、ペアエンドリード距離度数データにより近く近似する、列挙された実施形態1に記載の方法により実施される。
13. リードペア距離度数データと標準的なペアエンドリード距離度数データとの間の距離の統計的尺度が、ANOVA、t検定、およびX2乗検定の少なくとも1つを含む、列挙された実施形態12に記載の方法により実施される。
14. コンティグを分離するためにマッピングされるリードペアのリードペア距離が、標準的なペアエンドリード距離度数と比較して得られた順序付けされたコンティグ中のリードペア距離分布の偏差が減少するとき、ペアエンドリード距離度数データとより近く一致する、列挙された実施形態1に記載の方法により実施される。
15. 標準的なペアエンドリード距離度数と比較して得られた順序付けされたコンティグ中のリードペア距離分布の偏差が最小限に抑えられる、列挙された実施形態14に記載の方法により実施される。
16. 第1のクラスターと第2のクラスターに関連するペアエンドリード中の配列を共有するコンティグが、より多くの共有エンドリードを有するクラスターに割り当てられる、列挙された実施形態1に記載の方法により実施される。
17. 前記クラスター化する工程が、生体中の染色体の数以上である多くのグループにコンティグを配置する工程を含む、列挙された実施形態1-16のいずれか1つに記載の方法により実施される。
18. 単一のペアエンドリードのみをクラスターの1つのコンティグと共有するコンティグが、そのクラスターには含まれない、列挙された実施形態11-17のいずれか1つに記載の方法により実施される。
19. 反復配列を含む少なくとも1つのペアエンドリードのみをクラスターと共有するコンティグが、そのクラスターには含まれない、列挙された実施形態1-18のいずれか1つに記載の方法により実施される。
20. 低品質の配列を含む少なくとも1つのペアエンドリードのみをクラスターと共有するコンティグが、そのクラスターには含まれない、列挙された実施形態1-19のいずれか1つに記載の方法により実施される。
21. ペアエンドリードのセットが、核酸内で内部二本鎖切断を生じさせるためにサンプルDNAを消化し、少なくとも1つの再連結接合部を形成するために二本鎖切断を再連結し、および少なくとも1つの再連結接合部にわたって配列決定することにより得られる、列挙された実施形態1-20のいずれか1つに記載の方法により実施される。
22. DNAが、少なくとも1つのDNA結合剤に架橋される、列挙された実施形態21に記載の方法により実施される。
23. DNAが単離した裸のDNAである、列挙された実施形態21に記載の方法により実施される。
24. 単離したDNAが、再構成された染色質へ再アセンブリされる、列挙された実施形態22の方法により実施される。
25. 再構成された染色質が架橋される、列挙された実施形態24の方法により実施される。
26. 再構成された染色質がDNA結合タンパク質を含む、列挙された実施形態23の方法により実施される。
27. 再構成された染色質がナノ粒子を含む、列挙された実施形態23の方法により実施される。
28. コンティグの前記クラスター化する工程が、生体のための染色体の数と無関係である、列挙された実施形態1-27のいずれか1つの方法により実施される。
29. 第1のクラスターと第2のクラスターに関連するペアエンドリード中の配列を共有するコンティグが、より多い共有エンドリードを有するクラスターに割り当てられる、列挙された実施形態1-28のいずれか1つに記載の方法により実施される。
30. 第1のクラスターと第2のクラスターに関連するペアエンドリード中の配列を共有するコンティグが、より大きなリードペア距離尤度値を有するクラスターに割り当てられる、列挙された実施形態1-28のいずれか1つに記載の方法により実施される。
31. 第1のクラスターと第2のクラスターに関連するペアエンドリード中の配列を共有するコンティグが、標準的なリードペア距離分布と比較してそのリードペア分布中で偏差が少ないクラスターに割り当てられる、列挙された実施形態1-28のいずれか1つに記載の方法により実施される。
32. 第1のクラスターと第2のクラスターに関連したペアエンドリードの中の配列を共有するコンティグが、各クラスターから除外される、列挙された実施形態1-29のいずれか1つに記載の方法により実施される。
33. 前記クラスター化する工程が、生体中の染色体の数以上である多くのグループにコンティグを配置する工程を含む、列挙された実施形態1-32のいずれか1つに記載の方法により実施される。
34. 前記スキャフォールドする工程が、前記クラスター化されたコンティグの推定上の隣接するコンティグの第1のセットを選択する工程、前記リードペアに関してリードペアの距離の統計的尺度を減少させる推定上の隣接するコンティグの前記第1のセットの最小限の距離順序を判定する工程、および、リードペア距離の前記統計的尺度を減少させるために、推定上の隣接するコンティグの前記第1のセットをスキャフォールドする工程を含む、列挙された実施形態1-33のいずれか1つに記載の方法により実施される。
35. 推定上の隣接するコンティグの前記第1のセットが2つのコンティグから成る、列挙された実施形態34の方法により実施される。
36. 推定上の隣接するコンティグの前記第1のセットが3つのコンティグから成る、列挙された実施形態34の方法により実施される。
37. 推定上の隣接するコンティグの前記第1のセットが4つのコンティグから成る、列挙された実施形態34の方法により実施される。
38. 推定上の隣接するコンティグの前記第1のセットが4つのコンティグを含む、列挙された実施形態34の方法により実施される。
39. 前記スキャフォールドする工程が、推定上の隣接したコンティグの前記第1のセットにおける各コンティグの順序および配向を判定する工程を含む、列挙された実施形態34の方法により実施される。
40. 前記最小限の距離順序を判定する工程が、すべての可能なコンティグ構成についての前記セットの2つのコンティグにマッピングされているリードを含む少なくとも1つのリードペアのための予想されるリードペア距離を比較する工程を含む、列挙された実施形態34または35のいずれか1つに記載の方法により実施される。
41. 前記リードペアの最小限のリードペア距離に対応するコンティグ配向を選択する工程をさらに含む、列挙された実施形態40に記載の方法により実施される。
42. 最大尤度のリードペア距離分布に対応するコンティグ配向を選択する工程をさらに含む、列挙された実施形態40に記載の方法により実施される。
43. 前記コンティグクラスターのリードペアの統計的尺度のための最小限のリードペア距離に対応するコンティグ配向を選択する工程をさらに含む、列挙された実施形態40または41のいずれか1つに記載の方法により実施される。
44. 予想されるリードペア距離は、前記ペアエンドリード距離度数データと比較される、列挙された実施形態40-43のいずれか1つに記載の方法により実施される。
45. 前記ペアエンドリード距離度数データと比較する工程が、式1を用いる工程を含む、列挙された実施形態44に記載の方法により実施されるシステムである。
46. 前記クラスター化されたコンティグの推定上の隣接するコンティグの第2のセットを選択する工程であって、前記第2のセットが前記第1のセットの1つのエンド末端のコンティグを除くすべてと、前記クラスター化されたコンティグの1つの追加のコンティグを含む工程、およびリードペアの距離の前記統計的尺度を減少させるために、推定上の隣接するコンティグの前記第2のセットをスキャフォールドする工程をさらに含む、列挙された実施形態34-45のいずれか1つに記載の方法により実施される。
47. 前記クラスター化されたコンティグの推定上の隣接するコンティグの第3のセットを選択する工程であって、前記第3のセットが前記第2のセットの1つのエンド末端のコンティグを除くすべてと、前記第1のセットと前記第2のセットに含まれない前記クラスター化されたコンティグの1つの追加のコンティグを含む工程、およびリードペアの距離の前記統計的尺度を減少させるために、推定上の隣接するコンティグの前記第3のセットをスキャフォールドする工程をさらに含む、列挙された実施形態46に記載の方法により実施される。
48. 前記クラスター化されたコンティグの大多数が順序付けされるまで、少なくとも1つの追加のセットを反復して選択する工程をさらに含む、列挙された実施形態47に記載の方法により実施される。
49. 前記クラスター化されたコンティグのそれぞれが順序付けされるまで、少なくとも1つの追加のセットを反復して選択する工程をさらに含む、列挙された実施形態48に記載の方法により実施される。
50. 核酸配列がゲノムに由来する、列挙された実施形態1-49のいずれか1つに記載の方法により実施される。
51. 核酸配列が複数のゲノムに由来する、列挙された実施形態1-49のいずれか1つに記載の方法により実施される。
52. クラスター内のコンティグをスキャフォールドするための方法であって、当該方法が、
a)コンティグの各ペアのための対数尤度比率スコアを割り当てる工程;
b)比率スコアにより結合部を分類する工程;および
c)アセンブリの総合スコアを増大させるために、比率スコアの降順でコンティグ結合部を受理する工程、または拒絶する工程、
を含むことを特徴とする、方法である。
53. スキャフォールドする工程が、コンティグのセットを順序付けする工程を含む、列挙された実施形態52に記載の方法により実施される。
54. スキャフォールドする工程が、コンティグのセットを配向する工程を含む、列挙された実施形態52に記載の方法により実施される。
55. スキャフォールドする工程が、少なくとも2つのコンティグの端と端を融合する工程を含む、列挙された実施形態52に記載の方法により実施される。
56. スキャフォールドする工程が、第2コンティグに1つのコンティグを挿入する工程を含む、列挙された実施形態52に記載の方法により実施される。
57. スキャフォールドする工程が、少なくとも2つの成分のコンティグへ、コンティグを切断する工程を含む、列挙された実施形態52に記載の方法により実施される。
58. コンティグがゲノムを含む、列挙された実施形態52に記載の方法により実施される。
59. コンティグが複数のゲノムを含む、列挙された実施形態52に記載の方法により実施される。
60. クラスター中で複数のコンティグの局所的に最適なコンティグ構成を判定するための方法であって、当該方法が:
a)コンティグのクラスターに沿って位置iから始まるサイズwコンティグの配列ウィンドウを特定する工程;
b)ウィンドウにおける各位置iの中の適合性のある順序と配向のスコアを調べることによりウィンドウwのコンティグのためのw!2wの順序付けと配向のオプションを考慮する工程;
c)最適なスコアを得るために前記ウィンドウ内の前記wコンティグを配向および順序付けする工程;
d)ウィンドウを位置i+1に移動させる工程;および、
e)最適なスコアを判定するための前記wコンティグの配向および順序付けを使用して、位置i+1で前記ウィンドウのための工程(a)、(b)および(c)を繰り返す工程であって、それにより、スコアに対する局所的に最適な構成中の前記複数のコンティグを配向および順序付けする、繰り返す工程、
を含むことを特徴とする、方法である。
61. クラスター中の複数のコンティグにマッピングされているリードペアデータが得られ、標準的なペアエンドリード度数データセットが得られ、および、前記wコンティグの配向および順序付けのためのスコアが、クラスター中の複数のコンティグにマッピングされているリードペアデータのためのリードペア距離データセットが標準的なペアエンドリード度数データセットにどれだけ近く一致しているかの尺度である、列挙された実施形態60に記載の方法により実施される。
62. クラスター中の複数のコンティグにマッピングされるリードペアデータが得られ、スコアは合計のリードペア距離であり、および、合計のリードペア距離が最小限に抑えられるとき、スコアは最適化される、列挙された実施形態60に記載の方法により実施される。
63. wが3である、列挙された実施形態60に記載の方法により実施される。
64. wが4である、列挙された実施形態60に記載の方法により実施される。
65. wが5である、列挙された実施形態60に記載の方法により実施される。
66. wが6である、列挙された実施形態60に記載の方法により実施される。
67. wが第1クラスターに対する第1値を有し、またwが第2クラスターで第2値を有する、列挙された実施形態60に記載の方法により実施される。
68. wが、セットのコンティグの1%を含むために選択される、列挙された実施形態60に記載の方法により実施される。
69. wが、セットのコンティグの5%を含むために選択される、列挙された実施形態60に記載の方法により実施される。
70. wが、セットのコンティグの10%を含むために選択される、列挙された実施形態60に記載の方法により実施される。
71. スコアがリードペア距離尤度スコアであり、スコアが、与えられたウィンドウサイズに対して最大化されるときに最適である、列挙された実施形態60に記載の方法により実施される。
72. スコアが式1を使用して計算される、列挙された実施形態70に記載の方法により実施される。
73. スコアが予想されるリードペア分布からの偏差であり、スコアが、与えられたウィンドウサイズに対して最小限に抑えられるときに最適である、列挙された実施形態60に記載の方法により実施される。
74. 複数のコンティグがゲノムを含む、列挙された実施形態60-73のいずれか1つに記載の方法により実施される。
75. 複数のコンティグが複数のゲノムを含む、列挙された実施形態60-73のいずれか1つに記載の方法により実施される。
76. 核酸配列アセンブリのための方法であって、当該方法が:
a)精製DNAを得る工程;
b)DNA/染色質複合体を形成するために精製DNAとDNA結合剤を結合する工程;
c)粘着末端を残すために制限酵素でDNA/染色質複合体をインキュベートする工程;
d)DNAの末端を連結するためにライゲーションを実施する工程;
e)ペアエンドリードを生成するために連結されたDNA接合部にわたって配列決定する工程;および、
f)精製DNAの配列を表わすコンティグを含む核酸データセットをスキャフォールドするためにペアエンドリードを使用する工程、
を含むことを特徴とする、方法である。
77. 精製DNAがゲノムに由来する、列挙された実施形態76に記載の方法により実施される。
78. 精製DNAが複数のゲノムに由来する、列挙された実施形態76に記載の方法により実施される。
79. 反復コンティグ領域にマッピングされるリードペア配列リードを特定するための方法であって、当該方法が:
核酸サンプルのためのコンティグデータセットを得る工程;
隣接していない物理的に結合した配列情報に対応する少なくとも1つのリードペア配列リードを得る工程;および、
リードペア配列リードの少なくとも1つのリードがコンティグデータセットの2つの異なる座位にマッピングされる場合に、リードペア配列リードを除外する工程、
を含むことを特徴とする、方法である。
80. 反復領域が、第1閾値を超えるあらかじめ与えられたショットガンリード深さを有する配列を含む、列挙された実施形態79に記載の方法により実施される。
81. 反復領域が、第2閾値を超えるリード深さを有する塩基位置を含む、列挙された実施形態80に記載の方法により実施される。
82. 第1閾値および第2閾値が、リード深さの全面的分布に関して固定される、列挙された実施形態81に記載の方法により実施される。
83. 第1閾値が、リード深さの全面的分布の3倍である、列挙された実施形態82に記載の方法により実施される。
84. 第2閾値が、リード深さの全面的分布の3. 5倍である、列挙された実施形態82に記載の方法により実施される。
85. 核酸サンプルがゲノムを含む、列挙された実施形態79-84のいずれか1つに記載の方法により実施される。
86. 核酸サンプルが複数のゲノムを含む、列挙された実施形態79-84のいずれか1つに記載の方法により実施される。
87. コンティグアセンブリ決定を誘導するための方法であって、当該方法が、
第1コンティグと第2コンティグとの間におよぶリードペア配列の数および示唆される分離を観察する可能性を判定する工程であって、当該コンティグが、セット[++、+-、-+、--]内のoの相対的配向を有し、間隙長さによって分離される、工程
を含むことを特徴とする、方法である。
88. 分離距離にわたるリードペア配列の分布の確率を正規化する工程を含み、当該正規化は、リードペア配列と、核酸サンプルを独立してサンプリングするノイズペアとを比較することを含む、列挙された実施形態87に記載の方法により実施される。
89. 核酸サンプルがゲノムを含む、列挙された実施形態88に記載の方法により実施される。
90. 核酸サンプルが複数のゲノムを含む、列挙された実施形態88に記載の方法により実施される。
91. ノイズペアの総数が、コンティグペアのサンプルに関する結合の密度を集計することにより判定される、列挙された実施形態88に記載の方法により実施される。
92. 密度の最も高い1%および最も低い1%が除外される、列挙された実施形態91の方法により実施される。
93. コンティグ順序を判定する工程をさらに含む、列挙された実施形態87の方法により実施される。
94. コンティグ配向を判定する工程をさらに含む、列挙された実施形態87の方法により実施される。
95. コンティグ誤連結修正のための方法であって、当該方法が、
初期の構成を有するコンティグ配列のセットを得る工程;
ペアエンドリードのセットを得る工程;
標準的なペアエンドリードの距離度数データを得る工程;
少なくとも1つのペアエンドリードにおいて共存する配列を共有するコンティグペアをグループ分けする工程;
コンティグのグループ分けのためのリードペア度数データを標準的なペアエンドリード距離度数データと比較する工程;
グループ分けしたコンティグに切断を導入することにより、コンティグのグループ分けのためのリードペア度数データが、標準的なペアエンドリードの距離度数データにさらにより近く近似するかどうかを判定する工程;および、
コンティグのグループ分けのためのリードペアの度数データが標準的なペアエンドリードの距離度数データとさらにより近く近似する場合には、コンティグに切断を導入する工程、
を含むことを特徴とする、方法である。
96. 第1位置が、切断を導入する工程の前に前記尤度未満の前記対数閾値を有する少なくとも1つの隣接した第2位置と融合される、列挙された実施形態95に記載の方法により実施される。
97. 第2隣接位置が、第1位置から300塩基対を超えない、列挙された実施形態95に記載の方法により実施される。
98. 第2位置が、第1位置から1000塩基対を超える位置を含まない、列挙された実施形態95に記載の方法により実施される。
99. 対数尤度の変更を判定する工程は、コンティグのための平均のペアエンドマッピング密度を特定する工程、平均的なペアエンドマッピング密度の少なくとも3倍の数値のペアエンドマッピング密度を有するコンティグのセグメントを特定する工程、および平均的なペアエンドマッピング密度の少なくとも3倍の数値のペアエンドマッピング密度を有するコンティグのセグメントを除外する工程を含む、列挙された実施形態95-98のいずれか1つに記載の方法により実施される。
100. コンティグ配列のセットがゲノムに由来する、列挙された実施形態95-99のいずれか1つに記載の方法により実施される。
101. コンティグ配列のセットが複数のゲノムに由来する、列挙された実施形態95-99のいずれか1つに記載の方法により実施される。
102. コンティグアセンブリのための方法であって、当該方法が:
開始アセンブリの切断されたコンティグを示す工程であって、当該切断されたコンティグがノードであり、切断されたコンティグのエッジが整数の順序付けられたペアのリストで標識され、切断のエッジがマッピングされたリードペア配列に対応する、工程、および、
マッピングされた結合部の閾値数よりも少数のエッジを除外する工程、
を含むことを特徴とする、方法である。
103. 閾値数が5%未満である、列挙された実施形態102に記載の方法により実施される。
104. 閾値数がtL結合よりも少ない、列挙された実施形態102に記載の方法により実施される。
105. コンティグ長さに対する対応ノードのグラフ中の程度の比が塩基対であるエッジを含むコンティグは、分布のすべての値の上限の約5%を超過する、列挙された実施形態102の方法により実施される。
106. コンティグがゲノムに由来する、列挙された実施形態102-105のいずれか1つに記載の方法により実施される。
107. コンティグが複数のゲノムに由来する、列挙された実施形態102ー105のいずれか1つに記載の方法により実施される。
108. 少なくとも1つのスキャフォールドへコンティグ配列情報をアセンブルする方法であって、当該方法が、
複数のコンティグに対応する配列情報を得る工程、
複数のコンティグによって示される核酸サンプルからペアエンドリード情報を得る工程、および、
予測されるリードペア距離データセットからのリードペア距離パラメータの偏差が最小化されるように複数のコンティグを構成する工程であって、当該構成する工程が8時間未満で生じる、工程、
を含むことを特徴とする、方法である。
109. 予測されるリードペア距離データセットが、リードペア距離尤度曲線を含む、列挙された実施形態108に記載の方法により実施される。
110. リードペア距離パラメータが、リードペア距離尤度曲線に対して最大距離尤度である、列挙された実施形態108または109に記載のいずれか1つに記載の方法により実施される。
111. リードペア距離パラメータが、リードペア距離尤度曲線に対して最小限の変動である、列挙された実施形態108または109のいずれか1つに記載の方法により実施される。
112. コンティグの局所的に隣接したセットが2つのコンティグを含む、列挙された実施形態108-111のうちいずれか1つに記載の方法により実施される。
113. 前期コンティグの局所的に隣接したセットが3つのコンティグを含む、列挙された実施形態108-111のうちいずれか1つに記載の方法により実施される。
114. 前期コンティグの局所的に隣接したセットが4つのコンティグを含む、列挙された実施形態108-111のうちいずれか1つに記載の方法により実施される。
115. 前期コンティグの局所的に隣接したセットが5つのコンティグを含む、列挙された実施形態108-111のうちいずれか1つに記載の方法により実施される。
116. 前期コンティグの局所的に隣接したセットが6つのコンティグを含む、列挙された実施形態108-111のうちいずれか1つに記載の方法。
117. 構成が7時間未満以内に生じる、列挙された実施形態108-116のいずれか1つの方法により実施される。
118. 構成が6時間未満以内に生じる、列挙された実施形態108-116のいずれか1つの方法により実施される。
119. 構成が5時間未満以内に生じる、列挙された実施形態108-116のいずれか1つの方法により実施される。
120. 構成が4時間未満以内に生じる、列挙された実施形態108-116のいずれか1つの方法により実施される。
121. 構成が3時間未満以内に生じる、列挙された実施形態108-116のいずれか1つの方法により実施される。
122. 構成が2時間未満以内に生じる、列挙された実施形態108-116のいずれか1つの方法により実施される。
123. 構成が1時間未満以内に生じる、列挙された実施形態108-116のいずれか1つの方法により実施される。
124. コンティグ情報がゲノムに由来する、列挙された実施形態108-123のいずれか1つに記載の方法により実施される。
125. コンティグ配列情報が複数のゲノムに由来する、列挙された実施形態108-123のいずれか1つに記載の方法により実施される。
126. コンティグ配列のセットをスキャフォールドする方法であって、当該方法が、
核酸サンプルの代表的なコンティグ配列のセットを得る工程、
核酸サンプル用のリードペアデータを得る工程、および、
核酸サンプル用のリードペアが予想されるリードペア分布により近く近似するようにコンティグ配列のセットを順序付けし、配向する工程であって、当該コンティグ配列のセットの70%が、わずか8時間で核酸サンプル中においてそれらの配列の相対的な順序と配向に一致するように順序付けられ、配向される、工程、
を含むことを特徴とする、方法である。
127. スキャフォールドする工程が、コンティグのセットを順序付ける工程を含む、列挙された実施形態126に記載の方法により実施される。
128. スキャフォールドする工程は、コンティグのセットを配向する工程を含む、列挙された実施形態126に記載の方法。
129. スキャフォールドする工程は少なくとも2つのコンティグの端と端を融合する工程を含む、列挙された実施形態126に記載の方法。
130. スキャフォールドする工程は1つのコンティグを第2のコンティグに挿入する工程を含む、列挙された実施形態126に記載の方法。
131. スキャフォールドする工程はコンティグを少なくとも2つの構成コンティグへと切断する工程を含む、列挙された実施形態126に記載の方法。
132. コンティグ配列のセットの80%は、わずか8時間で核酸サンプル中のそれらの配列の相対的な順序と配向に一致するように、順序付けされ、および配向される、列挙された実施形態126に記載の方法。
133. コンティグ配列のセットの90%は、わずか8時間で核酸サンプル中のそれらの配列の相対的な順序と配向に一致するように順序付けされ、および配向される、列挙された実施形態126に記載の方法。
134. コンティグ配列のセットの95%は、わずか8時間で核酸サンプル中のそれらの配列の相対的な順序と配向に一致するように順序付けされ、および配向される、列挙された実施形態126に記載の方法。
135. コンティグ配列のセットの70%は、わずか4時間で核酸サンプル中のそれらの配列の相対的な順序と配向に一致するように順序付けされ、および配向される、列挙された実施形態126に記載の方法。
136. コンティグ配列のセットの70%は、わずか2時間で核酸サンプル中のそれらの配列の相対的な順序と配向に一致するように順序付けされ、および配向される、列挙された実施形態126に記載の方法。
137. コンティグ配列のセットの70%は、わずか1時間で核酸サンプル中のそれらの配列の相対的な順序と配向に一致するように順序付けされ、および配向される、列挙された実施形態126に記載の方法。
138. コンティグ配列のセットはゲノムに由来する、列挙された実施形態126-137のいずれか1つに記載の方法。
139. コンティグ配列のセットは複数のゲノムに由来する、列挙された実施形態126-137のいずれか1つに記載の方法。
140. 核酸配列データのセットを構成する方法であって、
複数のコンティグに対応する配列情報を得る工程、ペアエンドリード情報を得る工程、および、ペアエンドリード情報のためのペアエンドリード距離分布が、基準のペアエンドリード距離分布に近似するように全体的に最適化されるように、複数のコンティグを構成する工程を含み、
上記の構成はわずか8時間で生じる、方法。
141. 核酸配列データのセットはゲノムに由来する、列挙された実施形態140に記載の方法。
142. 核酸配列データのセットは複数のゲノムに由来する、列挙された実施形態140に記載の方法。
143. 上記の構成はわずか4時間で生じる、列挙された実施形態140に記載の方法。
144. 上記の構成はわずか2時間で生じる、列挙された実施形態140に記載の方法。
145. スキャフォールドのアセンブリを改善する方法であって、
複数の連結したノードペアを含むスキャフォールドセットを得る工程であって、ノードペアの各ノードが少なくとも1つのコンティグ配列を含む、工程と、複数の連結したノードにマッピングされたペアエンドリード情報を得る工程と、連結されたノードペアによって共有されるリードペアの数を数える工程と、上記数を閾値と比較する工程と、上記数が閾値以下である場合にノードペアを連結していないノードへと切断する工程を含む、方法。
146. 固有のコンティグ配列にマッピングされたリードペアだけが数えられる、列挙された実施形態145に記載の方法。
147. 異なるペアエンド閾値数がマッピングされるコンティグ配列セグメントに対するリードペアのマッピングは廃棄される、列挙された実施形態145に記載の方法。
148. 閾値数は非反復配列について代表数の3倍である、列挙された実施形態145に記載の方法。
149. スキャフォールドセットはゲノムを含む、列挙された実施形態145-148のいずれか1つに記載の方法。
150. スキャフォールドセットは複数のゲノムを含む、列挙された実施形態145-148のいずれか1つに記載の方法。
151. スキャフォールドのアセンブリを改善する方法であって、
複数の連結したノードペアを含むスキャフォールドセットを得る工程であって、ノードペアの各ノードが少なくとも1つのコンティグ配列を含む、工程と、連結されたノードペアによって共有されるリードペアの数を数える工程と、上記数を閾値と比較する工程と、標準的なペアエンドリード距離度数データを得る工程と、複数の連結されたノードにマッピングされたペアエンドリード情報に関するペアエンドリード度数データを、標準的なペアエンドリード距離度数データと比較する工程と、連結されたノードの切断が、標準的なペアエンドリード距離度数データにより近く近似する複数の連結されたノードにマッピングされたペアエンドリード情報のためのペアエンドリード度数データをもたらす場合に、少なくとも1つの連結したノードを切断する工程とを含む、方法。
152. スキャフォールドセットはゲノムを含む、列挙された実施形態151に記載の方法。
153. スキャフォールドセットは複数のゲノムを含む、列挙された実施形態151に記載の方法。
154.スキャフォールドのアセンブリの方法であって、
1セットのコンティグを得る工程と、ペアエンドリードを含む入力データを得る工程であって、ペアエンドリードの少なくとも1%が少なくとも1kbのリードペア距離を含み、ペアエンドリードのセットが自然配向のペアエンドリードを含み、リードペアのための配列決定のエラー率が0.1%以下であり、および入力データのRN50が組み立てられたスキャフォールドの20%以下である、工程と、
スキャフォールドを出力する工程であって、スキャフォールドのRN50が入力のRN50の少なくとも2倍である、工程を含む、方法。
155. スキャフォールドのRN50が入力のRN50の少なくとも10倍である、列挙された実施形態154に記載の方法。
156. スキャフォールドのアセンブリの方法であって、
T0コンティグ配列を含むコンティグ配列のセットを得る工程と、ペアエンドリードのセットを得る工程であって、ペアエンドリードの少なくとも1%が少なくとも1kbのリードペア距離を含み、ペアエンドリードのセットが自然配向のペアエンドリードを含み、リードペアのための配列決定のエラー率が0.1%以下である、工程と、T1コンティグ配列を含むスキャフォールドを出力する工程であって、T1<T0である、工程を含む、方法。
157. T1は3未満である、列挙された実施形態156に記載の方法。
158. T1はT0の10%未満である、列挙された実施形態156に記載の方法。
159. T1はT0の1%未満である、列挙された実施形態156に記載の方法。
160. コンティグ配列のセットはゲノムを含む、列挙された実施形態156-159のいずれか1つに記載の方法。
161. コンティグ配列のセットは複数のゲノムを含む、列挙された実施形態156-159のいずれか1つに記載の方法。
162. 核酸配列データ処理の方法であって、
リードペアを含む入力データを受け取る工程であって、上記リードペアの少なくとも1%が少なくとも1kbによっておよび自然配向に分離した2つの核酸セグメントからの配列データを含み、入力データ用のRN50がアセンブルしたスキャフォールドの20%以下であり、および、上記入力データのエラー率が0.1%以下である、工程と、
スキャフォールドを含む出力データを出力する工程であって、出力データのRN50が入力のRN50の少なくとも2倍である、工程を含む、方法。
163. 出力データのRN50が入力のRN50少なくとも10倍である、列挙された実施形態162に記載の方法。
164. スキャフォールドは正確な順序と配向の標的ゲノムのサンプル配列の少なくとも90%を含む、列挙された実施形態162に記載の方法。
165. スキャフォールドは正確な順序と配向の標的ゲノムのサンプル配列の少なくとも99%を含む、列挙された実施形態162に記載の方法。
166. コンティグ配列のセットはゲノムを含む、列挙された実施形態162-165のいずれか1つに記載の方法。
167. コンティグ配列のセットは複数のゲノムを含む、列挙された実施形態162-165のいずれか1つに記載の方法。
168. 核酸配列データ処理の方法であって、
リードペアを含む前処理されたデータセットを出力する工程であって、上記リードペアの少なくとも1%が少なくとも1kbによっておよび自然配向に分離された2つの核酸セグメントからの配列データを含み、前処理されたデータセットのRN50がアセンブルされたスキャフォールドの20%以下であり、および上記出力データの誤り率が0.1%以下である、工程と、
スキャフォールドを含む処理されたデータセットを受け取る工程であって、出力データのRN50が入力のRN50の少なくとも2倍である、工程を含む、方法。
169. 出力データのRN50が入力のRN50の少なくとも10倍である、列挙された実施形態168に記載の方法。
170. スキャフォールドは正確な順序と配向の標的ゲノムのサンプル配列の少なくとも90%を含む、列挙された実施形態168に記載の方法。
171. スキャフォールドは正確な順序と配向の標的ゲノムのサンプル配列の少なくとも99%を含む、列挙された実施形態168に記載の方法。
172. 上記リードペアの少なくとも10%は少なくとも1kbによっておよび自然配向に分離された2つの核酸セグメントからの配列データを含む、列挙された実施形態168に記載の方法。
173. 核酸配列データ処理を方法であって、
リードペアを含む入力データを受け取る工程であって、上記リードペアの少なくとも1%が少なくとも1kbによっておよび自然配向に分離した2つの核酸セグメントからの配列データを含み、入力データのRN50がアセンブルしたスキャフォールドの20%以下であり、および、上記出力データのエラー率が0.1%以下である、工程と、
および、スキャフォールドを含む出力データを出力する工程であって、出力データのN50が入力のN50少なくとも2倍である、工程を含む、方法。
174. 出力データのN50は入力のRN50の少なくとも10倍である、列挙された実施形態173に記載の方法。
175. スキャフォールドは正確な順序と配向の標的ゲノムのサンプル配列の少なくとも90%を含む、列挙された実施形態173に記載の方法。
176. スキャフォールドは正確な順序と配向の標的ゲノムのサンプル配列の少なくとも99%を含む、列挙された実施形態173に記載の方法。
177. 上記リードペアの少なくとも10%は少なくとも1kbによっておよび自然配向に分離された2つの核酸セグメントからの配列データを含む、列挙された実施形態173に記載の方法。
178. 核酸配列データ処理を含む方法であって、
リードペアを含む前処理されたデータセットを出力する工程であって、上記リードペアの少なくとも1%が少なくとも1kbによっておよび自然配向に分離した2つの核酸セグメントからの配列データを含み、入力データのRN50がアセンブルしたスキャフォールドの20%以下であり、および、上記出力データのエラー率が0.1%以下である、工程と、
および、スキャフォールドを含む処理されたデータセットを受け取る工程であって、処理データのN50が前処理されたデータセットのN50の少なくとも2倍である、工程を含む、方法。
179. 出力データのN50は入力のRN50の少なくとも10倍である、列挙された実施形態178に記載の方法。
180. スキャフォールドは正確な順序と配向の標的ゲノムのサンプル配列の少なくとも90%を含む、列挙された実施形態178に記載の方法。
181. スキャフォールドは正確な順序と配向の標的ゲノムのサンプル配列の少なくとも99%を含む、列挙された実施形態178に記載の方法。
182. 上記リードペアの少なくとも10%は少なくとも1kbによっておよび自然配向に分離された2つの核酸セグメントからの配列データを含む、列挙された実施形態178に記載の方法。
183. 核酸配列データはゲノムに由来する、列挙された実施形態178-182のいずれか1つに記載の方法。
184. 核酸配列データは複数のゲノムに由来する、列挙された実施形態178-182のいずれか1つに記載の方法。
185. 少なくとも1つのペアエンドリードを共有する2つの核酸コンティグを連結する尤度を評価する方法であって、
第1のコンティグに対するマッピングされたショットガンリードの密度を判定する工程と、第2のコンティグに対するマッピングされたショットガンリードの密度を判定する工程と、第1のコンティグと第2のコンティグを連結するための尤度スコアを判定する工程と、第1のコンティグに対するマッピングされたショットガンリードの密度が第2のコンティグに対するマッピングされたショットガンリードの密度と大きく異なるときに、尤度スコアを減少させる工程とを含む、方法。
186. 尤度スコアは対数尤度スコアである、列挙された実施形態185に記載の方法。
187. 尤度スコアは本明細書で示される通りに減少する、列挙された実施形態185に記載の方法。
188. 尤度スコアは、第1のコンティグに対するマッピングされたショットガンリードの密度と第2のコンティグに対するマッピングされたショットガンリードの密度の小さい方対大きい方の比率として減少する、列挙された実施形態185に記載の方法。
189. 2つの核酸コンティグは異質的なサンプルに由来する、列挙された実施形態185に記載の方法。
190. 2つの核酸コンティグはメタゲノミクスサンプルに由来する、列挙された実施形態185に記載の方法。
191. 2つの核酸コンティグは別々の個々の生体に由来する、列挙された実施形態185に記載の方法。
192. 2つの核酸コンティグは別々の種に由来する、列挙された実施形態185に記載の方法。
193. プロセッサを含む、コンピュータは、核酸配列情報のコンティグをスキャフォールドするためのコンピュータにより実施されるシステムであって、当該プロセッサが、
初期の構成を有するコンティグ配列のセットを受け取り、
ペアエンドリードのセットを受け取り、
標準的なペアエンドリード距離度数データを受け取り、
少なくとも1つのペアエンドリード中に共存する配列を共有するコンティグペアがグループ分けされるように、コンティグペアを処理し、
コンティグを分離するためにマッピングされるリードペアのリードペア距離度数データが、初期の構成のコンティグ配列のリードペア度数データに対して標準的なペアエンドリード距離度数データにより近く近似するように、グループ化されたコンティグ配列をスキャフォールドし、および、
ネットワーク、スクリーン、またはサーバーへ処理されたコンティグスキャフォールドを出力する、ように構成される、システム。
194. スキャフォールドすることはコンティグのセットを順序付けることを含む、列挙された実施形態193に記載のコンピュータにより実施されるシステム。
195. スキャフォールドすることはコンティグのセットを配向することを含む、列挙された実施形態193に記載のコンピュータにより実施されるシステム。
196. スキャフォールドすることは少なくとも2つのコンティグの端から端を融合することを含む、列挙された実施形態193に記載のコンピュータにより実施されるシステム。
197. スキャフォールドすることは第1のコンティグを第2のコンティグに挿入することを含む、列挙された実施形態193に記載のコンピュータにより実施されるシステム。
198. スキャフォールドすることはコンティグを少なくとも2つの構成コンティグへと切断することを含む、列挙された実施形態193に記載のコンピュータにより実施されるシステム。
199. 標準的なペアエンドリード度数は 両方のリードが共通のコンティグにマッピングされるペアエンドリードから得られる、列挙された実施形態193に記載のコンピュータにより実施されるシステム。
200. 標準的なペアエンドリード度数は、事前に生成された曲線から得られる、列挙された実施形態193に記載のコンピュータにより実施されるシステム。
201. 初期の構成は無作為の構成である、列挙された実施形態193に記載のコンピュータにより実施されるシステム。
202. コンティグを分離するためにマッピングされるリードペアのリードペア距離度数データは、リードペア距離尤度が増大するときにペアエンドリード距離度数データにより近く近似する、列挙された実施形態193に記載のコンピュータにより実施されるシステム。
203. リードペア距離尤度は最大化される、列挙された実施形態202に記載のコンピュータにより実施されるシステム。
204. コンティグを分離するためにマッピングされるリードペアのリードペア距離度数データは、リードペアの距離度数データと標準的なペアエンドリード距離度数データとの間の差の統計的尺度が減少する際に、ペアエンドリード距離度数データにより近く近似する、列挙された実施形態193に記載のコンピュータにより実施されるシステム。
205. リードペア距離度数データと標準的なペアエンドリード距離度数データとの間の距離の統計的尺度は、ANOVA、t検定、およびX2乗検定の少なくとも1つを含む、列挙された実施形態204に記載のコンピュータにより実施されるシステム。
206. コンティグを分離するためにマッピングされるリードペアのリードペア距離は、標準的なペアエンドリード距離度数と比較して得られた順序付けされたコンティグ中のリードペア距離分布の偏差が減少するときに、ペアエンドリード距離度数データと厳密に一致する、列挙された実施形態193に記載のコンピュータにより実施されるシステム。
207. 標準的なペアエンドリード距離度数と比較して得られた順序付けされたコンティグ中のリードペア距離分布の偏差は最小限に抑えられる、列挙された実施形態206に記載のコンピュータにより実施されるシステム。
208. 第1のクラスターと第2のクラスターに関連するペアエンドリード中の配列を共有するコンティグは、より多くの共有される末端リードを有するクラスターに割り当てられる、列挙された実施形態193に記載のコンピュータにより実施されるシステム。
209. クラスター化は、生体中の染色体の数以上である多くのグループにコンティグをグループ分けすることを含む、列挙された実施形態193-208のいずれか1つに記載のコンピュータにより実施されるシステム。
210. 単一のペアエンドリードのみをクラスターの1つのコンティグと共有するコンティグは、そのクラスターには含まれない、列挙された実施形態193-209のいずれか1つに記載のコンピュータにより実施されるシステム。
211. 反復配列を含む少なくとも1つのペアエンドリードのみをクラスターと共有するコンティグは、そのクラスターには含まれない、列挙された実施形態193-210のいずれか1つに記載のコンピュータにより実施されるシステム。
212. 低品質の配列を含む少なくとも1つのペアエンドリードのみをクラスターと共有するコンティグは、そのクラスターには含まれない、列挙された実施形態193-211のいずれか1つに記載のコンピュータにより実施されるシステム。
213. ペアエンドリードのセットは、核酸内で内部二本鎖切断を生じさせるためにサンプルDNAを消化し、少なくとも1つの再連結接合部を形成するために二本鎖切断を再連結し、および少なくとも1つの再連結接合部にわたって配列決定することにより得られる、列挙された実施形態193-212のいずれか1つに記載のコンピュータにより実施されるシステム。
214. DNAは少なくとも1つのDNA結合剤に架橋される、列挙された実施形態213に記載のコンピュータにより実施されるシステム。
215. DNAは分離された裸のDNAである、列挙された実施形態213に記載のコンピュータにより実施されるシステム。
216. 分離されたDNAは再構成された染色質へ再度アセンブルされる、列挙された実施形態214に記載のコンピュータにより実施されるシステム。
217. 再構成された染色質は架橋される、列挙された実施形態216に記載のコンピュータにより実施されるシステム。
218. 再構成された染色質はDNA結合タンパク質を含む、列挙された実施形態216に記載のコンピュータにより実施されるシステム。
219. 再構成された染色質はナノ粒子を含む、列挙された実施形態216に記載のコンピュータにより実施されるシステム。
220. コンティグのクラスター化は生体に関して数または染色体とは無関係である、列挙された実施形態193-219のいずれか1つに記載のコンピュータにより実施されるシステム。
221. 第1のクラスターと第2のクラスターに関連するペアエンドリード中の配列を共有するコンティグは、より多くの数の共有される末端リードを有するクラスターに割り当てられる、列挙された実施形態193-220のいずれか1つに記載のコンピュータにより実施されるシステム。
222. 第1のクラスターと第2のクラスターに関連するペアエンドリード中の配列を共有するコンティグは、より大きなリードペア距離尤度値を有するクラスターに割り当てられる、列挙された実施形態193-220のいずれか1つに記載のコンピュータにより実施されるシステム。
223. 第1のクラスターと第2のクラスターに関連するペアエンドリード中の配列を共有するコンティグは、標準的なリードペア距離分布と比較してそのリードペア分布中で偏差が少ないクラスターに割り当てられる、列挙された実施形態193-220のいずれか1つに記載のコンピュータにより実施されるシステム。
224. 第1のクラスターと第2のクラスターに関連したペアエンドリードの中の配列を共有するコンティグは、各クラスターから除外される、列挙された実施形態193-221のいずれか1つに記載のコンピュータにより実施されるシステム。
225. クラスター化は、生体中の染色体の数以上である多くのグループにコンティグを分類することを含む、列挙された実施形態193-224のいずれか1つに記載のコンピュータにより実施されるシステム。
226. スキャフォールドすることは、クラスター化されたコンティグの推定上の隣接するコンティグの第1のセットを選択すること、上記リードペアに関してリードペアの距離の総計尺度を減少させる推定上の隣接するコンティグの第1のセットの最小限の距離順序を決定すること、および、リードペア距離の総計尺度を減少させるために、推定上の隣接するコンティグの第1のセットをスキャフォールドすることを含む、列挙された実施形態193-225のいずれか1つに記載のコンピュータにより実施されるシステム。
227. 推定上の隣接するコンティグの第1のセットが2つのコンティグからなる、列挙された実施形態226に記載のコンピュータにより実施されるシステム。
228. 推定上の隣接するコンティグの第1のセットが3つのコンティグからなる、列挙された実施形態226に記載のコンピュータにより実施されるシステム。
229. 推定上の隣接するコンティグの第1のセットが4つのコンティグからなる、列挙された実施形態226に記載のコンピュータにより実施されるシステム。
230. 推定上の隣接するコンティグの第1のセットが4つのコンティグを含む、列挙された実施形態226に記載のコンピュータにより実施されるシステム。
231. スキャフォールドすることは、推定上の隣接するコンティグの第1のセットにおける各コンティグの順序と配向を決定することを含む、列挙された実施形態226に記載のコンピュータにより実施されるシステム。
232. 最小限の距離順序を決定することは、すべての可能なコンティグ構成についての上記の設定の2つのコンティグに対するリードマッピングを含む少なくとも1つのリードペアのための予想されるリードペア距離を比較することを含む、列挙された実施形態226-227のいずれか1つに記載のコンピュータにより実施されるシステム。
233. 上記のリードペアの最小限のリードペア距離に対応するコンティグ配向を選択することをさらに含む、列挙された実施形態232に記載のコンピュータにより実施されるシステム。
234. 最大尤度のリードペア距離分布に対応するコンティグ配向を選択することをさらに含む、列挙された実施形態232に記載のコンピュータにより実施されるシステム。
235. 上記のコンティグクラスターのリードペアの総計尺度のための最小限のリードペア距離に対応するコンティグ配向を選択することをさらに含む、列挙された実施形態232-233のいずれか1つに記載のコンピュータにより実施されるシステム。
236. 予想されるリードペア距離は、上記ペアエンドリード距離度数データと比較される、列挙された実施形態232-235のいずれか1つに記載のコンピュータにより実施されるシステム。
237. 上記ペアエンドリード距離度数データと比較することは、式1を用いることを含む、列挙された実施形態236に記載のコンピュータにより実施されるシステム。
238. 上記クラスター化されたコンティグの推定上の隣接するコンティグの第2のセットを選択することであって、上記第2のセットが上記第1のセットの1つのエンド末端のコンティグを除くすべてと、上記クラスター化されたコンティグの1つの追加のコンティグを含む、ことと、リードペアの距離の上記総計尺度を減少させるために、推定上の隣接するコンティグの第2のセットをスキャフォールドすることとをさらに含む、列挙された実施形態226-237のいずれか1つに記載のコンピュータにより実施されるシステム。
239. 上記クラスター化されたコンティグの推定上の隣接するコンティグの第3のセットを選択することであって、上記第3のセットが上記第2のセットの1つのエンド末端のコンティグを除くすべてと、第1のセットと第2のセットに含まれない上記クラスター化されたコンティグの1つの追加のコンティグを含む、ことと、リードペアの距離の上記総計尺度を減少させるために、推定上の隣接するコンティグの第3のセットをスキャフォールドすることとをさらに含む、列挙された実施形態238に記載のコンピュータにより実施されるシステム。
240. 上記クラスター化されたコンティグの大部分が順序付けされるまで、少なくとも1つの追加のセットを繰り返し選択することをさらに含む、列挙された実施形態239に記載のコンピュータにより実施されるシステム。
241. 上記クラスター化されたコンティグの各々が順序付けされるまで、少なくとも1つの追加のセットを繰り返し選択することをさらに含む、列挙された実施形態240に記載のコンピュータにより実施されるシステム。
242. 核酸配列はゲノムに由来する、列挙された実施形態193-241のいずれか1つに記載のコンピュータにより実施されるシステム。
243. 核酸配列は複数のゲノムに由来する、列挙された実施形態193-241のいずれか1つに記載のコンピュータにより実施されるシステム。
244. クラスター中のコンティグをスキャフォールドするためのコンピュータにより実施されるシステムであって、該システムはプロセッサを含み、プロセッサはコンティグのセットを受け取り、
a)各ペアのコンティグについて対数尤度比スコアを割り当て、
b)対数尤度比スコアによって接続を分類し、
および、c)アセンブリの合計スコアを増加させるために、尤度比スコアの次数を減少させる際にコンティグ接続を受け入れるかまたは拒否することによって、上記コンティグを処理し、
ならびに、ネットワーク、スクリーン、またはサーバーへ処理されたコンティグスキャフォールドを出力するように構成される、コンピュータにより実施されるシステム。
245. スキャフォールドすることはコンティグのセットを順序付けることを含む、列挙された実施形態244に記載のコンピュータにより実施されるシステム。
246. スキャフォールドすることはコンティグのセットを配向させることを含む、列挙された実施形態244に記載のコンピュータにより実施されるシステム。
247. スキャフォールドすることは少なくとも2つのコンティグの端から端を融合することを含む、列挙された実施形態244に記載のコンピュータにより実施されるシステム。
248. スキャフォールドすることは1つのコンティグを第2のコンティグに挿入することを含む、列挙された実施形態244に記載のコンピュータにより実施されるシステム。
249. スキャフォールドすることはコンティグを少なくとも2つの構成コンティグへと切断することを含む、列挙された実施形態244に記載のコンピュータにより実施されるシステム。
250. コンティグはゲノムを含む、列挙された実施形態244に記載のコンピュータにより実施されるシステム。
251. コンティグは複数のゲノムを含む、列挙された実施形態244に記載のコンピュータにより実施されるシステム。
252. クラスター内の複数のコンティグの局所的に最適なコンティグ構成を決定するためのコンピュータにより実施されるシステムであって、コンピュータにより実施されるシステムはプロセッサを含み、プロセッサは、
コンティグのセットを受け取り;
a)コンティグのクラスターに沿った位置iから始まるサイズwのコンティグの配列ウインドウを特定すること、
b)ウインドウ中の各位置iにおける適合性のある順序と配向のスコアを調べることによりウインドウwのコンティグ用のw!2w順序付けと配向のオプションを考慮することと、
c)最適なスコアを得るために、上記ウインドウ中の上記wコンティグを配向して順序付けすることと、
d)i+1の位置を決めるためにウインドウを変えることと、および、
e)最適なスコアを決定するために、上記wコンティグの配向と順序付けを用いて、位置i+1で上記ウインドウについて工程(a)、(b)、および(c)を繰り返すこと、によってコンティグの上記セットを処理し、
それにより、スコアに対する局所的に最適な構成中の上記複数のコンティグを配向および順序付けし;
ならびに、ネットワーク、スクリーン、またはサーバーに局所的に最適な構成を出力する、ように構成される、コンピュータにより実施されるシステム。
253. クラスター中の複数のコンティグにマッピングされるリードペアデータが得られ、標準的なペアエンドリード度数データセットが得られ、および、上記のwコンティグを配向させ、および順序付けるためのスコアは、クラスター中の複数のコンティグにマッピングされるリードペアデータのためのリードペア距離データセットが標準的なペアエンドリード度数データセットにどれだけより近く一致するかの尺度である、列挙された実施形態252に記載のコンピュータにより実施されるシステム。
254. クラスター中の複数のコンティグにマッピングされるリードペアデータが得られ、スコアは完全なリードペア距離であり、および、完全なリードペア距離が最小限に抑えられるとき、スコアは最適化される、列挙された実施形態252に記載のコンピュータにより実施されるシステム。
255. wは3である、列挙された実施形態252に記載のコンピュータにより実施されるシステム。
256. wは4である、列挙された実施形態252に記載のコンピュータにより実施されるシステム。
257. wは5である、列挙された実施形態252に記載のコンピュータにより実施されるシステム。
258. wは6である、列挙された実施形態252に記載のコンピュータにより実施されるシステム。
259. wは第1のクラスターに対する第1の値を有し、wは第2のクラスターで第2の値を有する、列挙された実施形態252に記載のコンピュータにより実施されるシステム。
260. wはセットのコンティグの1%を含むように選択される、列挙された実施形態252に記載のコンピュータにより実施されるシステム。
261. wはセットのコンティグの5%を含むように選択される、列挙された実施形態252に記載のコンピュータにより実施されるシステム。
262. wはセットのコンティグの1%を含むように選択される、列挙された実施形態252に記載のコンピュータにより実施されるシステム。
263. スコアはリードペア距離尤度スコアであり、スコアは、所定のウィンドウサイズについて最大化されるときに最適である、列挙された実施形態252に記載のコンピュータにより実施されるシステム。
264. スコアは式1を使用して計算される、列挙された実施形態263に記載のコンピュータにより実施されるシステム。
265. スコアは予想されるリードペア分布からの偏差であり、スコアは所定のウィンドウサイズについて最小限に抑えられるときに最適である、列挙された実施形態252に記載のコンピュータにより実施されるシステム。
266. 複数のコンティグはゲノムを含む、列挙された実施形態252-265に記載のいずれか1つに記載のコンピュータにより実施されるシステム。
267. 複数のコンティグは複数のゲノムを含む、列挙された実施形態252-265のいずれか1つに記載のコンピュータにより実施されるシステム。
268. 核酸配列アセンブリのための方法であって、
a)精製されたDNAを得る工程と、
b)DNA/染色質複合体を形成するために精製されたDNAをDNA結合剤に結合させる工程と、
c)粘着末端を残すために制限酵素でDNA染色質複合体をインキュベートする工程と、
d)DNAの末端を連結するために連結反応を行う工程と、;
e)ペアエンドリードを生成するために連結されたDNA接合部全体を配列決定する工程と、および、
f)ペアエンドリードを受け取るとともに処理し、ネットワーク、スクリーン、またはサーバーに、精製されたDNAの配列を表すコンティグを含むスキャフォールド核酸データセットを出力するように構成されたプロセッサを含む、コンピュータにより実施されるシステムを使用する工程とを含む、方法。
269. 精製されたDNAはゲノムに由来する、列挙された実施形態268に記載の方法。
270. 精製されたDNAは複数のゲノムに由来する、列挙された実施形態268に記載の方法。
271. 反復のコンティグ領域に対するリードペアの配列リードマッピングを特定するためのコンピュータにより実施されるシステムであって、該システムはプロセッサを含み、該プロセッサは、核酸サンプル用のコンティグデータセットを受け取り、隣接していない物理的に連結した配列情報に対応する少なくとも1つのリードペアの配列リードを受け取り、および、リードペアの配列リードの少なくとも1つのリードがコンティグデータセットの2つの異なる座位にマッピングされる場合に、リードペアの配列リードを除外する、ように構成される、コンピュータにより実施されるシステム。
272. 反復領域は、第1の閾値を超えるショットガンリード深さを有する配列を含む、列挙された実施形態271に記載のコンピュータにより実施されるシステム。
273. 反復領域は、第2の閾値を越えるリード深さを有する塩基位置を含む、列挙された実施形態272に記載のコンピュータにより実施されるシステム。
274. 第1の閾値と第2の閾値はリード深さの全体的な分布に対して固定される、列挙された実施形態273に記載のコンピュータにより実施されるシステム。
275. 第1の閾値はリード深さの全体的な分布の3倍である、列挙された実施形態274に記載のコンピュータにより実施されるシステム。
276. 第2の閾値はリード深さの全体的な分布の3.5倍である、列挙された実施形態274に記載のコンピュータにより実施されるシステム。
277. 核酸サンプルはゲノムを含む、列挙された実施形態271-276のいずれか1つに記載のコンピュータにより実施されるシステム。
278. 核酸サンプルは複数のゲノムを含む、列挙された実施形態271-276のいずれか1つに記載のコンピュータにより実施されるシステム。
279. プロセッサを含む、コンティグアセンブリ決定をガイドするためのコンピュータにより実施されるシステムであって、該プロセッサは、
コンティグデータセットを受け取ること、第1のコンティグと第2のコンティグとの間にまたがるリードペア配列の数と黙示的な分離を観察する確率を決定するためにデータセットを処理することであって、コンティグがセット[++、+-、-+、--]内のoの相対的な配向を有し、ギャップ長により分離される、こと、および、ネットワーク、スクリーン、またはサーバーへデータセットと決定された確率とを出力することを行うように構成される、システム。
280. 分離距離にわたるリードペア配列の分布の確率を正規化する工程を含み、正規化は、リードペア配列を、核酸サンプルを独立してサンプリングするノイズペアと比較することを含む、列挙された実施形態279に記載のコンピュータにより実施されるシステム。
281. 核酸サンプルはゲノムを含む、列挙された実施形態280に記載のコンピュータにより実施されるシステム。
282. 核酸サンプルは複数のゲノムを含む、列挙された実施形態280に記載のコンピュータにより実施されるシステム。
283. ノイズペアの総数はコンティグペアのサンプルに関する連結の密度を集計することにより決定される、列挙された実施形態280に記載のコンピュータにより実施されるシステム。
284. 密度の最大と最少の1%が除外される、列挙された実施形態283に記載のコンピュータにより実施されるシステム。
285. コンティグ順序を決定することをさらに含む、列挙された実施形態279に記載のコンピュータにより実施されるシステム。
286. コンティグ配向を決定することをさらに含む、列挙された実施形態279に記載のコンピュータにより実施されるシステム。
287. プロセッサを含むコンティグ誤連結部修正のためのコンピュータにより実施されるシステムであって、該プロセッサは、
初期の構成を有するコンティグ配列のセットを受け取り、
ペアエンドリードのセットを受け取り、
標準的なペアエンドリード距離度数データを受け取り、
少なくとも1つのペアエンドリード中に共存する配列を共有するグループへとコンティグペアを処理し、
標準的なペアエンドリード距離度数データと比較することと、および、グループ分けのコンティグ中に切断を導入することにより、コンティグのグループ分けのためのリードペア度数データが標準的なペアエンドリード距離度数データにより近く近似するかどうかを判定することとによって、コンティグのグループ分けに関してリードペア度数データを処理し、および、
もし近似する場合に、上記切断を導入し、ならびに、
ネットワーク、スクリーン、またはサーバーへ処理されたコンティグデータセットを出力するように構成される、システム。
288. 第1の位置は、切断を導入する前に、上記閾値以下の対数尤度を有する少なくとも1つの隣接する第2の位置と融合される、列挙された実施形態287に記載のコンピュータにより実施されるシステム。
289. 第2の隣接する位置は、第1の位置からの300以下の塩基対である、列挙された実施形態287に記載のコンピュータにより実施されるシステム。
290. 第2の位置は、第1の位置からの1000を超える塩基ペアの位置を含まない、列挙された実施形態287に記載のコンピュータにより実施されるシステム。
291. 対数尤度の変化の判定は、コンティグの平均的なペアエンドマッピング密度を特定すること、コンティグのセグメントを特定すること、平均的なペアエンドマッピング密度の少なくとも3倍のペアエンドマッピング密度を有するコンティグのセグメンを特定すること、および、平均的なペアエンドマッピング密度の少なくとも3倍のペアエンドマッピング密度を有するコンティグのセグメンを除外することを含む、列挙された実施形態287-290のいずれか1つに記載のコンピュータにより実施されるシステム。
292. コンティグ配列のセットはゲノムに由来する、列挙された実施形態287-291のいずれか1つに記載のコンピュータにより実施されるシステム。
293. コンティグ配列のセットは複数のゲノムに由来する、列挙された実施形態287-291のいずれか1つに記載のコンピュータにより実施されるシステム。
294. プロセッサを含む、コンティグアセンブリのためのコンピュータにより実施されるシステムであって、該プロセッサは、コンティグのセットを受け取り、かつ、以下の工程:
開始アセンブリの切断したコンティグを示す工程であって、切断されたコンティグがノードであり、切断されたコンティグのエッジが整数の順序付けられたペアのリストで標識され、切断のエッジはマッピングされたリードペア配列に対応する、工程、
および、マッピングされた接続の閾値数よりも少ないエッジを除外する工程、によってコンティグの上記セットを処理するように構成される、システム。
295. 閾値数は5%未満である、列挙された実施形態294に記載のコンピュータにより実施されるシステム。
296. 閾値数はtLリンクよりも少ない、列挙された実施形態294に記載のコンピュータにより実施されるシステム。
297. コンティグ長さに対する対応ノードのグラフ中の程度の比が塩基対であるエッジを含むコンティグは、分布のすべての値の上限の約5%を超過する、列挙された実施形態294に記載のコンピュータにより実施されるシステム。
298. コンティグはゲノムに由来する、列挙された実施形態294-297のいずれか1つに記載のコンピュータにより実施されるシステム。
299. コンティグは複数のゲノムに由来する、列挙された実施形態294-297のいずれか1つに記載のコンピュータにより実施されるシステム。
300. プロセッサを含む、少なくとも1つのスキャフォールドへコンティグ配列情報をアセンブルするコンピュータにより実施されるシステムであって、該プロセッサは、
複数のコンティグに対応する配列情報を受け取ること、複数のコンティグによって表される核酸サンプルからペアエンドリード情報を受け取ること、予測されるリードペア距離情報データセットからのリードペア距離パラメータの偏差が最小限に抑えられるように複数のコンティグを構成することによって複数のコンティグを処理することであって、この構成が8時間未満で生じること、および、ネットワーク、スクリーン、またはサーバーへ最小限に抑えられた偏差を含む上記構成されたコンティグを出力することを行うように構成される、システム。
301. 予測されたリードペア距離情報データセットはリードペア距離尤度曲線を含む、列挙された実施形態300に記載のコンピュータにより実施されるシステム。
302. リードペア距離パラメータはリードペア距離尤度曲線に対して最大距離尤度である、列挙された実施形態300-301に記載のいずれか1つに記載のコンピュータにより実施されるシステム。
303. リードペア距離パラメータはリードペア距離尤度曲線に対して最小限の変動である、列挙された実施形態300-301のいずれか1つに記載のコンピュータにより実施されるシステム。
304. コンティグの局所的に隣接するセットは2つのコンティグを含む、列挙された実施形態300-303のいずれか1つに記載のコンピュータにより実施されるシステム。
305. コンティグの局所的に隣接するセットは3つのコンティグを含む、列挙された実施形態300-303のいずれか1つに記載のコンピュータにより実施されるシステム。
306. コンティグの局所的に隣接するセットは4つのコンティグを含む、列挙された実施形態300-303のいずれか1つに記載のコンピュータにより実施されるシステム。
307. コンティグの局所的に隣接するセットは5つのコンティグを含む、列挙された実施形態300-303のいずれか1つに記載のコンピュータにより実施されるシステム。
308. コンティグの局所的に隣接するセットは6つのコンティグを含む、列挙された実施形態300-303のいずれか1つに記載のコンピュータにより実施されるシステム。
309. 構成は7時間未満で生じる、列挙された実施形態300-308のいずれか1つに記載のコンピュータにより実施されるシステム。
310. 構成は6時間未満で生じる、列挙された実施形態300-308のいずれか1つに記載のコンピュータにより実施されるシステム。
311. 構成は5時間未満で生じる、列挙された実施形態300-308のいずれか1つに記載のコンピュータにより実施されるシステム。
312. 構成は4時間未満で生じる、列挙された実施形態300-308のいずれか1つに記載のコンピュータにより実施されるシステム。
313. 構成は3時間未満で生じる、列挙された実施形態300-308のいずれか1つに記載のコンピュータにより実施されるシステム。
314. 構成は2時間未満で生じる、列挙された実施形態300-308のいずれか1つに記載のコンピュータにより実施されるシステム。
315. 構成は1時間未満で生じる、列挙された実施形態300-308のいずれか1つに記載のコンピュータにより実施されるシステム。
316. コンティグ情報はゲノムに由来する、列挙された実施形態300-315のいずれか1つに記載のコンピュータにより実施されるシステム。
317. コンティグ配列情報は複数のゲノムに由来する、列挙された実施形態300-315のいずれか1つに記載のコンピュータにより実施されるシステム。
318. プロセッサを含むコンティグ配列のセットに足場を設けるコンピュータにより実施されるシステムであって、該プロセッサは、
核酸サンプルの代表的なコンティグ配列のセットを受け取ること、核酸サンプル用のリードペアデータを受け取ること、および、核酸サンプル用のリードペアデータが予想されるリードペア分布によりより近く近似するようにコンティグのセットを順序付けて配向することにより受け取ったデータを処理することであって、コンティグ配列のセットの70%がわずか8時間で核酸サンプル中のそれらの配列の相対的な順序と配向に一致するように順序付けられ配向される、こと、
ならびに、ネットワーク、スクリーン、またはサーバーに順序付けされて配向されたデータを出力すること、を行うように構成される、システム。
319. スキャフォールドすることは、コンティグのセットを順序付けることを含む、列挙された実施形態318に記載のコンピュータにより実施されるシステム。
320. スキャフォールドすることはコンティグのセットを配向することを含む、列挙された実施形態318に記載のコンピュータにより実施されるシステム。
321. スキャフォールドすることは少なくとも2つのコンティグの端から端を融合することを含む、列挙された実施形態318に記載のコンピュータにより実施されるシステム。
322. スキャフォールドすることは1つのコンティグを第2のコンティグに挿入することを含む、列挙された実施形態318に記載のコンピュータにより実施されるシステム。
323. スキャフォールドすることはコンティグを少なくとも2つの構成コンティグへと切断することを含む、列挙された実施形態318に記載のコンピュータにより実施されるシステム。
324. コンティグ配列のセットの80%は、わずか8時間で核酸サンプル中のそれらの配列の相対的な順序と配向に一致するように、順序付けされ、および配向される、列挙された実施形態318に記載のコンピュータにより実施されるシステム。
325. コンティグ配列のセットの90%は、わずか8時間で核酸サンプル中のそれらの配列の相対的な順序と配向に一致するように順序付けされ、および配向される、列挙された実施形態318に記載のコンピュータにより実施されるシステム。
326. コンティグ配列のセットの95%は、わずか8時間で核酸サンプル中のそれらの配列の相対的な順序と配向に一致するように順序付けされ、および配向される、列挙された実施形態318に記載のコンピュータにより実施されるシステム。
327. コンティグ配列のセットの70%は、わずか4時間で核酸サンプル中のそれらの配列の相対的な順序と配向に一致するように順序付けされ、および配向される、列挙された実施形態318に記載のコンピュータにより実施されるシステム。
328. コンティグ配列のセットの70%は、わずか2時間で核酸サンプル中のそれらの配列の相対的な順序と配向に一致するように順序付けされ、および配向される、列挙された実施形態318に記載のコンピュータにより実施されるシステム。
329. コンティグ配列のセットの70%は、わずか1時間で核酸サンプル中のそれらの配列の相対的な順序と配向に一致するように順序付けされ、および配向される、列挙された実施形態318に記載のコンピュータにより実施されるシステム。
330. コンティグ配列のセットはゲノムに由来する、列挙された実施形態318-329のいずれか1つに記載のコンピュータにより実施されるシステム。
331. コンティグ配列のセットは複数のゲノムに由来する、列挙された実施形態318-329のいずれか1つに記載のコンピュータにより実施されるシステム。
332. プロセッサを含む核酸配列データのセットを構成するコンピュータにより実施されるシステムであって、該プロセッサは、
複数のコンティグに対応する配列情報を受け取ること、ペアエンドリード情報を受け取ること、ペアエンドリード情報のためのペアエンドリード距離分布が基準のペアエンドリード距離分布に全体的に最適化されるように、複数のコンティグを構成することによって受信されたデータを処理することであって、構成がわずか8時間で生じる、こと、および、ネットワーク、スクリーン、またはサーバーに上記構成された複数のコンティグを出力することを行うように構成される、システム。
333. 核酸配列データのセットはゲノムに由来する、列挙された実施形態332に記載のコンピュータにより実施されるシステム。
334. 核酸配列データのセットは複数のゲノムに由来する、列挙された実施形態332に記載のコンピュータにより実施されるシステム。
335. 構成はわずか4時間で生じる、列挙された実施形態332に記載のコンピュータにより実施されるシステム。
336. 構成はわずか2時間で生じる、列挙された実施形態332に記載のコンピュータにより実施されるシステム。
337. プロセッサを含むスキャフォールドアセンブリを改善するコンピュータにより実施されるシステムであって、該プロセッサは、
複数の連結したノードペアを含むスキャフォールドセットを受け取ることであって、ノードペアの各ノードが少なくとも1つのコンティグ配列を含む、こと、複数の連結したノードにマッピングされたペアエンドリード情報を受け取ること、連結したノードペアによって共有されるリードペアの数を数え、上記数を閾値と比較し、および、上記の数が閾値以下である場合にノードペアを連結していないノードに切断することることにより受信データを処理すること、ならびに、ネットワーク、スクリーン、またはサーバーに上記処理されたデータを出力することを行うように構成される、システム。
338. 固有のコンティグ配列にマッピングされたリードペアだけが数えられる、列挙された実施形態337に記載のコンピュータにより実施されるシステム。
339. 異なるペアエンド閾値数がマッピングされるコンティグ配列セグメントに対するリードペアのマッピングは廃棄される、列挙された実施形態337に記載のコンピュータにより実施されるシステム。
340. 閾値数は非反復配列について平均数の3倍である、列挙された実施形態337に記載のコンピュータにより実施されるシステム。
341. スキャフォールドセットはゲノムを含む、列挙された実施形態337-340のいずれか1つに記載のコンピュータにより実施されるシステム。
342. スキャフォールドセットは複数のゲノムを含む、列挙された実施形態337-340のいずれか1つに記載のコンピュータにより実施されるシステム。
343. プロセッサを含むスキャフォールドアセンブリを改善するコンピュータにより実施されるシステムであって、該プロセッサは、
複数の連結したノードペアを含むスキャフォールドセットを受け取ることであって、ノードペアの各ノードが少なくとも1つのコンティグ配列を含む、こと、複数の連結したノードにマッピングされたペアエンドリード情報を受け取ること、標準的なペアエンドリード距離度数データを受け取ること、複数の連結されたノードにマッピングされたペアエンドリード情報用のペアエンドリード度数データを、標準的なペアエンドリード距離度数データと比較し、および、連結されたノードの切断が、標準的なペアエンドリード距離度数データにより近く近似する複数の連結されたノードにマッピングされたペアエンドリード情報のためのペアエンドリード度数データをもたらす場合に、少なくとも1つの連結したノードを切断することによって、受信されたデータを処理すること、ならびに、ネットワーク、スクリーン、またはサーバーに処理されたデータを出力することを行うように構成される、システム。
344. スキャフォールドセットはゲノムを含む、列挙された実施形態343に記載のコンピュータにより実施されるシステム。
345. スキャフォールドセットは複数のゲノムを含む、列挙された実施形態343に記載のコンピュータにより実施されるシステム。
346. プロセッサを含むスキャフォールドアセンブリのコンピュータにより実施されるシステムであって、該プロセッサは、
コンティグ配列のセットを受け取ること、ペアエンドリードのセットを含む入力されたデータを受け取ることであって、ペアエンドリードの少なくとも1%が少なくとも1kbのリードペア距離を含み、ペアエンドリードのセットが自然配向のペアエンドリードを含み、リードペアのための配列決定のエラー率が0.1%以下であり、および入力データのRN50が組み立てられたスキャフォールドの20%以下である、こと、ならびに、スキャフォールドを出力することであって、スキャフォールドのRN50が入力のRN50の少なくとも2倍である、ことを行うように構成される、システム。
347. スキャフォールドのRN50が入力のRN50の少なくとも10倍である、列挙された実施形態346に記載のコンピュータにより実施されるシステム。
348. プロセッサを含むスキャフォールドアセンブリのコンピュータにより実施されるシステムであって、該プロセッサは、
T0コンティグ配列を含むコンティグ配列のセットを受け取ること、ペアエンドリードのセットを受け取ることであって、ペアエンドリードの少なくとも1%が少なくとも1kbのリードペア距離を含み、ペアエンドリードのセットが自然配向のペアエンドリードを含み、リードペアのための配列決定のエラー率が0.1%以下である、こと、およびT1コンティグ配列を含むスキャフォールドを出力することであって、T1<T0である、ことを行うように構成される、システム。
349. T1は3未満である、列挙された実施形態348に記載のコンピュータにより実施されるシステム。
350. T1はT0の10%未満である、列挙された実施形態348に記載のコンピュータにより実施されるシステム。
351. T1はT0の1%未満である、列挙された実施形態348に記載のコンピュータにより実施されるシステム。
352. コンティグ配列のセットはゲノムを含む、列挙された実施形態348-351のいずれか1つに記載のコンピュータにより実施されるシステム。
353. コンティグ配列のセットは複数のゲノムを含む、列挙された実施形態348-351のいずれか1つに記載のコンピュータにより実施されるシステム。
354. プロセッサを含む、核酸配列データ処理のコンピュータにより実施されるシステムであって、該プロセッサは、
リードペアを含む入力データを受け取ること、上記リードペアの少なくとも1%が少なくとも1kbによっておよび自然配向に分離した2つの核酸セグメントからの配列データを含み、入力データ用のRN50がアセンブルしたスキャフォールドの20%以下であり、および、上記入力データのエラー率が0.1%以下である、こと、
および、スキャフォールドを含む出力データを出力することであって、出力データ用のRN50が入力のRN50の少なくとも2倍である、ことを行うように構成される、システム。
355. 出力データのRN50が入力のRN50少なくとも10倍である、列挙された実施形態354に記載のコンピュータにより実施されるシステム。
356. スキャフォールドは正確な順序と配向の標的ゲノムのサンプル配列の少なくとも90%を含む、列挙された実施形態354に記載のコンピュータにより実施されるシステム。
357. スキャフォールドは正確な順序と配向の標的ゲノムのサンプル配列の少なくとも99%を含む、列挙された実施形態354に記載のコンピュータにより実施されるシステム。
358. コンティグ配列のセットはゲノムを含む、列挙された実施形態354-357のいずれか1つに記載のコンピュータにより実施されるシステム。
359. コンティグ配列のセットは複数のゲノムを含む、列挙された実施形態354-357のいずれか1つに記載のコンピュータにより実施されるシステム。
360. プロセッサを含む核酸配列データ処理のコンピュータにより実施されるシステムであって、該プロセッサは、
リードペアを含む前処理されたデータセットを出力することであって、上記リードペアの少なくとも1%が少なくとも1kbによっておよび自然配向に分離された2つの核酸セグメントからの配列データを含み、前処理されたデータセットのRN50がアセンブルされたスキャフォールドの20%以下であり、および上記出力データの誤り率が0.1%以下である、ことと、
および、スキャフォールドを含む処理されたデータセットを受け取ることであって、出力データ用のRN50が入力のRN50の少なくとも2倍である、ことを行うように構成される、システム。
361. 出力データのRN50が入力のRN50の少なくとも10倍である、列挙された実施形態360に記載のコンピュータにより実施されるシステム。
362. スキャフォールドは正確な順序と配向の標的ゲノムのサンプル配列の少なくとも90%を含む、列挙された実施形態360に記載のコンピュータにより実施されるシステム。
363. スキャフォールドは正確な順序と配向の標的ゲノムのサンプル配列の少なくとも99%を含む、列挙された実施形態360に記載のコンピュータにより実施されるシステム。
364. 上記リードペアの少なくとも10%は少なくとも1kbによっておよび自然配向に分離された2つの核酸セグメントからの配列データを含む、列挙された実施形態360に記載のコンピュータにより実施されるシステム。
365. プロセッサを含む、核酸配列データ処理のコンピュータにより実施されるシステムであって、該プロセッサは、
リードペアを含む入力データを受け取ること、上記リードペアの少なくとも1%が少なくとも1kbによっておよび自然配向に分離した2つの核酸セグメントからの配列データを含み、入力データのRN50がアセンブルしたスキャフォールドの20%以下であり、および、上記出力データのエラー率が0.1%以下である、ことと、
および、スキャフォールドを含む出力データを出力することであって、出力データのN50が入力のN50少なくとも2倍である、ことを行うように構成される、システム。
366. 出力データのN50は入力のRN50の少なくとも10倍である、列挙された実施形態365に記載のコンピュータにより実施されるシステム。
367. スキャフォールドは正確な順序と配向の標的ゲノムのサンプル配列の少なくとも90%を含む、列挙された実施形態365に記載のコンピュータにより実施されるシステム。
368. スキャフォールドは正確な順序と配向の標的ゲノムのサンプル配列の少なくとも99%を含む、列挙された実施形態365に記載のコンピュータにより実施されるシステム。
369. 上記リードペアの少なくとも10%は少なくとも1kbによっておよび自然配向に分離された2つの核酸セグメントからの配列データを含む、列挙された実施形態365に記載のコンピュータにより実施されるシステム。
370. プロセッサを含む核酸配列データ処理のコンピュータにより実施されるシステムであって、該プロセッサは、
リードペアを含む前処理されたデータセットを出力することであって、上記リードペアの少なくとも1%が少なくとも1kbによっておよび自然配向に分離した2つの核酸セグメントからの配列データを含み、入力データのRN50がアセンブルしたスキャフォールドの20%以下であり、および、上記出力データのエラー率が0.1%以下である、ことと、
スキャフォールドを含む、処理されたデータセットを受け取ることであって、処理データのN50が前処理されたデータセットのN50の少なくとも2倍である、ことを行うように構成される、システム。
371. 出力データのN50は入力のRN50の少なくとも10倍である、列挙された実施形態370に記載のコンピュータにより実施されるシステム。
372. スキャフォールドは正確な順序と配向の標的ゲノムのサンプル配列の少なくとも90%を含む、列挙された実施形態370に記載のコンピュータにより実施されるシステム。
373. スキャフォールドは正確な順序と配向の標的ゲノムのサンプル配列の少なくとも99%を含む、列挙された実施形態370に記載のコンピュータにより実施されるシステム。
374. 上記リードペアの少なくとも10%は少なくとも1kbによっておよび自然配向に分離された2つの核酸セグメントからの配列データを含む、列挙された実施形態370に記載のコンピュータにより実施されるシステム。
375. 核酸配列データはゲノムに由来する、列挙された実施形態370-374のいずれか1つに記載のコンピュータにより実施されるシステム。
376. 核酸配列データは複数のゲノムに由来する、列挙された実施形態370-374のいずれか1つに記載のコンピュータにより実施されるシステム。
377. 少なくとも1つのペアエンドリードを共有する2つの核酸コンティグを連結する尤度を評価するコンピュータにより実施されるシステムであって、該プロセッサは、
コンティグのセットを受け取ることと、
第1のコンティグに対するマッピングされたショットガンリードの密度を判定し、第2のコンティグに対するマッピングされたショットガンリードの密度を判定し、第1のコンティグと第2のコンティグを連結するために尤度スコアを決定し、および、第1のコンティグに対するマッピングされたショットガンリードの密度が第2のコンティグに対するマッピングされたショットガンリードの密度と大きく異なるときに、尤度スコアを減少させることにより、コンティグの上記セットを処理することと、ならびに、ネットワーク、スクリーン、またはサーバーへのコンティグの処理されたセットを出力することを行うように構成される、システム。
378. 尤度スコアは対数尤度スコアである、列挙された実施形態377に記載のコンピュータにより実施されるシステム。
379. 尤度スコアは本明細書で示される通りに減少する、列挙された実施形態377に記載のコンピュータにより実施されるシステム。
380. 尤度スコアは、第1のコンティグに対するマッピングされたショットガンリードの密度と第2のコンティグに対するマッピングされたショットガンリードの密度の小さい方対大きい方の比率として減少する、列挙された実施形態377に記載のコンピュータにより実施されるシステム。
381. 2つの核酸コンティグは異質的なサンプルに由来する、列挙された実施形態377に記載のコンピュータにより実施されるシステム。
382. 2つの核酸コンティグはメタゲノミクスサンプルに由来する、列挙された実施形態377に記載のコンピュータにより実施されるシステム。
383. 2つの核酸コンティグは別々の個々の生体に由来する、列挙された実施形態377に記載のコンピュータにより実施されるシステム。
384. 2つの核酸コンティグは別々の種に由来する、列挙された実施形態377に記載のコンピュータにより実施されるシステム。
実施例1:再構築された染色質から生成されたペアリードを用いるゲノム解読
5.5μgの高分子量DNAが、ヒト細胞株GM12878と野生の捕獲されたアメリカアリゲーターの血液から抽出された。高分子量DNAは約150Kbpの断片中で抽出された。染色質は、精製されたヒストンおよび染色質アセンブリ因子をDNAと組み合わせることにより、再構成された。次いで、再構成された染色質をホルムアルデヒドで固定し、配列データライブラリを作製した。図1のAからFは、これらの工程の概略図を示す。
ライブラリから抽出されたデータのパワーおよび有用性を判定するために、コンティグアセンブリおよびスキャフォールディングは、一般的な300-500bpインサートIlluminaショットガンライブラリおよび上記のライブラリのみを用いて行った。MERACULOUS[pmid2187654]を33Kbpという典型的なサイズ(N50)のスキャフォールドに用いてGM12878(Chapmanら、2011)から得られた84倍101bpペアエンドIlluminaショットガンデータセットが最初にアセンブルされた。生成されたライブラリから得られたリードペアは、本明細書に記載されている通り、この初期アセンブリに対してマッピングされた。リードペアの68.9%は順方向および逆方向リードの両方が20以上のマップ品質を有するようにマッピングされ、それゆえアセンブリ内で一意にマッピングされているとみなされ、複製物ではなかった。これらのリードペアの26.8%は、異なるコンティグにマッピングされた順方向および逆方向リードを有し、ゆえに、アセンブリをさらにスキャフォールドするために情報を与えられる可能性があった。同じライブラリデータが、ペア250bpリード中の50倍カバレッジのDiscoverアセンブリをスキャフォールドするためにも使用された(Sharpeら、2015)。
HiRiseパイプラインが生産したスキャフォールドは、公開されているMERACULOUSおよびAPLGアセンブリよりも長く、かつ全体的な誤アセンブリの率が低く、どちらもペアフォスミドエンドリード中の深いカバレッジに依存する。表1は、誤連結を含むスキャフォールド中に見られる全アセンブリの画分を示し、誤連結は、二倍体基準における1以上の染色体からの少なくとも5Kbp、10Kbpまたは50Kbpの範囲に及ぶ一続きの一意の101-merを有するものとして定義される。また、表1は、NA12878の他のアセンブリと比較された、HiRiseアセンブリの4回の連続的なラウンドの完全性と近接性の尺度も示す。
本明細書に記載されている新規染色質リモデリング方法を用いてアメリカアリゲーター(Alligator mississippiensis)について構築されたシングルDNA断片ライブラリが生成され、Illumina Hiseq 2500上で2億1070万のリードが配列決定された。リードペアは、公開されているデータ(Greenら、2014)を使用して作製された新規アセンブリ(N50 81Kbp)に対しマッピングされ、HiRiseスキャフォールディングパイプラインを適用された。結果として生じるアセンブリは10.3MbpのスキャフォールドN50を有する。これらのスキャフォールドの精度を評価するために、前もって生成された1,485個の細菌人工染色体(BAC)末端配列(Shedlockら、2007)のあつまりをアセンブリにアライメントさせた。それらのうち1,298のペアが、コンティグアセンブリおよびHiRiseにスキャフォールドされたバージョンに対し90%のカバレッジと95%の同一性を有するGMAP(WuおよびWatanabe、2005)によって一意にアライメントされた。入力アセンブリにおいて、12.5%のBACエンドペアが予期された配向および分離を伴い同スキャフォールドにおいて捕捉された。HiRiseアセンブリにおいては、96.5%のBACエンドペアは同スキャフォールドにおいてアライメントされ、98.1%のBACエンドペアが同じスキャフォールドにあり正しく相対的に配向されている。5つの(0.39%)BACエンドペアは、同じスキャフォールド上に置かれているが、インサートサイズよりも著しく長い距離をとって置かれ、そして、14の(1.08%)BACエンドペアは別々のスキャフォールド上に置かれているが、インサートサイズよりも長く、スキャフォールドのエッジから充分離れた距離をとって置かれたが、これは誤連結部の全体的な密度が8.36Mbpのアセンブリにつき1未満であると示唆している。
順方向および逆方向リードがヘテロ接合部位をカバーしているリードペアが、ハプロタイプ位相を直接リードするために用いられた。本明細書に記載されている新規染色質リモデリング方法および断片化方法によって生成されたリードペア中でカバーされている距離は、インプットDNAのサイズと同程度である可能性があるため、GM12878サンプルにおけるハプロタイプの位相を判定するための位相情報およびその有用性が評価された。GM12878はトリオシーケンシングされた個体由来であるため、信頼できるハプロタイプ位相情報を用いて位相合わせ情報の精度を評価した。ハプロタイプ情報を与えた、10Kbpと150Kbpの間の範囲内のリードペアは、GM12878についての既知のハプロタイプ位相と99.83%一致した。
基準に対し1つの個体からペア配列リードをマッピングすることは、連続した核酸またはゲノム構造における相違、例えば、逆位、欠失および重複を特定するための最も一般的に使用される配列に基づく方法である(Tuzunら、2005)。図4Aおよび4Bは、ヒト基準ゲノムGRCh38にマッピングされたGM12878由来の再アセンブリされた染色質から得られたDNAの近接連結によって生成されたリードペアが、そのような2つの構造差をどのようにして明らかにするかを示す。構造差を特定するためのリードペアデータの感度および特異性を算定するために、ヘテロ接合性逆位の効果をシミュレートするように構築された模擬データセット上の最大尤度識別器がテストされた。テストデータは、GRCh38基準配列に生成されたNA12878リードのマッピングから定義された長さLの区間をランダムに選択し、生成された各リードペアを独立してランダムに逆位または基準ハプロタイプに割り当て、それに応じてマッピングされた座標を編集することによって構築された。非対立遺伝子相同組換えが、ヒトゲノムで観察される構造変異体の大部分の要因であり、結果として、多くの変異体切断点が繰返された配列の長いブロックにおいて生じる(Kiddら、2008)。逆位切断点を囲む繰返しの配列の長さの変化の影響は、それらの距離Wの範囲内でマッピングされたすべてのリードを除去することによってシミュレートされた。逆位切断点に繰返しの配列が存在しない場合、それぞれ1Kbp、2Kbpおよび5Kbpの逆位について、感度(特異性)はそれぞれ0.76(0.88)、0.89(0.89)および0.97(0.94)であった。逆位切断点での繰返しの(マッピングできない)配列の1Kbpの領域をシミュレーションに使用した時、5Kbp逆位に対する感度(特異性)は0.81(0.76)であった。
DNAは、製造業者のインストラクションに従いQiagen BloodおよびCell Midi kitsにより抽出された。要するに、細胞を溶解し、遠心分離して核を単離した。核は、さらに、プロテイナーゼKとRNAse Aを組み合わせたものにより消化された。DNAはQiagen genomic columnに結合され、洗浄され、溶出され、イソプロパノール中で沈殿され、遠心分離によってペレット化された。乾燥の後、ペレットは、200μLのTE(Qiagen)中に再懸濁された。
染色質は、Active Motif in vitro Chromatin Assembly kitを用いて、一晩中27度でゲノムDNAからアセンブルされた。インキュベーション後、サンプルの10%をMNase消化に用いて、染色質アセンブリの成功を確認した。
染色質をヨードアセチル-PEG-2-ビオチン(IPB)でビオチン化した。ビオチン化に続いて、染色質を1%ホルムアルデヒド中において室温(RT)で15分間固定し、続いて2.5Mグリシンの2倍モル過剰量でクエンチした。Slide-A-Lyzer 20KDa MWCO dialysis cassettee(Pierce)中で、1Lの透析バッファー(10mm Tris-Cl、pH8.0、1mM EDTA)に対して、染色質を、4度で最低3時間透析することにより、過剰IPBおよび架橋したグリシンを除去した。続いて、染色質を37度で4時間、1倍のCutSmart中のMboIまたはMluCIのいずれかで消化した。染色質を、50 KDa MWCOdialysis Flex tube(IBI Scientific#IB48262)中で、4度で2時間、再度透析した後、新鮮なバッファーで一晩中再度透析して、酵素および短い遊離DNA断片を除去した。
充填反応中に標識化されたdNTP(図1のAからF)を捕捉させないために、遊離ビオチンの存在下にて15分間室温でビーズをインキュベートすることにより、非結合ストレプトアビジン部位が占められた。続いて、ビーズを2回洗浄した後、100μLの1X NEBuffer の中で再懸濁した。全容量165μl中25UのKlenow(#M0210M、NEB)とともにa-S-dGTPおよびビオチン化dCTPを含むdNTPによって25度で40分間インキュベートすることにより、粘着末端が充填された。充填反応は7μLの0.5M EDTAを加えることにより止まった。次いで、ビーズを連結前ウォッシュバッファー(PLWB:50mM Tris7.4; 0.4% Triton X-100; 0.1mM EDTA)の中で2回洗浄した後、100μLのPLWBの中で再懸濁した。
連結は、少なくとも1mLのT4連結バッファー中、16℃で少なくとも4時間行われた。異なる染色質凝集体間の交差連結を最小にするために、大量の連結が使用された。連結反応は40μLの0.5M EDTAを加えることにより止められた。ビーズは濃縮され、100μLの抽出バッファー(50mM Tris-Cl pH8.0、 1mM EDTA、0.2%SDS)の中で再懸濁された。400ugのプロテイナーゼK(#P8102S、NEB)を添加した後、ビーズを55度で一晩インキュベートし、続いて55度で追加の200μgのプロテイナーゼKで2時間消化した。DNAは、2:1の比のSPRIビーズ、カラム精製キット、またはフェノール:クロロホルム抽出のいずれかを用いて、再び回収された。DNAは、低TE(10mM Tris-Cl pH8.0、 0.5mM EDTA)へ溶出された。
次に、DNAを、40分間37度で100UのエキソヌクレアーゼIII(#M0206S、NEB)を用いて消化し、ビオチン化した遊離末端を除去して、続いてSPRIクリーンアップおよび101μLの低TEへの溶出を行った。
DNAは、30秒間オン/30秒間オフの60回のサイクルの間、「低」に設定されたDiagenode Bioruptorを用いてせん断された。せん断の後、DNAはKlenowポリメラーゼとT4 PNK(#EK0032 Thermo Scientific)で20度で30分間充填された。充填反応後、DNAは、200μLの2倍NTB(2M NaCl、10mM Tris pH8.0、0.1mM EDTApH8.0、0.2% Triton X-100)の中で再懸濁させる前にTween ウォッシュバッファーで2回洗浄することによって調製されたC1ビーズ上にプルダウンされた。一旦サンプルを加えたら、ビーズはロッキングしながら室温で20分間インキュベートされた。続いて、ビオチン化されていないDNA断片を、低TE中に再懸濁させる前にビーズを3回洗浄することにより除去した。配列決定ライブラリは確立されたプロトコルを用いて生成された。(MeyerおよびKircher、2010)
接合部が存在する場合は常に配列リードは切り詰められた。(MboIについては、SEQ ID NO.1:GATCGATC、MluCIについては、SEQ ID NO.2:AATTAATT)その後、リードは、独立して順方向および逆方向リードをアライメントするための-xオプションを含むSMALT[http://www.sanger.ac.uk/resources/software/smalt/]を用いて、アライメントされた。PCR複製物は、Picard-tools MarkDuplicates[http://broadinstitute.github.io/picard/]を用いてマークされた。両方のリードがマッピングされ、マッピング品質が10より大きい場合は、非重複リードペアを分析に使用した。
ヒトおよびアリゲーターの新規ショットガンアセンブリは、公開されているショートインサートおよびメイトペアリード(SimpsonおよびDubrin、2012; Greenら、2014)を用いて、Meraculous2.0.3(Chapmanら、2011)により生成された。アリゲーターメイトペアリードはTrimmomatic(Bolgerら、2014)でアダプタートリミングされた。いくつかの重複するアリゲーターショートインサートリードは“融合”された。これらは、順方向および逆方向リードへと戻された(unmerged back)。
Claims (20)
- コンピュータにより実施される核酸配列データアセンブリのための方法であって、該方法は、
(a)ペアエンドリードのセットを得る工程、
(b)標準的なペアエンドリード距離度数データを得る工程、
(c)グループ分けされた、コンティグペアを得る工程、
(d)コンティグを分離するためにマッピングされるリードペアのリードペア距離度数データが、前記標準的なペアエンドリード距離度数データを近似するように、グループ化されたコンティグ配列をスキャフォールドし、それによって、核酸の核酸配列データをアセンブリしてなる、コンピュータにより実施される方法。 - コンティグを分離するためにマッピングされるリードペアのリードペア距離度数データは、リードペア距離尤度が増大するときにペアエンドリード距離度数データにより近く近似する、請求項1に記載のコンピュータにより実施される方法。
- リードペア距離尤度は最大化される、請求項2に記載の、コンピュータにより実施される方法。
- コンティグを分離するためにマッピングされるリードペアのリードペア距離度数データは、リードペアの距離度数データと標準的なペアエンドリード距離度数データとの間の差の統計的尺度が減少する際に、ペアエンドリード距離度数データにより近く近似する、請求項1に記載の、コンピュータにより実施される方法。
- リードペア距離度数データと標準的なペアエンドリード距離度数データとの間の距離の統計的尺度は、ANOVA、t検定、およびX2乗検定の少なくとも1つを含む、請求項4に記載の、コンピュータにより実施される方法。
- コンティグを分離するためにマッピングされるリードペアのリードペア距離は、標準的なペアエンドリード距離度数と比較して得られた順序付けされたコンティグ中のリードペア距離分布の偏差が減少するときに-、ペアエンドリード距離度数データとより近く一致する、請求項5に記載の、コンピュータにより実施される方法。
- 標準的なペアエンドリード距離度数と比較して得られた順序付けされたコンティグ中のリードペア距離分布の偏差は最小限に抑えられる、請求項6に記載の、コンピュータにより実施される方法。
- グループ分けされた、コンティグペアを得る工程が、生物学的なサンプルからDNAを抽出する工程と、当該DNAを配列する工程を含んでなる請求項1に記載の、コンピュータにより実施される方法。
- ペアエンドリードのセットを得る工程が、核酸内で内部二本鎖切断を生じさせるためにサンプルDNAを消化し、複数の再連結接合部を形成するために二本鎖切断を再連結し、および複数の再連結接合部にわたって配列決定すること、を含んでなる請求項1に記載の、コンピュータにより実施される方法。
- 前記サンプルDNAは少なくとも1つのDNA結合剤に架橋される、請求項9に記載の、コンピュータにより実施される方法。
- 前記サンプルDNAは分離された裸のDNAである、請求項9に記載の、コンピュータにより実施される方法。
- 前記分離されたDNAは再構成された染色質へ再度アセンブルされる、請求項11に記載の、コンピュータにより実施される方法。
- 再構成された染色質は架橋される、請求項12に記載の、コンピュータにより実施される方法。
- 標準的なペアエンドリード距離度数データが、両方のリードが共通のコンティグに対してマッピングされるペアエンドリードから得られる請求項1に記載の、コンピュータにより実施される方法。
- 標準的なペアエンドリード距離度数データが、以前に生成された曲線から得られる請求項1に記載の、コンピュータにより実施される方法。
- 前記スキャフォールドすることが、グループ化されたコンティグの推定上の隣接するコンティグの第1のセットを選択すること、前記リードペアに関してリードペアの距離の統計的尺度を減少させる推定上の隣接するコンティグの前記第1のセットの最小限の距離順序を判定すること、およびこと、を含んでなる請求項1に記載の、コンピュータにより実施される方法。
- 最小限の距離順序を判定することが、全ての起こり得るコンティグ構成に関して前記セットの2つのコンティグに対しマッピングされるリードを含む、少なくとも1つのリードペアに関する予期されるリードペアの距離を比較することを含む請求項16に記載の、コンピュータにより実施される方法。
- 最大尤度のリードペア距離分布に対応するコンティグの配向を選択することを含む請求項17に記載の、コンピュータにより実施される方法。
- 前記核酸配列データがゲノムに由来する請求項1に記載の、コンピュータにより実施される方法。
- 前記核酸配列データが複数のゲノムを含む異質のサンプルに由来する請求項1に記載の、コンピュータにより実施される方法。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201562117256P | 2015-02-17 | 2015-02-17 | |
US62/117,256 | 2015-02-17 | ||
US201662294208P | 2016-02-11 | 2016-02-11 | |
US62/294,208 | 2016-02-11 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017561612A Division JP6777966B2 (ja) | 2015-02-17 | 2016-02-17 | 核酸配列アセンブリ |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021007039A JP2021007039A (ja) | 2021-01-21 |
JP7113053B2 true JP7113053B2 (ja) | 2022-08-04 |
Family
ID=55587335
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017561612A Active JP6777966B2 (ja) | 2015-02-17 | 2016-02-17 | 核酸配列アセンブリ |
JP2020168530A Active JP7113053B2 (ja) | 2015-02-17 | 2020-10-05 | 核酸配列アセンブリ |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017561612A Active JP6777966B2 (ja) | 2015-02-17 | 2016-02-17 | 核酸配列アセンブリ |
Country Status (11)
Country | Link |
---|---|
US (4) | US9715573B2 (ja) |
EP (2) | EP4030437A1 (ja) |
JP (2) | JP6777966B2 (ja) |
KR (1) | KR20170134379A (ja) |
CN (1) | CN107533590B (ja) |
AU (1) | AU2016220135B2 (ja) |
CA (1) | CA2976902A1 (ja) |
IL (1) | IL254000B (ja) |
NZ (1) | NZ734854A (ja) |
SG (2) | SG10202000731WA (ja) |
WO (1) | WO2016134034A1 (ja) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2956925C (en) * | 2014-08-01 | 2024-02-13 | Dovetail Genomics, Llc | Tagging nucleic acids for sequence assembly |
SG10202000731WA (en) | 2015-02-17 | 2020-03-30 | Dovetail Genomics Llc | Nucleic acid sequence assembly |
WO2016154540A1 (en) | 2015-03-26 | 2016-09-29 | Dovetail Genomics Llc | Physical linkage preservation in dna storage |
AU2016341198B2 (en) | 2015-10-19 | 2023-03-09 | Dovetail Genomics, Llc | Methods for genome assembly, haplotype phasing, and target independent nucleic acid detection |
CA3014911A1 (en) | 2016-02-23 | 2017-08-31 | Dovetail Genomics, Llc | Generation of phased read-sets for genome assembly and haplotype phasing |
AU2017263810B2 (en) | 2016-05-13 | 2023-08-17 | Dovetail Genomics Llc | Recovering long-range linkage information from preserved samples |
JP7140754B2 (ja) * | 2016-09-02 | 2022-09-21 | ルートヴィヒ インスティテュート フォー キャンサー リサーチ リミテッド | クロマチン相互作用のゲノムワイドな同定 |
JP7297774B2 (ja) * | 2017-11-09 | 2023-06-26 | ダブテイル ゲノミクス エルエルシー | 構造変異の分析 |
WO2019147921A1 (en) | 2018-01-26 | 2019-08-01 | Nantcell, Inc. | Rapid verification of virus particle production for a personalized vaccine |
US20210046177A1 (en) | 2018-01-26 | 2021-02-18 | Nantcell, Inc. | Compositions and methods for combination cancer vaccine and immunologic adjuvant therapy |
CA3090102A1 (en) | 2018-01-31 | 2019-08-08 | Dovetail Genomics, Llc | Sample prep for dna linkage recovery |
CN108460248B (zh) * | 2018-03-08 | 2022-02-22 | 北京希望组生物科技有限公司 | 一种基于Bionano平台检测长串联重复序列的方法 |
CN108897986B (zh) * | 2018-05-29 | 2020-11-27 | 中南大学 | 一种基于蛋白质信息的基因组序列拼接方法 |
WO2020023882A1 (en) * | 2018-07-27 | 2020-01-30 | Myriad Women's Health, Inc. | Method for detecting genetic variation in highly homologous sequences by independent alignment and pairing of sequence reads |
JP2021536612A (ja) * | 2018-08-31 | 2021-12-27 | ガーダント ヘルス, インコーポレイテッド | マージされたリードおよびマージされないリードに基づいた遺伝的変異体の検出 |
CN109273052B (zh) * | 2018-09-13 | 2022-03-18 | 北京百迈客生物科技有限公司 | 一种基因组单倍体组装方法及装置 |
EP3915118A1 (en) * | 2019-01-25 | 2021-12-01 | Pacific Biosciences Of California, Inc. | Systems and methods for graph based mapping of nucleic acid fragments |
WO2021163637A1 (en) | 2020-02-13 | 2021-08-19 | Zymergen Inc. | Metagenomic library and natural product discovery platform |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110288845A1 (en) | 2008-12-12 | 2011-11-24 | Peixiang Ni | Construction method and system of fragments assembling scaffold, and genome sequencing device |
JP2012514977A (ja) | 2009-01-13 | 2012-07-05 | キージーン・エン・フェー | 新規ゲノム配列決定戦略 |
Family Cites Families (142)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
NL154598B (nl) | 1970-11-10 | 1977-09-15 | Organon Nv | Werkwijze voor het aantonen en bepalen van laagmoleculire verbindingen en van eiwitten die deze verbindingen specifiek kunnen binden, alsmede testverpakking. |
US3817837A (en) | 1971-05-14 | 1974-06-18 | Syva Corp | Enzyme amplification assay |
US3939350A (en) | 1974-04-29 | 1976-02-17 | Board Of Trustees Of The Leland Stanford Junior University | Fluorescent immunoassay employing total reflection for activation |
US3996345A (en) | 1974-08-12 | 1976-12-07 | Syva Company | Fluorescence quenching with immunological pairs in immunoassays |
US4277437A (en) | 1978-04-05 | 1981-07-07 | Syva Company | Kit for carrying out chemically induced fluorescence immunoassay |
US4275149A (en) | 1978-11-24 | 1981-06-23 | Syva Company | Macromolecular environment control in specific receptor assays |
US4366241A (en) | 1980-08-07 | 1982-12-28 | Syva Company | Concentrating zone method in heterogeneous immunoassays |
US5242794A (en) | 1984-12-13 | 1993-09-07 | Applied Biosystems, Inc. | Detection of specific sequences in nucleic acids |
US4988617A (en) | 1988-03-25 | 1991-01-29 | California Institute Of Technology | Method of detecting a nucleotide change in nucleic acids |
US5234809A (en) | 1989-03-23 | 1993-08-10 | Akzo N.V. | Process for isolating nucleic acid |
US5143854A (en) | 1989-06-07 | 1992-09-01 | Affymax Technologies N.V. | Large scale photolithographic solid phase synthesis of polypeptides and receptor binding screening thereof |
US5494810A (en) | 1990-05-03 | 1996-02-27 | Cornell Research Foundation, Inc. | Thermostable ligase-mediated DNA amplifications system for the detection of genetic disease |
AU663300B2 (en) | 1990-12-06 | 1995-10-05 | Affymetrix, Inc. | Very large scale immobilized polymer synthesis |
US5994056A (en) | 1991-05-02 | 1999-11-30 | Roche Molecular Systems, Inc. | Homogeneous methods for nucleic acid amplification and detection |
ATE262374T1 (de) | 1991-11-22 | 2004-04-15 | Affymetrix Inc | Kombinatorische strategien für polymersynthese |
US6033854A (en) | 1991-12-16 | 2000-03-07 | Biotronics Corporation | Quantitative PCR using blocking oligonucleotides |
US5348853A (en) | 1991-12-16 | 1994-09-20 | Biotronics Corporation | Method for reducing non-specific priming in DNA amplification |
US5567583A (en) | 1991-12-16 | 1996-10-22 | Biotronics Corporation | Methods for reducing non-specific priming in DNA detection |
DE69433010T2 (de) | 1993-04-12 | 2004-06-09 | Northwestern University, Evanston | Verfahren zur darstellung von oligonukleotiden |
US5837832A (en) | 1993-06-25 | 1998-11-17 | Affymetrix, Inc. | Arrays of nucleic acid probes on biological chips |
AU8126694A (en) | 1993-10-26 | 1995-05-22 | Affymax Technologies N.V. | Arrays of nucleic acid probes on biological chips |
US6110709A (en) | 1994-03-18 | 2000-08-29 | The General Hospital Corporation | Cleaved amplified modified polymorphic sequence detection methods |
US5571639A (en) | 1994-05-24 | 1996-11-05 | Affymax Technologies N.V. | Computer-aided engineering system for design of sequence arrays and lithographic masks |
US5705628A (en) | 1994-09-20 | 1998-01-06 | Whitehead Institute For Biomedical Research | DNA purification and isolation using magnetic particles |
US5795716A (en) | 1994-10-21 | 1998-08-18 | Chee; Mark S. | Computer-aided visualization and analysis system for sequence evaluation |
US5599695A (en) | 1995-02-27 | 1997-02-04 | Affymetrix, Inc. | Printing molecular library arrays using deprotection agents solely in the vapor phase |
US5780613A (en) | 1995-08-01 | 1998-07-14 | Northwestern University | Covalent lock for self-assembled oligonucleotide constructs |
AU2189397A (en) | 1996-02-08 | 1997-08-28 | Affymetrix, Inc. | Chip-based speciation and phenotypic characterization of microorganisms |
US5786146A (en) | 1996-06-03 | 1998-07-28 | The Johns Hopkins University School Of Medicine | Method of detection of methylated nucleic acid using agents which modify unmethylated cytosine and distinguishing modified methylated and non-methylated nucleic acids |
DE69733282T2 (de) | 1996-06-04 | 2006-01-19 | University Of Utah Research Foundation, Salt Lake City | Überwachung der Hybridisierung während PCR |
US6117635A (en) | 1996-07-16 | 2000-09-12 | Intergen Company | Nucleic acid amplification oligonucleotides with molecular energy transfer labels and methods based thereon |
US6449562B1 (en) | 1996-10-10 | 2002-09-10 | Luminex Corporation | Multiplexed analysis of clinical specimens apparatus and method |
WO1998041651A1 (en) | 1997-03-18 | 1998-09-24 | Hsc Research & Development Limited Partnership | Method for preparing chromatin |
US6969488B2 (en) | 1998-05-22 | 2005-11-29 | Solexa, Inc. | System and apparatus for sequential processing of analytes |
ES2320604T3 (es) | 1997-10-28 | 2009-05-25 | Los Alamos National Security, Llc | Identificacion de polimorfismos del adn mediante la utilizacion de citometria de flujo. |
US5989823A (en) | 1998-09-18 | 1999-11-23 | Nexstar Pharmaceuticals, Inc. | Homogeneous detection of a target through nucleic acid ligand-ligand beacon interaction |
GB9812768D0 (en) | 1998-06-13 | 1998-08-12 | Zeneca Ltd | Methods |
US20030022207A1 (en) | 1998-10-16 | 2003-01-30 | Solexa, Ltd. | Arrayed polynucleotides and their use in genome analysis |
US6787308B2 (en) | 1998-07-30 | 2004-09-07 | Solexa Ltd. | Arrayed biomolecules and their use in sequencing |
US20040106110A1 (en) | 1998-07-30 | 2004-06-03 | Solexa, Ltd. | Preparation of polynucleotide arrays |
JP2002524091A (ja) | 1998-08-21 | 2002-08-06 | ナックスコー・インコーポレイテッド | 架橋可能な固定化核酸を用いるアッセイ |
WO2000032823A1 (en) | 1998-12-02 | 2000-06-08 | Phylos, Inc. | Dna-protein fusions and uses thereof |
US8367322B2 (en) | 1999-01-06 | 2013-02-05 | Cornell Research Foundation, Inc. | Accelerating identification of single nucleotide polymorphisms and alignment of clones in genomic sequencing |
US6994969B1 (en) | 1999-04-30 | 2006-02-07 | Methexis Genomics, N.V. | Diagnostic sequencing by a combination of specific cleavage and mass spectrometry |
US7056661B2 (en) | 1999-05-19 | 2006-06-06 | Cornell Research Foundation, Inc. | Method for sequencing nucleic acid molecules |
US6225109B1 (en) | 1999-05-27 | 2001-05-01 | Orchid Biosciences, Inc. | Genetic analysis device |
US7211390B2 (en) | 1999-09-16 | 2007-05-01 | 454 Life Sciences Corporation | Method of sequencing a nucleic acid |
US7244559B2 (en) | 1999-09-16 | 2007-07-17 | 454 Life Sciences Corporation | Method of sequencing a nucleic acid |
EP1218543A2 (en) | 1999-09-29 | 2002-07-03 | Solexa Ltd. | Polynucleotide sequencing |
US6582938B1 (en) | 2001-05-11 | 2003-06-24 | Affymetrix, Inc. | Amplification of nucleic acids |
GB0002389D0 (en) | 2000-02-02 | 2000-03-22 | Solexa Ltd | Molecular arrays |
US6448717B1 (en) | 2000-07-17 | 2002-09-10 | Micron Technology, Inc. | Method and apparatuses for providing uniform electron beams from field emission displays |
WO2002027029A2 (en) | 2000-09-27 | 2002-04-04 | Lynx Therapeutics, Inc. | Method for determining relative abundance of nucleic acid sequences |
US7001724B1 (en) | 2000-11-28 | 2006-02-21 | Applera Corporation | Compositions, methods, and kits for isolating nucleic acids using surfactants and proteases |
WO2002079502A1 (en) | 2001-03-28 | 2002-10-10 | The University Of Queensland | A method for nucleic acid sequence analysis |
DE10120797B4 (de) | 2001-04-27 | 2005-12-22 | Genovoxx Gmbh | Verfahren zur Analyse von Nukleinsäureketten |
GB0114853D0 (en) | 2001-06-18 | 2001-08-08 | Medical Res Council | Happier Mapping |
DE10239504A1 (de) | 2001-08-29 | 2003-04-24 | Genovoxx Gmbh | Verfahren zur Analyse von Nukleinsäurekettensequenzen und der Genexpression |
US20050227231A1 (en) | 2001-10-04 | 2005-10-13 | Dimitri Tcherkassov | Device for sequencing nucleic acid molecules |
US6902921B2 (en) | 2001-10-30 | 2005-06-07 | 454 Corporation | Sulfurylase-luciferase fusion proteins and thermostable sulfurylase |
US20050124022A1 (en) | 2001-10-30 | 2005-06-09 | Maithreyan Srinivasan | Novel sulfurylase-luciferase fusion proteins and thermostable sulfurylase |
WO2003042657A2 (en) | 2001-11-09 | 2003-05-22 | Aclara Biosciences Inc. | Detection of nucleic acid sequences by cleavage and separation of tag-containing structures |
JP2005519306A (ja) | 2002-03-08 | 2005-06-30 | ザ・バブラハム・インスティテュート | 標的分子と関係するエレメントの標識化及び回収 |
US20030228627A1 (en) | 2002-03-22 | 2003-12-11 | Emerson Beverly M. | Assay for p53 function in cells |
AU2003243700B2 (en) | 2002-06-28 | 2009-04-30 | Qiagen Mansfield, Inc. | Methods of detecting sequence differences |
US7563600B2 (en) | 2002-09-12 | 2009-07-21 | Combimatrix Corporation | Microarray synthesis and assembly of gene-length polynucleotides |
US7414117B2 (en) | 2002-12-26 | 2008-08-19 | Ngk Insulators, Ltd. | Nucleotide derivative and DNA microarray |
WO2004070007A2 (en) | 2003-01-29 | 2004-08-19 | 454 Corporation | Method for preparing single-stranded dna libraries |
US20040197779A1 (en) | 2003-04-03 | 2004-10-07 | Apffel James Alexander | Methods for analyzing mixtures of proteins |
US8741577B2 (en) | 2003-04-07 | 2014-06-03 | Bio-Rad Laboratories Inc. | Surface immobilised multilayer structure of vesicles |
FI20030778A0 (fi) | 2003-05-22 | 2003-05-22 | Licentia Oy | Taudin määrittäminen tai ennustaminen |
US20070111204A1 (en) | 2003-06-27 | 2007-05-17 | Kathleen Delgrosso | Methods for detecting nucleic acid variations |
PT1639122E (pt) | 2003-07-02 | 2009-04-09 | Dsm Ip Assets Bv | Sistema de teste aperfeiçoado para determinar a presença de um antibiótico num fluido |
GB0316075D0 (en) | 2003-07-09 | 2003-08-13 | Molecular Sensing Plc | Protease detection assay |
EP1725572B1 (de) | 2003-11-05 | 2017-05-31 | AGCT GmbH | Makromolekulare nukleotidverbindungen und methoden zu deren anwendung |
US7169560B2 (en) | 2003-11-12 | 2007-01-30 | Helicos Biosciences Corporation | Short cycle methods for sequencing polynucleotides |
US20050260625A1 (en) | 2004-02-28 | 2005-11-24 | Wang Chang-Ning J | Process and system for crosslinking polynucleotide molecules |
US20060024711A1 (en) | 2004-07-02 | 2006-02-02 | Helicos Biosciences Corporation | Methods for nucleic acid amplification and sequence determination |
US7361468B2 (en) | 2004-07-02 | 2008-04-22 | Affymetrix, Inc. | Methods for genotyping polymorphisms in humans |
US20060012793A1 (en) | 2004-07-19 | 2006-01-19 | Helicos Biosciences Corporation | Apparatus and methods for analyzing samples |
US7276720B2 (en) | 2004-07-19 | 2007-10-02 | Helicos Biosciences Corporation | Apparatus and methods for analyzing samples |
US20060024678A1 (en) | 2004-07-28 | 2006-02-02 | Helicos Biosciences Corporation | Use of single-stranded nucleic acid binding proteins in sequencing |
GB0422730D0 (en) | 2004-10-13 | 2004-11-17 | Lingvitae As | Method |
US7425415B2 (en) | 2005-04-06 | 2008-09-16 | City Of Hope | Method for detecting methylated CpG islands |
JP2006301289A (ja) | 2005-04-20 | 2006-11-02 | Tokyo Ohka Kogyo Co Ltd | ネガ型レジスト組成物およびレジストパターン形成方法 |
US20090233291A1 (en) | 2005-06-06 | 2009-09-17 | 454 Life Sciences Corporation | Paired end sequencing |
WO2006138257A2 (en) | 2005-06-15 | 2006-12-28 | Callida Genomics, Inc. | Single molecule arrays for genetic and chemical analysis |
WO2007004057A2 (en) | 2005-07-04 | 2007-01-11 | Erasmus University Medical Center | Chromosome conformation capture-on-chip (4c) assay |
US20110027890A1 (en) | 2005-12-26 | 2011-02-03 | Kuraray Co., Ltd. | Material for cell culture |
US20070172839A1 (en) | 2006-01-24 | 2007-07-26 | Smith Douglas R | Asymmetrical adapters and methods of use thereof |
GB0603251D0 (en) | 2006-02-17 | 2006-03-29 | Isis Innovation | DNA conformation |
US8071296B2 (en) | 2006-03-13 | 2011-12-06 | Agency For Science, Technology And Research | Nucleic acid interaction analysis |
WO2007136874A2 (en) | 2006-05-18 | 2007-11-29 | President And Fellows Of Harvard College | Genomic library construction |
EP2057282A4 (en) | 2006-08-24 | 2010-10-27 | Univ Massachusetts Medical | MAPPING GENOMIC INTERACTIONS |
MX2009003687A (es) | 2006-10-04 | 2009-08-25 | Brookhaven Science Ass Llc | Conjuntos de nanoparticulas guiados por adn. |
US8278112B2 (en) | 2006-12-21 | 2012-10-02 | The Regents Of The University Of California | Site-specific installation of methyl-lysine analogues into recombinant histones |
WO2008084405A2 (en) | 2007-01-11 | 2008-07-17 | Erasmus University Medical Center | Circular chromosome conformation capture (4c) |
US20100093986A1 (en) | 2007-02-02 | 2010-04-15 | Zwick Michael E | Methods of direct genomic selection using high density oligonucleotide microarrays |
US7906287B2 (en) | 2007-05-14 | 2011-03-15 | Insight Genetics, Inc. | Methods of screening nucleic acids for single nucleotide variations |
WO2009052214A2 (en) | 2007-10-15 | 2009-04-23 | Complete Genomics, Inc. | Sequence analysis using decorated nucleic acids |
EP2053132A1 (en) | 2007-10-23 | 2009-04-29 | Roche Diagnostics GmbH | Enrichment and sequence analysis of geomic regions |
US8592150B2 (en) | 2007-12-05 | 2013-11-26 | Complete Genomics, Inc. | Methods and compositions for long fragment read sequencing |
US8263367B2 (en) | 2008-01-25 | 2012-09-11 | Agency For Science, Technology And Research | Nucleic acid interaction analysis |
WO2009132315A1 (en) | 2008-04-24 | 2009-10-29 | Life Technologies Corporation | Method of sequencing and mapping target nucleic acids |
US20090298064A1 (en) | 2008-05-29 | 2009-12-03 | Serafim Batzoglou | Genomic Sequencing |
GB0810051D0 (en) | 2008-06-02 | 2008-07-09 | Oxford Biodynamics Ltd | Method of diagnosis |
US8076070B2 (en) | 2008-08-06 | 2011-12-13 | University Of Southern California | Genome-wide chromosome conformation capture |
WO2010036323A1 (en) | 2008-09-25 | 2010-04-01 | University Of Massachusetts Medical School | Method of identifing interactions between genomic loci |
WO2010059731A2 (en) | 2008-11-18 | 2010-05-27 | Bionanomatrix, Inc. | Polynucleotide mapping and sequencing |
EP2393940B1 (en) | 2009-02-03 | 2014-12-17 | New England Biolabs, Inc. | Generation of random double-strand breaks in dna using enzymes |
US9524369B2 (en) | 2009-06-15 | 2016-12-20 | Complete Genomics, Inc. | Processing and analysis of complex nucleic acid sequence data |
WO2011032040A1 (en) | 2009-09-10 | 2011-03-17 | Centrillion Technology Holding Corporation | Methods of targeted sequencing |
WO2011056872A2 (en) | 2009-11-03 | 2011-05-12 | Gen9, Inc. | Methods and microfluidic devices for the manipulation of droplets in high fidelity polynucleotide assembly |
US20110287947A1 (en) | 2010-05-18 | 2011-11-24 | University Of Southern California | Tethered Conformation Capture |
CA2804450C (en) | 2010-07-09 | 2022-10-11 | Max Jan van Min | 3-d genomic region of interest sequencing strategies |
WO2012047726A1 (en) | 2010-09-29 | 2012-04-12 | The Broad Institute, Inc. | Methods for chromatin immuno-precipitations |
EP2622103B2 (en) | 2010-09-30 | 2022-11-16 | Bio-Rad Laboratories, Inc. | Sandwich assays in droplets |
US20120197533A1 (en) * | 2010-10-11 | 2012-08-02 | Complete Genomics, Inc. | Identifying rearrangements in a sequenced genome |
EP4328321A2 (en) | 2010-10-22 | 2024-02-28 | Cold Spring Harbor Laboratory | Varietal counting of nucleic acids for obtaining genomic copy number information |
WO2012103442A2 (en) | 2011-01-28 | 2012-08-02 | The Broad Institute, Inc. | Paired end bead amplification and high throughput sequencing |
CN103443338B (zh) | 2011-02-02 | 2017-09-22 | 华盛顿大学商业化中心 | 大规模平行邻接作图 |
AU2012242525B2 (en) | 2011-04-14 | 2015-09-17 | Complete Genomics, Inc. | Processing and analysis of complex nucleic acid sequence data |
EP2705156B1 (en) | 2011-05-05 | 2015-08-26 | Institut National de la Santé et de la Recherche Médicale (INSERM) | Linear dna amplification |
EP2710146A2 (en) | 2011-05-18 | 2014-03-26 | Life Technologies Corporation | Chromosome conformation analysis |
US9074204B2 (en) | 2011-05-20 | 2015-07-07 | Fluidigm Corporation | Nucleic acid encoding reactions |
WO2012177774A2 (en) | 2011-06-21 | 2012-12-27 | Life Technologies Corporation | Systems and methods for hybrid assembly of nucleic acid sequences |
US20140136121A1 (en) * | 2011-07-05 | 2014-05-15 | Bgi Tech Solutions Co., Ltd. | Method for assembling sequenced segments |
WO2013078470A2 (en) | 2011-11-22 | 2013-05-30 | MOTIF, Active | Multiplex isolation of protein-associated nucleic acids |
US10081807B2 (en) | 2012-04-24 | 2018-09-25 | Gen9, Inc. | Methods for sorting nucleic acids and multiplexed preparative in vitro cloning |
KR101974577B1 (ko) | 2012-05-21 | 2019-05-02 | 삼성전자주식회사 | 나노입자 제작용 주형 및 이를 이용한 나노입자의 제조 방법 |
NZ739931A (en) | 2012-07-13 | 2019-08-30 | X Chem Inc | Dna-encoded libraries having encoding oligonucleotide linkages not readable by polymerases |
EP2898096B1 (en) | 2012-09-21 | 2024-02-14 | The Broad Institute, Inc. | Methods for labeling of rnas |
US9411930B2 (en) * | 2013-02-01 | 2016-08-09 | The Regents Of The University Of California | Methods for genome assembly and haplotype phasing |
JP6466855B2 (ja) | 2013-02-01 | 2019-02-06 | ザ リージェンツ オブ ザ ユニバーシティ オブ カリフォルニア | ゲノムアセンブリ及びハプロタイプフェージングの方法 |
EP3540074A1 (en) | 2013-12-11 | 2019-09-18 | The Regents of the University of California | Method of tagging internal regions of nucleic acid molecules |
CA2956925C (en) | 2014-08-01 | 2024-02-13 | Dovetail Genomics, Llc | Tagging nucleic acids for sequence assembly |
US20170283860A1 (en) | 2014-09-16 | 2017-10-05 | The Board Of Trustees Of The Leland Stanford Junio University | Methods and compositions for the removal of aldehyde adducts and crosslinks from biomolecules |
CA2964799A1 (en) | 2014-10-17 | 2016-04-21 | Illumina Cambridge Limited | Contiguity preserving transposition |
SG10202000731WA (en) * | 2015-02-17 | 2020-03-30 | Dovetail Genomics Llc | Nucleic acid sequence assembly |
WO2016154540A1 (en) | 2015-03-26 | 2016-09-29 | Dovetail Genomics Llc | Physical linkage preservation in dna storage |
WO2016207647A1 (en) | 2015-06-24 | 2016-12-29 | Oxford Biodynamics Limited | Epigenetic chromosome interactions |
AU2016341198B2 (en) | 2015-10-19 | 2023-03-09 | Dovetail Genomics, Llc | Methods for genome assembly, haplotype phasing, and target independent nucleic acid detection |
-
2016
- 2016-02-17 SG SG10202000731WA patent/SG10202000731WA/en unknown
- 2016-02-17 NZ NZ734854A patent/NZ734854A/en unknown
- 2016-02-17 KR KR1020177026167A patent/KR20170134379A/ko not_active Application Discontinuation
- 2016-02-17 WO PCT/US2016/018295 patent/WO2016134034A1/en active Application Filing
- 2016-02-17 CA CA2976902A patent/CA2976902A1/en active Pending
- 2016-02-17 EP EP21212335.0A patent/EP4030437A1/en active Pending
- 2016-02-17 AU AU2016220135A patent/AU2016220135B2/en active Active
- 2016-02-17 JP JP2017561612A patent/JP6777966B2/ja active Active
- 2016-02-17 CN CN201680022338.4A patent/CN107533590B/zh active Active
- 2016-02-17 SG SG11201706730XA patent/SG11201706730XA/en unknown
- 2016-02-17 EP EP16711045.1A patent/EP3259696A1/en not_active Withdrawn
- 2016-02-17 US US15/045,818 patent/US9715573B2/en active Active
-
2017
- 2017-06-26 US US15/632,895 patent/US10318706B2/en active Active
- 2017-08-15 IL IL254000A patent/IL254000B/en unknown
-
2019
- 2019-02-13 US US16/275,037 patent/US11600361B2/en active Active
-
2020
- 2020-10-05 JP JP2020168530A patent/JP7113053B2/ja active Active
-
2023
- 2023-02-02 US US18/163,421 patent/US20230178184A1/en not_active Abandoned
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20110288845A1 (en) | 2008-12-12 | 2011-11-24 | Peixiang Ni | Construction method and system of fragments assembling scaffold, and genome sequencing device |
JP2012511753A (ja) | 2008-12-12 | 2012-05-24 | シェンチェン ホワダ ジーン インスティテュート | 断片アセンブリングスキャフォールドの構築方法及びシステム、並びにゲノム配列決定装置 |
JP2012514977A (ja) | 2009-01-13 | 2012-07-05 | キージーン・エン・フェー | 新規ゲノム配列決定戦略 |
Non-Patent Citations (1)
Title |
---|
吉川 舜亮,"Sparse k-mer graphアルゴリズムの評価とVelvetへの実装",電子情報通信学会技術研究報告,日本,一般社団法人電子情報通信学会,2013年06月20日,第113巻第111号,p.1-7,ISSN:0913-5685 |
Also Published As
Publication number | Publication date |
---|---|
EP3259696A1 (en) | 2017-12-27 |
AU2016220135B2 (en) | 2021-07-29 |
CN107533590A (zh) | 2018-01-02 |
JP6777966B2 (ja) | 2020-10-28 |
US20230178184A1 (en) | 2023-06-08 |
WO2016134034A1 (en) | 2016-08-25 |
AU2016220135A1 (en) | 2017-09-14 |
NZ734854A (en) | 2022-11-25 |
KR20170134379A (ko) | 2017-12-06 |
US20190180843A1 (en) | 2019-06-13 |
CA2976902A1 (en) | 2016-08-25 |
SG11201706730XA (en) | 2017-09-28 |
SG10202000731WA (en) | 2020-03-30 |
EP4030437A1 (en) | 2022-07-20 |
US20160246922A1 (en) | 2016-08-25 |
US9715573B2 (en) | 2017-07-25 |
US11600361B2 (en) | 2023-03-07 |
JP2021007039A (ja) | 2021-01-21 |
JP2018512092A (ja) | 2018-05-10 |
US20170300615A1 (en) | 2017-10-19 |
CN107533590B (zh) | 2021-10-26 |
IL254000A0 (en) | 2017-10-31 |
IL254000B (en) | 2021-09-30 |
US10318706B2 (en) | 2019-06-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7113053B2 (ja) | 核酸配列アセンブリ | |
JP7297774B2 (ja) | 構造変異の分析 | |
US20210371904A1 (en) | Recovering Long-Range Linkage Information From Preserved Samples | |
JP2018509928A (ja) | 環状化メイトペアライブラリーおよびショットガン配列決定を用いて、ゲノム変異を検出するための方法 | |
Rayamajhi et al. | Evaluating Illumina-, Nanopore-, and PacBio-based genome assembly strategies with the bald notothen, Trematomus borchgrevinki | |
McKain et al. | Ancestry of the two subgenomes of maize | |
Cameron et al. | GRIDSS2: harnessing the power of phasing and single breakends in somatic structural variant detection | |
US11821031B2 (en) | Systems and methods for graph based mapping of nucleic acid fragments | |
Voshall et al. | A consensus-based ensemble approach to improve de novo transcriptome assembly | |
Linheiro et al. | Quantification of the effects of chimerism on read mapping, differential expression and annotation following short-read de novo assembly. | |
Spinozzi | Anti-Cancer Drug Resistance Causal Modeling from Lentiviral-Vector Integration Site Studies | |
O'Connell | Developing and Applying Chromatin Proximity Ligation Methods | |
SHAOJIANG | Paired End Transcriptome Assembly and Genomic Variants Management for Next Generation Sequencing Data | |
McCoy et al. | Illumina TruSeq Synthetic Long-Reads Empower De Novo Assembly and Resolve | |
Lee | Algorithms and Applications in Genome Assembly using Long Read Sequencing Technology |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201102 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201102 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220202 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220428 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220629 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220725 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7113053 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |