JP2010517539A - ショートリード配列決定を用いたインデル識別のためのシステムおよび方法 - Google Patents

ショートリード配列決定を用いたインデル識別のためのシステムおよび方法 Download PDF

Info

Publication number
JP2010517539A
JP2010517539A JP2009548503A JP2009548503A JP2010517539A JP 2010517539 A JP2010517539 A JP 2010517539A JP 2009548503 A JP2009548503 A JP 2009548503A JP 2009548503 A JP2009548503 A JP 2009548503A JP 2010517539 A JP2010517539 A JP 2010517539A
Authority
JP
Japan
Prior art keywords
sequence
overlapping
sequences
pair
length
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2009548503A
Other languages
English (en)
Inventor
チェン チャン,
Original Assignee
アプライド バイオシステムズ, エルエルシー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by アプライド バイオシステムズ, エルエルシー filed Critical アプライド バイオシステムズ, エルエルシー
Publication of JP2010517539A publication Critical patent/JP2010517539A/ja
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly

Abstract

ショートリード配列アセンブリのため、ならびに基準ゲノムにおける挿入および欠失(インデル)の検出のためのシステム、方法、および分析的アプローチ。計算的に効率的な様式でインデルを容易に識別しうるソフトウェア実行に適切な方法を提示する。一形態において、本教示は、比較的大量のショートリード配列情報が入手可能で、また基準配列情報を用いて分析される核酸の配列再決定の用途での使用に採用できる。本明細書で説明した方法は、基準配列またはゲノムに関連して推定上の挿入および欠失(例えば、インデル)の識別および位置決めに有利に使用しうる。

Description

(関連出願の相互参照)
本出願は、2007年2月5日出願の「ショート配列決定リードを用いたインデルの発見」という題の米国特許仮出願通し番号第60/888,196号に対する優先権を主張し、その全内容を参照し本書に組込む。
(分野)
本教示は、一般的には、配列データ分析用システム、方法、およびソフトウェアに関連し、またさらに具体的には、ショートリード配列データを用いた配列再決定および挿入/欠失の識別のためのシステム、方法、およびソフトウェアに関する。
(はじめに)
大量処理のショートリード核酸配列決定アプローチは、急速な発展を続けており、従来のSanger配列決定方法に比べて数桁も多い配列処理能力の可能性が提供される。ショートリード配列情報の生成が可能なプラットフォームおよび計測器には、一例として、Applied Biosystems SOLiD計測プラットフォーム、Solexa / Illumina 1Gゲノム分析システムおよびその他が含まれる。こうしたシステムでは一般に、Sanger−basedアプローチ(約500〜1000塩基対)と比べて比較的短い長さ(約10〜50塩基対程度)を持つ膨大な量の配列情報が作成される。大量処理ショートリード核酸配列決定アプローチの模範的な用途には、配列再決定、遺伝子発現分析、およびゲノムプロファイリングが含まれる。ショートリード配列決定プラットフォームからのデータの利用においての一つの問題は、モデムアセンブリプログラム、データ分析アプローチ、およびエラー訂正ルーチンが、従来のSanger−basedアプローチで検出された長めのリード長さを用いて演算されるように設計されており、ショートリード配列情報のアセンブリにはあまり適していないことである。例えば、従来の配列分析アプローチをショートリード配列情報に適応させようとしたときに遭遇する一つの問題は、各個別のリードの長さが短くなると、基準配列内でリードが複数回発生する確立が高まることである。さらに、哺乳類のゲノムなどの複雑なゲノムには、数多くの反復した配列が含まれていることがよくあり、ショートリード情報を基礎的または基準の配列に組立てまたは関連付けすることはさらに困難なものとなる。このように、ショートリード配列情報の解釈および分析における重要な課題は、この情報を比較的大きなゲノムにマッピングし、一方でエラーおよび誤整列配列の数を減らすことに関連する。
(要約)
本教示は、核酸断片アセンブリを含むショートリード配列情報の解釈のためのシステム、方法、および分析的アプローチを対象としたものである。一形態において、本教示は、比較的大量のショートリード配列情報が入手可能で、また基準配列情報を用いて分析される核酸の配列再決定の用途での使用に採用できる。本書で説明した方法は、基準配列またはゲノムに関連して推定上の挿入および欠失(例えば、インデル)の識別および位置決めに有利に使用しうる。基準配列またはゲノム内のインデルを考慮するとき、本書で説明した分析アプローチによってさらに、時間および計算上の複雑さが低減される。さらに、本教示は、ショートリード配列データを基準配列データにマッピングする際に発生する誤整列の数やマッピング エラーを低減するために採用することもできる。
各種の実施例において、核酸配列分析の方法が教示されている。メイト対配列が介在する配列長さによって分離される重複しない対配列から構成されている、一つ以上のメイト対配列で構成される核酸配列情報を受取る手順、少なくとも一つの基準配列で構成される核酸配列情報を受取る手順、重複しない対配列が少なくとも一つの基準配列に以下の手順によって整列されているような、一つ以上のメイト対配列それぞれについてのマッピング作業を実行する手順(以下の手順とは、重複しない対配列を識別して、その対配列のために重複しない対配列の一つを少なくとも一つの基準配列に整列しつつ、その一方で選択したミスマッチ制約を満足するよう、重複しない対配列を選択したミスマッチ制約のある少なくとも一つの基準配列に整列させる第一のマッピング作業を実行する手順、選択したミスマッチ制約のある非整配列の対の配列を整列させるための基準配列のウィンドウ領域を指定する第二のマッピング作業を実行する手順である)、第一および第二のマッピング作業の実行後に首尾よくマッピングされた重複しない対配列を識別する手順、ならびに、マッピング作業の結果を出力する手順で構成される方法。
その他の実施例において、核酸配列分析システムが教示されている。このシステムはさらに、メイト対配列が介在する配列長さによって分離される重複しない対配列から構成され、また、さらに少なくとも一つの基準配列についての核酸配列情報を受取るように設定されている、一つ以上のメイト対配列についての核酸配列情報を受取り、重複しない対配列が少なくとも一つの基準配列に以下の手順によって整列されている一つ以上のメイト対配列それぞれについてのマッピング作業を実行し(以下の手順とは、重複しない対配列を識別して、そのために重複しない対配列の一つを少なくとも一つの基準配列に整列しつつ、その一方で選択したミスマッチ制約を満足するよう、重複しない対配列を選択したミスマッチ制約のある少なくとも一つの基準配列に整列させる第一のマッピング作業の実行、選択したミスマッチ制約のある非整列の対の配列を整列させるための基準配列のウィンドウ領域を指定する第二のマッピング作業の実行である)、第一および第二のマッピング作業の実行後に首尾よくマッピングされた重複しない対配列を識別するよう設定されたデータ分析装置、ならびに、データ分析装置により生成されたマッピング作業の結果をユーザーに表示するためのデータ端末から構成される。
さらにその他の実施例で、核酸配列分析の方法を実行するために読取り可能なコンピュータ読取可能媒体が教示されている。メイト対配列が介在する配列長さによって分離される重複しない対配列から構成される、一つ以上のメイト対配列で構成される核酸配列情報を受取る手順、少なくとも一つの基準配列で構成される核酸配列情報を受取る手順、重複しない対配列が少なくとも一つの基準配列に以下の手順によって整列されている、一つ以上のメイト対配列それぞれについてのマッピング作業を実行する手順(以下の手順とは、重複しない対配列を識別して、そのために重複しない対配列の一つを少なくとも一つの基準配列に整列しつつ、その一方で選択したミスマッチ制約を満足するよう、重複しない対配列を選択したミスマッチ制約のある少なくとも一つの基準配列に整列させる第一のマッピング作業を実行する手順、選択したミスマッチ制約のある非整列の対の配列を整列させるための基準配列のウィンドウ領域を指定する第二のマッピング作業を実行する手順である)、第一および第二のマッピング作業の実行後に首尾よくマッピングされた重複しない対配列を識別する手順、ならびに、マッピング作業の結果を出力する手順で構成される方法の実行が可能なコンピュータ読取可能媒体。
熟練した当業者であれば、以下に説明する図面は、例証の目的のみであることを理解するであろう。これらの図は、本教示の範囲をいかなるかたちでも制限することを意図するものではない。
図1は、本教示による模範的な二重鎖DNA断片および関連するメイト対プライマー(F3)および(R3)を図示したものである。 図2およびBは、本教示による挿入および欠失の発生および相対的サイズを、基準断片と配列決定断片との間で比較して図示したものである。 図3Aは、本教示によるメイト対配列分析のためのフローチャートを図示したものである。 図3Bは、本教示によるメイト対配列分析のためのフローチャートを図示したものである。 図4は、本教示によるメイト対配列分析で使用する領域検索/ウィンドウ走査技術のアプリケーションを図示したものである。 図5は、本教示による大規模な挿入識別アプローチを図示したものである。 図6は、本教示による、メイト対分析の模範的な検証およびシミュレーション結果を図示したものである。 図7は、本教示による核酸配列分析を実施するための模範的なシステムを図示したものである。
(模範的実施例の説明)
当然のことながら、上記の一般的説明および下記の詳細な説明はどちらも、単に模範的かつ説明的なものであり、また本教示の範囲を制限するものではない。この出願において、単数の使用には、別途具体的に記述しない限り複数も含まれる。例えば、「一つの順方向プライマー」は、複数の順方向プライマー、例えば、特定の順方向プライマー種の一つ以上のコピー、また一つ以上の異なる順方向プライマー種が存在しうることを意味する。また、「comprise(から成る)」、「contain(包含する)」、および「include(含む)」、またはこれらの基語の変形の例には、「comprises」、「contained」、および「including」があるがこれに限定されず、これらは制限を意図するものではない。「および/または」という用語は、その前後の用語が一まとめに、または別個に考慮されることを意味する。例証の目的であり限定するものではないが、「Xおよび/またはY」は、「X」または「Y」あるいは「XおよびY」を意味しうる。
本書で使用したセクション見出しは、単に構成上の目的を持つもので、説明した主題をいかなるかたちでも制限するとは解釈されない。特許、特許出願、論文、図書、および学術論文を含めて、本出願で引用した全ての文献および類似した資料は、あらゆる目的で参照によりその全文を明示的に組み込む。組み込まれた文献および類似した資料のうち一つ以上で、本出願の用語の定義と矛盾する方法で用語が定義または使用されている場合には、本出願が優先する。本教示は、様々な実施例と関連して説明されているが、本教示がこうした実施例に限定されることは意図されていない。一方、本教示には、当業者により認識されるとおり、様々な代案、改造、および等価物が包含される。
各種の実施例において、本教示と共に使用するために採用されうる核酸配列情報は、メイト対配列情報で構成される。図1は、模範的な二重鎖DNA断片50および関連するメイト対プライマー(F3)100、(R3)102を図示したものである。典型的な分析パラダイムにおいて、配列情報は、核酸断片の両方向120、125(例えば、3’および5’部分)からの配列決定により取得しうる。例えば、図に示すとおり、プライマー対F3およびR3は、核酸断片50の部分に既知またはおおよそのサイズ150の介在距離105にわたる。メイト対情報と呼ばれるこうした対の配列情報は、一般に140となる配列内の配列決定リードの配置およびサイズを制約する。本書で使用するとき、「メイト対」という用語には、二つの配列決定された断片間を隔てる距離または配列の長さが、少なくとも第一の概算値であるとわかっているといった具合に、挿入の両端の断片情報を挿入のサイズ150と組み合わせたものが含まれることがある。
一形態において、ショートリードメイト対配列情報は、得られた配列情報が介在領域105内の順方向の場所(3’)100および遠位の場所(5’)102に対応するように、プライマー対F3 / R3を使用して、核酸断片50の一部の配列決定により取得することもできる。一般に、介在領域105の配列は、順方向の場所(3’)100および遠位の場所(5’)102に対応する配列情報によっては提供されないが、介在領域105にかかる塩基のサイズまたは数は、およそまたは正確にわかっている場合がある(例えば、F3/R3プライマー対を使用して取得した配列情報は、基準配列に関しては重複せず、むしろ介在配列により分離されている)。前述のとおり、ショートリード配列情報は一般に、Sanger配列決定ベースのアプローチなど、その他の配列決定方法に比べて著しく短い。一形態において、ショートリード配列情報は、約10〜30塩基対のサイズを持つそれぞれのプライマーF3 / R3からの配列情報で構成される。別の形態において、ショートリード配列情報は、約25〜50塩基対のサイズを持つそれぞれのプライマーF3 / R3からの配列情報で構成される。別の形態において、ショートリード配列情報は、約40〜75塩基対のサイズを持つそれぞれのプライマーF3 / R3からの配列情報で構成される。ただし当然のことながら、本教示の適用は、その他の配列長さでの使用にも適切であると考えられ、またF3 / R3に起因するその配列長さは互いに同一である必要はない。
メイト対リードについては、プライマーF3 / R3間の距離105は、プライマー対ごとに変化しうる。本教示に従い、対のショートリード配列情報は、一般におよそ数キロベース(Kb)の距離105で分離されている。例えば、プライマーF3 100 / R3 102間の距離は、約2〜3 Kbの間、約4〜7 Kbの間、または約8〜15 Kbの間でありうる。ただし当然のことながら、本教示の適用は、プライマーF3 100 / R3 102間の距離が上記に挙げた値よりも大きいもしくは小さい値であるその他のメイト対リードとの使用にも適切であると考えられる。
上記で示したサイズに従いメイト対配列情報を生成ための方法論は、当技術分野で知られている。例えば、「核酸配列から対のタグを生成する方法およびその使用方法(Methods For Producing A Paired Tag From A Nucleic Acid Sequence And Methods Of Use Thereof)」という題の米国特許公報第2006/0024681号では、メイト対配列決定アプローチでの使用に適した核酸ライブラリを開発するための様々なアプローチについての記載があり、その内容を参照し全文を本書に組込む。対照的に、「ショットガン法によるデータセットを使用した全ゲノムのアセンブリのための方法およびシステム(Method and System For The Assembly Of A Whole Genome Using A Shot−Gun Data Set)」という題の米国特許第6,714,874号には、ショートリード配列情報と比較して長めのDNA断片および配列決定情報を使用したショットガン法により末端配列決定されたDNA断片の集合からゲノムのアセンブリ作成をするための方法およびシステムについて説明がある。メイト対アセンブリを分析するためのソフトウェアツールに関するこれまでの研究の、大き目の核酸断片および全ゲノムのショットガンアセンブリに関連しては、「アセンブリ内のメイト対分析のためのツール(A Tool For Analyzing Mate Pairs In Assemblies (TAMPA))」Dew et al., Journal of Computational Biology, Vol 12, No. 5, 2005があり、また短めの核酸断片に関連しては「ショートリード配列決定の実現可能性の分析(An Analysis Of The Feasibility Of Short Read Sequencing)」Whiteford et al. Nucleic Acids Research, Vol 33, No. 19, 2005および「ショートリードによる断片アセンブリ(Fragment Assembly With Short Reads)」Chaisson et at., Bioinformatics Vol 20, No. 13, 2004があるが、この内容を参照して全文を組み込む。これらの論文に照らして、従来の配列アセンブリ技術をショートリード配列データに適用する際に、潜在的な問題および落とし穴が存在することがわかる。
図2Aおよび2Bに示すとおり、本教示によるメイト対配列決定アプリケーションは、多様なインデルのサイズの挿入および欠失の検出または識別に使用することができる。比較的大きなサイズのインデルについて、インデル識別の一つのアプローチでは、平均距離からの偏差として決定することができ、これをインデルの存在およびサイズを導き出すために使用できる。本教示において、大きなサイズのインデルには、約0.2 Kb以上のサイズのものが含まれると考えられる。各種の実施例において、本教示のさらなる利点は、開示方法は、挿入と同様に、最大約1Kbのサイズを持つものを含めた欠失の識別にも使用できることである。本書で以降にさらに詳しく説明するが、ミニアセンブリのアプローチを検出/識別プロセスで使用することができる。
上記で説明したアプローチによれば、この方法により比較的大きなインデルが一般に識別できる。ところが、サイズが小から中のインデルでは、メイト対配列情報を使用する際に、より難度の高い問題があり、そのため、その他の潜在的にさらに効率的な代用方法について考察されている。本教示において、中サイズのインデルは、欠失については約10 bp〜200 bp、また挿入については5 bp〜200 bpの大きさであると考えられる。同様に、本教示において、小サイズのインデルは、欠失については約1 bp〜10 bp、また挿入については1 bp〜5 bpの大きさであると考えられる。
各種の実施例において、サイズが小から中のインデルは、メイト対配列決定リードおよびアラインメントを直接使用して識別することができる。ところが、ここでとるアプローチでは、分析の計算的な複雑さを低減するために、整列プロセスに一定の制約を設けることになる。ショートリード配列データのサイズおよび数は、挿入および/または欠失のためのギャップを考慮にいれた、ショートリードの基準配列に対する制約のない整列によって、解決困難で時間のかかる問題を発生させる。その上、制約のないマッピングは一般に、潜在的に多数の誤整列につながり、分析の全体的な品質および信頼性を低下させる。本教示のアプローチでは、結果の質を改善し、その一方でプロセスの計算的な複雑さを低減するために、マッピング/整列に一定の制約を課して、この障害を克服している。タグ/プライマー間のおよその距離が分かっているメイト対配列情報により提供された対のリード情報の場合には、対をなす二つのリードのうち少なくとも一つはインデルと重複しない可能性が増し、従って、こうした特性は、誤整列の数を低減または制限するために有利に利用され得る。
図3に描写した流れ図300は、本教示に従い、小サイズおよび中サイズのインデルを識別するために使用しうる段階的な分析アプローチを図示したものである。状態305に始まり、基準配列情報を含むメイト対配列情報(例えば、タグ)は、受取られるかまたは回収されて、その後の分析用に準備される。こうしたメイト対配列情報は、例えば、一つ以上のメイト対プライマーの集合(例えば、前図に示すような、F3 / R3 プライマー)に関連した塩基配列で構成されうる。塩基配列情報には、例えば、品質または信頼性の値、基準配列の場所情報、メイト対プライマー間の正確なまたはおよその距離を示す注釈、およびその他の情報を含めた追加的な情報も含まれうる。基準配列情報は、例えば、一つ以上の特定の標的とするゲノムまたは試料についてなど、各種の塩基配列で構成しうる。当業者には当然のことながら、分析で使用されるメイト対および基準配列情報のタイプは、多数の様式で得ることができる。例えば、こうした情報は、配列決定機器プラットフォームから直接送信することも、またはこうした情報の保管用に使用するデータベースから取り出すこともできる。本教示の分析アプローチで使用するための配列決定データの回収、送信、取り出し、処理、および/または準備の態様および様式は、本教示の範囲を限定するものとしては解釈されない。
状態305で適切な配列情報がいったん回収されると、状態310でマッピング/整列作業が実行される。ここで実行されるマッピング作業は、一般的なものとして前図に表示されており、基準配列に対してメイト対の適切な配置を判断するために使用される。当然のことながら、こうしたマッピング作業は、ユーザーの介入なしに、あるいは別の方法としてユーザーに対するマッピングの様々な図式の提示を、実質的に自動化された方法で実行できる。
状態315ではマッピング作業は続行され、ここで、メイト対分析により、それぞれのメイト対配列(例えば、F3 / R3)間での選択した数または範囲のミスマッチを考慮した、基準ゲノムに対するメイト対の位置が決定される。ミスマッチ許容度の模範的な範囲の一つとして、ショートリードメイト対配列について0〜2の間のミスマッチが許容されうる。こうしたミスマッチ許容度は、基準配列に対するそれぞれのメイト対の適切な配置の正確な識別を支援するために、十分厳格なものである。その上、許容されるミスマッチの数または範囲が提示されることで、基準配列に対するメイト対の最も可能性の高い配置の決定を促進するための、配列情報および/または整列におけるエラー許容度の程度が考慮される。下記でさらに詳しく説明するとおり、ゼロ、一つ、または両方のメイト対を基準配列と整列させうる可能性がある。
状態320での最初のマッピングの実行において、許容されるミスマッチ許容度は上記のとおりとして、F3および/またはR3のいずれかを基準配列にマッピングできるかに関しての判断がなされる。結果330によって示されるとおり、単一のメイト対が基準配列(例えば、F3はマッピングできるが、R3はできない)にマッピングできる場合に、状態340でウィンドウ領域の距離決定がなされる。ウィンドウ領域の距離は、メイト対プライマー間のおよそのまたは予測される距離から導かれる範囲の塩基を示すが、これは、一つ以上の挿入の結果としての追加的な塩基の存在、または欠失の結果としてのメイト対間の予測される塩基の不在を意味することもある。
模範的なウィンドウ領域の距離および関連するメイト対の走査および整列アプローチを、図4に示す。模範的な一つの場合において、メイト対配列(図の上の部分にあるR3および図の下の部分にあるF3)は、前記のミスマッチ許容度と仮定すると、首尾よく基準配列にマッピングされる。それぞれのメイト対のサイズ、およびメイト対間のおよそのまたは予測される距離に基づき、選択した塩基配列数または範囲のウィンドウは、対応するメイト対配列を整列しようとしている配列に対して識別される(図の上の部分にあるR3および図の下の部分にあるF3)。図3で言及した方法で、対応するメイト対のマッピングが試みられるのは、この領域内である。当業者には当然のことであるが、こうしたアプローチでは、基準配列に対する挿入および/または欠失の原因となる、ある程度のマッピングの柔軟性が考慮されており、そうでなければおよそのまたは予測される介在配列長さのあるメイト対配列の整列が阻止される可能性がある。
再び図3を参照するが、状態350では、基準配列に対して容易にはマッピングできないメイト対タグ(例えば、図3A状態350のR3)は、ウィンドウ領域内で整列される。このプロセス中、メイト対タグの整列には、配列情報で指定した数もしくは量のミスマッチがあるおよび/またはないアラインメントが適合する。一形態において、こうしたアプローチでは、マッピングされたメイト対タグ(例えば、F3)内に「アンカー」が備わっており、マッピングされていないメイト対タグ(例えば、R3)の移動可能なまたは柔軟性のあるマッピングが許容される。
状態360において、それまでにマッピングされなかったメイト対タグ(例えば、R3)が首尾よくマッピングされた場合には、両方のメイト対タグおよび関連する配列情報のマッピングが識別され、状態370で出力されうる。それまでにマッピングされなかったメイト対タグ(例えば、R3)が前の手順でウィンドウ領域内にマッピングできなかった場合には、マッピングの欠如が識別され、状態375で出力されうる。
状態320で実行した最初のマッピングに再び戻り、F3および/またはR3のうちいずれかが基準配列にマッピングできるかどうかが判断される。結果335により示されるとおり、両方のメイト対タグが基準配列にマッピングできる場合(例えば、F3およびR3の両方がマッピングできる)には、状態345で距離制約の決定がなされる。メイト対の間の距離がメイト対タグ間の予測されるか、またはおよその距離と一致することを確認することで、偽のマッピングの可能性が著しく低減される。また、こうした判断によって、好ましいことに、そうでなければSanger配列決定の適用により提供されるものなど従来の長めの配列決定リードに比べて高い頻度で発生する偽陽性の状態が回避される。こうして、状態370で、両方のメイト対タグ(F3およびR3)が首尾よくマッピングされ、また二つの間の距離の制約が一致した場合には、配列情報および結果が識別され、上記に説明したとおり出力されうる。同様に、距離の制約の条件を満足しそこなったメイト対タグについては、状態375で結果は前記で考察したとおりに出力されうる。
図3Bは、メイト対配列分析のための類似した分析的アプローチを提示するものであるが、ここでは、状態370で首尾よくマッピングされるメイト対タグは、反対のメイト対タグである(例えば、R3はF3に対してマッピングされる)。当業者には当然のことであるが、分析的アプローチの実施は、類似した方法で進めれば、図で示した予測される結果が得られる。その上、当然のことながら、これらの分析的アプローチは、様々なソフトウェアパッケージおよび/またはプログラム言語を使用して、容易に実施および/またはコード化でき、そのようなものとしてこうした全ての実施は本教示の範囲内であると考えられる。
各種の実施例において、インデル識別のための上記の分析的アプローチは、二つの主な段階にまとめることができる。第一の段階では、メイト対タグまたはリードを、少数のミスマッチを考慮して整列させ、また第二の段階では、一つのみのメイト対タグが首尾よくマッピングされるメイト対タグまたはリードの対について、リード内に許容されるギャップを許容しながらも、比較的小さな領域に対する整列がなおも制約されるよう、一致していない第二のメイト対タグを整列するための試みが実行されうる。領域の位置は、基準配列にマッピングされた第一のタグの位置と相対的なものとして考えられ、またライブラリ内のクローンのサイズにより判断できる。
図5は、ミニアセンブリアプローチを用いた挿入を決定するアプローチを図示したものである。このアプローチは、関心ゲノムまたは配列510に存在する可能性のある(他の領域の複製ではなく)比較的長い挿入505の識別を試みる際に、容易に利用しうる。この図で、模範的な配列510の挿入505は、太線で示されている。リードは、模範的な配列510の下に短めの線515で示されている。リードを集合させて、挿入505を網羅すること520が可能である。この例において、挿入の接合部525では、リード515の前半または後半のいずれかが、基準配列510と一致する。
このアプローチをアセンブリに使用して、リード間で少なくともN塩基の重複する領域について完全な一致が存在するというルールが実施されうる。この条件に一致するリードについて、重複するリードのグループ内で最も短い経路を横切って挿入が識別されうる。
図6は、上記の配列分析アプローチの統計的結果についての二つの表を示したものである。表1に提示した結果は、図3のメイト対分析アプローチに従い欠失および挿入を検出したときに観察された偽陽性率である。これらの数値を導き出すために、線虫(C. elegans)ゲノムから約100万対のリードを使用し、リードの長さ約25bpを持つリードに10%の一様な無作為な配列決定ミスを追加した。この実験で、手順315に従い許容される2個のミスマッチ、および図3A/Bの手順350に従いインデルの片側に少なくとも8 bpを持つM個のミスマッチが許容された。
次に、本書で説明したマッピングおよびインデルを検出するアプローチをこの組のリードに適用し、その後に識別されたインデルの数を計数した。偽陽性率は、図3で説明したアプローチを使用してインデルを検出した対の部分に対応した。欠失についての偽陽性を表1に、挿入については表2に示す。当然のことながら、リードはインデルが一切ない基準配列からサンプリングされるため、このシミュレーションで偽陽性率が予想される。表1に示す結果について、欠失はカラム1Aに提示するが、リードがミスマッチなしに整列されたときに、最高約100 bpの欠失が、著しく低い偽陽性率で検出されうることがわかる。ここでDは、図3で規定したアプローチで許容される欠失の最大サイズである。同様に、挿入の結果を表2に示すが、これは、表1で提示した欠失の結果よりもさらに良い。ここでIは、図3で規定したアプローチで許容される挿入の最大サイズである。こうして、リードのアラインメントのみを使用して、最高約8 bpの挿入が容易に識別できる。
本教示の重要な一面は、これを適用することで、対のショートリード配列情報を、従来のアプローチと比較してより良い信頼性および精度をもって有利に整列しうることである。例えば、介在配列内にインデルが存在する結果、二つのメイト対配列の一方が基準配列に容易に整列されないような場合に、ウィンドウ走査アプローチを使用して、非整列のメイト対配列を「救出」して、基準配列に対するこの配列の適切な配置を決定することができる。当然のことであるが、これらの技術を適用することで、このようにメイト対配列情報の活用が改善され、またインデルの存在に起因する好ましくない非整列メイト対の「損失」が回避される。
同様に、本教示で例証されているミニアセンブリのアプローチでは、挿入の「範囲を測定」し、それによってメイト対配列の適切な整列を許容し、一方で基準配列に対する挿入の存在を識別するといった効率的な手法が提供される。
図7は、上記記載の方法に従い、配列分析およびインデル検出を実施するために使用しうる模範的なシステム700を図示したものである。一形態において、試料の処理用コンポーネント705は、試料の処理およびデータの取得に関連した作業を実行するための手段を提供しうる。これらの作業には、一例として、適切なマーカーまたは標識の存在下での試料の標識化、増幅、および/または反応、適切な分析用基質または媒体への試料の暴露、および配列分析およびインデル検出方法のための入力データの役目を果たす試料からの信号または発光の検出などが含まれる。これらの作業との関連が考えられる機器には、アレイ分析機器、配列決定機器、蛍光信号検出機器、サーマルサイクラー、および試料の処理およびデータの取得で使用されるその他の機器が含まれるがこれに限定されない。
試料の処理用コンポーネント705により提供される生データは、その後、データ保管用コンポーネント715に保管することができる。このコンポーネント715は、例えば、ハードディスクドライブ、テープドライブ、光学記憶媒体、ランダムアクセスメモリ、読み出し専用メモリー、プログラム可能フラッシュメモリー装置およびその他のコンピュータまたは電子コンポーネントなど、データおよび情報の保管用に設計された各種の装置から構成されうる。さらに、試料の処理用コンポーネント705から取得したデータおよび情報は、データベース、スプレッドシート、またはその他の適切なデータ構造、データ保管オブジェクト、またはデータ保管用コンポーネント715と関連して作動するアプリケーション内で保管・整理することができる。
各種の実施例において、データ分析用コンポーネント710を挿入700内に存在させることができる。このコンポーネント710は、試料の処理用コンポーネント705またはデータ保管用コンポーネント715からデータおよび情報を取得する機能を持つ。データ分析用コンポーネント710は、さらに上記記載の配列分析およびインデル検出方法のハードウェアまたはソフトウェアの実装を提供する。一形態において、データ分析用コンポーネント710は、入力データを受取り、また配列分析およびインデル検出情報を含めた処理済みのデータを返して、これをデータ保管用コンポーネント715に保管したり、ディスプレー端末720を経由して研究者に直接表示したりするように構成することができる。
上記のコンポーネント705、710、715、720の各機能は、単一のハードウェア装置または一つ以上の分散した装置に統合することもできる。これらの装置は、さらに研究者が希望する装置間の通信およびデータ転送を促進するネットワーク接続性を持ちうる。当然のことながら、本教示の配列分析およびインデル検出方法を実施する多数の適切なハードウェアおよびソフトウェア構成が開発可能で、そうした各構成は本教示のその他の実施例として考慮されるべきである。
模範的な分析および統計的処理
本教示の分析的アプローチによれば、インデルを発見する方法は、最初に実質的に高い類似性が要求されるリードをマッピングすることで構成しうる(完全一致または1ミスマッチなど、比較的高度な厳密性を考慮)。その後、一つのタグのみが固有にまたは高度の信頼性でその他の対応するタグをマッピングするそれぞれのリード対が、マッピング済みのタグから実質的に正確な距離だけ離れた領域内のインデルおよび/またはより多くのミスマッチに対応するように整列される。各種の実施例において、この距離は、ライブラリ挿入サイズおよびその変化によって決定される。
上記の方法を評価するにあたり、無作為な配列が同一のアラインメントを達成しうる確率は、局部的アラインメントの統計的有意性の分析と類似した様式で考慮されうる。一形態において、独立した無作為な配列モデルを使用して、最高30 bpにつき約三つのミスマッチおよび一つの欠失に対応できるような、比較的低い偽陽性率が観察されうる(無作為な配列からのアラインメント)。挿入については、ミスマッチが全く許容されないとき、10 bpの挿入を容易に識別しうる。
この分析は、アラインメントが無作為ではないことを示唆している。さらに考慮すると、欠失のアラインメントについては、例えば、可能性のある二つの仮説があり、一つは欠失が実在するということ、もう一つはリードが配列決定エラーの結果であるとうことが考えられる。
これらの仮説を検定するにあたり、リードがどちらかの仮説を裏付ける確率は、二つの仮説(一つはインデルのあるもの、もう一つはそれのないもの)の下でリードが観察される確率から評価することができ、その後、インデルをどの時点で受け入れるかを決定する。この分析は、リードの中ほどにあるインデルは、信頼性が高いことを示唆している。
これらの分析をその他の結果とあわせることで、所定のゲノムサイズ、一定の範囲比率、リードの長さ、および配列決定エラーの比率について、インデル発見の可能性を予測しうる。例えば、最高30bpの欠失を十分な信頼性で発見する可能性は、1−(1−P)^(kL)であり、ここでkは配列決定の範囲、P=xy(R−10)/L、ここでxはリードに最大三つの配列エラーがある確率、yは対のリードに最高一つのミスマッチがある確率、Rはリードの長さ、およびLはゲノムの長さである。
当然のことながら、挿入および/または欠失のギャップを考慮しながら、従来の方法によって基準配列に対して短いリードを整列させる上での問題は、受け入れがたいほど時間のかかるプロセスにつながり、多数の誤整列につながりうる。本教示によれば、二つのタグ間のおよその距離が分かっている対のリードを使用することにより、対の二つのリードのうち少なくとも一つがインデルと重ならないことが確定でき、従ってこれによって誤整列が制限される。
本教示によれば、インデル検出/識別は、少数のミスマッチおよび一つだけのタグがマッピングされたリードの対を考慮して整列されるリードを使用して進めることができ、リード内でギャップを許容しつつ非一致の第二のタグの整列を試み、アラインメントが比較的小さな領域Rに制約される。Rの位置は、基準配列にマッピングされた第一のタグの位置と相対的なもので、またライブラリ内のクローンのサイズにより決定できる。Rのサイズは、|R|で示すことができ、また混同がない場合には、|R|の代わりにRを使用しうる。Rのサイズは、挿入サイズ自体によるのではなく挿入サイズの範囲によって決定されうることに留意すべきである。
Bayesianアプローチおよび偽発見率との関連
上記で検出されたアラインメントが、実在のインデルを表すものであるかどうかを評価する一つの様式は、二つの無作為な配列がそうしたアラインメントをどれだけの可能性で形成しうるかを評価することである。こうしたアプローチは、局部的な配列整列について実行されうる統計的有意性の予測と類似したものである。ところが、こうした方法では、インデルの存在の可能性は考慮されない。無作為な配列がアラインメントを形成する可能性が低い場合でさえも、必ずしも、インデルが実在していることを示すとは限らず、そのため、配列決定エラーなどのその他の説明も考えられる。
アラインメントが実在であるという信頼性を予測するBayesianアプローチの適用は、こうした分析的アプローチの配列分析に対する有用性をテストするために役立ちうる。リード(または本書で下記に詳しく説明するミニアセンブリにおけるリード)がインデルに整列するとき、(1) 基準配列のこの位置に実際のインデルがあり、アラインメントにおけるリードはこのインデルの領域(H1)から生じる、(2) この位置にはインデルはなく、アラインメントにおけるリードは別の領域から生じ、配列決定エラー(H0)によって観察されたアラインメントが形成されるといった、二つの潜在的なシナリオがある。P(H0|リード)およびP(H1|リード)の予測(ここで「リード」はインデルP(H1|リード)/P(H0|リード)に整列するリードの組)は、リードが実在のインデルを検出する信頼性を測定するために使用することができる。模範的な一つの方式で、測定値が10を越える場合には、例えばインデルは実在するものと、H1を認めることができる。これを別の方法で言い換えれば、実在すると判断される11(10+1)毎のインデルについて、わずか約一つが間違いとなる。
Bayesの定理のアプローチを使用すると、P(H1|リード)=P(リード|H1)P(H1)/P(リード)およびP(H0|リード)=P(リード|H0)P(H0)/P(リード)である。上記で考察したとおり、比率P(H1|リード)/P(H0|リード)が問題であるが、これはP(リード|H1)P(H1)/P(リード|H0)/P(H0)である。実際には、インデルは比較的まれで、P(H1)は一般にP(H0)よりもかなり小さいため、比率P(H1)/P(H0)のみが重要である。簡単にするために、P(H0)=1とすると、P(H1|リード)/P(H0|リード)P(リード|H1)P(H1)/P(リード|H0)である。以下の分析において、上記の三つの項目が予測・評価されている。
以下の仮定および補助定理を統計的分析で使用しうる。
仮定1 基準配列は、一般に一様な独立した無作為な分布をする。例えば、配列のそれぞれの塩基は、A、C、GおよびTに独立的に分布し、それぞれ約1/4の確率を持つ。
仮定2 配列決定エラーは、一般に塩基当たりpのエラー率で一様に分布され、一般にミスマッチの原因となるだけである。
より一般的なその他の配列決定エラーモデルを容易に使用でき、それに対する結果が提示されていることに留意すべきである。
仮定3(一様なショットガンサンプリング) それぞれのリードrは、一般に基準配列の任意の位置から等しくサンプリングされる可能性がある。対のリード、一つのリードの出所が分かっている領域については、リードは、その領域内で一様にサンプリングされると仮定されうる。
当然のことながらこの仮定は、考察を容易にするために使用することができ、またその他の既知のバイアスも容易に組み込むことができる。
補助定理1 rをリードとし、Rを配列とする。r が配列Rからのリードである可能性は、P(r|R)= ΣjP(r|Rj)P(Rj)で、ここでRjは、リードr が位置jで始まるRからサンプリングされた事象である。
補助定理2 rをリードとし、Rを配列とする。|R|=|r|で、互いに整列させたときにrとRにxのミスマッチおよびyの一致がある場合、これはP(r|R)=p(1−p)と予測される。
補助定理3 rをリードとし、Rを配列とすると、E(P(r|R))=(1/4 +p/2)|r|である。
証明。補助定理1より、P(Rj)=1/|R|であり、またそれぞれのP(r|Rj)は一般に同一に分布されているため、E(P(r|R))=E(ΣjP(r|Rj)P(Rj))=|R|E(P(r|Rj)P(Rj))=E(P(r|Rj))である。
補助定理2より、
以下の有用な観察に注目する。
観察1、補助定理1および2より、rを対応するタグによって固定された位置からの正確な距離および向きの領域のそれぞれの位置に整列することにより、P(リード|H0)が予測できる。これに時間がかかるときには、(わずかなミスマッチしかない)有意なアラインメントのみを検出し、それらのアラインメントに補助定理2を使用し、またその他全ての位置については、補助定理3から予測される確率を使用することで予測することができる。
観察2、下記の分析の一形態を、信頼性をもってインデルを予測するために使用するアラインメントのタイプを判断するために使用できる。H1が真のとき、検出されるリードがP(H1|リード)/P(H0/リード)について高い値を持つように、アラインメントについての要件を決定することが望ましい。この例では、リードがインデルに整列しているため、P(リード|H1)が予測できる。ところが、通常はこれらのリードについては基準配列に対する既知のアラインメントがないため、P(リード|H0)は予想がより困難である。ところが、潜在的インデルとして受け入れるために、平均分析をP(リード|H0)の予測に使用でき、アラインメントについて必要な要件(例えば、インデルのサイズ、ミスマッチの数、重複サイズなど)を得ることができる。インデルを識別するために、各個別のケースについてのP(リード|H0)の予測に観察1を使用することができる。
欠失の検出
どのタイプのアラインメントが欠失の存在の信頼性の高い予測につながりうるかを評価することで、正確に一つの欠失とのアラインメントに焦点をあわせることができる。欠失のサイズDおよび欠失の側面にある二つの配列の短い方の塩基数Xといった、二つのパラメーターをアラインメントの記述に使用しうる。高い信頼性で欠失を予測するためにDおよびXに対するどの制約が満足されるかの評価、また検出される欠失の典型的なサイズの判断が有用である。
模範的な一つのケースにおいて、ここでP(r|H0)は比較的大きいため、これを欠失として認めると、偽陽性の識別につながりうる。先のP(H1)=10−4D(S)を使用し、つまり10000塩基当たり約一つの欠失がある場合、長さの分布がD(S)により与えらる。D(S)の予測はますます困難になるため、簡単にするためにD(S)=2−S、幾何分布を使用しうる。
従って、
P(H1|リード)/P(H0|リード)=10−4−S P(リード|H1)/P(リード|H0)
補助定理2より、P(リード|H1)(1−p)L−m / Rで、ここでLはリードの長さおよびmは欠失のアラインメントにおけるミスマッチの数である。P(リード|H0)について、短い方の側方の配列にnのミスマッチがある場合には、他方の側方の配列にはより多くのミスマッチがあると仮定して、P(リード|H0)=p(1−p)L−n/Rが予想される。
一般的なケースについて、平均して約3X/4のミスマッチがあり、またmミスマッチの半分は、側方の配列の第二の半分内にある。この一般的なケースにおいて、補助定理2および3より、
P(リード|H0)p^(3X/4+m/2)(1−p)^(L−3X/4−m/2)/R+fで、ここでf=(0.25+p/2)である。
fはその他の項に比べて一般に無視できるため、
m=2およびL=25、p=0.05(実際の配列決定エラーの率は、これよりさらに小さいことがある)で、P(H0|リード)の平均式を使用して、P(H1|リード)/P(H0|リード)>10を解くと、S=10のときX>10が得られる。これは、欠失がリードのおよそ中ほどの5塩基内にあるとき、最高10塩基の欠失に対して、一つを配置できることを示唆するものである。実際的な一つのアプローチは、まず欠失アラインメントを検出し、二つの側方の配列をチェックして、式P(H1|リード)/P(H0|リード)について値nを求め、次に比率が10を越えるかどうか直接チェックすることである。また、領域内に複数のアラインメントがあるとき、それぞれのアラインメントについて仮説をたてて、その後それぞれの仮説についてP(H|リード)をチェックできることに留意すべきである。
上記の考察は、単一の欠失アラインメントは、高い信頼性をもって約10塩基の範囲内で欠失を検出するのに十分であることを示唆するものである。複数のリードが同一の欠失に一致するとき、長めのリードを高い信頼性を持って検出しうる。同一の0.05エラー率で、L=25であれば、二つのリードが中ほどの5塩基内にある同一の欠失に整列した場合には、最高ほぼ40塩基の欠失が容易に検出されうる。当然のことながら、Applied Biosystems製SOLiD計器などの大量処理配列決定プラットフォームでは、約50〜100Xの範囲を生成でき、また欠失の場所をカバーする10以上のリードが期待でき、これによって300 bp以上の比較的大きな欠失を検出する機会が提供されることが理解される。
欠失アラインメントを使用した場合にそれぞれの欠失が検出できる確率を予測し、上記の基準を検出することで、リードの中ほどの5塩基で接合部をカバーする最高2配列決定エラーのある単一のリードで十分である。Gをゲノムの長さとし、良好なリード対の合計KGは25 bpを持つものとする(塩基の範囲50KX)。一形態において、良好な対は、両方のリードが最大2配列決定エラーしか持たないことを意味する。任意の欠失について、中ほどの5塩基をカバーする一つのリードを検出する可能性は、Gが大きなとき、
である。
K=1、0.5および0.25について、また大きなGであれば、欠失を検出する可能性は、それぞれ99.995%、99.32%および91.79%である。生のリードの数は予測することができ、またこの良好な対の数を達成するために有用である。K=0.25レベルでは、約12.5Xの塩基範囲の良好な対であれば十分である。また、欠失がリードの中ほどの5 bpに配置されていないときでも、境界の領域付近でそれをカバーする複数のリードがある場合には、高い信頼性でそれを識別することができることにも留意すべきである。
挿入の検出
アラインメントのみでの挿入の検出
各種の実施例において、挿入アラインメントの分析は、欠失アラインメントについてのそれと同じように実施できるが、挿入を含むリードは、その一部のみが基準配列にマッピングされているため、高い率の偽陽性が発生することになる。
挿入アラインメントが発生する場合、二つの仮説H0およびH1が前述のように立てられる。P(H1)を予測するために、それぞれの位置で、一つの挿入を持つ可能性は10−4であり、また挿入の長さについて幾何分布があると予測できる。長さSの挿入について、長さSのそれぞれの4配列が一般に等しい可能性で挿入される。
したがって、P(H1)= 10−4−Sである。
よって、P(リード|H1)= p(1−p)L−m/ Rである。
fをR塩基の領域でリードを観測する予測確率として定義すると、補助定理2から、f =(0.25 + p/2)である。前と同様に平均ミスマッチ数を使用すると、
P(リード| H0) = max(f,p3L/4−3X/4+m/2(1−p)3X/4−m/2+L/4/R)、
ここで、Xは挿入を囲む二つの側方領域の長い方の長さである。
上記から、
P(H1|リード)/P(H0|リード)<p(1−p)L−mP(H1)/(fR)である。
m=1、L=25、R=3000、およびp=0.1であれば、P(リード|H1)/P(リード|H0)<3.14x10−Sで、またS>2.76のとき10未満となる。よって、配列決定エラー率が0.1で、一つの挿入を高い信頼性で検出するには、挿入の長さは最大2であるべきである。エラー率を0.05に下げると、上記の計算から、この例で、高い信頼性の検出をするには、挿入のサイズが6より小さいべきであるという結果が導き出される。
p=0.1およびX14のとき、q(X):=p3L/4−3X/4+m/2(1−p)3X/4−m/2+L/4 / R>fであることは明白である。P(H1|リード)/P(H0|リード)>10を解くと、S=2のときX14で、またS=1のときX16であり、短い方の側方の領域はそれぞれ少なくとも9または8塩基の長さであるべきである。p=0.05のとき、類似した計算によって、X16のときq(X)>fとなることが導き出され、また短い方の側方の領域は少なくとも6塩基の長さであるべきだと結論付けることができる。
単一のリードを使用して挿入を検出することは、困難であることがあり、また一般に短い挿入が検出されうる。次のセクションで、長めの挿入をカバーする複数のリードが使用される。
ミニアセンブリを使用した挿入の検出
ゲノム内に長い新規の挿入(別の領域の複製ではなく)が存在する典型的なケースについて。少なくともh bpの長さのAの接尾辞が、Bの接頭辞である場合、リードAはBと重なる(O(A,B)で示される)。連字G=(V,E)は、以下のとおりである。Vには全てのリードが含まれ、O(A,B)である場合にAからBへの直接の端がある。少なくともg bpの長さの接頭辞が位置tで終わる基準に完全に一致するそれぞれのリードAについて、ノードAを位置tでの開始ノードと呼ぶ。少なくともg bpの長さの接頭辞が位置tで始まる基準に完全に一致するそれぞれのリードAについて、ノードAを位置tでの終了ノードと呼ぶ。基準内での位置t後の挿入は、位置tでの開始ノードから位置t+1での終了ノードへの経路である。
上記のモデルでは、完全一致を使用しており、以下の分析がより簡単なものとなる。より一般的には、重なりはおよその一致として定義されうるまた、リードの接頭辞が基準ゲノムのa、a+1、...、a+uの位置と一致し、かつu>gである場合、挿入の第一の塩基が挿入の直後の塩基と同一であるとき、挿入はa+g、a+g+1、...、a+uの位置の後で開始する可能性があることにも留意すべきである。この問題に対処するために、位置a+g、...、a+uでの挿入の開始に対応するリードについてu−g+1のノードを生成しうる。終了位置についても同様に扱われる。
上述の経路は、挿入に対応する(実際である場合には後に決定される)。一つの命題は以下のとおりである。任意の挿入について、それをカバーするのに十分なリードが存在する可能性を判断する(つまり、挿入をカバーするG内の経路を検出)。別の命題は以下のとおりである。G内で経路が検出されたとすると、それが無作為なリードの結果である可能性を決定する。
上記の二つの問いに回答する前に、上記の経路検出のアプローチを洗練することが有用でありうる。対の情報を使用し、挿入を一度に1領域ずつ探すことも役立つことがある。基準ゲノム内の小さな領域(例えば、約3Kb)を選択し、また対の情報を使用してこの領域内の挿入の検出を試みると、潜在的にこの領域にマッピングしうる全てのリードの検出が可能である。最高で例えば6ミスマッチ(これらのリードは、配列決定エラーにより説明できる)を持つ領域にマッピングされるリードを除いた後、グラフGの形成およびその内部での経路の検出に、残りを使用できる。
また、挿入の検索を制限する範囲マップを使用することもできる。配列決定の範囲が大きくなると、通常は挿入の場所は、範囲内で顕著に少なくなることに留意すべきである。検索をそれらの低い範囲の領域で囲まれる非常に小さな領域に限定することができる。
グラフ内での経路がいったん識別されると、経路が実際の挿入に対応しているかについて、仮説を検定することができる。経路がnノード(リード)を持つとすると、その挿入について共通配列を得るために、経路から導かれた挿入へのその他のリードのマッピングを試みることができる。これによって、挿入が実際であるという仮説の裏付けが高まる。
再び、H1およびH0を使用し、h=gとする。 nリードが前述のアプローチによって検出された場合、P(リード|H1)=(1−p)LnIRである。P(リード|H0)を予想するために、前と同様に平均分析を使用しうる。25塩基のnリード、また無作為な配列のサイズRとすると、補助定理3より、P(リード|H0)=fとなる。
最後のサブセクションと同様、P(H1)= 10−4−Sで、ここでSは挿入の長さである。経路を形成した方法から、S<(L−h)n−hである。p=0.1、R=3000およびh=16のとき、fR = 2.54x10−10であり、また次のとおりである。
上記と同様にh=16で経路を検出すると、それが真であると確信できる。この計算は、挿入が新規であるとき、その長さにかかわらず、上記のミニアセンブリアプローチによりそれをカバーする経路が検出できる場合、それが実際であるという高い確信を持つことができることを示す。
新規の挿入の要件によって、補助定理3を使用してP(リード|H0)を予想することが可能となる。実際には、これは、全てのリードを多くのミスマッチが許容される領域にマッピングすることで直接予想できる。次に、P(H1|リード)/P(H0|リード)が計算でき、H1を認めるかどうかの決定をするが、挿入された配列が近接した領域と「いくらかの」関連性がある場合でも、比率はその挿入を認めるのに十分な大きさでありうる。経路が検出されると、挿入の大部分は三つのリードでのみカバーされる。いくつかのミスマッチ数を許容しながらその他のリードをこの新しく挿入された配列に整列することで、処理後の手順を実行できる。これらは、リードについて複数のアラインメントにつながり、また塩基呼び出しを実行するために標準的塩基呼び出しルーチンを使用できる(新規の配列決定と類似したもの)。
挿入がある場合に、ミニアセンブリルーチンによりどの程度の可能性でそれを識別できるかを評価するにあたり、長さSの挿入を持つと仮定しうる。それぞれの挿入の位置について、両端から最後の8 bpを除くその内部の位置に含まれる完全な(配列決定エラーのない)少なくとも一つのリードがあり、よってそれをカバーする経路があると見ることができる。ゲノムのサイズがGで、KGの完全なリードがある場合には、これが起こる可能性は、少なくともqで、ここで
である。
K=1のとき、q1000 =0.8838およびq500 = 0.94である。K=0.5のとき、50 bpの挿入を検出できる可能性は57%である。これは、大きな範囲が望ましいことを暗示している。1000 bpの長さの挿入を検出するためには、完全なリードによる約25Xの塩基の範囲が望ましい。一般に、エラー率5%で、全25塩基のリードの約4分の1だけが完全であり、よって約100Xの塩基の範囲が望ましいが、これは、AB SOLiD配列決定技術の範囲内である。
要約すると、挿入が一つ存在している場合にその検出においては挿入のミニアセンブリの成果が上る可能性が高く、また挿入が存在しかつそれが実際の場合にはアセンブリも有用な指標である。各種の実施例において、黙示的な仮定は、検出された挿入は、対のリード間の平均距離よりも著しく小さいということである。挿入の検出において最後の課題は、挿入が既存のゲノムの複製であることが頻繁にあることである(ほとんどの挿入が複製の可能性がある)。このクラスの挿入については、さらに二つのタイプに分けることができ、その一つは、挿入が挿入された場所から遠く離れた他の領域の複製であるという場合である(距離が6kpを超える、例えばジャンピング遺伝子)。このタイプでは、上記のアプローチおよび分析がうまく機能する。対の情報を利用して、複製された二つの領域をカバーするリードを分離することができ、すると、その約6K bp付近で挿入は新規なものとなる。
単一の挿入または欠失を持つアラインメントの検出用のソフトウェア実行
インデルの検出の統計を考察した先のセクションで、一つの挿入または一つの欠失を持つ最適なアラインメント(最小数のミスマッチ)の検出について述べた。ここで、挿入または欠失のサイズは、一定のユーザー指定の限度よりも小さく設定された(挿入と欠失は異なる限度を持ちうる)。このセクションでは、こうしたアラインメントを検出するための効率的なソフトウェア実行によるアプローチを提示する。
insが挿入の最大サイズ、del が欠失最大サイズ、nmisが許容される最大ミスマッチ数であるとする。delよりも小さな最大一つの欠失か、insよりも小さなサイズの一つの挿入のいずれかを持ち(ただし両方ではない)、かつミスマッチの数が最大nmisであるような、リードと基準配列の領域のサブストリングとの間での最適なアラインメント(ミスマッチの数が最小)を検出する。
一つの欠失のある最適なアラインメントを検出するアプローチを考察する。一つの挿入のある最適なアラインメントも、同様に検出できる。一形態において、この考え方は、それぞれの側方の配列についてギャップのないアラインメントを検出することである。上半分のアラインメントを側方の領域の一つの部分から始まるギャップのないアラインメントと定義し、および下半分のアラインメントが側方の領域の他方の部分で始まると定義する。一つの欠失があるアラインメントは、上半分の一つのおよび下半分の一つのアラインメントが結合したものであることに留意すべきである。
データ分析アプローチを提示するために、半分のアラインメントのドミネ−ティングリスト(dominating list)と呼ばれる抽象的なデータ構造を導入する。AおよびBが、同一数のミスマッチを持つ二つの上半分のアラインメントである場合、それらは側方の領域aおよびbで、それぞれBがAを支配するといい、a<bである場合にのみ、BはAよりも長くなる。同一数のミスマッチを持つ半分のアラインメントの任意の集合Xについて、支配的な部分集合Xには、X中にある全ての半分のアラインメントhが含まれ、X中にあるその他の半分のアラインメントは、hを支配しない。ドミネーティングリストSと呼ばれる動的なデータ構造を設計し、これが固定ミスマッチ数を持つ半分のアラインメントの動的な集合のうち支配的な部分集合を維持する。
Sは、(1) 新しい上半分のアラインメントが集合に挿入されるinsertion、(2) 集合内の最長のアラインメントを返すfindmin、および (3) S内の最長のアラインメントを除去するdeleteminといった三つの作業に対応している。挿入では、新しいアラインメントにより支配される集合内の一部のアラインメントも除去されることに留意すること。下記の考察では、抽象データタイプを使用したアプローチを説明した後、半分のアラインメントの合計数について線形の時間アルゴリズムを得るためのその効率的な実施を提示する。
このアプローチでは、側方の領域が1からRまで処理される。 k=nmisとし、またk+1に0〜kのミスマッチを持つ上部のアラインメントについてS0...Skが列挙されるように維持する。側方の領域jを処理する時点で、側方の領域<jで、Si中にiミスマッチがある支配的な全ての上部のアラインメントが保管される。側方の領域jで、最高kミスマッチを持つ全ての上部のアラインメントが検出され、それらが、正しいミスマッチの数でリストに挿入される。また、最高kミスマッチを持つ全ての下部のアラインメントが検出され、それらをS中にある上半分のアラインメントと組み合わせる試行がなされて、一つの欠失があるアラインメントが形成される。
アプローチの概要を以下の擬似コードで説明する。
欠失のアプローチ:
1.S0、S1...、Skは空であるとする
2.側方の領域j =1〜Rについて、次を実行
a. 側方の領域jでのそれぞれの上部のアラインメントAについて、m<=kのミスマッチとして、次を実行
i. それをSmに挿入;
b. それぞれのSpについて、最長の半分のアラインメントが離れすぎていて、導入されることになる欠失が大きすぎる場合に、deleteminを繰り返す。
c. a. 側方の領域jでのそれぞれの下部のアラインメントBについて、m<=kのミスマッチとして、次を実行
i. p=0〜k−mについて、次を実行
1, X=findmin(Sp);
2. Xの長さとBの長さの和がリードの長さよりも長い場合には
a. m+pミスマッチのあるアラインメントを報告し、ループの内側から出る;
手順2.c.i.2.aで、一つの欠失があるアラインメントが報告されることに留意。報告された全てのアラインメントを追跡し、プログラムの終了時点で最小数のミスマッチを持つ一つが維持され、最適なアラインメントが報告される。
実行時間の分析
実行時間は、手順2.aおよび2.cでの全ての半分のアラインメントを計算する時間、および手順2.c.iおよび2.a.iでそれらのアラインメントを処理する時間で構成される。無作為な配列について、最高kミスマッチの全ての上部のアラインメントまたは全ての下部のアラインメントの平均検出時間は、kミスマッチのあるアラインメントの平均長さに依存し(kミスマッチを持つ半分のアラインメントを検出する側方の領域について、まず0、1、...、k−1のミスマッチのあるものを検出する必要があるため)、それはO(4kR/3)=O(kR)である。
支配的な上部のアラインメントの集合について、側方の領域を増加させることによってアラインメントを分類すると、アラインメントの長さは減少する。側方の領域によってアラインメントを処理すると、アラインメントは側方の領域の増加する順序で挿入される。データタイプSjの一つの実施は、側方の領域別に並べられた2方向にリンクされたリストの使用である。次に、findminおよびdeleteminをO(1)時間で実施できる。挿入はリンクされたリストの後方からアラインメントにアクセスし、リストの先頭に到達するか長さのより長いものが見つかるまで、短い長さのアラインメントを除去することで、実施される。それぞれのアラインメントは一度だけ削除できるので、手順 2.a.iの合計時間はO(kR)である。同様に、手順2.bでの合計時間はO(kR)である。
当初は、それぞれ2.c.iでのループにはO(k)時間がかかるように見えるが、jが増加するとSjの最長のアラインメントの長さは減少し、手順 2.cでは、最大でもk+1のアラインメント(それぞれ0、1、...、kのミスマッチのあるもの)に長さが長くなる順にアクセスするため、全体的な手順2.cは、並べられた二つのk+1項目のリスト(長さ順)を併せたものとして実施でき、よって手順2.cの合計時間は、O(kR)である。これで、このアプローチの合計時間はO(kR)となる。これは従来のSWタイプのアラインメント(SmithおよびWaterman 1990、NeedlemanおよびWunsh 1970)のO(LR)に比べて引けをとらず、記載されているとおり、kの典型的な値は0〜2で、Lは30〜50となりうる。
本明細書で言及した全ての公報および特許出願は、この発明が関連する技術の当業者の技術レベルを示すものである。全ての公報および特許出願は、各個別の公報または特許出願が、参照によって組み込まれることが具体的にかつ個別的に示されているかのごとくに、同一の範囲を参照することにより、本書に組み込まれる。
本教示のシステム、方法、および分析的アプローチは、本書で広範にかつ一般的に説明されている。一般的な開示の範囲内におさまるような限定的な種類や一般的ではない分類もまたそれぞれが、本教示の一部を形成する。これには、分類から何らかの主題を除外する但し書きや消極的限定のある本教示の一般的な説明も含まれ、削除された内容が特定的に本書で列挙されるかどうかにはよらない。
開示された教示を、各種の用途、方法、および組成に関連して説明してきたが、当然のことながら、本書の教示から逸脱することなく多様な変更および改造をなすことができる。上記の例は、本教示をよりよく例証するために提供したもので、本書の教示の範囲を限定するものではない。本教示の一定の側面は、以下の請求の範囲に照らしてさらに理解されうる。

Claims (20)

  1. 以下から構成される核酸配列分析の方法。
    メイト対配列が介在する配列長さによって分離される重複しない対配列から構成される、一つ以上のメイト対配列で構成される核酸配列情報を受取る手順、
    少なくとも一つの基準配列で構成される核酸配列情報を受取る手順、
    重複しない対配列が少なくとも一つの基準配列に以下の手順によって整列されているような、一つ以上のメイト対配列それぞれについてのマッピング作業を実行する手順、
    重複しない対配列を識別して、そのために重複しない対配列の一つを少なくとも一つの基準配列に整列しつつ、その一方で選択したミスマッチ制約を満足するよう、重複しない対配列を選択したミスマッチ制約のある少なくとも一つの基準配列に整列させる、第一のマッピング作業を実行する手順、
    選択したミスマッチ制約のある非整列の対の配列を整列させるための基準配列のウィンドウ領域を指定する、第二のマッピング作業を実行する手順、
    第一および第二のマッピング作業の実行後に首尾よくマッピングされた重複しない対配列を識別する手順、
    および、
    マッピング作業の結果を出力する手順。
  2. 第二のマッピング作業でさらに、重複しない対配列間の予測される介在配列長さと、重複しない対配列間の観察された介在配列長さとの間の差異の判断により基準配列に対するインデルが識別される、請求項1の方法。
  3. インデルが、予測される介在配列長さと観察された介在配列長さとの間の際が考慮された重複しない対配列間に発生する挿入で構成される、請求項2の方法。
  4. インデルが、予測される介在配列長さと観察された介在配列長さとの間の際が考慮された重複しない対配列間に発生する欠失で構成される、請求項2の方法。
  5. 重複しない配列情報が、距離がおよそわかっている介在配列により分離された対のリード配列情報で構成される請求項1の方法。
  6. それぞれの対のリード配列のそれぞれが、約10〜75の塩基の長さを持つ請求項5の方法。
  7. 介在配列が約2〜15キロベースの長さを持つ請求項5の方法。
  8. 以下から構成される核酸配列分析用のシステム。
    以下の通り設定されたデータ分析装置。
    メイト対配列が介在する配列長さによって分離される重複しない対配列から構成され、また、さらに少なくとも一つの基準配列についての核酸配列情報を受取るように構成(設定)されている、一つ以上のメイト対配列についての核酸配列情報を受取る、
    重複しない対配列が少なくとも一つの基準配列に以下の手順によって整列されているような、一つ以上のメイト対配列それぞれについてのマッピング作業を実行する、
    重複しない対配列を識別して、そのために重複しない対配列の一つを少なくとも一つの基準配列に整列しつつ、その一方で選択したミスマッチ制約を満足するよう、重複しない対配列を選択したミスマッチ制約のある少なくとも一つの基準配列に整列させる、第一のマッピング作業を実行する手順、
    選択したミスマッチ制約のある非整列の対の配列を整列させるための基準配列のウィンドウ領域を指定する、第二のマッピング作業を実行する手順、
    第一および第二のマッピング作業の実行後に首尾よくマッピングされた重複しない対配列を識別する、
    および、
    データ分析装置により生成されたマッピング作業の結果をユーザーに表示するためのデータ端末。
  9. データ分析装置により実行される第二のマッピング作業でさらに、重複しない対配列間の予測される介在配列長さと、重複しない対配列間の観察された介在配列長さとの間の差異の判断により基準配列に対するインデルが識別される、請求項8のシステム。
  10. インデルが、予測される介在配列長さと観察された介在配列長さとの間の際が考慮された重複しない対配列間に発生する挿入で構成される、請求項9のシステム。
  11. インデルが、予測される介在配列長さと観察された介在配列長さとの間の際が考慮された重複しない対配列間に発生する欠失で構成される、請求項9のシステム。
  12. 重複しない配列情報が、距離がおよそわかっている介在配列により分離された対のリード配列情報で構成される請求項8のシステム。
  13. それぞれの対のリード配列のそれぞれが、約10〜75の塩基の長さを持つ請求項12のシステム。
  14. コンピュータ読取可能媒体が核酸配列分析の方法を実行するために読み取り可能である、以下の方法で構成されるコンピュータ読取可能媒体。
    メイト対配列が介在する配列長さによって分離される重複しない対配列から構成される、一つ以上のメイト対配列で構成される核酸配列情報を受取る手順、
    少なくとも一つの基準配列で構成される核酸配列情報を受取る手順、
    重複しない対配列が少なくとも一つの基準配列に以下の手順によって整列されているような、一つ以上のメイト対配列それぞれについてのマッピング作業を実行する手順、
    重複しない対配列を識別して、そのために重複しない対配列の一つを少なくとも一つの基準配列に整列しつつ、その一方で選択したミスマッチ制約を満足するよう、重複しない対配列を選択したミスマッチ制約のある少なくとも一つの基準配列に整列させる、第一のマッピング作業を実行する手順、
    選択したミスマッチ制約のある非整列の対の配列を整列させるための基準配列のウィンドウ領域を指定する、第二のマッピング作業を実行する手順、
    第一および第二のマッピング作業の実行後に首尾よくマッピングされた重複しない対配列を識別する手順、
    および、
    マッピング作業の結果を出力する手順。
  15. 第二のマッピング作業でさらに、重複しない対配列間の予測される介在配列長さと、重複しない対配列間の観察された介在配列長さとの間の差異の判断により基準配列に対するインデルが識別される、請求項14のコンピュータ読取可能媒体。
  16. インデルが、予測される介在配列長さと観察された介在配列長さとの間の際が考慮された重複しない対配列間に発生する挿入で構成される、請求項15のコンピュータ読取可能媒体。
  17. インデルが、予測される介在配列長さと観察された介在配列長さとの間の際が考慮された重複しない対配列間に発生する欠失で構成される、請求項15のコンピュータ読取可能媒体。
  18. 重複しない配列情報が、距離がおよそわかっている介在配列により分離された対のリード配列情報で構成される請求項14のコンピュータ読取可能媒体。
  19. それぞれの対のリード配列のそれぞれが、約10〜75の塩基の長さを持つ請求項18のコンピュータ読取可能媒体。
  20. 介在配列が約2〜15キロベースの長さを持つ請求項19のコンピュータ読取可能媒体。
JP2009548503A 2007-02-05 2008-02-05 ショートリード配列決定を用いたインデル識別のためのシステムおよび方法 Withdrawn JP2010517539A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US88819607P 2007-02-05 2007-02-05
PCT/US2008/053101 WO2008098014A2 (en) 2007-02-05 2008-02-05 System and methods for indel identification using short read sequencing

Publications (1)

Publication Number Publication Date
JP2010517539A true JP2010517539A (ja) 2010-05-27

Family

ID=39620285

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009548503A Withdrawn JP2010517539A (ja) 2007-02-05 2008-02-05 ショートリード配列決定を用いたインデル識別のためのシステムおよび方法

Country Status (4)

Country Link
US (4) US8165821B2 (ja)
EP (1) EP2118797A2 (ja)
JP (1) JP2010517539A (ja)
WO (1) WO2008098014A2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7366129B2 (ja) 2018-06-14 2023-10-20 ソフィア、ジェネティックス、ソシエテ、アノニム ゲノムデータを次世代シーケンシングする際のバリアント検出方法

Families Citing this family (55)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008098014A2 (en) 2007-02-05 2008-08-14 Applied Biosystems, Llc System and methods for indel identification using short read sequencing
US8271206B2 (en) * 2008-04-21 2012-09-18 Softgenetics Llc DNA sequence assembly methods of short reads
EP2425240A4 (en) 2009-04-30 2012-12-12 Good Start Genetics Inc METHOD AND COMPOSITION FOR EVALUATING GENETIC MARKERS
US20120197533A1 (en) * 2010-10-11 2012-08-02 Complete Genomics, Inc. Identifying rearrangements in a sequenced genome
US9163281B2 (en) 2010-12-23 2015-10-20 Good Start Genetics, Inc. Methods for maintaining the integrity and identification of a nucleic acid template in a multiplex sequencing reaction
US20120191356A1 (en) * 2011-01-21 2012-07-26 International Business Machines Corporation Assembly Error Detection
US9228233B2 (en) 2011-10-17 2016-01-05 Good Start Genetics, Inc. Analysis methods
KR101295784B1 (ko) * 2011-10-31 2013-08-12 삼성에스디에스 주식회사 목표 유전체 서열 내의 신규서열 생성 장치 및 방법
US8209130B1 (en) 2012-04-04 2012-06-26 Good Start Genetics, Inc. Sequence assembly
US8812422B2 (en) 2012-04-09 2014-08-19 Good Start Genetics, Inc. Variant database
US10227635B2 (en) 2012-04-16 2019-03-12 Molecular Loop Biosolutions, Llc Capture reactions
CN102682226B (zh) * 2012-04-18 2015-09-30 盛司潼 一种核酸测序信息处理系统及方法
US20130324417A1 (en) * 2012-06-04 2013-12-05 Good Start Genetics, Inc. Determining the clinical significance of variant sequences
EP2917368A1 (en) 2012-11-07 2015-09-16 Good Start Genetics, Inc. Methods and systems for identifying contamination in samples
BR102012031096B1 (pt) * 2012-12-05 2019-10-22 Empresa Brasileira De Pesquisa Agropecuaria Embrapa método e uso para verificação de erros de montagem em genomas
EP2971159B1 (en) 2013-03-14 2019-05-08 Molecular Loop Biosolutions, LLC Methods for analyzing nucleic acids
EP3005200A2 (en) 2013-06-03 2016-04-13 Good Start Genetics, Inc. Methods and systems for storing sequence read data
WO2015006668A1 (en) * 2013-07-12 2015-01-15 The University Of North Carolina At Chapel Hill Methods for identification of individuals
US9898575B2 (en) 2013-08-21 2018-02-20 Seven Bridges Genomics Inc. Methods and systems for aligning sequences
US9116866B2 (en) 2013-08-21 2015-08-25 Seven Bridges Genomics Inc. Methods and systems for detecting sequence variants
JP2016533182A (ja) 2013-10-18 2016-10-27 セブン ブリッジズ ジェノミクス インコーポレイテッド 疾患に誘導された変異を同定するための方法およびシステム
US10851414B2 (en) 2013-10-18 2020-12-01 Good Start Genetics, Inc. Methods for determining carrier status
US11041203B2 (en) 2013-10-18 2021-06-22 Molecular Loop Biosolutions, Inc. Methods for assessing a genomic region of a subject
US11049587B2 (en) 2013-10-18 2021-06-29 Seven Bridges Genomics Inc. Methods and systems for aligning sequences in the presence of repeating elements
WO2015058095A1 (en) 2013-10-18 2015-04-23 Seven Bridges Genomics Inc. Methods and systems for quantifying sequence alignment
WO2015058093A1 (en) 2013-10-18 2015-04-23 Seven Bridges Genomics Inc. Methods and systems for genotyping genetic samples
US9092402B2 (en) 2013-10-21 2015-07-28 Seven Bridges Genomics Inc. Systems and methods for using paired-end data in directed acyclic structure
WO2015175530A1 (en) 2014-05-12 2015-11-19 Gore Athurva Methods for detecting aneuploidy
NL2013120B1 (en) * 2014-07-03 2016-09-20 Genalice B V A method for finding associated positions of bases of a read on a reference genome.
WO2016040446A1 (en) 2014-09-10 2016-03-17 Good Start Genetics, Inc. Methods for selectively suppressing non-target sequences
CA2999708A1 (en) 2014-09-24 2016-03-31 Good Start Genetics, Inc. Process control for increased robustness of genetic assays
US10006910B2 (en) 2014-12-18 2018-06-26 Agilome, Inc. Chemically-sensitive field effect transistors, systems, and methods for manufacturing and using the same
WO2016100049A1 (en) 2014-12-18 2016-06-23 Edico Genome Corporation Chemically-sensitive field effect transistor
US10020300B2 (en) 2014-12-18 2018-07-10 Agilome, Inc. Graphene FET devices, systems, and methods of using the same for sequencing nucleic acids
US9859394B2 (en) 2014-12-18 2018-01-02 Agilome, Inc. Graphene FET devices, systems, and methods of using the same for sequencing nucleic acids
US9857328B2 (en) 2014-12-18 2018-01-02 Agilome, Inc. Chemically-sensitive field effect transistors, systems and methods for manufacturing and using the same
US9618474B2 (en) 2014-12-18 2017-04-11 Edico Genome, Inc. Graphene FET devices, systems, and methods of using the same for sequencing nucleic acids
US10066259B2 (en) 2015-01-06 2018-09-04 Good Start Genetics, Inc. Screening for structural variants
US10275567B2 (en) 2015-05-22 2019-04-30 Seven Bridges Genomics Inc. Systems and methods for haplotyping
EP3323070B1 (en) 2015-07-14 2024-05-08 Personal Genome Diagnostics Inc. Neoantigen analysis
US10793895B2 (en) 2015-08-24 2020-10-06 Seven Bridges Genomics Inc. Systems and methods for epigenetic analysis
US10584380B2 (en) 2015-09-01 2020-03-10 Seven Bridges Genomics Inc. Systems and methods for mitochondrial analysis
US10724110B2 (en) 2015-09-01 2020-07-28 Seven Bridges Genomics Inc. Systems and methods for analyzing viral nucleic acids
US11347704B2 (en) 2015-10-16 2022-05-31 Seven Bridges Genomics Inc. Biological graph or sequence serialization
US10364468B2 (en) 2016-01-13 2019-07-30 Seven Bridges Genomics Inc. Systems and methods for analyzing circulating tumor DNA
US10460829B2 (en) 2016-01-26 2019-10-29 Seven Bridges Genomics Inc. Systems and methods for encoding genetic variation for a population
US10262102B2 (en) 2016-02-24 2019-04-16 Seven Bridges Genomics Inc. Systems and methods for genotyping with graph reference
EP3459115A4 (en) 2016-05-16 2020-04-08 Agilome, Inc. GRAPHEN-FET DEVICES, SYSTEMS AND METHODS FOR USE THEREOF FOR SEQUENCING NUCLEIC ACIDS
US10600499B2 (en) 2016-07-13 2020-03-24 Seven Bridges Genomics Inc. Systems and methods for reconciling variants in sequence data relative to reference sequence data
US11250931B2 (en) 2016-09-01 2022-02-15 Seven Bridges Genomics Inc. Systems and methods for detecting recombination
EP3541951A4 (en) 2016-11-15 2020-06-03 Personal Genome Diagnostics Inc. NON-UNIQUE BARCODES IN A GENOTYPING TEST
CN109698011B (zh) * 2018-12-25 2020-10-23 人和未来生物科技(长沙)有限公司 基于短序列比对的Indel区域校正方法及系统
WO2020146741A1 (en) 2019-01-10 2020-07-16 Selim Olcum Calibration of a functional biomarker instrument
US20240067959A1 (en) 2022-08-31 2024-02-29 Saga Diagnostics Ab Library preparation from fixed samples
US20240071565A1 (en) 2022-08-31 2024-02-29 Saga Diagnostics Ab Structural variant identification

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3675521B2 (ja) * 1995-07-27 2005-07-27 富士通株式会社 Dnaの塩基配列決定時におけるフラグメント波形表示方法および装置
WO1999009218A1 (en) * 1997-08-15 1999-02-25 Affymetrix, Inc. Polymorphism detection utilizing clustering analysis
US6223175B1 (en) * 1997-10-17 2001-04-24 California Institute Of Technology Method and apparatus for high-speed approximate sub-string searches
US6054276A (en) * 1998-02-23 2000-04-25 Macevicz; Stephen C. DNA restriction site mapping
US6401043B1 (en) * 1999-04-26 2002-06-04 Variagenics, Inc. Variance scanning method for identifying gene sequence variances
US6714874B1 (en) * 2000-03-15 2004-03-30 Applera Corporation Method and system for the assembly of a whole genome using a shot-gun data set
US6785614B1 (en) * 2000-05-31 2004-08-31 The Regents Of The University Of California End sequence profiling
US20030211504A1 (en) * 2001-10-09 2003-11-13 Kim Fechtel Methods for identifying nucleic acid polymorphisms
US6895337B1 (en) * 2001-10-12 2005-05-17 Myriad Genetics, Inc. Method of identifying genomic rearrangements
EP2202322A1 (en) * 2003-10-31 2010-06-30 AB Advanced Genetic Analysis Corporation Methods for producing a paired tag from a nucleic acid sequence and methods of use thereof
US7313555B2 (en) * 2004-04-30 2007-12-25 Anácapa North Method for computing the minimum edit distance with fine granularity suitably quickly
WO2008098014A2 (en) 2007-02-05 2008-08-14 Applied Biosystems, Llc System and methods for indel identification using short read sequencing
US9268903B2 (en) * 2010-07-06 2016-02-23 Life Technologies Corporation Systems and methods for sequence data alignment quality assessment

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7366129B2 (ja) 2018-06-14 2023-10-20 ソフィア、ジェネティックス、ソシエテ、アノニム ゲノムデータを次世代シーケンシングする際のバリアント検出方法

Also Published As

Publication number Publication date
WO2008098014A3 (en) 2009-05-07
US20130261005A1 (en) 2013-10-03
US20080189049A1 (en) 2008-08-07
WO2008098014A2 (en) 2008-08-14
US20180349552A1 (en) 2018-12-06
US11538557B2 (en) 2022-12-27
US20120259556A1 (en) 2012-10-11
US8463555B2 (en) 2013-06-11
EP2118797A2 (en) 2009-11-18
US8165821B2 (en) 2012-04-24

Similar Documents

Publication Publication Date Title
JP2010517539A (ja) ショートリード配列決定を用いたインデル識別のためのシステムおよび方法
US10192026B2 (en) Systems and methods for genomic pattern analysis
US10991453B2 (en) Alignment of nucleic acid sequences containing homopolymers based on signal values measured for nucleotide incorporations
Huang et al. Using genotyping-by-sequencing (GBS) for genomic discovery in cultivated oat
US10726942B2 (en) Long fragment de novo assembly using short reads
Brozynska et al. Direct chloroplast sequencing: comparison of sequencing platforms and analysis tools for whole chloroplast barcoding
KR101201626B1 (ko) 부분 결합 서열을 이용한 유전자 서열 정렬장치 및 그 방법
Renaud et al. Authentication and assessment of contamination in ancient DNA
Kearse et al. The Geneious 6.0. 3 read mapper
JP2016518822A (ja) アセンブルされていない配列情報、確率論的方法、及び形質固有(trait−specific)のデータベースカタログを用いた生物材料の特性解析
Gong et al. Analysis and performance assessment of the whole genome bisulfite sequencing data workflow: currently available tools and a practical guide to advance DNA methylation studies
Wilson-Sánchez et al. Next-generation forward genetic screens: using simulated data to improve the design of mapping-by-sequencing experiments in Arabidopsis
CN106776348B (zh) 测试用例管理方法和装置
Li et al. Multi-platform and cross-methodological reproducibility of transcriptome profiling by RNA-seq in the ABRF next-generation sequencing study
JP2019525308A (ja) 合成wgsバイオインフォマティクスの検証
JP7166638B2 (ja) 多型検出法
JP2004302754A (ja) データベース検索経路判定方法
Kim et al. HISAT: hierarchical indexing for spliced alignment of transcripts
US11961591B2 (en) Methods, systems, and computer-readable media for tandem duplication detection
Wilks et al. LongTron: Automated Analysis of Long Read Spliced Alignment Accuracy
Suchecki et al. LNISKS: Reference-free mutation identification for large and complex crop genomes
Adaş et al. Nucleotide sequence alignment and compression via shortest unique substring
Guan et al. Genome sequence assembly evaluation using long-range sequencing data
KR20210022622A (ko) 생물학적 샘플의 핑거프린팅 방법
Robinson et al. Postprocessing the Alignment

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110202

A072 Dismissal of procedure [no reply to invitation to correct request for examination]

Free format text: JAPANESE INTERMEDIATE CODE: A073

Effective date: 20120611

A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20120703