JP2014518638A

JP2014518638A - ヌクレオチド配列データの提供

Info

Publication number: JP2014518638A
Application number: JP2014514165A
Authority: JP
Inventors: デルザーグピータージャンバン; ロニーアンベルグ; ウィルヘルムスフランシスカスヨハネスファルハーフ; ペーターベイヤーレイン; ルネベッチャー
Original assignee: Koninklijke Philips NV; Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2011-06-07
Filing date: 2012-04-17
Publication date: 2014-08-07
Anticipated expiration: 2032-04-17
Also published as: US20140329690A1; EP2718866A2; EP2718866B1; CN103582887A; WO2012168803A3; WO2012168803A2; US10373705B2; CN103582887B; JP6265891B2

Abstract

配列決定装置は、配列決定装置１０内の捕捉プローブのプローブデータ３４と、プローブによって捕捉される核酸の断片の決定された識別子の配列３２とを含む基本のヌクレオチド配列データ３０を生成する。配列決定装置は、核酸の断片に関して予想される配列３８へのリファレンスを含むデータによって強化される、強化されたヌクレオチド配列データ３６を出力する。

Description

本発明は、核酸の配列決定及び生命情報科学の分野に関する。特に本発明は、ヌクレオチド配列データを提供する方法、核酸サンプルのヌクレオチドの配列を決定する方法、プログラム要素、コンピュータ可読媒体、及び配列決定装置に関する。

最近の配列決定技法は、大量のヌクレオチド配列を同時に決定できるようにする。典型的には、ＤＮＡ又はＲＮＡ標的サンプルが機械技術若しくは酵素による技術によって断片化され、その後、基板（例えば反応室の壁、マイクロアレイ、又はマイクロキャリア／ビード）に付加され断片を捕捉可能なヌクレオチドリンカ分子により、個々の断片が基板に結合される。単一分子配列決定以外の技術では、ＰＣＲに基づく増幅ステップが続く。その後、ヌクレオチドは、基板に結合されるＤＮＡ又はＲＮＡの断片ごとに段階的に取り入れられ、識別される。この過程は数回繰り返され、調査対象の標的サンプルの完全な配列を得るために個々の全ての断片の配列決定リードが整列される。

現在、標的を絞った再配列決定が配列決定分野内の標準手順になっており、それはかかる再配列決定が、臨床的に関連があり得るＤＮＡの区分に配列決定を集中させることを可能にし得るからである。標的配列決定では、標的サンプルの特定の断片が特定の捕捉プローブによって捕捉される。配列決定の費用を節約できるのでこれは有利な場合があるが、生命情報科学の分析は、殆どの分析で優に１週間はかかる依然として非常に多くの時間と労力を必要とする過程であり得る。

国際公開第２０１０／０９７７７５Ａ１号パンプレットでは符号化されたマイクロキャリアに捕捉オリゴヌクレオチドプローブが付加され、マイクロキャリアのコードは、オリゴヌクレオチドプローブの配列を識別する。配列の決定後、マイクロキャリア上のコードを決定することにより、捕捉オリゴヌクレオチドプローブのヌクレオチド配列が識別される。

断片が捕捉されているプローブの情報が使用される場合、生命情報科学の分析が行われ得る速度が加速される可能性がある。更に、そうすることで整列の誤差（従って出力される共通配列の誤差）も減らすことができ、それにより臨床上の要件を満たすのを助けることができる。

本発明の目的は、安価で、速く、且つ／又は信頼できる核酸配列決定方法を提供することであり得る。

この目的は、独立請求項の内容によって実現され得る。更なる例示的実施形態が従属請求項及び以下の説明から明らかになる。

本発明の第１の態様は、ヌクレオチド配列データを提供する方法に関する。

本発明の一実施形態によれば、この方法は、核酸の断片のヌクレオチドに関する決定された識別子の配列と核酸の断片を捕捉した捕捉プローブのプローブデータとを含む基本のヌクレオチド配列データを受け取るステップと、プローブデータと予想配列とを相互に関係付ける情報を用いてプローブデータを予想配列に変換することにより、核酸の断片の予想配列を決定するステップと、決定された識別子の配列及び予想配列へのリファレンスを含むヌクレオチド配列データを出力するステップとを含む。

即ち、ヌクレオチド配列データは、予想配列へのリファレンス又は予想配列自体を含むデータによって強化され得る。強化されたヌクレオチド配列データは、必ずしもプローブデータを含まないことが理解されるべきである。強化されたヌクレオチド配列データは、決定された配列及びリファレンスだけを含んでも良い。

例えばヌクレオチド配列データは、基本のヌクレオチド配列データ、及びプローブデータを予想配列へのリファレンスに相互に関係付けるデータ表を含み得る。

予想配列へのリファレンスは、予想配列及び／又は予想配列の最初の部分であり得る参照配列のゲノム位置を含み得る。リファレンスが予想配列自体であることも可能であり得る。とりわけリファレンスは、ゲノム識別子（例えば遺伝子又はエクソンの識別子）及び遺伝子又はエクソン内の予想配列の開始位置とすることができ、又はそれらを含むことができる。

ゲノム位置は特定のゲノム、例えばヒト参照ゲノム内の位置であり得ることを指摘しておかなければならない。挿入及び欠失により、２つの異なるゲノムの位置が同じでない場合がある。

概して、この方法はヒトゲノムだけでなく、例えば他の真核生物、病原微生物、又は細菌ゲノムにも適用可能である。又、この方法は癌性（人間）細胞のゲノムに適用されても良い。

整列アルゴリズム内で広い領域（全ゲノム）内の検索が狭い領域（標的領域）内の検索に置き換えられ得るので、強化されたヌクレオチド配列データにより整列過程が大幅に加速され得る。更に、順方向リード又は逆方向リードに関する配列の起点が確認されなくても良く、それはどのプローブが使用されており、従ってどの鎖から配列が生じるのかが知られている可能性があるからである。

要約すると、この方法を実行する配列決定装置は、ゲノム位置及び／又は予想配列を直接若しくは間接的にコードするヌクレオチド配列データを整列過程の前に生成するように適合され得る。予想配列へのリファレンスは、塩基呼出し／配列決定過程の前に、その間に、又はその後に、配列決定装置内で加えられても良い。

予想配列へのリファレンスは、予想配列を識別するように適合されるソフトウェア識別子（即ちコード、例えば数値、ソフトウェアラベル、又はソフトウェアコード）でも良い。具体的には、ゲノム位置がソフトウェア識別子内に暗号化され得る。そのような方法で、アルツハイマなどの病気の予測に関して反応し得るゲノムの部分について安全性を高めることができる。

予想配列へのリファレンスは、予想配列の変異体に対するリファレンスとすることもできる。予想配列へのリファレンスは一意である必要はないことに留意されたい。例えばリファレンスは、予想配列の遺伝的変異群を示しても良い。

本発明の一実施形態によれば、プローブデータが位置データを含み、位置データを予想配列と相互に関係付けることによって予想配列が決定される。例えば、位置データはマイクロアレイ上の捕捉プローブのｘ／ｙ位置であり得る。但しプローブデータは、捕捉プローブが取り付けられるマイクロキャリアのラベル、例えばビードを含むことも可能である。本発明の好ましい実施形態では、プローブデータが、マイクロアレイなどのマイクロキャリア上の捕捉プローブのｘ／ｙ位置を含む位置データを含み、位置データを予想配列と相互に関係付けることによって予想配列が決定される。

本発明の更なる態様は、
標的核酸の一部にとって配列の点で相補的である２つの部分を含む捕捉オリゴヌクレオチドプローブを提供するステップであって、捕捉オリゴヌクレオチドプローブの前述の部分は非標的相補的配列ラベル及び任意選択的に固定化成分によって分けられる、提供するステップと、
前述の捕捉オリゴヌクレオチドプローブを、核酸分子を含むサンプルとハイブリダイズするステップであって、前述の核酸分子は捕捉オリゴヌクレオチドプローブにとって少なくとも部分的に相補的である配列を含む、ハイブリダイズするステップと、
前述の捕捉オリゴヌクレオチドプローブ−標的核酸錯体を固相上に任意選択的に固定化するステップと、
非結合核酸分子を固相から任意選択的に除去するステップと、
前述の核酸標的分子を、ポリメラーゼ活性を使用することによって環状化するステップと、
前述の環状化された核酸標的分子を好ましくはローリングサークル増幅によって増幅するステップと、
増幅された核酸標的分子の配列を少なくとも２つのヌクレオチドの配列リードを生成することによって決定するステップと、
非標的相補的配列ラベルの配列を識別するステップと、
非標的相補的配列ラベルに隣接する捕捉オリゴヌクレオチドプローブのヌクレオチド配列を識別するステップであって、任意選択的に３’及び５’の隣接配列が個々に識別される、識別するステップと、
参照ゲノム上の捕捉オリゴヌクレオチドプローブの配列の位置を識別するステップと、
（ｉ）核酸標的の決定された配列、及び（ｉｉ）参照ゲノム上でのその位置に関する情報の組合せを提供するステップと
を含む、標的核酸分子のゲノム位置情報に結び付けられる前述の標的核酸分子の配列を決定するための方法に関する。

好ましい実施形態では、本発明は上記に定めたヌクレオチド配列データを提供するための方法に関し、前述のプローブデータは、上記に定めた標的核酸分子のゲノム位置情報に結び付けられる前述の標的核酸分子の配列を決定する方法によって得ることができる、参照ゲノム上の核酸標的の決定された配列の位置に関する情報を含み、予想配列は、参照ゲノム上の前述の位置に関する情報を参照ゲノムの対応する配列と相互に関係付けることによって定められる。

本発明の更なる態様は、プロセッサによって実行されているときに上記及び以下に記載の方法のステップを実行するように適合される、ヌクレオチド配列データを提供するためのプログラム要素又はコンピュータプログラムに関する。

本発明の更なる態様は、かかるプログラム要素が記憶されるコンピュータ可読媒体に関する。コンピュータ可読媒体は、フロッピディスク、ハードディスク、ＵＳＢ（ユニバーサルシリアルバス）記憶装置、フラッシュメモリ、ＲＡＭ（ランダムアクセスメモリ）、又はＲＯＭ（読取専用メモリ）とすることができる。

本発明の更なる態様は配列決定装置に関する。

本発明の一実施形態によれば、配列決定装置が、核酸の断片のヌクレオチドに関する決定された識別子の配列と核酸の断片を捕捉した捕捉プローブのプローブデータとを含む基本のヌクレオチド配列データを生成し、プローブデータを予想配列と相互に関係付け、決定された識別子の配列と予想配列へのリファレンスとを含むヌクレオチド配列データを生成するように適合される。

配列決定装置は、上記のプログラム要素を実行するように適合される処理装置、例えば１個又は複数のプロセッサを含むことができる。配列決定装置は、記載のプログラム要素が記憶されるコンピュータ可読媒体を含むことができ、又はかかるコンピュータ可読媒体に接続されても良い。

上記及び以下で説明される方法の特徴は、上記及び以下で説明されるコンピュータ可読媒体、プログラム要素、及び配列決定装置の特徴である場合があり、その逆もあり得ることが理解されるべきである。

本発明は、診断上のＤＮＡ及びＲＮＡの配列決定において、又は生命科学配列決定市場において適用可能であり得る。

本発明のこれらの及び他の態様が、以下に記載される実施形態から明らかになり、かかる実施形態を参照することで明らかにされる。

本発明の一実施形態による配列決定装置の概略図を示す。本発明の一実施形態による、ヌクレオチド配列データを提供するための方法の流れ図を示す。本発明の更なる実施形態による、ヌクレオチド配列データを提供するための方法の流れ図を示す。リード冗長性に対する様々なアライナの整列速度の比較を示す。Bowtie、ＢＷＡ、及びＭＡＱは全ゲノムに対して整列し、Needleman-Wunsch実装は関連する参照配列に対して整列させるために位置情報を使用した。設定：標的サイズ３Ｍｂ、リード長５０塩基、１％の配列決定誤差、１０％の標的外リード。どちらの軸も対数目盛である。様々なリード長、標的外リードのパーセンテージ、及びリード冗長性での様々なアライナの比較を示す。ＭＡＱ（○）、ＢＷＡ（●）、及びBowtie（□）は全ゲノムに対して整列し、ＮＷ（＋）及びＮＷＢｅｍ（■）は関連する参照配列に対して整列させるために位置情報を使用した。設定：標的サイズ３０Ｍｂ、１％の配列決定誤差。様々なリード長、標的外リードのパーセンテージ、及びリード冗長性での様々なアライナの比較を示す。ＭＡＱ（○）、ＢＷＡ（●）、及びBowtie（□）は全ゲノムに対して整列し、ＮＷ（＋）及びＮＷＢｅｍ（■）は関連する参照配列に対して整列させるために位置情報を使用した。設定：標的サイズ３Ｍｂ、１％の配列決定誤差。様々なリード長、標的外リードのパーセンテージ、及びリード冗長性での様々なアライナの比較を示す。ＭＡＱ（○）、ＢＷＡ（●）、及びBowtie（□）は全ゲノムに対して整列し、ＮＷ（＋）及びＮＷＢｅｍ（■）は関連する参照配列に対して整列させるために位置情報を使用した。設定：標的サイズ３０Ｍｂ、２％の配列決定誤差。本発明の一実施形態による、整列速度の向上を示す更なる図を示す。約５００万のリードを整列させるときの様々なアライナのＲＡＭ要件（ＭＢ）を示す図を示す。必要な物理メモリは、プログラムによって必要とされる全仮想メモリの一部である。設定：標的サイズ３Ｍｂ、２０ｘリード冗長性、リード長５０塩基、１％の配列決定誤差、１０％の標的外リード。ヌクレオチド配列データのリードのヘッダーを示す。本発明の一実施形態によるヌクレオチド配列データのリードを示す。本発明の一実施形態によるヌクレオチド配列データのリードを示す。本発明の一実施形態による表を示す。本発明の一実施形態による表を示す。本発明の一実施形態によるヌクレオチド配列データのリードを示す。本発明の一実施形態による表を示す。本発明の一実施形態による表を示す。本発明の一実施形態による表を示す。本発明の一実施形態によるヌクレオチド配列データのリードを示す。本発明の一実施形態によるヌクレオチド配列データのリードを示す。本発明の一実施形態によるヌクレオチド配列データのリードを示す。本発明の一実施形態によるヌクレオチド配列データのリードを示す。本発明の一実施形態によるヌクレオチド配列データのリードを示す。ヌクレオチド配列の変異体の一例を示す。本発明の一実施形態による表を示す。本発明の一実施形態によるヌクレオチド配列データのリードを示す。捕捉プローブと標的核酸分子との間の相互作用／結合を示す。捕捉プローブは、捕捉された標的核酸断片のヘッドＨにとって相補的な部分Ａ、捕捉された標的核酸断片のテールＴにとって相補的な部分Ｂ、及び容易に識別可能な配列ラベルＬで作成される。区分Ｍは、Ａ又はＢの何れにとっても相補的でない標的核酸分子の中心部分を示す。本発明による、捕捉プローブと標的核酸分子との間の相互作用過程の更なるステップを示す。図２３に示す相互作用の後、容易に識別可能な配列ラベルＬにとって相補的な区分Ｃが生成される。本発明による、捕捉プローブと標的核酸分子との間の相互作用過程の又更なるステップを示す。図２４に示す相互作用の後、捕捉プローブが例えばローリングサークル増幅（ＲＣＡ）による増幅過程の間に除去される。図２５は、捕捉された標的核のヘッドＨ、捕捉された標的核酸断片のテールＴ、標的核酸分子の中央部分Ｍ、及び容易に識別可能な配列ラベルＬにとって相補的な区分Ｃを含む、増幅されるテンプレートを示す。標的核酸断片の配列を決定するために必要な、ローリングサークル増幅、並びにその後の処理及び配列決定ステップの潜在的結果を示す。図２５に示されている核酸標的断片のローリングサークル増幅の潜在的結果を示し、区分Ａ’は図２５の区分Ｈにとって相補的であり、区分Ｌ’は図２５の区分Ｃにとって相補的であり、区分Ｂ’は図２５の区分Ｔにとって相補的であり、区分Ｒは図２５の区分Ｍにとって相補的である。標的核酸ＲＣＡ産物の配列を決定する１つの任意選択を示し、ＲＣＡ産物は無作為に断片化され、Ｒ１の部分、Ｒ２の部分、Ａ’、Ｌ’、及びＢ’を含む断片をもたらす。この断片は、プライマＰ１及びＰ２の助けによって配列決定され得る。配列決定は重複するリードをもたらすことができ、従って区分Ｍ又は区分Ｒを完全に対象として含む。標的核酸ＲＣＡ産物の配列を決定する更なる任意選択を示し、ＲＣＡ産物は特に区分Ｌ’において断片化され、Ｌ’の一部、Ｂ’、Ｒ、Ａ’、及びＬ’の更なる一部を含む断片をもたらす。この断片は、例えばＬ’、Ａ’、及び／又はＢ’から開始して配列決定され得る。標的核酸ＲＣＡ産物の配列を決定するための更に別の任意選択を示し、ＲＣＡ産物は断片化されない。この核酸分子は、例えばＬ’及び／又はＢ’から開始して配列決定され得る。

図１は、配列決定装置又はシステム１０の概略図を示す。配列決定装置１０は、配列決定ユニット１２、前処理ユニット１４、及び整列ユニット１６を含む。これらの３つのユニット１２、１４、１６は、通信リンクを介して接続される別個の装置とすることができるが、１つの装置１０のモジュールとすることもできる。具体的には、配列決定ユニット１２及び前処理ユニット１４が１つの装置を形成することができ、１つのハウジング内に位置しても良く、整列ユニット１６は、装置１２、１４の出力を評価する更なるコンピュータ又はシステムとすることができる。

図１は、複数の部位又はスポット２０を有するマイクロアレイ１８を更に示す。各スポット２０は、核酸断片の特定配列を捕捉するように適合される複数の同じプローブ分子、捕捉分子、又はオリゴヌクレオチドを含む。とりわけ捕捉プローブは、ゲノムの標的領域から核酸断片を捕える（又はハイブリダイズする）ように適合されても良い。ゲノムの或る区分を標的にするために使用される捕捉プローブは、標的領域だけに固有であるべきであり、さもなければ標的領域外の断片が捕捉される可能性がある。

或いは装置１０は、捕捉プローブが取り付けられる複数のマイクロキャリア２０を有する、基板１８を受け取るように適合される。マイクロアレイ１８又はマイクロキャリア２０には、ユニット１２によって読まれても良いラベル（例えばバーコード）が与えられても良い。例えばマイクロアレイ１８のスポット２０は、スポット２０内のプローブについて符号化するラベルを有することができる。

核酸サンプルに関するヌクレオチド配列を決定するために、核酸サンプルが核酸の断片へと分割され、それらの断片はその後、ＰＣＲによって増幅され、スポット２０に接触して又はマイクロキャリア２０の近くに配置され得る。次いで、捕捉プローブが核酸の断片とハイブリダイズする。

その後、核酸の断片を配列決定する配列決定ユニット１２内に、基板１８又はマイクロアレイ１８が入れられる。例えば、蛍光基を有するヌクレオチドが核酸の断片に結合され、蛍光基によって発せられる光を検出することによりヌクレオチドの配列が決定されても良い。これは配列決定ユニット１２のコントローラによって行われても良く、コントローラは最終的にヌクレオチドに関する識別子の配列３２（図２参照）を核酸断片ごとに生成する。

配列決定装置１０の動作については、図２及び図３に関して更に説明する。

図２は、強化されたヌクレオチド配列データ３６を提供する方法の流れ図を示す。

ステップＳ１０で、配列決定ユニット１２が、核酸断片の識別子の配列３２を、核酸の断片を捕捉するように適合される捕捉プローブのプローブデータ３４に関連させることにより、核酸断片ごとに基本のヌクレオチド配列データ３０を生成する。プローブデータは、捕捉プローブがその中に位置するスポット２０のｘ位置及びｙ位置を符号化し得る位置データ３４を含んでも良い。但し、プローブデータはマイクロキャリア２０のラベルも含むことができる。以下の内容では、位置データを用いる実施形態を示す。しかし以下の実施形態では、位置データがラベルデータに置き換えられても良い。

本発明の特に好ましい実施形態では、位置データが基板上の捕捉プローブのｘ／ｙ位置を含み、基板は、プローブが結合することができ又は結合されても良いマイクロアレイや別の基板などの、マイクロキャリアとすることができる。

概して、基本のヌクレオチド配列データ３０（更に、強化されたヌクレオチド配列データ３６及び中間ヌクレオチド配列データ５０（下記参照））は、複数のリードを含むことができ、リードとは、核酸の１つの断片に関連付けられるヌクレオチド配列データ３０、３６、５０内の記録又は区分であり得る。つまり１つのリードは、プローブデータ及び核酸の１つの断片の決定された配列を含むことができる。

各リードは、ヘッダーと主部を含むことができる。ヘッダーは、プローブデータ３４を含むことができ、主部は、決定された識別子の配列３２を含むことができる。主部は、配列データ、即ち決定された配列のクオリティ情報も含むことができる。

ヌクレオチド配列データ３０、３６、５０はテキスト形式とすることができ、テキストファイル内に記憶され得る。リードはテキストファイル内のセクションとすることができる。例えば識別子の配列３２は、ＤＮＡヌクレオチドの識別子Ａ、Ｃ、Ｇ、Ｔを含むテキスト文字列とすることができる。本願の中の全ての識別子の配列は、実際の配列用のテンプレートである配列の例であることが理解されるべきである。

ステップＳ１０の終りに、基本のヌクレオチド配列データ３０が前処理ユニット１４に出力される。

ステップＳ１２では、基本のヌクレオチド配列データ３０を受け取る前処理ユニット１４が、核酸の断片ごとに強化されたヌクレオチド配列データ３６を生成する。そうすることにより、配列決定装置１０は、核酸の断片を捕捉した捕捉／ハイブリダイゼーションプローブによって入手可能な事前情報を使用することができる。基本のヌクレオチド配列データ３０は、予想配列３８又は予想配列３８へのリファレンスによって強化され得る。予想配列３８は、核酸の特定の断片の識別子の配列３２について予想されるヌクレオチドに関する識別子の配列を含むことができる。例えば予想配列３８は、捕捉プローブによって捕捉される上記の参照配列から始まり得る。捕捉プローブの配列は、核酸の断片の配列にとって少なくとも部分的に相補的であることを理解すべきである。つまり、参照ゲノム上のプローブ領域の配列に対応するプローブは、本明細書の上記で定めたように核酸の断片を捕捉することができる。従って、前述の捕捉プローブの配列は、核酸の断片をハイブリダイゼーションによって捕捉することができる。よって、ハイブリダイズした捕捉された断片の一部が、捕捉プローブの配列にとって少なくとも部分的に相補的であると予想されることが想像できる。捕捉断片の残りの部分は配列決定によって決定され、予想配列に等しく又はそれとほぼ同等であると予想される。

捕捉された断片の決定された配列と、本明細書に定める予想配列（３８）との間の単一ヌクレオチド多型（ＳＮＰ）など、変異体が生じ得ることが当業者によって直ちに理解される。従って、変異体を決定するために、捕捉プローブの配列ではなく捕捉された断片の決定された配列だけが、配列アラインメントによって予想配列と比較される。従って、捕捉プローブの配列は予想配列（３８）と同じではないことが理解されるべきである。そのような配列アラインメントを実行できるようにするために、決定された各配列データ（リード）が、以下のように予想配列３８によって強化され得る。

前処理ユニット１４は、捕捉プローブの位置又はラベルと予想配列３８とを相互に関係付ける情報を用いて位置データ３４を予想配列３８に変換することにより、核酸の断片の予想配列３８を決定することができる。

具体的には、前処理ユニットは、位置データ３４又はラベルデータ３４を予想配列３８に対して相互に関係付けるデータ表４２を含むことができる。予想配列３８は、位置データ３４又はラベルデータ３４と関連する予想配列３８とを結び付ける記録を含むデータ表４２から決定されても良い。データ表４２内には、マイクロアレイ２０上の捕捉プローブ又は特定のマイクロキャリア２０に関連する捕捉プローブの配置が符号化され得る。例えばマイクロアレイ２０はチップ又はバーコードのようなラベルを含むことができ、それらの中にはスポット２０と、スポット２０内の捕捉プローブに関連する参照配列又は予想配列３８との間の関係が記憶され若しくは符号化される。前処理ユニットは、マイクロアレイ２０からこの情報を読み取ることができ、この情報からデータ表４２を生成しても良い。

しかし、データ表４２が別の方法で生成されることも可能である。例えば常に同じ種類のマイクロアレイ２０が使用される場合、データ表４２が予め定められ、前処理ユニット１４内に記憶されても良い。

ステップＳ１２の終りに、強化されたヌクレオチド配列データ３６が整列ユニット１６に出力される。強化されたヌクレオチド配列データ３６は、決定された識別子の配列３２及び予想配列３８又は予想配列へのリファレンスを含む。ヌクレオチド配列データ３６は、必ずしも位置データ３４又はラベルデータ３４を含まないことが理解されるべきである。

ステップＳ１４及びＳ１６で、整列ユニット１６が、核酸の断片ごとの強化されたヌクレオチド配列データ３６を、参照ヌクレオチド配列、例えばデータベース内に記憶されるゲノムの配列に整列させる。比較の結果４０が、ＳＮＰ呼出し及び／又はＳＮＶ（構造的なヌクレオチドの変異体）の決定に使用されても良い。

ステップＳ１４で、決定された配列３２に対する参照ヌクレオチド配列内の予想配列の完全な一致がないか確認することにより、整列ユニット１６が決定された配列３２を参照ヌクレオチド配列に整列させる。

概して、整列させることは、参照ヌクレオチド配列に対する決定された配列のマッピングであり得る。マッピングは、厳密なマッピング又はおおよそのマッピングとすることができる。ステップＳ１４では、厳密なマッピングが求められる。例えば完全な一致は、識別子の予想配列３８に対する決定された識別子の配列３２の文字列比較によって確認されても良い。

ステップＳ１４に関し、通常の整列アルゴリズムだけを実行する代わりに、決定された配列が予想配列に一致するかどうかを見るために文字列一致比較が最初に行われる場合、事前情報を用いて整列過程が改善され得る。これは、文字列一致比較が、より複雑なおおよその一致過程を用いる標準的な整列アルゴリズムよりも（ソフトウェア内で）はるかに速い過程だからである。更に、リードの殆どが参照に一致する。

ステップＳ１６では、予想配列３８に関して厳密な一致が見つからない場合、整列ユニットが通常の整列アルゴリズムを実行することにより、決定された配列３２を参照ヌクレオチド配列に整列させる。ステップＳ１６では、おおよその一致だけが見つかる可能性がある。

要約すると、整列過程の間、予想配列３８が、完全な一致を得るためのステップＳ１４の最初の確認によって使用されても良く、完全な一致が（例えば最初の配列決定リードの残りの１０％について）見つからない場合、（完全な一致を得るために比較するよりもはるかに長い時間がかかり得る）通常の整列アルゴリズムの第２の実行によって使用されても良い。

図３は、強化されたヌクレオチド配列データ３６を提供する方法の流れ図を示す。図３の方法は、前処理ユニット１４によって実行されるステップＳ１２が２つのステップ、Ｓ１８及びＳ２０に置き換えられている点で図２の方法と異なる。

図３に示す事例では、予想配列３８への位置データ３４の変換を実行するために、前処理ユニットが２つのデータ表４４、４６（又はデータ表４４及びデータベース４６）を使用することができる。図２の解に到達するために、データ表４４、４６は、ｘ、ｙ位置３４又はラベルデータ３４を予想配列３８に直接関係付ける１つの表４２に組み合わせられても良い。

図２と同様に、前処理ユニット１６はマイクロアレイ１８又はマイクロキャリア２０からの情報を使用して、この情報に由来するデータ表４４を生成することができる。データ表４４が予め定められ、前処理ユニット１６内に記憶されることも可能であり得る。

更なる態様では、本発明は、標的核酸分子のゲノム位置情報に結び付けられる前記標的核酸分子の配列を決定する方法に関する。この方法は、標的核酸の予想配列を決定するために使用され得る配列情報及び／又はプローブデータを提供し、前述のプローブデータ又は得られる配列情報は、プローブデータと予想配列とを相互に関係付ける追加情報の助けによって予想配列に変換される。プローブデータと予想配列とを相互に関係付ける追加情報は、配列ラベル、好ましくは人工的な配列ラベル、及び捕捉オリゴヌクレオチド上にある標的核酸配列に対応する隣接配列から得られても良い。

標的核酸分子のゲノム位置情報に結び付けられる前述の標的核酸分子の配列を決定するための前述の方法は、全般的な実施形態では、
標的核酸の一部にとって配列の点で相補的である２つの部分を含む捕捉オリゴヌクレオチドプローブを提供するステップであって、捕捉オリゴヌクレオチドプローブの前述の部分は非標的相補的配列ラベルによって分けられる、提供するステップと、
前述の捕捉オリゴヌクレオチドプローブを、核酸分子を含むサンプルとハイブリダイズするステップであって、前述の核酸分子は捕捉オリゴヌクレオチドプローブにとって少なくとも部分的に相補的である配列を含む、ハイブリダイズするステップと、
前述の核酸標的分子を、ポリメラーゼ活性を使用することによって環状化するステップと、
前述の環状化された核酸標的分子を好ましくはローリングサークル増幅によって増幅するステップと、
増幅された核酸標的分子の配列を少なくとも２つのヌクレオチドの配列リードを生成することによって決定するステップと、
非標的相補的配列ラベルの配列を識別するステップと、
非標的相補的配列ラベルに隣接する捕捉オリゴヌクレオチドプローブのヌクレオチド配列を識別するステップであって、任意選択的に３’及び５’の隣接配列が個々に識別される、識別するステップと、
参照ゲノム上の捕捉オリゴヌクレオチドプローブの配列の位置を識別するステップと、
（ｉ）核酸標的の決定された配列、及び（ｉｉ）参照ゲノム上でのその位置に関する情報の組合せを提供するステップと
を含む。

本発明の特定の実施形態では、標的核酸分子のゲノム位置情報に結び付けられる前述の標的核酸分子の配列を決定するための方法が、
標的核酸の一部にとって配列の点で相補的である２つの部分を含む捕捉オリゴヌクレオチドプローブを提供するステップであって、捕捉オリゴヌクレオチドプローブの前述の部分は非標的相補的配列ラベル及び固定化成分によって分けられる、提供するステップと、
前述の捕捉オリゴヌクレオチドプローブを、核酸分子を含むサンプルとハイブリダイズするステップであって、前述の核酸分子は捕捉オリゴヌクレオチドプローブにとって少なくとも部分的に相補的である配列を含む、ハイブリダイズするステップと、
前述の捕捉オリゴヌクレオチドプローブ−標的核酸錯体を固相上に固定化するステップと、
非結合核酸分子を固相から除去するステップと、
前述の核酸標的分子を、ポリメラーゼ活性を使用することによって環状化するステップと、
前述の環状化された核酸標的分子を好ましくはローリングサークル増幅によって増幅するステップと、
増幅された核酸標的分子の配列を少なくとも２つのヌクレオチドの配列リードを生成することによって決定するステップと、
非標的相補的配列ラベルの配列を識別するステップと、
非標的相補的配列ラベルに隣接する捕捉オリゴヌクレオチドプローブのヌクレオチド配列を識別するステップであって、任意選択的に３’及び５’の隣接配列が個々に識別される、識別するステップと、
参照ゲノム上の捕捉オリゴヌクレオチドプローブの配列の位置を識別するステップと、
（ｉ）核酸標的の決定された配列、及び（ｉｉ）参照ゲノム上でのその位置に関する情報の組合せを提供するステップと
を含む。

本明細書で使用するとき、「ゲノム位置情報」という用語は、標準化ゲノム配列マップ上の又は標準化ゲノム配列若しくは配列データベース内の開始地点及び方向（５’又は３’）を指す。従ってゲノム位置は、特定のゲノム、例えばヒト、高等真核、下等真核、細菌、ウイルス、又は植物の参照ゲノム内の位置であり得る。位置情報は、当業者が指示された位置の周りの又は前述の位置から始まる分子配列を推論可能なのと少なくとも同程度の情報を含むことができる。挿入、欠失、配列換、転移等の場合、或るゲノム内の位置は必ずしも、例えば同じ種若しくは人口集団の又は異なる種若しくは人口集団の更に別のゲノム内の同じ位置ではない場合がある。そのような違いは指示され、信号で伝えられ、可能な場合はオフセットデータ又は転移データの規定の対象にされても良い。位置情報は、当業者に知られているどんな適切な形式又は形態で存在しても良い。

本明細書で使用するとき、「捕捉プローブ」という用語は、特に相補的なヌクレオチド配列に結合するオリゴヌクレオチド分子（又はその一部）に関する。オリゴヌクレオチド分子は、例えばマイクロキャリア、例えばマイクロアレイなどの基板、ビード、又は他の任意の適切なエンティティ上に固定化されても良い。捕捉プローブは自由に移動可能としても良く、且つ／又はハイブリダイゼーション手順中の固定化を可能にする要素を含んでも良い。本発明の特定の実施形態では、捕捉プローブがフローセルなどの固相担体上に無作為に固定化されても良い。この担体は、例えば好ましくは高密度の、より好ましくは非常に高密度のポリアクリルアミド層を含むことができる。更なる詳細は当業者に知られており、又は補足情報を含むBentelyら, 2008, Nature, 456, 53-59などの適切な文献から得ることができる。上記で概説した標的核酸分子のゲノム位置情報に結び付けられる前述の標的核酸分子の配列を決定するための方法に照らして、捕捉プローブは好ましくは自由に移動可能なエンティティである。

本発明の特定の実施形態において、捕捉プローブは機能的に異なる区分を含むことができる。上記で概説した標的核酸分子のゲノム位置情報に結び付けられる前述の標的核酸分子の配列を決定するための方法に照らして、捕捉プローブが、標的配列核酸の一部にとって配列の点で相補的である少なくとも２つの部分を含むことが好ましい（例えば図２３に示されている捕捉プローブの区分Ａ及びＢを参照されたい）。これらの部分の長さは一様でなくても良い。これらの部分は、例えば４ヌクレオチド又は４を上回るヌクレオチドの長さを有することができる。例えばこの部分は、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２１、２２、２３、２４、２５、２６、２７、２８、２９、３０、３１、３２、３３、３４、３５、３６、３７、３８、３９、４０、４１、４２、４３、４４、４５、４６、４７、４８、４９、５０、５１、５２、５３、５４、５５、５６、５７、５８、５９、６０、６１、６２、６３、６４、６５、６６、６７、６８、６９、７０、７１、７２、７３、７４、７５、若しくは８０ヌクレオチド、又は示した値の間の任意の整数の長さを有することができる。この部分の好ましい長さは、約２５から３０ヌクレオチドの間、例えば２５、２６、２７、２８、２９、３０ヌクレオチドである。２つの部分は長さが同じでも、長さの違いを示しても良い。例えば一方の部分が、他方の部分の１０００％、７００％、５００％、３００％、２００％、１００％、８０％、７０％、６０％、５０％、４０％、３０％、又は２０％の長さを有しても良く、逆の場合も同様である。

捕捉プローブ部分の文脈の中で使用するとき、「相補的」という用語は、対応する標的配列との全部分の相補性を指す。従って、全てのヌクレオチド塩基が同族のヌクレオチド（Ｇ−Ｃ、及びＡ−Ｔ）にハイブリダイズする場合、或る部分は標的配列にとって相補的であり得る。更なる実施形態では、相補性が部分的でも良い。そのような部分的相補性は、同族のヌクレオチドにハイブリダイズする結合部分のヌクレオチドの率、例えば約９９％、９８％、９７％、９６％、９５％、９４％、９３％、９２％、９１％、９０％、８９％、８８％、８７％、８６％、８５％、８４％、８３％、８２％、８１％、８０％、７５％、７０％、６５％、６０％、又は５５％を含むことができる。この相補性は、結合部分の範囲しか標的配列に完全にハイブリダイズしないのに対し、更なる範囲又は区分はハイブリダイズせず又は部分的にしかハイブリダイズしないような部分的相補性でも良い。２つの部分（例えば図２３に示されている部分Ａ又はＢ）は、特定の実施形態では異なる相補度を有しても良く、例えば部分Ａは９９％、９８％、９７％、９６％、９５％、９４％、９３％、９２％、９１％、９０％、８９％、８８％、８７％、８６％、８５％の部分的相補性を有することができるのに対し、もう一方の部分、例えば部分Ｂは１００％の相補度を有することができ、逆の場合も同様である。特定の実施形態では、両方の部分が１００％の相補性を有することができ、又は１００％未満の相補性を有しても良い。両方の部分が１００％未満の相補性を有する場合、それらの部分は同程度の相補性を有しても、異なる程度の相補性を有しても良い。

本発明は、標的配列が捕捉プローブの結合部分と相補性の点で幾分異なる可能性を特に考える。その理由は、これらの違いが診断上重要である分子修飾又は突然変異、例えばＳＮＰ、挿入欠失等を反映する場合があり、好ましくは本明細書に記載の方法論に従って検出され得るからである。診断上重要であるそのような潜在的な分子修飾又は突然変異、例えばＳＮＰ、挿入欠失等の検出は、当然ながら標的核酸の隣接配列（例えば図２３の説明図に示されている配列Ｍ）内でも可能であり、とりわけ考えられる。

標的核酸の一部にとって配列の点で相補的である捕捉オリゴヌクレオチドプローブ部分の配列は、核酸分子、例えば二本鎖ゲノムＤＮＡ分子の少なくとも同じ鎖上にあることが知られている標的配列の区分に対応するように選択されても良い。好ましくは、捕捉オリゴヌクレオチドプローブ部分の前述の配列は、標的配列内の相補的配列との間の距離が５００００ヌクレオチド超、約５００００ヌクレオチド、約４００００ヌクレオチド、約３００００ヌクレオチド、約２５０００ヌクレオチド、約２００００ヌクレオチド、約１５０００ヌクレオチド、約１００００ヌクレオチド、約９０００ヌクレオチド、約８０００ヌクレオチド、約７０００ヌクレオチド、約６０００ヌクレオチド、約５０００ヌクレオチド、約４０００ヌクレオチド、約３０００ヌクレオチド、約２０００ヌクレオチド、約１５００ヌクレオチド、約１０００ヌクレオチド、約９００ヌクレオチド、約８００ヌクレオチド、約７００ヌクレオチド、約６００ヌクレオチド、約５００ヌクレオチド、約４００ヌクレオチド、約３００ヌクレオチド、約２００ヌクレオチド、若しくは約１００ヌクレオチド以下、又は示した値の間の任意の整数であり得るように選択されても良い。

標的核酸の一部にとって配列の点で相補的である捕捉オリゴヌクレオチドプローブ部分の配列は、標的核酸が例えば図２３に示されているように南京錠式に結合されるように更に選択され、捕捉オリゴヌクレオチドプローブ上に配置されても良い。これは、相補的プローブ部分を（例えば図２３の指示子Ａ及びＢに示されているように）適切な連鎖配列及び方向性で提供することによって達成され得る。これらの特徴は、特定のゲノム状況、例えば反復配列、配列変換等の存在に更に適合され得る。

標的配列内の結合部分の想定距離は、標的サンプルの成分又はその配合物により、特定の実施形態において反映され得る。原則的に、上記で説明した標的核酸分子のゲノム位置情報に結び付けられる前述の標的核酸分子の配列を決定するための方法に照らして使用される核酸サンプルは、任意の原料に由来し、又は任意の起源である任意の量の核酸を含む如何なるサンプルでも良い。サンプルは、好ましくは二本鎖又は一本鎖ＤＮＡ若しくはＲＮＡ又はその両方、より好ましくは二本鎖ＤＮＡを含む。サンプルは、全ゲノムを含むことができ、又は例えば分割過程、分解過程、若しくは精製過程に通された後、全ゲノムの分画又は細分画を含んでも良い。そのような過程は当業者に知られている。サンプルは、原核生物サンプル、ウイルスサンプル、又は真核サンプルとすることができる。好ましくは、サンプルは真核サンプルである。サンプルは、例えば植物組織サンプル、下等真核サンプル、又は高等真核サンプルとすることができる。特定の実施形態では、哺乳動物原料由来、より好ましくはヒト原料由来のサンプルであり得る。この方法論に適したサンプル取得手順は当業者に知られている。

現在説明されている方法の中でサンプルが使用可能であるために、サンプルは、一本鎖にされ且つ／又は保たれなければならない。これは、当業者に知られている任意の適切な方法によって達成され得る。典型的には、ＤＮＡ又は二本鎖核酸を含むサンプルは、融解温度、例えば６０℃、６５℃、７０℃、８０℃、９０℃、又は９５℃の温度まで、又はそれを上回る温度まで加熱され得る。核酸を一本鎖形式に保つために、塩溶液、例えばＳＣＣ及び／若しくはＳＤＳ、又は他の適切な緩衝剤、イオン、若しくは化合物が使用されても良い。この方法論に適した更なるサンプル調製法及び更なる詳細が当業者に知られており、Johanssonら, Nucleic Acid Research, 2011, 39(2), e8, 1-13などの適格な文献から得ることができる。

現在説明されている方法に使用可能であるために、サンプル内の標的核酸分子が断片化されなければならない。この説明の全体にわたって使用する用語「断片化」は、核酸分子の完全な又は本質的な劣化なしに核酸分子の破断、分裂、又は短縮をもたらす任意の活動を含むことを意味する。断片化は部位固有でも無作為でも良い。断片化は、例えば制限酵素やエンドヌクレアーゼを使用することにより又は（例えばEpicenter, Madison, WI, USAによって販売される、又はIlluminaによって販売されるNextera DNA Sample Preparation Kitに基づく）トランスポゾンにより、例えば酵素的に行われても良い。或いは断片化は、物理的な力に基づいて、例えば核酸分子を剪断し、超音波処理し、又は物理的に割ることによって行われても良い。適切な方法は当業者に知られている。好ましくは、断片化は酵素的に行われる。断片化過程には制限酵素又はエンドヌクレアーゼを使用することが特に好ましい。従って断片化は、例えば平均して５００００ヌクレオチドごと、４００００ヌクレオチドごと、３００００ヌクレオチドごと、２５０００ヌクレオチドごと、２００００ヌクレオチドごと、１５０００ヌクレオチドごと、１００００ヌクレオチドごと、９０００ヌクレオチドごと、８０００ヌクレオチドごと、７０００ヌクレオチドごと、６０００ヌクレオチドごと、５０００ヌクレオチドごと、４０００ヌクレオチドごと、３０００ヌクレオチドごと、２０００ヌクレオチドごと、１５００ヌクレオチドごと、１０００ヌクレオチドごと、９００ヌクレオチドごと、８００ヌクレオチドごと、７００ヌクレオチドごと、６００ヌクレオチドごと、５００ヌクレオチドごと、４００ヌクレオチドごと、３００ヌクレオチドごと、２００ヌクレオチドごと、若しくは１００ヌクレオチドごとに、又は示した値の間の任意の整数ごとに結合する（及び切断する）、標的核酸サンプル内の事前に決定可能な頻度で認識部位を有する制限酵素を選択することによって行われ得る。特定の実施形態では、考えられる断片長が、分析される遺伝情報の本質（identity）、即ち配列決定され又は標的とされる遺伝子若しくはゲノム部分に依存するようになされ得る。従って考えられる断片長は、遺伝子の大きさ、イントロンの有無及び数、エクソンの大きさ及び分布、染色体位置、単一の遺伝子又は遺伝子群が分析されるかどうかの問題等に応じて調節され得る。よって、特定の実施形態では、例えば１０００ヌクレオチドから１００ヌクレオチド、又は３０００ヌクレオチドから５００ヌクレオチドの範囲内のどちらかと言えば短い断片長を有することが有利であり得るが、他の実施形態ではより長い断片、例えば５００００から３００００ヌクレオチド又は３００００から３０００ヌクレオチド等の範囲内の断片を有することが有利な場合もある。そのような長い断片では、これらの方法が長いリード長を提供するので、例えばPacific Biosciencesによって販売されている即時単一分子技法、又はOxford Nanopore Technologiesによって開発されている（生物学的）ナノ細孔配列決定を利用することが有利である。当然ながら、長い距離を提供する更なる配列決定方法も本発明によって想定される。

特定の実施形態では、１、２、３、４、５、６、７、８、９、１０若しくはそれ以上の異なる制限酵素又はエンドヌクレアーゼが、同時に及び／又は１つのサンプル若しくはサンプルアリコットと共に使用されても良い。制限酵素若しくはエンドヌクレアーゼの本質及び／又は制限酵素若しくはエンドヌクレアーゼの組合せが、標的核酸又は標的ゲノム内のそれらの結合モチーフの事前に決定され又は知られている頻度に従って選択されても良い。対応する情報は当業者に知られており、適切なテキスト又は製造会社の文書から得ることができる。制限酵素又はエンドヌクレアーゼを使用することは、物理的な力の使用、例えばＤＮＡの剪断と更に組み合わせられても良い。

本発明の特定の実施形態では、断片化された標的核酸分子が１つ又は好ましくは複数のアリコット、例えば２、３、４、５、６、７、８、９、１０、１１、１２、１５、２０又はそれ以上のアリコット内に与えられても良い。これらの様々なアリコットは、好ましくは様々な制限酵素若しくはエンドヌクレアーゼ、又は制限酵素若しくはエンドヌクレアーゼの様々な組合せで処理されても良く、又は同一の制限酵素若しくはエンドヌクレアーゼを用いて様々な条件下で処理されても良く、又はその両方とすることもできる。そのような様々な条件とは、例えば様々な酵素濃度、様々な培養期間、様々な培養温度、緩衝剤、イオン、又は付加成分の様々な濃度、阻害物の有無等であり得る。

本発明の特に好ましい実施形態では、好ましくは断片の末端において捕捉オリゴヌクレオチドプローブの両方の結合部分にとって相補的な配列を含む断片が生成されるように、示された条件並びに制限酵素又はエンドヌクレアーゼの本質及び組合せが選択され得る。従って、捕捉オリゴヌクレオチドプローブの結合部分の相補的領域の少なくとも１つが、断片化された標的核酸の５’末端又は３’末端に位置することが好ましい。捕捉オリゴヌクレオチドプローブの結合部分の相補的領域が断片の内部に位置する場合、対向する核酸の末端を作成するためにエキソヌクレアーゼを更に使用することが考えられ、そうすることにより標的核酸を環状化することが可能になる。

本明細書で使用するとき、「非標的相補的配列ラベル」という用語は、標的核酸分子にとって相補的ではない配列を指す。配列ラベルは、例えば分析されるエンティティ又は有機体のゲノム配列の中に無い人工配列を含むことができる。配列ラベルの長さは一様でなくても良く、約４ヌクレオチドから約５００ヌクレオチドまで及ぶ。４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２１、２２、２３、２４、２５、２６、２７、２８、２９、３０、３１、３２、３３、３４、３５、３６、３７、３８、３９、４０、４１、４２、４３、４４、４５、４６、４７、４８、４９、５０、５１、５２、５３、５４、５５、５６、５７、５８、５９、６０、６１、６２、６３、６４、６５、６６、６７、６８、６９、７０、７１、７２、７３、７４、７５、若しくは８０又はそれを上回るヌクレオチド長の配列ラベルを有することが好ましい。配列ラベルは、好ましくは約６０ヌクレオチドの長さを有し得る。配列ラベルの配列は任意の無作為配列とすることができる。従って、配列ラベルは、異なるパラメータ及び／又はサンプルの脈絡に応じて異なり得る。配列ラベルは、例えば有機体のゲノムのＧＣ含量、ゲノム内の特定の配列の可用性、ゲノム断片にハイブリダイズできる可能性、核酸の折り畳み又は構造上の特性、タンパク因子に結合する又はタンパク因子によって結合される特性、又は当業者に知られている他の任意の適切なパラメータに適合され得る。好ましい例では、配列ラベルが２０のＧと、その後に続く１、２、３、４、５以上のＴと、その後に続く２０のＧを含み得る。或いは配列ラベルは、２０のＡ又はＴと、その後に続く５のＣ又はＧと、その後に続く２０のＡ又はＴを含んでも良い。１０のＧ又はＣと、その後に続く５のＴ又はＡと、その後に続く１０のＧ又はＣなどの更なる代替形態も考えられる。本発明によって想定される更なる例は、Ａ、Ｔ、Ｇ、Ｃの何れか１つ、好ましくは１種類だけ、即ちＡ、Ｔ、Ｇ、Ｃだけを含む一方の側（例えば図２３の部分Ａの側）の５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２１、２２、２３、２４、２５、２６、２７、２８、２９、３０、３１、３２、３３、３４、３５、３６、３７、３８、３９、４０、４１、４２、４３、４４、４５、４６、４７、４８、４９、５０又は５１以上のヌクレオチドと、任意選択的にその後に続くＡ、Ｔ、Ｇ、Ｃの何れか１つを含む１、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２１、２２、２３、２４、２５、２６、２７、２８、２９、３０ヌクレオチドから成るコア区分と、任意選択的にその後に続くＡ、Ｔ、Ｇ、Ｃの何れか１つ、好ましくは１種類だけ、即ちＡ、Ｔ、Ｇ、Ｃだけを含む第２の側（例えば図２３の部分Ｂの側）の５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２１、２２、２３、２４、２５、２６、２７、２８、２９、３０、３１、３２、３３、３４、３５、３６、３７、３８、３９、４０、４１、４２、４３、４４、４５、４６、４７、４８、４９、５０又は５１以上のヌクレオチドとを含む。配列ラベル内のＡ、Ｔ、Ｇ、及びＣの範囲、部分、又はモチーフの混合を含む更なる組合せも想定される。非標的相補的配列ラベルの構造及び配列は、有利には、隣接配列と非標的相補的配列ラベルとの間の境界、具体的には標的核酸にとって相補的な配列、例えば図２３の配列Ａ及び／又はＢを区別するために使用され得る。典型的には、本明細書に記載の配列ラベルは、分析されるゲノム又は配列内で自然発生すべきでなく、即ち標的ゲノム又は配列内に包含されるべきでない。

本発明の更なる実施形態では、非標的相補的配列ラベルが、制限酵素又はエンドヌクレアーゼのための認識部位又はモチーフを含むことができる。認識部位又はモチーフは標的配列又は標的ゲノム内に存在しないことが好ましい。そのような認識部位は、例えばその配列が決定される有機体の参照ゲノムに関する情報に応じて設計されても良い。更なる可能性は、人工的な認識部位及び同族修飾された制限酵素を提供することを含む。本発明の更なる実施形態では、非標的相補的配列ラベルが、本明細書に記載の剪断力の使用時に配列ラベル内の破断の増加を可能にする、構造的に不安定な又は破断する傾向を示す配列若しくはモチーフを含み得る。

更なる実施形態では、非標的相補的配列ラベルがバーコード配列を更に含んでも良い。このバーコード配列は、任意の又は非自然的な如何なる配列、例えば人工配列でも良い。バーコード配列は、任意の適した長さ、例えば５ヌクレオチド長、６、７、８、９、１０又はそれ以上のヌクレオチド長を有することができる。この配列は、例えばサンプルの起源、患者の起源、患者群の起源、臓器又は組織の出所等を識別するために診断上使用されても良い。

好ましい実施形態では、複数組の捕捉オリゴヌクレオチドプローブを使う配列決定手法に同一の非標的相補的配列ラベルが使用されても良く、それにより、決定された配列情報内の或る特定配列の場所だけを突き止めることによりラベルの識別が可能になる。更なる実施形態では、複数の、例えば２、３、４、５、６、７、８、９、又は１０の非標的相補的配列ラベルが使用され得る。

更なる実施形態では、非標的相補的配列ラベルが、分析される患者、臓器提供者、組織起源等ごとに異なるべきであるバーコード配列と組み合わせられても良い。又、様々なラベル配列と様々なバーコード配列との組合せも可能である。

本明細書で言及される「固定化成分」とは、捕捉プローブを基板に結合するのに適した任意の部分を指す。そのような成分の例は、ビオチン、アビジン、ストレプトアビジン、アミン基等である。ビオチン成分を捕捉プローブ上に有することが好ましい。捕捉プローブは、固相又は基板上に位置するアビジン、ストレプトアビジン等によって効果的に結合され得る。本明細書でも想定される更なる代替的結合の可能性が当業者に知られている。

本願の全体にわたって使用される「ハイブリダイズ」という用語は、捕捉プローブ及び標的核酸分子の結合又は捕捉に関する。この結合の相互作用は、結合パートナーの環境内の条件に依存し且つ／又はかかる条件によって調整され得る。そのような条件は、緩衝剤の濃度、緩衝剤の成分、ｐＨ、ホルムアミドの有無及び濃度、１つ又は複数のイオン、とりわけカチオンの有無及び濃度、ＥＤＴＡの有無及び濃度、１つ又は複数の塩、とりわけ塩化ナトリウムの有無及び濃度、結合環境の温度、相互作用の時間、液体運動及びその程度、相補的な相互作用の可能性、相互作用パートナーとの間の不一致の度合い等であり、及び／又はこれらから選択される。典型的なハイブリダイゼーションの状況では、環境が０％〜５０％のホルムアミド、０．７〜１Ｍの塩化ナトリウム、３ｍＭ〜５ｍＭのＥＤＴＡ、好ましくは３．５ｍＭのＥＤＴＡ、及び任意選択的にＳＤＳ又はTween、例えば０．０５％〜０．１％のTween 20又は０％〜１％のlawoylsarcoore（石鹸）を含み得る。ハイブリダイゼーションの温度は、例えば約４０℃から７５℃、例えば７５℃、６８℃、６２℃、５５℃、４６℃等、又は時間間隔単位のこれらの温度の任意の組合せ、例えば７５℃で２０〜４０分、その後６８℃で２０〜４０分、その後６２℃で２０〜４０分、その後５５℃で２０〜４０分、その後４６℃で２０〜４０分等に設定され得る。ハイブリダイゼーションのパラメータは、固定化ステップに応じて変えられても良い。

更なる特定の実施形態では、ハイブリダイゼーションが１つ又は複数の洗浄ステップを伴い、又はかかる洗浄ステップがハイブリダイゼーションの後に続いても良い。これらの洗浄ステップは、非結合核酸分子を除去することをもたらし得る。残っている核酸分子は、好ましくは捕捉オリゴヌクレオチド、つまり例えば固相又は基板上に結合される標的核酸複合体だけを含み、又はかかる捕捉オリゴヌクレオチドを本質的に含む。この実施形態では、上記に定めた捕捉プローブの固定化を、その後の非結合の除去、即ち（例えば固定化エンティティの結合によって）直接又は間接的に固定化されていない核酸分子若しくはその派生物の除去と組み合わせることが好ましい。

更なる代替的実施形態では、固定化成分の提供及び除去ステップによって実施される選択アプローチが、非標的相補的配列ラベル（例えば図２３に示されている配列ラベルＬ）を含む核酸配列の選択によって行われても良い。この選択は、例えば前述の非標的相補的配列ラベルの有無に関する入手可能な配列情報をフィルタすることによる、計算的アプローチ又は生命情報科学的アプローチによって行われても良い。本発明の特定の実施形態では、利用可能な全ての核酸分子に関する配列情報が得られ（即ち固定化及び除去のステップが一切なくても良い）、その後、本明細書に定められる非標的相補的配列ラベルを得るために、ソフトウェア又は生命情報科学のフィルタリング若しくは検索による配列選択が続いても良い。それにより、利用可能な全ての配列リードの対応する部分群が得られても良く、この部分群は本明細書に記載の方法又はその一部に従って更に分析されても良い。

上記に記載の「環状化」ステップは、非標的相補的配列ラベルの存在によって引き起こされる隙間を閉じることに関する（図２３も参照されたい）。そのような環状化ステップは、任意の適切な活動によって行われ得る。環状化は、ポリメラーゼ活性、例えばＴａｑポリメラーゼ、又はＰｆｕポリメラーゼなどの任意のプルーフリーディングポリメラーゼによって行われることが好ましい。更なる適切なポリメラーゼ並びに適切な条件が当業者に知られており、Huebscherら, DNA Polymerases: Discovery, Characterization and Functions in Cellular DNA Transactions, 2010, 1^st ed, World Scientific Publishing Coなどの適切な文献から得ることができる。

本発明の更なる実施形態では、環状化が標的核酸の端部を連結することによって行われ得る。この連結は、標的核酸の末端を直接連結することにより、又は標的核酸の末端を間接的に連結することにより行われ得る。間接的な連結は、本明細書に定める非標的相補的配列ラベルにとって相補的なオリゴヌクレオチドの結合、及び標的核酸端に対するオリゴヌクレオチド末端のその後の連結を含み得る。例えば完全に充填しない（non completely filling）オリゴヌクレオチドが使用される場合、この連結過程はポリメラーゼ活性と組み合わせられても良く、又はポリメラーゼ活性を更に含むことができる。

当技術分野で知られている任意の増幅手段を用いて、環状化された分子の増幅が行われても良い。好ましい実施形態では、増幅がプライマの助けによって行われ得る。特定の実施形態では、増幅が環状化ステップの直後に行われても良い。或いは、洗浄若しくは除去及び／又は抑制ステップが含まれても良い。従って、増幅は本質的にはＰＣＲ、ＲＣＡ、又はＭＤＡ増幅とすることができる。ローリングサークル増幅（ＲＣＡ）によって増幅を行うことが好ましい。ＲＣＡは、テンプレート配列の相補体の複数の複製を含む、線形の鎖状増幅産物をもたらす。ＲＣＡ中に、捕捉オリゴヌクレオチドプローブが開始プライマとして使用されることが好ましい。或いは、様々な位置において結合し得る１つ又は複数の更なるプライマオリゴヌクレオチドが使用されても良い。ＲＣＡに使用される酵素は当業者に知られている。好ましくは、ｐｈｉ２９ポリメラーゼがＲＣＡに使用され得る。ＲＣＡの更なるパラメータ及び条件が当業者に知られており、且つ／又はJohanssonら, Nucleic Acid Research, 2011, 39(2), e8, 1-13などの適切な文献から得ることができる。

本発明の特定の実施形態では、ローリングサークル増幅（ＲＣＡ）の後、鎖状ＲＣＡ産物を分割し、分解し、又は断片化することが必要になる場合がある。その過程は任意の適切な手順に従って行われ得る。例えば、全ＲＣＡ産物に沿った無作為の断片化が行われるように、鎖状ＲＣＡ産物の断片化が行われても良い。これは、上記のように剪断力などの物理的な力を使うことによって実現され得る。特定の実施形態では、或る最小若しくは最大の断片長、又は或る平均断片長が得られるように剪断過程が調節されても良い。

更なる実施形態では、鎖状ＲＣＡ産物の断片化が、本明細書に記載のように特に配列ラベル部分内のＲＣＡ産物を分割し又は破断することによって行われ得る（例えば図２３の指示子Ｌを参照されたい）。そのような特定の分割は、例えば本明細書に定められる非相補的配列ラベル内の同族認識部位又はモチーフを有する、制限酵素又はエンドヌクレアーゼを使用することによって実現され得る。或いは、分割又は破断は、剪断や超音波処理などの物理的な力を加えたときに破断しやすい、例えば本明細書に定められる構造的に不安定な区分を含む配列ラベルに対して剪断力を用いることによって実現されても良い。

更に別の実施形態では、ＲＣＡ産物が全く断片化されることなしに、或いは例えば上記の手順に従って鎖状体の一部だけが断片化されることによって使用されても良い。

更なるステップでは、増幅された核酸標的分子の配列が決定される。本明細書で使用するとき、「増幅された核酸標的分子の配列を決定する」という用語は、核酸配列決定反応の働きにより標的核酸の配列情報を決定する過程を指す。これらの方法は、核酸の分離、転移、精製、更なる増幅ステップなどの追加のステップを含む場合がある。そのような追加のステップが必要かどうか、及びどれが必要かは、実行される具体的な配列決定方法に依存し得る。本発明は、配列決定手法に関する製造業者のプロトコルに依存し、方法のステップを対応して修正することを想定する。増幅された核酸標的の配列の決定が、増幅産物の状態に適合されることが好ましい。ＲＣＡ産物が存在する場合、ＲＣＡ産物の断片化の状態、及び／又は上記に定められたＲＣＡ産物の断片化に使用される過程に応じて配列決定が調節されるべきである。従って、適合されたプライマ配列又は別の配列決定方法が使用され得る。それに応じてリード長が更に調節されても良い。例えばＲＣＡ産物が断片化されていない場合、より長いリードが必要とされ得る。

更に、配列決定、例えばマッピングの結果の分析も、ＲＣＡ産物の断片化の状態、及び／又はＲＣＡ産物の処理若しくは断片化に使用される過程に応じて調節されるべきである。

配列決定の方法並びに対応する準備手順は当業者に一般に知られている。望ましいのは、次世代の配列決定方法又はハイスループットの配列決定方法である。例えば、配列はＭＰＳＳ（Massively Parallel Signature Sequencing）によって決定されても良い。想定される配列方法の一例は、例えばRoche 454 Genome Sequencerに基づくパイロシーケンシング、とりわけ４５４パイロシーケンシングである。この方法では、油剤内の水滴の中でＤＮＡを増幅し、各液滴は、クローンコロニーをその後形成する、単一プライマによって被覆されたビードに付加される単一のＤＮＡテンプレートを含む。

パイロシーケンシングでは、発光酵素を用いて初期のＤＮＡに加えられる個々のヌクレオチドを検出するための光を発生させ、配列読出しを生成するために組合せデータが使用される。更に想定される別の例は、可逆的ダイターミネータに基づくIllumina Genome Analyzer技術を使用することによるIllumina又はSolexa配列決定である。ＤＮＡ分子は、典型的にはスライド上のプライマに付加され、局所的なクローンコロニーが形成されるように増幅される。その後、一度に一種類のヌクレオチドが追加されても良く、取り込まれなかったヌクレオチドが洗い落とされる。その後、蛍光標識されたヌクレオチドの画像が撮られても良く、ダイが化学的にＤＮＡから除去され、次のサイクルを可能にする。更に別の例は、連結による配列決定を使用するApplied BiosystemのSOLiD技術を使用することである。この方法は、配列決定される位置に応じてラベル付けされる、固定長のあり得る全てのオリゴヌクレオチドのプールを使用することに基づく。そのようなオリゴヌクレオチドは、アニールされ連結される。その後、配列をマッチさせるためのＤＮＡ連結酵素による選択的連結が、典型的にはその位置におけるヌクレオチドの情報を提供する信号をもたらす。ＤＮＡは概してエマルジョンＰＣＲによって増幅されるので、同じＤＮＡ分子の複製だけをそれぞれ含む結果として生じるビードはスライドガラス上に堆積されることが可能であり、Illumina配列決定に匹敵する量及び長さの配列をもたらす。更なる方法は、アレイにつながれるPolyTオリゴマーによって断片が捕捉されるHelicoのHeliscope技術に基づく。各配列決定サイクルにおいて、ポリメラーゼ及び単一の蛍光標識されたヌクレオチドが加えられ、アレイが撮像される。その後蛍光タグが除去され、サイクルが繰り返される。本発明の方法に包含される配列決定技法の更なる例は、ハイブリダイゼーションによる配列決定、ナノ細孔の使用による配列決定、鏡検に基づく配列決定技法、マイクロ流体サンガー配列決定、又はマイクロチップに基づく配列決定方法である。本発明によって想定される配列決定の更なる方法であって、長いリード長を提供する、更なる方法は、Pacific Biosciencesによって販売されている即時単一分子技法、又はOxford Nanopore Technologiesによって開発されている（生物学的）ナノ細孔配列決定である。本発明はこれらの技法の更なる発展、例えば配列決定の精度の更なる改善、有機体のゲノム配列の決定に必要なリード長又は時間の更なる改善等も想定する。

ゲノム配列、サブゲノム配列、又はその任意の部分、例えば単一の核酸断片のリードは、任意の適切な品質又は精度で得られても良い。好ましくは、得られるゲノム配列、サブゲノム配列、又はその一部が、１０，０００塩基、５０，０００塩基、７５，０００塩基、１００，０００塩基ごとに１件以下の誤差を有し得る。より好ましくは、得られるゲノム配列、サブゲノム配列、又はその一部が、１５０，０００塩基、２００，０００塩基、又は２５０，０００塩基ごとに１件以下の誤差を有し得る。本発明は、配列決定技術の改善による、より高い品質を有する配列の準備又は使用も想定する。従って本発明は、如何なる許容誤差又は範囲の制限にも制約されず、代わりに、適切な現代的配列決定技法に従って準備され得られる、標的配列の準備及び入手可能な配列情報の実装に焦点を当てる。配列決定の結果は任意の適切な形式、例えばＦＡＳＴＡ形式やＦＡＳＴＱ形式で、当業者に知られている任意の適切な媒体、例えばハードドライブやソリッドステートデータ記憶域上に記憶されても良い。

この方法の更なるステップでは、非標的相補的配列ラベルに隣接する捕捉オリゴヌクレオチドプローブのヌクレオチド配列が識別される。識別は、先行するステップ内で得られる、例えばＦＡＳＴＡ形式又はＦＡＳＴＱ形式で提供される配列データに基づいて行われても良い。識別は、本質的には配列データ内で上記の非標的相補的配列ラベルを検索することを含み得る。前述の配列ラベルを見つけた後、隣接配列が識別され得る。本明細書で使用するとき、「隣接配列」という用語は、増幅産物から得られる配列データ内の非標的相補的配列ラベルに対して３’及び／又は５’である配列に関する。これらの隣接配列は、捕捉オリゴヌクレオチドプローブの相補的な部分の長さに対応する長さを有し得る。これらの隣接配列の配列に加え、それらの位置又は方向性に関する情報、即ち非標的相補的配列に関して５’配列か３’配列かの情報が取得されても良い。従って、本発明の特定の任意選択的実施形態では、３’配列及び／又は５’配列が個々に識別される。「個々に識別される」という用語は、非標的相補的配列ラベルに対する３’配列の位置が５’配列に関する情報とは独立に決定され、非標的相補的配列ラベルに対する５’配列の位置が３’配列に関する情報とは独立に決定されることを意味する。好ましい実施形態では、隣接配列３’及び５’の両方が得られ、非標的相補的配列ラベル及びそれぞれに対する位置が決定される。

更に別のステップでは、参照ゲノム内の配列の位置を識別するために、捕捉オリゴヌクレオチドプローブの相補的な部分を含む隣接領域の識別済み配列が使用されても良い。本明細書で使用するとき、「参照ゲノム」とは、識別された配列データ又は核酸断片リードと同一の若しくは類似の範囲を対象として含む任意の適切な既存のゲノム配列とすることができる。本発明の好ましい実施形態では、参照配列は事実上完全な真核生物のゲノム配列である。本発明の更に別の実施形態では、前述の参照配列は事実上完全なウイルスゲノム配列である。真核生物のゲノム配列の例は、ＮＣＢＩの微生物ゲノムプロジェクトデータベースから提供され又は得ることができる細菌ゲノム配列である。更なる詳細は、McNeil LKら, The National Microbial Pathogen Database Resource (NMPDR): a genomics platform based on subsystem annotation, Nucleic Acids Res., 2007; 35 (Database issue): D347-53から得ることができる。真核生物のゲノム配列の例は、ＮＣＢＩのBioProject又はGenomeProjectデータベース、例えば1000 Genomes project（http://www.ncbi.nlm.nih.gov/bioproject/61209）又はENCODE project（http://www.ncbi.nlm.nih.gov/bioproject/30707）からのデータも含み得る、http://www.ncbi.nlm.nih.gov/ bioprojectの下で提供されるデータベースから提供され又は得ることができる。ウイルスゲノム配列の例は、ＮＣＢＩのウイルスゲノムリソースデータベースから、又はBelshaw Rら, The RNA Virus Database, Nucleic Acids Res., 2009; 37 (Database issue): D431-D435から提供され若しくは得ることができる。更に好ましいのは動物のゲノム配列、例えば家庭内動物又は家畜、例えば猫、犬、羊、牛、豚、鶏、猿、ネズミ、ハツカネズミのゲノム配列である。更なる実施形態では、ゲノム配列が植物のゲノム配列、例えばトウモロコシ、ポテト、小麦、モロコシ、米、綿、大麦、カノーラ、キュウリ、大豆、桃、トマト、パパイヤなどの農作物や果物、又はシロイヌナズナやミナトカモジグサなどの研究モデル植物のゲノム配列である。更なる詳細及び参照配列情報は、任意の適切なデータベース、例えばPlantGDBデータベースから得ることができる。特に好ましいのはヒトゲノム配列である。例は人種特有のゲノム配列、例えば白人のゲノム配列、アフリカ人のゲノム配列、アジア人のゲノム配列等である。更なる例は、被験者特有のゲノム配列又はその共通配列、例えば個々のゲノム配列の組合せを含むマスタ参照配列を含む。更なる詳細及び参照配列情報は、任意の適切なデータベース、例えばＵＣＳＣゲノムデータベースやＮＣＢＩヒトゲノムリソースデータベースから得ることができる。これらのゲノム配列は、事実上完全とすることができ、又は事実上完全な上記に定められた原核生物ゲノム、真核生物ゲノム、若しくはウイルスゲノムの副部分を含んでも良い。

本発明の特定の実施形態では、参照ゲノムは、病気を患っていない被験者の遺伝子構成を示す標準ゲノム又は健康な被験者のゲノムとすることができる。部分的な参照ゲノムが使用される場合、そのゲノムは、部分的なゲノム配列内に含まれるゲノム領域に関連する病気を患っていない被験者の遺伝子構成を示す標準ゲノムであり得る。

更なる最終ステップでは、（ｉ）核酸標的の決定された配列と、（ｉｉ）参照ゲノム上でのその位置に関する情報との組合せが提供される。この組合せは、１つ又は複数の参照ゲノム位置指示に結び付けられる配列形式で、参照ゲノムに由来するゲノム配列位置データ表に結び付けられる配列形式で提供されても良い。

好ましい実施形態では、本発明は上記に定められたヌクレオチド配列データを提供する方法に関し、前述のプローブデータは、上記で定められた標的核酸分子のゲノム位置情報に結び付けられる前述の標的核酸分子の配列を決定する方法によって得ることができる参照ゲノム上での核酸標的の決定された配列の位置に関する情報を含み、参照ゲノム上の前述の位置に関する情報を参照ゲノムの対応する配列に相互に関係付けることにより予想配列が定められる。従って、前に概説された、標的核酸分子のゲノム位置情報に結び付けられる前述の標的核酸分子の配列を決定する方法によって得ることができる、（ｉ）核酸標的の決定された配列と（ｉｉ）参照ゲノム上でのその位置に関する情報との組合せに基づいて予想配列が定められても良く、この予想配列は、本明細書で言及される参照ゲノムから分子的に決定される配列に対応する配列を導き出す。参照ゲノムは、好ましくは病気を患っていない被験者の遺伝子構成を示す標準ゲノム又は健康な被験者のゲノムとすることができる。或いは、又はそれに加えて、知られているＳＮＰ（単一ヌクレオチド多型）又はＳＮＶ（構造的なヌクレオチドの変異体）において標準配列又は参照ゲノム配列と異なる配列を含む参照データベースからの分子的に決定される配列に対応する配列を導き出す、予想配列が定められても良い。そのような変異体配列は、例えばミスセンス変異、ナンセンス変異、単一ヌクレオチド多型（ＳＮＰ）、コピー数多型（ＣＮＶ）、スプライシング多型、調節配列の変異、小さな欠失、小さな挿入、小さな挿入欠失、大きな欠失、大きな挿入、複雑な遺伝子再配列、染色体間再配列、染色体内再配列、ヘテロ接合性の消失、リピートの挿入、リピートの削除を含む群から選択される病気又は疾患に特有のシグニチャデータを含むことができ、又はかかるシグニチャデータを追加で含むことができる。更なる実施形態では、予想配列が複数種類の配列、例えば標準の又は健康な被験者のゲノム配列に加えて、前述のゲノム配列の知られている変異体を含む配列を含んでも良く、前述の変異体は好ましくは病気、病状、症状等に結び付けられる。

ステップＳ１８で、前処理ユニット１４が、第１のデータ表４４からゲノム位置を読み取ることにより、位置データ３４又はラベルデータを核酸断片のゲノム位置４８に変換する。第１のデータ表４４は、位置データ３４又はラベルデータ３４を関連するゲノム位置４８に結び付ける記録を含む。このステップにおいて前処理ユニット１４は、ゲノム位置４８及び関連する決定された配列３２を有するエントリを含む、中間ヌクレオチド配列データ５０を生成しても良い。例えば、データ表４４は、スポット２０のｘ及びｙ位置を含む参照表４４とすることができ、参照表４４を使用することによってｘｙ情報がゲノム位置４８に変換され得る。

ゲノム位置データ３６内のゲノム位置４８は、配列決定されたリード３０のゲノム位置を指定し又はコードする、配列決定されたリード３０に追加されるソフトウェアコードと見なされても良い。

ステップＳ２０で、前処理ユニット１４が、第２のデータ表４６から予想配列３８を読み取ることにより、ゲノム位置４８を予想配列３８に変換する。第２のデータ表４６は、ゲノム位置４８を関連する予想配列３８に結び付ける記録を含む。第２のデータ表４６も単純な参照表４６とすることができる。

或いは、前処理ユニット１４は、データベース４６内に記憶されている参照ヌクレオチド配列（例えば参照ゲノム）を用いて予想配列を決定しても良い。

ステップＳ２０の終りに、図２の方法と同様に強化されたヌクレオチド配列データ３６が形成される。

或る事例では、予想配列３８がヌクレオチドに関する識別子の配列を含み得る。

但しステップＳ１２又はステップＳ２０では、予想配列３８が１つの識別子の配列をコードする必要がないことに留意されたい。予想配列３８は、知られているＳＮＰ（単一ヌクレオチド多型）又はＳＮＶ（構造的なヌクレオチドの変異体）内で異なる予想配列群をコードすることができ、その結果、その群の全ての要素がステップＳ１４の直接比較によって最初に確認され得る。要約すると、予想配列は識別子の配列の変異体に関する情報を含むことができる。

既に述べたように、強化されたヌクレオチド配列データ３６は、予想配列３８又は予想配列３８へのリファレンスを含む。予想配列３８又はそのリファレンスは、基本の配列データ３０に追加されるソフトウェアラベル又はソフトウェアコードと見なされても良い。予想配列３８は、配列決定装置１０内で、具体的には前処理ユニット１４内で追加され得る。そのようにして、前処理ユニット１４は、配列決定された断片を捕捉したプローブを指定する出力を有することができる。

予想配列又はそのリファレンスを符号化するソフトウェアコードは、必ずしも４つのヌクレオチド（Ａ、Ｃ、Ｇ、Ｔ）に基づかなくても良く、他の文字、数字等に基づいても良い。

更なる実施形態によれば、前処理ユニット１４は、基本のヌクレオチド配列データ３０をデータ表４２又はデータ表４４と組み合わせることにより、強化されたヌクレオチド配列データを生成することができる。例えば前処理ユニット１４は、基本のヌクレオチド配列データ３０、及び位置データ３４を予想配列へのリファレンスに結び付けるデータ表４２、４４を含むファイル又はデータストリームを出力することができる。

図４Ａは、上記及び下記に記載の方法による性能向上を示す。本発明による手法の整列速度を評価するために、標的とされる配列決定実験を整列するのにかかる計算時間が、通常のアライナ（Bowtie、ＢＷＡ、及びＭＡＱ）の性能と比較された。これらの後者のアライナは事前のゲノム位置情報は使用せず、全ゲノムに対して整列する。図４Ａの図は、リード当たりの複製数（ｘ軸）に対する秒単位の計算時間（ｙ軸）を示す。各曲線は、Burrows-Wheelerアライナ（ＢＷＡ）５２、bowtieアライナ５４、実装されたNeedleman-Wunschアルゴリズム５６、及び最適化されたNeedleman-Wunschアルゴリズム（ＮＷｅｍ）５８の計算時間を示す。ＢＷＡ５２及びbowtie５４は全ヒトゲノムに対して整列しているのに対し、どちらのNeedleman-Wunschアルゴリズム５６、５８も位置情報を使用した。最適化された変異体５８は、厳密に一致しない配列を整列させる前に、文字列比較によって完全な一致の有無を確認した。これらの計算は、それぞれが１６ＧＢ、３２ＧＢ、又は６４ＧＢのランダムアクセスメモリと共に２個のIntel Xeon L5420クアッドコアＣＰＵを２．５ＧＨｚで利用する、２０６台のDell PowerEdge M600ブレードサーバにわたって分けられた１６４８コアのグリッド上で実行された。

図４Ａは、３Ｍｂの標的領域、５０塩基のリード長、１％の配列決定誤差、及び１０％の標的外リードでのかかる比較の結果を示す。これらの設定は、合計２６４，６１６の参照配列に相当する。Needleman-Wunschアルゴリズムの４つの異なる実装形態（ＮＷ、ＮＷｅｍ、ＮＷＢ、及びＮＷＢｅｍ）が使用された。見て分かるように、ＭＡＱがこの比較の中で使用されたアライナのうちで最も遅く、その計算時間はリードの冗長性にもよるが８，７１３秒から６９，７６８秒まで及ぶ。Burrows-Wheeler変換に基づく２つのアライナは、同じ計算をはるかに速く行い、それぞれ６６１秒〜９，４１９秒（ＢＷＡ、ＭＡＱより約６．８６倍速い）及び１５９秒〜２，７９１秒（Bowtie、ＭＡＱより約２２．９倍速い）必要とする。これらの結果は、Burrows-Wheeler変換に基づくアライナの整列速度に関する先の所見を裏付ける。それでもなお、位置情報を使用するNeedleman-Wunschアルゴリズムは著しく短い整列時間をもたらす。Bowtieに比べ、計算時間がＮＷでは約１．４倍短縮される（１０６秒〜１，９４９秒）一方で、ＮＷｅｍ（７３秒〜１，２４４秒）は約２．２という因数さえ得る。このゲインは、ＮＷＢ（３２秒〜４９１秒、即ちBowtieより５．７倍速い）及びＮＷＢｅｍ（３０秒〜４３０秒、即ちBowtieより約６．６倍速い）では更に増加する。結論として、事前情報を使用するために枝刈りされたNeedleman-Wunschアルゴリズムを適合させ、最も速い通常のアライナBowtieと比較する場合、５０塩基長の約５，３３０万のリードの総計算時間は４６．５分から約７分に短縮され得る。

図４Ｂ〜図４Ｄは、１塩基当たり１％の配列決定誤差の条件で、Needleman-Wunsch実装（ＮＷ）の２つ、つまり通常のNeedleman-Wunschと、直接文字列比較を用いることで更に改善されたNeedleman-Wunschアルゴリズムのバンドバージョン（ＮＷＢｅｍ）とを比較する、計算実験のより広範な比較を示す。図４Ａは、図４Ｂの小区分であり、３行目の３列目で見つけることができる。より広範な条件にわたって調査する場合、検査される一般のアライナのうちBowtie（□）が最も速いことを示し、検査されるあらゆるパラメータの組合せにおいてＭＡＱ（○）及びＢＷＡ（●）を凌いでいる。位置情報を使用することは依然として整列時間のかなりの短縮につながるが、ＮＷは（通常のNeedleman-Wunschアルゴリズムの時間計算量がＯ（ｍａｘ（ｎ，ｍ）３）であるので）より長いリード長について制限を示し、この制限は、整列行列の枝刈りによりＮＷＢｅｍによって克服される。

例えば図４Ｂでは、１００塩基長及び４０％の標的外リードにおいて、Bowtie（１６４秒〜２，７６５秒）及びＮＷ（１５秒〜２，７５０秒）が等しい水準で計算するのに対し、ＮＷＢｅｍはその両方を凌ぐ（３２秒〜４４７秒）。２５塩基のより短いリードを検討する場合、ＮＷ（４２秒〜５８３秒）及びＮＷＢｅｍ（２９秒〜３９６秒）のどちらもBowtie（１０６秒〜１，８５６秒）を凌ぐことができる。標的外リード量に関して、Bowtieでは整列時間が標的外リード量と負に相関するので独特な挙動を示すのに対し、他の全てのアライナの計算時間は正に相関する。厳密なマッチングの事前選択がより頻繁にスキップされ、従ってより多くのリードが規則正しく整列される必要があるので、このことは特にＮＷＢｅｍで明らかである。ＮＷは事前選択を行わず、従ってこの影響を受けないことを理解すべきである。従って、Bowtieは１００塩基及び０％の標的外リードの計算を１９３秒〜３，３７１秒で行い、その結果より遅いのに対し、上記に示された４０％の標的外リードの結果と比較された場合、ＮＷＢｅｍは若干短い時間（３２秒〜４４５秒）を要する。

図４Ｃには、３Ｍｂの標的領域に関するアライナの性能の結果が示されている。３Ｍｂの標的領域の場合、Bowtieと比較した場合、性能向上はＮＷでは約１．０から約４．３倍の間（平均：２．２±１．２）、ＮＷＢｅｍでは約５．０から約７．７倍の間（平均：６．８±０．８）で異なる。３００ｋｂの標的領域でも同様の結果が認められ得る（ＮＷ：２±０．９、ＮＷＢｅｍ：６．５±１．１）。

図４Ｄには、１００塩基長及び４０％の標的外リードにおける３０Ｍｂの標的領域での、１塩基当たり２％の配列決定誤差の影響に関する結果が示されている。１％の配列決定誤差（図４Ａ〜図４Ｃ参照）に比べ、ＮＷ（１５８秒〜２７５８秒）及びＮＷＢｅｍ（３３秒〜４６０秒）は殆ど影響を受けていないように見えるのに対し、Bowtie（１９６秒〜３，３１１秒）は約２０％長い計算時間を要する。従って、２％の配列決定誤差及び３０Ｍｂの標的領域では、ＮＷＢｅｍの平均ゲインがBowtieに比べ７．８±０．８まで増加するのに対し、３Ｍｂの標的領域ではＮＷＢｅｍの平均ゲインは８±０．８という因数にさえ達する。

更にBowtieと比較し、ＢＷＡは類似の挙動を示した一方で、ＭＡＱの性能は安定したままであった。予想されたように、処理されるリードの量がアライナの全てについて計算時間に最も大きい影響力を有し、本発明による方法はBowtie及びＢＷＡに似た挙動を示す。配列決定誤差のパーセンテージ（我々の検査では最大２％）は、一般的なアライナ（ＭＡＱを除く）の計算時間に影響を及ぼすのに対し、ＮＷ及びＮＷＢｅｍの両方の計算時間に対しては僅かな影響しかなかった。それでもこの速度向上は、予想配列に対する整列される配列の類似性による影響も出やすく、それはその類似性が厳密に一致する配列の数に影響するからである。従って、厳密なマッチングによる事前選択を使用するどちらの実装形態（ＮＷｅｍ及びＮＷＢｅｍ）も、強化における高特異性及び低い配列決定誤差の恩恵を受ける。

図５Ａは、結果として生じる整列速度の向上を示す更なる図を示す。図５Ａでは、３つの異なる大きさの標的領域（３００ｋｂ、３Ｍｂ、及び３０Ｍｂ）並びに全ゲノム（３．１Ｇｂ）の整列速度が比較されている。最後の３列はプローブの数を指す。図の中の最初の行は、標的の大きさ及び参照配列の数を示す。２行目はリードの数を示す。３行目は整列時間を示す。

図５Ａから、全ゲノムに対してではなく標的領域だけに整列させることが、最も大きい整列速度の向上を既にもたらし得ることが明らかになる。しかし、所謂標的法又は強化法のどれも十分に正確でない場合があるので、この手法を取ることは実際には不可能である。最良の策（「セレクタ手法」を使用する）でさえ９２％の特異性しか有さず（他の強化法の典型的な特異性は約６０％である）、リードの８％は標的領域から来ないことを意味する。これらのリードも標的領域に整列するように強制すること（標的領域だけに整列させる場合に行う）は、著しく許容できない量の誤差、即ち間違った正の一致を引き起こす。

一般的な強化方法を使用する場合、２つのクラスのリードが生成され、第１のクラスは標的領域内に起源を有する全てのリード（ＩＴＲと呼ばれる）から成り、第２のクラスは標的領域外に起源を有する全てのリード（ＯＴＲと呼ばれる）を含む。これらの全てのリードが専ら標的領域に整列される場合、その後の分析（例えばＳＮＰ呼び出し）に影響を及ぼす２つのあり得る誤差が生じる可能性がある。第１に、標的領域内に現在一意に整列するＯＴＲが、標的に対する一意に一致するリード（ＵＭＲ）として間違って分類され、そのように間違って分類される理由は、それらのＯＴＲが発生元ではない位置において整列するからである（タイプ１の誤差）。第２に、標的領域内に一意に整列するが、標的領域外でも１回又は複数回整列し、それは分析から除外される全てのリード（多重一致リード、ＭＭＲとして知られる）（ＩＴＲ及びＯＴＲ）も、ＵＭＲとして間違って分類される（タイプ２の誤差）。従って、実際には標的を絞った配列決定手法でさえ、整列が全ゲノムに対して行われる。

従って、事前情報であって、配列決定されている特定の断片をプローブがそれに基づいて捕捉した、事前情報を使用することに基づく方法しか、標的領域だけに整列させ、それにより図５Ａに示されている整列速度の向上を実現することを可能にし得ない。

従って、本発明によって想定されるのは、有利には本明細書に記載の標的を絞った配列決定のための強化方法に基づく、事前情報を使用することによる計算速度の向上である。図４Ａ〜図４Ｄでは、示されている整列アルゴリズムはダイナミックプログラミングに基づいており、事前知識を使用して各リードをゲノムの予想部分である本明細書に定める予想配列にマップする。計算速度の向上が合計９００のパラメータバリエーションについて調べられ、最も速いNeedleman-Wunsch実装（ＮＷＢＥｍ）をBowtieと比較したとき、３０Ｍｂの標的領域の平均６．２±０．８から、３Ｍｂの標的領域の平均８±０．８に及ぶことが認められた。

図５Ｂは様々なアライナのメモリ要件を示し、これらのメモリ要件は一様でなくても良く、大量のＲＡＭを有利にし、又はＭＡＱの場合、大量のリードを整列させるときに通常のアライナに必要である。ＮＷ及びＮＷＢｅｍは、３Ｍｂの標的領域からの約５００万のリードを整列させるときに他のアライナが計算を行うのに必要なメモリのごく一部（７．５％から１６．６％）しか必要としない。全体的な計算速度と組み合わせられたそのような低いハードウェア要件は、配列決定装置内に整列を含めることを可能にし、それにより配列データの後処理がもはや使われなくなることが当業者によって直ちに理解される。

本発明の特定の実施形態では、より高度でないハードウェアをもたらすために整列アルゴリズムが交換されても良い。従って本発明によって想定されるのは、標的を絞った配列決定における整列の労力を最小限にするために本明細書に記載の事前情報を使用することである。そのように整列の労力を減らすことで、大規模な計算設備を必要とすることなしに配列決定情報を臨床的に使用できるようになることが理解されるべきである。例えば、約５６００万のリードの標的を絞った再配列決定処理にとっての約７分以下の整列時間は、従来の配列整列方法に優る技術的優位性である。そのような方法は、特に臨床用途での配列決定にとって魅力的である。

強化された核酸データ３６、中間核酸データ５０、及びデータ表４２、４４、４６の実施形態が以下の図面に関して説明されている。

図６は、ＦＡＳＴＱ形式のリードのヘッダー６０を示す。ＦＡＳＴＱとは、Sanger instituteが提供しIlluminaソフトウェアによって使用される配列形式であり、系統的なヘッダー（識別子）６０を有する。ヘッダーは一意の機器名６２、フローセル行６４、フローセルレーン内のタイル番号６６、タイル内のクラスタのｘ座標６８、タイル内のクラスタのｙ座標７０、多重化サンプルのインデックス番号７２（インデクシングがない場合は０）、及び／１又は／２とすることができるペアのメンバー７４（ペアエンド又はメイトペアリードのみ）を含む。

バージョン１．４以降のIllumina pipelineのバージョンでは、多重ＩＤ７２について＃０の代わりに＃ＮＮＮＮＮＮを使用しているようであり、ＮＮＮＮＮＮは様々なサンプルにバーコード付けするために使用される多重タグの配列である。サンプルは全フローセルを満たすのに十分大きいので、多重タグは、マシンが自らの容量の一部でしか動作しないことを避けるために、同じ配列決定ランの中で複数のサンプルが使用される場合に使われる。

図７は、ヘッダー６０及び主部７８を有するＦＡＳＴＱ形式のリード７６を示す。主部７８は、特定のプローブのために配列決定ユニット１２によって生成されても良い識別子の配列３２を含む。

ここでは、一意の機器名６２がゲノム位置識別子４８によって置換されている。データ表４４（例えば図９、図１３を参照）内を検索するために、ｘｙ座標６８、７０が使用された。位置情報は、プローブがマイクロアレイ１８上に配置される場所のｘｙ座標６８、７０を含む。ｘｙ座標６８、７０は更に、配列を有する表４２（図１０に示す）を検索するために、及びそれに対して整列を行う対応する参照配列８０を選択するために使用されても良い。これは、プローブの位置／ゲノム上の参照位置に関する情報を識別子４８の中に含めることによって行われても良い。

図７のゲノム位置識別子４８は、遺伝子に関する識別子（ＥＮＳＧ０００００１１０７５６）、エクソンの開始位置（１８３１７５４６）、終了位置（１８３１７６６９）、及び染色体数（１１）を含む。

概して、ゲノム位置識別子４８はゲノム内の特定の位置又は領域を識別するように適合される。例えばゲノム位置識別子は、ゲノム内の関心領域を一意に識別するために、開始位置、終了位置、及び染色体数を含むことができる。この領域は或るエクソンとすることができるが、染色体外ＤＮＡを含めゲノム上の他のどこにあっても良い。ゲノムの特定の領域（例えば遺伝子）の識別子も、データ起源の可解性上の理由からゲノム位置識別子の中に含まれ得る。当然ながら、これらのパラメータの置換が使用されても良い。

ここでは及び以下では、参照配列８０の代わりに、完全な予想配列８０がそれぞれのリード７６、又は表４２、４４、４６内に符号化されても良いことに留意されたい。

図８は、ＦＡＳＴＡ形式のリード７６を示す。ＦＡＳＴＡ形式のリード７６は、１行記述（ヘッダー６０）で始まり、その後に配列データの行（主部７８）が続く。記述行６０は、第１の文字としての記号「＞」によって配列データ７８と区別され、同時に記号「＞」の後に続く文字列は、配列自体を識別するために及び任意選択的に更なる情報を提供するために使用される。

ヘッダー６０は、予想配列３８のゲノム位置識別子４８、この事例ではマイクロアレイ１８上の捕捉プローブのｘｙ座標も含む。ゲノム位置識別子４８は、ｘｙ座標６８、７０を使用することによりデータ表４４（例えば図９、図１３を参照）から読み取られている。

図９は、ｘｙ座標６８、７０を参照配列８０又は予想配列８０及びゲノム位置４８に関係付けている参照表４２、４４を示す。参照表４２、４４は、使用される参照配列８０又は予想配列８０の全てを含む多重エントリＦＡＳＴＡファイルとして実装される。図示の配列８０は全て同じエクソンに由来するが、エクソンを完全に対象として含むために５塩基シフトする。

図１０は、ｘｙ座標６８、７０を参照配列８０又は予想配列８０に直接関係付けている参照表４２を示す。

図１１は、図７に図示されているのと同様のＦＡＳＴＱ形式のリード７６を示し、この形式ではゲノム位置識別子４８が参照位置８２を含む。参照位置は、識別された関心のある標的配列（この場合はエクソン、図１２参照）からの一部／部分配列として、整列対象の参照配列８０を選択し始める開始塩基に印付けする。

図１２は、ゲノム位置４８を（参照位置８２から始まる）参照配列８０又は予想配列８０に関係付けているＦＡＳＴＡ形式の表４６を示す。表４６は、２つの記録又はエントリを含む。参照配列８０又は予想配列８０は、ヘッダー６０内に設けられる参照位置８２から始まり（図１１参照）、リードの長さ８４にわたってエクソン８６に及ぶ部分配列を全エクソン８６から取ることにより、表４６から読み取られても良い。図１２は、エクソンのゲノム位置に結び付く識別子に関する一例を示していることに留意すべきである。しかし、非エクソンのゲノム位置も可能である。

図１３は、ｘｙ座標６８、７０をゲノム位置４８に関係付けている参照表４４のエントリを示す。

図１４は、ゲノム位置４８を予想配列８０に関係付けている参照表４６のエントリを示す。又、参照配列の参照位置８２が、ゲノム位置４８及び予想配列８０に関係付けられている。

図１５は、一意の機器名６２が参照配列８０によって置換されているヘッダー６０を含むＦＡＳＴＱ形式のリード７６を示す。例えば、図１０の表４２から参照配列を読み取るためにｘｙ位置６８、７０が使用されていても良い。

図１６は、図１１のリードと同様のＦＡＳＴＱ形式のリード７６を示す。リード７６では、ゲノム位置識別子４８の後に、ゲノム位置４８に対応するエクソン８６内の予想配列の参照位置８２が続く。予想配列は位置８２から始まり、決定された配列７８の長さの後で終わる。図１６に示す事例では、５０塩基のリード長により、予想配列は塩基１７１〜２２０（最初の塩基＋リード長−１）までのエクソン８６の配列である。エクソン８６の配列は、図１４に示すようなデータベース又は表から決定され得る。

図１７は、ゲノム位置識別子４８の後に参照配列８０が続くＦＡＳＴＱ形式のリード７６を示す。

図１８は、ヘッダー６０内に符号化される参照位置８２を有する、図１６のリードと同様のＦＡＳＴＡ形式のリードを示す。

図１９は、ヘッダー６０内に符号化される参照配列８０を有する、図１７のリードと同様のＦＡＳＴＡ形式のリードを示す。

図２０は、ＦＡＳＴＡ形式で符号化され「Ｙ」によって符号化されるＳＮＰ９２を含む、ヌクレオチド配列９０の一例を示す。ゲノム位置４８は、塩基４７４７１０７２から塩基４７４７１８８５までの染色体１３上の遺伝子ＥＮＳＧ０００００１０２４６８の区分に関係する。

図２１は、図１４の表と同様の参照表４６を示す。図２１の表４６は、ゲノム位置４８を２つの参照配列８０に関係付ける。即ち、予想配列へのリファレンスは一意ではない。ＳＮＰ９２の２つのあり得る変異体９４が、別々の欄に列記されている。

図２２は、図１１のリードと同様のＦＡＳＴＱ形式のリード７６を示す。ゲノム位置４８及び参照位置８２を含むヘッダー内のリファレンスは、図２１の表４６により、ＳＮＰ９２に基づく予想配列の２つの変異体にマップされても良い。リード配列の変異体９４が「Ｔ」であることに留意されたい。

図２３は、上記に記載の捕捉プローブと標的核酸分子との間の相互作用／結合を示す。捕捉プローブは、捕捉された標的核酸断片のヘッドＨにとって相補的な部分Ａ、捕捉された標的核酸断片のテールＴにとって相補的な部分Ｂ、及び容易に識別可能な配列ラベルＬで作成される。区分Ｍは、Ａ又はＢの何れにとっても相補的でない標的核酸分子の中心部分を示す。

図２４は、上記に記載の本発明による捕捉プローブと標的核酸分子との間の相互作用過程の更なるステップを示す。上記に記載の通り、図２３に示す相互作用の後、容易に識別可能な配列ラベルＬにとって相補的な区分Ｃが生成され得る。

図２５は、本発明による捕捉プローブと標的核酸分子との間の相互作用過程の更なるステップを示す。図２４に示す相互作用の後、捕捉プローブが例えばローリングサークル増幅（ＲＣＡ）による増幅過程の間に除去されても良い。図２５は、捕捉された標的核のヘッドＨ、捕捉された標的核酸断片のテールＴ、標的核酸分子の中央部分Ｍ、及び容易に識別可能な配列ラベルＬにとって相補的な区分Ｃを含む、増幅されるテンプレートを示す。

図２６は、標的核酸断片の配列を決定するために実行され得る、ローリングサークル増幅（ＲＣＡ）、並びにその後の処理及び配列決定ステップの潜在的結果を示す。図２６Ａは、図２５に示されている核酸標的断片のローリングサークル増幅の潜在的結果を示し、区分Ａ’は図２５の区分Ｈにとって相補的であり、区分Ｌ’は図２５の区分Ｃにとって相補的であり、区分Ｂ’は図２５の区分Ｔにとって相補的であり、区分Ｒは図２５の区分Ｍにとって相補的である。図２６Ｂは、標的核酸ＲＣＡ産物の配列を決定する１つの可能な任意選択を示し、ＲＣＡ産物は例えば上記に記載されているように無作為に断片化されても良く、例えばＲ１の部分、Ｒ２の部分、並びに区分Ａ’、Ｌ’、及びＢ’を含む断片をもたらす。この断片は、好ましい実施形態ではプライマ、例えばＰ１及びＰ２として示されているプライマの助けによって配列決定され得る。特定の実施形態では、配列決定が重複するリードをもたらすことができ、従って区分Ｍ又は区分Ｒを完全に対象として含む。他の実施形態ではリードが重複しなくても良い。従って、リード長は予想される断片長に適合され得る。図２６Ｃは、標的核酸ＲＣＡ産物の配列を決定する更なる可能な任意選択を示し、ＲＣＡ産物は上記に記載の通り特に区分Ｌ’において断片化され、例えばＬ’の一部、Ｂ’、Ｒ、Ａ’、及びＬ’の更なる一部を含む断片をもたらす。この断片は、好ましい実施形態では例えばＬ’、Ａ’、及び／又はＢ’から開始して配列決定され得る。図２６Ｄは、標的核酸ＲＣＡ産物の配列を決定するための更に別の可能な任意選択を示し、上記に記載したようにＲＣＡ産物は断片化されない。この核酸分子は、好ましい実施形態では例えば区分Ｌ’及び／又はＢ’から開始して配列決定され得る。

要約すると、予想配列へのリファレンスは、予想配列自体、ゲノム位置、及び／又は参照配列とすることができる。リファレンスは、ゲノム位置、及びゲノム位置に関連する予想配列の開始位置とすることができる。リファレンスは、ゲノム位置及び参照配列、例えば本明細書で定められる参照ゲノム配列とすることができる。又、リファレンスは一意である必要はなく、即ちリファレンスは複数の予想配列、とりわけ予想配列の変異体に結び付き又はそれを指しても良い。

更に、ヌクレオチド配列データは、ＦＡＳＴＱ形式又はＦＡＳＴＡ形式で符号化され得る。ヌクレオチド配列データが同様に符号化され得る、ＥＭＢＬやＧＣＧなどの他の形式もある。

要約すると、捕捉（ハイブリダイゼーション）アレイ又はビードからのプローブ情報が、配列決定リードの整列手順に使用され得る方法及びシステムが提案される。そうすることは、整列時間を約１時間から約１分に短縮でき、整列の誤差を減らすことができる利点を有し得る。

このことは、配列決定が診療所内で日常的に使われるようにすることを可能にするために重要であり得る。精度の向上（臨床的応用では極めて重要であり得る）とは別に、このことは、十分な物質が除去されているかどうかを確かめるために癌手術中に切除端を分析することなど、診療所内でのＤＮＡ配列決定の新規の応用を可能にすることができる。

（癌性の）生検の配列決定処理の分析を完了するのにかかる時間が５時間以下に短縮され得るので、病院での新たな作業の流れが可能にされる場合があり、ひいては生検が取られたのと同じ日に生検の結果を患者に与えることを可能にする。

最終的な（ソフトウェア）分析でプローブ情報を使いたい場合、ソフトウェア出力内の、予想配列のリファレンスを用いたリードのソフトウェアラベリングは必須であり得る。具体的には、配列決定された断片がどのプローブから来たのかをソフトウェアが知らなければならない場合があるので、分析の速度及び精度を改善するために生命情報科学分析においてプローブ情報を保持できるようにしたい場合、ラベリングは必須であり得る。

ソフトウェアラベリングは、ゲノム内の正しい位置にリードを位置決めする問題を克服することができ、位置決めが今度ははるかに速い比較アルゴリズムによって行われ得るので、このことは全体的な検索時間を著しく短縮することができる。

リードにラベル付けするソフトウェアは事前情報をリードに追加し、リードは、ゲノム位置、予想配列、位置及びクオリティ情報を含み得るオブジェクトになる。この情報は、検索過程において参照表の中で使用されても良い。

本発明を図面及び上記の説明の中で詳細に解説し説明してきたが、かかる解説及び説明は限定的ではなく解説的又は例示的と解釈されるべきであり、本発明は開示した実施形態に限定されない。開示した実施形態に対する他の改変形態が、図面、本開示、及び添付の特許請求の範囲を検討することにより、特許請求の範囲に記載の本発明を実施する際に当業者によって理解され、果たされ得る。特許請求の範囲では、「含む」という語は他の要素又はステップを排除せず、不定冠詞「a」又は「an」は複数形を排除しない。或る手段が互いに異なる従属請求項の中で列挙されているという単なる事実は、これらの手段の組合せが有利に使用されてはならないことを示すものではない。特許請求の範囲の中の如何なる参照符号も、範囲を限定するものとして解釈されるべきでない。

本発明の更なる実施形態は以下の内容に関する。

１．ヌクレオチド配列データ（３６）を提供する方法であって、
核酸の断片のヌクレオチドに関する決定された識別子の配列（３２）と核酸の断片を捕捉した捕捉プローブのプローブデータ（３４）とを含む基本のヌクレオチド配列データ（３０）を受け取るステップと、
プローブデータ（３４）と予想配列（３８）とを相互に関係付ける情報を用いてプローブデータ３４を予想配列（３８）に変換することにより、核酸の断片の予想配列（３８）を決定するステップと、
決定された識別子の配列（３２）及び予想配列（３８）へのリファレンスを含むヌクレオチド配列データ（３６）を出力するステップと
を含む、方法。

２．プローブデータ（３４）が位置データ（６８、７０）を含み、位置データを予想配列と相互に関係付けることによって予想配列（３８）が決定される、
実施形態１に記載の方法。

３．予想配列（３８）へのリファレンスが予想配列自体、参照配列内の予想配列のゲノム位置及び／又は開始位置を含み、且つ／又は
予想配列（３８）へのリファレンスが、予想配列（３８）の変異体に関するリファレンスでもある、
実施形態１又は２に記載の方法。

４．予想配列（３８）がデータ表（４２）から決定され、データ表がプローブデータと関連する予想配列とを結び付ける記録を含む、
実施形態１乃至３の何れか一つに記載の方法。

５．プローブデータ（３４）が、
第１のデータ表（４４）からゲノム位置を読み取ることにより、第１にプローブデータを核酸の断片のゲノム位置（４８）に変換するステップであって、第１のデータ表は、プローブデータを関連するゲノム位置に結び付ける記録を含む、変換するステップと、
第２のデータ表（４６）からリファレンスを読み取ることにより、第２にゲノム位置（４８）を予想配列のリファレンスに変換するステップであって、第２のデータ表は、ゲノム位置を予想配列への関連するリファレンスに結び付ける記録を含む、変換するステップと
によって変換される、
実施形態１乃至４の何れか一つに記載の方法。

６．予想配列（３８）がヌクレオチドに関する識別子の配列を含み、
予想配列が識別子の配列の変異体に関する情報を含む、
実施形態１乃至５の何れか一つに記載の方法。

７．決定された配列に対する予想配列（３８）の完全な一致がないか確認することにより、決定された配列（３２）を参照ヌクレオチド配列に整列させるステップ
を更に含む、実施形態１乃至６の何れか一つに記載の方法。

８．完全な一致が、識別子の予想配列（３８）に対する決定された識別子の配列（３２）の文字列比較によって確認される、
実施形態７に記載の方法。

９．予想配列に関して完全な一致が見つからない場合、通常の整列アルゴリズムを実行することにより、決定された配列（３２）を参照ヌクレオチド配列に整列させるステップ
を更に含む、実施形態７又は８に記載の方法。

１０．ヌクレオチド配列データが、ＦＡＳＴＱ形式、ＦＡＳＴＡ形式、ＥＭＢＬ形式、又はＧＣＧ形式で符号化される、
実施形態１乃至９の何れか一つに記載の方法。

１１．核酸サンプルのヌクレオチドの配列を決定するための方法であって、
それぞれが核酸の断片の特定配列を捕捉する、複数の捕捉プローブを提供するステップと、
核酸サンプルを断片化することによって生成される複数の核酸の断片と捕捉プローブをハイブリダイズするステップと、
核酸の断片を配列決定し、それにより核酸の断片ごとにヌクレオチドに関する識別子の配列（３２）を生成するステップと、
核酸の断片の識別子の配列（３２）を、核酸の断片を捕捉する捕捉プローブのプローブデータ（３４）に関連付けることにより、核酸の断片ごとに基本のヌクレオチド配列データ（３０）を生成するステップと、
基本のヌクレオチド配列データ（３０）に対して実施形態１乃至１０の何れか一つに記載の方法を実行することにより、核酸の断片ごとに強化されたヌクレオチド配列データ（３６）を生成するステップと、
核酸の断片ごとの強化されたヌクレオチド配列データ（３６）を関連する参照配列に整列させるステップと
を含む、方法。

１２．ヌクレオチド配列データを提供するためのプログラム要素であって、プロセッサによって実行されるとき、実施形態１乃至１１の何れか一つに記載の方法のステップを実行する、プログラム要素。

１３．実施形態１１に記載のヌクレオチド配列データを提供するためのプログラム要素が記憶される、コンピュータ可読媒体。

１４．核酸の断片のヌクレオチドに関する決定された識別子の配列（３２）と核酸の断片を捕捉した捕捉プローブのプローブデータ（３４）とを含む基本のヌクレオチド配列データ（３０）を生成し、
プローブデータ（３４）を予想配列（３８）と相互に関係付け、
決定された識別子の配列（３２）及び予想配列（３８）へのリファレンスを含むヌクレオチド配列データ（３６）を生成する、
配列決定装置（１０）。

１５．実施形態１乃至１１の何れか一つに記載の方法のステップを実行する、
実施形態１４に記載の配列決定装置（１０）。

Claims

ヌクレオチド配列データを提供する方法であって、
核酸の断片のヌクレオチドに関する決定された識別子の配列と、核酸の前記断片を捕捉した捕捉プローブのプローブデータとを含む基本のヌクレオチド配列データを受け取るステップであって、前記捕捉プローブの前記配列は核酸の前記断片の前記配列にとって少なくとも部分的に相補的であり、前記捕捉プローブの前記配列はハイブリダイゼーションによって核酸の前記断片を捕捉することができ、前記捕捉プローブの前記配列は予想配列と同じでない、受け取るステップと、
前記プローブデータと前記予想配列とを相互に関係付ける情報を用いて前記プローブデータを前記予想配列に変換することにより、核酸の前記断片の予想配列を決定するステップと、
前記決定された識別子の配列及び前記予想配列へのリファレンスを含む前記ヌクレオチド配列データを出力するステップと
を含む、方法。
前記プローブデータが位置データを含み、前記位置データを前記予想配列と相互に関係付けることによって前記予想配列が決定され、好ましくは前記位置データがマイクロアレイなどのマイクロキャリア上の前記捕捉プローブのｘｙ位置を含む、
請求項１に記載の方法。
標的核酸分子のゲノム位置情報に結び付けられる前記標的核酸分子の配列を決定するための方法であって、
前記標的核酸の一部にとって配列の点で相補的である２つの部分を含む捕捉オリゴヌクレオチドプローブを提供するステップであって、前記捕捉オリゴヌクレオチドプローブの前記部分は非標的相補的配列ラベル及び任意選択的に固定化成分によって分けられる、提供するステップと、
前記捕捉オリゴヌクレオチドプローブを、核酸分子を含むサンプルとハイブリダイズするステップであって、前記核酸分子は前記捕捉オリゴヌクレオチドプローブにとって少なくとも部分的に相補的である配列を含む、ハイブリダイズするステップと、
前記捕捉オリゴヌクレオチドプローブ−標的核酸錯体を固相上に任意選択的に固定化するステップと、
非結合核酸分子を前記固相から任意選択的に除去するステップと、
前記核酸標的分子を、ポリメラーゼ活性を使用することによって環状化するステップと、
前記環状化された核酸標的分子を好ましくはローリングサークル増幅によって増幅するステップと、
前記増幅された核酸標的分子の前記配列を少なくとも２つのヌクレオチドの配列リードを生成することによって決定するステップと、
前記非標的相補的配列ラベルの前記配列を識別するステップと、
前記非標的相補的配列ラベルに隣接する前記捕捉オリゴヌクレオチドプローブの前記ヌクレオチド配列を識別するステップであって、任意選択的に３’及び５’の隣接配列が個々に識別される、識別するステップと、
参照ゲノム上の前記捕捉オリゴヌクレオチドプローブの前記配列の位置を識別するステップと、
（ｉ）前記核酸標的の前記決定された配列、及び（ｉｉ）参照ゲノム上での前記決定された配列の位置に関する情報の組合せを提供するステップと
を含む、方法。
前記プローブデータが、請求項３に記載の方法によって得ることができる、参照ゲノム上の前記核酸標的の前記決定された配列の前記位置に関する情報を含み、前記予想配列が、参照ゲノム上の前記位置に関する前記情報を、前記参照ゲノムの前記対応する配列と相互に関係付けることによって定められる、請求項１に記載の方法。
前記予想配列への前記リファレンスが前記予想配列自体、参照配列内の前記予想配列のゲノム位置及び／又は開始位置を含み、且つ／又は
前記予想配列への前記リファレンスが、前記予想配列の変異体に関するリファレンスでもある、
請求項１、２、又は４の何れか一項に記載の方法。
前記予想配列がデータ表から決定され、前記データ表がプローブデータと関連する予想配列とを結び付ける記録を含む、
請求項１、２、４、又は５の何れか一項に記載の方法。
前記プローブデータが、
第１のデータ表から前記ゲノム位置を読み取ることにより、第１に前記プローブデータを核酸の前記断片のゲノム位置に変換するステップであって、前記第１のデータ表は、プローブデータを関連するゲノム位置に結び付ける記録を含む、変換するステップと、
第２のデータ表から前記リファレンスを読み取ることにより、第２に前記ゲノム位置を前記予想配列の前記リファレンスに変換するステップであって、前記第２のデータ表は、ゲノム位置を予想配列への関連するリファレンスに結び付ける記録を含む、変換するステップと
によって変換される、
請求項１、２、又は４乃至６の何れか一項に記載の方法。
前記予想配列がヌクレオチドに関する識別子の配列を含み、
前記予想配列が前記識別子の配列の変異体に関する情報を含む、
請求項１、２、又は４乃至７の何れか一項に記載の方法。
前記決定された配列に対する前記予想配列の完全な一致がないか確認することにより、前記決定された配列を参照ヌクレオチド配列に整列させるステップ
を更に含む、請求項１、２、又は４乃至８の何れか一項に記載の方法。
前記完全な一致が、識別子の前記予想配列に対する前記決定された識別子の配列の文字列比較によって確認される、請求項９に記載の方法。
前記予想配列に関して完全な一致が見つからない場合、通常の整列アルゴリズムを実行することにより、前記決定された配列を参照ヌクレオチド配列に整列させるステップ
を更に含む、請求項９又は１０に記載の方法。
前記ヌクレオチド配列データが、ＦＡＳＴＱ形式、ＦＡＳＴＡ形式、ＥＭＢＬ形式、又はＧＣＧ形式で符号化される、
請求項１乃至１１の何れか一項に記載の方法。
核酸サンプルのヌクレオチドの配列を決定するための方法であって、
それぞれが核酸の断片の特定配列を捕捉する、複数の捕捉プローブを提供するステップと、
核酸サンプルを断片化することによって生成される複数の核酸の断片と前記捕捉プローブとをハイブリダイズするステップと、
核酸の前記断片を配列決定し、それにより核酸の断片ごとにヌクレオチドに関する識別子の配列を生成するステップと、
核酸の前記断片の識別子の前記配列を、核酸の前記断片を捕捉する前記捕捉プローブのプローブデータに関連付けることにより、核酸の断片ごとに基本のヌクレオチド配列データを生成するステップと、
前記基本のヌクレオチド配列データに対して、請求項１、２、又は４乃至１２の何れか一項に記載の方法を実行することにより、核酸の断片ごとに強化されたヌクレオチド配列データを生成するステップと、
核酸の断片ごとの前記強化されたヌクレオチド配列データを関連する参照配列に整列させるステップと
を含む、方法。
ヌクレオチド配列データを提供するためのプログラム要素であって、プロセッサによって実行されるとき、請求項１乃至１１の何れか一項に記載の方法のステップを実行する、プログラム要素。
核酸の断片のヌクレオチドに関する決定された識別子の配列と、核酸の前記断片を捕捉した捕捉プローブのプローブデータとを含む基本のヌクレオチド配列データを生成し、
前記プローブデータを予想配列と相互に関係付け、
前記決定された識別子の配列及び前記予想配列へのリファレンスを含むヌクレオチド配列データを生成し、
請求項１、２、又は４乃至１３の何れか一項に記載の方法のステップを好ましくは実行する、
配列決定装置。