JP2014518638A - ヌクレオチド配列データの提供 - Google Patents

ヌクレオチド配列データの提供 Download PDF

Info

Publication number
JP2014518638A
JP2014518638A JP2014514165A JP2014514165A JP2014518638A JP 2014518638 A JP2014518638 A JP 2014518638A JP 2014514165 A JP2014514165 A JP 2014514165A JP 2014514165 A JP2014514165 A JP 2014514165A JP 2014518638 A JP2014518638 A JP 2014518638A
Authority
JP
Japan
Prior art keywords
sequence
nucleic acid
data
probe
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014514165A
Other languages
English (en)
Other versions
JP2014518638A5 (ja
JP6265891B2 (ja
Inventor
デル ザーグ ピーター ジャン バン
ロニー アンベルグ
ウィルヘルムス フランシスカス ヨハネス ファルハーフ
ペーター ベイヤーレイン
ルネ ベッチャー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koninklijke Philips NV
Original Assignee
Koninklijke Philips NV
Koninklijke Philips Electronics NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koninklijke Philips NV, Koninklijke Philips Electronics NV filed Critical Koninklijke Philips NV
Publication of JP2014518638A publication Critical patent/JP2014518638A/ja
Publication of JP2014518638A5 publication Critical patent/JP2014518638A5/ja
Application granted granted Critical
Publication of JP6265891B2 publication Critical patent/JP6265891B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • C12Q1/6874Methods for sequencing involving nucleic acid arrays, e.g. sequencing by hybridisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/20Polymerase chain reaction [PCR]; Primer or probe design; Probe optimisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search

Abstract

配列決定装置は、配列決定装置10内の捕捉プローブのプローブデータ34と、プローブによって捕捉される核酸の断片の決定された識別子の配列32とを含む基本のヌクレオチド配列データ30を生成する。配列決定装置は、核酸の断片に関して予想される配列38へのリファレンスを含むデータによって強化される、強化されたヌクレオチド配列データ36を出力する。

Description

本発明は、核酸の配列決定及び生命情報科学の分野に関する。特に本発明は、ヌクレオチド配列データを提供する方法、核酸サンプルのヌクレオチドの配列を決定する方法、プログラム要素、コンピュータ可読媒体、及び配列決定装置に関する。
最近の配列決定技法は、大量のヌクレオチド配列を同時に決定できるようにする。典型的には、DNA又はRNA標的サンプルが機械技術若しくは酵素による技術によって断片化され、その後、基板(例えば反応室の壁、マイクロアレイ、又はマイクロキャリア/ビード)に付加され断片を捕捉可能なヌクレオチドリンカ分子により、個々の断片が基板に結合される。単一分子配列決定以外の技術では、PCRに基づく増幅ステップが続く。その後、ヌクレオチドは、基板に結合されるDNA又はRNAの断片ごとに段階的に取り入れられ、識別される。この過程は数回繰り返され、調査対象の標的サンプルの完全な配列を得るために個々の全ての断片の配列決定リードが整列される。
現在、標的を絞った再配列決定が配列決定分野内の標準手順になっており、それはかかる再配列決定が、臨床的に関連があり得るDNAの区分に配列決定を集中させることを可能にし得るからである。標的配列決定では、標的サンプルの特定の断片が特定の捕捉プローブによって捕捉される。配列決定の費用を節約できるのでこれは有利な場合があるが、生命情報科学の分析は、殆どの分析で優に1週間はかかる依然として非常に多くの時間と労力を必要とする過程であり得る。
国際公開第2010/097775A1号パンプレットでは符号化されたマイクロキャリアに捕捉オリゴヌクレオチドプローブが付加され、マイクロキャリアのコードは、オリゴヌクレオチドプローブの配列を識別する。配列の決定後、マイクロキャリア上のコードを決定することにより、捕捉オリゴヌクレオチドプローブのヌクレオチド配列が識別される。
断片が捕捉されているプローブの情報が使用される場合、生命情報科学の分析が行われ得る速度が加速される可能性がある。更に、そうすることで整列の誤差(従って出力される共通配列の誤差)も減らすことができ、それにより臨床上の要件を満たすのを助けることができる。
本発明の目的は、安価で、速く、且つ/又は信頼できる核酸配列決定方法を提供することであり得る。
この目的は、独立請求項の内容によって実現され得る。更なる例示的実施形態が従属請求項及び以下の説明から明らかになる。
本発明の第1の態様は、ヌクレオチド配列データを提供する方法に関する。
本発明の一実施形態によれば、この方法は、核酸の断片のヌクレオチドに関する決定された識別子の配列と核酸の断片を捕捉した捕捉プローブのプローブデータとを含む基本のヌクレオチド配列データを受け取るステップと、プローブデータと予想配列とを相互に関係付ける情報を用いてプローブデータを予想配列に変換することにより、核酸の断片の予想配列を決定するステップと、決定された識別子の配列及び予想配列へのリファレンスを含むヌクレオチド配列データを出力するステップとを含む。
即ち、ヌクレオチド配列データは、予想配列へのリファレンス又は予想配列自体を含むデータによって強化され得る。強化されたヌクレオチド配列データは、必ずしもプローブデータを含まないことが理解されるべきである。強化されたヌクレオチド配列データは、決定された配列及びリファレンスだけを含んでも良い。
例えばヌクレオチド配列データは、基本のヌクレオチド配列データ、及びプローブデータを予想配列へのリファレンスに相互に関係付けるデータ表を含み得る。
予想配列へのリファレンスは、予想配列及び/又は予想配列の最初の部分であり得る参照配列のゲノム位置を含み得る。リファレンスが予想配列自体であることも可能であり得る。とりわけリファレンスは、ゲノム識別子(例えば遺伝子又はエクソンの識別子)及び遺伝子又はエクソン内の予想配列の開始位置とすることができ、又はそれらを含むことができる。
ゲノム位置は特定のゲノム、例えばヒト参照ゲノム内の位置であり得ることを指摘しておかなければならない。挿入及び欠失により、2つの異なるゲノムの位置が同じでない場合がある。
概して、この方法はヒトゲノムだけでなく、例えば他の真核生物、病原微生物、又は細菌ゲノムにも適用可能である。又、この方法は癌性(人間)細胞のゲノムに適用されても良い。
整列アルゴリズム内で広い領域(全ゲノム)内の検索が狭い領域(標的領域)内の検索に置き換えられ得るので、強化されたヌクレオチド配列データにより整列過程が大幅に加速され得る。更に、順方向リード又は逆方向リードに関する配列の起点が確認されなくても良く、それはどのプローブが使用されており、従ってどの鎖から配列が生じるのかが知られている可能性があるからである。
要約すると、この方法を実行する配列決定装置は、ゲノム位置及び/又は予想配列を直接若しくは間接的にコードするヌクレオチド配列データを整列過程の前に生成するように適合され得る。予想配列へのリファレンスは、塩基呼出し/配列決定過程の前に、その間に、又はその後に、配列決定装置内で加えられても良い。
予想配列へのリファレンスは、予想配列を識別するように適合されるソフトウェア識別子(即ちコード、例えば数値、ソフトウェアラベル、又はソフトウェアコード)でも良い。具体的には、ゲノム位置がソフトウェア識別子内に暗号化され得る。そのような方法で、アルツハイマなどの病気の予測に関して反応し得るゲノムの部分について安全性を高めることができる。
予想配列へのリファレンスは、予想配列の変異体に対するリファレンスとすることもできる。予想配列へのリファレンスは一意である必要はないことに留意されたい。例えばリファレンスは、予想配列の遺伝的変異群を示しても良い。
本発明の一実施形態によれば、プローブデータが位置データを含み、位置データを予想配列と相互に関係付けることによって予想配列が決定される。例えば、位置データはマイクロアレイ上の捕捉プローブのx/y位置であり得る。但しプローブデータは、捕捉プローブが取り付けられるマイクロキャリアのラベル、例えばビードを含むことも可能である。本発明の好ましい実施形態では、プローブデータが、マイクロアレイなどのマイクロキャリア上の捕捉プローブのx/y位置を含む位置データを含み、位置データを予想配列と相互に関係付けることによって予想配列が決定される。
本発明の更なる態様は、
標的核酸の一部にとって配列の点で相補的である2つの部分を含む捕捉オリゴヌクレオチドプローブを提供するステップであって、捕捉オリゴヌクレオチドプローブの前述の部分は非標的相補的配列ラベル及び任意選択的に固定化成分によって分けられる、提供するステップと、
前述の捕捉オリゴヌクレオチドプローブを、核酸分子を含むサンプルとハイブリダイズするステップであって、前述の核酸分子は捕捉オリゴヌクレオチドプローブにとって少なくとも部分的に相補的である配列を含む、ハイブリダイズするステップと、
前述の捕捉オリゴヌクレオチドプローブ−標的核酸錯体を固相上に任意選択的に固定化するステップと、
非結合核酸分子を固相から任意選択的に除去するステップと、
前述の核酸標的分子を、ポリメラーゼ活性を使用することによって環状化するステップと、
前述の環状化された核酸標的分子を好ましくはローリングサークル増幅によって増幅するステップと、
増幅された核酸標的分子の配列を少なくとも2つのヌクレオチドの配列リードを生成することによって決定するステップと、
非標的相補的配列ラベルの配列を識別するステップと、
非標的相補的配列ラベルに隣接する捕捉オリゴヌクレオチドプローブのヌクレオチド配列を識別するステップであって、任意選択的に3’及び5’の隣接配列が個々に識別される、識別するステップと、
参照ゲノム上の捕捉オリゴヌクレオチドプローブの配列の位置を識別するステップと、
(i)核酸標的の決定された配列、及び(ii)参照ゲノム上でのその位置に関する情報の組合せを提供するステップと
を含む、標的核酸分子のゲノム位置情報に結び付けられる前述の標的核酸分子の配列を決定するための方法に関する。
好ましい実施形態では、本発明は上記に定めたヌクレオチド配列データを提供するための方法に関し、前述のプローブデータは、上記に定めた標的核酸分子のゲノム位置情報に結び付けられる前述の標的核酸分子の配列を決定する方法によって得ることができる、参照ゲノム上の核酸標的の決定された配列の位置に関する情報を含み、予想配列は、参照ゲノム上の前述の位置に関する情報を参照ゲノムの対応する配列と相互に関係付けることによって定められる。
本発明の更なる態様は、プロセッサによって実行されているときに上記及び以下に記載の方法のステップを実行するように適合される、ヌクレオチド配列データを提供するためのプログラム要素又はコンピュータプログラムに関する。
本発明の更なる態様は、かかるプログラム要素が記憶されるコンピュータ可読媒体に関する。コンピュータ可読媒体は、フロッピディスク、ハードディスク、USB(ユニバーサルシリアルバス)記憶装置、フラッシュメモリ、RAM(ランダムアクセスメモリ)、又はROM(読取専用メモリ)とすることができる。
本発明の更なる態様は配列決定装置に関する。
本発明の一実施形態によれば、配列決定装置が、核酸の断片のヌクレオチドに関する決定された識別子の配列と核酸の断片を捕捉した捕捉プローブのプローブデータとを含む基本のヌクレオチド配列データを生成し、プローブデータを予想配列と相互に関係付け、決定された識別子の配列と予想配列へのリファレンスとを含むヌクレオチド配列データを生成するように適合される。
配列決定装置は、上記のプログラム要素を実行するように適合される処理装置、例えば1個又は複数のプロセッサを含むことができる。配列決定装置は、記載のプログラム要素が記憶されるコンピュータ可読媒体を含むことができ、又はかかるコンピュータ可読媒体に接続されても良い。
上記及び以下で説明される方法の特徴は、上記及び以下で説明されるコンピュータ可読媒体、プログラム要素、及び配列決定装置の特徴である場合があり、その逆もあり得ることが理解されるべきである。
本発明は、診断上のDNA及びRNAの配列決定において、又は生命科学配列決定市場において適用可能であり得る。
本発明のこれらの及び他の態様が、以下に記載される実施形態から明らかになり、かかる実施形態を参照することで明らかにされる。
本発明の一実施形態による配列決定装置の概略図を示す。 本発明の一実施形態による、ヌクレオチド配列データを提供するための方法の流れ図を示す。 本発明の更なる実施形態による、ヌクレオチド配列データを提供するための方法の流れ図を示す。 リード冗長性に対する様々なアライナの整列速度の比較を示す。Bowtie、BWA、及びMAQは全ゲノムに対して整列し、Needleman-Wunsch実装は関連する参照配列に対して整列させるために位置情報を使用した。設定:標的サイズ3Mb、リード長50塩基、1%の配列決定誤差、10%の標的外リード。どちらの軸も対数目盛である。 様々なリード長、標的外リードのパーセンテージ、及びリード冗長性での様々なアライナの比較を示す。MAQ(○)、BWA(●)、及びBowtie(□)は全ゲノムに対して整列し、NW(+)及びNWBem(■)は関連する参照配列に対して整列させるために位置情報を使用した。設定:標的サイズ30Mb、1%の配列決定誤差。 様々なリード長、標的外リードのパーセンテージ、及びリード冗長性での様々なアライナの比較を示す。MAQ(○)、BWA(●)、及びBowtie(□)は全ゲノムに対して整列し、NW(+)及びNWBem(■)は関連する参照配列に対して整列させるために位置情報を使用した。設定:標的サイズ3Mb、1%の配列決定誤差。 様々なリード長、標的外リードのパーセンテージ、及びリード冗長性での様々なアライナの比較を示す。MAQ(○)、BWA(●)、及びBowtie(□)は全ゲノムに対して整列し、NW(+)及びNWBem(■)は関連する参照配列に対して整列させるために位置情報を使用した。設定:標的サイズ30Mb、2%の配列決定誤差。 本発明の一実施形態による、整列速度の向上を示す更なる図を示す。 約500万のリードを整列させるときの様々なアライナのRAM要件(MB)を示す図を示す。必要な物理メモリは、プログラムによって必要とされる全仮想メモリの一部である。設定:標的サイズ3Mb、20xリード冗長性、リード長50塩基、1%の配列決定誤差、10%の標的外リード。 ヌクレオチド配列データのリードのヘッダーを示す。 本発明の一実施形態によるヌクレオチド配列データのリードを示す。 本発明の一実施形態によるヌクレオチド配列データのリードを示す。 本発明の一実施形態による表を示す。 本発明の一実施形態による表を示す。 本発明の一実施形態によるヌクレオチド配列データのリードを示す。 本発明の一実施形態による表を示す。 本発明の一実施形態による表を示す。 本発明の一実施形態による表を示す。 本発明の一実施形態によるヌクレオチド配列データのリードを示す。 本発明の一実施形態によるヌクレオチド配列データのリードを示す。 本発明の一実施形態によるヌクレオチド配列データのリードを示す。 本発明の一実施形態によるヌクレオチド配列データのリードを示す。 本発明の一実施形態によるヌクレオチド配列データのリードを示す。 ヌクレオチド配列の変異体の一例を示す。 本発明の一実施形態による表を示す。 本発明の一実施形態によるヌクレオチド配列データのリードを示す。 捕捉プローブと標的核酸分子との間の相互作用/結合を示す。捕捉プローブは、捕捉された標的核酸断片のヘッドHにとって相補的な部分A、捕捉された標的核酸断片のテールTにとって相補的な部分B、及び容易に識別可能な配列ラベルLで作成される。区分Mは、A又はBの何れにとっても相補的でない標的核酸分子の中心部分を示す。 本発明による、捕捉プローブと標的核酸分子との間の相互作用過程の更なるステップを示す。図23に示す相互作用の後、容易に識別可能な配列ラベルLにとって相補的な区分Cが生成される。 本発明による、捕捉プローブと標的核酸分子との間の相互作用過程の又更なるステップを示す。図24に示す相互作用の後、捕捉プローブが例えばローリングサークル増幅(RCA)による増幅過程の間に除去される。図25は、捕捉された標的核のヘッドH、捕捉された標的核酸断片のテールT、標的核酸分子の中央部分M、及び容易に識別可能な配列ラベルLにとって相補的な区分Cを含む、増幅されるテンプレートを示す。 標的核酸断片の配列を決定するために必要な、ローリングサークル増幅、並びにその後の処理及び配列決定ステップの潜在的結果を示す。 図25に示されている核酸標的断片のローリングサークル増幅の潜在的結果を示し、区分A’は図25の区分Hにとって相補的であり、区分L’は図25の区分Cにとって相補的であり、区分B’は図25の区分Tにとって相補的であり、区分Rは図25の区分Mにとって相補的である。 標的核酸RCA産物の配列を決定する1つの任意選択を示し、RCA産物は無作為に断片化され、R1の部分、R2の部分、A’、L’、及びB’を含む断片をもたらす。この断片は、プライマP1及びP2の助けによって配列決定され得る。配列決定は重複するリードをもたらすことができ、従って区分M又は区分Rを完全に対象として含む。 標的核酸RCA産物の配列を決定する更なる任意選択を示し、RCA産物は特に区分L’において断片化され、L’の一部、B’、R、A’、及びL’の更なる一部を含む断片をもたらす。この断片は、例えばL’、A’、及び/又はB’から開始して配列決定され得る。 標的核酸RCA産物の配列を決定するための更に別の任意選択を示し、RCA産物は断片化されない。この核酸分子は、例えばL’及び/又はB’から開始して配列決定され得る。
図1は、配列決定装置又はシステム10の概略図を示す。配列決定装置10は、配列決定ユニット12、前処理ユニット14、及び整列ユニット16を含む。これらの3つのユニット12、14、16は、通信リンクを介して接続される別個の装置とすることができるが、1つの装置10のモジュールとすることもできる。具体的には、配列決定ユニット12及び前処理ユニット14が1つの装置を形成することができ、1つのハウジング内に位置しても良く、整列ユニット16は、装置12、14の出力を評価する更なるコンピュータ又はシステムとすることができる。
図1は、複数の部位又はスポット20を有するマイクロアレイ18を更に示す。各スポット20は、核酸断片の特定配列を捕捉するように適合される複数の同じプローブ分子、捕捉分子、又はオリゴヌクレオチドを含む。とりわけ捕捉プローブは、ゲノムの標的領域から核酸断片を捕える(又はハイブリダイズする)ように適合されても良い。ゲノムの或る区分を標的にするために使用される捕捉プローブは、標的領域だけに固有であるべきであり、さもなければ標的領域外の断片が捕捉される可能性がある。
或いは装置10は、捕捉プローブが取り付けられる複数のマイクロキャリア20を有する、基板18を受け取るように適合される。マイクロアレイ18又はマイクロキャリア20には、ユニット12によって読まれても良いラベル(例えばバーコード)が与えられても良い。例えばマイクロアレイ18のスポット20は、スポット20内のプローブについて符号化するラベルを有することができる。
核酸サンプルに関するヌクレオチド配列を決定するために、核酸サンプルが核酸の断片へと分割され、それらの断片はその後、PCRによって増幅され、スポット20に接触して又はマイクロキャリア20の近くに配置され得る。次いで、捕捉プローブが核酸の断片とハイブリダイズする。
その後、核酸の断片を配列決定する配列決定ユニット12内に、基板18又はマイクロアレイ18が入れられる。例えば、蛍光基を有するヌクレオチドが核酸の断片に結合され、蛍光基によって発せられる光を検出することによりヌクレオチドの配列が決定されても良い。これは配列決定ユニット12のコントローラによって行われても良く、コントローラは最終的にヌクレオチドに関する識別子の配列32(図2参照)を核酸断片ごとに生成する。
配列決定装置10の動作については、図2及び図3に関して更に説明する。
図2は、強化されたヌクレオチド配列データ36を提供する方法の流れ図を示す。
ステップS10で、配列決定ユニット12が、核酸断片の識別子の配列32を、核酸の断片を捕捉するように適合される捕捉プローブのプローブデータ34に関連させることにより、核酸断片ごとに基本のヌクレオチド配列データ30を生成する。プローブデータは、捕捉プローブがその中に位置するスポット20のx位置及びy位置を符号化し得る位置データ34を含んでも良い。但し、プローブデータはマイクロキャリア20のラベルも含むことができる。以下の内容では、位置データを用いる実施形態を示す。しかし以下の実施形態では、位置データがラベルデータに置き換えられても良い。
本発明の特に好ましい実施形態では、位置データが基板上の捕捉プローブのx/y位置を含み、基板は、プローブが結合することができ又は結合されても良いマイクロアレイや別の基板などの、マイクロキャリアとすることができる。
概して、基本のヌクレオチド配列データ30(更に、強化されたヌクレオチド配列データ36及び中間ヌクレオチド配列データ50(下記参照))は、複数のリードを含むことができ、リードとは、核酸の1つの断片に関連付けられるヌクレオチド配列データ30、36、50内の記録又は区分であり得る。つまり1つのリードは、プローブデータ及び核酸の1つの断片の決定された配列を含むことができる。
各リードは、ヘッダーと主部を含むことができる。ヘッダーは、プローブデータ34を含むことができ、主部は、決定された識別子の配列32を含むことができる。主部は、配列データ、即ち決定された配列のクオリティ情報も含むことができる。
ヌクレオチド配列データ30、36、50はテキスト形式とすることができ、テキストファイル内に記憶され得る。リードはテキストファイル内のセクションとすることができる。例えば識別子の配列32は、DNAヌクレオチドの識別子A、C、G、Tを含むテキスト文字列とすることができる。本願の中の全ての識別子の配列は、実際の配列用のテンプレートである配列の例であることが理解されるべきである。
ステップS10の終りに、基本のヌクレオチド配列データ30が前処理ユニット14に出力される。
ステップS12では、基本のヌクレオチド配列データ30を受け取る前処理ユニット14が、核酸の断片ごとに強化されたヌクレオチド配列データ36を生成する。そうすることにより、配列決定装置10は、核酸の断片を捕捉した捕捉/ハイブリダイゼーションプローブによって入手可能な事前情報を使用することができる。基本のヌクレオチド配列データ30は、予想配列38又は予想配列38へのリファレンスによって強化され得る。予想配列38は、核酸の特定の断片の識別子の配列32について予想されるヌクレオチドに関する識別子の配列を含むことができる。例えば予想配列38は、捕捉プローブによって捕捉される上記の参照配列から始まり得る。捕捉プローブの配列は、核酸の断片の配列にとって少なくとも部分的に相補的であることを理解すべきである。つまり、参照ゲノム上のプローブ領域の配列に対応するプローブは、本明細書の上記で定めたように核酸の断片を捕捉することができる。従って、前述の捕捉プローブの配列は、核酸の断片をハイブリダイゼーションによって捕捉することができる。よって、ハイブリダイズした捕捉された断片の一部が、捕捉プローブの配列にとって少なくとも部分的に相補的であると予想されることが想像できる。捕捉断片の残りの部分は配列決定によって決定され、予想配列に等しく又はそれとほぼ同等であると予想される。
捕捉された断片の決定された配列と、本明細書に定める予想配列(38)との間の単一ヌクレオチド多型(SNP)など、変異体が生じ得ることが当業者によって直ちに理解される。従って、変異体を決定するために、捕捉プローブの配列ではなく捕捉された断片の決定された配列だけが、配列アラインメントによって予想配列と比較される。従って、捕捉プローブの配列は予想配列(38)と同じではないことが理解されるべきである。そのような配列アラインメントを実行できるようにするために、決定された各配列データ(リード)が、以下のように予想配列38によって強化され得る。
前処理ユニット14は、捕捉プローブの位置又はラベルと予想配列38とを相互に関係付ける情報を用いて位置データ34を予想配列38に変換することにより、核酸の断片の予想配列38を決定することができる。
具体的には、前処理ユニットは、位置データ34又はラベルデータ34を予想配列38に対して相互に関係付けるデータ表42を含むことができる。予想配列38は、位置データ34又はラベルデータ34と関連する予想配列38とを結び付ける記録を含むデータ表42から決定されても良い。データ表42内には、マイクロアレイ20上の捕捉プローブ又は特定のマイクロキャリア20に関連する捕捉プローブの配置が符号化され得る。例えばマイクロアレイ20はチップ又はバーコードのようなラベルを含むことができ、それらの中にはスポット20と、スポット20内の捕捉プローブに関連する参照配列又は予想配列38との間の関係が記憶され若しくは符号化される。前処理ユニットは、マイクロアレイ20からこの情報を読み取ることができ、この情報からデータ表42を生成しても良い。
しかし、データ表42が別の方法で生成されることも可能である。例えば常に同じ種類のマイクロアレイ20が使用される場合、データ表42が予め定められ、前処理ユニット14内に記憶されても良い。
ステップS12の終りに、強化されたヌクレオチド配列データ36が整列ユニット16に出力される。強化されたヌクレオチド配列データ36は、決定された識別子の配列32及び予想配列38又は予想配列へのリファレンスを含む。ヌクレオチド配列データ36は、必ずしも位置データ34又はラベルデータ34を含まないことが理解されるべきである。
ステップS14及びS16で、整列ユニット16が、核酸の断片ごとの強化されたヌクレオチド配列データ36を、参照ヌクレオチド配列、例えばデータベース内に記憶されるゲノムの配列に整列させる。比較の結果40が、SNP呼出し及び/又はSNV(構造的なヌクレオチドの変異体)の決定に使用されても良い。
ステップS14で、決定された配列32に対する参照ヌクレオチド配列内の予想配列の完全な一致がないか確認することにより、整列ユニット16が決定された配列32を参照ヌクレオチド配列に整列させる。
概して、整列させることは、参照ヌクレオチド配列に対する決定された配列のマッピングであり得る。マッピングは、厳密なマッピング又はおおよそのマッピングとすることができる。ステップS14では、厳密なマッピングが求められる。例えば完全な一致は、識別子の予想配列38に対する決定された識別子の配列32の文字列比較によって確認されても良い。
ステップS14に関し、通常の整列アルゴリズムだけを実行する代わりに、決定された配列が予想配列に一致するかどうかを見るために文字列一致比較が最初に行われる場合、事前情報を用いて整列過程が改善され得る。これは、文字列一致比較が、より複雑なおおよその一致過程を用いる標準的な整列アルゴリズムよりも(ソフトウェア内で)はるかに速い過程だからである。更に、リードの殆どが参照に一致する。
ステップS16では、予想配列38に関して厳密な一致が見つからない場合、整列ユニットが通常の整列アルゴリズムを実行することにより、決定された配列32を参照ヌクレオチド配列に整列させる。ステップS16では、おおよその一致だけが見つかる可能性がある。
要約すると、整列過程の間、予想配列38が、完全な一致を得るためのステップS14の最初の確認によって使用されても良く、完全な一致が(例えば最初の配列決定リードの残りの10%について)見つからない場合、(完全な一致を得るために比較するよりもはるかに長い時間がかかり得る)通常の整列アルゴリズムの第2の実行によって使用されても良い。
図3は、強化されたヌクレオチド配列データ36を提供する方法の流れ図を示す。図3の方法は、前処理ユニット14によって実行されるステップS12が2つのステップ、S18及びS20に置き換えられている点で図2の方法と異なる。
図3に示す事例では、予想配列38への位置データ34の変換を実行するために、前処理ユニットが2つのデータ表44、46(又はデータ表44及びデータベース46)を使用することができる。図2の解に到達するために、データ表44、46は、x、y位置34又はラベルデータ34を予想配列38に直接関係付ける1つの表42に組み合わせられても良い。
図2と同様に、前処理ユニット16はマイクロアレイ18又はマイクロキャリア20からの情報を使用して、この情報に由来するデータ表44を生成することができる。データ表44が予め定められ、前処理ユニット16内に記憶されることも可能であり得る。
更なる態様では、本発明は、標的核酸分子のゲノム位置情報に結び付けられる前記標的核酸分子の配列を決定する方法に関する。この方法は、標的核酸の予想配列を決定するために使用され得る配列情報及び/又はプローブデータを提供し、前述のプローブデータ又は得られる配列情報は、プローブデータと予想配列とを相互に関係付ける追加情報の助けによって予想配列に変換される。プローブデータと予想配列とを相互に関係付ける追加情報は、配列ラベル、好ましくは人工的な配列ラベル、及び捕捉オリゴヌクレオチド上にある標的核酸配列に対応する隣接配列から得られても良い。
標的核酸分子のゲノム位置情報に結び付けられる前述の標的核酸分子の配列を決定するための前述の方法は、全般的な実施形態では、
標的核酸の一部にとって配列の点で相補的である2つの部分を含む捕捉オリゴヌクレオチドプローブを提供するステップであって、捕捉オリゴヌクレオチドプローブの前述の部分は非標的相補的配列ラベルによって分けられる、提供するステップと、
前述の捕捉オリゴヌクレオチドプローブを、核酸分子を含むサンプルとハイブリダイズするステップであって、前述の核酸分子は捕捉オリゴヌクレオチドプローブにとって少なくとも部分的に相補的である配列を含む、ハイブリダイズするステップと、
前述の核酸標的分子を、ポリメラーゼ活性を使用することによって環状化するステップと、
前述の環状化された核酸標的分子を好ましくはローリングサークル増幅によって増幅するステップと、
増幅された核酸標的分子の配列を少なくとも2つのヌクレオチドの配列リードを生成することによって決定するステップと、
非標的相補的配列ラベルの配列を識別するステップと、
非標的相補的配列ラベルに隣接する捕捉オリゴヌクレオチドプローブのヌクレオチド配列を識別するステップであって、任意選択的に3’及び5’の隣接配列が個々に識別される、識別するステップと、
参照ゲノム上の捕捉オリゴヌクレオチドプローブの配列の位置を識別するステップと、
(i)核酸標的の決定された配列、及び(ii)参照ゲノム上でのその位置に関する情報の組合せを提供するステップと
を含む。
本発明の特定の実施形態では、標的核酸分子のゲノム位置情報に結び付けられる前述の標的核酸分子の配列を決定するための方法が、
標的核酸の一部にとって配列の点で相補的である2つの部分を含む捕捉オリゴヌクレオチドプローブを提供するステップであって、捕捉オリゴヌクレオチドプローブの前述の部分は非標的相補的配列ラベル及び固定化成分によって分けられる、提供するステップと、
前述の捕捉オリゴヌクレオチドプローブを、核酸分子を含むサンプルとハイブリダイズするステップであって、前述の核酸分子は捕捉オリゴヌクレオチドプローブにとって少なくとも部分的に相補的である配列を含む、ハイブリダイズするステップと、
前述の捕捉オリゴヌクレオチドプローブ−標的核酸錯体を固相上に固定化するステップと、
非結合核酸分子を固相から除去するステップと、
前述の核酸標的分子を、ポリメラーゼ活性を使用することによって環状化するステップと、
前述の環状化された核酸標的分子を好ましくはローリングサークル増幅によって増幅するステップと、
増幅された核酸標的分子の配列を少なくとも2つのヌクレオチドの配列リードを生成することによって決定するステップと、
非標的相補的配列ラベルの配列を識別するステップと、
非標的相補的配列ラベルに隣接する捕捉オリゴヌクレオチドプローブのヌクレオチド配列を識別するステップであって、任意選択的に3’及び5’の隣接配列が個々に識別される、識別するステップと、
参照ゲノム上の捕捉オリゴヌクレオチドプローブの配列の位置を識別するステップと、
(i)核酸標的の決定された配列、及び(ii)参照ゲノム上でのその位置に関する情報の組合せを提供するステップと
を含む。
本明細書で使用するとき、「ゲノム位置情報」という用語は、標準化ゲノム配列マップ上の又は標準化ゲノム配列若しくは配列データベース内の開始地点及び方向(5’又は3’)を指す。従ってゲノム位置は、特定のゲノム、例えばヒト、高等真核、下等真核、細菌、ウイルス、又は植物の参照ゲノム内の位置であり得る。位置情報は、当業者が指示された位置の周りの又は前述の位置から始まる分子配列を推論可能なのと少なくとも同程度の情報を含むことができる。挿入、欠失、配列換、転移等の場合、或るゲノム内の位置は必ずしも、例えば同じ種若しくは人口集団の又は異なる種若しくは人口集団の更に別のゲノム内の同じ位置ではない場合がある。そのような違いは指示され、信号で伝えられ、可能な場合はオフセットデータ又は転移データの規定の対象にされても良い。位置情報は、当業者に知られているどんな適切な形式又は形態で存在しても良い。
本明細書で使用するとき、「捕捉プローブ」という用語は、特に相補的なヌクレオチド配列に結合するオリゴヌクレオチド分子(又はその一部)に関する。オリゴヌクレオチド分子は、例えばマイクロキャリア、例えばマイクロアレイなどの基板、ビード、又は他の任意の適切なエンティティ上に固定化されても良い。捕捉プローブは自由に移動可能としても良く、且つ/又はハイブリダイゼーション手順中の固定化を可能にする要素を含んでも良い。本発明の特定の実施形態では、捕捉プローブがフローセルなどの固相担体上に無作為に固定化されても良い。この担体は、例えば好ましくは高密度の、より好ましくは非常に高密度のポリアクリルアミド層を含むことができる。更なる詳細は当業者に知られており、又は補足情報を含むBentelyら, 2008, Nature, 456, 53-59などの適切な文献から得ることができる。上記で概説した標的核酸分子のゲノム位置情報に結び付けられる前述の標的核酸分子の配列を決定するための方法に照らして、捕捉プローブは好ましくは自由に移動可能なエンティティである。
本発明の特定の実施形態において、捕捉プローブは機能的に異なる区分を含むことができる。上記で概説した標的核酸分子のゲノム位置情報に結び付けられる前述の標的核酸分子の配列を決定するための方法に照らして、捕捉プローブが、標的配列核酸の一部にとって配列の点で相補的である少なくとも2つの部分を含むことが好ましい(例えば図23に示されている捕捉プローブの区分A及びBを参照されたい)。これらの部分の長さは一様でなくても良い。これらの部分は、例えば4ヌクレオチド又は4を上回るヌクレオチドの長さを有することができる。例えばこの部分は、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、若しくは80ヌクレオチド、又は示した値の間の任意の整数の長さを有することができる。この部分の好ましい長さは、約25から30ヌクレオチドの間、例えば25、26、27、28、29、30ヌクレオチドである。2つの部分は長さが同じでも、長さの違いを示しても良い。例えば一方の部分が、他方の部分の1000%、700%、500%、300%、200%、100%、80%、70%、60%、50%、40%、30%、又は20%の長さを有しても良く、逆の場合も同様である。
捕捉プローブ部分の文脈の中で使用するとき、「相補的」という用語は、対応する標的配列との全部分の相補性を指す。従って、全てのヌクレオチド塩基が同族のヌクレオチド(G−C、及びA−T)にハイブリダイズする場合、或る部分は標的配列にとって相補的であり得る。更なる実施形態では、相補性が部分的でも良い。そのような部分的相補性は、同族のヌクレオチドにハイブリダイズする結合部分のヌクレオチドの率、例えば約99%、98%、97%、96%、95%、94%、93%、92%、91%、90%、89%、88%、87%、86%、85%、84%、83%、82%、81%、80%、75%、70%、65%、60%、又は55%を含むことができる。この相補性は、結合部分の範囲しか標的配列に完全にハイブリダイズしないのに対し、更なる範囲又は区分はハイブリダイズせず又は部分的にしかハイブリダイズしないような部分的相補性でも良い。2つの部分(例えば図23に示されている部分A又はB)は、特定の実施形態では異なる相補度を有しても良く、例えば部分Aは99%、98%、97%、96%、95%、94%、93%、92%、91%、90%、89%、88%、87%、86%、85%の部分的相補性を有することができるのに対し、もう一方の部分、例えば部分Bは100%の相補度を有することができ、逆の場合も同様である。特定の実施形態では、両方の部分が100%の相補性を有することができ、又は100%未満の相補性を有しても良い。両方の部分が100%未満の相補性を有する場合、それらの部分は同程度の相補性を有しても、異なる程度の相補性を有しても良い。
本発明は、標的配列が捕捉プローブの結合部分と相補性の点で幾分異なる可能性を特に考える。その理由は、これらの違いが診断上重要である分子修飾又は突然変異、例えばSNP、挿入欠失等を反映する場合があり、好ましくは本明細書に記載の方法論に従って検出され得るからである。診断上重要であるそのような潜在的な分子修飾又は突然変異、例えばSNP、挿入欠失等の検出は、当然ながら標的核酸の隣接配列(例えば図23の説明図に示されている配列M)内でも可能であり、とりわけ考えられる。
標的核酸の一部にとって配列の点で相補的である捕捉オリゴヌクレオチドプローブ部分の配列は、核酸分子、例えば二本鎖ゲノムDNA分子の少なくとも同じ鎖上にあることが知られている標的配列の区分に対応するように選択されても良い。好ましくは、捕捉オリゴヌクレオチドプローブ部分の前述の配列は、標的配列内の相補的配列との間の距離が50000ヌクレオチド超、約50000ヌクレオチド、約40000ヌクレオチド、約30000ヌクレオチド、約25000ヌクレオチド、約20000ヌクレオチド、約15000ヌクレオチド、約10000ヌクレオチド、約9000ヌクレオチド、約8000ヌクレオチド、約7000ヌクレオチド、約6000ヌクレオチド、約5000ヌクレオチド、約4000ヌクレオチド、約3000ヌクレオチド、約2000ヌクレオチド、約1500ヌクレオチド、約1000ヌクレオチド、約900ヌクレオチド、約800ヌクレオチド、約700ヌクレオチド、約600ヌクレオチド、約500ヌクレオチド、約400ヌクレオチド、約300ヌクレオチド、約200ヌクレオチド、若しくは約100ヌクレオチド以下、又は示した値の間の任意の整数であり得るように選択されても良い。
標的核酸の一部にとって配列の点で相補的である捕捉オリゴヌクレオチドプローブ部分の配列は、標的核酸が例えば図23に示されているように南京錠式に結合されるように更に選択され、捕捉オリゴヌクレオチドプローブ上に配置されても良い。これは、相補的プローブ部分を(例えば図23の指示子A及びBに示されているように)適切な連鎖配列及び方向性で提供することによって達成され得る。これらの特徴は、特定のゲノム状況、例えば反復配列、配列変換等の存在に更に適合され得る。
標的配列内の結合部分の想定距離は、標的サンプルの成分又はその配合物により、特定の実施形態において反映され得る。原則的に、上記で説明した標的核酸分子のゲノム位置情報に結び付けられる前述の標的核酸分子の配列を決定するための方法に照らして使用される核酸サンプルは、任意の原料に由来し、又は任意の起源である任意の量の核酸を含む如何なるサンプルでも良い。サンプルは、好ましくは二本鎖又は一本鎖DNA若しくはRNA又はその両方、より好ましくは二本鎖DNAを含む。サンプルは、全ゲノムを含むことができ、又は例えば分割過程、分解過程、若しくは精製過程に通された後、全ゲノムの分画又は細分画を含んでも良い。そのような過程は当業者に知られている。サンプルは、原核生物サンプル、ウイルスサンプル、又は真核サンプルとすることができる。好ましくは、サンプルは真核サンプルである。サンプルは、例えば植物組織サンプル、下等真核サンプル、又は高等真核サンプルとすることができる。特定の実施形態では、哺乳動物原料由来、より好ましくはヒト原料由来のサンプルであり得る。この方法論に適したサンプル取得手順は当業者に知られている。
現在説明されている方法の中でサンプルが使用可能であるために、サンプルは、一本鎖にされ且つ/又は保たれなければならない。これは、当業者に知られている任意の適切な方法によって達成され得る。典型的には、DNA又は二本鎖核酸を含むサンプルは、融解温度、例えば60℃、65℃、70℃、80℃、90℃、又は95℃の温度まで、又はそれを上回る温度まで加熱され得る。核酸を一本鎖形式に保つために、塩溶液、例えばSCC及び/若しくはSDS、又は他の適切な緩衝剤、イオン、若しくは化合物が使用されても良い。この方法論に適した更なるサンプル調製法及び更なる詳細が当業者に知られており、Johanssonら, Nucleic Acid Research, 2011, 39(2), e8, 1-13などの適格な文献から得ることができる。
現在説明されている方法に使用可能であるために、サンプル内の標的核酸分子が断片化されなければならない。この説明の全体にわたって使用する用語「断片化」は、核酸分子の完全な又は本質的な劣化なしに核酸分子の破断、分裂、又は短縮をもたらす任意の活動を含むことを意味する。断片化は部位固有でも無作為でも良い。断片化は、例えば制限酵素やエンドヌクレアーゼを使用することにより又は(例えばEpicenter, Madison, WI, USAによって販売される、又はIlluminaによって販売されるNextera DNA Sample Preparation Kitに基づく)トランスポゾンにより、例えば酵素的に行われても良い。或いは断片化は、物理的な力に基づいて、例えば核酸分子を剪断し、超音波処理し、又は物理的に割ることによって行われても良い。適切な方法は当業者に知られている。好ましくは、断片化は酵素的に行われる。断片化過程には制限酵素又はエンドヌクレアーゼを使用することが特に好ましい。従って断片化は、例えば平均して50000ヌクレオチドごと、40000ヌクレオチドごと、30000ヌクレオチドごと、25000ヌクレオチドごと、20000ヌクレオチドごと、15000ヌクレオチドごと、10000ヌクレオチドごと、9000ヌクレオチドごと、8000ヌクレオチドごと、7000ヌクレオチドごと、6000ヌクレオチドごと、5000ヌクレオチドごと、4000ヌクレオチドごと、3000ヌクレオチドごと、2000ヌクレオチドごと、1500ヌクレオチドごと、1000ヌクレオチドごと、900ヌクレオチドごと、800ヌクレオチドごと、700ヌクレオチドごと、600ヌクレオチドごと、500ヌクレオチドごと、400ヌクレオチドごと、300ヌクレオチドごと、200ヌクレオチドごと、若しくは100ヌクレオチドごとに、又は示した値の間の任意の整数ごとに結合する(及び切断する)、標的核酸サンプル内の事前に決定可能な頻度で認識部位を有する制限酵素を選択することによって行われ得る。特定の実施形態では、考えられる断片長が、分析される遺伝情報の本質(identity)、即ち配列決定され又は標的とされる遺伝子若しくはゲノム部分に依存するようになされ得る。従って考えられる断片長は、遺伝子の大きさ、イントロンの有無及び数、エクソンの大きさ及び分布、染色体位置、単一の遺伝子又は遺伝子群が分析されるかどうかの問題等に応じて調節され得る。よって、特定の実施形態では、例えば1000ヌクレオチドから100ヌクレオチド、又は3000ヌクレオチドから500ヌクレオチドの範囲内のどちらかと言えば短い断片長を有することが有利であり得るが、他の実施形態ではより長い断片、例えば50000から30000ヌクレオチド又は30000から3000ヌクレオチド等の範囲内の断片を有することが有利な場合もある。そのような長い断片では、これらの方法が長いリード長を提供するので、例えばPacific Biosciencesによって販売されている即時単一分子技法、又はOxford Nanopore Technologiesによって開発されている(生物学的)ナノ細孔配列決定を利用することが有利である。当然ながら、長い距離を提供する更なる配列決定方法も本発明によって想定される。
特定の実施形態では、1、2、3、4、5、6、7、8、9、10若しくはそれ以上の異なる制限酵素又はエンドヌクレアーゼが、同時に及び/又は1つのサンプル若しくはサンプルアリコットと共に使用されても良い。制限酵素若しくはエンドヌクレアーゼの本質及び/又は制限酵素若しくはエンドヌクレアーゼの組合せが、標的核酸又は標的ゲノム内のそれらの結合モチーフの事前に決定され又は知られている頻度に従って選択されても良い。対応する情報は当業者に知られており、適切なテキスト又は製造会社の文書から得ることができる。制限酵素又はエンドヌクレアーゼを使用することは、物理的な力の使用、例えばDNAの剪断と更に組み合わせられても良い。
本発明の特定の実施形態では、断片化された標的核酸分子が1つ又は好ましくは複数のアリコット、例えば2、3、4、5、6、7、8、9、10、11、12、15、20又はそれ以上のアリコット内に与えられても良い。これらの様々なアリコットは、好ましくは様々な制限酵素若しくはエンドヌクレアーゼ、又は制限酵素若しくはエンドヌクレアーゼの様々な組合せで処理されても良く、又は同一の制限酵素若しくはエンドヌクレアーゼを用いて様々な条件下で処理されても良く、又はその両方とすることもできる。そのような様々な条件とは、例えば様々な酵素濃度、様々な培養期間、様々な培養温度、緩衝剤、イオン、又は付加成分の様々な濃度、阻害物の有無等であり得る。
本発明の特に好ましい実施形態では、好ましくは断片の末端において捕捉オリゴヌクレオチドプローブの両方の結合部分にとって相補的な配列を含む断片が生成されるように、示された条件並びに制限酵素又はエンドヌクレアーゼの本質及び組合せが選択され得る。従って、捕捉オリゴヌクレオチドプローブの結合部分の相補的領域の少なくとも1つが、断片化された標的核酸の5’末端又は3’末端に位置することが好ましい。捕捉オリゴヌクレオチドプローブの結合部分の相補的領域が断片の内部に位置する場合、対向する核酸の末端を作成するためにエキソヌクレアーゼを更に使用することが考えられ、そうすることにより標的核酸を環状化することが可能になる。
本明細書で使用するとき、「非標的相補的配列ラベル」という用語は、標的核酸分子にとって相補的ではない配列を指す。配列ラベルは、例えば分析されるエンティティ又は有機体のゲノム配列の中に無い人工配列を含むことができる。配列ラベルの長さは一様でなくても良く、約4ヌクレオチドから約500ヌクレオチドまで及ぶ。4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、若しくは80又はそれを上回るヌクレオチド長の配列ラベルを有することが好ましい。配列ラベルは、好ましくは約60ヌクレオチドの長さを有し得る。配列ラベルの配列は任意の無作為配列とすることができる。従って、配列ラベルは、異なるパラメータ及び/又はサンプルの脈絡に応じて異なり得る。配列ラベルは、例えば有機体のゲノムのGC含量、ゲノム内の特定の配列の可用性、ゲノム断片にハイブリダイズできる可能性、核酸の折り畳み又は構造上の特性、タンパク因子に結合する又はタンパク因子によって結合される特性、又は当業者に知られている他の任意の適切なパラメータに適合され得る。好ましい例では、配列ラベルが20のGと、その後に続く1、2、3、4、5以上のTと、その後に続く20のGを含み得る。或いは配列ラベルは、20のA又はTと、その後に続く5のC又はGと、その後に続く20のA又はTを含んでも良い。10のG又はCと、その後に続く5のT又はAと、その後に続く10のG又はCなどの更なる代替形態も考えられる。本発明によって想定される更なる例は、A、T、G、Cの何れか1つ、好ましくは1種類だけ、即ちA、T、G、Cだけを含む一方の側(例えば図23の部分Aの側)の5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50又は51以上のヌクレオチドと、任意選択的にその後に続くA、T、G、Cの何れか1つを含む1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30ヌクレオチドから成るコア区分と、任意選択的にその後に続くA、T、G、Cの何れか1つ、好ましくは1種類だけ、即ちA、T、G、Cだけを含む第2の側(例えば図23の部分Bの側)の5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50又は51以上のヌクレオチドとを含む。配列ラベル内のA、T、G、及びCの範囲、部分、又はモチーフの混合を含む更なる組合せも想定される。非標的相補的配列ラベルの構造及び配列は、有利には、隣接配列と非標的相補的配列ラベルとの間の境界、具体的には標的核酸にとって相補的な配列、例えば図23の配列A及び/又はBを区別するために使用され得る。典型的には、本明細書に記載の配列ラベルは、分析されるゲノム又は配列内で自然発生すべきでなく、即ち標的ゲノム又は配列内に包含されるべきでない。
本発明の更なる実施形態では、非標的相補的配列ラベルが、制限酵素又はエンドヌクレアーゼのための認識部位又はモチーフを含むことができる。認識部位又はモチーフは標的配列又は標的ゲノム内に存在しないことが好ましい。そのような認識部位は、例えばその配列が決定される有機体の参照ゲノムに関する情報に応じて設計されても良い。更なる可能性は、人工的な認識部位及び同族修飾された制限酵素を提供することを含む。本発明の更なる実施形態では、非標的相補的配列ラベルが、本明細書に記載の剪断力の使用時に配列ラベル内の破断の増加を可能にする、構造的に不安定な又は破断する傾向を示す配列若しくはモチーフを含み得る。
更なる実施形態では、非標的相補的配列ラベルがバーコード配列を更に含んでも良い。このバーコード配列は、任意の又は非自然的な如何なる配列、例えば人工配列でも良い。バーコード配列は、任意の適した長さ、例えば5ヌクレオチド長、6、7、8、9、10又はそれ以上のヌクレオチド長を有することができる。この配列は、例えばサンプルの起源、患者の起源、患者群の起源、臓器又は組織の出所等を識別するために診断上使用されても良い。
好ましい実施形態では、複数組の捕捉オリゴヌクレオチドプローブを使う配列決定手法に同一の非標的相補的配列ラベルが使用されても良く、それにより、決定された配列情報内の或る特定配列の場所だけを突き止めることによりラベルの識別が可能になる。更なる実施形態では、複数の、例えば2、3、4、5、6、7、8、9、又は10の非標的相補的配列ラベルが使用され得る。
更なる実施形態では、非標的相補的配列ラベルが、分析される患者、臓器提供者、組織起源等ごとに異なるべきであるバーコード配列と組み合わせられても良い。又、様々なラベル配列と様々なバーコード配列との組合せも可能である。
本明細書で言及される「固定化成分」とは、捕捉プローブを基板に結合するのに適した任意の部分を指す。そのような成分の例は、ビオチン、アビジン、ストレプトアビジン、アミン基等である。ビオチン成分を捕捉プローブ上に有することが好ましい。捕捉プローブは、固相又は基板上に位置するアビジン、ストレプトアビジン等によって効果的に結合され得る。本明細書でも想定される更なる代替的結合の可能性が当業者に知られている。
本願の全体にわたって使用される「ハイブリダイズ」という用語は、捕捉プローブ及び標的核酸分子の結合又は捕捉に関する。この結合の相互作用は、結合パートナーの環境内の条件に依存し且つ/又はかかる条件によって調整され得る。そのような条件は、緩衝剤の濃度、緩衝剤の成分、pH、ホルムアミドの有無及び濃度、1つ又は複数のイオン、とりわけカチオンの有無及び濃度、EDTAの有無及び濃度、1つ又は複数の塩、とりわけ塩化ナトリウムの有無及び濃度、結合環境の温度、相互作用の時間、液体運動及びその程度、相補的な相互作用の可能性、相互作用パートナーとの間の不一致の度合い等であり、及び/又はこれらから選択される。典型的なハイブリダイゼーションの状況では、環境が0%〜50%のホルムアミド、0.7〜1Mの塩化ナトリウム、3mM〜5mMのEDTA、好ましくは3.5mMのEDTA、及び任意選択的にSDS又はTween、例えば0.05%〜0.1%のTween 20又は0%〜1%のlawoylsarcoore(石鹸)を含み得る。ハイブリダイゼーションの温度は、例えば約40℃から75℃、例えば75℃、68℃、62℃、55℃、46℃等、又は時間間隔単位のこれらの温度の任意の組合せ、例えば75℃で20〜40分、その後68℃で20〜40分、その後62℃で20〜40分、その後55℃で20〜40分、その後46℃で20〜40分等に設定され得る。ハイブリダイゼーションのパラメータは、固定化ステップに応じて変えられても良い。
更なる特定の実施形態では、ハイブリダイゼーションが1つ又は複数の洗浄ステップを伴い、又はかかる洗浄ステップがハイブリダイゼーションの後に続いても良い。これらの洗浄ステップは、非結合核酸分子を除去することをもたらし得る。残っている核酸分子は、好ましくは捕捉オリゴヌクレオチド、つまり例えば固相又は基板上に結合される標的核酸複合体だけを含み、又はかかる捕捉オリゴヌクレオチドを本質的に含む。この実施形態では、上記に定めた捕捉プローブの固定化を、その後の非結合の除去、即ち(例えば固定化エンティティの結合によって)直接又は間接的に固定化されていない核酸分子若しくはその派生物の除去と組み合わせることが好ましい。
更なる代替的実施形態では、固定化成分の提供及び除去ステップによって実施される選択アプローチが、非標的相補的配列ラベル(例えば図23に示されている配列ラベルL)を含む核酸配列の選択によって行われても良い。この選択は、例えば前述の非標的相補的配列ラベルの有無に関する入手可能な配列情報をフィルタすることによる、計算的アプローチ又は生命情報科学的アプローチによって行われても良い。本発明の特定の実施形態では、利用可能な全ての核酸分子に関する配列情報が得られ(即ち固定化及び除去のステップが一切なくても良い)、その後、本明細書に定められる非標的相補的配列ラベルを得るために、ソフトウェア又は生命情報科学のフィルタリング若しくは検索による配列選択が続いても良い。それにより、利用可能な全ての配列リードの対応する部分群が得られても良く、この部分群は本明細書に記載の方法又はその一部に従って更に分析されても良い。
上記に記載の「環状化」ステップは、非標的相補的配列ラベルの存在によって引き起こされる隙間を閉じることに関する(図23も参照されたい)。そのような環状化ステップは、任意の適切な活動によって行われ得る。環状化は、ポリメラーゼ活性、例えばTaqポリメラーゼ、又はPfuポリメラーゼなどの任意のプルーフリーディングポリメラーゼによって行われることが好ましい。更なる適切なポリメラーゼ並びに適切な条件が当業者に知られており、Huebscherら, DNA Polymerases: Discovery, Characterization and Functions in Cellular DNA Transactions, 2010, 1st ed, World Scientific Publishing Coなどの適切な文献から得ることができる。
本発明の更なる実施形態では、環状化が標的核酸の端部を連結することによって行われ得る。この連結は、標的核酸の末端を直接連結することにより、又は標的核酸の末端を間接的に連結することにより行われ得る。間接的な連結は、本明細書に定める非標的相補的配列ラベルにとって相補的なオリゴヌクレオチドの結合、及び標的核酸端に対するオリゴヌクレオチド末端のその後の連結を含み得る。例えば完全に充填しない(non completely filling)オリゴヌクレオチドが使用される場合、この連結過程はポリメラーゼ活性と組み合わせられても良く、又はポリメラーゼ活性を更に含むことができる。
当技術分野で知られている任意の増幅手段を用いて、環状化された分子の増幅が行われても良い。好ましい実施形態では、増幅がプライマの助けによって行われ得る。特定の実施形態では、増幅が環状化ステップの直後に行われても良い。或いは、洗浄若しくは除去及び/又は抑制ステップが含まれても良い。従って、増幅は本質的にはPCR、RCA、又はMDA増幅とすることができる。ローリングサークル増幅(RCA)によって増幅を行うことが好ましい。RCAは、テンプレート配列の相補体の複数の複製を含む、線形の鎖状増幅産物をもたらす。RCA中に、捕捉オリゴヌクレオチドプローブが開始プライマとして使用されることが好ましい。或いは、様々な位置において結合し得る1つ又は複数の更なるプライマオリゴヌクレオチドが使用されても良い。RCAに使用される酵素は当業者に知られている。好ましくは、phi29ポリメラーゼがRCAに使用され得る。RCAの更なるパラメータ及び条件が当業者に知られており、且つ/又はJohanssonら, Nucleic Acid Research, 2011, 39(2), e8, 1-13などの適切な文献から得ることができる。
本発明の特定の実施形態では、ローリングサークル増幅(RCA)の後、鎖状RCA産物を分割し、分解し、又は断片化することが必要になる場合がある。その過程は任意の適切な手順に従って行われ得る。例えば、全RCA産物に沿った無作為の断片化が行われるように、鎖状RCA産物の断片化が行われても良い。これは、上記のように剪断力などの物理的な力を使うことによって実現され得る。特定の実施形態では、或る最小若しくは最大の断片長、又は或る平均断片長が得られるように剪断過程が調節されても良い。
更なる実施形態では、鎖状RCA産物の断片化が、本明細書に記載のように特に配列ラベル部分内のRCA産物を分割し又は破断することによって行われ得る(例えば図23の指示子Lを参照されたい)。そのような特定の分割は、例えば本明細書に定められる非相補的配列ラベル内の同族認識部位又はモチーフを有する、制限酵素又はエンドヌクレアーゼを使用することによって実現され得る。或いは、分割又は破断は、剪断や超音波処理などの物理的な力を加えたときに破断しやすい、例えば本明細書に定められる構造的に不安定な区分を含む配列ラベルに対して剪断力を用いることによって実現されても良い。
更に別の実施形態では、RCA産物が全く断片化されることなしに、或いは例えば上記の手順に従って鎖状体の一部だけが断片化されることによって使用されても良い。
更なるステップでは、増幅された核酸標的分子の配列が決定される。本明細書で使用するとき、「増幅された核酸標的分子の配列を決定する」という用語は、核酸配列決定反応の働きにより標的核酸の配列情報を決定する過程を指す。これらの方法は、核酸の分離、転移、精製、更なる増幅ステップなどの追加のステップを含む場合がある。そのような追加のステップが必要かどうか、及びどれが必要かは、実行される具体的な配列決定方法に依存し得る。本発明は、配列決定手法に関する製造業者のプロトコルに依存し、方法のステップを対応して修正することを想定する。増幅された核酸標的の配列の決定が、増幅産物の状態に適合されることが好ましい。RCA産物が存在する場合、RCA産物の断片化の状態、及び/又は上記に定められたRCA産物の断片化に使用される過程に応じて配列決定が調節されるべきである。従って、適合されたプライマ配列又は別の配列決定方法が使用され得る。それに応じてリード長が更に調節されても良い。例えばRCA産物が断片化されていない場合、より長いリードが必要とされ得る。
更に、配列決定、例えばマッピングの結果の分析も、RCA産物の断片化の状態、及び/又はRCA産物の処理若しくは断片化に使用される過程に応じて調節されるべきである。
配列決定の方法並びに対応する準備手順は当業者に一般に知られている。望ましいのは、次世代の配列決定方法又はハイスループットの配列決定方法である。例えば、配列はMPSS(Massively Parallel Signature Sequencing)によって決定されても良い。想定される配列方法の一例は、例えばRoche 454 Genome Sequencerに基づくパイロシーケンシング、とりわけ454パイロシーケンシングである。この方法では、油剤内の水滴の中でDNAを増幅し、各液滴は、クローンコロニーをその後形成する、単一プライマによって被覆されたビードに付加される単一のDNAテンプレートを含む。
パイロシーケンシングでは、発光酵素を用いて初期のDNAに加えられる個々のヌクレオチドを検出するための光を発生させ、配列読出しを生成するために組合せデータが使用される。更に想定される別の例は、可逆的ダイターミネータに基づくIllumina Genome Analyzer技術を使用することによるIllumina又はSolexa配列決定である。DNA分子は、典型的にはスライド上のプライマに付加され、局所的なクローンコロニーが形成されるように増幅される。その後、一度に一種類のヌクレオチドが追加されても良く、取り込まれなかったヌクレオチドが洗い落とされる。その後、蛍光標識されたヌクレオチドの画像が撮られても良く、ダイが化学的にDNAから除去され、次のサイクルを可能にする。更に別の例は、連結による配列決定を使用するApplied BiosystemのSOLiD技術を使用することである。この方法は、配列決定される位置に応じてラベル付けされる、固定長のあり得る全てのオリゴヌクレオチドのプールを使用することに基づく。そのようなオリゴヌクレオチドは、アニールされ連結される。その後、配列をマッチさせるためのDNA連結酵素による選択的連結が、典型的にはその位置におけるヌクレオチドの情報を提供する信号をもたらす。DNAは概してエマルジョンPCRによって増幅されるので、同じDNA分子の複製だけをそれぞれ含む結果として生じるビードはスライドガラス上に堆積されることが可能であり、Illumina配列決定に匹敵する量及び長さの配列をもたらす。更なる方法は、アレイにつながれるPolyTオリゴマーによって断片が捕捉されるHelicoのHeliscope技術に基づく。各配列決定サイクルにおいて、ポリメラーゼ及び単一の蛍光標識されたヌクレオチドが加えられ、アレイが撮像される。その後蛍光タグが除去され、サイクルが繰り返される。本発明の方法に包含される配列決定技法の更なる例は、ハイブリダイゼーションによる配列決定、ナノ細孔の使用による配列決定、鏡検に基づく配列決定技法、マイクロ流体サンガー配列決定、又はマイクロチップに基づく配列決定方法である。本発明によって想定される配列決定の更なる方法であって、長いリード長を提供する、更なる方法は、Pacific Biosciencesによって販売されている即時単一分子技法、又はOxford Nanopore Technologiesによって開発されている(生物学的)ナノ細孔配列決定である。本発明はこれらの技法の更なる発展、例えば配列決定の精度の更なる改善、有機体のゲノム配列の決定に必要なリード長又は時間の更なる改善等も想定する。
ゲノム配列、サブゲノム配列、又はその任意の部分、例えば単一の核酸断片のリードは、任意の適切な品質又は精度で得られても良い。好ましくは、得られるゲノム配列、サブゲノム配列、又はその一部が、10,000塩基、50,000塩基、75,000塩基、100,000塩基ごとに1件以下の誤差を有し得る。より好ましくは、得られるゲノム配列、サブゲノム配列、又はその一部が、150,000塩基、200,000塩基、又は250,000塩基ごとに1件以下の誤差を有し得る。本発明は、配列決定技術の改善による、より高い品質を有する配列の準備又は使用も想定する。従って本発明は、如何なる許容誤差又は範囲の制限にも制約されず、代わりに、適切な現代的配列決定技法に従って準備され得られる、標的配列の準備及び入手可能な配列情報の実装に焦点を当てる。配列決定の結果は任意の適切な形式、例えばFASTA形式やFASTQ形式で、当業者に知られている任意の適切な媒体、例えばハードドライブやソリッドステートデータ記憶域上に記憶されても良い。
この方法の更なるステップでは、非標的相補的配列ラベルに隣接する捕捉オリゴヌクレオチドプローブのヌクレオチド配列が識別される。識別は、先行するステップ内で得られる、例えばFASTA形式又はFASTQ形式で提供される配列データに基づいて行われても良い。識別は、本質的には配列データ内で上記の非標的相補的配列ラベルを検索することを含み得る。前述の配列ラベルを見つけた後、隣接配列が識別され得る。本明細書で使用するとき、「隣接配列」という用語は、増幅産物から得られる配列データ内の非標的相補的配列ラベルに対して3’及び/又は5’である配列に関する。これらの隣接配列は、捕捉オリゴヌクレオチドプローブの相補的な部分の長さに対応する長さを有し得る。これらの隣接配列の配列に加え、それらの位置又は方向性に関する情報、即ち非標的相補的配列に関して5’配列か3’配列かの情報が取得されても良い。従って、本発明の特定の任意選択的実施形態では、3’配列及び/又は5’配列が個々に識別される。「個々に識別される」という用語は、非標的相補的配列ラベルに対する3’配列の位置が5’配列に関する情報とは独立に決定され、非標的相補的配列ラベルに対する5’配列の位置が3’配列に関する情報とは独立に決定されることを意味する。好ましい実施形態では、隣接配列3’及び5’の両方が得られ、非標的相補的配列ラベル及びそれぞれに対する位置が決定される。
更に別のステップでは、参照ゲノム内の配列の位置を識別するために、捕捉オリゴヌクレオチドプローブの相補的な部分を含む隣接領域の識別済み配列が使用されても良い。本明細書で使用するとき、「参照ゲノム」とは、識別された配列データ又は核酸断片リードと同一の若しくは類似の範囲を対象として含む任意の適切な既存のゲノム配列とすることができる。本発明の好ましい実施形態では、参照配列は事実上完全な真核生物のゲノム配列である。本発明の更に別の実施形態では、前述の参照配列は事実上完全なウイルスゲノム配列である。真核生物のゲノム配列の例は、NCBIの微生物ゲノムプロジェクトデータベースから提供され又は得ることができる細菌ゲノム配列である。更なる詳細は、McNeil LKら, The National Microbial Pathogen Database Resource (NMPDR): a genomics platform based on subsystem annotation, Nucleic Acids Res., 2007; 35 (Database issue): D347-53から得ることができる。真核生物のゲノム配列の例は、NCBIのBioProject又はGenomeProjectデータベース、例えば1000 Genomes project(http://www.ncbi.nlm.nih.gov/bioproject/61209)又はENCODE project(http://www.ncbi.nlm.nih.gov/bioproject/30707)からのデータも含み得る、http://www.ncbi.nlm.nih.gov/ bioprojectの下で提供されるデータベースから提供され又は得ることができる。ウイルスゲノム配列の例は、NCBIのウイルスゲノムリソースデータベースから、又はBelshaw Rら, The RNA Virus Database, Nucleic Acids Res., 2009; 37 (Database issue): D431-D435から提供され若しくは得ることができる。更に好ましいのは動物のゲノム配列、例えば家庭内動物又は家畜、例えば猫、犬、羊、牛、豚、鶏、猿、ネズミ、ハツカネズミのゲノム配列である。更なる実施形態では、ゲノム配列が植物のゲノム配列、例えばトウモロコシ、ポテト、小麦、モロコシ、米、綿、大麦、カノーラ、キュウリ、大豆、桃、トマト、パパイヤなどの農作物や果物、又はシロイヌナズナやミナトカモジグサなどの研究モデル植物のゲノム配列である。更なる詳細及び参照配列情報は、任意の適切なデータベース、例えばPlantGDBデータベースから得ることができる。特に好ましいのはヒトゲノム配列である。例は人種特有のゲノム配列、例えば白人のゲノム配列、アフリカ人のゲノム配列、アジア人のゲノム配列等である。更なる例は、被験者特有のゲノム配列又はその共通配列、例えば個々のゲノム配列の組合せを含むマスタ参照配列を含む。更なる詳細及び参照配列情報は、任意の適切なデータベース、例えばUCSCゲノムデータベースやNCBIヒトゲノムリソースデータベースから得ることができる。これらのゲノム配列は、事実上完全とすることができ、又は事実上完全な上記に定められた原核生物ゲノム、真核生物ゲノム、若しくはウイルスゲノムの副部分を含んでも良い。
本発明の特定の実施形態では、参照ゲノムは、病気を患っていない被験者の遺伝子構成を示す標準ゲノム又は健康な被験者のゲノムとすることができる。部分的な参照ゲノムが使用される場合、そのゲノムは、部分的なゲノム配列内に含まれるゲノム領域に関連する病気を患っていない被験者の遺伝子構成を示す標準ゲノムであり得る。
更なる最終ステップでは、(i)核酸標的の決定された配列と、(ii)参照ゲノム上でのその位置に関する情報との組合せが提供される。この組合せは、1つ又は複数の参照ゲノム位置指示に結び付けられる配列形式で、参照ゲノムに由来するゲノム配列位置データ表に結び付けられる配列形式で提供されても良い。
好ましい実施形態では、本発明は上記に定められたヌクレオチド配列データを提供する方法に関し、前述のプローブデータは、上記で定められた標的核酸分子のゲノム位置情報に結び付けられる前述の標的核酸分子の配列を決定する方法によって得ることができる参照ゲノム上での核酸標的の決定された配列の位置に関する情報を含み、参照ゲノム上の前述の位置に関する情報を参照ゲノムの対応する配列に相互に関係付けることにより予想配列が定められる。従って、前に概説された、標的核酸分子のゲノム位置情報に結び付けられる前述の標的核酸分子の配列を決定する方法によって得ることができる、(i)核酸標的の決定された配列と(ii)参照ゲノム上でのその位置に関する情報との組合せに基づいて予想配列が定められても良く、この予想配列は、本明細書で言及される参照ゲノムから分子的に決定される配列に対応する配列を導き出す。参照ゲノムは、好ましくは病気を患っていない被験者の遺伝子構成を示す標準ゲノム又は健康な被験者のゲノムとすることができる。或いは、又はそれに加えて、知られているSNP(単一ヌクレオチド多型)又はSNV(構造的なヌクレオチドの変異体)において標準配列又は参照ゲノム配列と異なる配列を含む参照データベースからの分子的に決定される配列に対応する配列を導き出す、予想配列が定められても良い。そのような変異体配列は、例えばミスセンス変異、ナンセンス変異、単一ヌクレオチド多型(SNP)、コピー数多型(CNV)、スプライシング多型、調節配列の変異、小さな欠失、小さな挿入、小さな挿入欠失、大きな欠失、大きな挿入、複雑な遺伝子再配列、染色体間再配列、染色体内再配列、ヘテロ接合性の消失、リピートの挿入、リピートの削除を含む群から選択される病気又は疾患に特有のシグニチャデータを含むことができ、又はかかるシグニチャデータを追加で含むことができる。更なる実施形態では、予想配列が複数種類の配列、例えば標準の又は健康な被験者のゲノム配列に加えて、前述のゲノム配列の知られている変異体を含む配列を含んでも良く、前述の変異体は好ましくは病気、病状、症状等に結び付けられる。
ステップS18で、前処理ユニット14が、第1のデータ表44からゲノム位置を読み取ることにより、位置データ34又はラベルデータを核酸断片のゲノム位置48に変換する。第1のデータ表44は、位置データ34又はラベルデータ34を関連するゲノム位置48に結び付ける記録を含む。このステップにおいて前処理ユニット14は、ゲノム位置48及び関連する決定された配列32を有するエントリを含む、中間ヌクレオチド配列データ50を生成しても良い。例えば、データ表44は、スポット20のx及びy位置を含む参照表44とすることができ、参照表44を使用することによってxy情報がゲノム位置48に変換され得る。
ゲノム位置データ36内のゲノム位置48は、配列決定されたリード30のゲノム位置を指定し又はコードする、配列決定されたリード30に追加されるソフトウェアコードと見なされても良い。
ステップS20で、前処理ユニット14が、第2のデータ表46から予想配列38を読み取ることにより、ゲノム位置48を予想配列38に変換する。第2のデータ表46は、ゲノム位置48を関連する予想配列38に結び付ける記録を含む。第2のデータ表46も単純な参照表46とすることができる。
或いは、前処理ユニット14は、データベース46内に記憶されている参照ヌクレオチド配列(例えば参照ゲノム)を用いて予想配列を決定しても良い。
ステップS20の終りに、図2の方法と同様に強化されたヌクレオチド配列データ36が形成される。
或る事例では、予想配列38がヌクレオチドに関する識別子の配列を含み得る。
但しステップS12又はステップS20では、予想配列38が1つの識別子の配列をコードする必要がないことに留意されたい。予想配列38は、知られているSNP(単一ヌクレオチド多型)又はSNV(構造的なヌクレオチドの変異体)内で異なる予想配列群をコードすることができ、その結果、その群の全ての要素がステップS14の直接比較によって最初に確認され得る。要約すると、予想配列は識別子の配列の変異体に関する情報を含むことができる。
既に述べたように、強化されたヌクレオチド配列データ36は、予想配列38又は予想配列38へのリファレンスを含む。予想配列38又はそのリファレンスは、基本の配列データ30に追加されるソフトウェアラベル又はソフトウェアコードと見なされても良い。予想配列38は、配列決定装置10内で、具体的には前処理ユニット14内で追加され得る。そのようにして、前処理ユニット14は、配列決定された断片を捕捉したプローブを指定する出力を有することができる。
予想配列又はそのリファレンスを符号化するソフトウェアコードは、必ずしも4つのヌクレオチド(A、C、G、T)に基づかなくても良く、他の文字、数字等に基づいても良い。
更なる実施形態によれば、前処理ユニット14は、基本のヌクレオチド配列データ30をデータ表42又はデータ表44と組み合わせることにより、強化されたヌクレオチド配列データを生成することができる。例えば前処理ユニット14は、基本のヌクレオチド配列データ30、及び位置データ34を予想配列へのリファレンスに結び付けるデータ表42、44を含むファイル又はデータストリームを出力することができる。
図4Aは、上記及び下記に記載の方法による性能向上を示す。本発明による手法の整列速度を評価するために、標的とされる配列決定実験を整列するのにかかる計算時間が、通常のアライナ(Bowtie、BWA、及びMAQ)の性能と比較された。これらの後者のアライナは事前のゲノム位置情報は使用せず、全ゲノムに対して整列する。図4Aの図は、リード当たりの複製数(x軸)に対する秒単位の計算時間(y軸)を示す。各曲線は、Burrows-Wheelerアライナ(BWA)52、bowtieアライナ54、実装されたNeedleman-Wunschアルゴリズム56、及び最適化されたNeedleman-Wunschアルゴリズム(NWem)58の計算時間を示す。BWA52及びbowtie54は全ヒトゲノムに対して整列しているのに対し、どちらのNeedleman-Wunschアルゴリズム56、58も位置情報を使用した。最適化された変異体58は、厳密に一致しない配列を整列させる前に、文字列比較によって完全な一致の有無を確認した。これらの計算は、それぞれが16GB、32GB、又は64GBのランダムアクセスメモリと共に2個のIntel Xeon L5420クアッドコアCPUを2.5GHzで利用する、206台のDell PowerEdge M600ブレードサーバにわたって分けられた1648コアのグリッド上で実行された。
図4Aは、3Mbの標的領域、50塩基のリード長、1%の配列決定誤差、及び10%の標的外リードでのかかる比較の結果を示す。これらの設定は、合計264,616の参照配列に相当する。Needleman-Wunschアルゴリズムの4つの異なる実装形態(NW、NWem、NWB、及びNWBem)が使用された。見て分かるように、MAQがこの比較の中で使用されたアライナのうちで最も遅く、その計算時間はリードの冗長性にもよるが8,713秒から69,768秒まで及ぶ。Burrows-Wheeler変換に基づく2つのアライナは、同じ計算をはるかに速く行い、それぞれ661秒〜9,419秒(BWA、MAQより約6.86倍速い)及び159秒〜2,791秒(Bowtie、MAQより約22.9倍速い)必要とする。これらの結果は、Burrows-Wheeler変換に基づくアライナの整列速度に関する先の所見を裏付ける。それでもなお、位置情報を使用するNeedleman-Wunschアルゴリズムは著しく短い整列時間をもたらす。Bowtieに比べ、計算時間がNWでは約1.4倍短縮される(106秒〜1,949秒)一方で、NWem(73秒〜1,244秒)は約2.2という因数さえ得る。このゲインは、NWB(32秒〜491秒、即ちBowtieより5.7倍速い)及びNWBem(30秒〜430秒、即ちBowtieより約6.6倍速い)では更に増加する。結論として、事前情報を使用するために枝刈りされたNeedleman-Wunschアルゴリズムを適合させ、最も速い通常のアライナBowtieと比較する場合、50塩基長の約5,330万のリードの総計算時間は46.5分から約7分に短縮され得る。
図4B〜図4Dは、1塩基当たり1%の配列決定誤差の条件で、Needleman-Wunsch実装(NW)の2つ、つまり通常のNeedleman-Wunschと、直接文字列比較を用いることで更に改善されたNeedleman-Wunschアルゴリズムのバンドバージョン(NWBem)とを比較する、計算実験のより広範な比較を示す。図4Aは、図4Bの小区分であり、3行目の3列目で見つけることができる。より広範な条件にわたって調査する場合、検査される一般のアライナのうちBowtie(□)が最も速いことを示し、検査されるあらゆるパラメータの組合せにおいてMAQ(○)及びBWA(●)を凌いでいる。位置情報を使用することは依然として整列時間のかなりの短縮につながるが、NWは(通常のNeedleman-Wunschアルゴリズムの時間計算量がO(max(n,m)3)であるので)より長いリード長について制限を示し、この制限は、整列行列の枝刈りによりNWBemによって克服される。
例えば図4Bでは、100塩基長及び40%の標的外リードにおいて、Bowtie(164秒〜2,765秒)及びNW(15秒〜2,750秒)が等しい水準で計算するのに対し、NWBemはその両方を凌ぐ(32秒〜447秒)。25塩基のより短いリードを検討する場合、NW(42秒〜583秒)及びNWBem(29秒〜396秒)のどちらもBowtie(106秒〜1,856秒)を凌ぐことができる。標的外リード量に関して、Bowtieでは整列時間が標的外リード量と負に相関するので独特な挙動を示すのに対し、他の全てのアライナの計算時間は正に相関する。厳密なマッチングの事前選択がより頻繁にスキップされ、従ってより多くのリードが規則正しく整列される必要があるので、このことは特にNWBemで明らかである。NWは事前選択を行わず、従ってこの影響を受けないことを理解すべきである。従って、Bowtieは100塩基及び0%の標的外リードの計算を193秒〜3,371秒で行い、その結果より遅いのに対し、上記に示された40%の標的外リードの結果と比較された場合、NWBemは若干短い時間(32秒〜445秒)を要する。
図4Cには、3Mbの標的領域に関するアライナの性能の結果が示されている。3Mbの標的領域の場合、Bowtieと比較した場合、性能向上はNWでは約1.0から約4.3倍の間(平均:2.2±1.2)、NWBemでは約5.0から約7.7倍の間(平均:6.8±0.8)で異なる。300kbの標的領域でも同様の結果が認められ得る(NW:2±0.9、NWBem:6.5±1.1)。
図4Dには、100塩基長及び40%の標的外リードにおける30Mbの標的領域での、1塩基当たり2%の配列決定誤差の影響に関する結果が示されている。1%の配列決定誤差(図4A〜図4C参照)に比べ、NW(158秒〜2758秒)及びNWBem(33秒〜460秒)は殆ど影響を受けていないように見えるのに対し、Bowtie(196秒〜3,311秒)は約20%長い計算時間を要する。従って、2%の配列決定誤差及び30Mbの標的領域では、NWBemの平均ゲインがBowtieに比べ7.8±0.8まで増加するのに対し、3Mbの標的領域ではNWBemの平均ゲインは8±0.8という因数にさえ達する。
更にBowtieと比較し、BWAは類似の挙動を示した一方で、MAQの性能は安定したままであった。予想されたように、処理されるリードの量がアライナの全てについて計算時間に最も大きい影響力を有し、本発明による方法はBowtie及びBWAに似た挙動を示す。配列決定誤差のパーセンテージ(我々の検査では最大2%)は、一般的なアライナ(MAQを除く)の計算時間に影響を及ぼすのに対し、NW及びNWBemの両方の計算時間に対しては僅かな影響しかなかった。それでもこの速度向上は、予想配列に対する整列される配列の類似性による影響も出やすく、それはその類似性が厳密に一致する配列の数に影響するからである。従って、厳密なマッチングによる事前選択を使用するどちらの実装形態(NWem及びNWBem)も、強化における高特異性及び低い配列決定誤差の恩恵を受ける。
図5Aは、結果として生じる整列速度の向上を示す更なる図を示す。図5Aでは、3つの異なる大きさの標的領域(300kb、3Mb、及び30Mb)並びに全ゲノム(3.1Gb)の整列速度が比較されている。最後の3列はプローブの数を指す。図の中の最初の行は、標的の大きさ及び参照配列の数を示す。2行目はリードの数を示す。3行目は整列時間を示す。
図5Aから、全ゲノムに対してではなく標的領域だけに整列させることが、最も大きい整列速度の向上を既にもたらし得ることが明らかになる。しかし、所謂標的法又は強化法のどれも十分に正確でない場合があるので、この手法を取ることは実際には不可能である。最良の策(「セレクタ手法」を使用する)でさえ92%の特異性しか有さず(他の強化法の典型的な特異性は約60%である)、リードの8%は標的領域から来ないことを意味する。これらのリードも標的領域に整列するように強制すること(標的領域だけに整列させる場合に行う)は、著しく許容できない量の誤差、即ち間違った正の一致を引き起こす。
一般的な強化方法を使用する場合、2つのクラスのリードが生成され、第1のクラスは標的領域内に起源を有する全てのリード(ITRと呼ばれる)から成り、第2のクラスは標的領域外に起源を有する全てのリード(OTRと呼ばれる)を含む。これらの全てのリードが専ら標的領域に整列される場合、その後の分析(例えばSNP呼び出し)に影響を及ぼす2つのあり得る誤差が生じる可能性がある。第1に、標的領域内に現在一意に整列するOTRが、標的に対する一意に一致するリード(UMR)として間違って分類され、そのように間違って分類される理由は、それらのOTRが発生元ではない位置において整列するからである(タイプ1の誤差)。第2に、標的領域内に一意に整列するが、標的領域外でも1回又は複数回整列し、それは分析から除外される全てのリード(多重一致リード、MMRとして知られる)(ITR及びOTR)も、UMRとして間違って分類される(タイプ2の誤差)。従って、実際には標的を絞った配列決定手法でさえ、整列が全ゲノムに対して行われる。
従って、事前情報であって、配列決定されている特定の断片をプローブがそれに基づいて捕捉した、事前情報を使用することに基づく方法しか、標的領域だけに整列させ、それにより図5Aに示されている整列速度の向上を実現することを可能にし得ない。
従って、本発明によって想定されるのは、有利には本明細書に記載の標的を絞った配列決定のための強化方法に基づく、事前情報を使用することによる計算速度の向上である。図4A〜図4Dでは、示されている整列アルゴリズムはダイナミックプログラミングに基づいており、事前知識を使用して各リードをゲノムの予想部分である本明細書に定める予想配列にマップする。計算速度の向上が合計900のパラメータバリエーションについて調べられ、最も速いNeedleman-Wunsch実装(NWBEm)をBowtieと比較したとき、30Mbの標的領域の平均6.2±0.8から、3Mbの標的領域の平均8±0.8に及ぶことが認められた。
図5Bは様々なアライナのメモリ要件を示し、これらのメモリ要件は一様でなくても良く、大量のRAMを有利にし、又はMAQの場合、大量のリードを整列させるときに通常のアライナに必要である。NW及びNWBemは、3Mbの標的領域からの約500万のリードを整列させるときに他のアライナが計算を行うのに必要なメモリのごく一部(7.5%から16.6%)しか必要としない。全体的な計算速度と組み合わせられたそのような低いハードウェア要件は、配列決定装置内に整列を含めることを可能にし、それにより配列データの後処理がもはや使われなくなることが当業者によって直ちに理解される。
本発明の特定の実施形態では、より高度でないハードウェアをもたらすために整列アルゴリズムが交換されても良い。従って本発明によって想定されるのは、標的を絞った配列決定における整列の労力を最小限にするために本明細書に記載の事前情報を使用することである。そのように整列の労力を減らすことで、大規模な計算設備を必要とすることなしに配列決定情報を臨床的に使用できるようになることが理解されるべきである。例えば、約5600万のリードの標的を絞った再配列決定処理にとっての約7分以下の整列時間は、従来の配列整列方法に優る技術的優位性である。そのような方法は、特に臨床用途での配列決定にとって魅力的である。
強化された核酸データ36、中間核酸データ50、及びデータ表42、44、46の実施形態が以下の図面に関して説明されている。
図6は、FASTQ形式のリードのヘッダー60を示す。FASTQとは、Sanger instituteが提供しIlluminaソフトウェアによって使用される配列形式であり、系統的なヘッダー(識別子)60を有する。ヘッダーは一意の機器名62、フローセル行64、フローセルレーン内のタイル番号66、タイル内のクラスタのx座標68、タイル内のクラスタのy座標70、多重化サンプルのインデックス番号72(インデクシングがない場合は0)、及び/1又は/2とすることができるペアのメンバー74(ペアエンド又はメイトペアリードのみ)を含む。
バージョン1.4以降のIllumina pipelineのバージョンでは、多重ID72について#0の代わりに#NNNNNNを使用しているようであり、NNNNNNは様々なサンプルにバーコード付けするために使用される多重タグの配列である。サンプルは全フローセルを満たすのに十分大きいので、多重タグは、マシンが自らの容量の一部でしか動作しないことを避けるために、同じ配列決定ランの中で複数のサンプルが使用される場合に使われる。
図7は、ヘッダー60及び主部78を有するFASTQ形式のリード76を示す。主部78は、特定のプローブのために配列決定ユニット12によって生成されても良い識別子の配列32を含む。
ここでは、一意の機器名62がゲノム位置識別子48によって置換されている。データ表44(例えば図9、図13を参照)内を検索するために、xy座標68、70が使用された。位置情報は、プローブがマイクロアレイ18上に配置される場所のxy座標68、70を含む。xy座標68、70は更に、配列を有する表42(図10に示す)を検索するために、及びそれに対して整列を行う対応する参照配列80を選択するために使用されても良い。これは、プローブの位置/ゲノム上の参照位置に関する情報を識別子48の中に含めることによって行われても良い。
図7のゲノム位置識別子48は、遺伝子に関する識別子(ENSG00000110756)、エクソンの開始位置(18317546)、終了位置(18317669)、及び染色体数(11)を含む。
概して、ゲノム位置識別子48はゲノム内の特定の位置又は領域を識別するように適合される。例えばゲノム位置識別子は、ゲノム内の関心領域を一意に識別するために、開始位置、終了位置、及び染色体数を含むことができる。この領域は或るエクソンとすることができるが、染色体外DNAを含めゲノム上の他のどこにあっても良い。ゲノムの特定の領域(例えば遺伝子)の識別子も、データ起源の可解性上の理由からゲノム位置識別子の中に含まれ得る。当然ながら、これらのパラメータの置換が使用されても良い。
ここでは及び以下では、参照配列80の代わりに、完全な予想配列80がそれぞれのリード76、又は表42、44、46内に符号化されても良いことに留意されたい。
図8は、FASTA形式のリード76を示す。FASTA形式のリード76は、1行記述(ヘッダー60)で始まり、その後に配列データの行(主部78)が続く。記述行60は、第1の文字としての記号「>」によって配列データ78と区別され、同時に記号「>」の後に続く文字列は、配列自体を識別するために及び任意選択的に更なる情報を提供するために使用される。
ヘッダー60は、予想配列38のゲノム位置識別子48、この事例ではマイクロアレイ18上の捕捉プローブのxy座標も含む。ゲノム位置識別子48は、xy座標68、70を使用することによりデータ表44(例えば図9、図13を参照)から読み取られている。
図9は、xy座標68、70を参照配列80又は予想配列80及びゲノム位置48に関係付けている参照表42、44を示す。参照表42、44は、使用される参照配列80又は予想配列80の全てを含む多重エントリFASTAファイルとして実装される。図示の配列80は全て同じエクソンに由来するが、エクソンを完全に対象として含むために5塩基シフトする。
図10は、xy座標68、70を参照配列80又は予想配列80に直接関係付けている参照表42を示す。
図11は、図7に図示されているのと同様のFASTQ形式のリード76を示し、この形式ではゲノム位置識別子48が参照位置82を含む。参照位置は、識別された関心のある標的配列(この場合はエクソン、図12参照)からの一部/部分配列として、整列対象の参照配列80を選択し始める開始塩基に印付けする。
図12は、ゲノム位置48を(参照位置82から始まる)参照配列80又は予想配列80に関係付けているFASTA形式の表46を示す。表46は、2つの記録又はエントリを含む。参照配列80又は予想配列80は、ヘッダー60内に設けられる参照位置82から始まり(図11参照)、リードの長さ84にわたってエクソン86に及ぶ部分配列を全エクソン86から取ることにより、表46から読み取られても良い。図12は、エクソンのゲノム位置に結び付く識別子に関する一例を示していることに留意すべきである。しかし、非エクソンのゲノム位置も可能である。
図13は、xy座標68、70をゲノム位置48に関係付けている参照表44のエントリを示す。
図14は、ゲノム位置48を予想配列80に関係付けている参照表46のエントリを示す。又、参照配列の参照位置82が、ゲノム位置48及び予想配列80に関係付けられている。
図15は、一意の機器名62が参照配列80によって置換されているヘッダー60を含むFASTQ形式のリード76を示す。例えば、図10の表42から参照配列を読み取るためにxy位置68、70が使用されていても良い。
図16は、図11のリードと同様のFASTQ形式のリード76を示す。リード76では、ゲノム位置識別子48の後に、ゲノム位置48に対応するエクソン86内の予想配列の参照位置82が続く。予想配列は位置82から始まり、決定された配列78の長さの後で終わる。図16に示す事例では、50塩基のリード長により、予想配列は塩基171〜220(最初の塩基+リード長−1)までのエクソン86の配列である。エクソン86の配列は、図14に示すようなデータベース又は表から決定され得る。
図17は、ゲノム位置識別子48の後に参照配列80が続くFASTQ形式のリード76を示す。
図18は、ヘッダー60内に符号化される参照位置82を有する、図16のリードと同様のFASTA形式のリードを示す。
図19は、ヘッダー60内に符号化される参照配列80を有する、図17のリードと同様のFASTA形式のリードを示す。
図20は、FASTA形式で符号化され「Y」によって符号化されるSNP92を含む、ヌクレオチド配列90の一例を示す。ゲノム位置48は、塩基47471072から塩基47471885までの染色体13上の遺伝子ENSG00000102468の区分に関係する。
図21は、図14の表と同様の参照表46を示す。図21の表46は、ゲノム位置48を2つの参照配列80に関係付ける。即ち、予想配列へのリファレンスは一意ではない。SNP92の2つのあり得る変異体94が、別々の欄に列記されている。
図22は、図11のリードと同様のFASTQ形式のリード76を示す。ゲノム位置48及び参照位置82を含むヘッダー内のリファレンスは、図21の表46により、SNP92に基づく予想配列の2つの変異体にマップされても良い。リード配列の変異体94が「T」であることに留意されたい。
図23は、上記に記載の捕捉プローブと標的核酸分子との間の相互作用/結合を示す。捕捉プローブは、捕捉された標的核酸断片のヘッドHにとって相補的な部分A、捕捉された標的核酸断片のテールTにとって相補的な部分B、及び容易に識別可能な配列ラベルLで作成される。区分Mは、A又はBの何れにとっても相補的でない標的核酸分子の中心部分を示す。
図24は、上記に記載の本発明による捕捉プローブと標的核酸分子との間の相互作用過程の更なるステップを示す。上記に記載の通り、図23に示す相互作用の後、容易に識別可能な配列ラベルLにとって相補的な区分Cが生成され得る。
図25は、本発明による捕捉プローブと標的核酸分子との間の相互作用過程の更なるステップを示す。図24に示す相互作用の後、捕捉プローブが例えばローリングサークル増幅(RCA)による増幅過程の間に除去されても良い。図25は、捕捉された標的核のヘッドH、捕捉された標的核酸断片のテールT、標的核酸分子の中央部分M、及び容易に識別可能な配列ラベルLにとって相補的な区分Cを含む、増幅されるテンプレートを示す。
図26は、標的核酸断片の配列を決定するために実行され得る、ローリングサークル増幅(RCA)、並びにその後の処理及び配列決定ステップの潜在的結果を示す。図26Aは、図25に示されている核酸標的断片のローリングサークル増幅の潜在的結果を示し、区分A’は図25の区分Hにとって相補的であり、区分L’は図25の区分Cにとって相補的であり、区分B’は図25の区分Tにとって相補的であり、区分Rは図25の区分Mにとって相補的である。図26Bは、標的核酸RCA産物の配列を決定する1つの可能な任意選択を示し、RCA産物は例えば上記に記載されているように無作為に断片化されても良く、例えばR1の部分、R2の部分、並びに区分A’、L’、及びB’を含む断片をもたらす。この断片は、好ましい実施形態ではプライマ、例えばP1及びP2として示されているプライマの助けによって配列決定され得る。特定の実施形態では、配列決定が重複するリードをもたらすことができ、従って区分M又は区分Rを完全に対象として含む。他の実施形態ではリードが重複しなくても良い。従って、リード長は予想される断片長に適合され得る。図26Cは、標的核酸RCA産物の配列を決定する更なる可能な任意選択を示し、RCA産物は上記に記載の通り特に区分L’において断片化され、例えばL’の一部、B’、R、A’、及びL’の更なる一部を含む断片をもたらす。この断片は、好ましい実施形態では例えばL’、A’、及び/又はB’から開始して配列決定され得る。図26Dは、標的核酸RCA産物の配列を決定するための更に別の可能な任意選択を示し、上記に記載したようにRCA産物は断片化されない。この核酸分子は、好ましい実施形態では例えば区分L’及び/又はB’から開始して配列決定され得る。
要約すると、予想配列へのリファレンスは、予想配列自体、ゲノム位置、及び/又は参照配列とすることができる。リファレンスは、ゲノム位置、及びゲノム位置に関連する予想配列の開始位置とすることができる。リファレンスは、ゲノム位置及び参照配列、例えば本明細書で定められる参照ゲノム配列とすることができる。又、リファレンスは一意である必要はなく、即ちリファレンスは複数の予想配列、とりわけ予想配列の変異体に結び付き又はそれを指しても良い。
更に、ヌクレオチド配列データは、FASTQ形式又はFASTA形式で符号化され得る。ヌクレオチド配列データが同様に符号化され得る、EMBLやGCGなどの他の形式もある。
要約すると、捕捉(ハイブリダイゼーション)アレイ又はビードからのプローブ情報が、配列決定リードの整列手順に使用され得る方法及びシステムが提案される。そうすることは、整列時間を約1時間から約1分に短縮でき、整列の誤差を減らすことができる利点を有し得る。
このことは、配列決定が診療所内で日常的に使われるようにすることを可能にするために重要であり得る。精度の向上(臨床的応用では極めて重要であり得る)とは別に、このことは、十分な物質が除去されているかどうかを確かめるために癌手術中に切除端を分析することなど、診療所内でのDNA配列決定の新規の応用を可能にすることができる。
(癌性の)生検の配列決定処理の分析を完了するのにかかる時間が5時間以下に短縮され得るので、病院での新たな作業の流れが可能にされる場合があり、ひいては生検が取られたのと同じ日に生検の結果を患者に与えることを可能にする。
最終的な(ソフトウェア)分析でプローブ情報を使いたい場合、ソフトウェア出力内の、予想配列のリファレンスを用いたリードのソフトウェアラベリングは必須であり得る。具体的には、配列決定された断片がどのプローブから来たのかをソフトウェアが知らなければならない場合があるので、分析の速度及び精度を改善するために生命情報科学分析においてプローブ情報を保持できるようにしたい場合、ラベリングは必須であり得る。
ソフトウェアラベリングは、ゲノム内の正しい位置にリードを位置決めする問題を克服することができ、位置決めが今度ははるかに速い比較アルゴリズムによって行われ得るので、このことは全体的な検索時間を著しく短縮することができる。
リードにラベル付けするソフトウェアは事前情報をリードに追加し、リードは、ゲノム位置、予想配列、位置及びクオリティ情報を含み得るオブジェクトになる。この情報は、検索過程において参照表の中で使用されても良い。
本発明を図面及び上記の説明の中で詳細に解説し説明してきたが、かかる解説及び説明は限定的ではなく解説的又は例示的と解釈されるべきであり、本発明は開示した実施形態に限定されない。開示した実施形態に対する他の改変形態が、図面、本開示、及び添付の特許請求の範囲を検討することにより、特許請求の範囲に記載の本発明を実施する際に当業者によって理解され、果たされ得る。特許請求の範囲では、「含む」という語は他の要素又はステップを排除せず、不定冠詞「a」又は「an」は複数形を排除しない。或る手段が互いに異なる従属請求項の中で列挙されているという単なる事実は、これらの手段の組合せが有利に使用されてはならないことを示すものではない。特許請求の範囲の中の如何なる参照符号も、範囲を限定するものとして解釈されるべきでない。
本発明の更なる実施形態は以下の内容に関する。
1.ヌクレオチド配列データ(36)を提供する方法であって、
核酸の断片のヌクレオチドに関する決定された識別子の配列(32)と核酸の断片を捕捉した捕捉プローブのプローブデータ(34)とを含む基本のヌクレオチド配列データ(30)を受け取るステップと、
プローブデータ(34)と予想配列(38)とを相互に関係付ける情報を用いてプローブデータ34を予想配列(38)に変換することにより、核酸の断片の予想配列(38)を決定するステップと、
決定された識別子の配列(32)及び予想配列(38)へのリファレンスを含むヌクレオチド配列データ(36)を出力するステップと
を含む、方法。
2.プローブデータ(34)が位置データ(68、70)を含み、位置データを予想配列と相互に関係付けることによって予想配列(38)が決定される、
実施形態1に記載の方法。
3.予想配列(38)へのリファレンスが予想配列自体、参照配列内の予想配列のゲノム位置及び/又は開始位置を含み、且つ/又は
予想配列(38)へのリファレンスが、予想配列(38)の変異体に関するリファレンスでもある、
実施形態1又は2に記載の方法。
4.予想配列(38)がデータ表(42)から決定され、データ表がプローブデータと関連する予想配列とを結び付ける記録を含む、
実施形態1乃至3の何れか一つに記載の方法。
5.プローブデータ(34)が、
第1のデータ表(44)からゲノム位置を読み取ることにより、第1にプローブデータを核酸の断片のゲノム位置(48)に変換するステップであって、第1のデータ表は、プローブデータを関連するゲノム位置に結び付ける記録を含む、変換するステップと、
第2のデータ表(46)からリファレンスを読み取ることにより、第2にゲノム位置(48)を予想配列のリファレンスに変換するステップであって、第2のデータ表は、ゲノム位置を予想配列への関連するリファレンスに結び付ける記録を含む、変換するステップと
によって変換される、
実施形態1乃至4の何れか一つに記載の方法。
6.予想配列(38)がヌクレオチドに関する識別子の配列を含み、
予想配列が識別子の配列の変異体に関する情報を含む、
実施形態1乃至5の何れか一つに記載の方法。
7.決定された配列に対する予想配列(38)の完全な一致がないか確認することにより、決定された配列(32)を参照ヌクレオチド配列に整列させるステップ
を更に含む、実施形態1乃至6の何れか一つに記載の方法。
8.完全な一致が、識別子の予想配列(38)に対する決定された識別子の配列(32)の文字列比較によって確認される、
実施形態7に記載の方法。
9.予想配列に関して完全な一致が見つからない場合、通常の整列アルゴリズムを実行することにより、決定された配列(32)を参照ヌクレオチド配列に整列させるステップ
を更に含む、実施形態7又は8に記載の方法。
10.ヌクレオチド配列データが、FASTQ形式、FASTA形式、EMBL形式、又はGCG形式で符号化される、
実施形態1乃至9の何れか一つに記載の方法。
11.核酸サンプルのヌクレオチドの配列を決定するための方法であって、
それぞれが核酸の断片の特定配列を捕捉する、複数の捕捉プローブを提供するステップと、
核酸サンプルを断片化することによって生成される複数の核酸の断片と捕捉プローブをハイブリダイズするステップと、
核酸の断片を配列決定し、それにより核酸の断片ごとにヌクレオチドに関する識別子の配列(32)を生成するステップと、
核酸の断片の識別子の配列(32)を、核酸の断片を捕捉する捕捉プローブのプローブデータ(34)に関連付けることにより、核酸の断片ごとに基本のヌクレオチド配列データ(30)を生成するステップと、
基本のヌクレオチド配列データ(30)に対して実施形態1乃至10の何れか一つに記載の方法を実行することにより、核酸の断片ごとに強化されたヌクレオチド配列データ(36)を生成するステップと、
核酸の断片ごとの強化されたヌクレオチド配列データ(36)を関連する参照配列に整列させるステップと
を含む、方法。
12.ヌクレオチド配列データを提供するためのプログラム要素であって、プロセッサによって実行されるとき、実施形態1乃至11の何れか一つに記載の方法のステップを実行する、プログラム要素。
13.実施形態11に記載のヌクレオチド配列データを提供するためのプログラム要素が記憶される、コンピュータ可読媒体。
14.核酸の断片のヌクレオチドに関する決定された識別子の配列(32)と核酸の断片を捕捉した捕捉プローブのプローブデータ(34)とを含む基本のヌクレオチド配列データ(30)を生成し、
プローブデータ(34)を予想配列(38)と相互に関係付け、
決定された識別子の配列(32)及び予想配列(38)へのリファレンスを含むヌクレオチド配列データ(36)を生成する、
配列決定装置(10)。
15.実施形態1乃至11の何れか一つに記載の方法のステップを実行する、
実施形態14に記載の配列決定装置(10)。

Claims (15)

  1. ヌクレオチド配列データを提供する方法であって、
    核酸の断片のヌクレオチドに関する決定された識別子の配列と、核酸の前記断片を捕捉した捕捉プローブのプローブデータとを含む基本のヌクレオチド配列データを受け取るステップであって、前記捕捉プローブの前記配列は核酸の前記断片の前記配列にとって少なくとも部分的に相補的であり、前記捕捉プローブの前記配列はハイブリダイゼーションによって核酸の前記断片を捕捉することができ、前記捕捉プローブの前記配列は予想配列と同じでない、受け取るステップと、
    前記プローブデータと前記予想配列とを相互に関係付ける情報を用いて前記プローブデータを前記予想配列に変換することにより、核酸の前記断片の予想配列を決定するステップと、
    前記決定された識別子の配列及び前記予想配列へのリファレンスを含む前記ヌクレオチド配列データを出力するステップと
    を含む、方法。
  2. 前記プローブデータが位置データを含み、前記位置データを前記予想配列と相互に関係付けることによって前記予想配列が決定され、好ましくは前記位置データがマイクロアレイなどのマイクロキャリア上の前記捕捉プローブのxy位置を含む、
    請求項1に記載の方法。
  3. 標的核酸分子のゲノム位置情報に結び付けられる前記標的核酸分子の配列を決定するための方法であって、
    前記標的核酸の一部にとって配列の点で相補的である2つの部分を含む捕捉オリゴヌクレオチドプローブを提供するステップであって、前記捕捉オリゴヌクレオチドプローブの前記部分は非標的相補的配列ラベル及び任意選択的に固定化成分によって分けられる、提供するステップと、
    前記捕捉オリゴヌクレオチドプローブを、核酸分子を含むサンプルとハイブリダイズするステップであって、前記核酸分子は前記捕捉オリゴヌクレオチドプローブにとって少なくとも部分的に相補的である配列を含む、ハイブリダイズするステップと、
    前記捕捉オリゴヌクレオチドプローブ−標的核酸錯体を固相上に任意選択的に固定化するステップと、
    非結合核酸分子を前記固相から任意選択的に除去するステップと、
    前記核酸標的分子を、ポリメラーゼ活性を使用することによって環状化するステップと、
    前記環状化された核酸標的分子を好ましくはローリングサークル増幅によって増幅するステップと、
    前記増幅された核酸標的分子の前記配列を少なくとも2つのヌクレオチドの配列リードを生成することによって決定するステップと、
    前記非標的相補的配列ラベルの前記配列を識別するステップと、
    前記非標的相補的配列ラベルに隣接する前記捕捉オリゴヌクレオチドプローブの前記ヌクレオチド配列を識別するステップであって、任意選択的に3’及び5’の隣接配列が個々に識別される、識別するステップと、
    参照ゲノム上の前記捕捉オリゴヌクレオチドプローブの前記配列の位置を識別するステップと、
    (i)前記核酸標的の前記決定された配列、及び(ii)参照ゲノム上での前記決定された配列の位置に関する情報の組合せを提供するステップと
    を含む、方法。
  4. 前記プローブデータが、請求項3に記載の方法によって得ることができる、参照ゲノム上の前記核酸標的の前記決定された配列の前記位置に関する情報を含み、前記予想配列が、参照ゲノム上の前記位置に関する前記情報を、前記参照ゲノムの前記対応する配列と相互に関係付けることによって定められる、請求項1に記載の方法。
  5. 前記予想配列への前記リファレンスが前記予想配列自体、参照配列内の前記予想配列のゲノム位置及び/又は開始位置を含み、且つ/又は
    前記予想配列への前記リファレンスが、前記予想配列の変異体に関するリファレンスでもある、
    請求項1、2、又は4の何れか一項に記載の方法。
  6. 前記予想配列がデータ表から決定され、前記データ表がプローブデータと関連する予想配列とを結び付ける記録を含む、
    請求項1、2、4、又は5の何れか一項に記載の方法。
  7. 前記プローブデータが、
    第1のデータ表から前記ゲノム位置を読み取ることにより、第1に前記プローブデータを核酸の前記断片のゲノム位置に変換するステップであって、前記第1のデータ表は、プローブデータを関連するゲノム位置に結び付ける記録を含む、変換するステップと、
    第2のデータ表から前記リファレンスを読み取ることにより、第2に前記ゲノム位置を前記予想配列の前記リファレンスに変換するステップであって、前記第2のデータ表は、ゲノム位置を予想配列への関連するリファレンスに結び付ける記録を含む、変換するステップと
    によって変換される、
    請求項1、2、又は4乃至6の何れか一項に記載の方法。
  8. 前記予想配列がヌクレオチドに関する識別子の配列を含み、
    前記予想配列が前記識別子の配列の変異体に関する情報を含む、
    請求項1、2、又は4乃至7の何れか一項に記載の方法。
  9. 前記決定された配列に対する前記予想配列の完全な一致がないか確認することにより、前記決定された配列を参照ヌクレオチド配列に整列させるステップ
    を更に含む、請求項1、2、又は4乃至8の何れか一項に記載の方法。
  10. 前記完全な一致が、識別子の前記予想配列に対する前記決定された識別子の配列の文字列比較によって確認される、請求項9に記載の方法。
  11. 前記予想配列に関して完全な一致が見つからない場合、通常の整列アルゴリズムを実行することにより、前記決定された配列を参照ヌクレオチド配列に整列させるステップ
    を更に含む、請求項9又は10に記載の方法。
  12. 前記ヌクレオチド配列データが、FASTQ形式、FASTA形式、EMBL形式、又はGCG形式で符号化される、
    請求項1乃至11の何れか一項に記載の方法。
  13. 核酸サンプルのヌクレオチドの配列を決定するための方法であって、
    それぞれが核酸の断片の特定配列を捕捉する、複数の捕捉プローブを提供するステップと、
    核酸サンプルを断片化することによって生成される複数の核酸の断片と前記捕捉プローブとをハイブリダイズするステップと、
    核酸の前記断片を配列決定し、それにより核酸の断片ごとにヌクレオチドに関する識別子の配列を生成するステップと、
    核酸の前記断片の識別子の前記配列を、核酸の前記断片を捕捉する前記捕捉プローブのプローブデータに関連付けることにより、核酸の断片ごとに基本のヌクレオチド配列データを生成するステップと、
    前記基本のヌクレオチド配列データに対して、請求項1、2、又は4乃至12の何れか一項に記載の方法を実行することにより、核酸の断片ごとに強化されたヌクレオチド配列データを生成するステップと、
    核酸の断片ごとの前記強化されたヌクレオチド配列データを関連する参照配列に整列させるステップと
    を含む、方法。
  14. ヌクレオチド配列データを提供するためのプログラム要素であって、プロセッサによって実行されるとき、請求項1乃至11の何れか一項に記載の方法のステップを実行する、プログラム要素。
  15. 核酸の断片のヌクレオチドに関する決定された識別子の配列と、核酸の前記断片を捕捉した捕捉プローブのプローブデータとを含む基本のヌクレオチド配列データを生成し、
    前記プローブデータを予想配列と相互に関係付け、
    前記決定された識別子の配列及び前記予想配列へのリファレンスを含むヌクレオチド配列データを生成し、
    請求項1、2、又は4乃至13の何れか一項に記載の方法のステップを好ましくは実行する、
    配列決定装置。
JP2014514165A 2011-06-07 2012-04-17 ヌクレオチド配列データの提供 Active JP6265891B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
EP11168968.3 2011-06-07
EP11168968 2011-06-07
EP11195103 2011-12-22
EP11195103.4 2011-12-22
PCT/IB2012/051920 WO2012168803A2 (en) 2011-06-07 2012-04-17 Providing nucleotide sequence data

Publications (3)

Publication Number Publication Date
JP2014518638A true JP2014518638A (ja) 2014-08-07
JP2014518638A5 JP2014518638A5 (ja) 2015-06-11
JP6265891B2 JP6265891B2 (ja) 2018-01-24

Family

ID=46085668

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014514165A Active JP6265891B2 (ja) 2011-06-07 2012-04-17 ヌクレオチド配列データの提供

Country Status (5)

Country Link
US (1) US10373705B2 (ja)
EP (1) EP2718866B1 (ja)
JP (1) JP6265891B2 (ja)
CN (1) CN103582887B (ja)
WO (1) WO2012168803A2 (ja)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160133400A (ko) * 2013-11-13 2016-11-22 파이브3 제노믹스, 엘엘씨 시퀀싱 데이터의 전송 및 전처리를 위한 시스템들 및 방법들
GB2520763A (en) 2013-12-02 2015-06-03 Vanadis Diagnostics Ab Nucleic acid probe and method of detecting genomic fragments
JP2017506500A (ja) * 2013-12-10 2017-03-09 コネクシオ ゲノミクス ピーティーワイ リミテッド 遺伝子アリルを同定するための方法及びプローブ
ES2748457T3 (es) 2014-06-06 2020-03-16 Univ Cornell Procedimiento para identificación y enumeración de cambios en la secuencia de ácido nucleico, expresión, copia o metilación de ADN, usando reacciones combinadas de nucleasa, ligasa, polimerasa y secuenciación
WO2016100049A1 (en) 2014-12-18 2016-06-23 Edico Genome Corporation Chemically-sensitive field effect transistor
US9857328B2 (en) 2014-12-18 2018-01-02 Agilome, Inc. Chemically-sensitive field effect transistors, systems and methods for manufacturing and using the same
US9859394B2 (en) 2014-12-18 2018-01-02 Agilome, Inc. Graphene FET devices, systems, and methods of using the same for sequencing nucleic acids
US10006910B2 (en) 2014-12-18 2018-06-26 Agilome, Inc. Chemically-sensitive field effect transistors, systems, and methods for manufacturing and using the same
US10020300B2 (en) 2014-12-18 2018-07-10 Agilome, Inc. Graphene FET devices, systems, and methods of using the same for sequencing nucleic acids
US9618474B2 (en) 2014-12-18 2017-04-11 Edico Genome, Inc. Graphene FET devices, systems, and methods of using the same for sequencing nucleic acids
EP3459115A4 (en) 2016-05-16 2020-04-08 Agilome, Inc. GRAPHEN-FET DEVICES, SYSTEMS AND METHODS FOR USE THEREOF FOR SEQUENCING NUCLEIC ACIDS
CN109477141B (zh) * 2016-05-17 2022-07-12 D名-It股份有限公司 样品鉴定方法
CN111926065B (zh) * 2020-09-18 2021-01-29 中国科学院上海高等研究院 一种高效的核酸检测和基因测序方法及其装置
WO2023283420A2 (en) * 2021-07-09 2023-01-12 The Board Of Trustees Of The University Of Illinois Therapeutic gene silencing with crispr-cas13

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003515149A (ja) * 1999-11-26 2003-04-22 キュラジェン コーポレイション 核酸プローブアレイ
JP2005505748A (ja) * 2001-03-21 2005-02-24 キュラジェン コーポレイション 核酸の配列決定のための装置および方法
JP2008527979A (ja) * 2005-01-12 2008-07-31 アプレラ コーポレイション 核酸の選択的増幅のための組成物、方法およびキット
WO2010097775A1 (en) * 2009-02-27 2010-09-02 Koninklijke Philips Electronics N.V. Genomic selection and sequencing using encoded microcarriers

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20010051714A1 (en) 2000-01-10 2001-12-13 Shiping Chen Linear probe carrier
US7255999B2 (en) 2001-05-21 2007-08-14 Monogram Biosciences, Inc. Methods and compositions for analyzing proteins
GB0113358D0 (en) 2001-06-01 2001-07-25 Scient Generics Ltd Enhanced target capture
US20030231986A1 (en) 2002-06-18 2003-12-18 Eastman Kodak Company Micro-array identification means
US20050147976A1 (en) 2003-12-29 2005-07-07 Xing Su Methods for determining nucleotide sequence information
CN101333564B (zh) * 2007-06-27 2011-02-23 上海仁度生物科技有限公司 提取、纯化靶核酸的方法及其应用
RU2010116245A (ru) * 2007-09-24 2011-11-10 Ноксон Фарма Аг (De) НУКЛЕИНОВЫЕ КИСЛОТЫ, СВЯЗЫВАЮЩИЕ C5a
EP2245191A1 (en) * 2008-01-17 2010-11-03 Sequenom, Inc. Single molecule nucleic acid sequence analysis processes and compositions
EP2426214A1 (en) 2010-09-01 2012-03-07 Koninklijke Philips Electronics N.V. Method for amplifying nucleic acids

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003515149A (ja) * 1999-11-26 2003-04-22 キュラジェン コーポレイション 核酸プローブアレイ
JP2005505748A (ja) * 2001-03-21 2005-02-24 キュラジェン コーポレイション 核酸の配列決定のための装置および方法
JP2008527979A (ja) * 2005-01-12 2008-07-31 アプレラ コーポレイション 核酸の選択的増幅のための組成物、方法およびキット
WO2010097775A1 (en) * 2009-02-27 2010-09-02 Koninklijke Philips Electronics N.V. Genomic selection and sequencing using encoded microcarriers

Also Published As

Publication number Publication date
US20140329690A1 (en) 2014-11-06
EP2718866A2 (en) 2014-04-16
EP2718866B1 (en) 2020-09-09
CN103582887A (zh) 2014-02-12
WO2012168803A3 (en) 2013-07-04
WO2012168803A2 (en) 2012-12-13
US10373705B2 (en) 2019-08-06
CN103582887B (zh) 2017-07-04
JP6265891B2 (ja) 2018-01-24

Similar Documents

Publication Publication Date Title
JP6265891B2 (ja) ヌクレオチド配列データの提供
AU2019250200B2 (en) Error Suppression In Sequenced DNA Fragments Using Redundant Reads With Unique Molecular Indices (UMIs)
KR102531487B1 (ko) 합성 핵산 스파이크-인
JP2019533432A (ja) 蛍光in situ配列決定による検出のための核酸配列ライブラリの作製法
JP2013531983A (ja) 多重生物検出のための核酸ならびにその使用および製造方法
JP2018524993A (ja) 染色体異常を検出するための核酸及び方法
JP7332733B2 (ja) 次世代シークエンシングのための高分子量dnaサンプル追跡タグ
GB2496016A (en) Sequencing methods
JP2022095676A (ja) 保存されたサンプルからの長距離連鎖情報の回復
JP2016520326A (ja) マルチプレックス配列決定のための分子バーコード化
Negi et al. Applications and challenges of microarray and RNA-sequencing
JP2022513343A (ja) 次世代シーケンスにおいて低サンプルインプットを扱うための正規化対照
JP2023519919A (ja) 病原体を検出するためのアッセイ
US20230235320A1 (en) Methods and compositions for analyzing nucleic acid
Piro Sequencing technologies for epigenetics: From basics to applications
Maurya et al. Satendra Singh, Anjali Rao, Pallavi Mishra, Arvind Kumar Yadav

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150415

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150415

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160411

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160708

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170106

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20170309

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20170310

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20170420

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170626

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20171121

R150 Certificate of patent or registration of utility model

Ref document number: 6265891

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250