JP6373827B2 - 最適化されたヌクレオチドフロー順序を生成及び使用するためのシステム及び方法 - Google Patents

最適化されたヌクレオチドフロー順序を生成及び使用するためのシステム及び方法 Download PDF

Info

Publication number
JP6373827B2
JP6373827B2 JP2015512060A JP2015512060A JP6373827B2 JP 6373827 B2 JP6373827 B2 JP 6373827B2 JP 2015512060 A JP2015512060 A JP 2015512060A JP 2015512060 A JP2015512060 A JP 2015512060A JP 6373827 B2 JP6373827 B2 JP 6373827B2
Authority
JP
Japan
Prior art keywords
sequence
flow
sequencing
cafie
nucleic acid
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2015512060A
Other languages
English (en)
Other versions
JP2015519662A (ja
Inventor
チェン,イー−ジュイ
ウォン,チウ・タイ・エイ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
F Hoffmann La Roche AG
Original Assignee
F Hoffmann La Roche AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by F Hoffmann La Roche AG filed Critical F Hoffmann La Roche AG
Publication of JP2015519662A publication Critical patent/JP2015519662A/ja
Application granted granted Critical
Publication of JP6373827B2 publication Critical patent/JP6373827B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/20Polymerase chain reaction [PCR]; Primer or probe design; Probe optimisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Molecular Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Physiology (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Description

本発明は、分子生物学の分野に関する。より具体的には、一般に「合成による配列決定(Sequencing-by-Synthesis:SBS)」技術と呼ばれるもので生成される核酸配列データに位相同期(phasic synchrony)誤差が入り込むのを最小にするように最適化されたフロー順序の態様を生成し使用するためのシステム及び方法に関する。
合成による配列決定(SBS)は一般に核酸試料中の1種以上のヌクレオチドの種類又は配列組成を決定する方法を指し、この方法はヌクレオチド配列組成を決定すべき鋳型核酸分子に対して相補的な一本鎖ポリヌクレオチド分子の段階的合成を含む。例えば、SBS技術は典型的には、鋳型分子の核酸種に対して相補的な新生ポリヌクレオチド分子に対応する配列位置で1個の核酸(ヌクレオチドとも称される)種を付加することで機能する。核酸種の新生分子への付加は、一般に、様々な当技術分野で公知の方法を使用して検出され、こうした方法としては、酵素又は電子(即ち、ISFET若しくは他の関連技術を用いたpH検出)による検出法を含むピロシーケンシング(pyrosequencing)と称される方法、又は蛍光検出法、例えば、可逆性ターミネーターを使用する方法が挙げられるが、これらに限定されない。典型的には、このプロセスは、鋳型に相補的な、完全な(即ち、すべての配列位置が表される)配列長又は所望の配列長が合成されるまで反復される。SBS技術のいくつかの例は、米国特許第6,274,320号、同第7,211,390号、同第7,244,559号、同第7,264,929号、及び同第7,335,762号に記載されており、それぞれの内容は引用することにより、あらゆる目的で全体を本願に援用する。
SBSのいくつかの態様では、オリゴヌクレオチドプライマーは、試料鋳型分子の所定の相補的な位置にアニールするように設計される。このプライマー/鋳型複合体は、核酸ポリメラーゼ酵素の存在下でヌクレオチド種を与えられる。このヌクレオチド種が、オリゴヌクレオチドプライマーの3’末端に直接隣接している試料鋳型分子の配列位置に対応する核酸種に対して相補的な場合には、ポリメラーゼはこのヌクレオチド種によってプライマーを伸長する。あるいは、いくつかの態様では、プライマー/鋳型複合体は、複数の対象とするヌクレオチド種(典型的にはA、G、C、及びT)を一度に与えられ、オリゴヌクレオチドプライマーの3’末端に直接隣接している試料鋳型分子の対応する配列位置で相補的なヌクレオチド種が取り込まれる。上述したように、ヌクレオチド種の取り込みは、例えば、酵素的に若しくは電子的にピロリン酸(PPi)又は水素イオン(H)の放出を検出することによって(例は、米国特許第6,210,891号、同第6,258,568号、及び同第6,828,100号に記載されており、それぞれの内容は引用することにより、あらゆる目的で全体を本願に援用する)、又はヌクレオチドに結合した検出可能標識を介して、様々な当技術分野で公知の方法によって検出することができる。典型的な態様では、取り込まれていないヌクレオチドは、例えば洗浄によって除去される。検出可能な標識が使用される態様では、検出可能な標識は、典型的には、次の合成サイクルの前に不活性にする必要がある(例えば、化学的切断又は光脱色による)。次いで、鋳型/ポリメラーゼ複合体中の次の配列位置は、上述したように、別のヌクレオチド種、又は複数の対象とするヌクレオチド種を用いて照会することができる。ヌクレオチド付加、プライマー伸長、信号取得、及び洗浄からなるサイクルが繰り返された結果、鋳型鎖のヌクレオチド配列が決定される。
SBSの典型的な態様では、信頼できる検出に十分な強い信号を達成するために、多数又は「クローン」集団の実質的に同一の鋳型分子(例えば、10、10、10、10、又は10個の分子)を同時に、任意の1つの配列決定反応で分析する。所与の反応の集団中の実質的にすべての鋳型分子に関連する新生分子の「均質な伸長」と称されるものが、信号対ノイズ比を小さくするために必要である。本明細書で用いる用語「均質な伸長」は一般に、上述した実質的に同一である鋳型分子の集団の各構成分子が、反応中に同じステップを均質に行う伸長反応の関係又は位相を指す。例えば、鋳型分子の集団と関係するそれぞれの伸長反応は、それらが結合した鋳型分子のそれぞれに関して同じ配列位置で同じ反応ステップを行っている際に、互いに同相である(in phase)(場合により、位相同期性(phasic synchrony)又は位相同調性(phasic synchronism)であるとも称される)と記述することができる。
しかし、当業者は、それぞれの集団中の鋳型分子のごく一部が、その集団中の残りの鋳型分子との位相同調性を失うか、又は位相同調性から外れる(即ち、鋳型分子のその一部に関係する反応は、その集団に対して行われる配列決定反応において他の鋳型分子を追い越すか、又は他の鋳型分子より遅れるかのどちらかである)ことを理解する(いくつかの例は、Ronaghi, M. Pyrosequencing sheds light on DNA sequencing(ピロ配列決定がDNAの配列決定に光明を投じる). Genome Res. 11, 3-11 (2001)に記載されており、その内容は引用することにより、あらゆる目的で全体を本願に援用する)。例えば、1つの位置による配列の伸長のために、1つ以上のヌクレオチド種を1つ以上の新生分子中に適切に取り込む反応が失敗することによって、結果としてそれに続くそれぞれの反応が、その集団の残りの部分の配列位置より後ろの、位相が異なる配列位置で生じることとなる。この作用を本明細書では、「不完全伸長(incomplete extension:IE)」と称する。あるいは、その集団の残りの部分の配列位置より前の、位相が異なる配列位置における1つ以上のヌクレオチド種の取り込みによる新生分子の不適切な伸長を、本明細書において「繰越(carry forward:CF)」と称する。CFとIEの複合作用を本明細書ではCAFIEと称する。
当業者は、IE誤差及びCF誤差の両方の可能性が、伸長反応の間に各々の配列位置で発生する場合があるので、結果として得られる配列データ中に明白な蓄積作用を有する場合があることが分かっている。例えば、この作用は、「配列読み取り」の終わりに向けて特に顕著になる場合がある。
さらに、IE作用及びCF作用はSBS手法を使用して確実に配列決定することができる鋳型分子の長さ(場合により「読み取り長」とも称される)に上限を課す場合がある。というのは、配列データの質は読み取り長が長くなるにつれて低下するからである。
SBSのいくつかの態様では、数値モデル化手法及びシミュレーション手法をSBS配列決定法から得られた配列データに上手く応用し、配列データ中のCAFIE誤差を生物情報工学的に補正し、配列決定実行からの使用可能な読み取り長を伸ばした。しかしながら、そのような配列手法はSBS配列決定法からの配列読み取りに見られる蓄積されたCAFIE誤差に対しての補正であり、配列決定実行の間のCAFIE誤差の蓄積を低減する機構を提供しない。
本明細書に記載のSBSの態様では、予め決められた順序(「フロー順序」、「フローパターン」、又は「ヌクレオチド分注順序」とも称する)に従って配列決定の反応環境に各々のヌクレオチド種を個別に順次導入する。例えば、SBSの態様では、1サイクルがTACG順序のヌクレオチド種のフロー等の4種のヌクレオチド種の予め決められた順序の繰り返しサイクルを使用する。いくつかの態様において、フロー順序は用途に応じて200回〜400回繰り返してもよい。しかしながら、実際には、フロー順序は、上記のTACG等の4種のヌクレオチドのサイクルの繰り返しである必要はない。実際、いくつかのSBSアプリケーションは、最小数のヌクレオチド種フローにより伸長される取り込まれる塩基の数を最大にする(即ち、設計で非常に高い伸長率を有する)と先験的に知られている配列である単位複製配列のヌクレオチド配列に適合させた専用のフロー順序を利用している。既述の単位複製配列型フロー順序の態様では、フロー順序は単位複製配列の配列組成によって定義される1つのフロー順序(即ち、非循環式)として解釈することができる。
従って、数値CAFIE補正及びカスタム化したフロー順序設計の概念を拡張し、配列決定実行の間に、CAFIE型誤差の蓄積を低減する又は何らかのCAFIE誤差を補正することができる1つ以上のフロー順序を実施することは望ましい。換言すると、CAFIE補正法を配列決定データに応用するのとは対照的に、配列決定実行の間にCAFIE誤差の蓄積を低減及び/又は何らかのCAFIE誤差を補正することができるより最適なフロー順序を予測するためにアルゴリズム及びモデル化法を用いることができる。
多数の参考文献が本明細書において引用されているが、それらの全ての内容は引用することにより、あらゆる目的で全体を本願に援用する。さらに、これらの参考文献はいずれも、上記でどのように特徴付けられているかに関わらず、本明細書で特許請求された主題の発明に先行するものと認められるものではない。
本発明の態様は、核酸の配列決定に関する。より詳細には、本発明の態様は、SBSによる核酸の配列決定の際に得られるデータの位相同期誤差を補正する帰納的方法及びシステムに関する。
配列データにおける位相同期誤差の蓄積を最小にするフロー順序を生成する方法であって、以下のステップを含む方法の一態様について述べる:(a)k塩基長を含むヌクレオチド種の複数の配列順序付け(sequential orderings)を生成するステップであり、ここで、配列順序付けは合成による配列決定の反応環境にヌクレオチド種を導入する順序を規定するものである;(b)配列順序付けを用い、1つ以上の参照ゲノムからの配列データの取得をシミュレーションするステップであり、ここで、配列データは位相同期誤差の蓄積を含むものである;及び(c)読み取り長パラメータ及び伸長率パラメータを用いて1つ以上の配列順序付けを選択するステップ。
配列データ中の位相同期誤差の蓄積を最小にするフロー順序を用いて核酸鋳型の配列を決定する方法であって、以下のステップを含む方法の一態様について述べる:(a)k塩基長を含むヌクレオチド種の配列順序付けを合成による配列決定の反応環境に導入するステップであり、ここで、ヌクレオチド種の配列順序付けは、高読み取り長特性及び低伸長率特性を含むものである;(b)実質的に同一の核酸鋳型分子の1つ以上の集団の伸長反応にヌクレオチド種を取り込むことに応答して合成による配列決定の反応環境から信号を取得するステップであり、ここで、信号は、伸長の位相から遅れた1つ以上の集団の核酸鋳型分子のサブセットからの一定の誤差を含むものである;及び、(c)ヌクレオチド種の配列順序付けの導入及び反復回数の信号取得を周期的に反復するステップであり、ここで、核酸分子のサブセットは、配列順序付けの高読み取り長特性と低伸長率特性によって、前記一定の誤差を低減させる伸長の位相と再同期するものである。
また、配列データの位相同期誤差の蓄積を最小にするフロー順序を用いて、核酸鋳型の配列を決定する方法であって、以下のステップを含む方法の別の態様について記述する:(a)合成による配列決定の反応環境にヌクレオチド種の配列順序付けを導入するステップ;(b)実質的に同一の核酸鋳型分子の1つ以上の集団の伸長反応にヌクレオチド種を取り込むことに応答して合成による配列決定の反応環境から複数の第1の信号を取得するステップ;(c)第1の信号を用いて、ヌクレオチドの第2の配列順序付けを選択するステップであり、ここで、ヌクレオチド種の第2の配列順序付けは、k塩基長、高読み取り長特性、及び低伸長率特性を含むものである;(d)合成による配列決定の反応環境にヌクレオチドの第2の配列順序付けを導入するステップ;(e)実質的に同一の核酸鋳型分子の1つ以上の集団の伸長反応にヌクレオチド種を取り込むことに応答して合成による配列決定の反応環境から複数の第2の信号を取得するステップであり、ここで、第2の信号は、伸長の位相から遅れた1つ以上の集団の核酸鋳型分子のサブセットからの一定の誤差を含むものである;及び、(f)ヌクレオチド種の第2の配列順序付けの導入及び反復回数の信号取得を周期的に反復するステップであり、ここで、核酸分子のサブセットは、配列順序付けの高読み取り長特性と低伸長率特性によって、前記一定の誤差を低減させる伸長の位相と再同期するものである。
上述の態様及び実施は、必ずしも互いに包括的又は排他的なものではなく、同じ又は異なる態様又は実施に関連して提示されているかどうかに関わらず、矛盾の無いその他の可能なあらゆる様態で組み合わされてもよい。1つの態様又は実施の記述は、他の態様及び/又は実施に対して限定することを意図したものではない。また、本明細書の他の部分に記載されているあらゆる1つ以上の機能、ステップ、動作、又は手法は、代替的な実施において、発明の開示に記載されているあらゆる1つ以上の機能、ステップ、動作、又は手法と組み合わされてもよい。従って、上述の態様及び実施は、限定するものではなく、むしろ例示的なものである。
従って、本発明は、配列データ中の位相同期誤差の蓄積を最小にするフロー順序を生成する方法であって、以下のステップを含む方法を提供する:
(a)k塩基長を含むヌクレオチド種の複数の配列順序付けを生成するステップであり、ここで、配列順序付けは、合成による配列決定の反応環境にヌクレオチド種を導入する順序を規定するものである;
(b)配列順序付けを用い、1つ以上の参照ゲノムからの配列データの取得をシミュレーションするステップであり、ここで、配列データは位相同期誤差の蓄積を含むものである;及び、
(c)読み取り長パラメータ及び伸長率パラメータを用いて1つ以上の配列順序付けを選択するステップ。
配列データの取得のシミュレーションは、繰越パラメータ及び位相同期誤差の蓄積をシミュレーションする不完全伸長パラメータの使用を含む。
k塩基長は、16、24、32及び40塩基長からなる群から選択してもよい。また、k塩基長は、32〜40塩基の範囲の長さを含んでもよい。
読み取り長パラメータは、3%未満の蓄積された位相同期誤差を含む一定の読み取り長を含んでもよい。
伸長率パラメータは、1つのヌクレオチドフローが伸長させることができる鋳型分子に対して相補的な配列位置の平均数を含んでもよい。
選択された配列順序付けは、高読み取り長パラメータ及び低伸長率パラメータを含む。一態様において、読み取り長パラメータは約400bpを超え、伸長率パラメータは、0.5%不完全率かつ0.5%繰越率において約0.55bp/フロー以下である。
本発明は、また配列データ中の位相同期誤差の蓄積を最小にするフロー順序を用いて核酸鋳型の配列を決定する方法であって、以下のステップを含む方法を提供する。
(a)k塩基長を含むヌクレオチド種の配列順序付けを合成による配列決定の反応環境に導入するステップであり、ここで、ヌクレオチド種の配列順序付けは高読み取り長特性及び低伸長率特性を含むものである;
(b)実質的に同一の核酸鋳型分子の1つ以上の集団の伸長反応にヌクレオチド種を取り込むことに応答して合成による配列決定の反応環境から信号を取得するステップであり、ここで、信号は、伸長の位相から遅れた1つ以上の集団の核酸鋳型分子のサブセットからの一定の誤差を含むものである;及び、
(c)ヌクレオチド種の配列順序付けの導入及び反復回数の信号取得を周期的に反復するステップであり、ここで、核酸分子のサブセットは、配列順序付けの高読み取り長特性と低伸長率特性によって、前記一定の誤差を低減させる伸長の位相と再同期するものである。
合成による配列決定の反応環境は、ウェルのアレイを含んでもよい。k塩基長は、16、24、32、及び40塩基長からなる群から選択してもよく、あるいは32〜40個の範囲の長さを含んでもよい。読み取り長特性は、3%未満の蓄積された位相同期誤差を含む一定の読み取り長を含んでもよい。伸長率特性は、1つのヌクレオチドフローが伸長させることができる鋳型分子に対して相補的な配列位置の平均数を含む。読み取り長パラメータは、約400bpを超え、伸長率パラメータは、0.5%不完全率かつ0.5%繰越率において約0.55bp/フロー以下である。
本発明は、また配列データ中の位相同期誤差の蓄積を最小にするフロー順序を用いて核酸鋳型の配列を決定する方法であって、
(a)k塩基長、高読み取り長特性値、及び低伸長率特性値を含むヌクレオチド種の第1の配列順序付けを、合成による配列決定の反応環境に導入するステップ;
(b)実質的に同一の核酸鋳型分子の1つ以上の集団の伸長反応にヌクレオチド種を取り込むことに応答して合成による配列決定の反応環境から複数の第1の信号を取得するステップ;
(c)k塩基長、高読み取り長特性値、及び低伸長率特性値を含むヌクレオチド種の第2の配列順序付けを、合成による配列決定の反応環境に導入するステップであり、ここで、ヌクレオチド種の第2の配列順序付けは、ヌクレオチド種の第1の配列順序付けと同一ではない;及び、
(d)実質的に同一の核酸鋳型分子の1つ以上の集団の伸長反応にヌクレオチド種を取り込むことに応答して合成による配列決定の反応環境から複数の第2の信号を取得するステップ、
を含み、
第1又は第2の配列順序付けの配列組成により、1つ以上の集団の1つ以上のサブセットが伸長の位相に遅れを取り、続くフローにおける伸長の位相と再同期する方法を提供する。
再度、k塩基長は、16、24、32、及び40塩基長からなる群から選択してもよく、あるいは32〜40塩基の範囲の長さを含んでもよい。
上記及び更に別の特徴は、添付の図面と合わせて考慮すると、以下の詳細な記述から、より明確に認識される。図面において、同種の参照番号は同種の構造、要素、又はステップを示し、参照番号の最も左の数字はその参照要素が最初に現われる図面の番号を示す(例えば、構成部品160は最初に図1に現われる)。但し、これらの取決めはすべて、限定的ではなく典型的又は例示的に示すためのものである。
図1は、コンピュータ制御された配列決定装置及び反応担体の一態様の機能ブロック図である。 図2は、複数の計算されたフロー順序を用いて大腸菌参照配列に対するシミュレーションした合成による配列決定ステップの効果の簡略化された一態様のグラフ表示である。 図3は、複数の計算されたフロー順序を用いてシミュレーションした合成による配列決定ステップの、大腸菌参照配列、T.サーモフィラス配列、及びC.ジェジュニ配列の平均に対する効果の簡略化された一態様のグラフ表示である。 図4Aは、マップされた長さのヒストグラム及び塩基位置の誤差について、フロー順序である「EX1」及び「TACG」での実行とで比較した一態様の簡略化されたグラフ表示である。 図4Bは、マップされた長さのヒストグラム及び塩基位置の誤差について、フロー順序である「EX1」及び「TACG」での実行とで比較した一態様の簡略化されたグラフ表示である。
以下で詳細に記述するように、本明細書に記載の発明の態様は、一般に「合成による配列決定」(SBS)技術と呼ばれるものによって生成された核酸配列データ中の位相同期誤差を最小にするために最適化されたフロー順序の態様を生成・使用するシステムと方法を含む。本明細書に記載の「位相同期フロー順序」は、配列決定及びデータ取得ステップの間に導入された何らかのCAFIE誤差を少なくとも部分的に動的に補正することによってCAFIE誤差の蓄積を低減するように計算された配列組成を有するいかなる長さであってもよい。また、当然のことながら、位相同期フロー順序は全体の配列決定実行の単一なフロー順序でも、周期的に反復されるより短い長さのフロー順序であってもよい。
a.全般
特記しない限り、本明細書で用いられるすべての技術用語及び科学用語は、本発明が属する技術分野の当業者が一般的に理解しているものと同じ意味を有する。本明細書に記載のものと類似又は同等の方法及び材料を、本発明の実施に用いることができ、適当な方法及び材料の例を以下に記載する。例えば、2つを超えるステップを含む方法を記載することができる。そのような方法において、定められた目標を達成するために必ずしもすべてのステップは必要とされない場合があり、本発明は、単独のステップの使用によってこれらの別個の目標を実現することを想定している。すべての出版物、特許出願、特許、及びその他の参考文献の内容は引用することにより、本願に援用する。また、材料、方法、及び例は例示的なものにすぎず、限定を意図するものではない。
用語「フローグラム(flowgram)」は、一般に、SBS法、特にピロリン酸に基づく配列決定方法(「ピロシーケンシング(pyrosequencing)」とも呼ばれる)により生成された配列データをグラフ表示したものを指し、より具体的には「ピログラム(pyrogram)」と呼ぶことができる。
本明細書で用いる用語「読み取り(read)」又は「配列読み取り(sequence read)」は、一般に、1つの核酸鋳型分子から、又は実質的に同一である複数の鋳型核酸分子のコピーの集団から得られる全配列データを指す。
本明細書で用いる用語「実行(run)」又は「配列決定実行(sequencing run)」は、一般に1つ以上の鋳型核酸分子の配列決定操作において実施される一連の配列決定反応を指す。
本明細書で用いる用語「フロー(flow)」は、一般に、典型的には鋳型核酸分子を含む反復する合成による配列決定ステップの一部である反応環境へのヌクレオチド種又は試薬の一回の導入を指す。例えば、フローは、ヌクレオチド種及び/又は1種以上の試薬、例えば、配列決定ステップに使用できるか又は前のヌクレオチド種のフローからの持ち越し、或いはノイズ効果を低減するために使用できる緩衝液、洗浄液、又は酵素を含むことができる。
本明細書で用いる用語「フロー順序(flow order)」、「フローパターン(flow pattern)」、又は「ヌクレオチド分注順序(nucleotide dispensation order)」は、一般に、反応環境へのヌクレオチド種の予め決められた一連のフローを指す。いくつかの態様では、フローサイクルは4種のヌクレオチド種を、T、A、C、Gのヌクレオチド種の順序で、又は1種以上のヌクレオチド種が繰り返される他の順序で逐次添加することを含む。
本明細書で用いる用語「フローサイクル(flow cycle)」は、一般に、フロー順序の反復を指し、いくつかの態様では、フローサイクルは、サイクルごとに同じフロー順序を有する反復サイクルであり、いくつかの態様では、サイクルごとにフロー順序が変わる。
本明細書で用いる用語「読み取り長(read length)」は、一般に、信頼性をもって配列決定できる鋳型分子の長さの上限を指す。システム及び/又はプロセスの読み取り長に関与する数多くの要因が存在し、それには鋳型核酸分子中のGC含量の程度が含まれるが、これに限定されない。
本明細書で用いる用語「信号減退(signal droop)」は、一般に、読み取り長が増加すると共に検出信号強度が減少することを指す。
本明細書で用いる用語「試験断片(test fragment)」又は「TF」は、一般に、品質管理、較正、又はその他の関連する目的で使用できる既知の配列組成の核酸要素を指す。
本明細書で用いる用語「プライマー」は、一般に、適切な温度で適切な緩衝液中において、核酸鎖に相補的なプライマー伸長産物の合成が誘発される条件の下で、DNA合成の開始点として働くオリゴヌクレオチドを指す。プライマーは、好ましくは1本鎖オリゴデオキシリボヌクレオチドである。
「新生(nascent)分子」は、一般に、鋳型分子中の対応するヌクレオチド種と相補的なヌクレオチド種を取込むことにより、鋳型依存性DNAポリメラーゼによって伸長されるDNA鎖を指す。
「鋳型核酸」、「鋳型分子」、「標的核酸」、又は「標的分子」は、一般に、配列決定反応の対象であり、それから配列のデータ又は情報が生成される核酸分子を指す。
本明細書で用いる用語「ヌクレオチド種」は、一般に、典型的には新生核酸分子に取り込まれるプリン類(アデニン、グアニン)及びピリミジン類(シトシン、ウラシル、チミン)を含む核酸単量体の種類を指す。「天然」ヌクレオチド種には、例えばアデニン、グアニン、シトシン、ウラシル、及びチミンが含まれる。上記の天然ヌクレオチド種の修飾形には、α−チオ三リン酸誘導体(例えば、dATP−α−S)、ヒポキサンチン、キサンチン、7−メチルグアニン、5,6−ジヒドロウラシル、及び5−メチルシトシンが含まれるがこれらに限定されない。
本明細書で用いる用語「単量体反復配列」又は「単独重合体」は、一般的に、同じヌクレオチド種を含む2つ以上の配列位置(即ち、反復ヌクレオチド種)を指す。
本明細書で用いる用語「均質な伸長」は、一般に、実質的に同一の鋳型分子の集団の各構成員が、反応において同じ伸長ステップを均質に実施している伸長反応の関係又は位相を指す。
本明細書で用いる用語「完了効率」は、一般に、所定のフローの間に適正に伸長する新生分子の百分率を指す。
本明細書で用いる用語「不完全伸長率」は、一般に、すべての新生分子の数に対する適正に伸長できなかった新生分子の数の比率を指す。
本明細書で用いる用語「ゲノムライブラリー」又は「ショットガンライブラリー」は、一般に、生物又は個体のゲノムの全体(即ち、ゲノムの全領域)に由来し、かつ/又はこのゲノムを表す分子集合体を指す。
本明細書で用いる用語「単位複製配列(amplicon)」は、一般に、ポリメラーゼ連鎖反応法又はリガーゼ連鎖反応法から生成したもの等の選択された増幅生成物を指す。
本明細書で用いる用語「変異体(variant)」又は「対立遺伝子(allele)」は、一般に、類似するけれども互いにある程度の相異を有する配列組成をそれぞれコードする複数の種のうちの1つを指す。この相異には、一ヌクレオチド多型性(SNP)等の多型性、挿入又は欠失(挿入/欠失事象の組合せは「インデル」とも呼ばれる)、反復配列(縦列反復配列とも呼ばれる)の数の差、及び構造変化を含むがそれらに限定するものではない、当業者に公知の任意の型の遺伝的変異を含めることができる。
本明細書で用いる用語「対立遺伝子頻度(allele frequency, allelic frequency)」は、一般に、特定の変異体を含む集団中のすべての変異体の割合を指す。
本明細書で用いる用語「鍵配列(key sequence)」又は「鍵要素(key element)」は、一般に、鋳型分子から生成された配列データの品質管理基準として用いられる既知の配列組成物を含んだ既知の部位(即ち、典型的には連結されたアダプター要素に含まれる)で、鋳型核酸分子に関連付けられた核酸配列要素(典型的には、約4つの配列位置、即ち、TGAC又はヌクレオチド種のその他の組合せ)を指す。配列データは、適正な部位で鍵要素に関連付けられた既知の配列組成物を含む場合、品質管理に合格する
本明細書で用いる用語「キーパス(keypass)」又は「キーパスウェル(keypass well)」は、一般に、反応ウェル内の既知の配列組成物の全長核酸試験配列(即ち、上述の「試験断片」又は「TF」)の配列決定を指す。この場合、TF配列及び/又はTFに関連付けられた鍵配列から得られ、又は標的核酸に関連付けられたアダプターにおける配列の精度は、TF及び/又はキーの既知の配列組成物と比較され、配列決定精度の測定及び品質管理のために使用される。典型的な態様では、配列決定実行におけるウェルの総数の割合は、いくつかの態様では分散した領域に分布したキーパスウェルになる。
本明細書で用いる用語「平滑末端」は、当業者が理解している解釈と同じで、一般に、1対の相補的ヌクレオチド塩基種で終わる末端を有する線状2本鎖核酸分子を指し、その際、1対の平滑末端は、典型的には互いの連結に相性がよい。
本明細書で用いる用語「粘着末端(sticky end)」又は「突出部(overhang)」は、当業者が理解している解釈と同じで、一般に、分子の一方の鎖の末端に1つ以上の非対合ヌクレオチド種をもつ線状二本鎖核酸分子を指し、この非対合ヌクレオチド種はいずれか一方の鎖に存在し、単一の塩基位置又は複数の塩基位置を含む(「付着端(cohesive end)」とも呼ばれることがある)。
本明細書中で用いる「SPRI」は、当業者が理解している解釈と同じで、一般に「固相可逆固定(Solid Phase Reversible Immobilization)」という特許取得された技術を指し、その場合、標的核酸は特定の緩衝条件でビーズの存在下で選択的に沈降し、前記のビーズはしばしばカルボキシル化されており、常磁性である。沈降した標的核酸は、前記のビーズに固定され、操作者の要望に従って溶離緩衝液により分離されるまで結合が保たれている(DeAngelis, Margaret M. et al: Solid-Phase Reversible Immobilization for the Isolation of PCR Products(PCR生成物の単離のための固相可逆固定). Nucleic Acids Res (1995), Vol. 23:22; 4742-4743に記載されており、その内容は引用することにより、あらゆる目的で全体を本願に援用する)。
本明細書で用いる用語「カルボキシル化された」は、当業者が理解している解釈と同じで、一般に、微粒子等の材料を少なくとも1つのカルボキシル基の付加による修飾を指す。カルボキシル基はCOOH又はCOOである。
本明細書で用いる用語「常磁性」は、当業者が理解している解釈と同じで、一般にその材料の磁性が外部印加磁界の存在するところでのみ発生し、外部印加磁界が除かれると磁化は全く維持されない材料の特性を指す。
本明細書で用いる用語「ビーズ」又は「ビーズ担体」は、一般に、あらゆる好都合な大きさの、不規則又は規則的な形状のあらゆる種類の固相粒子を指し、それらは様々の既知材料、例えば、セルロース、セルロース誘導体、アクリル樹脂、ガラス、シリカゲル、ポリスチレン、ゼラチン、ポリビニルピロリドン、ビニルとアクリルアミドの共重合体、ジビニルベンゼン等で架橋したポリスチレン(例えば、Merrifield, Biochemistry 3 (1964) 1385-1390に記載されているもの)、ポリアクリルアミド、ラテックスゲル、ポリスチレン、デキストラン、ゴム、シリコン、プラスチック、ニトロセルロース、天然海綿、シリカゲル、細孔制御ガラス、金属、架橋デキストラン(例えば、Sephadex(登録商標))、アガロースゲル(Sepharose(登録商標))、及び当業者に既知の他の固相ビーズ担体から作製される。但し、当然ながら、固相担体は、細孔への流体及び/又は生体分子の浸透を可能にするある程度の空隙率を有してもよい。
本明細書で用いる用語「反応環境」は、一般的に、反応を行なうことができ、典型的にはそこに反応物を少なくとも一時的に収容又は閉じ込め、少なくとも1種類の反応生成物を検出することができる、ある体積の空間を指す。反応環境の例としては、キュベット、チューブ、ボトル、及び平面又は非平面の担体表面の1つ以上のくぼみ、ウェル、又は反応容器が挙げられるが、それらに限定されない。
本明細書で用いる用語「仮想ターミネーター」は、一般に、反応速度を実質的に低下させるターミネーターを指し、反応を停止させるための追加の段階、例えば反応物の除去を採用してもよい。
試料の調製及び処理、配列データの生成、及び配列データの分析に関連するシステム及び方法のいくつかの典型的な態様を下記に一般的に記述する。それらの一部又は全部を本明細書に記述する発明の態様に使用できる。特に、鋳型核酸分子の調製、鋳型分子の増幅、標的特異的単位複製配列及び/又はゲノムライブラリーの生成のためのシステム及び方法、配列決定法及び機器、並びにコンピュータシステムの典型的な態様を記述する。
典型的な態様において、実験試料又は診断試料に由来する核酸分子をその未処理の形から調製及び処理して高処理量配列決定に適した鋳型分子にするべきである。その処理方法は応用例によって異なっていてよく、その結果、様々な特性を含む鋳型分子が得られる。例えば、高処理量配列決定のいくつかの態様において、少なくとも特定の配列決定法が正確に配列データを生成することができる長さに匹敵する配列又は読み取り長を有する鋳型分子を生成するのが好ましい。本例において、長さには約25〜30塩基、約50〜100塩基、約200〜300塩基、約350〜500塩基、約500〜1000塩基の範囲、1000塩基より大きい長さ、又は特定の配列決定の使用に適した他の長さいずれかの長さが含まれてよい。いくつかの態様において、試料、例えばゲノム試料に由来する核酸を、当業者に既知の多数の方法を用いて断片化する。好ましい態様において、核酸を無作為に断片化する(即ち、特定の配列又は領域を選択しない)方法には、噴霧法又は超音波処理法と呼ばれる方法を含めることができる。しかし、他の断片化の方法、例えば制限エンドヌクレアーゼ(ポリヌクレオチド内部加水分解酵素)を用いる消化を断片化の目的のために用いることができるのは当然である。同様に、本例において、いくつかの処理方法では、当技術分野で既知のサイズ選択法を用い、所望の長さの核酸断片を選択的に単離してもよい。
また、いくつかの態様において、追加の機能要素をそれぞれの鋳型核酸分子に関連づけることが好ましい。その要素は、多様な機能を得るために使用でき、増幅及び/又は配列決定法のためのプライマー配列、品質管理要素(即ち、鍵要素又は他の種類の品質管理要素等)、起源試料若しくは患者試料との様々な関連付けを暗号化する固有識別子(多重識別子(multiplex identifier)又は「MID」とも呼ばれる)、又は他の機能要素が含まれるが、それらに限定されない。
例えば、本発明のいくつかの態様は、既知の識別可能な配列組成を有するMID要素の1つ以上の態様を試料と関連させ、そのMID要素の態様をその関連試料に由来する鋳型核酸分子と結合(coupling)することを含む。多数の異なる試料に由来するMIDを結合した鋳型核酸分子をためて、単一の「多重化」試料又は組成物にし、次いでそれを効率的に処理して、MIDを結合した鋳型核酸分子それぞれについての配列データを作成することができる。鋳型核酸それぞれについての配列データを復元して(de-convoluted)、結合したMID要素の配列組成を同定し、起源試料との関連性を同定する。本例において、多重化組成物は約384の試料、約96の試料、約50の試料、約20の試料、約16の試料、約12の試料、約10の試料、又は他の数の試料からの代表を含むことができる。それぞれの試料は研究の状況において異なる実験条件、処理、種、又は個人と関連付けされてもよい。同様に、それぞれの試料は診断の状況において異なる組織、細胞、個人、条件、薬物又は他の処置と関連付けされてもよい。当業者は、上記で挙げた試料の数は例の目的のためであり、従って限定するとみなすべきでないことが分かっている。
好ましい態様において、各MID要素の配列組成物は、容易に識別可能であり、配列決定ステップから導入される誤差を生じにくい。MID要素のいくつかの態様は、自然界に存在する配列との配列類似性が最小である固有の配列組成の核酸種を含む。あるいは、MID要素の態様は、自然界に存在する配列とのある程度の配列類似性を含んでいてもよい。
同様に、好ましい態様において、各々のMID要素の位置は、鋳型核酸分子及び/又はその鋳型分子に結合されたアダプター要素のいくつかの特徴に関連して知られている。各々のMIDの位置が既知であることは、配列データ中のMID要素を見出して、そして起こり得る誤差とそれに続く起源試料との関連付けについてMID配列組成を解釈するために有用である。
例えば、MID要素に対する位置的な関係のための手掛かりとして有用ないくつかの特徴には、鋳型分子の長さ(即ち、そのMID要素はその5’又は3’末端からどの位の配列位置にあるか分かっている)、MID要素に隣接して位置する識別可能な配列マーカー、例えば鍵要素及び/又は1つ以上のプライマー要素が含まれてよいが、それらに限定されない。本例において、鍵要素及びプライマー要素は一般に、典型的には多重化組成中で試料ごとに変動せず、MID要素を探すための位置の基準として用いることができる既知の配列組成を含む。応用プログラム135により実施される分析アルゴリズムは、コンピュータ130で実行されて、それぞれのMIDを結合された鋳型に関して生成された配列データを分析して、より容易に識別可能な鍵要素及び/又はプライマー要素を同定し、それらの位置から外挿してそのMID要素の配列が含まれると推定される配列領域を同定することができる。応用プログラム135は、次いでこの推定領域及びおそらくその両側の領域内のある距離離れた領域の配列組成を処理して、MID要素及びそれの配列組成を確実に同定することができる。
前記の機能性要素の一部又は全部を組み合わせてアダプター要素にし、これらを特定の処理ステップでヌクレオチド配列に結合させることができる。例えば、一部の態様は、増幅及び/又は配列決定のために用いられるプライマー配列に相補的な配列組成を含む反応開始(priming)配列要素又は領域を会合させることができる。更に、これらの同じ要素を、「鎖選択」と呼ぶことができる方法及び固相担体への核酸分子の固定のために使用できる。一部の態様において、2組の反応開始配列領域(以後、反応開始配列A及び反応開始配列Bと呼ぶ)を鎖選択に使用でき、その場合、反応開始配列Aの単一の複製物及び反応開始配列Bの単一の複製物をもつ一本鎖のみを選択し、調製試料として含める。別の態様において、アダプター要素の設計機能により鎖選択の必要がなくなる。その同じ反応開始配列領域を増幅及び固定のための方法に使用でき、その場合、例えば、反応開始配列Bを固体担体表面に固定することができ、増幅産物をそれから伸長させる。
断片化、鎖選択、並びに機能要素及びアダプターの付加のための試料処理の更なる例は、2004年1月28日に出願された「Method for preparing single-stranded DNA libraries(一本鎖DNAライブラリーを調製するための方法)」と題された米国特許出願番号第10/767,894号、2008年5月29日に出願された「System and Method for Identification of Individual Samples from a Multiplex Mixture(多重化混合物からの個々の試料を特定するための装置及び方法)」と題された米国特許出願番号第12/156,242号、及び2009年2月23日に出願された「System and Method for Improved Processing of Nucleic Acids for Production of Sequencable Libraries(配列決定可能なライブラリーの作製のための改良された核酸処理のためのシステム及び方法)」と題された米国特許出願番号第12/380,139号において記載されており、それぞれの内容は引用することにより、あらゆる目的で全体を本願に援用する。
鋳型核酸分子の増幅を実施して実質的に同一であるコピーの集団を生成するためのシステム及び方法の様々な例を記載する。SBSのいくつかの態様では、1種以上のヌクレオチド種を鋳型分子のコピーと関連するそれぞれの新生分子に取り込ませる際に、それぞれの核酸要素の多数のコピーを生成させてより強い信号を発生させるのが望ましいことは当業者に明らかである。核酸分子のコピーを作成するための当技術分野で既知の手法が多数ある。例えば細菌ベクターの「ローリングサークル」増幅と呼ばれる方法(上記で引用することにより援用した、米国特許第6,274,320号及び第7,211,390号に記載されている)及びポリメラーゼ連鎖反応(PCR)法を用いる増幅のような、核酸分子のコピーを生成するための当技術で既知の多くの技法が存在し、その技法のそれぞれが本明細書で記述する発明に使用することができる。高処理量用途に特に適したPCR法のひとつには、エマルションPCR法(emPCR法とも呼ばれる)が含まれる。
エマルションPCR法の典型的な態様には、2種類の非混和性物質の安定なエマルションを形成して、その内部で反応を行なうことができる水性液滴を形成することが含まれる。特に、PCR法に使用するのに適したエマルションの水性液滴には、別の流体、例えば典型的にはある種の油が含まれる疎水性流体(連続相とも呼ばれる)内で液滴(不連続相とも呼ばれる)として懸濁又は分散されている第1の流体、例えば水に基づく流体が含まれてよい。使用できる油の例としてはミネラル油、シリコーン油、又はフッ素化油が挙げられるが、これらに限定されない。
更に、エマルションのいくつかの態様は、エマルションを安定化する作用をもつ界面活性剤を使用でき、これはPCR等特定の処理法に特に有用な可能性がある。界面活性剤のいくつかの態様には、1種類以上のシリコーン界面活性剤又はフッ素化界面活性剤を含めることができる。例えば、1種類以上の非イオン界面活性剤を使用でき、それには、モノオレイン酸ソルビタン(Span80とも呼ばれる)、モノオレイン酸ポリオキシエチレンソルビタン(Tween80とも呼ばれる)、又はいくつかの好ましい態様において、ジメチコーンコポリオール(dimethicone copolyol)(Abil EM90とも呼ばれる)、ポリシロキサン、ポリアルキルポリエーテル共重合体、ポレグリセロールエステル、ポロキサマー(poloxamer)類、及びPVP/ヘキサデカン共重合体(Unimer U−151とも呼ばれる)、或いはより好ましい態様において、シクロペンタシロキサン中の高分子量シリコーンポリエーテル(DC 5225Cとも呼ばれ、Dow Corningから入手できる)が含まれるが、これらに限定されない。
エマルションの液滴は、区画、マイクロカプセル、マイクロリアクター、微小環境、又は関連技術分野で一般に用いられる他の名称でも呼ぶことができる。水性液滴は、エマルションの成分又は組成物の組成、それに収容される内容物、及び採用する調製法に応じて変動するサイズ範囲にあってよい。前記エマルションは、その内部でPCR等の化学反応を実施できる微小環境を形成する。例えば、鋳型核酸及び所望のPCR反応を行うのに必要なすべての試薬は、カプセル封入することができ、かつエマルションの液滴中に化学的に隔離することができる。いくつかの態様においては追加の界面活性剤又は安定剤を用いて、前記の液滴の安定性をさらに増強することができる。PCR法に典型的な熱サイクル操作は、カプセル封入された核酸鋳型を増幅するために液滴を使用して実行し、その結果、鋳型核酸の、多くの実質的に同一な複製物を含んだ集団が生成することができる。いくつかの態様において、液滴内の集団を「クローン隔離された」、「区画化された」、「封鎖された」、「カプセル封入された」、又は「局在化した」集団と呼ぶことができる。同様に本例において、前記の液滴の一部又は全部はさらに、鋳型及び鋳型の増幅コピー、鋳型に相補的な増幅コピー、又はその組合せを付着させるための、ビーズ等の固体担体を封入することができる。さらに固体担体は、他のタイプの核酸、試薬、標識、又は対象とする他の分子の付着を可能にする。
エマルションを破壊してビーズを回収した後、典型的態様において、それに固定した鋳型核酸分子の増幅に成功した実質的に同一であるコピーの集団を含むビーズを「濃縮」することが望ましい。例えば、「DNA陽性」ビーズを濃縮するための方法には、固定された増幅コピーの遊離末端領域(典型的にはアダプター配列中にある)にプライマー種をハイブリダイズさせ、そのプライマーをポリメラーゼ仲介延長反応により伸長させ、そのプライマーを濃縮用担体、例えば磁性ビーズ又はセファロースビーズに結合させることが含まれてもよい。それらのビーズを含む溶液に選択的条件、例えば磁場をかけるか又は遠心分離を施すことができ、その際、濃縮用ビーズはその選択的条件に応答し、「DNA陰性」ビーズ(即ち、固定されたコピーを全く又はわずかしか含まない)から分離される。
本明細書に記載する発明に有用なエマルションの態様は、前記の化学反応を多量に並行して実施できるきわめて高密度の液滴又はマイクロカプセルを含むことができる。増幅に用いるエマルション及び配列決定用としてのそれらの使用の他の例は、米国特許第7,638,276号、同7,622,280号、同7,842,457号、同7,927,797号、及び同8,012,690号、並びに米国特許出願第13/033,240号に記載されており、それぞれの内容は引用することにより、あらゆる目的で全体を本願に援用する。
時には超深度配列決定(Ultra-Deep Sequencing)と呼ばれる配列決定用の標的特異的単位複製配列を生成する態様も、標的核酸を含む試料から選択した標的領域(単数又は複数)を増幅するための特異的核酸プライマーの一式の使用を含む本明細書に記載する発明に使用できる。さらに、試料は、研究又は診断用途と関連する配列組成を含む配列変異体を含有することが分かっているか又はその疑いがある核酸分子の集団を含むことができ、その際、それらのプライマーを用いて試料中の配列変異体を増幅させ、その分布を見抜くことができる。例えば、核酸試料中の多数の対立遺伝子の特異的増幅及び配列決定により配列変異体を同定するための方法を実施することができる。対象とする領域又は核酸集団に共通の区分(segment)を囲む領域を増幅するように設計したPCRプライマー対により、核酸をまず増幅させる。PCR反応の各生成物(第1単位複製配列)を、次いで別々の反応容器、例えば前記のエマルションに基づく反応容器内でさらに個別に増幅させる。それぞれ第1単位複製配列集団の1構成員に由来する得られた単位複製配列(本明細書中で第2単位複製配列と呼ぶ)を配列決定し、この配列集合体を用いて、存在する1種類以上の変異体の対立遺伝子頻度を決定する。重要なことは、この方法は存在する変異体を予め知る必要がなく、典型的には核酸分子の集団中に1%未満の頻度で存在する変異体を同定できることである。
前記の標的特異的な増幅及び配列決定法のいくつかの利点には、これまで達成されたものより高いレベルの感度が含まれ、これは鋳型核酸分子の混合集団を含む方式に特に有用である。更に、高処理量配列決定機器を用いる態様、例えば454 Life Sciences Corporationにより提供されるPicoTiterPlateアレイ(PTPプレート又はアレイとも呼ばれることもある)のウェルと呼ばれるものを用いる態様において、前記方法は実行又は実験1回につき100,000超、300,000超、500,000超、又は1,000,000超の核酸領域に関する配列組成を生成するのに使用することができ、また、この方法は少なくとも部分的に利用者の好み、例えばガスケット等の使用により可能になるレーン構成に依存するかもしれない。また、前記方法は、試料中に存在する対立遺伝子変異体の1%以下である可能性がある低存在度の対立遺伝子を検出する感度を提供する。前記方法の他の利点には、分析した領域の配列を含むデータが生成されることが含まれる。重要なことは、分析される遺伝子座の配列の予備知識をもつ必要がないことである。
配列決定のための標的特異的単位複製配列の更なる例が、2005年4月12日に出願された「Methods for determining sequence variants using ultra-deep sequencing(超深度配列決定を用いて配列変異体を決定するための方法)」と題された米国特許出願番号第11/104,781号、2008年3月14日に出願された「System and Method for Detection of HIV Drug Resistant Variants(HIV薬物耐性変異体の検出のためのシステム及び方法)」と題されたPCT特許出願番号第US2008/003424号、2009年6月17日に出願された「System and Method for Detection of HIV Tropism Variants(HIV向性変異体の検出のためのシステム及び方法)」と題された米国特許第7,888,034号、2009年11月19日に出願された「SYSTEM AND METHOD FOR DETECTION OF HIV INTEGRASE VARIANTS(HIVインテグラーゼ変異体の検出のためのシステム及び方法)」と題された米国特許出願番号第12/592,243号において記載されており、それぞれの内容は引用することにより、あらゆる目的で全体を本願に援用する。
更に、配列決定の態様は、サンガー(Sanger)型手法、即ち、一般にハイブリダイゼーションによる配列決定(Sequencing by Hybridization)(SBH)、連結による配列決定(Sequencing by Ligation)(SBL)、又は取り込みによる配列決定(Sequencing by Incorporation)(SBI)と呼ばれる手法を含むことができる。配列決定法には、ポロニー配列決定法(polony sequencing technique)と呼ばれるもの、並びにナノポア、導波、及び他の単分子検出法、又は可逆性ターミネーター法も含めることができる。前記のように、好ましい手法には、合成による配列決定(Sequencing by Synthesis)法を含めることができる。例えば、いくつかのSBS態様は、核酸鋳型の実質的に同一であるコピーの集団を配列決定するものであり、一般的に、試料鋳型分子の予め定めた相補的位置にアニールするように設計された1つ以上のオリゴヌクレオチドプライマー、又は鋳型分子に結合した1つ以上のアダプターを用いる。このプライマー/鋳型複合体に、核酸ポリメラーゼ酵素の存在下でヌクレオチド種が提示される。そのヌクレオチド種が、試料鋳型分子のオリゴヌクレオチドプライマーの3’末端のすぐ隣の配列位置に対応する核酸種に対して相補的であれば、ポリメラーゼがそのヌクレオチド種でプライマーを伸長する。あるいは、いくつかの態様において、プライマー/鋳型複合体に複数の対象とするヌクレオチド種(典型的にはA、G、C、及びT)が一度に与えられ、オリゴヌクレオチドプライマーの3’末端に直接隣接している試料鋳型分子の対応する配列位置で相補的なヌクレオチド種が取り込まれる。上記のいずれの態様においても、それ以上の延長を阻止するためにヌクレオチド種を化学的に保護する(例えば、3’−O位置において)ことができ、それは次回の合成の前に脱ブロックする必要がある。当然であるが、ヌクレオチド種を新生分子の末端に付加するプロセスは、プライマーの末端への付加について前記に述べたものと実質的に同じである。
上記のように、ヌクレオチド種の取り込みは当技術分野で知られている様々な方法により、例えば光を発生する酵素反応過程を用いてピロリン酸(PPi)の放出を検出することにより、又は水素イオン(H)放出の検出及びpHの変化の測定により(例は、米国特許第6,210,891号、第6,258,568号、及び第6,828,100号に記載されており、それぞれの内容は引用することにより、あらゆる目的で全体を本願に援用する)、又はそのヌクレオチドに結合させた検出可能な標識により検出することができる。検出可能な標識のいくつかの例には、質量タグ及び蛍光又は化学発光標識が含まれるが、それらに限定されない。典型的な態様において、取り込まれなかったヌクレオチドは例えば洗浄により除去される。更に、いくつかの態様において、その組み込まれなかったヌクレオチドに、例えば2008年6月27日に出願された「System and Method for Adaptive Reagent Control in Nucleic Acid Sequencing(核酸配列決定における適応性試薬制御のためのシステム及び方法)」と題された米国特許出願番号第12/215,455号、及び2009年1月29日に出願された「System and Method for Improved Signal Detection in Nucleic Acid Sequencing(核酸配列決定における向上した信号検出のためのシステム及び方法)」と題された米国特許出番号第12/322,284号(それぞれの内容は引用することにより、あらゆる目的で全体を本願に援用する)に記載されているようなアピラーゼ又はピロホスファターゼ酵素を用いる分解等の酵素的分解を施すことができる。
検出可能な標識が使用される態様では、検出可能な標識を、典型的には次の合成サイクルの前に(例えば、化学的切断又は光脱色により)不活性にする必要がある。次いで、鋳型/ポリメラーゼ複合体中の次の配列位置を、上述のように、別のヌクレオチド種、又は複数の対象とするヌクレオチド種を用いて照会することができる。ヌクレオチド付加、伸長、信号取得、及び洗浄からなるサイクルが繰り返された結果、鋳型鎖のヌクレオチド配列が決定される。本例を続けることにより、信頼できる検出のために十分に強い信号を実現するために、実質的に同一の多数の鋳型分子又は集団(例えば、10、10、10、10、又は10個の分子)が、任意の1つの配列決定反応で同時に分析される。
更に、いくつかの態様において、「対合末端(paired-end)」配列決定法とでも呼ばれる方法を用いることにより配列決定ステップの読み取り長能力及び質を改善することが有利であると考えられる。例えば、いくつかの態様の配列決定法では、高品質で信頼できる読み取りを得ることができる分子の全長に制限がある。言い換えると、信頼できる読み取り長を得るための配列位置の総数は、使用する配列決定の態様に依存し、25、50、100、又は500塩基を超えることができない。対合末端配列決定法は、それぞれの末端が中央でリンカー配列により連結した元の鋳型核酸分子の断片を含む分子のそれぞれの末端(「タグ」末端と呼ばれることもある)を個別に配列決定することによって、信頼できる読み取り長を延長する。それらの鋳型断片の元の位置関係は分かっているので、配列読み取りから得られるデータを再度組み合わせて、より長い高品質の読み取り長をもつ単一の読み取りにすることができる。対合末端配列決定の態様の更なる例は、「対合末端配列決定(Paired end sequencing)」と題された米国特許第7,601,499号、及び2009年1月28日に出願された「対合末端配列決定」と題された米国特許出願番号第12/322,119号に記載されており、それぞれの内容は引用することにより、あらゆる目的で全体を本願に援用する。
SBS装置のいくつかの例は上記の方法の一部又は全部を実施することができ、それには検出装置、例えば光学的検出のための電荷結合装置(即ち、CCDカメラ)若しくは共焦点型構築物、イオン若しくは化学物質の検出用構築物のためのイオン感応性電界効果トランジスタ(Ion-Sensitive Field Effect Transistor)(「ISFET」とも呼ばれる)若しくは化学感応性電界効果トランジスタ(Chemical-Sensitive Field Effect Transistor)(「ChemFET」とも呼ばれる)、微少流体反応器若しくはフローセル、反応担体、及び/又はポンプ及び流動弁の内の1種類以上を含むことができる。ピロリン酸に基づく配列決定法の例をとれば、いくつかの態様の装置は、発生する背景ノイズのレベルが本質的に低い化学発光検出法を採用できる。
いくつかの態様において、配列決定のための反応担体には、平面担体、例えばスライド型担体、ISFET検出要素を収容したウェル型構造物を含む半導体チップ、又はいくつかの態様においてウェル型構造物を含むことができる導波管型反応担体を含めることができる。さらに、反応担体には、前記のように454 Life Sciences Corporationから入手できるPTPアレイと呼ばれるものを含めることができ、これは実質的に同一である鋳型分子の集団をそれぞれが保持できるようにした無数のきわめて小さなウェルを生成するように酸エッチングされた光ファイバー面板から形成される(即ち、いくつかの好ましい態様は、約330万個のウェルを70×75mmのPTPアレイに35μmのウェル間隔幅で含む)。いくつかの態様において、実質的に同一である鋳型分子の各集団をそれぞれ、固体担体、例えばビーズ表面に配置することができ、そのそれぞれを上記のウェルの1つの中に配置することができる。例えば、ある装置では、流体試薬をPTPプレートホルダーへ供給するための試薬送達要素、及びPTPプレートのそれぞれのウェルから放射された光の光子を収集できるCCD型検出装置が含まれてもよい。改善された信号認識のための特性を含む反応担体の例は、2005年8月30日に出願された「THIN-FILM COATED MICROWELL ARRAYS AND METHODS OF MAKING SAME(薄膜でコートされたマイクロウェルアレイ及び同じものを作る方法)」と題された米国特許第7,682,816号において記載されており、その内容は引用することにより、あらゆる目的で全体を本願に援用する。SBS型配列決定及びピロリン酸配列決定を実施するための装置及び方法の更なる他の例が米国特許第7,323,305号及び同第7,575,865号において記載されており、その両方の内容は引用することにより、本願に援用する。
更に、1つ以上の試料調製ステップ、例えば、上記のemPCRステップを自動化するシステム及び方法を採用できる。例えば、自動化された系は、emPCR処理用のエマルションを生成するのに有効な溶液を提供するPCR熱サイクル操作を実施すること及び配列決定用の核酸分子のうまく調製された集団の濃縮をすること等に利用することができる。自動化された試料調製システムの例は、米国特許第7,927,797号及び米国特許出願番号第13/045,210号に記載されており、それぞれの内容は引用することにより、あらゆる目的で全体を本願に援用する。
また、本明細書の態様に記載する発明のシステム及び方法には、コンピュータシステムで実行するために記憶させたコンピュータで読み取り可能な媒体を用いるいくつかの設計、分析、又は他の操作の実施が含まれてもよい。例えば、検出された信号を処理する、及び/又はSBS系及び方法を用いて生成されたデータを分析するためのいくつかの態様が下記で詳細に記述されており、その処理及び分析の態様はコンピュータシステムで実施可能である。
いくつかの態様では、データ処理応用プログラムは、CAFIE誤差の蓄積の生配列データを補正するためのアルゴリズムを含む。例えば、CAFIE誤差要因の一部又はすべてを正確に近似計算して理論上のフローグラムモデルに使用して、実際の配列決定実行から得られる実データの表現を提供し、続いて反転数学モデルを用いて、観察されたフローグラムから理論上のフローグラムを近似計算する。従って、誤差の近似計算は、観察されたフローグラムに表現される実際の配列決定データに使用することができ、すべて又は実質的にすべての誤差要因が除去された目的の核酸の配列組成を表現する理論上のフローグラムを作成する。CAFIE補正の態様の更なる例は、米国特許第8,301,394号及び同第8,364,417号に記載されており、それぞれの内容は引用することにより、あらゆる目的で全体を本願に援用する。
本明細書に記述された発明に使用するコンピュータシステムの代表的態様には、あらゆる種類のコンピュータプラットホーム、例えば、ワークステーション、パーソナルコンピュータ、サーバ、又はあらゆる他の現在又は将来のコンピュータが含まれてもよい。但し、本明細書に記述された上記コンピュータプラットホームは本発明の特殊な操作を実施するために特別に構築されたものであり、汎用コンピュータとは考えられないことは、当業者は分かっている。コンピュータには、典型的には、既知の構成要素、例えばプロセッサ、オペレーティングシステム、システムメモリ、メモリ記憶装置、入出力制御装置、入出力装置、及び表示装置が含まれる。コンピュータの多くの可能性のある構成及び構成要素は多数あり、それにはキャッシュメモリ、データバックアップ装置、及び他の多数の装置も含まれることも当業者は理解している。
表示装置には視覚情報を提供する表示装置が含まれてよく、この情報は典型的にはピクセルのアレイとして論理的及び/又は物理的に組織化されていてよい。インターフェース制御装置も含まれてもよく、それは入出力インターフェースを提供するための多様な既知又は将来のソフトウェアプログラムの任意のものを含むことができる。例えば、インターフェースには1種類以上の図形表現を使用者に提供する、一般に「図形使用者インターフェース(Graphical User Interface)」と呼ばれるもの(GUIと呼ばれることが多い)が含まれてもよい。インターフェースは典型的には、当業者には既知の選択若しくは入力の手段を用いて使用者の入力を受けることができるようになっている。
同じ又は別の態様において、コンピュータの応用プログラムには「コマンドラインインターフェース」と呼ばれる(CLIと呼ばれることが多い)ものを含むインターフェースを使用できる。CLIは典型的には応用プログラムと使用者の間のテキストに基づく対話を提供する。典型的には、コマンドラインインターフェースは、表示装置を通してテキストのラインとして出力を与え、入力を受ける。例えば、一部の実施には「シェル」と呼ばれるもの、例えば、当業者に既知のUnix(登録商標)シェル、又はMicrosoft.NETフレームワーク等のオブジェクト指向型プログラミングアーキテクチャを用いるMicrosoft Windows Powershellを含むことができる。
当業者は、インターフェースに1つ以上のGUI、CLI又はそれらの組み合わせが含まれてよいことを理解している。
処理装置には、市販の処理装置、例えばIntel Corporation製のCeleron、Core、又はPentium(登録商標)処理装置、Sun Microsystemsにより作られたSPARC処理装置、AMD corporation製のAthlon、Sempron、Phenom、又はOpteron処理装置が含まれてよく、又はそれは入手可能な、又は今後入手可能になる他の処理装置の1つであってもよい。処理装置のいくつかの態様は、マルチコア処理装置と呼ばれるもの、及び/又は単独又は多重コア構成の並列処理技術を用いることにしたものを含むことができる。例えば、マルチコアアーキテクチャは典型的には2個以上の処理装置の「実行コア」を含む。本例では、それぞれの実行コアは多重スレッドの並列実行を可能にする独立した処理装置として機能することができる。更に、処理装置は一般に32又は64ビットアーキテクチャと呼ばれるもの、又は現在知られている又は将来開発される可能性のある他のアーキテクチャ構成物で構成されていてよいことを当業者は理解している。
処理装置は典型的にはオペレーティングシステムを実行し、それは例えばMicrosoft CorporationからのWindows(登録商標)型オペレーティングシステム(例えばWindows XP、Windows Vista、又はWindows_7)、Apple Computer Corp.からのMac OS Xオペレーティングシステム(例えばMac OS X v10.6「Snow Leopard」オペレーティングシステム)、多数の業者若しくはオープンソースと呼ばれるものから入手可能なUnix(登録商標)若しくはLinux(登録商標)型オペレーティングシステム、別の若しくは未来のオペレーティングシステム、又はその何らかの組み合わせであってよい。オペレーティングシステムは周知の方式でファームウェア及びハードウェアとインターフェース構築されており、様々なプログラミング言語で書かれる可能性のある各種コンピュータプログラムの機能をプロセッサが組み合わせて実行するのを容易にする。オペレーティングシステムは、典型的には処理装置と協同して、コンピュータの他の構成要素の機能を組み合わせて実行する。オペレーティングシステムはスケジューリング、入出力制御、ファイル及びデータの管理、メモリ管理、並びに通信制御及び関連するサービスも提供し、それらはすべて既知の技術に従う。
システムメモリには、様々な既知の、又は未来のメモリ記憶装置の任意のもの含めることができる。例としては、任意の一般的に入手可能なランダムアクセスメモリ(RAM)、磁気媒体(例えば常駐ハードディスク若しくはテープ)、光学媒体(例えば読み取り及び書き込み用コンパクトディスク)、又は他のメモリ記憶装置を挙げられる。メモリ記憶装置には、コンパクトディスクドライブ、テープドライブ、着脱式ハードディスクドライブ、USB若しくはフラッシュドライブ、又はディスケットドライブが含まれる様々な既知の、又は未来の装置の任意のものを含めることができる。そのような種類のメモリ記憶装置は典型的にはプログラム記憶媒体、例えばそれぞれコンパクトディスク、磁気テープ、着脱式ハードディスク、USB若しくはフラッシュドライブ、又はフロッピー(登録商標)ディスクから読み取り、及び/又はそれらに書き込む。これらのプログラム記憶媒体、又は現在用いられている、又は後に開発される可能性のある他のものすべてが、コンピュータプログラム製品と考えることができる。当然であるが、これらのプログラム記憶媒体は、典型的にはコンピュータソフトウェアプログラム及び/又はデータを記憶する。コンピュータ制御論理とも呼ばれるコンピュータソフトウェアプログラムは、典型的にはシステムメモリ及び/又はメモリ記憶装置と合わせて用いられるプログラム記憶装置中に記憶されている。
いくつかの態様において、その中に記憶された制御論理(プログラムコードが含まれるコンピュータソフトウェアプログラム)を有するコンピュータで使用可能な媒体を含むコンピュータプログラム製品を記述する。その制御論理は、処理装置により実行されると、処理装置に本明細書で記述した機能を実行させる。他の態様において、一部の機能は例えばハードウェア状態機械(hardware state machine)を用いて、主にハードウェアにおいて実施される。本明細書で記述した機能を実施するハードウェア状態機械の実施は当業者には明らかである。
入出力制御装置は、ヒトであろうと機械であろうと、ローカルであろうと遠隔であろうと、使用者からの情報を受け取り、処理するための任意の様々な既知の装置を含むことができる。そのような装置としては、例えば、モデムカード、ワイヤレスカード、ネットワークインターフェイスカード、サウンドカード、又は任意の様々な既知の入力装置の他の種類の制御装置が挙げられる。出力制御装置は、ヒトであろうと機械であろうと、ローカルであろうと遠隔であろうと、使用者に情報を与えるための任意の様々な既知の表示装置のための制御装置が含むことができる。本明細書で記述した態様において、コンピュータの機能要素はシステムバスを介して互いと通信する。コンピュータのいくつかの態様では、ネットワーク又は他の種類の遠隔通信を用いていくつかの機能要素と通信することができる。
当業者には自明であるが、機器制御及び/又はデータ処理応用プログラムは、ソフトウェアで実施される場合、システムメモリ及び/又はメモリ記憶装置にロードされ、それから実行できる。機器制御及び/又はデータ処理応用プログラムの全部又は一部がそのメモリ記憶装置の読み取り専用メモリ又はそれに類する装置中に存在していてもよく、そのような装置はその機器制御及び/又はデータ処理応用プログラムを入出力制御装置によって最初にロードする必要はない。当業者には、機器制御及び/又はデータ処理応用プログラム、又はその一部を処理装置によって既知の方法で、実行に有利なようにシステムメモリ若しくはキャッシュメモリ又は両方にロードしてもよいことは、当業者には理解される。
また、コンピュータは、システムメモリ中に記憶された1つ以上のライブラリーファイル、実験データファイル、及びインターネットクライアントを含むことができる。例えば、実験データは、1つ以上の実験若しくはアッセイに関連するデータ、例えば1つ以上のSBS実験又は方法と関係する検出信号値、又は他の値を含むことができる。更に、インターネットクライアントは、ネットワークを用いて別のコンピュータの遠隔サービスにアクセスすることを可能にする応用プログラムを含んでもよく、例えば一般に「ウェブブラウザ」と呼ばれるものを含んでいてもよい。本例において、いくつかの一般的に用いられるウェブブラウザには、Microsoft Corporationから入手できるMicrosoft Internet Explorer 8、Mozilla CorporationからのMozilla Firefox 3.6、Apple Computer Corp.からのSafari 4、Google CorporationからのGoogle Chrome、又は当技術分野で現在知られている、若しくは将来開発される可能性のある他の種類のウェブブラウザが含まれる。同様に、同じ又は他の態様において、インターネットクライアントにはネットワークを介して遠隔情報にアクセスできるように特殊化されたソフトウェア応用プログラム、例えば生物学的応用プログラム用のデータ処理応用プログラムが含まれていてよく、又はインターネットクライアントはそれらの要素であってもよい。
ネットワークは、当業者に周知の多種多様な種類のネットワークの内の1種以上を含むことができる。例えば、ネットワークは、一般にTCP/IPプロトコルスイートと呼ばれるものを通信に用いるローカルエリアネットワーク又は広域ネットワークを含めることができる。ネットワークには、一般にインターネットと呼ばれる世界的な相互接続されたコンピューターネットワークのシステムを含むネットワークを含むことができるか、あるいはイントラネットアーキテクチャーも含むことができる。ネットワーク接続環境にある使用者によっては、一般に「ファイアウォール」と呼ばれるもの(場合によりパケットフィルタ、又はボーダー保護デバイスと呼ばれる)を使用して、ハードウェア及び/又はソフトウェアシステムとを往来する情報トラフィックを制御することを好む場合があることも当業者は理解する。例えば、ファイアウォールはハードウェア若しくはソフトウェア要素又はその何らかの組合せを含むことができ、一般に、例えば、ネットワーク管理者等の使用者が導入したセキュリティー基本方針を整備するように設計されている。
b.本明細書に記載された発明の態様
上述したように、本明細書に記述された発明は、一般にSBS法と呼ばれるものによって生成される核酸配列データの位相同期誤差の蓄積を最小にするように設計された位相同期フロー順序の態様を生成及び使用するシステム及び方法に関する。
典型的な配列決定の態様において、1つ以上の工程ステップを自動化する1つ以上の機器要素を使用できる。例えば、配列決定法の態様は、一部又は全部の段階を自動化して実施する機器装備を用いて実行できる。図1は、配列決定機器100の図例を示し、これは、光信号を捕獲する必要がある配列決定ステップのために、一般に、反応担体105で行なわれる配列決定反応の実行及びデータ取得のための光学サブシステム及び流体サブシステムを含む。しかし、他のモードのデータ取得(即ち、pH、温度、電流、電気化学等)を必要とする配列決定法についてはそのモードのデータ取得のための当業者に既知のサブシステムを採用できることは当然である。例えば、鋳型分子の試料を使用者101又は何らかの自動化態様により反応担体105に装填し、次いで配列決定機器100を用いて多量に並行して配列決定して、それぞれの鋳型分子の配列組成を示す配列データを得ることができる。重要なことだが、使用者101には配列決定技術のいかなる種類の使用者を含んでもよい。
いくつかの態様において、機器100を用いる配列決定の必要な試料調製ステップの一部又は全部を実施するように構成された試料調製機器180を用いて、試料を所望により全自動化又は部分自動化様式での配列決定用に調製できる。試料調製機器180は説明のために提示され、個々の配列決定アッセイに必要な試料調製と関連する段階の一部又は全部を実施するようにそれぞれ設計された1台以上の機器を表わしてよいことを当業者は分かっている。試料調製機器の例には、ロボット式プラットホーム、例えばHamilton Robotics、Fluidigm Corporation、Beckman Coulter、又はCaliper Life Sciencesから入手できるものが含まれる。
さらに、図1に示すように、配列決定機器100は1つ以上の外部コンピュータ構成要素、例えばコンピュータ130に作動可能な状態で連携していてもよく、これは例えばシステムソフトウェア又はファームウェア、例えば応用プログラム135を実行することができ、これは1つ以上の機器、例えば配列決定機器100又は試料調製機器180の指示制御、及び/又はデータ分析機能を提供できる。コンピュータ130は更に他のコンピュータ又はサーバにネットワーク150を介して作動可能な状態で接続していてもよく、これは機器システムを遠隔操作でき、大量のデータを記憶及び処理が可能なシステムに出力(export)することができる。本例において、配列決定機器100及び/又はコンピュータ130は、本明細書に一般的に記載した態様の構成要素及び特徴の一部又は全部を含むことができる。
上述したように、いくつかの既述した態様は、各々のフローの検出された信号値を補正し、一定のレベルのCF及びIEを仮定して、任意の既知の配列について位相同調喪失の程度を計算することによって蓄積されたCAFIE誤差を説明するシステム及び方法を含む。
以下に例示した表1は、様々な読み取り長について、99%以上の精度をもたらす(即ち、読み取りが鋳型分子の実際の配列の少なくとも99%を表す)、IE及びCFについての数学的にモデル化された閾値の例を提供する。表1に示す予測値は、様々な読み取り長の配列決定精度、及び約99%の読込み精度を達成するのに許容可能なIE及びCF誤差の程度に及ぼすCF及びIE効果の影響を示す。表1は、補正されていない読み取りについて、約100の配列位置の読み取り長が99%正確である(即ち、99%以上の完了効率)ために、1%以下のCF率が許容できる(その集団についてのIEが0に等しいと仮定して)ことを示す。さらに、約100の配列位置の読み取り長が99%正確であるために、0.25%以下のIE率が許容できる(CF率が0に等しいと仮定して)。
表1に与えられた値は、例示の目的のみのためであり、限定のためとみなされるべきでないことは当然である。ゲノム配列又は参照配列、及び予測を立てるのに使用される他のパラメータ等のいくつかの要因が、値のばらつきの一因となり得ることを、当業者は分かっている。例えば、SBS法の典型的な態様では、一般に、1〜2%の範囲であるCF率を実現する一方で、IE率は、0.1〜0.4%の範囲である(即ち、完了効率は99.6〜99.9%の範囲である)。上述したように、位相同調性の喪失は、読み取り長に対して蓄積作用を有し、読み取り長が長くなるにつれて読み取りの品質を劣化させるので、CF及びIEの補正及び/又は低減は望ましい。
いくつかの先に記載した態様では、CF及びIEの両方を表す値は、例えば、PicoTiterPlateアレイ又はISFET型デバイス等の他のタイプのウェルのアレイの1つのウェル内に存在する鋳型分子の集団等の実質的に同一の鋳型分子集団の読み取り全体にわたって実質的に一定であると仮定される。その結果、鋳型分子の実際の配列の何らかの先験的な知識がなくても、2つの単純なパラメータである「完了効率」及び「繰越」を使用して、読み取り全体にわたる各配列位置の数値を補正することができる。先に記載した態様のシステム及び方法は、鋳型分子の集団中に発生するCF及びIEの量を求め、これらを補正するのに非常に効果的であることが見出された。例えば、CF及びIEを説明するために、各ウェル中に存在する実質的に同一の鋳型分子の各集団について、各フローから検出される信号値の補正を適用する既出の補正の態様が実施された。
既述の態様は、位相同調の欠如を非線形マッピングとしてモデル化する。即ち、
方程式(1):
M(p,ε,λ)=q
ここで、
− Mは、CAFIEマッピングであり、
− pは、理論上のフローグラム[アレイとして]であり、
− λは、完了効率パラメータであり、
− εは、繰越パラメータであり、
− qは、観察されたフローグラム[アレイとして]である。
理論上のフローグラムを、方程式(1)のマッピングモデル式を使用して現実に観察されたフローグラムに変換することによって、IE及びCFを見積もることができる。そのようなマッピング式のモデルは、例えば、既知の配列を有するポリヌクレオチド鋳型分子を配列決定することにより観察されたフローグラム(q)に導入される誤差を分析することによって生成することができる。
例えば、理論上のフローグラム(p)は、反応環境に導入されたヌクレオチド種に関連した理想化された信号強度値を提供し、理論上のフローグラムのそれぞれの理想化された値は、整数又はゼロである。本例では、「1」の値は、1個のヌクレオチド取り込みによって誘発された100%検出された信号強度を表し、「0」は、0%の信号を表す(例えば、100万の実質的に同一の鋳型分子及び100万の新生分子の集団を含むウェル中で、「1」は、すべての新生分子が1個のヌクレオチドによって伸長される場合に誘発される信号を表し、「2」は、すべての新生分子が2個のヌクレオチドによって伸長される場合に誘発される信号を表す)。あるいは、観察された(又はシミュレーションされた)フローグラム(q)は、反応環境に導入されたヌクレオチド種に関連した実際に測定された信号強度値を提供する。
本例では、理論上のフローグラム(p)と、観察されたフローグラム(q)との間の信号強度値の差は、各々のフローの繰返しでは、少なくとも部分的に位相同期の損失を表す。例えば、観察されたフローグラム(q)に表される信号値は整数ではなく、ヌクレオチド種のフローの同じ繰返しでは、一般に、理論上のフローグラム(p)に表される理想値よりわずかに大きいか、又はわずかに小さい。
「M」として表現されるマッピングモデルは、CF及びIEパラメータの既知の値を使用して見積もることができる。例えば、CF及びIEパラメータは、ε(繰越)パラメータ及びλ(完了効率)パラメータを含む。CF及びIEパラメータは、マッピングモデルMを見積もり、理論上のフローグラム(p)の信号値を観察されたフローグラム(q)の値に変換するために使用してもよい。本例では、マッピングモデルMによって表される誤差値は、フローの各々の繰返しと共に蓄積し、指数関数的に増加する。
上記の例を続けると、実質的に同じ鋳型分子の各々の集団に関連する位相同期した配列決定反応は、フローの繰返し後、位相同期した3つの異なる亜集団になる。この亜集団は、フロー中のヌクレオチド種が、鋳型分子に対して適切な配列位置に適切に組み込まれる位相同期反応の第1の亜集団と(たとえば、CAFIE効果はない)、CFメカニズムによる不適切な取り込みが生じ、反応が、第1集団に対する配列位置より先に進む位相同期反応の第2亜集団と、IEメカニズムによる不適切な取り込みが生じ、反応が、第1集団の配列位置より遅れる位相同期反応の第3亜集団とを含む。本例では、次のフロー繰返しで、3つの亜亜集団は、上記の3つの亜集団の各々から生じるという具合である。当業者は、n番目のフローの繰返しで、フローnで信号を生じる位相同期の3の集団があることを理解する。
更に上記の例を続けると、逆マッピングモデルMは、CF及びIEパラメータの正確な値(例えば、ε(繰越)及びλ(完了効率)パラメータの両方の値)の見積もりを用い、観察されたフローグラム(q)の信号値は逆にして、理論上のフローグラム(p)の信号値を与える。
いくつかの態様は、以下に概略を示す2つの連続的な段階(i)及び(ii)で、反転したマッピングを実行する。
各々のヌクレオチド種のフローiについて、
(i)−ヌクレオチド種の添加により、新生分子を伸長する。
(ii)−前の添加から残るヌクレオチド種により、新生分子を伸長する。
ここで、
− pは、i番目のヌクレオチド種のフローで、理論上の(クリーンな)フローグラムの信号値であり、
− qは、i番目のヌクレオチド種のフローで、観察されたフローグラムの信号値であり、
− mは、i番目のヌクレオチド種のフローのフローグラム配列位置で、取り込みに使用できるヌクレオチド種分子の画分であり、
− Nは、i番目のヌクレオチド種添加(A、C、G、又はT)であり、
− εは、繰越(CF)パラメータであり、
− λは、完了効率パラメータ(IE)であり、
− (j、j’)は対の指数であり、pj’はフローグラムのpの次の正の値である。
いくつかの態様において、フローごとにマッピングモデルを用いた計算を実行し帰納的に、観察されたフローグラム(q)及び鋳型分子の画分mを段階(i)及び段階(ii)を通じて更新する。
以下で、より詳細に記述されるように、順行列モデルを、逆行列モデルを誘導するために使用することができる。例えば、逆行列モデルを用いる行列計算を正しいCF及びIEのパラメータの見積もり値を導出するために使用することができる。例えば、CF及びIEパラメータの様々な値を行列計算に使用し、観察されたフローグラムへの適合の程度について評価することができる。典型的には、観察されたフローグラム(q)に対して最適なCF及びIEパラメータ値は、CF及びIEパラメータの実際の値として良好な見積もり値であると判定される。
同じ例において、順行列モデルを使用する順行列計算は、完了効率値λ=0.95及び繰越値ε=0.05を含むCF及びIEパラメータを使用して、観察されたフローグラム(q)を生成させることができる。順行列のフローの反復に関連する各々の列は、各々のヌクレオチド種のフローに関する帰納的な段階(i、ii)の演算及び結果を記録する。
方程式(1)及び帰納的段階(i、ii)は、行列アレイ演算として書き換えることができる。
方程式(2):
[Μ(p’,ε,λ)]p=q
ここで、
− [Μ(p’,ε,λ)]は行列であり、
は行列アレイの乗算であり、
− p’は、理論上のフローグラムの2進コード化リストである
(例えば、図1のフローグラムp、p=[010200103012]は、p’=[010100101011]としてコード化される)。
方程式(2)の逆行形から、逆マッピングが得られ、観察されたフローグラム(q)103が理論上のフローグラム(p)101に戻して変換される。
方程式(3):
p=[Μ−1(p’,ε,λ)]
ここで、
− [Μ−1(p’,ε,λ)]は逆行列である。
反転の方程式(3)を解くために反復法を使用し、各読み取りについての理論上のフローグラム(p)を得る。この反復は、CAFIE反転に対して与えられた1対のパラメータ(ε、λ)を用いて実施される。
方程式(4):
(n+1)=[M−1(p’(n),ε,λ)]
ここで、p’(1)=q’が計算の種として使用される。
本明細書に記載の例においても、また、逆行列モデルを使用する逆行列計算は、完了効率値λ=0.95及び繰越値ε=0.05を含むCF及びIEパラメータを使用して、観察されたフローグラム(q)から理論上のフローグラム(p)を生成させることができる。
閾値の値は、システムの信号対ノイズ比の見積もり値を表すために使用される。例えば、ある実施では、固定値である閾値≡0.2を使用することができる。そのような実施では、フローグラムqに関連する2進コード化リストq’は、フローグラム値qが0.2より大きいとき、値「1」をコード化し、フローグラム値qが0.2以下であるとき、値「0」をコード化する。本例では、閾値0.2は、上述したように信号対ノイズ比の見積もり値である。
あるいは、いくつかの実施では、閾値を使用することができ、与えられた1対のパラメータ(ε、λ)に関する方程式(4)によってクリーンな理論上のフローグラム(p)に反転することができる。多くの実施では、フローグラム反転の単一の反復で一般に十分である。いくつかの実施では、フローグラム表現の精度が各反復とともに改善され得る場合、特により長い読み取り長について、計算が所望の品質で解に収束するまで、フローグラム反転を2回、3回又はそれ以上の回数の反復を実施することが望ましい場合がある。いくつかの態様において、フローグラム反転の1回又は2回の反復を、計算効率の利益のために実施することができる。また、コンピュータコードによって実施されるいくつかの態様は、使用者が、多くの繰返しを選択し、ユーザの選択に応じて各々の繰返しを実行するか、あるいは連続的に実行することを可能にする。例えば、使用者は、1つ又は複数の領域への値の入力、又はGUIで提示されたボタンの選択等、当技術分野で公知の方法を使用して選択を実施することができる。本例では、使用者は、実施するための反復の数を示す値を入力することができ、また使用者は、本発明の反復を実行するためボタンを選択することができる。さらに、ユーザは、データ品質の目安を選択し、本発明を繰り返してデータ品質のレベルを達成することができる。
いくつかの態様では、CF及びIEパラメータの値の見積もりは、方程式(4)を使用して決定することができる。例えば、完了効率パラメータ(λ)の最適値は、異なる値を完了効率パラメータとして入力し、固定値をCFパラメータとして使用することにより、方程式(4)を使用して試験計算を実施して決定することができる。本例では、一定のCF値ε=0とし、λ=1、0.999、0.998、...、0.990の値を連続して使用し、各々の結果を得ることができる。異なる態様においては、λ値の間の0.001の間隔を、他の間隔、例えば、0.05、0.01、0.005、0.001、0.0005、0.0001等の間隔値によって置き換えることができる。
本例を継続して、計算された理論上のフローグラム(p)におけるフローバーの任意の信号値がλの入力値を使用して方程式(4)を解いた後に、0未満に下がる場合、そのλ値は、最適な完了効率パラメータの値と判定される。λの最適値が決定された後、引き続いてより小さいλ値を使用すると、「過剰適合」と呼ばれるものをもたらし、人為的に負のフロー信号を生成する。また、本例では、単独重合体を表す長い一連のフローバー(例えば、同じヌクレオチド種を含む一連の配列位置)の後の配列位置における何らかのフローバーについて補正された信号値は0未満に下がる場合がある。このゼロ交差点は、最適な完了効率は、以下でλとして表される。
同様に、いくつかの態様では、CFの効果も同様の手法によって対処することができる。例えば、CFパラメータの値を試験することができ、例えば、完了効率パラメータλを上述の値λに固定したε=0、0.0025、0.005、0.0075、0.01、...、0.04の値を含むことができる。本例では、εの入力値間の間隔0.0025は、例示目的の提示であり、他の小さい間隔値、例えば、0.05、0.01、0.005、0.001、0.0005、0.0001、0.00001等の間隔値に置き換えることができる。計算された理論上のフローグラム(p)におけるフローバーの任意の信号値が、εの入力値を使用して方程式(4)を解いた後に、0未満に下がる場合(例えば、λ経路に沿って検索していた間に0未満に下がったフローバーの信号値以外のフローバーの任意の信号値)、そのε値は、最適なCFパラメータの値と判定される。εの最適値が決定された後、引き続いてより大きい値を使用すると、「過剰適合」の状態になり、人為的に負のフロー信号を生成する。また、本例では、単独重合体を表す長い一連のフローバーの前の配列位置におけるいくつかのフローバーの補正された信号値は0未満に下がる場合がある。このゼロ交差点は、最適なCFは、以後εとして表される。
従って、CF及びIEの量、並びに基礎となる鋳型分子配列pは先験的に未知であるので、本発明の方法は完全な新規分析モードで使用することができる。反転を実施するために、ポリメラーゼ取り込み効率(即ち、λ)、又はヌクレオチド洗浄効率(即ち、ε)に関する事前の知識は不要であり、参照ヌクレオチド配列もなんら必要としない。
いくつかの態様では、上述したパラメータ見積もりの検索プロセスは、ε及びλの入力検索間隔ごとに、段階(i、ii)によって行列[M]を構成するが、計算効率の点から限界がある。こうした限界は、少なくとも部分的に、行列構成演算に近似を使用することによって克服することができる。例えば、検索間隔ごとに行列を再構成する必要がなく、従って計算速度を大幅に改善することができる。2つのこのような方法について、以下で説明する。
方法1
ε及び(1−λ)の小さい値で(例えば、(1−λ)≦0.001及びε≦0.0025)、行列[M]が分解され、近似されて以下の形になる。
方程式(5):
[M(p’,ε,λ)]〜[L(p’,Δλ)]φ*[U(p’,Δε)]ω
ここで、
− Δε=0.0025及びΔλ=0.001は、各々ε軸及びλ軸における間隔である。
− φ及びωは、行列の累乗であり、ω〜ε/Δε及びφ〜(1−λ)/Δλの特性を有する。
− [L(p’,Δλ)]は、下対角行列であり、小さい欠損ΔλでのIEの効果をモデル化する。
− [U(p’,Δλ)]は、上対角行列であり、小さい欠損ΔεでのCFの効果をモデル化する。
この分解により、方程式(5)は、検索経路に沿って一度、下対角行列L及び上対角行列Uを構成し、検索グリッド(ε,λ)での不完全及び繰越の程度が行列の累乗(ω,φ)によりモデル化される。検索間隔の小さい値、即ち、Δε=0.0025及びΔλ=0.001は、例えば、0.05、0.01、0.005、0.001、0.0005、0.0001等の他の小さい値に置き換えることができる。
以前に提示された(ε,λ)グリッドを検索する代わりに、ここでの方法は、一連の(ω,φ)グリッドにより実施し、これらのグリッドは、行列の累乗の計算を容易にするために正の整数であることが好ましい。最適な(ω,φ)は、ゼロ交差条件で定義され、対応する完了効率及びCFパラメータは、λ=(1−φΔλ)及びε=ωΔεである。
方法2
小さいε及び(1−λ)の場合における方程式(5)を受けて、下対角累乗行列及び上対角累乗行列[L]φ及び[U]ωは、以下によってさらに近似される。即ち、
方程式(6):
[L]φ≡([I]+[l])φ〜[I]+φ[l]
方程式(7):
[U]ω≡([I]+[u])ω〜[I]+ω[u]
ここで、
− [I]は、恒等行列であり、
− [l]及び[u]は、それぞれ、[L]及び[U]の非対角行列である。
これは、行列の累乗の計算段階の迂回を公式化し、その結果、計算時間を更に加速する(例えば、短縮する)。従って、(ω,φ)の検索空間は、すべて正の実数を含む。最適な(ω,φ)は、ゼロ交差条件で定義され、対応する完了効率及びCFパラメータは、
方程式(8):
λ=(1−φΔλ)及びε=ωΔε
である。
上記に提示した態様は、行列の構成及び反転、並びに(ε,λ)面内における2次元検索に基づき、CAFIEパラメータの最適な対を検索する。これらの計算は、典型的には、実質的に同一の鋳型分子の各集団に対して実施され、例えば、反応部位に基づくシステムのアレイ(例えば、ウェルのPicoTiterPlateアレイ又はウェルのISFETアレイ)中での部位ごとの分析を含んでもよい。いくつかの態様では、行列は最適なCAFIE値(ε,λ)を生成するために各集団/部位について構成される。
上述した態様はまた、一定の完了効率λ及びCF・εパラメータに関連する率は、配列決定実行全体にわたって一定のままであることを仮定する。この仮定は、数回のフローサイクルを含むフローグラム中の「フローウィンドウ」と呼ばれることのあるものにCAFIE検索及び反転手順を使用することによって緩和される(この場合、「数回の」とは、1回とフローサイクルの総回数の間の任意の整数を意味する)。例えば、各々のフローウィンドウは、フローグラムに表現されるフローサイクルの全集合の部分集合であり、1対のCAFIEパラメータ及び対応するクリーンな理論上のフローグラム(p)を見つける必要がある。本例では、各々のフローウィンドウは、配列決定実行に関連するフローグラム中の最初のフローから開始し、フローグラム中のフローサイクルの全長以下のある一定のフローで終了し、各々のより小さいフローウィンドウは、より大きいフローウィンドウ内に入れ子状態になるように配置される。各々のフローウィンドウkでは、検索及び反転処理は個々に行われ、一連のCAFIEパラメータを生成し、これらのパラメータはウィンドウ指数の関数k、即ち、ε=ε(k)及びλ=λ(k)になる。計算されたクリーンな理論上のフローグラム(p)p(k)も、入れ子状になっており、指数kに応じてCAFIEパラメータのこれらの変数値の結果である。「切換え」処理、即ち、ウィンドウ(k−1)及びk間のフローに関するp=p(k)は、フローウィンドウ配列p(k)を最終のフローグラム(p)に再構築する。
同じ又は別の態様では、λ及びεの一定の値の仮定は、別の方法で排除することができる。例えば、完了効率λ、及びCF・εパラメータは、各ヌクレオチド種の添加に関しては、「N」(「A」、「G」、「C」、又は「T」)、及びフロー位置「i」(1、2、3、...)の関数として、指数関数等のパラメータ形式をとることができる。即ち、
方程式(9−10):
λ(i)=λ Ν exp(−δ i)
ε(i)=ε Ν exp(−β i)
ここで、
− λ(i)は、「i」番目のフローにおけるヌクレオチド種「N」の完了効率であり、
− ε(i)は、「i」番目のフローにおけるヌクレオチド種「N」のCFであり、
− λ 及びε は、初期値であり、
− δ及びβは、減衰率である。
検索法は、4つのパラメータ空間、λ 、ε 、δ、及びβを使用し、最適値を決定する。
さらに、当業者は、上記のCAFIE機構に関連しない他のノイズ源が存在し得ることも分かっている。こうしたノイズ源としては、電子的ノイズ源、たとえば「暗電流」と呼ばれるもの、光学的ノイズ源、生物学的ノイズ源、化学的ノイズ源、又は先行技術で公知か、又は将来発見され得るその他のノイズ源が挙げられるが、これらだけに限らない。本明細書に記載する発明のいくつかの態様は、その他のノイズ源に対して様々なレベルの感受性を示す場合があり、こうした感度は、多くの場合、実質的に一定であるか、及び/又は予測可能なレベルである。例えば、既知又は未知の源に起因する予測可能及び一定レベルのノイズは、概して補正が容易である。1つの補正方法は、ノイズに関連する値(ノイズが過剰信号を追加するか、又は検出信号を減少させるかどうかによる)を、フローに関連するすべての信号値に数学的に加算するか、又はこうした検出信号から減算することである。
ノイズのレベルが予測不可能ないくつかの態様では、少なくとも部分的に、ノイズのレベルの見積もりを信号データに埋もれている情報から引き出すことができる。例えば、配列位置に存在しないことが分かっているか、存在しないと予測されるヌクレオチド種の場合は、実際の信号値は0に等しい(即ち、「0−mer」位置)はずであることが予測される。従って、どの検出信号も、システム内のすべてのノイズ源が原因の可能性がある。本明細書の例では、現在記載されている態様では、CAFIE機構からノイズを見積もるので、そのようなノイズをデータから除去し、その下にあるノイズを明らかにすることができる。本明細書の例では、見積もりを、配列実行におけるすべての「0−mer」配列位置を調べることによって改善することができる。この場合、2進コードするp’(n)の方程式(4)における「閾値」の値は、上記の態様で記載したような固定値ではなく、各々の実行について動的に求めることによって、そのノイズレベルを表すことができる
なお、さらに、いくつかの先に記載した態様は、観察されたフローグラム(q)中に表された配列データの過剰補正を防止するために、「安全基準」と呼ぶことができるものを含んでいた。上述したように、過剰補正は、上記のアルゴリズムが反復される際に導入される誤差の指数関数的な蓄積を引き起こす場合がある。例えば、上述した他のノイズ源は、信号データに適用される補正量を含む安全基準を決定する場合がある。例えば、いくつかの実施では、CAFIE源以外からの一定レベルのノイズを仮定し、データに対して60%補正(例えば、100%は、完全な補正を意味する)と呼ばれる場合がある安全基準を適用することができる。この見積もりは、計算されたクリーンなフローグラムpの60%、及び観察されたフローグラムqの40%を含む「ハイブリッド」フローグラム、「0.6p+0.4q」を使用する。あるいは、CAFIE以外のノイズが「低い」レベルにある場合、例えば、80%というより高い補正率を適用することができる。
その上、更なる態様は、上述したCAFIE補正の態様(以下、「標準的CAFIE」と呼ぶ)に対して実質的な性能改善を提供し、使用者に大きな利点をもたらす。以下により詳細に説明するように、CAFIE補正法の改善は、標準的CAFIEからの理論上のフローグラム(p)出力を採用し、正の取り込みリストが最適化された結果に収束するまでフローグラム信号を帰納的に再見積もりすることによって(以下、「帰納的CAFIE」と呼ぶ)、上述した標準的CAFIE補正法にまで及ぶ。帰納的に補正されたフローグラム及び正の取り込みリストが収束すると、帰納的CAFIE法は上述した標準的CAFIE補正法よりも良好な補正を行う。この改善は、位相同期CAFIEパラメータを見出すためのアルゴリズムの改善、及び位相同期誤差を補正するための帰納的手順を含む。また、同じ、又は別の態様では、コンセンサスフローリスト(consensus flow list)を生物の既知の参照配列から取り、上述したような閾値を見積もるのに使用することができる参照CAFIE補正を使用してもよく、この場合、2進コード化リスト中の位置は、参照配列中の対応する配列位置に基づく信号をまったく有さないことを予測することができ、従って観察された信号を、ノイズ及び/又は参照配列に由来する配列変異体に帰することができる。当然ながら、観察された信号の大きさは、一般に、特に信号を有さないと予測される2進コード化リスト中の他の位置での信号の大きさと比較される場合、これが配列変異体に起因する可能性があるのか、又はノイズに起因する可能性があるのかを示す。
帰納的CAFIE補正法の典型的態様では、標準的CAFIE補正法を使用して、配列読み取りから観察されたフローグラムに位相同期補正を最初に実施し、CAFIE補正されたフローグラムを生成する帰納的CAFIEアルゴリズムを使用する反復によって、観察されたフローグラム(q)から得られたものより真の配列をより正確に反映する新しい2進コード化リスト(p’)を見積もる。次いで、この新しい2進コード化リストを使用して、配列読み取りの完了効率λ及び繰越εのパラメータを再び見積もる(従って、より正確に)。(λ、ε)の新しい見積もりは、2進コード化リストの負の取り込みの際に補正された信号が、実際の背景のノイズレベルに可能な限り近くなることを要求することによって実現される。具体的には、本発明者らは、アルゴリズムにおいてCAFIE行列にパラメータλ及びεの摂動を実施する。即ち、
方程式(11−12):
Δqλ=[Μ−1(p’,1−Δλ,0)]q−q
Δqε=[M−1(p’,1,Δε)]q−q
ここで、Μ(p’,λ,ε)は、上述したCAFIE行列であり、Δqλ及びΔqεは、2進コード化リストp’を用いた摂動Δλ及びΔεに応答したフローグラムの変化であり、pは、標準的CAFIE補正によって計算された理論上のフローグラムである。
帰納的CAFIE法では、新しいλ及びεは、以下の手順によって得られる。摂動増分(tλ,tε)を以下の数式を最小化することによって計算する。
ここでノイズは、最初の48のフローの負の取り込みの際(p’(i)=0)に関連するフロー信号の平均である。tλ及びtεの値を決定した後、CAFIE補正パラメータ(λ,ε)を以下のように計算する。即ち、
方程式(14−15):
λ=1−tλΔλ
ε=tεΔε
このようにして、λ及びεは、位相不一致CAFIE誤差を最小限にする最適な対として確実になる。最後に、CAFIE補正を実施して新しいCAFIE補正された理論上のフローグラムp(1)を得る。
方程式(16):
(1)=[Μ−1(p’,ε,λ)]
上記に述べた手順を反復して繰り返す。即ち、反復n+1で、フローグラムp(n)を使用することによって2進コード化リストp’(n)を見積もり、最小化手順(13)によってCAFIE検索を再び実施し、摂動式(14〜16)によって、新しいCAFIE補正したフローグラムp(n+1)及びCAFIEパラメータ(ε(n+1),λ(n+1))を得る。
方程式(17):
(n+1)=[Μ−1(p’(n),ε(n+1),λ(n+1))]
いくつかの態様では、2進コード化リストが収束する、p’(n+1)=p’(n)まで帰納的手順を継続する。正のフローリストiは、p’(n)(i)=1である場合、正のヌクレオチド取り込みを示すフロー位置を近似する。より正確には、アルゴリズムによって見積もられる正のフローリストは、位相非同期性のより正確な補正をもたらす。従って、帰納的アルゴリズムでは、反復してCAFIE補正されたフローグラムを使用し、収束時に帰納的に補正されたフローグラムをもたらす。各反復において、アルゴリズムにより、CAFIEパラメータ(ε(n),λ(n))のより良好な見積もり値、及び次の反復において位相誤差のより正確なCAFIE補正を与える2進コード化p’(n)が得られる。
いくつかの態様では、CAFIEパラメータが収束する、(ε(n+1),λ(n+1))=(ε(n),λ(n))まで帰納的手順を継続し、この収束は2進コード化リストがCAFIEパラメータを使用して計算される方法の性質によっては2進コード化リストの収束も意味する。収束を判定するのにCAFIEパラメータを使用することの1つの利点は、2進コード化リストp’の収束を見積もるより計算が効率的に行えることである。
本明細書に記述された位相同期フロー順序設計及び使用のシステム及び方法の態様は、SBSステップ中のCAFIE誤差の蓄積を改善し、配列決定実行のためのより長い高品質の読み取り長とより高い読み取り精度をもたらす。例えば、SBS実行において実施される際は、この方法の態様によって得られる位相同期フロー順序態様により、配列決定実行の間に配列決定反応の正しい位相に遅れを取っていた実質的に同一の鋳型分子の集団の構成員は正しい位相に追いつき、位相同期フロー順序におけるフローの特定の位置において分子同士で再同期することができる。例えば、実質的に同一の鋳型核酸分子の集団からの鋳型核酸分子のサブセットが、フローの間にT種等のヌクレオチド種を取り込むことができなかった場合には、その結果として、集団の残りの位相同期から外れる(即ち、そのサブセットは集団の残りに遅れを取る)。その後すぐ(即ち、1〜3つのフロー以内)に核酸種をフローに繰り返すと、集団の残りの部分の位相が進む(即ち、次の相補種を取り込むことによって)前にTヌクレオチドを取り込み、その結果、サブセットは集団の残りと再同期し、位相同期誤差を回復する可能性がある。
重要なのは、本明細書に記載の位相同期フロー順序の態様が4−ヌクレオチド循環順序に限定されず、周期的な24、32、40或いはそれ以上の数のヌクレオチドフロー配列等の長いフロー順序を含有することができることである。また同様に重要なのは、フロー順序配列は任意の長さでよく、4の倍数である必要はない。
フロー順序設計のためのCAFIEシミュレーション及び読み取り長
フローサイクル1回当たりのk塩基ヌクレオチド配列を有する数値的に生成したフロー順序を含むフロー順序設計のためのCAFIE誤差及び読み取り長のシミュレーションを行った。例えば、「TACG」フロー順序は、4塩基フロー順序であり、「TCGTGACGTCTA」(配列ID番号:1)循環フローは、12塩基フロー順序である。所定のフロー順序並びに所定の繰越率及び不完全伸長率に対して、SBS法を用いて大腸菌参照配列から得られると予測されるフローグラム信号のシミュレーションを生成した。このシミュレーションは、ゲノムのショットガン配列を模倣するために大腸菌参照配列から約10,000の無作為に選択された領域からのフローグラムを含んでいた。シミュレーションしたフローグラムは、フローグラム値を四捨五入して整数にすることによって塩基呼び出しを行った。信号処理におけるCAFIE補正方法の偏りを回避するためにシミュレーションしたフローグラムの信号補正は行わなかった。
CAFIE誤差のために、フローグラム信号は、ヌクレオチドフローの数の増加と共に蓄積された誤差と位相がずれる。フローグラムの初期の部分は、配列決定の後段(通常、誤差(位相誤差)の程度が大きい曖昧な信号を含有する)のフローグラムよりも高品質(低い誤差率)である。従って、シミュレーションの読み取り長を、読み取りの「高品質」部分の蓄積誤差が各読み取りについて3%未満となるように3’末端から切り捨てた。
高品質読み取り長「L」を、シミュレーション中のすべての10,000の読み取りのトリミングされた(trimmed)読み取り長を平均することによって計算した。フロー順序の理論上の伸長速度「R」(完全な配列決定条件において1つのヌクレオチドフローが伸長できる鋳型分子に対して相補的な配列位置の平均数として定義される(CAFIEなし))も計算した。このようにしてフロー順序及び与えられたCAFIE率に対してCAFIEモデル化及びシミュレーションから得られる長さL及び伸長率Rに到達した。
上記の操作を、フロー順序における4個のヌクレオチド種(A、T、G及びC)を並置することによって構築される様々なフロー順序で何度も繰り返した。これらの計算結果を図2にプロットする。図2は、フローサイクル1回当たりのヌクレオチドの16、24、32及び40塩基のフロー順序についてシミュレーションした読み取り長L対伸長率Rを示したものである(それぞれ、コンピュータプログラムによって生成させた200のフロー順序を含有する)。シミュレーションは、フロー順序のサイクルの繰り返しである(SBSシステム実行を模倣した)1600のヌクレオチドフローを用いた合成による配列決定において、0.5%の未完了と0.5%の繰越率を仮定した。例えば、図2は、0.5%CAFIEを有する大腸菌配列の無作為に選択されたフロー順序について、シミュレーションした読み取り長L対伸長率Rを説明する例を提供している。読み取りを3%蓄積誤差までトリミングし、合成による配列決定で1600のヌクレオチドフローを用いてシミュレーションを行い、SBSシステムにおけるヌクレオチドフローの数に近似させた。破線は、読み取り長の改善が飽和する境界線である。「TACG」(十字記号)は、SBS態様に既に用いたフロー順序に対応する。EX1〜EX8(十字)は、飽和曲線(破線)の近傍にあるフロー順序の例であり、対応する伸長率と共に長い読み取り長を与える効果的なフロー順序を表す。
図2に例示するように、フロー順序が小さい伸長率Rを有する程、より長い読み取り長Lが達成でき、実質的に同一の鋳型の集団における位相不一致鋳型が、特定のヌクレオチドフローでの集団の伸長の正しい位相に、フロー順序の間に追いついて再同期する頻度がより高くなるようにヌクレオチドフロー順序は設計されている。また、フロー順序中の塩基の数の依存性も存在し、一定の伸長率の場合、フロー順序中に塩基を多く含むフロー順序ほど、長い読み取り長が達成できる。しかしながら、この効果は1サイクルにつきヌクレオチドフローが32〜40塩基のフロー順序で飽和し、それを超えると読み取り長はそれ以上改善しない(図2)。
先のSBS態様で実施した「TACG」フロー順序の結果も、参照として図2にプロットする。TACGフロー順序は、CAFIEが0.5%である場合、高い伸長率Rを有するが、非常に短い読み取り長Lしか与えられないことが観察される。この場合、位相誤差が急速に蓄積するので、読み取りに対して数値的に信号補正を行い、誤差の補正と読み取り長の回復を行わなければならない。
「効果的」なフロー順序は、長い読み取り長を与えると同時に高い伸長率を有するべきである。従って、図2の飽和曲線(破線)の近傍のフロー順序は効果的なフロー順序の例である。それら(EX1〜EX8)のいくつかに、図中で印を付け、それらのヌクレオチド配列を以下の表2に列挙する。これらの中で、EX8は、0.5%CAFIEのシミュレーションからは最適に(最も長い読み取り長)近い。従って、当然ながら、約400bpを超える読み取り長及び約0.55bp/フロー以下の伸長率は、一般にCAFIE誤差の蓄積率が低いために高品質のデータを提供する。
注目すべきは、CAFIE誤差の蓄積の低減に効果的なフロー順序態様は、(CAFIEパラメータによって表される)CAFIE誤差の程度及び配列決定の際の鋳型核酸分子の配列組成又はシミュレーションの際の参照配列の配列組成に依存する。最終的な信頼できる読み取り長が、配列決定後の処理において上記のように配列データにCAFIE補正を行うことで更に改善されることを当業者は分かっている。上で示した例は、大腸菌を参照ゲノムとし、0.5%の不完全効率と0.5%の繰越率を仮定することで得られたものである。
種々の配列組成特性を有する複数のゲノムに対する位相同期フロー順序の効果を実証するために、大腸菌(50%GC含量)に加え、T.サーモフィラス(70%GC含量)及びC.ジェジュニ(30%GC含量)の参照配列を含むように拡張してシミュレーションしてもよい。それらは、それぞれ、高GC含量、低GC含量及び中GC含量のゲノムを代表する。シミュレーションは、上述と同じ手順で行ったが、今回は読み取り長(L)及び伸長率(R)は3つの参照ゲノムから無作為に選択された読み取りの平均値である。
図3は、図に同様に印を付けられた同じフロー順序のEX1〜EX8(表2)でのシミュレーション結果を示している。図3には、T.サーモフィラス及びC.ジェジュニの結果が、大腸菌の場合のシミュレーションから得られたものと一致し、低い伸長率を有するフロー順序ほど長い読み取り長が達成されていることが示されている。表2に列挙したフロー順序のEX1〜EX8は有効性を維持し、飽和線(破線、図3)の近傍にあり、対応する伸長率に対する最長読み取り長に接近している。例えば、図3は、無作為に選択されたフロー順序(大腸菌、T.サーモフィラス、及びC.ジェジュニを含む複数のゲノムの平均)で、0.5%CAFIEでのシミュレーションされた読み取り長L対伸長率Rの図示を提供する。読み取りを3%蓄積誤差までトリミングし、合成による配列決定で1600のヌクレオチドフローを用いてシミュレーションを行い、SBSシステムにおけるヌクレオチドフローの数に近似させた。破線は、読み取り長の改善が飽和する境界を示す。「TACG」は、SBS態様に既に用いたフロー順序に対応する。EX1〜EX8は図2で得られ、示されているフロー順序と同じである。
図2及び図3に示されたシミュレーションから、参照配列が利用可能な場合は、CAFIEモデル化及びシミュレーションから1組の効果的なフロー順序を導出することができることが分かる。これらのフロー順序は位相誤差を減少することができ、その結果、信号処理で位相誤差を数値で補正をしなくても、長い高品質の読み取り長が得られる。配列決定実行の前に、不完全率及び繰越率が分かっているか、見積もることができる場合には、最大又はほぼ最大の読み取り長を達成するフロー順序(例えば、EX8)をシミュレーションモデル化から導出できる。このように、この方法は、単位複製配列の共通配列が利用可能な場合、単位複製配列/標的配列決定にとって特に有用であり、試料のヌクレオチド配列を調整するために効果的なフロー順序を導出することもできる。
新規な配列決定又は参照配列が入手できない応用プログラムでは、包括的な部類のフロー順序も、シミュレーションにおいて複数のゲノムを含むことによって導出することができる。これらのフロー順序が効果的であることが示され、EX1〜EX8等の具体的な例が表2に記載されている。これらの任意のフロー順序は、新規配列決定応用プログラムに配備された配列決定スクリプトで実施することができる。
再配列決定(単位複製配列)及び新規配列決定の両方の応用プログラムに対しての不完全率及び繰越率は機器や試薬の実行履歴から推測することができる。例えば、SBSプラットホームのいくつかの態様に対し、多くの機器及び試薬のロット全体にわたって、不完全率は0.2%〜0.5%(又は0.998〜0.995の完了効率)及び繰越率は0.5%〜1%であることが観察される。CAFIEの包括的な情報を用いて最適なフロー順序の態様を、最長の読み取り長を与えるシミュレーションモデル化によって得ることができる。この例では、図中のフロー順序EX8及びEX8の近傍のフロー順序は、CAFIEが0.5%である場合の例である。
ゲノムのGC含量に対してシミュレーションを行うと、効果的なフロー順序のリストも先験的に導出することができる。次いで配列決定実行に対する効果的な位相同期フロー順序をライブラリー試料(この試料の情報は配列決定実行前に手に入れることができる)のGC含量に従ってこのリストから選択することができる。
あるいは、充分な数のフローからデータを取得した後、配列決定実行の間に、効果的な位相同期フロー順序を選択して、GC含量の見積もりを行う、或いはGC含量の見積り量に最適のフロー順序を実施することができる。例えば、CAFIEに対してシミュレーションを行い、効果的な位相同期フロー順序の態様のリストを先験的に導出することができる。これは、任意のフロー順序を有する配列決定フローの初期段階(例えば、実行の最初の40又は80のヌクレオチドフロー)でフローグラム信号を用いた実行、又は位相同期フロー順序(例えば、EX1〜8)の態様について見積もることができる。次いで、特に配列組成(即ち、GC含量)及び実行時中の実行のCAFIE誤差の程度に適合するように具体的に調整された最適な位相同期フロー順序を選択し、配列決定における残存ヌクレオチドフローに対して実施することができる。
いくつかの態様において、様々な組成及び/又は特性を有する複数のフロー順序を、配列決定実行において、多くのフローサイクルの繰り返しで連続して使用できる。いくつかの態様において、それぞれのフロー順序は、独自の特性を有すると同時に、他のフロー順序と共通の特性を有してもよい。これも当然であるが、1つ以上のフロー順序を、無作為或いは非無作為に1つの配列決定実行で繰り返すことができる。
フロー順序最適化アルゴリズムの別の態様は、参照ゲノムに関するヌクレオチドフロー順序を最適化するモンテカルロ・シミュレーションを含む。参照配列読み取りの一組は、(例えば、1,500塩基長を有する5,000の読み取り)使用者指定の参照ゲノム(例えば、大腸菌)から生成することができる。アルゴリズムは、入力フロー順序を受け取り、フロー順序に基づいて読み取りの完全なフローグラムを生成する。次いで「生フローグラム(即ち、CAFIE誤差のあるフローグラム)」を、一定の繰越(例えば、0.5%)及び完了効率(例えば、99.5%)を前提とするCAFIE行列を用いた理想フローグラムの摂動によって生成する。位相不一致誤差信号を低減するフロー順序の効果を評価するために、生フローグラムを、強度値を整数に四捨五入することによって直接塩基呼び出しをする。塩基位置までの蓄積誤差を、塩基呼び出しされた配列と参照読み取りを比較することによって算出した。読み取りを蓄積誤差が閾値(例えば、3%)以下になるようにトリミングする。次いで平均読み取り長を計算する。フロー順序の効果を、その理論効率ε(CAFIE効果無しで1つのフローにつき取り込まれた塩基の平均数)及び観察効率ε(CAFIE効果有りで1つのフローにつき取り込まれた塩基の平均数)によって測定する。一般に、CAFIE誤差が速く蓄積されるに従い、理論効率が高くなり、観察効率が低くなる。品質スコアをフロー順序の効果を測定するために構築することができる。例えば、
Q=wε+wε
ここで、w及びwは、0.5及び0.5等のそれぞれの効率に与えられた重み付けである。
新しいフロー順序は、フロー順序における任意の1対のヌクレオチド種の順序を変えることによって生成される。フローグラムの生成、塩基呼び出し、及びトリミングが繰り返えされる。次いで、新しいフロー順序の品質スコアQ’が計算される。Q’がQよりも大きい場合は、新しいフロー順序が受け入れられる。Q’がQよりも小さい場合は、新しいフロー順序が以下の確率で受け入れられる。
P=exp[(Q’−Q)/T]
ここで、Tは、次善のフロー順序が受け入れられる可能性を制御する「温度」である。全体の処理は品質スコアが最大となるまで繰り返えされ、参照ゲノムと選択パラメータw、w及びTに関して最適フロー順序が得られた。
Tが非常に大きい場合、すべての低い品質スコアのフロー順序は受け入れられる。反対に、Tが非常に小さい場合は、低い品質スコアをもたらす順列は受け入れられない。Tの典型的な値は様々な順列の(Q’−Q)量を計算することによって見積もることができる。Tは、移動の約半分が(Q’−Q)の負の値として受け入られるように選択することができる。
パラメータTは、シミュレーションの過程で、徐々に、例えば、高い値から低い値に変化してもよい。シミュレーションされたアニーリングとして知られるこの方法によって最適領域の近傍内の検索を絞り込むことができる。
完了効率は、配列決定の実行を通して酵素効率の変化をモデル化するために、フローグラムの最初から最後まで、例えば高い値から低い値に、徐々に変化してもよい。繰越パラメータも同様に処理することができる。
このモデルは、複数の参照ゲノムの最適化まで拡張することができる。各参照ゲノムに対する品質スコアQiが存在する。これらの個々の品質スコアの組合せから計算された全品質スコアを使用できる。特に、これらの個々の重量平均品質スコアを使用することができる。
実施例
配列決定データ、TACG並びにフロー順序EX1及びEX3の比較
フロー順序EX1及びEX3(表2)を標準試薬一式及び材料を用いてSBS機器で試験した。それらの読み取り長を以下の表3に要約し、(a)信号処理におけるCAFIE補正なし(CAFIE補正の偏りを避けるため)及び(b)CAFIE補正による全信号処理の結果を示す。
試験したフロー順序において、平均読み取り長はCAFIE補正なしであっても400bpを超えていた(表中の太字)。比較として、TACGフロー順序でのSBS実行では、配列データのCAFIE補正なしの場合で平均読み取り長は100〜200bpであった。全信号処理後の結果でも、同様に大幅に改善された(マッピングの統計情報については表4を参照)。このように効果的なフロー順序態様からの改善は一貫している。
配列データの比較−参照ゲノムへのマッピング
ゲノムの参照配列へのマッピングの結果を以下の表5に要約し、フロー順序EX1での3回の配列決定実行の結果を示す(表2)。
大腸菌の場合は、マップされた長さは全て約700bp超であり、T.サーモフィラスの場合は、読み取り長は様々であったが、それでもすべて500bpは超えていた(変動はライブラリーの試料に依存しているようであった)。実行データは、CAFIE補正を含む完全処理を有するデータ分析ソフトウェアによって処理した。結果から、EX1ではTACGフロー順序を用いて行った実行よりも、100bp超は長いマップされた長さが得られたことが分かる。マップされた長さのヒストグラムと塩基位置での読み取り誤差率の比較を図4に示す。
その他の位相同期フロー順序態様
フロー順序A
TACGTACGTACG (12)
AGCGTACTGCATGCATCAGTATGCG (25)
AGCGTACTGCATGCATCAGTATGCT
AGCGTACTGCATGCATCAGTATCGC
AGCGTACTGCATGCATCAGTATGAC
AGCGTACTGCATGCATCAGTATCGC
AGCGTACTGCATGCATCAGTATGCT
AGCGTACTGCATGCATCAGTATGCG
AGCGTACTGCATGCATCAGTATGAC
AGCGTACTGCATGCATCAGTATCGC
AGCGTACTGCATGCATCAGTATGCT
AGCGTACTGCATGCATCAGTATGCG
AGCGTACTGCATGCATCAGTATGAC
AGCGTACTGCATGCATCAGTATGCG
AGCGTACTGCATGCATCAGTATGCT
AGCGTACTGCATGCATCAGTATCGC
AGCGTACTGCATGCATCAGTATGAC
AGCGTACTGCATGCATCAGTATGCG
AGCGTACTGCATGCATCAGTATCGC
AGCGTACTGCATGCATCAGTATGCT
AGCGTACTGCATGCATCAGTATGAC
AGCGTACTGCATGCATCAGTATGCT
AGCGTACTGCATGCATCAGTATCGC
AGCGTACTGCATGCATCAGTATGCG
AGCGTACTGCATGCATCAGTATGAC
AGCGTACTGCATGCATCAGTATCGC
AGCGTACTGCATGCATCAGTATGCG
AGCGTACTGCATGCATCAGTATGAC
AGCGTACTGCATGCATCAGTATGCT
AGCGTACTGCATGCATCAGTATGCG
AGCGTACTGCATGCATCAGTATCGC
AGCGTACTGCATGCATCAGTATGAC
AGCGTACTGCATGCATCAGTATGCT
AGCGTACTGCATGCATCAGTATGCG
AGCGTACTGCATGCATCAGTATGCT
AGCGTACTGCATGCATCAGTATGAC
AGCGTACTGCATGCATCAGTATCGC
AGCGTACTGCATGCATCAGTATGAC
AGCGTACTGCATGCATCAGTATCGC
AGCGTACTGCATGCATCAGTATGCG
AGCGTACTGCATGCATCAGTATGCT
AGCGTACTGCATGCATCAGTATGCG
AGCGTACTGCATGCATCAGTATGCT
AGCGTACTGCATGCATCAGTATGAC
AGCGTACTGCATGCATCAGTATCGC
AGCGTACTGCATGCATCAGTATGCT
AGCGTACTGCATGCATCAGTATGCG
AGCGTACTGCATGCATCAGTATGAC
AGCGTACTGCATGCATCAGTATCGC
AGCGTACTGCATGCATCAGTATGAC
AGCGTACTGCATGCATCAGTATGCG
AGCGTACTGCATGCATCAGTATCGC
AGCGTACTGCATGCATCAGTATGCT
AGCGTACTGCATGCATCAGTATGCG
AGCGTACTGCATGCATCAGTATGAC
AGCGTACTGCATGCATCAGTATCGC
AGCGTACTGCATGCATCAGTATGCT
AGCGTACTGCATGCATCAGTATGAC
AGCGTACTGCATGCATCAGTATGCT
AGCGTACTGCATGCATCAGTATCGC
AGCGTACTGCATGCATCAGTATGCG
AGCGTACTGCATGCATCAGTATGCT
AGCGTACTGCATGCATCAGTATCGC
AGCGTACTGCATGCATCAGTATGCG
AGCGTACTGCATGCATCAGTATGAC
AGCGTACTGCATGCATCAGTATGCG
AGCGTACTGCATGCATCAGTATGAC
AGCGTACTGCATGCATCAGTATCGC
AGCGTACTGCATGCATCAGTATGCT
AGCGTACTGCATGCATCAGTATGAC
AGCGTACTGCATGCATCAGTATGCG
AGCGTACTGCATGCATCAGTATCGC
AGCGTACTGCATGCATCAGTATGCT
AGCGTACTGCATGCATCAGTATGCG
AGCGTACTGCATGCATCAGTATGCT
AGCGTACTGCATGCATCAGTATGAC
AGCGTACTGCATGCATCAGTATCGC
AGCGTACTGCATGCATCAGTATGCT
AGCGTACTGCATGCATCAGTATGAC
AGCGTACTGCATGCATCAGTATGCG
AGCGTACTGCATGCATCAGTATCGC
(配列番号:No.10〜90)

フロー順序Aの特性
最初の12のフロー(4つの塩基フロー順序を3回循環)の後の25のフローごとに発生する最後の3つの位置における3つの変動位置と組み合わされた反復配列組成により、完全な順序は周期的に繰り返す25のフロー、即ち変動成分を有するフロー順序として解釈される。
反復領域
A=6、G=5、C=5、T=6
第1変動位置=G又はC
第2変動位置=A、G又はC
第3変動位置=T,G,又はC
第1〜第3変動位置の組合せ=少なくとも1つのG及び1つのC
3回反復4塩基フロー順序;80回反復繰り返し/25のフローの変動領域;2012全フロー

フロー順序B特性
TACGTACGTACG (12)
ATGTAGTCGAGCATCATCTGACGCAGTACGTGC (全33; T=8; A=8; C=8; G=9)
ATGATCTCAGTCAGCAGCTATGTCAGTGCATGC (全33; T=9; A=8; C=8; G=8)
AGTGACTGATCGTCATCAGCTAGCATCGACTGC (全33; T=8; A=8; C=9; G=8)
ATAGATCGCATGACGATCGCATATCGTCAGTGC (全33; T=8; A=9; C=8; G=9)
ATGTAGTCGAGCATCATCTGACGCAGTACGTGC (全33; T=8; A=8; C=8; G=9)
ATGATCTCAGTCAGCAGCTATGTCAGTGCATGC (全33; T=9; A=8; C=8; G=8)
ATAGATCGCATGACGATCGCATATCGTCAGTGC (全33; T=8; A=9; C=8; G=8)
AGTGACTGATCGTCATCAGCTAGCATCGACTGC (全33; T=8; A=8; C=9; G=8)
ATGTAGTCGAGCATCATCTGACGCAGTACGTGC (全33; T=8; A=8; C=8; G=9)
ATAGATCGCATGACGATCGCATATCGTCAGTGC (全33; T=8; A=9; C=8; G=8)
ATGATCTCAGTCAGCAGCTATGTCAGTGCATGC (全33; T=9; A=8; C=8; G=8)
AGTGACTGATCGTCATCAGCTAGCATCGACTGC (全33; T=8; A=8; C=9; G=8)
ATGTAGTCGAGCATCATCTGACGCAGTACGTGC (全33; T=8; A=8; C=8; G=9)
AGTGACTGATCGTCATCAGCTAGCATCGACTGC (全33; T=8; A=8; C=9; G=8)
ATAGATCGCATGACGATCGCATATCGTCAGTGC (全33; T=8; A=9; C=8; G=8)
ATGATCTCAGTCAGCAGCTATGTCAGTGCATGC (全33; T=9; A=8; C=8; G=8)
ATGTAGTCGAGCATCATCTGACGCAGTACGTGC (全33; T=8; A=8; C=8; G=9)
ATAGATCGCATGACGATCGCATATCGTCAGTGC (全33; T=8; A=9; C=8; G=8)
AGTGACTGATCGTCATCAGCTAGCATCGACTGC (全33; T=8; A=8; C=9; G=8)
ATGATCTCAGTCAGCAGCTATGTCAGTGCATGC (全33; T=9; A=8; C=8; G=8)
AGTGACTGATCGTCATCAGCTAGCATCGACTGC
ATAGATCGCATGACGATCGCATATCGTCAGTGC
ATGATCTCAGTCAGCAGCTATGTCAGTGCATGC
ATGTAGTCGAGCATCATCTGACGCAGTACGTGC
ATAGATCGCATGACGATCGCATATCGTCAGTGC
ATGATCTCAGTCAGCAGCTATGTCAGTGCATGC
AGTGACTGATCGTCATCAGCTAGCATCGACTGC
ATGTAGTCGAGCATCATCTGACGCAGTACGTGC
ATGATCTCAGTCAGCAGCTATGTCAGTGCATGC
ATAGATCGCATGACGATCGCATATCGTCAGTGC
ATGTAGTCGAGCATCATCTGACGCAGTACGTGC
AGTGACTGATCGTCATCAGCTAGCATCGACTGC
ATAGATCGCATGACGATCGCATATCGTCAGTGC
ATGTAGTCGAGCATCATCTGACGCAGTACGTGC
ATGATCTCAGTCAGCAGCTATGTCAGTGCATGC
AGTGACTGATCGTCATCAGCTAGCATCGACTGC
ATGATCTCAGTCAGCAGCTATGTCAGTGCATGC
AGTGACTGATCGTCATCAGCTAGCATCGACTGC
ATAGATCGCATGACGATCGCATATCGTCAGTGC
ATGTAGTCGAGCATCATCTGACGCAGTACGTGC
ATGATCTCAGTCAGCAGCTATGTCAGTGCATGC
ATGTAGTCGAGCATCATCTGACGCAGTACGTGC
AGTGACTGATCGTCATCAGCTAGCATCGACTGC
ATAGATCGCATGACGATCGCATATCGTCAGTGC
AGTGACTGATCGTCATCAGCTAGCATCGACTGC
ATGTAGTCGAGCATCATCTGACGCAGTACGTGC
ATAGATCGCATGACGATCGCATATCGTCAGTGC
ATGATCTCAGTCAGCAGCTATGTCAGTGCATGC
AGTGACTGATCGTCATCAGCTAGCATCGACTGC
ATGTAGTCGAGCATCATCTGACGCAGTACGTGC
ATGATCTCAGTCAGCAGCTATGTCAGTGCATGC
ATAGATCGCATGACGATCGCATATCGTCAGTGC
AGTGACTGATCGTCATCAGCTAGCATCGACTGC
ATGATCTCAGTCAGCAGCTATGTCAGTGCATGC
ATAGATCGCATGACGATCGCATATCGTCAGTGC
ATGTAGTCGAGCATCATCTGACGCAGTACGTGC
(配列番号:No.91〜147)

フロー順序Bの特性
最初の12のフロー(4つの塩基フロー順序を3回循環)の後の33のフローごとに発生する29のフローの変動領域と組み合わされた最初の位置及び最後の3つの位置の反復配列組成により、完全な順序は周期的に繰り返す33のフロー、即ち実質的に変動成分を有するフロー順序として解釈される。
最初の位置=常にA
変動領域29個の位置=8つのフローと7つの残りを有する1つの種を常に有する(全ての種のフロー数を1だけ増やす繰り返し位置は含まない)
最後の3つの位置=常にTCG
第1及び第2の繰り返し領域の組合せ=各ヌクレオチド種を一度表す
3回反復4塩基フロー順序;55回反復繰り返し/33のフローの変動領域;1827全フロー
様々な態様及び実施について述べてきたが、当業者には明らかであるが、上記の記載は例示的なものに過ぎず、非限定的なものであり、例示目的のために記載されている。図示の態様の様々な機能要素間に機能を分配するための他の多くの構成が可能である。別の態様において、任意の要素の機能を様々な方法で実行することが可能である。

Claims (5)

  1. 配列データ中の位相同期誤差の蓄積を最小にするフロー順序を生成する方法であって、以下のステップを含む前記方法:
    (a)合成配列決定の反応環境にヌクレオチド種を導入するための複数のフロー順序を決定するステップであり、ここで各フロー順序はヌクレオチド種を並置することによって構築されるものであり、前記各フロー順序はk塩基長のヌクレオチド種を含むものであり、前記各フロー順序に含まれるヌクレオチド種はチミン、アデニン、シトシン、及びグアニンからなる群から選択されるものである
    (b)前記各フロー順序を用いた合成配列決定による1つ以上の参照ゲノムからの配列データの取得をシミュレーションすることで、読み取り長パラメータ及び伸長率パラメータを決定するステップであり、ここで、前記配列データは、位相同期誤差の蓄積を含むものであり、前記読み取り長パラメータは、3%未満の蓄積された位相同期誤差を含む一定の読み取り長であり、前記伸長率パラメータは、鋳型分子に対して1つのヌクレオチドフローが伸長させることができる相補的な配列位置の平均数である;及び、
    (c)前記読み取り長パラメータ及び伸長率パラメータに基づいて、配列データ中の位相同期誤差の蓄積を最小にするフロー順序を決定するステップ。
  2. 配列データのシミュレーションされた取得が、位相同期誤差の蓄積をシミュレーションする繰越パラメータ及び不完全伸長パラメータを使用することを含む、請求項1に記載の方法。
  3. k塩基長が16、24、32、及び40塩基長からなる群から選択される、請求項1または2に記載の方法。
  4. k塩基長が32〜40塩基の範囲の長さを含む、請求項1または2に記載の方法。
  5. 400bpを超える読み取り長パラメータ及び0.55bp/フロー以下の伸長率パラメータが、配列データ中の位相同期誤差の蓄積を最小にするフロー順序を決定するための基準である、請求項1〜4のいずれか1項に記載の方法。
JP2015512060A 2012-05-18 2013-05-16 最適化されたヌクレオチドフロー順序を生成及び使用するためのシステム及び方法 Expired - Fee Related JP6373827B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201261648783P 2012-05-18 2012-05-18
US61/648,783 2012-05-18
PCT/EP2013/060152 WO2013171303A2 (en) 2012-05-18 2013-05-16 System and method for generation and use of optimal nucleotide flow orders

Publications (2)

Publication Number Publication Date
JP2015519662A JP2015519662A (ja) 2015-07-09
JP6373827B2 true JP6373827B2 (ja) 2018-08-15

Family

ID=48444397

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015512060A Expired - Fee Related JP6373827B2 (ja) 2012-05-18 2013-05-16 最適化されたヌクレオチドフロー順序を生成及び使用するためのシステム及び方法

Country Status (6)

Country Link
US (1) US10192024B2 (ja)
EP (1) EP2850551A2 (ja)
JP (1) JP6373827B2 (ja)
CN (1) CN104364789A (ja)
CA (1) CA2873146A1 (ja)
WO (1) WO2013171303A2 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8965076B2 (en) * 2010-01-13 2015-02-24 Illumina, Inc. Data processing system and methods
WO2015162438A1 (en) * 2014-04-25 2015-10-29 Dna Electronics Ltd Sequencing methods
US11151497B2 (en) * 2016-04-27 2021-10-19 Zymergen Inc. Microbial strain design system and methods for improved large-scale production of engineered nucleotide sequences
WO2018064311A2 (en) * 2016-09-28 2018-04-05 Life Technologies Corporation Methods and systems for reducing phasing errors when sequencing nucleic acids using termination chemistry
US11581064B2 (en) * 2017-10-26 2023-02-14 Zymergen Inc. Device-agnostic system for planning and executing high-throughput genomic manufacturing operations
CA3138862A1 (en) 2019-05-03 2020-12-10 Ultima Genomics, Inc. Fast-forward sequencing by synthesis methods

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB9620209D0 (en) 1996-09-27 1996-11-13 Cemu Bioteknik Ab Method of sequencing DNA
GB9626815D0 (en) 1996-12-23 1997-02-12 Cemu Bioteknik Ab Method of sequencing DNA
JP4298912B2 (ja) 1997-07-07 2009-07-22 メディカル リサーチ カウンシル invitro選別法
GB9901475D0 (en) 1999-01-22 1999-03-17 Pyrosequencing Ab A method of DNA sequencing
US6274320B1 (en) 1999-09-16 2001-08-14 Curagen Corporation Method of sequencing a nucleic acid
US7244559B2 (en) 1999-09-16 2007-07-17 454 Life Sciences Corporation Method of sequencing a nucleic acid
US7211390B2 (en) 1999-09-16 2007-05-01 454 Life Sciences Corporation Method of sequencing a nucleic acid
GB0127564D0 (en) 2001-11-16 2002-01-09 Medical Res Council Emulsion compositions
US6952651B2 (en) 2002-06-17 2005-10-04 Intel Corporation Methods and apparatus for nucleic acid sequencing by signal stretching and data integration
WO2005003375A2 (en) 2003-01-29 2005-01-13 454 Corporation Methods of amplifying and sequencing nucleic acids
US7575865B2 (en) 2003-01-29 2009-08-18 454 Life Sciences Corporation Methods of amplifying and sequencing nucleic acids
GB0324456D0 (en) * 2003-10-20 2003-11-19 Isis Innovation Parallel DNA sequencing methods
EP1735458B1 (en) 2004-01-28 2013-07-24 454 Life Sciences Corporation Nucleic acid amplification with continuous flow emulsion
JP2006130685A (ja) 2004-11-02 2006-05-25 Fuji Photo Film Co Ltd 微粒子積層基板及びその製造方法
US7682816B2 (en) 2005-04-07 2010-03-23 454 Life Sciences Corporation Thin film coated microwell arrays and methods of using same
US20060228721A1 (en) 2005-04-12 2006-10-12 Leamon John H Methods for determining sequence variants using ultra-deep sequencing
EP1910537A1 (en) 2005-06-06 2008-04-16 454 Life Sciences Corporation Paired end sequencing
US20090233291A1 (en) 2005-06-06 2009-09-17 454 Life Sciences Corporation Paired end sequencing
US8364417B2 (en) 2007-02-15 2013-01-29 454 Life Sciences Corporation System and method to correct out of phase errors in DNA sequencing data by use of a recursive algorithm
CN101390101B (zh) * 2006-02-16 2012-05-23 454生命科学公司 用于校正核酸序列数据中的引物延伸误差的系统和方法
US8617816B2 (en) 2007-03-16 2013-12-31 454 Life Sciences, A Roche Company System and method for detection of HIV drug resistant variants
US20090105959A1 (en) 2007-06-01 2009-04-23 Braverman Michael S System and method for identification of individual samples from a multiplex mixture
WO2009005753A2 (en) * 2007-06-28 2009-01-08 454 Life Sciences Corporation System and method for adaptive reagent control in nucleic acid sequencing
US20090203086A1 (en) 2008-02-06 2009-08-13 454 Life Sciences Corporation System and method for improved signal detection in nucleic acid sequencing
US20110003701A1 (en) 2008-02-27 2011-01-06 454 Life Sciences Corporation System and method for improved processing of nucleic acids for production of sequencable libraries
US7888034B2 (en) 2008-07-01 2011-02-15 454 Life Sciences Corporation System and method for detection of HIV tropism variants
US20100136516A1 (en) 2008-12-01 2010-06-03 454 Life Sciences Corporation System and method for detection of HIV integrase variants
CN103764845B (zh) * 2011-04-08 2016-02-17 生命科技股份有限公司 用于合成测序中的相保护试剂流排序

Also Published As

Publication number Publication date
US20130311105A1 (en) 2013-11-21
US10192024B2 (en) 2019-01-29
EP2850551A2 (en) 2015-03-25
WO2013171303A3 (en) 2014-05-01
WO2013171303A2 (en) 2013-11-21
CA2873146A1 (en) 2013-11-21
JP2015519662A (ja) 2015-07-09
CN104364789A (zh) 2015-02-18

Similar Documents

Publication Publication Date Title
Kumar et al. Next-generation sequencing and emerging technologies
Bleidorn Third generation sequencing: technology and its potential impact on evolutionary biodiversity research
JP6373827B2 (ja) 最適化されたヌクレオチドフロー順序を生成及び使用するためのシステム及び方法
US8364417B2 (en) System and method to correct out of phase errors in DNA sequencing data by use of a recursive algorithm
Shendure et al. Next-generation DNA sequencing
Almeida et al. Bioinformatics tools to assess metagenomic data for applied microbiology
US20150051088A1 (en) Next-generation sequencing libraries
US20110287432A1 (en) System and method for tailoring nucleotide concentration to enzymatic efficiencies in dna sequencing technologies
JP2010528608A5 (ja)
KR20200010464A (ko) 기지 또는 미지의 유전자형의 다수의 기여자로부터 dna 혼합물을 분해 및 정량하기 위한 방법 및 시스템
Goswami et al. RNA-Seq for revealing the function of the transcriptome
Shetty et al. Introduction to nucleic acid sequencing
CN115867665A (zh) 嵌合扩增子阵列测序
Singh et al. Bioinformatics in next-generation genome sequencing
Marri et al. Advances in sequencing and resequencing in crop plants
WO2017009718A1 (en) Automatic processing selection based on tagged genomic sequences
Mishra et al. Strategies and tools for sequencing and assembly of plant genomes
WO2014037423A1 (en) SYSTEM AND METHOD FOR OPERATION OF ISFET ARRAYS USING pH INERT REFERENCE SENSORS
Mitra et al. Statistical analyses of next generation sequencing data: an overview
US9624519B2 (en) System and method for nucleic acid amplification
Daniel et al. Sequencing Technology in Forensic Science: Next-Generation Sequencing
Chaitanya et al. Genome sequencing, assembly, and annotation
Gulati et al. Computational and functional annotation at genomic scale: gene expression and analysis
Udayaraja Personal diagnostics using DNA-sequencing
Asrat Review on Mechanism of DNA Sequencing Technologies in Crop Improvement

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160506

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170616

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170915

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180131

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180417

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180619

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180718

R150 Certificate of patent or registration of utility model

Ref document number: 6373827

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees