用語
[0033]別途定義されない限り、本明細書で用いられる技術的および科学的な用語は、当業者によって一般に理解される意味と同様の意味を有する。本明細書で説明される方法、装置、および材料と同様のまたは同等のものが、開示された技術の実施で使用され得る。以下の用語は、頻繁に使用される一定の用語の理解を支援するために提供され、本開示の範囲を限定することを意味しない。本明細書で用いられる略語は、化学的および生物学の分野でのその従来の意味を有する。
[0034]「核酸」は、デオキシリボヌクレオチドまたはリボヌクレオチド、および一本または二本鎖のいずれかの形態の、その重合体を指し得る。この用語は、合成の、自然発生的、非自然発生的であり、参照核酸と同様の結合特性を有し、参照ヌクレオチドと同様の挙動で代謝する、周知のヌクレオチドの類似物または修飾された主鎖の残基または連鎖を含む核酸を包含し得る。そのような類似物の例は、それだけには限らないが、ホスホロチオエート、ホスホルアミダイト、メチルホスホン酸塩、キラルメチルホスホン酸塩、2−O−メチルリボヌクレオチド、ペプチド核酸(PNA)を含み得る。別途規定されていない限り、個々の核酸配列は、明示的に示された配列だけでなく、従来の方法で修飾されたその変形形態(例えば、縮重コドン置換)および相補的配列を、暗黙的に包含する。具体的には、縮重コドン置換は、1つまたは複数の選択された(または全ての)コドンの第3の位置が、混合塩基および/またはデオキシイノシン残基で置換される、配列を発生させることによって達成され得る(Batzerら、Nucleic Acid Res.19:5081 (1991)、Ohtsukaら、J.Biol.Chem.260:2605−2608(1985)、Rossoliniら、Mol.Cell.Probes 8:91−98(1994))。用語、核酸は、遺伝子、cDNA、mRNA、オリゴヌクレオチド、およびポリヌクレオチドと交換可能に用いられ得る。
[0035]用語「鋳型」は、DNA合成のためのDNAヌクレオチドの相補的鎖へ複製される一本鎖核酸分子を示し得る。場合によっては、鋳型は、mRNAの合成中に複製されるDNAの配列を示し得る。
[0036]用語「プライマ」は、DNA合成の開始点を提供する短い核酸配列を示し得る。DNAポリメラーゼなどのDNA合成を触媒する酵素は、新らたなヌクレオチドをDNA複製用プライマに加え得る。
[0037]「ポリメラーゼ」は、鋳型を用いたポリヌクレオチドの合成を行う酵素を示し得る。この用語は、完全な長さのポリペプチドとポリメラーゼ活性を有する範囲とを両方とも包含する。DNAポリメラーゼは、当業者によく知られており、それだけに限定されないが、パイロコッカス・フリオサス、サーモコッカス・リトラリス、およびサーモトガ・マリティマから分離もしくは派生したDNAポリメラーゼ、またはその変形版を含む。それらは、DNA依存性ポリメラーゼと、逆転写酵素などのRNA依存性ポリメラーゼとを両方とも含む。DNA依存性DNAポリメラーゼは、ほとんどがファミリーA、B、およびCに分類されるものの、少なくとも5つのファミリーが知られている。多様なファミリー間での、配列の類似性はわずかまたは皆無である。最多のファミリーAポリメラーゼは、ポリメラーゼ、3’→5’エキソヌクレアーゼ活性および5’→3’エキソヌクレアーゼ活性を含む、複数の酵素機能を含み得る、単鎖のタンパク質である。ファミリーBポリメラーゼは通常、ポリメラーゼおよび3’→5’エキソヌクレアーゼ活性を有する単一の触媒領域、ならびに副次的要素を有する。ファミリーCポリメラーゼは通常、ポリメラーゼおよび3’→5’エキソヌクレアーゼ活性を有するマルチサブユニットのタンパク質である。大腸菌では、DNAポリメラーゼI(ファミリーA)、II(ファミリーB)、およびIII(ファミリーC)の、3つのタイプのDNAポリメラーゼが見つかっている。真核細胞では、3つの異なるファミリーBのポリメラーゼである、DNAポリメラーゼα、δ、およびεが、核の複製に関与し、ファミリーAポリメラーゼであるポリメラーゼγが、ミトコンドリアDNA複製に使用される。他のタイプのDNAポリメラーゼは、ファージポリメラーゼを含む。同様に、RNAポリメラーゼは通常、ファージおよびウイルスポリメラーゼだけでなく、真核性RNAポリメラーゼI、II、およびIII、ならびにバクテリアRNAポリメラーゼを含む。RNAポリメラーゼは、DNA依存性およびRNA依存性であり得る。
[0038]「ナノポア」は、膜内に、形成または配置された、細孔、流路または通路を示す。膜は、脂質二重層などの有機膜、または高分子材料から形成される膜などの合成膜であり得る。ナノポアは、例えば相補型金属酸化膜半導体(CMOS)または電界効果トランジスタ(FET)回路などの、検知回路に結合された検知回路または電極に、隣接または近接して配置され得る。いくつかの実施例では、ナノポアは、0.1ナノメートル(nm)〜約1000nmの水準の特徴的な幅または直径を有する。いくつかの実施態様では、ナノポアは、タンパク質であり得る。
[0039]用語「ヌクレオチド」は、自然に発生するリボヌクレオチドまたはデオキシリボヌクレオチド単量体を指すことに加えて、状況が明確にそうでないことを示さない限り、ヌクレオチドが使用されている個々の状況(例えば、相補的塩基へのハイブリッド形成法)に関して、機能的に同等である誘導体および類似物を含む、関連するその構造的変形形態を指すと理解され得る。
[0040]用語「タグ」は、原子または分子、あるいは原子または分子の集合であり得る、検出可能な部分を指し得る。タグは、光学的、電気化学的、磁気的、静電的(例えば、誘導性、容量性)識別特性を提供し得て、その識別特性がナノポアの支援により検出され得る。通常、ヌクレオチドにタグが取り付けられているとき、それは、「タグ付けされたヌクレオチド」と呼ばれる。タグは、リン酸塩部分を介してヌクレオチドに取り付けられ得る。
[0041]用語「明期間」は、通常、タグ付けされたヌクレオチドのタグが、AC信号を通して印加される電界によってナノポア内に押し込まれる期間を指す。用語「暗期間」は、通常、タグ付けされたヌクレオチドのタグが、AC信号を通して印加される電界によってナノポア外に押し出される期間を指す。ACサイクルは、明期間および暗期間を含み得る。異なる実施形態では、ナノポアセルを明期間(または暗期間)内に入れるためにナノポアセルに印加される電圧信号の極性は、異なり得る。明期間および暗期間は、参照電圧に対する交流信号の異なる部分に対応し得る。
[0042]用語「信号値」は、配列決定セルからの配列決定信号出力値を指し得る。ある一定の実施形態によれば、配列決定信号は、1つまたは複数の配列決定セルの回路内のある点から測定されたおよび/または出力である、電気的信号であり得て、例えば、信号値は、電圧または電流であり得る(またはそれを表し得る)。信号値は、電圧および/または電流の直接測定の結果を表し得て、かつ/あるいは間接測定値を表し得て、例えば、信号値は、電圧または電流が指定された値に到達するのにかかる測定された持続時間であり得る。信号値は、ナノポアの抵抗率と相関を示しナノポア(充填されたかつ/または未充填の)の抵抗率および/またはコンダクタンスが導出され得る、任意の測定可能な量を表し得る。別の実施例として、信号値は、例えば、揺動されているヌクレオチドに取り付けられた蛍光体からポリメラーゼを有する核酸への、光の強度に対応し得る。
[0043]用語「ヒストグラム」は、指定された数の間隔(値域)毎に信号値の数のカウントを記憶するデータ構造を参照し得る。各値域は、信号値の離散的な値(例えば、ADCの分解能によって決定されるような)に、または可能な間隔内の信号値の範囲に対応し得る。
[0044]ある実施形態によれば、本明細書で開示される方法およびシステムは、ナノポアの配列決定信号、例えば、ナノポアセルに接続されたADCによって測定されるような電圧信号の処理における改善に関する。より具体的には、本明細書で開示される方法およびシステムは、ナノポア配列決定信号における、ゲインドリフトおよびベースラインシフトの両方を補正する。
[0045]ナノポア配列決定信号におけるベースラインシフト現象は、測定処理中に生じる充放電サイクル中における、システム内のある本質的に容量性である構成要素(例えば、セルの作用電極)上で増加する、電荷不均衡に関し得る。信号のゲインドリフトは、膜のキャパシタンスの比較的遅い(数百または数千秒)変化によって発生し得て、ここで膜(例えば、二重層)はポアを含む。そのような膜キャパシタンスは、例えば、二重層での物理的変化に応答して、決定論的進行で変化し得る。
[0046]信号のベースラインドリフトは、2次元変換によって、例えば、2次元空間でセルのデータを回転させるまたは平坦にすることによって、(セル単位基準で)除去され得て、ここで2次元空間の1つの軸は、測定された明チャネル電圧であると定義され、もう一方の軸は、セル内の電荷不均衡の代理として機能する導出値であると定義される。いくつかの実施形態では、代理は、明チャネル電圧または暗チャネル電圧のいずれかの、時間加重された積分履歴であり得る。積分履歴を計算するために、履歴電圧値は、より古いデータの合計への寄与を、履歴値が古くなるのに従って格下げしながら、総合して合計され(すなわち積分され)得る。時間的格下げの時定数は、セル単位基準で単独で測定され得る、セルのステップ応答時間に関係している。
[0047]ゲインドリフトの補償は、セルの明チャネル信号のポイント単位の規格化によって、(セル単位基準で)実現され得る。例えば、信号を規格化するために、各々の測定された未処理の電圧は、ピークOC電圧の推定値によって除算され得る。ピークOC電圧の推定値は、本明細書において「移動ヒストグラム法」と呼ばれるものを利用して、見つけられ得る。ピークOC電圧は、データの、時間加重された移動ヒストグラム内の、最大ピークの最大値として確認され得る。規格化されることになるポイント単位で、ヒストグラムは、例えば、履歴データの各々の新しいヒストグラムへの寄与を、経時度合により指数関数的に格下げしながら更新処理を用いて、新しい電圧が取得される度に決定され得る。移動ヒストグラム法での指数関数的格下げの時定数はさらに、セルのゲインが変化するときの速度に関係し得る。
[0048]セルのゼロ点電圧V0でのドリフトまたは変動の補償は、V0の測定および追跡を明示的に必要としない、改善された処理技術によって実現され得る。例えば、暗モード信号を、開経路信号および装填された信号の両方から減算される、ベースライン信号として用いることによって、配列決定信号上のV0ドリフトの効果は、補償され得る。さらに、V0の分散に起因する、未処理の配列決定信号値の分散は、追加の測定を実施する必要なしに、大きく低減され、またはそれどころか除去され、配列決定作業中またはその前に、セル毎にV0を明示的に追跡する。
I.ナノポア配列決定セル
[0049]ナノポアセンサチップ100内のナノポアセル150は、多数の異なる方法で実施され得る。例えば、いくつかの実施形態では、異なるサイズおよび/または化学的構造のタグが、配列決定されるために、核酸分子内の異なるヌクレオチドに取り付けられ得る。いくつかの実施形態では、配列決定されることになる核酸分子の鋳型への相補鎖が、別の仕方で重合体がタグ付けされたヌクレオチドを鋳型とハイブリッド形成することによって、合成され得る。いくつかの実施態様では、核酸分子および取り付けられたタグは、両方ともナノポアを通り移動し、ナノポアを通過するイオン電流が、ヌクレオチドに取り付けられたタグの個々のサイズおよび/または構造によって、ナノポア内に存在するヌクレオチドを示し得る。いくつかの実施態様では、タグだけが、ナノポア内へ移動し得る。ナノポア内で異なるタグを検出するために、多数の異なる方法も存在し得る。
A.ナノポア配列決定セル構造
[0050]図2は、ポリヌクレオチドまたはポリペプチドを特徴づけるために使用され得る、図1のナノポアセンサチップ100内のナノポアセル150のような、ナノポアセンサチップ内のナノポアセル200の一実施形態を示す。ナノポアセル200は、誘電体層201および204から形成されたウェル205と、ウェル205を覆って形成された脂質二重層214と、脂質二重層214上の、脂質二重層214によってウェル205から分離された試料室215とを、含み得る。ウェル205は、ある体積の電解質206を収容し得て、試料室215は、例えば、可溶性タンパク質ナノポア膜貫通分子複合体(PNTMC)などのナノポア、および対象の分析物(例えば、配列決定されることになる核酸分子)を収容するバルク電解質208を保持し得る。
[0051]ナノポアセル200は、ウェル205の底部に作用電極202と、試料室215内に配置された対電極210とを含み得る。信号源228は、電圧信号を作用電極202と対電極210との間に印加し得る。単一のナノポア(例えば、PNTMC)が、電圧信号による電気穿孔法プロセスによって脂質二重層214内へと挿入され、それにより脂質二重層214内のナノポア216を形成し得る。アレイ内の個々の膜(例えば、脂質二重層214または他の膜構造)は、化学的にも電気的にも互いに接続されていないこともある。それゆえ、アレイ内の各ナノポアセルは、独立した配列決定機械であり、対象の分析物に対して作用し、そうでなければ不透過性の脂質二重層を介してイオン電流を調節するナノポアに関連付けられる、単一のポリマー分子に固有のデータを生成する。
[0052]図2に示すように、ナノポアセル200は、シリコン基板などの基板230上に形成され得る。誘電体層201は、基板230上に形成され得る。誘電体層201を形成するために用いられる誘電体材料は、例えば、ガラス、酸化物、窒化物、その他を含み得る。電気的刺激を制御し、ナノポアセル200から検出される信号を処理する電気回路222は、基板230上および/または誘電体層201内部に形成され得る。例えば、複数のパタニングされた金属層(例えば、金属1〜金属6)が、誘電体層201内に形成され、複数の能動デバイス(例えば、トランジスタ)が、基板230上に製造され得る。いくつかの実施形態では、信号源228は、電気回路222の一部に含まれる。電気回路222は、例えば、増幅器、積算器、アナログデジタル変換器、ノイズフィルタ、フィードバック制御ロジック、および/または多様な他の構成要素を含み得る。電気回路222は、メモリ226に結合されたプロセッサ224にさらに結合され得て、ここでプロセッサ224は、アレイ内に配列されている重合体分子の配列を決定するために、配列決定データを分析することができる。
[0053]作用電極202は、誘電体層201上に形成され、ウェル205の底部の少なくとも一部を形成し得る。いくつかの実施形態では、作用電極202は、金属電極である。非ファラデー性伝導のために、作用電極202は、腐食および酸化に耐性を示す、例えば、白金、金、チタン窒化物、およびグラファイトなどの金属または他の材料で形成され得る。例えば、作用電極202は、電気めっきを用いた白金電極であってもよい。別の実施例では、作用電極202は、チタン窒化物(TiN)作用電極であってもよい。作用電極202は、多孔質であってもよく、それによりその表面積および結果として生じる作用電極202に付随するキャパシタンスを増大させ得る。ナノポアセルの作用電極は、別のナノポアセルの作用電極から独立していることもあることから、作用電極は、本開示内でセル電極と呼ばれ得る。
[0054]誘電体層204は、誘電体層201上に形成され得る。誘電体層204は、ウェル205を囲む壁を形成する。誘電体層204を形成するために用いられる誘電体材料は、例えば、ガラス、酸化物、シリコン一窒化物(SiN)、ポリイミド、または他の適切な疎水性の絶縁材料を含み得る。誘電体層204の上面は、シラン処理され得る。シラン処理は、誘電体層204の上面の上に疎水性層220を形成し得る。いくつかの実施形態では、撥水性層220は、約1.5ナノメートル(nm)の厚さを有する。
[0055]誘電体層204の壁によって形成されるウェル205は、作用電極202の上の電解質206の体積を含む。電解質206の体積は、緩衝性を有し、以下の、塩化リチウム(LiCl)、塩化ナトリウム(NaCl)、塩化カリウム(KCl)、グルタミン酸リチウム、グルタミン酸ナトリウム、グルタミン酸カリウム、酢酸リチウム、酢酸ナトリウム、酢酸カリウム、塩化カルシウム(CaCl2)、塩化ストロンチウム(SrCl2)、塩化マンガン(MnCl2)、および塩化マグネシウム(MgCl2)、のうちの1つまたは複数を含み得る。いくつかの実施形態では、電解質206の体積は、約3マイクロメートル(μm)の厚さを有する。
[0056]図2にも示すように、膜は、誘電体層204の上面に形成され、ウェル205全体に及ぶ。いくつかの実施形態では、膜は、疎水性層220の上面に形成された脂質単一層218を含み得る。膜がウェル205の開口に達したとき、脂質単一層218は、ウェル205の開口全体に及ぶ脂質二重層214に遷移し得る。脂質二重層は、例えば、ジフィタノイル−ホスファチジルコリン(DPhPC)、1,2−ジフィタノイル−sn−グリセロ−3−ホスホコリン、1,2−ジ−O−フィタニル−sn−グリセロ−3−ホスホコリン(DoPhPC)、パルミトイル−オレオイル−ホスファチジルコリン(POPC)、ジオレオイル−ホスファチジル−メチルエステル(DOPME)、ジパルミトイルホスファチジルコリン(DPPC)、ホスファチジルコリン、ホスファチジルエタノールアミン、ホスファチジルセリン、ホスファチジン酸、ホスファチジルイノシトール、ホスファチジルグリセロール、スフィンゴミエリン、1,2−ジ−O−フィタニル−sn−グリセロール、1,2−ジパルミトイル−sn−グリセロ−3−ホスホエタノールアミン−N−[メトキシ(ポリエチレングリコール)−350]、1,2−ジパルミトイル−sn−グリセロ−3−ホスホエタノールアミン−N−[メトキシ(ポリエチレングリコール)−550]、1,2−ジパルミトイル−sn−グリセロ−3−ホスホエタノールアミン−N−[メトキシ(ポリエチレングリコール)−750]、1,2−ジパルミトイル−sn−グリセロ−3−ホスホエタノールアミン−N−[メトキシ(ポリエチレングリコール)−1000]、1,2−ジパルミトイル−sn−グリセロ−3−ホスホエタノールアミン−N−[メトキシ(ポリエチレングリコール)−2000]、1,2−ジオレオイル−sn−グリセロ−3−ホスホエタノールアミン−N−ラクトシル、GM1ガングリオシド、リゾホスファチジルコリン(LPC)またはその任意の組合せから選択されるリン脂質を含み、またはそれらから構成され得る。
[0057]示したように脂質二重層214には、例えば、単一のPNTMCによって形成された単一のナノポア216が埋め込まれる。上述のように、ナノポア216は、単一のPNTMCを脂質二重層214内に電気穿孔法によって挿入することによって、形成され得る。ナノポア216は、対象の分析物および/または小さなイオン(例えば、Na+、K+、Ca2+、Cl−)の少なくとも一部分を脂質二重層214の両側間を通過させるのに十分に大きくてもよい。
[0058]試料室215は、脂質二重層214を覆っており、特徴づける対象の分析物の溶液を保持し得る。溶液は、バルク電解質208を含み、最適なイオン濃度への緩衝性を有し、ナノポア216を開口状態に維持するために最適なpHに維持された水性溶液であり得る。ナノポア216は、脂質二重層214を横切り、バルク電解質208から作用電極202へのイオン流のための唯一の経路を提供する。ナノポア(例えば、PNTMC)および対象の分析物に加えて、バルク電解質208は、塩化リチウム(LiCl)、塩化ナトリウム(NaCl)、塩化カリウム(KCl)、グルタミン酸リチウム、グルタミン酸ナトリウム、グルタミン酸カリウム、酢酸リチウム、酢酸ナトリウム、酢酸カリウム、塩化カルシウム(CaCl2)、塩化ストロンチウム(SrCl2)、塩化マンガン(MnCl2)、および塩化マグネシウム(MgCl2)、のうちの1つまたは複数をさらに含み得る。
[0059]対電極210は、電気化学的電位センサであり得る。いくつかの実施形態では、対電極210は、複数ナノポアセル間で共有され、それゆえ、共通電極とも称され得る。いくつかの場合では、共通の電位および共通電極は、全てのナノポアセルに対して、または少なくとも個々のグループ内の全てのナノポアセルに対して共通であり得る。共通電極は、共通の電位を、ナノポア216と接触するバルク電解質208に印加するように構成可能である。対電極210および作用電極202は、脂質二重層214間に電気的刺激(例えば、電圧バイアス)を供給するための信号源228に結合され、脂質二重層214の電気的特性(例えば、抵抗、電気容量、およびイオン電流)を検知のために用いられ得る。いくつかの実施形態では、ナノポアセル200は、参照電極212も含み得る。
[0060]いくつかの実施形態では、多様なチェックが、較正の一部としてナノポアセルの作成中に実施され得る。ナノポアセルが作成された後、さらなる較正ステップが、例えば、所望されるように(例えば、セル中に1ナノポア)実行しているナノポアセルを識別するために、実行されてもよい。そのような較正チェックは、物理的チェック、電圧較正、開放流路較正、および単一のナノポアを有するセルの識別を含み得る。
B.ナノポア配列決定セルの信号検出
[0061]ナノポアセンサチップ100内のナノポアセル150などのナノポアセンサチップ内のナノポアセルは、合成による単分子ナノポアベースの配列決定(ナノ−SBS)技術を用いる並行配列決定を可能にし得る。
[0062]図3は、ナノ−SBS技術を用いてヌクレオチド配列決定を実行するナノポアセル300の一実施形態を示す。ナノ−SBS技術では、配列決定されることになる鋳型332(例えば、ヌクレオチド酸分子または別の対象の分析物)およびプライマは、ナノポアセル300の試料室内のバルク電解質308内に導入され得る。例として、鋳型332は、円形状または直線状であり得る。核酸プライマは、4つの別の仕方で重合体がタグ付けされたヌクレオチド338が付加され得る、鋳型332の一部にハイブリッド形成され得る。
[0063]いくつかの実施形態では、酵素(例えば、DNAポリメラーゼなどのポリメラーゼ334)が、鋳型332への相補鎖を合成するのに用いるナノポア316に関連付けられ得る。例えば、ポリメラーゼ334は、ナノポア316に共有結合していてもよい。ポリメラーゼ334は、ヌクレオチド338のプライマ上への、一本鎖核酸分子を鋳型として用いる取り込みを触媒する。ヌクレオチド338は、4つの異なるタイプA、T、GまたはCのうちの1つであるヌクレオチドを伴うタグ種(「タグ」)を含み得る。
[0064]タグ付けされたヌクレオチドが、ポリメラーゼ334と正しく結合されるとき、タグは、電気的な力、例えば、脂質二重層314および/またはナノポア316間に印加される電圧により生成される電界の存在下で生成される力によってナノポア内に引き込まれ(装填され)得る。電圧は、作用電極および対電極310に接続された電源328を用いて印加され得る。タグの尾部は、ナノポア316の筒内に位置決めされ得る。ナノポア316の筒内に保たれるタグは、タグの別個の化学的な構造および/またはサイズにより、固有のイオン遮断信号340を生成し、それにより、タグが取り付けられた付加された塩基を、電子的に同定する。
[0065]本明細書で用いられるとき、「装填された」または「充填された」タグは、認識可能な長さの時間、例えば、0.1ミリ秒(ms)から10,000ミリ秒の間、ナノポア内に位置決めされる、および/または、ナノポア内または近くに留まるタグでもよい。いくつかの場合では、タグは、ヌクレオチドから放出される前に、ナノポア内に装填される。いくつかの例では、装填されたタグが、ヌクレオチド組み込み事象の際に放出された後にナノポアを通過する(および/またはナノポアにより検出される)確率が適度に高く、例えば90%から99%である。
[0066]いくつかの実施形態では、ポリメラーゼ334がナノポア316に接続される前に、ナノポア316のコンダクタンスは、例えば約300ピコジーメンス(300pS)のように高いことがあり得る。タグがナノポア内に装填されるとき、固有のコンダクタンス信号(例えば、信号340)は、タグの別個の化学構造および/またはサイズにより生成される。例えば、ナノポアのコンダクタンスは、約60pS、80pS、100pSまたは120pSであり、それぞれは、タグ付けされたヌクレオチドの4つのタイプのうちの1つに対応する。ポリメラーゼは、次に異性化およびリン酸基転移反応を経て、ヌクレオチドを成長している核酸分子内に組み込み、タグ分子を放出する。
[0067]いくつかの場合では、タグ付けされたヌクレオチドのいくつかは、核酸分子(鋳型)の目下の位置(相補的塩基)と一致し得ない。核酸分子と塩基対合されていないタグ付けされたヌクレオチドも、ナノポアを通過し得る。これらの対合されていないヌクレオチドは、典型的には、正しく対合されたヌクレオチドがポリメラーゼと結合したままである時間スケールより短い時間スケール内で、ポリメラーゼによって拒絶される。対合されていないヌクレオチドに結合されたタグは、ナノポアを迅速に通過し、短期間(例えば、10ms未満)の間検出され得て、一方、対合したヌクレオチドに結合されたタグは、ナノポア内に装填され、長期間(例えば、少なくとも10ms)の間検出され得る。それゆえ、対合されていないヌクレオチドは、ヌクレオチドがナノポア内で検出される時間に少なくとも部分的に基づいて、下流のプロセッサによって識別され得る。
[0068]装填された(充填された)タグを含むナノポアのコンダクタンス(または等価的に抵抗)が、ナノポアを通過する電流を介して測定され得て、タグ種の識別、それによる目下の位置にあるヌクレオチドを提供する。いくつかの実施形態では、直流(DC)信号が、ナノポアセルに印加され得る(例えば、タグがナノポアを通って移動する方向が反転しないように)。しかし、直流を用いた長期間のナノポアセンサの運転は、電極の組成を変化させ得て、ナノポア全体のイオン濃度を不平衡にさせ、ナノポアセルの寿命に影響し得る他の望ましくない効果を有し得る。交流(AC)波形を印加することは、電界移動を低減し、これらの望ましくない効果を回避し、下記のある一定の利点を有し得る。タグ付けされたヌクレオチドを利用する本明細書で説明される核酸配列決定方法は、印加されるAC電圧に完全に共存可能であり、それゆえAC波形が、これらの利点を達成するために用いられ得る。
[0069]AC検出サイクル中に電極を再充電する能力は、犠牲電極、または導電反応で分子特性を変化させる電極(例えば、銀を含む電極)を用いる場合、有益であり得る。電極は、直流信号が使用されるとき、検出サイクル中に消耗し得る。再充電は、電極が小さいとき(例えば、平方ミリメートル当たり少なくとも500の電極を有する電極アレイに供給するために十分に小さいとき)問題になり得る、電極が完全に枯渇するなどの消耗限界に到達することを防止し得る。電極寿命は、場合によっては、電極の幅と共に進み、少なくとも部分的に、それに依存する。
[0070]ナノポアを通過するイオン電流を測定する好適な状態は、当技術分野で知られており、例が本明細書で提供される。測定は、膜および細孔間に印加される電圧により実行され得る。いくつかの実施形態では、電圧は、−400mV〜+400mVの範囲にあり得る。用いられる電圧は、−400mV、−300mV、−200mV、−150mV、−100mV、−50mV、−20mV、および0mVから選択される下限と、+10mV、+20mV、+50mV、+100mV、+150mV、+200mV、+300mV、および+400mVから別々に選択される上限とを有する範囲にあることが好ましい。用いられる電圧は、100mV〜240mVの範囲にあることがさらに好ましく、160mV〜240mVの範囲にあることが最も好ましい。増大された印加電位を用いたナノポアによって異なるヌクレオチド間の識別能力を増大させることが可能である。AC波形およびタグ付けされたヌクレオチドを用いた核酸の配列決定は、その全体が引用することにより本明細書に組み込まれる、2013年11月6日に提出された「Nucleic Acid Sequencing Using Tags(タグを用いた核酸配列決定)」という名称の米国特許公開第US2014/0134616で説明されている。米国2014/0134616で説明されたタグ付けされたヌクレオチドに加えて、配列決定は、例えば、5つの一般的な核酸塩基、アデニン、シトシン、グアニン、ウラシル、およびチミンの(S)−グリセロール・ヌクレオシド・三リン酸塩(gNTP)などの糖または非環式の部分を欠く、ヌクレオチド類似物を用いて実行され得る(Horhotaら、Organic Letters、8:5345−5347[2006])。
C.ナノポア配列決定セルの電気回路
[0071]図4は、ナノポアセル200などのナノポアセル内の電気回路400(図2の電気回路222の一部分を含み得る)の一実施形態を示す。上述のように、いくつかの実施形態では、電気回路400は、ナノポアセンサチップ内の複数のナノポアセルまたは全てのナノポアセル間で共有され得、それゆえ、共通電極とも称され得る対電極410を含む。共通電極は、電圧源VLIQ420に接続することによって、共通の電位を、ナノポアセル内の脂質二重層(例えば、脂質二重層214)と接触するバルク電解質(例えば、バルク電解質208)に印加するように構成されることが可能である。いくつかの実施形態では、AC非ファラデー性モードが、電圧VLIQをAC信号(例えば、方形波)で変調するために利用され、それをナノポアセル内で脂質二重層に接触するバルク電解質に印加し得る。いくつかの実施形態では、VLIQは、±200〜250mVの大きさおよび例えば25〜400Hzの周波数を有する方形波である。対電極410と脂質二重層(例えば、脂質二重層214)との間のバルク電解質は、例えば、100μF以上などの大きなコンデンサ(図示せず)によって、モデル化され得る。
[0072]図4は、作用電極402(例えば、作用電極202)および脂質二重層(例えば、脂質二重層214)の電気特性を表す電気モデル422も示す。電気モデル422は、脂質二重層に関連付けられたキャパシタンスをモデル化するコンデンサ426(CBilayer)と、ナノポア内の個々のタグの存在に基づいて変化し得る、ナノポアに関連付けられた可変抵抗をモデル化する抵抗器428(RPORE)とを含む。電気モデル422は、2重層キャパシタンス(CDouble Layer)を有し、作用電極402およびウェル205の電気特性を表すコンデンサ424も含む。作用電極402は、他のナノポアセル内の作用電極から独立した別個の電位を印加するように構成され得る。
[0073]パスデバイス406は、脂質二重層および作用電極を電気回路400から接続または切断するために使用され得るスイッチである。パスデバイス406は、電圧刺激がナノポアセル内の脂質二重層間に印加されることを有効化または無効化するために、制御ライン407によって制御され得る。脂質が、脂質二重層を形成するために堆積される前では、2つの電極間のインピーダンスは、セルのウェルが封止されていないため、非常に低く、それゆえパスデバイス406は、短絡状態を回避するために開路に維持され得る。パスデバイス406は、脂質溶媒がナノポアセルに堆積されてナノポアセルのウェルを封止した後、閉じられ得る。
[0074]回路400は、オンチップ積分コンデンサ408(ncap)をさらに含み得る。積分コンデンサ408は、リセット信号403を使用しスイッチ401を閉じ、その結果、積分コンデンサ408が電圧源VPRE405に接続されることによって、事前充電され得る。いくつかの実施形態では、電圧源VPRE405は、例えば、900mVの大きさの固定の参照電圧を提供する。スイッチ401が閉じられているとき、積分コンデンサ408は、電圧源VPRE405の参照電圧レベルまで事前充電され得る。
[0075]積分コンデンサ408が事前充電された後、リセット信号403が使用されスイッチ401が開路され、その結果、積分コンデンサ408は、電圧源VPRE405から切断される。この時点では、電圧源VLIQのレベルにより、対電極410の電位は、作用電極402(および積分コンデンサ408)の電位より高いレベルにあるか、その反対でもあり得る。例えば、電圧源VLIQからの方形波の正位相の間(例えば、AC電圧源信号サイクルの明または暗期間)、対電極410の電位は、作用電極402の電位より高いレベルにある。電圧源VLIQからの方形波の負位相の間(例えば、AC電圧源信号サイクルの暗または明期間)、対電極410の電位は、作用電極402の電位より低いレベルにある。したがって、いくつかの実施形態では、積分コンデンサ408は、対電極410と作用電極402との間の電位差により、明期間の間に電圧源VPRE405の事前充電された電圧レベルからさらに高いレベルまで充電され、暗期間中により低いレベルに放電され得る。他の実施形態では、充電および放電は、それぞれ暗期間および明期間に発生し得る。
[0076]積分コンデンサ408は、1kHz、5kHz、10kHz、100kHz、またはそれを超え得る、アナログデジタル変換器(ADC)435のサンプリング速度による固定された期間に、充電または放電され得る。例えば、1kHzのサンプリング速度で、積分コンデンサ408は、約1msの期間中、充電/放電し、次に、電圧レベルがサンプリングされ、積分期間の終わりにADC435によって変換され得る。個々の電圧レベルは、ナノポア内の個々のタグ種に対応し、それゆえ、鋳型上の目下の位置でのヌクレオチドに対応し得る。
[0077]ADC435によるサンプリングされた後、積分コンデンサ408は、リセット信号403を使用しスイッチ401を閉じ、その結果、積分コンデンサ408が電圧源VPRE405に再接続されることによって、再び事前充電され得る。積分コンデンサ408を事前充電するステップと、積分コンデンサ408が充電または放電する一定の期間待機するステップと、積分コンデンサの電圧レベルをADC435によってサンプリングおよび変換するステップとが、配列決定プロセスの間中サイクルで繰り返され得る。
[0078]デジタルプロセッサ430は、例えば、正規化、データバッファリング、データフィルタリング、データ圧縮、データ削減、イベント抽出、またはナノポアセルアレイからのADC出力データを多様なデータフレームへのアセンブリングなどのために、ADC出力データを処理し得る。いくつかの実施形態では、デジタルプロセッサ430は、塩基判定などのさらに下流の処理を実行し得る。デジタルプロセッサ430は、ハードウェア(例えば、GPU、FPGA、ASICなどの内部の)またはハードウェアとソフトウェアとの組合せとして実装され得る。
[0079]したがって、ナノポア間に印加される電圧信号は、ナノポアの個々の状態を検出するために用いられ得る。ナノポアの可能な状態の1つは、タグが取り付けられたポリホスフェートがナノポアの筒に存在しない場合、開放チャネル状態であり、本明細書ではナノポアの未充填状態とも呼ぶ。ナノポアの別の4つの可能な状態は、タグが取り付けられたポリホスフェートヌクレオチドの4つの異なるタイプ(A、T、GまたはC)のうちの1つがナノポアの筒内に保持されるときの状態に各々対応する。ナノポアのさらに別の可能な状態は、脂質二重層が断裂するときである。
[0080]積分コンデンサ408での電圧レベルが、固定された期間後に測定されるとき、ナノポアの異なる状態は、異なる電圧レベルの測定値をもたらし得る。これは、積分コンデンサ408(すなわち、時間に対する積分コンデンサ408の電圧のグラフの傾きの程度)での電圧減衰率(放電による減少または充電による増大)が、ナノポアの抵抗(例えば、抵抗器RPORE428の抵抗)に依存するからである。より詳しくは、異なる状態のナノポアに関連付けられた抵抗が、分子(タグ)の別個の化学構造に起因して異なるので、異なる対応する電圧減衰率は、観察され得るようになり、ナノポアの異なる状態を識別するために用いられ得る。電圧減衰曲線は、RC時定数τ=RCを有する指数関数曲線であり得て、ここで、Rは、ナノポアに関連付けられた抵抗(すなわち、RPORE428)であり、Cは、Rに並列の膜に関連付けられたキャパシタンス(すなわち、コンデンサ426(CBilayer))である。ナノポアセルの時定数は、例えば、約200〜500msであり得る。減衰曲線は、二重層の詳細な実施により、指数関数曲線に正確に一致し得ないが、減衰曲線は、指数関数曲線に類似し、単調であり得て、それゆえ、タグの検出を可能にする。
[0081]いくつかの実施形態では、開放チャネル状態にあるナノポアに関連付けられた抵抗は、100MΩ〜20GΩまでの範囲内にあり得る。いくつかの実施形態では、タグが、ナノポアの筒内部に存在する状態にあるナノポアに関連付けられた抵抗は、200MΩ〜40GΩまでの範囲内にあり得る。他の実施形態では、積分コンデンサ408は、ADC435へ導く電圧が、電気モデル422内の電圧減衰によりやはり変化することになるため、省略され得る。
[0082]積分コンデンサ408での電圧の減衰率は、異なる方法で決定され得る。上で説明したように、電圧減衰率は、一定の時間間隔の間の電圧減衰を測定することによって決定され得る。例えば、積分コンデンサ408での電圧は、最初に時間t1でADC435により測定され、次に、電圧は、時間t2でADC435により再び測定される。時間曲線に対する積分コンデンサ408での電圧の傾きがより急であるとき、電圧差はより大きく、電圧曲線の傾きがより緩やかなとき、電圧差はより小さい。このように、電圧差は、積分コンデンサ408での電圧の減衰率を、ゆえに、ナノポアセルの状態を決定するための測定基準として用いられ得る。
[0083]他の実施形態では、電圧減衰率は、選択された電圧減衰量のために必要な持続時間を測定することによって決定され得る。例えば、電圧が第1の電圧レベルV1から第2の電圧レベルV2に降下または増大するのに必要な時間が測定され得る。時間に対する電圧曲線の傾きがより急であるとき、必要な時間はより少なく、時間に対する電圧曲線の傾きがより緩やかなとき、必要な時間はより大きい。このように、必要な測定時間は、積分コンデンサncap408での電圧の減衰率を、ゆえに、ナノポアセルの状態を決定するための測定基準として用いられ得る。当業者には、例えば、電流測定技術を含む、ナノポアの抵抗を測定するために必要とされ得る多様な回路を理解されよう。
[0084]いくつかの実施形態では、電気回路400は、オンチップに、パスデバイス(例えば、パスデバイス406)および追加のコンデンサ(例えば、積分コンデンサ408(ncap))を含まないことがあり、それによりナノポアベースの配列決定チップのサイズの削減を支援する。膜(脂質二重層)の薄い性質のため、膜に関連付けられたキャパシタンス(例えば、コンデンサ426(CBilayer))のみで、追加のオンチップのキャパシタンスを必要とすることなく必要なRC時定数を生み出すのに十分とすることができる。それゆえ、コンデンサ426は、積分コンデンサとして使用され得て、電圧信号VPREによって事前充電され、続いて、電圧信号VLIQによって放電または充電され得る。そうでなければ電気回路内にオンチップで作製される追加のコンデンサおよびパスデバイスをなくすことにより、ナノポア配列決定チップ内の単一のナノポアセルのフットプリントを著しく減少させることができ、それにより、(例えば、ナノポア配列決定チップ内の数百万ものセルを有する)ますます多くのセルを含むためにナノポア配列決定チップを拡大することが容易になる。
D.ナノポアセル内でのデータサンプリング
[0085]核酸の配列決定を実行するために、積分コンデンサ(例えば、積分コンデンサ408(ncap))またはコンデンサ426(CBilayer)の電圧レベルは、タグ付けされたヌクレオチドが核酸に加えられている間に、ADC(例えば、ADC435)によってサンプリングされ変換され得る。ヌクレオチドのタグは、例えば、VLIQがVPREより低いような印加電圧のとき、対電極および作用電極を介して印加される、ナノポア間の電界によって、ナノポアの筒内へと押し入れられ得る。
1.充填
[0086]充填事象は、タグ付けされたヌクレオチドが、鋳型(例えば、核酸断片)に取り付けられ、タグがナノポアの筒の内外に進むときにあたる。これは、充填事象の間に複数回発生し得る。タグが、ナノポアの筒内にあるとき、ナノポアの抵抗は、より高く、より低い電流がナノポアを通り流れ得る。
[0087]配列決定の間、タグは、いくつかのACサイクル状態でナノポア内に存在しないことがあり(開放チャネル状態と呼ぶ)、この場合電流は、ナノポアのより低い抵抗のために、最も高い。タグがナノポアの筒内へと取り付けられるとき、ナノポアは、明モードである。タグがナノポアの筒外へと押し出されるとき、ナノポアは、暗モードである。
2.明および暗期間
[0088]ACサイクルの間、積分コンデンサでの電圧は、ADCによって複数回サンプリングされ得る。例えば、ある実施形態では、AC電圧信号が、システム全体に、例えば、約100Hzで印加され、ADCの取得速度は、セルあたり約2000Hzであり得る。このように、ACサイクル(AC波形のサイクル)毎に取得される約20のデータポイント(電圧測定値)が存在し得る。AC波形の1サイクルに対応するデータポイントは、1セットと呼ばれ得る。ACサイクル毎のデータポイントの1セット内には、例えば、明モード(期間)に対応し得る、VLIQがVPREより低いときキャプチャされるサブセットが存在し得て、このときタグは、ナノポアの筒内へと押し込まれる。別のサブセットは、暗モード(期間)に対応し得て、このときタグは、例えば、VLIQがVPREより高いとき、印加される電界によってナノポアの筒外へと押し出される。
3.測定電圧
[0089]データポイント毎に、スイッチ401が開路のとき、積分コンデンサ(例えば、積分コンデンサ408(ncap)またはコンデンサ426(CBilayer))における電圧は、例えば、VLIQがVPREより高いとき、VPREからVLIQに増大し、VLIQがVPREより低いとき、VPREからVLIQに減少するように、VLIQによる充電/放電の結果として減衰する挙動で変化していく。最終的な電圧値は、VLIQから作用電極の電荷だけずれる。積分コンデンサでの電圧レベルの変化率は、ナノポアを含み、結果としてナノポア内の分子(例えば、タグ付けされたヌクレオチドのタグ)を含み得る、二重層の抵抗の値によって支配され得る。電圧レベルは、スイッチ401が開路した後の所定時間に測定され得る。
[0090]スイッチ401は、データ収集速度で動作し得る。スイッチ401は、通常、ADCによる測定の直後の2回のデータ取得間の比較的短時間、閉路され得る。スイッチは、複数データポイントがVLIQの各ACサイクルの各サブ期間(明または暗)中に収集されることを可能にする。スイッチ401が開路のままのとき、積分コンデンサでの電圧レベルおよび、それゆえ、ADCの出力値は、完全に減衰し、そこに留まり得る。代わりに、スイッチ401が閉路のとき、積分コンデンサは、再び事前充電され(VPREに)、別の測定の準備がなされる。したがって、スイッチ401は、複数データポイントが各ACサイクルの各サブ期間(明または暗)に収集されることを可能にする。そのような複数の測定は、固定されたADC(例えば、平均化され得る、より多数の測定による8ビットから14ビット)を用いたより高い分解能を可能にさせ得る。複数の測定は、ナノポア内に充填される分子に関する動態情報をさらに提供し得る。時間の情報により、どれだけの長さで充填が発生するかの決定を可能にさせ得る。これは、核酸鎖に加えられる複数のヌクレオチドが配列決定されつつあるか否かを判定することを支援することにも用いられ得る。
[0091]図5は、ACサイクルの明期間および暗期間中のナノポアセルから取得されたデータポイントの例を示す。図5では、データポイントでの変化は、図解目的用に強調されている。作用電極または積分コンデンサに印加される電圧(VPRE)は、例えば、900mVなどの一定のレベルにある。ナノポアセルの対電極に印加される電圧信号510(VLIQ)は、方形波として示されるAC信号であり、このときデューティサイクルは、50%以下、例えば約40%のような任意の好適な値であり得る。
[0092]明期間520の間、対電極に印加される電圧信号510(VLIQ)は、作用電極に印加される電圧VPREより低く、その結果、タグは、作用電極および対電極に印加される、異なる電圧レベルに起因する電界によって、ナノポアの筒内に押し込まれ得る(例えば、タグ上の電荷および/またはイオンの流れにより)。スイッチ401が開路のとき、ADCの前のノードでの(例えば、積分コンデンサでの)電圧は、減少していく。電圧データポイントが取得された後(例えば、指定された期間の後)、スイッチ401は、閉路され得て、測定ノードでの電圧は、VPREへと再び戻るように増大していく。プロセスは、複数の電圧データポイントを測定するために繰り返され得る。このようにして、複数のデータポイントは、明期間の間に取得され得る。
[0093]図5に示すように、VLIQ信号の符号の変化の後の明期間内の第1のデータポイント522(第1のポイントデルタ(FPD)とも呼ばれる)は、後続のデータポイント524よりも低いことがあり得る。これは、ナノポア内にタグが存在しないからであり(開流路)、それゆえ、それは低抵抗および高放電率を有するためであり得る。いくつかの例では、第1のデータポイント522は、図5に示すようなVLIQレベルを超え得る。これは、信号をオンチップコンデンサに結合する二重層のキャパシタンスに起因し得る。データポイント524は、充填事象が発生した、すなわち、タグがナノポアの筒内に押し込まれた後に取得され得て、この場合ナノポアの抵抗、およびそれゆえの積分コンデンサの放電速度は、ナノポアの筒内に押し込まれるタグの個々のタイプに依存する。データポイント524は、以下で説明するように、CDouble Layer424で生成される電荷により、測定毎にわずかに減少し得る。
[0094]暗期間530の間、対電極に印加される電圧信号510(VLIQ)は、作用電極に印加される電圧VPREより高く、その結果、いずれのタグも、ナノポアの筒外に押し出され得る。スイッチ401が開路のとき、測定ノードでの電圧は、電圧信号510(VLIQ)の電圧レベルがVPREより高いので、増大する。電圧データポイントが取得された後(例えば、指定された期間の後)、スイッチ401は、閉路され得て、測定ノードでの電圧は、VPREへと再び戻るように減少していく。プロセスは、複数の電圧データポイントを測定するために繰り返され得る。このように、複数のデータポイントは、第1のポイントデルタ532および後続のデータポイント534を含む暗期間の間に取得され得る。上述のように、暗期間の間に、いずれのヌクレオチドタグもナノポアの外に押し出され、それゆえ、任意のヌクレオチドタグに関する最小限度の情報が取得され、さらに正規化に用いられる。
[0095]図5は、明期間540の間、対電極に印加される電圧信号510(VLIQ)は、作用電極に印加される電圧VPREより低いにもかかわらず、充填事象が発生しない(開経路)ことも示す。したがって、ナノポアの抵抗は低く、積分コンデンサの放電速度は高い。結果的に、第1のデータポイント542および後続のデータポイント544を含む、取得されたデータポイントは、低電圧レベルを示す。
[0096]明または暗期間の間に測定される電圧は、ナノポアの一定の抵抗(例えば、1つのタグがナノポア内にある間に所与のACサイクルの明モードの間に形成される)の測定毎にほぼ同一であると期待され得るが、このことは、電荷が2重層コンデンサ424(CDouble Layer)で生成する場合であり得ない。この電荷生成は、ナノポアセルの時定数をより長くさせる結果をもたらし得る。結果的に、電圧レベルは移動し、それにより測定値がサイクル内のデータポイント毎に減少するという結果をもたらし得る。このように、サイクル内で、データポイントは、図5に示すように、ある程度データポイントから別のデータポイントへ変化し得る。
[0097]測定に関するさらなる詳細は、例えば、「Nanopore−Based Sequencing With Varying Voltage Stimulus(電圧刺激を変化させるナノポアベースの配列決定)」という名称の米国特許公開第2016/0178577、「Nanopore−Based Sequencing With Varying Voltage Stimulus(電圧刺激を変化させるナノポアベースの配列決定)」という名称の米国特許公開第2016/0178554、「Non−Destructive Bilayer Monitoring Using Measurement Of Bilayer Response To Electrical Stimulus(電気的刺激に応答した二重層の測定を用いた非破壊二重層モニタリング)」という名称の米国特許出願第15/085,700、および「Electrical Enhancement Of Bilayer Formation(二重層形成の電気的促進)」という名称の米国特許出願第15/085,713の中で見つけることができ、開示のその全体があらゆる目的のために参照により本明細書に組み込まれる。
4.正規化および塩基分類
[0098]ナノポアセンサチップの有効なナノポアセル毎に、生成モードが、核酸を配列決定するために実行され得る。配列決定中に取得されるADC出力データは、より高い精度を提供するために、正規化され得る。正規化は、サイクル形状、ゲインドリフト、電荷注入オフセット、およびベースラインシフトなどの偏位効果を引き起こし得る。いくつかの実施態様では、充填事象に対応する明期間サイクルの信号値は、単一の信号値がサイクル毎に取得される(例えば、平均)ように、平坦化され得る、またはサイクル内減衰(一種のサイクル形状効果)を低減するために測定された信号に対して調整がなされ得る。ゲインドリフトは、通常完全な信号を基準の大きさとし、数百から数千秒までのオーダーで変化する。例として、ゲインドリフトは、溶液の変化(ポア抵抗)または二重層キャパシタンスの変化がトリガとなり得る。ベースラインシフトは、約100msの時間尺度で発生し、作用電極の電圧オフセットに関係する。ベースラインシフトは、配列決定セル内の電荷バランスを明期間から暗期間へ維持する必要の結果として、充填からの有効調整比の変化によって駆動され得る。
[0099]正規化の後、実施形態は、充填された経路の電圧のクラスタを決定し得て、ここで各クラスタは、異なるタグ種、およびそれゆえの異なるヌクレオチドに対応する。クラスタは、所与のヌクレオチドに対応する所与の電圧の確率を算出するために使用され得る。別の例として、クラスタは、異なるヌクレオチド(塩基)間での差別化のための分離電圧を決定するために用いられ得る。
[0100]単一の測定に基づく核酸の塩基決定の例示の方法が以下に提供される。実施例は、説明のために電圧測定を使用し得るが、例示の技術は、電流測定などの他の信号測定に同様に適用する。
II.誤差源
[0101]チップの有用なセルが識別された後、生成モードが、例えば、1つの核酸を配列決定するセル毎に、核酸を配列決定するために、実行され得る。配列決定中に測定される信号値は、より高い精度を提供するために、規格化され得る。例えば、AC駆動電圧の明期間(本明細書で「明モード電圧」または代替として「明期間電圧」と呼ぶ)中に取得される電圧レベルデータが規格化され得る。例えば、明モード電圧は、ナノポアが、本明細書で「開チャネル電圧」または「明モード開チャネル電圧」と呼ぶ、充填されていない状態にあるとき、測定された明モードデータポイントの各々をセルの明モード電圧で除算することによって、規格化され得る。明モード電圧レベルデータを規格化することによって、未処理のADC測定値のダイナミックレンジは、規格化された範囲に変倍され、通常、0と1の間の範囲を提供するが、明モード開チャネル電圧に用いられる特定値により、1より大きい値も可能である。
[0102]規格化は、システムが変化を、例えば、配列決定セルの電気特性の変化を、補償することを可能にし得る。例えば、回路400のキャパシタンスは、時間と共に変化し得る。例えば、コンデンサ426(CBilayer)のキャパシタンスは、例えば、ウェルの縁部における二重層の面積または厚さの物理的変化のために、変化し得て、ここでのそのような変化は、ゲインドリフトと呼ばれる。別の例として、充電は、明期間と暗期間との間の電荷移動の差異の結果として、セル内で増大し得て、これがベースラインシフト(およびときには高速ベースラインシフト)と呼ばれる。低速ベースラインシフトは、測定回路の変動性および二重層膜の電気特性の変化に起因し得る。これらの例は、より詳細に後述する。
[0103]そのような変化は、正確な同一状態が測定された値に影響を及ぼし得て、それにより不安定性をもたらす。しかしながら、規格化が、そのような変化を補償し得て、時間に対して安定した規格化値(例えば、電圧または電流)を提供し、それにより核酸の配列決定の決定において、より高い精度を可能にする。
A.理想化された規格化
[0104]図6A〜6Bは、いくつかの実施形態による、理想化されたADC信号のための規格化の技術概念を示す。図6Aは、例えば、上述したような、配列決定作業中にADCによって測定され得る、理想化された明モードデータ601および理想化された暗モードデータ603を示す。図6A〜6Bの理想化されたADCデータも、図5への参照で上述したデータより、さらに長い時間尺度で示されている。そのため、個々のACサイクルは、図5では見ることができない。それにもかかわらず、明モードデータ601および暗モードデータ603は、AC駆動電圧Vliqの異なる半サイクル中に取得されることを理解されたい。さらに、図6Aで示したデータは、ノイズ、ゲインドリフト、および/またはベースラインシフトが存在しないという意味で、理想化されており、すなわち、開チャネル電圧(明モードおよび暗モードの両方とも)は、個々のACサイクルにわたり一定であり、時間に対して一定である。
[0105]加えて、明モードデータ601は、2つの異なるタグ付けされたヌクレオチドの2つの別個の仮想の充填事象に対応する、充填事象605および607を示す。充填事象605および607で測定された電圧は、別の装填されたタグ付けされたヌクレオチドにより、異なる。図に示すように、充填事象は、いくつかのACサイクルにわたって発生し、充填事象中に明モード開経路信号が測定されない、十分に高速な時間尺度で発生する。いくつかの実施形態では、1つまたは複数の充填事象605および607は、ADC値の増大を、減少とは対照的に、もたらし得る。そのような値は、上述の開チャネルとして見なされ得る。
[0106]図6Aでは、明モードの開チャネルADC値は、充填事象605および607のADC値を規格化するために用いられ得る、P0により表されている。この理想化された例でのこの規格化因子P0は、t=0での計測値において一定であり、この例ではADC値が150である。この事例での規格化を実行するために、明モードデータの全てが、同一の定数P0=150で除算され得る。説明を容易にするために、除算による規格化の例が、本開示を通して使用されるが、当業者には、逆数による乗算が数学的に同等であり、そのため、本開示の範囲から逸脱することなくさらに使用され得ることが理解されよう。
[0107]図6Bは、図6Aの理想化された明モードデータ601を規格化することでもたらされた、規格化された明モードデータ610を示す。規格化された明モードデータでは、開チャネルレベルおよびタグレベルは、未処理のADC値ではなく、むしろ0から1の範囲で伸びている。明モード開チャネル電圧が、この事例では一定なので、規格化因子P0は、配列決定実行の全持続時間にわたり、全信号を規格化するために使用され得る。しかしながら、実際の信号は、多くの非理想性に悪影響を受け、この簡潔な、単一の値の規格化を不正確にする。実際の配列決定システムでの誤差の2つの主要な原因は、ベースラインシフトおよびゲインドリフトである。
B.ゲインドリフト
[0108]各配列決定セルは、脂質二重層キャパシタンスによって決まる電圧利得を有する。ゲインは、2つの電極(例えば、対電極210および作用電極202)間で達成される電圧差に対応する。例えば、コンデンサの方程式C=q/Vが与えられたとすると、同量の充電が存在する場合、キャパシタンスが増大すると共に、電圧は減少し得る。したがって、脂質二重層キャパシタンスが、時間と共に変化する場合、電圧利得は時間と共に変化する。電圧利得が、時間と共に変化する場合、明モードおよび暗モード(開チャネルおよび装填されたものの両方)は、時間と共に変化し得る。任意の実際のシステムで、二重層キャパシタンスは、例えば、二重層が変形するにつれて、時間と共に変化し得る。そのような変化は、通常、数百または数千秒の時間尺度で発生し、通常の充填事象よりも低速であるが、より高い正確な測定が所望される場合、やはり考慮されるべきである。
[0109]図7は、ゲインドリフトに悪影響を受けた理想化された信号を示す(充填事象および非現実的なゲインドリフトの両方に非現実的な時間尺度を用いて、両方の現象が同一のグラフ上に明確に示されることを可能にした)。図6A〜6Bのように、図7は、配列決定作業中にADCによって測定され得るような、理想化された明モードデータ701および理想化された暗モードデータ703を示す。ゲインドリフトは、明および暗モード間で反対に相関される(例えば、明モードが増大するとき、暗モードが減少する、および逆もまた同様)ドリフトを有する、明および暗モードの開チャネル電圧での全体のドリフトとして示されている。時間に対して同一のタグの、測定されるADCレベルに関して、ゲインドリフトが有する効果を明瞭にするために、各充填事象が同種のタグを含みながら、目下の開チャネル電圧から同一の電圧降下をもたらす、4つの充填事象をさらに示す。しかしながら、各事象中に同一のタグが装填されたという事実にもかかわらず、このタグのADC値は、時間と共にドリフトする。このように、このセルに関しておそらく、同一のタグが、120から150の範囲内のどこにでも検出され得る事例である。結果として、規格化されていないレベルは、誤差が発生しやすいであろう。
[0110]ゲインドリフトを補正するために、図6A〜6Bを参照して上述したものに類似した規格化手順が、実行され得る。しかしながら、図6A〜6Bの事例と異なり、明モードでの開チャネル電圧は、時間に対して一定でないため、上述した単一の値の規格化(すなわち全てをP0で除算する)は、時間に対して全ての信号を規格化できない。一定の規格化の代わりに、より複雑な可変規格化が、適用され得て、例えば、規格化は、未処理の明モードで測定されたADC値の各々を、そのポイントの開チャネル値の推定値を用いて、除算することによって達成され得る。未充填領域毎に、開チャネル電圧の推定値は、多くの方法、例えば、局所的な平均値をとることによって、またはより詳細に後述するような、積分されたヒストグラム技術などの、より洗練された信号処理技術を用いることによって、作成され得る。したがって、局所的推定値は、明モードの開チャネル値のために、取得され得て、そのデータポイントに局所的な推定電圧を用いてデータポイントを規格化する。
[0111]他方では、信号の装填された領域は、課題を提供し得る。いくつかの充填事象には、例えば、充填事象705および707で見られるように、充填速度が十分低速である場合、利用可能な開放チャネルデータが存在し得る。充填速度が比較的低速である場合、開チャネル値は、タグが装填される前に、測定され得る。そのような開チャネル値は、サイクル毎に測定され得る。この挙動は、充填事象705および707で示した櫛状の線で示される。これらの事例では、限定された開チャネルデータは、充填事象中に真の開チャネル値を推定するために使用され得る。この限定された開チャネルデータ(すなわち充填発生しない場合に対して限定される)は、開チャネル値の局所的推定値(例えば、ゲインドリフトを考慮するように、時間内に局所的な)を取得するために使用され得る。
[0112]しかしながら、それは、充填が、例えば、充填事象709および711で示したような、開チャネルデータが明モードで取得されないほど十分高速である事例であり得る。充填速度が十分に高速である場合、タグは、速やかに装填され、開チャネル値は、測定されない。この開チャネル電圧の欠落は、開チャネルの局所的推定値を決定しようとする場合、問題となり得る。所与の時間間隔の開チャネル値が存在しない場合、その時間間隔には局所的推定値は決定され得ない。これらの事例では、さらに詳細に後述するように、暗モードデータを用いて、明モードでの開チャネルデータの局所的推定値を決定することができる。
C.ベースラインシフト
[0113]ベースラインシフトは、測定処理中に生じる充放電サイクルにおける、セルの一定の構成要素(例えば、CDouble Layer)上で増加する、電荷不均衡に関する現象である。例えば、測定処理中、過剰な電荷は、図4のCDouble Layerにより表される、セルの作用電極上で増加し得る。一例では、電荷不均衡は、ナノポアおよびタグの両方とも非線形のI−V特性を有するという事実に起因する。この非線形性の結果として、充放電サイクルは、容量性の構成要素に、同一の量の電荷を付加または除去し得ない。例えば、正負のイオンは、1つの電極からもう一方の電極に、ポアを通って、時間に対して同一の速度で移動し得ず、例えば、ウェル内に正電荷の増加をもたらす。なお、デューティサイクルは、正負のイオンの伝達速度の通常の差異に対処するために、60%暗モードおよび40%明モードであり得るが、速度が変化するとき、デューティサイクルは変化する必要があり得て、このことは、実施が困難であり得ることに留意されたい。
[0114]この蓄積される電荷不均衡の結果として、セルでの電圧測定値は、(例えば、正電荷がウェルに増加するとき)増大し得る。電荷不均衡の結果として、このベースライン電圧のシフトは、それが、当初設定された対向する電圧に平衡するのに十分な高い電圧を発生するまで増大し得る。そのポイントで、電荷は再び均衡し得る。ベースラインシフトは、暗モードおよび明モードの両方の開チャネル状態において、ならびに4つの装填された状態の各々において、開チャネルの各々および4つの装填された状態で、潜在的に異なるシフトの大きさおよび時定数と共に、発生し得る。結果的に、ベースラインシフトは、ポアにおけるタグの確率的な結合事象を反映させる、全体的に不規則な様式で変化し得る。
[0115]図8は、ベースラインシフトを示す理想化された信号を示す。図6A〜6Bおよび図7と同様に、図8は、理想化された明モードデータ801および理想化された暗モードデータ803を示す。この種類のベースラインシフトは、通常、タグのポア内での滞在時間のオーダーである時間尺度で、通常ゲインシフトための時間尺度よりずっと高速である時間尺度で、発生する。したがって、ゲインシフトは、図8では示されない。
[0116]充填事象810の前に、セルは、平衡に、すなわち、均等な電荷の、例えばCDouble Layerへの、移動の確保に必要とするベースライン電圧に、明および暗モード中に到達してしまう。しかしながら、充填事象810が開始すると、システムは、平衡から外される。より具体的には、セルが暗モードにあるときのポアの実効抵抗が同じ値に留まる一方で、明モードでのポアの実効抵抗は、増大してしまう。明モードで増大させられた抵抗は、充填事象が発生する前と比較して、このモードの間に、移動するための充電量がより小さくなる。したがって、電荷不均衡が形成し始め、それが、タグレベルおよび暗モード開チャネルレベルの両方で、それぞれ、上向きシフト805および807につながる。
[0117]ゲインシフト現象と同様に、ベースラインシフトを補償するために、可変のポイント単位の規格化が、適用され得て、例えば、規格化は、未処理の明モードで測定されたADC値の各々を、そのポイントの開チャネル値の推定値を用いて、除算することによって達成され得る。しかしながら、そのような補正方法は、開チャネルおよび装填されたチャネル信号間の動的な差異のために、装填された信号を的確に規格化し損ない得る。例えば、時間tでの開経路信号をPOC(t)とし、時間tでの可変の装填されたタグレベルをPi(t)、ここでi=A、C、G、またはTとすると、システムのダイナミックスは、以下の2つの方程式でモデル化され得る。
ここで、P0 OCおよびP0 iは、t=0での開チャネルおよびi番目の装填されたチャネルの値、bは、t=0での開チャネルベースラインシフト、biは、t=0でのi番目の装填されたチャネルのベースラインシフト、そしてTは、ベースラインシフトに関連付けられた時間尺度である。明モードデータの、対応する明モード開経路信号による、ポイント単位の除算に依拠する規格化方法は、方程式(1)および(2)を方程式(1)で除算することによって、効果的にモデル化し得て、それが、それぞれ規格化された開チャネルおよびタグレベルの、方程式(3)および(4)をもたらす。
[0118]方程式(3)〜(4)で分かるように、OCレベルは、全ての時間で完全に規格化される(定義によれば)。さらに、bi=bの場合ならば、時間依存が省かれ、方程式(4)は、
に変わる。しかしながら、一般的には、bi≠bであり、方程式(4)は、全ての時間で一定に留まらず、タグレベルをもたらし続ける。したがって、開経路信号値によるポイント単位の除算に、主に依拠する、タグレベルの任意の規格化は、規格化後であっても、やはり時間依存性である規格化されたタグ値をもたらし得る。タグレベルの時間的変動は、十分に大きい場合、下流側の配列決定誤差の原因となり得て、そのため(開チャネル値によるポイント単位の規格化に加えて)信号処理技術を利用することが、ベースラインシフトのデータを的確に補正するために有益である。
D.ゼロ点電圧での変動
[0119]電子的な理由で、各セルは、異なるゼロ点電圧を有し得る。用語、ゼロ点電圧は、0Vがセルに入力として印加されたとき、セルによって出力される電圧を示し、本明細書ではV0と呼ぶ。V0の変動は、製造上の不完全性、またはチップ内の異なるセルのアナログ回路間の不均一性に起因し得る。さらに、電気化学的な理由で、偏りがセル内に形成され得る。さらに、電極の表面の化学的性質が、電極を電池としてはたらかせ、そのため、各セルは、セル毎にV0に寄与し得るわずかに異なった電位を有し得る。セルでゼロでないV0を有する正味の効果は、測定されたADC信号が、V0の値により、不自然に押し上げられまたは押し下げられることである。したがって、V0が時間と共に変動する場合、配列決定誤差が生じ得る。
E.ゲインドリフトおよびベースラインシフトを示すサンプルデータ
[0120]図9は、約5秒の推移にわたりナノポアセルから測定された、未処理の配列決定信号のサンプルデータの一例を示す。信号は、複数の充填事象を含む明モードデータ910および暗モードデータ920を含む。充填事象に応答して、明および暗モードの両方が、挿入図に示すような、比較的短期間のベースラインシフトに悪影響を受け得る。例えば、数秒オーダーでの、より長い時間スケールでは、信号は、ゲインドリフトをやはり示し、それが図9で、明および暗チャネル信号間の分離において、わずかな、時間に対して漸進的な変化として現れている。図9で分かるように、明および暗チャネルでのオフセットシフトは、相関関係にあり、すなわちオフセットシフトは、明および暗モード信号で、同一の方向に移動することになり、例えば、両方のモードは、上向きにシフトする、または両方は、下向きにシフトする。対照的に、ゲインドリフトは、明および暗チャネル間で反相関関係にあり、すなわちゲインドリフトは、明および暗モード信号で、反対方向に移動することになり、例えば、明モードの場合、上にドリフトし、暗モードの場合、下にドリフトする。
III.信号補正
[0121]ナノポア配列決定セルから取得された未処理の配列決定信号は、例えば、ゲインドリフト、ベースラインシフト、ゼロ点電圧での変動、および上述したような他の較正の課題を含む、いくつかの非理想性に悪影響を受ける。1つまたは複数の信号処理技術が、未処理の配列決定信号を改善するために用いられ得て、その結果、配列決定誤差が最小化される。
[0122]以下のセクションは、信号の精度および安定性を改善するために、未処理の配列決定信号を処理する方法を説明する。セクションIII(A)は、ゼロ点電圧の効果を、任意のセルのV0を明示的に知ることなしに、補正するおよび/または除去する方法を説明する。セクションIII(B)は、開チャネルおよび装填されたチャネル信号のダイナミックスが異なる場合でも、ベースラインシフトの効果を最小化し得る方法を説明する。セクションIII(C)は、進行するヒストグラム技術を用いて追跡される開経路信号値を用いてゲインドリフトを補正するように、改善されたポイント単位の規格化を実行するために使用され得る方法を説明する。これらの方法は、ナノポア配列決定セルでの改善された信号処理方法を提供するために、単独で、または任意の組合せで使用され得る。
A.V0なしでの規格化
[0123]実施形態は、その開示が、あらゆる目的のためにその全体において参照により本明細書に組み込まれている、「Formation and Calibration of Nanopore Sequencing cells」という名称の米国特許出願第15/632,190で説明されているように、V0(VMZEROとも呼ぶ)を補償するために、較正処理を実行し得る。例えば、V0は、各々の配列決定処理の前に実行する、診断ルーチンの一部として、配列決定チップのセル毎に直接測定され得る。V0は、定期的に測定され更新され、メモリに記憶され、次に、上述した2D変換処理および規格化手順の前に、測定された明モードおよび暗モード値から減算され得る。しかしながら、V0値が、実際のV0測定値と、それが測定された配列決定信号から減算される時間との間の期間を通じて、記憶された値からドリフトする場合、不正確さがやはり生じ得る。ある実施形態によれば、システムは、V0を追跡し除去する必要をなくし、それにより時間依存性のV0に起因する誤差の軽減を支援する、改善された処理方法を、利用し得る。
[0124]方法の一実施形態を説明するために、明および暗モード電圧値を、V0を明確に考慮する関数形式で、表現することが、有用であり、
V+=m(Vpos−V0) (6)
V−=m(Vneg−V0) (7)
ここでV+は、ADCによって測定された明モード電圧、V−は、ADCによって測定された暗モード電圧、mは、システムのゲイン、VposおよびVnegは、それぞれ明モードおよび暗モード中にセルのナノポア間の電圧である。通常、Vposは、ナノポアの状態により5つの異なる値をとり得て、開チャネル状態にはVOC pos、ならびにi=A、C、G、およびTに対応する装填された状態のうちの1つ毎にVTi posをとり得る。
[0125]セクションII(A)で上記のように、規格化手順は、測定された明モード信号値を対応する開チャネル明モード信号値で除算することを含み得る。方程式(6)によって導入された明モードデータ用の関数形式を用いて、装填された状態毎の規格化値fiが、ゼロ点電圧V0を明示的に考慮する形式で記述され得る。
ここで
は、i=A、C、G、またはTの測定された明モード装填された値、
は、測定された明モード開チャネル値である。
[0126]方程式(8)は、V0が時間と共に変化する場合、たとえ未処理の装填された電圧VTi posおよび未処理の開チャネル電圧VOC posが、各々時間に対して一定でも、規格化されたタグレベルの特定の数値も変化することになる。そのような規格化されたタグレベルでのドリフトは、下流の配列決定誤差の原因となり得る。すでに簡潔に上述したように、この誤差源を補正するために、ゼロ点電圧V0の値は、頻繁に測定され、規格化がなされる前に、測定された開チャネルおよび装填されたチャネル値から減算され得る。しかしながら、この解決法は、貴重な配列決定時間をV0測定に充てる必要があるので、問題であり、そのため一時的な盲点すなわちデッドタイムを、配列決定処理内に導入する。ある実施形態によれば、V0の予備知識を必要とせず、そのためV0の測定または追跡を必要としない、修正された規格化処理が、利用され得る。
[0127]例えば、代替の規格化は、ゼロ点電圧V0が、方程式(6)および(7)で、単にオフセットとして現れることを認識することによって、V0に依存しないことが識別され得る。したがって、オフセットは、方程式(7)によって表現された暗モードデータを、方程式(6)によって表現された明モードデータから減算することによって、除去され得る。この減算を、明モード開チャネルデータVOC +と、明モード装填されたデータVTi +との両方に実行することによって、以下の規格化の代替形式がもたらされる。
この規格化値の代替形式は、任意のV0に関する明示的な依存性を除去し、そのため、V0は、規格化を実行するために、知られる必要がない。さらに、方程式(9)内の多様な用語は各々、通常の配列決定の工程中に測定され、そのため、追加の測定は、規格化の実行のために、必要とされない。加えて、所望される場合、最初の規格化値fiは、再定義された規格化値、以下の関係に基づくfi’から、計算され得る。
fi=fi’(1−f−)+f− (10)
ここでi=A、C、G、またはT、および
[0128]暗モード電圧を方程式(9)の分子および分母から除算することによって、V0ドリフトの効果は、補償され得る。いくつかの実施形態では、V0の分散に起因する、未処理の信号値の任意の分散は、追加の測定を実施する必要なしに、大きく低減され、またはそれどころか除去され、配列決定中に、V0を明示的に追跡する。本明細書で用いられるように、方程式(9)の分子および分母は、それぞれ開チャネルおよび装填されたチャネルの、ゼロ点が補償された信号値として見なされる。
[0129]方程式(9)により表される再定義された規格化のゆえに、セクションIII(B)への参照で後述する、2D変換手順も有益であり得ることに留意されたい。より具体的には、図12A〜12Cで示した積分履歴を用いた回転補正の事例では、処理は、積分履歴の計算のための入力信号(x軸)として、ゼロ点補償された明モードデータを、用いることによって、修正され得る。同様に、y軸データのために、ゼロ点補償された明モードデータが、使用され得る。補償されたデータを用いることによって、明モードデータの変化するV0に起因する任意の分散は、除去または最小化され得る。
[0130]図10は、ある実施形態により、非ゼロおよび変化するV0の効果を除去するために、配列決定信号を処理する方法1000を説明するフローチャートを示す。いくつかの実施形態では、方法1000は、図2のプロセッサ224、デジタルプロセッサ430、および/または配列決定セルの回路に接続された任意の制御論理によって、実行され得る。
[0131]ステップ1010では、複数の配列決定信号値P(ti)が、配列決定セルから取得される。配列決定信号値は、ADCによって測定された電圧であり、デジタルプロセッサ、例えば図4に示すような、ADC410およびデジタルプロセッサ430に送信され得る。デジタルプロセッサは、他の構成要素を含む、例えば、図20を参照し、より詳細に後述するように、コンピュータシステムの一部であり得る。電圧は、1つまたは複数の明期間であって、その明期間自体が1つまたは複数の別のACサイクルにわたる、明期間にわたって測定された電圧に対応し得て、すなわち、全ての測定データは、単一のACサイクル内の同一の明期間からであることが必要とされない。そのような測定は、本明細書で説明されるように発生し得て、所与のセルの核酸の異なる部分の配列決定の多様な回数で発生し得る。いくつかの事例では、取得される電圧は、時間に対するセルのゼロ点電圧の不均一性により、ポイントからポイントで(同一のナノポアの状態であっても)変化し得る。印加電圧は、交流信号、例えば、参照電圧に対して、第1の部分(例えば、本明細書で「明モード」とも呼ぶ明期間)および第2の部分(例えば、本明細書で「暗モード」とも呼ぶ暗期間)を有するAC信号であり得る。ある実施形態によれば、参照電圧は、積分コンデンサ、例えば、図4に示すようなncapに印加される参照電圧(図4のVPRE405)であり得る。
[0132]ステップ1020では、1つまたは複数の信号値の第1のセットが決定され、例えば、交流信号の明期間中に測定された1つまたは複数の電圧が、デジタルプロセッサ430によって選択される。電圧の第1のセットは、多様な明期間に対応し得る。そのような測定は、本明細書で説明されるように発生し得て、所与のセルの核酸の異なる部分の配列決定の多様な回数で発生し得る。さらに、1つまたは複数の信号値の第1のセットは、方程式(6)〜(9)を参照し上述したように、多様な明モードの装填されたチャネル信号値VTi +に対応し得る。
[0133]ステップ1030では、1つまたは複数の信号値の第2のセットが決定され、例えば、交流信号の明期間中に測定された1つまたは複数の電圧が、デジタルプロセッサ430によって選択される。電圧の第1のセットは、多様な明期間に対応し得る。そのような測定は、本明細書で説明されるように発生し得て、所与のセルの核酸の異なる部分の配列決定の多様な回数で発生し得る。さらに、1つまたは複数の信号値の第2のセットは、方程式(6)〜(9)を参照し上述したように、多様な明モード開経路信号値VOC +に対応し得る。
[0134]ステップ1040では、交流信号の第2の部分中に測定された1つまたは複数の信号値の第3のセットが決定され、例えば、交流信号の暗期間中に測定された1つまたは複数の電圧が、デジタルプロセッサ430によって選択され得る。1つまたは複数の電圧の第3のセットは、多様な暗期間にまたがって測定され得て、方程式(6)〜(9)を参照し上述したように、暗モード電圧信号値V−に対応することになる。
[0135]ステップ1050では、1つまたは複数の信号値の第3のセットの対応する値は、1つまたは複数の信号値の第1のセットから減算され、それにより1つまたは複数のゼロ点が補償された信号値の第1のセットを生成する。例えば、方程式(9)の分子で示した減算は、デジタルプロセッサ430によって実行され得る。上記のように、方程式(9)への参照において、もたらされた補償された明モードの装填された信号値のセットは、減算処理が変動するゼロ点電圧の効果を、大いに低減するという事実により、低減された分散を有することになる。
[0136]ステップ1060では、1つまたは複数の信号値の第3のセットの対応する値は、1つまたは複数の信号値の第2のセットから減算され、それにより1つまたは複数のゼロ点が補償された信号値の第2のセットを生成する。例えば、方程式(9)の分母で示した減算は、デジタルプロセッサ430によって実行され得る。上記のように、方程式(9)への参照において、もたらされた補償された明モードの装填された信号値のセットは、減算処理が変動するゼロ点電圧の効果を、大いに低減するという事実により、低減された分散を有することになる。
[0137]明および暗モードのゼロ点が補償された信号値が決定された後、それらは次に、他の任意の下流の信号処理方法において使用され得る。例えば、開チャネル明モードのゼロ点が補償された信号値は、一連の明モードの装填された信号値を規格化するために、規格化因子として使用され得る。いくつかの実施形態では、明および/または暗モードの補償された信号値は、セクションIII(B)で後述するように、オフセットシフトの効果を除去するために、2次元変換を用いて、さらに処理され得る。他の実施形態では、明モードの補償された信号値は、ヒストグラムを形成するために使用され得て、このヒストグラムは、セクションIII(C)で後述するように、規格化因子に用いられることになる明モード開チャネル値の、改善された推定値を取得するために、使用され得る。同様に、上記の方法によって決定されるような、ゼロ点が補償された信号値は、図19への参照でさらに詳細に後述するように、ゼロ点補正モジュール1903によって決定され、出力され得る。
B.2次元変換によるベースラインシフト除去
[0138]方程式(1)〜(5)を参照し上述したように、ポイント単位の規格化技術は、開経路信号および装填された信号のダイナミックスが同一の場合、ゲインドリフトおよびオフセットシフトの両方を、効果的に補正し得る。しかしながら、開チャネルおよび装填されたチャネル信号のダイナミックスは、同一であるとは限らない。装填された信号のゲインドリフトおよびベースラインシフトの両方を、より良好に補正するために、測定された2次元の配列決定信号を、2次元変換の方法によって、例えば、より詳細に後述するように、回転させるまたは平坦にすることによって、処理する方法が、利用され得る。
[0139]測定された明モードデータは、信号値P(ti)の1次元のアレイによって表され得て、ここで例えば、アレイ内の各ポイントは、時間tiで取得された明モード信号値である。そのような1次元データの一例が、図9で示してあり、それは約3.5秒の期間にわたって取得された明モードデータを示す。理想的には、1次元アレイP(ti)の値は、ナノポアの状態にのみに依存し得て、そのため時間に対して安定であり得る。実際の任意の信号では、所与のポア状態に対応する所与の信号値は、時間で変化し得て、そのため、異なるナノポアの状態(開チャネル、および4つの装填された状態)に対応する信号値の母集団は、各々がある平均値を有する、有限幅の分布によって、最も正確に記述される。つまり、いくつかの期間にわたって取得された信号値のヒストグラムは、有限幅の5つのピークを有することになり、ここで各ヒストグラムのピークの幅は、異なるナノポア状態に対応する、信号値の分散に依存する。図11のヒストグラム1103および1105は、そのような例を示す。より具体的には、ヒストグラム1105は、開チャネルピーク1105a、ならびに装填されたチャネルピーク1105b、1105c、および1105dを示す。
[0140]所与のポア状態(例えば、「A」タグの装填された状態に対応するポア状態)の装填されたチャネル値に大きな分散を有することは、そのことがその装填されたタグの識別を複雑にするので、理想的でない(ここで再び、理想的には、単一の装填された状態は、時間に対して単一の安定した信号値を有する)。1つまたは複数の装填された状態の信号値の分散が、十分に大きい場合、2つの異なる装填された状態の信号値分布は、重なり合い、配列決定信号内でのそれらの識別を、困難で誤差が発生しやすくする。
[0141]ある実施形態によれば、1次元データP(ti)の分散は、1次元データP(ti)の分散が、データ収集期間中にドリフトまたは変化する、ある他の制御されない変数の不均一性に起因し得ることを、認識することによって、補償され、最小化され得る。例えば、特定のP(ti)値は、本明細書でQ(ti)と呼ぶ、やはりある時間tiでのセル内の電荷不均衡の量に、依存し得る。P(ti)の分散を補償する一方法は、時間ti毎に、電荷不均衡Q(ti)をやはり測定し、次にこの2次元のデータを、P(ti)の分散を除去するために、ある種類の2次元変換を用いて処理する。より一般には、P(ti)の各測定値は、本明細書で相関信号値と呼ぶ、別の量X(ti)の測定値と対合され、2次元の信号データポイントS2D=[X(ti),P(ti)]を生成し得る。以下の説明が2次元の信号データの一例に着目する一方で、数学的表現は、本開示の範囲から逸脱することなく、2つより多くの次元に拡張され得る。
[0142]この新しい2次元のデータセットS2Dは、P(ti)の分散の大きさを最小化する、1つまたは複数の2次元変換R2Dを見出すために、使用され得る。一般に、2次元変換R2Dは、以下のような2×2の行列として表現され得る。
S2Dは、列ベクトルとして表現され得て、したがって、変換された信号値S’2Dは、下のように記述される。
S’2D=R2DS2D (12)
X’(ti)=αX(ti)+βP(ti) (14)
P’(ti)=γX(ti)+δP(ti) (15)
[0143]ある実施形態によれば、相関信号値X(ti)は、明モード信号値P(ti)の分散に寄与する現象を、直接測定するまたはその代替となる、任意のものであるように、選択され得る。例えば、上述したように、オフセットシフトは、各々の測定された明モードポイントがわずかに異なるオフセットシフトを有し得るので、測定されたP(ti)値の分散源であり得る。さらに、オフセットシフトは、セルの1つまたは複数の容量性の構成要素における電荷不均衡によって発生し得る。したがって、この例での分散を除去するために、相関信号値X(ti)は、電荷不均衡の測定値自体または電荷不均衡の代替であるように、選択されるべきであり、すなわちX(ti)は、電荷不均衡に対して線形に変化するべきである。以下の2つの例では、相関信号値X(ti)は、1)対応する暗モード信号値、または2)本明細書で明モード信号値の積分履歴と呼ぶもの、のいずれかであるように選択される。相関信号値のこれらの例の両方が、電荷不均衡の代替であり、例えば、電荷不均衡と線形に相関し得て、そのため明モード信号データのオフセットドリフトを補正するために、使用され得る。本開示の利益を有する当業者には理解されるように、相関信号値には、他の多くの選択が可能である。
[0144]いくつかの実施形態では、それらが変換された後に、1つまたは複数のデータのクラスタのアスペクト比を保存しない、2D変換を利用することは、有益であり得る。例えば、そのような2D変換は、変換行列によって与えられる。
そのような変換は、それが、やはり本明細書で「変換パラメータ」と呼ぶ、単一の変換パラメータρiのみを含む、という事実により、データを決定することおよび適用することの両方への、計算の負担が少ないので、有益であり得る。いくつかの実施形態では、方程式(16)で示した変換は、より詳細に後述するように、できる限り異なるρiを異なるクラスタに適用させながら、2D面内の信号値の異なるクラスタに単独で適用され得る。例えば、明モード開チャネルデータのクラスタ(例えば、図12Aのクラスタ1201)にのみ適用されることになる、変換パラメータは、ρOCと呼び、明モードの装填されたチャネルデータのクラスタ(例えば、クラスタ1203、1205、1207、および1209)のグループにのみ適用されることになる、変換パラメータは、ρThと呼ぶ。各々の事例で、低減された変換は、信号データの2つの次元間の線形混合をもたらす。例えば、明モード開チャネルデータPOC(ti)を変換する事例には、変換された開チャネルデータP’OC(ti)が、以下の方程式によって与えられる。
P’OC(ti)=POC(ti)+POCX(ti) (17)
したがって、変換された信号値は、それに付加された相関信号値からのある寄与を有する、未処理の開経路信号値である。相関信号値からの寄与は、変換パラメータρOCの大きさによって決定される。
[0145]いくつかの実施形態によれば、変換パラメータρOCは、変換された開チャネルデータP’OC(ti)の最も平坦なクラスタをもたらす、例えば、変換されたクラスタを通してフィッティングされたラインの傾きがゼロである、変換パラメータであるように決定される。
[0146]装填された信号値は、さらに同様に変換され得る。例えば、以下の変換が、適用され得る。
P’Th(ti)=PTh(ti)+ρThX(ti) (18)
変換パラメータρThは、より詳細を後述するような、データのヒストグラム内の目下の装填されたピーク間の最大限の識別性を提供するように、選択され得る。
[0147]本明細書で開示される例示的な実施例では、2D変換の特定の形式は、測定データのヒストグラム内の異なるピーク間の識別性を最大化する、2D変換を見出すことによって、決定され得る。ヒストグラムは、一定の値域内に含まれる、信号値の数をカウントすることによって測定された、信号値の時系列データから、計算され得て、ここで値域は、(電圧またはADCカウントのいずれかとして測定される)信号値のダイナミックレンジに及ぶ。図11は、未処理データを用いて計算され、その結果、不十分なピーク間の識別性を有する、ヒストグラム1103を示し、例えば、ピーク1105dは、理想的には2つの個別のピークであるべきときに、1つの不鮮明にされたピークとして見られる。対照的に、図16Bは、2D変換を用いて予め変換された、データを用いて計算され、ヒストグラム1103のピークより識別可能なピークを有する、ヒストグラム1605を示す。
[0148]いくつかの実施形態では、最適な2D変換は、ヒストグラムの特性を最適化することによって、計算され、後続の配列決定の工程に用いられるために、メモリに記憶され得て、かつ/または定期的に更新され得る。例えば、最適な2D変換は、ヒストグラム化されたデータ内のピーク(またはピークの部分セット)間の最小値を、最小化する2D変換に決定され得る。別の例では、最適な2D変換は、ヒストグラムのピーク(またはピークの部分セット)間の距離を、最大化する2D変換に決定され得る。いくつかの実施形態では、ヒストグラムは、混合モデル、例えばガウスのまたはラプラスの混合モデル、を用いてモデル化され得て、モデルの多様なパラメータ、例えばピーク位置、最小値などが、最良の2D変換を決定する最適化関数のパラメータとして、使用され得る。
[0149]いくつかの実施形態では、最適な2D変換は、2D面内の最も平坦な、クラスタのセットまたはクラスタの部分セットを、もたらす変換であり得る。そのような変換は、2Dデータのクラスタが、水平のラインを用いて分割されるとき(すなわちx次元で一定であるしきい値を用いて)、クラスタ混合を最小化する、2D変換を決定することによって、見出され得る。
[0150]簡潔性のために、本明細書で論じる例示の実施例は、信号取得時間が、明モード信号値および相関信号値の両方で、同一であることとする。しかしながら、このことは、他の実施形態において正である必要はなく、明モードおよび相関信号値は、ある時間に測定された明モード値と、他のある時間に作成された相関信号値との間に、いくらかの関連がもたらされ得る限り、異なる時間に取得され得る。
1.暗−明面内での2D変換
[0151]ある実施形態によれば、暗モード信号データは、測定された明モード信号値P(ti)毎に、対応する値を有する、相関信号値X(ti)であるように選択される。この例では、暗モード信号はまた、未処理の配列決定信号のベースラインシフトを誘起する、電荷不均衡の代替として、使用される。したがって、暗モード信号値は、2次元の配列決定信号S2Dを生成するために、測定され、各々の明チャネル信号値と対合され得て、それは次に、明モード信号P(ti)の分散を最小化する、2次元変換R2Dを見出すために、使用され得る。
[0152]図9に短時間だけ戻ると、挿入図から、明および暗チャネルデータの両方が、ベースラインシフト現象に悪影響を受けることが、見ることができる。さらに、明モードデータ910および暗モードデータ920のベースラインシフトが、相関関係にあることが、見ることができる。ある実施形態によれば、明モードデータのオフセットシフトを補正する、改善された方法は、この相関を強化し得る。例えば、2次元の配列決定信号S2D=[X(ti),P(ti)]が、取得され得て、この事例では、相関信号値X(ti)は、取得された暗モード信号値に対応する。この2次元の配列決定信号は次に、2次元の配列決定信号に適用されたとき、明モード信号データP(ti)の分散を低減する、2次元変換R2Dを識別するために、使用され得る。簡潔性のために、この変換は、本明細書では、暗−明面内の「回転」と呼ぶこととするが、一般に、任意の2次元変換(回転のみでない)が、本開示の範囲から逸脱することなく、利用され得る。さらに、本開示の利益を有する当業者には理解されるように、データクラスタの回転、または座標系の回転は、等価であり、そのため、どちらの方法も、本開示の範囲から逸脱することなく、利用され得る。
[0153]図12A〜12Cは、ある実施形態による、暗−明面内の回転によるオフセットシフト補正を示す。図12Aは、方法の開始点を説明するために、暗−明面内の、2次元の配列決定信号S2D=[X(ti)P(ti)]のプロットの一例を示す。より具体的には、任意のポイントのx座標は、時間tiに測定された、暗モード値X(ti)によって与えられ、y座標は、対応する明モード値P(ti)である。ある実施形態によれば、S2Dを構成する、明および暗ポイントのそれぞれの測定時間は、同一である、または同時である必要はなく、むしろ、本開示の範囲から逸脱することなく、異なる時間であり得る。いくつかの実施形態では、明モード信号値は、時間に基づいて、暗モード信号値と対合され、例えば、明モード期間で最初に取得された明モードポイントは、次の暗モード期間で最初に取得された暗モードポイントと対合され、または、例えば、明モード信号値は、明モード信号値が取得された、明期間の直前もしくは直後である、暗モード値と対合され、その結果、明および暗モード信号値間の持続時間は、可能な限り短くなる。他の例では、平均暗モード値が、1つまたは複数の明モード値と対合される。本開示の利益を有する当業者には理解され得るように、相関信号値には、他の多くの組合せが可能である。
[0154]図12Aで分かるように、暗−明面内でのデータのプロットは、多様なデータポイントS2Dが、開チャネル測定値と、それぞれC、A、T、およびGの塩基に対応する、4つの異なるタグの装填された値とを表す、自然のクラスタ1201、1203、1205、1207、および1209を形成することを示している。これらのクラスタは、通常、その長軸が左へ上向きである、すなわち暗モード軸に対して水平でない、形状で、細長い。したがって、前処理されたデータは、P(ti)のデータの分散の大きさ(すなわち、垂直方向の大きさ)を最小化するために、最適化されない。事実上、データクラスタの自然の形状は、P(ti)の分散の大きさを最小化するように、各々の個別のクラスタを回転および/または平坦化し得る、2次元変換R2Dが存在する、という事実を示唆する。
[0155]暗−明面内でデータが変換される前に、データは、信号のダイナミックレンジを、1つまたは複数の方向で、圧縮または拡張するために、増減することによって前処理され得る。例えば、図12Bは、これらの値を1/5乗することによって、増減されたy軸値、すなわち
を有する、最初の信号を示す。この例では、データの最初のy方向範囲は、(およそ)0.5から2.5にわたり、増減変換後、y方向範囲は、(およそ)0.7から1.4の範囲に圧縮されている。本開示の利益を有する当業者には理解されるように、この増減を行うステップは、任意選択であり、また、任意の増減関数(xまたはy次元のどちらかでの)の形式が、本開示の範囲から逸脱することなく、適用され得る。
[0156]図12Cは、R2Dが2次元のデータに適用された後に、もたらされたデータを示す。この例では、2D変換R2Dは、各未処理データポイントのx座標を変化させずに、y座標を新しい位置にマッピングしている。
別法として、2D変換は、行列の乗算によって表現され得る。
ここで、この事例では、図12A〜12Cを参照してすでに上述したように、x成分は、暗モード値によって与えられ、y成分は、明モード値によって与えられる。
[0157]上述した例では、同一の変換R2Dが、全てのデータポイントに、それがどのクラスタに属するかに関わらず、適用される。ある実施形態によれば、別個の変換が、各データポイントに、データポイントが属するクラスタに基づいて、適用され得る。例えば、開チャネルデータクラスタは、1つの変換を用いて、平坦化/回転され得て、装填されたCクラスタは、別の変換によって平坦化/回転され得る。いくつかの実施形態では、開チャネルクラスタは、1つの変換を用いて、変換され得て、一方、装填された値を表す4つのクラスタは、異なる変換を用いて、変換され得る。同様に、暗モードデータを用いる適用には、暗モードデータクラスタが、明モード開チャネルおよび装填された値に用いられる変換とは異なる、第3の変換を用いて、変換され得る。一般に、2D変換R2Dへの高精度なエントリは、例えば、変換されるデータへの線形フィッティングが傾きをもたないように、変換を最適化することによって、または、例えば、装填されたレベル間の離隔距離を最大化する変換を見出すことによって、数値的に決定され得る。
2.積分履歴−明モード面における2D変換
[0158]上述したような、暗モード信号値を用いるよりも、ある実施形態によれば、明モードデータの移動平均の形式、本明細書で明モードデータの「積分履歴」と呼ぶものが、相関信号値X(ti)に選択される。この例では、積分履歴信号はまた、未処理の配列決定信号のベースラインシフトを誘起する、電荷不均衡の代替として、使用される。したがって、積分履歴信号値は、2次元の配列決定信号S2Dを生成するために、測定され、各々の明チャネル信号値と対合され得て、それは次に、明モード信号P(ti)の分散を最小化する、2次元変換R2Dを見出すために、使用され得る。
[0159]積分履歴は、単一の積分履歴値を計算するために、ある時間ウィンドウにわたる履歴の、明モードデータを合計する(すなわち、積分する)ことによって、計算され得る。いくつかの実施態様では、積分履歴は、測定された明モードデータポイントP(ti)が、新たに取得される毎に、移動基準で計算され得る。このことは、対応する更新された積分履歴値H(ti)を、前の積分履歴H(ti−1)の値を用いて計算する、漸化式(下の方程式(22)で示すような)を用いて達成され得る。より古いデータポイントはまた、下の方程式(22)でなされるように、時間と共に割り引かれ得て、例えば、履歴データが、データが増大する場合、経時度合と共に減少する、重み付け因子によりこのデータを増減することによって、値の経時度合と共に、効果的に指数関数的に割り引かれ得る。
[0160]他の実施態様では、積分に使用されることになる、各々の取得されたデータポイントの経時度合は、別々に記憶され、次に、積分が計算される前に、データポイント固有の重み付け因子を適用するために、使用され得る。例えば、指数関数的重み付け因子
は、各々の取得されたデータポイントに適用され得て、積分は次に、個別に重み付けされたポイントの全てを合計することによって、実行される。この例では、dtは、取得期間(秒で測定された)、nは、データポイントの経時度合(データポイントが取得されてから経過した、取得期間の数)、Tは、履歴データの積分への寄与を、どれだけ早く格下げすることが所望されるかに基づいて、選択され得る、指数的減衰パラメータである。
[0161]漸化式によって計算された、積分履歴の例に戻ると、上述した時間重み付けされた積分履歴処理は、ソフトウェア、ハードウェア、またはそれらの任意の組合せによって、実装され得て、以下の漸化式の計算をもたらす。
H(ti)=(1−α)H(ti−1)+αP(ti) (22)
ここで、0<α<1であるαは、各積分履歴を計算するとき、目下のデータポイントに対して、履歴データをどれだけ重み付けするかをパラメータで表記する定数である。パラメータαは、減衰率と呼び、下で与えられる。
ここで、dtは、取得時間のステップであり、Tは、セル内の作用電極のステップ応答に関連付けられる、測定された時定数であり、aは、アルゴリズムが、履歴データを「忘却する」ために要する、時間を増大または減少させるために設定され得る、「メモリ速度」パラメータであり、すなわちそれは、どれだけ速やかに履歴データを格下げするかを、設定し得る。方程式(22)は、H(ti)の公称値が入力の公称値に等しいという、有益な特性を有する。例えば、長い開チャネル期間、すなわち、充填事象を伴わない長期間中、積分履歴は、開チャネルレベルに等しい。
[0162]2Dデータポイントを形成するために、時間tiで測定された明モードデータポイントは、対応する積分履歴値H(ti)に関連付けられ、これらの2つのポイントは、図12A〜12Cを参照し上述した処理と同様に、2次元データとして処理されるために、2次元の配列決定信号S2D=[H(ti),P(ti)]を形成し得る。例えば、変換されたデータは、以下の方程式を用いて、計算され得る。
ここで、指標kは、変換されている異なるクラスタ、例えば、開チャネルまたは装填されたチャネルクラスタにわたって通される。例えば、変換パラメータρOC=0.01を有する、ある変換は、開チャネルデータクラスタを平坦化するために、適用され得て、変換パラメータρTh=0.02を有する、別の変換は、装填されたデータクラスタを平坦化するために、適用され得る。
[0163]例えば、装填された値の事例には、変換された信号値が、以下の方程式によって計算され得る。
変換された装填された信号値P’Th(ti)は次に、以下の方程式により、規格化され得る。
ここで、P’Th(ti)のP’OC(ti)による除算に加えて、数学的処理が、規格化されるレベルNTH(ti)を0から1の範囲内に維持するために、かつさらに、ρThの全ての値に対して装填されたタグ断片を一定にするために、付加されている。したがって、ρThが小さい場合、方程式(26)は、上の方程式(5)で定義した通常の規格化、すなわち
に、縮小する。
[0164]いくつかの実施形態では、暗モードデータはまた、このデータを平坦化し、ベースラインシフトの効果を除去するために、2つの次元変換を通して変換され得る。例えば、未処理の暗モードデータD(ti)は、以下の方程式により、変換され得る。
ここで、D(ti)は、暗モード信号値、ρNは、暗モードデータクラスタを平坦化/回転させるために決定される、変換パラメータであり、H(ti)は、やはり明モード信号の積分履歴である。いくつかの実施形態では、変換された暗モードデータD’(ti)は、セクションIII(A)への参照で上述したように、任意選択のゼロ点補正に使用され得る。その事例では、負のチャネルから正のチャネルへのノイズ伝播を最小化するために、平坦化された負のチャネルデータは、それが使用される前に、指数関数的フィルタを通して、フィルタリングされ得る。いくつかの実施形態では、暗モードレベルは、セクションIII(C)への参照で後述するように、明モード開チャネル値と同様に、進行するヒストグラムを用いて、追跡され得る。
[0165]図13A〜13Bは、ある実施形態による、積分された履歴値および明値によって定義された2D面内の変換による、オフセットシフト補正方法を示すプロットを示す。この2次元空間にプロットされた、適切な明モード信号、例えば、OC、A、C、G、およびTは、それぞれデータポイント1303、1305、1307、1309、および1311の5つの別個のクラスタとして、明確に際立たせている。図12A〜12Cへの参照で上述したクラスタと同様に、それらは、横軸(積分履歴の軸)に対して傾斜している。
[0166]ある実施形態によれば、図13A〜13Bで示した2Dデータの処理は、図12A〜12Cへの参照で上述したものに類似した仕方で実行され、詳細は、簡潔のためここでは繰り返さないこととする。図12Cと同様に、図13Bは、未処理のデータと比較して改善された、多様なレベル間に離隔距離を有する、「回転された」または「平坦化された」データを示す。
3.2D変換方法の例示的なフローチャート
[0167]図14は、ある実施形態により、配列決定セルを用いる方法1400を示すフローチャートである。より具体的には、図14は、配列決定信号データを補正するために使用され得る、2次元変換を決定する方法を説明する。いくつかの実施形態では、方法1400は、図2のプロセッサ224、デジタルプロセッサ430、および/または配列決定セルの回路に接続された任意の制御論理回路によって、実行され得る。
[0168]ステップ1401では、電圧が、核酸を含む配列決定セル間に印加され得る。印加電圧は、交流信号、例えば、参照電圧に対して、第1の部分(例えば、本明細書で「明モード」とも呼ぶ明期間)および第2の部分(例えば、本明細書で「暗モード」とも呼ぶ暗期間)を有するAC信号であり得る。ある実施形態によれば、参照電圧は、積分コンデンサ、例えば、図4に示すようなncapに印加される参照電圧(例えば、図4のVPRE405)であり得る。
[0169]ステップ1403では、複数の配列決定信号値P(ti)が、配列決定セルから取得される。いくつかの実施形態によれば、配列決定信号値は、ADCによって測定された電圧であり、デジタルプロセッサ、例えば図4に示すような、ADC410およびデジタルプロセッサ430に送信され得る。デジタルプロセッサは、他の構成要素を含む、例えば、図20を参照し、より詳細に後述するように、コンピュータシステムの一部であり得る。電圧は、1つまたは複数の明期間であって、その明期間自体が1つまたは複数の別のACサイクルにわたる、明期間にわたって測定された電圧に対応し得て、すなわち、全ての測定データは、単一のACサイクル内の同一の明期間からであることが必要とされない。そのような測定は、本明細書で説明されるように発生し得て、所与のセルの核酸の異なる部分の配列決定の多様な回数で発生し得る。いくつかの事例では、取得される電圧は、セルのオフセットシフトの不均一性により、ポイントからポイントで(同一のナノポアの状態であっても)変化し得る。したがって、母集団として見なされる、取得された電圧のセットは、少なくとも部分的に、オフセットシフトの不均一性による、いくらかの不均一性(分散として定量化される)を有することになる。
[0170]ステップ1404では、対応する相関信号値X(ti)のセットが、例えば、デジタルプロセッサによって、決定される。セクションIII(B)(1)〜(2)で上述したように、相関信号値は、いくつかの異なる方法によって、例えば、対応する暗モード値をとることによって、または対応する積分履歴値(積分された履歴)を計算することによって、決定され得る。いずれの事例でも、最初の1次元の測定された信号値P(ti)のデータは、2次元のデータポイントS2D=[X(ti),P(ti)]へと拡張され、ここで、時間tiで測定された各信号値P(ti)は、対応する相関信号値X(ti)と対合される。
[0171]ステップ1405では、複数の測定された信号値の不均一性を低減する2次元変換が、デジタルプロセッサによって決定される。いくつかの実施形態では、2次元変換は、それが2次元のデータポイントのセットに適用されるとき、それがセルの電圧オフセットシフトの分散を補償するように、決定される。より具体的には、値[X(ti),P(ti)]によって定義される、2次元空間内に表現され得る、2次元データには、変換は、P(ti)の大きさ、すなわち、最初に測定された明モード信号値P(ti)によって定義される大きさの分散を最小化するために(すなわちデータを平坦化するために)選択される。いくつかの実施形態では、2次元変換は、上述の方程式(11)および/または(16)の形式をとり得る。
[0172]図12〜13を参照し上述したように、データS2Dは、自然にデータクラスタ、例えば、ナノポアの開チャネル状態およびナノポアの4つの装填された状態に対応する、5つのデータクラスタを形成し得る。いくつかの実施形態では、全てのクラスタを同じ方法で変換する、例えば、全てのクラスタをある角度φで回転させる、単一の2次元変換が選択される。そのような事例では、変換は、1つのクラスタだけの分散を最小化するために、2つ以上のクラスタの分散を同時に最小化するために、またはセクションIII(B)で上述したように、クラスタ間の離隔距離を最大化するために、選択され得る。他の実施形態では、2つ以上の変換が、利用され得て、例えば、5つのデータクラスタを別々に変換し、各クラスタの分散を個別に最小化する、5つの異なる変換が見出され得る。
[0173]ステップ1407では、2次元変換は、メモリ内に、例えば、配列決定信号データを、それが取得されたときに、変換するようにプログラミングされている、デジタルプロセッサおよび/またはコンピュータシステムによって、アクセス可能なメモリ内に、記憶されている。
[0174]2次元変換が、決定され、メモリ内に記憶された後、それは、配列決定信号データを処理し、信号値のベースラインシフトの効果を低減または最小化するために、使用され得る。例えば、各々の新しい処理されたデータポイントは、データポイントが属するクラスタにより、方程式(24)、(25)、または(26)を用いて、測定された信号データから計算され得る。
[0175]図15は、新しいデータポイントが取得されたとき、2次元変換を、ポイント単位基準で、配列決定信号データに適用することによって、ベースラインシフト除去を提供し得る、取得および変換のループを、説明している。いくつかの実施形態では、方法1500は、図2のプロセッサ224、デジタルプロセッサ430、および/または配列決定セルの回路に接続された任意の制御論理回路によって、実行され得る。
[0176]ステップ1501では、電圧が、図14のステップ1401への参照で上述したものと同様の仕方で、配列決定セル間に印加される。
[0177]ステップ1503では、配列決定セルからの1つまたは複数の信号値が、交流信号の先頭の部分の間に、取得される。このステップは、やはり、図14のステップ1403への参照で上述したものと同様である。
[0178]ステップ1505では、1つまたは複数の相関信号値が、図14のステップ1405への参照で上述したものと同様の仕方で、取得される。
[0179]ステップ1507では、1つまたは複数の変換された信号値が、2次元変換を2次元のデータポイントに適用することによって、計算される。例えば、セクションIIIで上述したように、2次元変換R2Dは、2次元のデータポイントS2D=[X(ti),P(ti)]に適用され得る。ある実施形態によれば、R2Dは、2×2の行列として表現され得て、変換を適用することは、行列の乗算R2DS2Dを実行することを含み得る。R2Dの成分は、例えば、図14への参照で上述した方法により、予め決定され、メモリによってアクセス可能であり得る。
[0180]ある実施形態によれば、同一の変換R2Dが、全ての2次元のデータポイントに適用され得る、または異なる変換が、データポイントの異なる階級もしくはクラスタに適用され得る。例えば、データポイントが、おそらく開チャネルデータポイントである(すなわち開チャネルデータポイントのクラスタに属する)と決定された場合、開チャネル特定の変換が、そのデータポイントに適用され得る。同様に、データポイントが、おそらく装填されたデータポイントである(すなわち装填されたタグデータポイントの1つまたは4つのクラスタに属する)と決定された場合、次に、装填された状態特定の変換が、適用され得る。さらに、タグ特定の変換を、データポイントが、特定のタグの装填された状態に関連付けられる、決定に基づいて適用することもできる。ある実施形態によれば、処理されることになるデータポイントの特定の範疇が、データポイントの明モード値の未処理の値に基づいて、すなわち未処理のP(ti)の値によって、推定され得る。例えば、1つまたは複数のしきい値が、予め定められ得て、データポイントの範疇は、値P(ti)が、しきい値の上、下、または以内にあるかに基づいて、推定され得る。例えば、あるしきい値の上にあるP(ti)値は、開チャネル値であると決定され得て、したがって、開チャネル特定の変換が、これらの値に適用され得る。いくつかの実施形態では、各々の新しい処理されたデータポイントは、データポイントが属するクラスタにより、方程式(24)、(25)、または(26)を用いることによって、測定された信号データポイントから計算され得る。
[0181]ステップ1509では、取得および変換のループを継続するか、すなわち別のデータポイントを取得し、処理するか否かの、決定がなされる。この検討は、例えば、メモリおよび/または帯域の制限、あるいは例えば、システムがループ中に一定の数のデータポイントを取得し処理するように予めプログラミングされているか否か、を含む、多くの因子を考慮し得る。ここで示された例は、各データポイントが、ポイント単位基準で、2次元変換によって処理される事例を、説明するのに対し、変換は、本開示の範囲を逸脱することなく、データポイント群を取得した後に、適用され得る。
[0182]例えば、図14〜15への参照で、上述した方法は、電圧を表す信号値の取得および変換に関するものの、他の種類の信号が、可能であり、したがって、他の種類の信号値は、本開示の範囲を逸脱することなく、処理され得る。例えば、セルの回路は、信号値が、電圧、電流、または配列決定セルの回路内の任意のポイントでの電圧および/または電流を導出するために使用され得る、他の任意の量(例えば、時間)の測定値を表すように、構成され得る。
4.ポイント単位規格化と2D変換との比較
[0183]未処理の明モードデータ、例えば、図9で示した未処理の配列決定信号910は、各々の測定された明モードデータポイントを、対応する測定された(または推定された)明モード開チャネル値で除算する、ポイント単位の開チャネル規格化ルーチンを用いて、処理され得る。例えば、そのような規格化方法は、米国特許出願第15/632,190で説明されているように、使用され得る。
[0184]図11は、開チャネル値(利用可能な場合は測定された値、測定された値が利用可能でない場合は推定された値)を用いて測定された明モード信号を規格化する、ポイント単位の開チャネル規格化ルーチンのみを用いて規格化されたデータの一例である。開チャネル値1101は、非常に良好に規格化され、データは、全体的に平坦であり、1の値の周りに塊になっている。しかしながら、規格化された信号においても、装填された値(タグレベル)は、ヒストグラム1103および1105の装填された値のピーク間の低コントラストによって理解できるように、十分に識別されない。
[0185]理想的には、ヒストグラムは、各々がおよそゼロカウントである最小値によって分離される、OC、A、C、G、およびTの装填されたレベルの、5つの急峻に描かれるピークを有するべきである。むしろ、その代わりにヒストグラムは、簡単に区別可能な4つのピーク、例えば、ピーク1105a、1105b、1105c、および1105dのみを示している。さらに、装填されたタグレベルの2つは、最後のピーク1105d内で一緒に不鮮明にされているように見える。そのようなタグレベル間の不十分な分離は、どの時間にどの塩基が配列決定されているかを、識別することを課せられている任意の処理に、深刻な困難をもたらし得る。
[0186]装填された信号レベル間に、改善された区別を提供するために、1つまたは複数の実施形態は、任意のポイント単位の規格化ルーチンを適用する前に、セクションIII(B)(1)〜III(B)(3)を参照して上述した、2D変換のうちの1つを用いて、配列決定信号を予備処理し得る。
[0187]図16Aおよび16Bは、ポイント単位の規格化のみによって処理されたサンプルデータ(利便性のために、図16Aとして再現された図11)と、積分履歴−明モード枠内での2次元変換、およびその後のポイント単位の規格化(下の枠)によって、処理されたサンプルデータとの、比較を示す。ヒストグラム1603および1605、ならびにそれぞれの挿入図によって示されるように、積分履歴を用いた2D変換によって予備処理がなされた信号(ヒストグラム1605で示した)は、異なる信号レベルの全てに、予備処理なしのポイント単位の規格化(ヒストグラム1603で示した)に対して、優れたコントラストを有する。ヒストグラム1603と比較して、ヒストグラム1605は、開チャネル1605a、および4つの装填されたチャネル1605b、1605c、1605d、1605eに、より区別可能なピークを有する。したがって、2次元変換を利用する処理技術は、ポイント単位の規格化技術のみを使用することと比較して、より正確な配列決定を提供し得る。
C.移動ヒストグラムと共に開チャネル追跡を用いた規格化
[0188]明モード開チャネル電圧は、上のセクションIII(A)で簡単に説明され、米国特許出願第15/632,190でより詳細に説明されているように、未処理の配列決定信号を規格化するために、追跡され、使用され得る。規格化に使用する、明モード開チャネル値を決定するための、1つの方法は、規格化されることになるデータポイントに時間的に最も近い、明モード開チャネルデータポイントを選択することである。いくつかの状況では、しかしながら、好適な明モード開チャネル値が、データ内に存在しない可能性がある。例えば、充填のダイナミックスに関する理由には、明モード取得期間を通して、開チャネルデータポイントは、存在するとしても、極めて少ない可能性がある。他の方法は、推定された明モード開チャネル値を計算するために、対応する暗モード値を使用し得るが、確実なシステムアーキテクチャに関しては、暗モードデータは、この計算に利用できない。例えば、あるアーキテクチャでは、チップの一定の領域のADCの全てが、一定の期間中に明モードデータのみを、取得することに占有され得る。ある実施形態によれば、他の方法が失敗する、または理想的でない結果をもたらす状況では、定期的に繰り返すヒストグラム方法が、明モード開チャネル値の推定値を追跡するために、利用され得る。
[0189]図17は、図16Bで示したものに類似した処理された配列決定信号データから計算され得る、一例の移動ヒストグラム1701を示す。ある実施形態によれば、ヒストグラム1701は、取得された明モードデータの母集団として計算され得る。例えば、取得実行(図14で示したものなど)のウィンドウ(例えば、4秒以内)中に取得されたデータは、ヒストグラム1701のようなヒストグラムデータ構造へと組織化され得る。ヒストグラムを計算するために、値域幅は、ADCのダイナミックレンジに及ぶように選択され得て、例えば、ヒストグラムは、ADC値の0から255に対応する、単位幅の256の値域を有し得る。新しいデータポイントが取得されるとき、取得されるADC値にマッピングする、適切な値域のカウントが、時間と共に更新されるヒストグラムを維持するために、更新され得る。ヒストグラム1701のようなヒストグラムが計算された後、開チャネル電圧は、ヒストグラム内で最大の母数を有する値域、例えば、ピーク1703を特定することによって、識別され得る。
1.単一ポイント移動ヒストグラム
[0190]単一ポイント「移動」ヒストグラムを実現するために、システムは、1つまたは複数の新たに取得されたデータポイントを、1つまたは複数の規則により、履歴データに組み合わせることによって、時間と共にヒストグラムを更新するように構成され得る。例えば、ヒストグラムは、各ポイントの値域の全カウントへの寄与を、データポイントの経時度合に基づいて、指数関数的に格下げすることによって、より古いデータが、どの所与の値域にも、より少なく寄与する、定期的に繰り返す基準で、計算され得る。例えば、ヒストグラムのi番目の値域を表す値域B(i)(例えば、ADC値では127にあたる128番目の値域)を考え、この値域のカウントが1とし、すなわち、それが、1つ前に測定されたデータポイントを含むとする。さらに、この、前に測定されたデータポイントは、ADCの最新の取得期間中に取得されたとする。今度は、新たに取得されたデータポイントも、127のADC値を含むとすると、そのためやはり、前のデータポイントと同一の値域に加算されなければならない。2つのデータポイントを、指数関数的に減少する格下げ規則に従って組み合わせるために、目下のデータポイントは、1カウントとしてカウントされ、前のデータポイントは、いくらかの1の断片として、カウントされ、ここで、断片は、格下げ係数を計算することによって決定され、次に履歴データのカウントを、格下げ係数に基づいて重み付ける。
[0191]いくつかの実施形態では、
などの指数関数的格下げ係数が、使用され得て、ここで、dtは、取得期間(秒で測定された)、nは、データポイントの経時度合(データポイントが取得されてから経過した、取得期間の数)、Tは、履歴データの寄与を、どれだけ早く格下げするかに基づいて、選択され得る、指数的減衰パラメータである。この例では、簡単にするために、T=dtとする。履歴データポイントは、最新の取得サイクル中に取得されたので、n=1、したがってA=e−1≒0.37となる。したがって、新しい値域値は、1.37(格下げが用いられない場合の2ではなく)であり得る。上述した単純な格下げ例は、関連付けられたタイムスタンプを伴う、任意の数のデータポイントを有する、任意の数の値域およびデータのセットに拡張され得る。ある実施形態によれば、移動ヒストグラム法での指数関数的格下げの時定数Tはさらに、ゲイン変化の時間尺度に関係する。
2.繰返し移動ヒストグラム
[0192]いくつかの実施形態では、移動ヒストグラム法は、以下の方法の通りに、ヒストグラムの値域の母数の値Bt(i)を更新することによって、実行される。まず、ヒストグラムは、ある所定の初期化期間tinitにわたりデータを取得することによって、初期化される。次に、新しいデータポイントが取得されたとき、本明細書でアクティブヒストグラム値域kと呼ぶ、新しいデータポイントが属するヒストグラム値域は、どれかをまず決定する。次に、アクティブ値域の母集団Bが、以下の漸化式により、更新されることになる。
Bt(k)=β*Bt−1(k)+(1−β)Ne (28)
非アクティブ値域、i≠kであるiを有する値域の母集団は、以下の漸化式により、格下げされることになる。
Bt(i≠k)=β*Bt−n1(i≠k) (29)
ここで、0<β<1であるβは、より古いヒストグラムデータの更新された母集団への寄与を、漸進的に格下げするためにはたらく、格下げ係数である。パラメータNeは、本明細書でヒストグラム値域の有効数と呼び、ヒストグラム全体の母数を、配列決定実行の推移にわたり、おおよそ一定に維持するために選択される。より具体的には、方程式(28)においてNeによる増減なしでは、ヒストグラムの全体の母数は、i≠kである値域の母数が方程式(29)によって格下げされることになるので、時間と共に減少する可能性がある。したがって、Neの値は、方程式(29)の適用の結果、非アクティブ値域から除去され、おおよそ同等の母数を、アクティブ値域に加算することによって、この減少を相殺するために選択される。いくつかの実施形態では、値域Neの有効数は、ゼロでない、例えばヒストグラムの全体の値域数の半数であり得る母数を有する、ヒストグラム内の値域数に、設定される。
[0193]指標nは、非アクティブのヒストグラム値域の更新レートを、データ収集から切り離すために、方程式(29)に導入される。例えば、いくつかの実施形態では、n=1では、アクティブなヒストグラム値域および残りの値域の両方が、取得サイクル毎に更新される。同様に、n=2では、非アクティブ値域は、2サイクル毎にのみ更新される。非アクティブ値域を、n回の取得サイクル毎にのみ更新することは、移動ヒストグラム法の全体の処理時間を、減少させ得る。
[0194]明モード開チャネル値を特定し追跡するための、上述した定期的に繰り返すヒストグラム方法のうちの1つを利用することは、これらの方法が、いずれの暗チャネルデータを必要とせず、そのため使用可能な暗チャネルデータを含まない、一定のシステムの高スループットモードで使用され得るので、他の方法よりロバストであり得る。さらに、方法は、移動ヒストグラムの形態で、履歴情報を保持するので、たとえ、例えば充填事象の高い速度により、最小限の開チャネルデータが利用可能または開チャネルデータが利用可能でなくても、方法は、開チャネルレベルを追跡するために、使用され得る。最後に、開チャネルデータを追跡し推定するための、定期的に繰り返すヒストグラム方法は、それが、開チャネル値がおそらく存在する範囲を定義するために、ハードコード化されたしきい値に依存しないので、カルマンフィルタ使用などの、他の方法に関する改善であり得る。むしろ、開チャネルは、ヒストグラム自体のデータに基づいて、例えば、ピーク探索ルーチンを使用して、探索され得る。開チャネル値が多くの場合、ヒストグラム内の最大のピーク、例えば最大振幅ピークとなり得るので、このことが、可能である。
[0195]いくつかの実施形態では、最大の母数を有するヒストグラム値域(例えば、ヒストグラム内の最大ピーク)は、開チャネル値として見なされ得る。実施形態はさらに、長い充填事象(滞在事象とも呼ぶ)中に装填されたレベルを追跡することを避けるために、最大ピークが許容された窓内にある場合のみ、最大ピークを受領する、窓関数法を利用し得る。いくつかの実施形態では、窓の幅は、ヒストグラム内の開チャネルピークのある断片、例えば、半値全幅(FWHM)の2.3倍に、動的に更新され得る。
[0196]新しい開チャネル値が窓外にある事例では、2次ピーク(例えば、2番目に大きい)が、古い開チャネルピークと、新しい最大ピークとの間で探索される。2次ピークが見出され、ピーク高さ要件を満たし、2次ピークが窓内にあるとき、新しいOC値として受領される。2次ピークができる限り、開チャネルピークとして機能することを可能にすることによって、恒久的な開チャネルレベル飛び越しが、受容され得る。この2次ピーク探索はさらに、長い滞在事象中であっても、滞在中にやはり発生する、開チャネル事象がいくらか存在する限り、適正な開チャネル値が追跡されることを保証し得る。そのような2次ピーク追跡は、AOC(開チャネルを超える)レベルを、開チャネル未満と同様に、調べる場合、開チャネルの故障率への対処に、改善を提供し得る。
[0197]いくつかの実施形態では、移動ヒストグラムへの入力データは、処理され、例えば、上述したように、2次元変換によって平坦化される。例えば、開チャネル値POC(ti)は、積分履歴値H(ti)と対合され得て、以下の方程式により、処理され得る。
[0198]開チャネル値が決定された後、その値は、タグレベルの値が時間的に一定であることを保証するために、他の信号値を規格化するために、使用され得る。例えば、移動ヒストグラム法によって、各装填された信号値を、開チャネル値の推定値で除算する規格化が、適用され得る。
3.移動ヒストグラム規格化法の例示的なフローチャート
[0199]図18は、ある実施形態による、配列決定セルを用いる方法を示すフローチャートを示す。より具体的には、図18は、セクションIII(C)(1)〜(2)で上述したような、移動ヒストグラムを用いる配列決定信号値の、規格化の方法を説明する。いくつかの実施形態では、方法1800は、図2のプロセッサ224、デジタルプロセッサ430、および/または配列決定セルの回路に接続された任意の制御論理回路によって、実行され得る。
[0200]ステップ1810では、複数の配列決定信号値P(ti)が、配列決定セルから取得される。配列決定信号値は、ADCによって測定された電圧であり、デジタルプロセッサ、例えば図4に示すような、ADC410およびデジタルプロセッサ430に送信され得る。デジタルプロセッサは、他の構成要素を含む、例えば、図20を参照し、より詳細に後述するように、コンピュータシステムの一部であり得る。電圧は、1つまたは複数の明期間であって、その明期間自体が1つまたは複数の別のACサイクルにわたる、明期間にわたって測定された電圧に対応し得て、すなわち、全ての測定データは、単一のACサイクル内の同一の明期間からであることが必要とされない。そのような測定は、本明細書で説明されるように発生し得て、所与のセルの核酸の異なる部分の配列決定の多様な回数で発生し得る。いくつかの事例では、取得される電圧は、時間に対するセルのゼロ点電圧の不均一性により、ポイントからポイントで(同一のナノポアの状態であっても)変化し得る。印加電圧は、交流信号、例えば、参照電圧に対して、第1の部分(例えば、本明細書で「明モード」とも呼ぶ明期間)および第2の部分(例えば、本明細書で「暗モード」とも呼ぶ暗期間)を有するAC信号であり得る。ある実施形態によれば、参照電圧は、積分コンデンサ、例えば、図4に示すようなncapに印加される参照電圧(例えば、図4のVPRE405)であり得る。
[0201]ステップ1820では、信号値の第1のセットが決定され、例えば、交流信号の明期間中に測定された1つまたは複数の電圧が、デジタルプロセッサ430によって選択される。電圧の第1のセットは、多様な明期間に対応し得る。そのような測定は、本明細書で説明されるように発生し得て、所与のセルの核酸の異なる部分の配列決定の多様な回数で発生し得る。さらに、1つまたは複数の信号値の第1のセットは、多様な明モードの装填されたチャネル信号値に対応し得る。
[0202]ステップ1830では、ヒストグラムが、例えば、セクションIII(C)(1)〜(2)で上述したような、信号値の第1のセットから作成される。例えば、測定された信号のヒストグラム(または分布)は、測定された信号値を値域化すること、および、特定のADCカウントを有する特定の信号値が特定の値域内に低下する回数をカウントすることによって、計算され得る。
[0203]ステップ1840では、規格化因子が、ヒストグラム内のピークを識別することによって、決定される。ある実施形態によれば、ピーク値も、ピーク幅も、ステップ1810で測定された配列決定信号データを取得する以前に、知られている必要はない。例えば、ピーク検出ルーチンは、ピークの境界および特性を、例えばヒストグラム内の最大ピークを識別するために、検出し得る。他の実施形態では、2番目に大きいピークの信号値が、例えば上のセクションで説明したような、受容可能な(またはおそらく受容可能な)開経路信号値(開チャネル範囲)に対応する、信号値の所定の範囲内にあるとき、2番目に大きいピークは、選択され得る。いくつかの実施形態では、信号範囲の最端部にある、またはその近傍の値域は、縁部効果を避けるために、初期のピーク検出ルーチン中に、無視され得る。ピークを識別するための信号範囲は、他の配列決定の工程、セル、チップ、などからの実験データを通して、確立され得る。
[0204]ステップ1850では、信号値の第2のセットが、決定される。やはり、上と同様に、信号値の第2のセットは、多様な明期間に対応し得る。そのような測定は、本明細書で説明されるように発生し得て、所与のセルの核酸の異なる部分の配列決定の多様な回数で発生し得る。さらに、1つまたは複数の信号値の第2のセットは、多様な明モードの装填されたチャネル信号値に対応し得る。
[0205]ステップ1860では、信号値の第2のセット内の少なくとも1つの値が、少なくとも1つの規格化された信号値を取得するために、規格化因子を用いて、例えば、信号値の第2のセット内の少なくとも1つの値を、規格化因子で除算することによって、規格化される。複数の規格化された信号値が、取得され得る。
IV.規格化およびオフセット補正のシステムおよびデータフロー
[0206]図19は、いくつかの実施形態による、規格化およびオフセット補正の一例のシステムを示す。より具体的には、図19は、上述のデータ処理技術の各々を組み合わせて利用するシステムの、データフローおよび論理図の一例を示し、すなわち図19のシステムは、ゼロ点補正、2次元変換によるベースラインシフト除去、および移動ヒストグラムを用いた規格化を、利用する。図19で表したモジュールは、ナノポア配列決定システム内に、例えば、ナノポア配列決定システムの、1つまたは複数のコンピュータシステムおよびデジタルプロセッサの内部に、ハードウェアのみで、ソフトウェアのみで、またはハードウェアとソフトウェアとの組合せで、組み込まれ得て、例えば、論理は、1つまたは複数の、図1のナノチップワークステーション、図2のプロセッサ224およびメモリ226、および図4のデジタルプロセッサ430の内部に実装され得る。さらに、図19で示したモジュールの各々は、各モジュールが、1つまたは複数のコンピュータのメモリに記憶されたデータにアクセスすることも、1つまたは複数のコンピュータのメモリにデータを保存することも両方できるように、1つまたは複数のコンピュータのメモリ(図示せず)に、動作可能に接続され得る。さらに、モジュールの各々のモジュールまたは集合は、コンピュータシステム、例えば図20で示したコンピュータシステムの、1つまたは複数のプロセッサによって、実行され得る、コンピュータ読み取り可能な命令またはプログラムコードの形態をとり得る。
A.ゼロ点電圧V0の補正
[0207]1つまたは複数の未処理の配列決定信号値(本明細書で「データポイント」とも呼ぶ)は、入力1901で、ADCから受け取られる。例えば、図5への参照で上述したような、印加されるAC信号の明モードおよび/または暗モード中に測定される、1つまたは複数の電圧が、受け取られ得る。図19で示した本実施形態では、取得された配列決定信号値は最初に、ゼロ点補正モジュール1903で、処理される。いくつかの実施形態では、ゼロ点補正モジュール1903は、特定のV0値を知る必要のない、ゼロ点補正方式を利用し得て、例えば、図10へ参照し、セクションIII(C)で上述したような、変化するゼロ点電圧V0の任意の効果を除去するために、対応する暗モード信号値を、明モード信号値から減算し得る。別法として、ゼロ点補正モジュール1903は、メモリに記憶しておいた、V0として予め測定された値を減算し得る。
[0208]ゼロ点補正されたデータは次に、2つの分離した処理フロー、装填された値の処理フロー1902および規格化因子計算フロー1904に、渡される。ある実施形態によれば、装填された値の処理フロー1902は、オフセットシフトのこれらの値を補正するために、2次元変換を装填された値に適用することによって、装填された値を処理する。ある実施形態によれば、規格化因子計算フロー1904は、移動ヒストグラム法を用いて、規格化因子(ゲインドリフトの装填された値を補正するために使用されることになる)を計算する。
B.装填された信号の2次元変換
[0209]まず装填された値の処理フロー1902を注目すると、データはまず、次元付加モジュール1905で、処理される。次元付加モジュール1905は二番目に、取得された明モード信号値毎に、相関関係にあるデータポイントを計算し得る。例えば、次元付加モジュール1905は、図13A〜13Cへの参照で上述したように、各明チャネル値を、対応する暗チャネル値と対合させ得る。いくつかの実施形態では、次元付加モジュール1905は、明チャネル値の積分履歴を実行し、次に、各々の測定された明チャネル値を、例えばセクションIII(B)(2)で上述したような、方程式(22)で具体化した漸化式を実行することによって、相関関係にある積分履歴値と、対合させ得る。
[0210]各明チャネルデータポイントが、次元付加モジュール1905によって、2次元のデータポイントに変換された後、明チャネル値およびそれらの関連付けられた相関関係にある値は、装填された値のオフセットドリフトを補正するために、2次元変換を適用する、2次元変換モジュール1909へ送られる。ある実施形態によれば、2次元変換モジュール1909は、セクションIII(B)(1)〜(3)で上述したように、回転または平坦化変換などの、2次元変換を、2次元のデータポイントの各々に適用する、行列乗数の形態をとり得る。例えば、図14A〜14Bに示すように、2次元変換は、2次元空間内に2次元のデータポイントが広がる、回転/平坦化された、装填されたチャネルデータのクラスタをもたらし得る。すなわち、変換されたクラスタは、未処理のデータと比較して、x軸に関して、より水平である。さらにつまり、2次元変換の動作は、y次元に沿って見たときの、5つのクラスタ間の重なりを低減する、ということである。この変換されたデータは次に、各値が、ある実施形態により、規格化因子計算フロー1904で計算された開チャネル値へ、増減される(すなわち除算される)規格化モジュール1915によって、規格化される。
C.移動ヒストグラムを用いた規格化因子の決定
[0211]規格化因子計算フロー1904に注目すると、明チャネル値およびそれらの関連付けられた相関関係にある値は、開チャネル値のオフセットドリフトを補正するために、2次元変換を適用する、2次元変換モジュール1907へ送られる。ある実施形態によれば、2次元変換モジュール1907は、行列の乗算の形態の変換を、2次元のデータポイントの各々に適用し得る。2次元変換モジュール1907によって適用される変換は、装填されたチャネルデータの分散が、装填された値の処理フロー1902への参照で上述した2次元変換によって低減されたように、1つの次元で低減されつつある開チャネルデータの分散をもたらし得る。変換された開経路信号値は次に、データの更新された移動ヒストグラム(すなわち母集団分布)が、新しいデータおよびメモリに記憶された履歴データに基づいて計算される、移動ヒストグラムモジュール1911へ送られる。
[0212]ある実施形態によれば、更新された移動ヒストグラムは、セクションIII(C)を参照して上述したような多くの方法で、履歴データから計算され得る。例えば、履歴データの移動ヒストグラムへの寄与は、経時度合に基づいて、格下げされ得る。新たに取得されたデータが、更新された移動ヒストグラムを形成するために、履歴データと組み合わされた後、ピーク検出モジュール1913は、ヒストグラム中で最大のピーク(すなわち配列信号データ中で最も数が多い値)を検索するために、ピーク探索ルーチンを実行し、次に、対応する信号値を、規格化因子として用いられることになる、開経路信号値の最良の推定値として、選択する。この方法によって決定された規格化因子は、直近での測定値が、いずれの開チャネル値も含まない場合においても、開チャネル電圧値の改善された推定値をもたらす。
[0213]再び、装填された値の処理フロー1902を注目すると、2D変換モジュール1909によって変換された、装填されたデータ出力は、規格化因子を用いて規格化され、出力接続点1917で出力される、例えば、方程式(5)または方程式(26)を用いて規格化された、装填された信号をもたらす。装填された値が、より水平である(すなわち、明チャネル値の不均一性が、装填された値の各クラスタ内でより小さい)だけでなく、データも、ダイナミックレンジがほぼ0と1との間となるように、増減される。その結果、本明細書で説明した処理システムは、ゲインドリフトおよびオフセットシフトの両方の効果が、最小化されたので、互いにより容易に区別される装填された値(すなわちタグ値)と、時間に対してより安定的である値をもたらす。
V.コンピュータシステム
[0214]本明細書で説明したコンピュータシステムの任意のものは、任意の適切な数のサブシステムを利用し得る。そのようなサブシステムの例は、図20のコンピュータシステム2010内で示した。いくつかの実施形態では、コンピュータシステムは、単一のコンピュータ装置を含み、ここでサブシステムは、コンピュータ装置の構成要素であり得る。他の実施形態では、コンピュータシステムは、各々がサブシステムであり、内部に構成要素を有する、複数のコンピュータ装置を含み得る。コンピュータシステムは、デスクトップおよびラップトップコンピュータ、タブレット、携帯電話、ならびに他の携帯機器を含み得る。
[0215]図20で示したサブシステムは、システムバス2075を介して相互接続されている。プリンタ2074、キーボード2078、記憶デバイス2079、ディスプレイアダプタ2082に結合されているモニタ2076、およびその他などの付加的なサブシステムを示す。I/O制御装置2071に結合された外付けおよび入出力(I/O)デバイスは、入出力(I/O)ポート2077(例えば、USB、Fire Wire(登録商標))などの当技術分野で知られている任意の数の手段によって、コンピュータシステムに接続され得る。例えば、I/Oポート2077または外部インタフェース2081(例えば、イーサネット、Wi−Fi、など)は、コンピュータシステム2010をインターネットなどの広域ネットワーク、マウス入力装置、またはスキャナに接続するために用いられ得る。システムバス2075を介した相互接続により、サブシステム間での情報交換を可能にするだけでなく、セントラルプロセッサ2073が、各サブシステムと通信すること、システムメモリ2072または記憶デバイス2079(例えば、ハードドライブまたは光ディスクなどの固定ディスク)からの複数の命令実行を制御することを可能にする。システムメモリ2072および/または記憶デバイス2079は、コンピュータ可読媒体を含み得る。別のサブシステムは、カメラ、マイクロフォン、加速度計、その他などのデータ収集デバイス85である。本明細書で説明したデータの任意のものは、ある構成要素から別の構成要素へ出力され得て、ユーザに出力され得る。
[0216]コンピュータシステムは、例えば、外部インタフェース2081によって、または内部インタフェースによって、共に接続される、複数の同一の構成要素またはサブシステムを含み得る。いくつかの実施形態では、コンピュータシステム、サブシステム、または装置は、ネットワークを通して通信し得る。そのような事例では、あるコンピュータは、クライアント、別のコンピュータは、サーバと考えることができ、ここで各々は、同一のコンピュータシステムの一部であり得る。クライアントおよびサーバは、各々複数のシステム、サブシステム、または構成要素を含み得る。
[0217]実施形態の態様は、ハードウェア(例えば、特定用途向け集積回路またはフィールドプログラマブルゲートアレイ)を用いて、および/またはモジュラーまたは統合された様式の一般にプログラム可能なプロセッサを伴う、コンピュータソフトウェアを用いて、制御ロジックの形態で実施され得る。本明細書で使用されるとき、プロセッサは、同一の集積チップ上のシングルコアプロセッサ、マルチコアプロセッサ、または単一の回路基板上のマルチプロセシングユニット、あるいはネットワーク接続されたプロセッサを含む。本開示および本明細書で提供された教示に基づいて、ハードウェアならびにハードウェアおよびソフトウェアの組合せを用いて、本発明の実施形態を実施するための他の方法および/または方法が、当業者には、知られ、かつ理解されよう。
[0218]本出願で説明されるソフトウェアの構成要素または機能の任意のものは、例えばJava、C、C++、C#、Objective−C、Swiftなどの任意の好適なコンピュータ言語、または例えば、従来のまたはオブジェクト指向の技術を用いたPerlもしくはPythonなどのスクリプト言語を用いてプロセッサによって実行されるソフトウェアコードとして実装され得る。ソフトウェアコードは、一連の命令または指令として、保存および/または伝送用の、コンピュータ可読媒体上に格納され得る。好適な非一時的コンピュータ可読媒体は、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、ハードドライブ、フロッピーディスクなどの磁気媒体、コンパクトディスク(CD)もしくはDVD(デジタル多用途ディスク)などの光学的媒体、またはフラッシュメモリ、などを含み得る。コンピュータ可読媒体は、そのような記憶または伝送デバイスの任意の組合せであり得る。
[0219]そのようなプログラムは、さらにエンコードされ、インターネットを含む、多様なプロトコルに従う有線、光学、および/または無線ネットワークを介した伝送に適応された、搬送波信号を用いて伝送され得る。そのように、コンピュータ可読媒体は、そのようなプログラムを用いてエンコードされたデータ信号を使用して作成され得る。プログラムコードを用いてエンコードされたコンピュータ可読媒体は、互換性のあるデバイスを用いて包装され得て、または別個に他のデバイスから供給され得る(例えば、インターネットでのダウンロード)。任意のそのようなコンピュータ可読媒体は、個々のコンピュータ製品(例えば、ハードドライブ、CD、または完全なコンピュータシステム)上にまたは内部に備えられ得て、また、システムまたはネットワーク内部の異なるコンピュータ製品上にまたは内部に存在し得る。コンピュータシステムは、本明細書で説明した成果の任意のものをユーザに提供するための、モニタ、プリンタ、または他の好適なディスプレイを含み得る。
[0220]本明細書で説明した方法の任意のものは、ステップを実行するように構成され得る1つまたは複数のプロセッサを含むコンピュータシステムを用いて、全体的にまたは部分的に実行され得る。したがって、各ステップまたはステップの各グループを実行する異なる構成要素を潜在的に有する、本明細書で説明した方法の任意のもののステップを、実行するように構成されたコンピュータシステムに、実施形態は、向けられ得る。番号を付されたステップが提示されたが、本明細書の方法のステップは、同時に、または異なる順序で実行され得る。さらに、これらのステップの部分は、他の方法からの他のステップの部分と共に用いられ得る。また、ステップの全てまたは部分は、任意選択的であり得る。さらに、任意の方法の任意のステップは、モジュール、ユニット、回路、またはこれらのステップを実行するための他の手段を用いて、実行され得る。
[0221]個々の実施形態の個別の詳細が、本発明の実施形態の技術概念および範囲から逸脱することのなく、任意の好適な方法で組み合わされ得る。しかし、本発明の他の実施形態は、各々の個別の態様に関する特定の実施形態に、またはこれらの個別の態様の特定の組合せに、向けられ得る。
[0222]本発明の例示の実施形態の上述の説明は、図解および説明の目的で提示されてきた。網羅的であること、または本発明を、説明されたそのものの形式に限定することを意図するものではなく、多数の変形例および変形形態が、上述の教示に照らして、可能である。
[0223]列挙の「a」、「an」、または「the」は、具体的にそうでないことに示さない限り、「1つまたは複数」を意味することを意図する。「or」のを使用法は、具体的にそうでないことに示さない限り、「排他的論理和」でなく、「包含的論理和」を意味することを意図する。「第1の」構成要素への言及は、第2の構成要素がもたらされることを必ずしも必要としない。さらに「第1の」または「第2の」構成要素への言及は、明確に規定されない限り、言及された構成要素を特定の位置に限定しない。
[0224]本明細書で言及された全ての特許、特許出願、公報、および明細書は、その全体があらゆる目的のために参照により本明細書に組み込まれる。いずれも従来技術に入れることは認められない。