JP6814875B2 - 確率的配列決定プロセスのための塩基呼出 - Google Patents

確率的配列決定プロセスのための塩基呼出 Download PDF

Info

Publication number
JP6814875B2
JP6814875B2 JP2019506441A JP2019506441A JP6814875B2 JP 6814875 B2 JP6814875 B2 JP 6814875B2 JP 2019506441 A JP2019506441 A JP 2019506441A JP 2019506441 A JP2019506441 A JP 2019506441A JP 6814875 B2 JP6814875 B2 JP 6814875B2
Authority
JP
Japan
Prior art keywords
state
cell
sequencing
states
signal values
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019506441A
Other languages
English (en)
Other versions
JP2019531536A (ja
Inventor
メイジャー,モーガン
マニオン,ジョン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
F Hoffmann La Roche AG
Original Assignee
F Hoffmann La Roche AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by F Hoffmann La Roche AG filed Critical F Hoffmann La Roche AG
Publication of JP2019531536A publication Critical patent/JP2019531536A/ja
Application granted granted Critical
Publication of JP6814875B2 publication Critical patent/JP6814875B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N27/00Investigating or analysing materials by the use of electric, electrochemical, or magnetic means
    • G01N27/26Investigating or analysing materials by the use of electric, electrochemical, or magnetic means by investigating electrochemical variables; by using electrolysis or electrophoresis
    • G01N27/416Systems
    • G01N27/447Systems using electrophoresis
    • G01N27/44756Apparatus specially adapted therefor
    • G01N27/44791Microapparatus
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/483Physical analysis of biological material
    • G01N33/487Physical analysis of biological material of liquid biological material
    • G01N33/48707Physical analysis of biological material of liquid biological material by electrical means
    • G01N33/48721Investigating individual macromolecules, e.g. by translocation through nanopores
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • Organic Chemistry (AREA)
  • Data Mining & Analysis (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Biochemistry (AREA)
  • Immunology (AREA)
  • Analytical Chemistry (AREA)
  • Epidemiology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Bioethics (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Genetics & Genomics (AREA)
  • General Engineering & Computer Science (AREA)
  • Microbiology (AREA)
  • Biomedical Technology (AREA)
  • General Physics & Mathematics (AREA)
  • Pathology (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Dispersion Chemistry (AREA)
  • Electrochemistry (AREA)

Description

内径が1ナノメートルのオーダーのポアサイズを有するナノポア膜装置は、迅速なヌクレオチド配列決定に有望であることが示されている。導電性流体に浸漬されたナノポアに電位が印加されると、ナノポアを横切るイオン伝導に起因する微小なイオン電流が存在しうる。電流の大きさは、ポアサイズおよびナノポア中の分子が何であるかに影響される。その分子が特定のヌクレオチドに付けられた特定のタグであれば、それによって核酸の特定の位置におけるヌクレオチドの検出が可能となる。ナノポアを含む回路中の電圧またはその他のシグナルは、分子の抵抗を測定する手段として(例えば積分キャパシタで)測定できるので、どの分子がナノポア中にあるかを検出することが可能となる。
ナノポアベースの配列決定チップは、DNA配列決定に使用することができる。ナノポアベースの配列決定チップは、アレイとして構成された多数のセンサーセルを組み込むことができる。例えば、100万セルのアレイは、1000行×1000列のセルを含みうる。
測定されるシグナルは、製造ばらつきのために、チップごとにおよび同じチップのセルごとに変動しうる。従って、正しい分子(セル中の特定の核酸またはその他のポリマー中の正しいヌクレオチドでありうるまたはそれに対応しうる)を決定するのは困難でありうる。さらに、測定シグナル中の他の時間依存的非理想性も不正確さを招きうる。また、これらの回路は、脂質二重層、ナノポアなどの生化学的回路素子を使用しているため、電気的特性の変動は従来の半導体回路よりかなり高いものになりうる。さらに、配列決定プロセスは確率的性質のものであるので、変動はナノポアを使用しない配列決定装置を含め、様々なシステムを問わず生じうる。
そこで、配列決定プロセスの正確性および安定性を改良するために、改良された特性化技術が求められている。
様々な態様において、配列決定セル中の核酸の配列の測定に関連した方法、技術およびシステムを提供する。前記配列決定セル中とは、配列決定セルのアレイ(例えばチップ上のナノポアのアレイ)中でありうる。
一態様に従って、配列決定セル中の核酸からのシグナル値が経時的に測定される。シグナル値はヒストグラムの作成に使用でき、そのヒストグラムから、異なる状態(例えば、それぞれ異なるヌクレオチドに対応する)についての確率関数が決定される。各確率関数(例えば混合分布モデルを用いて決定される)は、特定のヌクレオチドに対応するシグナルの出力確率を割り当てることができる。状態間の遷移確率および出力確率を用いて、ある時間にわたる状態の組の最も可能性の高い組を決定できるので、それによって核酸の配列の塩基(ヌクレオチド)の測定が提供される。ヒストグラムおよび確率関数は配列決定セルに固有のものでありうるので、その特定の配列決定セルについての核酸の配列決定における正確性が向上する。ヒストグラムから決定された確率関数の使用は、測定された特定のデータに出力確率を合わせることによって正確性を高めることもできる。
別の態様に従って、配列決定セル中の核酸からのシグナル値が経時的に測定される。シグナル値はヒストグラムの作成に使用でき、そのヒストグラムから、異なる状態(例えば、それぞれ異なるヌクレオチドに対応する)についての確率関数が決定される。各確率関数(例えば混合分布モデルを用いて決定される)は、特定のヌクレオチドに対応するシグナルの出力確率を割り当てることができる。確率関数は、さらに、例えば更新手順の一部として、初期確率関数を用いて決定することもできる。このようにして、確率関数は、核酸の配列決定の間、何回も更新できる。これらの時間依存性確率関数は、最も可能性の高い状態に対して使用できるので、それによって核酸の配列の塩基(ヌクレオチド)の測定が提供される。時間依存性確率関数は、物理的配列決定セルの性質におけるドリフトを計算することにより、正確性を高めることができる。
別の態様に従って、配列決定セル中の核酸からのシグナル値が経時的に測定される。シグナル値は、異なるヌクレオチド結合状態(binding state)(まとめて結合状態(bound state))および非結合状態(unbound state)を含む、ポリメラーゼの異なる結合状態に対応しうる。2状態分類子(2-states classifier)は、様々な時間ステップにおけるシグナル値を結合状態または非結合状態に対応するとして分類することができる。結合状態に対応するシグナルのサブセットは、第二の分類子を用いてさらに分析し、様々なヌクレオチド結合状態間を区別することができる。最も可能性の高いヌクレオチド結合状態を用いて、核酸の配列の塩基(ヌクレオチド)の測定を提供することができる。
従って、本発明は、上記および以下に開示された技術的特徴のすべてを特徴とする、配列決定セルの使用法およびそれによる核酸の配列決定法を提供する。本発明はまた、開示された方法のいずれかの操作を実行するための、コンピュータシステムを制御するための複数の命令を記憶しているコンピュータ可読媒体を含むコンピュータ製品も包含する。本発明はまた、上に開示されたコンピュータ製品を含むシステムおよび機器;およびコンピュータ可読媒体上に記憶された命令を実行するための一つまたは複数のプロセッサも包含する。
図1は、本発明の態様に従って、ナノポアセルのアレイを有するナノポアセンサーチップの態様の上面図である。 図2は、本発明の態様に従って、ポリヌクレオチドまたはポリペプチドを特徴付けするために使用できるナノセンサーチップ中のナノポアセルの態様を示す。 図3は、本発明の態様に従って、ナノポアベースの合成による配列決定(Nano−SBS)技術を用いて、ヌクレオチドの配列決定を実施するナノポアセルの態様を示す。 図4は、本発明の態様に従って、ナノポアセル中の電気回路の態様を示す。 図5は、本発明の態様に従って、ACサイクルの明期間(部分)および暗期間(部分)中にナノポアセルから捕捉されたデータ点の例を示す。 図6は、本発明の態様に従って、タグ付きヌクレオチドを用いる核酸の配列決定プロセスの態様を示す。 図7は、本発明の態様に従って、配列決定セルおよび対応するデータ層の簡略図を示す(鋳型(配列番号1);酵素(配列番号2);ポアデータ(配列番号3))。 図8は、本発明の態様に従って、パルスで構成される酵素層の例を示す。 図9は、本発明の態様に従って、通り抜け状態(threaded state)にある図7の配列決定セルおよびある層のサンプルデータの簡略図を示す(鋳型(配列番号1);酵素(配列番号2);ポアデータ(配列番号3))。 図10は、本発明の態様に従って、鋳型核酸の配列決定中に配列決定セルの物理的状態を再構築するための方法1000を示すフローチャートである。 図11は、本発明の態様に従って、開チャンネル(OC)値の分率によって測定された、正規化シグナル値のプロットおよび異なる正規化値における測定値のヒストグラムを示す。 図12は、本発明の態様に従って、5つの状態を含むHMMの例を示す。 図13は、隠れマルコフモデル(HMM)を用いて隠れ状態を決定するための時間トレース1300を示す。 図14Aは、ペアワイズ遷移確率の遷移行列の例を示す。 図14Bは、結合状態間のゼロでない確率を有するペアワイズ遷移確率の遷移行列の例を示す。 図15Aは、各5つの状態について異なる範囲にある観測パラメーターの確率を含む出力テーブルの例を示す。 図15Bは、本発明の態様に従って、5つの状態のそれぞれ(S0〜S4)についての出力確率関数の例を示す。 図16は、本発明の態様に従って、4つのポア状態についての確率関数の例を示す。 図17Aは、本発明の態様に従って、5つの時間ステップにおける4つの状態についての観測テーブルを示す。 図17Bは、本発明の態様に従って、4つの状態と5つの時間ステップについてのトレリス線図の例を示す。 図18は、本発明の態様に従って、核酸を配列決定するための時間依存性確率関数を決定するために、配列決定セルを使用する方法のフローチャートを示す。 図19は、本発明の態様に従って、2状態分類子と第二の分類子を用いて核酸を配列決定するために、配列決定セルを使用する方法のフローチャートを示す。 図20は、本発明の態様に従って、シグナルトレース、拡大トレース、正規化シグナル値、およびヒストグラムの例を示す。 図21は、本発明の態様に従って、正規化シグナル値、中間図、および最高ズーム図を示す。 図22は、本発明の態様に従って、高ズーム図および上3つの最も可能性の高い隠れ状態を示す。 図23は、本発明の態様によるシステムおよび方法で使用可能なコンピュータシステムの例のブロック図を示す。
用語
特に明記されない限り、本明細書中で使用されている技術的および科学的用語は、当業者によって一般に理解されているのと同じ意味を有する。本明細書中に記載されているのと類似または等価の方法、装置、および材料が、開示技術の実施に使用できる。下記の用語は、頻繁に使用されている一定の用語の理解を促進するために提供されるのであって、本開示の範囲を制限するものではない。本明細書中で使用されている略語は、化学および生物学的分野の範囲内における慣用の意味を有する。
“核酸”は、デオキシリボヌクレオチドまたはリボヌクレオチドおよび一本鎖または二本鎖のいずれかの形態のそれらのポリマーのことでありうる。該用語は、合成、天然、および非天然の、参照核酸と類似の結合特性を有し、そして参照ヌクレオチドと類似の様式で代謝される、公知ヌクレオチド類似体または修飾主鎖残基または連結を含有する核酸を包含しうる。そのような類似体の例は、ホスホロチオエート、ホスホロアミダイト、メチルホスホネート、キラル-メチルホスホネート、2−O−メチルリボヌクレオチド、ペプチド−核酸(PNA)などでありうるが、これらに限定されない。別段の指示がない限り、特定の核酸配列は、明示的に示された配列のほか、その保存修飾変異体(例えば、縮重コドン置換)および相補配列も暗に包含する。具体的には、縮重コドン置換は、一つまたは複数の選択された(またはすべての)コドンの第三の位置が混合塩基および/またはデオキシイノシン残基で置換されている配列を生成することによって達成できる(Batzerら,Nucleic Acid Res.19:5081(1991);Ohtsukaら,J.Biol.Chem.260:2605−2608(1985);Rossoliniら,Mol.Cell.Probes 8:91−98(1994))。核酸という用語は、遺伝子、cDNA、mRNA、オリゴヌクレオチド、およびポリヌクレオチドと互換的に使用できる。
“鋳型”という用語は、DNA合成のためにDNAヌクレオチドの相補鎖に複製される一本鎖核酸分子のことでありうる。場合によって、鋳型は、mRNAの合成中に複製されるDNAの配列を言うこともある。
“プライマー”という用語は、DNA合成の開始点を提供する短い核酸配列のことでありうる。DNA合成を触媒する酵素、例えばDNAポリメラーゼは、DNA複製のためにプライマーに新しいヌクレオチドを付加することができる。
“ポリメラーゼ”は、ポリヌクレオチドの鋳型依存性合成(template-directed synthesis)を実施する酵素のことでありうる。該用語は、全長ポリペプチドおよびポリメラーゼ活性を有するドメインの両方を包含する。DNAポリメラーゼは当業者には周知であり、ピュロコックス・フリオスス(Pyrococcus furiosus)、テルモコックス・リトラリス(Thermococcus litoralis)、およびテルモトガ・マリティメ(Thermotoga maritime)から単離または誘導されたDNAポリメラーゼまたはその修飾形などであるが、これらに限定されない。それらは、DNA依存性ポリメラーゼおよび逆転写酵素などのRNA依存性ポリメラーゼの両方を含む。DNA依存性DNAポリメラーゼの少なくとも5つのファミリーが知られているが、大部分は、A、BおよびCのファミリーに入る。様々なファミリー間で配列の類似性はほとんどまたは全くない。ほとんどのファミリーAポリメラーゼは、ポリメラーゼ、3'から5'へのエキソヌクレアーゼ活性および5'から3'へのエキソヌクレアーゼ活性を含む複数の酵素機能を含有できる一本鎖タンパク質である。ファミリーBポリメラーゼは、典型的には、ポリメラーゼと3'から5'へのエキソヌクレアーゼ活性を有する単一の触媒ドメインのほか、補助因子を有する。ファミリーCポリメラーゼは、典型的には、重合および3'から5'へのエキソヌクレアーゼ活性を有するマルチサブユニットタンパク質である。大腸菌(E. coli)で、3種類のDNAポリメラーゼが見出されている。DNAポリメラーゼI(ファミリーA)、II(ファミリーB)およびIII(ファミリーC)である。真核細胞では、3種類の異なるファミリーBポリメラーゼ、すなわちDNAポリメラーゼα、δ、およびεが核複製に関与し、ファミリーAポリメラーゼのポリメラーゼγがミトコンドリアDNA複製に使用されている。DNAポリメラーゼのその他の種類はファージポリメラーゼなどである。同様に、RNAポリメラーゼは、典型的には、真核細胞のRNAポリメラーゼI、II、およびIII、ならびに細菌のRNAポリメラーゼのほか、ファージおよびウィルスポリメラーゼを含む。RNAポリメラーゼは、DNA依存性およびRNA依存性でありうる。
“ナノポア”は、膜に形成されているまたは別の方法で提供されているポア、チャンネルまたは通路のことを言う。膜は、有機膜、例えば脂質二重層、または合成膜、例えばポリマー材料から形成された膜でありうる。ナノポアは、検知回路または検知回路に接続された電極、例えば、相補型金属酸化膜半導体(CMOS)または電界効果トランジスタ(FET)回路に隣接してまたはその近傍に配置できる。一部の例において、ナノポアは、0.1ナノメートル(nm)〜約1000nmのオーダーの特徴的な幅または直径を有する。一部の実施において、ナノポアはタンパク質でありうる。
“ヌクレオチド”という用語は、天然のリボヌクレオチドまたはデオキシリボヌクレオチドモノマーを指すほか、文脈上明白に他の場合を指示していない限り、ヌクレオチドが使用される特定の状況(例えば、相補的塩基へのハイブリダイゼーション)に関して機能的に等価であるその関連構造変異体(誘導体および類似体を含む)も指すと理解されうる。
“タグ”という用語は、原子または分子、または原子もしくは分子の集合体でありうる検出可能部分のことでありうる。タグは、光学的、電気化学的、磁気的、または静電気的(例えば、誘導的、容量的)シグネチャーを提供でき、そのシグネチャーがナノポアの助けを借りて検出されうる。典型的には、ヌクレオチドがタグに結合されている場合、それは“タグ付きヌクレオチド”と呼ばれる。タグは、ヌクレオチドにホスフェート部分を介して付けることができる。
“明期間(bright period)”という用語は、一般的に、タグ付きヌクレオチドのタグがACシグナルを通じて印加された電界によってナノポアに押し込まれる期間のことでありうる。“暗期間(dark period)”という用語は、一般的に、タグ付きヌクレオチドのタグがACシグナルを通じて印加された電界によってナノポアから押し出される期間のことでありうる。ACサイクルは明期間と暗期間を含みうる。異なる態様において、ナノポアセルを明期間(または暗期間)にするためにナノポアセルに印加される電圧シグナルの極性は異なりうる。明期間および暗期間は、参照電圧に対する交流シグナルの異なる部分に対応しうる。
“シグナル値”という用語は、配列決定セルから出力される配列決定シグナルの値のことでありうる。一定の態様によれば、配列決定シグナルは、一つまたは複数の配列決定セルの回路中の一点から測定および/または出力される電気シグナルでありうる。例えば、シグナル値は電圧または電流でありうる(またはそれらを表す)。シグナル値は、電圧および/または電流の直接測定の結果を表すこともおよび/または間接測定を表すこともある。例えば、シグナル値は、電圧または電流が特定値に到達するのにかかる測定時間でもよい。シグナル値は、ナノポアの抵抗率に相関し、そこからナノポア(通り抜けおよび/または非通り抜け)の抵抗率および/またはコンダクタンスを誘導できる任意の測定可能な量を表しうる。別の例として、シグナル値は、例えばポリメラーゼで触媒されて核酸になるヌクレオチドに付けられた発蛍光団からの光強度に対応することもある。
“ヒストグラム”という用語は、特定数の間隔(ビン)それぞれについて、いくつかのシグナル値のカウントを記憶するデータ構造でありうる。各ビンは、シグナル値の離散値(例えば、ADCの分解能によって決定される)または間隔内の可能なシグナル値の範囲に対応しうる。
“ヌクレオチド状態”とは、所与の時間における核酸の状態のことでありうる。核酸がナノポアを通過するとき、ヌクレオチド状態は、その時点でナノポアを通過していると判定されたヌクレオチドに対応しうる。従って、4つのヌクレオチド状態がありうる。ポリメラーゼが使用される場合、ヌクレオチド状態は、4つのヌクレオチドの4つの結合状態およびポリメラーゼの活性部位にヌクレオチドがない第五の状態を含みうる結合状態に対応しうる。
詳細な説明
態様により、例えば配列決定プロセスの確率的性質を考慮し、核酸の配列の測定における改良された正確性が提供できる。一部の態様では、所与の配列決定セルに特別な時間ベースの測定(例えばヒストグラムの形成)を使用して、特定期間にわたって測定された塩基の配列を決定するための特注モデルを生成することができる。該モデルは、それぞれが異なる状態(例えばナノポアの異なる状態)に対応する確率関数を含みうる。そのような確率関数は、その特定セルについて得られた測定のヒストグラムにフィットさせることができるので、確率関数をその特定セルに合わせることにより、増大した正確性を提供できる。確率関数は、核酸の配列決定操作の間中更新できるので、配列決定セルの物理的性質のドリフトを考慮に入れることができる。
一部の態様において、隠れマルコフモデル(HMM)は、そのような確率関数を、最も可能性の高いヌクレオチド状態を経時的に決定するための出力確率として使用することができる。その他の利益(例えば計算効率に関する)は、ポリメラーゼの結合状態および非結合状態の間の2状態分類(例えばヌクレオチドがポリメラーゼの活性部位にあるか否か)を実施することにより、ポリメラーゼを使用する配列決定セルについて得られる。結合領域をさらに第二の分類子によって分析して、異なる結合ヌクレオチドに対応する状態間を区別することができる。
導入部において、態様で使用されうる様々な生物学的プロセスおよび電気装置について記載する。次に、例示的配列決定セルの異なる物理層および対応するデータ層について記載する。配列決定セルから測定されたシグナル値を再構築して、核酸の配列を測定するためのパイプラインを提供する。一つまたは複数の隠れマルコフモデルの使用についてさらに記載する。態様では品質スコアも提供されうる。これを使用すれば、例えば確率関数のモデルの生成に使用するための特別なシグナル値を選択できる。時間依存性確率関数と2段階の分類の使用についても記載する。
I.ナノポアベースの配列決定チップ
図1は、ナノポアセル150のアレイ140を有するナノポアセンサーチップ100の態様を示す上面図である。各ナノポアセル150は、ナノポアセンサーチップ100のシリコン基板上に集積された制御回路を含む。一部の態様において、側壁136がアレイ140に含まれてナノポアセル150のグループを分離し、各グループが特徴付けのための異なるサンプルを受け入れるようにすることもできる。各ナノポアセルは、核酸を配列決定するために使用できる。一部の態様において、ナノポアセンサーチップ100は、カバープレート130を含んでもよい。一部の態様において、ナノポアセンサーチップ100は、コンピュータプロセッサなどの他の回路とのインターフェースのために複数のピン110を含むこともできる。
一部の態様において、ナノポアセンサーチップ100は、例えば、マルチチップ・モジュール(MCM)またはシステム・イン・パッケージ(SiP)のように、同じパッケージ内に複数のチップを含むこともできる。チップは、例えば、メモリー、プロセッサ、フィールド・プログラマブル・ゲート・アレイ(FPGA)、特定用途向け集積回路(ASIC)、データ変換装置、高速I/Oインターフェースなどを含みうる。
一部の態様において、ナノポアセンサーチップ100は、ナノチップワークステーション120に接続(例えばドッキング)されてもよい。そのワークステーションには、本明細書中に開示されたプロセスの様々な態様を実施(例えば自動的に実施)するための各種コンポーネントが含まれうる。例えば、脂質懸濁液またはその他の膜構造懸濁液、被検体溶液、および/またはその他の液体、懸濁液もしくは固体を送達するためのピペットなどの被検体送達機構、ロボットアーム、コンピュータプロセッサ、および/またはメモリーなどである。複数のポリヌクレオチドがナノポアセル150のアレイ140上で検出できる。一部の態様において、各ナノポアセル150は個別にアドレス可能でありうる。
II.ナノポア配列決定セル
ナノポアセンサーチップ100のナノポアセル150は、多様な方法で実施することができる。例えば、一部の態様において、異なるサイズおよび/または化学構造のタグを、配列決定される核酸分子の異なるヌクレオチドに付けることができる。一部の態様において、配列決定される核酸分子の鋳型に対する相補鎖は、異なるポリマータグ付きヌクレオチドを鋳型とハイブリダイズすることによって合成することができる。一部の実施において、核酸分子と付着タグは、どちらもナノポアを通って移動できるので、ナノポアを通るイオン電流は、ヌクレオチドに付けられたタグの特定のサイズおよび/または構造のために、ナノポア内にあるヌクレオチドを示すことができる。一部の実施においては、タグだけがナノポア内に移動できる。ナノポア中の異なるタグを検出するための多数の異なる方法もあるであろう。
A.ナノポア配列決定セル構造
図2に、ポリヌクレオチドまたはポリペプチドの特徴付けに使用できる図1のナノポアセンサーチップ100中のナノポアセル150のような、ナノポアセンサーチップ中のナノポアセル200の態様を示す。ナノポアセル200は、誘電体層201および204から形成されたウェル205;ウェル205上に形成された脂質二重層214などの膜;および脂質二重層214上にあって脂質二重層214によりウェル205から分離されているサンプルチャンバ215を含みうる。ウェル205は、一定容量の電解質206を含有でき、サンプルチャンバ215は、ナノポアを含有するバルク電解質208、例えば可溶性タンパク質ナノポア膜貫通分子複合体(PNTMC)、および目的の被検体(例えば、配列決定される核酸分子)を保持できる。
ナノポアセル200は、ウェル205の底部に作用電極202と、サンプルチャンバ215に配置された対電極210を含みうる。シグナル源228は、作用電極202と対電極210の間に電圧シグナルを印加できる。単一のナノポア(例えばPNTMC)が電圧シグナルによって生じた電気穿孔プロセスによって脂質二重層214内に挿入でき、それによって脂質二重層214にナノポア216が形成される。アレイ内の個々の膜(例えば脂質二重層214またはその他の膜構造)は、互いに化学的にも電気的にも接続されることはできない。従って、アレイ中の各ナノポアセルは独立した配列決定マシンとなり、ナノポアに会合した単一ポリマー分子に特有のデータを生ずることができる。ナノポアは、目的の被検体に対して動作し、ナノポアがなければ不透過性の脂質二重層を通るイオン電流を調節する役割を果たす。
図2に示されているように、ナノポアセル200は、シリコン基板などの基板230上に形成されうる。誘電体層201は基板230上に形成できる。誘電体層201を形成するために使用される誘電材料は、例えば、ガラス、酸化物、窒化物などでありうる。電気刺激を制御するためおよびナノポアセル200から検出されたシグナルを処理するための電気回路222は、基板230上および/または誘電体層201内に形成できる。例えば、複数のパターン化金属層(例えば金属1〜金属6)が誘電体層201内に形成され、複数の能動デバイス(例えばトランジスタ)が基板230上に製作されうる。一部の態様において、シグナル源228は電気回路222の一部として含まれる。電気回路222は、例えば、増幅器、積分器、アナログ・デジタル変換器、ノイズフィルタ、フィードバック制御ロジック、および/または各種のその他コンポーネントを含みうる。電気回路222はさらに、メモリー226に接続されたプロセッサ224に接続することもできる。ここでプロセッサ224は、配列決定データを分析し、アレイ中で配列決定されたポリマー分子の配列を決定することができる。
作用電極202は誘電体層201上に形成でき、ウェル205の底部の少なくとも一部を形成しうる。一部の態様において、作用電極202は金属電極である。非ファラデー伝導の場合、作用電極202は、腐食および酸化に対して抵抗性の金属またはその他の材料、例えば、白金、金、窒化チタン、およびグラファイトなどから製造されうる。例えば、作用電極202は、電気めっきされた白金を有する白金電極でありうる。別の例では、作用電極202は、窒化チタン(TiN)作用電極でありうる。作用電極202は多孔質であることにより、その表面積および結果として作用電極202に関連するキャパシタンスが増大しうる。ナノポアセルの作用電極は、別のナノポアセルの作用電極から独立しうるので、作用電極は、本開示においてはセル電極と呼ばれることもある。
誘電体層204は、誘電体層201の上方に形成できる。誘電体層204は、ウェル205を囲む壁を形成する。誘電体層204の形成に使用される誘電材料は、例えば、ガラス、酸化物、一窒化ケイ素(SiN)、ポリイミド、またはその他の適切な疎水性絶縁材料などでありうる。誘電体層204の上面はシラン処理されうる。シラン処理により、誘電体層204の上面の上に疎水性層220が形成できる。一部の態様において、疎水性層220は約1.5ナノメートル(nm)の厚さを有する。
誘電体層204の壁によって形成されたウェル205は、作用電極202上に一定容量の電解質206を含む。一定容量の電解質206は緩衝化でき、下記の一つまたは複数を含みうる。すなわち、塩化リチウム(LiCl)、塩化ナトリウム(NaCl)、塩化カリウム(KCl)、グルタミン酸リチウム、グルタミン酸ナトリウム、グルタミン酸カリウム、酢酸リチウム、酢酸ナトリウム、酢酸カリウム、塩化カルシウム(CaCl)、塩化ストロンチウム(SrCl)、塩化マンガン(MnCl)、および塩化マグネシウム(MgCl)である。一部の態様において、一定容量の電解質206は、約3ミクロン(μm)の厚さを有する。
また、図2に示されているように、誘電体層204の上部に膜が形成でき、ウェル205全体に及ぶ。一部の態様において、膜は疎水性層220の上部に形成された脂質単分子層218を含みうる。膜がウェル205の開口部に到達すると、脂質単分子層218は脂質二重層214に移行でき、それがウェル205の開口部全体に及ぶ。脂質二重層は、例えば、ジフィタノイル−ホスファチジルコリン(DPhPC)、1,2−ジフィタノイル−sn−グリセロ−3−ホスホコリン、1,2−ジ−O−フィタニル−sn−グリセロ−3−ホスホコリン(DoPhPC)、パルミトイル−オレオイル−ホスファチジルコリン(POPC)、ジオレオイル−ホスファチジル−メチルエステル(DOPME)、ジパルミトイルホスファチジルコリン(DPPC)、ホスファチジルコリン、ホスファチジルエタノールアミン、ホスファチジルセリン、ホスファチジン酸、ホスファチジルイノシトール、ホスファチジルグリセロール、スフィンゴミエリン、1,2−ジ−O−フィタニル−sn−グリセロール;1,2−ジパルミトイル−sn−グリセロ−3−ホスホエタノールアミン−N−[メトキシ(ポリエチレングリコール)−350];1,2−ジパルミトイル−sn−グリセロ−3−ホスホエタノールアミン−N−[メトキシ(ポリエチレングリコール)−550];1,2−ジパルミトイル−sn−グリセロ−3−ホスホエタノールアミン−N−[メトキシ(ポリエチレングリコール)−750];1,2−ジパルミトイル−sn−グリセロ−3−ホスホエタノールアミン−N−[メトキシ(ポリエチレングリコール)−1000];1,2−ジパルミトイル−sn−グリセロ−3−ホスホエタノールアミン−N−[メトキシ(ポリエチレングリコール)−2000];1,2−ジオレオイル−sn−グリセロ−3−ホスホエタノールアミン−N−ラクトシル;GM1 ガングリオシド、リソホスファチジルコリン(LPC)またはこれらの任意の組合せから選ばれるリン脂質を含みうるまたは該リン脂質からなりうる。
示されているように、脂質二重層214は、例えば単一PNTMCによって形成された単一ナノポア216を埋め込んでいる。上記のように、ナノポア216は、電気穿孔により単一PNTMCを脂質二重層214に挿入することによって形成できる。ナノポア216は、目的の被検体の少なくとも一部および/または小イオン(例えば、Na、K、Ca2+、Cl)を脂質二重層214の両側間に通せるほどの大きさでありうる。
サンプルチャンバ215は、脂質二重層214の上方にあり、特徴付けのための目的被検体の溶液を保持できる。該溶液は、バルク電解質208を含有する水溶液であり、最適イオン濃度に緩衝化され、ナノポア216を開口させておくために最適pHに維持されうる。ナノポア216は、脂質二重層214を横断し、バルク電解質208から作用電極202へのイオン流のための唯一の経路を提供している。ナノポア(例えばPNTMC)および目的被検体のほかに、バルク電解質208は、一つまたは複数の下記をさらに含みうる。すなわち、塩化リチウム(LiCl)、塩化ナトリウム(NaCl)、塩化カリウム(KCl)、グルタミン酸リチウム、グルタミン酸ナトリウム、グルタミン酸カリウム、酢酸リチウム、酢酸ナトリウム、酢酸カリウム、塩化カルシウム(CaCl)、塩化ストロンチウム(SrCl)、塩化マンガン(MnCl)、および塩化マグネシウム(MgCl)である。
対電極210は電気化学ポテンシャルセンサーでありうる。一部の態様において、対電極210は、複数のナノポアセル間で共有できるので、共通電極と呼ぶことができる。一部の場合、共通電位および共通電極は全ナノポアセルに共通であっても、または特定のグループ内の少なくとも全ナノポアセルに共通であってもよい。共通電極は、ナノポア216と接触しているバルク電解質208に共通電位を印加するように構成できる。対電極210と作用電極202は、脂質二重層214を横切る電気刺激(例えば電圧バイアス)を提供するためにシグナル源228に接続でき、脂質二重層214の電気的特徴(例えば、抵抗、キャパシタンス、およびイオン電流)を検知するために使用することができる。一部の態様において、ナノポアセル200は参照電極212も含みうる。
一部の態様において、ナノポアセルの創作中、較正の一部として様々なチェックを行うことができる。ナノポアセルが創作されたら、例えば所望通りの性能を有するナノポアセル(例えばセル中に1個のナノポア)を識別するために、更なる較正ステップを実施することができる。そのような較正チェックは、物理的チェック、電圧較正、開チャンネル較正、および単一ナノポアを有するセルの識別などを含みうる。
B.ナノポア配列決定セルの検出シグナル
ナノポアセンサーチップ100中のナノポアセル150のような、ナノポアセンサーチップ中のナノポアセルは、合成による単一分子ナノポアベースの配列決定(Nano−SBS)技術を用いる並行配列決定を可能にしうる。
図3に、Nano−SBS技術を用いてヌクレオチドの配列決定を実施するナノポアセル300の態様を示す。Nano−SBS技術では、配列決定される鋳型(例えばヌクレオチド酸分子または別の目的被検体)とプライマーを、ナノポアセル300のサンプルチャンバ中のバルク電解質308に導入できる。例として、鋳型332は円形のこともまたは線形のこともある。核酸プライマーは鋳型332の一部にハイブリダイズされており、それに4種類の異なるポリマータグ付きヌクレオチド338を加えることができる。
一部の態様において、酵素(例えば、DNAポリメラーゼなどのポリメラーゼ334)を、鋳型332に対する相補鎖の合成に使用するためにナノポア316に会合させることができる。例えば、ポリメラーゼ334はナノポア316に共有結合されうる。ポリメラーゼ334は、一本鎖核酸分子を鋳型として用いて、プライマー上へのヌクレオチド338の取込みを触媒できる。ヌクレオチド338はタグ種(“タグ”)を含むことができ、ヌクレオチドは4つの異なる種類、すなわちA、T、G、またはCの一つである。タグ付きヌクレオチドがポリメラーゼ334に正しく結合されると、タグは、脂質二重層314および/またはナノポア316を挟んで印加された電圧によって生じた電界の存在下で生じた力などの電気的力により、ナノポアに引き込まれる(装填される)。タグの尾部はナノポア316の胴部(barrel)に位置しうる。ナノポア316の胴部に保持されたタグは、タグの異なる化学構造および/またはサイズのために、特有のイオン性遮断シグナル340を生じうる。それによって、タグが結合している付加塩基が電子的に同定される。
本明細書において、“装填”または“通り抜け”タグは、相当程度の時間、例えば0.1ミリ秒(ms)〜10,000ミリ秒の間、ナノポア内またはナノポアの近傍に位置するおよび/または留まるものでありうる。一部の場合、タグは、ヌクレオチドから放出される前にナノポアに装填される。一部の場合、ヌクレオチドの取込み事象時に放出された後、ナノポアを通過する(および/またはナノポアによって検出される)装填タグの確率は適切に高い、例えば90%〜99%である。
一部の態様において、ポリメラーゼ334がナノポア316に接続される前、ナノポア316のコンダクタンスは高く、例えば300ピコジーメンス(300pS)くらいであろう。タグがナノポアに装填されると、タグの異なる化学構造および/またはサイズのために、特有のコンダクタンスシグナル(例えばシグナル340)が生じる。例えば、ナノポアのコンダクタンスは、約60pS、80pS、100pS、または120pSで、それぞれ4種類のタグ付きヌクレオチドの一つに対応している。次いで、ポリメラーゼは異性化およびリン酸基転移反応を経て、ヌクレオチドを伸長中の核酸分子に取り込むことができ、タグ分子を放出する。
場合により、タグ付きヌクレオチドの一部は、核酸分子(鋳型)の現在位置と適合しない(相補塩基)ことがある。核酸分子と塩基対を作らないタグ付きヌクレオチドもナノポアを通過しうる。これらの不対ヌクレオチドは、正しく対になったヌクレオチドがポリメラーゼと会合している時間スケールよりも短い時間スケール以内にポリメラーゼによって拒絶されうる。不対ヌクレオチドに結合されたタグは、ナノポアを迅速に通過し、短時間(例えば10ms未満)の間検出できるが、対になったヌクレオチドに結合されたタグは、ナノポアに装填され、長時間(例えば少なくとも10ms)の間検出できる。従って、不対ヌクレオチドは、下流のプロセッサによって、ヌクレオチドがナノポア内で検出される時間に少なくとも一部は基づいて識別されうる。
装填(通り抜け)タグを含むナノポアのコンダクタンス(または等価的に抵抗)は、ナノポアを通過する電流によって測定できるので、それによってタグ種、従って現在位置におけるヌクレオチドの同定が提供される。一部の態様においては、直流(DC)シグナルがナノポアセルに印加できる(例えば、ナノポアを通過するタグの方向が逆転しないように)。しかしながら、直流を使用して長時間ナノポアセンサーを運転すると、電極の組成を変化させ、ナノポアを挟むイオン濃度を不均衡にし、そしてナノポアセルの寿命に影響を及ぼしかねないその他の望まざる影響がもたらされうる。交流(AC)波形の印加は、エレクトロマイグレーションを低減して、これらの望ましくない影響を回避し、以下に記載の一定の利点も有しうる。タグ付きヌクレオチドを利用する本明細書中に記載の核酸配列決定法は、印加AC電圧に完全に適合性があるので、AC波形を使用してこれらの利点を達成することができる。
AC検出サイクル中に電極を再充電できる能力は、犠牲電極、通電反応中に分子特性が変化する電極(例えば銀を含む電極)、または通電反応中に分子特性が変化する電極が使用される場合、有益でありうる。直流シグナルが使用されると、電極は検出サイクル中に枯渇しうる。再充電は、電極が枯渇限界に達する、例えば完全枯渇するのを防止できる。電極の枯渇は、電極が小さい場合(例えば、電極が1平方ミリメートルあたり少なくとも500個の電極を有する電極のアレイを提供できるほど小さい場合)に問題となりうる。電極の寿命は、一部の場合、電極の幅に対応する、および少なくとも一部は依存する。
ナノポアを通過するイオン電流を測定するための適切な条件は当該技術分野で公知であり、実例が本明細書に提供されている。測定は、膜およびポアを挟んで印加される電圧を用いて実施できる。一部の態様において、使用される電圧は、−400mV〜+400mVの範囲でありうる。使用される電圧は、好ましくは、−400mV、−300mV、−200mV、−150mV、−100mV、−50mV、−20mV、および0mVから選ばれる下限と、+10mV、+20mV、+50mV、+100mV、+150mV、+200mV、+300mV、および+400mVから独立に選ばれる上限とを有する範囲である。使用される電圧は、さらに好ましくは100mV〜240mVの範囲であり得、最も好ましくは160mV〜240mVの範囲でありうる。増大させた印加電位を用いてナノポアによる異なるヌクレオチド間の区別を大きくすることも可能である。AC波形およびタグ付きヌクレオチドを用いる核酸の配列決定は、2013年11月6日出願の米国特許公開第2014/0134616号、発明の名称「タグを用いる核酸の配列決定」に記載されており、前記公開特許は引用によってその全文を本明細書に援用する。US2014/0134616に記載のタグ付きヌクレオチドに加え、配列決定は、糖または非環式部分を欠くヌクレオチド類似体、例えば5個の共通核酸塩基、アデニン、シトシン、グアニン、ウラシル、およびチミンの(S)−グリセロールヌクレオシドトリホスフェート(gNTP)を用いて実施することもできる(Horhotaら,Organic Letters,8:5345−5347[2006])。
C.ナノポア配列決定セルの電気回路
図4に、ナノポアセル200のようなナノポアセル中の電気回路400(図2の電気回路222の部分を含みうる)の態様を示す。上記のように、一部の態様において、電気回路400は、ナノポアセンサーチップ中の複数のナノポアセルまたは全ナノポアセル間で共有できる、従って共通電極とも呼べる対電極410を含む。共通電極は、電圧源VLIQ420に接続することにより、ナノポアセル中の脂質二重層(例えば脂質二重層214)と接触しているバルク電解質(例えばバルク電解質208)に共通電位を印加するように構成できる。一部の態様においては、AC非ファラデーモードを利用して電圧VLIQをACシグナル(例えば矩形波)で変調し、それをナノポアセル中の脂質二重層と接触しているバルク電解質に印加することができる。一部の態様において、VLIQは±200〜250mVの振幅および例えば25〜400Hzの周波数を有する矩形波である。対電極410と脂質二重層(例えば脂質二重層214)間のバルク電解質は、例えば100μF以上の大型キャパシタ(図示せず)によってモデル化することができる。
図4に、作用電極402(例えば作用電極202)および脂質二重層(例えば脂質二重層214)の電気的特性を表す電気モデル422も示す。電気モデル422は、脂質二重層に関連するキャパシタンスをモデル化したキャパシタ426(CBilayer)およびナノポアに関連する可変抵抗(ナノポア中の特定タグの存在に基づいて変化できる)をモデル化した抵抗器428(RPORE)を含む。電気モデル422は、二重層キャパシタンス(CDouble Layer)を有し、作用電極402およびウェル205の電気的特性を表すキャパシタ424も含む。作用電極402は、他のナノポアセル中の作用電極からは独立に異なる電位を印加するように構成できる。
パスデバイス(pass device)406は、脂質二重層および作用電極を電気回路400に接続または前記回路から切断するために使用できるスイッチである。パスデバイス406は、ナノポアセル中の脂質二重層に印加される電圧刺激を有効または無効にするために制御ライン407によって制御できる。脂質が堆積して脂質二重層を形成する前、二つの電極間のインピーダンスは、ナノポアセルのウェルが密封されていないために非常に低いので、短絡状態を回避するためにパスデバイス406を開放したままにしておくことができる。パスデバイス406は、脂質溶媒がナノポアセルに堆積してナノポアセルのウェルを密封したら、閉じることができる。
電気回路400は、オンチップ積分キャパシタ408(ncap)をさらに含むことができる。積分キャパシタ408は、積分キャパシタ408が電圧源VPRE405に接続されるようにリセットシグナル403を用いてスイッチ401を閉じることにより予備充電できる。一部の態様において、電圧源VPRE405は、例えば900mVの大きさを有する一定の参照電圧を提供する。スイッチ401が閉じられると、積分キャパシタ408は電圧源VPRE405の参照電圧レベルにまで予備充電できる。
積分キャパシタ408が予備充電された後、積分キャパシタ408が電圧源VPRE405から切断されるようにリセットシグナル403を用いてスイッチ401を開放する。この時点で、電圧源VLIQのレベルに応じて、対電極410の電位は作用電極402(および積分キャパシタ408)の電位より高いレベルにあるか、またはその逆でありうる。例えば、電圧源VLIQからの矩形波の正相にある間(例えば、AC電圧源シグナルサイクルの明または暗期間)、対電極410の電位は、作用電極402の電位より高いレベルにある。電圧源VLIQからの矩形波の負相にある間(例えば、AC電圧源シグナルサイクルの暗または明期間)、対電極410の電位は、作用電極402の電位より低いレベルにある。従って、一部の態様において、積分キャパシタ408は、対電極410と作用電極402間の電位差のために、明期間中、電圧源VPRE405の予備充電電圧レベルからより高いレベルにさらに充電され、暗期間中、低いレベルに放電されうる。他の態様においては、充電および放電はそれぞれ暗期間および明期間に起こりうる。
積分キャパシタ408は、アナログ・デジタル変換器(ADC)435のサンプリング速度(1kHz、5kHz、10kHz、100kHz以上でありうる)に応じて、一定期間充電または放電できる。例えば、1kHzのサンプリング速度の場合、積分キャパシタ408は約1msのあいだ充電/放電された後、電圧レベルは積分期間の終了時にADCによってサンプリングされ変換されうる。特定の電圧レベルはナノポア中の特定のタグ種に対応し、ひいては鋳型上の現在位置におけるヌクレオチドに対応する。
ADC435によってサンプリングされた後、積分キャパシタ408は、積分キャパシタ408が電圧源VPRE405に再度接続されるようにリセットシグナル403を用いてスイッチ401を閉じることにより、再度充電できる。積分キャパシタ408の予備充電、積分キャパシタ408が充電または放電するための一定期間の待機、およびADC435による積分キャパシタの電圧レベルのサンプリングおよび変換の工程は、配列決定プロセスの間を通して周期的に繰り返すことができる。
デジタルプロセッサ430は、ADC出力データを、例えば正規化、データバッファリング、データフィルタリング、データ圧縮、データ整理、事象抽出、またはナノポアセルのアレイからのADC出力データを様々なデータフレームにアセンブルするために処理することができる。一部の態様において、デジタルプロセッサ430は、塩基決定などの更なる下流処理を実施することができる。デジタルプロセッサ430は、ハードウェアとして(例えば、GPU、FPGA、ASICなどにおける)またはハードウェアとソフトウェアの組合せとして実装することができる。
従って、ナノポアに印加される電圧シグナルを用いれば、ナノポアの特定の状態を検出することができる。可能性あるナノポアの状態の一つは、タグ付きポリホスフェートがナノポアの胴部に不在のときの開チャンネル状態である(本明細書においては、ナノポアの非通り抜け状態とも呼ばれる)。可能性あるナノポアの別の4つの状態は、4つの異なる種類のタグ付きポリホスフェートヌクレオチド(A、T、G、またはC)の一つがナノポアの胴部に保持されているときの状態にそれぞれ対応する。可能性あるナノポアのさらに別の状態は、脂質二重層が破裂している場合である。
一定期間の後、積分キャパシタ408上での電圧レベルを測定すると、ナノポアの異なる状態によって異なる電圧レベルの測定値がもたらされうる。これは、積分キャパシタ408上での電圧減衰(放電による減少または充電による増加)の速度(すなわち、時間プロットに対する積分キャパシタ408上の電圧の傾きの険しさ)が、ナノポアの抵抗(例えば抵抗器RPORE428の抵抗)に依存するためである。さらに詳しくは、異なる状態のナノポアに関連する抵抗は分子(タグ)の異なる化学構造のために異なるので、電圧減衰の異なる対応速度が観測でき、ナノポアの異なる状態の識別に使用することができる。電圧減衰曲線は、RC時定数τ=RCを有する指数曲線でありうる。式中、Rはナノポアに関連する抵抗(すなわちRPORE428)であり、CはRと並列な膜に関連するキャパシタンス(すなわちキャパシタ426(CBilayer))である。ナノポアセルの時定数は、例えば、約200〜500msでありうる。減衰曲線は、二重層の詳細な実施要領のために、正確には指数曲線に適合しないかもしれないが、減衰曲線は指数曲線に類似し得、単調であるので、タグの検出が可能となる。
一部の態様において、開チャンネル状態のナノポアに関連する抵抗は、100MΩ〜20GΩの範囲でありうる。一部の態様において、タグがナノポアの胴内にある状態のナノポアに関連する抵抗は、200MΩ〜40GΩの範囲内でありうる。他の態様において、積分キャパシタ408は、ADC435に至る電圧が電気モデル422における電圧減衰のためになお変動するであろうから、省略されてもよい。
積分キャパシタ408上での電圧減衰速度は様々な方法で決定できる。上で説明したように、電圧減衰速度は、一定期間の間の電圧減衰を測定することによって決定できる。例えば、積分キャパシタ408上の電圧は、時間t1でADC435によってまず測定でき、次いで時間t2で電圧をADC435により再度測定する。積分キャパシタ408上の電圧対時間曲線の傾きが急であれば電圧差は大きく、電圧曲線の傾きが緩やかであれば電圧差は小さい。従って、電圧差は、積分キャパシタ408上での電圧の減衰速度、ひいてはナノポアセルの状態を決定するための計測量として使用することができる。
他の態様において、電圧減衰の速度は、選択された電圧減衰量に必要な時間を測定することによって決定することもできる。例えば、電圧が第一の電圧レベルV1から第二の電圧レベルV2に降下または上昇するのに必要な時間を測定すればよい。電圧対時間曲線の傾きが急であれば所要時間は短く、電圧対時間曲線の傾きが緩やかであれば所要時間は長くなる。従って、測定された所要時間は、積分キャパシタncap408上での電圧の減衰速度、ひいてはナノポアセルの状態を決定するための計測量として使用することができる。当業者であれば、例えば電流測定技術を含め、ナノポアの抵抗を測定するために使用できる様々な回路は分かるであろう。
一部の態様において、電気回路400は、チップ上に製作されたパスデバイス(例えばバスデバイス406)および余分のキャパシタ(例えば積分キャパシタ408(ncap))を含まなくてもよい。それによってナノポアベースの配列決定チップのサイズの縮小が容易になる。膜(脂質二重層)の薄さのために、膜に関連するキャパシタンス(例えばキャパシタ426(CBilayer))だけで、追加のオンチップキャパシタンスを必要とせずとも、必要なRC時定数を生成するのに十分でありうる。そこで、キャパシタ426を積分キャパシタとして使用し、電圧シグナルVPREによって予備充電し、その後電圧シグナルVLIQによって放電または充電すればよい。電気回路のチップ上にさもなければ製作される余分のキャパシタおよびパスデバイスの排除は、ナノポア配列決定チップの単一ナノポアセルの実装面積を著しく縮小できるので、ナノポア配列決定チップがより多くのセルを含む(例えばナノポア配列決定チップ中に数百万のセルを有する)ようにスケーリングすることが容易になる。
D.ナノポアセルにおけるデータサンプリング
核酸の配列決定を実施するためには、タグ付きヌクレオチドが核酸に付加されている間に積分キャパシタ(例えば積分キャパシタ408(ncap)またはキャパシタ426(CBilayer))の電圧レベルをサンプリングし、ADC(例えばADC435)によって変換すればよい。ヌクレオチドのタグは、例えば印加電圧がVPREよりVLIQが低いような場合、対電極および作用電極を通じて印加されるナノポア全体の電界によってナノポアの胴部に押し込まれうる。
1.通り抜け(Threading)
通り抜け事象は、タグ付きヌクレオチドが鋳型(例えば核酸フラグメント)に結合し、タグがナノポアの胴部に入りそして出るときのことである。これは通り抜け事象中に何回も起こりうる。タグがナノポアの胴部にある場合、ナノポアの抵抗は高くなり、ナノポアを流れる電流は少なくなりうる。
配列決定中、タグは、一部のACサイクル中にナノポア内にないこともある(開チャンネル状態と呼ばれる)。その場合、ナノポアの抵抗は低くなるため、電流は最大となる。タグがナノポアの胴部に誘引されると、ナノポアは明モードになる。タグがナノポアの胴部から押し出されると、ナノポアは暗モードになる。
2.明および暗期間
ACサイクル中、積分キャパシタ上の電圧はADCによって何回もサンプリングされうる。例えば、一態様において、AC電圧シグナルはシステム全体に例えば約100Hzで印加され、ADCの取得速度はセルあたり約2000Hzでありうる。従って、ACサイクル(AC波形のサイクル)あたり捕捉される約20のデータ点(電圧測定値)がありうる。AC波形の1サイクルに対応するデータ点はセットと呼ぶことができる。ACサイクルに対するデータ点のセットには、例えば、VLIQがVPREより低い場合に捕捉されるサブセットがありうる。これはタグがナノポアの胴部に押し込まれている明モード(期間)に対応しうる。別のサブセットは、例えば、VLIQがVPREより高い場合に印加電界によってタグがナノポアの胴部から押し出された暗モード(期間)に対応しうる。
3.測定電圧
各データ点について、スイッチ401が開放されている場合、積分キャパシタ(例えば積分キャパシタ408(ncap)またはキャパシタ426(CBilayer))の電圧は、VLIQによる充電/放電の結果、例えばVLIQがVPREより高い場合、VPREからVLIQへの増加として、またはVLIQがVPREより低い場合、VPREからVLIQへの減少として、減衰様式で変化する。最終電圧値は、作用電極が充電するとVLIQから逸脱しうる。積分キャパシタ上の電圧レベルの変化速度は、ナノポアを含みうる、ひいてはナノポア内の分子(例えばタグ付きヌクレオチドのタグ)を含みうる二重層の抵抗の値に支配されうる。電圧レベルはスイッチ401の開放後、所定の時間に測定できる。
スイッチ401は、データ取得速度で操作できる。スイッチ401は、二つのデータ取得の合間、典型的にはADCによる測定の直後に比較的短時間閉鎖できる。スイッチは、VLIQの各ACサイクルの各サブ期間(明または暗)の間、多数のデータ点の収集を可能にする。スイッチ401が開放されたままであると、積分キャパシタ上の電圧レベル、従ってADCの出力値は完全に減衰し、そこにとどまる。代わりに、スイッチ401が閉じられた場合、積分キャパシタは再度予備充電され(VPREへ)、別の測定の準備が整う。従って、スイッチ401は、各ACサイクルの各サブ期間(明または暗)について、多数のデータ点の収集を可能にする。そのような多数の測定は、固定されたADCでより高い分解能を可能にしうる(例えば、より多数の測定のために、平均すれば8ビット〜14ビット)。多数の測定は、ナノポアに入り込む分子に関する動力学的情報も提供できる。タイミング情報は、通り抜けがどのくらいの時間起こるのかの決定を可能にしうる。これは、核酸鎖に付加された複数のヌクレオチドが配列決定されているかどうかを決定するための一助としても使用できる。
図5に、ACサイクルの明期間および暗期間中にナノポアセルから捕捉されるデータ点の例を示す。図5では、説明の目的のためにデータ点の変化が誇張されている。作用電極または積分キャパシタに印加された電圧(VPRE)は、例えば900mVなど、一定レベルである。ナノポアセルの対電極に印加された電圧シグナル510(VLIQ)は、方形波として示されたACシグナルで、デューティサイクルは任意の適切な値、例えば50%以下、例えば約40%でありうる。
明期間520の間、対電極に印加された電圧シグナル510(VLIQ)は、作用電極に印加された電圧VPREより低い結果、タグは、作用電極と対電極に印加された異なる電圧レベルによって生じた電界により、ナノポアの胴部に押し込まれうる(例えば、タグ上の電荷および/またはイオン流のため)。スイッチ401が開放されると、ADCの前のノードにおける(例えば積分キャパシタにおける)電圧は低下する。電圧データ点が捕捉された後(例えば特定期間の後)、スイッチ401は閉じられ、測定ノードにおける電圧は増加して再度にVPRE戻る。このプロセスは多数の電圧データ点を測定するために繰り返すことができる。このようにして、多数のデータ点が明期間中に捕捉できる。
図5に示されているように、VLIQシグナルの符号の変化後、明期間における第一のデータ点522(ファーストポイントデルタ(FPD)とも呼ばれる)は、その後のデータ点524よりも低くなりうる。これは、ナノポア中にタグがなく(開チャンネル)、低抵抗および高放電速度を有するためでありうる。一部の場合において、第一のデータ点522は、図5に示されているように、VLIQレベルを超えることがある。これは、シグナルをオンチップキャパシタに結合している二重層のキャパシタンスが原因でありうる。データ点524は、通り抜け事象が発生した後、すなわちタグがナノポアの胴部に押し込まれた後に捕捉されうるもので、そこでは、ナノポアの抵抗、従って積分キャパシタの放電速度は、ナノポアの胴部に押し込まれたタグの特定の種類に依存する。データ点524は、以下に記載するように、CDouble Layer424に蓄積された電荷のために各測定ごとにわずかに減少しうる。
暗期間530の間、対電極に印加された電圧シグナル510(VLIQ)は、作用電極に印加された電圧(VPRE)より高い結果、どのタグもナノポアの胴部から押し出されることになる。スイッチ401が開放されると、測定ノードにおける電圧は、電圧シグナル510(VLIQ)の電圧レベルがVPREより高いため、増加する。電圧データ点が捕捉された後(例えば特定期間の後)、スイッチ401は閉じられ、測定ノードにおける電圧は減少して再度にVPRE戻る。このプロセスは多数の電圧データ点を測定するために繰り返すことができる。このようにして、暗期間中に、ファーストポイントデルタ532およびその後のデータ点534を含め、多数のデータ点が捕捉されうる。上記のように、暗期間中はどのヌクレオチドタグもナノポアから押し出されるので、正規化に使用する以外は、任意のヌクレオチドタグに関して最小限の情報しか得られない。
図5はまた、明期間540の間、対電極に印加された電圧シグナル510(VLIQ)が作用電極に印加された電圧(VPRE)より低くても、通り抜け事象が起こらないこと(開チャンネル)も示している。従って、ナノポアの抵抗は低く、積分キャパシタの放電速度は高い。その結果、第一のデータ点542およびその後のデータ点544を含め、捕捉されたデータ点は低い電圧レベルを示している。
明または暗期間中に測定された電圧は、ナノポアの定抵抗の各測定ごと(例えば、所与のACサイクルの明モード中、1個のタグがナノポアにある間になされる)にほぼ同じであると予想できるが、これは二重層キャパシタ424(CDouble Layer)で電荷が蓄積している場合には、その限りではない。この電荷蓄積は、ナノポアセルの時定数をより長くすることになりうる。その結果、電圧レベルはシフトし、それによって測定値はサイクル中の各データ点ごとに減少することになろう。従って、サイクル内で、データ点は図5に示されているようにデータ点ごとに多少変化しうる。
測定に関する更なる詳細は、例えば、米国特許公開第2016/0178577号、発明の名称「電圧刺激の変動を伴うナノポアベースの配列決定(Nanopore-Based Sequencing With Varying Voltage Stimulus)」、米国特許公開第2016/0178554号、発明の名称「電圧刺激の変動を伴うナノポアベースの配列決定」、米国特許出願第15/085,700号、発明の名称「電気刺激に対する二重層の応答の測定を用いる非破壊的二重層モニタリング(Non-Destructive Bilayer Monitoring Using Measurement Of Bilayer Response To Electrical Stimulus)」、および米国特許出願第15/085,713号、発明の名称「二重層形成の電気的増強(Electrical Enhancement Of Bilayer Formation)」に見出すことができ、これらの開示内容はあらゆる目的のために引用によってそれらの全文を援用する。
4.正規化および塩基呼出
ナノポアセンサーチップの使用可能な各ナノポアについては、核酸の配列決定をするために実動モード(production mode)を実施することができる。配列決定中に捕捉されたADC出力データは、より高い正確性を提供するために正規化することができる。正規化は、サイクル形状、ゲインドリフト、電荷注入オフセット、およびベースラインシフトなどのオフセット効果に対処できる。一部の実施において、通り抜け事象に対応する明期間サイクルのシグナル値は、そのサイクルについて単一のシグナル値(例えば平均)が得られるようにまたはサイクル内減衰(一種のサイクル形状効果)を低減するために測定シグナルに対して調整が行えるように、平坦化することができる。ゲインドリフトは、一般的に、シグナル全体を拡大縮小し、数百から数千秒のオーダーで変化させる。例として、ゲインドリフトは、溶液(ポア抵抗)の変化または二重層キャパシタンスの変化によって誘発されうる。ベースラインシフトは、〜100msの時間スケールで発生し、作用電極における電圧オフセットに関連する。ベースラインシフトは、明期間から暗期間への配列決定セル中の電荷バランスを維持する必要性の結果、通り抜けによる有効整流比の変化によって推進されうる。
正規化後、態様において、通り抜けチャンネルについての電圧のクラスター(群)を決定できる。各クラスターは、異なるタグ種、ひいては異なるヌクレオチドに対応する。クラスターを用いて、所与のヌクレオチドに対応する所与の電圧の確率を決定することができる。別の例としては、クラスターを用いて、異なるヌクレオチド(塩基)間を区別するためのカットオフ電圧を決定することができる。
シグナル測定に基づいて核酸の塩基を決定する例示的方法を以下に提供する。例では説明のために電圧測定を使用しているが、例示的技術は、電流測定などのその他のシグナル測定にも等しく適用できる。
III.配列決定セルの状態
鋳型核酸の配列が所望されるが、配列の特定の塩基は、測定から推測される必要がある。システムの様々な物理的特性が、そのような決定を実施するのを困難にしうる。シグナルの測定(例えばADC層)から鋳型核酸(鋳型層)の配列を決定するプロセスにおいて、様々なデータ層は異なるレベルの推測に対応しうる。様々なデータ層は、鋳型層、酵素層、ポア層、および単一層を含む。様々なデータ層を議論する前に、ヌクレオチドの取込みおよびタグの通り抜けの様々な状態について説明する。
A.合成によるナノポアベースの配列決定
図6に、本発明の態様に従って、タグ付きヌクレオチドを用いる核酸配列決定のためのプロセス600の態様を示す。ステージAは、そのようなタグ付きヌクレオチドを用いてヌクレオチドの配列決定を実施しようとしている配列決定セルを示す。ナノポア601が膜602に形成されている。酵素603(例えばDNAポリメラーゼなどのポリメラーゼ)がナノポアに会合している。一部の場合、ポリメラーゼ603はナノポア601に共有結合されている。ポリメラーゼ603は、配列決定される核酸分子604と会合している。一部の態様において、核酸分子604は円形である。一部の場合、核酸分子604は線形である。一部の態様において、核酸プライマー605は核酸分子604の部分にハイブリダイズされている。ポリメラーゼ603は、1本鎖核酸分子604を鋳型として用いて、プライマー605上へのヌクレオチド606の取込みを触媒する。ヌクレオチド606はタグ種(“タグ”)607を含む。
ステージAでは、タグ付きヌクレオチド(4つの異なる種類:A、T、G、またはCの一つ)はポリメラーゼに会合していない。ステージAは、ヌクレオチドの非結合状態(何のヌクレオチドもポリメラーゼ603または核酸604に結合されていないため)および任意のタグの非通り抜け状態(何のタグもポア601内にないため)に対応している。ステージBでは、タグ付きヌクレオチドがポリメラーゼに会合している。ステージBは、ヌクレオチド606の結合状態、しかしタグ607の非通り抜け状態に対応している。
ステージCでは、ポリメラーゼはナノポアにドッキングし、タグはナノポアに入り込む。タグは、ドッキング中、膜および/またはナノポアに印加された電圧によって生じた電界の存在下で発生した力などの電気的力により、ナノポアに引き込まれる。“通り抜け”タグは、相当程度の時間、例えば0.1ミリ秒〜10,000ミリ秒の間、ナノポアの内部または近傍に位置するおよび/または留まるものでありうる。ステージCは、ヌクレオチドの結合状態およびタグの非通り抜け状態に対応する。
ステージDでは、放出されたタグがナノポアを通過する。会合したタグ付きヌクレオチドの一部は、核酸分子と塩基対を形成しない。これらの不対ヌクレオチドは、典型的には、正しく対合したヌクレオチドがポリメラーゼと会合したままの時間スケールよりも短い時間スケール以内にポリメラーゼによって拒絶される。不対ヌクレオチドはポリメラーゼと一時的に会合するだけなので、図6に示されたプロセス600は、典型的にはステージDより先に進まない。例えば、不対ヌクレオチドは、ステージBまたはプロセスがステージCに入った直後にポリメラーゼによって拒絶される。
様々な態様において、ポリメラーゼがナノポアにドッキングする前、ナノポアのコンダクタンスは〜300ピコジーメンス(300pS)でありうる。他の例として、ステージCでは、ナノポアのコンダクタンスは、4種類のタグ付きヌクレオチドの一つにそれぞれ対応して、約60pS、80pS、100pS、または120pSでありうる。ポリメラーゼは異性化およびリン酸基転移反応を経て、ヌクレオチドを伸長中の核酸分子に取り込み、タグ分子を放出する。特に、タグがナノポアに保持されていると、タグの異なる化学構造のために特有のシグナルが生成し、それによって付加された塩基が電子的に識別される。サイクル(すなわちステージAからE)を繰り返すことにより、核酸分子の配列決定が可能となる。
一部の場合、伸長中の核酸分子に取り込まれないタグ付きヌクレオチドも、図6のステージFに見られるようにナノポアを通過する。ステージFは、非結合ヌクレオチドおよび通り抜けタグに対応する。取り込まれなかったヌクレオチドは、場合によってはナノポアによって検出できるが、態様では、取り込まれたヌクレオチドと取り込まれなかったヌクレオチドは、例えばヌクレオチドがナノポア内で検出される時間に基づいて区別できる。取り込まれなかったヌクレオチドに結合されたタグは、ナノポアを迅速に通過するので、短時間(例えば10ms未満)検出されるが、取り込まれたヌクレオチドに結合されたタグは、ナノポアに入り込むので、長時間(例えば少なくとも10ms)検出される。
B.データ層
図7に、本発明の態様に従って、配列決定セル700および対応データ層の簡略図を示す。鋳型核酸分子704が、膜714内のナノポア701を用いて、酵素703による合成によって配列決定されているところが示されている。図7は、ヌクレオチド706を鋳型核酸分子704に触媒するプロセスにおける酵素703を示している。従って、酵素703は、塩基Tに対応する結合状態にある。タグ707は、ナノポア701に入り込んでいないので、非通り抜け状態にある。ADC735は、非通り抜け状態(図示)および通り抜け状態のナノポア701の抵抗を測定して(例えば電圧または電流の測定により)、タグ707を識別することができる。これによってヌクレオチド706の識別が提供されることにより、鋳型核酸分子704の配列中の1個の塩基が得られる。
シグナル値の測定(例えば、ADC735によって測定される電圧値)はシグナル層に対応する。ナノポア701における様々なタグの通り抜け事象はポア層に対応する。これは測定されたシグナル値を用いて決定できる。通り抜け事象は、シグナル層の測定シグナル値に基づいて特定塩基に対応すると識別できる。ある時間間隔にわたって識別された通り抜け事象を用いて、その時間間隔中にどのヌクレオチドが結合されたかを決定することができる。結合されたと識別されたヌクレオチドを用いて、どのヌクレオチドが実際鋳型核酸分子704に触媒されたかを識別することができる。様々な物理的プロセスは、正確な鋳型層を得るのに困難をもたらしうる。その例を以下に記載する。
1.鋳型層
鋳型核酸分子704の配列は鋳型層の塩基に対応する。鋳型核酸分子704の配列は、鋳型核酸分子704に触媒されたヌクレオチドの触媒状態に対応するはずである。図7に、GAGTTTTATCGCTTCC(配列番号1)の配列例を示す。この配列は、測定シグナル値を用いてコンピュータシステムによって実施された塩基呼出手順の所望出力である。しかし、以下に説明するように、配列は直接測定されるわけではない。従って、鋳型層は隠れ層と見なすことができる。鋳型層は、それが実際の物理的分子に対応しているので、物理的状態の最高レベルの情報と見なすことができ、誤差ゼロと見なすことができる。
2.酵素層
酵素層は、自由流動しているヌクレオチドと酵素703に関連する活性部位との結合事象の配列である。図7に、酵素層の例GAAGTTATATC−CTTCC(配列番号2)を示す。酵素層も直接測定されないので、隠れ層と見なすことができる。
酵素層は、鋳型層の活性部位に対応する相補ヌクレオチドの結合事象で構成されるはずである。しかし、酵素703が適合塩基を見つけ、その後ヌクレオチドが触媒される前に放すことは可能である。ヌクレオチド(例えばA)は、ヌクレオチドが活性部位から解離する前に比較的長時間結合されうる。ヌクレオチドが離れ落ちた後、DNAポリメラーゼは別のヌクレオチドが活性部位に結合されるのを待つ。
一時的結合の間も測定は実施される。ヌクレオチドの一時的結合とヌクレオチドの永久的触媒作用との間の相違を識別することは困難でありうる。従って、同じ種類の別のヌクレオチドが活性部位に最終的に触媒された場合、ただ1個のAがあるだけか、または複数のAが並んでいるのか決定するのは困難でありうる。従って、エラーモードは挿入に関連しうる。図7で、鋳型層に関連して見られるように、赤い塩基は挿入に対応する。これは2位における結合で見られ(塩基Aに対応する)、そこでは、塩基Aを有するヌクレオチドは触媒されず、離れ落ちた。塩基Aを有する別のヌクレオチドは、酵素層の3位に示されているように、結合され最終的に触媒される。
従って、2個のAが二つの連続した位置にあるのか、またはただ1個のAが一つの位置にあるのか決定するのは困難でありうる。ゆえに、単一の結合事象が二つの別個の結合事象として誤呼出されることも、または二つの結合事象が一つの結合事象として誤呼出されることもある。一部の態様において、正確な鋳型層が提供されるように、挿入エラーを識別することができる。
図8に、本発明の態様に従って、パルス、例えば810a〜810cで構成される酵素層800の例を示す。パルス810a〜810cは、短い持続時間を有する複数の通り抜け事象から決定できる。異なるパルスは異なる塩基ごとに異なる高さを有しうる。示されているように、三つの顕著なパルス810a〜810cがある。第一のパルス810aは比較的長いが、パルス810aが一つの結合事象に対応しているかどうかは不明である。その理由の一部は、上記のACモードで動作している場合、一つの連続パルスはないからである。代わりに、図9に示されているような、一連のより短いパルスがある。
3.ポア層
通り抜け事象に対応するポア層は、理想化された酵素−タグ結合事象の下に示されている。図7に、ポア層の例:GGGGGGAAAAAAAAAAAAGGGGGGGTTTTTTTTAAAAAATTATCCCCCCCCCCCC−CCCCTTTCCCCCCCCCCC(配列番号3)を示す。ポア層も直接測定されないので、隠れ層と見なすことができる。
示されているように、同じ塩基の一連の通り抜け事象があり、これは酵素層の一つの結合状態に対応している。“−”で示されているように、通り抜け事象がないACシグナルのサイクルがありうる。ゆえに、情報の内容は、二つの結合事象があるのかまたは一つの長い結合事象なのか、そして両方の結合事象とも触媒作用をもたらし、従って鋳型DNA鎖上の各位置に対応しているのかを決定するのが困難でありうるので、劣化しうる。
酵素層は、ポア層の34〜39の位置に対応する7位にもエラーを示している。そこではAが短時間結合され、触媒されなかった。このエラーの結果、酵素層はTの代わりにAを有することになる。そのようなエラーは、触媒されなかったAが、ただ2個の触媒されたTで、3個の触媒されたTではないと識別される前にTの通り抜け事象が起こることに起因しうる。
4.シグナル層(例えばADC層)
シグナル層は、電圧がADC735によって測定されると示される。これはスイッチが開放された後(例えばスイッチ401)、特定時間の後に行われた電圧測定値に対応する。電圧測定値は、積分キャパシタ408(ncap)における電圧に対応しうる。他のシグナル値も使用できる。
シグナル層は観測層である。これらの電圧測定値から、態様は、そのサンプリング中のポアの抵抗を推測することができる。ただし、ノイズは起こりうるので、それによって隠れデータ層にエラーが生じうる。ADCは、測定される実際のシグナルで、隠れデータ層はそれから推測される。
この例のシグナル層の測定データでは、開チャンネル明モードおよび開チャンネル暗モードに対応する二つのバンドが上部と底部に示されている。明チャンネルにおける窪み(dip)は結合事象に対応する。ポア層におけるそれぞれの通り抜け事象は、シグナル層の別のサイクルに対応しうる(その中で通り抜けシグナルが測定された)。このシグナル層の例は、上記ACシグナルの多数のサイクルに対応する測定値を示している。
C.データ層の再構築
図9に、本発明の態様に従って、通り抜け状態にある図7の配列決定セル700と、ある層のサンプルデータの簡略図を示す。図9は、シグナル層910を観測層として示している。図9は、結合状態にあるヌクレオチド706と、通り抜け状態にあるタグ707を有する配列決定セル700を示している。タグ707のこのような通り抜けは、ナノポア701の抵抗を増大させるので、測定ADC値は低下する。
シグナル層910は、配列決定セル700に印加されたおよそ17サイクルのACシグナルにわたるADC値のクローズアップを示す。あるサイクルについての通り抜けADC値はクラスターとして見ることができ(例えば通り抜けクラスター915)、何の通り抜けも示していないサイクル(例えば非通り抜けクラスター917)とは区別できる。所与のサイクルについての通り抜けクラスターのADC値は、通り抜け事象に対応しうる。従って、一部の態様において、1サイクルあたり最大で一つの通り抜け事象があり得、ADC値の通り抜けクラスターは、酵素層の単一の結合事象930に対応できる。他の態様においては、各シグナル値を塩基呼出手順(例えばHMM)のための観測値として使用することができる。
ADC値は、例えば、米国特許出願第15/632,190号、発明の名称「ナノポア配列決定セルの形成および較正(Formation And Calibration Of Nanopore Sequencing Cells)」(引用によってその全文を援用する)に開示されているように、正規化できる。そのような正規化は、配列決定セルの変化のため(例えば膜714の厚さの変化または配列決定セル700における電荷の蓄積のため)に生じうる測定値の経時的なシフトに対処できる。正規化後、同じタグについての複数サイクルにわたる通り抜け事象のADC値は、ほぼ同じ値を提供するはずである。正規化は、同じ高さを有する通り抜け事象920に見ることができる。通り抜け事象920は、ポアデータ層の再構築を示している、通り抜け事象920は、これらの例表示が1対1の対応を示していなくても、ADC値における通り抜けクラスターを反映している。正規化されたADC値のクラスターは、例えば、異なるタグまたはタグなしの異なるポア状態に対応して分類することができる。そのような分類は、異なる分類(状態)に対して確率を割り当てることができる混合分布モデルを用いて実施できる。
示されているように、明期間911の間に暗期間912があり、通り抜けはその中で起こりうるので、通り抜け事象は一連のより短いパルスを形成する。示されているように、パルスは、通り抜けの開始に異なる遅延が生じる結果、異なる幅を有する。AC波形が暗モードから明モードに切り替わる際、ヌクレオチド706に付けられたタグ707は、直ちにナノポア701に入り込まないかもしれない。ナノポア701の狭窄内には強い電界があるので、タグ707はすぐに引き込まれることができる。しかし、タグはランダムな動きで放散することもあるので、直ちにまたは所与のサイクル中にポア付近のこの強い電界と相互作用しないかもしれない。たとえ明確に定義された通り抜け速度があるとしても、明モードの開始後、通り抜けは必ずしも全く同時に起こるわけではない。ナノポア701の外へのタグの拒絶は、タグが既に電界と相互作用しているので同時に起こる。
図9において、パルスがない一つのスペース925がある。これは、一つのサイクルの明モードで通り抜けが起こらない場合に発生しうる。従って、物理的状態の情報は、二つの結合事象があるのかまたはただ一つの長い結合事象なのかを決定するのが困難となりうるので、劣化しうる。また、両方の結合事象が触媒作用をもたらしたかどうか、従って鋳型核酸704上の各位置に対応しているのかを決定するのも困難となりうる。
一連の通り抜け事象920は、結合事象930を形成するために再構築できる。この再構築プロセスは、どの通り抜けパルスを互いに組み合わせて(すなわち統合して)、酵素層の結合事象を形成するかを決定する。一部の態様において、隠れマルコフモデル(HMM)を用いて、どの通り抜けパルスが特定のヌクレオチドの結合事象に対応するかを決定することができる。次いで、結合事象から、例えば合意形成手順を通じて、鋳型層が再構築できる。
IV.再構築パイプライン
一つまたは複数の隠れ層(例えば、ポア層、酵素層、および鋳型層)を再構築するためのプロセスは、塩基呼出パイプライン(ハードウェアおよび/またはソフトウェアを含みうる)において進めることができる。そのような塩基呼出パイプラインは、コンピュータシステム、例えば図1のナノチップワークステーション120、図2のプロセッサ224、および/または図4のデジタルプロセッサ430を用いて実行できる。
図10は、本発明の態様に従って、鋳型核酸の配列決定中の配列決定セルの物理的状態を再構築するための方法1000を示すフローチャートである。方法1000は、ナノポア、ポリメラーゼ、またはその両方の組合せを用いて、例えば上記のタグを使用して測定されたシグナル値を使用できる。態様は、核酸がナノポアを通過するナノポア配列決定法に適用できる。態様は、例えば、全ヌクレオチドが同時に配列決定セル中に存在する場合に起こりうるような、ヌクレオチド取込みステップ間の明確な分離が存在しない非ナノポア技術と共に使用することもできる。
ブロック1010で、配列決定セルに対して較正チェックが実施される。較正チェックは、配列決定チップ上の配列決定セルのすべてまたは一部に対して実施されうる。配列決定の開始前、配列決定セルの創作中に様々なチェックが実施できる。配列決定セルが創作されたら、所望通りの性能を発揮する配列決定セル(例えばセル中に1個のナノポア)を識別するために更なる較正ステップを実施することができる。そのような較正チェックは、物理的チェック、電圧較正、開チャンネル較正、および単一ナノポアを有するウェルの識別を含みうる。そのような較正の更なる詳細は、米国特許出願第15/632,190号、発明の名称「ナノポア配列決定セルの形成および較正」に記載されている。チップの使用可能なセルが識別されたら、使用可能セルごとに一つずつ、核酸の配列決定をするための実動モードを実行できる。
ブロック1020で、配列決定セルに対して配列決定モードが開始される。配列決定モードは、タグ付きヌクレオチドを配列決定セルに供給することによって開始できる。一部の態様において、電気シグナル値が測定できるようにACまたはDCシグナルなどの電圧が配列決定セルに印加できる。他の態様では、例えば、ヌクレオチドに付けた発蛍光団からの光シグナルを測定してもよい。
ブロック1030で、例えば第一の組のシグナル値として、シグナル値が測定される。シグナル値の例を本明細書に記載する。シグナル値は、ヌクレオチドに付けられたタグのものだけに限定されなくてよい。ACシグナルの各サイクルについて一つまたは複数のシグナル値が測定できる。これらの測定シグナル値は、本明細書中に記載のようにシグナル層に一致する。第一の組のシグナル値は、配列決定セルの4つのセル状態(例えばポア状態)のそれぞれに対する測定値を含み、4つのセル状態は、異なるタグがポアを通り抜ける場合に起こりうるような、核酸の異なるヌクレオチドに対応する。その他のポア状態(例えば、開チャンネル状態、部分通り抜け状態、または非結合通り抜け状態)も使用できる。核酸がナノポアを通過する場合、開チャンネル状態は不要であろう。ナノポアを使用しない態様では、セル状態は、核酸に結合されているヌクレオチドの代理として測定された発光状態または電気的状態に対応されてもよい。
ブロック1040で、シグナル値は任意に正規化されてもよい。正規化は、物理的な配列決定セルにおける揺らぎ(例えば、膜714の物理的構造または電流電荷の分布および配列決定セル)に対処できる結果、同じタグ種の測定値は類似のシグナル値を提供するので、より高い正確性を提供できる。正規化は、サイクル形状、ゲインドリフト、電荷注入オフセット、およびベースラインシフトなどのオフセット効果に対処できる。明期間における正規化シグナル値は、名目上0から1(1よりわずかに大きい値も可能)のスケールに置くことができる。ここで、1は開チャンネルのシグナル値(すなわちポア内にタグがない)に対応し、1未満の値は様々な通り抜け値に対応する。
一部の態様において、すべてのシグナル値は、正規化を実施する前に、配列決定セルについて測定される。他の態様においては、シグナル値の測定中に少なくとも一部の正規化が実施できる。例えば、一定数のシグナル値が測定された後、第一の組の測定値を用いて正規化手順が開始でき、いくつかの新規シグナル値は測定が終了する前に正規化される。
ブロック1050で、シグナル値のセットからヒストグラムが作成される。シグナル値は正規化できるが、配列決定セルの動作が時間を経ても十分に安定であれば、正規化されなくてもよい。ヒストグラムは複数のカウントを記憶するデータ構造を形成しうる。例えば、ADC値(例えば0−255または0−511)が測定される回数をカウントでき、各ADC値はヒストグラムのビンに対応しうる。従って、各カウントは、ビン内のシグナル値の数に対応しうる。別個の離散値のほかに、ビンは値の範囲にも対応しうる。いずれの実施においても、ヒストグラムの各ビンは異なる数値に対応しうる。
図11に、本発明の態様に従って、正規化されたシグナル値のプロット1100と、開チャンネル(OC)値の分率によって測定された、異なる正規化値における測定のヒストグラム1150を示す。プロット1100の縦軸は正規化された電圧を示すが、その電圧は任意の所与の時間(横軸)における開チャンネル電圧の推定値で割ったものである。正規化された電圧はOC分率として表される。他の正規化および非正規化シグナル値も使用できる。電圧値は、所与のサイクルについてのメジアン値または平均値、または個別の値に対応するADC値(例えばADC435によって測定された)でありうる。
ヒストグラム1150は、特定の値を有するシグナル値(この例ではOC分率)の数を示す。示されているように、縦軸はOC分率に対応する(プロット1100と同じ)。立てて見ると、横軸がOC分率値に対応することになる。他方の軸は、特定の数値(例えば範囲または具体的数字)を有する測定シグナル値の数のカウントに対応する。示されているように、最大ピーク(シグナル値の大部分)は1付近にある(OC値に対応する)。他の小さいピークは異なる塩基:A、C、T、またはGに対応する。シグナル値のこれらのクラスターを用いて、例えば混合分布モデルをヒストグラムにフィッティングさせることにより、塩基呼出を決定することができる。ピークがよく分離しているので、置換エラーは低いはずである。
ブロック1060で、出力確率が、ヒストグラムに基づいて特定塩基に対応する正規化(または非正規化)シグナル値に割り当てられる。4つのセル状態の各セル状態について、確率関数は、そのセル状態にあることの確率を異なる数値に割り当てることができる。確率関数は、ヒストグラムのビンに対する複数のカウントを使用して決定できる。様々な種類の確率関数が、例えば、カットオフ値、ヒストグラムのピークに対応するシグナル値、または混合分布モデルに基づいて決定できる。確率関数が決定されたら、特定のセル状態に対応する(例えばCに対応する)、所与の時間に測定された特定のシグナル値の確率が、そのセル状態に対応する確率関数を用いて決定できる。各シグナル値に対して4つの確率が決定できる。各確率関数は1つの確率を提供する。
例えば、シグナル値のクラスターは、例えばヒストグラムのピークとして、ヒストグラムで確認できる。そのクラスターを用いて異なる塩基間を区別するためのカットオフ値を決定することができる。カットオフ値は、クラスターの間にあるように決定でき、例えば、ある範囲の正規化シグナル値をある塩基に割り当てることを可能にする。そのような例では、塩基(例えばA)が0.5〜0.6の正規化シグナル値に対応するとすれば、その範囲内に入る正規化シグナル値に100%の確率が割り当てられる。他の態様では、所与の塩基に対して中央値が決定でき(例えば、カットオフ値によって設定された範囲の中央)、塩基に対応するシグナル値の確率は、シグナル値が中央値から遠く離れるほど低下する。
一部の態様において、正規化シグナル値から混合分布モデルを決定することができる。混合分布モデルは、異なる塩基に対する4つの確率(混合)関数と、おそらくは開チャンネルに対する1つの確率関数(実施に開チャンネルが関与する場合)を有しうる。所与のセル状態(塩基)に対する関数は、ヒストグラムのピーク(例えば、最も一般的なシグナル値またはクラスターの重心にあるピーク)に適合する分布を形成できる。様々な態様において、各関数は別個のピークに独立に適合させることも(例えば別個最適化手順)または関数は集合的最適化手順の一部として集合的に適合させることもできる。
混合分布関数は様々な形態のものでありうる。例えばガウス分布:
[式中、αはそのピークにおける関数の高さであり、μはピークの中心(例えばシグナル値のクラスターの重心、平均、メジアン、またはモードまたはその塩基についての予測値)であり、cは標準偏差である]。別の例は、ラプラス関数:
[式中、μはガウスの場合と同じである]を用いるラプラス混合分布モデルである。各関数下面積は1に制約できる。指数関数的に減衰する関数を有する様々な関数が使用できる。混合分布関数の高さ、位置、または幅について更に多くのパラメーターを有する更に複雑な関数も使用することができる。
混合分布関数のパラメーター(例えば幅)は、基礎となるヒストグラムのシグナル値を最も良く近似するために、混合分布関数の最適パラメーターを識別するフィッティング(最適化)手順の一部として決定することができる。様々な実施において、期待値最大化手順、モーメントマッチング、スペクトル法、またはマルコフ連鎖モンテカルロが、混合分布関数のヒストグラムへのフィッティングを最適化するために使用することができる。
ナノポアを用いる態様において、確率の割り当ては、ポア層を決定するための機構を提供でき、各ポア状態(4つの通り抜け状態および1つの非通り抜け状態)の確率は混合分布関数を用いて決定される。一部の実施において、混合分布モデルが各配列決定セルの測定シグナル値に適用できる。他の実施においては、シグナル値が同じチップのセル全体、またはチップごとに安定していることもある。そうすると、同じ混合分布モデルがチップのセル全体またはチップ全体に使用できる。混合分布モデルが特定の配列決定セルに対して決定される態様においては、初期の混合分布モデルは、他のセルまたは他のチップで行われた測定に基づいて決定できる。この初期混合分布モデルは、その後、最適化によってより良好な初期推定値が得られるように、最適化(フィッティング)手順の一部として更新することができる。
ブロック1070で、ヌクレオチド状態(例えば、ポリメラーゼが使用される場合、結合状態)が、割り当てられた確率を用いて隠れマルコフモデル(HMM)で決定される。割り当てられた確率は、HMMの出力値として使用できる。混合分布モデルの各混合関数(分布)は、HMMの隠れ結合状態に対応しうるので、それによって酵素層の結合状態が提供される。合成が使用されない態様の場合(例えば核酸がナノポアを通って移動する)、ヌクレオチド状態は結合状態に対応しないであろう。塩基呼出は、ポア状態と酵素状態の1対1対応がある場合、確率関数のみ(例えば最も高い確率を有するものを取って)から生成できるが、HMMは高い正確性を提供することができる。
図12に、本発明の態様に従って、5つの状態を含むHMMの例を示す。示されているように、状態0は結合タグなしに対応する。状態1は、酵素と核酸の間の活性部位に結合された塩基“A”に対応する。状態2は活性部位に結合された塩基“C”に対応する。状態3は活性部位の塩基“T”に対応する。状態4は活性部位の塩基“G”に対応する。配列決定セル1200は状態0で示されている。5つの状態が示されているが、より多くの状態(例えば非結合であるが通り抜け状態に対応する)を使用することもできる。
状態を示す測定観測量(すなわちシグナル値)の確率は、円内の値によって表される。例えば、Aが結合している場合の測定シグナルは、ポア内の結合Aタグ(PAによって表されている)のほか、任意の非結合(遊離)タグ(A+C+T+Gによって表されている)の測定値を含みうる。他の状態についても同様の構成が示されている。状態0の場合、Pはポア内にタグが検出されない確率を表している。
状態0と他の結合状態と間の時間経過の遷移速度は、状態0と対応する状態間の矢印で示されている。Kon_A=活性部位に入るヌクレオチド(タグ)Aの結合速度。活性部位からのヌクレオチド放出速度は、Krelease_A =Kcat_A + Koff_Aで、“触媒作用”速度(鋳型核酸上にとどまるヌクレオチド)と“オフ”速度(活性部位から離れ落ちるヌクレオチド)の合計である。遷移速度は様々な方法で決定(推定)できる。遷移速度は、例えば、同じポアの種類、タグの種類、および電解質溶液を用いて、実験ごとに安定していることが多い。
塩基呼出手順は、一つまたは複数のセルの測定から実施できる。塩基呼出の決定後、状態の順序対(ordered pair)間の遷移の時間および頻度を用いて遷移速度を決定することができる。一実施において、遷移速度は、経時的な指数関数的減衰を定義するので、異なる時間で観測された遷移の頻度から決定できる。他の態様において、例えば、既知ゲノムのサンプル(例えば細菌)を配列決定し、出力を既知ゲノムと比較することによって、遷移行列(transition matrix)の様々な値を探し、最適な値の組を見つけることができる。一部の態様において、遷移行列は、所与の配列決定セルについて、おそらくは経時的に、例えば確率関数を経時的に更新するのと同様に更新することができる。これについては以下でさらに詳細に説明する。
これらの遷移速度(例えば、遷移行列のペアワイズ遷移確率を提供する)を、割り当てられた確率(例えば出力確率)と組み合わせて使用すれば、最も可能性のある結合状態の系列を経時的な道筋として決定することができる。HMMは、ランダムではあるが、特定の統計的分布に従って挙動する確率プロセスをモデル化するためのフレームワークを提供できる。均一および/または不均一HMMは、塩基呼出プロセスの様々な部分に対して使用することができる。HMMの運用に関する更なる詳細は後述する。
ブロック1080で、鋳型核酸の塩基がヌクレオチド状態から決定される。例えば、問題のサンプルからの核酸がチップ上で配列決定でき、ヌクレオチド状態の予備配列が互いに比較され、一致した塩基を決定することができる。そのようなプロセスは、例えばデ・ノボ・アセンブリ(de novo assembly)および/または参照ゲノムとの比較による予備配列のアセンブリを含みうる。一部の実施において、単一の予備配列の参照ゲノムとの比較は、それ自体、鋳型層の塩基の最終配列の決定の一部として使用することができる。塩基の配列を得るためにヌクレオチド状態に対する補正の確認において、様々なその他の技術(例えば発見的問題解決(heuristics))も使用することができる。
ブロック1090で、鋳型核酸の配列が提供される。例として、配列は、ユーザーに表示できる、後で閲覧するためにデータベースに保存できる、または更なる処理のために他のモジュールに提供できる。例えば、チップ上の核酸の全部または一部の配列(例えば同じサンプル由来)を分析して、コピー数の変動、一つまたは複数の参照ゲノムと比較した配列の変動(例えば、一塩基多型、体細胞突然変異、新規突然変異など)、転座などの変動を検出することができる。
V.隠れマルコフモデル(HMM)の実施
様々な態様において、一つまたは複数のHMMをパイプラインの様々な時点で使用することができる。例えば、HMMの隠れ配列は、経時的な結合状態(事象)の配列でありうる。この隠れ配列の決定は、ACモードの使用によってさらに困難になりうる。DCモードでは、結合事象があるたびに、タグは多少の遅れの後通り抜ける。一連のパルスがあり、それぞれ結合事象に対応し、連続的な結合事象が異なる塩基に対するものである場合、おそらく異なるシグナルレベルを有する。しかし、ACモードが使用されると、そのようなパルスは、例えばACシグナルの明期間のようなより小さい観測に分断されてしまう。
結合事象の決定は、以下の例に示されているように、さらに複雑でありうる。ナノポアは、Aがポリメラーゼの活性部位に結合されている状態にあり、対応するタグが2回並んで通り抜けると、2回の短いAパルスが見られる。次に、通り抜けではなく次のAC明期間の時に、Aタグが通り抜け事象に失敗すると、先の通り抜けサイクルと後の通り抜けサイクルとの間にギャップが生じる。2組の通り抜けサイクル(間にギャップあり)が単一のAに対応しているのかまたは2個のAに対応しているのか決定することは困難でありうる。非通り抜け明期間の間、その最中にポアに捕捉されたGの遊離タグ(付着Gは結合されていない)が存在することも可能である。このように、複数のタグの種類が単一の結合事象に混在することもありうる。HMMを用いる態様は、そのような問題に対処するために使用できる。
A.HMMの時系列
図13に、隠れマルコフモデル(HMM)を用いて隠れ状態を決定するための時間トレース1300を示す。この例では、隠れ状態は、ポリメラーゼ(結合)状態またはポア(通り抜け)状態に対応しうる。トレース1300は、いくつかの離散した時間ステップ1310(例えば、タイムスタンプまたは時間インデックスによって識別される)を含む。例として、各時間ステップは、異なる測定シグナル値(すなわち連続した測定シグナルは同じ明期間からのものでありうる)に対応しうるか、またはACサイクル(例えば明期間あたり1点、これは通り抜け事象に対応すると識別されたシグナル値から決定できる)に対応しうる。様々な実施において、単一の値は、所与の明期間の通り抜けシグナル値の平均またはメジアンとして決定できる。明期間の通り抜けシグナル値は、開チャンネルと通り抜けチャンネル間を区別するカットオフ値(重み付きのハードカットオフまたはソフトカットオフ)に基づいて、非通り抜けシグナル(例えば、通り抜けが即時でない場合の明期間の開始時に起こりうるような)から区別することができる。
変数Sは、隠れ状態1320、例えば、隠れ状態が結合状態の場合、1つの非結合状態と異なる塩基に対する4つの結合状態、または隠れ状態がポア状態の場合、1つの開チャンネル状態と4つの通り抜け状態を含む5つの状態に対応する。変数Yは、観測1330、例えば電圧または電流によって測定できるようなポア抵抗値に対応する。
これらの特定の時間ステップにおいて、システムは任意の時点において、これら5つの状態の一つにある。隠れ状態は、例えば、塩基がポリメラーゼの活性部位に結合されているのかまたはタグがポアを通り抜けているのかどうか、決して実際に直接観測されない。これらの観測は、システムがあるその状態に依存するが、観測値とシステムの状態との間には必ずしも1対1の対応はしていない。単一のシグナル値は、特定の結合状態に直接対応するとは限らない(例えば、ACモードが使用されている場合、結合状態が開チャンネル値および通り抜け値を含みうるように、または非結合タグがポアに入るように)。状態のそのような時系列は、特定の状態に対応する時間ステップにおける観測値の出力確率と、時間tにおける状態から時間t+1における状態への遷移確率に基づいて決定できる。将来の状態の確率は、現在の状態のみに依存し、それより前の状態には依存しないので、プロセスを無記憶にすることができる。
様々な態様において、複数の隠れ層(例えば上記のデータ層)がありうるが、これらは別のHMMによって別個に決定されてもまたは1つのHMMによる決定のために一つの隠れ層に凝縮されてもよい。複数の隠れ層が関与する一例において、一つのHMMが経時的な隠れポア状態を決定するために使用でき、HMMは結合状態を決定するための観測値としてポア状態を使用できる。別の例として、第一のHMM(または他のフィルタリング手順)は、測定シグナル値を用いて結合状態と非結合状態間を区別でき、第二のHMMは、結合状態に対応する時間間隔中に得られた測定シグナル値を用いて、どの塩基が異なる時間に結合されたかを決定できる。フィルタリング手順は探索スペースを削減できるので、HMMだけが4つの結合状態間を区別するために必要である。そのようなフィルタリング手順は後のセクションでさらに詳細に説明する。
B.状態の定義
HMMプロセスの最初の部分で、可能性ある様々な状態について記載している。前述のように、一部の態様において、4種類の塩基に対する4つの結合状態(おそらくは1つの集合的結合状態に対応する)と1つの非結合状態に対応する5つの酵素状態がある。ポア状態に対しては様々な状態が定義できる。例えば、フィルタリング手順を用いて結合状態および非結合状態に対応する時間を識別する場合、通り抜けおよび非通り抜け(開チャンネル)の2つの状態が定義できる。この場合、二つの確率関数が決定できる(例えば混合分布モデルについて)。一つは通り抜け確率関数であり、一つは非通り抜け確率関数である。通り抜け状態を異なるタグごとに4つの通り抜け状態に分ける場合、5つのポア状態が定義できる。
一部の態様において、ポリメラーゼ状態およびポア状態は一つのHMMを用いて決定できるので、より多くの隠れ状態が一つの隠れ層に存在しうる。例えば、非結合ヌクレオチドに付けられたタグ(非結合タグと呼ばれる)は、ナノポアを通過できるので、結合されていないタグの種類、例えば非結合Gタグに特有のシグナルを発生する。状態の組合せ、例えばAタグは結合されているが通り抜けておらず非結合Gタグが通り抜けているという状態もありうる。
そのような組合せ状態は、システム状態と呼ぶことができる。システム状態は、結合ヌクレオチドなしおよび通り抜けタグなし、結合ヌクレオチドなしおよび通り抜け遊離タグあり、結合ヌクレオチドなしおよび通り抜けタグなしであるがバックグラウンド構造あり(例えば、ポリメラーゼ構造がポアの近くにあってポア抵抗を変化させている)を含みうる。従って、6つの可能なポア状態に対応する非結合ポリメラーゼについて6つのシステム状態がありうる。すなわち、非通り抜け、通り抜けた異なるタグについて4つ、およびバックグラウンドに対して1つである。結合ポリメラーゼ状態のそれぞれは、6つのシステム状態に対応できるので、そのような例においては30のシステム状態が提供される。実際のポリメラーゼ状態は、ポリメラーゼ状態を得るために決定されたシステム状態から抽出することができる。
可能性ある他の状態は、部分結合状態を含む。これは、ナノポアを部分的に通り抜けている特定タグに対応する。これらの部分結合状態は、部分積分状態と呼ぶこともできる。なぜならば、ADC(例えばADC435)前のキャパシタ(例えばキャパシタ408)における蓄積電荷の量が、タグが測定サイクルのごく一部の間しかポア内になかったので、想定される量の一部に過ぎないからである。例えば、ポア/タグの組合せは、タグが全時間ポア内にある場合、一定の抵抗を有することになる。タグが積分時間(例えば、スイッチ401の開放と、ADC435による測定の間)を通じて途中までしか通り抜けなかった場合、異なる量の電荷が蓄積することになる結果、ポア/タグの組合せの抵抗について異なる測定値が得られる。このような部分積分状態は、いつ通り抜けが起こるかに依存しうる。そのような部分状態は、電流または光強度などのその他のシグナルを測定する態様についても定義できる。
そのような多数のシステム状態は、CPU時間および記憶装置に関して計算コストが高くつくことになりかねない。というのも、計算要件は状態数の2乗に比例して拡大するからである。一部の態様では、問題をポア状態に分解し(例えば混合分布モデルを用いる)、次いでポリメラーゼ状態に対してHMMを使用することによって、そのような計算量を低減することができる。前述のように、態様は、二つのHMM、すなわち結合状態を非結合状態から識別する第一のHMMと、結合状態についての異なる塩基間を差別化する第二のHMMを使用することにより、増大した計算効率をさらに提供する。
C.遷移確率
状態が定義されたら、状態間の遷移確率が決定できる。そのようなペアワイズ遷移確率は遷移行列を形成する。遷移行列は正方行列である。従って、30の状態があると、遷移行列は30×30の行列となる。遷移行列は、これらの状態間の遷移の統計知識に基づいて、一つの状態から次の状態へ移動する配列決定セルの経時的な確率を記述する。
行列内の値は物理的測定値から決定できる。一つの測定値は通り抜け速度である。一部の態様において、新規データがあると、他のパラメーターに依存しないパラメーター(例えば遷移または出力確率)は、観測を通じて直接フィットさせることができる。次に、そのような今較正されたパラメーターを、遷移確率を決定するためのより複雑なモデルに入力することができる。別のパラメーターは、結合事象の擬似持続時間(suspected duration)で、これは対応する遷移確率に影響する。一部の実施において、持続時間は新しいデータセットごとにリセットされない。推定関数(estimator function)はより正確になり、新しい測定を実施することができる。一部の態様は、推定と再推定のループが多くの実験にわたって行われるサイクルを有しうる。HMM中の各パラメーターは多少異なって処理することができる。一部のパラメーターは較正に長時間を要しうるが、他のパラメーターはより安定でありうる。
図14Aに、ペアワイズ遷移確率の遷移行列の例を示す。5つの状態が示されており、例えば1つの非結合状態および4種類の塩基に対する4つの結合状態に対応している。行は開始状態に対応し、列は終了状態に対応している。任意の所与の行の合計は1である。遷移確率は、図12に描かれた状態図を反映している。ブランクの行列要素は0である。ゼロであるかまたは極端に低い遷移は、特定の遷移をするための確率がなしであるかまたは非常に小さい確率であることを表す。
対角要素が最も高い。セルがS1の状態にある場合、セルは次のサイクルでS1にとどまる可能性が最も高い。従って、遷移行列の対角値は1に近くなりうる。例えば、所与の明期間における現在のポリメラーゼ状態がAが結合されていることであれば、次の明期間も結合されたAを有する可能性が高い(例えば、Aの対応タグが再度通り抜ける)。一般に、ポリメラーゼがどのような状態でも、状態は観測時間より長く続くので、次の状態も同じである可能性が最も高い。遷移行列の非対角項は、一つの状態から別の状態への遷移を提供する。様々な状態(例えば本明細書中に記載のような)のいずれも遷移行列に含めることができる。
追加の状態の中には、他の状態のあるサブセットからしか到達し得ないものもある。そのような制限は遷移行列にコード化できる。例えば、システムは、状態S3に到達する前に、状態S0(非結合)からS1にしか到達できない。従って、S0は、二つの他の状態の間にあるので、その経路における遷移状態と見なすことができる。そのような制限および遷移は、システムに関するある種の物理的性質を知ることができるので、重要な情報を提供できる。一部の態様において、二つの結合状態間の遷移はゼロでない確率を有しうる。図14Bに、結合状態間のゼロでない確率を有するペアワイズ遷移確率の遷移行列の例を示す。
D.出力確率
出力テーブルまたは関数は、所与の状態についての観測パラメーターに関する情報を提供する。例えば、各状態は、一般的に、観測パラメーター、例えばナノポアにある特定のタグに関連する電圧または電流について、特定範囲の値を有しうる。
1.テーブル
図15Aに、各5つの状態について異なる範囲にある観測パラメーターの確率を含む出力テーブルの例を示す。行は5つの状態S0〜S4に対応する。例えば、1つの非結合状態および4つの結合状態に対応している。列Y0〜Y4は異なる範囲のシグナル値(例えば正規化されたシグナル値について)に対応する。例えば、Y0は(>0.9)に対応し;Y1は(0.9−0.67)に対応し;Y2は(0.45−0.67)に対応し;Y3は(0.23−0.45)に対応し;そしてY4は(0.0−0.23)に対応する。5つの範囲が示されているが、追加の範囲も使用できる。範囲は、所与の状態にある確率がゼロで無視される範囲間の値と重なり合わない。
所与の範囲(例えばY2)内のシグナルに関する任意の数値は、出力テーブルの所与の列に対応する。この列は、その範囲内で測定されたシグナルについて5つの状態のそれぞれにある確率を提供する。S1の場合、Y1を観測する可能性が最も高いが、他の範囲からの値を観測することも不可能ではない。従って、範囲内の各数値に別の確率を割り当てる代わりに、そのシグナル値に割り当てられている一つの確率に対するハードカットオフがある。シグナル値をこのように離散化すると一定量の情報が失われうるが、テーブルの使用はより効率的であろう。
バウム・ウェルチアルゴリズムを用いると、遷移行列および出力行列を決定できるほか、解くこともできる。しかしながら、そのような技術は計算コストが高い。代わりに、態様では確率関数を使用することができる。
2.出力確率関数
出力関数(例えば確率密度関数、PDF)は、同じ範囲内の観測パラメーターのすべての値を同じ発生確率を有するとして扱うのとは対照的に、連続関数として確率を提供できる。PDFは、観測パラメーターの所与の値についてそれぞれの状態にある確率を提供することができる。
図15Bに、本発明に態様に従って、5つの状態(S0〜S4)のそれぞれについて、出力確率関数の例を示す。各関数の縦軸は確率であり、横軸は観測パラメーターの値(シグナル値)である。例えば、横軸は、図11のOC分率であり得る。横軸は左側の約1から始まり、右側に向かって0まで伸びている。
図11と一致して、開チャンネル状態は1.0に近いシグナル値を有する可能性が最も高い。異なるタグのポア状態のそれぞれは、異なる数値にピークを有している。一部の態様において、通り抜けポア状態のそれぞれは、例えば部分通り抜けまたは緩徐な通り抜けのために、開チャンネル値の近くにゼロでないある確率を有しうる。それによって、明期間に開チャンネルの測定値を含ませている。
3.ヒストグラムを用いる確率関数の決定
一部の態様において、ピークおよび/または谷の検出技術を実施すれば、ピークの位置を決定することができる。例えば、Daviesの谷検出法が、例えば、谷が負の方向でピークに変換でき、逆さ谷(inverted valley)の間の分離をピークと識別できる場合、使用できる。当業者には分かる通り、様々なピークおよび/または谷検出技術が使用できる。ヒストグラムは、例えばカーネル密度推定(KDE)を用いてビニングアーチファクト(binning artifacts)を平滑化することができるので、ピーク検出をより容易に実施することが可能となる。
一部の実施において、ピーク検出は、有利なことに、データ形状、ピーク数などに関する仮定を持たなくてよい。そのような仮定がなければ、所与の実行について所与の配列決定セルのすべてのシグナル値が必要になりうる。すべてのデータを要求することはオフラインと呼ばれ、スループットを遅らせうる。ピーク検出は、十分に形成されていないかまたは非常にまばらなデータに対してよく機能しうる。そのような検出は、存在するはずのピークの数(例えば5つのポア状態に対応する5つのピーク)を特定することによって支援することができる。従って、5つの最高ピークの位置を使用して、出力確率関数を決定することができる。
確率関数は、ピークの位置に基づいて決定することができる。例えば、同じ幅を有する同じ確率関数は各ピークを中心にすることができる。別の例として、各確率関数は、ピーク付近のデータだけに独立にフィットさせることができるので、各ポア状態に対する確率関数の幅(例えば半値幅)の決定が可能となる。
更なる実施において、特定数の確率関数はヒストグラム(または平滑化ヒストグラム)にフィットさせることができる。確率関数は混合分布モデルの一部であり得、各確率関数は混合要素で、それぞれは異なるポア状態に対応している。従って、すべての異なる確率関数は、混合分布モデルの異なる要素から来ているとして扱うことができる。一態様において、ラプラス混合分布モデルが使用され、より多くのシグナル値が得られるとオンラインで更新できる。混合分布モデル(または他のPDF)のパラメーターの初期値は、同様のポアおよびタグを用いる他の配列決定セルの測定値に基づいて決定することができる。このようにして最適化手順は確率関数をより効率的にフィットさせることができる。そのようなパラメーターは、PDFのピークの位置およびPDFの幅を含みうる。
図16に、本発明の態様に従って、4つのポア状態についての確率関数(PDF)の例を示す。各ポア状態は出力関数を有し、それぞれ異なるOC分率値(正規化されたシグナル値の例である)にピークを有する。分かるように、確率関数はヒストグラムにフィットし、確率関数の高さはヒストグラムのピークに対応し、確率関数の幅はピーク付近のビンカウントの広がりに対応している。
PDF1610は状態1に対応している。OC分率が約0.3の場合、ナノポアは状態1にある可能性が最も高い。同様に、OC分率〜0.55は状態2の可能性が最も高いことを示唆する等々である。出力PDFはオーバーラップして、異なる結合タグ(状態)間の何らかのクロストークに至ることがあるかもしれないが、ピークは一般的に分離している。
従って、所与のシグナル値について、各状態のPDFを使用すれば、その所与のシグナル値がその状態にある確率を提供することができる。シグナル値がPDFのピークにあれば、対応する状態は高い確率を有することになる。PDFがシグナル値をカバーするテールを有する場合、確率は小さくなるが、それでも有限である。従って、測定されたシグナルを使用してすべての状態の確率をPDFに基づいて決定することができる。
一部の態様において、異なる確率関数が異なる時間間隔に対して決定できる。シグナル値のピークは時間経過と共にドリフトしうる。従って、異なるセットの確率関数を使用すれば、異なる時間ステップにおける出力確率を決定することができる。
E.復号 − 隠れ状態の最適配列の決定
状態が定義され、遷移確率および出力確率関数が決定されたら、隠れ状態を復号して鋳型核酸に結合された塩基を決定することができる。一部の態様において、遷移確率および出力確率関数は、隠れ状態が復号される前に、所与のセルについて配列決定の実行全体にわたって完全に決定されうる。
複数の復号が異なる観測パラメーターと共に使用できる。例えば、一つのモデルでは各シグナル値が使用され、別のモデルではACサイクルの所与の明期間についての単一の統計(要約)値が使用される。要約値を使用すればより速く実行できるが、個別のADC値を使用すれば、例えば上記のようなより多くの様々な状態など、状態におけるより多くの記述が可能になる。
1.観測テーブル
PDFおよび各時間ステップにおける測定シグナル値を用いて、観測テーブルが作成できる。各時間ステップについて、測定シグナル値を用いて各状態(例えば酵素状態)の確率を決定することができる。
図17Aに、本発明の態様に従って、5つの時間ステップにおける4つの状態についての観測テーブルを示す。4つの状態はS1〜S4であり、5つの時間ステップはT1〜T5である。より多くの状態およびより多くの時間ステップが使用できる。観測テーブル中の値は、各時間ステップにおける測定シグナル値に基づいて決定された、各状態の異なる確率に対応している。
例として、観測1の場合(すなわち時間ステップT1)、シグナル値を用いて各状態に対する対応確率(P11、P21、P31、およびP41)をそれぞれのPDFに基づいて決定することができる。同じことが、それぞれ異なる時間ステップに対応している各測定シグナル値について実施できる。時間ステップの数は、セル中の所与の核酸の測定の一部またはすべてでありうる。例えば、測定のあるセグメントはチャンク(ひとかたまり)として一緒に復号でき、核酸の別の部分の測定の別のセグメントは異なるチャンクとして復号できる。
図16の例において、ポア状態と酵素状態の1対1対応があるので、確率関数と酵素状態も1対1対応がある。他の実施において、酵素状態より多いポア状態があることもある。例えば、非結合タグまたはバックグラウンド構造を含むポア状態である。この場合、それより多い確率関数が所与の酵素状態に対応しうる。従って、所与の時間ステップにおける所与の状態の確率(例えばP11)は、複数の確率関数から決定される確率値の合計として決定できる。例えば、非結合酵素状態は、ポアを通り抜ける非結合タグに対応する確率関数からの寄与を有しうる。酵素状態とポア状態を組み合わせたシステム状態を使用する他の態様では、非結合タグを有する状態が使用できるが、確率関数は一つのシステム状態に対応する。
一部の態様において、観測テーブルは出力テーブルから作成できる(例えば観測されたパラメーターの離散レベルが使用されている場合)。観測テーブルが作成されたら、連続および離散HMMは同じように処理できる。
2.トレリス線図を通る最適経路
遷移行列および観測テーブルを使用してトレリス線図(グラフ)を作成することができ、トレリスを通る最適経路は結合事象を提供する。トレリス線図を通る最適経路は、システムは無記憶であるというマルコフ性に基づいて決定できる。どの時点でも、その時間の状態を決定する際、前の列だけが考慮されうる。それより前の列は考慮されない。トレリス線図では、一つの時間ステップにおけるヌクレオチド状態は、ペアワイズ遷移確率に従って、次の時間ステップにおけるヌクレオチド状態に結びつけることができる。
図17Bに、本発明の態様に従って、4つの状態と5つの時間ステップのトレリス線図の例を示す。4つの状態S1〜S4のそれぞれが数字1〜4の2進値によって表されて示されている。列は、観測テーブルにおけるのと同様、時間ステップに対応している。赤い矢印は最適経路に対応している。最適であることにより、経路は、一つの時間ステップから別の時間ステップへの各遷移の最も高い確率を有しうる。トレリス線図の第一の列は、初期条件を特定するための時間=0における状態の確率P(S)と言うことができる。確率P(St+1|S)は、例えば図14Aの遷移行列に特定されているような遷移動力学を特定する。確率P(Y|S)は、出力確率関数によって定義されているようなセンサーモデルを特定する。
矢印1705のそれぞれは、観測テーブルおよび遷移行列からの対応値を組み合わせることによって決定された関連値を有する。例えば、遷移1710の尤度は、(S1,S1)に対応する遷移行列要素およびP12の値に基づいて決定できる。従って、状態がT1においてS1(すなわち00)と仮定すると、遷移1710の尤度は、遷移行列要素およびPDF確率に基づいて決定できる。これらの尤度は、最適経路を決定するために復号(例えばビタビ復号)によって使用できる。
トレリス線図決定の一部として、システムが単一時点ごとにいずれかの状態にあった尤度を決定することができる。尤度は、特定の遷移が許可されているかおよびまたは可能性が高いかどうかということ、および実際の測定シグナル値(これは、システムが観測テーブルで決定される所与の状態にあった確率を提供するために使用される)に依存しうる。一態様において、遷移の尤度は、遷移行列からの対応値と観測テーブルからの対応値をかけることによって決定できる。計算は対数空間で実施できる。
T1における状態は、何も結合されていない状態0と仮定できることが多い。次に、T2への最適経路を決定する一部として、S0からS1への遷移は不可能であるかまたは確率が低いことが分かる。そこで、次のベストの推測は、S0からS2への遷移でありうる。これは可能であり高い遷移速度を有しうる。T2においてS1にある観測確率は状態2にあるより高いであろうが、遷移確率の差がS2の選択につながる。
トレリス線図を通る前進パス(forward pass)は、システムが任意の時点で任意の状態にある尤度を決定するために実施できる。一つの態様では、時点ごとに最大確率を取ることができる。さらに、フォワード・バックワード・アルゴリズムの一部として、同じ経路が得られるかを決定するためにトレースバック(trace back)を実施することもできる。最適経路の決定において、一部の態様では次の状態を決定するために現在の状態だけが使用できる。
各時間ステップにおいて、結果の状態は、結合状態だけが使用される場合、結合事象に対応しうる。他の状態が使用される場合(例えば、部分結合状態および非結合状態)、トレリス線図を検索して結合状態を抽出できる。一部の態様において、二つの非結合状態間に複数の結合状態が存在する場合、それらの結合状態をさらに解析して、複数の塩基が実際に存在しているかどうかまたはそれらが単一ヌクレオチドの取込みに対応しているかどうかを決定することができる。
非結合状態が存在する場合、更なる情報も決定できる。例えば、通り抜け時間が決定できる。これは、状態が結合および非通り抜け(例えば開チャンネル状態)から結合および通り抜けに進んだ場合を解析することによって実施できる。トレリス上の結果を見ることにより、それらの場合すべての通り抜け時間が決定できる。あるいは、塩基呼出を決定するために、所与の時間に何が結合されているかのみを決定することもできる。
一部の態様において、トレリス上の最適経路は、どの状態がシステムに対して定義されているかに応じて、ポアデータ層および酵素データ層(結合事象)を提供できる。層の異なる組合せおよび異なる組合せに由来するすべての状態は、システム状態、すなわち酵素層状態およびポア層状態の組合せと呼ぶことができる。システム状態は、それら二つの層のすべての組合せを記述でき、そのどちらも、そのように定義された場合、一つのトレリスから読み出すことができる。
F.塩基呼出の決定
塩基呼出を決定するための一態様において、すべての結合事象を塩基呼出と見なすことができる。そのような手順は、配列決定セルがつっかえず(stutter)、例えば、ヌクレオチドは取り込まれたが触媒されず、同じ種類の新しいヌクレオチドが取り込まれて、後で触媒されれば、正確でありうる。例えば、結合事象があるたびに、触媒される前に離れ落ちる機会が50%あると仮定する。結合事象のリストが分析できれば、塩基呼出の数を減らすことができる。例えば、同じ塩基について二つ以上の連続結合事象があるたびに、その数は半分にすることができる。二つ以上の場合とは対照的に、ヌクレオチドについて時には一つの結合事象しか並んでいないことに対処するために修正を行うことができる。
一部の実施において、時間的に隣接しているが非結合状態によって分離されている二つの結合状態(同じ塩基に対応する)を統合するかどうかを決断する場合、ヌクレオチドが全時間結合されている場合に通り抜け事象を失敗する可能性がどのくらいであるかを決定することができる。これは、時間的に互いに非常に近接した同じ状態に対して二つの結合状態を二つが見出す可能性がどのくらいあるかということとバランスを取ることができる。配列決定セルの運転において、結合事象間の待機時間は、タグ付きヌクレオチドを希釈して、結合事象間に多くの待機時間があるように十分に大きく設計することができる。しかしながら、結合事象間が長くなるほど、スループットはそれだけ遅くなる。
VI.品質スコア
一部の態様において、塩基の品質スコアが提供できる。品質スコアは、単一分子観測に固有の確率的挙動を反映したものでありうる。塩基呼出の品質は時間または読み出し長さに伴って劣化することはないであろうが、所与の鋳型核酸上の異なる時点でランダムになされる異なる塩基呼出については異なる品質スコアがあるかもしれない。塩基呼出の品質スコアが高いほど、塩基呼出が正しいことの信頼度が大きいことを示しうる。例えば、PDFのピークに近いシグナル値は、PDFのピークから遠いシグナル値よりも、高い品質スコアを有する塩基呼出をもたらすことができる。ベースコーラー(basecaller)(例えばHMMを使用する)の出力の一つは、そのような品質スコアでありうる。
一部の態様において、品質スコアは以下のように計算できる。
P(obs|state)は確率関数から決定でき、そして
P(state)は遷移確率から決定できる。
品質スコアQは、酵素状態が4種類の塩基間で正しく呼び出された可能性がどのくらいであるかということと、該当する場合非結合状態の可能性についての尺度を提供する。Q値は特定の範囲内に特定することができ、例えばQ値が高いほど、より大きい正確性の信頼度を提供する。一部の側面において、Qスコアの成分は、例えば、一つの結合事象を小さいパルスに分割するACモードに起因する、同じシグナルレベルの結合事象またはポア事象の統合における信頼度を含みうる。
HMMを用いる品質スコアの決定の一例として、隠れたスペースを通る異なる準最適経路がある(例えばトレリス線図)。相対確率は重み付けをして、情報的意味の品質、すなわち塩基呼出がいかに確実であるかを提供することができる。
例えば、復号は、複数のサイクルにわたって同様の値を有するタグの一連の通り抜けシグナルを、単一の結合ヌクレオチドに対応すると識別することができる。Qスコアが生成される場合、他の準最適経路を考慮に入れて、測定されたシグナル値はまだ生み出されうるのかどうか、そしてもしそうなら、その組み合わされた経路と測定シグナル値の確率は何であるかを決定することができる。確率は、その所与のセットの観測に対して隠れ状態のすべてについて計算することができる。品質スコアは、可能な状態間の相対的分離を提供できる。別の状態の確率がわずかに小さかった場合、品質スコアは相対的に低くなるであろう。
一部の態様において、正規化手順からの情報を品質スコアの決定に使用することができる。例えば、不確実性の推定は、OC分率を決定するために使用される現在の開チャンネル電圧を推定するために使用されるカルマンフィルタから得ることができる。不確実性を用いてQスコアを調整することができる。不確実性は、正規化がいかに良く機能したかと見なすことができる。
VII.出力PDFの更新(時間依存性混合分布モデル)
前述のように、混合分布モデル(または他のPDF)のパラメーターの初期値は、同様のポアおよびタグを使用する他の配列決定セルからの測定値に基づいて決定できる。PDFは最近の測定に基づいて更新でき、ポアごとに決定できる。一部の状態のPDFは実験ごとに非常に安定していることがある。そのような状態は特徴付けでき、出力関数の形状が決定できる。他の状態は、時間経過と共に変化しうるおよび/またはポアごとに異なりうる。
従って、態様において、PDFの初期パラメーター、例えば、ピークの位置、各PDFの幅、および各PDFの指数関数的減衰速度が決定できる。次に、一組のシグナル値を測定し、それを使用してヒストグラムを決定し、それを使用してPDFのパラメーターを更新できる。実際の測定値に基づいてリアルタイムでPDFを更新することは、センサー(例えばポア)ごとに塩基呼出手順を調整することを可能にするので、有用である。このように、確率関数は、所与のセルにおける核酸の配列決定のために経時的に調整できる。
一部の態様において、PDFはベイズ統計を用いて更新することもできる。初期のPDFは事前分布として扱うことができ、更新されたPDFは、所与のポアについて測定されたシグナル値を用いて、事後分布として決定することができる。一部の実施において、第一の組の測定シグナル値は、セルに対する所与の実行で核酸について測定されたシグナル値の一部にすぎない。後の組のシグナル値を用いて、核酸の後の部分についての配列決定時間にわたってPDFを更新することができる。このようにして、時間依存性PDF(例えば時間依存性混合分布モデル)を得ることができる。
事後分布の決定に当たって、初期の塩基呼出は事前分布を用いて決定できる(例えば、HMM、予期されるクラスターを分離するカットオフ値、または事前分布から最も高い確率を有する塩基を用いて)。特定塩基に対する塩基呼出を使用して、その塩基の事前分布を用いてその塩基に対応する事後分布を決定することができる。これは、すべてまたは複数の事後分布を同時に決定するのとは対照的である。一部の実施においては、特定の塩基に明らかに対応するシグナル値だけ(例えば、2番目に高い別の塩基の確率と比較しうる閾値より高い出力確率を有する)を使用して、所与の期間の事後確率が決定される。シグナル値は、シグナル値に対応する塩基呼出の品質スコアに基づいて選択できる。さらにまたはあるいは、一定のシグナル値だけ(例えば、閾値を超える品質スコアを有する塩基呼出の)を使用して事前分布が決定される。
他の態様において、PDFの更新は、所与のセルについての第一の組の測定値を使用するだけよいが、最適化手順のための初期値は、他の配列決定セルおよび/または配列決定チップから得られた値で開始させる。そのような制約が最適化手順に加えられるのは、新しいパラメーターが初期値からあまりに著しく逸脱しないようにするためである。初期値から著しくは変化しないパラメーターの個別の値のほかに、制約はパラメーターの相対値にも課すことができる(例えば、PDFの2つのピークの位置間の距離は特定範囲内にあるように制限できる)。そのような状況では、PDFの更新は、一組のピークの位置のシフト(値の上げまたは下げ)でありうる。新しい測定値がPDFのパラメーターを著しく変化させる(または制約に達する)ようであれば、所与の配列決定セルに問題があるのかもしれない。例えば、二つのPDFのピーク位置が近くなりすぎるような場合である。そのような問題はそのセルのデータの廃棄をもたらすことになろう。
他のセルおよび/またはチップからの初期パラメーター値を使用することに加えてまたはその代わりに、PDFの決定に使用される初期ヒストグラムの決定に初期の組のシグナル値が使用できる。例えば、セルの配列決定実行のシグナル値の3分の1をPDFのパラメーター値の決定に使用することができる。
A.時間依存性PDFの決定法
図18に、本発明の態様に従って、核酸の配列決定をするために、配列決定セルを使用して時間依存性確率関数を決定する方法1800のフローチャートを示す。方法1800の側面は、方法1000と同様に実施できる。
ブロック1810で、配列決定セルについての第一の時間間隔にわたって核酸から測定された第一の組のシグナル値を得る。第一の組のシグナル値は、配列決定セルの4つのセル状態(例えばポア状態)のそれぞれの測定値を含み、その4つのセル状態は異なる種類のヌクレオチドに対応する。一部の実施においては(例えばポリメラーゼが関与する)、5つのセル状態が使用できる。例えば、第五のセル状態はヌクレオチドが現在活性部位にないことに対応する。シグナル値は、図10のブロック1030に記載されているようにセルで測定され続ける。
第一の組のシグナル値は、プロセッサ、例えば図2のプロセッサ224でシグナル値を受け取ることによって得られる。受け取ったシグナル値は電気回路222からのものである。一部の実施において、取得は、配列決定セルを用いてシグナル値を測定することを含みうる。第一の組のシグナル値は、例えば図10のブロック1040に記載されているように正規化することができる。
ブロック1820で、第一のヒストグラムが第一の組のシグナル値から作成される。ブロック1820は図10のブロック1050と同様に実施できる。例えば、第一のヒストグラムは複数のカウントを記憶するデータ構造であり、各カウントはヒストグラムのビン内のシグナル値の数に対応する。第一のヒストグラムの各ビンは、例えば図11に関して記載されたように、異なる数値に対応しうる。
ブロック1830および1840は、4つのセル状態の各セル状態に対して実施できる。より多くのセル状態が使用される場合、ブロック1830および1840はそれらのセル状態に対しても実施できる。
ブロック1830で、セル状態にあることの出力確率を異なる数値に割り当てる初期確率関数が得られる。初期確率関数の例は上に記載されている。例えば、初期確率関数は、一つまたは複数の他の配列決定セルから測定されたシグナル値を用いて決定できる。例えば、他のセルからのシグナル値を用いてヒストグラムを作成でき、それに初期確率関数をフィットさせることができる(おそらく初期確率関数のすべては一緒に決定される)。別の例として、初期確率関数は、第一の時間間隔より早い時間間隔から測定されたシグナル値を用いて決定することもできる。
さらに別の例として、初期確率関数は、核酸の配列決定における第一の時間間隔と他の時間間隔とを含むより長い時間間隔にわたって測定されたシグナル値を用いて決定することもできる。例えば、より長い時間間隔は、そのセルの配列決定実行全体にわたることができる。より長い時間間隔から使用されるシグナル値は、一定のシグナル値だけ、例えば重心からの閾値シグナル距離によって定義できるようなタイトなクラスターにあるシグナル値だけを含みうる。より長い時間間隔中の全シグナル値にわたるベースコーラー(例えばHMMまたは単にカットオフ値を使用する)による初回パス(first pass)は、品質スコアと共に初期塩基呼出を提供できる。というのも、所与のセル状態(例えば特定の通り抜けタグに対応するポア状態)についての初期確率関数を決定するために、高い品質スコアを有する塩基呼出に対応するシグナル値を選ぶことができるからである。このようにして、初期確率関数は、特定のヌクレオチドの結合状態を高度に示すシグナル値に対応しているので、より狭い幅とより正確なピーク位置を有することができる。
ブロック1840で、初期確率関数と第一のヒストグラムを用いて、第一の時間間隔に対応する第一の確率関数を決定する。第一の確率関数は、セル状態にあることの出力確率を異なる数値に割り当てる。第一の確率関数を決定するための技術例は上に記載した。例えば、ベイズ手順は初期確率関数を事前分布として使用することができ、第一のヒストグラムは、第一の確率関数を事後分布として提供する新しい測定値である。
ブロック1850で、第二の時間間隔に対応する第二の確率関数を決定する。第二の確率関数は4つのセル状態に対応する。第一の確率関数と第二の確率関数(おそらくは他の時間間隔についての他の確率関数も一緒に)は、時間依存性確率関数のセットを形成できる。この時間依存性確率関数のセットは、HMM塩基呼出手順の一部として観測テーブルを作成する際に高い正確性を提供することができる。
時間間隔は様々な長さでありうる。例えば、各1つのACサイクルの長さ、または多数のACサイクルの長さなど。異なる時間間隔は、時間(またはデータ)のチャンク(ひとかたまり)に対応し得、数百秒の長さでありうるが、それより大きくても小さくてもよい。より小さいチャンクが使用される場合、時間依存性確率関数はより頻繁に更新できるが、更新あたりの調整量が大きいチャンクが使用される場合よりも少なくなるように、事前分布により重みを与えることができる。確率分布における経時的な変動は比較的緩やかであり得、例えば、1時間の間に10%、15%、または30%ドリフトしうる。変化は徐々であるので、確率関数と特定のセル状態との対応の追跡を失うことなく確率関数を更新させることが可能である。
第二の確率関数は、第一の確率関数と第二のヒストグラム(配列決定セルについての第二の時間間隔にわたって核酸から測定された第二の組のシグナル値から決定される)を用いて決定できる。第二の確率関数は第一の確率関数と同様に決定できるが、第一の確率関数はここでは初期確率関数として働く。
ブロック1860で、核酸の配列を含む塩基が時間依存性確率関数のセットを用いて決定される。塩基は様々な方法で決定できる。例えば、所与の時間ステップについて最も高い確率を有するセル状態に対応する塩基を塩基呼出として取る。別の態様では、HMMが使用されてもよい。従って、図10のブロック1070が使用できる。ブロック1080の側面も使用できる。
ブロック1870で、核酸の配列が提供される。ブロック1870はブロック1090と同様に実施できる。
B.HMMを用いた2パス
前述のように、初期確率関数は、配列決定実行全体のシグナル値を用いて決定することができる。これらの初期確率関数は時間非依存性PDFとして決定できる。ベースコーラー(例えばHMMを使用する)を、例えば方法1000の態様に記載されているのと同様に実施して、初期塩基呼出を決定することができる。時間非依存性PDFを用いるそのようなベースコーラーの初回パスは、特定のタグ/塩基を高度に示す(例えば関連塩基呼出に対するより高い確率および/または品質スコア)明白なシグナル値を識別できる。これらの高品質シグナル値は時間依存性PDFに対する更新を決定するために使用でき、それによって時間依存性PDFの決定からのノイズが削減される。
次に、ベースコーラーは、時間ステップにわたる2回目のパスにおいて時間依存性PDFを使用することができる。新しい観測テーブルが作成でき、新しいトレリス線図が得られる。そのような2パス法の実施は、限界塩基呼出(marginal basecall)の正確性を向上できる。改良は、時間非依存性PDFに優る時間依存性PDFの高い正確性によるものでありうる。そのような改良は、所与の時間ステップに対する特定の機能性シグナル値が特定のタグ/塩基に起因しうるがゆえにも起こりうる。従って、所与の時間間隔についてPDFのヒストグラムへのフィッティングは、多くのシグナル値が特定のセル状態(例えばポア状態)、ゆえに特定のPDFに帰属できるので、より正確になりうる。
従って、一部の態様において、核酸の初期塩基呼出の初期配列は、初期確率関数を用いて決定できる。品質スコアは初期塩基呼出のそれぞれについて決定できる。第一の組のシグナル値は、対応する初期塩基呼出の品質スコアに基づいて、第一の時間間隔内のすべてのシグナル値から選ぶことができる。結合状態の塩基呼出は、シグナル値を含む期間をカバーする結合状態に基づいてシグナル値に対応できる。
C.非結合タグの確率関数
追加のポア状態の出力PDFは、例えば非結合タグが各PDFで表されている場合、変動しうる。例えば、非結合GタグのPDFは、結合GのPDFとは異なる位置にピークを有する形状を有しうる。部分積分状態の場合、タグが非通り抜け状態から通り抜け状態に進むので、PDFは開チャンネルからピークに至るまでより均一な分布を有しうる。従って、部分積分状態は、二つの状態、例えば開チャンネルとAとの間をつなぐであろう別個のPDFを有しうる。
そのような追加の状態(例えばシステム状態と定義される)は、時間依存性遷移を可能にできるが、より多くのポア状態を単一のPDFに含める(例えば、すべての非結合状態を別個のPDFとは対照的に単一のPDFとして表す)ほど、時間依存性側面について分かることが少なくなる。例えば、部分積分状態が続く長さとか、他の状態と比較した部分状態の順序など。従って、非結合および/または部分状態の情報を別個のPDFに入れることは可能であるが、状態の数が増大するために計算量が増大する。
VIII.2状態分類子を用いる初期分類
ポリメラーゼを使用する態様において、ポリメラーゼは、4種類のヌクレオチドの一つと結合状態かまたは活性部位にヌクレオチドがない非結合状態でありうる。同じ手順(例えば本明細書中に記載のような)で全5つの結合状態を分類する代わりに、一部の態様では、測定されたシグナル値を結合状態または非結合状態に対応するとして分類する初期分類子を使用することができる。そのような2状態分類子は2つの隠れ状態を有するHMMでありうるが、他の2状態分類子も使用できる。
次に、結合状態に対応する時間ステップはさらに4状態分類子を用いて解析することができる。4状態分類子は、区別する状態が少ないために、より効率的に動作できる結果、少ないメモリー要件と速い計算速度がもたらされる。2状態分類子によって識別された結合領域におけるシグナル値だけが使用される場合、より正確なPDFから高い正確性も得られる。
初期2状態分類子は、結合状態に対応する時間ステップを識別できる。2状態分類子は、ただ一つの結合状態が存在するというだけで、どの種類の結合状態が結合状態に対応しているか(例えばどのタグがポアにあるか)を区別する必要はない。初期2状態分類子が結合状態に対応するシグナル値を識別した後、そのシグナル値を用いて4つのPDF(すなわち各ヌクレオチドに一つずつ)を決定することができる。PDFは、結合状態に対応するシグナル値のヒストグラムに混合分布モデルをフィッティングさせることによって決定できる。
A.第一の分類子(2状態分類子)
第一の分類子は、正規化または非正規化シグナル値に対して動作できる。タグおよびポアを用いる態様において、2状態分類子は、シグナル値が開チャンネル状態または通り抜け状態(タグがポア内にある)に対応しているかどうかを決定できる。正規化されたシグナル値の例として(例えばOC分率)、非結合状態のピークはおよそ1.0でありうるので、1.0より十分低い任意の値(例えば0.9未満)は結合状態に対応する。
この2状態分類子のより高性能版では、2つのPDF(一つは結合状態、もう一つは非結合状態)がありうる。これは通り抜け状態と非通り抜け状態に等しいと見なすことができる。2状態分類子は、ポアを使用する態様において、ポア状態間を分類すると見なすことができる。PDFをHMMと併せて使用すれば、どの状態がどの時間ステップに対応しているかを決定することができる。
非結合状態は、例えば、バックグラウンド、ノイズ帯域、または遊離タグに対応する様々なサブ状態を含みうる。遊離タグが、一つの時間ステップの間にシグナル値に短い変化を、それが開チャンネル値に戻る前にもたらしたとしても、2状態分類子は、一つのシグナル値の一過性の性質のために、非結合状態がまだ存在すると決定することができる。従って、2状態分類子(復号)は、非結合状態の決定に際して開チャンネルシグナルがどのくらいの長さ持続するかを見ることができ、結合状態の決定に際して通り抜けシグナルがどのくらいの長さ持続するかを見ることができる。HMMの実施の場合、遷移行列は結合事象がいかにあるべきかについての情報を含有することができる。
一例として、観測テーブルは0または1のベクトルとして表すことができる。0は一つの状態に対応し、1は他の状態に対応する。0は0%の確率および1は100%の確率と見ることができるが、他の確率値も使用できる。1が結合状態に対応している場合、結合状態を認識するために、ベクトルを解析して、十分長い1のグループが存在しているかどうかを決定することができる。散発的な0しかなくても、結合状態はまだ認識できる。同様に、0のグループの中に数少ない1が散見される場合、一連の時間ステップは非結合状態に対応していると識別することができる。
2状態分類子は、シグナル値を、時間的に近い他のシグナル値に対して分析する示差フィルタと見ることができる。そのような示差フィルタは、出力PDFを構築する前に、バックグラウンドである可能性が最も高いデータを除去するのに有用でありうる。
B.二つの分類子を使用する方法
図19に、本発明の態様に従って、2状態分類子と第二の分類子を用いて核酸の配列を決定するために配列決定セルを使用する方法1900のフローチャートを示す。方法1900の側面は、方法1000および/または方法1800と同様に実施できる。
ブロック1910で、第一の組のシグナル値を得る。これらのシグナル値は、ポリメラーゼを含む配列決定セルについての第一の時間間隔にわたって核酸から測定される。第一の組のシグナル値は、配列決定セルの5つの結合状態のそれぞれについての測定値を含みうる。4つの結合状態は異なる種類のヌクレオチドに対応し、第五の結合状態はポリメラーゼの活性部位にヌクレオチドがないことに対応する。4つの結合状態はまとめて結合状態に対応し、第五の結合状態は非結合状態でありうる。ブロック1910はブロック1810と同様に実施できる。
ブロック1920で、T個の時間ステップにおける第一の組のシグナル値のそれぞれは、第一の分類手順を用いて、結合状態または非結合状態に対応するとして分類される。第一の分類手順は2状態分類子でありうる。2状態分類子は本明細書中に記載のように動作できる。
ブロック1930で、サブセットのシグナル値は、結合状態に対応するとして識別される。サブセットは、結合状態に対応すると識別される相互に重なり合わない領域に対応しうる。一部の実施において、結合状態に対応すると識別された領域内のすべてのシグナル値はサブセットに含めることができる。そのように相互に重なり合わない領域は、方法1900の後の段階で独立に分析(例えば並行して)またはまとめて分析できる。一態様において、サブセットのシグナル値は、結合領域のヒストグラムを決定するために使用でき、そのヒストグラムを使用して、異なるタグ/ヌクレオチドについての各PDFを決定できる。
ブロック1940で、サブセットのシグナル値のそれぞれは、N個の結合状態を得るために第二の分類手順を用いて、4つの結合状態の一つに対応するとして分類される。第二の分類手順は少なくとも4つの結合状態間を分類できる。一部の態様において、第二の分類手順は、より多くの結合状態(例えば部分通り抜け状態を含む)間を分類できる。第二の分類手順は、例えば、識別された結合領域内に非結合状態が存在しないことを確認するために、非結合状態も含むことができる。
第二の分類子は、結合状態に対応すると識別された領域で動作できる。そのような領域だけに焦点を当てることは、例えばヒストグラムは非結合状態に対応するシグナル値を何も含むことができないので、PDFの推定値を改良することができる。混合分布モデルは、このより特定的なデータにより正確にフィットさせることができる。従って、一部の態様において、一つまたは複数の追加のトレリス線図が作成でき、それぞれは結合状態を有する一つまたは複数の時間ステップの別の結合領域に対応する。次いで、トレリス線図を通る一つまたは複数の追加の最適経路が、出力確率およびペアワイズ遷移確率に基づいて決定できる。
ブロック1950で、核酸の配列を含む塩基がN個の結合状態を用いて決定される。ブロック1950は、方法1800のブロック1860と同様に実施できる。
ブロック1960で、核酸の配列が提供される。ブロック1960は、方法1800のブロック1870と同様に実施できる。
IX.実施例およびリスト復号
図20に、本発明の態様に従って、シグナルトレース2010、拡大トレース2020、正規化シグナル値2030、およびヒストグラム2040の例を示す。シグナルトレース2010についての本実施例で、HMM復号は、最も可能性の高い結合状態の配列を、ATAGCTAGCACAGAGAGCGACAGCATACTACTCACTGACGCAGAGCG(配列番号4)と識別している。拡大トレース2020は、開チャンネルおよび暗チャンネルの二つの暗バンドを示している。正規化シグナル値2030(暗チャンネル除去)は、正規化の結果、拡大トレース2020よりも平坦なデータを示している。ヒストグラム2040は、正規化シグナル値2030のプロットに表された時間間隔におけるシグナル値の組に対応している。
図21に、本発明の態様に従って、正規化シグナル値2030、中間図2140、および高ズーム図2150を示す。中間図2140は、個別の事象を見るためのズームレベルを示している。バーは個別の結合事象を示し、特定の種類の結合事象が二つ以上あるであろう領域をおそらくは示している。例えば、バー2142は、復号がAについて1つの結合状態を識別していることを示しているが、Aについて実際には3つの結合状態がありうることを示す3つの小さいバーがある。次のバーのバー2145との間のギャップは、その間に通り抜けポア状態がなかったことを示している。バー2147は、何も結合されなかった時間の後、G結合事象が検出されることを示す。高ズーム図2150は、最後の2つのA結合事象と、G結合事象を示す。
図22に、本発明の態様に従って、高ズーム図2150と、最も可能性の高い上3つの隠れ状態2210〜2230を示す。上3つの状態から分かるように、いくつのA結合事象が発生したかはっきりしない。一部の態様において、これらの配列のそれぞれの確率は、例えば、最も可能性の高い呼出だけでなく追加の準最適呼出も決定するビタビの修正版であるリスト復号を用いて決定できる。例えば、K個の最も可能性の高い隠れ状態が決定できる。異なる配列のそのような確率は、下流のゲノム解析の後半段階に回すことができる。
X.コンピュータシステム
本明細書中に記載されたコンピュータシステムはいずれも、任意の適切な数のサブシステムを利用できる。そのようなサブシステムの例は図23のコンピュータシステム10に示されている。一部の態様において、コンピュータシステムは、単一のコンピュータ装置を含み、サブシステムはコンピュータ装置のコンポーネントでありうる。他の態様では、コンピュータシステムは複数のコンピュータ装置を含み、それぞれが内部コンポーネントを有するサブシステムでありうる。コンピュータシステムは、デスクトップおよびラップトップコンピュータ、タブレット、携帯電話およびその他のモバイル機器を含みうる。
図23に示されたサブシステムはシステムバス75によって相互接続されている。プリンタ74、キーボード78、記憶装置79、モニタ76(ディスプレイアダプタ82に連結されている)、およびその他などの追加のサブシステムを示す。周辺機器および入出力(I/O)装置(I/Oコントローラ71に連結されている)は、当該技術分野で公知の任意の数の手段、例えば入出力(I/O)ポート77(例えばUSB、FireWire(登録商標))によってコンピュータシステムに接続できる。例えば、I/Oポート77または外部インターフェース81(例えば、イーサネット(登録商標)、Wi−Fiなど)を用いて、コンピュータシステム10を、インターネットなどの広域ネットワーク、マウス入力装置、またはスキャナに接続することができる。システムバス75を介した相互接続は、中央処理装置73が、各サブシステムと通信し、システムメモリ72または記憶装置79(例えばハードドライブなどの固定ディスク、または光ディスク)からの複数の命令の実行ならびにサブシステム間の情報の交換を制御することを可能にする。システムメモリ72および/または記憶装置79は、コンピュータ可読媒体を体現しうる。別のサブシステムは、カメラ、マイクロフォン、加速度計などのデータ収集装置85である。本明細書中に記載のデータはいずれも、一つのコンポーネントから別のコンポーネントに出力でき、そしてユーザーに出力できる。
コンピュータシステムは、例えば、外部インターフェース81によって、内部インターフェースによって、または一つのコンポーネントから別のコンポーネントへと接続および取り外しできるリムーバブル記憶装置を介して一緒に接続された複数の同じコンポーネントまたはサブシステムを含むこともできる。一部の態様において、コンピュータシステム、サブシステム、または装置は、ネットワークを通して通信できる。そのような場合、一つのコンピュータはクライアントで、別のコンピュータはサーバーと見なすことができ、それぞれ同じコンピュータシステムの一部でありうる。クライアントおよびサーバーはそれぞれ、複数のシステム、サブシステム、またはコンポーネントを含むことができる。
態様の側面は、ハードウェア回路(例えば、特定用途向け集積回路またはフィールド・プログラマブル・ゲート・アレイ)を用いて、および/またはコンピュータソフトウェアを一般にプログラム可能なプロセッサと共にモジュール方式または統合的に用いて、制御ロジックの形態で実施できる。本明細書において、プロセッサは、シングルコアプロセッサ、同じ集積チップ上のマルチコアプロセッサ、または単一回路基板上のまたはネットワーク化された多重処理ユニット、ならびに専用ハードウェアを含みうる。本明細書中に提供された開示および教示に基づいて、当業者は、ハードウェアおよびハードウェアとソフトウェアの組合せを用いて、本発明の態様を実施するための他の方式および/または方法を承知および理解するであろう。
本願に記載されているソフトウェアコンポーネントまたは機能のいずれも、任意の適切なコンピュータ言語、例えば、Java(登録商標)、C、C++、C#、Objective−C、Swift、またはスクリプト言語、例えば、PerlまたはPythonを用い、例えば慣用技術またはオブジェクト指向技術を用いて、プロセッサによって実行されるソフトウェアコードとして実施できる。ソフトウェアコードは、記憶および/または伝送のためにコンピュータ可読媒体上に一連の命令またはコマンドとして保存できる。適切な固定(非一時的)コンピュータ可読媒体は、ランダム・アクセス・メモリ(RAM)、リード・オンリー・メモリ(ROM)、磁気媒体、例えばハードドライブまたはフロッピーディスク、または光媒体、例えばコンパクトディスク(CD)またはDVD(デジタル多用途ディスク)、フラッシュメモリなどを含みうる。コンピュータ可読媒体は、そのような記憶または伝送装置の任意の組合せでありうる。
そのようなプログラムは、インターネットを含む様々なプロトコルに従う有線、光、および/または無線ネットワークを介した伝送に適応されたキャリアシグナルを用いてコード化および伝送することもできる。従って、コンピュータ可読媒体は、そのようなプログラムでコード化されたデータシグナルを用いて作成することができる。プログラムコードでコード化されたコンピュータ可読媒体は、互換性があるデバイスと共にパッケージ化されても、または他のデバイスとは別に提供されてもよい(例えば、インターネットダウンロードを介して)。任意のそのようなコンピュータ可読媒体は、単一のコンピュータ製品(例えば、ハードドライブ、CD、または全コンピュータシステム)上または内部にあっても、またはシステムもしくはネットワーク内の異なるコンピュータ製品上または内部にあってもよい。コンピュータシステムは、本明細書中に記載のいずれかの結果をユーザーに提供するためのモニタ、プリンタ、またはその他の適切なディスプレイを含みうる。
本明細書中に記載の方法はいずれも、ステップを実施するために構成されうる一つまたは複数のプロセッサを含むコンピュータシステムを用いて、全体的にまたは部分的に実施できる。従って、態様は、本明細書中に記載の方法のいずれかのステップを実施するために構成されたコンピュータシステム(おそらくはそれぞれのステップまたはそれぞれのステップ群を実施する異なるコンポーネントと共に)に向けることができる。番号付けされたステップとして示されているが、本明細書における方法のステップは、同時にまたは異なる時にまたは異なる順序で実施できる。さらに、これらのステップの一部は、他の方法の他のステップの一部と共に使用することもできる。また、ステップのすべてまたは一部は任意選択でありうる。さらに、いずれかの方法のいずれかのステップは、これらのステップを実施するためのシステムのモジュール、ユニット、回路、または他の手段を用いて実施できる。
“a”、“an”または“the”の記述は、それに反することが明記されていない限り、“一つまたは複数”を意味するものとする。“または”の使用は、それに反することが明記されていない限り、“包括的なまたは”を意味し、“排他的なまたは”を意味しないものとする。“第一の”構成要素への言及は、第二の構成要素が提供されることを必ずしも要求しない。さらに、“第一”または“第二”の構成要素への言及は、特に明記されない限り、言及された構成要素を特定の位置に限定するものではない。
10 コンピュータシステム
75 システムバス
100 ナノポアセンサーチップ
110 ピン
130 カバープレート
136 側壁
140 アレイ
150 ナノポアセル
200 ナノポアセル
300 ナノポアセル
340 遮断シグナル
400 電気回路
401 スイッチ
408 積分キャパシタ
422 電気モデル
510 電圧シグナル
522 データ点
600 核酸配列決定のプロセス
601 ナノポア
603 酵素
604 核酸分子
605 プライマー
606 ヌクレオチド
607 タグ
700 配列決定セル
701 ナノポア
703 酵素
704 核酸分子
706 ヌクレオチド
707 タグ
714 膜
800 酵素層
810 パルス
1100 正規化されたシグナル値のプロット
1150 ヒストグラム
1200 配列決定セル
1300 時間トレース
2010 シグナルトレース
2020 拡大トレース
2030 正規化シグナル値
2040 ヒストグラム
2140 中間図
2150 高ズーム図

Claims (17)

  1. コンピュータシステムに接続された配列決定セルを使用して核酸の配列を決定する方法であって、前記方法が:
    −配列決定セルのための第一の時間間隔にわたって核酸から測定された第一の組のシグナル値を得ること、ここで第一の組のシグナル値は配列決定セルの4つのセル状態のそれぞれの測定値を含み、4つのセル状態は異なる種類のヌクレオチドに対応するものである;
    −第一の組のシグナル値の第一のヒストグラムを作成すること、ここで第一のヒストグラムは複数のカウントを記憶するデータ構造であり、各カウントはビン内のシグナル値の数に対応するものであり、第一のヒストグラムの各ビンは異なる数値に対応するものである;
    ここで、4つのセル状態の各セル状態に対して:
    −そのセル状態にあることの出力確率を異なる数値に割り当てる確率関数を決定すること、ここで確率関数は第一のヒストグラムのビンに対する複数のカウントを使用して決定されるものである;
    −核酸の4つのヌクレオチド状態間のペアワイズ遷移確率を提供する遷移行列を決定すること、ここで4つのヌクレオチド状態は異なる種類のヌクレオチドに対応するものである;
    −T個の時間ステップにわたるトレリス線図を作成すること、ここで各時間ステップは第一の組のシグナル値の1つのシグナル値に対応するものであり、所与の時間ステップにおけるトレリス線図は4つのヌクレオチド状態を含むものであり、そのそれぞれが対応するセル状態の確率関数を用いて決定された出力確率を有するものであり、ある時間ステップでのヌクレオチド状態はペアワイズ遷移確率に従って次の時間ステップでのヌクレオチド状態に結びつけられるものである;および、
    −各時間ステップにおけるヌクレオチド状態を識別するために、出力確率およびペアワイズ遷移確率に基づいてトレリス線図を通る最適経路を決定すること;
    を含み、
    −T個の時間ステップにおけるヌクレオチド状態を用いて核酸の配列を含む塩基を決定すること;ならびに、
    −核酸の配列を提供すること、
    を含む、前記方法。
  2. 配列決定セルがナノポアをさらに含み、配列決定セル全体に印加される電圧を有し、そして4つのセル状態がナノポアのポア状態に対応する、請求項1に記載の方法。
  3. 電圧が、参照電圧に対して第一の部分と第二の部分とを有する交流シグナルを含み、第一の組のシグナル値が交流シグナルの第一の部分の間に測定される、請求項2に記載の方法。
  4. 配列決定セルが核酸を配列決定するためのポリメラーゼを含み、ヌクレオチド状態がポリメラーゼの結合状態に対応し、第一の組のシグナル値がナノポアを通り抜けるヌクレオチドに結合されたタグ分子がないことに対応する配列決定セルの第五のセル状態に対する測定値であることをさらに含む、請求項3に記載の方法。
  5. ヌクレオチド状態が、セル状態のサブ状態およびポリメラーゼの結合状態を含むシステム状態に対応し、システム状態はポリメラーゼに対する非結合状態とポア状態についての通り抜け状態との組合せを含む、請求項4に記載の方法。
  6. さらに、
    −他の配列決定セルについての他の核酸から測定された他の組のシグナル値を得ることを含み、
    そして、他の配列決定セルのそれぞれに対して:
    −別の組のシグナル値から別のヒストグラムを作成すること、
    −第一のヒストグラムを用いて配列決定セルに固有の確率関数を決定すること、および
    −配列決定セルに固有の確率関数を用いて、配列決定セルにおける核酸の配列を含む塩基を決定すること、
    を含む、請求項1に記載の方法。
  7. 第一のヒストグラムを用いる確率関数の決定が、各確率関数を第一のヒストグラムのピークにフィッティングさせることを含む、請求項1に記載の方法。
  8. トレリス線図を通る最適経路が、ビタビ復号を用いて決定される、請求項1に記載の方法。
  9. さらに、
    第二の時間間隔に対応する第二の確率関数を決定することを含み、
    確率関数と第二の確率関数は時間依存性確率関数のセットを形成し、ここで第二の確率関数は、確率関数と、配列決定セルについての第二の時間間隔にわたって核酸から測定された第二の組のシグナル値から決定された第二のヒストグラムとを用いて決定され、核酸の配列を含む塩基は時間依存性確率関数のセットを用いて決定される、請求項1に記載の方法。
  10. 配列決定セルが核酸を配列決定するためのポリメラーゼを含み、第一の組のシグナル値は配列決定セルの5つの結合状態のそれぞれの測定値を含み、4つの結合状態は異なる種類のヌクレオチドに対応し、第五の結合状態はヌクレオチドがポリメラーゼの活性部位にないことに対応し、4つの結合状態はまとめて結合状態に対応し、第五の結合状態は非結合状態に対応する請求項1に記載の方法であって、前記方法がさらに、
    −第一の組のシグナル値のそれぞれを第一の分類手順を用いて結合状態または非結合状態に対応するとして分類すること、ここで第一の分類手順は2状態分類子である;および、
    −サブセットのシグナル値を結合状態に対応するとして識別すること、ここでトレリス線図を用いてサブセットのシグナル値に対応するヌクレオチド状態が決定される、
    を含む、請求項1に記載の方法。
  11. 配列決定セルが核酸を配列決定するためにナノポアに結合されたポリメラーゼを含み、そして第一の組のシグナル値を得ることが配列決定セル全体に電圧を印加することを含み、
    ここで前記電圧は参照電圧に対して第一の部分と第二の部分とを有する交流シグナルを含み、
    ここで第一の組のシグナル値の少なくとも一部が、タグ分子が配列決定セルのナノポアを通り抜ける時に交流シグナルの第一の部分の間に測定され、前記タグ分子は特定のヌクレオチドに対応する、請求項1に記載の方法。
  12. コンピュータシステムに接続された配列決定セルを使用して核酸の配列を決定する方法であって、前記方法が:
    −配列決定セルについての第一の時間間隔にわたって核酸から測定された第一の組のシグナル値を得ること、ここで第一の組のシグナル値は配列決定セルの4つのセル状態のそれぞれの測定値を含み、4つのセル状態は異なる種類のヌクレオチドに対応するものである;
    −第一の組のシグナル値の第一のヒストグラムを作成すること、ここで第一のヒストグラムは複数のカウントを記憶するデータ構造であり、各カウントはビン内のシグナル値の数に対応するものであり、第一のヒストグラムの各ビンは異なる数値に対応するものである;
    ここで、4つのセル状態の各セル状態に対して:
    −そのセル状態にあることの出力確率を異なる数値に割り当てる初期確率関数を決定すること;および、
    −初期確率関数と第一のヒストグラムを使用して、そのセル状態にあることの出力確率を異なる数値に割り当てる第一の確率関数を決定すること、ここで前記第一の確率関数は第一の時間間隔に対応するものである;
    −第二の時間間隔に対応する第二の確率関数を決定すること、ここで第一の確率関数と第二の確率関数は時間依存性確率関数のセットを形成し、第二の確率関数は、第一の確率関数と、配列決定セルについての第二の時間間隔にわたって核酸から測定された第二の組のシグナル値から決定された第二のヒストグラムとを用いて決定されるものである;
    −時間依存性確率関数のセットを用いて核酸の配列を含む塩基を決定すること;および、
    −核酸の配列を提供すること、
    を含む、前記方法。
  13. 初期確率関数が、一つまたは複数の他の配列決定セルから測定されたシグナル値を用いて決定される、請求項12に記載の方法。
  14. 初期確率関数が、第一の時間間隔より早い時間間隔から測定されたシグナル値を用いて決定される、請求項12に記載の方法。
  15. 初期確率関数が、核酸の配列決定における第一の時間間隔と他の時間間隔とを含むより長い時間間隔にわたって測定されたシグナル値を用いて決定される、請求項12に記載の方法。
  16. 第一の確率関数が、ベイズ統計を用いて事後分布として第二の確率関数を決定するために、事前分布として使用される、請求項12に記載の方法。
  17. 時間依存性確率関数のセットを使用する塩基の決定が、
    −核酸の4つのヌクレオチド状態間のペアワイズ遷移確率を提供する遷移行列を決定すること、ここで4つのヌクレオチド状態は核酸の異なるヌクレオチドに対応するものである;
    −T個の時間ステップにわたるトレリス線図を作成すること、ここで各時間ステップは第一の組のシグナル値の1つのシグナル値に対応するものであり、所与の時間ステップにおけるトレリス線図は4つのヌクレオチド状態を含むものであり、そのそれぞれが対応するセル状態の時間依存性確率関数を用いて決定された出力確率を有し、そして所与の時間ステップに対応するものであり、ある時間ステップでのヌクレオチド状態はペアワイズ遷移確率に従って次の時間ステップでのヌクレオチド状態に結びつけられるものである;および、
    −各時間ステップにおける塩基呼出を識別するために、出力確率およびペアワイズ遷移確率に基づいてトレリス線図を通る最適経路を決定すること;
    を含む、請求項12に記載の方法。
JP2019506441A 2016-08-08 2017-08-04 確率的配列決定プロセスのための塩基呼出 Active JP6814875B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201662372258P 2016-08-08 2016-08-08
US62/372,258 2016-08-08
US201662384650P 2016-09-07 2016-09-07
US62/384,650 2016-09-07
PCT/EP2017/069820 WO2018029108A1 (en) 2016-08-08 2017-08-04 Basecalling for stochastic sequencing processes

Publications (2)

Publication Number Publication Date
JP2019531536A JP2019531536A (ja) 2019-10-31
JP6814875B2 true JP6814875B2 (ja) 2021-01-20

Family

ID=59677206

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019506441A Active JP6814875B2 (ja) 2016-08-08 2017-08-04 確率的配列決定プロセスのための塩基呼出

Country Status (5)

Country Link
US (3) US10648027B2 (ja)
EP (1) EP3497233B1 (ja)
JP (1) JP6814875B2 (ja)
CN (1) CN109952382B (ja)
WO (1) WO2018029108A1 (ja)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3497233B1 (en) * 2016-08-08 2021-11-10 F. Hoffmann-La Roche AG Basecalling for stochastic sequencing processes
EP3512963A1 (en) 2016-09-15 2019-07-24 H. Hoffnabb-La Roche Ag Nanopore-based sequencing using voltage mode with hybrid mode stimuli
TWI738018B (zh) * 2018-06-27 2021-09-01 瑞士商赫孚孟拉羅股份公司 用於核酸定序之感測器晶片及方法、定序系統、及電腦產品
JP2022511880A (ja) * 2018-12-11 2022-02-01 エフ.ホフマン-ラ ロシュ アーゲー 膜における自己制限性プロテイン細孔挿入のためのシステム及び方法
US11783917B2 (en) 2019-03-21 2023-10-10 Illumina, Inc. Artificial intelligence-based base calling
US11210554B2 (en) 2019-03-21 2021-12-28 Illumina, Inc. Artificial intelligence-based generation of sequencing metadata
US11423306B2 (en) 2019-05-16 2022-08-23 Illumina, Inc. Systems and devices for characterization and performance analysis of pixel-based sequencing
US11593649B2 (en) 2019-05-16 2023-02-28 Illumina, Inc. Base calling using convolutions
JP2022544464A (ja) * 2019-07-31 2022-10-19 エーエックスバイオ インコーポレイテッド 標的分子を評価するためのシステム及び方法
EP4107735A2 (en) 2020-02-20 2022-12-28 Illumina, Inc. Artificial intelligence-based many-to-many base calling
US20220336054A1 (en) 2021-04-15 2022-10-20 Illumina, Inc. Deep Convolutional Neural Networks to Predict Variant Pathogenicity using Three-Dimensional (3D) Protein Structures
WO2023059599A1 (en) 2021-10-04 2023-04-13 F. Hoffmann-La Roche Ag Online base call compression
CN113854990B (zh) * 2021-10-27 2024-05-31 青岛海信日立空调系统有限公司 一种心跳检测方法及装置
EP4419714A1 (en) * 2021-11-23 2024-08-28 Pleno, Inc. Encoded assays
WO2024124497A1 (zh) * 2022-12-15 2024-06-20 深圳华大生命科学研究院 基于机器学习的纳米孔测序信号状态的识别方法、机器学习模型的训练方法和装置

Family Cites Families (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SE9702008D0 (sv) 1997-05-28 1997-05-28 Pharmacia Biotech Ab A method and a system for nucleic acid seouence analysis
US7039238B2 (en) 2000-12-01 2006-05-02 Sri International Data relationship model
CN101401101B (zh) 2006-03-10 2014-06-04 皇家飞利浦电子股份有限公司 用于通过谱分析鉴定dna模式的方法和系统
US8703422B2 (en) 2007-06-06 2014-04-22 Pacific Biosciences Of California, Inc. Methods and processes for calling bases in sequence by incorporation methods
CA2689626C (en) 2007-06-06 2016-10-25 Pacific Biosciences Of California, Inc. Methods and processes for calling bases in sequence by incorporation methods
US8452546B1 (en) 2008-11-07 2013-05-28 Electronic Biosciences, Inc. Method for deducing a polymer sequence from a nominal base-by-base measurement
US8370079B2 (en) 2008-11-20 2013-02-05 Pacific Biosciences Of California, Inc. Algorithms for sequence determination
US9175338B2 (en) 2008-12-11 2015-11-03 Pacific Biosciences Of California, Inc. Methods for identifying nucleic acid modifications
WO2010068289A2 (en) 2008-12-11 2010-06-17 Pacific Biosciences Of California, Inc. Classification of nucleic acid templates
US9017937B1 (en) * 2009-04-10 2015-04-28 Pacific Biosciences Of California, Inc. Nanopore sequencing using ratiometric impedance
CA2760155A1 (en) 2009-04-27 2010-11-11 Pacific Biosciences Of California, Inc. Real-time sequencing methods and systems
US9063156B2 (en) 2009-06-12 2015-06-23 Pacific Biosciences Of California, Inc. Real-time analytical methods and systems
WO2012071434A2 (en) 2010-11-22 2012-05-31 Life Technologies Corporation Model-based residual correction of intensities
EP3269825B1 (en) 2011-09-23 2020-02-19 Oxford Nanopore Technologies Limited Analysis of a polymer comprising polymer units
CN104379761B (zh) 2012-04-09 2017-03-01 纽约哥伦比亚大学理事会 纳米孔的制备方法和其用途
ES2779699T3 (es) 2012-06-20 2020-08-18 Univ Columbia Secuenciación de ácidos nucleicos mediante detección en nanoporos de moléculas de etiqueta
US9605309B2 (en) 2012-11-09 2017-03-28 Genia Technologies, Inc. Nucleic acid sequencing using tags
US20160171153A1 (en) 2013-01-17 2016-06-16 Edico Genome, Inc. Bioinformatics Systems, Apparatuses, And Methods Executed On An Integrated Circuit Processing Platform
US9679104B2 (en) 2013-01-17 2017-06-13 Edico Genome, Corp. Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform
US10068054B2 (en) 2013-01-17 2018-09-04 Edico Genome, Corp. Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform
US10847251B2 (en) 2013-01-17 2020-11-24 Illumina, Inc. Genomic infrastructure for on-site or cloud-based DNA and RNA processing and analysis
EP2994749A4 (en) 2013-01-17 2017-07-19 Edico Genome Corp. Bioinformatics systems, apparatuses, and methods executed on an integrated circuit processing platform
EP2994544B1 (en) * 2013-05-06 2019-10-02 Pacific Biosciences Of California, Inc. Real-time electronic sequencing
ES2735015T3 (es) 2013-11-26 2019-12-13 Illumina Inc Composiciones y métodos para secuenciar polinucleótidos
HUE050641T2 (hu) 2013-12-03 2020-12-28 Illumina Inc Eljárások és rendszerek képadat elemzésére
EP3084002A4 (en) 2013-12-16 2017-08-23 Complete Genomics, Inc. Basecaller for dna sequencing using machine learning
US9697327B2 (en) 2014-02-24 2017-07-04 Edico Genome Corporation Dynamic genome reference generation for improved NGS accuracy and reproducibility
EP3120277A1 (en) 2014-03-21 2017-01-25 Oxford Nanopore Technologies Limited Analysis of a polymer from multi-dimensional measurements
GB201408652D0 (en) 2014-05-15 2014-07-02 Oxford Nanopore Tech Ltd Model adjustment during analysis of a polymer from nanopore measurements
US9557294B2 (en) 2014-12-19 2017-01-31 Genia Technologies, Inc. Nanopore-based sequencing with varying voltage stimulus
US9863904B2 (en) 2014-12-19 2018-01-09 Genia Technologies, Inc. Nanopore-based sequencing with varying voltage stimulus
CN107209814B (zh) * 2015-01-13 2021-10-15 10X基因组学有限公司 用于使结构变异和相位信息可视化的系统和方法
WO2016164363A1 (en) 2015-04-06 2016-10-13 The Regents Of The University Of California Methods for determing base locations in a polynucleotide
WO2016179437A1 (en) 2015-05-07 2016-11-10 Pacific Biosciences Of California, Inc. Multiprocessor pipeline architecture
US10185803B2 (en) 2015-06-15 2019-01-22 Deep Genomics Incorporated Systems and methods for classifying, prioritizing and interpreting genetic variants and therapies using a deep neural network
US20170270245A1 (en) 2016-01-11 2017-09-21 Edico Genome, Corp. Bioinformatics systems, apparatuses, and methods for performing secondary and/or tertiary processing
CN108885648A (zh) 2016-02-09 2018-11-23 托马生物科学公司 用于分析核酸的系统和方法
US11124827B2 (en) 2016-06-23 2021-09-21 Roche Sequencing Solutions, Inc. Period-to-period analysis of AC signals from nanopore sequencing
WO2017223515A1 (en) 2016-06-23 2017-12-28 F. Hoffman-La Roche Ag Formation and calibration of nanopore sequencing cells
EP3497233B1 (en) * 2016-08-08 2021-11-10 F. Hoffmann-La Roche AG Basecalling for stochastic sequencing processes
WO2018109102A1 (en) * 2016-12-15 2018-06-21 F. Hoffmann-La Roche Ag Adaptive nanopore signal compression

Also Published As

Publication number Publication date
WO2018029108A1 (en) 2018-02-15
JP2019531536A (ja) 2019-10-31
US10648027B2 (en) 2020-05-12
US11788132B2 (en) 2023-10-17
CN109952382B (zh) 2023-11-14
EP3497233B1 (en) 2021-11-10
US11293062B2 (en) 2022-04-05
US20200232026A1 (en) 2020-07-23
US20180037948A1 (en) 2018-02-08
US20220267840A1 (en) 2022-08-25
CN109952382A (zh) 2019-06-28
EP3497233A1 (en) 2019-06-19

Similar Documents

Publication Publication Date Title
JP6814875B2 (ja) 確率的配列決定プロセスのための塩基呼出
US11892444B2 (en) Formation and calibration of nanopore sequencing cells
US20210395815A1 (en) Period-to-period analysis of ac signals from nanopore sequencing
CN111512155B (zh) 测量和去除来自交流信号驱动的纳米孔dna测序系统的随机信号中的噪声
CN109791138B (zh) 纳米孔电压方法
JP7012841B2 (ja) 浸透性の不均衡を利用した膜内のタンパク質ナノポアの除去および再挿入
CN112292462B (zh) 生化传感器阵列中的多路复用模拟部件
CN115485553A (zh) 用于使用捕获的电荷形成双层以及以纳米孔阵列插入孔的系统和方法
JP7503571B2 (ja) 浸透圧不均衡を用いて膜にナノ細孔を挿入するためのシステムおよび方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190308

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200519

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200728

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201204

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201221

R150 Certificate of patent or registration of utility model

Ref document number: 6814875

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250