CN115551639A - 具有单分子传感器阵列的高通量核酸定序 - Google Patents

具有单分子传感器阵列的高通量核酸定序 Download PDF

Info

Publication number
CN115551639A
CN115551639A CN202180034742.4A CN202180034742A CN115551639A CN 115551639 A CN115551639 A CN 115551639A CN 202180034742 A CN202180034742 A CN 202180034742A CN 115551639 A CN115551639 A CN 115551639A
Authority
CN
China
Prior art keywords
sensor
sensors
nucleic acid
records
marker
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180034742.4A
Other languages
English (en)
Inventor
J·托波兰奇克
P·布拉干萨
Y·阿斯捷
S·帕拉迪加
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hefu Menglaro Co ltd
Western Digital Technologies Inc
Original Assignee
Hefu Menglaro Co ltd
Western Digital Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hefu Menglaro Co ltd, Western Digital Technologies Inc filed Critical Hefu Menglaro Co ltd
Publication of CN115551639A publication Critical patent/CN115551639A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • C12Q1/6874Methods for sequencing involving nucleic acid arrays, e.g. sequencing by hybridisation
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B01PHYSICAL OR CHEMICAL PROCESSES OR APPARATUS IN GENERAL
    • B01LCHEMICAL OR PHYSICAL LABORATORY APPARATUS FOR GENERAL USE
    • B01L3/00Containers or dishes for laboratory use, e.g. laboratory glassware; Droppers
    • B01L3/50Containers for the purpose of retaining a material to be analysed, e.g. test tubes
    • B01L3/502Containers for the purpose of retaining a material to be analysed, e.g. test tubes with fluid transport, e.g. in multi-compartment structures
    • B01L3/5027Containers for the purpose of retaining a material to be analysed, e.g. test tubes with fluid transport, e.g. in multi-compartment structures by integrated microfluidic structures, i.e. dimensions of channels and chambers are such that surface tension forces are important, e.g. lab-on-a-chip
    • B01L3/502761Containers for the purpose of retaining a material to be analysed, e.g. test tubes with fluid transport, e.g. in multi-compartment structures by integrated microfluidic structures, i.e. dimensions of channels and chambers are such that surface tension forces are important, e.g. lab-on-a-chip specially adapted for handling suspended solids or molecules independently from the bulk fluid flow, e.g. for trapping or sorting beads, for physically stretching molecules
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/10Signal processing, e.g. from mass spectrometry [MS] or from PCR
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B01PHYSICAL OR CHEMICAL PROCESSES OR APPARATUS IN GENERAL
    • B01LCHEMICAL OR PHYSICAL LABORATORY APPARATUS FOR GENERAL USE
    • B01L2200/00Solutions for specific problems relating to chemical or physical laboratory apparatus
    • B01L2200/06Fluid handling related problems
    • B01L2200/0647Handling flowable solids, e.g. microscopic beads, cells, particles
    • B01L2200/0652Sorting or classification of particles or molecules
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B01PHYSICAL OR CHEMICAL PROCESSES OR APPARATUS IN GENERAL
    • B01LCHEMICAL OR PHYSICAL LABORATORY APPARATUS FOR GENERAL USE
    • B01L2200/00Solutions for specific problems relating to chemical or physical laboratory apparatus
    • B01L2200/06Fluid handling related problems
    • B01L2200/0647Handling flowable solids, e.g. microscopic beads, cells, particles
    • B01L2200/0668Trapping microscopic beads
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B01PHYSICAL OR CHEMICAL PROCESSES OR APPARATUS IN GENERAL
    • B01LCHEMICAL OR PHYSICAL LABORATORY APPARATUS FOR GENERAL USE
    • B01L2200/00Solutions for specific problems relating to chemical or physical laboratory apparatus
    • B01L2200/16Reagents, handling or storing thereof
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B01PHYSICAL OR CHEMICAL PROCESSES OR APPARATUS IN GENERAL
    • B01LCHEMICAL OR PHYSICAL LABORATORY APPARATUS FOR GENERAL USE
    • B01L2300/00Additional constructional details
    • B01L2300/08Geometry, shape and general structure
    • B01L2300/0809Geometry, shape and general structure rectangular shaped
    • B01L2300/0819Microarrays; Biochips
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/16Primer sets for multiplex assays

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • General Health & Medical Sciences (AREA)
  • Organic Chemistry (AREA)
  • Wood Science & Technology (AREA)
  • Biophysics (AREA)
  • Zoology (AREA)
  • Molecular Biology (AREA)
  • Analytical Chemistry (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biotechnology (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Bioethics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Immunology (AREA)
  • Microbiology (AREA)
  • Signal Processing (AREA)
  • Public Health (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Fluid Mechanics (AREA)
  • Dispersion Chemistry (AREA)
  • Hematology (AREA)
  • Clinical Laboratory Science (AREA)
  • Chemical Kinetics & Catalysis (AREA)

Abstract

本文公开单分子阵列定序(SMAS)装置及系统的实施例。所述SMAS装置的传感器阵列中的各传感器能够检测附接到并入与各别结合位点结合的单个核酸链中的核苷酸的标记。各传感器可检测附接到所述并入的核苷酸的单个标记(例如荧光、磁性、有机金属、带电荷分子等)。还公开使用SMAS装置及系统以固定于此种SMAS装置上的选殖扩增的DNA的多种例项的合成定序(SBS)为基础进行高度可调的核酸(例如DNA)定序的方法。还公开错误校正方法,所述方法减轻在定序个别核酸链中产生的错误(例如检测到或未检测到错误标记)。

Description

具有单分子传感器阵列的高通量核酸定序
相关申请案的交叉参考
本申请案主张2020年4月21日申请且标题为“具有单分子传感器阵列的高通量DNA定序(HIGH-THROUGHPUT DNA SEQUENCING WITH SINGLE-MOLECULE SENSOR-ARRAYS)”(代理人档案编号ROA-1002P-US/P36083-US)的第63/013,236号美国临时申请案的优先权,且本申请案在此通过全文引用的方式并入第63/013,236号美国临时申请案的内容。本申请案还出于所有目的通过引用方式并入2020年4月8日申请的标题为“使用磁性传感器阵列的核酸合成定序(NUCLEIC ACID SEQUENCING BY SYNTHESIS USING MAGNETIC SENSOR ARRAYS)”(代理人档案编号ROA-1000-WO/P35097-WO)的第PCT/US20/27290号PCT申请案(其于2020年10月15日以WO 2020/210370公开)及2021年3月7日申请且标题为“用于核酸定序的磁性传感器阵列及其制造及使用方法(MAGNETIC SENSOR ARRAYS FOR NUCLEIC ACID SEQUENCINGAND METHODS OF MAKING AND USING THEM)”(代理人档案编号ROA-1001-WO/P35967-WO)的第PCT/US2021/021274号PCT申请案的全文。
背景技术
商业上成功的DNA定序方法涉及克隆脱氧核糖核酸(DNA)簇的合成及分析或个别DNA分子的检测。尽管簇定序仪展现对于诊断应用来说足够低的错误率,但由于分子集体(molecular ensemble)中的错误传播性质,其读取长度受到很大限制。单分子定序仪可产生显著较长读段,但通常展现静态及动态异质性,所述异质性导致对于高精度诊断来说过于大的错误。
因此,一般来说需要改进DNA定序及核酸定序,以实现具有较低错误率的较长读段。
发明内容
本发明内容表示本公开的非限制性实施例。
本文公开单分子阵列定序(SMAS)装置及系统的实施例。SMAS装置的传感器阵列内的多个传感器中的各传感器检测附接到并入与各别结合位点结合的单个核酸链中的核苷酸的标记。各传感器可检测附接到并入的核苷酸的单个标记(例如荧光、磁性、有机金属、带电荷分子等)。还公开使用SMAS装置及系统以固定于此种SMAS装置上的克隆扩增的DNA的多种例项的合成定序(SBS)为基础进行高度可调的核酸(例如DNA)定序的方法。还公开错误校正方法,所述方法减轻在定序个别核酸链中产生的错误(例如检测到或未检测到错误标记)。
在一些实施例中,用于定序核酸的装置包含流体腔室、经构造成检测存在于流体腔室中的标记的多个S个磁传感器及至少一个处理器。流体腔室包含多个S个结合位点,所述S个结合位点中的每一者经构造成结合不超过一个核酸链。S个磁传感器中的每一者感测与S个结合位点的各别结合位点结合的核酸的各别链。所述至少一个处理器经构造成执行一个或多个机器可执行的指令,所述指令在执行时导致至少一个处理器在定序程序的多个M个查询步骤中的各查询步骤且针对S个磁传感器中的每一者(a)得到各别磁传感器的各别特性,其中所述各别特性指示至少一个标记的存在或不存在,及(b)至少部分地以所得到的各别特性为基础,来判定在查询步骤期间各别磁传感器是否检测到至少一个标记的存在或不存在。
在一些实施例中,系统包含多个S个结合位点(所述S个结合位点中的每一者经构造成结合不超过一个核酸链)、经构造成检测标记的多个S个传感器(例如磁性、光学传感器等)及至少一个处理器。S个传感器中的每一者经构造成感测与S个结合位点的各别结合位点结合的核酸的各别链。所述至少一个处理器经构造成执行一个或多个机器可执行的指令,所述指令在执行时导致至少一个处理器在定序程序的多个M个查询步骤中的各查询步骤且针对S个传感器中的每一者(a)得到各别传感器的各别特性,其中所述各别特性指示至少一个标记的存在或不存在,及(b)至少部分地以所得到的各别特性为基础,来判定在查询步骤期间各别传感器是否检测到至少一个标记的存在或不存在。另外,在执行时,所述一个或多个机器可执行的指令进一步导致至少一个处理器对至少一个记录进行错误校正程序,所述至少一个记录包含在M个查询步骤中的各步骤针对至少一个S个传感器子组的定序程序的结果。
在一些实施例中,一种使用SMAS装置定序多个S个核酸链的方法包括(a)使S个核酸链与S个结合位点结合,(b)进行包括M个查询步骤的定序程序以产生S个记录,所述S个记录中的每一者捕捉S个传感器中各别传感器的M个检测结果,所述M个检测结果中的每一者指示在M个查询步骤中的各别步骤期间,S个传感器中的各别传感器在流体腔室中是否检测到至少一个标记,及(c)对至少一个S个记录子组应用错误校正程序以估计S个核酸链中的至少一个链的核酸序列。
一些实施例为一种减轻由于使用单分子传感器阵列的核酸定序程序产生的定序数据的错误的方法,所述单分子传感器阵列具有多个传感器,所述多个传感器中的每一者与多个结合位点中的各别结合位点相关联,所述多个结合位点中的每一者经构造成结合不超过一个待定序的核酸链。在一些此类实施例中,所述方法包括(a)识别定序数据中的多个记录,所述多个记录中的每一者捕捉核酸的第一链的各别例项的各别定序结果,所述多个记录中的每一者具有多个条目,所述多个条目中的每一者指示对于核酸定序程序的多个查询步骤的各别步骤,(i)通过与核酸的第一链的各别例项相关的各别传感器检测到标记,或(ii)通过与核酸的第一链的各别例项相关的各别传感器没有检测到标记;(b)以多个记录为基础,判定核酸的第一链的多个候选序列,所述多个候选序列中的每一者估计核酸的第一链的核酸序列的至少一部分;及(c)识别所述多个候选序列中的特定候选序列为核酸的第一链的至少一部分核酸序列,所述特定候选序列从所述多个候选序列中为最可能正确的。
与以簇为基础的方法相比,所公开的定序及错误校正装置、系统及方法有望实现更高通量、更低错误率及更长读段长度。
附图说明
从结合附图进行的某些实施例的以下描述当可轻易地明了本发明的目标、特征及优点,其中:
图1说明根据一些实施例的磁传感器的一部分。
图2A及2B说明磁阻(MR)传感器的电阻,其可根据一些实施例进行使用。
图3A说明自旋转矩振荡器(STO)传感器,其可根据一些实施例进行使用。
图3B显示STO在实例条件下的实验反应。
图3C及3D说明STO的短纳秒场脉冲,其可根据一些实施例进行使用。
图4A说明簇定序装置的单个传感器,所述簇定序装置用于感测在其附近的一些N个克隆扩增的DNA链。
图4B说明示例性的多个S个单分子传感器,根据一些实施例,各传感器通过SMAS装置用于监测各别单链DNA(ssDNA)。
图5A为显示根据一些实施例的用于核酸定序的示例性SMAS装置的组件的方块图。
图5B、5C及5D说明根据一些实施例的用于核酸定序的示例性SMAS装置的部分。
图5E说明根据一些实施例的传感器的正方形格网(或格子)图案。
图6A说明根据一些实施例的传感器、处于螺旋状态中的DNA链及标记。
图6B说明根据一些实施例的传感器、长形DNA链及标记的示例性尺寸。
图7A说明根据一些实施例的用于估计SMAS装置的传感器阵列封装极限的示例性几何布置。
图7B说明根据一些实施例的以正方形格子布置的SMAS装置的传感器。
图8A及8B说明根据一些实施例的以六边形图案布置的SMAS装置的传感器。
图9A说明根据一些实施例的用于估计SMAS装置的传感器阵列封装极限的示例性几何布置。
图9B说明根据一些实施例的以六边形格子布置的SMAS装置的传感器。
图10比较示例性SMAS实施方案的密度与当前最先进技术簇定序装置。
图11说明根据一些实施例的使用SMAS装置定序多个核酸链的示例性方法。
图12为根据一些实施例的使用加性方法的定序程序的流程图。
图13说明根据一些实施例的加性定序方案。
图14为根据一些实施例的使用减性方法的定序程序的流程图。
图15说明根据一些实施例的减性定序方案。
图16为根据一些实施例的使用改进型加性方法的定序程序的流程图。
图17说明根据一些实施例的改进型加性定序方案。
图18A说明簇定序装置的失败的核苷酸并入(FNI)。
图18B说明SMAS装置的FNI。
图18C说明簇定序装置的失败的标记移除(FLR)。
图18D说明SMAS装置的FLR。
图18E说明簇定序装置的失败的核苷酸移除(FNR)。
图18F说明SMAS装置的FNR。
图18G说明簇定序装置的失败的核苷酸删除(FLD)。
图18H说明SMAS装置的FLD。
图19为根据一些实施例的使用具有FLR及FNI错误检测的改进型加性方法的示例性定序程序的流程图。
图20显示具有FNI及FLR错误的实例记录。
图21说明通过簇定序装置传感器检测到的预期信号级,所述传感器捕捉定序程序期间分子集体的行为。
图22说明根据一些实施例的当使用错误校正技术时SMAS装置如何提供更佳准确度。
图23说明根据一些实施例的通过在来自定序程序的检测结果的记录中删除若干串四个“未检测到标记”条目的FNI错误校正。
图24说明根据一些实施例的示例性SBS反应的结果。
图25说明较大簇尺寸于簇定序装置的碱基识别(base-calling)准确度的影响。
图26说明根据一些实施例的FLR及FNI错误的判定性错误校正。
图27说明检测数据中的FNI、FLR及FNR错误。
图28说明根据一些实施例的通过SMAS装置产生的数据的FLR错误校正及碱基识别。
图29说明根据一些实施例的通过SMAS装置产生的数据的FNI错误校正及碱基识别。
图30说明根据一些实施例的通过SMAS装置产生的数据的错误校正及碱基识别。
图31说明来自SMAS装置的示例性检测结果中的FNI、FLR、FNR及FLD错误。
图32说明根据一些实施例的对SBS期间通过SMAS装置捕捉的数据的错误校正程序的应用。
图33为说明根据一些实施例的错误校正程序的流程图。
图34A说明在查询步骤的平均信号强度,在所述步骤应检测到标记,因为引入且成功地并入匹配的核苷酸。
图34B说明从簇模型测得的强度的函数拟合。
图35绘示簇定序装置的概率函数。
图36说明簇定序装置的离散概率函数。
图37A说明簇定序装置的强度曲线。
图37B说明簇定序装置的概率分布函数。
图38A及38B绘示簇定序装置的概率函数。
图39说明在各种条件下簇定序装置的N-r参数空间。
图40A显示针对各种N-r组合的沿着Q30等高线的簇定序装置的计算概率。
图40B绘示簇定序装置的计算累积错误概率。
图41说明用于簇定序装置的N-r参数空间,其中在位置150处的不正确碱基识别的所述累积概率为小于或等于100分之一
Figure BDA0003938396850000051
1,000分之一
Figure BDA0003938396850000052
10,000分之一
Figure BDA0003938396850000053
及100,000分之一
Figure BDA0003938396850000061
图42说明用于SMAS装置的K-r参数空间的计算结果,其中根据一些实施例,在各查询步骤的不正确碱基识别的概率为小于100分之一(Q20)、1,000分之一(Q30)、10,000分之一(Q40)及100,000分之一(Q50)。
图43A及43B显示根据一些实施例的针对簇定序装置及SMAS装置的位置150处的不正确碱基识别的累积概率。
图44及45说明根据一些实施例的示例性样品制备及加载过程。
图46A、46B及46C说明根据一些实施例的示例性SMAS装置的仿真检测结果。
图47说明根据一些实施例的说明于图46A、46B及46C中的检测数据可如何进行重新布置以识别碱基且显示不同DNA链的位置。
图48A及48B绘示根据查询步骤数量C及化学失败率r进行不正确碱基识别的计算概率。
图49绘示根据一些实施例的样品制备及DNA加载中条形码的用途。
图50说明根据一些实施例的示例性系统160。
为了便于理解,在可能的地方使用相同参考数字表示图中共有的相同组件。经考虑公开于一个实施例中的组件可在没有特定叙述下有益地用于其它实施例中。此外,在一个附图的内文中对组件的描述可应用于说明所述组件的其它附图。
具体实施方式
本文的一些描述及实例是在DNA定序的内文中,但应明了,本公开一般适用于核酸定序。
术语及注记
如本文所用,术语“链”是指单个核酸链(例如ssDNA)。当指核酸时,术语“链”及“片段”可互换使用。
如本文所用,术语“多个”意味着两个或更多个,但不一定是全部。因此,多个传感器仅意味着至少两个传感器,而不一定是传感器阵列或定序装置/系统中的所有传感器。同样地,多个结合位点仅意味着至少两个结合位点,不一定是定序装置/系统中的所有结合位点。
如本文所用,术语“例项”在指核酸链时意味着模板核酸链或其拷贝(例如通过扩增或复制过程产生)。理想地,模板核酸链的拷贝与模板链相同,但如所属领域中已知,拷贝由于复制/扩增错误而不一定相同。应明了,即使扩增程序引入错误,通过扩增产生的重复体仍视作原始核酸链的拷贝。因此,链的所有例项理想上彼此相同但可能是不相同。
如本文所用,术语“查询循环”是指核酸定序程序的单个循环,在所述循环期间,引入所有可能的核苷酸以判定哪一个(若有的话)被引入到经定序的链中。例如,对于DNA定序程序,所有腺嘌呤(A)、胸腺嘧啶(T)、胞嘧啶(C)及鸟嘌呤(G)均以某种(任意)顺序(所述顺序不需要各查询循环都相同)进行测试。如下文所详细说明,取决于所选择的定序程序,在单个定序循环期间每个链可检测到超过一个标记。
如本文所用,术语“查询步骤”是指定序程序的步骤或步骤集合,在所述程序期间,判定定序装置的一个或多个传感器是否检测标记。对于遍及所有A、T、C及G的DNA定序循环,每个查询循环有四个查询步骤(各核苷酸一个)。对于使用中的传感器,各查询步骤产生单次判定所述传感器是否在检测标记。
如本文所用,术语“检测结果”是指指示以下的值:(a)在查询步骤期间检测到标记或(b)在查询步骤期间没有检测到标记。在一些实施例中,检测结果为二进制值(例如0或1)。检测结果可从其它数据(例如表示电阻、频率、强度等的信号;电阻、频率、强度等的测量)得出。
如本文所用,术语“记录”是指单个传感器的检测结果的存储的表示。若所选择的定序程序具有M个查询步骤,则在定序程序完成后,各记录具有M个检测结果。可将S个传感器的记录存储在单个文件中(例如以具有S个行及M个列、或S个列及M个行的表),或可针对各别传感器的记录建立单独文件。
如本文所使用,关于包含在记录中的检测结果,术语“串”意味着连续相同值序列。
术语“传感器”及“感测组件”在本文中可互换使用。
所述变量S在本文中用于指多个传感器中的传感器的数量。所述S个传感器可为感测相同链的例项,或其可为感测不同链的例项。
所述变量K在本文中用于指多个传感器中全部感测相同链的例项的传感器的数量。
标记
用于本文描述的核酸定序的方法使用包含可切割的标记的经标记的核苷酸前体。这些可切割的标记可为例如磁性、荧光、有机金属或带电荷分子。
各标记可包含例如磁性纳米粒子,如例如分子、超顺磁性纳米粒子或铁磁性粒子。磁标记可为具有高磁性各向异性的纳米粒子。具有高磁性各向异性的纳米粒子的实例包括(但不限于)Fe3O4、FePt、FePd及CoPt。为了促进对核苷酸的化学结合,所述粒子可经合成且经SiO2涂布。参见,例如阿斯兰马克(M.Aslam)、福莱斯(L.Fu)、李斯(S.Li)及德拉维德凡彼得(V.P.Dravid),“FePt纳米粒子的二氧化硅封装及磁性性质(Silica encapsulation andmagnetic properties of FePt nanoparticles)”,胶体与界面科学期刊(Journal ofColloid and Interface Science),第290卷,第2期,2005年10月15日,第444到449页。因为此种尺寸的磁标记具有永久磁矩,其方向在极短时间标度上随机波动,故以下进一步描述的一些实施例仰赖于敏感感测方案,所述方案检测由于磁标记的存在引起的磁场的波动。
各标记可包含例如荧光团。荧光标记为所属领域中熟知且适合与本文公开内容一起使用。
标记可包含例如有机金属化合物。如所了解,有机金属化合物为包含至少一个金属-碳键(其中所述碳为有机基团的一部分)的一类物质的任何成员。有机金属化合物的实例包括吉尔曼试剂(Gilman reagent)(其包含锂及铜)、格林纳试剂(Grinard reagent)(其包含镁)、四羰基镍及二茂铁(其包含过渡金属)、有机锂化合物(例如正丁基锂(n-BuLi))、有机锌化合物(例如二乙基锌(Et2Zn))、有机锡化合物(例如氢化三丁基锡(Bu3SnH))、有机硼烷化合物(例如三乙基硼烷(Et3B))及有机铝化合物(例如三甲基铝(Me3Al))。
标记可包含例如带电荷分子。
有多种方法可将标记附接到核苷酸前体且在并入核苷酸前体之后切割标记。例如,可将标记附接到碱基,在所述情况下,其可以化学方式切割。作为另一个实例,可将标记附接到磷酸酯,在所述情况下,其可通过聚合酶切割,或若经连接子附接,则通过切割连接子进行切割。
在一些实施例中,将标记连接到核苷酸前体的含氮碱基(例如A、C、T、G或衍生物)。在并入核苷酸前体且通过(例如如以下进一步详细描述的)定序装置检测之后,从所并入的核苷酸切割标记。
在一些实施例中,标记是经由可切割的连接子附接。可切割的连接子是所属领域中已知的且已描述于例如第7,057,026号、第7,414,116号美国专利及其连续案及改进案中。在一些实施例中,标记是经包含烯丙基或迭氮基的连接子附接到嘧啶中的5位置或嘌呤中的7位置。在其它实施例中,连接子包含二硫键、吲哚或西伯(Sieber)基团。所述连接子可进一步包含一个或多个选自烷基(C1-6)或烷氧基(C1-6)、硝基、氰基、氟基团或具有类似性质的基团的取代基。简单来说,所述连接子可通过水溶性膦或含膦基过渡金属的催化剂切割。其它连接子及连接子切割机制是所属领域中已知的。例如,包含三苯甲基、对烷氧基苄基酯及对烷氧基芐基酰胺及第三丁氧基羰基(Boc)基团及缩醛系统的连接子可在酸性条件下通过质子释放切割剂切割。硫缩醛或其它含硫连接子可使用亲硫金属(如镍、银或汞)切割。可切割的保护基还可考虑用于制备适合连接子分子。含酯连接子及含二硫键连接子可在还原条件下切割。含有三异丙基硅烷(TIPS)或第三丁基二甲基硅烷(TBDMS)的连接子可在F离子的存在下切割。可通过不影响反应混合物的其它组分的波长切割的可光切割的连接子包括包含O-硝基苄基基团的连接子。包含苄基氧基羰基基团的连接子可通过以Pd为主的催化剂切割。
在一些实施例中,核苷酸前体包含附接到磷酸酯部分的标记,如例如第7,405,281号及第8,058,031号美国专利中所述。简单来说,核苷酸前体包含核苷部分及3个或更多个磷酸酯基团的链,其中所述氧原子中的一者或多者任选地经例如S取代。所述标记可直接或经连接子附接到α、β、γ或更高的磷酸酯基团(若存在的话)。在一些实施例中,标记是经非共价连接子附接到磷酸酯基团,如例如第8,252,910号美国专利中所述。在一些实施例中,所述连接子为选自以下的烃:经取代或未经取代的烷基、经取代或未经取代的杂烷基、经取代或未经取代的芳基、经取代或未经取代的杂芳基、经取代或未经取代的环烷基及经取代或未经取代的杂环烷基;参见,例如第8,367,813号美国专利。所述连接子还可包含核酸链;参见,例如第9,464,107号美国专利。
在其中将标记连接到磷酸酯基团的实施例中,核苷酸前体是通过核酸聚合酶并入到新生链中,所述核酸聚合酶还切割且释放可检测的标记。在一些实施例中,标记是通过切割连接子来移除,例如,如第9,587,275号美国专利中所述。
在一些实施例中,核苷酸前体为不可延伸的“终止子”核苷酸,也就是说3’端经阻断“终止子”基团阻断而无法添加下一个核苷酸的核苷酸。所述阻断基团是可逆终止子,其可经移除以便继续如本文所述的链合成过程。将可移除的阻断基团附接到核苷酸前体是所属领域中已知的。参见,例如第7,541,444号、第8,071,739号美国专利及其连续案及改进案。简单来说,阻断基团可包含烯丙基基团,其可通过在水溶液中与金属-烯丙基络合物在膦或氮-膦配体的存在下反应来切割。用于合成定序中的可逆终止子核苷酸的其它实例包括经修饰的核苷酸,所述经修饰的核苷酸描述于2019年12月16日申请且标题为“3'保护的核苷酸(3'-protected Nucleotides)”的第PCT/US2019/066670号国际申请案中,所述申请案经公开为WO/2020/131759。
传感器
用于本文描述的核酸定序装置、系统及方法中的传感器的特性及能力取决于所使用的标记的选择。传感器可为例如磁传感器(以检测例如磁性纳米粒子、有机金属化合物等)或光学传感器(以检测例如荧光团)。应明了,其它类型的传感器可适合于检测各种类型的标记,且本文描述的实例无意为限制性的。一般来说,所公开的装置、系统及方法可使用可通过所选择类型的传感器检测的任何类型的标记,且相反地,所公开的装置、系统及方法可使用可检测所选择类型的标记的存在(及不存在)的任何类型的传感器。
参考数字105在本文中一般用于单分子传感器,而与那些单分子传感器的类型无关(且与其检测的标记的类型无关)。参考数字15用于感测核酸链簇的传感器。
磁传感器
本文公开的一些实施例使用磁传感器来检测偶联到核苷酸前体的磁标记(例如磁性纳米粒子、有机金属络合物、带电荷分子等)的存在。图1说明根据一些实施例的磁传感器105的一部分。图1的示例性磁传感器105具有底表面108及顶表面109且包含三个层,例如由非磁性间隔层107隔开的两个铁磁层106A、106B。非磁性间隔层107可为例如金属性材料,如,例如铜或银,在所述情况下,所述结构称为自旋阀(SV),或其可为绝缘体,如,例如氧化铝或氧化镁,在所述情况下,所述结构称为磁性隧道结(MTJ)。用于铁磁层106A、106B中的适合材料包括例如Co、Ni及Fe(有时与其它元素混合)的合金。在一些实施例中,铁磁层106A、106B经工程化以使其磁矩定向于膜的平面中或垂直于膜的平面。另外材料可在显示于图1中的三个层106A、106B及107的下方及上方沉积以实现目的,如界面平滑、纹理化及保护免受用于图案化其中并入传感器105的装置的处理,但所述磁传感器105的活性区域位于此三层结构中。因此,与磁传感器105接触的组件可与三个层106A、106B或107中的一者接触,或其可与磁传感器105的另一部分接触。
如图2A及2B中所显示,MR传感器的电阻是与1-cos(θ)成比例,其中θ为显示于图1中的两个铁磁层106A、106B的磁矩之间的角度。为了最大化由磁场产生的信号且提供磁传感器105对施加的磁场的线性反应,磁传感器105可设计成使得两个铁磁层106A、106B的磁矩定向为π/2弧度或在不存在磁场下相对于彼此成90度。这种定向可通过所属领域中已知的许多方法来实现。例如,一种解决办法是使用反铁磁体透过称为交换偏压的作用来“固定”铁磁层(106A或106B,指定为“FM1”)中的一者的磁化方向且然后用具有绝缘层及永久磁铁的双层涂覆传感器。绝缘层避免磁传感器105的电短路,且永久磁铁提供垂直于FM1的固定方向的“硬偏压”磁场,所述磁场然后会使第二铁磁体(106B或106A,指定为“FM2”)旋转且产生所期构造。平行于FM1的磁场然后使FM2绕着此90度构造旋转,且电阻变化导致电压信号可经校准以测量作用于磁传感器105上的磁场。依此方式,磁传感器105用作磁场与电压转换器。
应注意,尽管以上刚刚论述的实例描述其磁矩在膜平面中相对于彼此成90度定向的铁磁体的用途,但垂直构造可或者通过将铁磁层106A、106B中的一者的磁矩定向于膜平面之外来实现,此定向可使用称为垂直磁各向异性(PMA)者来实现。
在一些实施例中,磁传感器105使用称为自旋转移转矩的量子机械效应。在此种装置中,通过SV或MTJ中的一个铁磁层106A(或106B)的电流优先允许具有平行于层的磁矩的自转的电子传输通过,而具有反平行自旋的电子更可能被反射。依此方式,电流变得自旋极化,其中一种自旋类型的电子比另一种自旋类型的电子更多。这种自旋极化电流然后与第二铁磁层106B(或106A)相互作用,从而于层的磁矩上施加转矩。这转矩可在不同情况下导致第二铁磁层106B(或106A)的磁矩围绕作用于铁磁体时的有效磁场进动,或其可导致磁矩在通过在系统中感应的单轴各向异性限定的两种定向之间可逆地切换。所产生的自旋转矩振荡器(STO)通过改变作用于其的磁场而可调谐频率。因此,其具有充当磁场与频率(或相位)转换器(从而产生具有频率的AC信号)的能力,如图3A中所显示,其说明使用STO传感器的概念。图3B显示当跨STO施加具有1GHz的频率及5mT的峰与峰幅度的AC磁场时透过延迟检测电路的STO的实验反应。此结果及那些显示于短纳秒场脉冲的图3C及3D中的结果说明这些振荡器可如何用作纳米级磁场检测器。进一步的细节可见于纳加萨瓦特(T.Nagasawa)、苏托哈(H.Suto)、库多克(K.Kudo)、杨特(T.Yang)、米佐思科(K.Mizushima)及萨托日(R.Sato),“在纳秒脉冲磁场下来自自旋力矩振荡器的频率调节信号的延迟检测(Delaydetection of frequency modulation signal from a spin-torque oscillator undera nanosecond-pulsed magnetic field)”,应用物理期刊(Journal of AppliedPhysics),第111卷,07C908(2012)中。
光学传感器
一些核酸定序方法使用荧光标记。在此类方法中,将所定序的核酸分子固定于固体支撑物上,且监测荧光标记的靶分子(例如核苷酸)与分子的结合。光学仪器(例如用于荧光的激发及读取装置)提供某一波长的光以激发荧光标记且检测从所述标记以稍微不同的波长发射的荧光。因为激发光的光束路径(光路径)必须至少部分不同于荧光的光束路径(光路径),故可使用激发及发射过滤器(其光谱没有明显重叠)来实现光谱分离,及/或可使用垂直或侧面照明。
所属领域中熟知使用荧光标记(例如荧光团)的光学传感器及定序装置及方法。
扩增/复制
核酸定序装置一般仰赖于扩增(或复制)过程以从单个核酸链产生大量核酸例项(例如来自一个DNA分子的单侧DNA链(ssDNA)的例项)。聚合酶链反应(PCR)是一种用于扩增双链DNA的熟知方法,所述方法使得能够从少量初始量复制大量DNA。
簇定序装置
一些定序装置(在本文中称为簇(CLUS)装置)使用扩增技术来形成许多DNA链的局部簇。例如,一条DNA链用作模板,且PCR扩增在局部区域中产生数千或数百万个DNA序列例项。将PCR引物的至少一部分固定到固体支撑物,所述固体支撑物允许产生的DNA分子固定到局部簇以便形成可区分的“纯系”。产生的DNA簇可包含ssDNA。克隆扩增技术的实例包括桥式PCR及乳液PCR,包括以微珠为主的乳液PCR。对于桥式扩增,使用附接到固体表面(如载玻片)的引物通过原位PCR扩增单个DNA分子以形成DNA簇。各DNA簇是由DNA链的例项组成的物理分离的“纯系”。对于以乳液PCR为基础的克隆扩增,单个DNA分子是在乳液液滴中克隆扩增。在一些方法中,将DNA链附接到液滴内部的微珠。单分子的克隆扩增还可在单独微孔中进行。
如本文所用,术语“簇”是指理想地具有相同序列的核酸链的局部簇,其系通过克隆扩增产生。当核酸为DNA时,簇包含(理想地)附接到固体支持物的相同DNA链(或片段)。例如,簇可在载玻片的斑点上产生或附接到微珠、微孔或其它微粒。
CLUS装置用于以荧光为基础的DNA定序的用途是熟知的。
使用磁传感器阵列的用于使用簇的核酸定序的定序装置描述于例如2021年3月7日申请且标题为“用于核酸定序的磁性感测器阵列及其制造及使用方法(MAGNETIC SENSORARRAYS FOR NUCLEIC ACID SEQUENCING AND METHODS OF MAKING AND USING THEM)”(代理人档案编号ROA-1001-WO/P35967-WO)的第PCT/US2021/021274号PCT申请案中。
图4A说明CLUS装置的单个传感器15,所述CLUS装置用于感测在其附近的一些N个克隆扩增的DNA链101。传感器15可为例如磁传感器以感测附接到并入的核苷酸的磁标记。为了方便起见,图4A显示与传感器15接触的链101,但应明了在传感器15与链100之间可存在障壁(例如绝缘层)。传感器15可为例如如上文引用的第PCT/US2021/021274号PCT申请案中所述的磁传感器。
当前最先进技术商业CLUS装置(如那些感测荧光标记者)可使用数亿个传感器15,各传感器感测各别扩增的DNA链101的许多例项。一些CLUS装置的一个缺点是实现最佳簇密度对于高质量定序可为至关重要。具体来说,使用大簇倾向于提供较高数据质量,但降低数据输出,而使用小簇可导致运行失败,运行性能差,Q30分数较低,引入定序工件,及降低总数据输出。为减轻这些问题,较新的CLUS装置使用图案化流动池,所述流动池具有不同纳米孔以用于簇产生。这些纳米孔经组构成六边形布置以可更有效地使用流动池表面积。
单分子阵列定序装置
单分子阵列定序装置(本文称为“SMAS装置”)为CLUS装置的替代品。与感测且定序单个核酸链的多个例项的局部簇的CLUS装置相反,SMAS装置使用个别地感测及定序核酸的个别链的传感器。一般来说,在SMAS装置中,没有传感器会感测超过一个物理核酸链,但不同传感器感测相同链的例项。换句话说,存在核酸链的多个例项,但各感测到的链通过不同各别传感器来感测。取决于所使用的扩增技术,所述个别链可随机分布于SMAS装置的流体腔室中,或其可位于更多局部区域中。如以下进步论述,可识别特定链的例项的位置,且可在识别碱基之前将错误校正程序应用于对应于所述例项的检测结果以相对于CLUS装置改进定序的准确度。除此之外,相对于CLUS装置,对于合理的化学失败率,SMAS装置需要待定序的各核酸链的更少例项以实现准确定序结果。
图4B说明示例性的多个S个单分子传感器105,各传感器通过SMAS装置用于监测各别单链DNA(ssDNA)101。所述多个S个传感器105中的每一者可为例如磁传感器、光学传感器等。图4B说明五个单分子传感器105A、105B、105C、105D及105E,其各者感测各别DNA链101(其可为相同DNA链的例项,或不同DNA链的例项)。各传感器105可为例如纳米级传感器,其是如此之小以致于仅单个DNA链101可结合到与传感器105相关的结合位点。(为了方便起见,图4B显示与传感器105接触的链101,但如下文进一步说明,在一些实施例中,将链100附接到个别结合位点,所述结合位点各者与各别传感器105相关联。)
考虑结合到包含密集封装的传感器105阵列的固体表面的克隆扩增的DNA,如图4B中所显示。DNA可通过固相扩增(SPA)复制以建立单克隆DNA簇,各链意欲通过不同传感器105感测,或DNA可大量扩增且然后固定于SMAS装置的表面上。若DNA在SMAS装置的流体腔室的表面上扩增(例如通过SPA),则传感器105A、105B、105C、105D、105E可感测克隆DNA的例项。或者,若DNA在装置外大量扩增且添加到SMAS装置的流体腔室,则经扩增的DNA链101可更随机地分布于传感器105中。
图5A为显示根据一些实施例的用于核酸定序的示例性SMAS装置100的组件的方块图。如图所示,装置100包括传感器阵列110,其耦接到电路120,所述电路耦接到至少一个处理器130。传感器阵列110包括多个传感器105(例如磁传感器、光学传感器等),其可以任何适合方式布置,如以下进一步描述。传感器阵列110中的传感器105的特性及性质取决于用于定序的标记的类型。
电路120可包括例如一条或多条线,其允许传感器阵列110中的传感器105通过至少一个处理器130讯问(例如借助于所属领域中熟知的其它组件,如电流源等)。例如,在操作中,处理器130可导致电路120施加电流到此类线以检测传感器阵列110中的多个传感器105中的至少一者的特性,其中所述特性指示在传感器105的范围存储器在标记或不存在任何标记。换句话说,特性(例如电阻、频率、电压、信号级等)指示传感器105已检测到至少一个标记或尚未检测到任何标记。例如,所述至少一个处理器130可评定特性(例如频率、波长、磁场、电阻、噪声级、强度、光的颜色等)的值且以特性值与阈值的比较(例如通过判定传感器105的特性值是否满足或超过阈值)或基线值为基础来判定检测到(或未检测到)标记。作为另一个实例,所述至少一个处理器130可比较所得到的传感器105的特性与先前检测到的特性值(例如传感器105的基线值)且以特性值的变化(例如磁场、电阻、噪声级、频率、波长、强度、光的颜色等的变化)为基础检测到或未检测到标记的判定。例如,如以下在图19的论述中进一步描述,所述至少一个处理器130可评估从传感器105得到的特性以检测在定序程序的第一查询步骤期间检测到标记的传感器105在应已移除标记的切割步骤之后是否仍检测到所述标记。类似地,所述至少一个处理器130可评估从一个查询步骤到下一个查询步骤的特性变化以判定传感器105(a)在任一查询步骤期间未检测到标记,(b)在两个查询步骤期间检测到标记,(c)在第一查询步骤期间未检测到标记但在随后查询步骤期间检测到标记,及/或(d)在第一查询步骤期间检测到标记但在随后查询步骤期间未检测到标记。
检测到的特性取决于用于定序程序中的标记的类型。所述标记可为例如荧光,在所述情况下,传感器105可为可检测例如由荧光标记发出的光的波长、频率、调变频率、颜色或强度的光学检测器。适用于检测荧光标记的光学传感器为所属领域中熟知。在用于核酸定序程序中的标记为荧光的情况下,在一些实施例中,电路120允许至少一个处理器130检测通过传感器阵列110中的一些或全部传感器105检测到的光(或电磁能)的偏差或波动。
所述标记可为例如磁性(例如磁性纳米粒子、有机金属化合物、带电荷分子等),在所述情况下,传感器105可为可检测磁性特性的磁传感器。磁传感器已描述于申请人的先前申请的专利申请案中,包括例如2020年4月8日申请的标题为“通过使用磁性感测器阵列的通过合成进行核酸定序(NUCLEIC ACID SEQUENCING BY SYNTHESIS USING MAGNETICSENSOR ARRAYS)”(代理人档案编号ROA-1000-WO/P35097-WO)且于2020年10月15日以WO2020/210370公开的第PCT/US20/27290号PCT申请案。在其中标记为磁性的一些实施例中,传感器105为可检测例如磁场或电阻、磁场的变化或电阻的变化、或噪声级的磁阻(MR)传感器。在一些实施例中,传感器阵列110的传感器105中的每一者为薄膜装置,其使用MR效应以检测附接到并入与各别结合位点结合的核酸的单链中的核苷酸的磁标记。传感器105可用作电阻随感测到的磁场的强度及/或方向变化而变化的电势计。在使用磁标记的一些实施例中,传感器105包含磁性振荡器(例如自旋转矩振荡器(STO)),且指示是否检测到至少一个标记的特性是与磁性振荡器相关联或通过磁性振荡器产生的信号的频率或信号的频率的变化。
在用于核酸定序程序中的标记为磁性的情况下,在一些实施例中,所述至少一个处理器130在电路120的帮助下检测传感器阵列110中的一些或全部传感器105的磁性环境中的偏差或波动。例如,与存在磁标记的传感器105相比,不存在磁标记的MR类型的传感器105应在一定频率以上具有相对小的噪声,因为来自磁标记的场波动将导致感测铁磁体的磁矩的波动。这些波动可使用外差检测(例如通过测定噪声功率密度)或通过直接测定传感器105的电压测定且使用比较器电路以比较与不感测结合位点的另一个传感器组件加以评定。在传感器105包括STO组件的情况下,由于频率的瞬时变化,来自磁标记的波动磁场将导致传感器105的相位跃变,此可使用相位检测电路来检测。另一个选项是将STO设计成使得其仅在小磁场范围内振荡,因此磁标记的存在将关闭振荡。
应了解,以上提供的标记及传感器105的实例仅为示例性。一般来说,可标记核苷酸前体的任何类型的标记可与可检测所述类型的标记的任何类型的传感器105的阵列110一起使用。
图5B、5C及5D说明根据一些实施例的用于核酸定序的示例性SMAS装置100的部分。示例性SMAS装置100使用磁标记及磁传感器105。图5B是装置100的俯视图。图5C是在由图5B中标记为“5C”的长虚线指示的位置处的横截面视图,及图5D是在由图5B中标记为“5D”的长虚线指示的位置处的横截面视图。
显示于图5B、5C及5D中的示例性装置100包含用于感测流体腔室115内的磁标记的传感器阵列110。传感器阵列110包括多个磁传感器105,其中在图5B的阵列110中显示十六个传感器105。应明了,SMAS装置100的实施案可包括许多传感器105(例如数百、数千或数百万个传感器105)。为了避免混淆附图,在图5B中仅标记传感器105中的七个,也就是说传感器105A、105B、105C、105D、105E、105F及105G。如上文所说明,磁传感器105检测磁标记的存在或不存在。换句话说,磁传感器105中的每一者检测在其附近是否存在至少一个磁标记。
现参考图5C及5D结合图5B,各传感器105绘示于装置100的示例性实施例中,其具有圆柱体形状。然而,应明了,一般来说,传感器105可具有任何适合形状。例如,传感器105在三个维度上可为长方体。此外,不同传感器105可具有不同形状(例如一些可为长方体及其它可为圆柱体等)。应明了,附图仅为示例性。
如图5C及5D中所显示,装置100包括流体腔室115。流体腔室115包含多个结合位点116(例如S个结合位点116)。在一些实施例中,流体腔室115容纳在核酸定序程序期间使用的流体(例如核苷酸前体及其它流体)。然而,应明了,其中流体腔室115不容纳流体的实施例经考虑且在本文公开内容的范围内。例如,结合位点116可布置于可移除的(或可移动的)部分(例如面板、板、载玻片(slide)等)上,可在已将核酸链附接到结合位点116之后将所述部分浸入到试剂及其它流体中且然后放置成使得传感器105可检测标记。因此,尽管流体腔室115的名称显示其容纳流体,但并不需要流体腔室115容纳流体。
如图5B、5C及5D中所显示,传感器105中的每一者是与各别结合位点116相关联。(为了简单起见,本文件一般通过参考数字116指代结合位点。对个别结合位点给予参考数字116,后跟一个字母。)换句话说,传感器105及结合位点116是处于一对一的关系。如图5B中所显示,传感器105A是与结合位点116A相关联,传感器105B是与结合位点116B相关联,传感器105C是与结合位点116C相关联,传感器105D是与结合位点116D相关联,传感器105E是与结合位点116E相关联,传感器105F是与结合位点116F相关联,及传感器105G是与结合位点116G相关联。显示于图5B中的其它未经标记的传感器105中的每一者还与各别结合位点116相关联。在图5B、5C及5D的实例实施例中,显示各传感器105布置于其各别结合位点116下方,但应明了结合位点116可相对于其各别传感器105处于其它位置。例如,结合位点116可位于其各别传感器105的侧面。
结合位点116中的每一者是经构造成使不超过一个核酸链(例如ssDNA)结合到SMAS装置100的流体腔室115内。换句话说,各结合位点116具有允许核酸的一个且仅一个链结合到其以用于通过各别传感器105感测(且用于定序)的特性及/或特征。此后,各别传感器105可在核酸定序程序期间检测附接到并入与结合位点116结合的核酸链中的核苷酸的标记,如下文进一步论述。在一些实施例中,结合位点116具有经构造成锚定核酸到结合位点116的结构(或多个结构)。例如,所述结构(或所述结构)可包括空腔(cavity)或脊。图5C及5D将结合位点116说明为从流体腔室115的表面延伸,但应明了结合位点116可与流体腔室115的表面齐平或经蚀刻到流体腔室115的表面中。
结合位点116可具有有利于将核酸的一个且仅一个链附接到各结合位点116的任何适合尺寸及形状。例如,结合位点的形状可与传感器105的形状类似或相同(例如若传感器105在三个维度上是圆柱体,则结合位点116还可为圆柱体,从流体腔室115的表面突出或形成流体容器于流体腔室115的表面内,其半径可为与各别传感器105的半径相比更大、更小的尺寸或与的相同的尺寸;若传感器105在三个维度上是长方体,则结合位点116还可为表面116与传感器105的最接近部分相比更大、更小的尺寸或与之相同的尺寸的长方体等)。一般来说,结合位点116及流体腔室115的表面可具有有利于单个核酸链附接到各结合位点116且允许传感器105检测在其各别结合位点116处附接到并入的核苷酸的标记的任何形状及特性。
图5C及5D说明具有在x-y平面中延伸的顶部部分的经封闭流体腔室115,但不需要封闭流体腔室115。在一些实施例中,流体腔室115的表面具有保护传感器105不受流体腔室115中的任何流体影响,同时仍允许核酸链与结合位点116结合及允许传感器105以检测附接到并入与结合位点116附接的核酸链中的核苷酸的标记的性质及特性。流体腔室115的材料(且可能结合位点116的材料)可为绝缘体或包含绝缘体。在一些实施例中,流体腔室115的表面包含有机聚合物、金属或硅酸盐。流体腔室115可包括例如金属氧化物、二氧化硅、聚丙烯、金、玻璃或硅。流体腔室115的表面的厚度可经选择使得传感器105可检测附接到并入与流体腔室115内的结合位点116结合的核酸链中的核苷酸的磁标记。在一些实施例中,所述表面为约3到20nm厚使得各传感器105介于距附接到并入与传感器105的相应结合位点116结合的核酸链中的核苷酸的任何标记约5nm与约50nm之间。应了解,这些值仅为示例性。应了解,实施案可具有具有较厚或较薄表面的流体腔室115。
装置100的电路120可包括一条或多条线125。在一些实施例中,多个传感器105中的每一者耦接到至少一条线125。在显示于图5B、5C及5D中的实例中,装置100包括八条线125A、125B、125C、125D、125E、125F、125G及125H。(为了简单起见,本文件一般通过参考数字125指代线。对个别线给予参考数字125,后跟一个字母。)线125对可用于访问(例如讯问)个别传感器105。在显示于图5B、5C及5D中的示例性实施例中,传感器阵列110的各传感器105耦接到两条线125。例如,传感器105A耦接到线125A及125H;传感器105B耦接到线125B及125H;传感器105C耦接到线125C及125H;传感器105D耦接到线125D及125H;传感器105E耦接到线125D及125E;传感器105F耦接到线125D及125F;及传感器105G耦接到线125D及125G。在图5B、5C及5D的示例性实施例中,显示线125A、125B、125C及125D位于磁传感器105下方,及显示线125E、125F、125G及125H位于磁传感器105上方。图5C显示关于线125D及125E的传感器105E、关于线125D及125F的传感器105F、关于线125D及125G的传感器105G、及关于线125D及125H的传感器105D。图5D显示关于线125D及125H的传感器105D、关于线125C及125H的传感器105C、关于线125B及125H的传感器105B、及关于线125A及125H的传感器105A。
图5B、5C及5D的示例性SMAS装置100的传感器105经布置在矩形图案传感器阵列110中。(应明了,正方形图案为矩形图案的特殊情况。)线125中的每一者标识传感器阵列110的行或列。例如,线125A、125B、125C及125D中的每一者标识传感器阵列110的不同行,及线125E、125F、125G及125H中的每一者标识传感器阵列110的不同列。如图5C中所显示,线125E、125F、125G及125H中的每一者是顺着横截面与传感器105中的一者接触(也就是说线125E是与传感器105E的顶部接触,线125F是与传感器105F的顶部接触,线125G是与传感器105G的顶部接触,及线125H是与传感器105D的顶部接触),及线125D是与传感器105E、105F、105G及105D中的每一者的底部接触。类似地,且如图5D中所显示,线125A、125B、125C及125D中的每一者是顺着横截面与传感器105中的一者的底部接触(也就是说线125A是与传感器105A的底部接触,线125B是与传感器105B的底部接触,线125C是与传感器105C的底部接触,及线125D是与传感器105D的底部接触),及线125H是与传感器105D、105C、105B及105A中的每一者的顶部接触。
图5B中使用虚线绘示传感器105及连接到传感器阵列110的线125的部分以指示可将其嵌入装置100内。如上文所说明,传感器105可经保护(例如通过绝缘体)不受流体腔室115的内含物影响,所述流体腔室115本身可进行封闭。因此,应了解,各种所说明的组件(例如线125、传感器105、结合位点116等)在装置100的物理实例化中不一定是可见的(例如其可经嵌入保护材料如绝缘体中或通过保护材料如绝缘体覆盖)。
在一些实施例中,一些或全部结合位点116驻留在穿过传感器105的线125中的纳米孔或沟槽中。例如,如图5D的实例中所显示,线125H可于传感器105上比其在传感器105之间更细。例如,线125H具有于传感器105D上方的第一厚度、在传感器105D及105C之间的第二较大厚度及在传感器105C上方的第一厚度。这一构造可使用常规薄膜制造方法(例如通过沉积材料,施加屏蔽到所沉积的材料,及根据屏蔽移除(例如通过蚀刻)一些所沉积的材料)来有利地制造。结合位点116及(若存在的话)纳米孔均可使用常规技术来制造。
为了简化说明,图5B、5C及5D说明示例性装置100,其具有在传感器阵列110中的仅十六个传感器105、仅十六个各别结合位点116及八条线125。应明了,装置100可具有在传感器阵列110中的更少或更多个传感器105,且因此,且可具有更多个或更少个结合位点116。类似地,包括线125的实施例可具有更多或更少条线125。一般来说,可使用传感器105及结合位点116的任何构造,其允许传感器105检测附接到并入与结合位点116附接的单个核酸链中的核苷酸的标记。类似地,可使用一条或多条线125或允许判定传感器105是否已感测到一个或多个标记的某种其它机制的任何构造。本文呈现的实例无意为限制性的。
如以上所说明,显示于图5B、5C及5D中的传感器105可为磁传感器105。因此,传感器105紧邻结合位点116,且因此,其还紧邻结合到结合位点116的核酸链。应了解,传感器阵列110相对于结合位点116的适合位置部分取决于所使用的标记的类型,及因此取决于所使用的传感器105的类型。例如,若标记为荧光团,且传感器105为光学传感器,则传感器阵列110远离结合位点116(例如位于结合位点116上方)可能是适合的。
尽管图5B、5C及5D(及本文其它附图)以一对一的关系说明传感器105及结合位点116,但应明了,各结合位点116可通过超过一个传感器105感测。将SMAS装置100与CLUS装置区分开的特性是SMAS装置100的传感器105没有感测到超过一个核酸链例项。若SMAS装置100具有比结合位点116更多的传感器105,则通过多个传感器105感测至少一些核酸链(例如以改进标记检测的准确度)可为可行的。
显示且描述于图5B、5C及5D的内文中的示例性传感器阵列110为矩形阵列,其中传感器105以行及列布置。换句话说,传感器阵列110的所述多个传感器105以矩形格网图案布置。在一些实施例中,矩形格网图案的相邻行及列是彼此等距,此导致传感器105以正方形格网(或格子)图案布置,如图5E中所说明。在其中传感器105以正方形栅格图案布置的实施例中,各传感器105具有多达四个最近相邻者。例如,如图5E中所显示,传感器105A具有四个最近相邻者,标记为105B、105C、105D及105E。如图5E中所显示,最接近的传感器105相距最近相邻距离112。因此,传感器105B、105C、105D及105E中的每一者与传感器105A相距距离112。
商业上可行的SMAS装置100可使用能够识别个别标记的密集封装的纳米级传感器105的高精度纳米级制造。官能化结合位点116的尺寸可类似于例如附接标记的DNA的尺寸,使得多个链不能结合到相同结合位点116或不能被相同传感器105感测到。用于评估定序仪的商业竞争力的公认指标是将DNA链一起封装于流体腔室115中的密度程度。
可以传感器105的性质、装置100意欲定序的核酸链的长度及所使用的标记的性质为基础来确定最近相邻距离112的适合值,然后可将所述适合值用于确定SMAS装置100的尺寸及/或可装配于选定尺寸的SMAS装置100内的传感器105的最大数量。例如,核酸链的组合长度及待使用的标记的尺寸可针对SMAS装置100中的两个传感器105可进行定位的接近程度提供物理限制。在一些实施例中,传感器105的尺寸可受到用于制造SMAS装置100的工艺的纳米级图案化能力的限制。例如,使用在写入之时可用的技术,各磁传感器105(例如假设是圆柱体传感器105,则是传感器105在x-y平面内的直径)的尺寸可为约20nm。假设待定序的核酸的类型为DNA,且期望定序长度多达150个碱基对(bp)的片段,则在长形状态下待定序的DNA链101的最大长度为约50nm,尽管ssDNA构形可在长形及螺旋状之间变化,如图6A中所显示,取决于缓冲液的离子强度。因为标记102参与单分子反应,故标记102应具有分子尺寸。对于使用磁传感器105的SMAS装置100,标记102可为例如超顺磁性纳米粒子、有机金属化合物,或可通过纳米级磁传感器105检测的任何其它官能分子基团。因此,假设各标记102具有不大于约10nm的尺寸。在这些假设下,图6B显示磁传感器105、处于长形状态下的DNA链101及磁标记102的相对尺寸。
使用磁传感器105以检测用作标记102的磁纳米粒子的实际SMAS装置100可使用现有技术来实施。为了论证起见,假设仅检测到传感器105的边缘的20nm以内的标记102。各传感器105的检测范围小,因为可针对于核酸定序应用而选择的磁标记102(例如超顺磁性纳米粒子、有机金属化合物等)不会对检测到的磁场产生明显扰动。尽管附接到并入与特定传感器105的结合位点116结合的ssDNA中的核苷酸的标记102可暂时驻留在各别传感器105的范围之外,因为ssDNA在检测过程期间假设各种构形状态,但期望标记在ssDNA假设其完全长形状态时不允许到达相邻传感器105的敏感空间(检测区域)。
可得出实际SMAS装置100的传感器封装极限,例如假设标记为超顺磁性纳米粒子(例如氧化铁、铁铂等),及SMAS装置100的传感器阵列110为类似于那些用于非易失性数据存储应用中者的磁性隧道结(MTJ)的矩形(例如正方形)阵列。在此种情况下,各纳米级传感器105的区域或其紧邻处可经功能化以充当各别结合位点116。用于估计SMAS装置100的传感器阵列封装极限的简单几何布置显示于图7A中,其显示两个传感器105A、105B。假设各传感器105A、105B(仅为了方便起见而假设具有圆柱体形状)具有约20nm的直径(如上文所说明)且假设能够检测从其边缘20nm以内的任何标记。感测区域边界111以显示于图7A中的内部虚线表示。传感器105A感测与其结合位点结合的DNA链101A,及传感器105B感测与其结合位点结合的DNA链101B。当附着到并入链101A、101B中的核苷酸时,标记102A、102B的最大到达范围(maximum reaches)(例如当具有150个碱基的DNA链处于其完全非螺旋状态下时)以外部点划线圆圈103显示。为了使定序结果准确,期望各传感器105仅检测附接到并入与传感器105的各别结合位点116结合的DNA链101中的核苷酸的标记102。因此,在上文描述的假设下,传感器105之间的避免串扰(例如附接到并入与另一个传感器105的结合位点116结合的核酸链101中的核苷酸的检测标记102)的最小最近相邻距离112为约100nm。
在SMAS装置100的一些实施例中,传感器105(例如MTJ)是以与现有交叉点MRAM传感器几何形状相容的正方形格子布置,如图7B中所显示。单位格子114的面积为104nm2,此允许各DNA链101延伸穿过约104nm2的面积,这产生SMAS装置100的DNA表面密度为约1010个链/cm2。假设在传感器阵列110中使用各个链101的至少十个例项,可同时定序约109个独特链/cm2,产生150Gbase(10亿×150bp DNA链长度)信息/平方厘米传感器阵列110。在理想情况下(例如,当化学失败率很低时,仅需要三个DNA例项,如下文进一步论述),可同时定序约3.3×109个不同链/cm2,且每平方厘米传感器阵列110可产生约500Gbase数据。
作为一个特定实例,具有类似于2016年在国际电子装置会议(the InternationalElectron Devices Meeting;IEDM)首次引入的单个东芝(Toshiba)4Gbit密度STT-MRAM芯片的构形的SMAS装置100可潜在地产生约600Gbase高质量数据。东芝平台的传感器105之间的最小距离112为90nm,所述最小距离仅略低于以上得出的100nm的估算的最小距离112。因此,使用类似于东芝平台的构造的串扰甚至就150个碱基长度的ssDNA来说仍可能很低,但可定序较短片段以甚至进一步减少串扰。
应了解,传感器105以栅格图案(例如如显示于图7B中的正方形格子)的布置是许多可能布置中的一者。一般技术者应了解,传感器105的其它布置是可能的且在本文公开内容的范围内。例如,传感器105可以六边形图案布置,如图8A中所显示,其显示SMAS装置100的俯视图。显示于图8A中的示例性SMAS装置100包含传感器阵列110,其用于感测流体腔室115内的标记102。传感器阵列110包括多个传感器105,其中显示十六个传感器105。应明了,装置100的实施案可包括任何数量的传感器105(例如数百、数千、数百万等)。为了避免混淆附图,在图8A中仅标记传感器105中的两个,也就是说传感器105A及105B。如上文所说明,传感器105可为例如磁传感器(例如以检测磁性或磁纳米粒子的效应)。如上文至少在图5B、5C及5D的论述中所说明,一般来说,传感器105可具有任何适合尺寸及形状。
如图8A中所显示,传感器105中的每一者是与各别结合位点116相关联。换句话说,传感器105及结合位点116是处于一对一的关系。如图8A中所显示,传感器105A是与结合位点116A相关联,传感器105B是与结合位点116B相关联,及其它未标记的传感器105中的每一者也是与各别结合位点116相关联。在图8A的实例实施例中,显示各传感器105布置于其各别结合位点116下方,但应明了结合位点116可相对于其各别传感器105处于其它位置。例如,结合位点116可位于其各别传感器105的侧面。在至少图5B、5C及5D的说明中对结合位点116的论述适用于图8A及显示结合位点116的其它图式且在此不予以重复。
图8A的示例性SMAS装置100还包括上文描述于图5B、5C及5D中的论述中的流体腔室115。那些描述还适用于图8A且在此不予以重复。
图8A的装置100的电路120可包括一条或多条线125。图8A的示例性实施例中的线125中的每一者标识传感器阵列110的行或对角列。例如,线125A、125B、125C及125D中的每一者标识传感器阵列110的不同行,及线125E、125F、125G及125H中的每一者标识传感器阵列110的不同对角列。在显示于图8A中的实例中,装置100具有八条线125A、125B、125C、125D、125E、125F、125G及125H,且线125对可用于访问个别传感器105。例如,线125A及125H可用于访问传感器105A,及线125B及125H可用于访问传感器105B。线125可定向于传感器105下方及/或之上,如图5B、5C及5D等的论述中所描述。
尽管图8A说明示例性装置100,其具有在传感器阵列110中仅十六个传感器105、仅十六个相应结合位点116及八条线125,但应了解所述SMAS装置100可在传感器阵列110中具有更少或更多个传感器105,且因此,其可具有更多或更少个结合位点116。此外,SMAS装置100可具有更多或更少条线125。一般来说,可使用传感器105及结合位点116的任何构造,其允许传感器105检测附接到并入与结合位点116附接的单个核酸链中的核苷酸的标记。类似地,可使用一条或多条线125或允许判定传感器105是否已感测到一个或多个标记的某种其它机制的任何构造。
如图8B中所显示,当传感器105以六边形图案布置时,各传感器105具有至多六个最近相邻者,全部在最近相邻距离112处。换句话说,各传感器105与最接近其的六个其它传感器105中的每一者相距最近相邻距离112。例如,如图8B中所显示,在附图中间的未标记的传感器105具有六个最近相邻传感器105,标记为105A、105B、105C、105D、105E及105F,其等均相距最近相邻距离112。
可得出使用光学传感器及荧光标记102(例如荧光团)且具有结合位点116的六边形图案的SMAS装置100的结合位点116封装极限。假设标记102为荧光团,结合位点116呈六边形图案,且传感器阵列110远离结合位点116,则来自标记102的单分子荧光可投射到远场中,在此处其可通过包含光敏性传感器105的传感器阵列110检测到。可使用单分子超分辨成像技术(如那些描述于加布来克乔治(C.G.Galbraith)及加布来杰阿(J.A.Galbraith),“超分辨率显微镜一览(Super-resolution microscopy at a glance)”,细胞科学期刊(Journal of Cell Science),第124(10)卷,1607-11(2011)中者)以分辨个别荧光团标记102在SMAS装置100中的位置。因为DNA封装尺寸远低于衍射极限,故可分辨荧光团标记102的位置。尽管这种类型的检测可能稍微复杂及/或昂贵,但最近已在商业定序系统中引入所述技术以改进以簇为基础的定序仪的通量。此外,所述技术可在不久的将来在大型单分子阵列的成像中实施。
用于估计在使用荧光团标记102的SMAS装置100中位于六边形图案中的结合位点116的封装极限的简单几何布置显示于图9A中。DNA链101A是与结合位点116A结合,及DNA链101B是与结合位点116B结合。(传感器105未绘示于图9A中,因为假设传感器阵列110远离结合位点。)标记102A、102B的最大到达范围(例如当具有150个碱基的DNA链处于其完全非螺旋状态时)(在附接到并入的核苷酸时)由点划线圆圈103表示。为了避免串扰,在成像过程期间不允许附接到相邻结合位点116的荧光团标记102占据重叠空间,例如,应不允许附接到特定结合位点116A的荧光团标记102A到达ssDNA 101A探索其允许的构形状态时附接到相邻结合位点116B的荧光团标记102B可接近的空间。此种限制还有助于避免荧光淬灭。假设使用荧光团标记102,则结合位点116可密集地封装于六边形格子中,如图9B中所显示。假设150bp DNA链101的最大长度为50nm,则荧光团标记102的大小为10nm,从各结合位点116的中心到其边缘的最小距离为20nm,且各DNA链101结合到其各别结合位点116的中心,所述最小距离112为140nm。因此,如图9B中所显示,允许每个DNA链101占据具有1.7×104nm2的面积的单位格子114,这产生5.9×109个链/cm2,或若SMAS装置100中存在各DNA链的约10个例项,则为5.9×108个独特链/cm2的DNA表面密度。SMAS装置100将从传感器阵列110的每平方厘米产生约90Gbase数据。在最佳情境下,当仅需要3个DNA复制物时,传感器阵列110保持约2×109个独特DNA链/cm2,且SMAS装置100能够从传感器阵列110的每平方厘米产生约300Gb数据。
上文对六边形阵列的论述是在荧光团标记102及光学传感器105的背景下进行。还可使用磁传感器105的六边形布置。可如上文在图7A及7B的论述中所述得出具有结合位点116及磁传感器105的六边形布置的SMAS装置100的传感器封装极限。对于磁传感器105,最近相邻距离112为约100nm,其意味着(六边形)单位格子面积114(参见图9B)为约8.7×103nm2
图10比较描述于图7A及7B(磁标记102及磁传感器105)及图9A及9B(荧光标记102及光学传感器105)的内文中的SMAS实施案的密度与当前最先进技术CLUS定序仪的密度。为了论证起见,假设图案化流通池的纳米孔阵列的间距为约500nm。如图10的左手侧小图中所显示,CLUS定序仪的纳米孔是以具有500nm格子常数的六边形格子布置。各纳米孔保持在约50个到约200个相同DNA链(例如通过固相桥扩增产生)。图10的上右手侧显示使用荧光团标记及超分辨成像的六边形SMAS格子(例如如图9A及9B的内文中所述),及图10的下右手侧显示使用超顺磁性纳米粒子标记及MTJ的传感器阵列110的正方形SMAS格子(例如如图7A及7B的内文中所述)。图10中的三个表示按比例调整以显示SMAS格子构造与CLUS构造相较的程度。黑色六边形(左侧及右上侧)及正方形(右下侧)标记保持s识别核酸链的序列所需的最少数量的个别分子的单位格子。对于SMAS格子,说明其中仅需要三个DNA链以进行成功碱基识别的理想情况,所述情况进一步详细地论述于下文。应注意的是,在SMAS情况(图10的右手侧)下,DNA例项随机分布在整个传感器阵列110中,且其位置可在第一定序循环期间进行识别,如下文进一步论述。
如图10中所显示,CLUS装置的单位格子的面积为2.2×105nm2,其对应于4.6×108个簇/cm2的DNA簇密度。运用上文进行的假设,CLUS定序仪为每平方厘米感测区域产生约70Gbase数据。相反地,在理想情况下,当仅使用链的三个例项时,SMAS装置100产生约500Gb/cm2(磁传感器105(例如MTJ)及磁标记102(例如超顺磁性纳米粒子))及约300Gb/cm2(光学传感器105(超分辨成像)及荧光标记102)数据。CLUS定序仪及SMAS装置100的示例性实施案的结果概述于下表中,所述表估算定序通量,假设各DNA链仅三个例项且假设SMAS实施案的各DNA链十个例项。
Figure BDA0003938396850000241
上表显示当用于下文另外描述的算法错误校正的DNA例项的数量较小(例如<10)时,SMAS装置100优于当前最先进技术CLUS装置。由于错误校正程序仰赖于各ssDNA的更多例项,故SMAS装置100开始表现得像CLUS装置,且不同于感测簇,在感测个别分子方面几乎没有效益。荧光SMAS基本上代表将簇减少到单个分子的限制。降低定序成本的一种方法是缩小簇大小且将DNA簇封装成彼此更接近以便从经固定的感测区域得到更多信息。尽管此种方法减少运行定序化学所需的试剂的量,但通过不断推动商业光学仪器目前可能的极限,其还显著增加成像硬件的复杂性及成本。所述策略是一项艰巨任务,因为没有化学方面的并行改进,则无法进行按比例调整(in-scaling)。这是因为随着簇变小,各反应变得越来越重要,且于单分子级上随机发生的化学失败变得更加明显且难以容忍。
在CLUS装置中实施超分辨成像的成本是使得SMAS装置100,且特别是使用磁传感器105及磁标记的SMAS装置100成为可能破坏性定序替代者。此处公开的SMAS装置100,且特别是那些使用磁传感器105者通过使用通过大规模半导体及数据存储工业开发的技术及大量制造以显著更低仪器成本保证优异通量。
SMAS定序方案
如以上所说明,当SMAS装置100用于核酸定序时,可在将核酸添加到SMAS装置100之前或之后(例如使用桥式扩增)扩增核酸链。无论如何扩增核酸,所述链可通过SBS(例如通过从ssDNA合成dsDNA)一次一个碱基地进行定序。描述SMAS定序方案,假设定序的核酸为DNA。应了解,所公开的方案可经修改以用于其它核酸的定序。通过对本文公开内容的理解,此类修改将在一般技术者的能力范围内。
为了简化分析且说明使用所公开的SMAS装置100而不是CLUS定序仪的益处,考虑DNA定序方案,其中将单一类型的标记(例如分子、荧光、磁性等)附接到所有四个核苷酸(A、T、C及G)。换句话说,将某种类型的相同标记附接到四个核苷酸中的每一者(例如若所选择的标记102为FePt粒子,则A、T、C及G中的每一者是经FePt粒子标记)。然后使用终止化学将这些经标记的核苷酸一次一个碱基地并入到DNA链中,例如一旦并入核苷酸,则在聚合酶移到下一碱基上之前切割标记102。传感器105检测附接到核苷酸的标记102。
使用SMAS装置100定序多个核苷酸链(例如ssDNA)的示例性方法200绘示于图11中。在202,所述方法开始。在204,一个或多个核酸链可任选地在被添加到SMAS装置100之前进行扩增。在206,将多个S个核酸链结合到SMAS装置100的多个S个结合位点116(其中所述多个包括SMAS装置100的至少两个但不一定是所有结合位点116)。任选地,在208,扩增核酸链(例如经由桥式扩增,这可以在204处的扩增的补充或者进行)。在210,进行定序程序。定序程序可为例如下文进一步描述的加性方法、减性方法或改进型加性方法。在210进行的定序程序产生S个记录,S个记录中的每一者捕获多个S个传感器中的一者的M个检测结果(其中,再者,所述多个包括SMAS装置100中的至少两个但不一定是所有传感器105,且所述M个检测结果可包含少到一个检测结果、在定序程序期间得到的检测结果总数的一些子组、或在定序程序期间得到的所有检测结果)。M个检测结果中的每一者指示在M个查询步骤的各别步骤期间记录所对应的传感器105是否检测到至少一个标记。所述M个检测结果可存储在记录中,所述记录可存储在存储器中。在212,进行错误校正程序,如下文进一步所述。错误校正程序可包含判定性及/或概率性错误校正技术。错误校正程序可例如通过SMAS装置100的至少一个处理器130来进行。或者,其可通过SMAS装置100外部的处理器(例如装置外处理器,如在外部计算机中)来进行。错误校正程序可在定序程序进行时(例如实时或近实时)进行,或其可在某个后来的时间进行。在214,方法200结束。
如上所述,在210,可使用SMAS装置100来实施多种方案以读取核酸序列(例如DNA序列)。为了简化分析,假设SMAS装置100的多个S个传感器105仅检测标记102的存在或不存在且不以所检测到的信号级为基础来区分核苷酸。因此,在一些实施例中,各传感器105的检测结果的记录仅包含在特定查询步骤期间传感器105检测到标记或未检测到标记的“是”或“否”(或1/0或任何其它二进制指示符)指示。应明了,其它方法是可行的且在本文公开内容的范围内。例如,不同标记102可附接到不同核苷酸。作为另一个实例,不同于二进制“是”或“否”决策,可检测(例如电阻、频率、强度等)及/或记录特性值,且以所述基础上为基础做出是否检测到标记的决策。例如,替代仅将0及1(或“否”及“是”)作为定序程序的可能输出,对于不同核苷酸使用不同标记可导致以下五个等级之一:0(未检测到标记),等级1(检测到标记1),等级2(检测到标记2),等级3(检测到标记3),及等级4(检测到标记4)。在这种情况下,可限定所检测到的特性的范围以区分是否完全检测到标记且若检测到,则检测到哪个标记(例如若特性值在0与第一值之间,则判定没有检测到标记;若特性值在第一值与第二值之间,则判定检测到第一标记;若特性值在第二值与第三值之间,则判定检测到第二标记;等)。
下文为DNA定序方案的三个实例的说明,各实例包含重复查询循环,各查询循环具有四个查询步骤。在各查询循环期间,对定序的各ssDNA回答四个二进制“是”或“否”问题。在一个查询步骤中,回答问题“检测到的碱基为腺嘌呤?”(“A?”)。在另一个查询步骤中,回答问题“检测到的碱基为胸腺嘧啶?”(“T?”)。在另一个查询步骤中,回答问题“检测到的碱基为胞嘧啶?”(“C?”)。且在另一个查询步骤中,回答问题“检测到的碱基为鸟嘌呤?”(“G?”)。在定序程序期间得到的检测结果的记录可建立为查询循环,包括重复
Figure BDA0003938396850000261
查询步骤。应明了,所描述的其中引入核苷酸及检测碱基的顺序是任意的(意味着查询步骤的顺序是任意的),及其中在本文实例中测试碱基的排序
Figure BDA0003938396850000262
仅是示例性的。
加性方法
在加性方法中,传感器105检测结合到具有可切割的连接子的核苷酸的纳米级标记102。所有四种类型的核苷酸携载相同类型的标记102(例如分子、荧光、磁性等)且使用相同类型的可切割的连接子。根据一个实施例,将产生四个检测结果(所述检测结果中的一者将(不存在错误的情况下)为多个S个核酸链101中的每一者的标记检测)的查询循环涉及以下步骤:
1.得到SMAS装置100的多个S个传感器105(其可为传感器阵列110中的全部或少于全部传感器105)中的每一者的基线特性(例如通过测定多个S个传感器105中的每一者处的基线信号)。
2.引入且并入经标记的A核苷酸。冲洗掉未结合的经标记的分子。
3.查询步骤1:得到所述多个S个传感器105中的每一者的特性(例如通过检测多个S个传感器105中的每一者处的信号)且判定各传感器105是否检测到至少一个标记。将各传感器105的检测结果保存在对应于当前查询循环的查询步骤1的记录中的位置。
4.引入且并入经标记的T核苷酸。冲洗掉未结合的经标记的分子。
5.查询步骤2:得到所述多个S个传感器105中的每一者的特性(例如通过检测多个S个传感器105中的每一者处的信号)且判定各传感器105是否检测到至少一个标记。将各传感器105的检测结果保存在对应于当前查询循环的查询步骤2的记录中的位置。
6.引入且并入经标记的C核苷酸。冲洗掉未结合的经标记的分子。
7.查询步骤3:得到所述多个S个传感器105中的每一者的特性(例如通过检测多个S个传感器105中的每一者处的信号)且判定各传感器105是否检测到至少一个标记。将各传感器105的检测结果保存在对应于当前查询循环的查询步骤3的记录中的位置。
8.引入且并入经标记的G核苷酸。冲洗掉未结合的经标记的分子。
9.查询步骤4:得到所述多个S个传感器105中的每一者的特性(例如通过检测多个S个传感器105中的每一者处的信号)且判定各传感器105是否检测到至少一个标记。将各传感器105的检测结果保存在对应于当前查询循环的查询步骤4的记录中的位置。
10.切割且冲洗掉A、T、C及G核苷酸的标记。
然后可为下一个查询循环重复步骤1到10。应明了,步骤1到10中的某些的排序是示例性的,且进一步地,步骤1到10的数量及编号是为了方便起见且可进行修改。作为一个实例,且如前面所说明,核苷酸引入的顺序是任意的。作为另一个实例,步骤2、4、6及8包括引入及并入核苷酸,且以单个步骤冲洗掉未结合的核苷酸,但应明了步骤2、4、6及8中的每一者可分为一系列较小的步骤。类似地,步骤3、5、7及9可进一步分为一系列较小的步骤(例如得到特性,判定是否检测到标记,保存检测结果)。相反地,步骤可组合(例如步骤2及3可组合,步骤4及5可组合等)。
应明了,若加性方法的任何查询循环期间可能没有错误发生,则一旦检测到标记即可识别(判定)个别链的各别碱基。例如,参照以上步骤,若在涉及经标记的A核苷酸的查询步骤1处,对于特定传感器105,所得到的特性指示传感器105检测到标记,则保存检测结果可等同于识别所述检测器105(及结合位点116)的与A互补的碱基(T)。类似地,若在涉及经标记的T核苷酸的查询步骤2处,对于特定传感器105,所得到的特性指示传感器105检测到标记,则保存检测结果可等同于识别所述检测器105(及结合位点116)的与T互补的碱基(A)。同样地,若在涉及经标记的C核苷酸的查询步骤3处,对于特定传感器105,所得到的特性指示传感器105检测到标记,则保存检测结果可等同于识别所述检测器105(及结合位点116)的与C互补的碱基(G)。最后,若在涉及经标记的G核苷酸的查询步骤4处,对于特定传感器105,所得到的特性指示传感器105检测到标记,则保存检测结果可等同于识别所述检测器105(及结合位点116)的与G互补的碱基(C)。然而,如下文所进一步详细说明,有几种类型的错误可在定序程序期间(例如在加性方法期间)发生,且因此,在一些实施例中,在定序程序期间建立记录以记录在各查询循环的各查询步骤期间检测到/未检测到标记。然后可在识别碱基之前将错误校正程序应用于一些或全部记录。
图12为根据一些实施例的使用加性方法的定序程序220的流程图。定序程序220可为例如在显示且描述于图11的论述中的使用SMAS装置100定序多个核酸链(例如ssDNA)的示例性方法200的步骤210处进行的定序程序。在222,定序程序220开始。在224,得到S个传感器105中的每一者的基线特性(例如通过SMAS装置100的至少一个处理器130,借助于电路120)。当查询循环开始时,在226,选择第一经标记的核苷酸(例如参照以上步骤1到10,所述第一经标记的核苷酸将为A)。在228,将所选择的经标记的核苷酸引入到流体腔室115中且将核苷酸潜在地并入与结合位点116结合的核酸链中。在230,冲洗掉未结合的核苷酸。在232,从所述多个S个传感器中的每一者得到特性,且判定所述多个S个传感器105中的每一者的检测结果(例如检测到标记或未检测到标记)。在234,将S个检测结果记录在S个记录中(例如以1指示检测到标记或以0指示未检测到标记)。在236,判定最后测试的核苷酸是否为查询循环的最后一个核苷酸。对于在以上步骤1到10中假设的核苷酸测试的实例排序,将在236(例如通过至少一个处理器130)判定G是否为最后测试的核苷酸。若不是,则在238选择在查询循环中欲测试的下一个经标记的核苷酸,且重复步骤228到236直到在236判定最后测试的核苷酸为查询循环的最后一个核苷酸。在240,将标记切割且冲洗掉。在242,判定(例如通过至少一个处理器130)最后完成的查询循环是否为定序程序220的最后一个查询循环。例如,所述至少一个处理器130可判定是否已记录足够的检测结果以使得至少一个处理器130(或一些其它处理实体,如外部处理器)以判定目标数量的碱基(例如150个碱基)。若不是,则定序程序220返回到步骤224。若是,则定序程序220在244结束。同样地,如上文所说明,测试核苷酸的顺序是任意的。
加性定序方案(其在DNA定序的示例性情况下包含四次核苷酸并入及一次标记切割反应)概述于图13中。图13的最左侧小图说明具有总共100个个别传感器105的传感器阵列110,其以正方形显示。出于说明的目的,假设传感器阵列110中的100个结合位点116中的每一者保持各别DNA链,且各DNA链通过各别传感器105感测(换句话说,结合位点116及传感器105处于一对一的关系)。一些DNA链可为其它DNA的拷贝。将经标记的核苷酸一次一种类型地添加到流体腔室115,且在并入核苷酸后同时切割标记。在不存在错误的情况下,可在五次反应(也就是说,四次核苷酸并入及一次碱基切割反应)之后完成碱基识别。若发生错误,则可应用如下文所述的错误纠正程序。
减性方法
在减性方法中,传感器105检测与具有可切割的连接子的核苷酸结合的纳米级标记102。所有四种类型的核苷酸携载相同类型的标记(例如分子、荧光、磁性等),但各者具有不同类型的可切割的连接子。在一个实施例中,在不存在错误的情况下将产生四个检测结果(所述检测结果中的一者将(不存在错误的情况下)为多个S个核酸链101中的每一者的标记检测)的查询循环涉及以下步骤:
1.同时引入经标记的A、T、C及G核苷酸,并入,且冲洗未结合的经标记的分子。得到多个S个传感器105中的每一者的基线特性(例如通过检测所述多个S个传感器105中的每一者处的信号)。在不存在错误的情况下,全部传感器105均将检测标记。
2.查询步骤1:引入仅从第一核苷酸(例如A)切割标记的试剂(例如酵素),冲洗,且得到所述多个S个传感器105中的每一者处的特性(例如测定信号)。判定(例如以基线特性的变化为基础)哪些传感器105不再检测标记。将各传感器105的检测结果保存在对应于当前查询循环的查询步骤1的记录中的位置。
3.查询步骤2:引入仅从第二核苷酸(例如T)切割标记的试剂,冲洗,且得到所述多个S个传感器105中的每一者处的特性(例如测定信号)。判定(例如以基线特性的变化为基础)哪些传感器105不再检测标记。将各传感器105的检测结果保存在对应于当前查询循环的查询步骤2的记录中的位置。
4.查询步骤3:引入仅从第三核苷酸(例如C)切割标记的试剂,冲洗,且得到所述多个S个传感器105中的每一者处的特性(例如测定信号)。判定(例如以基线特性的变化为基础)哪些传感器105不再检测标记。将各传感器105的检测结果保存在对应于当前查询循环的查询步骤3的记录中的位置。
5.查询步骤4:引入仅从第四核苷酸(例如G)切割标记的试剂,冲洗,且得到所述多个S个传感器105中的每一者处的特性(例如测定信号)。判定(例如以基线特性的变化为基础)哪些传感器105不再检测标记。将各传感器105的检测结果保存在对应于当前查询循环的查询步骤4的记录中的位置。
对于下一查询循环,可重复步骤1到5。应明了,步骤1到5中的某些的排序是示例性的,且进一步地,步骤1到5的数量及编号是为了方便起见且可进行修改。作为一个实例,且如前面所说明,切割核苷酸的顺序是任意的。类似地,在步骤1中,可继而引入(不必同时地)核苷酸。作为另一个实例,查询步骤1、2、3及4包括引入试剂,冲洗,得到特性,判定哪些传感器不再(或仍在)检测标记,及以单个步骤将结果保存,但应明了,各查询步骤可分为一系列较小的步骤。
应明了,若减性方法的任何查询循环期间可能没有错误发生,则一旦首先检测到标记移除(标记不存在)即可识别(判定)个别链的各别碱基。例如,参照以上步骤,若在涉及经标记的A核苷酸的查询步骤1处,对于特定传感器105,所得到的特性指示传感器105不再检测标记,则保存检测结果可等同于识别所述检测器105(及结合位点116)的与A互补的碱基(T)。类似地,若在涉及经标记的T核苷酸的查询步骤2处,对于特定传感器105,所得到的特性指示传感器105不再检测标记,则保存检测结果可等同于识别所述检测器105(及结合位点116)的与T互补的碱基(A)。同样地,若在涉及经标记的C核苷酸的查询步骤3处,对于特定传感器105,所得到的特性指示传感器105不再检测标记,则保存检测结果可等同于识别所述检测器105(及结合位点116)的与C互补的碱基(G)。最后,若在涉及经标记的G核苷酸的查询步骤4处,对于特定传感器105,所得到的特性指示传感器105不再检测标记,则保存检测结果可等同于识别所述检测器105(及结合位点116)的与G互补的碱基(C)。然而,如下文所进一步详细说明,有几种类型的错误可在定序程序期间(例如在减性方法期间)发生,且因此,在一些实施例中,在定序程序期间建立记录以记录在各查询循环的各查询步骤期间检测到/未检测到标记。然后可在识别碱基之前将错误校正程序应用于一些或全部记录。
图14为根据一些实施例的使用减性方法的定序程序250的流程图。定序程序250可为例如在显示且描述于图11的论述中的使用SMAS装置100定序多个核酸链(例如ssDNA)的示例性方法200的步骤210处进行的定序程序。定序程序250在252开始。在254,将全部经标记的核苷酸引入到流体腔室115中且将核苷酸并入与S个结合位点116结合的核酸链中。在256,冲洗掉未结合的核苷酸。在258,得到S个传感器105中的每一者的基线特性(例如通过SMAS装置100的至少一个处理器130,借助于电路120)。假设已将核苷酸引入到与S个结合位点中的每一者结合的核酸链中,所得到的特性表示传感器105在其正在检测至少一个标记时的特性。在260,选择可切割的连接子中的一者以用于切割(或,等效地,选择核苷酸中的一者)。在262,切割且冲洗掉附接到所选择的核苷酸的标记。假设没有错误,在步骤262之后,感测那些并入所测试的核苷酸的核酸链(例如通过所选择的可切割的连接子附接标记的核酸链)的传感器105将展现特性的变化(例如与传感器105相关联或由其产生的信号的变化)。在264,从所述多个S个传感器中的每一者得到特性,且判定所述多个S个传感器105中的每一者的检测结果(例如检测到标记或未检测到标记)。在266,将S个检测结果记录在S个记录中(例如以1指示检测到标记或以0指示未检测到标记)。在268,判定最后测试的核苷酸是否为查询循环的最后一个核苷酸。对于在以上步骤1到5中假设的核苷酸测试的实例排序,将在268(例如通过至少一个处理器130)判定G是否为最后测试的核苷酸。若不是,则在270选择在查询循环中欲切割的下一个可切割的连接子(或等效地,欲测试的下一个核苷酸),且重复步骤262到268直到在268处判定最后切割的连接子(或等效地,最后测试的核苷酸)是查询循环的最后一个连接子(或核苷酸)。在272,判定(例如通过至少一个处理器130)最后完成的查询循环是否为定序程序250的最后一个查询循环。例如,所述至少一个处理器130可判定是否已记录足够的检测结果以使得至少一个处理器130(或一些其它处理实体,如外部处理器)以识别目标数量的碱基(例如150个碱基)。若不是,则定序程序250返回到步骤254。若是,则定序程序250在274结束。同样地,如上文所说明,测试核苷酸的顺序是任意的。
减性定序方案(其在DNA定序的示例性情况下包含一次核苷酸并入及四次碱基切割反应)概述于图15中。图15的最左侧小图说明具有总共100个个别传感器105的传感器阵列110,其以正方形显示。出于说明的目的,假设传感器阵列110中的100个结合位点116中的每一者保持各别DNA链,且各DNA链通过各别传感器105感测(换句话说,结合位点116及传感器105处于一对一的关系)。一些DNA链可为其它DNA的拷贝。将所有四种类型的经标记的核苷酸同时添加到流体腔室115,且在并入之后一次一种类型的核苷酸(例如可切割的连接子)地移除标记。在不存在错误的情况下,可在五次反应(也就是说,一次核苷酸并入及四次碱基切割反应)之后完成碱基识别。若发生错误,则可应用如下文所述的错误纠正程序。
改进型加性方法
在改进型加性方法中,传感器105检测与具有可切割的连接子的核苷酸结合的纳米级标记102。所有四种类型的核苷酸携载相同类型的标记102(例如分子、荧光、磁性等)且使用相同类型的可切割的连接子。分别添加经标记的核苷酸,且在添加各核苷酸之后,检测到标记102的存在。在一个实施例中,在不存在错误的情况下将产生四个检测结果(所述检测结果中的至少一者将为多个S个核酸链101中的每一者的标记检测)的查询循环涉及以下步骤:
1.得到SMAS装置100的多个S个传感器105(其可为传感器阵列110中的全部或少于全部传感器105)中的每一者的基线特性(例如通过测定多个S个传感器105中的每一者处的基线信号)。
2.引入且并入第一经标记的核苷酸,例如经标记的A核苷酸。冲洗掉未结合的经标记的分子。
3.查询步骤1:得到所述多个S个传感器105中的每一者的特性(例如通过检测多个S个传感器105中的每一者处的信号)且判定各传感器105是否检测到至少一个标记。将各传感器105的检测结果保存在对应于当前查询循环的查询步骤1的记录中的位置。
4.切割且冲洗掉标记。
5.引入且并入第二经标记的核苷酸,例如经标记的T核苷酸。冲洗掉未结合的经标记的分子。
6.查询步骤2:得到所述多个S个传感器105中的每一者的特性(例如通过检测多个S个传感器105中的每一者处的信号)且判定各传感器105是否检测到至少一个标记。将各传感器105的检测结果保存在对应于当前查询循环的查询步骤2的记录中的位置。
7.切割且冲洗掉标记。
8.引入且并入第三经标记的核苷酸,例如经标记的C核苷酸。冲洗掉未结合的经标记的分子。
9.查询步骤3:得到所述多个S个传感器105中的每一者的特性(例如通过检测多个S个传感器105中的每一者处的信号)且判定各传感器105是否检测到至少一个标记。将各传感器105的检测结果保存在对应于当前查询循环的查询步骤3的记录中的位置。
10.切割且冲洗掉标记。
11.引入且并入第四经标记的核苷酸,例如经标记的G核苷酸。冲洗掉未结合的经标记的分子。
12.查询步骤4:得到所述多个S个传感器105中的每一者的特性(例如通过检测多个S个传感器105中的每一者处的信号)且判定各传感器105是否检测到至少一个标记。将各传感器105的检测结果保存在对应于当前查询循环的查询步骤4的记录中的位置。
13.切割且冲洗掉标记。
然后,对于下一查询循环,可重复步骤1到13。应明了,步骤1到13中的某些的排序是示例性的,且进一步地,步骤1到13的数量及编号是为了方便起见且可进行修改。作为一个实例,且如前面所说明,核苷酸引入的顺序是任意的。作为另一个实例,步骤2、5、8及11包括引入及并入核苷酸,且以单个步骤冲洗掉未结合的核苷酸,但应明了步骤2、5、8及11中的每一者可分为一系列较小的步骤。类似地,步骤3、6、9及12(分别是查询步骤1、2、3及4)可进一步分为一系列较小的步骤(例如得到特性,判定是否检测到标记,保存检测结果)。相反地,步骤可组合(例如步骤2及3可组合,步骤3及4可组合,步骤2到4可组合,步骤5及6可组合,步骤6及7可组合,步骤5到7可组合等)。
应明了,若改进型加性方法的任何查询循环期间可能没有错误发生,则一旦检测到标记即可识别(判定)各个链的各别碱基。例如,参照以上步骤,若在涉及经标记的A核苷酸的查询步骤1处,对于特定传感器105,所得到的特性指示传感器105检测到标记,则保存检测结果可等同于识别所述检测器105(及结合位点116)的与A互补的碱基(T)。类似地,若在涉及经标记的T核苷酸的查询步骤2处,对于特定传感器105,所得到的特性指示传感器105检测到标记,则保存检测结果可等同于识别所述检测器105(及结合位点116)的与T互补的碱基(A)。同样地,若在涉及经标记的C核苷酸的查询步骤3处,对于特定传感器105,所得到的特性指示传感器105检测到标记,则保存检测结果可等同于识别所述检测器105(及结合位点116)的与C互补的碱基(G)。最后,若在涉及经标记的G核苷酸的查询步骤4处,对于特定传感器105,所得到的特性指示传感器105检测到标记,则保存检测结果可等同于识别所述检测器105(及结合位点116)的与G互补的碱基(C)。然而,如下文所进一步详细说明,有几种类型的错误可在定序程序期间(例如在加性方法期间)发生,且因此,在一些实施例中,在定序程序期间建立记录以记录在各查询循环的各查询步骤期间检测到/未检测到标记。然后可在识别碱基之前将错误校正程序应用于一些或全部记录。
图16为根据一些实施例的使用改进型加性方法的定序程序350的流程图。定序程序350可为例如在显示且描述于图11的论述中的使用SMAS装置100定序多个核酸链(例如ssDNA)的示例性方法200的步骤210处进行的定序程序。在352,定序程序350开始。在354,得到S个传感器105中的每一者的基线特性(例如通过SMAS装置100的至少一个处理器130,借助于电路120)。当查询循环开始时,在356,选择第一经标记的核苷酸(例如参照以上步骤1到13,所述第一经标记的核苷酸将为A)。在358,将所选择的经标记的核苷酸引入到流体腔室115中且将核苷酸潜在地并入与结合位点116结合的核酸链中。在360,冲洗掉未结合的核苷酸。在362,从所述多个S个传感器中的每一者得到特性,且判定所述多个S个传感器105中的每一者的检测结果(例如检测到标记或未检测到标记)。在364,将S个检测结果记录在S个记录中(例如以1指示检测到标记或以0指示未检测到标记)。在366,将标记切割且冲洗掉。在368,判定最后测试的核苷酸是否为查询循环的最后一个核苷酸。对于在以上步骤1到13中假设的核苷酸测试的实例排序,将在368(例如通过至少一个处理器130)判定G是否为最后测试的核苷酸。若不是,则在370选择在查询循环中欲测试的下一个经标记的核苷酸,且重复步骤358到368直到在368判定最后测试的核苷酸为查询循环的最后一个核苷酸。在372,判定(例如通过至少一个处理器130)最后完成的查询循环是否是定序程序350的最后一个查询循环。例如,所述至少一个处理器130可判定是否已记录足够的检测结果以使得至少一个处理器130(或一些其它处理实体,如外部处理器)以识别目标数量的碱基(例如150个碱基)。若不是,则定序程序350返回到步骤354。若是,则定序程序350在374结束。同样地,如上文所说明,测试核苷酸的顺序是任意的。
改进型加性定序方案(其在DNA定序的示例性情况下包含四次核苷酸并入及四次碱基切割反应)说明于图17中。图17的最左侧小图说明具有总共100个个别传感器105的传感器阵列110,其以正方形显示。出于说明的目的,假设传感器阵列110中的100个结合位点116中的每一者保持各别DNA链,且各DNA链通过各别传感器105感测(换句话说,结合位点116及传感器105处于一对一的关系)。一些DNA链可为其它DNA的拷贝。如所显示及所描述,将经标记的核苷酸一次一种类型地添加到流体腔室115,且在并入及标记检测之后切割标记。在不存在错误的情况下,可在平均5次反应(也就是说,2.5次核苷酸并入及2.5次碱基切割反应)之后完成碱基识别。
因此,在不存在错误的情况下,对于DNA定序,改进型加性方法在8次反应(4次核苷酸并入及4次碱基切割)以测试所有碱基之后每个ssDNA产生至少一次碱基识别。然而,平均来说,仅在5次反应(2.5次核苷酸并入及2.5次碱基切割)之后即可进行碱基识别。因为标记是在每个核苷酸的引入的后被移除,故可在单个
Figure BDA0003938396850000341
查询循环期间并入且识别多个核苷酸。具体来说,在未知ssDNA序列中,未知碱基是T的机率为四分之一。若碱基恰好是T,则将在第三步骤处在引入A核苷酸时在一次并入及一次碱基切割反应之后检测到其。未知碱基是A的机率为四分之一。若碱基恰好是A,则将在查询循环
Figure BDA0003938396850000342
的第五步骤处在已引入T核苷酸且已进行两次引入及两次切割时检测到其。未知碱基是G的机率为四分之一。若碱基恰好是G,则将在查询循环
Figure BDA0003938396850000351
的第七步骤处在已引入C核苷酸且已进行三次引入及三次切割时检测到其。最后,未知碱基是C的机率为四分之一。若碱基恰好是C,则将在查询循环
Figure BDA0003938396850000352
的第十一步骤处在已引入C核苷酸且已进行四次引入及四次切割时检测到其。因此需要平均2.5次查询(5次反应)
Figure BDA0003938396850000353
以识别单个未知碱基。或者,若特定ssDNA的未知4-碱基序列恰好是最佳情境ATCG(对于针对本实例假设的所引入的核苷酸的选定顺序),则仅需要进行一个查询循环
Figure BDA0003938396850000354
总共8次反应(4次核苷酸并入及4次碱基切割),或每次碱基识别2次反应。然而,若未知序列恰好是例如GCTA、GGCT、GCTT、GGGG等,则需要进行四个查询循环,各者包括所有
Figure BDA0003938396850000355
导致总共32次反应(16次核苷酸并入及16次碱基切割),或每次碱基识别8次反应。然而,平均来说,对于随机DNA序列,需要2.5次查询或5次反应(2.5次核苷酸并入及2.5次碱基切割)以进行一次碱基识别。
定序错误的来源
理想地,不论在CLUS装置或SMAS装置100中,定序程序均将是无错误的。换句话说,例如,核苷酸将始终经正确标记,核苷酸将始终经正确地并入DNA中,将在切割步骤期间成功切割所有标记,将成功冲洗掉所有切割的标记等。然而,事实上,错误可在任何定序程序期间发生。本部分探讨CLUS装置及SMAS装置100两者的定序错误的来源且描述SMAS装置100的错误减轻策略。如下文另外所说明,错误校正方法可用于改进SMAS装置100的定序准确度。
因为上文描述的改进型加性方法是概念上简单(且对称,因为各核苷酸以相同方式处理)定序程序,故其是用于说明错误如何在CLUS装置及SMAS装置100两者中传播的良好模型。考虑到错误的四个来源,假设纳米级标记是经由可切割的连接子附接到核苷酸。各错误以表示为r的比率发生,其具有0到1的值。错误的四个来源是:
失败的核苷酸并入(FNI):失败的核苷酸并入(FNI)发生在经正确标记的核苷酸分子尚未到达ssDNA结合位点或聚合酶未能将其并入之时。图18A说明定序ssDNA的五个例项的CLUS装置的FNI。在互补核苷酸的流动之后,五个ssDNA中仅三个已并入经标记的核苷酸(说明为具有磁标记)。因此,五分之二的核苷酸(r=0.4)不能并入。图18B说明SMAS装置100的FNI。五个结合位点116中的每一者保持ssDNA的例项。在互补核苷酸的流动之后,五个ssDNA(那些与结合位点116A、116B及116C结合的ssDNA)中仅三者已并入经标记的核苷酸(仅出于实例的目的说明为具有磁标记)。再者,五个ssDNA例项中的两个(r=0.4)无法并入核苷酸。
失败的标记移除(FLR):在并入经标记的核苷酸分子,但由于切割试剂尚未到达连接子或未能切割其而在标记检测后未移除标记时,导致失败的标记移除(FLR)。图18C说明上文在图18A的论述中描述的CLUS装置的FLR。在并入互补核苷酸且冲洗以移除未结合的核苷酸,检测标记,及切割且冲洗标记之后,一个标记仍附接到ssDNA例项中的一者(r=0.2)。类似地,在图18D中,其说明上文在图18B的论述中描述的SMAS装置100的FLR,在并入互补核苷酸且冲洗以移除未结合的核苷酸,检测标记,及切割且冲洗标记(例如上文描述的步骤2到4、5到7、8到10、及/或11到13)之后,标记仍附接到结合位点116A处的ssDNA(r=0.2)。
失败的核苷酸移除(FNR):当经标记的核苷酸(不论是互补还是非互补)非特异性结合到结合位点116及/或传感器105的表面时,导致失败的核苷酸移除(FNR)。图18E说明上文在图18A中描述的CLUS装置的FNR的一个实例。在核苷酸的流动且冲洗以移除未结合的核苷酸之后,两个不良核苷酸及其标记保留在结合位点的表面上。类似地,在图18F中,所述图说明上文在图18B的论述中描述的SMAS装置100的FNR,在核苷酸的流动且冲洗以移除未结合的核苷酸之后,一个不良核苷酸保留在结合位点116A的表面上,及另一个不良核苷酸保留在结合位点116D的表面上。在本实例中,对于两个CLUS装置及SMAS装置100两者,r=0.4。
失败的标记检测(FLD):在并入正确互补核苷酸,但由于标记缺失或传感器未能识别其而未检测到标记时,导致失败的标记检测(FLD)。图18G说明上文在图18A的论述中描述的CLUS装置的FLD。在并入互补核苷酸且冲洗以移除未结合的核苷酸之后,ssDNA例项中的两者已并入互补核苷酸,但标记缺失(r=0.4)。类似地,在图18H中,所述图说明上文在图18B的论述中描述的SMAS装置100的FLD,在并入互补核苷酸且冲洗以移除未结合的核苷酸(例如上文描述的步骤2、5、8或11)之后,应附接到在结合位点116C及116D处并入ssDNA中的核苷酸的标记缺失(r=0.4)。
图18A到18H将标记说明为磁体,从而表明磁标记及磁传感器,但应明了,如上文所说明,标记可为任何类型的可检测的标记(例如荧光、磁性等)及传感器可为能够检测选定类型的标记(例如光学、磁性、有机金属、带电荷分子等)的任何类型的传感器。
假设四个错误类型(FNI、FLR、FNR及FLD)以相同比率r发生,其中0<r<1;例如,若r=0.01,则平均100例中有1例失败。还假设SMAS装置100的传感器105(例如纳米级传感器105)可几乎每次检测单个标记,及用于CLUS装置中的大型簇传感器的反应是线性的,例如,CLUS装置的传感器可针对于N的所有值来区分N及N+1个经标记的链。
簇定序仪与单分子阵列定序仪:定性比较及错误校正
本文公开两种类型的错误校正,称为判定性错误校正及概率性错误校正。SMAS装置100可使用一种或两种类型的错误校正,如下文所进一步说明。
如上文所说明,改进型加性方法是用于说明错误如何传播及如何可实施所公开的错误校正算法的良好模型。应明了,当使用其它定序方法(如加性方法或减性方法)时,还可应用所公开的错误减轻算法。
考虑使用改进型加性方法定序程序的CLUS装置及SMAS装置100,其具有r=0.1(例如10次反应中1次失败)的大错误率及(理想上相同)链的少数例项,例如,N=K=3,其中变量N表示用于CLUS装置中的簇大小,及变量K表示感测相同DNA链的例项的SMAS装置100的传感器105的数量。(如前面所说明,K传感器可彼此接近,或其可散布在传感器阵列110内)。为了描述判定性错误校正的实施例,最初仅考虑FNI及FLR错误。然后考虑FNI、FLR及FLD错误,且描述错误减轻策略。最后,考虑所有四种类型的错误,且描述解决所有四种类型的错误的错误校正程序。
当使用SMAS装置100时,可检测到且移除FLR错误,不论在定序程序期间或在随后的某个时间以实时方式。FLR错误可通过在切割且冲洗标记之后得到S个传感器105中的每一者的特性来检测到。FNI错误可通过检查各传感器105的记录且识别传感器105未能检测到任何标记的查询循环来检测到。因此,可根据一个实施例如下调整改进型加性方法以添加这些检测步骤:
1.得到SMAS装置100的多个S个传感器105(其可为传感器阵列110中的全部或少于全部传感器105)中的每一者的基线特性(例如通过测定多个S个传感器105中的每一者处的基线信号)。
2.引入且并入第一经标记的核苷酸,例如经标记的A核苷酸。冲洗掉未结合的经标记的分子。
3.查询步骤1:得到所述多个S个传感器105中的每一者的特性(例如通过检测多个S个传感器105中的每一者处的信号)且判定各传感器105是否检测到至少一个标记。将各传感器105的检测结果保存在对应于当前查询循环的查询步骤1的记录中的位置。
4.切割且冲洗掉标记。
5.得到在步骤3中检测到标记的所述多个S个传感器105中的每一者的特性。若那些传感器105中的任何者的所得到的特性指示传感器105仍在检测标记,则化学无法切割标记(例如,对于所述传感器,存在FLR错误)。
6.引入且并入第二经标记的核苷酸,例如经标记的T核苷酸。冲洗掉未结合的经标记的分子。
7.查询步骤2:得到所述多个S个传感器105中的每一者的特性(例如通过检测多个S个传感器105中的每一者处的信号)且判定各传感器105是否检测到至少一个标记。将各传感器105的检测结果保存在对应于当前查询循环的查询步骤2的记录中的位置。
8.切割且冲洗掉标记。
9.得到在步骤7中检测到标记的所述多个S个传感器105中的每一者的特性。若那些传感器105中的任何者的所得到的特性指示传感器105仍在检测标记,则化学无法切割标记(例如,对于所述传感器,存在FLR错误)。
10.引入且并入第三经标记的核苷酸,例如经标记的C核苷酸。冲洗掉未结合的经标记的分子。
11.查询步骤3:得到所述多个S个传感器105中的每一者的特性(例如通过检测多个S个传感器105中的每一者处的信号)且判定各传感器105是否检测到至少一个标记。将各传感器105的检测结果保存在对应于当前查询循环的查询步骤3的记录中的位置。
12.切割且冲洗掉标记。
13.得到在步骤11中检测到标记的所述多个S个传感器105中的每一者的特性。若那些传感器105中的任何者的所得到的特性指示传感器105仍在检测标记,则化学无法切割标记(例如,对于所述传感器,存在FLR错误)。
14.引入且并入第四经标记的核苷酸,例如经标记的G核苷酸。冲洗掉未结合的经标记的分子。
15.查询步骤4:得到所述多个S个传感器105中的每一者的特性(例如通过检测多个S个传感器105中的每一者处的信号)且判定各传感器105是否检测到至少一个标记。将各传感器105的检测结果保存在对应于当前查询循环的查询步骤4的记录中的位置。若存在没有为查询循环分配碱基的传感器105(例如在查询循环期间无法检测到A、T、C或G的传感器105),则化学无法将核苷酸并入(例如对于这些传感器105,存在FNI)。
16.切割且冲洗掉标记。
17.得到在步骤15中检测到标记的所述多个S个传感器105中的每一者的特性。若那些传感器105中的任何者的所得到的特性指示传感器105仍在检测标记,则化学无法切割标记(例如,对于所述传感器,存在FLR错误)。
可然后针对下一个查询循环重复步骤1到17(例如以估计下一个碱基或若先前查询循环无法读取当前碱基则再读取所述当前碱基)。应明了,步骤1到17中的某些的排序是示例性的,且进一步地,步骤1到17的数量及编号是为了方便起见且可进行修改。作为一个实例,且如前面所说明,核苷酸引入的顺序是任意的。作为另一个实例,步骤2、6、10及14包括引入及并入核苷酸,且以单个步骤冲洗掉未结合的核苷酸,但应明了步骤2、6、10及14中的每一者可分为一系列较小的步骤。类似地,步骤3、7、11及15(分别是查询步骤1、2、3及4)可进一步分为一系列较小的步骤(例如得到特性,判定是否检测到标记,保存检测结果)。同样地,尽管步骤15包括识别FNI错误,但所述任务可以单独步骤进行。相反地,步骤可组合(例如一些或全部步骤2到5、一些或全部步骤6到9、一些或全部步骤10到13、一些或全部步骤14到17等)。
图19为根据一些实施例的使用具有FLR及FNI错误检测的改进型加性方法的示例性定序程序400的流程图。定序程序400可为例如在显示且描述于图11的论述中的使用SMAS装置100定序多个核酸链(例如ssDNA)的示例性方法200的步骤210处进行的定序程序。在402,定序程序400开始。在404,得到S个传感器105中的每一者的基线特性(例如通过SMAS装置100的至少一个处理器130,借助于电路120)。当查询循环开始时,在406,选择第一经标记的核苷酸(例如参照以上步骤1到17,所述第一经标记的核苷酸将是A)。在408,将所选择的经标记的核苷酸引入到流体腔室115中且将核苷酸潜在地并入与结合位点116结合的核酸链中。在410,冲洗掉未结合的核苷酸。在412,从所述多个S个传感器中的每一者得到特性,且判定所述多个S个传感器105中的每一者的检测结果(例如检测到标记或未检测到标记)。在414,将S个检测结果记录在S个记录中(例如以1指示检测到标记或以0指示未检测到标记)。在416,将标记切割且冲洗掉。在418,得到在步骤412/414期间检测到标记的那些传感器105的特性。在420,判定在步骤412/414期间检测到标记的传感器105中的任何者是否仍在检测标记。若是,则在422判定已检测到对于仍在检测至少一个标记的传感器105的FLR错误,即使在416切割且冲洗掉标记。定序程序400然后继续到424。若在420判定(例如通过至少一个处理器130)在步骤412/414期间检测到标记的传感器105中无一者仍在检测标记,则定序程序还继续到424。在424,判定最后测试的核苷酸是否为查询循环的最后一个核苷酸。对于在以上步骤1到17中假设的核苷酸测试的实例排序,将在368(例如通过至少一个处理器130)判定G是否为最后测试的核苷酸。若不是,则在426选择在查询循环中欲测试的下一个经标记的核苷酸,且重复步骤408到420(且若适用,则到422)直到在424判定最后测试的核苷酸为查询循环的最后一个核苷酸。在428,检测在最后完成的查询循环期间无法检测到任何标记的S个传感器105中的那些传感器的FNI错误。在430,判定(例如通过至少一个处理器130)最后完成的查询循环是否为定序程序400的最后一个查询循环。例如,所述至少一个处理器130可判定是否已记录足够的检测结果以使得至少一个处理器130(或一些其它处理实体,如外部处理器)以识别目标数量的碱基(例如150个碱基)。若不是,则定序程序400返回到步骤404。若是,则定序程序400在432结束。同样地,如上文所说明,测试核苷酸的顺序是任意的。
减轻FNI及FLR错误
为了说明FNI及FLR错误于CLUS装置及SMAS装置100的效应,使用各类型的定序仪以识别示例性DNA序列,其中在使用上文描述的SBS的改进型加性方法读取序列时随机发生FNI及FLR错误。假设FNI及FLR错误的错误率均为
Figure BDA0003938396850000401
示例性序列为:TAG CAA GGT CCGCTA CTG GCA GAC TGG。图20显示在整个18个
Figure BDA0003938396850000402
查询步骤的查询循环中以
Figure BDA0003938396850000403
产生的两种类型的错误。如图20中所显示,10次反应中约1次失败,且对于所定序的三个ssDNA例项,错误均匀分布于FNI错误与FLR错误之间。模型情况代表集体行为的许多可能情境中的一者。针对当将三个DNA链放在CLUS装置的单个传感器上时且当将其放在SMAS装置100的三个离散纳米级传感器105上时的情况分析FNI及FLR错误于碱基判定精度的后果。
图21说明通过CLUS装置传感器检测到的预期信号级,所述传感器捕捉定序程序期间分子集体的行为。在各查询步骤处,CLUS装置传感器可检测分子集体(由三个ssDNA组成)的四个信号强度级:也就是说检测到0个标记、1个标记、2个标记或3个标记。CLUS装置的定序程序会考虑集体的组合信号且无法区分何时对个别链的反应失败。每当CLUS装置传感器感测至少两个标记时,在特定查询步骤处识别一个碱基。所述阈值可由决策标准表示:当CLUS传感器信号级大于1.5时,识别一个碱基。如图21指示,化学失败率高会导致显著碱基识别错误及极低碱基识别精度。CLUS装置方法仅导致21个中的6个(约29%)识别的碱基符合真实序列。此准确度级仅比具有25%准确度的随机猜测略佳(由于具有4个碱基,故正确猜测一个碱基为四分之一机率)。此外,CLUS装置不能分辨出成功及失败化学反应之间的差异,CLUS装置也不知晓显示于图20中的FNI(虚线圆)或FLR(带有反斜杠填充的圆圈)错误的位置。对于CLUS装置,集体平均化会掩盖FLR错误的确切位置。通过基本上进行关于碱基插入、删除及取代位点的位置的有根据猜测,仅可实施概率性错误校正算法以略微提高CLUS装置的碱基识别的质量。示例性算法描述于例如卡桥阿(A.Cacho)等人,“因美纳定序科技的碱基识别算法的比较(A Comparison of Base-calling Algorithms for IlluminaSequencing Technology)”,生物信息简报(Briefings in Bioinformatics),第17(5)卷,786到795,2016;考维克(W.C.Kao)等人,“贝叶斯识别:用于高通量短读定序的以模型为基础的碱基识别算法(BayesCall:A model-based base-calling algorithm for high-throughput short-read sequencing)”,基因组研究(Genome Res.),第19(10)卷,1884到1895,2009;及莱德格布克(C.Ledergerber)及德西默兹克(C.Dessimoz),“用于下一代定序平台的碱基识别(Base-calling for next-generation sequencing platforms)”,简短生物信息(Brief Bioinform.),第12卷,489–97,2011中。
图22说明当使用本文描述的错误校正技术时,SMAS装置100如何可提供更佳准确度。如上文所说明,可在定序程序期间检测到发生于定序程序期间的FLR错误。具体来说,SMAS装置100知晓(或可找到)FLR的位置,因为得到各传感器105的特性(例如信号级)且在切割并冲洗掉标记之后且在引入下一个核苷酸之前进行记录。FLR错误可通过在进行碱基识别时将其视为“未检测到标记”来校正。换句话说,若定序程序的记录包含各查询步骤的二进制(例如0/1)条目,则FLR可通过将在那些查询步骤处的值从“检测到的”值更改为“未检测到的”值来校正。作为一个特定实例,若0表示未检测到标记及1表示检测到标记,则在错误校正之前,在第m个查询步骤处的FLR将以记录中第m个位置中的1表示。所述错误可通过将记录中第m个位置处的值1更改为值0来校正。图22的顶部说明在错误校正以移除FLR错误之前SMAS装置100的三个传感器105中的每一者的检测结果。图22的下部显示在识别碱基之前校正FLR错误的结果。
当超过一半的K个传感器105(在K=3(两个或三个传感器105)的实例中)在特定查询步骤期间检测到标记时,使用SMAS装置100的改进型加性定序程序允许所述查询步骤识别碱基。然而,不同于CLUS装置,SMAS装置100收集相当多的信息,因为其在多个(在所述实例中假设为3个)结合位点116中的每个结合位点116处且在定序程序的每个查询步骤检测标记的存在或不存在。因此,使用SMAS装置100可导致进行更少碱基识别,但那些识别导致比通过CLUS装置识别者显著准确得多的估计的序列。具体来说,对于示例性序列,一旦已移除FLR错误(如图22的下部所显示),使用SMAS装置100导致16个中的11个(约69%)识别的碱基符合真实序列。因此,图21及22说明对于两种类型的定序装置,化学失败于碱基识别准确度的后果是显著不同的,且SMAS装置100提供更佳准确度。
当使用SMAS装置100时,还可校正FNI错误,因为失败的并入在SMAS传感器105检测结果中(例如在由在定序程序期间通过传感器105检测到/未检测到标记组成的记录中)建立特性记号。特别地,改进型加性方法中的FNI错误导致四个或更多个连续查询步骤的一串(连续序列)零(或其它“未检测到标记”检测结果)。如图19的论述中所说明,一些FNI错误可通过识别特定传感器105在查询循环期间未检测到任何标记来检测。应了解,FNI错误还可“跨越”多个查询循环。例如,假设在具有
Figure BDA0003938396850000411
查询步骤的第一查询循环期间,特定传感器105在A?查询步骤期间检测到标记,且然后其没有检测到任何标记直到下一个查询循环的C?查询步骤。因为C?查询步骤在示例性查询循环中的A?查询步骤之后,且改进型加性方法用作定序循环,故第一查询循环的C?查询步骤应已导致检测到标记。应注意,图19的步骤428在第一查询循环或第二查询循环期间将不会导致检测到任何FNI错误,因为任何一个查询循环均不会导致特定传感器105未检测到标记。但对检测结果记录的检查将显示存在FNI错误。FNI错误可通过删除若干串(在DNA定序的情况下,四个)零以将不良链与不受FNI错误影响的链比对来判定性地校正。图23说明通过在定序程序的检测结果的记录中删除若干串四个“未检测到标记”条目来校正FNI错误。如图23中所显示,FNI错误校正导致识别的序列与真实序列之间完全比对。
具有有限组错误的简化模型系统的定性分析表明至少在所定序的DNA链的例项数K很小且化学失败率很高时使用SMAS装置100进行核酸定序大大地优异于使用CLUS装置。为了设置用于两个平台的定量比较的框架,下文探讨簇大小(对于CLUS装置)及所定序的例项数(对于SMAS装置100)如何影响碱基识别精度。对于FNI及FLR两种错误,考虑其中N=K=11及r=0.1的情况。假设传感器正在读取上文所考虑的相同实例序列(TAG CAA GGT CCG CTACTG GCA GAC TGG)及18个
Figure BDA0003938396850000421
查询步骤的查询循环随机出现导致FNI及FLR的化学错误。图24说明以具有大化学失败率(
Figure BDA0003938396850000422
Figure BDA0003938396850000423
或10%)的DNA链为基础的11个例项的示例性SBS反应的结果。如图24中所显示,10次反应中有约1次失败。
图25说明较大簇大小N于CLUS装置的碱基识别精度的影响。图25显示通过CLUS装置传感器检测到的预期信号级,所述传感器捕捉定序程序期间分子集体的行为。在各查询步骤处,CLUS装置传感器可检测到分子集体(十一个ssDNA)的十二个信号强度级中的任何一者,也就是说检测到0到11个标记。当通过CLUS传感器检测到的信号级为大于5.5时,在特定查询步骤处识别碱基。如图25显示,失败的化学导致碱基识别错误:18个中仅11个(约61%)识别的碱基符合真实序列。
图25与图21的比较指示CLUS装置在N=11下的精度比当N=3时更佳。具体来说,增加簇大小N导致碱基判定错误大大减少。而在N=3情况下,仅约29%的识别的碱基与真实序列一致,增加簇大小到N=11使得一致率为约61%,因为所述CLUS装置得益于较大集体的集合行为。当前最先进技术商业CLUS型定序仪与容纳约100个DNA链例项的簇阵列一起工作。
图26说明根据一些实施例的在K=11下使用SMAS装置100的情况下的结果(换句话说,ssDNA的11个例项,各通过不同传感器105检测到)及FLR及FNI错误的判定性错误校正。当超过一半(例如,对于K=11,至少6个)的传感器105检测到标记时,在特定查询步骤处识别碱基。如通过图26所显示,实施如上文所述的判定性FLR错误校正(中间)及FNI错误校正(下部)导致识别的序列与真实序列之间的完全比对。应注意,若不进行错误检测/校正,则以来自SMAS装置100的数据为基础的识别的序列将与使用来自CLUS装置的数据的所述识别的序列相同,因为没有错误校正的SMAS装置100通过将所有个别传感器结果加总简单地再建立集体结果。检测及校正定序数据中的错误的能力使得SMAS装置100相对于CLUS装置具有优势。
因此,若仅发生FNI及FLR错误,则将SMAS装置100连同判定性错误校正一起使用可导致真实序列与识别的序列之间的完全一致。此外,若仅发生FNI及FLR错误,则实际上可仅使用读取单个ssDNA的单个传感器105以及上文论述的判定性错误校正技术(例如将FLR更改为“未检测到标记”及/或从检测结果的记录删除若干串指定长度(例如4)“未检测到标记”)来识别无错误序列。
然而,当引入FNR及/或FDL错误时,仅使用判定性错误校正一般不大可能消除检测结果记录中的所有错误。为了解决FNR及/或FDL错误,除了判定性错误校正之外或替代判定性错误校正,可包括概率性错误校正。
减轻FNI、FLR及FNR错误
本部分进一步包括分析中的FNR错误。这类错误对CLUS装置的碱基识别准确度的影响因为CLUS装置检测核酸例项簇中的标记时固有的平均化而等效于FNI及FLR的影响。FNR错误明显更不利于使用SMAS装置100的定序方法的性能,因为不能判定性地校正FNR错误。(应注意的是,CLUS装置本身根本无法校正FNR错误。相反地,CLUS装置仰赖于集体行为以减轻FLR及其它类型的错误的影响。)
图27说明由示例性序列(TAG CAA GGT CCG CTA CTG GCA GAC TGG)中的FNR错误引入的问题,假设FNI、FLR及现在还有FNR错误在18个
Figure BDA0003938396850000431
查询步骤的查询循环期间随机发生。出于实例的目的,假设K=3(也就是说三个结合位点116中的每一者保持特定ssDNA的例项,且三个各别传感器105中的每一者感测三个ssDNA例项中的各别一者),平均100次反应中有15次失败(r=0.15,此是很大的化学失败率),及所述错误平均分配于FNI错误、FLR错误及FNR错误之间。在此处做出的实例条件及假设下,仅给定通过SBS使用SMAS装置100建立的数据记录,就不可能在数据记录中区分正确地检测事件(图27中的实心圆)与FNR(带有正斜杠填充的圆圈)。图28说明当在传感器S1、S2、S3中超过一半(3个中有至少2个)检测到标记下识别碱基时的结果。尽管可判定性地校正FLR错误(如上文所述,通过将其视为“未检测到标记”),但无法识别FNR错误,因为其与正确标记检测事件无法区分。因此,在本实例中,17个中仅8个(约47%)识别的碱基符合真实序列。因此,引入FNR错误使得判定性FNI错误校正更具挑战性,因为FNR错误破坏所述串四个或更多个“未检测到标记”检测结果,否则所述检测结果可能已被移除。若未经处理地通过删除若干串四个零以尝试将不良链与不受错误影响的链比对来实施FNI错误校正,则定序精度不会提高。实际上,如图29中所显示,对于本实例,碱基识别精度似乎变差,因为在移除所述若干串四个“未检测到标记”检测结果后,20个中仅9个(45%)碱基识别与真实序列一致。
错误校正可通过应用概率性错误校正来改进以减轻FLR及FNI错误之外的FNR错误。例如,应注意在位置2处的胸腺嘧啶查询步骤(查询循环1的查询步骤2)。传感器S1及S3检测到标记,但S2不能检测到。由于在传感器S1及S3处同时发生FNR错误,或由于在传感器S2处发生FNI错误,故S2无法检测到标记。假设各错误的概率为r,在传感器S1及S3处同时发生FNR错误的概率为r2,及在传感器S2处FNI错误的概率为r。错误校正算法(例如通过至少一个处理器130或另一个处理器进行)假设发生更可能的事件(在传感器S2处存在FNI错误)且从捕获来自传感器S2的检测结果的数据记录删除位置2到5中将S2检测结果移位于S2记录中的所有条目。因此,将S2记录中的检测结果与通过传感器S1及S3产生的检测结果再比对,如图30的标记为“A”的上部中所显示。先前(删除前)在位置4(在图30的标记为“A”的部分中)处的G标记检测现可归因于FNR,此乃因传感器S1及S3在位置4中未检测到标记(查询循环1的查询步骤4)。
可在位置13(如图30的标记为“B”的部分中所显示)、32(标记为“C”)及46(标记为“D”)处从左到右进行相同错误校正程序以显示检测结果的S1、S2及S3记录之间的比对的逐渐改进,如图30的标记为“E”的部分中所说明。图30的标记“E”的部分指示尽管实施多个概率性错误校正步骤将所有传感器S1、S2及S3的输出比对,但似乎并未改进识别的序列与真实序列之间的比对。甚至在错误校正后,20个中仅9个(45%)碱基得以正确识别。换句话说,仍发生碱基识别错误。具体来说,错误校正程序之后,所有三个传感器S1、S2及S3均报告在应检测到标记的查询步骤已检测到标记,但所述传感器中的一些还检测到在位置10、22、40及50(显示于图30的连续视图中)处通过FNR不正确并入的标记。
当超过一半的传感器105的检测结果一致时(错误校正之后)识别碱基导致在序列位置8(查询步骤22)处的胸腺嘧啶插入错误,其中传感器S1及S3均检测到在相同查询步骤期间结合到非互补核苷酸的标记。(应了解,可知晓在位置8处存在胸腺嘧啶插入错误的原因是因为错误化数据是出于说明的目的而建立且是已知的。在一个实施案中,传感器105仅指示在查询步骤期间是否检测到标记,而不指示所述检测(或缺少检测)是正确的还是错误的。因此,在一个实施案中,在查询步骤22处的错误将基本上无法与正确地检测结果区分。)清楚地展现单个错误碱基插入的位置的正确比对的真实序列及识别的序列可呈现为:
错误:|插入
真实序列:TAG CAA G*G TCC GCT ACT GGC
识别的序列:TAG CAA GTG TCC GCT ACT GGC
*插入位置
若碱基识别规则经修改以要求所有三个传感器S1、S2及S3均一致,则可校正此种插入错误。就这一规则来说,所有三个传感器S1、S2及S3必须同时遭遇FNR错误以导致错误的碱基识别。这一事件的概率仅为r3。假设r=0.05,在相同查询步骤期间所有三个传感器S1、S2及S3均遭遇FNR事件,平均100,000次查询中仅125次(或0.000125的概率),甚至对于用于当前实例中的极高错误率,此是极低的。然而,若还发生FLD错误,则实施这一规则可导致不正确的识别,如下文进一步论述。
减轻FNI、FLR、FNR及FLD错误
用于一些实施例中的一般错误校正策略解决且减轻导致FNI、FLR、FNR及FLD错误的所有四种类型的化学失败。图31说明示例性序列(TAG CAA GGT CCG CTA CTG GCA GACTGG),假设FNI、FLR、FNR及现在也有FLD错误在18个
Figure BDA0003938396850000451
查询步骤的查询循环期间随机发生。出于在定序数据中建立许多错误以提供媒体来说明示例性错误校正程序的目的,假设极高平均错误率为5次中有1次失败的反应(
Figure BDA0003938396850000452
或20%错误率),且还假设错误在FNI错误、FLR错误、FNR错误及FLD错误之间平均分配。因此,100次反应中有约20次失败,且所述失败在四种错误类型之间相等分配。应了解,这一高错误率实务上不太可能发生,且因此此处所考虑的实例的难度可能比将在真实世界实施案中遭遇到的难度高得多。
在此处做出的实例条件及假设下,仅给定通过SBS使用SMAS装置100建立的数据记录,就不可能区分正确核苷酸并入与FNR,也不能区分正确核苷酸非并入与FNI。尽管可如前面所描述判定性地检测及校正FLR错误(通过在切割且冲洗掉标记后检查传感器105,且将FLR视为“未检测到标记”),但无法识别FNR错误,因为其无法与正确地检测事件区分,且无法识别FNI及FLD错误,因为其无法与未并入正确核苷酸区分。然而,仍可使用概率性错误校正技术来完成错误减轻。例如,如上文所说明,当在一个特定查询步骤期间少于所有传感器S1、S2及S3检测到或未检测到标记时,可计算两个(或更多个)事件的概率,所述具有最高概率的事件可假设为是正确事件,且可采用适合错误校正步骤。
图32说明在上文描述的条件及假设下将错误校正程序应用于在SBS期间捕获的数据。图32的标记为“A”的部分是移除FLR错误之前的原始数据。假设如上文所述,在切割且冲洗掉标记之后检查传感器105信号级,已知FLR错误的位置。FLR错误可使用判定性错误校正来完全移除,也就是说通过将对应于检测到FLR错误的查询步骤的位置中的数据记录中的“检测到标记”值(例如1或“是”)更改为“未检测到标记”(例如0或“否”)值。应注意,在显示于图31中的查询循环15期间,在传感器S2的数据中的FLD错误之后是FLR错误。换句话说,在第15个查询循环的第一查询步骤期间传感器S2无法检测到并入的核苷酸的标记。当在第15个循环的第一查询步骤之后,且在第15个查询循环的第二查询步骤之前切割标记时,检查传感器S2的信号级。此种检查显示在传感器S2处存在标记,此将被认为是FLR错误,因为在最后一个查询步骤之后应已切割且冲洗掉所有标记。因此,甚至在FLR错误跟随另一个错误时,其也是可检测的且可被移除。
图32的标记为“B”的部分显示经由判定性错误校正移除FLR错误后的检测结果的记录,如前面所述进行应用。显示于“B”中的数据记录现仅包含通过传感器S1、S2、S3中的每一者在所显示的(4×18)查询步骤中的每一者处检测到或未检测到标记的指示。(应了解,所述记录可比图32中所显示短或长。)如上文所说明,从这些记录并不知晓哪些“检测到标记”指示是正确的及哪些是FNR错误,且并不知晓哪些“未检测到标记”指示是正确的及哪些是FNI或FLD错误。因此,概率性错误校正可用于估计序列。
为了说明如何可应用概率性错误校正,下表显示图32的在已移除FLR错误(例如从图32中的标记为“B”的记录)后三个传感器S1、S2及S3之前五个查询循环(查询步骤1到20)的数据记录。换句话说,下表显示判定性错误校正移除FLR错误后之前20个检测结果。对于传感器检测到标记的查询步骤,所述表包含值1,及对于传感器未检测到标记的查询循环,所述表包含值0:
Figure BDA0003938396850000461
Figure BDA0003938396850000471
如上文所说明,在移除FLR错误之后的简单大多数表决将导致正确识别17个碱基中仅8个,如图32的标记为“B”的部分中所显示。概率性错误校正如下文所述可提供显著改进。
考虑到作为一个实例的查询步骤2,传感器S1及S3均检测到标记(上表中的条目为1),但传感器S2未检测到标记(表条目为0)。因此,传感器S1及S3是错误的,或传感器S2是错误的。通过考虑可导致这些结果中的每一者的各种事件的概率,错误校正算法可减轻定序数据中的错误。具体来说,因为已从数据记录移除FLR,故传感器S1及S3在查询步骤2期间均不正确地检测到标记的唯一方法是两者在所述查询步骤期间是否均遭遇FNR错误。若FNR错误的概率为r,则传感器S1及S3在单个查询步骤期间均遭遇FNR错误的概率为r2。出于本实例的目的,假设r=0.2的高错误率,且因此传感器S1及S3在查询步骤2期间均不正确地检测到标记的概率为0.04。
若传感器S2是错误的,则是因为传感器S2由于FLD错误或FNI错误而无法检测到标记。回想一下,当并入正确互补核苷酸,但缺失标记或传感器无法检测到其标记时发生FLD错误,及当在定序循环期间根本没有并入正确互补核苷酸时发生FNI错误。FLD及FNI错误是相互排他的(也就是说,传感器一次仅可遭遇其中的一者,而从不会是两者)。因此,假设各类型的错误的概率为r,传感器S2遭遇FLD错误或FNI错误的概率为2r。对于此处的实例,已假设r=0.2的高错误率,因此在查询步骤2期间传感器S2是错误的概率为0.4。将传感器S2在查询步骤2期间是错误的概率与传感器S1及S3均是错误的概率进行比较,因为0.4>>0.04,故传感器S2是错误的可能性更大。在一些实施例中,错误校正算法假设发生更可能的事件,意味着假设传感器S2是错误的,且丢弃传感器S1及S3均是错误的概率且不做进一步考虑。
如上文所说明,传感器S2由于FLD错误或FNI错误中任一者而可能是错误的。在FLD错误之后,通过传感器S2感测到的DNA链将与通过传感器S1及S3感测到的DNA链保持“同步”或“比对”。换句话说,若查询步骤m定序通过传感器S1、S2及S3中的每一者感测到的DNA链的第40个碱基,则查询步骤m+1将定序各链的第41个碱基,即使传感器中的一者(例如传感器S2)在查询步骤m期间遭遇FLD错误。另一方面,FNI错误的后果是通过遭遇FNI错误的传感器感测到的DNA链与通过未遭遇FNI错误的传感器感测到的DNA链“不同步”或变成“错误比对”。在当前实例中,若在查询步骤2处的错误是由于FNI所致(例如,其将“位于”通过传感器S1及S3以四个查询步骤感测到的DNA链“后面”,此将是下一次互补核苷酸的并入),则通过传感器S2感测到的DNA链将与通过传感器S1及S3感测到的DNA链变成不同步。
在一些实施例中,通过错误校正算法采取的动作部分取决于候选错误经校正数据的检查,所述检查分别假设两种类型的错误中的每一者已发生。换句话说,可修改检测结果的记录以校正错误,假设错误是由于FLD错误引起,以产生第一候选经校正数据记录,且可分别修改所述检测结果的记录以校正错误,假设错误是由FNI错误引起,以产生第二候选经校正数据记录。可然后检查及/或分析及/或比较两个候选经校正数据记录以判定哪个更可能是正确的。为了校正FLD错误,将“未检测到标记”指示翻转为“检测到标记”指示。为了校正FNI错误,将数据条目移位四个位置(例如到左侧作为数据记录呈现于本文实例中)。
为了说明实例数据记录中查询步骤2的特定实例,第一候选经校正数据记录选项A假设影响传感器S2的输出的(假定的)错误是FLD错误。通过将传感器S2的记录中的查询步骤2之位从0翻转为1来校正假定的错误,如以下表选项A中以粗体、加底线值“1”所显示:
Figure BDA0003938396850000481
第二候选经校正数据记录选项B假设影响传感器S2的输出的错误是FNI错误。所述假定的错误通过从传感器S2数据条目删除在查询步骤2、3、4及5期间记录的数据以使对应于传感器S2的数据记录与传感器S1及S3的数据记录“再同步”或“再比对”来校正,此得到下表(原来在位置21到24处的值移位到位置17到20中)。通过错误校正算法修改的选项B表条目以粗体、加底线字体显示:
Figure BDA0003938396850000482
可然后比较及/或分析选项A及B以判定哪个更可能是正确的,且可丢弃所述选项中的一者。例如,处理器(例如至少一个处理器130或另一个处理器)可判定各候选经校正数据记录的度量值且至少部分地以度量的比较为基础来确定选项A及B中哪个更可能是正确的。度量的一个实例是从经现在校正的当前查询步骤之后的查询步骤开始的查询步骤数及在所有三个(或更一般来说,K)传感器的标记检测结果一致的数据记录中更远的查询步骤J位置。例如,使用此度量,且将值J设置为8,选项A的度量值为3,及选项B的度量值为6。在一些实施例中,仅以此结果为基础,假设因为选项B的度量值显著大于选项A的度量值,故选项B更可能是正确的,且丢弃选项A。在一些实施例中,丢弃两个选项中的一者,唯若其度量值超过另一选项的度量值某个阈值(例如百分比、量(例如至少两倍、至少1.5倍大等)等)。在一些实施例中,保留选项A,且直到稍后才丢弃选项。
在一些实施例中,以从经现在校正的当前查询步骤考虑的数据的距离为基础来加权对度量值的贡献。例如,因为已引入数据记录中的另外错误的可能性随着更多碱基被定序而增加(例如在查询步骤3与查询步骤40之间K个传感器中的一者发生某种类型的错误的可能性大于在查询步骤3与查询步骤6之间K个传感器中的一者发生某种类型的错误的可能性),故度量可假设更近数据条目比更远数据条目更可能是正确的,且因此较那些更远数据条目,对更接近经现在校正数据的数据条目提供更多权重。加权可为例如线性或非线性的。仅作为一个实例,对于数据贡献多达12个查询步骤远的度量,经现在校正的数据的四个查询步骤内的查询步骤贡献可赋予权重1,经现在校正的数据的五个到八个查询步骤的查询步骤贡献可赋予权重0.5,及经现在校正的数据的九个到十二个查询步骤的查询步骤贡献可赋予权重0.2。应明了,可使用许多可能的度量,无论具有或不具有加权,及那些上文提供的度量仅是示例性的且无意为限制性的。
还应明了,尽管上文描述的度量使用从经现在校正的当前查询步骤之后的查询步骤开始的查询步骤数及在所有三个(或更一般来说,K个)传感器的标记检测结果一致的数据记录中更远的查询步骤J位置,但其可等效地使用从经现在校正的当前查询步骤之后的查询步骤开始的查询步骤数及在所有三个(或更一般来说,K个)传感器的标记检测结果不一致的数据记录中更远的查询步骤J的位置。在此种情况下,大的度量值将指示传感器数据条目之间更多的不匹配,且因此候选经校正数据记录对于较低度量值将更可能是正确的。如一般技术者所可明了,可对欲应用的任何加权进行调整。
还应明了,在数据记录中的假定的错误的校正之后,不必丢弃可能选项中的一者。例如,在传感器S2的记录中的查询步骤2处的(假定的)错误的(假定的)校正之后,选项A及B两者皆可保留,且于两者上并行进行进一步的错误检测及校正。同样地,每次校正假定的错误,可判定及/或评定/比较候选序列的多个选项。可在错误校正程序的各步骤处维持各可能选项/候选序列的运行度量值,且可在某个点(例如在已判定且评估所有候选选项(例如相对于彼此)之后,或在一些另外数量的查询步骤之后等)判定最可能的候选序列。
此外,尽管在上文实例中,立即丢弃传感器S1及S3两者错误检测标记的概率,因为所述事件的概率(给定本文的假设)显著低于所述传感器S2是错误的概率,可或者遵循与针对传感器S2相同的程序。换句话说,可判定在查询步骤2处的选项C,假设传感器S1及S3两者均遭遇FNR错误,且传感器S2是正确的。在此种情况下,可调整度量以说明各种可能结果的可能性(例如通过以传感器S1及S3为基础同时遭遇FNR错误的概率“惩罚”选项C的度量(例如将度量乘以两个传感器S1及S3均是错误的概率与传感器S2是错误的概率的比率))。
应明了,本文描述的错误校正方法可以多种方式使用以改进使用SMAS装置100的核酸定序的准确度。假设足够的计算能力,实施案(例如使用至少一个处理器130或另一个处理器或处理器)可判定且评估应用错误校正的详尽候选序列组,且然后从其当中选择最可能是正确的候选序列。为了降低计算复杂度,实施案还可在错误校正过程期间作出决策以消除被认为不太可能是正确的候选错误经校正序列(或潜在错误来源)(例如上文实例中的选项C)且仅保留那些更可能是正确的候选错误经校正序列。应明了,所公开的原理的灵活性使得其适于具有多种计算能力的系统中的错误减轻。
返回上文实例,假设选项B是在将错误校正应用到来自查询步骤2的数据之后保留的唯一选项,经校正数据显示如下:
Figure BDA0003938396850000501
三个传感器S1、S2及S3不一致的下一个查询步骤是在查询步骤5处。再一次,传感器S2与传感器S1及S3以与查询步骤2中相同的方式不一致。在一些实施例中,错误校正算法判定(a)传感器S2是错误的概率是大于传感器S1及S3两者均是错误的概率,及(b)传感器S2在查询步骤5处遭遇FNI错误或FLD错误。再一次,可建立两个选项,一个选项假设错误是FLD错误(通过翻转位来校正),及另一个选项假设错误是FNI(通过将数据移位四个位置来校正)。经校正的数据记录显示如下:
选项A(假定FLD错误经校正):
Figure BDA0003938396850000502
Figure BDA0003938396850000511
选项B(假定FNI错误经校正):
Figure BDA0003938396850000512
再一次,可计算选项A及B的度量,且可丢弃所述选项中的一者,或可保留两者。为了实例起见,假设保留选项A,产生以下错误经校正数据:
Figure BDA0003938396850000513
传感器的数据不一致的下一个查询步骤是查询步骤10。此处,传感器S1检测到标记,但传感器S2及传感器S3均未检测到标记。因为已从数据记录移除FLR错误,故传感器S1在查询步骤10期间错误地检测到标记的唯一方法是其在所述查询步骤期间是否遭遇FNR错误。FNR错误的概率为r。若传感器S2及S3均为错误的,则是因为(a)两者均遭遇FNI错误,(b)两者均遭遇FLD错误,或(c)其中的一者遭遇FNI错误及另一者遭遇FLD错误。相互排他的事件(a)、(b)或(c)中的任何者的概率为4r2。因此,在一些实施例中,假设发生更可能的事件,也就是说,所述传感器S1遭遇FNR错误(因为对于假设的r值,r>>4r2)。如上文所说明,FNR错误可通过将数据条目从“检测到标记”值翻转为“未检测到标记”值来校正,此得到下表:
Figure BDA0003938396850000514
所述错误校正程序可如所述继续在整个其余数据记录中进行。图32的标记为“C”的部分显示所述实例的结果。如所示,在应用如上文所述的概率性错误校正之后,正确地识别20个中的16个(80%)碱基。
图33为说明根据一些实施例的错误校正程序450的流程图。错误校正程序450可为例如说明于图11中的错误校正程序212,且其可通过处理器(例如说明于下文论述的图5A或图50中的至少一个处理器130)进行。在452,错误校正程序450开始。在454,在由于使用SMAS装置100的核酸定序程序而产生的定序数据中识别多个记录。识别的多个记录中的每一者包含多个条目,所述多个条目中的每一者捕获核酸的特定链的一个例项的检测结果。因此,若识别的记录数为K,则所述K个记录中的每一者包含一个条目/检测结果/定序程序查询步骤。各检测结果指示,在查询步骤期间,(a)通过相应传感器105检测到标记,或(b)通过相应传感器105未检测到标记。所述多个记录可以多种方式来识别。例如,如下文所进一步说明,可将不同独特条形码拼接到核酸链的引物端使得在定序程序的循环期间读取已知序列。因此,所述多个记录可通过搜索与核酸的特定链相关的条形码的定序资料来识别。作为另一个实例,可在定序数据中(例如在记录定序程序的前约35个查询步骤的检测结果的条目内)识别条目的共同序列。
在456,以所述多个记录为基础,判定核酸的特定链的多个候选序列。所述多个候选序列中的每一者估计核酸的特定链的核酸序列的至少一部分(例如,少到一个碱基)。在一些实施例中,判定所述多个候选序列包括在所述多个记录内识别特定查询步骤,在所述特定查询步骤处,第一传感器检测到各别标记及第二传感器未检测到任何标记;及确立两个候选序列,所述两个候选序列中的一者假设所述第一传感器正确地检测到各别标记及所述两个候选序列中的第二者假设所述第一传感器不正确地检测到各别标记。在一些实施例中,判定所述多个候选序列包括在所述多个记录内识别特定查询步骤,在所述特定查询步骤处,第一传感器检测到各别标记及第二传感器未检测到任何标记;及确立两个候选序列,所述两个候选序列中的一者假设所述第二传感器不正确地未检测到任何标记及所述两个候选序列中的第二者假设所述第二传感器正确地未检测到任何标记。在一些实施例中,判定所述多个候选序列包括在所述多个记录中的至少一者中识别指示未检测到标记的一组连续条目(例如四个条目),及从所述多个记录中的至少一者删除指示未检测到标记的所述组连续条目。在一些实施例中,所述多个条目中的每一者是第一二进制值(指示检测到标记)或第二二进制值(指示未检测到标记),及判定所述多个候选序列包括在所述多个记录中的至少一者中识别一串(例如四个)第二二进制值,及从所述多个记录中的至少一者删除所述串第二二进制值。
在458,所述多个候选核酸序列中的特定候选序列经识别为从所述多个候选序列当中最可能是正确的序列。在一些实施例中,识别所述多个候选序列中最可能是正确的特定候选序列包括判定或估计所述多个候选序列中哪个具有是正确的最高概率。在一些实施例中,识别所述多个候选序列中最可能是正确的特定候选序列包括判定所述候选序列中的每一者的各别度量,且至少部分地以各别度量及标准(例如最小发生可能性、阈值发生可能性)为基础,选择特定候选序列作为最可能是正确者。在一些实施例中,识别所述多个候选序列中最可能是正确的特定候选序列包括识别由多个记录表示的特定查询步骤的大多数结果(例如传感器105中超过一半检测到标记或传感器105中超过一半未检测到标记)。在一些实施例中,识别所述多个候选序列中最可能是正确的特定候选序列包括判定所述多个候选序列中的每一者的各别发生可能性,及以其满足约束的各别发生可能性(例如最小概率)为基础来选择特定候选序列。在一些实施例中,候选序列中具有最高发生可能性的特定候选序列经识别为最可能是正确者。在一些实施例中,所述候选序列中的一者或多者是以已知约束如碱基的特定序列是不可能的知识为基础来消除。例如,从核酸的起源或来源(例如人类)可知晓碱基的特定序列是不可能的,且因此可通过进一步考虑消除具有此种不可能的序列的候选序列。
在460,错误校正程序450结束。
应了解,仅当识别的最可能的情境(例如在图33的458处的识别)实际上是正确者时,概率性错误校正才成功。若化学失败率很高,如在本文描述的实例中,则可存在同样可能发生的多个情境(或其发生概率彼此接近),在所述情况下,可采用更复杂的生物信息工具。例如,候选序列可以所定序核酸的来源的知识(例如以给定核酸的来源/起源为基础的情况下,碱基的特定序列是不可能的知识)为基础来消除。然而,若如本文所述正确地实施,则所述错误校正过程导致传感器105输出的正确比对。在显示于图32中的实例中,在移除FNI及FLR之后,所有三个传感器S1、S2及S3均在应检测到标记的正确检测查询步骤报告标记,但所述传感器在许多查询位置(5、10、13、20、22、27、32、40、41、48及50)不一致,其中传感器检测到通过FNR不正确并入的标记或由于FLD而无法检测到标记。当在比对的序列中传感器105中超过一半一致时识别碱基导致在序列位置8处的胸腺嘧啶插入(查询步骤22)及在位置13处的鸟嘌呤删除(查询步骤32)。清楚地展现碱基插入及删除位置的正确比对的真实序列及识别的序列可呈现为:
Figure BDA0003938396850000531
如有鉴于本文公开内容所了解,巧合的FNR及FLD导致插入及删除错误不能以算法方式校正且若不知晓真实序列则将保持不被发现。换句话说,当比对的序列中单分子传感器105中超过一半给出错误答案时,不正确地识别碱基。此类事件的概率取决于化学失败发生的比率(r值)。如上文所说明,本文呈现的实例使用高错误率以便说明错误校正技术的应用。实际实施案中的错误率应显著降低,从而减少错误校正程序不能够校正错误的可能性。所公开的错误校正技术可用于在查询步骤处正确地比对多个传感器105输出。此可使用对可能错误类型的物理起源(例如某些序列对于源核酸是不可能的知识)、其平均发生率及其在传感器序列输出中的记号的深刻理解来实现。若化学错误率很高且错误的记号被遮盖,则错误校正算法可为计算密集且难以实施。下文论述描述不正确碱基识别的概率如何取决于读取长度、簇大小N(对于CLUS装置)、感测相同核酸链的例项的传感器的数量K(对于SMAS装置100)及失败的化学错误率。
簇定序仪的一般定量结果
本文开发一种简单定量模型,其用于估计采用上文引入的改进型加性定序方案的簇定序仪中不正确碱基识别的概率。假设各种类型的错误(FNI、FLR、FNR及FLD)在整个簇中以比率r随机发生,其中0<r<1。最初,簇链彼此同相(in-phase)(例如同步、比对、不同步),且检测到的信号与簇大小(N)成比例。当引入且成功并入互补标记的核苷酸时,检测到信号。当在具有
Figure BDA0003938396850000541
查询步骤的查询循环期间引入非互补核苷酸时,应检测不到信号。错误以比率r发生,此导致逐渐增加的链数与集体平均异相(不同步)。此在并入互补核苷酸时降低集体信号的强度(或幅度)且在引入非互补核苷酸时增加背景信号的强度或幅度。在因为引入且成功并入匹配的核苷酸(ON-State)而应检测到标记的查询步骤处的平均信号强度由以下给出:
Figure BDA0003938396850000542
其中C是检测查询步骤(或数量)。类似地,在因为引入非互补核苷酸(OFF-State)而不应检测到标记的查询步骤处的强度由以下给出:
Figure BDA0003938396850000543
这种背景信号是由异相核酸链产生,所述异相核酸链并入与集体平均的同相位置不互补的核苷酸。方程式1(a)及(b)的函数绘制于图34A中,对于N=11及r=0.1。图34B说明函数如何拟合先前描述的簇模型实例的强度测量值。如所说明,正确识别碱基直到
Figure BDA0003938396850000544
但在较大C值处发生频繁错误。
如通过图34A及34B所说明,在早期定序查询(C小)期间,<1>及<0>状态完全分开,但其遵循由方程式1(a)及(b)表示的函数形式快速接近平均值N/2。再者,因为错误发生是随机无关事件,故两种状态的信号测量值围绕其集体平均值<1>及<0>离散分布。具体来说,当集体平均为<1>时簇大小N的ON-State强度测量值为k的概率通过泊松分布(Poissondistribution)来给出:
Figure BDA0003938396850000551
类似地,当集体平均为<0>时相同簇的OFF-State强度记录值为k的概率为:
Figure BDA0003938396850000552
概率函数P<1>(k)及P<0>(k),N=11,r=0.1及C=0,5,10,15及20,绘制于图35中。所述图显示两种泊松分布,且尾部随着C增加而越来越多地重叠。在两种离散分布下P<0或1>(k)的所有可能值的总和等于1:
Figure BDA0003938396850000553
当将ON-State误认为OFF-State或反之亦然时,发生碱基识别错误。图36说明在不同定序查询步骤C=0,5,10,15及20处ON-State P<1>(k)及OFF-State P<0>(k)(N=11及r=0.1)的离散概率函数。不正确碱基识别的来源在P<0>(k)的尾部延伸高于N/2中间值时以带图案的点显示或在P<1>(k)延伸低于N/2中间值时以虚线圆圈显示。在ON-State分布的尾部显著延伸低于
Figure BDA0003938396850000554
(在图36中,不正确<1>)或OFF-State分布的尾部(不正确<0>)延伸高于
Figure BDA0003938396850000555
时,进行错误碱基识别的概率变得很大。
图37A显示平均ON-State及OFF-State强度图与C(r=0.1)及N=11(顶部)及N=101(底部)的簇大小的函数关系。图37B说明在C=1,10,20,30及40(r=0.1)及N=11(项部)及N=101(底部)的簇大小下的OFF-State概率分布函数P<0>(k)。增加簇大小通过减小P<0>(k)分布的相对宽度(这增加距P<1>(k)的距离)而延迟碱基判定错误的发生。
一般来说,在定序查询数量C处不正确碱基识别的概率(对于簇大小N及化学失败率r)(表示为PC,N,r)是不正确识别OFF-State的概率的总和,也就是说,对于超过k=(N+1)/2的k值,其是P<0>(k)值的总和。这些是图36及37B中的带图案的点。增加簇大小N增加两个离散分布峰之间的初始间隔且延迟碱基识别错误的发生。为了简化进一步论述,仅考虑簇大小N为奇数的情况以避免当检测到的信号为N/2(其既不是ON-State也不是OFF-State)时引入的不判定性。对于N的奇数值,PC,N,r由以下给出:
Figure BDA0003938396850000561
或者,PC,N,r是不正确识别ON-State的概率的总和,也就是说对于k低于k=(N-1)/2的值,其为P<1>(k)值的总和(图36中的带有反斜杠填充的圆圈),其由以下给出:
Figure BDA0003938396850000562
图38A及38B绘制方程式4(a)及4(b)与N及r的各种组合的C的函数关系。图38A绘制计算PC,N,r(C)函数,r=0.1及N=11,51,101及151,及图38B绘制计算PC,N,r(C)函数,N=101及r=0.1,0.05及0.01。所述图显示在各种阈值Cth下不正确碱基识别的概率的显著增加率。如图38A及38B指示,随着C趋于无穷大,PC,N,r接近0.5。图38A及38B中的图显示分析分子集体的定序仪(例如CLUS装置)的行为特性。当C很小时,不正确碱基识别的概率(PC,N,r)仍然很低,但其在特定阈值(Cth)处显著增加,所述阈值是由N及r参数的量值确定。随着C趋于无穷大,PC,N,r接近0.5,在此点时,ON-State的强度等于OFF-State的强度,且有二分之一的机率进行不正确碱基识别。PC,N,r很大程度上取决于此三个参数C,N,r。依赖于C特别重要,因为Cth限制在出现错误的概率变得过于大之前可识别连续碱基的个数。
图39说明N-r参数空间,其中在位置150处的不正确碱基识别的概率(PC=375,N,r)低于100分之一(Q20)、1,000分之一(Q30)、10,000分之一(Q40)及100,000分之一(Q50)。增加簇大小N,或降低化学失败率r,将阈值Cth推到更高C值,但如图39中定量显示,簇大小相当大且允许的化学错误率必须很小以使DNA定序仪适合诊断应用。
当前,定序行业的基准是读取150个连续碱基且在位置150处出现不正确碱基识别的概率为1,000分之一的能力。这一般称为Q30,但需要Q40且甚至Q50的显著更大定序质量因子与更长读取长度以检测高精度诊断中的罕见突变。方程式3(a)及(b)中PC,N,r的一般表示充分探索C-N-r参数空间且可用于估计任何定序度量的错误容限及簇大小要求。图39显示N-r参数空间的区域,其中在位置
Figure BDA0003938396850000563
处不正确碱基识别的概率低于100分之一(Q20)、1,000分之一(Q30)、10,000分之一(Q40)及100,000分之一(Q50)。例如,若定序阵列中的平均簇大小N为100个分子,且所需的定序精度为Q30,具有150bp长读段
Figure BDA0003938396850000564
则允许的化学失败率为r≤0.002641,也就是说,在任何定序查询步骤处允许于定序仪阵列上10,000次个别单分子反应中仅26次或更少次失败。若所需的精度为Q50,则允许每10,000次反应中仅19次或更少次错误。若平均簇大小N减少到10个分子,则数量降到每10,000次反应中约6次(Q30)及约1次(Q50)。
图40A显示顺着Q30等高线针对各种N-r组合的计算PC,N,r(C),在插图中以交叉(“+”号)标记,所有交叉点均在PC,N,r(C=375)=0.001处。所述图显示增加簇大小N不仅提高化学失败容限,而且其通过将阈值Cth推到更高C值来延迟碱基识别错误的发生,此导致累积错误降低。若在查询循环C处进行不正确碱基识别的概率为PC,N,r,则进行正确识别的概率为(1-PC,N,r)。进行C连续正确识别的概率则为:
Figure BDA0003938396850000571
不进行以行形式的C正确碱基识别的概率(其与在任何查询循环C处出现至少一个错误的概率相同或更小)(或累积错误概率
Figure BDA0003938396850000572
)由以下给出:
Figure BDA0003938396850000573
其中Pj,N,r由方程式4(a)或(b)给出。图40B顺着相同等高线绘制计算累积错误概率
Figure BDA0003938396850000574
且说明较大簇产生较低累积错误。
最后,指示计算且绘制标记其中在位置150处不正确碱基识别的累积概率(在一些实施例中,目标读取长度)小于或等于100分之一
Figure BDA0003938396850000575
1,000分之一
Figure BDA0003938396850000576
10,000分之一
Figure BDA0003938396850000577
及100,000分之一
Figure BDA0003938396850000578
的区域的N-r参数空间。图41说明在位置150处不正确碱基识别的累积概率
Figure BDA0003938396850000579
小于或等于100分之一
Figure BDA00039383968500005710
1,000分之一
Figure BDA00039383968500005711
10,000分之一
Figure BDA00039383968500005712
及100,000分之一
Figure BDA00039383968500005713
的N-r参数空间。图41中的图定量地显示CLUS定序仪可包括大DNA簇大小N以受益于集体行为,且其可能需要极可靠的化学(每10,000次反应中仅几十次失败)以用于高精度诊断应用。更具体来说,若定序阵列中的平均簇平均保持例如100个分子,且特定定序应用程序耐受1,000分之一
Figure BDA00039383968500005714
的累积碱基识别错误概率,则在任何定序查询步骤处允许于定序仪阵列上10,000次个别单分子反应中仅约22次或更少次失败。图41中的图说明通过减小簇大小N且将更多簇封装到感测区域中来增加定序通量仅可以定序化学的并行改进来实现。所需改进率随着簇大小N变小而加速,且CLUS装置可不再受益于大集体行为。
单分子阵列定序仪的一般定量结果
为比较CLUS及SMAS平台,开发简单定量模型以估计SMAS装置100中不正确碱基识别的概率。不同于适用于(上文描述的)CLUS装置的集体情况(在所述情况下几乎不能到无法实施错误校正),SMAS装置100个别地定序且记录对应于个别核酸分子的检测结果的能力允许开发且实施识别且消除所得数据记录中的至少一些错误的强力技术。如本文所公开的一种或多种错误校正技术可应用于在进行碱基识别之前从定序程序(例如SBS)产生的数据以识别且校正检测结果中的错误以改进识别的序列的准确度。具体来说,可改进在定序程序的一些或所有查询步骤处来自多个传感器105的检测结果的比对。即使错误校正算法成功地正确比对多个传感器检测结果,仍可进行不正确碱基识别。如上文所说明,巧合的FNR错误及FLD错误可导致可能无法校正的插入及删除错误。取决于数据记录中的错误数量(所述数量部分由化学失败率确定),错误校正过程可为复杂且计算密集,但应了解现代化处理器具有足够计算能力以进行甚至最计算密集的所公开技术。
下文,考虑SMAS装置100的K个单分子传感器105的一般情况,各传感器能够监测克隆DNA的单个例项。如在上文装置CLUS装置的分析中,假设四种类型的错误(FNI、FLR、FNR及FLD)在定序程序期间随机发生且分布于整个查询步骤。
如上文所说明,在一些实施例中,实施概率性错误校正算法(例如通过至少一个处理器130,其可包括在SMAS装置100中或在SMAS装置100外部)。在一些实施例中,概率性错误校正算法改进数据记录中的至少一些传感器105检测结果的比对。在一些实施例中,一些或所有错误校正算法是在一些或所有查询步骤已完成且已捕获一些或所有数据之后实施。如前面所述,错误校正程序基本上消除FNI及FLR、以及一些FLD。传感器105检测结果的算法再比对还使得进行不正确碱基识别的概率与查询步骤数C无关。再者,因为错误校正算法将数据记录中的至少一些传感器105检测结果再比对,从而校正至少一些错误,有效错误率r小于在CLUS情况中。在应用示例性错误校正算法之后,在一些实施例中,仅当在算法上比对的序列中K个传感器105中超过一半给出不正确结果时,不正确地识别碱基。
进行不正确碱基识别的概率(PK,r)仅是(a)定序相同核酸分子的例项的传感器105的数量K(其可为小于传感器阵列110中的所有传感器105)及(b)化学失败率r的函数。类似于上文CLUS装置的分析所采用的方法,将K值限制为奇数值以避免其中传感器105中恰好一半与另一半不一致的情况。进行不正确碱基识别的概率由以下给出:
Figure BDA0003938396850000591
其中
Figure BDA0003938396850000592
例如,若K=3,
Figure BDA0003938396850000593
在K=3的实例中,相乘
Figure BDA0003938396850000594
项解释其中3个传感器105中有2个同时在特定查询步骤处遭遇错误(例如其不正确地检测到标记(FLR、FNR)或不正确地未检测到标记(FNI、FLD)),从而迫使不正确碱基识别的情况。将三个传感器105表示为S1、S2及S3,这种情景发生在以下情况:(1)S1及S2同时遭遇错误,(2)S1及S3同时遭遇错误,或(3)S2及S3同时遭遇错误。
Figure BDA0003938396850000595
项解释不可能的情况,即所有三个传感器S1、S2及S3同时遭遇错误,此还导致不正确碱基识别。因为多项式扩展中的最大项为rK-1且0<r<1,故进行不正确碱基识别的概率通过增加单分子传感器105的数量(也就是说增加K值)显著降低。
例如,若r=0.1,则PK=3,r=0.1=0.029,此意味着进行不正确碱基识别的机率为约100分之三。换句话说,150次碱基识别中平均约4.35次将是不正确的,此对于一些诊断应用来说过大。为使用三个纳米级传感器105以Q30(PK,r=0.001)定序,将需要化学失败率降低到r=0.01837,意味着将允许1,000次查询中仅约19次是错误的。然而,若将传感器105的数量(K值)增加到11,则可容忍一百次反应中超过12次失败。
如上文针对CLUS装置所进行,下文针对SMAS装置100探索K-r参数空间以识别其中在任何查询位置处不正确碱基识别的概率低于100分之一(Q20)、1,000分之一(Q30)、10,000分之一(Q40)及100,000分之一(Q50)的区域。图42说明其中在每一查询步骤处不正确碱基识别的概率(PK,r)低于100分之一(Q20)、1,000分之一(Q30)、10,000分之一(Q40)及100,000分之一(Q50)的K-r参数空间的计算结果。如图42中所显示,若感测相同核酸分子的例项的单分子传感器105的数量K为11,且所需的定序精度为Q30,则允许的化学失败率为
Figure BDA0003938396850000596
意味着允许那些11个传感器105当中100次个别单分子反应中多达约13次失败。若所需的精度为Q50,则允许11个传感器105当中每100次反应中约6次或更少次错误。
如与图39的比较指示,SMAS装置100的允许的错误率显著大于针对于CLUS装置来说允许的比率,然而单独所述结果并不能公平地比较两个平台,因为在CLUS装置中进行不正确碱基识别的概率(PC,N,r)在早期查询步骤期间极低且在阈值查询步骤Cth处突然增加。结合图39论述此种现象。另一方面,对于SMAS装置100,不正确碱基识别的概率(PK,r)在整个查询步骤中保持恒定且因此导致较大累积错误。
比较CLUS装置及SMAS装置100的性能的一种更公平的方式是比较两种装置类型的累积错误概率。上文方程式5(b)表示CLUS装置的累积错误概率。还可导出SMAS装置100的累积错误概率。在各查询步骤C处进行不正确碱基识别的概率为PK,r(方程式6),且因此进行正确识别的概率为(1-PK,r)。进行以行形式的C正确识别的概率则为(1-PK,r)C,及累积错误概率
Figure BDA0003938396850000601
Figure BDA0003938396850000602
图43A及43B显示CLUS装置及SMAS装置100的在位置150处不正确碱基识别的累积概率。方程式5(b)可例如用于计算CLUS装置在小于或等于150的任何碱基位置处进行不正确碱基识别的概率。图43A显示CLUS装置的K-r参数空间且标记其中对于CLUS装置在位置150处不正确碱基识别的累积概率小于或等于100分之一
Figure BDA0003938396850000603
1,000分之一
Figure BDA0003938396850000604
10,000分之一
Figure BDA0003938396850000605
及100,000分之一
Figure BDA0003938396850000606
的区域。图43B评估方程式(8)且显示K-r参数空间,其标记其中对于SMAS装置100在位置150处不正确碱基识别的累积概率小于或等于100分之一
Figure BDA0003938396850000607
1,000分之一
Figure BDA0003938396850000608
10,000分之一
Figure BDA0003938396850000609
及100,000分之一
Figure BDA00039383968500006010
的区域。
图43A及43B的比较显示SMAS装置100是潜在优于CLUS装置的定序平台。SMAS装置100可具有较小占据空间(footprint)(如例如图7A、7B、9A、9B及10的论述中所说明)且可比CLUS装置更具错误容限。与CLUS装置相比,使用SMAS装置100允许更高通量,更低错误率,及更长读段长度,所述CLUS装置更大且仰赖于大分子集体。商业上可行的SMAS装置100及/或系统的开发可使用以下中的一些或全部:(a)密集封装的能够识别个别标记的传感器105的高精度纳米级制造,(b)降低错误率到可接受的程度的化学步骤的优化,及/或(c)可使用有效生物信息学工具,通过概率性消除错误来调整数据记录中来自至少一些纳米级传感器105的定序数据的比对。
示例性SMAS定序程序
如上文所说明,若还降低定序化学失败率,则可通过减小簇大小N(从而将更多簇封装到装置中)来实现CLUS装置的定序通量的改进,此可具有挑战性。相比之下,下文呈现根据一些实施例的使用单分子结合位点116的大阵列的错误容限、超高通量SMAS装置100的可行实现。出于实例的目的,假设SMAS装置100定序DNA,但应明了,一般来说,可定序任何种类的核酸。
图44及45说明根据一些实施例的示例性样品制备及加载过程500。图44是说明过程500的流程图,及图45说明过程500的各个步骤的结果。在一些实施例中,样品制备及加载过程500开始于502。在504,进行DNA提取及纯化,这导致几个提取的DNA片段505,如图45中所显示。在506,将与引物互补的转接子拼接到提取的DNA的一端(例如3’)以产生显示于图45中的链507。在508,进行PCR(或一些其它复制技术)以产生所提取的链的多个(理想地,相同)例项,如图45中的509所显示。在510,将能够在SMAS装置100的流体腔室115(结合位点116)的化学官能化表面建立强键(例如通过点击化学(click chemistry))的分子连接子附接到ssDNA片段的另一端(例如5’),从而产生显示于图45中的链511。在512,将官能化链511加载到流体腔室115中且在结合位点116当中随机散布且结合到结合位点116。如图45的最右侧部分中所显示,结合位点116中的每一者支持不多于单个DNA链。(尽管各结合位点116可支持不多于一个链,但应了解,并不需要每个结合位点116必须支持DNA链。无论是有意还是偶然地,均可使用SMAS装置100的少于所有结合位点116。)假设提取的DNA片段503彼此不同,由于样品制备及加载过程500,流体腔室115内将存在所提取的DNA片段505中的每一者的多个例项,但其位置是未知的。在514处,示例性样品制备及加载过程500结束。
示例性样品制备及加载过程500的益处在于,其简化DNA扩增,这可在将DNA链添加到SMAS装置100之前使用(例如)常规PCR在装置外大量进行。相比之下,当使用CLUS装置时,仅在已将DNA片段添加到CLUS装置中之后执行扩增(例如桥式扩增)以便建立经扩增的DNA的连续簇阵列。
在已进行样品制备及加载过程500之后,可使用例如以上介绍的加性方法、减性方法或改进型加性方法来进行碱基识别。图46A、46B及46C说明在通过使用具有以四个行及五个列布置的20个传感器105(及20个结合位点116)的传感器阵列110的实例SMAS装置100进行的三个示例性查询循环(对于总共12个查询步骤,各为
Figure BDA0003938396850000611
)期间使用改进型加性方法的模拟检测结果(传感器105检测到标记)。四个不同DNA链的多个例项随机分布在整个传感器阵列110中,但其于所述传感器阵列110中的特定位置及其序列最初是未知的。
图47说明如何可重新布置说明于图46A、46B及46C中的检测资料以识别碱基且显示不同DNA链的位置。图47提供显示在个别查询步骤处示例性阵列中每个传感器105的输出及导致识别的序列的所得碱基识别的表。图47的右手侧部分将传感器105再排序以将感测相同DNA链的例项的传感器105的检测结果分组。如图47中所显示,四个序列识别为:GCT(链#1)、TAG(链#2)、ACG(链#3)及TTA(链#4)。
若在查询步骤期间发生错误(FNI、FLR、FNR或FLD),则一些检测结果(检测到标记或未检测到标记)将是不正确,且可实施以上描述的判定性及/或概率性错误检测及/或校正技术以检测且消除至少一些错误,只要判定感测相同DNA链的例项的那些传感器105的同一性即可。回想一下,可将特定DNA链的例项附接到散布于整个流体腔室115中的结合位点116,且在定序过程开始时,其位置一般是未知的。一旦启动所述过程,则在各查询步骤期间,多个S个传感器105中的每一者在其各别结合位点116处检测到标记。为进行错误校正,识别定序相同核酸链的例项的S个传感器105的亚组。
考虑具有4亿个不同DNA链的极大传感器阵列110(例如40亿个结合位点116及40亿个各别传感器105),各DNA链为约150个碱基长度。这意味着各独特DNA链有约10个例项随机分布于整个流体腔室115(及结合位点116及传感器阵列110)中。为了实例起见,还假设序列是随机的。假设合理地低的错误率r,在第一查询循环之后,将识别保持(感测)以A开始的DNA例项的几乎所有结合位点116(及传感器105),将识别保持(感测)T的那些、及保持(感测)C的那些、及保持(感测)G的那些。约109个传感器105将检测到指示第一碱基为A的标记,约109个传感器105将检测到指示第一碱基为T的标记,约109个传感器将检测到指示第一碱基为C的标记,及约109个传感器将检测到指示第一碱基为G的标记。在第二查询循环之后,将识别保持(感测)以所有16种可能的组合(AA、AT、AC、AG、TA、TT、TC、TG、CA、CT、CC、CG、GA、GT、GC及GG)开始的DNA例项的几乎所有结合位点116(及传感器105)。约2.5×108个传感器将检测到指示第一及第二碱基为AA的标记,约2.5×108个传感器将检测到指示第一及第二碱基为AT的标记,约2.5×108个传感器将检测到指示第一及第二碱基为AC的标记。一般来说,在一些数量D个标记检测(或假设将改进型加性方法用于定序的
Figure BDA0003938396850000621
Figure BDA0003938396850000622
个查询步骤)之后,将识别保持以一些D-碱基长度的序列开始的DNA链的所有4D=42C/5个结合位点116。此意味着具有40亿个传感器阵列110的SMAS装置100中感测相同DNA链的例项的传感器105群组的平均大小为4×109/(42C/5)。因为吾等实例每个独特链平均具有约10个例项,故将进行约
Figure BDA0003938396850000623
个查询循环以识别保持特定链的例项的结合位点116的位置。假设使用改进型加性方法,在所述过程期间将识别约14个碱基。因为人类基因组不是随机的,且并非所有数学上可能的序列均被显示,故对于诊断应用来说实际上可能需要显著更少查询步骤。若在DNA提取期间靶向特定组基因,则可以甚至更少步骤来判定保持相同DNA链的例项的结合位点116的同一性(位置),此进一步减少碱基的可能序列的数量且有利于结合位点116识别。
已识别所述正确组的结合位点116组的置信度随着查询步骤的数量而增加,但因此出现检测错误(例如不正确地检测到标记或不正确地未检测到标记)的概率也增加。在最初的查询循环期间可出现多个错误同时识别保持相同链的例项的结合位点116。CLUS装置的得到的结果表明这可能不是问题。例如,图38A显示,在早期查询步骤期间,CLUS装置的进行不正确碱基识别的概率极小,且仅在达到阈值Cth时,错误概率才急剧增加。也回想一下,若不应用错误校正,则SMAS装置100的碱基识别精度与CLUS装置相同,因为SMAS装置100将通过加总个别传感器105结果来简单地报告集体结果。
考虑例如上文的40亿个传感器阵列实例且考虑监测特定DNA链的例项的一组11个传感器105(K=11)随机分布于整个结合位点116中。现在,将其视为集体(K=N=11),就好像结合位点116正在形成簇且仅测量其各别传感器105的组合特性(例如信号)。图48A及48B绘制进行不正确碱基识别的计算概率PC,N,r,其由方程式4(a)及(b)以查询步骤数量C及化学失败率r的函数关系给出。图48A中的曲线标记C-r空间中PC,N,r突然增加的阈值的近似位置。图48B是显示于图48A中的等高线图的俯视图且清楚地指示包含各DNA链平均约10个例项的40亿个传感器SMAS装置100的化学失败容限。可可靠地判定保持(感测)各独特DNA链的例项的约10个结合位点116(及传感器105)的位置(同一性),只要约35个查询步骤中错误概率保持很低即可。此将最大允许化学失败率限制为0.013,也就是说,将容忍1,000个检测事件中的13个。图48A及48B中的计算结果指示若化学失败率保持低于每1,000个中约13个不正确地检测事件,则40亿个传感器SMAS装置100应能够于流体腔室115内(及结合位点116中及传感器105中)建立所有十亿个不同DNA链的所有例项的位置。一旦建立那些位置,可立刻实施本文描述的错误校正技术以消除在剩余约340个查询步骤(假设使用改进型加性方法)期间发生的错误。
若预期或已知化学错误率过高,使得错误可能困扰前约35个查询步骤,则可使用替代方法以帮助识别携带相同DNA链的例项的结合位点116。例如,可将不同独特条形码拼接到所提取的DNA子组中的引物末端使得在早期定序循环期间读取已知序列。图49说明根据一些实施例的条形码于样品制备及DNA加载的用途。如图49中所显示,将独特条形码拼接到所提取的DNA以有利于在存在定序错误下识别保持相同DNA的例项的位点。例如,图49显示四个独特DNA链,对所述链中的每一者分配独特条形码(例如对链1分配条形码119A,对链2分配条形码119B,对链3分配条形码119C,及对链4分配条形码119D)。若条形码彼此显著不同,则即使化学失败率极高,其还应易于识别。如所了解,对于高通量诊断应用,适合数量的独特条形码可很高。
本文描述的示例性40亿个传感器SMAS装置100依当前标准被认为是相当高通量定序仪。此种SMAS装置100在单个运行期间提供约150吉碱基(Giga-base(Gb))读段,此与2020年引入的当前最先进技术高端定序系统的输出相媲美。
应明了,存在实施本文公开的装置、系统及方法的许多方法。例如,用于核酸定序的系统可由单个装置(例如SMAS装置100,其包括可进行所公开的操作的所有硬件及软件)组成,或其可包括SMAS装置100及一起进行所公开的操作的其它组件。例如,系统可包括SMAS装置100及SMAS装置100外部(例如在外部计算机中)的至少一个处理器,SMAS装置100进行核酸定序程序且保存来自所述定序程序的检测结果,所述至少一个处理器对保存的检测结果进行错误检测及校正且识别碱基。
图50说明根据一些实施例的示例性系统160。系统160包括(也就是说包括(但不限于))流体腔室115、多个S个传感器105及至少一个处理器130。任选地,系统160包括用于存储记录的存储器170,所述存储器包含在定序程序期间得到的检测结果(例如一个或多个具有二进制条目的文档,所述二进制条目记录在多个查询循环中的每一者期间,多个S个传感器105中的每一者检测到或未检测到至少一个标记)。如以图50中的虚线所显示,若系统160包括存储器170,则所述至少一个处理器130可通讯耦接到存储器170使得所述至少一个处理器130可将数据存储在存储器170中及/或从存储器170撷取数据。
流体腔室115包括多个S个结合位点,所述S个结合位点中的每一者经构造成结合不超过一个欲定序的核酸链。图50显示四个结合位点116,但应明了,系统160可包括更多或更少个结合位点116。S个传感器105中的每一者经构造成检测存在于流体腔室115中的标记。图50显示四个传感器105,但应明了,系统160可包括更多或更少个传感器105。当系统160在操作中时,S个传感器105中的每一者检测到附接到并入与所述S个结合位点116的各别结合位点116结合的核酸的各别链中的核苷酸的标记。如前面所说明,传感器105可为磁传感器、光学传感器、或可检测用于标记核苷酸的标记的任何其它类型的传感器。流体腔室115、传感器105及结合位点116详细描述于上文中。那些描述适用于图50且在此不予重复。
所述至少一个处理器130经构造成执行一个或多个可机器执行的指令。所述指令在被执行时导致所述至少一个处理器130进行包括多个查询步骤的定序程序(例如,如图11、12、14、16、44中的任何者的内文中所描述)。具体来说,在操作中,在定序程序的查询步骤期间,所述至少一个处理器130得到所述S个传感器105中的每一者的各别特性(由至少一个处理器130与传感器与传感器105A、105B、105C及105D之间的虚线表示)。各别特性指示传感器105检测到或未检测到标记(例如其指示至少一个标记的存在或不存在)。所述至少一个处理器130可解释所得到的特性以判定传感器105检测到或未检测到标记的存在。至少部分地以所得到的各别特性为基础,所述至少一个处理器130记录各别传感器在查询步骤期间是否检测到至少一个标记的存在或不存在。所述至少一个处理器130还经构造成对包含定序程序的结果的至少一个记录进行错误校正程序。错误校正程序可对通过定序程序产生的一些或全部记录操作,且其可对来自定序程序的一些或全部查询步骤的检测结果操作。例如,如上文所述,为应用错误校正程序,所述至少一个处理器可识别K个记录的子组且对其应用判定性或概率性错误校正,其中所述子组中所述K个记录中的每一者对应于来自感测相同核酸链的例项的传感器105的检测结果。定序程序及错误校正程序详细描述于上文中。那些描述适用于图50的系统及至少一个处理器130,且在此不予重复。
至少一个处理器130可通过通用或专用处理器(或处理核组)来实施且因此可执行一系列程序化指令以实现与得到传感器105特性,进行错误校正程序,及/或与用户、系统操作者或其它系统组件的互动相关的各种操作。
系统160的至少一个处理器130可为单个处理器(例如在SMAS装置100中),或其可包括多个处理器,其可为共位(co-located)(例如在SMAS装置100中)或物理上彼此分开。例如,所述至少一个处理器130的第一部分可包括在SMAS装置100中,及所述至少一个处理器130的第二部分可在SMAS装置100的外部。在其中所述至少一个处理器130包括第一及第二部分的实施例中,所述第一部分可负责得到传感器105的特性,以所述特性为基础来判定传感器105在查询循环期间是否检测到标记,且记录(例如在存储器170中)S个传感器105中的每一者在查询循环期间是否检测到至少一个标记的存在或不存在,且所述第二部分负责得到检测结果的记录及进行错误校正程序。或者,所述第一部分可负责得到传感器105的特性,以所述特性为基础来判定传感器105中的每一者在查询循环期间是否检测到至少一个标记,及经通讯接口(例如无线或有线接口,如以太网络(Ethernet)、Wi-Fi等)将传感器105是否检测到标记的指示提供到另一实体。在此类实施案中,所述至少一个处理器130的第二部分可负责得到通过至少一个处理器130的第一部分提供的检测结果的记录(例如具有二进制条目的文档,所述二进制条目记录在各查询循环期间多个S个传感器105中的每一者检测到或未检测到至少一个标记),进行错误校正程序,及识别碱基。
在前述描述中及在附图中,已阐述特定术语以提供对所公开的实施例的透彻理解。在一些例项下,术语或附图可意味着实施本发明不需要的特定细节。
为避免不必要地混淆本发明,熟知的组件以方块图形式显示及/或在一些情况下根本不进行详细论述。
提供于实施方式中的部分标题仅是为了方便或参考而无意为限制性的。部分标题绝不定义、限制、解释或描述这些部分的范围或程度。再者,尽管已公开各种特定实施例,但显而易见的是,在不脱离本发明的更宽泛精神及范围下,可对本发明进行各种修改及改变。例如,所述实施例中的任何者的特征或方面可与所述实施例中的任何其它者组合应用或替代其对应特征或方面应用。
本文公开的某些技术及方法(例如从传感器105得到检测结果,进行错误校正程序等)及/或用于构造及管理其的用户接口可通过机器执行一个或多个序列指令(包括正确指令执行所需的相关数据)来实施。可将此种指令记录在一个或多个计算机可读媒体上以供在专用或通用计算机系统或消费电子装置或电器的一个或多个处理器内的稍后撷取及执行。其中可体现此种指令及数据的计算机可读媒体包括(但不限于)各种形式的非易失性存储媒体(例如光学、磁或半导体存储媒体)及可用于通过无线、光学或有线信号传导媒体传输此种指令及数据的载波或其任何组合。通过载波传输此种指令及数据的实例包括(但不限于)经因特网及/或其它计算机网络经由一个或多个数据传输协议(例如HTTP、FTP、SMTP等)的传输(上载、下载、电子邮件(e-mail)等)。
除非本文另外明确定义,否则所有术语意欲给出其最宽广的可能的解释,包括本说明书及附图涵盖的含义及如熟习所属领域人员所理解及/或如字典、专著等中所定义的含义。如本文明确陈述,一些术语可能与其寻常或惯常含义不符。
如本说明书及随附权利要求书中所使用,单数形式“一”、“一个”及“所述”不排除多个指示物,除非另有说明。除非另有说明,否则语词“或”应解释为包含性的。因此,词组“A或B”应解释为以下所有含义:“A及B”、“A而不是B”及“B而不是A”。本文“及/或”的任何使用并不意味着语词“或”单独表示排他性。
如本说明书及随附权利要求书中所使用,形式“A、B及C中的至少一者”、“A、B或C中的至少一者”、“A、B或C中的一者或多者”及“A、B及C中的一者或多者”的词组是可互换的,且各涵盖以下所有含义:“仅A”、“仅B”、“仅C”、“A及B而不是C”、“A及C而不是B”、“B及C而不是A”及“A、B及C全部”。
在实施方式或权利要求书中使用术语“包括(include(s))”、“具有(having)”、“具有(has)”、“具有(with)”及其变化形式的程度上,此类术语意欲以类似于术语“包含(comprising)”的方式为包含性的,也就是说意味着“包括(但不限于)”。
术语“示例性”及“实施例”用于表示实例,而不是优选项或要求。
术语“耦接”在本文中用于表示直接连接/附接以及透过一个或多个中间组件或结构的连接/附接。
术语“上方”、“下方”、“之间”及“之上”在本文中用于指一个特征相对于其它特征的相对位置。例如,布置于另一特征“上方”或“下方”的一个特征可与另一特征直接接触或可具有中间材料。此外,布置在两个特征“之间”的一个特征可与两个特征直接接触或可具有一个或多个中间特征或材料。相比之下,于第二特征“之上”的第一特征是与所述第二特征接触。
术语“基本上”用于描述大程度上或接近所述的结构、构造、尺寸等,但由于制造容限及类似物,可实务上导致其中结构、构造、尺寸等并非始终或不一定完全如所述的情境。例如,将两个长度描述为“基本上相等”意味着将两个长度描述为基本相等意味着所述两个长度对于所有实际目的均是相同的,但在足够小的标度上其可能不(且不需要)精确相等。作为另一个实例,出于所有实际目的,“基本上垂直”的结构将被视为是垂直的,即使其相对于水平不是精确地成90度。
附图不一定按比例绘制,且特征的尺寸、形状及大小可基本上不同于其在附图中的描绘方式。
尽管已公开特定实施例,但将显而易见的是,在不脱离本发明的较宽广精神及范围下,可对其作出各种修改及改变。例如,所述实施例中的任何者的特征或方面可在至少可行的情况下与所述实施例中的任何其它实施例组合或替代其对应特征或方面加以应用。因此,本说明书及附图应被认为是示例性而非限制性意义。

Claims (112)

1.一种系统,其包含:
多个S个结合位点,所述S个结合位点中的每一者是经构造成结合不超过一个欲定序的核酸链;
多个S个传感器,其经构造成检测标记,所述S个传感器中的每一者用于感测与所述S个结合位点的各别结合位点结合的核酸的各别链;及
至少一个处理器,其经构造成执行一个或多个可机器执行的指令,所述指令在执行时导致所述至少一个处理器:
(a)在定序程序的多个M个查询步骤的各查询步骤,且对于所述S个传感器中的每一者:
得到所述各别传感器的各别特性,其中所述各别特性指示至少一个标记的存在或不存在,且
至少部分地以所述所得到的各别特性为基础,记录所述各别传感器在所述查询步骤期间是否检测到至少一个标记的存在或不存在,及
(b)对至少一个记录进行错误校正程序,所述至少一个记录包含在所述M个查询步骤中的每一者处针对所述S个传感器的至少一个子组的定序程序的结果。
2.根据权利要求1所述的系统,其进一步包含存储多个记录的存储器,且其中所述至少一个记录是所述多个记录中的一者。
3.根据权利要求1所述的系统,其中,当执行时,所述一个或多个可机器执行的指令进一步导致所述至少一个处理器在所述定序程序的所述多个M个查询步骤的各查询步骤且针对所述S个传感器中的每一者:
解释所述各别传感器的所得到的各别特性以判定所述各别传感器是否检测到所述至少一个标记的存在或检测到所述至少一个标记的不存在。
4.根据权利要求1所述的系统,其中所述多个S个传感器中的每一者是经构造成检测荧光团。
5.根据权利要求1所述的系统,其中所述多个S个传感器中的每一者是经构造成检测磁粒子。
6.根据权利要求1所述的系统,其中所述多个S个传感器中的每一者是经构造成检测带电荷分子。
7.根据权利要求1所述的系统,其中所述多个S个传感器中的每一者是经构造成检测有机金属络合物。
8.根据权利要求1所述的系统,其中所述至少一个标记包含荧光团。
9.根据权利要求8所述的系统,其中所述S个传感器中的每一者包含光学传感器,且其中所述各别特性是由所述荧光团发出的光的波长、频率、强度或颜色。
10.根据权利要求1所述的系统,其中所述至少一个标记包含磁粒子。
11.根据权利要求10所述的系统,其中所述S个传感器中的每一者包含磁传感器。
12.根据权利要求11所述的系统,其中所述磁传感器包含磁振荡器,且其中所述各别特性是与所述磁振荡器相关联或由所述磁振荡器产生的信号的频率。
13.根据权利要求11所述的系统,其中所述磁传感器包含磁性隧道结。
14.根据权利要求11所述的系统,其中所述特性是磁场或电阻、磁场或电阻的变化、噪声级或噪声级的变化。
15.根据权利要求1所述的系统,其中所述至少一个标记包含带电荷分子。
16.根据权利要求1所述的系统,其中所述至少一个标记包含有机金属络合物。
17.根据权利要求1所述的系统,其中所述S个传感器是以矩形阵列布置。
18.根据权利要求17所述的系统,其中所述至少一个标记是磁性的,且其中所述矩形阵列中的相邻传感器之间的最近相邻距离为至少约70nm。
19.根据权利要求1所述的系统,其中所述S个传感器是以六边形阵列布置。
20.根据权利要求19所述的系统,其中所述至少一个标记是荧光,且其中所述六边形阵列中的相邻传感器之间的最近相邻距离为至少约140nm。
21.根据权利要求1所述的系统,其中所述多个S个结合位点是位于流体腔室内,且其中所述流体腔室的表面包含金属氧化物、二氧化硅、聚丙烯、金、玻璃或硅。
22.根据权利要求1所述的系统,其中所述S个结合位点中的每一者包含经构造成锚定核酸的各别链的结构。
23.根据权利要求22所述的系统,其中所述结构包括空腔或脊。
24.根据权利要求1所述的系统,其中对所述至少一个记录进行所述错误校正程序包括以下中的至少一者:
进行判定性错误校正程序,或
进行概率性错误校正程序。
25.根据权利要求1所述的系统,其中对所述至少一个记录进行所述错误校正程序包括:
以所述至少一个记录的至少一部分为基础,识别与特定核酸链的例项相关的多个候选序列,及
判定或估计所述多个候选序列中的哪个最可能是正确的。
26.根据权利要求25所述的系统,其中判定或估计所述多个候选序列中哪个具有是正确的最高概率包括:
判定所述多个候选序列中的每一者的各别度量;及
至少部分地以所述各别度量及标准为基础,将特定候选序列选择为最可能是正确的。
27.根据权利要求26所述的系统,其中所述各别度量是发生可能性,且其中所述标准是最小发生可能性。
28.根据权利要求26所述的系统,其中所述各别度量是发生可能性,且其中所述标准是阈值发生可能性。
29.根据权利要求25所述的系统,其中判定或估计所述多个候选序列中哪个具有是正确的最高概率包括以对所述特定核酸链的核酸序列的已知约束为基础来消除所述多个候选序列中的至少一者。
30.根据权利要求29所述的系统,其中所述已知约束是碱基的特定序列的不可能性。
31.根据权利要求29所述的系统,其中判定或估计所述多个候选序列中哪个具有是正确的最高概率另外包括至少部分地以所述特定核酸链的来源为基础来判定已知约束。
32.根据权利要求1所述的系统,其中所述至少一个记录包含二进制值集合,其中第一二进制值指示检测到所述标记,及第二二进制值指示未检测到标记,且其中进行所述错误-校正程序包括:
在所述至少一个记录中识别一串第二二进制值,及
从所述至少一个记录删除所述串第二二进制值。
33.所述的32所述的系统,其中所述串第二二进制值具有四的长度。
34.根据权利要求1所述的系统,其中对所述至少一个记录进行错误校正程序包括:
在所述至少一个记录中识别所述S个传感器的第一传感器未检测到标记的一组连续指示,及
从所述至少一个记录删除所述S个传感器的所述第一传感器未检测到标记的所述组连续指示。
35.根据权利要求1所述的系统,其中对所述至少一个记录进行所述错误校正程序包括:
以特定查询步骤的大多数结果为基础来更改所述至少一个记录的至少一个条目。
36.一种用于定序核酸的装置,所述装置包含:
流体腔室,其包含多个S个结合位点,所述S个结合位点中的每一者经构造成结合不超过一个待定序的核酸链;
多个S个磁传感器,其经构造成检测存在于所述流体腔室中的标记,所述S个磁传感器中的每一者用于感测与所述S个结合位点的各别结合位点结合的核酸的各别链;及
至少一个处理器,其经构造成执行一个或多个可机器执行的指令,所述指令在执行时导致所述至少一个处理器在定序程序的多个M个查询步骤的各查询步骤且针对所述S个磁传感器中的每一者:
得到所述各别磁传感器的各别特性,其中所述各别特性指示至少一个标记的存在或不存在,且
至少部分地以所述所得到的各别特性为基础,判定所述各别磁传感器在查询步骤期间是否检测到至少一个标记的存在或不存在。
37.根据权利要求36所述的装置,其中,当执行时,所述一个或多个可机器执行的指令进一步导致所述至少一个处理器在所述定序程序的所述多个M个查询步骤的各查询步骤且针对所述S个磁传感器中的每一者:
在与所述各别磁传感器相关的各别记录中记录所述各别磁传感器在所述查询步骤期间是否检测到至少一个标记的存在或不存在。
38.根据权利要求37所述的装置,其进一步包含:
存储多个记录的存储器,
且其中与所述各别磁传感器相关的所述各别记录是所述多个记录中的一者。
39.根据权利要求36所述的装置,其中判定所述各别磁传感器在所述查询步骤期间是否检测到所述至少一个标记的存在或不存在包括:
判定所述各别磁传感器的所得到的各别特性是否符合或超过阈值。
40.根据权利要求36所述的装置,其中判定所述各别磁传感器在所述查询步骤期间是否检测到所述至少一个标记的存在或不存在包括:
比较所述各别磁传感器的所得到的各别特性与先前检测到的值。
41.根据权利要求40所述的装置,其中所述先前检测到的值是基线值。
42.根据权利要求40所述的装置,其中所述先前检测到的值是频率、磁场或噪声级。
43.根据权利要求36所述的装置,其中所述多个S个磁传感器中的每一者是经构造成检测磁粒子。
44.根据权利要求36所述的装置,其中所述多个S个磁传感器中的每一者是经构造成检测带电荷分子。
45.根据权利要求36所述的装置,其中所述多个S个磁传感器中的每一者是经构造成检测有机金属络合物。
46.根据权利要求36所述的装置,其中所述至少一个标记包含磁粒子。
47.根据权利要求36所述的装置,其中所述至少一个标记包含带电荷分子。
48.根据权利要求36所述的装置,其中所述至少一个标记包含有机金属络合物。
49.根据权利要求36所述的装置,其中所述多个S个磁传感器中的每一者包含磁振荡器,且其中所述各别特性是与所述磁振荡器相关联或由所述磁振荡器产生的信号的频率。
50.根据权利要求36所述的装置,其中所述多个S个磁传感器中的每一者包含磁性隧道结。
51.根据权利要求36所述的装置,其中所述特性是磁场或电阻、磁场或电阻的变化、噪声级或噪声级的变化。
52.根据权利要求36所述的装置,其中所述S个磁传感器是以矩形阵列布置。
53.根据权利要求52所述的装置,其中所述至少一个标记是磁性的,且其中所述矩形阵列中的相邻磁传感器之间的最近相邻距离为至少约70nm。
54.根据权利要求36所述的装置,其中所述流体腔室的表面包含金属氧化物、二氧化硅、聚丙烯、金、玻璃或硅。
55.根据权利要求36所述的装置,其中所述S个结合位点中的每一者包含经构造成锚定核酸的各别链的结构。
56.根据权利要求55所述的装置,其中所述结构包括空腔或脊。
57.根据权利要求36所述的装置,其中,当由所述至少一个处理器执行时,所述一个或多个可机器执行的指令进一步导致所述至少一个处理器:
对至少一个记录进行错误校正程序,所述至少一个记录包含在所述M个查询步骤中的每一者处针对所述S个磁传感器的至少一个子组的定序程序的结果。
58.根据权利要求57所述的装置,其中,当执行时,所述一个或多个可机器执行的指令导致所述至少一个处理器通过以下中的至少一者对所述至少一个记录进行所述错误校正程序:
进行判定性错误校正程序,或
进行概率性错误校正程序。
59.根据权利要求57所述的装置,其中对所述至少一个记录进行所述错误校正程序包括:
以所述至少一个记录的至少一部分为基础,识别与特定核酸链的例项相关的多个候选序列,及
判定或估计所述多个候选序列中的哪个最可能是正确的。
60.根据权利要求59所述的装置,其中判定或估计所述多个候选序列中哪个最可能是正确的包括:
判定所述多个候选序列中的每一者的各别度量;及
至少部分地以所述各别度量及标准为基础,将特定候选序列选择为最可能是正确的。
61.根据权利要求60所述的装置,其中所述各别度量是发生可能性,且其中所述标准是最小发生可能性。
62.根据权利要求60所述的装置,其中所述各别度量是发生可能性,且其中所述标准是阈值发生可能性。
63.根据权利要求59所述的装置,其中判定或估计所述多个候选序列中哪个最可能是正确的包括以对所述特定核酸链的核酸序列的已知约束为基础来消除所述多个候选序列中的至少一者。
64.根据权利要求63所述的装置,其中所述已知约束是碱基的特定序列的不可能性。
65.根据权利要求63所述的装置,其中判定或估计所述多个候选序列中哪个具有是正确的最高概率另外包括至少部分地以所述特定核酸链的来源为基础来判定已知约束。
66.根据权利要求57所述的装置,其中所述至少一个记录包含二进制值集合,其中第一二进制值指示检测到所述标记,及第二二进制值指示未检测到标记,且其中进行所述错误-校正程序包括:
在所述至少一个记录中识别一串第二二进制值,及
从所述至少一个记录删除所述串第二二进制值。
67.根据权利要求66所述的装置,其中所述串第二二进制值具有四的长度。
68.根据权利要求57所述的装置,其中对所述至少一个记录进行所述错误校正程序包括:
在所述至少一个记录中识别未检测到标记的一组连续指示,及
从所述至少一个记录删除未检测到标记的所述组连续指示。
69.根据权利要求57所述的装置,其中对所述至少一个记录进行所述错误校正程序包括:
以特定查询步骤的大多数结果为基础来更改所述至少一个记录的至少一个条目。
70.一种使用定序装置来定序多个S个核酸链的方法,所述定序装置包含流体腔室及多个S个传感器,所述多个S个传感器经构造成检测存在于所述流体腔室中的标记,所述S个传感器中的每一者用于感测与所述流体腔室内的多个S个结合位点中的各别结合位点结合的各别核酸链,所述S个结合位点中的每一者经构造成结合不超过一个用于定序的核酸链,所述方法包括:
将所述S个核酸链结合至所述S个结合位点;
进行包括M个查询步骤的定序程序以产生S个记录,所述S个记录中的每一者捕获所述S个传感器的各别传感器的M个检测结果,所述M个检测结果中的每一者指示在所述M个查询步骤的各别查询步骤期间所述S个传感器的各别传感器是否在所述流体腔室中检测到至少一个标记;及
将错误校正程序应用到所述S个记录的至少一个子组以估计所述S个核酸链中的至少一者的核酸序列。
71.根据权利要求70所述的方法,其中所述S个记录的所述子组捕获针对特定核酸链的例项的定序程序的结果。
72.根据权利要求71所述的方法,所述方法进一步包括在使所述S个核酸链与所述S个结合位点结合之前扩增或复制所述特定核酸链以建立所述特定核酸链的例项。
73.根据权利要求72所述的方法,其中扩增或复制包括进行至少一个促进聚合酶链反应(PCR)的程序。
74.根据权利要求70所述的方法,其中所述S个记录的至少一个子组的各记录对应于特定核酸链的各别例项。
75.根据权利要求74所述的方法,所述方法进一步包括在应用所述错误校正程序之前识别所述S个记录的子组。
76.根据权利要求75所述的方法,其中识别所述S个记录的子组是以与所述特定核酸链相关的特定条形码的知识为基础。
77.根据权利要求75所述的方法,其中识别所述S个记录的所述子组包括在所述S个记录的所述子组的各记录中识别与所述特定核酸链相关的特定条形码。
78.根据权利要求75所述的方法,其中识别所述S个记录的所述子组包括在所述S个记录的所述子组的各记录中识别条目的共享序列。
79.根据权利要求70所述的方法,其中所述定序程序包括:
(a)将经标记的核苷酸引入到所述流体腔室中;
(b)冲洗掉未结合的分子;
(c)从所述多个S个传感器的第一传感器得到第一特性;
(d)从所述多个S个传感器的第二传感器得到第二特性;
(e)以所述第一特性为基础来判定所述第一传感器是否在所述流体腔室中检测到至少一个标记;
(f)以所述第二特性为基础来判定所述第二传感器是否在所述流体腔室中检测到至少一个标记;
(g)在所述S个记录的第一记录中记录第一指示,所述第一指示指示所述第一传感器是否在所述流体腔室中检测到至少一个标记;
(h)在所述S个记录的第二记录中记录第二指示,所述第二指示指示所述第二传感器是否在所述流体腔室中检测到至少一个标记;
针对至少一个其它经标记的核苷酸重复(a)到(h);及
在针对所述至少一个其它经标记的核苷酸重复(a)到(h)之后,切割且冲洗掉标记。
80.根据权利要求70所述的方法,其中所述定序程序包括:
(a)将多个经标记的核苷酸引入到所述流体腔室中,所述多个经标记的核苷酸中的每一者使用各别连接子;
(b)冲洗掉未结合的核苷酸;
(c)切割第一连接子;
(d)从第一传感器得到第一特性;
(e)从第二传感器得到第二特性;
(f)以所述第一特性为基础来判定所述第一传感器是否在所述流体腔室中检测到至少一个标记;
(g)以所述第二特性为基础来判定所述第二传感器是否在所述流体腔室中检测到至少一个标记;
(h)在所述S个记录的第一记录中记录第一指示,所述第一指示指示所述第一传感器是否在所述流体腔室中检测到至少一个标记;
(i)在所述S个记录的第二记录中记录第二指示,所述第二指示指示所述第二传感器是否在所述流体腔室中检测到至少一个标记;
切割第二连接子;及
在切割所述第二连接子后,重复(d)到(i)。
81.根据权利要求70所述的方法,其中所述定序程序包括:
(a)将经标记的核苷酸引入到所述流体腔室中;
(b)冲洗掉未结合的分子;
(c)从第一传感器得到第一特性;
(d)从第二传感器得到第二特性;
(e)以所述第一特性为基础来判定所述第一传感器是否在所述流体腔室中检测到至少一个标记;
(f)以所述第二特性为基础来判定所述第二传感器是否在所述流体腔室中检测到至少一个标记;
(g)在所述S个记录的第一记录中记录第一指示,所述第一指示指示所述第一传感器是否在所述流体腔室中检测到至少一个标记;
(h)在所述S个记录的第二记录中记录第二指示,所述第二指示指示所述第二传感器是否在所述流体腔室中检测到至少一个标记;
(i)切割且冲洗掉标记;及
在切割且冲洗掉标记后,针对至少一个其它经标记的核苷酸重复(a)到(i)。
82.根据权利要求70所述的方法,其中所述S个记录的至少一个子组中的记录数是奇数。
83.根据权利要求70所述的方法,其中所述S个记录中的每一者中的所述M个检测结果中的每一者是由二进制值表示,且其中进行所述定序程序包括:
响应于检测到所述至少一个标记的所述S个传感器中的各别传感器,在所述S个记录的各别记录中记录第一二进制值,及
响应于未检测到所述至少一个标记的所述S个传感器中的各别传感器,在所述S个记录的所述各别记录中记录第二二进制值。
84.根据权利要求83所述的方法,其中应用所述错误校正程序包括:
在所述S个记录的所述至少一个子组的至少一个记录中识别一串第二二进制值,及
从所述至少一个记录删除所述串第二二进制值。
85.根据权利要求84所述的方法,其中所述串第二二进制值具有四的长度。
86.根据权利要求83所述的方法,其中所述定序程序包括(a)第一查询步骤,(b)在所述第一查询步骤后移除存在于所述流体腔室中的标记的标记移除步骤,(c)在所述标记移除步骤后检测存在于所述流体腔室中的残余标记的感测步骤,及(d)在所述感测步骤后的第二查询步骤,且其中进行所述错误校正程序包括:
响应于经由所述感测步骤判定所述S个传感器中的特定传感器检测到所述流体腔室中的残余标记,将所述第二二进制值记录在所述S个记录的特定记录的特定位置中,所述特定记录捕获所述特定传感器的检测结果,其中所述特定位置捕获所述第二查询步骤的结果。
87.根据权利要求70所述的方法,其中应用所述错误校正程序包括:
在所述S个记录的所述至少一个子组的至少一个记录中识别未检测到标记的一组连续指示,及
从所述至少一个记录删除未检测到标记的所述组连续指示。
88.根据权利要求70所述的方法,其中应用所述错误校正程序包括修改所述S个记录的所述至少一个子组中的一者或多者。
89.根据权利要求70所述的方法,其中所述S个记录的所述至少一个子组包含代表第一核酸链的例项的定序结果的奇数个至少三个记录。
90.根据权利要求89所述的方法,其中应用所述错误校正程序包括:
在所述S个记录的所述至少一个子组中的每一者中识别特定查询步骤的大多数检测结果;及
至少部分地以所述大多数检测结果为基础来识别或不识别所述第一核酸链的碱基。
91.根据权利要求89所述的方法,其中所述S个记录的所述至少一个子组由第一、第二及第三记录组成,且其中对于所述M个检测结果的选定检测结果,应用所述错误校正程序包括:
响应于所述第一、第二及第三记录中的至少两者中的选定检测结果是相同,至少部分地以所述相同的选定检测结果为基础来记录所述第一核酸链的碱基。
92.根据权利要求70所述的方法,其中对于所述M个检测结果的选定检测结果,应用所述错误校正程序包括:
响应于在所述S个记录的所述至少一个子组中超过一半中的选定检测结果是相同,至少部分地以所述相同的选定检测结果为基础来识别或不识别所述S个核酸链中的至少一者的碱基。
93.根据权利要求70所述的方法,其中对于所述M个检测结果的选定检测结果,应用所述错误校正程序包括:
响应于所述S个记录的至少一个子组中超过一半中的选定检测结果指示在所述流体腔室中检测到所述至少一个标记,识别所述S个核酸链中的至少一者的碱基。
94.根据权利要求70所述的方法,其中所述至少一个标记是磁性的或荧光的。
95.根据权利要求70所述的方法,其中所述至少一个标记包含带电荷分子或有机金属络合物。
96.一种减轻由于使用单分子传感器阵列的核酸定序程序而产生的定序数据的错误的方法,所述单分子传感器阵列具有多个传感器,所述多个传感器中的每一者与多个结合位点中的各别结合位点相关联,所述多个结合位点中的每一者经构造成结合不超过一个欲定序的核酸链,所述方法包括:
在所述定序数据中识别多个记录,所述多个记录中的每一者捕获核酸的第一链的各别例项的各别定序结果,所述多个记录中的每一者具有多个条目,对于所述核酸定序程序的多个查询步骤中的各别查询步骤,所述多个条目中的每一者指示(a)通过与核酸的所述第一链的所述各别例项相关的各别传感器检测到标记,或(b)通过与核酸的所述第一链的所述各别例项相关的所述各别传感器未检测到标记;
以所述多个记录为基础,判定核酸的所述第一链的多个候选序列,所述多个候选序列中的每一者估计核酸的所述第一链的核酸序列的至少一部分;及
识别所述多个候选序列的特定候选序列为核酸的所述第一链的所述核酸序列的至少一部分,所述特定候选序列为所述多个候选序列中最可能是正确的。
97.根据权利要求96所述的方法,其中识别所述多个记录包括:
搜索与核酸的所述第一链相关的条形码的定序资料。
98.根据权利要求96所述的方法,其中识别所述多个记录包括:
识别所述多个记录中的每一者中的条目的共同序列。
99.根据权利要求96所述的方法,其中核酸的所述第一链的所述核酸序列的所述至少一部分为单个碱基。
100.根据权利要求96所述的方法,其中判定核酸的所述第一链的所述多个候选序列包括:
在所述多个记录中识别特定查询步骤,在所述特定查询步骤,第一传感器检测到各别标记及第二传感器未检测到任何标记;
确立第一候选序列,所述第一候选序列假设所述第一传感器正确地检测到所述各别标记;及
确立第二候选序列,所述第二候选序列假设所述第一传感器不正确地检测到所述各别标记。
101.根据权利要求96所述的方法,其中判定核酸的所述第一链的所述多个候选序列包括:
在所述多个记录中识别特定查询步骤,在所述特定查询步骤,第一传感器检测到各别标记及第二传感器未检测到任何标记;
确立第一候选序列,所述第一候选序列假设所述第二传感器不正确地未检测到任何标记;及
确立第二候选序列,所述第二候选序列假设所述第二传感器正确地未检测到任何标记。
102.根据权利要求96所述的方法,其中所述多个条目中的每一者是第一二进制值或第二二进制值,其中所述第一二进制值指示通过所述各别传感器检测到所述标记,及
所述第二二进制值指示通过所述各别传感器未检测到标记,且其中判定核酸的所述第一链的所述多个候选序列包括:
在所述多个记录中的至少一者中识别一串第二二进制值,及
从所述多个记录中的所述至少一者删除所述串第二二进制值。
103.根据权利要求102所述的方法,其中所述串第二二进制值具有四的长度。
104.根据权利要求96所述的方法,其中判定核酸的所述第一链的所述多个候选序列包括:
在所述多个记录中的至少一者中识别指示未检测到标记的一组连续条目,及从所述多个记录中的所述至少一者删除指示未检测到标记的所述组连续条目。
105.根据权利要求96所述的方法,其中识别所述多个候选序列中最可能是正确的特定候选序列包括判定或估计所述多个候选序列中哪个具有是正确的最高概率。
106.根据权利要求96所述的方法,其中核酸的所述第一链的所述核酸序列的所述至少一部分是单个碱基,且其中识别所述多个候选序列中最可能是正确的所述特定候选序列包括识别由所述多个记录表示的特定查询步骤的大多数结果。
107.根据权利要求96所述的方法,其中识别所述多个候选序列中最可能是正确的所述特定候选序列包括:
判定所述多个候选序列中的每一者的各别发生可能性;及
以所述特定候选序列满足约束的各别发生可能性为基础,选择所述特定候选序列。
108.根据权利要求107所述的方法,其中所述约束是最小概率。
109.根据权利要求107所述的方法,其中所述约束是所述特定候选序列的各别发生可能性高于所述多个候选序列中的所有其它候选序列的各别发生可能性。
110.根据权利要求96所述的方法,其中识别所述多个候选序列中最可能是正确的所述特定候选序列包括以核酸的所述第一链的核酸序列的已知约束为基础来消除所述多个候选序列中的至少一者。
111.根据权利要求110所述的方法,其中所述已知约束是碱基的特定序列的不可能性。
112.根据权利要求110所述的方法,其进一步包括至少部分地以核酸的所述第一链的来源为基础来判定所述已知约束。
CN202180034742.4A 2020-04-21 2021-04-21 具有单分子传感器阵列的高通量核酸定序 Pending CN115551639A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202063013236P 2020-04-21 2020-04-21
US63/013,236 2020-04-21
PCT/US2021/028263 WO2021216627A1 (en) 2020-04-21 2021-04-21 High-throughput nucleic acid sequencing with single-molecule sensor arrays

Publications (1)

Publication Number Publication Date
CN115551639A true CN115551639A (zh) 2022-12-30

Family

ID=78270020

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180034742.4A Pending CN115551639A (zh) 2020-04-21 2021-04-21 具有单分子传感器阵列的高通量核酸定序

Country Status (6)

Country Link
US (1) US20240002928A1 (zh)
EP (1) EP4139052A4 (zh)
JP (1) JP2023522696A (zh)
CN (1) CN115551639A (zh)
TW (1) TWI803855B (zh)
WO (1) WO2021216627A1 (zh)

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SG104963A1 (en) * 2002-04-03 2004-07-30 Ntu Ventures Private Ltd Fiber optic bio-sensor
WO2009073201A2 (en) * 2007-12-04 2009-06-11 Pacific Biosciences Of California, Inc. Alternate labeling strategies for single molecule sequencing
US8053244B2 (en) * 2008-08-13 2011-11-08 Seagate Technology Llc Magnetic oscillator based biosensor
US9482615B2 (en) * 2010-03-15 2016-11-01 Industrial Technology Research Institute Single-molecule detection system and methods
TW201209159A (en) * 2010-06-17 2012-03-01 Geneasys Pty Ltd Genetic analysis LOC with non-specific nucleic acid amplification section and subsequent specific amplification of particular sequences in a separate section
US20130060482A1 (en) * 2010-12-30 2013-03-07 Life Technologies Corporation Methods, systems, and computer readable media for making base calls in nucleic acid sequencing
US9926596B2 (en) * 2011-05-27 2018-03-27 Genapsys, Inc. Systems and methods for genetic and biological analysis
PL3334839T3 (pl) * 2015-08-14 2021-08-02 Illumina, Inc. Systemy i sposoby wykorzystujące czujniki reagujące na pole magnetyczne do określania informacji genetycznej
JP2018533935A (ja) * 2015-10-08 2018-11-22 クオンタムバイオシステムズ株式会社 核酸配列決定の装置、システム、及び方法

Also Published As

Publication number Publication date
EP4139052A1 (en) 2023-03-01
US20240002928A1 (en) 2024-01-04
WO2021216627A1 (en) 2021-10-28
EP4139052A4 (en) 2023-10-18
JP2023522696A (ja) 2023-05-31
TWI803855B (zh) 2023-06-01
TW202204637A (zh) 2022-02-01

Similar Documents

Publication Publication Date Title
US20070190542A1 (en) Hybridization assisted nanopore sequencing
US20180211001A1 (en) Trace reconstruction from noisy polynucleotide sequencer reads
US11495324B2 (en) Flexible decoding in DNA data storage based on redundancy codes
US10421995B2 (en) High speed molecular sensing with nanopores
NL2023316B1 (en) Artificial intelligence-based sequencing
Sheikh et al. Designing compressive sensing DNA microarrays
US20180051331A1 (en) Methods for Mapping Bar-Coded Molecules for Structural Variation Detection and Sequencing
US20220084629A1 (en) Systems and methods for barcode design and decoding
CN115551639A (zh) 具有单分子传感器阵列的高通量核酸定序
US20240026471A1 (en) Molecular electronic sensors for multiplex genetic analysis using dna reporter tags
CN109416324B (zh) 利用非闭合形状的基准的系统和方法
CN109414673B (zh) 具有响应于多个激发频率的基准的系统和方法
Alonso et al. Big data challenges in bone research: genome-wide association studies and next-generation sequencing
Reed et al. Identifying individual DNA species in a complex mixture by precisely measuring the spacing between nicking restriction enzymes with atomic force microscope
CN107273715A (zh) 一种检测方法及装置
CN109416322B (zh) 具有偏移布局的基准的系统和方法
Mayraz et al. Construction of physical maps from oligonucleotide fingerprints data
US20210134396A1 (en) Trace reconstruction of polymer sequences using quality scores
CN109390039B (zh) 一种统计dna拷贝数信息的方法、装置及存储介质
Smith et al. Estimating error rates for single molecule protein sequencing experiments
Deshpande et al. Reconstructing and characterizing focal amplifications in cancer using AmpliconArchitect
Hawkins et al. Error-correcting DNA barcodes for high-throughput sequencing
Farouni et al. Statistical modeling, estimation, and remediation of sample index hopping in multiplexed droplet-based single-cell RNA-seq data
Hond Consensus Calling and Validation of Single Nucleotide Variant Calling from Nanopore Sequencing with Deep Learning for CyclomicsSeq
Winston Bridging Micro-and Macroevolution in Neotropical Army Ants

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination