使用电方法的分子分析物的数字分析
背景
相关申请的交叉参考
本申请要求2013年8月22日提交的美国临时申请No.61/868,988的优先权,将其全部按引用并入本文中。本申请还将美国临时申请No.61/728,067和国际专利申请No.PCT/US2013/070797全部按引用并入。
技术领域
本发明公开内容涉及可用于分子的电检测的组合物和方法,并且更具体地,涉及使用数字化电信号和使用错误校正方案来表征靶标分析物的复杂混合物。
背景技术
多重分子和生化方法可用于分子分析物的鉴别和定量。实例包括常用的基于核酸的分析,如qPCR(定量聚合酶链式反应)和DNA微阵列,以及基于蛋白质的方法,如免疫分析和质谱。然而,在目前的分析物分析技术中存在各种局限性。例如,目前的方法具有灵敏度的局限性,尤其是在分析物以低拷贝数或以低浓度存在于生物样品中的情况下。为了较高的灵敏度,大部分核酸定量技术涉及样品扩增。然而,扩增技术将偏差和不精确性引入了定量中。此外,对于蛋白质和肽是不可能扩增的。由于缺乏灵敏度,用于检测和定量的方法常常需要相对大的样品体积。
目前的方法对于其鉴别和定量大量分析物的能力也受到限制。样品中全部mRNA和蛋白质的定量需要高的多重性(multiplexity)和大的动态范围。此外,目前的技术缺乏同时检测和定量核酸和蛋白质的能力。
由于诸如弱的信号检测、假阳性和其他错误的情况,目前的方法在分析物检测和定量过程中常常产生错误。这些错误可能导致分析物的错误鉴别和不准确的定量。
因此,需要允许以小的样品体积而具有高灵敏度、高多重性、大动态范围以及在单一分析中检测蛋白质和核酸分子的能力的用于分析物分析的方法和系统。此外,需要用于校正分析物检测错误的错误校正方法。本发明解决了现有技术的这些和其他局限性。
附图说明
公开的实施方案具有其他优点和特征,其从以下结合附图的发明详述和所附的权利要求更容易清楚地理解,其中:
附图(或“图”)1说明了根据一个实施方案,固定于基质上并特异性地结合组合物的靶标分析物的实例。
图2A和2B说明了根据一个实施方案,固定于基质上并特异性地结合组合物的靶标分析物的实例,所述组合物包括尾区,所述尾区包括一个或多个中止碱基。
图3是高级框图,其说明了根据一个实施方案,用于分析分子分析物的计算机300的实例。
发明内容
本发明提供了一种组合物,其包含:探针区,其中探针区配置成特异性地结合靶标分析物;尾区,该尾区包含同型聚合的碱基区,所述碱基区包含至少25个连续的核苷酸;和任选的位于探针区和尾区之间的接头区,其中接头区包含配置成特异性地结合尾区的一部分的核苷酸序列,并且其中在任选的接头区存在时,探针区和尾区各自包含单独的核酸分子。
本发明还提供了一种组合物,其包含:探针区,其中探针区配置成特异性地结合靶标分析物;和至少一个连接至探针区的接头区,其中接头区包含配置成特异性地结合至少一个尾区的一部分的核苷酸序列,所述尾区包含同型聚合的碱基区,所述碱基区包含25个连续的核苷酸,其中探针区和尾区各自包含单独的核酸分子。在一个实施方案中,所述组合物进一步包含至少一个尾区,其中每个尾区的一部分配置成特异性地结合不同的接头区。
在一个实施方案中,组合物的尾区和探针区通过核酸骨架共价连接。在另一个实施方案中,所述尾区进一步包含一个或多个核苷酸,所述核苷酸包含一个或多个与同型聚合的碱基区内的碱基不同的碱基。在另一个实施方案中,接头区配置成特异性地结合多个尾区的部分。在进一步的实施方案中,同型聚合的碱基区包含多聚-A尾、多聚-T尾、多聚-C尾或多聚-G尾。在再另一个实施方案中,同型聚合的碱基区包含至少100或200个连续的核苷酸。在一些实施方案中,靶标分析物包含蛋白质、肽或核酸。在其它实施方案中,探针区包含蛋白质、肽、核酸或抗体。在其他实施方案中,接头区序列包含至少10个核苷酸或20-25个核苷酸。
在一个实施方案中,尾区进一步包含:与同型聚合的碱基区相邻的核苷酸,其中该核苷酸包含与同型聚合的碱基区内的碱基不同的碱基;与所述核苷酸相邻的第二同型聚合的碱基区,其中所述第二同型聚合的碱基区包含与该核苷酸的碱基不同的碱基;和任选的多个另外的同型聚合的碱基区,其各自通过插入核苷酸与相邻的同型聚合的碱基区分开,其中插入核苷酸的碱基与每个相邻的同型聚合的碱基区的碱基不同。
在另一个实施方案中,每个同型聚合的碱基区包含相同的碱基。在另一个实施方案中,所述核苷酸和每个任选的插入核苷酸包含相同的碱基。在单独的实施方案中,包含多个根据权利要求15的组合物的库,其中(1)每个探针区与多个接头区相关联,和(2)每个接头区特异性地结合不同尾区的一部分。在进一步的实施方案中,库中所有尾区的长度是恒定的。
本发明还提供了表征至少一种靶标分析物的方法,其包括:获得多个有序的尾区集,每个有序的尾区集包含权利要求1和3-18任一项中的一个或多个尾区,并且针对N种不同靶标分析物的限定子集,其中N种不同的靶标分析物固定于基质的空间上单独的区域上;将N种不同的靶标分析物在设计为促进探针区与一种或多种固定的N种不同的靶标分析物特异性地结合的条件下接触权利要求1-18任一项的探针区;进行至少M个循环,其中所述进行包括:(1)杂交步骤(如果尾区没有共价连接至探针区),其包括将结合的探针区接触尾区,其中每个尾区特异性地结合探针区的接头区;(2)合成步骤,该合成步骤包括在导致合成使用尾区作为模板的多核苷酸链的条件下将结合的尾区接触包含试剂的反应混合物;和(3)剥离步骤,该剥离步骤包括将尾区或探针区从N种不同的靶标分析物剥离;检测至少M个循环的每个循环的过程中来自基质的空间上单独的区域的多个输出信号;和从检测的多个输出信号针对N种不同的靶标分析物中的一种或多种确定每个循环的至少K位的信息,其中将至少K位的信息用于确定总的L位的信息,其中K×M=L位的信息,且L≥log2(N),并且其中将L位的信息用于鉴别N种不同靶标分析物中的一种或多种。
在一个实施方案中,L>log2(N),并且L包括用于校正多个信号中的错误的信息位。在另一个实施方案中,L>log2(N),并且L包括以预定顺序排序的信息位。在进一步的实施方案中,预定顺序是随机顺序。在另一个实施方案中,L>log2(N),并且L包括用于确定针对N种不同靶标分析物中每一种的识别码的信息位。在单独的实施方案中,L>log2(N),并且L包括含有用于针对至少M个循环中每个循环解码有序尾区集的顺序的密钥的信息位。在进一步的实施方案中,密钥解码了N种不同分析物中的一种或多种的身份。在另一个实施方案中,将针对N靶标分析物确定的L位的信息与通过密钥提供的预期信息位进行比较,其中将该比较用于确定N靶标分析物的身份。在另一个实施方案中,有序尾区集的数量基于N种不同靶标分析物的数量。
在一个实施方案中,将多个输出信号数字化以扩大多个信号的动态检测范围。在另一个实施方案中,本发明的方法是计算机执行的。在单独的实施方案中,L位信息可以用于确定针对多个输出信号的错误校正。在进一步的实施方案中,错误校正包括使用Reed-Solomon码。在另一个实施方案中,上述基质含有至少一个检测多个输出信号的晶体管。在进一步的实施方案中,所述晶体管是离子敏感的场效应晶体管(ISFET)结构。
本发明还提供了用于表征至少一种靶标分析物的试剂盒,其包含:多个探针区容器,每个探针区容器容纳不同的分子,所述分子包含权利要求1的探针区和接头区;多个有序尾区容器,每个尾区容器容纳不同的核酸分子,所述核酸分子包含权利要求1的尾区;容纳反应混合物的反应混合物容器,所述反应混合物包含用于从尾区之一合成多核苷酸链模板的酶和多核苷酸;和使用说明,包括在导致多核苷酸链反应产物合成的条件下将靶标分析物接触至少一个探针区容器的内容物或其一部分、至少一个尾区容器的内容物或其一部分以及反应混合物容器的内容物或其一部分的说明。
本发明还提供了用于表征至少一种靶标分析物的试剂盒,其包含:多个组合物容器,每个组合物容器容纳权利要求1-18任一项的不同组合物;容纳反应混合物的反应混合物容器,所述反应混合物包含用于从尾区之一(如果存在尾区的话)合成多核苷酸链模板的酶和多核苷酸;和使用说明,包括在导致多核苷酸链反应产物合成的条件下将靶标分析物接触至少一个探针区容器的内容物或其一部分以及反应混合物容器的内容物或其一部分的说明。
在一个实施方案中,试剂盒进一步包含:用于进行至少M个循环的说明,其中所述进行包括:(1)杂交步骤(如果尾区没有共价连接至探针区),其包括将结合的探针区接触尾区,其中每个尾区特异性地结合探针区的接头区;(2)合成步骤,该合成步骤包括在导致使用尾区作为模板的多核苷酸链合成的条件下将结合的尾区接触包含试剂的反应混合物;和(3)剥离步骤,该剥离步骤包括将尾区或探针区从N种不同的靶标分析物剥离;用于在至少M个循环的每个循环的过程中检测来自基质的空间上单独的区域的多个输出信号的说明;和用于从多个信号针对N种不同的靶标分析物中的一种或多种确定每个循环的至少K位信息的说明,其中将至少K位信息用于确定总的L位的信息,其中K×M=L位的信息,且L≥log2(N),并且其中将L位的信息用于鉴别N种不同靶标分析物中的一种或多种的存在或不存在。
在一个实施方案中,L>log2(N)。在另一个实施方案中,说明进一步包括使用L位的信息确定N种不同靶标分析物中每一种的鉴别,其中L包括用于靶标鉴别的信息位。在单独的实施方案中,说明进一步包括使用L位的信息确定多个有序的探针试剂集的顺序,其中L包括以预定顺序排序的信息位。在进一步的实施方案中,预定顺序是随机顺序。在另一个实施方案中,说明进一步包括用于解码多个有序的探针试剂集的顺序的密钥。
具体实施方式
附图和以下的描述仅通过说明的方式与本发明的各种不同实施方案相关。从以下讨论应当注意到,本文中公开的结构和方法的可替换实施方案将容易地被认为是可以使用的可行替换方案而不脱离其所要求的原理。
现在将详细参考几个实施方案,其实例在附图中有说明。注意到在附图中可以使用任何情况下可行的相似或类似的附图编号并且可以表示相似或类似的功能性。附图仅为了说明的目的描绘所公开系统(或方法)的实施方案。本领域技术人员从以下描述将容易地认识到可以使用本文中说明的结构和方法的替换实施方案而不脱离本文中所述的原理。
定义
“靶标分析物”或“分析物”是指待鉴别、定量和另外地表征的分子、化合物、物质或组分。靶标分析物可以是多肽、蛋白质(折叠或未折叠的)、寡核苷酸分子(RNA或DNA)、其片段或其修饰的分子,如修饰的核酸。通常,靶标分析物可以是在任何体积的溶液(例如,低如皮升范围)中的宽范围浓度中的任一浓度下(例如,从mg/mL至g/mL的范围)。例如,血液、血清、福尔马林固定的石蜡包埋的(FFPE)组织、唾液或尿液的样品可以含有各种靶标分析物。靶标分析物被探针识别,所述探针用于使用电学或光学检测方法鉴别和定量靶标分析物。
靶标蛋白质的修饰,例如,可以包括翻译后修饰,如将蛋白质连接至其他生化功能基团(如醋酸根、磷酸根、各种脂质和碳水化合物)、改变氨基酸的化学性质(例如,瓜氨酸化)或进行结构变化(例如,二硫化物桥的形成)。翻译后修饰的实例还包括,但不限于,添加疏水性基团用于膜定位(例如,肉豆蔻酰化、棕榈酰化)、添加辅因子用于增强的酶活性(例如,lipolyation)、翻译因子的修饰(例如,白喉酰胺形成)、添加化学基团(例如,酰化、烷化、酰胺键形成、糖基化、氧化)、糖修饰(糖化)、添加其他蛋白质或肽(泛素化)或氨基酸化学性质的改变(例如,脱酰胺、氨甲酰化)。
在其他实施方案中,靶标分析物是已经修饰的寡核苷酸。DNA修饰的实例包括DNA甲基化和组蛋白修饰。再在其他实施方案中,靶标分析物是小分子(如类固醇)、原子或其他化合物。
如本文中使用的“探针”是指用于检测或评价分子、细胞组分或结构或者细胞的性质的能够结合其他分子(例如,寡核苷酸,包含DNA或RNA、多肽或全长蛋白质等)、细胞组分或结构(脂质、细胞壁等)或细胞的分子。探针包括结合靶标分析物的结构或组分。探针的实例包括,但不限于,适体、抗体、多肽、寡核苷酸(DNA、RNA)或其任意组合。作为探针的抗体、适体、寡核苷酸序列及其组合在以下也有详细描述。
探针可以包括用于检测靶标分析物的存在的标签。所述标签可以直接或间接地与靶标分析物结合组分结合、杂交、缀合或共价连接。在一些实施方案中,标签是可检测标记,如荧光分子或化学发光分子。在其他实施方案中,标签包含具有同型聚合的碱基区(例如,多聚-A尾)的寡核苷酸序列。可以经由标签通过电学、光学或化学方式来检测探针。
如本文中使用的,术语“标签”是指能够检测靶标分析物的分子。标签可以是具有同型聚合的碱基区(例如,多聚-A尾)的寡核苷酸分子。在其他实施方案中,标签是标记,如荧光标记。标签可以包括,但不限于,荧光分子、化学发光分子、发色团、酶、酶底物、酶辅因子、酶抑制剂、染料、金属离子、金属溶胶、配体(例如,生物素、抗生物素蛋白、抗生物素蛋白链菌素或半抗原)、放射性同位素等。标签可以直接或间接地与探针结合、杂交、缀合或共价连接。
“蛋白质”或“多肽”或“肽”是指两个或更多个氨基酸、氨基酸类似物或其他肽模拟物的分子。蛋白质可以是折叠或未折叠的(变性的)。多肽或肽可以具有二级结构,如α螺旋、β折叠或其他构象。如本文中使用的,术语“氨基酸”是指天然的和/或非天然或合成的氨基酸,包括甘氨酸和D或L光学异构体,及氨基酸类似物和肽模拟物。肽长度可以是两个或更多个氨基酸。较长长度的肽常常被称为多肽。蛋白质可以是指全长蛋白质,其类似物和片段也包括在定义中。该术语还包括蛋白质或多肽的表达后修饰,例如,糖基化、乙酰化、磷酸化等。此外,由于可电离氨基和羧基存在于分子中,特定的多肽可以作为酸式盐或碱式盐,或以中性形式获得。蛋白质或多肽可以从来源生物体直接获得,或可以重组或合成地产生。
可以通过肽序列、侧链修饰和/或其三级结构来鉴别和表征蛋白质。侧链修饰包括磷酸化、乙酰化、糖等。来自丝氨酸、苏氨酸和酪氨酸氨基酸的羟基基团的磷酸化是特别重要的目标修饰。
术语“体内”是指在活的生物体内发生的过程。
如本文中使用的术语“哺乳动物”包括人和非人,并且包括但不限于人类、非人类灵长类动物、犬科动物、猫科动物、鼠科动物、牛科动物、马科动物和猪。
如本文中使用的“样品”包括来自生物材料的样本、培养物或收集物。样品可以源自或取自哺乳动物,包括,但不限于,人类、猴、大鼠或小鼠。样品可以包括如但不限于培养物、血液、组织、福尔马林固定的石蜡包埋的(FFPE)组织、唾液、毛发、粪便、尿液等这样的材料。这些实例不是认为显示适用于本发明的样品类型。
如本文中使用的“位”是指计算和数字通讯中的信息的基本单位。位可以只具有两个值中的一个。这些值的最常见表示是0和1。术语位是二进制数位的缩写。在一个实例中,使用4位信息的系统可以形成16个不同的值。所有单一数位十六进制数可以用4个位来书写。二进制编码的十进制是使用十进位计数法的数字的数位编码方法,每个十进制数位由四个位来表示。在另一个实例中,使用8位的计算,存在28(或256)个可能的值。
表1.示例位值
“循环”通过一个结合反应的完成和一个或多个探针与基质的剥离来限定。可以在单个基质或样品上进行多个循环。对于蛋白质,多个循环需要的是探针去除(剥离)条件维持蛋白质以其正确构象折叠,或使用的探针选择为结合肽序列,以使得结合效率与蛋白质折叠构象无关。
必须注意到,如说明书和所附权利要求中使用的,单数形式“一”、“一个”或“该”包括复数指代物,除非文中清楚地另外指出。
概述
公开了使用电学系统的靶标分析物的高度多重的单分子鉴别和定量的组合物和技术。在一些实施方案中,信号是差分信号,其通过比较两个或更多个信号的量值来产生。靶标分析物包括蛋白质、肽、DNA和RNA分子,其具有和不具有修饰。为了增强的灵敏度,使用离子敏感场效应晶体管(ISFET)来完成电检测。技术包括使用具有和不具有差分终止的尾区来鉴别靶标分析物。尾区的多样性和灵敏度允许详细表征靶标分析物和高度多重的靶标分析物鉴别。此外,公开了错误校正技术,其校正靶标分析物检测和表征中的潜在错误。
组合物
根据本发明的靶标分析物是待鉴别、定量和另外表征的任何分子。靶标分析物通常由蛋白质(变性或折叠的)、肽或核酸组成,但可以是另一种类型的分子,如任何小分子、类固醇或包含酰基、磷或甲基基团的修饰的核酸。图1显示了已经固定于基质上的靶标分析物102的实例。通常,靶标分析物102可以是在任何体积的溶液中(例如,低至皮升范围)的宽浓度范围中的任一浓度(例如,从mg/mL至g/mL范围)。例如,血液、血清、福尔马林固定的石蜡包埋的(FFPE)组织、唾液或尿液的样品可以含有各种靶标分析物102。靶标分析物102使用电检测方法通过用于鉴别和定量靶标分析物102的组合物识别。组合物包括探针区104,其配置成特异性地结合目标靶标分析物102。探针区104可以由蛋白质、肽或核酸组成,并且用于识别和结合靶标分析物102。在一个实施方案中,探针区104的至少一部分由抗体组成。
每个探针区104可以与标签,或尾区106偶联。尾区106由长度“N”的核苷酸模块组成,其长度足以通过检测器产生可以可靠地检测并可以以充分的准确度测量的信号,以使得检测器可以分辨从长度N、2N、3N、4N、5N、6N、7N、8N、9N、10N或大于10N的模块的信号。在特定的实施方案中,N可以是至少10、15、25、50、100或大于100个核苷酸,并且用作用于多核苷酸合成的模板。尾区106通常是单链DNA分子,但也可以是RNA分子。在一个实施方案中,尾区106通过核酸骨架共价连接探针区104。在另一个实施方案中,尾区106的一部分特异性地结合接头区108,接头区108通过核酸骨架共价连接探针区104。接头区108可以配置成特异性地结合一个尾区的一部分或多个尾区的部分。在一个实施方案中,接头区108由至少10个核苷酸组成。在另一个实施方案中,接头区108由20-25个核苷酸组成。探针区104可以共价连接单个接头区108,或可以共价连接各自特异性地结合不同尾区106的一部分的多个不同接头区108。
尾区106提供了用于多核苷酸合成的模板。在多核苷酸合成的过程中,对于沿着尾区106模板并入的每个核苷酸释放一个氢离子。这些氢离子中的多个可以作为电输出信号通过晶体管来检测。必须释放用于晶体管检测电输出信号的最小阈值数的氢离子。例如,根据检测器的构造,最小阈值数可以是25。在一些实施方案中,尾区106长度为至少25、100、200、1000或10,000个核苷酸。尾区106常常包括一个或多个同型聚合的碱基区。例如,尾区106可以是多聚-A、多聚-C、多聚-G或多聚-T尾。在一个实施方案中,尾区106包含同型聚合的碱基区,接着是不同的同型聚合的碱基区,例如,多聚-A尾,接着是多聚-G尾。
电输出信号提供了关于尾区106及其相应的探针区104和靶标分析物102的信息。在一个实例中,样品溶液含有多个靶标分析物102。将靶标分析物102固定于含有至少一个晶体管的基质上。当加入配置成特异性地结合靶标分析物102之一的组合物时,探针区104特异性地结合靶标分析物102。这种组合物的尾区106是基于DNA的多聚-A尾,其是100个核苷酸长。因此,当在促进多核苷酸合成的条件下添加dTTP时,它们将并入尾区106中,从而释放氢离子。如果用于晶体管检测电输出信号的氢离子的最小阈值数是100个核苷酸或更少,晶体管将检测电输出信号。将这个信号用于鉴别与多聚-A尾区106相关的靶标分析物102,并且潜在地测定溶液中靶标分析物102的浓度。在一个实施方案中,通过计数基质上固定的靶标分析物的数量,和通过与也固定于基质上的样品中已知浓度的对照分析物(例如,样品制备过程中添加的管家基因或已知对照序列)比较进行校准来测定样品中靶标分析物102的浓度。
使用离子敏感场效应晶体管的组合物电检测
本发明的电检测方法使用离子敏感场效应晶体管(ISFET,或pH传感器)来测量溶液中的氢离子浓度。在一个实施方案中,通过计算机进行本文中公开的电检测方法。溶液的离子浓度可以通过ISFET的电极转换成对数电位,并且可以检测和测量电输出信号。在进一步的实施方案中,将电输出信号转换成数字信息位。ISFET提供了用于生物分子的鉴别和表征的灵敏且特异性的电检测系统。
例如,ISFET之前已经用于帮助DNA测序。在单链DNA酶促转化成双链DNA的过程中,随着每个核苷酸添加至DNA分子,氢离子释放。ISFET检测这些释放的氢离子,因此ISFET可以确定什么时候核苷酸添加至DNA分子。通过使三磷酸核苷dATP、dCTP、dGTP和dTTP的并入同步,可以测定DNA序列。例如,如果在单链DNA模板暴露于dATP时没有检测到电输出信号,但在dGTP存在下检测到电输出信号,那么DNA序列在所讨论的位置由互补的胞嘧啶碱基组成。
在本发明中,将ISFET用于鉴别组合物的尾区106,并且由此表征相应的靶标分析物102。例如,可以将靶标分析物102固定于基质上,如含有一个或多个ISFET的集成电路芯片。当相应的组合物被加入并特异性地结合靶标分析物102时和当加入在并入至尾区106中时释放氢离子的核苷酸时,ISFET检测并测量离子浓度的变化。这种电输出信号提供了关于尾区106的身份的信息。
尾区106的最简单类型是完全由一个同型聚合的碱基区组成的尾区。在这种情况中,存在四种可能的尾区106:多聚-A尾、多聚-C尾、多聚-G尾和多聚-T尾。然而,常常希望的是在尾区106中具有很大的多样性,特别是检测一个样品中的数百或数千个靶标分析物时。
在尾区106中产生多样性的一种方法是通过在尾区106的同型聚合的碱基区内提供一个或多个终止碱基。图2A和2B中说明了终止碱基。终止碱基是尾区106的一部分,其包含至少一个与同型聚合的碱基区相邻的核苷酸,以使得所述至少一个核苷酸由与同型聚合的碱基区内的碱基不同的碱基组成。在一个实施方案中,终止碱基是一个核苷酸。在其他实施方案中,终止碱基包含多个核苷酸。通常,终止碱基侧翼为两个同型聚合的碱基区。在一个实施方案中,终止碱基侧翼的两个同型聚合的碱基区由相同的碱基组成。在另一个实施方案中,两个同型聚合的碱基区由两种不同的碱基组成。在另一个实施方案中,尾区106含有超过一个终止碱基(图2B)。
在一个实例中,ISFET可以检测最小阈值数的100个氢离子。靶标分析物1结合具有尾区106的组合物,所述尾区由100个核苷酸的多聚-A尾,接着一个胞嘧啶碱基,接着另一个100个核苷酸的多聚-A尾组成,达到201个核苷酸的尾区106总长度。靶标分析物2结合具有尾区106的组合物,所述尾区由200个核苷酸的多聚-A尾组成。在添加dTTP时并且在有助于多核苷酸合成的条件下,与靶标分析物1关联的尾区106上的合成将释放100个氢离子,其可以与靶标分析物2关联的尾区106上的多核苷酸合成(其将释放200个氢离子)区分开来。ISFET将检测针对每个不同尾区106的可区分的电输出信号。此外,如果添加dGTP,接着添加更多dTTP,则与靶标分析物1关联的尾区106然后释放一个氢离子,随后由于进一步的多核苷酸合成再释放100个氢离子。从基于尾区106组成的特定三磷酸核苷的添加产生的不同电输出信号允许ISFET检测并鉴别特定的尾区106及其相应的靶标分析物102。
这些电检测方法可以用于同时检测数百(乃至数千)个不同的靶标分析物。每个靶标分析物102可以与数字标识相关,使得不同的数字标识的数目与样品中不同靶标分析物的数目成比例。标识可以通过数字信息的多个位来表示并且在有序的尾区106集内编码。如以下进一步讨论的,使有序的尾区106集中的每个尾区106顺序地特异性结合探针区104的接头区108,所述探针区特异性地结合靶标分析物102。或者,如果尾区106共价结合其相应的探针区104,则使有序的尾区106集中的每个尾区106顺序地特异性结合靶标分析物102。
在一个实施方案中,一个循环由尾区106与接头108的结合和剥离来表示,使得多核苷酸合成发生并释放氢离子,其作为电输出信号来检测。因此,用于靶标分析物102鉴别的循环数等于有序的尾区106集中尾区106的数量。有序的尾区106集中尾区106的数量取决于待鉴别的靶标分析物的数量以及待产生的信息的总位数。在另一个实施方案中,一个循环由共价结合探针区104的尾区106来表示,所述探针区特异性地结合靶标分析物102并从其剥离。
将从每个循环检测的电输出信号数字化成信息位,使得进行所有循环以将每个尾区106结合其相应的接头区108后,获得的数字信息的总位数可以用于鉴别和表征正被讨论的靶标分析物102。总位数取决于用于鉴别靶标分析物的多个鉴别位,加上用于错误校正的多个位。如以下解释的,基于电输出信号的所需强度和准确性来选择用于错误校正的位数。通常,错误校正位的数目是鉴别位数目的2或3倍。
在一个实例中,将靶标分析物102固定于基质的空间上单独的区域上,所述基质可以含有一个或多个晶体管,如ISFET。将探针区104加入基质中以促进与N种不同的靶标分析物102的特异性结合。表征多种不同靶标分析物102的一种方法涉及获得至少一个有序的尾区106集。每个有序的尾区106集由一个或多个尾区106组成,使得集内的每个尾区106与针对N种不同靶标分析物102的限定子集内的不同靶标分析物102的探针区104相关联。在一个实施方案中,所有尾区106具有相同的核苷酸长度。在另一个实施方案中,基于不同靶标分析物102的数量来确定集内有序的尾区106的数量。在单独的实施方案中,探针区104与集内的有序尾区106共价连接。在另一个实施方案中,探针区104含有一个或多个接头区108并且与有序的尾区106集分开。
接着,进行至少M个结合、合成和剥离步骤的循环以产生电输出信号并鉴别靶标分析物102。通过尾区106与探针区104的接头区108的特异性结合,或探针区104与靶标分析物102的特异性结合来限定结合。如果探针区104和尾区106是单独的分子,通过加入对应于探针区104的一个有序的尾区106集来促进与探针区104的特异性结合来开始循环。然后,进行合成步骤,在此过程中,在使用尾区106作为模板导致多核苷酸链合成的条件下加入试剂的反应混合物。最后,进行剥离步骤,其包括从N种不同的靶标分析物102剥离尾区106或探针区104。在一个实施方案中,探针区104包括多个接头区108,并且是与尾区106分开的分子。每个接头区108特异性地结合不同尾区106的一部分。在这种情况中,剥离步骤从靶标分析物102仅剥离尾区106。在另一个实施方案中,探针区104共价结合尾区106。在这种情况中,剥离步骤从靶标分析物102剥离整个组合物(探针区104和尾区106)。
在合成步骤过程中,可以根据多核苷酸合成过程中氢离子的释放来检测电输出信号。从电输出信号,每个循环可以获得至少K位的信息用于鉴别N种不同靶标分析物102中的一种或多种。使用模数转换器将电输出信号测量值转换成信息的数字位。这种数字化扩大了信号的动态检测范围。在一些实施方案中,基于每个循环获得的信息位数目K来确定集中有序的尾区106的数目,其中log2(尾区的数量)=K。使用至少K位的信息来确定总L位的信息,以使得K×M=L位的信息,并且L≥log2(N)。使用L位的信息来鉴别N种不同靶标分析物102中的一种或多种。
如果进行一个循环,那么只使用一个尾区106,并且K=L。然而,可以进行多个循环来产生更多的信息位L。如果M>1,那么进行多个循环,使得不同的尾区106(例如,在有序的尾区106集中)可以在每个循环过程中与特定的靶标分析物102相关联。对于每个循环,可以将预期的电输出信号与靶标分析物102相关联,并与实际的电输出信号比较。这种比较产生了关于尾区106和相关的靶标分析物102的鉴别准确性的信息。通过使用有序的尾区106集中的每个尾区106进行的多个循环来代表运行以鉴别一个靶标分析物102。
在一个实施方案中,L>log2(N),使得L包括用于校正电输出信号中的错误的信息位。虽然K等于每个循环产生的用于(靶标分析物)鉴别的位数,但每个循环还可以产生用于错误校正的附加位,使得每个运行的总位数L包括鉴别位加错误校正位。如果,例如,在循环过程中尾区106没有正确地结合其相应的探针区104,则可能发生错误。L位信息中的一些可以通过错误校正码用于检测和校正错误。在一个实施方案中,错误校正码是Reed-Solomon码,其是用于检测和校正系统中的错误的非二进制循环码。除了用于靶标分析物鉴别的信息位,Reed-Solomon码使用额外的信息位来校正错误。这些额外位被称为奇偶性校验位,并且可以通过各种公知技术获得,包括进行另外的循环。在一个实施方案中,选择的错误校正位的数目等于鉴别位数目的2或3倍。也可以使用其他错误校正码,例如,块码、卷积码、Golay码、Hamming码、BCH码、AN码、Reed-Muller码、Goppa码、Hadamard码、Walsh码、Hagelbarger码、极性码、重复码、重复-累积码、纠删码、联机码(onlinecode)、群码、扩展码、定权码、旋风码、低密度奇偶校验码、最大距离码、突发错误码、卢比转换码、喷泉码(fountaincode)和raptor码。参见ErrorControlCoding(错误控制编码),第2版,S.Lin和DJCostello,PrenticeHall,纽约,2004。
表1:用于不同靶标分析物的有序尾区集
循环# |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
数字标识 |
靶标1:L-选择素 |
a |
b |
c |
d |
e |
f |
G |
h |
deabfcgh |
靶标2:白蛋白 |
i |
j |
k |
l |
m |
n |
O |
p |
pnmolijk |
表1说明了用于靶标分析物L-选择素和白蛋白的有序尾区集的实例。L-选择素具有“deabfcgh”的数字标识,并且L-选择素特异性的有序尾区集包括8个不同的尾区a-h。在此,每个循环使用一个不同的尾区。白蛋白具有“pnmolijk”的数字标识,并且白蛋白特异性的有序尾区集包括8个不同的尾区i-p。再次,每个循环使用一个不同的尾区。对于这两种靶标分析物,通过8个循环来表示一轮运行,并且将从所述运行获得的信息位用于确定鉴别每种相应靶标分析物的数字标识。
在一个实施方案中,L>log2(N),使得L包括以预定顺序排序的信息位。例如,如果有序的尾区106集预定了每个循环使用的尾区的顺序,则信息位以预定的顺序排序。表1显示了对于L-选择素,例如,循环1对应于尾区“a”,而循环2对应于尾区“b”。在一些实施方案中,预定的顺序是随机的。在其他实施方案中,使用计算机软件来指定该顺序。在再另一个实施方案中,有序尾区106集的顺序是未知的,并且使用密钥来解码用于至少M个循环中每个循环的有序尾区集106的顺序。密钥可以包括由位表示的数字,并且密钥的位可以与L位的信息结合。例如,用于表1中的L-选择素的有序尾区106集可以是乱序的,使得用于循环1-8的尾区顺序不是“abcdefgh”,而是“cdbagfeh”。可以提供密钥来解码这种顺序以确定针对所讨论的靶标分析物的数字标识。
在进一步的实施方案中,根据针对每个尾区10的所检测电输出信号,使用另一个密钥来解码N种不同靶标分析物102中一种或多种的数字标识。密钥可以提供预期的与每个尾区106相关的信息位,或密钥可以提供预期的与有序的尾区106集的顺序相关的信息位。可以将通过密钥提供的这些预期的信息位与针对靶标分析物102测定的实际L位信息进行比较。可以将该比较用于确定靶标分析物102的身份。例如,针对表1中的L-选择素的有序尾区106可以不是乱序的,而是数字标识是乱序的,使得用于运行的总位数没有将数字标识识别为“deabfcgh”,而是“rstuvwxy”。可以提供密钥来解码数字标识以确定用于所讨论的靶标分析物的正确数字标识。
单分子的差分检测
有时,使用含有不同尾区106的几个组合物来鉴别和表征大量的靶标分析物102。在像这样的情况中,可以使用差分检测来有效地鉴别尾区106。差分检测使用多个相同长度的尾区106,其各自包括由相同的核苷酸组成的同型聚合的碱基区,并且包括相同数目的终止碱基。来自两个或更多个同型聚合的碱基区(在一个尾区内,在终止碱基之间)之间多核苷酸合成的电输出信号的比例提供了差分检测测量。选择与尾区106相关的鉴别长度,使得鉴别长度代表释放用于通过晶体管检测的特定数量的氢离子所需要的尾区106的多个核苷酸。鉴别长度越长,每个循环获得的信息位越少。
存在其中需要不同的鉴别长度的各种情况。当使用较长的鉴别长度时,产生更多的氢离子,由此产生更多用于检测的信号。因此,系统总体上更精确。然而,较长的鉴别长度导致较长的结合时间、每个循环的较少位及可能检测较少的靶标分析物或需要较长的时间来完成所有循环。当使用较短的鉴别长度时,结合时间较短,每个循环获得更多的位,并且可以检测许多靶标分析物。然而,产生较少的氢离子,导致了不太精确的系统。在一个实施方案中,鉴别长度等于足以通过检测器产生可靠信号的长度“N”的核苷酸块。在一个实施方案中,“N”对应于用于电检测的氢离子的最小阈值数。在另一个实施方案中,鉴别长度长于用于电检测的氢离子的最小阈值数。例如,鉴别长度可以是长度N、2N、3N、4N、5N、6N、7N、8N、9N、10N或长于10N。在一个实施方案中,鉴别长度等于尾区106的长度。在其他实施方案中,鉴别长度短于尾区106的长度。
例如,如果鉴别长度为100个核苷酸,尾区106长度可以是800个核苷酸。这提供了8的离散化长度。离散化长度等于尾区106长度除以鉴别长度(800/100=8)。每个离散化长度提供了一些关于尾区106身份的信息。这种信息可以数字化成信息位。产生的信息位数等于离散化长度数的以2为底的对数。在这个实例中,存在8的离散化长度,或3位信息(23=8)。
当使用差分检测时,终止碱基可以在不同尾区106内的不同位置,尽管总尾区106长度应当在所有尾区106之间保持恒定。对于差分测量,尾区106的长度等于[(离散化长度数+1)×(鉴别长度)]+(终止碱基数)。因此,如果这个实例中存在一个终止碱基,则总尾区106长度应当为(8+1)(100)+1=901个核苷酸。因此,尾区106将由同型聚合的碱基区、终止碱基和另一个同型聚合的碱基区组成,使得同型聚合的碱基区的长度是基于鉴别长度的倍数。在这个实例中,假定所有尾区106的同型聚合的碱基区由相同的碱基组成,可以存在8个不同的尾区106,每个在不同位置具有终止碱基。在终止碱基的任一侧,同型聚合的碱基区长度可以是100/800、200/700、300/600、400/500、500/400、600/300、700/200和800/100个核苷酸。两个同型聚合的碱基区之间的电输出信号的比例鉴别尾区106。这种信号比例允许用于晶体管的校准。在没有差分测量的电检测过程中,靶标分析物相对于晶体管的空间定向可以影响电输出信号,导致不精确的测量。然而,差分测量有效地校准系统,使得不会发生这样的不精确性。
进行了尾区106结合、多核苷酸合成和尾区106剥离的一个或多个循环。如上解释的,针对每个循环可以使用对于不同靶标分析物102特异性的不同的有序尾区106集,使得一个靶标分析物102可以在多个循环过程中与多个不同的尾区106相关联。每个循环产生多个信息位。最佳的系统降低了尾区106的数量和长度,同时最大化了每个循环可以获取的信息位数。此外,理想的是最小化循环数,因为尾区106的剥离可能引起对固定于基质上的靶标分析物102的损伤。
计算机系统
图3是高级框图,其说明了根据一个实施方案用于分析分子分析物的计算机300的实例。说明的是至少一个与芯片组304耦合的处理器302。芯片组304包括存储器控制器集线器320和输入/输出(I/O)控制器集线器322。存储器306和图形适配器312与存储器控制器集线器322耦合,而显示设备318与图形适配器312耦合。存储设备308、键盘310、定点设备314和网络适配器316与I/O控制器集线器322耦合。计算机300的其他实施方案具有不同的架构。例如,在一些实施方案中,存储器306直接与处理器302耦合。
存储设备308是非瞬态计算机可读存储介质,如硬盘、光盘只读存储器(CD-ROM)、DVD或固态存储设备。存储器306容纳由处理器302使用的指令和数据。定点设备314结合键盘310来使用以将数据输入计算机系统300中。图形适配器312在显示设备318上显示图像和其它信息。在一些实施方案中,显示设备318包括用于接收使用者输入和选择的触摸屏能力。网络适配器316将计算机系统300与网络耦合。计算机300的一些实施方案具有图3中所显示那些以外的不同和/或其他部件。例如,服务器可以由多个刀片服务器形成并且缺乏显示设备、键盘和其他部件。
计算机300适用于执行用于提供本文中所述的功能性的计算机程序模块。如本文中使用的,术语“模块”是指用于提供指定功能性的计算机程序指令和其他逻辑。因此,模块可以在硬件、固件和/或软件中执行。在一个实施方案中,由可执行计算机程序指令形成的程序模块存储在存储设备308上、加载至存储器306中并通过处理器302来执行。
实施例
以下实施例说明了使用差分检测技术的靶标分析物鉴别实验。
实施例1
存在固定于含有多个晶体管(即,ISFET)的集成电路芯片上的8种不同的靶标分析物102。每个靶标分析物102对于包括一个或多个接头区108的不同探针区104是特异性的,其中每个探针区104对于特定的尾区106是特异性的。在这个实施例中使用8个多聚-A尾区106,其全部具有901个核苷酸的长度。鉴别长度为100个核苷酸,并且在尾内插入一种终止碱基类型(胞嘧啶)的一个终止碱基。表1A显示了使用的不同尾区106,其中“前导序列长度”表示终止碱基上游的核苷酸数,而“拖尾序列长度”表示终止碱基下游的核苷酸数。
表1A
尾区编号 |
前导序列长度 |
终止碱基 |
拖尾序列长度 |
尾区#1 |
100 |
C |
800 |
尾区#2 |
200 |
C |
700 |
尾区#3 |
300 |
C |
600 |
尾区#4 |
400 |
C |
500 |
尾区#5 |
500 |
C |
400 |
尾区#6 |
600 |
C |
300 |
尾区#7 |
700 |
C |
200 |
尾区#8 |
800 |
C |
100 |
用于鉴别靶标分析物102的位数等于log2(N),使得N=不同靶标分析物102的数目。在这种情况中,log2(8)=3位用于鉴别。选择9位的错误校正。因此,每轮运行(运行表示全部的循环)的总位数是12(3+9=12)。选择在每个循环产生3位信息,使得log2(尾区数)=位数/循环,因此log2(8)=3。因此,这个方案需要结合和剥离的4个循环(12总位数除以每个循环的3位=4个循环)。此外,每个循环将存在3个流序列。每个循环存在一个或多个顺序的流序列,使得每个流序列是添加不同类型的碱基(“流碱基”),其使得可以发生多核苷酸合成。例如,因为尾区106是具有一个胞嘧啶终止碱基的多聚-A尾,首先必须添加dTTP以在多聚-A尾上开始多核苷酸合成。这是一个流序列。接着,必须添加dGTP以并入胞嘧啶终止碱基(第二流序列)中,然后再次添加dTTP以完成多核苷酸合成(第三流序列)。以下的表1B说明了流序列,其显示每个循环由3个流序列组成。
表1B
在运行结束时,产生了用于靶标分析物102鉴别的3位信息,并产生了提供关于鉴别准确性的信息的9位错误校正。这些信息位鉴别和表征了尾区106及其相关的靶标分析物102。
实施例2
存在固定于包含多个晶体管的集成电路芯片上的16种不同的靶标分析物102。每个靶标分析物102对于包括一个或多个接头区108的不同探针区104是特异性的,其中每个探针区对于特定的尾区106是特异性的。这个实施例中使用了16个多聚-A尾区106,其全部具有701个核苷酸的长度。鉴别长度为100,并且在尾内插入三种终止碱基类型(胞嘧啶、鸟嘌呤或胸腺嘧啶)中的一个终止碱基。表2A显示了使用的不同尾区106,其中“前导序列长度”表示终止碱基上游的核苷酸数,而“拖尾序列长度”表示终止碱基下游的核苷酸数。
表2A
用于鉴别靶标分析物102的位数等于log2(N),使得N=不同靶标分析物102的数目。在这种情况中,log2(16)=4位用于鉴别。选择12位的错误校正以提供关于鉴别准确性的信息。因此,每轮运行的总位数是16(4+12=16)。选择在每个循环产生4位信息,使得log2(尾区数)=位数/循环,因此log2(16)=4。因此,这个方案需要结合和剥离的4个循环(16总位数除以每个循环的4位=4个循环)。此外,每个循环将存在7个流序列,如以下表2B中所示。
表2B
流序列编号 |
流核苷酸 |
描述 |
序列#1 |
T |
拖尾序列长度ID |
序列#2 |
G |
除去终止碱基‘C’ |
序列#3 |
T |
前导序列长度ID |
序列#4 |
C |
除去终止碱基‘G’ |
序列#5 |
T |
前导序列长度ID |
序列#6 |
A |
除去终止碱基‘T’ |
序列#7 |
T |
前导序列长度ID |
在运行结束时,产生了用于靶标分析物102鉴别的4位信息,并产生了提供关于鉴别准确性的信息的12位错误校正。这些信息位鉴别和表征了尾区106及其相关的靶标分析物102。
实施例3
存在固定于包含多个晶体管的集成电路芯片上的256种不同的靶标分析物102。每个靶标分析物102对于包括一个或多个接头区108的不同探针区104是特异性的,其中每个探针区对于特定的尾区106是特异性的。这个实施例中使用了16个多聚-A尾区106,其全部具有402个核苷酸的长度。鉴别长度为100,并且在尾内插入三种终止碱基类型(胞嘧啶、鸟嘌呤或胸腺嘧啶)的组合中的两个终止碱基。表3A显示了使用的不同尾区106,其中“前导序列长度”表示终止碱基#1上游的核苷酸数,“中间序列长度”表示终止碱基#2上游的核苷酸数,而“拖尾序列长度”表示终止碱基#2下游的核苷酸数。
表3A
用于鉴别靶标分析物102的位数等于log2(N),使得N=不同靶标分析物102的数目。在这种情况中,log2(256)=8位用于鉴别。选择24位的错误校正以提供关于鉴别准确性的信息。因此,每轮运行的总位数是32(8+24=32)。选择在每个循环产生4位信息,使得log2(尾区数)=位数/循环,因此log2(16)=4。因此,这个方案需要结合和剥离的8个循环(32总位数除以每个循环的4位=8个循环)。此外,每个循环将存在13个流序列,如以下表3B中所示。
表3B
流序列编号 |
流核苷酸 |
描述 |
序列#1 |
T |
拖尾序列长度ID |
序列#2 |
G |
除去终止2碱基‘C’ |
序列#3 |
T |
中间序列长度ID |
序列#4 |
C |
除去终止2碱基‘G’ |
序列#5 |
T |
中间序列长度ID |
序列#6 |
A |
除去终止2碱基‘T’ |
序列#7 |
T |
中间序列长度ID |
序列#8 |
G |
除去终止1碱基‘C’ |
序列#9 |
T |
前导序列长度ID |
序列#10 |
C |
除去终止1碱基‘G’ |
序列#11 |
T |
前导序列长度ID |
序列#12 |
A |
除去终止1碱基‘T’ |
序列#13 |
T |
前导序列长度ID |
在运行结束时,产生了用于靶标分析物102鉴别的8位信息,并产生了提供关于鉴别准确性的信息的24位错误校正。这些信息位鉴别和表征了尾区106及其相关的靶标分析物102。
实施例4
存在固定于包含多个晶体管的集成电路芯片上的4,096种不同的靶标分析物102。每个靶标分析物102对于包括一个或多个接头区108的不同探针区104是特异性的,其中每个探针区对于特定的尾区106是特异性的。这个实施例中使用了64个多聚-A尾区106(表4A中显示了84个多聚-A尾区106,但只使用了64个),其全部具有802个核苷酸的长度。鉴别长度为100,并且在尾内插入两种终止碱基类型(胞嘧啶或鸟嘌呤)的组合中的两个终止碱基。表4A显示了使用的不同尾区106,其中“前导序列”表示终止碱基#1上游的核苷酸数(×100),“中间序列”表示终止碱基#2上游的核苷酸数(×100),而“拖尾序列”表示终止碱基#2下游的核苷酸数(×100)。
表4A
用于鉴别靶标分析物102的位数等于log2(N),使得N=不同靶标分析物102的数目。在这种情况中,log2(4,096)=12位用于鉴别。选择36位的错误校正以提供关于鉴别准确性的信息。因此,每轮运行的总位数是48(12+36=48)。选择在每个循环产生6位的信息,使得log2(尾区数)=位数/循环,因此log2(64)=6。因此,这个方案需要结合和剥离的6个循环(48总位数除以每个循环6位=8个循环)。此外,每个循环将存在9个流序列,如以下表4B中所示。
表4B
流序列编号 |
流核苷酸 |
描述 |
序列#1 |
T |
拖尾序列长度ID,所有标签 |
序列#2 |
G |
除去终止2碱基‘C’ |
序列#3 |
T |
中间序列长度ID,‘C’ |
序列#4 |
C |
除去终止2碱基‘G’ |
序列#5 |
T |
中间序列长度ID,‘G’ |
序列#6 |
G |
除去终止1碱基‘C’ |
序列#7 |
T |
前导序列长度ID,‘C’ |
序列#8 |
C |
除去终止1碱基‘G’ |
序列#9 |
T |
前导序列长度ID,‘G’ |
在运行结束时,产生了用于靶标分析物102鉴别的12位信息,并产生了提供关于鉴别准确性的信息的36位错误校正。这些信息位鉴别和表征了尾区106及其相关的靶标分析物102。
实施例5
存在固定于包含多个晶体管的集成电路芯片上的65,536种不同的靶标分析物102。每个靶标分析物102对于包括一个或多个接头区108的不同探针区104是特异性的,其中每个探针区对于特定的尾区106是特异性的。这个实施例中使用了256个多聚-A尾区106(表5A中显示了324个多聚-A尾区106,但只使用了256个),其全部具有1002个核苷酸的长度。鉴别长度为100,并且在尾内插入三种终止碱基类型(胞嘧啶、鸟嘌呤或胸腺嘧啶)的组合中的两个终止碱基。表5A显示了使用的不同尾区106,其中,例如,1C1C8表示由1×100个多聚A-核苷酸、一个胞嘧啶终止碱基、1×100个多聚-A核苷酸、第二胞嘧啶终止碱基和8×100个多聚-A核苷酸组成的尾区106。
表5A
1C1C8 |
1C2C7 |
1C3C6 |
1C4C5 |
1C5C4 |
1C6C3 |
1C7C2 |
1C8C1 |
2C1C7 |
2C2C6 |
2C3C5 |
2C4C4 |
2C5C3 |
2C6C2 |
2C7C1 |
3C1C6 |
3C2C5 |
3C3C4 |
3C4C3 |
3C5C2 |
3C6C1 |
4C1C5 |
4C2C4 |
4C3C3 |
4C4C2 |
4C5C1 |
5C1C4 |
5C2C3 |
5C3C2 |
5C4C1 |
6C1C3 |
6C2C2 |
6C3C1 |
7C1C2 |
7C2C1 |
8C1G1 |
1C1G8 |
1C2G7 |
1C3G6 |
1C4G5 |
1C5G4 |
1C6G3 |
1C7G2 |
1C8G1 |
2C1G7 |
2C2G6 |
2C3G5 |
2C4G4 |
2C5G3 |
2C6G2 |
2C7G1 |
3C1G6 |
3C2G5 |
3C3G4 |
3C4G3 |
3C5G2 |
3C6G1 |
4C1G5 |
4C2G4 |
4C3G3 |
4C4G2 |
4C5G1 |
5C1G4 |
5C2G3 |
5C3G2 |
5C4G1 |
6C1G3 |
6C2G2 |
6C3G1 |
7C1G2 |
7C2G1 |
8C1G1 |
1C1T8 |
1C2T7 |
1C3T6 |
1C4T5 |
1C5T4 |
1C6T3 |
1C7T2 |
1C8T1 |
2C1T7 |
2C2T6 |
2C3T5 |
2C4T4 |
2C5T3 |
2C6T2 |
2C7T1 |
3C1T6 |
3C2T5 |
3C3T4 |
3C4T3 |
3C5T2 |
3C6T1 |
4C1T5 |
4C2T4 |
4C3T3 |
4C4T2 |
4C5T1 |
5C1T4 |
5C2T3 |
5C3T2 |
5C4T1 |
6C1T3 |
6C2T2 |
6C3T1 |
7C1T2 |
7C2T1 |
8C1T1 |
1G1C8 |
1G2C7 |
1G3C6 |
1G4C5 |
1G5C4 |
1G6C3 |
1G7C2 |
1G8C1 |
2G1C7 |
2G2C6 |
2G3C5 |
2G4C4 |
2G5C3 |
2G6C2 |
2G7C1 |
3G1C6 |
3G2C5 |
3G3C4 |
3G4C3 |
3G5C2 |
3G6C1 |
4G1C5 |
4G2C4 |
4G3C3 |
4G4C2 |
4G5C1 |
5G1C4 |
5G2C3 |
5G3C2 |
5G4C1 |
6G1C3 |
6G2C2 |
6G3C1 |
7G1C2 |
7G2C1 |
8G1G1 |
1G1G8 |
1G2G7 |
1G3G6 |
1G4G5 |
1G5G4 |
1G6G3 |
1G7G2 |
1G8G1 |
2G1G7 |
2G2G6 |
2G3G5 |
2G4G4 |
2G5G3 |
2G6G2 |
2G7G1 |
3G1G6 |
3G2G5 |
3G3G4 |
3G4G3 |
3G5G2 |
3G6G1 |
4G1G5 |
4G2G4 |
4G3G3 |
4G4G2 |
4G5G1 |
5G1G4 |
5G2G3 |
5G3G2 |
5G4G1 |
6G1G3 |
6G2G2 |
6G3G1 |
7G1G2 |
7G2G1 |
8G1G1 |
1G1T8 |
1G2T7 |
1G3T6 |
1G4T5 |
1G5T4 |
1G6T3 |
1G7T2 |
1G8T1 |
2G1T7 |
2G2T6 |
2G3T5 |
2G4T4 |
2G5T3 |
2G6T2 |
2G7T1 |
3G1T6 |
3G2T5 |
3G3T4 |
3G4T3 |
3G5T2 |
3G6T1 |
4G1T5 |
4G2T4 |
4G3T3 |
4G4T2 |
4G5T1 |
5G1T4 |
5G2T3 |
5G3T2 |
5G4T1 |
6G1T3 |
6G2T2 |
6G3T1 |
7G1T2 |
7G2T1 |
8G1T1 |
1T1C8 |
1T2C7 |
1T3C6 |
1T4C5 |
1T5C4 |
1T6C3 |
1T7C2 |
1T8C1 |
2T1C7 |
2T2C6 |
2T3C5 |
2T4C4 |
2T5C3 |
2T6C2 |
2T7C1 |
3T1C6 |
3T2C5 |
3T3C4 |
3T4C3 |
3T5C2 |
3T6C1 |
4T1C5 |
4T2C4 |
4T3C3 |
4T4C2 |
4T5C1 |
5T1C4 |
5T2C3 |
5T3C2 |
5T4C1 |
6T1C3 |
6T2C2 |
6T3C1 |
7T1C2 |
7T2C1 |
8T1G1 |
1T1G8 |
1T2G7 |
1T3G6 |
1T4G5 |
1T5G4 |
1T6G3 |
1T7G2 |
1T8G1 |
2T1G7 |
2T2G6 |
2T3G5 |
2T4G4 |
2T5G3 |
2T6G2 |
2T7G1 |
3T1G6 |
3T2G5 |
3T3G4 |
3T4G3 |
3T5G2 |
3T6G1 |
4T1G5 |
4T2G4 |
4T3G3 |
4T4G2 |
4T5G1 |
5T1G4 |
5T2G3 |
5T3G2 |
5T4G1 |
6T1G3 |
6T2G2 |
6T3G1 |
7T1G2 |
7T2G1 |
8T1G1 |
1T1T8 |
1T2T7 |
1T3T6 |
1T4T5 |
1T5T4 |
1T6T3 |
1T7T2 |
1T8T1 |
2T1T7 |
2T2T6 |
2T3T5 |
2T4T4 |
2T5T3 |
2T6T2 |
2T7T1 |
3T1T6 |
3T2T5 |
3T3T4 |
3T4T3 |
3T5T2 |
3T6T1 |
4T1T5 |
4T2T4 |
4T3T3 |
4T4T2 |
4T5T1 |
5T1T4 |
5T2T3 |
5T3T2 |
5T4T1 |
6T1T3 |
6T2T2 |
6T3T1 |
7T1T2 |
7T2T1 |
8T1T1 |
|
|
|
|
用于鉴别靶标分析物102的位数等于log2(N),使得N=不同靶标分析物102的数目。在这种情况中,log2(65,536)=16位用于鉴别。选择48位的错误校正以提供关于鉴别准确性的信息。因此,每轮运行的总位数是64(16+48=64)。选择在每个循环产生8位信息,使得log2(尾区数)=位数/循环,因此log2(256)=8。因此,这个方案需要结合和剥离的8个循环(64总位数除以每个循环8位=8个循环)。此外,每个循环将存在13个流序列,如以下表5B中所示。
表5B
流序列编号 |
流核苷酸 |
描述 |
序列#1 |
T |
拖尾序列长度ID,所有标签 |
序列#2 |
G |
除去终止2碱基‘C’ |
序列#3 |
T |
中间序列长度ID,‘C’ |
序列#4 |
C |
除去终止2碱基‘G’ |
序列#5 |
T |
中间序列长度ID,‘G’ |
序列#6 |
A |
除去终止2碱基‘T’ |
序列#7 |
T |
中间序列长度ID,‘T’ |
序列#8 |
G |
除去终止1碱基‘C’ |
序列#9 |
T |
前导序列长度ID,‘C’ |
序列#10 |
C |
除去终止1碱基‘G’ |
序列#11 |
T |
前导序列长度ID,‘G’ |
序列#12 |
A |
除去终止1碱基‘T’ |
序列#13 |
T |
前导序列长度ID,‘T’ |
在运行结束时,产生了用于靶标分析物102鉴别的16位信息,并产生了提供关于鉴别准确性的信息的48位错误校正。这些信息位鉴别和表征了尾区106及其相关的靶标分析物102。
在其他实施例中,甚至可以在一个芯片上分析更多的不同靶标分析物102,并且可以选择在每个循环产生各种不同位数。表6A说明了对于不同数量的同时靶标每运行需要的位数。表6B显示了从每运行的总位数确定的各种不同循环数。
表6A:可能同时靶标的不同数量
表6B:来自每运行的位的循环数
此外,基于使用的终止碱基的数目,可以改变每个循环获得的位数。表7A显示了在使用一个终止碱基时每个循环的位数,而表7B显示了在使用两个终止碱基时每个循环的位数。
表7A:每个循环的位,一个终止碱基
#水平 |
#终止 |
#终止类型 |
#探针 |
#每个循环的位 |
3 |
1 |
1 |
2 |
1.00 |
4 |
1 |
1 |
3 |
1.58 |
5 |
1 |
1 |
4 |
2.00 |
6 |
1 |
1 |
5 |
2.32 |
7 |
1 |
1 |
6 |
2.58 |
8 |
1 |
1 |
7 |
2.81 |
9 |
1 |
1 |
8 |
3.00 Ex#1 |
10 |
1 |
1 |
9 |
3.17 |
3 |
1 |
2 |
4 |
2.00 |
4 |
1 |
2 |
6 |
2.58 |
5 |
1 |
2 |
8 |
3.00 |
6 |
1 |
2 |
10 |
3.32 |
7 |
1 |
2 |
12 |
3.58 |
8 |
1 |
2 |
14 |
3.81 |
9 |
1 |
2 |
16 |
4.00 |
10 |
1 |
2 |
18 |
4.17 |
3 |
1 |
3 |
6 |
2.58 |
4 |
1 |
3 |
9 |
3.17 |
5 |
1 |
3 |
12 |
3.58 |
6 |
1 |
3 |
15 |
3.91 |
7 |
1 |
3 |
18 |
4.17 Ex#2 |
8 |
1 |
3 |
21 |
4.39 |
9 |
1 |
3 |
24 |
4.58 |
10 |
1 |
3 |
27 |
4.75 |
表7B:每个循环的位,两个终止碱基
#水平 |
#终止 |
#终止类型 |
#探针 |
#每个循环的位 |
3 |
2 |
1 |
1 |
0.00 |
4 |
2 |
1 |
3 |
1.58 |
5 |
2 |
1 |
6 |
2.58 |
6 |
2 |
1 |
10 |
3.32 |
7 |
2 |
1 |
15 |
3.91 |
8 |
2 |
1 |
21 |
4.39 |
9 |
2 |
1 |
28 |
4.81 |
10 |
2 |
1 |
36 |
5.17 |
3 |
2 |
2 |
4 |
2.00 |
4 |
2 |
2 |
12 |
3.58 |
5 |
2 |
2 |
24 |
4.58 |
6 |
2 |
2 |
40 |
5.32 |
7 |
2 |
2 |
60 |
5.91 |
8 |
2 |
2 |
84 |
6.39 Ex#4 |
9 |
2 |
2 |
112 |
6.81 |
10 |
2 |
2 |
144 |
7.17 |
3 |
2 |
3 |
9 |
3.17 |
4 |
2 |
3 |
27 |
4.75 Ex#3 |
5 |
2 |
3 |
54 |
5.75 |
6 |
2 |
3 |
90 |
6.49 |
7 |
2 |
3 |
135 |
7.08 |
8 |
2 |
3 |
189 |
7.56 |
9 |
2 |
3 |
252 |
7.98 |
10 |
2 |
3 |
324 |
8.34 Ex#5 |
总结
为了说明的目的,已经呈现了之前的本发明实施方案的描述;其不是穷尽的或用来将本发明限于所公开的精确形式。相关领域的技术人员根据以上的公开内容可以认识到许多改变和变化是可能的。
本说明书的一些部分就信息操作的算法和符号表示描述本发明的实施方案。数据处理领域的技术人员通常用这些算法描述和表示来将其工作的实质有效地传达给本领域的其他技术人员。将理解这些操作尽管通过功能、计算或逻辑的方式描述,但其通过计算机程序或等价电路、微码等来执行。此外,有时还证明方便的是将这些操作的安排称为模块而没有丧失概括性。所述的操作及其模块可以软件、固件、硬件或其任意组合实施。
可以用一个或多个硬件或软件模块单独地或与其他设备结合来进行或实施本文中所述的任何步骤、操作或过程。在一个实施方案中,用计算机程序产品来运行软件模块,所述计算机程序产品包括含有计算机程序代码的计算机可读介质,所述计算机程序代码可以通过计算机处理器来执行用于进行任一个或全部的所述步骤、操作或过程。
本发明的实施方案还可以涉及用于进行本文中的操作的装置。该装置可以针对所需的目的特意构建,和/或其可以包括通过计算机中存储的计算机程序选择性地激活或重新配置的通用计算设备。这样的计算机程序可以存储在非临时性的、实体计算机可读存储介质中,或适用于存储电子指令的任何类型的介质中,其可以与计算机系统总线耦合。此外,说明书中涉及的任何计算机系统可以包括单个处理器或可以是为了提高的计算能力使用多处理器设计的构造。
本发明的实施方案还可以涉及通过本文中所述的计算方法产生的产品。这样的产品可以包括从计算过程获得的信息,其中所述信息存储在非临时性的、实体计算机可读存储介质中,并且可以包括本文中所述的计算机程序产品或其他数据组合的任一个实施方案。
最后,原则上为了可读性和指导目的来选择说明书中使用的语言,并且没有选择来描绘或界定本发明的主题。因此意图的是本发明的范围不受这一详述的限制,而是受基于其申请授权的任何权利要求的限制。因此,本发明实施方案的公开内容旨在是以下权利要求中给出的本发明范围的说明而不是限制。
本发明说明书正文中引用的所有参考文献、授权的专利和专利申请将其全部按引用并入本文中用于所有目的。