CN115698331A - 使用检测器选择性地表征多核苷酸的方法 - Google Patents

使用检测器选择性地表征多核苷酸的方法 Download PDF

Info

Publication number
CN115698331A
CN115698331A CN202180042330.5A CN202180042330A CN115698331A CN 115698331 A CN115698331 A CN 115698331A CN 202180042330 A CN202180042330 A CN 202180042330A CN 115698331 A CN115698331 A CN 115698331A
Authority
CN
China
Prior art keywords
polynucleotide
strand
binding protein
nanopore
adaptor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180042330.5A
Other languages
English (en)
Inventor
瑞贝卡·维多利亚·鲍恩
克莱夫·加文·布朗
马克·约翰·布鲁斯
丹尼尔·瑞安·加拉尔德
詹姆斯·爱德华·格拉哈姆
安德鲁·约翰·赫伦
艾蒂安·雷蒙多
詹姆斯·怀特
克里斯托弗·彼得·尤德
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oxford Nanopore Technology Public Co ltd
Original Assignee
Oxford Nanopore Technology Public Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from GBGB2009334.0A external-priority patent/GB202009334D0/en
Priority claimed from GBGB2107193.1A external-priority patent/GB202107193D0/en
Application filed by Oxford Nanopore Technology Public Co ltd filed Critical Oxford Nanopore Technology Public Co ltd
Publication of CN115698331A publication Critical patent/CN115698331A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing

Abstract

本发明提供了一种使用纳米孔基于多核苷酸通过或穿过所述纳米孔的易位来选择性地表征具有如长度等期望的性质的多核苷酸的方法。还提供了用于此类方法中的试剂盒和系统。本发明的方法特别适于对如DNA等多核苷酸进行测序。

Description

使用检测器选择性地表征多核苷酸的方法
技术领域
本发明涉及当多核苷酸相对于如纳米孔等检测器移动时选择性地表征具有如长度等期望的性质的多核苷酸的方法以及使用这些新颖方法对多核苷酸进行测序的方法。
背景技术
纳米孔感测是一种依赖于对分析物分子与离子传导通道之间的个别结合或相互作用事件的观察的分析物检测和表征方法。可以通过在电绝缘膜中放置纳米尺寸的孔和测量在存在分析物分子的情况下通过或穿过如电压驱动的离子电流等孔的信号来产生纳米孔传感器。通常,分析物的存在改变测量的信号并且信号的性质是分析物的特性。例如,测量的信号可以是通过孔测量的电压驱动的离子电流,并且在存在如多核苷酸等分析物的情况下,当分析物与孔相互作用时,可以测量电流信号。例如,当分析物是多核苷酸时,可以根据电流阻断的持续时间和程度以及在多核苷酸与孔的相互作用期间电流水平的变化来确定关于多核苷酸性质的信息。
多核苷酸是用于以这种方式进行感测的重要分析物。多核苷酸分析物的纳米孔感测可以揭示所感测的分析物的身份并对其执行单分子计数,但也可以提供有关其组成的信息,如其核苷酸序列,以及如碱基修饰、氧化、还原、脱羧、脱氨基等特性的存在。纳米孔感测可能允许快速且廉价的多核苷酸测序,从而提供数万至数十万个(或甚至更多个)碱基长度的多核苷酸的单分子序列读段。
最大化纳米孔感测的效率很重要,特别是在表征如极长的多核苷酸等分析物时,例如数万至数十万个(或更多个)碱基长度的多核苷酸。特别期望避免对如杂质等不需要的分析物进行非生产性表征。此类不期望的非生产性表征不必要地消耗试剂,因此增加了成本,并且增加了获得期望的分析物的表征信息所需的时间,因为在非生产性表征中发生的采集时间被浪费了。因此需要选择性地表征样品中的期望的多核苷酸,从而可以减轻这些问题。
为了解决这个问题,已知在如多核苷酸等聚合物相对于纳米孔移动时对其进行测量。在已知的方法中,允许要表征的聚合物部分易位通过纳米孔并将其序列(“测试序列”)的数据特性与参考序列的参考数据特性进行比较。响应于测试序列与参考序列之间的相似性测量,可以将聚合物从纳米孔中拒绝。因此,如果测试序列与参考序列之间的相似性太低,表明分析物不是预期的分析物(例如是杂质),那么可以将聚合物从纳米孔中拒绝。这确保了在不必要地表征不需要的分析物时不会消耗试剂,并且完全表征分析物所需的时间不会浪费在非生产性表征中。此类方法描述于WO 2016/059427中。
虽然此类方法在表征聚合物的效率方面取得了一些改进,但仍然存在技术挑战。一个问题是,要决定是否表征给定的分析物,需要定义适当的参考信号。对于一些应用,没有此类参考信号是容易获得的。第二问题是,在此类方法中,对相似性的评估以及因此是否拒绝聚合物的决定基于聚合物通过纳米孔的部分易位。在完全表征完成之前,可能无法鉴定在允许易位通过孔的聚合物部分之外的测试序列与参考序列之间的差异。这可能意味着如具有正确初始测试序列但与预期的分析物显著不同的截短聚合物等不需要的分析物可能会被非生产性地表征,从而浪费试剂和时间。第三问题是,为了将给定的分析物的测试序列与参考序列进行比较,有必要对测试序列进行详细分析,以便鉴定其序列。准确确定多核苷酸的序列可能会带来重大的技术(例如计算)负担,尤其是当要评估的聚合物部分必须相对较长时(例如当参考序列较长时),因此如果是否拒绝聚合物的决定不需要确定聚合物的序列将是期望的。
本文所提供的方法旨在解决部分或全部这些问题。
发明内容
本公开涉及一种表征样品中的多核苷酸的方法。所述方法包括使如跨膜纳米孔、零模式波导、场效应晶体管、AFM尖端或纳米管等检测器与多核苷酸接触。允许所述多核苷酸的第一部分在如电势等所施加的力或在允许所述多核苷酸相对于所述检测器移动的酶所施加的力下相对于所述检测器自由移动(例如,其易位通过纳米孔),例如以接近电压驱动的易位速度(本文进一步讨论的)。评估所述多核苷酸的所述第一部分的一个或多个性质。本文讨论了各种合适的性质,包含所述多核苷酸的所述第一部分的大致长度。在所述多核苷酸具有一个或多个期望的性质的情况下,所述方法包括控制所述多核苷酸的第二部分相对于所述检测器的移动,并且当所述多核苷酸相对于所述检测器移动时进行测量,以便确定所述多核苷酸的一个或多个特性,由此表征所述多核苷酸。在所述多核苷酸不具有一个或多个期望的特性的情况下,所述方法包括拒绝所述多核苷酸。在所述多核苷酸的所述第一部分不具有一个或多个期望的特性的情况下,所述方法通常用来自所述样品的另外的多核苷酸重复,直到鉴定出其中第一部分具有一个或多个期望的特性的多核苷酸为止。然后可以如上所述表征确实具有一个或多个期望的特性的多核苷酸。
因此,本文提供了一种表征样品中的多核苷酸的方法,所述方法包括:
(i)使检测器与多核苷酸接触;
(ii a)当所述多核苷酸的第一部分在所施加的力下相对于所述检测器自由移动时进行测量;
(ii b)评估所述多核苷酸的所述第一部分的一个或多个性质;以及
(iii)(a)在所述多核苷酸的所述第一部分具有一个或多个期望的性质的情况下,控制所述多核苷酸的第二部分相对于所述检测器的移动,并且当所述多核苷酸的所述第二部分相对于所述检测器移动时进行测量以确定所述多核苷酸的一个或多个特性,由此表征所述多核苷酸;或(b)在所述多核苷酸的所述第一部分不具有一个或多个期望的性质的情况下,拒绝所述多核苷酸。
在一些实施例中,在所述多核苷酸的所述第一部分不具有一个或多个期望的性质的情况下,步骤(iii)(b)包括将所述多核苷酸从所述检测器中排出。
在一些实施例中,当所述多核苷酸的所述第一部分不具有一个或多个期望的性质时,步骤(iii)包括用来自所述样品的另外的多核苷酸重复步骤(i)、(ii a)和(ii b),直到鉴定出其中第一部分具有一个或多个期望的性质的多核苷酸为止。
在一些实施例中,所述一个或多个期望的性质选自所述多核苷酸的所述第一部分的大致长度、所述多核苷酸的所述第一部分的结构以及所述多核苷酸的所述第一部分的组成。在一些实施例中,评估所述多核苷酸的所述一个或多个性质包括确定所述多核苷酸的所述第一部分的大致长度。在一些实施例中,确定所述多核苷酸的所述第一部分的大致长度包括确定所述多核苷酸的所述第一部分相对于所述检测器自由移动所花费的时间。
在一些实施例中,所述检测器是纳米孔,例如跨膜纳米孔。在一些实施例中,步骤(ii a)包括允许所述多核苷酸的所述第一部分在施加的电势下自由易位通过或穿过所述纳米孔。在一些实施例中,确定所述多核苷酸的所述第一部分的大致长度包括确定所述多核苷酸的所述第一部分易位通过或穿过所述纳米孔所花费的时间。在一些实施例中,步骤(iii)(a)包括控制所述多核苷酸的第二部分通过或穿过所述纳米孔的移动并且当所述多核苷酸的所述第二部分相对于所述纳米孔移动时进行测量以确定所述多核苷酸的一个或多个特性。
在一些实施例中,在步骤(iii)(a)中,使用多核苷酸结合蛋白控制所述多核苷酸的所述第二部分的所述移动。
在一些实施例中,所述多核苷酸是双链多核苷酸,所述双链多核苷酸包括通过发夹或发夹衔接子与第二链连接的第一链。在一些实施例中,在步骤(i)之前,多核苷酸结合蛋白与所述发夹或所述发夹衔接子结合和/或停靠(stall)在所述发夹或所述发夹衔接子处。
在一些实施例中,确定所述多核苷酸的一个或多个特性包括确定所述多核苷酸的序列。
在一些实施例中,所提供的方法包括:
(i)使检测器与具有多核苷酸结合蛋白的多核苷酸接触,所述多核苷酸结合蛋白能够控制停靠在其上的所述多核苷酸的移动;
(ii a)确定所述多核苷酸的第一部分在所施加的力下相对于所述检测器自由移动所花费的时间;以及
(ii b)确定所述多核苷酸的所述第一部分的大致长度。
在一些实施例中,在步骤(i)之前,衔接子与所述多核苷酸的一个或两个末端连接。在一些实施例中,在步骤(i)之前,能够控制所述多核苷酸的所述移动的多核苷酸结合蛋白与所述多核苷酸或与和所述多核苷酸连接的衔接子结合。
在一些实施例中,所述多核苷酸在一个末端处包括单链前导序列并且在所述多核苷酸的同一链上的另一个末端处具有与其结合的或与和所述多核苷酸的同一链的另一个末端连接的衔接子结合的多核苷酸结合蛋白。在一些实施例中,所述多核苷酸结合蛋白与所述衔接子结合。在一些实施例中,所述多核苷酸结合蛋白停靠在所述多核苷酸或所述衔接子上。
在一些实施例中,在步骤(ii a)中,所述多核苷酸的所述第一部分相对于所述检测器在相对于所施加的力的第一方向上自由移动,并且在步骤(iii)中,所述多核苷酸结合蛋白控制所述多核苷酸的所述第二部分相对于所述检测器在相对于所施加的力的第二方向上的移动。
在一些实施例中,步骤(i)包括使所述检测器与所述多核苷酸的第一末端或与和所述多核苷酸的所述第一末端连接的衔接子接触,并且所述多核苷酸结合蛋白与所述多核苷酸的第二末端或与和所述多核苷酸的所述第二末端连接的衔接子结合。在一些实施例中,步骤(i)包括使所述检测器与所述多核苷酸的所述第一末端处的前导序列接触,并且所述多核苷酸结合蛋白停靠在所述多核苷酸的第二末端处或停靠在与所述多核苷酸的所述第二末端连接的衔接子上;并且所述多核苷酸的所述第一部分是位于所述前导序列与所述多核苷酸结合蛋白之间的部分,并且所述多核苷酸的所述第二部分与所述多核苷酸的所述第一部分相同;并且所述多核苷酸结合蛋白定向在所述多核苷酸上,使得所述多核苷酸结合蛋白控制所述多核苷酸的所述第二部分相对于所述检测器抵抗所施加的力的移动。
在一些实施例中,
-所述多核苷酸是单链的;
-所述多核苷酸包括前导序列,其中所述前导序列定位于所述多核苷酸的所述第一末端处或包括在与所述多核苷酸的所述第一末端连接的衔接子中;并且
-所述多核苷酸结合蛋白停靠在所述多核苷酸的第二末端处或停靠在所述多核苷酸的所述第二末端处的衔接子上。
在一些实施例中,所述多核苷酸是双链的。在一些实施例中,所述多核苷酸是双链的并且在所述双链多核苷酸的第一链的一个末端处包括单链前导序列并且在所述双链多核苷酸的所述第二链的一个末端处具有与其结合的多核苷酸结合蛋白。在一些实施例中:
-所述多核苷酸是双链的并且包括第一链和第二链;
-所述多核苷酸包括定位于所述多核苷酸的第一末端处的前导序列,其中所述前导序列包括在所述第一链中或包括在与所述第一链连接的衔接子中;并且
-所述多核苷酸结合蛋白停靠在所述多核苷酸的第二末端处或停靠在所述多核苷酸的所述第二末端处的衔接子上。
在一些实施例中,所述多核苷酸结合蛋白停靠在所述双链多核苷酸的所述第一链的所述第二末端处或停靠在所述双链多核苷酸的所述第一链的所述第二末端处的衔接子上。
在一些实施例中,所述第一链和所述第二链通过所述第一链的所述第二末端处的发夹衔接子连接在一起。在一些实施例中,所述多核苷酸结合蛋白停靠在所述发夹衔接子处。在一些实施例中,发夹衔接子与所述双链多核苷酸的一个末端连接,并且包括单链前导序列的衔接子与所述双链多核苷酸的另一个末端连接,并且其中能够控制多核苷酸的移动的多核苷酸结合蛋白与所述发夹衔接子结合。在一些实施例中,a)所述双链多核苷酸的所述第一部分是所述第一链的位于所述前导序列与所述多核苷酸结合蛋白之间的部分,并且所述多核苷酸的所述第二部分与所述多核苷酸的所述第一部分相同;并且b)所述多核苷酸结合蛋白定向在所述多核苷酸上,使得所述多核苷酸结合蛋白控制所述多核苷酸的所述第二部分相对于所述检测器抵抗所施加的力的移动。
在一些实施例中,所述多核苷酸是双链的并且包括第一链和第二链;所述多核苷酸包括定位于所述第一链的第一末端处的前导序列或包括在与所述第一链的所述第一末端连接的衔接子中;所述第一链和所述第二链通过发夹衔接子连接在一起,所述发夹衔接子与(i)所述第一链的所述第二末端和(ii)所述第二链的第一末端连接;并且所述多核苷酸结合蛋白停靠在所述第二链的第二末端处或停靠在所述多核苷酸的所述第二链的所述第二末端处的衔接子上。
在一些实施例中,a)所述多核苷酸的所述第一部分包括:(i)所述第一链的位于所述前导序列与所述发夹衔接子之间的部分;(ii)所述发夹衔接子;以及(iii)所述第二链的位于所述发夹衔接子与所述多核苷酸结合蛋白之间的部分;并且所述多核苷酸的所述第二部分与所述多核苷酸的所述第一部分相同;并且b)所述多核苷酸结合蛋白定向在所述多核苷酸上,使得所述多核苷酸结合蛋白控制所述多核苷酸的所述第二部分抵抗所施加的力向回通过或穿过所述纳米孔的移动。
在一些实施例中,所述单链前导序列与所述检测器接触,所述多核苷酸的所述第一部分是所述双链多核苷酸的第一链,所述多核苷酸的所述第二部分是所述双链多核苷酸的所述第二链,并且所述多核苷酸结合蛋白控制所述多核苷酸的所述第二部分相对于所述检测器的移动。
在一些实施例中,所述多核苷酸包括与标签序列互补的部分,其中优选地所述标签序列与所述检测器连接。在一些实施例中,所述多核苷酸包括具有与其杂交的寡核苷酸的部分,并且其中所述寡核苷酸包括:(a)用于与所述多核苷酸杂交的杂交部分;以及(b)(i)与标签序列互补的部分或(ii)能够与标签结合的亲和分子。在一些实施例中,所述多核苷酸是双链的,并且所述与标签序列互补的部分是所述多核苷酸的所述第一链的一部分和/或所述具有与其杂交的寡核苷酸的部分是所述多核苷酸的所述第一链的一部分。在一些实施例中,当所述第一链相对于所述检测器移动时,所述第二链与所述标签序列杂交。在一些实施例中,所述第一链相对于所述检测器的移动被暂时暂停以允许所述第二链与所述标签序列杂交。
在一些实施例中,所述第二链包括前导序列,所述前导序列与所述第一链杂交,使得所述前导序列仅在所述第一链移动通过所述纳米孔之后被所述纳米孔捕获。
在一些实施例中,在步骤(i)之前,多核苷酸结合蛋白停靠在所述多核苷酸或与其结合的衔接子上;并且步骤(iii)进一步包括使所述多核苷酸结合蛋白解除停靠(destall)的步骤。在一些实施例中,使所述多核苷酸结合蛋白解除停靠包括向所述多核苷酸施加停靠解除力(destalling force),其中所述停靠解除力的幅度低于(a)在步骤(ii a)中施加的力和/或(b)读取力的幅度和/或与所述力的方向相反,其中所述读取力是在所述多核苷酸结合蛋白控制所述多核苷酸的第二部分相对于所述检测器的移动并且进行测量以确定所述多核苷酸的一个或多个特性的同时施加的力。在一些实施例中,使所述多核苷酸结合蛋白解除停靠包括在所述停靠解除力与所述读取力之间逐步改变(step)所施加的力一次或多次。
在一些实施例中,所述多核苷酸包括用于防止多核苷酸结合蛋白与所述多核苷酸脱离接合的阻断部分。在一些实施例中,a)步骤(i)包括使所述多核苷酸的所述第一末端处的前导序列与所述检测器接触,并且多核苷酸结合蛋白停靠在所述多核苷酸的第二末端处或停靠在与所述多核苷酸的所述第二末端连接的衔接子上;并且b)所述阻断部分定位于所述多核苷酸结合蛋白与所述多核苷酸的所述第二末端之间,由此防止所述多核苷酸结合蛋白在所述多核苷酸的所述第二末端处与所述多核苷酸脱离接合。
在一些实施例中,所述多核苷酸的所述第一部分的长度为至少1000kB。
在一些实施例中,在步骤(ii a)中,所述多核苷酸相对于所述检测器的自由移动由超快速多核苷酸处理酶控制。
本文还提供了一种构建体,所述构建体包括双链多核苷酸,所述双链多核苷酸包括通过发夹衔接子连接在一起的第一链和第二链,其中能够控制所述多核苷酸相对于纳米孔的移动的多核苷酸结合蛋白停靠在所述发夹衔接子处。
在上文和本文所描述的方法和构建体的一些实施例中,所述多核苷酸结合蛋白,优选地解旋酶停靠在包括一个或多个停靠单元的停靠位点处,所述一个或多个停靠单元独立地选自:
-多肽二级结构,优选地G-四链体(TBA);
-核酸类似物,所述核酸类似物优选地选自肽核酸(PNA)、甘油核酸(GNA)、苏糖核酸(TNA)、锁核酸(LNA)、桥接核酸(BNA)和无碱基核苷酸;
-间隔子单元,所述间隔子单元选自硝基吲哚、肌苷、吖啶、2-氨基嘌呤、2-6-二氨基嘌呤、5-溴-脱氧尿苷、反式胸苷(反式dT)、反式双脱氧胸苷(ddT)、双脱氧胞苷(ddC)、5-甲基胞苷、5-羟甲基胞苷、2'-O-甲基RNA碱基、异脱氧胞苷(异dC)、异脱氧鸟苷(异dG)、C3(OC3H6OPO3)基团、光可切割(PC)[OC3H6-C(O)NHCH2-C6H3NO2-CH(CH3)OPO3]基团、己二醇基团、间隔子9(iSp9)[(OCH2CH2)3OPO3]基团、多个间隔子18(iSp18)[(OCH2CH2)6OPO3]基团;以及硫醇连接;以及
-荧光团、如traptavidin、链霉亲和素和中性亲和素等亲和素和/或生物素、胆固醇、亚甲蓝、二硝基苯酚(DNP)、地高辛和/或抗地高辛以及二苄基环辛炔基团。
本公开还涉及一种选择性地表征具有期望的长度的多核苷酸的方法。所述方法包括使如跨膜纳米孔等检测器与所述多核苷酸的样品接触。允许所述样品中的多核苷酸的第一部分在如电势等所施加的力或在允许多核苷酸通过所述孔易位的酶所施加的力下自由易位通过或穿过所述检测器(例如所述纳米孔),例如以接近电压驱动的易位速度(本文进一步讨论的)。确定所述样品中的多核苷酸的第一部分易位通过或穿过所述检测器(例如纳米孔)的时间,以便评估所述多核苷酸的大致长度。在所述多核苷酸不具有期望的长度并且因此不正确的情况下,将所述多核苷酸从所述检测器(例如所述纳米孔)中排出。然后可以在不会在不正确的多核苷酸的非生产性表征中浪费时间和试剂的情况下评估所述样品中的第二多核苷酸。该过程可以根据需要重复,直到评估所述样品中的多核苷酸并发现其具有期望的长度为止。一旦鉴定出具有期望的长度的多核苷酸,那么控制所述多核苷酸的第二部分穿过或穿过所述检测器(例如所述纳米孔)的移动并且当所述多核苷酸的所述第二部分相对于所述孔移动时对其进行测量,以便确定所述多核苷酸的一个或多个特性。通过仅在鉴定出具有期望的长度的多核苷酸后测量所述多核苷酸的特性,所述方法提供了具有期望的长度的多核苷酸的选择性表征。
虽然本公开提供了作为示例性检测器的纳米孔,但本文所提供的方法适用于检测器,所述检测器包含(i)零模波导,(ii)场效应晶体管,任选地纳米线场效应晶体管;(iii)AFM尖端;(iv)纳米管,任选地碳纳米管以及(v)纳米孔。所公开的方法特别适于其中使多核苷酸移动通过检测器或通过含有检测器的结构,例如检测器芯片中的孔的方法。
因此,本文提供了一种选择性地表征具有期望的长度的多核苷酸的方法,所述方法包括:
(i)使检测器或包括检测器的结构与所述多核苷酸的样品接触;
(ii)确定所述样品中的多核苷酸的第一部分在所施加的力下自由易位通过或穿过所述检测器或结构所花费的时间,以便评估所述多核苷酸的大致长度;
(iii)在所述多核苷酸不具有期望的长度的情况下,将所述多核苷酸从所述检测器或结构中排出并重复步骤(ii)和(iii);或者在所述多核苷酸具有期望的长度的情况下,控制所述多核苷酸的第二部分通过或穿过所述检测器或结构的移动并且当所述多核苷酸的所述第二部分相对于所述检测器或结构移动时进行测量以确定所述多核苷酸的一个或多个特性,
由此选择性地表征具有期望的长度的多核苷酸。
本文还提供了一种选择性地表征具有期望的长度的多核苷酸的方法,所述方法包括:
(i)使跨膜纳米孔与多核苷酸的样品接触;
(ii)确定所述样品中的多核苷酸的第一部分在所施加的力下自由易位通过或穿过所述纳米孔所花费的时间,以便评估所述多核苷酸的大致长度;
(iii)在所述多核苷酸不具有期望的长度的情况下,将所述多核苷酸从所述纳米孔中排出并重复步骤(ii)和(iii);或者在所述多核苷酸具有期望的长度的情况下,控制所述多核苷酸的第二部分通过或穿过所述纳米孔的移动并且当所述多核苷酸的所述第二部分相对于所述纳米孔移动时进行测量以确定所述多核苷酸的一个或多个特性,
由此选择性地表征具有期望的长度的多核苷酸。
还提供了一种选择性地对具有期望的长度的多核苷酸进行测序的方法,所述方法包括:
(i)使跨膜纳米孔与多核苷酸的样品接触;
(ii)确定所述样品中的多核苷酸的第一部分在施加的电势下自由易位通过所述纳米孔所花费的时间,以便评估所述多核苷酸的大致长度;
(iii)在所述多核苷酸不具有期望的长度的情况下,将所述多核苷酸从所述纳米孔中排出并重复步骤(ii)和(iii);或者在所述多核苷酸具有期望的长度的情况下,控制所述多核苷酸的第二部分通过所述纳米孔的移动并且当所述多核苷酸的所述第二部分移动通过所述纳米孔时进行测量以确定所述多核苷酸的所述序列,
由此选择性地对具有期望的长度的多核苷酸进行测序。
在一些实施例中,在步骤(i)之前,衔接子与所述样品中的所述多核苷酸的一个或两个末端连接。
在一些实施例中,能够控制多核苷酸的移动的多核苷酸结合蛋白与所述衔接子结合,所述衔接子与所述多核苷酸的至少一个末端连接。
在一些实施例中,所述样品中的所述多核苷酸是双链的。
在一些实施例中,能够控制多核苷酸的移动的多核苷酸结合蛋白与所述双链多核苷酸的至少一条链的一个末端结合。
在一些实施例中,发夹衔接子与所述双链多核苷酸的一个末端连接,并且包括单链前导序列的衔接子与所述双链多核苷酸的另一个末端连接,并且其中能够控制多核苷酸的移动的多核苷酸结合蛋白与所述发夹衔接子结合。在一些实施例中,在步骤(ii)中,所述单链前导序列在所施加的电势下被所述跨膜纳米孔捕获,所述多核苷酸的所述第一部分是所述双链多核苷酸的第一链,所述多核苷酸的所述第二部分是所述双链多核苷酸的所述第二链,并且所述多核苷酸结合蛋白控制所述多核苷酸的所述第二部分通过所述跨膜纳米孔的移动。
在一些实施例中,所述多核苷酸在一个末端处包括单链前导序列并且在所述多核苷酸的同一链上的另一个末端处具有与其结合的多核苷酸结合蛋白。在一些实施例中,所述单链前导序列在所施加的电势下被所述跨膜纳米孔捕获,所述多核苷酸的所述第一部分是位于所述前导多核苷酸与所述多核苷酸结合蛋白之间的部分,所述多核苷酸结合蛋白定向在所述多核苷酸上,使得所述多核苷酸结合蛋白控制所述多核苷酸的所述第二部分抵抗所施加的电势向回通过所述纳米孔的移动,并且所述多核苷酸的所述第二部分与所述多核苷酸的所述第一部分相同。
在一些实施例中,所述多核苷酸是双链的并且在所述双链多核苷酸的第一链的一个末端处包括单链前导序列并且在所述双链多核苷酸的所述第二链的一个末端处具有与其结合的多核苷酸结合蛋白。
在一些实施例中,所述双链多核苷酸的所述第二链的一部分包括与标签序列互补的序列,或者其中寡核苷酸与所述第二链杂交,其中所述寡核苷酸包括:(a)与所述第二链的一部分互补的部分;以及(b)(i)与标签序列互补的部分或(ii)能够与标签结合的亲和分子。
在一些实施例中,所述多核苷酸的所述第一部分是所述第一链的至少一部分并且所述多核苷酸的所述第二部分是所述第二链的至少一部分。在一些实施例中,所述寡核苷酸或所述第二链与标签序列结合,所述标签序列与所述纳米孔连接。在一些实施例中,当所述第一链移动通过所述纳米孔时,所述第二链与所述标签序列杂交。在一些实施例中,所述第一链通过所述跨膜纳米孔的移动被暂时暂停以允许所述第二链与所述标签序列杂交。在一些实施例中,所述第二链包括前导序列,所述前导序列与所述第一链杂交,使得所述前导序列仅在所述第一链移动通过所述纳米孔之后被所述纳米孔捕获。
附图说明
图1.本文所提供的方法的实施例的示意图。(i)将不对称双链多核苷酸添加到纳米孔系统中。(ii)包括在与双链多核苷酸连接的衔接子中的前导序列被纳米孔捕获。用停靠化学物质停靠的多核苷酸结合蛋白定位于多核苷酸的自由易位第一链的远端处。多核苷酸的第一链自由易位通过纳米孔,直到所述第一链到达多核苷酸结合蛋白为止。计算第一链自由易位所花费的时间。基于自由易位的多核苷酸的持续时间来决定是否拒绝多核苷酸。(iii)如果决定接受多核苷酸,那么允许多核苷酸结合蛋白通过纳米孔拉回多核苷酸,控制多核苷酸的移动。如果决定拒绝多核苷酸,那么将所述多核苷酸从纳米孔中排出,例如通过反转电压电势。实例1中讨论了该实施例的实例。
图2.本文所提供的方法的实施例的示意图。(i)将双链多核苷酸添加到纳米孔系统中,所述双链多核苷酸的两条链通过包括多核苷酸结合蛋白的发夹衔接子连接。(ii)包括在与双链多核苷酸的第一链连接的衔接子中的前导序列被纳米孔捕获。多核苷酸的第一链自由易位通过纳米孔,直到所述第一链到达多核苷酸结合蛋白为止。纳米孔将双链体分离。计算第一链自由易位所花费的时间。基于自由易位的多核苷酸的持续时间来决定是否拒绝多核苷酸。(iii)如果决定接受多核苷酸,那么允许多核苷酸结合蛋白控制第二链相对于纳米孔的移动。如果决定拒绝多核苷酸,那么将所述多核苷酸从纳米孔中排出,例如通过反转电压电势。
图3.本文所提供的方法的实施例的示意图。(i)将不对称双链多核苷酸添加到纳米孔系统中。(ii)包括在与双链多核苷酸的第一链连接的衔接子中的前导序列被纳米孔捕获。多核苷酸的第一链自由易位通过纳米孔。纳米孔将双链体分离。(iii)随着纳米孔将双链体分离,在双链多核苷酸的第二链中揭示结合位点(例如多核苷酸序列)。该结合位点与标签(例如互补寡核苷酸)连接,所述标签与纳米孔连接。例如通过测量从开始信号(如由双链多核苷酸引起的开孔电流水平的堵塞引起)到停止信号(如返回到开孔电流水平,或捕获与多核苷酸的第二链连接的衔接子)的持续时间来确定第一链完全易位通过纳米孔所花费的时间。(iv)与多核苷酸的第二链连接的衔接子被纳米孔捕获。基于自由易位第一链的持续时间来决定是否拒绝多核苷酸。如果决定保持多核苷酸,那么多核苷酸结合蛋白控制第二链的移动。如果决定拒绝第二链,那么将所述第二链从纳米孔中排出。该实施例在本文中(包含在实例2中)进一步描述。
图4.另外的实施例的示意图。(A)示出了图3的实施例的变体。暂停部分(如多核苷酸结合蛋白、G-四链体(TBA)、BNA/LNA部分、如C3或Sp18等间隔子、或如与链霉亲和素或单价链霉亲和素结合的生物素/脱硫生物素等阻断部分)定位于自由易位的多核苷酸的第一部分的远端处,当多核苷酸的第一部分易位通过或穿过纳米孔时,产生暂停和可检测信号。(B)(A)的变体。双链多核苷酸的第二链上的测序衔接子前导仅在第一链完全易位通过纳米孔之后暴露。这促进了Y衔接子在第一链上的捕获。(C)(B)的变体,其中测序衔接子含有两个多核苷酸结合蛋白的结合位点。
图5.使用图4(A)的设置的本文所提供的方法的实施例的示意图。(i)将不对称双链多核苷酸添加到纳米孔系统中。(ii)包括在与不对称双链多核苷酸的第一链连接的衔接子中的前导序列被纳米孔捕获。多核苷酸的第一链自由易位通过纳米孔。纳米孔将双链体分离。暂停部分,如多核苷酸结合蛋白、G-四链体(TBA)、BNA/LNA停靠、如C3或Sp18等间隔子、或如与链霉亲和素或单价链霉亲和素结合的生物素/脱硫生物素等阻断部分定位于自由易位的多核苷酸的远端处。(iii)当纳米孔将双链体分离时,暂停部分产生暂停和信号。在双链多核苷酸的第二链上揭示结合位点(例如多核苷酸序列)。该结合位点与标签(例如互补寡核苷酸)连接,所述标签与纳米孔连接,而第一链被暂停。例如通过测量从开始信号(如由双链多核苷酸引起的开孔电流水平的堵塞引起)到停止信号(如返回到开孔电流水平,或捕获与多核苷酸的第二链连接的衔接子)的持续时间来确定第一链完全易位通过纳米孔所花费的时间。(iv)与多核苷酸的第二链连接的衔接子被纳米孔捕获。基于自由易位第一链的持续时间来决定是否拒绝多核苷酸。如果决定保持多核苷酸,那么多核苷酸结合蛋白控制第二链的移动。如果决定拒绝第二链,那么将所述第二链从纳米孔中排出。该实施例在本文中(包含在实例3中)进一步描述。
图6.本文所提供的方法的实施例的示意图。(i)将不对称双链多核苷酸添加到纳米孔系统中。(ii)与双链多核苷酸链连接的结合位点(例如与Y衔接子链杂交的寡核苷酸序列)与标签(例如通过与互补寡核苷酸杂交)连接,所述标签与纳米孔连接,保持第二链定位于纳米孔。(iii)包括在与多核苷酸的第一链连接的衔接子中的前导序列被纳米孔捕获。多核苷酸的第一链自由易位通过纳米孔。纳米孔将双链体分离,揭示了捕获第二链的前导序列。(iv)例如通过测量从开始信号(如由双链多核苷酸引起的开孔电流水平的堵塞引起)到停止信号(如返回到开孔电流水平,或捕获与多核苷酸的第二链连接的衔接子)的持续时间来确定第一链完全易位通过纳米孔所花费的时间。(v).与多核苷酸的第二链连接的衔接子被纳米孔捕获。基于自由易位第一链的持续时间来决定是否拒绝多核苷酸。如果决定保持多核苷酸,那么多核苷酸结合蛋白控制第二链的移动。如果决定拒绝第二链,那么将所述第二链从纳米孔中排出。该实施例在本文中(包含在实例4中)进一步描述。
图7.本文所提供的方法的实施例的示意图。将含有与双链多核苷酸链连接的结合位点(例如Y衔接子中的序列)的对称双链多核苷酸添加到纳米孔系统中,所述双链多核苷酸链连接与标签(例如通过与互补寡核苷酸杂交)连接,所述标签与纳米孔连接。杂交保持第二链定位于纳米孔。包括在与第一链连接的衔接子中的前导序列被纳米孔捕获。多核苷酸的第一链自由易位通过纳米孔。纳米孔将双链体分离。在自由易位的多核苷酸的远端处遇到多核苷酸结合蛋白,产生暂停和信号。确定第一链易位通过纳米孔所花费的时间。基于自由易位第一链的持续时间来决定是否拒绝多核苷酸。(步骤a)可以将第一链从纳米孔中排出,例如通过反向施加的电势,允许第二链的衔接子被捕获并且多核苷酸结合蛋白控制第二链的移动。(步骤b)允许与第一链连接的多核苷酸结合蛋白克服Y衔接子中的停靠化学物质。第一链多核苷酸结合蛋白在将DNA从纳米孔中拉出时控制多核苷酸的移动。第二链的衔接子被捕获并且与第二链连接的多核苷酸结合蛋白控制第二链相对于纳米孔的移动。
图8.本文所提供的方法的实施例的示意图。提供了变体,其中不对称双链多核苷酸含有与多核苷酸链连接的Y衔接子中的序列,所述双链多核苷酸链连接与标签(例如通过与互补寡核苷酸杂交)连接,所述标签与纳米孔连接。杂交保持第二链定位于纳米孔。包括在与第一链连接的衔接子中的前导序列被纳米孔捕获。G-四链体(TBA)、BNA/LNA停靠、如C3或Sp18等间隔子、或如与链霉亲和素或单价链霉亲和素结合的生物素/脱硫生物素等阻断部分包括在第一链的Y衔接子中,并且当其遇到纳米孔时产生暂停。结合位点(例如双链多核苷酸的第二链上的Y衔接子中的序列)与标签(例如互补寡核苷酸)杂交,所述标签与纳米孔连接,而第一链被暂停。多核苷酸的第一链自由易位通过纳米孔。纳米孔将双链体分离,揭示了捕获第二链的前导序列。确定第一链易位通过纳米孔所花费的时间。基于自由易位第一链的持续时间来决定是否拒绝多核苷酸。如果保留,第二链的衔接子被捕获,并且第二链上的多核苷酸结合蛋白控制第二链相对于纳米孔的移动。
图9.本文所提供的方法的实施例的示意图。提供了变体,其中对称双链多核苷酸含有与多核苷酸链连接的Y衔接子中的序列,所述双链多核苷酸链连接与标签(例如通过与互补寡核苷酸杂交)连接,所述标签与纳米孔连接。杂交保持第二链定位于纳米孔。包括在与第一链连接的衔接子中的前导序列被纳米孔捕获。G-四链体(TBA)、BNA/LNA停靠、如C3或Sp18等间隔子、或如与链霉亲和素或单价链霉亲和素结合的生物素/脱硫生物素等阻断部分包括在第一链的Y衔接子中,并且当其遇到纳米孔时产生暂停。结合位点(例如双链多核苷酸的第二链上的Y衔接子中的序列)与标签(例如互补寡核苷酸)杂交,所述标签与纳米孔连接,而第一链被暂停。多核苷酸的第一链自由易位通过纳米孔。纳米孔将双链体分离,揭示了捕获第二链的前导序列。多核苷酸结合蛋白定位于自由易位的多核苷酸的远端处,当其遇到纳米孔时会产生暂停和信号。确定第一链易位通过纳米孔所花费的时间。基于自由易位第一链的持续时间来决定是否拒绝多核苷酸。(步骤a)通过反向施加的电势,可以将第一链从纳米孔中排出。第二链的衔接子被捕获,并且第二链上的多核苷酸结合蛋白用于控制第二链的移动。(步骤b)允许第一链多核苷酸结合蛋白克服Y衔接子中的停靠化学物质。第一链多核苷酸结合蛋白在将DNA从纳米孔中拉出时控制多核苷酸的移动。第二链的衔接子被捕获并且多核苷酸结合蛋白控制第二链相对于纳米孔的移动。
图10.本文所提供的方法的实施例的示意图。将不对称双链多核苷酸添加到纳米孔系统中的变体。包括在与不对称双链多核苷酸的第一链连接的衔接子中的前导序列被纳米孔捕获。多核苷酸的第一链自由易位通过纳米孔。纳米孔将双链体分离,揭示了捕获第二链的前导序列。G-四链体(TBA)、BNA/LNA停靠、如C3或Sp18等间隔子、或如与链霉亲和素或单价链霉亲和素结合的生物素/脱硫生物素等阻断部分包括在第一链的Y衔接子中,并且当其遇到纳米孔时产生暂停。在双链多核苷酸的第二链上揭示序列,该序列与互补寡核苷酸杂交,所述互补寡核苷酸与纳米孔化学连接,而第一链被暂停。任选地,在自由易位的多核苷酸的远端衔接子处遇到G-四链体(TBA)、BNA/LNA停靠、如C3或Sp18等间隔子、或如与链霉亲和素或单价链霉亲和素结合的生物素/脱硫生物素等阻断部分,产生暂停和信号。确定第一链易位通过纳米孔所花费的时间。基于自由易位第一链的持续时间来决定是否拒绝多核苷酸。如果保留,第二链的衔接子被捕获,并且第二链上的多核苷酸结合蛋白控制第二链相对于纳米孔的移动。
图11.本文所提供的方法的实施例的示意图。将对称双链多核苷酸添加到纳米孔系统中的变体。不对称双链多核苷酸的第一链的前导序列被纳米孔捕获。多核苷酸的第一链自由易位通过纳米孔。纳米孔将双链体分离。G-四链体(TBA)、BNA/LNA停靠、如C3或Sp18等间隔子、或如与链霉亲和素或单价链霉亲和素结合的生物素/脱硫生物素等阻断部分包括在第一链的Y衔接子中,当其遇到纳米孔时会产生暂停。在双链多核苷酸的第二链上揭示序列,该序列与互补寡核苷酸杂交,所述互补寡核苷酸与纳米孔化学连接,而第一链被暂停。多核苷酸的第一链自由易位通过纳米孔。纳米孔将双链体分离。在自由易位的多核苷酸的远端处遇到多核苷酸结合蛋白,产生暂停和信号。确定第一链易位通过纳米孔所花费的时间。基于自由易位第一链的持续时间来决定是否拒绝多核苷酸。(步骤a)通过反向施加的电势,可以将第一链从纳米孔中排出。第二链的衔接子被捕获,并且第二链上的多核苷酸结合蛋白用于控制第二链的移动。(步骤b)允许第一链多核苷酸结合蛋白克服Y衔接子中的停靠化学物质。第一链多核苷酸结合蛋白在将DNA从纳米孔中拉出时控制多核苷酸的移动。第二链的衔接子被捕获并且多核苷酸结合蛋白控制第二链相对于纳米孔的移动。
图12.实例5的数据。A:来自多核苷酸的第二部分的信号,用多核苷酸结合蛋白(标记为C)控制移动。B:多核苷酸的第一部分,自由易位的(标记为A)和来自发夹衔接子中的Sp18间隔子的信号(标记为B)。C:图12A的放大图像,示出了来自开孔的信号(标记为A);来自从开孔到自由易位的多核苷酸水平的下降的信号(标记为B)——这也可能包含来自Y衔接子的一些信号;来自自由易位的多核苷酸的信号(标记为C);从发夹衔接子到pT水平的下降(标记为D);以及来自发夹衔接子中的Sp18化学物质的信号(标记为E)。
图13.实例7中描述的实验的发夹衔接子,其中多核苷酸分析物的两条链首先在没有酶的情况下易位穿过纳米孔;然后酶‘解除停靠’;然后酶控制多核苷酸分析物的两条链从纳米孔中移动出去。发夹中的另外的部分在初始无酶捕获阶段期间引入了另外的信号。这些部分在图中描绘如下:
(A)发夹中没有部分,作为对照。
(B)具有寡核苷酸i的发夹与发夹环杂交。
(C)发夹环中的三个连续的荧光素-dT碱基ii,用星号表示。
(D)根据(C),但寡核苷酸I与发夹环杂交。
图14.示出了带有发夹部分的双链多核苷酸分析物的捕获和无酶易位的示意图,其中发夹部分任选携带大荧光团和任选地与发夹环杂交的寡核苷酸。所述示意图示出了另外两个可检测的中间体A1和A2,所述中间体对应于与纳米孔顶部的发夹环杂交并且仅与纳米孔的管腔中的荧光团杂交的寡核苷酸,其中荧光团位于纳米孔的管腔中。另外的状态D1与纳米孔的管腔中的荧光团,以及在荧光团之上移动的酶相对应。
图15.
(a)示出了对模板链和补体链通过发夹部分连接的多核苷酸的无酶移动的鉴定的数据。在酶控制的移动步骤之前,通过施加的电势引导多核苷酸通过纳米孔。发夹是图13A中描述的发夹。(i)与测序衔接子和仅含有DNA的发夹衔接子连接的多核苷酸文库。(ii)(i)中所示的分子的代表性电流-时间迹线。(iii)(ii)中所示加框去的放大视图,示出了对开孔水平A和停靠水平B的鉴定。带星号区,其形状和噪声与B不同,并且与在该实例中描述的其它代表性分子的关系也不同,推测来自无酶易位部分。
(b)示出了对模板链和补体链通过发夹部分连接的多核苷酸的无酶移动的鉴定的数据,其中寡核苷酸与发夹杂交。在酶控制的移动步骤之前,通过施加的电势引导多核苷酸通过纳米孔。发夹是图13B中描述的发夹。(i)与测序衔接子和含有寡核苷酸(ON)与其杂交的DNA的发夹衔接子连接的多核苷酸文库。(ii)(i)中所示的分子的代表性电流-时间迹线。(iii)(ii)中所示加框区的放大视图,示出了对开孔水平A和停靠水平B的鉴定。当与图15a中所示的实例相比时,由杂交寡核苷酸产生另外的水平A2(在图14中描述)。因此,带星号区与无酶易位相对应。
(c)示出了对模板链和补体链通过发夹部分连接的多核苷酸的无酶移动的鉴定的数据,其中三个大基团(三个连续的荧光素-dT碱基;FAM)存在于发夹中。在酶控制的移动步骤之前,通过施加的电势引导多核苷酸通过纳米孔。发夹是图13C中描述的发夹。(i)与测序衔接子和含有荧光素碱基的发夹衔接子连接的多核苷酸文库。(ii)(i)中所示的分子的代表性电流-时间迹线。假定通过酶在大FAM区之上的缓慢移动产生了另外的D1水平。(由于排出阶段G,补体区E被缩减,因此在该实例中未看到状态F)。(iii)(ii)中所示加框区的放大视图,示出了对开孔水平A和停靠水平B的鉴定。当与图15a中所示的实例相比时,另外的约20pA的向下滴答电流水平A1(在图14中描述)由FAM基团产生。因此,带星号区与无酶易位相对应。
(d)示出了对模板链和补体链通过发夹部分连接的多核苷酸的无酶移动的鉴定的数据,其中三个大基团(三个连续的荧光素-dT碱基;FAM)存在于发夹中并且寡核苷酸(ON)与其杂交。在酶控制的移动步骤之前,通过施加的电势引导多核苷酸通过纳米孔。发夹是图13D中描述的发夹。(i)与含有荧光素碱基(FAM)的测序衔接子和发夹衔接子连接的多核苷酸文库,其中寡核苷酸(ON)与其杂交。(ii)(i)中所示的分子的代表性电流-时间迹线。假定通过酶在大FAM区之上的缓慢移动产生了电流水平向下滴答的另外的D1水平。(iii)(ii)中所示加框区的放大视图,示出了对开孔水平A和停靠水平B的鉴定。当与图15a和图15c中所示的实例相比时,另外的约20pA的向下滴答电流水平A1(在图14中描述)由FAM基团产生。通过与图15b的比较,还可以看到由于杂交ON导致的另外的水平A2。因此,带星号区与无酶易位相对应。
(e)测量大肠杆菌测试文库的无酶易位的持续时间。(i)来自实例7中描述的随机大肠杆菌测试文库的四个代表性实例,其中双链多核苷酸在一个末端处与测序衔接子连接,并且在另一个末端处与发夹部分连接。发夹部分具有与其杂交的寡核苷酸。因此所得多核苷酸类似于图15b的多核苷酸,除了多核苷酸是随机长度的。示出的四个实例是事件拟合的电流-时间迹线,其简化了原始数据。水平A2和无酶部分(用星号表示)在每个实例中示出。使用60pA(虚线)的阈值来划分无酶部分A2。因此,带星号部分的持续时间是在电流穿过开孔水平A与寡核苷酸水平A2之间的60pA阈值的时间之间测量的。(ii)酶控制的链持续时间(测量为图15b、ii中所示的周期D和E的总和)与无酶捕获持续时间(如此图第i部分所描述测量)之间的关系,测量30个实例,并示出为散点图。线性回归线示出为R2值0.414,证明正相关。
图16.(a)实验示意图。用于测量无酶易位(在步骤A与C之间)的‘进入’阶段用星号标记。(b)实例8中示出的三个文库实例的代表性电流-时间迹线:10kb PCR片段(顶部);噬菌体λDNA(中部);以及T4 DNA(底部)。未记录T4 DNA的全长读段,因此示出了示例部分片段。在每个实例中,‘进入’阶段用星号标记,并且酶控制阶段用E标记。每个部分的持续时间是手工测量的,并标记在迹线上。示出了T4实例的进入阶段的扩展视图。不可能根据图16a可靠地检测标记为B的部分(孔顶部的阻断剂寡核苷酸)。(c)从实例8中描述的31个示例轨迹测量的测量捕获持续时间的Log-log散点图。标志物根据其来源的文库以灰度着色。
具体实施方式
本发明将相对于具体实施例并参考某些附图来说明,但本发明并不受限于此而只受权利要求限制。权利要求中的任何附图标记不应被解释为限制范围。当然,应当理解,不一定所有方面或优点可以根据本发明的任何特定实施例来实现。因此,例如,本领域技术人员将认识到,本发明可以以实现或优化如本文所教导的一个优点或一组优点的方式体现或执行,而不必实现如本文可以教导或建议的其它方面或优点。
当结合附图阅读时,通过参考以下详细描述,可以最好地理解本发明(关于组织和操作方法两者)以及其特征和优点。本发明的各方面和优点将根据下文描述的一个或多个实施例而变得显而易见,并且将参考所述实施例进行阐述。在整个本说明书中对“一个实施例”或“一实施例”的提及意味着结合实施例描述的特定特征、结构或特性包含在本发明的至少一个实施例中。因此,在整个本说明书中各个地方出现的短语“在一个实施例中(inone embodiment)”或“在一实施例中(in an embodiment)”不一定都是指同一个实施例,但是可以指代同一个实施例。类似地,应当理解,在本发明的示例性实施例的描述中,出于简单化本公开并且帮助理解各种发明性方面中的一个或多个的目的,本发明的各种特征有时被一起分组在单个实施例、附图或其描述中。然而,本公开的方法不应被解释为反映所要求保护的发明需要的特征比在每个权利要求中明确地叙述的更多的意图。相反,如以下权利要求书所反映,发明性方面在于比单个前述公开的实施例的所有特征更少。
应当理解,除非上下文另有说明,否则本公开的“实施例”可以具体地组合在一起。所有公开的实施例的特定组合(除非上下文另有暗示)是要求保护的发明的进一步公开的实施例。
另外,如在本说明书和所附权利要求中所使用的,除非内容另外明确指明,否则单数形式的“一个/一种(a/an)”以及“所述(the)”均包含复数对象。因此,例如,提及“多核苷酸”包含两个或更多个多核苷酸;提及“多核苷酸结合蛋白”包含两个或更多个此类蛋白质;提及“解旋酶”包含两个或更多个解旋酶;提及“单体”是指两个或更多个单体;提及“孔”包含两个或更多个孔等。
本文引用的所有出版物、专利和专利申请,无论是上文还是下文,均通过引用整体并入本文。
定义
当提及单数名词(例如“一个/一种(a/an)”、“所述(the)”)时使用不定冠词或定冠词时,除非另有具体说明,否则这包含所述名词的复数形式。在本说明书和权利要求书中使用术语“包括(comprising)”时,其并不排除其它要素或步骤。此外,说明书和权利要求书中的术语第一、第二、第三等用于区分相似要素,而不一定用于描述顺序或时间次序。应当理解,如此使用的术语在适当情况下是可互换的,并且本文所描述的本发明的实施例能够以不同于本文所描述或说明的其它顺序操作。提供以下术语或定义仅用于帮助理解本发明。除非本文另有具体定义,否则在本文中使用的所有术语具有对本发明所属领域的技术人员来说相同的含义。针对本领域的定义和术语,执业医师特别参照Sambrook等人,《分子克隆:实验室手册(Molecular Cloning:A Laboratory Manual)》,第4版,纽约普莱恩维尤冷泉港出版社(Cold Spring Harbor Press,Plainsview,New York)(2012);和Ausubel等人,《分子生物学最新方案(Current Protocols in Molecular Biology)》(增刊114),纽约约翰威利父子出版社(John Wiley&Sons,New York)(2016)。本文所提供的定义不应被解释为具有小于本领域普通技术人员所理解的范围。
当提及如量、持续时间等可测量的值时,如本文所使用的术语“约”意味着涵盖与指定值的±20%或±10%,更优选±5%,甚至更优选±1%,以及还更优选±0.1%的偏差,因为此类偏差适合于执行所公开的方法。
如本文所使用的术语“核苷酸序列”、“DNA序列”或“一个或多个核酸分子”是指任何长度的核苷酸的聚合形式,无论是核糖核苷酸还是脱氧核糖核苷酸。此术语仅指分子的一级结构。因此,此术语包含双链和单链DNA,以及RNA。如本文所使用的术语“核酸”是单链或双链共价连接的核苷酸序列,其中每个核苷酸上的3'和5'末端通过磷酸二酯键连接。多核苷酸可以由脱氧核糖核苷酸碱基或核糖核苷酸碱基构成。核酸可以在体外合成制造,或者从天然来源中分离。核酸可以进一步包含经修饰的DNA或RNA,例如已经被甲基化的DNA或RNA,或已经经受翻译后修饰的RNA,所述翻译后修饰例如是采用7-甲基鸟苷的5'封端、如裂解和聚腺苷酸化等3'加工以及剪接。核酸还可以包含合成核酸(XNA),如己糖醇核酸(HNA)、环己烯核酸(CeNA)、苏糖核酸(TNA)、甘油核酸(GNA)、锁核酸(LNA)和肽核酸(PNA)。核酸(在本文中也称为“多核苷酸”)的大小通常表示为双链多核苷酸的碱基对(bp)的数量,或在单链多核苷酸的情况下,表示为核苷酸(nt)的数量。一千bp或nt等于千碱基(kb)。长度小于约40个核苷酸的多核苷酸通常被称为“寡核苷酸”,并且可以包括用于如通过聚合酶链反应(PCR)操纵DNA中的引物。
在本公开的上下文中,术语“氨基酸”以其最广泛的意义使用,并且意指包含含有胺(NH2)和羧基(COOH)官能团以及对每种氨基酸具有特异性的侧链(例如R基团)的有机化合物。在一些实施例中,氨基酸是指天然存在的Lα-氨基酸或残基。本文中使用天然存在的氨基酸的一个和三个常用的字母缩写:A=Ala;C=Cys;D=Asp;E=Glu;F=Phe;G=Gly;H=His;I=Ile;K=Lys;L=Leu;M=Met;N=Asn;P=Pro;Q=Gln;R=Arg;S=Ser;T=Thr;V=Val;W=Trp;并且Y=Tyr(Lehninger,A.L.,(1975)《生物化学(Biochemistry)》,第2版,第71-92页,纽约沃茨出版社(Worth Publishers,New York))。一般术语“氨基酸”进一步包含D-氨基酸、逆反式氨基酸以及化学修饰的氨基酸,如氨基酸类似物、通常不并入到蛋白质中的天然存在的氨基酸(如正亮氨酸)以及具有本领域已知为氨基酸特性的性质的化学合成的化合物(如β-氨基酸)。例如,允许与天然Phe或Pro相同的肽化合物的构象限制的苯丙氨酸或脯氨酸的类似物或模拟物包含在氨基酸的定义内。此类类似物和模拟物在本文中被称为相应氨基酸的“功能等同物”。氨基酸的其它实例由Roberts和Vellaccio,《肽:分析、合成、生物学(The Peptides:Analysis,Synthesis,Biology)》,Gross和Meiehofer编辑,第5期第341页,纽约学术出版社(Academic Press,Inc.,N.Y.),1983列出,所述文献通过引用并入本文。
术语“多肽”和“肽”在本文中可互换使用以指代氨基酸残基的聚合物以及其变体和合成类似物。因此,这些术语适用于氨基酸聚合物,其中一个或多个氨基酸残基是合成的非天然存在的氨基酸,如对应的天然存在的氨基酸的化学类似物,以及适用于天然存在的氨基酸聚合物。多肽还可以经历成熟或翻译后修饰过程,所述过程可以包含但不限于:糖基化、蛋白水解切割、脂质化、信号肽切割、前肽切割、磷酸化等。可以使用重组技术例如通过表达重组或合成的多核苷酸来制备肽。重组产生的肽通常基本上不含培养基,例如,培养基占蛋白质制剂体积的小于约20%,更优选小于约10%,最优选小于约5%。
术语“蛋白质”用于描述具有二级或三级结构的折叠多肽。蛋白质可以由单个多肽构成,或者可以包括组装形成多聚体的多个多肽。多聚体可以是同源寡聚体或异源寡聚体。蛋白质可以是天然存在的或野生型蛋白质,或者是经修饰的或非天然存在的蛋白质。蛋白质可以例如通过一个或多个氨基酸的添加、取代或缺失而不同于野生型蛋白质。
蛋白质的“变体”涵盖肽、寡肽、多肽、蛋白质和酶,其相对于所讨论的未经修饰的或野生型蛋白质具有氨基酸取代、缺失和/或插入,并且具有与其所衍生的未经修饰的蛋白质类似的生物和功能活性。如本文所用,术语“氨基酸同一性”是指序列在氨基酸对氨基酸的基础上在比较窗口上相同的程度。因此,“序列同一性百分比”通过以下来计算:在比较窗口上比较两个经过最佳比对的序列,确定相同的氨基酸残基(例如,Ala、Pro、Ser、Thr、Gly、Val、Leu、Ile、Phe、Tyr、Trp、Lys、Arg、His、Asp、Glu、Asn、Gln、Cys和Met)出现在这两个序列中的位置的数量以产生匹配位置的数量,用匹配位置的数量除以比较窗口中的位置的总数(即,窗口大小),以及将结果乘以100以产生序列同一性百分比。
对于本发明的所有方面和实施例,“变体”与对应的野生型蛋白质的氨基酸序列具有至少50%、60%、70%、80%、90%、95%或99%完整序列同一性。序列同一性还可以是全长多核苷酸或多肽的片段或部分。因此,序列可以与全长参考序列具有仅50%的整体序列同一性,但是特定区、结构域或亚基的序列可以与参考序列共享80%、90%或多达99%的序列同一性。
术语“野生型”是指与天然存在的来源分离的基因或基因产物。野生型基因是群体中最常观察到的基因,并且因此被任意设计为基因的“正常”或“野生型”形式。相反,术语“经修饰的”、“突变体”或“变体”是指与野生型基因或基因产物相比显示序列的修饰(例如,取代、截短或插入)、翻译后修饰和/或功能性质(例如,改变的特性)的基因或基因产物。注意,天然存在的突变体可以被分离;通过与野生型基因或基因产物相比其具有改变的特性这一事实来鉴定这些突变体。用于引入或取代天然存在的氨基酸的方法在本领域是众所周知的。例如,可通过在编码突变单体的多核苷酸中的相关位置处用精氨酸的密码子(CGT)置换甲硫氨酸的密码子(ATG),而用精氨酸(R)来取代甲硫氨酸(M)。用于引入或取代非天然存在的氨基酸的方法在本领域也是众所周知的。举例来说,可以通过在用于表达突变单体的IVTT系统中包含合成氨基酰基-tRNA来引入非天然存在的氨基酸。可替代地,其可以通过在大肠杆菌(E.coli)中表达突变单体来引入,所述突变单体在存在那些特定氨基酸的合成(即非天然存在的)类似物的情况下对于特定氨基酸是营养缺陷型的。如果突变单体使用部分肽合成产生,那么其还可以通过裸连接产生。保守取代用具有相似化学结构、相似化学性质或相似侧链体积的其它氨基酸代替氨基酸。引入的氨基酸可以具有与其替代的氨基酸相似的极性、亲水性、疏水性、碱性、酸性、中性或电荷。可替代地,保守取代可以引入芳香族或脂肪族的另一种氨基酸代替预先存在的芳香族或脂肪族氨基酸。保守氨基酸改变在本领域是众所周知的,并且可以根据如在下表1中限定的20种主要氨基酸的性质来进行选择。在氨基酸具有类似极性的情况下,还可以参考表2中的氨基酸侧链的亲水性尺度来确定这一点。
表1-氨基酸的化学性质
Figure BDA0003995203950000201
Figure BDA0003995203950000211
表2-亲水性标度
Figure BDA0003995203950000212
突变体或经修饰的蛋白质、单体或肽还可以以任何方式和在任何位点进行化学修饰。优选地通过将分子与一个或多个半胱氨酸(半胱氨酸连接)连接、将分子与一个或多个赖氨酸连接、将分子与一个或多个非天然氨基酸连接、表位的酶修饰或末端的修饰对突变体或经修饰的单体进行化学修饰。用于进行此类修饰的合适方法在本领域是众所周知的。经修饰的蛋白质、单体或肽的突变体可以通过任何分子的连接进行化学修饰。例如,经修饰的蛋白质、单体或肽的突变体可以通过染料或荧光团的连接进行化学修饰。
选择性地表征具有期望的性质的多核苷酸,例如具有期望的长度的多核苷酸
本公开涉及一种表征样品中的多核苷酸的方法。本公开的示例性实施例涉及表征具有期望的长度的一个或多个多核苷酸。因此,在一些方面,本公开涉及用于选择性地表征所需长度的多核苷酸的方法。然而,长度只是可以根据所提供的方法评估的一个性质。这将在下面更详细地讨论。如上文所讨论的,已知多核苷酸的选择性表征可以通过将候选多核苷酸的初始部分的“测试序列”与参考序列进行比较来实现。测试序列与参考序列之间的相似性或缺乏相似性提供了参考值,所述参考值可以用于确定是否继续表征候选多核苷酸的其余部分。将参考值与预定阈值进行比较。如果参考信号与期望的多核苷酸相对应,那么对于要保留的候选多核苷酸,通常期望参考值超过定义参考序列与测试序列之间相似性的阈值。因此,如果参考值不超过阈值,那么可以拒绝候选多核苷酸并且可以评估另一个候选多核苷酸。另一方面,如果参考信号与不需要的多核苷酸(例如样品中的已知污染物)相对应,那么对于要保留的候选多核苷酸,通常期望参考值不超过阈值。如果所述参考值确实超过了阈值,那么候选多核苷酸被拒绝。
如上文所解释的,此类方法确实允许减少不需要的多核苷酸的非生产性表征,既避免了试剂的不必要消耗,又加快了整个表征过程。至少因为表征不需要的分析物所需的时间在表征中没有被非生产性地使用,所以加快了整个表征过程。
然而,本领域已知的方法依赖于将候选多核苷酸的部分序列与参考序列进行比较。确定候选多核苷酸的序列不一定是直截了当的,并且如果候选多核苷酸不是期望的多核苷酸,那么没有必要。此外,参考序列可能不可用。同样,是否拒绝候选多核苷酸的决定基于仅部分多核苷酸的表征。如果候选多核苷酸与初始测序用于与参考序列比较的多核苷酸部分之外的期望的多核苷酸不同,那么所述多核苷酸不一定会被拒绝并且因此可能被非生产性地表征。
虽然候选多核苷酸的序列可以用于确定候选多核苷酸是否为期望的多核苷酸,但可以优先使用可以例如更容易或快速评估的其它参数。
可以根据本文所提供的方法评估任何合适的性质。因此,如本文更详细讨论的,在一些实施例中,可以评估多核苷酸(或多核苷酸的第一部分)的大致长度。在一些实施例中,可以评估多核苷酸(或多核苷酸的第一部分)的结构。在一些实施例中,可以评估多核苷酸(或多核苷酸的第一部分)的组成。
用于评估以便确定多核苷酸的样品中的候选多核苷酸是否为期望的多核苷酸的一个合适参数是多核苷酸(或多核苷酸的第一部分)的长度。例如,在包括期望的长多核苷酸和不需要的短多核苷酸的多核苷酸的样品中,候选多核苷酸(或其第一部分)的长度的初始评估将允许拒绝不需要的短多核苷酸并且更详细地表征仅正确长度的长多核苷酸。
多核苷酸的样品中的多核苷酸的大小选择已经通过本领域中的各种方式进行了描述。例如,凝胶过滤已经用于评估样品中的多核苷酸的大小。然而,此类技术不在单分子水平上操作,并且因此仅提供关于样品中的多个多核苷酸的大量信息。此外,如凝胶过滤等技术通常速度较慢,可能会修饰或损坏被评估的多核苷酸,并且分辨率较差。所述技术也不适合在通过如纳米孔等检测器对样品中的多核苷酸进行表征期间被小型化以实时使用。
本发明人已经认识到多核苷酸相对于检测器自由移动(例如,自由易位通过或穿过如纳米孔等检测器)所花费的时间提供了关于多核苷酸的长度的信息。本发明人已经发现,通过确定候选多核苷酸的第一部分以这种方式移动所花费的时间,例如易位通过或穿过检测器(例如纳米孔),可以评估多核苷酸的大致长度并且该评估用作确定是否应该拒绝或更详细地表征多核苷酸的度量。
如上文所解释的,为了确定多核苷酸的样品中的候选多核苷酸是否为期望的多核苷酸而进行评估的另一个合适性质是多核苷酸(或多核苷酸第一部分)的结构。例如,在包括具有带有特定二级或三级结构基序的期望的多核苷酸和不带有此类结构基序的不需要的多核苷酸的多核苷酸的多核苷酸的样品中,对多核苷酸(或其第一部分)相对于检测器的移动的初始评估将允许拒绝不需要的多核苷酸,并且更详细地表征仅那些具有相关结构基序的多核苷酸。
多核苷酸中的结构基序的检测已经通过本领域中的各种方式进行了描述。例如,圆二色性已经用于评估样品中的多核苷酸的二级结构。然而,此类技术不在单分子水平上操作,并且因此仅提供关于样品中的多个多核苷酸的大量信息。此外,如圆二色性等技术通常速度较慢且分辨率较差。所述技术也不适合在通过如纳米孔等检测器对样品中的多核苷酸进行表征期间被小型化以实时使用。
发明人已经认识到,作为多核苷酸获得的信号相对于如纳米孔等检测器自由移动可以提供关于多核苷酸的结构的信息。例如,作为候选多核苷酸的第一部分相对于检测器(例如纳米孔)移动而记录的基线电流水平或噪声特性,和/或这样做所花费的时间,允许至少对多核苷酸的结构进行初始评估并且该评估用作确定是否应该拒绝或更详细地表征多核苷酸的度量。
类似地,为了确定多核苷酸的样品中的候选多核苷酸是否为期望的多核苷酸而进行评估的另一个合适性质是多核苷酸(或多核苷酸的第一部分)的组成。例如,在包括具有期望的组成(例如,链中大量嘌呤相当于嘧啶组合物或RNA相当于DNA的GC含量百分比)的多核苷酸和不具有此类组成的不需要的多核苷酸的多核苷酸的样品中,对多核苷酸(或其第一部分)相对于检测器的移动的初始评估将允许拒绝不需要的多核苷酸,并且更详细地表征仅那些具有相关组成的多核苷酸。类似地,可以检测已知多核苷酸的身份,例如来自组的扩增子,使得可以识别和表征已知多核苷酸。
多核苷酸组成的检测已经通过本领域中的各种方式进行了描述。使用的一种主要方法是多核苷酸测序,通过常规方式(例如Sanger测序)或通过后一代单分子测序,这允许确定多核苷酸组成的详细图片。然而,如本文所讨论的,常规测序技术不在单分子水平上操作,并且因此仅提供关于样品中的多个多核苷酸的大量信息,而单分子测序相对较慢。
发明人已经认识到,作为多核苷酸获得的信号相对于如纳米孔等检测器自由移动可以提供关于多核苷酸组成的信息。例如,作为候选多核苷酸的第一部分相对于检测器(例如纳米孔)移动而记录的基线电流水平可以允许至少对多核苷酸的组成进行初始评估,即使此类移动可能对于逐碱基测序来说太快了。此类评估可以用作确定是否应该拒绝或更详细地表征多核苷酸的度量。
在开发要求保护的方法中,已经发现,在所施加的力的情况下,允许候选多核苷酸的第一部分相对于检测器自由移动(例如,自由易位通过或穿过检测器(例如,纳米孔))通常是有益的。这在下文更详细地进行描述。
虽然本公开提供了作为示例性检测器的纳米孔,但本文所提供的方法适用于检测器,所述检测器包含(i)零模波导,(ii)场效应晶体管,任选地纳米线场效应晶体管;(iii)AFM尖端;(iv)纳米管,任选地碳纳米管以及(v)纳米孔。所公开的方法特别适于其中使多核苷酸移动通过检测器或通过含有检测器的结构,例如检测器芯片中的孔的方法。本文将纳米孔作为示例性检测器来讨论,但是方法不限于此。
因此,本文提供了一种表征样品中的多核苷酸的方法,所述方法包括:
(i)使检测器与多核苷酸接触;
(ii a)当所述多核苷酸的第一部分在所施加的力下相对于所述检测器自由移动时进行测量;
(ii b)评估所述多核苷酸的所述第一部分的一个或多个性质;以及
(iii)(a)在所述多核苷酸的所述第一部分具有一个或多个期望的性质的情况下,控制所述多核苷酸的第二部分相对于所述检测器的移动,并且当所述多核苷酸的所述第二部分相对于所述检测器移动时进行测量以确定所述多核苷酸的一个或多个特性,由此表征所述多核苷酸;或(b)在所述多核苷酸的所述第一部分不具有一个或多个期望的性质的情况下,拒绝所述多核苷酸。
本文还提供了一种用于选择性地表征具有期望的长度的多核苷酸的方法,所述方法包括:
(i)使跨膜纳米孔与多核苷酸的样品接触;
(ii)确定所述样品中的多核苷酸的第一部分在所施加的力下自由易位通过或穿过所述纳米孔所花费的时间,以便评估所述多核苷酸的大致长度;
(iii)在所述多核苷酸不具有期望的长度的情况下,将所述多核苷酸从所述纳米孔中排出并重复步骤(ii)和(iii);或者在所述多核苷酸具有期望的长度的情况下,控制所述多核苷酸的第二部分通过或穿过所述纳米孔的移动并且当所述多核苷酸的所述第二部分相对于所述纳米孔移动时进行测量以确定所述多核苷酸的一个或多个特性,
由此选择性地表征具有期望的长度的多核苷酸。
已经发现,在一些实施例中,在步骤(i)之前,将衔接子与样品中的多核苷酸的一个或两个末端连接是有益的。下文更详细地描述了衔接子。
在所施加的力下自由易位
所提供的方法包括当多核苷酸在所施加的力下相对于检测器自由移动时评估多核苷酸的一个或多个性质。例如,在一些实施例中,所提供的方法包括确定样品中的多核苷酸的第一部分在所施加的力下自由易位通过或穿过检测器(例如纳米孔)所花费的时间,以便评估多核苷酸的大致长度。在一些优选实施例中,本文所提供的方法包括使多核苷酸易位通过检测器(例如纳米孔)。在一些实施例中,样品中的多核苷酸是双链的。
对于在多核苷酸相对于检测器自由移动的同时确定多核苷酸的期望的性质的存在或不存在,此类移动的速度优选地是可预测的。例如,当检测器是纳米孔时,为了从多核苷酸的第一部分易位通过或穿过纳米孔所花费的时间确定多核苷酸的大致长度,易位的速度优选地是可预测的。为了尽可能减少在不需要的多核苷酸的非生产性表征上花费的时间,还期望速度(例如多核苷酸的第一部分易位通过或穿过检测器,例如纳米孔的速度)是迅速的。因此,本文所提供的方法包括在所施加的力下相对于检测器自由移动多核苷酸(例如,当检测器是纳米孔时,通过使样品中的多核苷酸易位通过或穿过纳米孔)。
通常,如果多核苷酸的第一部分相对于检测器移动(例如,当检测器是纳米孔时,易位通过或穿过纳米孔)所花费的时间多于阈值时间,那么多核苷酸的长度被评估为过短。类似地,如果多核苷酸的第一部分相对于检测器移动(例如易位通过或穿过纳米孔)所花费的时间多于阈值时间,那么多核苷酸的长度被评估为过长。在这种情况下,可以拒绝多核苷酸以避免非生产性地表征多核苷酸。如本领域技术人员将理解的,如果多核苷酸相对于检测器移动的速度(例如,易位通过或穿过纳米孔)在自由移动期间大致恒定,那么速度大致与多核苷酸自由移动部分的长度成比例。因此,本文所提供的方法的一些实施例包括将多核苷酸的第一部分相对于检测器移动(例如,易位通过或穿过纳米孔)所花费的时间与阈值时间进行比较。在一些实施例中,阈值时间是预定的。在一些实施例中,阈值时间是基于要表征的期望的多核苷酸的预测长度计算的。在一些实施例中,阈值时间基于样品中可能存在的污染物多核苷酸的已知或预测长度计算。因此,本文所提供的方法的一些实施例包括如果多核苷酸的第一部分相对于检测器移动(例如易位通过或穿过纳米孔)所花费的时间多于阈值时间和/或少于阈值时间,那么拒绝多核苷酸(例如将多核苷酸从纳米孔排出)。本文所提供的方法的一些实施例包括如果多核苷酸的第一部分相对于检测器移动(例如易位通过或穿过纳米孔)所花费的时间多于第一阈值时间和/或少于第二阈值时间,那么拒绝多核苷酸(例如将多核苷酸从纳米孔排出),其中通常第一阈值时间大于第二阈值时间。因此,一些实施例包括如果多核苷酸的第一部分相对于检测器移动(例如,易位通过或穿过纳米孔)所花费的时间不在第一阈值时间与第二阈值时间之间,那么拒绝多核苷酸(例如,将多核苷酸从纳米孔中排出)——换句话说,一些实施例包括如果多核苷酸的第一部分相对于检测器移动(例如,易位通过或穿过纳米孔)所花费的时间在第一阈值时间与第二阈值时间之间,那么保留多核苷酸。
以类似的方式,可以记录除时间之外的其它参数。这些可以包含例如当多核苷酸的第一部分相对于检测器移动时记录的总电流水平或噪声水平。如果记录的此类水平高于或低于阈值,那么多核苷酸的结构或组成可能被评估为不正确,即与期望的多核苷酸的性质不一致。在这种情况下,可以拒绝多核苷酸以避免非生产性地表征多核苷酸。如本领域技术人员将理解的,在多核苷酸相对于检测器(本文更详细描述)的超快自由移动期间,在一些实施例中,可能无法获得详细的噪声和电流信息;然而,对噪声或当前信息的粗略测量可能仍然足以评估候选多核苷酸是正确的还是不正确的。在一些实施例中,阈值是预定的。在一些实施例中,阈值基于要表征的期望的多核苷酸的预测性质计算。在一些实施例中,阈值基于可能存在于样品中的污染物多核苷酸的已知或预测性质计算。因此,本文所提供的方法的一些实施例包括如果在多核苷酸的第一部分相对于检测器移动时记录的电流水平和/或噪声水平高于阈值水平和/或低于阈值水平,那么拒绝多核苷酸。本文所提供的方法的一些实施例包括如果在多核苷酸的第一部分相对于检测器移动时记录的电流水平和/或噪声水平高于第一阈值水平和/或低于第二阈值水平,那么拒绝多核苷酸,其中通常第一阈值水平大于第二阈值水平。因此,一些实施例包括如果在多核苷酸的第一部分相对于检测器移动时记录的电流水平和/或噪声水平不在第一阈值水平与第二阈值水平之间,那么拒绝多核苷酸。
在一些实施例中,可以使用多个阈值来定义确定多核苷酸的拒绝或保留的多个窗口。例如,在一些实施例中,使用第一、第二和第三阈值时间、电流水平和/或噪声水平。例如,如果多核苷酸的第一部分相对于检测器移动(例如,易位通过或穿过纳米孔)所花费的时间不低于第一阈值时间,或者在第二阈值时间与第三阈值时间之间,那么可以拒绝多核苷酸(例如,当检测器是纳米孔时,通过从纳米孔中排出)。如果多核苷酸的第一部分相对于检测器移动(例如易位通过或穿过纳米孔)所花费的时间不高于第一阈值时间,或者在第二阈值时间与第三阈值时间之间,那么可以拒绝多核苷酸(例如通过从纳米孔中排出)。电流和噪声阈值水平可以类似地使用。
在一些实施例中,使用第一、第二、第三和第四阈值时间、电流水平和/或噪声水平。例如,如果多核苷酸的第一部分相对于检测器移动(例如,易位通过或穿过纳米孔)所花费的时间不在第一阈值时间与第二阈值时间之间,或者不在第三阈值时间与第四阈值时间之间,那么可以拒绝多核苷酸(例如,当检测器是纳米孔时,通过从纳米孔中排出)。电流和噪声阈值水平可以类似地使用。
例如,所述方法可以用于选择性地表征两个核苷酸群体,例如其中一个群体具有第一长度(并且因此相对于检测器自由移动,例如当检测器是纳米孔时,在第一阈值时间与第二阈值时间之间易位纳米孔)并且第二群体具有第二长度(并且因此相对于检测器自由移动,例如在第三阈值时间与第四阈值时间之间易位纳米孔)。这两个群体可以具有基本上相同的长度,但是在一些其它方面不同,如在其二级结构或组成方面,这可能影响自由易位所花费的时间。例如,一个群体可以具有第一结构或组成(并且因此相对于检测器自由移动,例如在第一阈值时间与第二阈值时间之间易位纳米孔)并且第二群体可以具有第二结构或组成(并且因此相对于检测器自由移动,例如在第三阈值时间与第四阈值时间之间易位纳米孔)。一个群体可以具有第一结构或组成(并且因此相对于检测器自由移动并产生具有在第一阈值时间与第二阈值时间之间的电流和/或噪声水平的信号)并且第二群体可以具有第二结构或组成(并且因此相对于检测器自由移动并产生具有在第三阈值时间与第四阈值时间之间的电流和/或噪声水平的信号)。
本领域技术人员将理解可以使用另外的阈值。任何合适数量的阈值可以用于选择性地表征期望的多核苷酸。例如,阈值的数量可以在1与20之间,如1与10之间,例如1与6之间,如1、2、3、4或5。
对于本领域技术人员来说,测量多核苷酸的第一部分易位通过或穿过纳米孔所花费的时间是常规的。
分子(例如靶多核苷酸)在孔的通道中的结合将对通过孔的开放通道离子流产生影响,这是孔通道的“分子感测”的本质。可以使用合适的测量技术通过电流的变化来测量开放通道离子流的变化(例如,WO 2000/28312和D.Stoddart等人,《美国国家科学院院刊(Proc.Natl.Acad.Sci.)》,2010,106,7702-7或WO 2009/077734)。通过电流的减少测量的离子流的减少程度与孔内或孔附近的障碍物的大小有关。因此,孔中或孔附近的所关注分子(例如靶多核苷酸)的结合提供了可检测和可测量的事件,从而形成了“生物传感器”的基础。与多核苷酸结合相关的事件是可检测的并且可以提供如本文所描述的合适的开始信号。例如,在一些实施例中,多核苷酸的第一部分易位通过或穿过纳米孔所花费的时间是从开始信号开始测量的。开始信号可以是例如通过捕获多核苷酸的第一部分来部分阻断开放纳米孔,这可以例如被鉴定为从开孔电流变为多核苷酸捕获电流的离子电流读数。如本文所解释的,多核苷酸捕获电流可以具有特性电流和/或噪声特征。
任何合适的开始信号都可以用于本文所讨论的方法。当要测量的区的第一部分要易位通过或穿过纳米孔时,可以通过离子电流或光学读数的变化来提供合适的开始信号。例如,与要被选择性地表征的多核苷酸连接的衔接子的易位可以提供用于确定多核苷酸的后续第一部分的长度的开始信号。开始信号可以作为离子电流读数或光学读数的特性来提供,如噪声水平或信号幅度的变化。
在一些实施例中,测量多核苷酸的第一部分易位通过或穿过纳米孔所花费的时间,直到达到停止信号为止。停止信号可以是例如返回到开孔离子电流水平,或者可以是与如标记或间隔子等多核苷酸中的特征相关的特性读数(例如电流读数、噪声水平等)。下文更详细地描述了此类特征。
在一些实施例中,停止信号由多核苷酸上的特征提供。在一些实施例中,停止信号由多核苷酸中的二级或三级结构提供,如发夹环或G-四链体。在一些实施例中,停止信号由与靶多核苷酸杂交的第二多核苷酸提供。在一些实施例中,停止信号由与靶多核苷酸杂交的寡核苷酸提供。在此类实施例中,当寡核苷酸通过纳米孔从靶多核苷酸中去除时,使寡核苷酸与纳米孔接触产生特性读数。特性读数可以包括如本文所使用的停止信号。
在其它实施例中,停止信号可以由如化学基团等多核苷酸上的标记提供。合适的化学基团包含荧光团、链霉亲和素和/或生物素、胆固醇、亚甲蓝、二硝基苯酚(DNP)、地高辛和/或抗地高辛以及二苄基环辛炔基团等。其它合适的标记在本文的间隔子的上下文中讨论。当标记从多核苷酸中去除或通过或穿过纳米孔时,标记与纳米孔的接触产生特性读数。此类特性读数可以包括停止信号。
在一些实施例中,相对于检测器自由移动多核苷酸的第一部分(例如,当检测器是纳米孔时,通过使样品中的多核苷酸的第一部分易位通过或穿过纳米孔)包括向多核苷酸施加物理或化学力。在一些实施例中,物理力由电势(例如电压)或温度梯度等提供,或者由多核苷酸处理酶提供。在一些实施例中,化学力由浓度(例如,pH)梯度提供。
在一些实施例中,相对于检测器自由移动多核苷酸的第一部分(例如,使样品中的多核苷酸的第一部分自由易位通过或穿过纳米孔)包括跨纳米孔施加电势并允许多核苷酸的第一部分在所施加的电势的影响下相对于检测器移动(例如,易位通过或穿过纳米孔)。例如,多核苷酸是带负电荷的分子,并且因此跨检测器,例如纳米孔施加电压电势将导致多核苷酸在所施加的电压电势的影响下相对于检测器(例如纳米孔)移动。例如,当检测器是纳米孔时,如果相对于纳米孔的顺式侧向纳米孔的反式侧施加正电压电势,那么这将诱导带负电的多核苷酸从纳米孔的顺式侧移动到纳米孔的反式侧。类似地,如果相对于纳米孔的顺式侧向纳米孔的反式侧施加正电压电势,那么这将阻碍带负电的多核苷酸从纳米孔的反式侧向纳米孔的顺式侧移动。如果相对于纳米孔的顺式侧向纳米孔的反式侧施加负电压电势,那么会发生相反的情况。本文更详细地描述了施加适当电压的设备和方法。
在没有竞争力的情况下,多核苷酸将在施加的电压电势的影响下自由易位。易位速率通常与所施加的电势成比例。通常,电势越高,易位速率越快。在一些实施例中,所施加的电压电势在约-2V至约+2V的范围内(合适的电压在下文更详细地描述)并且多核苷酸通过纳米孔的电压驱动自由易位速度为至少1000b/s(1毫秒/碱基),更通常为至少10kb/s(100微秒/碱基)。速度通常在约0.1至约10微秒/碱基的范围内(即约0.1毫秒/千碱基[ms/kb]至约10ms/kb;或换句话说,约0.1秒/兆碱基[s/Mb]至约10s/Mb)。通常,多核苷酸通过纳米孔的电压驱动自由易位的速度在约0.5至约5微秒/碱基(即约0.5ms/kb至约5ms/kb;约0.5s/Mb至约5s/Mb)的范围内。更通常地,多核苷酸通过纳米孔的电压驱动自由易位的速度为约1微秒/碱基(即约1ms/kb;约1s/Mb)。因此,通过确定多核苷酸的第一部分在施加的电压电势的影响下相对于检测器移动(例如易位通过或穿过纳米孔)的时间,可以评估多核苷酸的大致长度。
在一些实施例中,控制多核苷酸的第一部分相对于检测器的移动速度(例如,当检测器是纳米孔时,控制多核苷酸的第一部分通过或穿过纳米孔的易位速度)是有利的,而不是仅仅依靠控制施加的电势。例如,在一些实施例中,使用超快速多核苷酸处理酶控制多核苷酸的第一部分相对于检测器的易位(例如通过或穿过纳米孔)速度是有益的。在其它实施例中,多核苷酸的第一部分相对于检测器的易位(例如通过或穿过纳米孔)速度使用滑块或制动器来控制。滑块可以包括多核苷酸处理酶,例如,如本文所描述的进行修饰以使其不从其所在的多核苷酸链解离的多核苷酸处理酶。制动器可以包含对多核苷酸链的修饰以阻碍(例如减慢)多核苷酸链通过纳米孔的易位。例如,多核苷酸链可以具有与其连接的单链结合蛋白(SSB)。SSB为易位提供了屏障,因为其需要通过纳米孔从多核苷酸链中去除以使得多核苷酸链能够移动通过孔。本领域已知的任何合适的制动器或滑块可以用于本文所提供的方法。如本文所使用的,使用超快速多核苷酸处理酶、滑块和/或制动器控制多核苷酸的第一部分通过或穿过纳米孔的易位速度是使样品中的多核苷酸的第一部分自由易位通过或穿过纳米孔的实例。
多核苷酸的第一部分通过或穿过纳米孔的易位速度也可以通过如纳米孔或溶剂效应等因子控制。纳米孔内的电荷(例如在通过纳米孔的通道的溶剂可及表面)可以用于与核苷酸相互作用并控制易位速度,例如通过减慢速度。类似地,可以使用除了纳米孔之外的检测器表面上的电荷。可以类似地使用纳米孔通道内的收缩和其它空间嵌段。可以选择或控制如粘度、电渗透、空间嵌段、电荷等溶剂参数和效应来控制自由易位速度。
一些现有技术试图通过使用多核苷酸处理酶来控制要表征的多核苷酸的第一部分通过孔的移动以及通过使用相同的多核苷酸处理酶或不同的多核苷酸处理酶来控制多核苷酸的第二部分通过孔的移动,从而提高测序准确性,使得可以确定多核苷酸的第一部分的序列和多核苷酸的第二部分的序列(例如模板链的序列和双链多核苷酸补体链的序列),其中组合来自两条链的序列信息以提高测序准确性。例如,WO 2013/014451描述了双链多核苷酸的两条链如何通过发夹环连接,使得正向(模板)链易位之后是反向(互补)链易位,其中确定正向和反向链的序列并且组合从正向和反向链获得的序列信息,以便提供比仅通过测量模板链可能获得的更高置信度观察结果。类似地,WO 2018/100370描述了双链多核苷酸的两条链如何可以按顺序易位通过纳米孔以提供序列信息,而不需要通过桥接部分共价连接两条链,其中确定两条链的序列并且组合从两条链获得的序列信息,以便提供多核苷酸序列的更高置信度观察结果。本领域技术人员将理解,此类技术(例如,WO 2013/014451和WO 2018/100370中描述的那些技术)与本文所描述的技术非常不同,其中多核苷酸的第一部分以通常太快而无法允许获得测序信息的速度自由易位通过纳米孔。本文所描述的方法不需要确定多核苷酸的第一部分的序列——相反,相关可观察值是多核苷酸的第一部分易位通过孔所需的时间,以便评估多核苷酸的大致长度。
例如,超快速多核苷酸处理酶可以以每秒几千个碱基,例如大约10kb/s或更快,如至少5kb/s,例如至少8kb/s,例如至少10kb/s,例如至少15kb/s,如至少20kb/s的速率控制多核苷酸相对于检测器(例如纳米孔)的移动。当详细表征多核苷酸时,例如当确定多核苷酸的序列时,超快速多核苷酸处理酶通常不适于控制多核苷酸的移动,因为多核苷酸相对于检测器(例如纳米孔)的移动通常太快(例如相对于数据采集极限太快,例如用于多核苷酸测序)。然而,超快速多核苷酸处理酶可以用于控制多核苷酸的第一部分相对于检测器的易位(例如通过或穿过纳米孔),以便评估其长度或本文所描述的其它性质,因为不需要详细的表征。在此类实施例中,多核苷酸处理酶对多核苷酸的处理对于多核苷酸的详细表征来说太快是有益的,以便最小化评估多核苷酸的长度所需的时间并且因此最小化在不需要的多核苷酸的非生产性表征中的任何时间损失。因此,在一些实施例中,本文所提供的方法不包括当多核苷酸的第一部分相对于检测器移动(例如通过或穿过纳米孔)时确定所述多核苷酸的第一部分的序列。
适于控制多核苷酸相对于检测器的移动(例如用于控制多核苷酸的第一部分通过或穿过纳米孔的易位)的超快速多核苷酸处理酶在本领域中是已知的。合适的实例包含如FtsK和SpoIIIE家族中的那些易位酶等易位酶(例如DNA易位酶);如phi29包装马达等包装马达;以及如AddAB和RecBCD等解旋酶和解旋酶-核酸酶。
因此,提供了一种表征样品中的多核苷酸的方法,所述方法包括:(i)使检测器与多核苷酸接触;(ii a)在所述多核苷酸的第一部分在所施加的力下相对于所述检测器移动(例如超快速移动)期间进行测量;(ii b)评估所述多核苷酸的所述第一部分的一个或多个性质;(iii)(a)在所述多核苷酸的所述第一部分具有一个或多个期望的性质的情况下,控制所述多核苷酸的第二部分相对于所述检测器的移动,并且当所述多核苷酸的所述第二部分相对于所述检测器移动时进行测量以确定所述多核苷酸的一个或多个特性,由此表征所述多核苷酸;或(b)在所述多核苷酸的所述第一部分不具有一个或多个期望的性质的情况下,拒绝所述多核苷酸。
因此,还提供了一种选择性地表征具有期望的长度的多核苷酸的方法,所述方法包括:(i)使跨膜纳米孔与多核苷酸的样品接触;(ii)确定所述样品中的多核苷酸的第一部分在所施加的力下易位(例如超快速易位)通过或穿过所述纳米孔所花费的时间,以便评估所述多核苷酸的大致长度;(iii)在所述多核苷酸不具有期望的长度的情况下,将所述多核苷酸从所述纳米孔中排出并重复步骤(ii)和(iii);或者在所述多核苷酸具有期望的长度的情况下,控制所述多核苷酸的第二部分通过或穿过所述纳米孔的移动并且当所述多核苷酸的所述第二部分相对于所述纳米孔移动时进行测量以确定所述多核苷酸的一个或多个特性,由此选择性地表征具有期望的长度的多核苷酸。在此类实施例中,超快速易位对于如要确定的多核苷酸的序列等特性而言通常太快,同时仍允许确定多核苷酸的大致长度或如其结构或组成等其它相关性质。步骤(iii)中的受控易位比步骤(ii)中的超快速易位慢并且允许确定如其序列等多核苷酸的特性。
在一些实施例中,使多核苷酸链的第一部分易位通过或穿过纳米孔所花费的时间与多核苷酸的长度之间的关系是近似线性的;即与施加在多核苷酸上的力成正比。
拒绝不期望的多核苷酸,例如通过将不期望的多核苷酸从纳米孔中排出
如上文所解释的,所提供的方法包括评估多核苷酸的第一部分的一个或多个性质。当多核苷酸的第一部分具有一个或多个期望的性质时,进一步表征多核苷酸并且当多核苷酸的第一部分不具有一个或多个期望的性质时,所提供的方法包括拒绝多核苷酸。例如,所提供的方法可以包括评估多核苷酸的大致长度,以便选择性地表征具有期望的长度的多核苷酸。当多核苷酸不具有期望的长度时,所提供的方法可以包括将多核苷酸从检测器(例如纳米孔)中排出。当多核苷酸的第一部分不具有一个或多个期望的性质时,所公开的方法的步骤(iii)通常包括用来自样品的另外的多核苷酸重复步骤(i)、(ii a)和(iib),直到鉴定出其中第一部分具有一个或多个期望的性质的多核苷酸为止。
如果多核苷酸不具有一个或多个期望的性质,那么可以通过任何合适的方式将其从检测器中拒绝。例如,可以将其从检测器中排出。可以使用用于排出聚合物的任何合适的方式并且对于本领域技术人员来说是容易获得的。例如,在一些实施例中,从检测器(例如从纳米孔)中排出聚合物包括反转跨检测器(例如纳米孔)施加的电势的偏置。例如,在一些实施例中,多核苷酸的捕获和/或表征可以在施加的正电势下进行并且如果多核苷酸不具有期望的长度,那么排出多核苷酸可以包括施加负电势。在其它实施例中,多核苷酸的捕获和/或表征可以在施加的负电势下进行并且如果多核苷酸不具有期望的长度,那么排出多核苷酸可以包括施加正电势。
在一些实施例中,当未选择的多核苷酸的排出包括施加电压电势时,用于排出多核苷酸的电压电势的幅度大于在评估多核苷酸的第一部分的长度期间施加的电压电势的幅度。在其它实施例中,当未选择的多核苷酸的排出包括施加电压电势时,用于排出多核苷酸的电压电势的幅度低于在评估多核苷酸的第一部分的长度期间施加的电压电势的幅度。在其它实施例中,当未选择的多核苷酸的排出包括施加电压电势时,用于排出多核苷酸的电压电势的幅度与在评估多核苷酸的第一部分的长度期间施加的电压电势的幅度相同。
多核苷酸的捕获和/或表征可以在没有施加的电势的情况下进行并且如果多核苷酸不具有期望的长度,那么排出多核苷酸可以包括施加正电势或负电势,这取决于用于执行所述方法的设备的配置。在一些实施例中,多核苷酸的第一部分的易位由多核苷酸处理酶控制并且多核苷酸的排出通过改变酶的操作条件来实现,例如通过控制可用于酶的燃料、改变pH、温度等。
控制多核苷酸的第二部分的移动
当多核苷酸的第一部分的评估证实多核苷酸具有一个或多个期望的性质时,所公开的方法包括控制多核苷酸的第二部分相对于检测器的移动。例如,当多核苷酸的长度的评估证实多核苷酸具有期望的长度时,所公开的方法可以包括控制多核苷酸的第二部分通过或穿过检测器(例如纳米孔)的移动。
可以使用任何合适的方法来控制多核苷酸的第二部分相对于检测器的移动,例如通过或穿过纳米孔。在一些实施例中,通过控制施加到多核苷酸的力来控制多核苷酸的移动(例如通过或穿过纳米孔)。上文讨论了对多核苷酸施加力。
在一些实施例中,使用能够控制多核苷酸的移动的多核苷酸结合蛋白来控制多核苷酸的第二部分相对于检测器的移动,例如通过或穿过纳米孔。多核苷酸结合蛋白优选地能够控制多核苷酸相对于纳米孔的移动,例如控制多核苷酸通过纳米孔的移动。多核苷酸结合蛋白也被称为马达蛋白。如本文更详细描述的,在一些实施例中,多核苷酸结合蛋白在执行本文所描述的方法之前存在于衔接子上。在一些实施例中,多核苷酸结合蛋白在执行本文所描述的方法之前停靠在衔接子上。在一些实施例中,多核苷酸结合蛋白在执行本文所描述的方法之前停靠在多核苷酸分析物上。
本文更详细地描述了合适的多核苷酸结合蛋白。例如,在一些实施例中,样品中的多核苷酸是双链的并且能够控制多核苷酸的移动的多核苷酸结合蛋白(即马达蛋白)与双链多核苷酸的至少一条链的至少一个末端结合。
在一些实施例中,多核苷酸的第一部分易位通过或穿过纳米孔。在一些优选实施例中,多核苷酸的第一部分易位通过纳米孔。在一些实施例中,多核苷酸的第二部分易位通过或穿过纳米孔。在一些优选实施例中,多核苷酸的第二部分易位通过纳米孔。在一些实施例中,多核苷酸的第一部分和第二部分按顺序易位通过纳米孔。
如在此更详细解释的,在一些实施例中,多核苷酸的第一部分和多核苷酸的第二部分是相同的——即多核苷酸的一部分自由易位通过或穿过检测器(例如纳米孔)(包括在多核苷酸的第一部分中)并且对相同的部分进行表征,例如进行测序(包括在第二部分中)。本文更详细地描述了多核苷酸的第一部分和第二部分相同的实施例。例如,在一个这样的实施例中,多核苷酸结合蛋白可以与多核苷酸链的一个末端结合,多核苷酸的第一部分可以在起点与多核苷酸结合蛋白之间(起点可以例如在链的末端或由与链连接的衔接子提供);并且第二部分可以与第一部分相同。在该实施例的示例性模式中,多核苷酸的第一部分的自由易位用于评估多核苷酸的长度并且然后多核苷酸结合蛋白用于控制多核苷酸的第二部分相对于纳米孔的移动,以便表征多核苷酸的第二部分,并且第二部分与第一部分相同。
在其它实施例中,多核苷酸的第一部分与多核苷酸的第二部分不同。在其它实施例中,多核苷酸的第一部分与多核苷酸的第二部分重叠。例如,多核苷酸的第一部分可以包括多核苷酸的第二部分的一部分。例如,对于要表征的长多核苷酸链,第一部分可以是该链在起点与终点之间的一部分并且第二部分可以是包括第一部分和多核苷酸链的另外的核苷酸的链的全部或部分。
衔接子
如下文更详细解释的,多核苷酸衔接子可以与靶多核苷酸连接以表征靶多核苷酸。在本文所提供的方法的一些实施例中,在步骤(i)之前(即在检测器,例如跨膜纳米孔与多核苷酸的样品接触之前),衔接子与样品中的多核苷酸的一个或两个末端连接。
衔接子通常包括能够与靶多核苷酸的末端连接的多核苷酸链。靶多核苷酸通常旨在用于根据本文所公开的方法进行表征。
可以将多核苷酸衔接子添加到靶多核苷酸的两个末端。另选地,可以将不同的衔接子添加到靶多核苷酸的两个末端。可以将衔接子添加到靶多核苷酸的仅一个末端。可以将衔接子添加到双链多核苷酸的两条链上。可以将衔接子添加到多核苷酸的仅一条链上。将衔接子添加到多核苷酸的方法是本领域已知的。衔接子可以例如通过连接,通过点击化学,通过标记,通过拓扑异构化或通过任何其它合适的方法与多核苷酸连接。
在一个实施例中,所述衔接子或每个衔接子是合成的或人工的。通常,所述衔接子或每个衔接子包括如本文所描述的聚合物。在一些实施例中,所述衔接子或每个衔接子包括如本文所描述的间隔子。
在一些实施例中,所述衔接子或每个衔接子包括多核苷酸。所述多核苷酸衔接子或每个多核苷酸衔接子可以包括DNA、RNA、经修饰的DNA(如碱性DNA)、RNA、PNA、LNA、BNA和/或PEG。通常,所述衔接子或每个衔接子包括单链和/或双链DNA或RNA。衔接子可以包括与其所连接的多核苷酸链同一类型的多核苷酸。衔接子可以包括与其所连接的多核苷酸链不同类型的多核苷酸。在一些实施例中,在本文所描述的方法中评估和表征的多核苷酸链是双链DNA链并且衔接子包括DNA或RNA,例如双链或单链DNA。
在一些实施例中,衔接子可以是桥接部分。桥接部分可以用于连接双链多核苷酸的两条链。例如,在一些实施例中,桥接部分用于将双链多核苷酸的模板链与双链多核苷酸的补体链连接。
桥接部分通常共价连接靶多核苷酸的两条链。桥接部分可以是能够连接靶多核苷酸的两条链的任何东西,其限制条件为桥接部分不干扰单链多核苷酸通过跨膜孔的移动。合适的桥接部分包含但不限于聚合连接子、化学连接子、多核苷酸或多肽。优选地,桥接部分包括DNA、RNA、经修饰的DNA(如无碱基DNA)、RNA、PNA、LNA或PEG。桥接部分更优选地是DNA或RNA。
在一些实施例中,桥接部分是发夹衔接子。因此,在一些实施例中,多核苷酸是包括通过发夹或发夹衔接子与第二链连接的第一链的双链多核苷酸。发夹衔接子是包括单个多核苷酸链的衔接子,其中多核苷酸链的末端能够彼此杂交或被杂交到彼此,并且其中多核苷酸的中间区段形成环。可以使用本领域中已知的方法来设计合适的发夹衔接子。在一些实施例中,发夹环的长度通常为4至100个核苷酸,例如长度为4至50个,如4至20个,例如4至8个核苷酸。
在一些实施例中,桥接部分(例如发夹衔接子)通过本领域已知的任何合适的方式与靶多核苷酸连接。桥接部分(例如发夹衔接子)可以单独地合成,并且化学连接或酶促地与靶多核苷酸连接。可替代地,桥接部分(例如发夹衔接子)可以在靶多核苷酸的加工中产生。在一些实施例中,桥接部分(例如发夹衔接子)在靶多核苷酸的一个末端处或附近与靶多核苷酸连接。在一些实施例中,桥接部分(例如发夹衔接子)在靶多核苷酸末端的50个核苷酸内,例如20个核苷酸内,例如10个核苷酸内与靶多核苷酸连接。在一些实施例中,桥接部分(例如发夹衔接子)在靶多核苷酸的末端处与靶多核苷酸连接。
在一些实施例中,桥接部分(例如,发夹衔接子)连接在靶多核苷酸的一个末端处。桥接部分(例如,发夹衔接子)通常不连接在靶多核苷酸的两个末端处。当桥接部分(例如,发夹衔接子)与靶多核苷酸连接时,桥接部分可以包括与靶多核苷酸相同类型的核苷酸或者可以包括与靶多核苷酸不同的核苷酸。
在一些实施例中,衔接子可以是线性衔接子。线性衔接子可以与单链多核苷酸的任一末端或两个末端结合。当多核苷酸是双链多核苷酸时,线性衔接子可以结合到双链多核苷酸的任一条链或两条链的任一末端或两个末端。线性衔接子可以包括如本文所描述的前导序列。线性衔接子可以包括用于与如本文所描述的标签(如孔标签)杂交的部分。线性衔接子的长度可以为10至150个核苷酸,如长度为20至120个,例如30至100个,例如40至80个,如50至70个核苷酸。线性衔接子可以是单链的。线性衔接子可以是双链的。
可以通过本领域已知的任何合适的方式将线性衔接子与靶多核苷酸连接。线性衔接子可以单独的合成,并且化学连接或酶促地与靶多核苷酸连接。可替代地,线性衔接子可以在靶多核苷酸的加工中产生。在一些实施例中,线性衔接子在靶多核苷酸的一个末端处或附近与靶多核苷酸连接。在一些实施例中,线性衔接子在靶多核苷酸末端的50个核苷酸内,例如20个核苷酸内,例如10个核苷酸内与靶多核苷酸连接。在一些实施例中,线性衔接子在靶多核苷酸的末端处与靶多核苷酸连接。当线性衔接子与靶多核苷酸连接时,线性衔接子可以包括与靶多核苷酸相同类型的核苷酸或者可以包括与靶多核苷酸不同的核苷酸。
在一些实施例中,衔接子可以是Y衔接子。Y衔接子通常是多核苷酸衔接子。Y衔接子通常是双链的,并且包括(a)在一个末端,两条链杂交在一起的区,和(b)在另一个末端,两条链不互补的区。链的非互补部分通常形成突出端。由于两条链通常不像双链部分那样,彼此不杂交,所以在Y衔接子中非互补区的存在使衔接子具有Y形状。Y衔接子的两个单链部分的长度可以相同,或者长度可以不同。例如,Y衔接子的一个单链部分的长度可以为10至150个核苷酸,如长度为20至120个,例如30至100个,例如40至80个,如50至70个核苷酸,并且Y衔接子的另一个单链部分的长度可以独立地为10至150个核苷酸,如长度为20至120个,例如30至100个,例如40至80个,如50至70个核苷酸。Y衔接子的双链“茎”部分的长度可以为例如10至150个核苷酸,如长度为20至120个,例如30至100个,例如40至80个,如50至70个核苷酸。
在一些实施例中,Y衔接子连接在双链多核苷酸的一个末端处。在一些实施例中,每个Y衔接子是相同的。在其它实施例中,与双链多核苷酸的一个末端连接的Y衔接子不同于与双链多核苷酸的另一个末端连接的Y衔接子。在一些实施例中,Y衔接子连接在双链多核苷酸的一个末端处而不是另一个末端处(即仅连接在双链多核苷酸的一个末端处)。
在一些实施例中,如线性衔接子或Y衔接子等多核苷酸衔接子的非互补链之一包括前导序列,所述前导序列当与跨膜孔接触时能够穿入纳米孔中。前导序列通常包括聚合物,例如多核苷酸,例如DNA或RNA、经修饰的多核苷酸(例如无碱基DNA)、PNA、LNA、聚乙二醇(PEG)或多肽。在一些实施例中,前导序列包括DNA的单链,例如聚dT区段。前导序列可以是任何长度,但是通常长度为10至150个核苷酸,如长度为20至120、例如30至100、例如40至80,如50至70个核苷酸。
在一些实施例中,Y衔接子在靶多核苷酸的一个末端处或附近与靶多核苷酸连接。在一些实施例中,Y衔接子在靶多核苷酸末端的50个核苷酸内,例如20个核苷酸内,例如10个核苷酸内与靶多核苷酸连接。在一些实施例中,Y衔接子在靶多核苷酸的末端处与靶多核苷酸连接。当Y衔接子与靶多核苷酸连接时,Y衔接子可以包括与靶多核苷酸相同类型的核苷酸或者可以包括与靶标不同的核苷酸。
本领域技术人员还将理解,当衔接子包括多核苷酸链时,衔接子的序列通常不是决定性的并且可以如要表征的任何多核苷酸等根据实验条件来控制或选择。在实例中仅以说明的方式提供了示例性序列。例如,衔接子可以包括如SEQ ID NO:11、12、15或16中的一个或多个等序列或与SEQ ID NO:11、12、15或16中的一个或多个具有至少20%,如至少30%,例如至少40%,如至少50%,例如至少60%,如至少70%,例如至少80%,例如至少90%,例如至少95%序列相似性或同一性的多核苷酸序列。衔接子的序列通常可以改变,而不会对本文所提供的方法的功效产生负面影响。
在一个实施例中,衔接子可以包括如本文更详细描述的膜锚或孔锚。在一些实施例中,锚可以与和突出端互补并因此杂交的多核苷酸连接,所述突出端与核酸处理酶结合。如膜锚等锚可以与多核苷酸的第一部分和/或第二部分连接。
在一些实施例中,多核苷酸结合蛋白(下文讨论)可以与衔接子结合或与衔接子结合。在所公开方法的步骤(i)之前,多核苷酸结合蛋白可以与衔接子结合或停靠在所述衔接子处。在一些实施例中,能够控制多核苷酸的移动的多核苷酸结合蛋白与衔接子结合,所述衔接子与多核苷酸的至少一个末端连接。例如,多核苷酸结合蛋白可以与如Y衔接子等衔接子的突出端结合。在一些实施例中,多核苷酸结合蛋白可以与发夹或发夹衔接子结合和/或停靠在所述发夹或所述发夹衔接子处。在一些实施例中,多核苷酸结合蛋白在所公开的方法的步骤(i)之前与发夹或发夹衔接子结合和/或停靠在所述发夹或所述发夹衔接子处。
在另一个实施例中,多核苷酸结合蛋白可以与双链区结合。在其它实施例中,多核苷酸结合蛋白可以与衔接子的单链和/或双链区结合。在其它实施例中,第一多核苷酸结合蛋白可以与此类衔接子的单链区结合,并且第二多核苷酸结合蛋白可以与衔接子的双链区结合。
在一些实施例中,多核苷酸衔接子可以包括一个或多个间隔子(如本文所描述的)。例如,当包括间隔子的衔接子的部分易位通过或穿过纳米孔时,间隔子可以用于提供特性信号和/或将多核苷酸结合蛋白定位在衔接子上。
通常,在本文所公开的方法中,要选择性地表征的多核苷酸是双链多核苷酸。
在一些实施例中,如发夹衔接子等结合部分与双链多核苷酸的一个末端连接。在一些实施例中,双链多核苷酸的第一部分是第一链。在一些实施例中,所述方法包括使双链多核苷酸的第一部分(即第一链)自由易位通过或穿过检测器(例如纳米孔)并且确定双链多核苷酸的第一部分(即第一链)易位通过或穿过检测器(例如孔)所花费的时间,以便评估多核苷酸的大致长度。在一些实施例中,双链多核苷酸的第二部分是第二链并且通过发夹衔接子与第一部分(第一链)连接。一旦第一部分(第一链)已经用于评估多核苷酸的大致长度并且已经达到发夹衔接子,那么如果多核苷酸具有期望的长度,那么控制多核苷酸的第二部分(第二链)通过或穿过检测器(例如纳米孔)的移动,使得可以对多核苷酸的第二部分(第二链)进行表征,例如可以进行测序。在其它实施例中,第二部分与第一部分相同(例如第二部分是第一链)并且在已经评估第一部分的大致长度之后表征。在其它实施例中,通过在多核苷酸的第一部分的易位期间监测电流和/或噪声,类似地评估多核苷酸的第一部分的组成或结构。
在一些实施例中,多核苷酸的第二部分(例如第二链)通过或穿过检测器(例如孔)的受控移动由能够控制多核苷酸相对于检测器或纳米孔的移动的多核苷酸结合蛋白控制,如本文中更详细描述的。在一些实施例中,能够控制多核苷酸的移动的多核苷酸结合蛋白与发夹衔接子结合。在一些实施例中,在衔接子与双链多核苷酸连接之前,多核苷酸结合蛋白与发夹衔接子结合。在一些实施例中,在多核苷酸结合蛋白与衔接子结合之前,衔接子与双链多核苷酸连接。在一些实施例中,一旦双链多核苷酸的第一部分已经通过或穿过检测器或纳米孔,那么多核苷酸结合蛋白可以与多核苷酸接触并且由此与衔接子结合。
在一些实施例中,包括单链前导序列的衔接子与双链多核苷酸连接。在一些实施例中,包括单链前导序列的衔接子与双链多核苷酸的一条链连接。在一些实施例中,包括单链前导序列的衔接子与双链多核苷酸的第一部分连接。在一些实施例中,包括单链前导序列的衔接子与双链多核苷酸的两条链连接。通常在此类实施例中,与双链多核苷酸的第一部分(例如第一链)连接的前导序列不与前导序列杂交,所述前导序列与双链多核苷酸的第二部分(例如第二链)连接。在一些实施例中,前导序列可以是如本文所描述的Y衔接子的部分。
在一些实施例中,包括单链前导序列的衔接子与双链多核苷酸的一个末端连接。在一些实施例中,包括单链前导序列的衔接子与双链多核苷酸的每个末端连接。在一些实施例中,衔接子与双链多核苷酸的仅一条链连接。在一些实施例中,衔接子与双链多核苷酸的每条链连接。例如,在一些实施例中,Y衔接子可以与双链多核苷酸的一个或两个末端连接。
在一些实施例中,多核苷酸结合蛋白与衔接子结合。在一些实施例中,多核苷酸结合蛋白与作为衔接子的双链多核苷酸的同一链结合。在一些实施例中,多核苷酸结合蛋白与作为衔接子的多核苷酸的另一条链结合。在一些实施例中,多核苷酸结合蛋白与多核苷酸的两条链结合。在一些实施例中,所述多核苷酸在一个末端处包括单链前导序列并且在所述多核苷酸的同一链上的另一个末端处具有与其结合的多核苷酸结合蛋白。
在一些实施例中,具有与其结合的衔接子的双链多核苷酸的第一链自由易位通过或穿过检测器或纳米孔,以便评估多核苷酸的大致长度。在一些实施例中,自由易位被衔接子上的多核苷酸结合蛋白停止。如果多核苷酸具有期望的长度,那么多核苷酸结合蛋白可以控制多核苷酸通过或穿过检测器或纳米孔的移动,同时进行测量以便可以表征多核苷酸。在其它实施例中,通过在多核苷酸的第一部分的易位期间监测电流和/或噪声,类似地评估多核苷酸的第一部分的组成或结构。
在一些实施例中,双链多核苷酸的两条链在不共价连接的情况下易位通过或穿过检测器或纳米孔。在此类实施例中,多核苷酸的第一部分是双链多核苷酸的第一链(例如模板链)并且多核苷酸的第二部分是多核苷酸的第二链(例如补体链)。在一些实施例中,一旦双链多核苷酸的第一部分(例如第一链)已经自由易位通过或穿过检测器或孔,那么双链多核苷酸的第二部分(例如第二链)保持在检测器或纳米孔附近。在一些实施例中,第二链优先被检测器或纳米孔捕获,例如由于第二链在检测器或纳米孔附近的局部浓度增加。标签可以用于将多核苷酸的第二部分保留在纳米孔附近。本文更详细地描述了标签。
在一些实施例中,双链多核苷酸的第二链的一部分包括与标签序列互补的序列。在一些实施例中,寡核苷酸与双链多核苷酸的第二链杂交并且寡核苷酸包括(a)与第二链的一部分互补的部分和(b)与标签序列互补的部分。在一些实施例中,寡核苷酸与双链多核苷酸的第二链杂交并且寡核苷酸包括(a)与第二链的一部分互补的部分和(b)能够与标签结合的亲和分子。在一些实施例中,双链多核苷酸的第二链的一部分与标签序列的杂交包括至少50%,例如至少60%,如至少70%,例如至少80%,例如至少90%,如至少95%或更多的第二链的一部分中的核苷酸残基与标签序列的杂交。部分的长度可以是例如10至50个核苷酸,如20至30个核苷酸。
在一些实施例中,与标签序列结合和/或杂交的第二链的部分是与靶多核苷酸连接的衔接子的一部分。
在一些实施例中,当检测器是纳米孔时,寡核苷酸或第二链与标签或标签序列结合,所述标签或标签序列与纳米孔连接或在纳米孔附近,例如与纳米孔相邻。在一些实施例中,寡核苷酸或第二链与标签或标签序列结合,所述标签或标签序列与纳米孔连接或在纳米孔附近,例如与纳米孔相邻。在一些实施例中,当第一链移动通过或穿过纳米孔时,第二链或其一部分与标签序列杂交。
在一些实施例中,所述多核苷酸的所述第一部分是所述第一链的至少一部分并且所述多核苷酸的所述第二部分是所述第二链的至少一部分。在一些实施例中,多核苷酸的第一部分是第一链长度的至少10%,例如第一链长度的至少20%,如至少40%,例如至少60%,例如至少80%,例如至少90%,例如至少95%或更多,如至少97%,至少98%或至少99%。在一些实施例中,多核苷酸的第二部分是第二链长度的至少10%,例如第二链长度的至少20%,如至少40%,例如至少60%,例如至少80%,例如至少90%,例如至少95%或更多,如至少97%,至少98%或至少99%。
在一些实施例中,所述方法包括一旦双链多核苷酸的第一部分已经全部或部分易位通过或穿过检测器例如纳米孔,那么暂停所述双链多核苷酸的第一部分。在一些实施例中,以这种方式暂停双链多核苷酸的第一部分促进了包括与标签序列互补的序列的双链多核苷酸的第二部分的一部分与标签序列的结合。在一些实施例中,第一链通过跨膜纳米孔的移动被暂时暂停以允许第二链与标签序列杂交。
可以使用任何合适的方法来暂停多核苷酸的第一部分的易位,以便促进多核苷酸的第二部分与标签的结合。在一些实施例中,所施加的力被暂时暂停或停止,使得多核苷酸的第一部分的易位被暂停。在一些实施例中,暂停部分定位于多核苷酸的第一部分上。在一些实施例中,暂停部分是多核苷酸处理酶。在一些实施例中,暂停部分是化学基团。暂停部分的合适的化学物质类似于如下文所讨论的标签部分的化学物质。例如,弱结合的亲和素部分(例如链亲和素、中性亲和素等)、生物素基团、G-四链体或如凝血酶结合适体、BNA基团等类似的二级结构可以用于阻碍多核苷酸第一部分的易位,以便促进多核苷酸的第二部分与标签的结合。
在一些实施例中,暂停部分存在于多核苷酸序列内。在一些实施例中,暂停部分定位于环部分中。环部分可以由不与多核苷酸的第二链杂交的多核苷酸的第一链的一部分形成。在一些实施例中,环部分可以包括同源寡聚多核苷酸。同源寡聚多核苷酸可以包括poly(T)、poly(A)、poly(C)或poly(G)残基。通常使用Poly(T)残基。环部分可以包括一个或多个非核苷酸基团。环部分可以包括一个或多个如本文所定义的间隔子基团。环部分可以包括一个或多个选自间隔子9(iSp9)[(OCH2CH2)3OPO3]基团和间隔子18(iSp18)[(OCH2CH2)6OPO3]基团的间隔子基团,如本文更详细描述的。环部分可以包括非杂交多核苷酸的两个区和一个或多个间隔子基团。在一些实施例中,环部分包括一个或多个poly(T)部分和一个或多个间隔子基团。
在一些实施例中,包括暂停部分的环部分定位于多核苷酸的第一部分上,与包括定位于多核苷酸的第二部分上的多核苷酸处理酶的环部分相邻。在一些实施例中,包括暂停部分的环部分定位于多核苷酸的第一部分上,与包括定位于多核苷酸的第二部分上的多核苷酸处理酶的环部分偏移。
如果存在于多核苷酸的第一部分上,那么暂停部分可以在多核苷酸的与前导序列相反的末端处与多核苷酸的第一部分结合。换句话说,多核苷酸的第一部分可以在一个末端处具有前导序列并且在相反的末端处或附近具有如多核苷酸处理酶等暂停部分。如多核苷酸处理酶等暂停部分可以阻碍多核苷酸的第一部分的自由易位,由此暂停多核苷酸的第一部分的自由易位,促进多核苷酸的第二部分与标签的结合。
在一些实施例中,暂停部分在衔接子上提供。在一些实施例中,衔接子是在多核苷酸的第二部分上包括多核苷酸处理酶的相同衔接子的部分。例如,双链多核苷酸可以与衔接子连接,所述连接包括双链多核苷酸的第一链上的暂停部分和多核苷酸的第二链上的多核苷酸处理酶。衔接子可以包括包含与标签序列互补的序列的部分。在一些实施例中,衔接子是与双链多核苷酸的第一链和第二链两者连接的Y衔接子,以便与双链多核苷酸的第二链连接的Y衔接子的部分包括前导序列。
鉴于以上讨论,对于本领域技术人员显而易见的是,可以容易地应用本发明的方法。
因此,在一些优选实施例中,检测器是纳米孔。多核苷酸的第一部分与多核苷酸的第二部分相同。多核苷酸的第一部分的自由易位在相对于纳米孔的第一方向上。多核苷酸结合蛋白通常以与第一方向相反的第二方向移动多核苷酸通过或穿过纳米孔。例如,如果多核苷酸从纳米孔的顺式侧自由移位到反式侧,那么多核苷酸结合蛋白通常控制多核苷酸从纳米孔的反式侧到顺式侧的移动,同时表征多核苷酸。因此,通常,在这样的实施例中,多核苷酸结合蛋白在多核苷酸上定向,使得多核苷酸结合蛋白控制多核苷酸的第二部分抵抗所施加的力向回通过纳米孔的移动。WO 2013/057495中公开了以这种方式使用的合适的多核苷酸结合蛋白。
例如,前导序列可以与双链多核苷酸的第一链的一个末端连接并且多核苷酸结合蛋白可以与第一链的另一个末端连接。换句话说,在一些实施例中,多核苷酸在一个末端处包括单链前导序列并且在多核苷酸的同一链上的另一个末端处具有与其结合的多核苷酸结合蛋白。第一链的自由易位可能受到多核苷酸结合蛋白的阻碍。然后,多核苷酸结合蛋白控制第一链在与其自由易位相反的方向上的移动,同时表征多核苷酸。
在一些实施例中,前导序列包括在与双链多核苷酸的第一链的一个末端连接的线性衔接子中。在一些实施例中,前导序列包括在与双链多核苷酸的第一链的一个末端连接的Y衔接子中。在一些实施例中,多核苷酸结合蛋白与线性衔接子连接,所述线性衔接子与双链多核苷酸的第一链的相反的末端连接。在一些实施例中,多核苷酸结合蛋白与Y衔接子连接,所述Y衔接子与来自前导序列的双链多核苷酸的第一链的相反的末端连接。在一些实施例中,Y衔接子与双链多核苷酸的两个末端连接,其中Y衔接子的一条链包括前导序列并且衔接子的另一条链具有与其结合的多核苷酸结合蛋白。
因此,在一些实施例中,单链前导序列在所施加的力下被跨膜纳米孔捕获,多核苷酸的第一部分是位于前导多核苷酸与多核苷酸结合蛋白之间的部分,多核苷酸结合蛋白定向在多核苷酸上,使得多核苷酸结合蛋白控制多核苷酸的第二部分抵抗所施加的力向回通过纳米孔的移动,并且多核苷酸的第二部分与多核苷酸的第一部分相同。在一些实施例中,多核苷酸结合蛋白(即马达蛋白)直接与多核苷酸结合。在一些实施例中,多核苷酸结合蛋白(即马达蛋白)与衔接子结合,所述衔接子与多核苷酸连接。
在一些实施例中,由捕获多核苷酸的第一部分上的前导序列引起的信号是用于确定多核苷酸的第一部分易位通过或穿过纳米孔所花费的时间的开始信号。在一些实施例中,由与多核苷酸结合蛋白结合的多核苷酸的部分(例如与多核苷酸结合蛋白结合的衔接子)引起的信号产生信号,所述信号是用于确定多核苷酸的第一部分易位通过或穿过纳米孔所花费的时间的停止信号。在一些实施例中,与多核苷酸结合蛋白结合的多核苷酸的部分(例如与多核苷酸结合蛋白结合的衔接子)包括产生信号的如条形码或标签等可识别基序,所述信号是用于确定多核苷酸的第一部分易位通过或穿过纳米孔所花费的时间的停止信号。此类标记可以包含杂交的寡核苷酸和/或化学基团,如荧光团、链霉亲和素和/或生物素、胆固醇、亚甲蓝、二硝基苯酚(DNP)、地高辛和/或抗地高辛和二苄基环辛炔基团等,如本文所描述的。在一些实施例中,与多核苷酸结合蛋白结合的多核苷酸的部分(例如与多核苷酸结合蛋白结合的衔接子)的序列产生与停止信号相对应的已知信号。在一些实施例中,与多核苷酸结合蛋白结合的多核苷酸的部分的序列在多核苷酸中产生二级结构,例如当与纳米孔接触时产生停止信号的发夹环。在一些实施例中,多核苷酸结合蛋白与纳米孔的接触产生停止信号。
在一些优选实施例中,发夹衔接子与双链多核苷酸的一个末端连接,并且包括单链前导序列的衔接子与双链多核苷酸的另一个末端连接。在一些实施例中,发夹衔接子与双链多核苷酸的一个末端连接,并且包括单链前导序列的衔接子与双链多核苷酸的另一个末端连接,并且能够控制多核苷酸的移动的多核苷酸结合蛋白与发夹衔接子结合。单链前导序列允许双链多核苷酸的第一部分被纳米孔捕获并且在所施加的力的影响下,双链多核苷酸的第一部分自由易位通过或穿过纳米孔,以便可以评估多核苷酸的大致长度。双链多核苷酸的第二部分通过或穿过孔的移动由发夹衔接子上的多核苷酸结合蛋白控制,以便双链多核苷酸的第二部分可以表征为其相对于纳米孔移动;例如,当其相对于(例如通过或穿过)纳米孔移动时允许其测序。
在一些实施例中,前导序列包括在与双链多核苷酸的第一链的一个末端连接的线性衔接子中。在一些实施例中,前导序列包括在与双链多核苷酸的第一链的一个末端连接的Y衔接子中。在一些实施例中,多核苷酸结合蛋白与发夹衔接子连接。在一些实施例中,多核苷酸结合蛋白与发夹衔接子附近,例如与发夹衔接子邻接的双链多核苷酸的第一链的末端连接。在一些实施例中,多核苷酸结合蛋白与发夹衔接子附近,例如与发夹衔接子邻接的双链多核苷酸的第二链的末端连接。
因此,在一些实施例中,单链前导序列在所施加的力下被跨膜纳米孔捕获,多核苷酸的第一部分是双链多核苷酸的第一链,多核苷酸的第二部分是双链多核苷酸的第二链并且多核苷酸结合蛋白控制多核苷酸的第二部分通过跨膜纳米孔的移动。在一些其它实施例中,单链前导序列在所施加的力下被跨膜纳米孔捕获,多核苷酸的第一部分是双链多核苷酸的第一链,多核苷酸的第二部分与第一部分相同多核苷酸,并且多核苷酸结合蛋白控制多核苷酸的第二部分抵抗所施加的力向回通过跨膜纳米孔的移动。
在一些实施例中,由捕获多核苷酸的第一部分引起的信号是用于确定多核苷酸的第一部分易位通过或穿过纳米孔所花费的时间的开始信号。在一些实施例中,发夹衔接子包括产生信号的如条形码或标签等可识别基序,所述信号是用于确定多核苷酸的第一部分易位通过或穿过纳米孔所花费的时间的停止信号。在一些实施例中,发夹衔接子的序列产生与停止信号相对应的已知信号。在一些实施例中,发夹衔接子被修饰以产生停止信号。在一些实施例中,多核苷酸结合蛋白与纳米孔的接触产生停止信号。
在一些优选实施例中,双链多核苷酸在第一部分(例如第一链)的一个末端处包括前导序列并且第二部分(例如双链多核苷酸的第二链)的一部分包括与标签序列互补的序列。在一些实施例中,多核苷酸处理酶与多核苷酸的第二部分(例如第二链)结合。在一些实施例中,没有多核苷酸处理酶与第一部分结合。在一些实施例中,多核苷酸的第一部分(例如第一链)自由易位通过或穿过纳米孔使得第二部分(例如双链多核苷酸的第二链)的包括与标签序列互补的序列的部分与标签序列结合。在一些实施例中,标签序列定位于纳米孔之上或附近(例如邻近)。因此,第二部分(例如双链多核苷酸的第二链)保持在孔附近。在多核苷酸的第一部分的自由易位允许评估多核苷酸的大致长度之后,如果长度是期望的长度,那么多核苷酸处理酶控制多核苷酸的第二部分通过或穿过纳米孔的移动,从而允许对多核苷酸的第二部分进行表征,例如测序。
在一些实施例中,包括与标签序列互补的序列的第二部分(例如双链多核苷酸的第二链)的部分是要选择性表征的多核苷酸的一部分。在一些实施例中,包括与标签序列互补的序列的第二部分的部分是与多核苷酸的第二部分连接的衔接子的一部分。
在一些实施例中,包括与标签序列互补的序列的第二部分(例如双链多核苷酸的第二链)的部分与如本文所定义的前导序列连接。在一些实施例中,标签序列与纳米孔上或附近的标签的结合导致第二多核苷酸上的前导序列被纳米孔捕获。
在一些实施例中,所述多核苷酸是双链的并且在所述双链多核苷酸的第一链的一个末端处包括单链前导序列并且在所述双链多核苷酸的所述第二链的一个末端处具有与其结合的多核苷酸结合蛋白。在一些实施例中,单链前导序列和多核苷酸结合蛋白定位于多核苷酸的相同末端。在一些实施例中,单链前导序列和多核苷酸结合蛋白定位于多核苷酸的不同末端。
在一些实施例中,与多核苷酸第二链连接的衔接子的前导序列不与衔接子的单链部分杂交,所述衔接子与多核苷酸的第一链连接。这促进容易捕获多核苷酸的第二链以进行表征,例如测序。在一些实施例中,与多核苷酸的第二链连接的衔接子的前导序列比与多核苷酸的第一链连接的衔接子的单链部分长,并且因此防止了杂交。因此,在一些实施例中,多核苷酸是双链的并且在双链多核苷酸的第一链的一个末端处包括单链前导序列并且在双链多核苷酸的第二链的一个末端处具有与其结合的多核苷酸结合蛋白,并且与多核苷酸结合蛋白结合的第二链的部分不与第一链杂交。在一些实施例中,与多核苷酸结合蛋白结合的第二链的部分是多核苷酸的第二链的一部分。在一些实施例中,与多核苷酸结合蛋白结合的第二链的部分是如Y衔接子等衔接子的一部分。在一些实施例中,Y衔接子包括第一链上的暂停部分。在一些实施例中,第二链包括与标签序列互补的序列。图3中示出了这种情况的实例。
在一些实施例中,与多核苷酸的第二链连接的衔接子的前导序列与第一链的单链部分或与多核苷酸的第一链连接的衔接子杂交。这防止捕获多核苷酸的第二链,直到第一链的自由易位完成为止。例如,在一些实施例中,第二链包括与第一链杂交的前导序列,使得所述第二链仅在第一链移动通过纳米孔之后被纳米孔捕获。因此,第二链的前导序列可以被第一链封闭,例如被第一链上的前导序列封闭。
在一些实施例中,与多核苷酸的第二链连接的衔接子的前导序列的长度和与多核苷酸的第一链连接的衔接子的单链部分相同。因此,在一些实施例中,多核苷酸是双链的并且在双链多核苷酸的第一链的一个末端处包括单链前导序列并且在双链多核苷酸的第二链的一个末端处具有与其结合的多核苷酸结合蛋白,并且与多核苷酸结合蛋白结合的第二链的部分与第一链杂交。在一些实施例中,与多核苷酸结合蛋白结合的第二链的部分是多核苷酸的第二链的一部分。在一些实施例中,与多核苷酸结合蛋白结合的第二链的部分是如Y衔接子等衔接子的一部分。在一些实施例中,Y衔接子包括第一链上的暂停部分。在一些实施例中,第二链包括与标签序列互补的序列。图4(B)和(C)中示出了这种情况的实例。
在一些实施例中,双链多核苷酸在第一部分(例如第一链)的一个末端处包括前导序列并且寡核苷酸与第二链杂交,其中寡核苷酸包括:(a)与第二链的一部分互补的部分;以及(b)(i)与标签序列互补的部分或(ii)能够与标签结合的亲和分子。在一些实施例中,多核苷酸处理酶与多核苷酸的第二部分(例如第二链)结合。在一些实施例中,没有多核苷酸处理酶与第一部分结合,尽管在其它实施例中,多核苷酸可以与第一部分结合,如下文所讨论的。在一些实施例中,双链多核苷酸的第一部分上的前导序列与多核苷酸的第二链上的多核苷酸处理酶位于多核苷酸的同一末端。在一些实施例中,仅在多核苷酸的一个末端处用衔接子修饰多核苷酸。
在一些实施例中,多核苷酸的第二链包括当第一链与第二链杂交时纳米孔不可接近的前导序列,例如通过被第一链封闭。例如,在一些实施例中,双链多核苷酸的第一部分上的前导序列与第二链上的前导序列杂交,由此防止第二链上的前导序列被捕获,直到第一链易位通过或穿过纳米孔为止。
在一些实施例中,多核苷酸的第一部分(例如第一链)自由易位通过或穿过纳米孔使得与标签互补的寡核苷酸的部分(或能够与标签结合的亲和分子)与标签或标签序列结合。在一些实施例中,标签或标签序列定位于纳米孔之上或附近(例如邻近)。因此,第二部分(例如双链多核苷酸的第二链)保持在孔附近。在多核苷酸的第一部分的自由易位允许评估多核苷酸的大致长度之后,如果长度是期望的长度,那么多核苷酸处理酶控制多核苷酸的第二部分通过或穿过纳米孔的移动,从而允许对多核苷酸的第二部分进行表征,例如测序。图6中示出了这种情况的实例。
在一些实施例中,可以暂时暂停双链多核苷酸的第一链的易位,以便促进第二链或与其连接的寡核苷酸与纳米孔的结合。暂停双链多核苷酸的第一链的易位不会阻止多核苷酸的第一链的自由易位。例如,可以在与第一链连接的衔接子上提供暂停部分,以便暂停部分阻碍衔接子的易位并且因此延迟多核苷酸的第一链的易位,但不阻碍要评估长度的区中的多核苷酸的第一链的易位。衔接子可以包括前导序列和暂停部分并且与第一链连接。本文描述了合适的暂停部分,并且包含例如G-四链体和如凝血酶结合适体等类似的二级结构、和弱亲和素基团以及多核苷酸处理酶。
在一些实施例中,双链多核苷酸在第一部分(例如第一链)的一个末端处包括前导序列;并且(i)寡核苷酸与第二链杂交,其中寡核苷酸包括:(a)与第二链的一部分互补的部分;以及(b)(i)与标签序列互补的部分或(ii)能够与标签结合的亲和分子或(ii)双链多核苷酸的第二链的一部分包括与标签序列互补的序列;并且暂停部分与第一链连接。暂停部分可以是如本文所描述的任何暂停部分。在一些实施例中,暂停部分与衔接子结合。在一些实施例中,第一链上的衔接子部分可以包括暂停部分并且第二链上的衔接子部分可以具有与其结合的多核苷酸结合酶,以便控制多核苷酸的第二部分通过或穿过纳米孔的移动。图8中示出了实例,其中衔接子仅与双链多核苷酸的一个末端连接并且寡核苷酸与第二链杂交,其中寡核苷酸包括:(a)与第二链的一部分互补的部分;以及(b)(i)与标签序列互补的部分或(ii)能够与标签结合的亲和分子。图10中示出了实例,其中衔接子仅与双链多核苷酸的一个末端连接并且双链多核苷酸的第二链的一部分包括与标签序列互补的序列。
在一些实施例中,双链多核苷酸在链的一个末端处用衔接子修饰。在一些实施例中,双链多核苷酸在链的每个末端处用衔接子修饰。在一些实施例中,在链的每个末端处处的衔接子是相同的,以便第一链与第二链相同。如上文所解释的,所述衔接子或每个衔接子可以包括暂停部分和/或多核苷酸处理酶。
例如,在一些实施例中,双链多核苷酸在双链多核苷酸的每个末端处包括衔接子,其中在每个衔接子中:
-前导序列存在于第一链上;
-(i)寡核苷酸与第二链杂交,其中寡核苷酸包括:(a)与第二链的一部分互补的部分;以及(b)(i)与标签序列互补的部分或(ii)能够与标签结合的亲和分子或(ii)衔接子的第二链的一部分包括与标签序列互补的序列;
-多核苷酸处理酶存在于第二链上;
-任选地暂停部分与第一链连接。
图7、9和11中示出了此类实施例的实例。例如,在一些实施例中,通过纳米孔捕获第一链上的前导序列开始第一链的易位,所述易位任选地被延迟,例如被暂停部分(如果存在)暂时暂停,从而允许包括与标签序列互补的序列的第二链的寡核苷酸或部分与纳米孔上或附近(例如邻近)的标签或标签序列结合。然后多核苷酸的第一链可以自由易位,直到到达第一链的末端处的多核苷酸处理酶为止。在将第一链从纳米孔中排出之后,结合的第二链可以在第二链上的多核苷酸处理酶的控制下进行表征,如上文所描述的。在一些实施例中,由多核苷酸的第一部分,例如由双链多核苷酸的第一链上的前导序列的捕获引起的信号是用于确定多核苷酸的第一部分易位通过或穿过纳米孔所花费的时间的开始信号。在一些实施例中,第一链上的多核苷酸结合蛋白与纳米孔的接触产生停止信号。
标签
如纳米孔等检测器上的标签与多核苷酸上的结合位点(例如,存在于与多核苷酸连接的衔接子中的结合位点,其中结合位点可以由衔接子的锚或前导序列或由衔接子的双链体茎内的捕获序列提供)之间的相互作用可以是可逆的。例如,多核苷酸可以例如通过其衔接子与纳米孔上的标签结合,并且例如在通过纳米孔表征多核苷酸期间和/或在聚合酶处理期间在某些点处释放。强的非共价结合(例如,生物素/亲和素)仍然是可逆的,并且可以用于本文所描述的方法的一些实施例中。例如,为了确保在处理模板后处理双链多核苷酸的补体,可以期望设计一对孔标签和多核苷酸衔接子,以在双链多核苷酸的补体(或衔接子的与补体连接的一部分)与纳米孔之间提供足够的相互作用,使得补体保持靠近纳米孔(不会与纳米孔分离并扩散),但能够在处理时从纳米孔中释放出来。
因此,在一些实施例中,孔标签和多核苷酸衔接子对可以被配置成使得多核苷酸上的结合位点(例如,由衔接子的锚或前导序列或由衔接子的双链体茎内的捕获序列提供的结合位点)与纳米孔上的标签的结合强度或亲和力足以维持纳米孔与多核苷酸之间的连接,直到所施加的力放置于其上以从纳米孔释放结合的多核苷酸。在分析物是双链多核苷酸的一些实施例中,所施加的力可以是通过聚合酶加工的补体链。
在一些实施例中,标签或系链不带电。这样可以确保在电势差的影响下,标签或系链不会被拉入纳米孔中。
吸引或结合多核苷酸或衔接子的一个或多个分子可以与检测器(例如,孔)连接。可以使用与衔接子和/或靶多核苷酸杂交的任何分子。连接到孔的分子可以选自PNA标签、PEG连接子、短寡核苷酸、带正电荷的氨基酸和适体。具有与它们连接的此类分子的孔是本领域已知的。例如,使短寡核苷酸与其连接的孔公开于Howarka等人(2001)《自然生物技术(Nature Biotech.)》19:636-639和WO 2010/086620中,并且包括连接于孔的管腔内的PEG的孔公开于Howarka等人(2000)《美国化学学会期刊(J.Am.Chem.Soc.)》122(11):2411-2416。
连接到检测器(例如,跨膜孔)的短寡核苷酸,所述寡核苷酸包括与前导序列中的序列或衔接子中另一个单链序列互补的序列,可以用于在本文所描述的方法中增强靶多核苷酸的捕获。
在一些实施例中,标签或系链可以包括或可以是寡核苷酸(例如,DNA、RNA、LNA、BNA、PNA或吗啉代)。寡核苷酸(例如,DNA、RNA、LNA、BNA、PNA或吗啉基)可以具有约10-30个核苷酸的长度或约10-20个核苷酸的长度。示例性寡核苷酸(例如,DNA、RNA、LNA、BNA、PNA或吗啉基)可以包括SEQ ID NO:9中所示的序列。在一些实施例中,用于标签或系链中的寡核苷酸(例如,DNA、RNA、LNA、BNA、PNA或吗啉基可以具有至少一个被修饰用于与其它修饰或固体基质表面(包含例如珠粒)的末端(例如,3'-或5'-末端)缀合。末端改性剂可以添加可以用于缀合的反应性官能团。可以添加的官能团的实例包含但不限于氨基、羧基、硫醇、马来酰亚胺、氨氧基和其任何组合。官能团可以与不同长度的间隔子(例如,C3、C9、C12、间隔子9和18)组合以增加官能团与寡核苷酸序列末端的物理距离。在一些实施例中,标签或系链可以是寡核苷酸(例如,DNA、RNA、LNA、BNA、PNA或吗啉基),其具有SEQ ID NO:9中所示的具有5'-马来酰胺修饰的序列。在一些实施例中,标签或系链可以是寡核苷酸(例如,DNA、RNA、LNA、BNA、PNA或吗啉基),其具有SEQ ID NO:9中所示的具有3'-马来酰胺修饰的序列。在一些实施例中,标签或系链可以是寡核苷酸(例如,DNA、RNA或PNA),其具有SEQ ID NO:9中所示的具有5'-C9-硫醇修饰的序列。在一些实施例中,标签或系链可以是寡核苷酸(例如,DNA、RNA、LNA、BNA、PNA或吗啉基),其具有SEQ ID NO:9中所示的具有3'-C9-硫醇修饰的序列。在一些实施例中,标签或系链可以是寡核苷酸(例如,DNA、RNA、LNA、BNA、PNA或吗啉基),其具有SEQ ID NO:9中所示的具有5'-硫醇修饰的序列。在一些实施例中,标签或系链可以是寡核苷酸(例如,DNA、RNA、LNA、BNA、PNA或吗啉基),其具有SEQ ID NO:9中所示的具有3'-硫醇修饰的序列。
在一些实施例中,标签或系链可以包括或是吗啉基寡核苷酸。吗啉基寡核苷酸可具有约10-30个核苷酸的长度或约10-20个核苷酸的长度。示例性吗啉基寡核苷酸可以包括SEQ ID NO:9中所示的序列。吗啉基寡核苷酸可以是经修饰的或未经修饰的。例如,在一些实施例中,吗啉基寡核苷酸可以在寡核苷酸的3'和/或5'末端被修饰。吗啉基寡核苷酸的3'末端和/或5'末端上的修饰的实例包含但不限于3'亲和标签和用于化学连接的官能团(包含例如3'-生物素、3'-伯胺、3'-二硫化物酰胺、3'-吡啶基二硫基及其任何组合);5'末端修饰(包含例如5'-伯胺和/或5'-dabcyl),用于点击化学的修饰(包含例如3'-叠氮化物、3'-炔烃、5'-叠氮化物、5'-炔烃)以及其任何组合。在一些实施例中,标签或系链可以是吗啉基寡核苷酸,其具有SEQ ID NO:9中所示的具有5'-叠氮修饰的序列。在一些实施例中,标签或系链可以是吗啉基寡核苷酸,其具有SEQ ID NO:9中所示的具有3'-叠氮修饰的序列。在一些实施例中,标签或系链可以是吗啉基寡核苷酸,其具有SEQ ID NO:9中所示的具有5'-炔烃修饰的序列。在一些实施例中,标签或系链可以是吗啉基寡核苷酸,其具有SEQ ID NO:9中所示的具有3'-炔烃修饰的序列。在一些实施例中,标签或系链可以是吗啉基寡核苷酸,其具有SEQ ID NO:9中所示的具有3'-炔烃吡啶基二硫基修饰的序列。
在一些实施例中,标签或系链可以进一步包括聚合物连接子,例如,以刺进偶联到检测器,例如,纳米孔。示例性聚合物连接子包含但不限于聚乙二醇(PEG)。聚合物连接子的分子量可以为约500Da到约10kDa(包括端值),或约1kDa到约5kDa(包括端值)。聚合物连接子(例如,PEG)可以用不同的官能团官能化,包含例如但不限于马来酰亚胺、NHS酯、二苯并环辛炔(DBCO)、叠氮化物、生物素、胺、炔烃、醛及其任何组合。在一些实施例中,标签或系链可以进一步包括具有5'-马来酰亚胺基团和3'-DBCO基团的1kDa PEG。在一些实施例中,标签或系链可以进一步包括具有5'-马来酰亚胺基团和3'-DBCO基团的2kDa PEG。在一些实施例中,标签或系链还可以进一步包括具有5'-马来酰亚胺基团和3'-DBCO基团的3kDa PEG。在一些实施例中,标签或系链可以进一步包括具有5'-马来酰亚胺基团和3'-DBCO基团的5kDa PEG。
标签或系链的其它实例包含但不限于His标签、生物素或链霉亲和素、与分析物结合的抗体、与分析物结合的适体、分析物结合结构域,如DNA结合结构域(包含例如肽拉链,如亮氨酸拉链、单链DNA结合蛋白(SSB))及其任何组合。
可以使用本领域已知的任何方法,将标签或系链与纳米孔的外表面连接,例如,在膜的顺式侧。例如,一种或多种标签或系链可以通过一种或多种半胱氨酸(半胱氨酸键)、一种或多种伯胺(如赖氨酸)、一种或多种非天然氨基酸、一种或多种组氨酸(His标签)、一种或多种生物素或链霉亲和素、一种或多种基于抗体的标签、表位的一种或多种酶修饰(包含例如乙酰转移酶)和其任意组合与纳米孔连接。用于进行此类修饰的合适方法在本领域是众所周知的。合适的非天然氨基酸包含但不限于4-叠氮基-L-苯丙氨酸(Faz),以及LiuC.C.和Schultz P.G.,《生物化学年鉴(Annu.Rev Biochem)》,2010,79,413-444的图1中编号为1-71的氨基酸中的任一种。
在一个或多个标签或系链通过半胱氨酸键与纳米孔连接的一些实施例中,可以将一种或多种半胱氨酸引入到通过取代形成纳米孔的一种或多种单体中。在一些实施例中,可以通过连接如下来对纳米孔进行化学修饰:(i)马来酰亚胺,包含二溴马来酰亚胺,如:4-苯氮霉素、1.N-(2-羟乙基)马来酰亚胺、N-环己基马来酰亚胺、1.3-马来酰亚胺基丙酸、1.1-4-氨基苯基-1H-吡咯,2,5,二酮、1.1-4-羟基苯基-1H-吡咯,2,5,二酮、N-乙基马来酰亚胺、N-甲氧基羰基马来酰亚胺、N-叔丁基马来酰亚胺、N-(2-氨基乙基)马来酰亚胺、3-马来酰亚胺基-丙氧基、N-(4-氯苯基)马来酰亚胺、1-[4-(二甲基氨基)-3,5-二硝基苯基]-1H-吡咯-2,5-二酮、N-[4-(2-苯并咪唑基)苯基]马来酰亚胺、N-[4-(2-苯并恶唑基)苯基]马来酰亚胺、N-(1-萘基)马来酰亚胺、N-(2,4-二甲苯基)马来酰亚胺、N-(2,4-二氟苯基)马来酰亚胺、N-(3-氯-对-甲苯基)-马来酰亚胺、1-(2-氨基-乙基)-吡咯-2,5-二酮盐酸盐、1-环戊基-3-甲基-2,5-二氢-1H-吡咯-2,5-二酮、1-(3-氨基丙基)-2,5-二氢-1H-吡咯-2,5-二酮盐酸盐、3-甲基-1-[2-氧代-2-(哌嗪-1-基)乙基]-2,5-二氢-1H-吡咯-2,5-二酮盐酸盐、1-苄基-2,5-二氢-1H-吡咯-2,5-二酮、3-甲基-1-(3,3,3-三氟丙基)-2,5-二氢-1H-吡咯-2,5-二酮、1-[4-(甲基氨基)环己基]-2,5-二氢-1H-吡咯-2,5-二酮三氟乙酸、SMILES O=C1C=CC(=O)N1CC=2C=CN=CC2、SMILES O=C1C=CC(=O)N1CN2CCNCC2、1-苄基-3-甲基-2,5-二氢-1H-吡咯-2,5-二酮、1-(2-氟苯基)-3-甲基-2,5-二氢1H-吡咯-2,5-二酮、N-(4-苯氧基苯基)马来酰亚胺、N-(4-硝基苯基)马来酰亚胺,(ii)碘代乙酰胺,如3-(2-碘乙酰氨基)-丙氧基、N-(环丙基甲基)-2-碘乙酰胺、2-碘-N-(2-苯乙基)乙酰胺、2-碘-N-(2,2,2-三氟乙基)乙酰胺、N-(4-乙酰基苯基)-2-碘代乙酰胺、N-(4-(氨基磺酰基)苯基)-2-碘代乙酰胺、N-(1,3-苯并噻唑-2-基)-2-碘代乙酰胺、N-(2,6-二乙基苯基)-2-碘代乙酰胺、N-(2-苯甲酰基-4-氯苯基)-2-碘代乙酰胺,(iii)溴代乙酰胺:如N-(4-(乙酰氨基)苯基)-2-溴代乙酰胺、N-(2-乙酰基苯基)-2-溴代乙酰胺、2-溴-n-(2-氰基苯基)乙酰胺、2-溴-N-(3-(三氟甲基)苯基)乙酰胺、N-(2-苯甲酰基苯基)-2-溴代乙酰胺、2-溴-N-(4-氟苯基)-3-甲基丁酰胺、N-苄基-2-溴-N-苯基丙酰胺、N-(2-溴-丁酰基)-4-氯-苯磺酰胺、2-溴-N-甲基-N苯基乙酰胺、2-溴-N-苯乙基-乙酰胺、2-金刚烷-1-基-2-溴-N-环己基-乙酰胺、2-溴-N-(2-甲基苯基)丁酰胺、乙酰替对溴苯胺,(iv)二硫化物,如:aldrithiol-2、aldrithiol-4、异丙基二硫化物、1-(异丁基二硫烷基)-2-甲基丙烷、二苄基二硫化物、4-氨基苯基二硫化物、3-(2-吡啶基二硫代)丙酸酸、3-(2-吡啶基二硫代)丙酸酰肼、3-(2-吡啶基二硫代)丙酸N-琥珀酰亚胺酯、am6amPDP1-βCD;以及(v)硫醇,如:4-苯基噻唑-2-硫醇、Pulpald、5,6,7,8-四氢-喹唑啉-2-硫醇。
在一些实施例中,标签或系链可以直接或通过一个或多个连接子与纳米孔连接。可以使用WO 2010/086602中描述的杂交连接子将标签或系链与纳米孔连接。可替代地,可以使用肽连接子。肽连接子是氨基酸序列。肽连接子的长度、柔性和亲水性通常被设计为使得其不干扰单体和孔的功能。优选的柔性肽连接子是2个到20个,如4个、6个、8个、10个或16个丝氨酸和/或甘氨酸的延伸段。更优选的柔性连接子包含(SG)1、(SG)2、(SG)3、(SG)4、(SG)5和(SG)8,其中S是丝氨酸且G是甘氨酸。优选的刚性连接子是2个到30个,如4个、6个、8个、16个或24个脯氨酸的延伸段。更优选的刚性连接子包含(P)12,其中P是脯氨酸。
间隔子
在一些实施例中,多核苷酸或衔接子可以包括间隔子。例如,多核苷酸衔接子中可以存在一个或多个间隔子。例如,多核苷酸衔接子可以包括一个至约10个间隔子,例如1个至约5个间隔子,例如1个、2个、3个、4个或5个间隔子。间隔子可以包括任何合适数量的间隔子单元。间隔子提供阻碍多核苷酸结合蛋白移动的能量屏障。例如,间隔子可以通过减少多核苷酸结合蛋白的牵引力来使多核苷酸结合蛋白停靠。这可以例如通过使用无碱基间隔子,即其中从多核苷酸衔接子中的一个或多个核苷酸去除了碱基的间隔子来实现。间隔子可以物理地阻止多核苷酸结合蛋白的移动,例如通过引入大化学基团以物理地阻碍多核苷酸结合蛋白的移动。
在一些实施例中,一个或多个间隔子包含在如本文要求保护的方法中使用的多核苷酸或衔接子中,为了在所述多核苷酸或衔接子通过或穿过纳米孔时提供独特的信号。合适的信号包含如本文更详细描述的开始信号和停止信号。
在一些实施例中,间隔子可以包括如聚合物等线性分子。通常,此类间隔子具有与靶多核苷酸不同的结构。例如,如果靶多核苷酸是DNA,那么所述间隔子或每个间隔子通常不包括DNA。特别地,如果靶多核苷酸是脱氧核糖核酸(DNA)或核糖核酸(RNA),那么该或每个间隔子优选地包括肽核酸(PNA)、甘油核酸(GNA)、苏糖核酸(TNA)、锁核酸(LNA)、桥接核酸(BNA)或带有核苷酸侧链的合成聚合物。在一些实施例中,间隔子可以包括一个或多个硝基吲哚、一个或多个肌苷、一个或多个吖啶、一个或多个2-氨基嘌呤、一个或多个2-6-二氨基嘌呤、一个或多个5-溴-脱氧尿苷、一个或多个反式胸苷(反式dT)、一个或多个反式双脱氧胸苷(ddT)、一个或多个双脱氧胞苷(ddC)、一个或多个5-甲基胞苷、一个或多个5-羟甲基胞苷、一个或多个2'-O-甲基RNA碱基、一个或多个异脱氧胞苷(异dC)、一个或多个异脱氧鸟苷(异dG)、一个或多个C3(OC3H6OPO3)基团、一个或多个可光分解(PC)[OC3H6-C(O)NHCH2-C6H3NO2-CH(CH3)OPO3]基团、一个或多个己二醇基团、一个或多个间隔子9(iSp9)[(OCH2CH2)3OPO3]基团、或一个或多个间隔子18(iSp18)[(OCH2CH2)6OPO3]基团;或一个或多个巯基连接。间隔子可以包括这些基团的任何组合。这些基团中的许多可以从
Figure BDA0003995203950000521
(IntegratedDNA
Figure BDA0003995203950000522
)商购获得。例如,C3、iSp9和iSp18间隔子均可从
Figure BDA0003995203950000523
获得。间隔子可以包括任何数量的上述基团作为间隔子单元。
在一些实施例中,间隔子可以包括一个或多个导致多核苷酸结合蛋白停靠的化学基团。在一些实施例中,合适的化学基团是一个或多个化学侧基。一个或多个化学基团可以与多核苷酸衔接子中的一个或多个核碱基连接。一个或多个化学基团可以与多核苷酸衔接子的主链连接。可以存在任何数目的适当的化学基团,如2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个或更多。合适的基团包含但不限于荧光团、链霉亲和素和/或生物素、胆固醇、亚甲蓝、二硝基苯酚(DNP)、地高辛和/或抗地高辛和二苄基环辛炔基团。在一些实施例中,间隔子可以包括聚合物。在一些实施例中,间隔子可以包括聚合物,所述聚合物是多肽或聚乙二醇(PEG)。
间隔子可以包括一个或多个无碱基核苷酸(即,缺少核碱基的核苷酸),如2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个或更多个无碱基核苷酸。在无碱基核苷酸中,核碱基可以被-H(idSp)或-OH替代。通过从一个或多个相邻核苷酸中去除核碱基,可以将无碱基间隔子插入到靶多核苷酸中。例如,可以将多核苷酸修饰为包含3-甲基腺嘌呤、7-甲基鸟嘌呤、1,N6-亚乙烯基腺嘌呤肌苷或次黄嘌呤,并且可以使用人烷基腺嘌呤DNA糖苷酶(hAAG)从这些核苷酸中去除核碱基。可替代地,可以将多核苷酸修饰成包含尿嘧啶,并且用尿嘧啶-DNA糖苷酶(UDG)去除核碱基。在一个实施例中,一个或多个间隔子不包括任何无碱基核苷酸。
可以根据多核苷酸衔接子的性质、多核苷酸结合蛋白和进行所述方法的条件来设计或选择合适的间隔子。例如,许多多核苷酸结合蛋白在体内加工DNA,并且此类多核苷酸结合蛋白通常可以使用任何不是DNA的东西来停靠。
多核苷酸结合蛋白
如上文所描述的,当多核苷酸的第一部分的评估证实多核苷酸具有一个或多个期望的性质时,所公开的方法包括控制多核苷酸的第二部分相对于检测器例如纳米孔的移动。例如,当评估多核苷酸的大小并且评估多核苷酸的长度证实多核苷酸具有期望的长度时,所公开的方法包括控制多核苷酸的第二部分通过或穿过检测器例如纳米孔的移动。在一些实施例中,使用能够控制多核苷酸相对于检测器的移动的多核苷酸结合蛋白来控制多核苷酸的第二部分的移动,例如通过纳米孔。
在一些实施例中,当多核苷酸结合蛋白存在于衔接子上,或以其它方式存在于多核苷酸的一部分上时,修饰多核苷酸结合蛋白以防止多核苷酸结合蛋白从多核苷酸或衔接子上脱离接合(除了通过假冒多核苷酸/衔接子的末端之外)。多核苷酸结合蛋白可以以任何合适的方式进行调整。例如,可以将多核苷酸结合蛋白加载到衔接子或多核苷酸上并且然后对其进行修饰以防止其脱离接合。可替代地,可以修饰多核苷酸结合蛋白以防止其在加载到衔接子或多核苷酸上之前脱离接合。可以使用本领域已知的方法,如在WO 2014/013260(特此通过引用整体并入)中所讨论的方法并特别参考描述修饰如解旋酶等多核苷酸结合蛋白以防止其与多核苷酸链脱离接合来实现多核苷酸结合蛋白的修饰以防止其与多核苷酸或衔接子脱离接合。
例如,多核苷酸结合蛋白可以具有多核苷酸解结合开口;例如,当多核苷酸结合蛋白与链脱离接合时,多核苷酸链可以通过的空腔、裂缝或空隙。在一些实施例中,给定多核苷酸结合蛋白的多核苷酸解结合开口可以通过参考其结构,例如参考其X射线晶体结构来确定。X射线晶体结构可以在多核苷酸底物存在和/或不存在下获得。在一些实施例中,可以使用本领域已知的标准包通过分子建模来推断或证实给定多核苷酸结合蛋白中多核苷酸解结合开口的位置。在一些实施例中,多核苷酸解结合开口可以通过多核苷酸结合蛋白的一个或多个部分例如一个或多个结构域的移动而瞬时产生。
可以通过关闭多核苷酸解结合开口来修饰多核苷酸结合蛋白。因此,关闭多核苷酸解结合开口可以防止多核苷酸结合蛋白从多核苷酸或衔接子脱离接合。例如,可以通过共价关闭多核苷酸解结合开口来修饰多核苷酸结合蛋白。在一些实施例中,用于以这种方式寻址的优选多核苷酸结合蛋白是解旋酶。
在一个实施例中,多核苷酸结合蛋白可以是能够与多核苷酸结合并控制其相对于如纳米孔等检测器移动例如通过孔的任何蛋白质。
在一个实施例中,多核苷酸结合蛋白是或源自多核苷酸处理酶。多核苷酸处理酶是能够与多核苷酸相互作用并且修饰其的至少一个性质的多肽。酶可以通过切割多核苷酸以形成单独的核苷酸或较短核苷酸链如二核苷酸或三核苷酸来对多核苷酸进行修饰。所述酶可以通过将多核苷酸朝向或使其移动到特定位置来修饰多核苷酸。
在一个实施例中,多核苷酸结合蛋白源自任何酶分类(EC)组的成员:3.1.11、3.1.13、3.1.14、3.1.15、3.1.16、3.1.21、3.1.22、3.1.25、3.1.26、3.1.27、3.1.30和3.1.31。
通常,多核苷酸结合蛋白是解旋酶、聚合酶、核酸外切酶、拓扑异构酶或其变体。
在一个实施例中,多核苷酸结合蛋白是外切核酸酶。合适酶包含但不限于来自大肠杆菌的外切核酸酶I(SEQ ID NO:1)、来自大肠杆菌的外切核酸酶III(SEQ ID NO:2)、来自嗜热栖热菌(T.thermophilus)的RecJ(SEQ ID NO:3)和噬菌体λ外切核酸酶(SEQ ID NO:4)、TatD外切核酸酶和其变体。包括SEQ ID NO:3中所示序列的三个亚基或其变体相互作用以形成三聚体外切核酸酶。
在一个实施例中,多核苷酸结合蛋白是聚合酶。聚合酶可以是
Figure BDA0003995203950000541
3173DNA聚合酶(其可商购自
Figure BDA0003995203950000542
公司)、SD聚合酶(可商购自
Figure BDA0003995203950000543
)、来自NEB的Klenow或其变体。在一个实施例中,酶是Phi29 DNA聚合酶(SEQ ID NO:5)或其混合物。可以用于本发明的Phi29聚合酶的修饰形式公开于美国专利第5,576,204号中。
在一个实施例中,多核苷酸结合蛋白是拓扑异构酶。在一个实施例中,拓扑异构酶是部分分类(EC)组5.99.1.2和5.99.1.3中的任一个的成员。拓扑异构酶可以是逆转录酶,其是能够催化从RNA模板形成cDNA的酶。它们可从例如New England
Figure BDA0003995203950000551
Figure BDA0003995203950000552
商购获得。
在一个实施例中,多核苷酸结合蛋白是解旋酶。可以根据本文所提供的方法使用任何合适的解旋酶。解旋酶可以是选自SF1、SF2、SF3、SF4、SF5或SF6家族的解旋酶。SF1-SF6家族中的解旋酶为本领域技术人员所熟知。例如,根据本公开所使用的所述多核苷酸结合蛋白或每个多核苷酸结合蛋白可以独立地选自Hel308解旋酶、RecD解旋酶、TraI解旋酶、TrwC解旋酶、XPD解旋酶和Dda解旋酶或其变体。单聚解旋酶可以包括连接在一起的若干结构域。例如,TraI解旋酶和TraI亚组解旋酶可以含有两个RecD解旋酶结构域、释放酶结构域和C末端结构域。这些结构域通常形成能够起作用而不会形成寡聚体的单聚解旋酶。合适的解旋酶的具体实例包含Hel308、NS3、Dda、UvrD、Rep、PcrA、Pif1和TraI。这些解旋酶通常作用于单链DNA。可沿双链DNA的两条链移动的解旋酶的实例包含FtsK和六聚体酶复合物,或多亚基复合物如RecBCD。在一些实施例中,给定的多核苷酸结合蛋白可以用于多核苷酸的第一部分的自由易位和/或多核苷酸的第二部分的受控易位。可以通过改变实验条件来控制或选择多核苷酸结合蛋白的操作,例如通过控制燃料分子的存在或不存在。
Hel308解旋酶在出版物如WO 2013/057495中有所描述,其全部内容通过引用并入。RecD解旋酶在如WO 2013/098562的出版物中有描述,其全部内容通过引用并入。XPD解旋酶在如WO 2013/098561的出版物中有所描述,其全部内容通过引用并入。Dda解旋酶在如WO2015/055981和WO 2016/055777的出版物中有所描述,其各自的全部内容通过引用并入。
在一个实施例中,解旋酶包括SEQ ID NO:6中所示的序列(Trwc Cba)或其变体、SEQ ID NO:7中所示的序列(Hel308 Mbu)或其变体或SEQ ID NO:8中所示的序列(Dda)或其变体。变体可以以本文所讨论的方式中的任何方式中天然序列不同。SEQ ID NO:8的示例变体包括E94C/A360C。SEQ ID NO:8的另外的示例变体包括E94C/A360C,并且然后是(ΔM1)G1G2(即M1的缺失,并且然后是G1和G2的添加)。
通常,多核苷酸结合蛋白不是能够控制多核苷酸的第一部分相对于如本文所描述的检测器的自由移动的超快速多核苷酸处理酶。通常,在本文所提供的方法中,多核苷酸结合蛋白不是能够控制多核苷酸的第一部分通过或穿过纳米孔的自由易位的超快速多核苷酸处理酶。在一些实施例中,多核苷酸结合蛋白以小于20kb/s,如小于10kb/s,例如至多约5kb/s,例如最多4kb/s,例如最多2kb/s,如最多1kb/s的速率控制多核苷酸的第二部分通过或穿过纳米孔的易位速率。因此,在一些实施例中,多核苷酸结合蛋白(例如,在本领域中已经用于对多核苷酸链的第一部分和第二部分进行测序的多核苷酸结合蛋白)适于控制多核苷酸链的第二部分的移动,但不适于使多核苷酸的第一部分自由易位通过或穿过纳米孔。
在一些实施例中,多核苷酸处理蛋白(例如,解旋酶)可以在至少两种活性操作模式(当多核苷酸处理蛋白具有所有必要组分以促进移动时,例如本文所讨论的燃料和辅因子,如ATP和Mg2+)和一种非活性操作模式(当多核苷酸结合蛋白没有提供促进移动必要组分时或者当多核苷酸结合蛋白被改变以阻止此类移动时)中控制多核苷酸移动。
当提供所有必要组分以促进移动(即在活性模式下)时,多核苷酸结合蛋白(例如解旋酶)在5'到3'或3'到5'方向(取决于多核苷酸结合蛋白)上沿着多核苷酸移动。在其中使用多核苷酸结合蛋白来控制多核苷酸链相对于纳米孔的移动的实施例中,多核苷酸结合蛋白可以用于将多核苷酸移动远离(例如,移出)孔(例如,对抗施加的场)或将多核苷酸朝向(例如,进入到)孔移动(例如,用施加的场)。例如,当多核苷酸结合蛋白所移动的多核苷酸的末端被孔捕获时,多核苷酸结合蛋白会抵抗由所施加的电势产生的场的方向工作并且将穿过的多核苷酸拉出孔(例如,进入到顺式室中)。然而,当多核苷酸结合蛋白所移动的远离的末端被捕获在孔中时,多核苷酸结合蛋白使用由所施加的电势产生的场的方向工作并且将穿过的多核苷酸推入到孔中(例如,进入到反式室中)。
当多核苷酸结合蛋白(例如解旋酶)没有提供促进移动的必要组分(即处于非活性模式)时,其可以与多核苷酸物结合并作为制动器,当其相对于纳米孔移动时减慢多核苷酸的移动,例如通过由施加的电势产生的场被拉入孔中。在非活性模式下,多核苷酸的哪一个末端被捕获并不重要,所施加的场决定了多核苷酸相对于孔的移动,并且多核苷酸结合蛋白充当制动器。当在非活动模式中时,通过多核苷酸结合蛋白对多核苷酸的移动控制可以以多种方式(包含棘轮、滑动和制动)描述。
多核苷酸结合蛋白通常需要燃料来处理多核苷酸的加工。燃料通常是游离核苷酸或游离核苷酸类似物。游离核苷酸可以是但不限于腺苷一磷酸(AMP)、腺苷二磷酸(ADP)、腺苷三磷酸(ATP)、鸟苷一磷酸(GMP)、鸟苷二磷酸(GDP)、鸟苷三磷酸(GTP)、胸苷一磷酸(TMP)、胸苷二磷酸(TDP)、胸苷三磷酸(TTP)、尿苷一磷酸(UMP)、尿苷二磷酸(UDP)、尿苷三磷酸(UTP)、胞苷一磷酸(CMP)、胞苷二磷酸(CDP)、胞苷三磷酸(CTP)、环腺苷一磷酸(cAMP)、环鸟苷一磷酸(cGMP)、脱氧腺苷一磷酸(dAMP)、脱氧腺苷二磷酸(dADP)、脱氧腺苷三磷酸(dATP)、脱氧鸟苷一磷酸(dGMP)、脱氧鸟苷二磷酸(dGDP)、脱氧鸟苷三磷酸(dGTP)、脱氧胸苷一磷酸(dTMP)、脱氧胸苷二磷酸(dTDP)、脱氧胸苷三磷酸(dTTP)、脱氧尿苷一磷酸(dUMP)、脱氧尿苷二磷酸(dUDP)、脱氧尿苷三磷酸(dUTP)、脱氧胞苷一磷酸(dCMP)、脱氧胞苷二磷酸(dCDP)和脱氧胞苷三磷酸(dCTP)。游离核苷酸通常选自AMP、TMP、GMP、CMP、UMP、dAMP、dTMP、dGMP或dCMP。游离核苷酸通常是三磷酸腺苷(ATP)。
多核苷酸结合蛋白的辅因子是允许多核苷酸结合蛋白发挥功能的因子。辅因子优选地是二价金属阳离子。二价金属阳离子优选地为Mg2+、Mn2+、Ca2+或Co2+。辅因子最优选地为Mg2+。在本文所提供的实施例中,二价金属阳离子可以存在于溶液中,所述溶液存在于纳米孔的顺式侧和/或反式侧中的一者或两者中。
可以确定的测量结果和特性
在一个实施例中,确定靶多核苷酸的存在、不存在或一个或多个特性。所述方法可以用于确定至少一种靶多核苷酸的存在、不存在或一个或多个特性。方法可以涉及确定两种或更多种靶多核苷酸的存在、不存在或一个或多个特性。方法可以包括确定任何数量的靶多核苷酸(如2种、5种、10种、15种、20种、30种、40种、50种、100种或更多种靶多核苷酸)的存在、不存在或一个或多个特性。可以确定一种或多种靶多核苷酸的任何数量的特性,如1种、2种、3种、4种、5种、10种或更多种特性。
在本文所提供的方法中选择性确定的多核苷酸的一个或多个特性通常包括多核苷酸的序列。因此,在一个实施例中,本公开提供了一种用于选择性地测序具有如期望的长度等期望的性质的多核苷酸的方法,所述方法包括:
(i)使检测器、优选地纳米孔与多核苷酸接触;
(ii a)当所述多核苷酸的第一部分在所施加的力下相对于所述检测器,例如纳米孔自由移动时进行测量;
(ii b)评估所述多核苷酸的所述第一部分的一个或多个性质,如确定所述多核苷酸的所述第一部分的长度;
(iii)(a)在所述多核苷酸的所述第一部分具有一个或多个期望的性质(例如具有期望的长度)的情况下,控制所述多核苷酸的第二部分相对于所述检测器(例如所述纳米孔)的移动并且当所述多核苷酸的所述第二部分相对于所述检测器(例如所述纳米孔)移动时进行测量以确定所述多核苷酸的所述第二部分的序列;或(b)在所述多核苷酸的所述第一部分不具有一个或多个期望的性质(例如不具有期望的长度)的情况下,拒绝所述多核苷酸,例如通过将其从纳米孔中排出。
在另一个实施例中,本公开提供了一种选择性测序具有期望的长度的多核苷酸的方法,所述方法包括:
(i)使跨膜纳米孔与多核苷酸的样品接触;
(ii)确定所述样品中的多核苷酸的第一部分在所施加的力下自由易位通过或穿过所述纳米孔所花费的时间,以便评估所述多核苷酸的大致长度;
(iii)在所述多核苷酸不具有期望的长度的情况下,将所述多核苷酸从所述纳米孔中排出并重复步骤(ii)和(iii);或者在所述多核苷酸具有期望的长度的情况下,控制所述多核苷酸的第二部分通过或穿过所述纳米孔的移动并且当所述多核苷酸的所述第二部分相对于所述纳米孔移动时进行测量以确定所述多核苷酸的所述序列,
由此选择性地对具有期望的长度的多核苷酸进行测序。
可以在本文所提供的方法中选择性地确定的其它特性包含确定所选多核苷酸是否被修饰以及可能存在的任何此类修饰的程度和/或数量;所选多核苷酸的身份,以及多核苷酸的二级结构。可以在本发明的方法中表征的修饰包含用一个或多个蛋白质或用一个或多个标记、标签或间隔子来确定多核苷酸是否通过甲基化、通过氧化、通过损坏来修饰以及修饰到何种程度。
多核苷酸的样品
检测生物分子的存在并表征所检测的生物分子可应用于个性化药物开发、医学、诊断、生命科学研究、环境监测以及安全和/或国防工业。因此,本文所描述的方法至少在这些行业中得到应用。
在本文所描述的方法中要选择性地表征的样品中的多核苷酸在本文中也被称为“靶核苷酸”。因此,在本文所述的方法中要选择性地表征的样品中的多核苷酸可以被称为“靶核苷酸”。在一些实施例中,在本文所描述的方法中评估的多核苷酸的样品可以由一种或多种靶多核苷酸和一种或多种杂质的不纯混合物形成。杂质可以包括截短形式的靶多核苷酸和/或与靶多核苷酸不同的多核苷酸。例如,靶多核苷酸可以是基因组DNA并且不期望的多核苷酸可以包括基因组DNA、质粒等的部分。靶多核苷酸可以是基因组DNA的编码区并且不期望的多核苷酸可以包括DNA的非编码区。例如,人基因组包括大约50Mb的编码DNA和约3000Mb的非编码DNA,因此靶多核苷酸可以是人基因组的编码区并且不期望的多核苷酸可以包括人基因组的非编码区。
样品中的多核苷酸可以从细胞分泌。可替代地,样品中的多核苷酸可以存在于细胞内部,使得在执行所述方法之前必须从细胞中提取所述多核苷酸。
在一个实施例中,靶多核苷酸是核酸。多核苷酸被定义为包括两个或多个核苷酸的大分子。DNA和RNA中天然存在的核酸碱基可以通过其物理大小来区分。当核酸分子或单独的碱基通过纳米孔的通道时,碱基之间的大小差异会导致通过通道的离子流直接相关地减少。可以记录离子流的变化,如上文所描述的。用于记录离子流变化的合适的电测量技术描述于例如WO 2000/28312和D.Stoddart等人,《美国国家科学院院刊》,2010,106,第7702-7页(单通道记录设备);以及例如WO 2009/077734(多通道记录技术)中。通过适当的校准,离子流的特性减少可以用于实时鉴定穿过通道的特定核苷酸和相关碱基。在典型的纳米孔核酸测序中,由于通道被核苷酸部分堵塞,当所关注的核酸序列的单个核苷酸按顺序穿过纳米孔的通道时,开放通道离子流减少。使用上述合适的记录技术测量的正是这种离子流的减少。可以将离子流的减少校准为通过通道的已知核苷酸的测量离子流的减少,从而产生用于确定哪个核苷酸正在穿过通道的手段,并且因此,当按顺序进行时,产生确定穿过纳米孔的核酸的核苷酸序列的方式。为了准确地确定单独的核苷酸,通常需要使通过通道的离子流的减少与穿过缢痕(constriction)(或“读取头”)的单独的核苷酸的大小直接相关。应当理解,例如,可以对完整的核酸聚合物执行测序,所述完整的核酸聚合物例如通过如聚合酶或解旋酶等相关多核苷酸结合蛋白的作用“穿过”孔。可替代地,可以通过使已经从邻近孔的靶核酸中按顺序去除的核苷酸三磷酸碱基的通路来确定序列(参见例如WO 2014/187924)。
多核苷酸或核酸可以包括任何核苷酸的任何组合。核苷酸可以是天然存在的或人工的。多核苷酸中的一个或多个核苷酸可以被氧化或甲基化。多核苷酸中的一个或多个核苷酸可以是受损的。例如,多核苷酸可以包括嘧啶二聚体。此类二聚体通常与紫外线损伤有关并且是皮肤黑色素瘤的主要病因。多核苷酸中的一个或多个核苷酸可以例如用标记或标签修饰,所述标记或标签的合适的实例是技术人员已知的。多核苷酸可以包括一或多个间隔子。核苷酸通常含有核碱基、糖和至少一个磷酸基。核碱基和糖形成核苷。核碱基通常是杂环的。核碱基包含但不限于嘌呤和嘧啶,并且更具体地包含腺嘌呤(A)、鸟嘌呤(G)、胸腺嘧啶(T)、尿嘧啶(U)和胞嘧啶(C)。糖通常是戊糖。核苷酸糖包含但不限于核糖和脱氧核糖。糖优选地是脱氧核糖。多核苷酸优选地包括以下核苷:脱氧腺苷(dA)、脱氧尿苷(dU)和/或胸苷(dT)、脱氧鸟苷(dG)和脱氧胞苷(dC)。核苷酸通常是核糖核苷酸或脱氧核糖核苷酸。核苷酸通常含有单磷酸、二磷酸或三磷酸。核苷酸可以包括多于三个磷酸,如4个或5个磷酸。磷酸可以连接在核苷酸的5'或3'侧上。多核苷酸中的核苷酸可以以任何方式彼此连接。核苷酸通常通过其糖和磷酸基连接,如在核酸中那样。核苷酸可以通过其核碱基连接,如在嘧啶二聚体中那样。多核苷酸可以是单链的或双链的。多核苷酸的至少一部分优选地是双链的。多核苷酸最优选地是核糖核酸(RNA)或脱氧核糖核酸(DNA)。具体地,使用多核苷酸作为分析物的所述方法可替代地包括确定选自以下的一个或多个特性:(i)多核苷酸的长度;(ii)多核苷酸的同一性;(iii)多核苷酸的序列;(iv)多核苷酸的二级结构;和(v)多核苷酸是否被修饰。
多核苷酸可以是任何长度(i)。例如,多核苷酸的长度可以是至少10个、至少50个、至少100个、至少150个、至少200个、至少250个、至少300个、至少400个或至少500个核苷酸或核苷酸对。多核苷酸的长度可以是1000个或更多个核苷酸或核苷酸对、5000个或更多个核苷酸或核苷酸对、或长度是100000个或更多个核苷酸或核苷酸对。多核苷酸的第一部分可以是任何合适的长度。在所公开的方法中评估的多核苷酸的第一部分的长度可以是至少1kb(即1000个核苷酸或核苷酸对)。在一些实施例中,多核苷酸的第一部分的长度为至少2kb,例如至少5kb,例如至少10kb,如至少20kb,例如至少50kb,例如至少100kb,例如至少1000kb,例如至少10,000kb,如至少50,000kb或更多。
可以研究任何数量的多核苷酸。例如,方法可以涉及表征2个、3个、4个、5个、6个、7个、8个、9个、10个、20个、30个、50个、100个或更多个多核苷酸。如果表征两个或更多个多核苷酸,那么其可以是不同的多核苷酸或同一多核苷酸的两个示例。多核苷酸可以是天然存在的或人工的。例如,方法可以用于验证所制造寡核苷酸的序列。方法通常在体外进行。
核苷酸可以具有任何同一性(ii),并且包含但不限于单磷酸腺苷(AMP)、单磷酸鸟苷(GMP)、单磷酸胸苷(TMP)、单磷酸尿苷(UMP)、单磷酸5-甲基胞苷、单磷酸5-羟基甲基胞苷、单磷酸胞苷(CMP)、单磷酸环腺苷(cAMP)、单磷酸环鸟苷(cGMP)、单磷酸脱氧腺苷(dAMP)、单磷酸脱氧鸟苷(dGMP)、单磷酸脱氧胸苷(dTMP)、单磷酸脱氧尿苷(dUMP)、单磷酸脱氧胞苷(dCMP)和单磷酸脱氧甲基胞苷。核苷酸优选地是选自AMP、TMP、GMP、CMP、UMP、dAMP、dTMP、dGMP、dCMP和dUMP。核苷酸可以无碱基(即缺乏核碱基)。核苷酸还可以缺乏核碱基和糖(即是C3间隔子)。核苷酸(iii)的序列由链的5'到3'方向上在整个多核苷酸菌株中彼此连接的以下核苷酸的连续同一性确定。
靶多核苷酸可以包括PCR反应的产物、基因组DNA、内切核酸酶消化的产物和/或DNA文库。靶多核苷酸可以从任何生物或微生物中获得或提取。靶多核苷酸通常获自人或动物,例如获自尿液、淋巴、唾液、粘液、精液或羊水,或获自全血、血浆或血清。靶多核苷酸可以获自植物,例如谷类、豆类、水果或蔬菜。靶多核苷酸可以包括基因组DNA。可以使基因组DNA片段化。可以通过任何合适的方法使DNA片段化。例如,片段化DNA的方法是本领域已知的,这样的方法可以使用转座酶,如MuA转座酶。往往,不对基因组DNA进行片段化。在一些实施例中,靶多核苷酸可以是DNA、RNA和/或DNA/RNA杂交体。
检测器
在本文所提供的方法中,多核苷酸相对于如纳米孔等检测器移动。检测器可以选自以下:(i)零模波导;(ii)场效应晶体管,任选地纳米线场效应晶体管;(iii)AFM尖端;(iv)纳米管,任选地碳纳米管;以及(v)纳米孔。优选地,所述检测器是纳米孔。
可以以任何合适的方式在本文所提供的方法中表征多核苷酸。在一个实施例中,多核苷酸通过当多核苷酸相对于纳米孔移动时检测离子电流或光信号来进行表征。这在本文中进行了更详细的描述。所述方法适用于这些和其它检测多核苷酸的方法。
在另一个非限制性实例中,在一个实施例中,多核苷酸通过检测多核苷酸加工反应,如边合成边测序反应的副产物来进行表征。所述方法因此可以涉及检测通过酶,如聚合酶向核酸链中顺序添加(聚)核苷酸的产物。产物可以是酶的一种或多种性质的变化,例如酶的构型。这种方法因此可以包括在以下条件下使如聚合酶或逆转录酶等酶经受双链多核苷酸:响应于按顺序遇到的模板链核酸碱基和/或掺入模板指定的天然或类似物碱基(即,掺入事件),使得将核苷酸碱基模板依赖性掺入生长中的寡核苷酸链中会引起酶的构象变化,响应于这种掺入事件检测酶的构象变化,并且由此检测模板链的序列。在此类方法中,可以根据本文所提供的方法移动多核苷酸链。这种方法可以涉及使用本领域的技术人员已知的方法,如在US2017/0044605中描述的方法,检测和/或测量掺入事件。
在另一个实施例中,可以对副产物进行标记,以便在将核苷酸添加到与模板链互补的合成核酸链中时释放磷酸盐标记的物质,并且例如,使用如本文所描述的检测器检测磷酸盐标记的物质。可以根据本文的方法移动以此方式表征的多核苷酸。合适的标记物可以是使用纳米孔或零模波导或通过拉曼光谱(Raman spectroscopy)或其它检测器检测的光学标记物。合适的标记物可以是使用纳米孔或其它检测器检测的非光学标记物。
在另一种方法中,不标记核苷磷酸盐(核苷酸),并且在向与模板链互补的合成核酸链中添加核苷酸后,检测到天然副产物物质。合适的检测器可以是离子敏感的场效应晶体管或其它检测器。
这些和其它检测方法适用于本文所描述的方法。当多核苷酸相对于检测器移动时,可以使用检测器进行任何合适的测量。
纳米孔
在其中检测器是纳米孔的所公开的方法的实施例中,可以使用任何合适的跨膜纳米孔。
跨膜纳米孔是某种程度上跨膜的结构。它允许由施加的电势驱动的水合离子跨过膜或在膜内流动。跨膜纳米孔通常穿过整个膜,使得水合离子可以从膜的一侧流到膜的另一侧。然而,跨膜纳米孔不必要穿过膜。它可能在一个末端处封闭。例如,纳米孔可以是膜中的阱、间隙、通道、沟槽或狭缝,水合离子可以沿着它流动或流入其中。
在本文所提供的方法中可以使用任何跨膜纳米孔。纳米孔可以是生物的或人工的。合适的孔包含但不限于蛋白质孔、多核苷酸孔和固态孔。纳米孔可以是DNA折纸孔(origami pore)(Langecker等人,《科学(Science)》,2012;338:932-936)。WO2013/083983中公开了合适的DNA折纸孔。
在一个实施例中,纳米孔是跨膜蛋白孔。跨膜蛋白孔是多肽或多肽的集合,其允许如多核苷酸的水合离子从膜的一侧流到膜的另一侧。在本文所提供的方法中,跨膜蛋白孔能够形成允许由施加的电势驱动的水合离子从膜的一侧流向另一侧的孔。跨膜蛋白孔优选地允许多核苷酸从膜(如三嵌段共聚物膜)的一侧流到另一侧。跨膜蛋白孔通常允许多核苷酸移动通过孔。
在一个实施例中,纳米孔是跨膜蛋白孔,其为单体或寡聚体。孔优选地由若干重复的亚基,如至少6个、至少7个、至少8个、至少9个、至少10个、至少11个、至少12个、至少13个、至少14个、至少15个或至少16个亚基构成。孔优选地是六聚体、七聚体、八聚体或非聚体的孔。孔可以是同型寡聚体或异型低聚物。
在一个实施例中,跨膜蛋白孔包括离子可以通过其流动的桶或通道。孔的亚基通常围绕中心轴线,并向跨膜β-桶或通道或跨α-螺旋束或通道贡献链。
通常,跨膜蛋白质孔的桶或通道包括促进与分析物,如靶多核苷酸(如本文所描述的)的相互作用的氨基酸。这些氨基酸优选地位于桶或通道的缢痕附近。跨膜蛋白孔通常包括一个或多个带正电荷的氨基酸,如精氨酸、赖氨酸或组氨酸,或芳香族氨基酸,如酪氨酸或色氨酸。这些氨基酸通常促进孔与核苷酸、多核苷酸或核酸之间的相互作用。
在一个实施例中,纳米孔是源自β-桶孔或α-螺旋束孔的跨膜蛋白孔。β-桶孔包括由β-链形成的桶或通道。合适的β-桶孔包含但不限于β-毒素,如α-溶血素、炭疽毒素和杀白细胞素,以及细菌的外膜蛋白/孔蛋白,如耻垢分枝杆菌(Mycobacterium smegmatis)孔蛋白(Msp),例如MspA、MspB、MspC或MspD、CsgG,外膜孔蛋白F(OmpF)、外膜孔蛋白G(OmpG)、外膜磷脂酶A和奈瑟氏球菌(Neisseria)自转运蛋白(NalP)以及其它孔隙,如胞溶素。α-螺旋束孔包括由α-螺旋形成的桶或通道。合适的α-螺旋束孔包含但不限于内膜蛋白和α外膜蛋白,如WZA和ClyA毒素。
在一个实施例中,纳米孔是源自或基于Msp、α-溶血素(α-HL)、胞溶素、CsgG、ClyA、Sp1以及溶血蛋白fragaceatoxin C(FraC)的跨膜孔。
在一个实施例中,纳米孔是源自CsgG,例如源自来自大肠杆菌菌株K-12亚株MC4100的CsgG的跨膜蛋白孔。此类孔是寡聚的,并且通常包括源自CsgG的7个、8个、9个或10个单体。孔可以是源自包括相同单体的CsgG的同质寡聚孔。可替代地,孔可以是源自包括至少一种不同于其它单体的单体的CsgG的异质寡聚孔。在WO 2016/034591中公开了源自CsgG的合适的孔的实例。
在一个实施例中,纳米孔是源自溶酶素的跨膜孔。WO 2013/153359中公开了源自胞溶素的合适的孔的实例。
在一个实施例中,纳米孔是源自或基于α-溶血素(α-HL)的跨膜孔。野生型α-溶血素孔由7个相同的单体或亚基形成(即,它是七聚的)。α-溶血素孔可以是α-溶血素-NN或其变体。变体优选地包括在位置E111和K147处的N个残基。
在一个实施例中,纳米孔是源自Msp,例如源自MspA的跨膜蛋白孔。WO 2012/107778中公开了源自MspA的合适的孔的实例。
在一个实施例中,纳米孔是源自或基于ClyA的跨膜孔。
在所公开的方法中,检测器通常是存在于膜中的纳米孔。可以使用任何合适的膜。
膜优选地是两亲层。两亲层是由如磷脂等两亲分子形成的层,其具有亲水性质和亲脂性质两者。两亲性分子可以是合成的或天然存在的。非天然存在的两亲物和形成单层的两亲物在所属领域中是已知的,并且包含例如嵌段共聚物(Gonzalez-Perez等人,《朗缪尔(Langmuir)》,2009,25,10447-10450)。嵌段共聚物是聚合在一起的两个或更多个单体亚基产生单一聚合物链的聚合材料。嵌段共聚物通常具有由每个单体亚基贡献的性质。然而,嵌段共聚物可以具有由个别子单元形成的聚合物不拥有的独特性质。嵌段共聚物可进行工程改造,使得单体子单元中的一个在水性介质中是疏水性的(即亲脂性),而其它子单元是亲水性的。在此情况下,嵌段共聚物可拥有两亲性质,并且可以形成模拟生物膜的结构。嵌段共聚物可以是二嵌段的(其由两个单体子单元组成),但也可以由超过两个的单体子单元来构建,形成表现为两亲物的更复杂的排列。共聚物可以是三嵌段、四嵌段或五嵌段共聚物。膜优选地是三嵌段共聚物膜。
古细菌双极性四醚脂质是天然存在的脂质,其被构建成使得脂质形成单层膜。这些脂质一般发现于在苛刻生物环境中存活的嗜极生物、嗜热生物、嗜盐生物和嗜酸生物中。其稳定性被认为是源于最终双层的融合性质。直接了当的做法是,通过产生具有一般基序亲水性-疏水性-亲水性的三嵌段聚合物来构建模拟这些生物实体的嵌段共聚物材料。这种材料可以形成表现类似于脂质双层并且涵盖从囊泡到层状膜的一系列阶段表现的单体膜。由这些三嵌段共聚物形成的膜在生物脂质膜上保持若干优势。因为合成三嵌段共聚物,所以可小心地控制准确的构建,以提供形成膜和与孔和其它蛋白质相互作用所需的正确链长度和性质。
还可以由不分类为脂质亚材料的子单元来构建嵌段共聚物;例如可由硅氧烷或其它非基于烃的单体来制成疏水性聚合物。嵌段共聚物的亲水性亚区段还可以具备低蛋白质结合性质,这允许产生当暴露于原始生物样品时具有高度抗性的膜。此头基单元还可来源于非经典的脂质头基。
与生物脂质膜进行比较,三嵌段共聚物膜还具有增加的机械和环境稳定性,例如高许多的操作温度或pH范围。嵌段共聚物的合成性质提供定制用于广泛范围应用的基于聚合物的膜的平台。
在一些实施例中,膜是国际申请第WO2014/064443号或第WO2014/064444号中所公开的膜中的一个膜。
两亲分子可以进行化学修饰或官能化,以便于偶联多核苷酸。两亲性层可以是单层或双层。两亲性层通常是平面的。两亲性层可以是弯曲的。两亲性层可以是支撑式的。
两亲膜通常是天然可移动的,基本上以大约10-8cm s-1的脂质扩散速率充当二维液体。这意味着孔和偶联的多核苷酸可以通常在两亲膜内移动。
膜可以是脂质双层。脂质双层是细胞膜的模型,并且用作一系列实验研究的极佳平台。例如,脂质双层可以用于通过单通道记录对膜蛋白的活体外研究。可替代地,脂质双层可以用作检测一系列物质的存在的生物传感器。脂质双层可以是任何脂质双层。合适的脂质双层包含但不限于平面脂质双层、支持双层或脂质体。脂质双层优选地是平坦脂质双层。合适脂质双层公开于WO 2008/102121、WO 2009/077734和WO 2006/100484中。
用于形成脂质双层的方法在本领域中是已知的。脂质双层通常通过Montal和Mueller的方法(《美国国家科学院院刊》,1972;69:3561-3566)来形成,其中脂质单层携载于通过开孔两侧的水溶液/空气界面上,所述开孔垂直于所述界面。通常通过首先将脂质溶解在有机溶剂中,并且然后使在开孔两侧上的水溶液的表面上蒸发一滴溶剂,来将脂质添加到水性电解质溶液的表面。一旦有机溶剂已蒸发,那么开孔两侧上的溶液/空气界面来回物理地移动通过开孔,直到形成双层为止。可以跨膜中的开孔或跨凹槽中的开口形成平面脂质双层。
Montal和Mueller的方法是常用的,这是因为是节约成本的,且是形成适合于蛋白孔插入的良好品质脂质双层的相对直接了当的方法。双层形成的其它常见方法包含脂质体双层的尖端浸没、双层涂刷和贴片夹持。
尖端浸没双层形成需要使开孔表面(例如移液管尖端)接触到携载脂质单层的测试溶液的表面。同样,通过将溶解于有机溶剂中的一滴脂质在溶液表面处蒸发来首先在溶液/空气界面处产生脂质单层。接着,通过朗缪尔-沙佛(Langmuir-Schaefer)过程形成双层,并且需要机械自动以使开孔相对于溶液表面移动。
对于涂刷的双层,将溶解于有机溶剂中的一滴脂质直接应用于开孔,所述开孔浸没在水性测试溶液中。使用笔刷或等效物,使脂质溶液稀薄地扩散在开孔内。溶剂的稀化使得形成脂质双层。然而,从双层完全去除溶剂是非常困难的,并且因此通过这种方法形成的双层较不稳定且更倾向于在电化学测量期间具有噪声。
贴片夹持是在生物细胞膜研究中常用的。通过抽汲将细胞膜夹持到移液管的末端,并且膜贴片变为连接在开孔内。所述方法适用于通过夹持接着爆裂以离开密封在移液管的开孔内的脂质双层的脂质体来产生脂质双层。所述方法需要稳定的、巨大的且单层脂质体和在具有玻璃表面的材料中制造小开孔。
脂质体可以通过超声处理、挤出或Mozafari方法(Colas等人(2007)《微米(Micron)》38:841-847)来形成。
在一些实施例中,如国际申请第WO 2009/077734号中所描述形成脂质双层。在此方法中有利的是,由干燥脂质形成脂质双层。在一最优选实施例中,跨越开口形成脂质双层,如WO2009/077734中所描述。
由脂质的两个相对层形成脂质双层。两个脂质层被布置成使得其疏水尾部基团面朝彼此,形成疏水性的内部。脂质的亲水性头基朝外面向双层每侧上的水性环境。双层可以存在于多种脂质阶段中,所述脂质阶段包含但不限于液体无序阶段(液体片层)、液体有序阶段、固体有序阶段(片层凝胶阶段、交错结合的凝胶阶段)和平面双层晶体(片层亚凝胶阶段、片层结晶阶段)。
可以使用形成脂质双层的任何脂质组合物。选择脂质组合物,使得脂质双层具有所需的性质,如表面电荷、支持膜蛋白的能力、充填密度或所形成的机械性质。脂质组合物可以包括一种或多种不同脂质。例如,脂质组合物可以含有至多100种脂质。脂质组合物优选地含有1到10种脂质。脂质组合物可以包括天然存在的脂质和/或人工脂质。
脂质通常包括头基、界面部分和可相同或不同的两个疏水尾部基团。合适的头基包含但不限于:中性头基,例如二酰基甘油酯(DG)和脑酰胺(CM);两性离子头基,如磷脂酰胆碱(PC)、磷脂酰乙醇胺(PE)和鞘磷脂(SM);带负电荷的头基,如磷脂酰甘油(PG);磷脂酰丝氨酸(PS)、磷脂酰肌醇(PI)、磷脂酸(PA)和心磷脂(CA);以及带正电荷的头基,如三甲基铵丙烷(TAP)。合适界面部分包含但不限于天然存在的界面部分,例如基于甘油或基于脑酰胺的部分。合适的疏水性尾基包含但不限于:饱和烃链,例如月桂酸(正十二烷酸)、肉豆蔻酸(正十四烷酸)、棕榈酸(正十六烷酸)、硬脂酸(正十八烷酸)和花生酸(正二十烷酸);不饱和烃链,如油酸(顺-9-十八烷酸);和支链烃链,如植烷酰基。链的长度和不饱和烃链中的双键的位置和数量可以变化。链的长度和支链烃链中的支链(如甲基)的位置和数量可以变化。疏水性尾基可以作为醚或酯与界面部分连接。脂质可以是分枝菌酸。
脂质还可以进行化学修饰。脂质的头基或尾部基团可以进行化学修饰。头基已进行化学修饰的合适的脂质包含但不限于:经PEG修饰的脂质,如1,2-二酰基-sn-甘油-3-磷酸乙醇胺-N-[甲氧基(聚乙二醇)-2000];官能化PEG脂质,如1,2-二硬脂酰基-sn-甘油-3磷酸乙醇胺-N-[生物素基(聚乙二醇)2000];以及针对缀合修饰的脂质,如1,2-二油酰基-sn-甘油-3-磷酸乙醇胺-N-(琥珀酰基)和1,2-二棕榈酰基-sn-甘油-3-磷酸乙醇胺-N-(生物素基)。尾基已进行化学修饰的合适的脂质包含但不限于:可聚合脂质,如1,2-双(10,12-二十三碳二炔基)-sn-甘油-3-磷酸胆碱;氟化脂质,如1-棕榈酰基-2-(16-氟棕榈酰基)-sn-甘油-3-磷酸胆碱;氘化脂质,如1,2-二棕榈酰基-D62-sn-甘油-3-磷酸胆碱;以及醚连接的脂质,如1,2-二-O-植烷基-sn-甘油-3-磷酸胆碱。脂质可以进行化学修饰或官能化,以便于偶联多核苷酸。
两亲性层,例如脂质组合物,通常包括将影响层的性质的一种或多种添加剂。合适的添加剂包含但不限于:脂肪酸,如棕榈酸、肉豆蔻酸和油酸;脂肪醇,如棕榈醇、肉豆蔻醇和油醇;甾醇,如胆固醇、麦角固醇、羊毛甾醇、谷甾醇和豆甾醇;溶血磷脂,如1-酰基-2-羟基-sn-甘油-3-磷酸胆碱;以及神经酰胺。
在另一个实施例中,膜包括固态层。固态层可以由有机材料和无机材料两者形成,所述材料包含但不限于:微电子材料、绝缘材料(如Si3N4、A12O3和SiO)、有机和无机聚合物(如聚酰胺)、塑料(如
Figure BDA0003995203950000671
)或弹性体(如双组分加成固化硅橡胶)以及玻璃。固态层可以由石墨烯形成。合适的石墨烯层公开于WO 2009/035647中。如果膜包括固态层,那么孔通常存在于两亲膜或层中,所述两亲膜或层包含在固态层内,例如在固态层内的孔洞、孔、间隙、通道、沟槽或缝隙内。技术人员可以制备合适的固态/两亲性杂交系统。合适的系统公开于WO 2009/020682和WO 2012/005857中。可以使用以上所论述的两亲膜或层中的任一个。
通常使用以下来实行本文公开的方法:(i)包括孔的人工两亲层,(ii)包括孔的分离的天然存在的脂质双层,或(iii)其中插入孔的细胞。通常使用人工两亲层(如人工三嵌段共聚物层)来执行方法。所述层可以包括其它跨膜和/或膜内蛋白质以及除孔以外的其它分子。下文论述了合适的设备和条件。本文所提供的方法通常在体外进行。
在一个实施例中,多核苷酸或多核苷酸衔接子包括例如与衔接子连接的膜锚或跨膜孔锚。在一个实施例中,锚有助于根据本文公开的方法对靶多核苷酸进行表征。例如,膜锚或跨膜孔锚可以促进所选多核苷酸在跨膜孔周围的定位。
锚可以是可以插入到膜中的多肽锚和/或疏水性锚。在一个实施例中,疏水性锚是脂质、脂肪酸、甾醇、碳纳米管、多肽、蛋白质或氨基酸,例如胆固醇、棕榈酸酯或生育酚。锚可以包括硫醇、生物素或表面活性剂。
一方面,锚可以是生物素(用于与链霉亲和素结合)、直链淀粉(用于与麦芽糖结合蛋白或融合蛋白结合)、Ni-NTA(用于与聚组氨酸或聚组氨酸标记的蛋白结合)或肽(如抗原)。
在一个实施例中,锚可以包括连接子,或2个、3个、4个或更多个连接子。优选的连接子包含但不限于聚合物,如多核苷酸、聚乙二醇(PEG)、多糖和多肽。这些连接子可以是线性、支链或环状的。例如,连接子可以是环状多核苷酸。衔接子可以与环状多核苷酸连接子上的互补序列杂交。一个或多个锚或一个或多个连接子可以包括可被切割或分解的组分,如限制性位点或光不稳定基团。连接子可以用马来酰亚胺基团官能化以与蛋白质中的半胱氨酸残基连接。WO 2010/086602中描述了适合的连接子。
在一个实施例中,锚是胆固醇或脂肪酰基链。例如,可以使用具有的长度为6到30个碳原子的任何脂肪酰基链,如十六烷酸。WO 2012/164270和WO 2015/150786中公开了合适的锚的实例以及将锚与衔接子连接的方法。
在另一个实施例中,锚可以由以下组成或包括以下:对多核苷酸或多核苷酸衔接子的疏水性修饰。疏水性修饰可以包括包含在多核苷酸或多核苷酸锚中的经修饰的磷酸基团。疏水性修饰可以例如包括硫代磷酸酯,如Jones等人,《美国化学学会期刊》2021,143,22,8305中描述的电荷中和的烷基硫代磷酸酯(PPT),所述文献的全部内容特此通过引用并入。合适的烷基包含例如C1-C10烷基如C2-C6烷基;例如甲基、乙基、丙基、丁基、戊基和己基。将电荷中和的烷基硫代磷酸酯掺入到多核苷酸中允许多核苷酸锚定到如脂质双层等疏水区。
表征方法
如上文所描述的,本文所提供的方法涉及选择性地表征具有一种或多种期望的性质的多核苷酸。例如,所述方法可以涉及表征具有期望的长度的多核苷酸。
表征方法可以使用适合于研究其中将孔插入到膜中的膜/孔系统的任何设备来进行。可以使用适合于跨膜孔感测的任何设备来进行表征方法。例如,所述设备可以包括包含水溶液的室和将室分成两段的屏障。屏障通常具有开孔,在开孔中形成含有孔的膜。本文描述了跨膜孔。
可以使用在WO 2008/102120、WO 2010/122293或WO 00/28312中描述的设备进行表征方法。
表征方法可以涉及通常通过测量电流来测量流经孔的离子电流。可替代地,可以光学测量通过孔的离子流,例如在Heron等人:《美国化学学会期刊》第9卷131,第5期,2009中所公开的。因此,设备还可以包括能够施加电势并且测量跨膜和孔的电信号的电路。可以使用膜片钳或电压钳来进行表征方法。表征方法优选地涉及电压钳的使用。
所述方法可以涉及测量光学信号,如Chen等人,《自然通讯(NatureCommunications)》(2018)9:1733中描述的,所述文献的全部内容特此通过引用并入。例如,可以使用如光学工程化纳米孔结构(例如等离子体纳米狭缝)等纳米孔来局部启用单分子表面增强拉曼光谱法(SERS)以允许通过直接拉曼光谱检测来表征多核苷酸。
表征方法可以在基于硅的孔阵列上进行,其中每个阵列包括128个、256个、512个、1024个、2000个、3000个、4000个、6000个、10000个、12000个、15000个或更多个孔。
表征方法可以涉及测量流过孔的电流。所述方法通常在跨膜和孔施加电压的情况下进行。所使用的电压通常为+2V至-2V,通常为-400mV至+400mV。所使用的电压优选地处于具有下限和上限的范围内,所述下限选自-400mV、-300mV、-200mV、-150mV、-100mV、-50mV、-20mV和0mV,并且所述上限独立地选自+10mV、+20mV、+50mV、+100mV、+150mV、+200mV、+300mV和+400mV。所使用的电压更优选地处于100mV到240mV的范围内,并且最优选地处于120mV到220mV的范围内。通过使用增加的施加的电势,可以通过孔增加不同核苷酸之间的区分度。
通常在存在任何电荷载流子的情况下进行表征方法,所述电荷载流子如金属盐,例如碱金属盐;卤盐,例如氯化物盐,如碱金属氯化物盐。电荷载体可以包含离子液体或有机盐,例如四甲基氯化铵、三甲基苯基氯化铵、苯基三甲基氯化铵或1-乙基-3-甲基氯化咪唑。在上文所讨论的示例性设备中,盐存在于室中的水溶液中。通常使用氯化钾(KCl)、氯化钠(NaCl)或氯化铯(CsCl)。KCl是优选的。该盐可以是碱土金属盐,诸如氯化钙(CaCl2)。盐浓度可以处于饱和状态。盐浓度可以是3M或更低,并且通常为0.1M至2.5M、0.3M至1.9M、0.5M至1.8M、0.7M至1.7M、0.9M至1.6M或1M至1.4M。盐浓度优选地为150mM至1M。优选地使用至少0.3M的盐浓度进行表征方法,如至少0.4M、至少0.5M、至少0.6M、至少0.8M、至少1.0M、至少1.5M、至少2.0M、至少2.5M或至少3.0M。高盐浓度提供高信噪比,并允许在正常电流波动的背景下鉴定指示结合/无结合的电流。
通常在存在缓冲液的情况下进行表征方法。在上文讨论的示例性设备中,缓冲液存在于腔室中的水溶液中。可以使用任何合适的缓冲液。通常,缓冲液是HEPES。另一种合适的缓冲液是Tris-HCl缓冲液。通常在以下的pH下执行所述方法:4.0至12.0、4.5至10.0、5.0至9.0、5.5至8.8、6.0至8.7或7.0至8.8或7.5至8.5。使用的pH优选地是约7.5。
可以在以下温度下进行表征方法:0℃至100℃、15℃至95℃、16℃至90℃、17℃至85℃、18℃至80℃、19℃至70℃或20℃至60℃。通常在室温下进行表征方法。任选地在支持酶功能的温度下进行表征方法,如在约37℃下进行。
另外的方面
本文所提供的方法的其它方面如下:
1.一种选择性地表征具有期望的长度的多核苷酸的方法,所述方法包括:
(i)使跨膜纳米孔与包括多核苷酸的多核苷酸的样品接触,所述多核苷酸具有能够控制停靠在其上的多核苷酸的移动的多核苷酸结合蛋白;
(ii)确定所述样品中的多核苷酸的第一部分在所施加的力下自由易位通过或穿过所述纳米孔所花费的时间,以便评估所述多核苷酸的大致长度;
(iii)在所述多核苷酸不具有期望的长度的情况下,将所述多核苷酸从所述纳米孔中排出并重复步骤(ii)和(iii);或者在所述多核苷酸具有期望的长度的情况下,允许所述多核苷酸结合蛋白控制所述多核苷酸的第二部分通过或穿过所述纳米孔的移动并且当所述多核苷酸的所述第二部分相对于所述纳米孔移动时进行测量以确定所述多核苷酸的一个或多个特性,
由此选择性地表征具有期望的长度的多核苷酸。
2.根据方面1所述的方法,其中在步骤(i)之前,衔接子与所述样品中的所述多核苷酸的一个或两个末端连接。
3.根据方面1或方面2所述的方法,其中所述多核苷酸结合蛋白与所述衔接子结合。
4.根据前述方面中任一项所述的方法,其中在步骤(ii)中,所述多核苷酸的所述第一部分相对于所施加的力的在第一方向上自由易位通过或穿过所述纳米孔,并且在步骤(iii)中,所述多核苷酸结合蛋白控制所述多核苷酸的所述第二部分相对于所施加的力的在第二方向上通过或穿过所述纳米孔的移动。
5.根据前述方面中任一项所述的方法,其中在步骤(i)中,所述纳米孔捕获所述样品中的所述多核苷酸的第一末端或与和所述样品中的所述多核苷酸的所述第一末端连接的衔接子并且所述多核苷酸结合蛋白与所述样品中的所述多核苷酸的第二末端或与和所述样品中的所述多核苷酸的所述第二末端连接的衔接子结合。
6.根据前述方面中任一项所述的方法,其中:
a)在步骤(i)中,所述纳米孔捕获所述样品中的所述多核苷酸的所述第一末端处的前导序列并且所述多核苷酸结合蛋白停靠在所述样品中的所述多核苷酸的第二末端处或与所述样品中的所述多核苷酸的所述第二末端连接的衔接子上;并且
b)所述多核苷酸的所述第一部分是位于所述前导序列与所述多核苷酸结合蛋白之间的部分,并且所述多核苷酸的所述第二部分与所述多核苷酸的所述第一部分相同;并且
c)所述多核苷酸结合蛋白定向在所述多核苷酸上,使得所述多核苷酸结合蛋白控制所述多核苷酸的所述第二部分抵抗所施加的力向回通过或穿过所述纳米孔的移动。
7.根据前述方面中任一项所述的方法,其中:
-所述样品中的具有期望的长度的所述多核苷酸是单链的;
-具有期望的长度的所述多核苷酸包括前导序列,其中所述前导序列定位于所述多核苷酸的所述第一末端处或包括在与所述多核苷酸的所述第一末端连接的衔接子中;并且
-所述多核苷酸结合蛋白停靠在所述多核苷酸的第二末端处或停靠在所述多核苷酸的所述第二末端处的衔接子上。
8.根据方面7所述的方法,其中所述样品中的所述多核苷酸是双链的。
9.根据方面1至6中任一项所述的方法,其中:
-所述样品中的具有期望的长度的所述多核苷酸是双链的并且包括第一链和第二链;
-具有期望的长度的所述多核苷酸包括前导序列,其中所述前导序列定位于所述多核苷酸的第一末端处并且包括在所述第一链中或包括在与所述第一链连接的衔接子中;并且
-所述多核苷酸结合蛋白停靠在所述多核苷酸的第二末端处或停靠在所述多核苷酸的所述第二末端处的衔接子上。
10.根据方面9所述的方法,其中所述多核苷酸结合蛋白停靠在所述双链多核苷酸的所述第一链的所述第二末端处或停靠在所述双链多核苷酸的所述第一链的所述第二末端处的衔接子上。
11.根据方面9所述的方法,其中:
-所述样品中的具有期望的长度的所述多核苷酸是双链的并且包括第一链和第二链;
-具有期望的长度的所述多核苷酸包括前导序列,其中所述前导序列定位于所述第一链的第一末端处或包括在与所述第一链的所述第一末端连接的衔接子中;
-所述第一链和所述第二链通过所述第一链的所述第二末端处的发夹衔接子连接在一起;并且
-所述多核苷酸结合蛋白停靠在所述发夹衔接子处。
12.根据方面10或方面11所述的方法,其中:
a)所述双链多核苷酸的所述第一部分是所述第一链的位于所述前导序列与所述多核苷酸结合蛋白之间的部分,并且所述多核苷酸的所述第二部分与所述多核苷酸的所述第一部分相同;并且
b)所述多核苷酸结合蛋白定向在所述多核苷酸上,使得所述多核苷酸结合蛋白控制所述多核苷酸的所述第二部分抵抗所施加的力向回通过或穿过所述纳米孔的移动。
13.根据方面1至6中任一项所述的方法,其中:
-所述样品中的具有期望的长度的所述多核苷酸是双链的并且包括第一链和第二链;
-具有期望的长度的所述多核苷酸包括前导序列,其中所述前导序列定位于所述第一链的第一末端处或包括在与所述第一链的所述第一末端连接的衔接子中;
-所述第一链和所述第二链通过发夹衔接子连接在一起,所述发夹衔接子与(i)所述第一链的所述第二末端和(ii)所述第二链的第一末端连接;并且
-所述多核苷酸结合蛋白停靠在所述第二链的第二末端处或停靠在所述双链多核苷酸的所述第二链的所述第二末端处的衔接子上。
14.根据方面13所述的方法,其中:
a)所述双链多核苷酸的所述第一部分包括:(i)所述第一链的位于所述前导序列与所述发夹衔接子之间的部分;(ii)所述发夹衔接子;以及(iii)所述第二链的位于所述发夹衔接子与所述多核苷酸结合蛋白之间的部分;并且所述多核苷酸的所述第二部分与所述多核苷酸的所述第一部分相同;并且
b)所述多核苷酸结合蛋白定向在所述多核苷酸上,使得所述多核苷酸结合蛋白控制所述多核苷酸的所述第二部分抵抗所施加的力向回通过或穿过所述纳米孔的移动。
15.根据前述方面中任一项所述的方法,其中所述样品中的具有期望的长度的所述多核苷酸包括与标签序列互补的部分。
16.根据前述方面中任一项所述的方法,其中所述样品中的具有期望的长度的所述多核苷酸包括具有与其杂交的寡核苷酸的部分,并且其中所述寡核苷酸包括:(a)用于与所述样品中的具有期望的长度的所述多核苷酸杂交的杂交部分;以及(b)(i)与标签序列互补的部分或(ii)能够与标签结合的亲和分子。
17.根据方面15或方面16所述的方法,其中所述样品中的所述多核苷酸是双链的,并且所述与标签序列互补的部分是所述多核苷酸的所述第一链的一部分和/或所述具有与其杂交的寡核苷酸的部分是所述多核苷酸的所述第一链的一部分。
18.根据前述方面中任一项所述的方法,其中所述多核苷酸结合蛋白停靠在包括一个或多个停靠单元的停靠位点处,所述一个或多个停靠单元独立地选自:
-多肽二级结构,优选地G-四链体(TBA);
-核酸类似物,所述核酸类似物优选地选自肽核酸(PNA)、甘油核酸(GNA)、苏糖核酸(TNA)、锁核酸(LNA)、桥接核酸(BNA)和无碱基核苷酸;
-间隔子单元,所述间隔子单元选自硝基吲哚、肌苷、吖啶、2-氨基嘌呤、2-6-二氨基嘌呤、5-溴-脱氧尿苷、反式胸苷(反式dT)、反式双脱氧胸苷(ddT)、双脱氧胞苷(ddC)、5-甲基胞苷、5-羟甲基胞苷、2'-O-甲基RNA碱基、异脱氧胞苷(异dC)、异脱氧鸟苷(异dG)、C3(OC3H6OPO3)基团、光可切割(PC)[OC3H6-C(O)NHCH2-C6H3NO2-CH(CH3)OPO3]基团、己二醇基团、间隔子9(iSp9)[(OCH2CH2)3OPO3]基团、多个间隔子18(iSp18)[(OCH2CH2)6OPO3]基团;以及硫醇连接;以及
-荧光团、如traptavidin、链霉亲和素和中性亲和素等亲和素和/或生物素、胆固醇、亚甲蓝、二硝基苯酚(DNP)、地高辛和/或抗地高辛以及二苄基环辛炔基团。
19.根据方面18所述的方法,其中步骤(iii)进一步包括使所述多核苷酸结合蛋白解除停靠的步骤。
20.根据方面19所述的方法,其中使所述多核苷酸结合蛋白解除停靠包括向所述多核苷酸施加停靠解除力,其中所述停靠解除力的幅度低于(a)在步骤(ii)中施加的力和/或(b)读取力的幅度和/或与所述力的方向相反,其中所述读取力是在所述多核苷酸结合蛋白控制所述多核苷酸的第二部分通过或穿过所述纳米孔的移动并且进行测量以确定所述多核苷酸的一个或多个特性的同时施加的力。
21.根据方面20所述的方法,其中使所述多核苷酸结合蛋白解除停靠包括在所述停靠解除力与所述读取力之间逐步改变所施加的力一次或多次。
22.根据前述方面中任一项所述的方法,其中所述样品中的具有期望的长度的所述多核苷酸包括用于防止所述多核苷酸结合蛋白与所述多核苷酸脱离接合的阻断部分。
23.根据方面22所述的方法,其中:
a)在步骤(i)中,所述纳米孔捕获所述样品中的所述多核苷酸的所述第一末端处的前导序列并且所述多核苷酸结合蛋白停靠在所述样品中的所述多核苷酸的第二末端处或与所述样品中的所述多核苷酸的所述第二末端连接的衔接子上;并且
b)所述阻断部分定位于所述多核苷酸结合蛋白与所述多核苷酸的所述第二末端之间,由此防止所述多核苷酸结合蛋白在所述多核苷酸的所述第二末端处与所述多核苷酸脱离接合。
24.根据前述方面中任一项所述的方法,其中所述多核苷酸结合蛋白是解旋酶。
这些方面涉及本文更详细描述的特征。
另外的实施例
以下是本文所提供的方法的进一步编号的实施例:
1.一种选择性地表征具有期望的长度的多核苷酸的方法,所述方法包括:
(i)使跨膜纳米孔与多核苷酸的样品接触;
(ii)确定所述样品中的多核苷酸的第一部分在所施加的力下自由易位通过或穿过所述纳米孔所花费的时间,以便评估所述多核苷酸的大致长度;
(iii)在所述多核苷酸不具有期望的长度的情况下,将所述多核苷酸从所述纳米孔中排出并重复步骤(ii)和(iii);或者在所述多核苷酸具有期望的长度的情况下,控制所述多核苷酸的第二部分通过或穿过所述纳米孔的移动并且当所述多核苷酸的所述第二部分相对于所述纳米孔移动时进行测量以确定所述多核苷酸的一个或多个特性,
由此选择性地表征具有期望的长度的多核苷酸。
2.根据实施例1所述的方法,其是一种选择性地对具有期望的长度的多核苷酸进行测序的方法,所述方法包括:
(i)使跨膜纳米孔与多核苷酸的样品接触;
(ii)确定所述样品中的多核苷酸的第一部分在施加的电势下自由易位通过所述跨膜纳米孔所花费的时间,以便评估所述多核苷酸的大致长度;
(iii)在所述多核苷酸不具有期望的长度的情况下,将所述多核苷酸从所述纳米孔中排出并重复步骤(ii);或者在所述多核苷酸具有期望的长度的情况下,控制所述多核苷酸的第二部分通过所述纳米孔的移动并且当所述多核苷酸的所述第二部分移动通过所述纳米孔时进行测量以确定所述多核苷酸的所述序列,由此选择性地对具有期望的长度的多核苷酸进行测序。
3.根据实施例1或实施例2所述的方法,其中在步骤(i)之前,衔接子与所述样品中的所述多核苷酸的一个或两个末端连接。
4.根据实施例3所述的方法,其中能够控制多核苷酸的移动的多核苷酸结合蛋白与所述衔接子结合,所述衔接子与所述多核苷酸的至少一个末端连接。
5.根据实施例1至4中任一项所述的方法,其中所述样品中的所述多核苷酸是双链的。
6.根据实施例5所述的方法,其中能够控制多核苷酸的移动的多核苷酸结合蛋白与所述双链多核苷酸的至少一条链的一个末端结合。
7.根据实施例5或6所述的方法,其中发夹衔接子与所述双链多核苷酸的一个末端连接,并且包括单链前导序列的衔接子与所述双链多核苷酸的另一个末端连接,并且其中能够控制多核苷酸的移动的多核苷酸结合蛋白与所述发夹衔接子结合。
8.根据实施例7所述的方法,其中在步骤(ii)中,所述单链前导序列在所施加的电势下被所述跨膜纳米孔捕获,所述多核苷酸的所述第一部分是所述双链多核苷酸的第一链,所述多核苷酸的所述第二部分是所述双链多核苷酸的所述第二链,并且所述多核苷酸结合蛋白控制所述多核苷酸的所述第二部分通过所述跨膜纳米孔的移动。
9.根据实施例1至6中任一项所述的方法,其中所述多核苷酸在一个末端处包括单链前导序列并且在所述多核苷酸的同一链上的另一个末端处具有与其结合的多核苷酸结合蛋白。
10.根据实施例7或实施例9所述的方法,其中所述单链前导序列在所施加的电势下被所述跨膜纳米孔捕获,所述多核苷酸的所述第一部分是位于所述前导多核苷酸与所述多核苷酸结合蛋白之间的部分,所述多核苷酸结合蛋白定向在所述多核苷酸上,使得所述多核苷酸结合蛋白控制所述多核苷酸的所述第二部分抵抗所施加的电势向回通过所述纳米孔的移动,并且所述多核苷酸的所述第二部分与所述多核苷酸的所述第一部分相同。
11.根据实施例1至6中任一项所述的方法,其中所述多核苷酸是双链的并且在所述双链多核苷酸的第一链的一个末端处包括单链前导序列并且在所述双链多核苷酸的所述第二链的一个末端处具有与其结合的多核苷酸结合蛋白。
12.根据实施例11所述的方法,其中所述双链多核苷酸的所述第二链的一部分包括与标签序列互补的序列,或者其中寡核苷酸与所述第二链杂交,其中所述寡核苷酸包括:(a)与所述第二链的一部分互补的部分;以及(b)(i)与标签序列互补的部分或(ii)能够与标签结合的亲和分子。
13.根据实施例11或12所述的方法,其中所述多核苷酸的所述第一部分是所述第一链的至少一部分并且所述多核苷酸的所述第二部分是所述第二链的至少一部分。
14.根据实施例13所述的方法,其中所述寡核苷酸或所述第二链与标签序列结合,所述标签序列与所述纳米孔连接。
15.根据实施例14所述的方法,其中当所述第一链移动通过所述纳米孔时,所述第二链与所述标签序列杂交。
16.根据实施例15所述的方法,其中所述第一链通过所述跨膜纳米孔的移动被暂时暂停以允许所述第二链与所述标签序列杂交。
17.根据实施例11至16中任一项所述的方法,其中所述第二链包括前导序列,所述前导序列与所述第一链杂交,使得所述前导序列仅在所述第一链移动通过所述纳米孔之后被所述纳米孔捕获。
这些实施例涉及本文更详细描述的特征。
构建体
如上文所讨论的,多核苷酸的移动(例如靶多核苷酸的第二部分的移动)可以使用如本文所描述的马达蛋白等多核苷酸结合蛋白来控制。所述多核苷酸结合蛋白可以停靠在所述多核苷酸上。例如,如本文所描述的,当所述靶多核苷酸是双链多核苷酸时,所述双链多核苷酸的两条链可以通过发夹或发夹衔接子连接,并且所述多核苷酸结合蛋白可以停靠在所述发夹或所述发夹衔接子上。
因此,本文还提供了一种构建体,所述构建体包括双链多核苷酸,所述双链多核苷酸包括通过发夹衔接子连接在一起的第一链和第二链,其中能够控制所述多核苷酸相对于纳米孔的移动的多核苷酸结合蛋白停靠在所述发夹衔接子处。
在一个实施例中,所述多核苷酸是如本文所描述的多核苷酸。在一个实施例中,所述衔接子是如本文所描述的衔接子。在一个实施例中,所述多核苷酸结合蛋白是如本文所描述的多核苷酸结合蛋白。
试剂盒
还提供了包括多核苷酸衔接子和多核苷酸结合蛋白的试剂盒。应当理解的是,本文公开的任何多核苷酸衔接子都可以应用于本文和上文讨论的试剂盒的实施例中。
在一个实施例中,提供了一种用于修饰靶多核苷酸的试剂盒,所述试剂盒包括:
i)至少一种多核苷酸衔接子;
ii)超快速多核苷酸处理酶,所述超快速多核苷酸处理酶能够自由易位靶多核苷酸的第一部分通过或穿过纳米孔;以及
iii)多核苷酸结合蛋白,所述多核苷酸结合蛋白能够控制所述靶多核苷酸的第二部分的移动;
在一个实施例中,所述多核苷酸衔接子是如本文更详细描述的多核苷酸衔接子。在一个实施例中,所述超快速多核苷酸处理酶如本文所描述的。在一个实施例中,所述多核苷酸结合蛋白如本文所描述的。
系统
还提供了包括多核苷酸衔接子、多核苷酸结合蛋白和纳米孔的系统。应当理解的是,本文公开的任何多核苷酸衔接子都可以应用于本文和上文讨论的系统的实施例中。
在一个实施例中,提供了一种用于表征靶多核苷酸的系统,所述系统包括:
-至少一种多核苷酸衔接子;
-超快速多核苷酸处理酶,所述超快速多核苷酸处理酶能够自由易位靶多核苷酸的第一部分通过或穿过纳米孔;
-多核苷酸结合蛋白,所述多核苷酸结合蛋白能够控制所述靶多核苷酸的第二部分的移动;以及
-纳米孔,所述纳米孔用于在靶多核苷酸相对于所述纳米孔移动时表征所述靶多核苷酸。
在一个实施例中,所述多核苷酸衔接子是如本文更详细描述的多核苷酸衔接子。在一个实施例中,所述超快速多核苷酸处理酶如本文所描述的。在一个实施例中,所述多核苷酸结合蛋白如本文所描述的。在一个实施例中,所述纳米孔是如本文所描述的纳米孔。所述系统可以进一步包括如本文所定义的膜;控制设备等。
在一个实施例中,所述系统进一步包括靶多核苷酸。在一个实施例中,靶多核苷酸是如本文所描述的靶多核苷酸。
应当理解,虽然本文已经针对根据本发明的方法讨论了特定实施例、特定构造以及材料和/或分子,但是可以在不脱离本发明的范围和精神的情况下在形式和细节上进行各种改变或修改。提供以下实例以更好地说明特定实施例,并且不应将其视为限制本申请。本申请仅由权利要求书限制。
实例
实例1
该实施例描述了测量自由易位通过纳米孔的多核苷酸的方法。测量多核苷酸自由易位通过或穿过孔所花费的时间。基于多核苷酸自由易位通过或穿过孔所花费的时间来决定是否拒绝多核苷酸。如果接受,那么通过测量通过纳米孔的电流对多核苷酸进行测序,因为多核苷酸结合蛋白控制多核苷酸移出纳米孔。如果拒绝,那么将多核苷酸从纳米孔中排出。
方法
对双链DNA分析物进行NEBNext末端修复和NEBNext dA加尾模块(新英格兰生物实验室(New England Biolabs,NEB)),以产生3'A突出端。
通过退火DNA制备Y衔接子。将多核苷酸结合蛋白加载到退火的Y衔接子DNA上。Y衔接子含有被纳米孔捕获的前导序列和3'T以使得能够与DNA分析物连接。Y衔接子含有多核苷酸结合蛋白的结合位点和停靠化学物质。蛋白结合的Y衔接子在阴离子交换柱上纯化。
使用来自牛津纳米孔技术公司(Oxford Nanopore Technologies)测序试剂盒(SQK-LSK109;参见https://community.nanoporetech.com/protocols/gDNA-sqk-lsk109/v/gde_9063_v109_revt_14aug2019了解详细信息)的LNB和T4 DNA连接酶(NEB)将双链DNA分析物与Y衔接子连接。使用Agencourt AMPure XP(贝克曼库尔特公司(BeckmanCoulter))珠粒纯化样品,并且用来自牛津纳米孔技术公司测序试剂盒(SQK-LSK109)的LFB进行两次洗涤。将连接的底物洗脱到来自牛津纳米孔技术公司测序试剂盒(SQK-LSK109)的EB中,这将被称为DNA文库。
电测量结果是在来自牛津纳米孔技术公司的FLO-MIN106 MinION流通池和MinIONMk1b上获取的。使用MinKNOW软件(牛津纳米孔技术公司)收集原始数据。
多核苷酸的第一部分的自由易位的持续时间是通过测量当第一链被纳米孔捕获时从开孔水平下降之后并且在以下情况下诱导的电流阈值之前的信号持续时间来计算的:当达到Y衔接子与多核苷酸的远端连接时诱导。
MinKNOW软件使用自由易位的多核苷酸的持续时间来决定是否拒绝第二链。通过反转施加的电压来排出第二链。在该实例中,接受具有超过预定阈值持续时间的自由易位时间的具有期望的长度的链。如果MinKNOW软件决定接受所述链,那么多核苷酸的第二链相对于纳米孔的移动由多核苷酸结合蛋白控制并且第二链被表征,例如通过被测序。
与在MinKNOW中没有设置持续时间拒绝标准的对照相比,序列长度分布的N50更大。
实例2
该实例描述了测量自由易位通过纳米孔的双链多核苷酸的第一链的方法。图3中示意性地示出了所述方法。
当第一链易位通过纳米孔时,双链多核苷酸的第二链中揭示序列。该序列与互补寡核苷酸杂交,所述互补寡核苷酸与纳米孔化学连接,将第二链定位到纳米孔。来自第二链的测序衔接子被纳米孔捕获。测量第一链自由易位通过或穿过孔所花费的时间。基于多核苷酸的第一链自由易位通过或穿过孔所花费的时间来决定是否拒绝多核苷酸的第二链。如果接受,那么多核苷酸的第二链的移动由多核苷酸结合蛋白控制。如果拒绝,那么将第二链从纳米孔中排出。
方法
对双链DNA分析物进行NEBNext末端修复和NEBNext dA加尾模块(新英格兰生物实验室(NEB)),以产生3'A突出端。使用来自牛津纳米孔技术公司测序试剂盒(SQK-LSK109)的LNB和T4 DNA连接酶(NEB)将双链DNA分析物与来自牛津纳米孔技术公司测序试剂盒(SQK-LSK308)的1D^2衔接子连接。使用Agencourt AMPure XP(贝克曼库尔特公司)珠粒纯化样品,并且用来自牛津纳米孔技术公司测序试剂盒(SQK-LSK109)的LFB进行两次洗涤。将连接的底物洗脱到来自牛津纳米孔技术公司测序试剂盒(SQK-LSK109)的EB中,这将被称为1D^2DNA分析物。
通过退火DNA制备Y衔接子。Y衔接子含有被纳米孔捕获的前导序列和突出端以使得能够与1D^2DNA分析物连接。Y衔接子可以含有系链以促进纳米孔对Y衔接子的捕获。
通过退火DNA制备测序衔接子。将多核苷酸结合蛋白加载到退火的测序衔接子DNA。测序衔接子含有被纳米孔捕获的前导序列和突出端以使得能够与1D^2DNA分析物连接。测序衔接子含有多核苷酸结合蛋白的结合位点和停靠化学物质。蛋白结合的测序衔接子在阴离子交换柱上纯化。
使用来自牛津纳米孔技术公司测序试剂盒(SQK-LSK109)的LNB和T4 DNA连接酶(NEB)将1D^2DNA分析物与Y衔接子和测序衔接子连接。使用Agencourt AMPure XP(贝克曼库尔特公司)珠粒纯化样品,并且用来自牛津纳米孔技术公司测序试剂盒(SQK-LSK109)的LFB进行两次洗涤。将连接的底物洗脱到来自牛津纳米孔技术公司测序试剂盒(SQK-LSK109)的EB中,这将被称为DNA文库。电测量结果是在来自牛津纳米孔技术公司的FLO-MIN107 MinION流通池和MinION Mk1b上获取的。使用MinKNOW软件(牛津纳米孔技术公司)收集原始数据。
多核苷酸的第一部分的自由易位的持续时间是通过测量当第一链被纳米孔捕获时从开孔水平下降之后并且在以下情况下诱导的电流阈值之前的信号持续时间来计算的:(a)当再次达到开孔水平时诱导;(b)通过与多核苷酸的第一链的远端连接的测序衔接子中的信号诱导;和/或(c)通过捕获第二链产生的信号诱导。
MinKNOW软件使用自由易位的多核苷酸的持续时间来决定是否拒绝第二链。通过反转施加的电压来排出第二链。在该实例中,接受具有超过预定阈值持续时间的自由易位时间的具有期望的长度的链。如果MinKNOW软件决定接受所述链,那么多核苷酸的第二链相对于纳米孔的移动由多核苷酸结合蛋白控制并且第二链被表征,例如通过被测序。
与在MinKNOW中没有设置持续时间拒绝标准的对照相比,序列长度分布(即中值链长度)的N50更大。
实例3
该实施例描述了测量自由易位通过纳米孔的不对称双链多核苷酸的第一链的方法。图5中示意性地示出了所述方法。
多核苷酸的第一链自由易位通过纳米孔。纳米孔将双链体分离。在自由易位的多核苷酸的远端处提供如多核苷酸结合蛋白、G-四链体(TBA)、BNA/LNA停靠、如C3或Sp18间隔子等间隔子、或与链霉亲和素或单价链霉亲和素连接的生物素/脱硫生物素等停靠,产生暂停和信号。在双链多核苷酸的第二链上揭示序列,该序列与互补寡核苷酸杂交,所述互补寡核苷酸与纳米孔化学连接,而第一链被暂停。第一链完全易位通过纳米孔。测量第一链自由易位通过或穿过孔所花费的时间。基于多核苷酸的第一链自由易位通过或穿过孔所花费的时间来决定是否拒绝多核苷酸的第二链。如果接受,那么多核苷酸的第二链的移动由多核苷酸结合蛋白控制。如果拒绝,那么将第二链从纳米孔中排出。
方法
对双链DNA分析物进行NEBNext末端修复和NEBNext dA加尾模块(新英格兰生物实验室(NEB)),以产生3'A突出端。使用来自牛津纳米孔技术公司测序试剂盒(SQK-LSK109)的LNB和T4 DNA连接酶(NEB)将双链DNA分析物与来自牛津纳米孔技术公司测序试剂盒(SQK-LSK308)的1D^2衔接子连接。使用Agencourt AMPure XP(贝克曼库尔特公司)珠粒纯化样品,并且用来自牛津纳米孔技术公司测序试剂盒(SQK-LSK109)的LFB进行两次洗涤。将连接的底物洗脱到来自牛津纳米孔技术公司测序试剂盒(SQK-LSK109)的EB中,这将被称为1D^2DNA分析物。
通过退火DNA制备Y衔接子。Y衔接子含有被纳米孔捕获的前导序列和突出端以使得能够与1D^2DNA分析物连接。
Y衔接子可以含有系链以促进纳米孔对Y衔接子的捕获。
通过退火DNA制备测序衔接子。测序衔接子含有被纳米孔捕获的前导序列和突出端以使得能够与1D^2DNA分析物连接。测序衔接子含有(第一)多核苷酸结合蛋白的结合位点和停靠化学物质。测序衔接子含有选自以下的停靠:
a.与第一多核苷酸结合蛋白结合的相反链上的第二多核苷酸结合蛋白的结合位点和停靠化学物质。
b.与多核苷酸结合蛋白结合的相反链上的G-四链体(TBA)。
c.与多核苷酸结合蛋白结合的相反链上的BNA/LNA停靠。
d.与多核苷酸结合蛋白结合的相反链上的C3或Sp18停靠。
e.与多核苷酸结合蛋白结合的相反链上的生物素或脱硫生物素停靠。
将多核苷酸结合蛋白加载到退火的测序衔接子DNA。蛋白结合的测序衔接子在阴离子交换柱上纯化。
使用来自牛津纳米孔技术公司测序试剂盒(SQK-LSK109)的LNB和T4 DNA连接酶(NEB)将1D^2DNA分析物与Y衔接子和测序衔接子连接。使用Agencourt AMPure XP(贝克曼库尔特公司)珠粒纯化样品,并且用来自牛津纳米孔技术公司测序试剂盒(SQK-LSK109)的LFB进行两次洗涤。将连接的底物洗脱到来自牛津纳米孔技术公司测序试剂盒(SQK-LSK109)的EB中,这将被称为DNA文库。
电测量结果是在来自牛津纳米孔技术公司的FLO-MIN107 MinION流通池和MinIONMk1b上获取的。使用MinKNOW软件(牛津纳米孔技术公司)收集原始数据。
多核苷酸的第一部分的自由易位的持续时间是通过测量当第一链被纳米孔捕获时从开孔水平下降之后并且在以下情况下诱导的电流阈值之前的信号持续时间来计算的:(a)当再次达到开孔水平时诱导;(b)通过与多核苷酸的第一链的远端连接的测序衔接子中的信号诱导;和/或(c)通过捕获第二链产生的信号诱导。
MinKNOW软件使用自由易位的多核苷酸的持续时间来决定是否拒绝第二链。通过反转施加的电压可以排出第二链。在该实例中,接受具有超过预定阈值的自由易位时间的具有期望的长度的链。如果MinKNOW软件决定接受所述链,那么多核苷酸的第二链相对于纳米孔的移动由多核苷酸结合蛋白控制并且第二链被表征,例如通过被测序。
与在MinKNOW中没有设置持续时间拒绝标准的对照相比,序列长度分布的N50更大。
实例4
该实施例描述了测量自由易位通过纳米孔的不对称双链多核苷酸的第一链的方法。图6中示意性地示出了所述方法。
Y衔接子上的序列与互补寡核苷酸杂交,所述互补寡核苷酸与纳米孔化学连接,保持第二条链定位于纳米孔。第一链的前导序列被纳米孔捕获。第一链自由易位通过纳米孔。纳米孔将双链体分离,揭示了捕获第二链的前导序列。第一链完全易位通过纳米孔。测量第一链自由易位通过或穿过孔所花费的时间。多核苷酸的第二链的衔接子被纳米孔捕获。基于多核苷酸的第一链自由易位通过或穿过孔所花费的时间来决定是否拒绝多核苷酸的第二链。如果接受,那么多核苷酸的第二链的移动由多核苷酸结合蛋白控制。如果拒绝,那么将第二链从纳米孔中排出。
方法
对双链DNA分析物进行NEBNext末端修复和NEBNext dA加尾模块(新英格兰生物实验室(NEB)),以产生3'A突出端,这将被称为DNA分析物。
通过退火DNA制备Y衔接子。Y衔接子含有被纳米孔捕获的前导序列和突出端以使得能够与DNA分析物连接。Y衔接子含有用于与寡核苷酸杂交的结合位点,所述寡核苷酸与纳米孔化学连接。测序衔接子含有多核苷酸结合蛋白的结合位点和停靠化学物质。将多核苷酸结合蛋白加载到退火的Y衔接子DNA上。蛋白结合的测序衔接子在阴离子交换柱上纯化。
通过退火DNA制备远端衔接子。衔接子含有突出端以使得能够与DNA分析物连接。任选地,如多核苷酸结合蛋白、G-四链体(TBA)、BNA/LNA停靠、如C3或Sp18间隔子等间隔子、或与链霉亲和素或单价链霉亲和素连接的生物素/脱硫生物素等停靠可以存在于远端衔接子中。
使用来自牛津纳米孔技术公司测序试剂盒(SQK-LSK109)的LNB和T4 DNA连接酶(NEB)将DNA分析物与Y衔接子和远端衔接子连接。使用Agencourt AMPure XP(贝克曼库尔特公司)珠粒纯化样品,并且用来自牛津纳米孔技术公司测序试剂盒(SQK-LSK109)的LFB进行两次洗涤。将连接的底物洗脱到来自牛津纳米孔技术公司测序试剂盒(SQK-LSK109)的EB中,这将被称为DNA文库。
电测量结果是在来自牛津纳米孔技术公司的FLO-MIN107 MinION流通池和MinIONMk1b上获取的。使用MinKNOW软件(牛津纳米孔技术公司)收集原始数据。
多核苷酸的第一部分的自由易位的持续时间是通过测量当第一链被纳米孔捕获时从开孔水平下降之后并且在以下情况下诱导的电流阈值之前的信号持续时间来计算的:(a)当再次达到开孔水平时诱导;(b)通过远端衔接子中的信号诱导;和/或(c)通过捕获第二链产生的信号诱导。
MinKNOW软件使用自由易位的多核苷酸的持续时间来决定是否拒绝第二链。通过反转施加的电压可以排出第二链。在该实例中,接受具有超过预定阈值w的自由易位时间的具有期望的长度的链。
如果MinKNOW软件决定接受所述链,那么多核苷酸的第二链相对于纳米孔的移动由多核苷酸结合蛋白控制并且第二链被表征,例如通过被测序。
与在MinKNOW中没有设置持续时间拒绝标准的对照相比,序列长度分布的N50更大。
实例5
该实例描述了测量多核苷酸的第一部分自由易位通过纳米孔所花费的持续时间并使用与发夹衔接子结合的多核苷酸结合蛋白来控制多核苷酸的第二部分的移动的方法。测量双链多核苷酸的第一部分易位通过或穿过孔所花费的时间。测量多核苷酸的第二部分的长度。观察到双链多核苷酸的第一部分易位通过或穿过孔所花费的时间与多核苷酸的第二部分的长度之间的相关性。
材料与方法
发夹衔接子
通过退火SEQ ID NO:11和SEQ ID NO:12制备发夹衔接子。将多核苷酸结合蛋白(Dda解旋酶)加载到发夹衔接子上。蛋白结合的发夹衔接子在阴离子交换柱上纯化。
3.6kb分析物制备
使用特异性引物和PCR制备双链3.6kb DNA分析物(SEQ ID NO:13)。对PCR产物进行NEBNext末端修复、NEBNext dA加尾模块和
Figure BDA0003995203950000831
酶(新英格兰生物实验室(NEB)),以产生3'A突出端和3'AGGA突出端。
10kb分析物制备
使用特异性引物和PCR制备双链10kb DNA分析物(SEQ ID NO:14)。对PCR产物进行NEBNext末端修复、NEBNext dA加尾模块和
Figure BDA0003995203950000832
酶(新英格兰生物实验室(NEB)),以产生3'A突出端和3'AGGA突出端。
Y衔接子制备
通过退火SEQ ID NO:15和SEQ ID NO:16制备Y衔接子。
Y衔接子和发夹衔接子与3.6kb分析物的连接
使用来自牛津纳米孔技术公司测序试剂盒(SQK-LSK109)的LNB和T4 DNA连接酶(NEB)将2μg 3.6kb分析物与100μL体积中的30nM发夹衔接子和50nM Y衔接子连接。使用Agencourt AMPure XP(贝克曼库尔特公司)珠粒纯化样品。并且用来自牛津纳米孔技术公司测序试剂盒(SQK-LSK108)的ABB进行两次洗涤。将连接的底物洗脱到来自牛津纳米孔技术公司测序试剂盒(SQK-LSK108)的ELB中,这将被称为3.6kb文库。
Y衔接子和发夹衔接子与10kb分析物的连接
使用来自牛津纳米孔技术公司测序试剂盒(SQK-LSK109)的LNB和T4 DNA连接酶(NEB)将2μg 10kb分析物与100μL体积中的30nM发夹衔接子和50nM Y衔接子连接。使用Agencourt AMPure XP(贝克曼库尔特公司)珠粒纯化样品。并且用来自牛津纳米孔技术公司测序试剂盒(SQK-LSK108)的ABB进行两次洗涤。将连接的底物洗脱到来自牛津纳米孔技术公司测序试剂盒(SQK-LSK108)的ELB中,这将被称为10kb文库。
电测量结果
电测量结果是在来自牛津纳米孔技术公司的FLO-MIN107 MinION流通池和MinIONMk1b上获取的。将来自用无核酸酶水(AmbionTM)制备的牛津纳米孔技术公司测序试剂盒(SQK-LSK108)的500μL RBF流过系统,等待5分钟,然后将300μL RBF流过系统,等待5分钟,然后将200μL RBF1流过系统。将来自牛津纳米孔技术公司测序试剂盒(SQK-LSK108)的37.5μL RBF、12.5μL回收的珠粒纯化的文库和来自牛津纳米孔技术公司测序试剂盒(SQK-LSK108)的25.5μL LLB(文库加载珠粒)混合。使用SpotOn流通池端口将75μL 3.6kb测序混合物添加到MinION流通池中。使用SpotOn流通池端口将75μL 10kb测序混合物添加到MinION流通池中。使用MinKNOW软件(牛津纳米孔技术公司)在-180mV和4000kHz采集频率下收集原始数据。
数据分析
使用Guppy v3.1.5(牛津纳米孔技术公司)中的碱基调用算法对由多核苷酸结合蛋白控制移动的多核苷酸的第二部分进行测序。使用minimap2(https://github.com/lh3/minimap2,版本2.14-r883)将多核苷酸的第二部分的碱基调用序列与参照序列进行比对以计算碱基对(bp)中的多核苷酸的第二部分的长度。
结果
多核苷酸的第一部分的自由易位的持续时间是通过在从开孔水平下降之后和超过120pA电流阈值之前获取信号的持续时间来计算(图12)。从测量结果中去除前10个数据点以避免由从开孔水平下降到自由易位的多核苷酸水平的信号产生的任何伪像。多核苷酸的第一部分的长度确定多核苷酸的第一部分的自由易位持续时间,如下表所示。
多核苷酸的第二部分在其易位期间通过测序来表征,并且比对长度如下表所示。观察到双链多核苷酸的第一部分易位通过或穿过孔所花费的时间与多核苷酸的第二部分的长度之间的相关性。
输入 比对长度(bp) 第一部分持续时间(毫秒)
3.6kb 3435 11.75
10kb 6707 39.75
实例6
该实例描述了测量自由易位通过纳米孔的双链多核苷酸的第一链的方法。
使双链多核苷酸与超快速多核苷酸处理酶接触,所述超快速多核苷酸处理酶能够使双链多核苷酸的第一链自由易位通过或穿过孔。基于多核苷酸的第一链自由易位通过或穿过孔所花费的时间来决定是否拒绝多核苷酸的第二链。如果接受,那么多核苷酸的第二链的移动由多核苷酸结合蛋白控制。如果拒绝,那么将第二链从纳米孔中排出。
方法
如先前实例中所描述的制备双链DNA分析物。
使双链DNA分析物与超快速多核苷酸处理酶接触,如FtsK或SpoIIIE易位酶;phi29包装马达;或AddAB或RecBCD解旋酶/解旋酶-核酸酶。
允许双链多核苷酸的第一链自由易位通过纳米孔。电测量结果是在来自牛津纳米孔技术公司的FLO-MIN107 MinION流通池和MinION Mk1b上获取的。使用MinKNOW软件(牛津纳米孔技术公司)收集原始数据。
在超快多核苷酸处理酶的控制下的多核苷酸的第一部分的自由易位的持续时间是通过测量当第一链被纳米孔捕获时从开孔水平下降之后并且在以下情况下诱导的电流阈值之前的信号持续时间来计算的:(a)当再次达到开孔水平时诱导;(b)通过与多核苷酸的第一链的远端连接的测序衔接子中的信号诱导;和/或(c)通过捕获第二链产生的信号诱导。
MinKNOW软件使用多核苷酸的自由易位的第一链的持续时间来决定是否拒绝第二链。通过反转施加的电压可以排出第二链。在该实例中,接受具有超过预定阈值持续时间的自由易位时间的具有期望的长度的链。如果MinKNOW软件决定接受所述链,那么多核苷酸的第二链相对于纳米孔的移动由多核苷酸结合蛋白控制并且第二链被表征,例如通过被测序。
与在MinKNOW中没有设置持续时间拒绝标准的对照相比,序列长度分布(即中值链长度)的N50更大。
实例7
该实例展示了来自易位(3'-5')穿过纳米孔的DNA的初始的无酶部分的信号的持续时间可以如何用于在远端上的5'-3'DNA马达主动将DNA链以相反方向易位出纳米孔之前估计双链DNA分子的大小,所述双链DNA分子的模板链和补体链通过发夹部分连接。另外地,该实例示出了可以如何使用添加到发夹中的标志物来划分信号。
DNA马达初始停靠在与多核苷酸连接的Y衔接子上。模板链和补体链通过发夹衔接子连接在一起。任选地,发夹部分含有大荧光团基团或无碱基基团,和/或另外的寡核苷酸与发夹杂交。
使用引物(其中一个引物含有多个dUTP碱基)通过PCR获得不对称的3.6千碱基双链DNA分析物(λ噬菌体DNA的片段;SEQ ID NO:20),并且通过NEBNext末端修复和NEBNextdA加尾模块(新英格兰生物实验室(NEB))然后通过NEB USER消化进行末端修复和dA加尾,以在一个末端处产生3'dA突出端并且在相反的末端处出留下3'AGGA突出端。
通过将通用衔接子与已使用Covaris gTube剪切至约20kb的剪切大小的大肠杆菌SCS110DNA连接并通过PCR扩增来产生大肠杆菌双链DNA的随机文库。通过NEBNext末端修复和NEBNext dA加尾模块(新英格兰生物实验室(NEB))对片段进行末端修复和dA加尾,以在两端处产生3'dA突出端。
通过退火DNA寡核苷酸(SEQ ID NO:21、SEQ ID NO:22)制备Y衔接子。将DNA马达(Dda解旋酶)加载到衔接子上。将单体traptavidin添加到衔接子中以作为阻断剂与5'生物素部分结合,以(1)防止DNA马达从5'末端向后扩散和(2)防止纳米孔无意中捕获文库的5'末端。
通过将DNA(SEQ ID NO:24、SEQ ID NO:25或SEQ ID NO:26在双链体退火缓冲液(整合DNA技术公司(Integrated DNA Technologies,Inc.))中以1μM加热至95℃持续2分钟,然后在湿冰上快速冷却来制备带有3'-TCCT或3'-T突出端的发夹。
使用来自牛津纳米孔技术公司测序试剂盒(SQK-LSK109)的LNB和T4 DNA连接酶(NEB)将不对称的3.6千碱基双链DNA分析物和发夹(SEQ ID NO:24或SEQ ID NO:26)与Y衔接子连接。使用Agencourt AMPure XP(贝克曼库尔特公司)珠粒纯化样品,并且用来自牛津纳米孔技术公司测序试剂盒(SQK-LSK109)的LFB进行两次洗涤。将连接的底物洗脱到10mMTris-Cl、50mM NaCl(pH 8.0)中,产生‘3.6kb DNA文库’。
使用来自牛津纳米孔技术公司测序试剂盒(SQK-LSK109)的LNB和T4 DNA连接酶(NEB)将大肠杆菌双链DNA和发夹(SEQ ID NO:25)与Y衔接子连接。使用Agencourt AMPureXP(贝克曼库尔特公司)珠粒纯化样品,并且用来自牛津纳米孔技术公司测序试剂盒(SQK-LSK109)的LFB进行两次洗涤。将连接的底物洗脱到10mM Tris-Cl、50mM NaCl(pH 8.0)中,产生‘随机大肠杆菌测试文库’。
电测量结果是在来自牛津纳米孔技术公司的FLO-MIN106 MinION流通池和MinIONMk1b上获取的。向1200μL FB(来自牛津纳米孔技术公司测序试剂盒(SQK-LSK109))中添加50nM的DNA系链,产生系链混合物。将800μL系链混合物流过系统,然后等待5分钟,然后在SpotON端口打开的情况下再流过另外200μL系链混合物。将来自牛津纳米孔技术公司测序试剂盒(SQK-LSK109)的37.5μL SQB、15μL的3.6kb文库或随机大肠杆菌测试文库、0.7μL过量的单体traptavidin(约100nM四聚体)和来自牛津纳米孔技术公司测序试剂盒(SQK-LSK109)的22.5μL LB混合,产生“测序混合物”。还以50nM向反应的一部分中添加寡核苷酸SEQ ID NO:27。通过SpotON流通池端口将75μL测序混合物添加到MinION流通池中。
两个文库使用不同的运行脚本进行了测试。使用定制测序脚本运行3.6kb文库,以控制所施加的电势如下:10秒捕获阶段(+120mV);0.5秒解除停靠阶段(-40mV);85.5秒测序(+120mV);排出阶段(0mV,1秒;-120mV,3秒)。这个施加电势序列被重复多次。
使用定制主动解除停靠脚本运行随机大肠杆菌测试文库,其中捕获/测序电压为120mV并且排出/解锁电压为-48mV。停靠水平和链(测序)水平的分类被编程到MinKNOW仪器控制软件中的配置文件中,所述软件使得能够检测停靠的物种并施加不会导致链完全排出的解锁电势。所述脚本的功能如下:如果MinKNOW检测到链处于停靠水平,它将首先施加解锁电势持续5秒,然后返回到120mV的测序电势以检查五次主动测序链。如果停靠水平仍然存在,它将再施加解锁电势持续另外25秒,并重复五次。每次解锁尝试之间都包含3秒的休息期。如果在返回测序电势时,MinKNOW检测到主动测序链,那么它将停止尝试解锁并仅施加测序电势。如果这整个过程没有产生主动测序链,那么MinKNOW将关闭通道。每隔15分钟,应用“mux扫描”来重置系统,这会在120mV下全局解锁流通池上的所有通道并检查活性纳米孔。
使用MinKNOW软件(牛津纳米孔技术公司)在批量FAST5文件中收集原始数据。
图13示出了该实例中使用的发夹和寡核苷酸组合。3.6kb DNA文库用于首先表征捕获阶段信号。
图14示出了预期在无酶和酶介导易位的电测量中检测到的中间体的示意图。在初始无酶捕获期间,预期会出现两个另外的状态A1和A2,分别对应于纳米孔中的大基团和纳米孔顶部的阻断寡核苷酸(如图14所示)。预期在酶介导的易位的模板(D)阶段与补体(E)阶段之间会出现另外的状态D1,与酶在发夹部分中的大基团之上易位相对应。图15a至15d示出了每个发夹-寡核苷酸组合的示例迹线。仅发夹部分(图15a)表现出相对平坦但可检测的捕获阶段(由星号标记)。添加与发夹部分杂交的寡核苷酸引入了另外的上升中间体(在图15b中标记为A2),并且三个大荧光素-dT碱基引入了下降(在图15c中标记为A1)。与发夹和荧光素-dT碱基杂交的寡核苷酸的组合引入了两种类型的信号(参见图15d)。另外的信号的引入使得能够测量多核苷酸的无酶捕获/进入阶段的持续时间(在图15a-d中通过星号表示)。
使用图15b所示方案(发夹加杂交的寡核苷酸)的实例用于测量随机大肠杆菌测试文库的无酶捕获阶段(图15e)。图15e,i示出了四个实例的简化(事件拟合)原始数据。60pA的阈值用于测量状态A与A2之间的无酶捕获持续时间,通过星号表示。图15e,ii示出了针对三十个分子的捕获持续时间绘制的酶介导的易位持续时间。线性回归分析表明,无酶捕获持续时间与酶介导的链持续时间相关,证实可以在解码其序列之前使用此方法估计链的大小。
实例8
该实例展示了来自易位(3'-5')穿过纳米孔的DNA的初始的无酶部分的信号的持续时间可以如何用于在双链DNA分子被完全表征之前仅基于捕获/进入阶段的持续时间来估计其一条链的大小。
通过退火DNA寡核苷酸(SEQ ID NO:28、SEQ ID NO:33、SEQ ID NO:30和SEQ IDNO:32)制备Y衔接子。将DNA马达(Dda解旋酶)加载到衔接子上。
通过PCR从噬菌体λ获得10kb片段。噬菌体λDNA(约48kb)和T4 DNA(约169kb)是从商业来源获得的。通过NEBNext末端修复和NEBNext dA加尾模块(新英格兰生物实验室(NEB))对这些双链分析物进行末端修复和dA加尾,以在每个片段的两个末端处产生3'dA突出端。使用来自牛津纳米孔技术公司测序试剂盒(SQK-LSK109)的LNB和T4DNA连接酶(NEB)将每个样品(单独地)与Y衔接子的dA加尾端连接。使用Agencourt AMPure XP(贝克曼库尔特公司)珠粒纯化样品,并且用来自牛津纳米孔技术公司测序试剂盒(SQK-LSK109)的LFB进行两次洗涤。将连接的底物洗脱到10mM Tris-Cl、50mM NaCl(pH 8.0)中,产生‘10kb文库’、‘λ文库’和‘T4文库’。
电测量结果是在来自牛津纳米孔技术公司的FLO-MIN106 MinION流通池和MinIONMk1b上获取的。向1170μL FB(来自牛津纳米孔技术公司测序试剂盒(SQK-LSK109))中添加30μL的FLT,产生系链混合物。将800μL系链混合物流过系统,然后等待5分钟,然后在SpotON端口打开的情况下再流过另外200μL系链混合物。将来自牛津纳米孔技术公司测序试剂盒(SQK-LSK109)的37.5μL SQB、15μL DNA文库和来自牛津纳米孔技术公司测序试剂盒(SQK-LSK109)的22.5μL LB混合,产生“测序混合物”。通过SpotON流通池端口将75μL测序混合物添加到MinION流通池中。
使用类似于实例7中描述的定制脚本收集数据,其中捕获/测序电压为120mV。
图16a示出了实验示意图。手动测量无酶捕获阶段作为开孔水平(A)与停靠水平(C)之间的带星号周期,在图16b,底图中更详细地示出。捕获阶段可通过其独特的噪声和中值电流水平特性来辨别。还测量了酶介导的易位时间(E)。图16b示出了上文所描述的在单独的流通池上获取的三个文库中的每个文库的代表性电流-时间迹线。例如,10kb文库的无酶捕获持续时间为1.6秒,并且酶介导的易位时间为35.3秒。尽管T4文库获得了长捕获,但没有记录全长实例,这可能是由于在链中遇到缺口的可能性增加。图16c示出了捕获持续时间(A至C)的对数相对于酶介导的易位持续时间的对数的绘图。从31个实例中,获得了线性相关性(R2=0.74),证实了可以在解码其序列之前使用此方法估计链的大小。
实例9
该实例展示了来自易位(3'-5')穿过纳米孔的DNA的初始的无酶部分的信号的持续时间可以如何用于在双链DNA分子被完全表征之前仅基于捕获/进入阶段的持续时间来估计其一条链的大小。
通过退火具有SEQ ID NO:34、35、36和37的多核苷酸序列的DNA寡核苷酸制备“粘性突出端Y衔接子”。将DNA马达(Dda解旋酶)加载到衔接子上。
通过退火具有SEQ ID NO:38和39的多核苷酸序列的DNA核苷酸制备转座酶衔接子。通过将MuA转座酶与该衔接子一起温育制备“转座体”,最终浓度为32.5nM的转座体。
使用Monarch HMW组织DNA提取试剂盒(新英格兰生物实验室,目录号T3060)从细胞中纯化大肠杆菌K-12基因组DNA。用Ultra II FFPE修复试剂盒(新英格兰生物实验室,目录号M6630)和末端修复/dA加尾模块(新英格兰生物实验室,目录号E7546)按顺序处理基因组DNA,产生超长dA加尾的文库。将10μg该文库与用FDB以1:40稀释的最终体积为500μL的转座体(来自牛津纳米孔技术有限公司(Oxford Nanopore Technologies,Ltd.)SQK-ULK001的FDB)一起温育,涡旋,并使用加热块在30℃下温育5分钟。随后使用加热块将混合物与热不稳定蛋白酶K(新英格兰生物实验室,目录号P8111S)在37℃下温育15分钟并在65℃下温育15分钟。向该混合物中添加20x摩尔过量的dT突出端Y衔接子、T4 DNA连接酶和LNB(SQK-LSK109,牛津纳米孔技术有限公司);通过在室温下温育10分钟,将衔接子与基因组DNA连接。通过添加0.5x体积的NAF-10缓冲液和Nanobind盘(Circulomics有限公司(Circulomics,Inc.))纯化混合物,用LFB(SQK-LSK109,牛津纳米孔技术有限公司)进行两次洗涤,并在75μL EB(SQK-LSK109,同上)中洗脱过夜,产生“测序文库”。
电测量结果是在来自牛津纳米孔技术公司的插入有CsgG孔的MinION流通池和MinION Mk1b上获取的。向1170μL FB(来自牛津纳米孔技术公司测序试剂盒(SQK-LSK109))中添加30μL的FLT,产生系链混合物。将800μL系链混合物流过系统,然后等待5分钟,然后在SpotON端口打开的情况下再流过另外200μL系链混合物。将来自牛津纳米孔技术公司测序试剂盒(SQK-LSK109)的37.5μL SQB和37.5μL DNA文库混合,产生“测序混合物”。通过SpotON流通池端口将75μL测序混合物添加到MinION流通池中。
使用类似于实例7中描述的定制脚本收集数据,其中捕获/测序电压为180mV。将初始捕获信号的另外的分类添加到测序脚本中,所述测序脚本将基于捕获信号的持续时间、电流和噪声特性来接受或拒绝链。
下表示出了与未应用拒绝标准的对照相比,使用大小选择脚本对该文库的影响。
实验 中值读段长度,kb
无大小选择 8.25
使用大小选择 16.11
因此,该实例展示了所公开的方法的优点。
实例10
该实例描述了测量多核苷酸的第一部分自由易位通过纳米孔所花费的持续时间并使用与发夹衔接子结合的多核苷酸结合蛋白来控制多核苷酸的第二部分的移动的方法。测量双链多核苷酸的第一部分易位通过或穿过孔所花费的时间。由此测量多核苷酸的长度。观察到双链多核苷酸的第一部分易位通过或穿过孔所花费的时间与多核苷酸的第二部分的长度之间的相关性。仪器控制软件用于实时分析多核苷酸的第一部分的长度并且如果低于指定的长度阈值,那么拒绝所述链,由此富集测序长度大于设定阈值的分子比例。
方法
通过退火具有SEQ ID NO:40和41的多核苷酸序列的寡核苷酸制备“发夹衔接子”。将多核苷酸结合蛋白(Dda解旋酶)加载到发夹衔接子上。使用SPRI珠粒纯化蛋白结合的发夹衔接子。通过退火具有SEQ ID NO:42、43和44的序列的多核苷酸制备缺少酶但携带前导序列和系链位点的衔接子,产生“前导衔接子”。
使用Monarch HMW组织DNA提取试剂盒(新英格兰生物实验室,目录号T3060)提取大肠杆菌基因组DNA。用Ultra II FFPE修复试剂盒(新英格兰生物实验室,目录号M6630)和末端修复/dA加尾模块(新英格兰生物实验室,目录号E7546)按顺序处理基因组DNA,产生超长dA加尾的文库。通过将6μL FRA与244μL FDB混合产生转座体混合物。使用加热块将10μgdA加尾的文库与转座体混合物在30℃下温育5分钟并且在80℃下温育5分钟,最终体积为650μL。向该混合物中添加2.5μL 800nM前导衔接子,并将混合物在室温下温育15分钟以将前导衔接子与标记的文库连接。通过添加发夹衔接子、T4 DNA连接酶和LNB(SQK-LSK109,牛津纳米孔技术有限公司)将发夹衔接子与该文库连接,并在室温下温育10分钟。通过添加0.5x体积的NAF-10缓冲液和Nanobind盘(Circulomics有限公司)纯化混合物,用LFB(SQK-LSK109,牛津纳米孔技术有限公司)进行两次洗涤,并在75μL EB(SQK-LSK109,同上)中洗脱过夜,产生“测序文库”。
电测量结果是在来自牛津纳米孔技术公司的FLO-MIN111 MinION流通池和GridION Mk1上获取的。向1170μL FB(来自牛津纳米孔技术公司测序试剂盒(SQK-LSK109))中添加30μL的FLT,产生系链混合物。将800μL系链混合物流过系统,然后等待5分钟,然后在SpotON端口打开的情况下再流过另外200μL系链混合物。将来自牛津纳米孔技术公司测序试剂盒(SQK-LSK109)的37.5μL SQB和37.5μL测序文库混合,产生“测序混合物”。通过SpotON流通池端口将测序混合物添加到MinION流通池中。
通过检测链的第一部分与链的第二部分之间的电流信号的滚动标准偏差的变化,由运行后分析方法确定链的第一部分易位所花费的时间。通过碱基调用和与大肠杆菌参考序列的比对来确定链的第二部分的长度。为了执行在线大小选择,开发了自定义脚本,使用特定于链的第一部分的持续时间、电流和噪声的分类。短于阈值持续时间的事件被设置为被MinKNOW仪器控制软件拒绝。
下表示出了与未应用拒绝标准的对照相比,使用大小选择脚本对该文库的影响。
实验 中值读段长度,kb
无大小选择 6.50
使用大小选择 10.77
因此,该实例展示了所公开的方法的优点。
实例11
该实例描述了测量多核苷酸的第一部分自由易位通过纳米孔所花费的持续时间并使用与发夹衔接子结合的多核苷酸结合蛋白来控制多核苷酸的第二部分的移动的方法。测量双链多核苷酸的第一部分易位通过或穿过孔所花费的时间。由此测量多核苷酸的长度。观察到双链多核苷酸的第一部分易位通过或穿过孔所花费的时间与多核苷酸的第二部分的长度之间的相关性。取决于多核苷酸的哪条链首先被捕获,观察到双链多核苷酸的第一部分易位所花费的时间的偏置。
方法
通过退火具有SEQ ID NO:40和41的多核苷酸序列的寡核苷酸制备“发夹衔接子”。将多核苷酸结合蛋白(Dda解旋酶)加载到发夹衔接子上。使用SPRI珠粒纯化蛋白结合的发夹衔接子。通过退火SEQ ID NO:42、43和44的序列的多核苷酸制备缺少酶但携带前导序列和系链位点的衔接子,产生“前导衔接子”。
噬菌体λDNA购自新英格兰生物实验室(目录号N3011)。用末端修复/dA加尾模块(新英格兰生物实验室,目录号E7546)处理基因组DNA,产生带dA加尾的文库。通过将0.47μLFRA与11.3μL FDB(牛津纳米孔技术公司)混合产生转座体混合物。使用加热块将1μg dA加尾的文库与转座体混合物在30℃下温育2分钟并且在80℃下温育2分钟,最终体积为45μL。向该混合物中添加1μL 800nM前导衔接子,并将混合物在室温下温育15分钟以将前导衔接子与标记的文库连接。通过添加40nM发夹衔接子、T4 DNA连接酶和LNB(SQK-LSK109,牛津纳米孔技术有限公司)将发夹衔接子与该文库连接,并在室温下温育10分钟。通过添加0.4x体积的SPRI珠粒(贝克曼库尔特公司)纯化混合物,用LFB(SQK-LSK109,牛津纳米孔技术有限公司)进行两次洗涤,并在75μL EB(SQK-LSK109,同上)中洗脱过夜,产生“测序文库”。
电测量结果是在来自牛津纳米孔技术公司的FLO-MIN111 MinION流通池和GridION Mk1上获取的。向1170μL FB(来自牛津纳米孔技术公司测序试剂盒(SQK-LSK109))中添加30μL的FLT,产生系链混合物。将800μL系链混合物流过系统,然后等待5分钟,然后在SpotON端口打开的情况下再流过另外200μL系链混合物。将来自牛津纳米孔技术公司测序试剂盒(SQK-LSK109)的37.5μL SQB和37.5μL测序文库混合,产生“测序混合物”。通过SpotON流通池端口将测序混合物添加到MinION流通池中。
通过检测链的第一部分与链的第二部分之间的电流信号的滚动标准偏差的变化,由运行后分析方法确定链的第一部分易位所花费的时间。通过碱基调用和与λ参考序列的比对来确定相对于参考的读段方向和链的第二部分的长度。下表示出,对于所有测试的读段长度范围,链的第一部分的中位易位速度对于相对于参考在反向比对的读段比在相对于参考的正向比对的读段更快。
比对的读段长度(碱基) 读段方向 链的数量 中位易位速度(碱基/秒)
0-4999 - 538 195679.17
0-4999 + 260 190290.4
5000-9999 - 264 143347.05
5000-9999 + 168 123329.26
10000-14999 - 173 105325.8
10000-14999 + 83 84837.21
15000-19999 - 108 84458.23
15000-19999 + 41 69410.17
因此,该实例展示了所公开的方法的优点。
实例12
该实例描述了机器学习算法的训练以仅基于由DNA链通过纳米孔的无酶易位产生的信号来预测DNA链的GC含量。训练数据的标记是通过将马达加载到与DNA链的一个末端连接的发夹衔接子上来完成的——这使得能够记录第一链的无酶易位,然后立即记录第二链的酶控制易位,这可以使用Guppy碱基调用器进行碱基调用以产生GC含量。
通过退火SEQ ID NO:40和41的DNA寡核苷酸制备“发夹衔接子”。将DNA马达(Dda解旋酶)加载到衔接子上,并且二硫化物通过与TMAD反应闭合。
通过退火SEQ ID NO:42、43和44的DNA寡核苷酸制备“前导衔接子”。
使用Monarch HMW组织DNA提取试剂盒(新英格兰生物实验室,目录号T3060)提取大肠杆菌基因组DNA。用Ultra II FFPE修复试剂盒(新英格兰生物实验室,目录号M6630)和末端修复/dA加尾模块(新英格兰生物实验室,目录号E7546)按顺序处理基因组DNA,产生超长dA加尾的文库。使用FDB将6μL FRA稀释至250μL,然后添加到最终体积为1mL的750μL DNA样品中(约40μg)(FRA和FDB两者来自SQK-ULK001,牛津纳米孔技术有限公司)。将混合物涡旋,并且使用加热块在30℃下温育5分钟并在75℃下温育5分钟,然后允许冷却至室温。向该混合物中添加6μL 800nM前导衔接子,并将混合物在室温下温育15分钟以将前导衔接子与标记的文库连接。通过添加发夹衔接子、T4 DNA连接酶和LNB(SQK-LSK109,牛津纳米孔技术有限公司)将发夹衔接子与该文库连接,并在室温下温育10分钟。通过添加0.5x体积的NAF-10缓冲液和Nanobind盘(Circulomics有限公司)纯化混合物,用LFB(SQK-LSK109,牛津纳米孔技术有限公司)进行两次洗涤,并在225μL EB(SQK-LSK109,同上)中洗脱过夜,产生“DNA文库”。所得DNA文库在一个末端具有5'单链前导并且在另一个末端具有带有马达的发夹。
电测量结果是在来自牛津纳米孔技术公司的FLO-MIN111 MinION流通池和GridION Mk1上获取的。向1170μL FB(来自牛津纳米孔技术公司测序试剂盒(SQK-LSK109))中添加30μL的FLT,产生系链混合物。将800μL系链混合物流过系统,然后等待5分钟,然后在SpotON端口打开的情况下再流过另外200μL系链混合物。将来自牛津纳米孔技术公司测序试剂盒(SQK-LSK109)的37.5μL SQB和37.5μL DNA文库混合,产生“测序混合物”。通过SpotON流通池端口将测序混合物添加到MinION流通池中。
当DNA链被纳米孔捕获时,记录两相事件。事件的第一部分包括第一链(“模板”)通过纳米孔的无酶易位。事件的第二部分包括第二链(“补体”)通过纳米孔的酶控制的移动。
通过用Guppy碱基调用器(牛津纳米孔技术有限公司)进行碱基调来确定互补序列及其GC含量。通过用如由碱基调用确定的其GC含量标记无酶模板信号来产生训练实例。机器学习算法是从此类训练实例集合中训练出来的。根据训练集合中的实例集合评估训练后的模型。评估结果表明,模型能够仅使用无酶模板信号预测GC含量。
实例13
该实例描述了分类器的训练以仅基于由DNA链通过纳米孔的无酶易位产生的信号来从面板中鉴定扩增子。训练数据的标记是通过将马达加载到与DNA链的一个末端连接的发夹衔接子上来完成的——这使得能够记录第一链的无酶易位,然后立即记录第二链的酶控制易位,这可以使用Guppy碱基调用器进行碱基调用并与扩增子参考比对以确定扩增子的身份。
通过退火SEQ ID NO:40和41的DNA寡核苷酸制备“发夹衔接子”。将DNA马达(Dda解旋酶)加载到衔接子上,并且二硫化物通过与TMAD反应闭合。
通过退火SEQ ID NO:42、43和45的DNA寡核苷酸制备“前导衔接子”。
通过使用引物集合对基因组DNA进行PCR扩增产生一组DNA扩增子。用UltraII末端修复/dA加尾模块(NEB)处理DNA面板以产生3'A突出端。发夹衔接子和前导衔接子通过T4DNA连接酶和LNB(SQB-LSK109,牛津纳米孔技术有限公司)与DNA扩增子的末端连接。用Agencourt AMPure(贝克曼库尔特公司)珠粒纯化连接的DNA面板,用SFB(牛津纳米孔技术有限公司)进行两次洗涤,然后在EB(牛津纳米孔技术有限公司)中洗脱,产生“DNA文库”。
电测量结果是在来自牛津纳米孔技术公司的FLO-MIN111 MinION流通池和GridION Mk1上获取的。向1170μL FB(来自牛津纳米孔技术公司测序试剂盒(SQK-LSK109))中添加30μL的FLT,产生系链混合物。将800μL系链混合物流过系统,然后等待5分钟,然后在SpotON端口打开的情况下再流过另外200μL系链混合物。将来自牛津纳米孔技术公司测序试剂盒(SQK-LSK109)的37.5μL SQB和37.5μL DNA文库混合,产生“测序混合物”。通过SpotON流通池端口将测序混合物添加到MinION流通池中。
当DNA链被纳米孔捕获时,记录两相事件。事件的第一部分包括第一链(“模板”)通过纳米孔的无酶易位。事件的第二部分包括第二链(“补体”)通过纳米孔的酶控制的移动。
可以通过使用Guppy碱基调用器对补体信号进行碱基调用,然后将碱基调用与扩增子参考比对来确定扩增子的身份。通过用如由碱基调用确定的扩增子身份标记无酶模板信号来产生训练实例。使用训练实例集合训练机器学习分类器。根据训练集合中的实例集合评估训练后的模型。评估结果表明,模型能够仅使用无酶模板信号正确预测面板内的扩增子的身份。
实例14
该实例描述了机器学习算法的训练以仅基于由DNA链通过纳米孔的无酶易位产生的信号来预测DNA链的GC含量。训练数据的标记是通过记录DNA链通过纳米孔的无酶易位(3'-5'),然后记录DNA链通过纳米孔的酶控制易位(5'-3')来完成的,这可以使用碱基调用器进行碱基调用以产生GC含量。
通过退火SEQ ID NO:34、46、36和37的DNA寡核苷酸制备“dT突出端Y衔接子”。将DNA马达(Dda解旋酶)加载到衔接子上。
通过退火SEQ ID NO:34、35、36和37的DNA寡核苷酸制备“粘性突出端Y衔接子”。将DNA马达(Dda解旋酶)加载到衔接子上。
通过退火SEQ ID NO:47和39的DNA寡核苷酸制备转座酶衔接子。通过将MuA转座酶与该衔接子一起温育制备“转座体”。
使用Monarch HMW组织DNA提取试剂盒(新英格兰生物实验室,目录号T3060)从细胞中纯化大肠杆菌K-12基因组DNA。用Ultra II FFPE修复试剂盒(新英格兰生物实验室,目录号M6630)和末端修复/dA加尾模块(新英格兰生物实验室,目录号E7546)按顺序处理基因组DNA,产生超长dA加尾的文库。使用来自SQK-ULK001(牛津纳米孔技术公司)的FDB将6μL的转座体稀释至250μL,并添加到最终体积为1mL的40μg dA加尾文库中(FDB来自SQK-ULK001,牛津纳米孔技术有限公司)。使用加热块将混合物涡旋并在30℃下温育5分钟并且在75℃下温育5分钟。向该混合物中添加2nM dT突出端Y衔接子和2nM粘性突出端Y衔接子、T4 DNA连接酶和LNB(SQK-LSK109,牛津纳米孔技术有限公司);通过在室温下温育10分钟,将衔接子与基因组DNA连接。通过添加0.5x体积的NAF-10缓冲液和Nanobind盘(Circulomics有限公司)纯化混合物,用LFB(SQK-LSK109,牛津纳米孔技术有限公司)进行两次洗涤,并在225μLEB(SQK-LSK109,同上)中洗脱过夜,产生“测序文库”。
电测量结果是在来自牛津纳米孔技术公司的插入有CsgG孔的MinION流通池和MinION Mk1b上获取的。向1170μL FB(来自牛津纳米孔技术公司测序试剂盒(SQK-LSK109))中添加30μL的FLT,产生系链混合物。将800μL系链混合物流过系统,然后等待5分钟,然后在SpotON端口打开的情况下再流过另外200μL系链混合物。将来自牛津纳米孔技术公司测序试剂盒(SQK-LSK109)的37.5μL SQB和37.5μL DNA文库混合,产生“测序混合物”。通过SpotON流通池端口将测序混合物添加到MinION流通池中。
当DNA链被纳米孔捕获时,首先记录无酶捕获信号(3'-5'),然后记录酶驱动的易位(5'-3')。通过用Guppy碱基调用器(牛津纳米孔技术有限公司)进行碱基调来确定DNA序列及其GC含量。通过用如由碱基调用酶驱动的易位信号确定的其GC含量标记无酶捕获信号来产生训练实例。机器学习算法是从此类训练实例集合中训练出来的。根据训练集合中的实例集合评估训练后的模型。评估结果表明,模型能够仅使用无酶捕获信号预测GC含量。
实例15
该实例描述了分类器的训练以仅基于由DNA链通过纳米孔的无酶易位产生的信号来从面板中鉴定扩增子。训练数据的标记是通过记录DNA链通过纳米孔的无酶易位(3'-5'),然后记录DNA链通过纳米孔的酶控制易位(5'-3')来完成的,这可以使用Guppy碱基调用器进行碱基调用并与扩增子参考比对以确定扩增子的身份。
通过退火SEQ ID NO:34、46、36和37的DNA寡核苷酸制备“前导衔接子”。将DNA马达(Dda解旋酶)加载到衔接子上。
通过使用引物集合对基因组DNA进行PCR扩增产生一组DNA扩增子。用UltraII末端修复/dA加尾模块(NEB)处理DNA面板以产生3'A突出端。前导衔接子通过T4 DNA连接酶和LNB(SQK-LSK109,牛津纳米孔技术有限公司)与DNA扩增子的末端连接。用AgencourtAMPure(贝克曼库尔特公司)珠粒纯化连接的DNA面板,用SFB(牛津纳米孔技术有限公司)进行两次洗涤,然后在EB(牛津纳米孔技术有限公司)中洗脱,产生“DNA文库”。
电测量结果是在来自牛津纳米孔技术公司的插入有CsgG孔的MinION流通池和MinION Mk1b上获取的。向1170μL FB(来自牛津纳米孔技术公司测序试剂盒(SQK-LSK109))中添加30μL的FLT,产生系链混合物。将800μL系链混合物流过系统,然后等待5分钟,然后在SpotON端口打开的情况下再流过另外200μL系链混合物。将来自牛津纳米孔技术公司测序试剂盒(SQK-LSK109)的37.5μL SQB和37.5μL DNA文库混合,产生“测序混合物”。通过SpotON流通池端口将测序混合物添加到MinION流通池中。
当DNA链被纳米孔捕获时,首先记录无酶捕获信号(3'-5'),然后记录酶驱动的易位(5'-3')。可以通过使用Guppy碱基调用器对酶驱动的易位信号进行碱基调用,然后将碱基调用与扩增子参考比对来确定扩增子的身份。通过用如由碱基调用确定的扩增子身份标记无酶捕获信号来产生训练实例。使用训练实例集合训练机器学习分类器。根据训练集合中的实例集合评估训练后的模型。评估结果表明,模型能够仅使用无酶捕获信号正确预测面板内的扩增子的身份。
序列表说明
SEQ ID NO:1示出了来自大肠杆菌的(六组氨酸标记的)外切核酸酶I(EcoExo I)的氨基酸序列。
SEQ ID NO:2示出了来自大肠杆菌的外切核酸酶III酶的氨基酸序列。
SEQ ID NO:3示出了来自嗜热栖热菌的RecJ酶(TthRecJ-cd)的氨基酸序列。
SEQ ID NO:4示出了噬菌体λ外切核酸酶的氨基酸序列。所述序列是组装成三聚体的三个完全相同亚基中的之一。(http://www.neb.com/nebecomm/products/productM0262.asp)。
SEQ ID NO:5示出了来自枯草芽孢杆菌(Bacillus subtilis)噬菌体Phi29的Phi29 DNA聚合酶的氨基酸序列。
SEQ ID NO:6示出了Trwc Cba(深洋柠檬色微菌(Citromicrobiumbathyomarinum))解旋酶的氨基酸序列。
SEQ ID NO:7示出了Hel308 Mbu(布氏拟甲烷球菌(Methanococcoidesburtonii))解旋酶的氨基酸序列。
SEQ ID NO:8示出了来自肠杆菌噬菌体T4的Dda解旋酶1993的氨基酸序列。
SEQ ID NO:9示出了标签的核苷酸序列。
SEQ ID NO:11示出了实例5中讨论的多核苷酸链的核苷酸序列。
SEQ ID NO:12示出了实例5中讨论的多核苷酸链的核苷酸序列。
SEQ ID NO:13示出了实例5中讨论的多核苷酸分析物的核苷酸序列。
SEQ ID NO:14示出了实例5中讨论的多核苷酸分析物的核苷酸序列。
SEQ ID NO:15示出了实例5中讨论的多核苷酸衔接子的核苷酸序列。
SEQ ID NO:16示出了实例5中讨论的多核苷酸衔接子的核苷酸序列。
SEQ ID NO:20-33示出了实例7和8中讨论的多核苷酸的核苷酸序列。
SEQ ID NO:34-47示出了实例9至15中讨论的多核苷酸的核苷酸序列。3=iSpC3、8=iSp18、mU=2'OMe尿嘧啶、9=iSp9、N3=用叠氮己酸标记的3'氨基C7。
SEQ ID NO:1-来自大肠杆菌的外切核酸酶I
MMNDGKQQSTFLFHDYETFGTHPALDRPAQFAAIRTDSEFNVIGEPEVFYCKPADDYLPQPGAVLITGITPQEARAKGENEAAFAARIHSLFTVPKTCILGYNNVRFDDEVTRNIFYRNFYDPYAWSWQHDNSRWDLLDVMRACYALRPEGINWPENDDGLPSFRLEHLTKANGIEHSNAHDAMADVYATIAMAKLVKTRQPRLFDYLFTHRNKHKLMALIDVPQMKPLVHVSGMFGAWRGNTSWVAPLAWHPENRNAVIMVDLAGDISPLLELDSDTLRERLYTAKTDLGDNAAVPVKLVHINKCPVLAQANTLRPEDADRLGINRQHCLDNLKILRENPQVREKVVAIFAEAEPFTPSDNVDAQLYNGFFSDADRAAMKIVLETEPRNLPALDITFVDKRIEKLLFNYRARNFPGTLDYAEQQRWLEHRRQVFTPEFLQGYADELQMLVQQYADDKEKVALLKALWQYAEEIVSGSGHHHHHH
SEQ ID NO:2-来自大肠杆菌的外切核酸酶III酶
MKFVSFNINGLRARPHQLEAIVEKHQPDVIGLQETKVHDDMFPLEEVAKLGYNVFYHGQKGHYGVALLTKETPIAVRRGFPGDDEEAQRRIIMAEIPSLLGNVTVINGYFPQGESRDHPIKFPAKAQFYQNLQNYLETELKRDNPVLIMGDMNISPTDLDIGIGEENRKRWLRTGKCSFLPEEREWMDRLMSWGLVDTFRHANPQTADRFSWFDYRSKGFDDNRGLRIDLLLASQPLAECCVETGIDYEIRSMEKPSDHAPVWATFRR
SEQ ID NO:3-来自嗜热栖热菌的RecJ酶
MFRRKEDLDPPLALLPLKGLREAAALLEEALRQGKRIRVHGDYDADGLTGTAILVRGLAALGADVHPFIPHRLEEGYGVLMERVPEHLEASDLFLTVDCGITNHAELRELLENGVEVIVTDHHTPGKTPPPGLVVHPALTPDLKEKPTGAGVAFLLLWALHERLGLPPPLEYADLAAVGTIADVAPLWGWNRALVKEGLARIPASSWVGLRLLAEAVGYTGKAVEVAFRIAPRINAASRLGEAEKALRLLLTDDAAEAQALVGELHRLNARRQTLEEAMLRKLLPQADPEAKAIVLLDPEGHPGVMGIVASRILEATLRPVFLVAQGKGTVRSLAPISAVEALRSAEDLLLRYGGHKEAAGFAMDEALFPAFKARVEAYAARFPDPVREVALLDLLPEPGLLPQVFRELALLEPYGEGNPEPLFL
SEQ ID NO:4-噬菌体λ外切核酸酶
MTPDIILQRTGIDVRAVEQGDDAWHKLRLGVITASEVHNVIAKPRSGKKWPDMKMSYFHTLLAEVCTGVAPEVNAKALAWGKQYENDARTLFEFTSGVNVTESPIIYRDESMRTACSPDGLCSDGNGLELKCPFTSRDFMKFRLGGFEAIKSAYMAQVQYSMWVTRKNAWYFANYDPRMKREGLHYVVIERDEKYMASFDEIVPEFIEKMDEALAEIGFVFGEQWR
SEQ ID NO:5-Phi29 DNA聚合酶
MKHMPRKMYSCAFETTTKVEDCRVWAYGYMNIEDHSEYKIGNSLDEFMAWVLKVQADLYFHNLKFDGAFIINWLERNGFKWSADGLPNTYNTIISRMGQWYMIDICLGYKGKRKIHTVIYDSLKKLPFPVKKIAKDFKLTVLKGDIDYHKERPVGYKITPEEYAYIKNDIQIIAEALLIQFKQGLDRMTAGSDSLKGFKDIITTKKFKKVFPTLSLGLDKEVRYAYRGGFTWLNDRFKEKEIGEGMVFDVNSLYPAQMYSRLLPYGEPIVFEGKYVWDEDYPLHIQHIRCEFELKEGYIPTIQIKRSRFYKGNEYLKSSGGEIADLWLSNVDLELMKEHYDLYNVEYISGLKFKATTGLFKDFIDKWTYIKTTSEGAIKQLAKLMLNSLYGKFASNPDVTGKVPYLKENGALGFRLGEEETKDPVYTPMGVFITAWARYTTITAAQACYDRIIYCDTDSIHLTGTEIPDVIKDIVDPKKLGYWAHESTFKRAKYLRQKTYIQDIYMKEVDGKLVEGSPDDYTDIKFSVKCAGMTDKIKKEVTFENFKVGFSRKMKPKPVQVPGGVVLVDDTFTIKSGGSAWSHPQFEKGGGSGGGSGGSAWSHPQFEK
SEQ ID NO:6-Trwc Cba解旋酶
MLSVANVRSPSAAASYFASDNYYASADADRSGQWIGDGAKRLGLEGKVEARAFDALLRGELPDGSSVGNPGQAHRPGTDLTFSVPKSWSLLALVGKDERIIAAYREAVVEALHWAEKNAAETRVVEKGMVVTQATGNLAIGLFQHDTNRNQEPNLHFHAVIANVTQGKDGKWRTLKNDRLWQLNTTLNSIAMARFRVAVEKLGYEPGPVLKHGNFEARGISREQVMAFSTRRKEVLEARRGPGLDAGRIAALDTRASKEGIEDRATLSKQWSEAAQSIGLDLKPLVDRARTKALGQGMEATRIGSLVERGRAWLSRFAAHVRGDPADPLVPPSVLKQDRQTIAAAQAVASAVRHLSQREAAFERTALYKAALDFGLPTTIADVEKRTRALVRSGDLIAGKGEHKGWLASRDAVVTEQRILSEVAAGKGDSSPAITPQKAAASVQAAALTGQGFRLNEGQLAAARLILISKDRTIAVQGIAGAGKSSVLKPVAEVLRDEGHPVIGLAIQNTLVQMLERDTGIGSQTLARFLGGWNKLLDDPGNVALRAEAQASLKDHVLVLDEASMVSNEDKEKLVRLANLAGVHRLVLIGDRKQLGAVDAGKPFALLQRAGIARAEMATNLRARDPVVREAQAAAQAGDVRKALRHLKSHTVEARGDGAQVAAETWLALDKETRARTSIYASGRAIRSAVNAAVQQGLLASREIGPAKMKLEVLDRVNTTREELRHLPAYRAGRVLEVSRKQQALGLFIGEYRVIGQDRKGKLVEVEDKRGKRFRFDPARIRAGKGDDNLTLLEPRKLEIHEGDRIRWTRNDHRRGLFNADQARVVEIANGKVTFETSKGDLVELKKDDPMLKRIDLAYALNVHMAQGLTSDRGIAVMDSRERNLSNQKTFLVTVTRLRDHLTLVVDSADKLGAAVARNKGEKASAIEVTGSVKPTATKGSGVDQPKSVEANKAEKELTRSKSKTLDFGI
SEQ ID NO:7-Hel308 Mbu解旋酶
MMIRELDIPRDIIGFYEDSGIKELYPPQAEAIEMGLLEKKNLLAAIPTASGKTLLAELAMIKAIREGGKALYIVPLRALASEKFERFKELAPFGIKVGISTGDLDSRADWLGVNDIIVATSEKTDSLLRNGTSWMDEITTVVVDEIHLLDSKNRGPTLEVTITKLMRLNPDVQVVALSATVGNAREMADWLGAALVLSEWRPTDLHEGVLFGDAINFPGSQKKIDRLEKDDAVNLVLDTIKAEGQCLVFESSRRNCAGFAKTASSKVAKILDNDIMIKLAGIAEEVESTGETDTAIVLANCIRKGVAFHHAGLNSNHRKLVENGFRQNLIKVISSTPTLAAGLNLPARRVIIRSYRRFDSNFGMQPIPVLEYKQMAGRAGRPHLDPYGESVLLAKTYDEFAQLMENYVEADAEDIWSKLGTENALRTHVLSTIVNGFASTRQELFDFFGATFFAYQQDKWMLEEVINDCLEFLIDKAMVSETEDIEDASKLFLRGTRLGSLVSMLYIDPLSGSKIVDGFKDIGKSTGGNMGSLEDDKGDDITVTDMTLLHLVCSTPDMRQLYLRNTDYTIVNEYIVAHSDEFHEIPDKLKETDYEWFMGEVKTAMLLEEWVTEVSAEDITRHFNVGEGDIHALADTSEWLMHAAAKLAELLGVEYSSHAYSLEKRIRYGSGLDLMELVGIRGVGRVRARKLYNAGFVSVAKLKGADISVLSKLVGPKVAYNILSGIGVRVNDKHFNSAPISSNTLDTLLDKNQKTFNDFQ
SEQ ID NO:8-Dda解旋酶
MTFDDLTEGQKNAFNIVMKAIKEKKHHVTINGPAGTGKTTLTKFIIEALISTGETGIILAAPTHAAKKILSKLSGKEASTIHSILKINPVTYEENVLFEQKEVPDLAKCRVLICDEVSMYDRKLFKILLSTIPPWCTIIGIGDNKQIRPVDPGENTAYISPFFTHKDFYQCELTEVKRSNAPIIDVATDVRNGKWIYDKVVDGHGVRGFTGDTALRDFMVNYFSIVKSLDDLFENRVMAFTNKSVDKLNSIIRKKIFETDKDFIVGEIIVMQEPLFKTYKIDGKPVSEIIFNNGQLVRIIEAEYTSTFVKARGVPGEYLIRHWDLTVETYGDDEYYREKIKIISSDEELYKFNLFLGKTAETYKNWNKGGKAPWSDFWDAKSQFSKVKALPASTFHKAQGMSVDRAFIYTPCIHYADVELAQQLLYVGVTRGRYDVFYV
SEQ ID NO:9
GGAACCTCTCTGACAA
SEQ ID NO:11
/5Phos/CGTCCTGTCGCTGTGTCTCGTTTTTTTTTT/iSp18//iSp18//iSp18//iSp18/AATGT ACTTCGTTCAGTTACGTATTGCTAGAGCCGAGACACAGCGACAGGACGT
SEQ ID NO:12
/5Phos/GCAATACGTAACTGAACGAAGT/iBNA-A//iBNA-MeC//iBNA-A//iBNA-T//iBNA-T/TTTGAGGCGAGCGGTCAA
SEQ ID NO:13
GCCATCAGATTGTGTTTGTTAGTCGCTGCCATCAGATTGTGTTTGTTAGTCGCTTTTTTTTTTTGGAATTTTTTTTTTGGAATTTTTTTTTTGCGCTAACAACCTCCTGCCGTTTTGCCCGTGCATATCGGTCACGAACAAATCTGATTACTAAACACAGTAGCCTGGATTTGTTCTATCAGTAATCGACCTTATTCCTAATTAAATAGAGCAAATCCCCTTATTGGGGGTAAGACATGAAGATGCCAGAAAAACATGACCTGTTGGCCGCCATTCTCGCGGCAAAGGAACAAGGCATCGGGGCAATCCTTGCGTTTGCAATGGCGTACCTTCGCGGCAGATATAATGGCGGTGCGTTTACAAAAACAGTAATCGACGCAACGATGTGCGCCATTATCGCCTAGTTCATTCGTGACCTTCTCGACTTCGCCGGACTAAGTAGCAATCTCGCTTATATAACGAGCGTGTTTATCGGCTACATCGGTACTGACTCGATTGGTTCGCTTATCAAACGCTTCGCTGCTAAAAAAGCCGGAGTAGAAGATGGTAGAAATCAATAATCAACGTAAGGCGTTCCTCGATATGCTGGCGTGGTCGGAGGGAACTGATAACGGACGTCAGAAAACCAGAAATCATGGTTATGACGTCATTGTAGGCGGAGAGCTATTTACTGATTACTCCGATCACCCTCGCAAACTTGTCACGCTAAACCCAAAACTCAAATCAACAGGCGCCGGACGCTACCAGCTTCTTTCCCGTTGGTGGGATGCCTACCGCAAGCAGCTTGGCCTGAAAGACTTCTCTCCGAAAAGTCAGGACGCTGTGGCATTGCAGCAGATTAAGGAGCGTGGCGCTTTACCTATGATTGATCGTGGTGATATCCGTCAGGCAATCGACCGTTGCAGCAATATCTGGGCTTCACTGCCGGGCGCTGGTTATGGTCAGTTCGAGCATAAGGCTGACAGCCTGATTGCAAAATTCAAAGAAGCGGGCGGAACGGTCAGAGAGATTGATGTATGAGCAGAGTCACCGCGATTATCTCCGCTCTGGTTATCTGCATCATCGTCTGCCTGTCATGGGCTGTTAATCATTACCGTGATAACGCCATTACCTACAAAGCCCAGCGCGACAAAAATGCCAGAGAACTGAAGCTGGCGAACGCGGCAATTACTGACATGCAGATGCGTCAGCGTGATGTTGCTGCGCTCGATGCAAAATACACGAAGGAGTTAGCTGATGCTAAAGCTGAAAATGATGCTCTGCGTGATGATGTTGCCGCTGGTCGTCGTCGGTTGCACATCAAAGCAGTCTGTCAGTCAGTGCGTGAAGCCACCACCGCCTCCGGCGTGGATAATGCAGCCTCCCCCCGACTGGCAGACACCGCTGAACGGGATTATTTCACCCTCAGAGAGAGGCTGATCACTATGCAAAAACAACTGGAAGGAACCCAGAAGTATATTAATGAGCAGTGCAGATAGAGTTGCCCATATCGATGGGCAACTCATGCAATTATTGTGAGCAATACACACGCGCTTCCAGCGGAGTATAAATGCCTAAAGTAATAAAACCGAGCAATCCATTTACGAATGTTTGCTGGGTTTCTGTTTTAACAACATTTTCTGCGCCGCCACAAATTTTGGCTGCATCGACAGTTTTCTTCTGCCCAATTCCAGAAACGAAGAAATGATGGGTGATGGTTTCCTTTGGTGCTACTGCTGCCGGTTTGTTTTGAACAGTAAACGTCTGTTGAGCACATCCTGTAATAAGCAGGGCCAGCGCAGTAGCGAGTAGCATTTTTTTCATGGTGTTATTCCCGATGCTTTTTGAAGTTCGCAGAATCGTATGTGTAGAAAATTAAACAAACCCTAAACAATGAGTTGAAATTTCATATTGTTAATATTTATTAATGTATGTCAGGTGCGATGAATCGTCATTGTATTCCCGGATTAACTATGTCCACAGCCCTGACGGGGAACTTCTCTGCGGGAGTGTCCGGGAATAATTAAAACGATGCACACAGGGTTTAGCGCGTACACGTATTGCATTATGCCAACGCCCCGGTGCTGACACGGAAGAAACCGGACGTTATGATTTAGCGTGGAAAGATTTGTGTAGTGTTCTGAATGCTCTCAGTAAATAGTAATGAATTATCAAAGGTATAGTAATATCTTTTATGTTCATGGATATTTGTAACCCATCGGAAAACTCCTGCTTTAGCAAGATTTTCCCTGTATTGCTGAAATGTGATTTCTCTTGATTTCAACCTATCATAGGACGTTTCTATAAGATGCGTGTTTCTTGAGAATTTAACATTTACAACCTTTTTAAGTCCTTTTATTAACACGGTGTTATCGTTTTCTAACACGATGTGAATATTATCTGTGGCTAGATAGTAAATATAATGTGAGACGTTGTGACGTTTTAGTTCAGAATAAAACAATTCACAGTCTAAATCTTTTCGCACTTGATCGAATATTTCTTTAAAAATGGCAACCTGAGCCATTGGTAAAACCTTCCATGTGATACGAGGGCGCGTAGTTTGCATTATCGTTTTTATCGTTTCAATCTGGTCTGACCTCCTTGTGTTTTGTTGATGATTTATGTCAAATATTAGGAATGTTTTCACTTAATAGTATTGGTTGCGTAACAAAGTGCGGTCCTGCTGGCATTCTGGAGGGAAATACAACCGACAGATGTATGTAAGGCCAACGTGCTCAAATCTTCATACAGAAAGATTTGAAGTAATATTTTAACCGCTAGATGAAGAGCAAGCGCATGGAGCGACAAAATGAATAAAGAACAATCTGCTGATGATCCCTCCGTGGATCTGATTCGTGTAAAAAATATGCTTAATAGCACCATTTCTATGAGTTACCCTGATGTTGTAATTGCATGTATAGAACATAAGGTGTCTCTGGAAGCATTCAGAGCAATTGAGGCAGCGTTGGTGAAGCACGATAATAATATGAAGGATTATTCCCTGGTGGTTGACTGATCACCATAACTGCTAATCATTCAAACTATTTAGTCTGTGACAGAGCCAACACGCAGTCTGTCACTGTCAGGAAAGTGGTAAAACTGCAACTCAATTACTGCAATGCCCTCGTAATTAAGTGAATTTACAATATCGTCCTGTTCGGAGGGAAGAACGCGGGATGTTCATTCTTCATCACTTTTAATTGATGTATATGCTCTCTTTTCTGACGTTAGTCTCCGACGGCAGGCTTCAATGACCCAGGCTGAGAAATTCCCGGACCCTTTTTGCTCAAGAGCGATGTTAATTTGTTCAATCATTTGGTTAGGAAAGCGGATGTTGCGGGTTGTTGTTCTGCGGGTTCTGTTCTTCGTTGACATGAGGTTGCCCCGTATTCAGTGTCGCTGATTTGTATTGTCTGAAGTTGTTTTTACGTTAAGTTGATGCAGATCAATTAATACGATACCTGCGTCATAATTGATTATTTGACGTGGTTTGATGGCCTCCACGCACGTTGTGATATGTAGATGATAATCATTATCACTTTACGGGTCCTTTCCGGTGAAAAAAAAGGTACCAAAAAAAACATCGTCGTGAGTAGTGAACCGTAAGCATGTAGGA
SEQ ID NO:14
GGTCAGGTTGTGGTGATTGGTCGCTGATGCAAAATGTTTTATGTGAAACCGCCTGCGGGCGGTTTTGTCATTTATGGAGCGTGAGGAATGGGTAAAGGAAGCAGTAAGGGGCATACCCCGCGCGAAGCGAAGGACAACCTAGGAGAAGTCCACGCAGTTGCTGAGTGTGATCGATGCCATCAGCGAAGGGCCGATTGAAGGTCCGGTGGATGGCTTAAAAAGCGTGCTGCTGAACAGTACGCCGGTGCTGGACACTGAGGGGAATACCAACATATCCGGTGTCACGGTGGTGTTCCGGGCTGGTGAGCAGGAGCAGACTCCGCCGGAGGGATTTGAATCCTCCGGCTCCGAGACGGTGCTGGGTACGGAAGTGAAATATGACACGCCGATCACCCGCACCATTACGTCTGCAAACATCGACCGTCTGCGCTTTACCTTCGGTGTACAGGCACTGGTGGAAACCACCTCAAAGGGTGACAGGAATCCGTCGGAAGTCCGCCTGCTGGTTCAGATACAACGTAACGGTGGCTGGGTGACGGAAAAAGACATCACCATTAAGGGCAAAACCACCTCGCAGTATCTGGCCTCGGTGGTGATGGGTAACCTGCCGCCGCGCCCGTTTAATATCCGGATGCGCAGGATGACGCCGGACAGCACCACAGACCAGCTGCAGAACAAAACGCTCTGGTCGTCATACACTGAAATCATCGATGTGAAACAGTGCTACCCGAACACGGCACTGGTCGGCGTGCAGGTGGACTCGGAGCAGTTCGGCAGCCAGCAGGTGAGCCGTAATTATCATCTGCGCGGGCGTATTCTGCAGGTGCCGTCGAACTATAACCCGCAGACGCGGCAATACAGCGGTATCTGGGACGGAACGTTTAAACCGGCATACAGCAACAACATGGCCTGGTGTCTGTGGGATATGCTGACCCATCCGCGCTACGGCATGGGGAAACGTCTTGGTGCGGCGGATGTGGATAAATGGGCGCTGTATGTCATCGGCCAGTACTGCGACCAGTCAGTGCCGGACGGCTTTGGCGGCACGGAGCCGCGCATCACCTGTAATGCGTACCTGACCACACAGCGTAAGGCGTGGGATGTGCTCAGCGATTTCTGCTCGGCGATGCGCTGTATGCCGGTATGGAACGGGCAGACGCTGACGTTCGTGCAGGACCGACCGTCGGATAAGACGTGGACCTATAACCGCAGTAATGTGGTGATGCCGGATGATGGCGCGCCGTTCCGCTACAGCTTCAGCGCCCTGAAGGACCGCCATAATGCCGTTGAGGTGAACTGGATTGACCCGAACAACGGCTGGGAGACGGCGACAGAGCTTGTTGAAGATACGCAGGCCATTGCCCGTTACGGTCGTAATGTTACGAAGATGGATGCCTTTGGCTGTACCAGCCGGGGGCAGGCACACCGCGCCGGGCTGTGGCTGATTAAAACAGAACTGCTGGAAACGCAGACCGTGGATTTCAGCGTCGGCGCAGAAGGGCTTCGCCATGTACCGGGCGATGTTATTGAAATCTGCGATGATGACTATGCCGGTATCAGCACCGGTGGTCGTGTGCTGGCGGTGAACAGCCAGACCCGGACGCTGACGCTCGACCGTGAAATCACGCTGCCATCCTCCGGTACCGCGCTGATAAGCCTGGTTGACGGAAGTGGCAATCCGGTCAGCGTGGAGGTTCAGTCCGTCACCGACGGCGTGAAGGTAAAAGTGAGCCGTGTTCCTGACGGTGTTGCTGAATACAGCGTATGGGAGCTGAAGCTGCCGACGCTGCGCCAGCGACTGTTCCGCTGCGTGAGTATCCGTGAGAACGACGACGGCACGTATGCCATCACCGCCGTGCAGCATGTGCCGGAAAAAGAGGCCATCGTGGATAACGGGGCGCACTTTGACGGCGAACAGAGTGGCACGGTGAATGGTGTCACGCCGCCAGCGGTGCAGCACCTGACCGCAGAAGTCACTGCAGACAGCGGGGAATATCAGGTGCTGGCGCGATGGGACACACCGAAGGTGGTGAAGGGCGTGAGTTTCCTGCTCCGTCTGACCGTAACAGCGGACGACGGCAGTGAGCGGCTGGTCAGCACGGCCCGGACGACGGAAACCACATACCGCTTCACGCAACTGGCGCTGGGGAACTACAGGCTGACAGTCCGGGCGGTAAATGCGTGGGGGCAGCAGGGCGATCCGGCGTCGGTATCGTTCCGGATTGCCGCACCGGCAGCACCGTCGAGGATTGAGCTGACGCCGGGCTATTTTCAGATAACCGCCACGCCGCATCTTGCCGTTTATGACCCGACGGTACAGTTTGAGTTCTGGTTCTCGGAAAAGCAGATTGCGGATATCAGACAGGTTGAAACCAGCACGCGTTATCTTGGTACGGCGCTGTACTGGATAGCCGCCAGTATCAATATCAAACCGGGCCATGATTATTACTTTTATATCCGCAGTGTGAACACCGTTGGCAAATCGGCATTCGTGGAGGCCGTCGGTCGGGCGAGCGATGATGCGGAAGGTTACCTGGATTTTTTCAAAGGCAAGATAACCGAATCCCATCTCGGCAAGGAGCTGCTGGAAAAAGTCGAGCTGACGGAGGATAACGCCAGCAGACTGGAGGAGTTTTCGAAAGAGTGGAAGGATGCCAGTGATAAGTGGAATGCCATGTGGGCTGTCAAAATTGAGCAGACCAAAGACGGCAAACATTATGTCGCGGGTATTGGCCTCAGCATGGAGGACACGGAGGAAGGCAAACTGAGCCAGTTTCTGGTTGCCGCCAATCGTATCGCATTTATTGACCCGGCAAACGGGAATGAAACGCCGATGTTTGTGGCGCAGGGCAACCAGATATTCATGAACGACGTGTTCCTGAAGCGCCTGACGGCCCCCACCATTACCAGCGGCGGCAATCCTCCGGCCTTTTCCCTGACACCGGACGGAAAGCTGACCGCTAAAAATGCGGATATCAGTGGCAGTGTGAATGCGAACTCCGGGACGCTCAGTAATGTGACGATAGCTGAAAACTGTACGATAAACGGTACGCTGAGGGCGGAAAAAATCGTCGGGGACATTGTAAAGGCGGCGAGCGCGGCTTTTCCGCGCCAGCGTGAAAGCAGTGTGGACTGGCCGTCAGGTACCCGTACTGTCACCGTGACCGATGACCATCCTTTTGATCGCCAGATAGTGGTGCTTCCGCTGACGTTTCGCGGAAGTAAGCGTACTGTCAGCGGCAGGACAACGTATTCGATGTGTTATCTGAAAGTACTGATGAACGGTGCGGTGATTTATGATGGCGCGGCGAACGAGGCGGTACAGGTGTTCTCCCGTATTGTTGACATGCCAGCGGGTCGGGGAAACGTGATCCTGACGTTCACGCTTACGTCCACACGGCATTCGGCAGATATTCCGCCGTATACGTTTGCCAGCGATGTGCAGGTTATGGTGATTAAGAAACAGGCGCTGGGCATCAGCGTGGTCTGAGTGTGTTACAGAGGTTCGTCCGGGAACGGGCGTTTTATTATAAAACAGTGAGAGGTGAACGATGCGTAATGTGTGTATTGCCGTTGCTGTCTTTGCCGCACTTGCGGTGACAGTCACTCCGGCCCGTGCGGAAGGTGGACATGGTACGTTTACGGTGGGCTATTTTCAAGTGAAACCGGGTACATTGCCGTCGTTGTCGGGCGGGGATACCGGTGTGAGTCATCTGAAAGGGATTAACGTGAAGTACCGTTATGAGCTGACGGACAGTGTGGGGGTGATGGCTTCCCTGGGGTTCGCCGCGTCGAAAAAGAGCAGCACAGTGATGACCGGGGAGGATACGTTTCACTATGAGAGCCTGCGTGGACGTTATGTGAGCGTGATGGCCGGACCGGTTTTACAAATCAGTAAGCAGGTCAGTGCGTACGCCATGGCCGGAGTGGCTCACAGTCGGTGGTCCGGCAGTACAATGGATTACCGTAAGACGGAAATCACTCCCGGGTATATGAAAGAGACGACCACTGCCAGGGACGAAAGTGCAATGCGGCATACCTCAGTGGCGTGGAGTGCAGGTATACAGATTAATCCGGCAGCGTCCGTCGTTGTTGATATTGCTTATGAAGGCTCCGGCAGTGGCGACTGGCGTACTGACGGATTCATCGTTGGGGTCGGTTATAAATTCTGATTAGCCAGGTAACACAGTGTTATGACAGCCCGCCGGAACCGGTGGGCTTTTTTGTGGGGTGAATATGGCAGTAAAGATTTCAGGAGTCCTGAAAGACGGCACAGGAAAACCGGTACAGAACTGCACCATTCAGCTGAAAGCCAGACGTAACAGCACCACGGTGGTGGTGAACACGGTGGGCTCAGAGAATCCGGATGAAGCCGGGCGTTACAGCATGGATGTGGAGTACGGTCAGTACAGTGTCATCCTGCAGGTTGACGGTTTTCCACCATCGCACGCCGGGACCATCACCGTGTATGAAGATTCACAACCGGGGACGCTGAATGATTTTCTCTGTGCCATGACGGAGGATGATGCCCGGCCGGAGGTGCTGCGTCGTCTTGAACTGATGGTGGAAGAGGTGGCGCGTAACGCGTCCGTGGTGGCACAGAGTACGGCAGACGCGAAGAAATCAGCCGGCGATGCCAGTGCATCAGCTGCTCAGGTCGCGGCCCTTGTGACTGATGCAACTGACTCAGCACGCGCCGCCAGCACGTCCGCCGGACAGGCTGCATCGTCAGCTCAGGAAGCGTCCTCCGGCGCAGAAGCGGCATCAGCAAAGGCCACTGAAGCGGAAAAAAGTGCCGCAGCCGCAGAGTCCTCAAAAAACGCGGCGGCCACCAGTGCCGGTGCGGCGAAAACGTCAGAAACGAATGCTGCAGCGTCACAACAATCAGCCGCCACGTCTGCCTCCACCGCGGCCACGAAAGCGTCAGAGGCCGCCACTTCAGCACGAGATGCGGTGGCCTCAAAAGAGGCAGCAAAATCATCAGAAACGAACGCATCATCAAGTGCCGGTCGTGCAGCTTCCTCGGCAACGGCGGCAGAAAATTCTGCCAGGGCGGCAAAAACGTCCGAGACGAATGCCAGGTCATCTGAAACAGCAGCGGAACGGAGCGCCTCTGCCGCGGCAGACGCAAAAACAGCGGCGGCGGGGAGTGCGTCAACGGCATCCACGAAGGCGACAGAGGCTGCGGGAAGTGCGGTATCAGCATCGCAGAGCAAAAGTGCGGCAGAAGCGGCGGCAATACGTGCAAAAAATTCGGCAAAACGTGCAGAAGATATAGCTTCAGCTGTCGCGCTTGAGGATGCGGACACAACGAGAAAGGGGATAGTGCAGCTCAGCAGTGCAACCAACAGCACGTCTGAAACGCTTGCTGCAACGCCAAAGGCGGTTAAGGTGGTAATGGATGAAACGAACAGAAAAGCCCACTGGACAGTCCGGCACTGACCGGAACGCCAACAGCACCAACCGCGCTCAGGGGAACAAACAATACCCAGATTGCGAACACCGCTTTTGTACTGGCCGCGATTGCAGATGTTATCGACGCGTCACCTGACGCACTGAATACGCTGAATGAACTGGCCGCAGCGCTCGGGAATGATCCAGATTTTGCTACCACCATGACTAACGCGCTTGCGGGTAAACAACCGAAGAATGCGACACTGACGGCGCTGGCAGGGCTTTCCACGGCGAAAAATAAATTACCGTATTTTGCGGAAAATGATGCCGCCAGCCTGACTGAACTGACTCAGGTTGGCAGGGATATTCTGGCAAAAAATTCCGTTGCAGATGTTCTTGAATACCTTGGGGCCGGTGAGAATTCGGCCTTTCCGGCAGGTGCGCCGATCCCGTGGCCATCAGATATCGTTCCGTCTGGCTACGTCCTGATGCAGGGGCAGGCGTTTGACAAATCAGCCTACCCAAAACTTGCTGTCGCGTATCCATCGGGTGTGCTTCCTGATATGCGAGGCTGGACAATCAAGGGGAAACCCGCCAGCGGTCGTGCTGTATTGTCTCAGGAACAGGATGGAATTAAGTCGCACACCCACAGTGCCAGTGCATCCGGTACGGATTTGGGGACGAAAACCACATCGTCGTTTGATTACGGGACGAAAACAACAGGCAGTTTCGATTACGGCACCAAATCGACGAATAACACGGGGGCTCATGCTCACAGTCTGAGCGGTTCAACAGGGGCCGCGGGTGCTCATGCCCACACAAGTGGTTTAAGGATGAACAGTTCTGGCTGGAGTCAGTATGGAACAGCAACCATTACAGGAAGTTTATCCACAGTTAAAGGAACCAGCACACAGGGTATTGCTTATTTATCGAAAACGGACAGTCAGGGCAGCCACAGTCACTCATTGTCCGGTACAGCCGTGAGTGCCGGTGCACATGCGCATACAGTTGGTATTGGTGCGCACCAGCATCCGGTTGTTATCGGTGCTCATGCCCATTCTTTCAGTATTGGTTCACACGGACACACCATCACCGTTAACGCTGCGGGTAACGCGGAAAACACCGTCAAAAACATTGCATTTAACTATATTGTGAGGCTTGCATAATGGCATTCAGAATGAGTGAACAACCACGGACCATAAAAATTTATAATCTGCTGGCCGGAACTAATGAATTTATTGGTGAAGGTGACGCATATATTCCGCCTCATACCGGTCTGCCTGCAAACAGTACCGATATTGCACCGCCAGATATTCCGGCTGGCTTTGTGGCTGTTTTCAACAGTGATGAGGCATCGTGGCATCTCGTTGAAGACCATCGGGGTAAAACCGTCTATGACGTGGCTTCCGGCGACGCGTTATTTATTTCTGAACTCGGTCCGTTACCGGAAAATTTTACCTGGTTATCGCCGGGAGGGGAATATCAGAAGTGGAACGGCACAGCCTGGGTGAAGGATACGGAAGCAGAAAAACTGTTCCGGATCCGGGAGGCGGAAGAAACAAAAAAAAGCCTGATGCAGGTAGCCAGTGAGCATATTGCGCCGCTTCAGGATGCTGCAGATCTGGAAATTGCAACGAAGGAAGAAACCTCGTTGCTGGAAGCCTGGAAGAAGTATCGGGTGTTGCTGAACCGTGTTGATACATCAACTGCACCTGATATTGAGTGGCCTGCTGTCCCTGTTATGGAGTAATCGTTTTGTGATATGCCGCAGAAACGTTGTATGAAATAACGTTCTGCGGTTAGTTAGTATATTGTAAAGCTGAGTATTGGTTTATTTGGCGATTATTATCTTCAGGAGAATAATGGAAGTTCTATGACTCAATTGTTCATAGTGTTTACATCACCGCCAATTGCTTTTAAGACTGAACGCATGAAATATGGTTTTTCGTCATGTTTTGAGTCTGCTGTTGATATTTCTAAAGTCGGTTTTTTTTCTTCGTTTTCTCTAACTATTTTCCATGAAATACATTTTTGATTATTATTTGAATCAATTCCAATTACCTGAAGTCTTTCATCTATAATTGGCATTGTATGTATTGGTTTATTGGAGTAGATGCTTGCTTTTCTGAGCCATAGCTCTGATATCCAAATGAAGCCATAGGCATTTGTTATTTTGGCTCTGTCAGCTGCATAACGCCAAAAAATATATTTATCTGCTTGATCTTCAAATGTTGTATTGATTAAATCAATTGGATGGAATTGTTTATCATAAAAAATTAATGTTTGAATGTGATAACCGTCCTTTAAAAAAGTCGTTTCTGCAAGCTTGGCTGTATAGTCAACTAACTCTTCTGTCGAAGTGATATTTTTAGGCTTATCTACCAGTTTTAGACGCTCTTTAATATCTTCAGGAATTATTTTATTGTCATATTGTATCATGCTAAATGACAATTTGCTTATGGAGTAATCTTTTAATTTTAAATAAGTTATTCTCCTGGCTTCATCAAATAAAGAGTCGAATGATGTTGGCGAAATCACATCGTCACCCATTGGATTGTTTATTTGTATGCCAAGAGAGTTACAGCAGTTATACATTCTGCCATAGATTATAGCTAAGGCATGTAATAATTCGTAATCTTTTAGCGTATTAGCGACCCATCGTCTTTCTGATTTAATAATAGATGATTCAGTTAAATATGAAGGTAATTTCTTTTGTGCAAGTCTGACTAACTTTTTTATACCAATGTTTAACATACTTTCATTTGTAATAAACTCAATGTCATTTTCTTCAATGTAAGATGAAATAAGAGTAGCCTTTGCCTCGCTATACATTTCTAAATCGCCTTGTTTTTCTATCGTATTGCGAGAATTTTTAGCCCAAGCCATTAATGGATCATTTTTCCATTTTTCAATAACATTATTGTTATACCAAATGTCATATCCTATAATCTGGTTTTTGTTTTTTTGAATAATAAATGTTACTGTTCTTGCGGTTTGGAGGAATTGATTCAAATTCAAGCGAAATAATTCAGGGTCAAAATATGTATCAATGCAGCATTTGAGCAAGTGCGATAAATCTTTAAGTCTTCTTTCCCATGGTTTTTTAGTCATAAAACTCTCCATTTTGATAGGTTGCATGCTAGATGCTGATATATTTTAGAGGTGATAAAATTAACTGCTTAACTGTCAATGTAATACAAGTTGTTTGATCTTTGCAATGATTCTTATCAGAAACCATATAGTAAATTAGTTACACAGGAAATTTTTAATATTATTATTATCATTCATTATGTATTAAAATTAGAGTTGTGGCTTGGCTCTGCTAACACGTTGCTCATAGGAGATATGGTAGAGCCGCAGACACGTCGTATGCAGGAACGTGCTGCGGCTGGCTGGTGAACTTCCGATAGTGCGGGTGTTGAATGATTTCCAGTTGCTACCGATTTTACATATTTTTTGCATGAGAGAATTTGTACCACCTCCCACCGACCATCTATGACTGTACGCCACTGTCCCTAGGACTGCTATGTGCCGGAGCGGACATTACAAACGTCCTTCTCGGTGCATGCCACTGTTGCCAATGACCTGCCTAGGAATTGGTTAGCAAGTTACTACCGGATTTTGTAAAAACAGCCCTCCTCATATAAAAAGTATTCGTTCACTTCCGATAAGCGTCGTAATTTTCTATCTTTCATCATATTCTAGATCCCTCTGAAAAAATCTTCCGAGTTTGCTAGGCACTGATACATAACTCTTTTCCAATAATTGGGGAAGTCATTCAAATCTATAATAGGTTTCAGATTTGCTTCAATAAATTCTGACTGTAGCTGCTGAAACGTTGCGGTTGAACTATATTTCCTTATAACTTTTACGAAAGAGTTTCTTTGAGTAATCACTTCACTCAAGTGCTTCCCTGCCTCCAAACGATACCTGTTAGCAATATTTAATAGCTTGAAATGATGAAGAGCTCTGTGTTTGTCTTCCTGCCTCCAGTTCGCCGGGCATTCAACATAAAAACTGATAGCACCCGGAGTTCCGGAAACGAAATTTGCATATACCCATTGCTCACGAAAAAAAATGTCCTTGTCGATATAGGGATGAATCGCTTGGTGTACCTCATCTACTGCGAAAACTTGACCTTTCTCTCCCATATTGCAGTCGCGGCACGATGGAACTAAATTAATAGGCATCACCGAAAATTCAGGATAATGTGCAATAGGAAGAAAATGATCTATATTTTTTGTCTGTCCTATATCACCACAAAATGGACATTTTTCACCTGATGAAACAAGCATGTCATCGTAATATGTTCTAGCGGGTTTGTTTTTATCTCGGAGATTATTTTCATAAAGCTTTTCTAATTTAACCTTTGTCAGGTTACCAACTACTAAGGTTGTAGGCTCAAGAGGGTGTGTCCTGTCGTAGGTAAATAACTGACCTGTCGAGCTTAATATTCTATATTGTTGTTCTTTCTGCAAAAAAGTGGGGAAGTGAGTAATGAAATTATTTCTAACATTTATCTGCATCATACCTTCCGAGCATTTATTAAGCATTTCGCTATAAGTTCTCGCTGGAAGAGGTAGTTTTTTCATTGTACTTTACCTTCATCTCTGTTCATTATCATCGCTTTTAAAACGGTTCGACCTTCTAATCCTATCTGACCATTATAATTTTTTAGAATGGTTTCATAAGAAAGCTCTGAATCAACGGACTGCGATAATAAGTGGTAGGA
SEQ ID NO:15
GGTTAAACACCCAAGCAGACGCCTTTGAGGCGAGCGGTCAA
SEQ ID NO:16
/5SpC3//iSpC3//iSpC3//iSpC3//iSpC3//iSpC3//iSpC3//iSpC3//iSpC3//iSpC3//iSpC3//iSpC3//iSpC3//iSpC3//iSpC3//iSpC3//iSpC3//iSpC3//iSpC3//iSpC3/TTTTTTTTTT/iSpC3//iSpC3//iSpC3//iSpC3//iSpC3//iSpC3//iSpC3//iSpC3//iSpC3//iSpC3/TTTTTTTTTTGGCGTCTGCTTGGGTGTTTAACCT
SEQ ID NO:20
GCCATCAGATTGTGTTTGTTAGTCGCTGCCATCAGATTGTGTTTGTTAGTCGCTTTTTTTTTTTGGAATTTTTTTTTTGGAATTTTTTTTTTGCGCTAACAACCTCCTGCCGTTTTGCCCGTGCATATCGGTCACGAACAAATCTGATTACTAAACACAGTAGCCTGGATTTGTTCTATCAGTAATCGACCTTATTCCTAATTAAATAGAGCAAATCCCCTTATTGGGGGTAAGACATGAAGATGCCAGAAAAACATGACCTGTTGGCCGCCATTCTCGCGGCAAAGGAACAAGGCATCGGGGCAATCCTTGCGTTTGCAATGGCGTACCTTCGCGGCAGATATAATGGCGGTGCGTTTACAAAAACAGTAATCGACGCAACGATGTGCGCCATTATCGCCTAGTTCATTCGTGACCTTCTCGACTTCGCCGGACTAAGTAGCAATCTCGCTTATATAACGAGCGTGTTTATCGGCTACATCGGTACTGACTCGATTGGTTCGCTTATCAAACGCTTCGCTGCTAAAAAAGCCGGAGTAGAAGATGGTAGAAATCAATAATCAACGTAAGGCGTTCCTCGATATGCTGGCGTGGTCGGAGGGAACTGATAACGGACGTCAGAAAACCAGAAATCATGGTTATGACGTCATTGTAGGCGGAGAGCTATTTACTGATTACTCCGATCACCCTCGCAAACTTGTCACGCTAAACCCAAAACTCAAATCAACAGGCGCCGGACGCTACCAGCTTCTTTCCCGTTGGTGGGATGCCTACCGCAAGCAGCTTGGCCTGAAAGACTTCTCTCCGAAAAGTCAGGACGCTGTGGCATTGCAGCAGATTAAGGAGCGTGGCGCTTTACCTATGATTGATCGTGGTGATATCCGTCAGGCAATCGACCGTTGCAGCAATATCTGGGCTTCACTGCCGGGCGCTGGTTATGGTCAGTTCGAGCATAAGGCTGACAGCCTGATTGCAAAATTCAAAGAAGCGGGCGGAACGGTCAGAGAGATTGATGTATGAGCAGAGTCACCGCGATTATCTCCGCTCTGGTTATCTGCATCATCGTCTGCCTGTCATGGGCTGTTAATCATTACCGTGATAACGCCATTACCTACAAAGCCCAGCGCGACAAAAATGCCAGAGAACTGAAGCTGGCGAACGCGGCAATTACTGACATGCAGATGCGTCAGCGTGATGTTGCTGCGCTCGATGCAAAATACACGAAGGAGTTAGCTGATGCTAAAGCTGAAAATGATGCTCTGCGTGATGATGTTGCCGCTGGTCGTCGTCGGTTGCACATCAAAGCAGTCTGTCAGTCAGTGCGTGAAGCCACCACCGCCTCCGGCGTGGATAATGCAGCCTCCCCCCGACTGGCAGACACCGCTGAACGGGATTATTTCACCCTCAGAGAGAGGCTGATCACTATGCAAAAACAACTGGAAGGAACCCAGAAGTATATTAATGAGCAGTGCAGATAGAGTTGCCCATATCGATGGGCAACTCATGCAATTATTGTGAGCAATACACACGCGCTTCCAGCGGAGTATAAATGCCTAAAGTAATAAAACCGAGCAATCCATTTACGAATGTTTGCTGGGTTTCTGTTTTAACAACATTTTCTGCGCCGCCACAAATTTTGGCTGCATCGACAGTTTTCTTCTGCCCAATTCCAGAAACGAAGAAATGATGGGTGATGGTTTCCTTTGGTGCTACTGCTGCCGGTTTGTTTTGAACAGTAAACGTCTGTTGAGCACATCCTGTAATAAGCAGGGCCAGCGCAGTAGCGAGTAGCATTTTTTTCATGGTGTTATTCCCGATGCTTTTTGAAGTTCGCAGAATCGTATGTGTAGAAAATTAAACAAACCCTAAACAATGAGTTGAAATTTCATATTGTTAATATTTATTAATGTATGTCAGGTGCGATGAATCGTCATTGTATTCCCGGATTAACTATGTCCACAGCCCTGACGGGGAACTTCTCTGCGGGAGTGTCCGGGAATAATTAAAACGATGCACACAGGGTTTAGCGCGTACACGTATTGCATTATGCCAACGCCCCGGTGCTGACACGGAAGAAACCGGACGTTATGATTTAGCGTGGAAAGATTTGTGTAGTGTTCTGAATGCTCTCAGTAAATAGTAATGAATTATCAAAGGTATAGTAATATCTTTTATGTTCATGGATATTTGTAACCCATCGGAAAACTCCTGCTTTAGCAAGATTTTCCCTGTATTGCTGAAATGTGATTTCTCTTGATTTCAACCTATCATAGGACGTTTCTATAAGATGCGTGTTTCTTGAGAATTTAACATTTACAACCTTTTTAAGTCCTTTTATTAACACGGTGTTATCGTTTTCTAACACGATGTGAATATTATCTGTGGCTAGATAGTAAATATAATGTGAGACGTTGTGACGTTTTAGTTCAGAATAAAACAATTCACAGTCTAAATCTTTTCGCACTTGATCGAATATTTCTTTAAAAATGGCAACCTGAGCCATTGGTAAAACCTTCCATGTGATACGAGGGCGCGTAGTTTGCATTATCGTTTTTATCGTTTCAATCTGGTCTGACCTCCTTGTGTTTTGTTGATGATTTATGTCAAATATTAGGAATGTTTTCACTTAATAGTATTGGTTGCGTAACAAAGTGCGGTCCTGCTGGCATTCTGGAGGGAAATACAACCGACAGATGTATGTAAGGCCAACGTGCTCAAATCTTCATACAGAAAGATTTGAAGTAATATTTTAACCGCTAGATGAAGAGCAAGCGCATGGAGCGACAAAATGAATAAAGAACAATCTGCTGATGATCCCTCCGTGGATCTGATTCGTGTAAAAAATATGCTTAATAGCACCATTTCTATGAGTTACCCTGATGTTGTAATTGCATGTATAGAACATAAGGTGTCTCTGGAAGCATTCAGAGCAATTGAGGCAGCGTTGGTGAAGCACGATAATAATATGAAGGATTATTCCCTGGTGGTTGACTGATCACCATAACTGCTAATCATTCAAACTATTTAGTCTGTGACAGAGCCAACACGCAGTCTGTCACTGTCAGGAAAGTGGTAAAACTGCAACTCAATTACTGCAATGCCCTCGTAATTAAGTGAATTTACAATATCGTCCTGTTCGGAGGGAAGAACGCGGGATGTTCATTCTTCATCACTTTTAATTGATGTATATGCTCTCTTTTCTGACGTTAGTCTCCGACGGCAGGCTTCAATGACCCAGGCTGAGAAATTCCCGGACCCTTTTTGCTCAAGAGCGATGTTAATTTGTTCAATCATTTGGTTAGGAAAGCGGATGTTGCGGGTTGTTGTTCTGCGGGTTCTGTTCTTCGTTGACATGAGGTTGCCCCGTATTCAGTGTCGCTGATTTGTATTGTCTGAAGTTGTTTTTACGTTAAGTTGATGCAGATCAATTAATACGATACCTGCGTCATAATTGATTATTTGACGTGGTTTGATGGCCTCCACGCACGTTGTGATATGTAGATGATAATCATTATCACTTTACGGGTCCTTTCCGGTGAAAAAAAAGGTACCAAAAAAAACATCGTCGTGAGTAGTGAACCGTAAGCATGTAGGA
SEQ ID NO:21
/5生物素TEG/TTTTTTTTTT/iSp18/AATGTACTTCGTTCAGTTACGTATTGCT
SEQ ID NO:22
/5Phos/GCAATACGTAACTGAACGAAGT/iBNA-A//iBNA-MeC//iBNA-A//iBNA-
T//iBNA-T/TTTGAGGCGAGCGGTCAATTTTTTTTTTTTTTTTTTTT
SEQ ID NO:24
/5Phos/TGCAATACGTAACTGAACGAAGTACATTTTTTTGAAGATAGAGCGATTTTTTTTTTTTTTTTGTACTTCGTTCAGTTACGTATTGCATCCT
SEQ ID NO:25
/5Phos/TGCAATACGTAACTGAACGAAGTACATTTTTTTGAAGATAGAGCGATTTTTTTTTTTTTTTTGTACTTCGTTCAGTTACGTATTGCAT
SEQ ID NO:26
/5Phos/TGCAATACGTAACTGAACGAAGTACATTTTTTTGAAGATAGAGCGATTTTT/iFluorT//iFluorT//iFluorT/TTTTTTTTTGTACTTCGTTCAGTTACGTATTGCATCCT
SEQ ID NO:27
/5BNA-T//iBNA-MeC//iBNA-G//iBNA-MeC//iBNA-T/CTATCTTC
SEQ ID NO:28
GTTATTCAAGACTTCTTTAATACACTTTTTTTTTT/iSp18/AATGTACTTCGTTCAGTTACGTATTGCTTTGGCGTCTGCTTGGGTGTTTAACCT
SEQ ID NO:30
GCAATACGTAACTGAACGAAGT/iBNA-A//iBNA-MeC//iBNA-A//iBNA-T//3BNA-T/
SEQ ID NO:32
GTGTATTAAAGAAGTCTTGAATAAC
SEQ ID NO:33
/5Phos/GGTTAAACACCCAAGCAGACGCCTTTGAGGCGAGCGGTCAA/iSpC3//iSpC3//iSpC3//iSpC3//iSpC3//iSpC3//iSpC3//iSpC3//iSpC3//iSpC3//iSpC3//iSpC3//iSpC3//iSpC3//iSpC3//iSpC3//iSpC3//iSpC3//iSpC3//iSpC3//iSpC3//iSpC3//iSpC3//iSpC3//iSpC3//iSpC3//iSpC3//iSpC3//iSpC3//3SpC3/
SEQ ID NO:34
GTTATTCAAGACTTCTTTAATACACTTTTTTTTTT/iSp9/AATGTACTTCGTTCAGTTACGTATTGCTTTGGCGTCTGCTTGGGTGTTTAACCT
SEQ ID NO:35
/5Phos/AACACCCAAGCAGACGCCTTT/iSpC3//iSpC3//iSpC3//iSpC3//iSpC3//iSpC3//iSpC3//iSpC3//iSpC3//iSpC3//iSpC3//iSpC3//iSpC3//iSpC3//iSpC3//iSpC3//iSpC3//iSpC3//iSpC3//iSpC3//iSpC3//iSpC3//iSpC3//iSpC3//iSpC3//iSpC3//iSpC3//iSpC3//iSpC3//3SpC3/
SEQ ID NO:36
TTTGCAATACGTAACTGAACGAAGT/iBNA-A//iBNA-MeC//iBNA-A//iBNA-T//3BNA-T/SEQ ID NO:37
GTGTATTAAAGAAGTCTTGAATAAC/iSpC3//iSpC3//iSpC3/GAGGCGAGCGGT/3ddC/SEQID NO:38
/5Phos/GTTTTCGCATTTATCGTGAAACGCTTTCGCGTTTTTCGTGCGCCGCTTCA
SEQ ID NO:39
/5Phos/IIIIITGAAGCGGCGCACGAAAAACGCGAAAGCGTTTCACGATAAATGCGAAAACAGGTTA
SEQ ID NO:40
/5Phos/CGTCCTGTCGCTGTGTCTCG/iSpC3//iSpC3//iSpC3//iSpC3//iSpC3//iSpC3//iSpC3//iSpC3//iSpC3//iSpC3/TTTTTTTTTT/iSp18/AATGTACTTCGTTCAGTTACGTATTGCTAGAGCCGAGACACAGCGACAGGACGT
SEQ ID NO:41
GCAATACGTAACTGAACGAAGT/iBNA-A//iBNA-MeC//iBNA-A//iBNA-T//3BNA-T/
SEQ ID NO:42
333333333333333333333333333333CTACATCTCCTTATTCGCTGCACTTTTTTTTTT8CCTGTACTTCGTTCAGTTACGTATTGCT-N3
SEQ ID NO:43
GTGCAGCGAATAAGGAGATGTAGTTTGAGGCGAGCGGTCAA
SEQ ID NO:44
GGTTAAACACCCAAGCAAGCAATACGTAACTGAACmGmAmAmGmUmAmCmAmGmG
SEQ ID NO:45
GCAATACGTAACTGAACGAAGTACAGGTTT
SEQ ID NO:46
/5Phos/GGTTAAACACCCAAGCAGACGCCTTT/iSpC3//iSpC3//iSpC3//iSpC3//iSpC3//iSpC3//iSpC3//iSpC3//iSpC3//iSpC3//iSpC3//iSpC3//iSpC3//iSpC3//iSpC3//iSpC3//iSpC3//iSpC3//iSpC3//iSpC3//iSpC3//iSpC3//iSpC3//iSpC3//iSpC3//iSpC3//iSpC3//iSpC3//iSpC3//3SpC3/
SEQ ID NO:47
/5Phos/GTTTTCGCATTTATCGTGAAACGCTTTCGCGTTTTTCGTGCGCCGCTTCA
序列表
<110> 牛津纳米孔技术有限公司(OXFORD NANOPORE TECHNOLOGIES LIMITED)
<120> 选择方法
<130> N417089WO
<150> GB2107193.1
<151> 2021-05-19
<150> GB2009334.0
<151> 2020-06-18
<160> 47
<170> PatentIn 3.5版
<210> 1
<211> 485
<212> PRT
<213> 大肠杆菌(Escherichia coli)
<400> 1
Met Met Asn Asp Gly Lys Gln Gln Ser Thr Phe Leu Phe His Asp Tyr
1 5 10 15
Glu Thr Phe Gly Thr His Pro Ala Leu Asp Arg Pro Ala Gln Phe Ala
20 25 30
Ala Ile Arg Thr Asp Ser Glu Phe Asn Val Ile Gly Glu Pro Glu Val
35 40 45
Phe Tyr Cys Lys Pro Ala Asp Asp Tyr Leu Pro Gln Pro Gly Ala Val
50 55 60
Leu Ile Thr Gly Ile Thr Pro Gln Glu Ala Arg Ala Lys Gly Glu Asn
65 70 75 80
Glu Ala Ala Phe Ala Ala Arg Ile His Ser Leu Phe Thr Val Pro Lys
85 90 95
Thr Cys Ile Leu Gly Tyr Asn Asn Val Arg Phe Asp Asp Glu Val Thr
100 105 110
Arg Asn Ile Phe Tyr Arg Asn Phe Tyr Asp Pro Tyr Ala Trp Ser Trp
115 120 125
Gln His Asp Asn Ser Arg Trp Asp Leu Leu Asp Val Met Arg Ala Cys
130 135 140
Tyr Ala Leu Arg Pro Glu Gly Ile Asn Trp Pro Glu Asn Asp Asp Gly
145 150 155 160
Leu Pro Ser Phe Arg Leu Glu His Leu Thr Lys Ala Asn Gly Ile Glu
165 170 175
His Ser Asn Ala His Asp Ala Met Ala Asp Val Tyr Ala Thr Ile Ala
180 185 190
Met Ala Lys Leu Val Lys Thr Arg Gln Pro Arg Leu Phe Asp Tyr Leu
195 200 205
Phe Thr His Arg Asn Lys His Lys Leu Met Ala Leu Ile Asp Val Pro
210 215 220
Gln Met Lys Pro Leu Val His Val Ser Gly Met Phe Gly Ala Trp Arg
225 230 235 240
Gly Asn Thr Ser Trp Val Ala Pro Leu Ala Trp His Pro Glu Asn Arg
245 250 255
Asn Ala Val Ile Met Val Asp Leu Ala Gly Asp Ile Ser Pro Leu Leu
260 265 270
Glu Leu Asp Ser Asp Thr Leu Arg Glu Arg Leu Tyr Thr Ala Lys Thr
275 280 285
Asp Leu Gly Asp Asn Ala Ala Val Pro Val Lys Leu Val His Ile Asn
290 295 300
Lys Cys Pro Val Leu Ala Gln Ala Asn Thr Leu Arg Pro Glu Asp Ala
305 310 315 320
Asp Arg Leu Gly Ile Asn Arg Gln His Cys Leu Asp Asn Leu Lys Ile
325 330 335
Leu Arg Glu Asn Pro Gln Val Arg Glu Lys Val Val Ala Ile Phe Ala
340 345 350
Glu Ala Glu Pro Phe Thr Pro Ser Asp Asn Val Asp Ala Gln Leu Tyr
355 360 365
Asn Gly Phe Phe Ser Asp Ala Asp Arg Ala Ala Met Lys Ile Val Leu
370 375 380
Glu Thr Glu Pro Arg Asn Leu Pro Ala Leu Asp Ile Thr Phe Val Asp
385 390 395 400
Lys Arg Ile Glu Lys Leu Leu Phe Asn Tyr Arg Ala Arg Asn Phe Pro
405 410 415
Gly Thr Leu Asp Tyr Ala Glu Gln Gln Arg Trp Leu Glu His Arg Arg
420 425 430
Gln Val Phe Thr Pro Glu Phe Leu Gln Gly Tyr Ala Asp Glu Leu Gln
435 440 445
Met Leu Val Gln Gln Tyr Ala Asp Asp Lys Glu Lys Val Ala Leu Leu
450 455 460
Lys Ala Leu Trp Gln Tyr Ala Glu Glu Ile Val Ser Gly Ser Gly His
465 470 475 480
His His His His His
485
<210> 2
<211> 268
<212> PRT
<213> 大肠杆菌(Escherichia coli)
<400> 2
Met Lys Phe Val Ser Phe Asn Ile Asn Gly Leu Arg Ala Arg Pro His
1 5 10 15
Gln Leu Glu Ala Ile Val Glu Lys His Gln Pro Asp Val Ile Gly Leu
20 25 30
Gln Glu Thr Lys Val His Asp Asp Met Phe Pro Leu Glu Glu Val Ala
35 40 45
Lys Leu Gly Tyr Asn Val Phe Tyr His Gly Gln Lys Gly His Tyr Gly
50 55 60
Val Ala Leu Leu Thr Lys Glu Thr Pro Ile Ala Val Arg Arg Gly Phe
65 70 75 80
Pro Gly Asp Asp Glu Glu Ala Gln Arg Arg Ile Ile Met Ala Glu Ile
85 90 95
Pro Ser Leu Leu Gly Asn Val Thr Val Ile Asn Gly Tyr Phe Pro Gln
100 105 110
Gly Glu Ser Arg Asp His Pro Ile Lys Phe Pro Ala Lys Ala Gln Phe
115 120 125
Tyr Gln Asn Leu Gln Asn Tyr Leu Glu Thr Glu Leu Lys Arg Asp Asn
130 135 140
Pro Val Leu Ile Met Gly Asp Met Asn Ile Ser Pro Thr Asp Leu Asp
145 150 155 160
Ile Gly Ile Gly Glu Glu Asn Arg Lys Arg Trp Leu Arg Thr Gly Lys
165 170 175
Cys Ser Phe Leu Pro Glu Glu Arg Glu Trp Met Asp Arg Leu Met Ser
180 185 190
Trp Gly Leu Val Asp Thr Phe Arg His Ala Asn Pro Gln Thr Ala Asp
195 200 205
Arg Phe Ser Trp Phe Asp Tyr Arg Ser Lys Gly Phe Asp Asp Asn Arg
210 215 220
Gly Leu Arg Ile Asp Leu Leu Leu Ala Ser Gln Pro Leu Ala Glu Cys
225 230 235 240
Cys Val Glu Thr Gly Ile Asp Tyr Glu Ile Arg Ser Met Glu Lys Pro
245 250 255
Ser Asp His Ala Pro Val Trp Ala Thr Phe Arg Arg
260 265
<210> 3
<211> 425
<212> PRT
<213> 嗜热栖热菌(Thermus thermophilus)
<400> 3
Met Phe Arg Arg Lys Glu Asp Leu Asp Pro Pro Leu Ala Leu Leu Pro
1 5 10 15
Leu Lys Gly Leu Arg Glu Ala Ala Ala Leu Leu Glu Glu Ala Leu Arg
20 25 30
Gln Gly Lys Arg Ile Arg Val His Gly Asp Tyr Asp Ala Asp Gly Leu
35 40 45
Thr Gly Thr Ala Ile Leu Val Arg Gly Leu Ala Ala Leu Gly Ala Asp
50 55 60
Val His Pro Phe Ile Pro His Arg Leu Glu Glu Gly Tyr Gly Val Leu
65 70 75 80
Met Glu Arg Val Pro Glu His Leu Glu Ala Ser Asp Leu Phe Leu Thr
85 90 95
Val Asp Cys Gly Ile Thr Asn His Ala Glu Leu Arg Glu Leu Leu Glu
100 105 110
Asn Gly Val Glu Val Ile Val Thr Asp His His Thr Pro Gly Lys Thr
115 120 125
Pro Pro Pro Gly Leu Val Val His Pro Ala Leu Thr Pro Asp Leu Lys
130 135 140
Glu Lys Pro Thr Gly Ala Gly Val Ala Phe Leu Leu Leu Trp Ala Leu
145 150 155 160
His Glu Arg Leu Gly Leu Pro Pro Pro Leu Glu Tyr Ala Asp Leu Ala
165 170 175
Ala Val Gly Thr Ile Ala Asp Val Ala Pro Leu Trp Gly Trp Asn Arg
180 185 190
Ala Leu Val Lys Glu Gly Leu Ala Arg Ile Pro Ala Ser Ser Trp Val
195 200 205
Gly Leu Arg Leu Leu Ala Glu Ala Val Gly Tyr Thr Gly Lys Ala Val
210 215 220
Glu Val Ala Phe Arg Ile Ala Pro Arg Ile Asn Ala Ala Ser Arg Leu
225 230 235 240
Gly Glu Ala Glu Lys Ala Leu Arg Leu Leu Leu Thr Asp Asp Ala Ala
245 250 255
Glu Ala Gln Ala Leu Val Gly Glu Leu His Arg Leu Asn Ala Arg Arg
260 265 270
Gln Thr Leu Glu Glu Ala Met Leu Arg Lys Leu Leu Pro Gln Ala Asp
275 280 285
Pro Glu Ala Lys Ala Ile Val Leu Leu Asp Pro Glu Gly His Pro Gly
290 295 300
Val Met Gly Ile Val Ala Ser Arg Ile Leu Glu Ala Thr Leu Arg Pro
305 310 315 320
Val Phe Leu Val Ala Gln Gly Lys Gly Thr Val Arg Ser Leu Ala Pro
325 330 335
Ile Ser Ala Val Glu Ala Leu Arg Ser Ala Glu Asp Leu Leu Leu Arg
340 345 350
Tyr Gly Gly His Lys Glu Ala Ala Gly Phe Ala Met Asp Glu Ala Leu
355 360 365
Phe Pro Ala Phe Lys Ala Arg Val Glu Ala Tyr Ala Ala Arg Phe Pro
370 375 380
Asp Pro Val Arg Glu Val Ala Leu Leu Asp Leu Leu Pro Glu Pro Gly
385 390 395 400
Leu Leu Pro Gln Val Phe Arg Glu Leu Ala Leu Leu Glu Pro Tyr Gly
405 410 415
Glu Gly Asn Pro Glu Pro Leu Phe Leu
420 425
<210> 4
<211> 226
<212> PRT
<213> 噬菌体λ(Bacteriophage lambda)
<400> 4
Met Thr Pro Asp Ile Ile Leu Gln Arg Thr Gly Ile Asp Val Arg Ala
1 5 10 15
Val Glu Gln Gly Asp Asp Ala Trp His Lys Leu Arg Leu Gly Val Ile
20 25 30
Thr Ala Ser Glu Val His Asn Val Ile Ala Lys Pro Arg Ser Gly Lys
35 40 45
Lys Trp Pro Asp Met Lys Met Ser Tyr Phe His Thr Leu Leu Ala Glu
50 55 60
Val Cys Thr Gly Val Ala Pro Glu Val Asn Ala Lys Ala Leu Ala Trp
65 70 75 80
Gly Lys Gln Tyr Glu Asn Asp Ala Arg Thr Leu Phe Glu Phe Thr Ser
85 90 95
Gly Val Asn Val Thr Glu Ser Pro Ile Ile Tyr Arg Asp Glu Ser Met
100 105 110
Arg Thr Ala Cys Ser Pro Asp Gly Leu Cys Ser Asp Gly Asn Gly Leu
115 120 125
Glu Leu Lys Cys Pro Phe Thr Ser Arg Asp Phe Met Lys Phe Arg Leu
130 135 140
Gly Gly Phe Glu Ala Ile Lys Ser Ala Tyr Met Ala Gln Val Gln Tyr
145 150 155 160
Ser Met Trp Val Thr Arg Lys Asn Ala Trp Tyr Phe Ala Asn Tyr Asp
165 170 175
Pro Arg Met Lys Arg Glu Gly Leu His Tyr Val Val Ile Glu Arg Asp
180 185 190
Glu Lys Tyr Met Ala Ser Phe Asp Glu Ile Val Pro Glu Phe Ile Glu
195 200 205
Lys Met Asp Glu Ala Leu Ala Glu Ile Gly Phe Val Phe Gly Glu Gln
210 215 220
Trp Arg
225
<210> 5
<211> 608
<212> PRT
<213> 枯草芽孢杆菌(Bacillus subtilis)
<400> 5
Met Lys His Met Pro Arg Lys Met Tyr Ser Cys Ala Phe Glu Thr Thr
1 5 10 15
Thr Lys Val Glu Asp Cys Arg Val Trp Ala Tyr Gly Tyr Met Asn Ile
20 25 30
Glu Asp His Ser Glu Tyr Lys Ile Gly Asn Ser Leu Asp Glu Phe Met
35 40 45
Ala Trp Val Leu Lys Val Gln Ala Asp Leu Tyr Phe His Asn Leu Lys
50 55 60
Phe Asp Gly Ala Phe Ile Ile Asn Trp Leu Glu Arg Asn Gly Phe Lys
65 70 75 80
Trp Ser Ala Asp Gly Leu Pro Asn Thr Tyr Asn Thr Ile Ile Ser Arg
85 90 95
Met Gly Gln Trp Tyr Met Ile Asp Ile Cys Leu Gly Tyr Lys Gly Lys
100 105 110
Arg Lys Ile His Thr Val Ile Tyr Asp Ser Leu Lys Lys Leu Pro Phe
115 120 125
Pro Val Lys Lys Ile Ala Lys Asp Phe Lys Leu Thr Val Leu Lys Gly
130 135 140
Asp Ile Asp Tyr His Lys Glu Arg Pro Val Gly Tyr Lys Ile Thr Pro
145 150 155 160
Glu Glu Tyr Ala Tyr Ile Lys Asn Asp Ile Gln Ile Ile Ala Glu Ala
165 170 175
Leu Leu Ile Gln Phe Lys Gln Gly Leu Asp Arg Met Thr Ala Gly Ser
180 185 190
Asp Ser Leu Lys Gly Phe Lys Asp Ile Ile Thr Thr Lys Lys Phe Lys
195 200 205
Lys Val Phe Pro Thr Leu Ser Leu Gly Leu Asp Lys Glu Val Arg Tyr
210 215 220
Ala Tyr Arg Gly Gly Phe Thr Trp Leu Asn Asp Arg Phe Lys Glu Lys
225 230 235 240
Glu Ile Gly Glu Gly Met Val Phe Asp Val Asn Ser Leu Tyr Pro Ala
245 250 255
Gln Met Tyr Ser Arg Leu Leu Pro Tyr Gly Glu Pro Ile Val Phe Glu
260 265 270
Gly Lys Tyr Val Trp Asp Glu Asp Tyr Pro Leu His Ile Gln His Ile
275 280 285
Arg Cys Glu Phe Glu Leu Lys Glu Gly Tyr Ile Pro Thr Ile Gln Ile
290 295 300
Lys Arg Ser Arg Phe Tyr Lys Gly Asn Glu Tyr Leu Lys Ser Ser Gly
305 310 315 320
Gly Glu Ile Ala Asp Leu Trp Leu Ser Asn Val Asp Leu Glu Leu Met
325 330 335
Lys Glu His Tyr Asp Leu Tyr Asn Val Glu Tyr Ile Ser Gly Leu Lys
340 345 350
Phe Lys Ala Thr Thr Gly Leu Phe Lys Asp Phe Ile Asp Lys Trp Thr
355 360 365
Tyr Ile Lys Thr Thr Ser Glu Gly Ala Ile Lys Gln Leu Ala Lys Leu
370 375 380
Met Leu Asn Ser Leu Tyr Gly Lys Phe Ala Ser Asn Pro Asp Val Thr
385 390 395 400
Gly Lys Val Pro Tyr Leu Lys Glu Asn Gly Ala Leu Gly Phe Arg Leu
405 410 415
Gly Glu Glu Glu Thr Lys Asp Pro Val Tyr Thr Pro Met Gly Val Phe
420 425 430
Ile Thr Ala Trp Ala Arg Tyr Thr Thr Ile Thr Ala Ala Gln Ala Cys
435 440 445
Tyr Asp Arg Ile Ile Tyr Cys Asp Thr Asp Ser Ile His Leu Thr Gly
450 455 460
Thr Glu Ile Pro Asp Val Ile Lys Asp Ile Val Asp Pro Lys Lys Leu
465 470 475 480
Gly Tyr Trp Ala His Glu Ser Thr Phe Lys Arg Ala Lys Tyr Leu Arg
485 490 495
Gln Lys Thr Tyr Ile Gln Asp Ile Tyr Met Lys Glu Val Asp Gly Lys
500 505 510
Leu Val Glu Gly Ser Pro Asp Asp Tyr Thr Asp Ile Lys Phe Ser Val
515 520 525
Lys Cys Ala Gly Met Thr Asp Lys Ile Lys Lys Glu Val Thr Phe Glu
530 535 540
Asn Phe Lys Val Gly Phe Ser Arg Lys Met Lys Pro Lys Pro Val Gln
545 550 555 560
Val Pro Gly Gly Val Val Leu Val Asp Asp Thr Phe Thr Ile Lys Ser
565 570 575
Gly Gly Ser Ala Trp Ser His Pro Gln Phe Glu Lys Gly Gly Gly Ser
580 585 590
Gly Gly Gly Ser Gly Gly Ser Ala Trp Ser His Pro Gln Phe Glu Lys
595 600 605
<210> 6
<211> 970
<212> PRT
<213> 深洋柠檬色微菌(Citromicrobium bathyomarinum)
<400> 6
Met Leu Ser Val Ala Asn Val Arg Ser Pro Ser Ala Ala Ala Ser Tyr
1 5 10 15
Phe Ala Ser Asp Asn Tyr Tyr Ala Ser Ala Asp Ala Asp Arg Ser Gly
20 25 30
Gln Trp Ile Gly Asp Gly Ala Lys Arg Leu Gly Leu Glu Gly Lys Val
35 40 45
Glu Ala Arg Ala Phe Asp Ala Leu Leu Arg Gly Glu Leu Pro Asp Gly
50 55 60
Ser Ser Val Gly Asn Pro Gly Gln Ala His Arg Pro Gly Thr Asp Leu
65 70 75 80
Thr Phe Ser Val Pro Lys Ser Trp Ser Leu Leu Ala Leu Val Gly Lys
85 90 95
Asp Glu Arg Ile Ile Ala Ala Tyr Arg Glu Ala Val Val Glu Ala Leu
100 105 110
His Trp Ala Glu Lys Asn Ala Ala Glu Thr Arg Val Val Glu Lys Gly
115 120 125
Met Val Val Thr Gln Ala Thr Gly Asn Leu Ala Ile Gly Leu Phe Gln
130 135 140
His Asp Thr Asn Arg Asn Gln Glu Pro Asn Leu His Phe His Ala Val
145 150 155 160
Ile Ala Asn Val Thr Gln Gly Lys Asp Gly Lys Trp Arg Thr Leu Lys
165 170 175
Asn Asp Arg Leu Trp Gln Leu Asn Thr Thr Leu Asn Ser Ile Ala Met
180 185 190
Ala Arg Phe Arg Val Ala Val Glu Lys Leu Gly Tyr Glu Pro Gly Pro
195 200 205
Val Leu Lys His Gly Asn Phe Glu Ala Arg Gly Ile Ser Arg Glu Gln
210 215 220
Val Met Ala Phe Ser Thr Arg Arg Lys Glu Val Leu Glu Ala Arg Arg
225 230 235 240
Gly Pro Gly Leu Asp Ala Gly Arg Ile Ala Ala Leu Asp Thr Arg Ala
245 250 255
Ser Lys Glu Gly Ile Glu Asp Arg Ala Thr Leu Ser Lys Gln Trp Ser
260 265 270
Glu Ala Ala Gln Ser Ile Gly Leu Asp Leu Lys Pro Leu Val Asp Arg
275 280 285
Ala Arg Thr Lys Ala Leu Gly Gln Gly Met Glu Ala Thr Arg Ile Gly
290 295 300
Ser Leu Val Glu Arg Gly Arg Ala Trp Leu Ser Arg Phe Ala Ala His
305 310 315 320
Val Arg Gly Asp Pro Ala Asp Pro Leu Val Pro Pro Ser Val Leu Lys
325 330 335
Gln Asp Arg Gln Thr Ile Ala Ala Ala Gln Ala Val Ala Ser Ala Val
340 345 350
Arg His Leu Ser Gln Arg Glu Ala Ala Phe Glu Arg Thr Ala Leu Tyr
355 360 365
Lys Ala Ala Leu Asp Phe Gly Leu Pro Thr Thr Ile Ala Asp Val Glu
370 375 380
Lys Arg Thr Arg Ala Leu Val Arg Ser Gly Asp Leu Ile Ala Gly Lys
385 390 395 400
Gly Glu His Lys Gly Trp Leu Ala Ser Arg Asp Ala Val Val Thr Glu
405 410 415
Gln Arg Ile Leu Ser Glu Val Ala Ala Gly Lys Gly Asp Ser Ser Pro
420 425 430
Ala Ile Thr Pro Gln Lys Ala Ala Ala Ser Val Gln Ala Ala Ala Leu
435 440 445
Thr Gly Gln Gly Phe Arg Leu Asn Glu Gly Gln Leu Ala Ala Ala Arg
450 455 460
Leu Ile Leu Ile Ser Lys Asp Arg Thr Ile Ala Val Gln Gly Ile Ala
465 470 475 480
Gly Ala Gly Lys Ser Ser Val Leu Lys Pro Val Ala Glu Val Leu Arg
485 490 495
Asp Glu Gly His Pro Val Ile Gly Leu Ala Ile Gln Asn Thr Leu Val
500 505 510
Gln Met Leu Glu Arg Asp Thr Gly Ile Gly Ser Gln Thr Leu Ala Arg
515 520 525
Phe Leu Gly Gly Trp Asn Lys Leu Leu Asp Asp Pro Gly Asn Val Ala
530 535 540
Leu Arg Ala Glu Ala Gln Ala Ser Leu Lys Asp His Val Leu Val Leu
545 550 555 560
Asp Glu Ala Ser Met Val Ser Asn Glu Asp Lys Glu Lys Leu Val Arg
565 570 575
Leu Ala Asn Leu Ala Gly Val His Arg Leu Val Leu Ile Gly Asp Arg
580 585 590
Lys Gln Leu Gly Ala Val Asp Ala Gly Lys Pro Phe Ala Leu Leu Gln
595 600 605
Arg Ala Gly Ile Ala Arg Ala Glu Met Ala Thr Asn Leu Arg Ala Arg
610 615 620
Asp Pro Val Val Arg Glu Ala Gln Ala Ala Ala Gln Ala Gly Asp Val
625 630 635 640
Arg Lys Ala Leu Arg His Leu Lys Ser His Thr Val Glu Ala Arg Gly
645 650 655
Asp Gly Ala Gln Val Ala Ala Glu Thr Trp Leu Ala Leu Asp Lys Glu
660 665 670
Thr Arg Ala Arg Thr Ser Ile Tyr Ala Ser Gly Arg Ala Ile Arg Ser
675 680 685
Ala Val Asn Ala Ala Val Gln Gln Gly Leu Leu Ala Ser Arg Glu Ile
690 695 700
Gly Pro Ala Lys Met Lys Leu Glu Val Leu Asp Arg Val Asn Thr Thr
705 710 715 720
Arg Glu Glu Leu Arg His Leu Pro Ala Tyr Arg Ala Gly Arg Val Leu
725 730 735
Glu Val Ser Arg Lys Gln Gln Ala Leu Gly Leu Phe Ile Gly Glu Tyr
740 745 750
Arg Val Ile Gly Gln Asp Arg Lys Gly Lys Leu Val Glu Val Glu Asp
755 760 765
Lys Arg Gly Lys Arg Phe Arg Phe Asp Pro Ala Arg Ile Arg Ala Gly
770 775 780
Lys Gly Asp Asp Asn Leu Thr Leu Leu Glu Pro Arg Lys Leu Glu Ile
785 790 795 800
His Glu Gly Asp Arg Ile Arg Trp Thr Arg Asn Asp His Arg Arg Gly
805 810 815
Leu Phe Asn Ala Asp Gln Ala Arg Val Val Glu Ile Ala Asn Gly Lys
820 825 830
Val Thr Phe Glu Thr Ser Lys Gly Asp Leu Val Glu Leu Lys Lys Asp
835 840 845
Asp Pro Met Leu Lys Arg Ile Asp Leu Ala Tyr Ala Leu Asn Val His
850 855 860
Met Ala Gln Gly Leu Thr Ser Asp Arg Gly Ile Ala Val Met Asp Ser
865 870 875 880
Arg Glu Arg Asn Leu Ser Asn Gln Lys Thr Phe Leu Val Thr Val Thr
885 890 895
Arg Leu Arg Asp His Leu Thr Leu Val Val Asp Ser Ala Asp Lys Leu
900 905 910
Gly Ala Ala Val Ala Arg Asn Lys Gly Glu Lys Ala Ser Ala Ile Glu
915 920 925
Val Thr Gly Ser Val Lys Pro Thr Ala Thr Lys Gly Ser Gly Val Asp
930 935 940
Gln Pro Lys Ser Val Glu Ala Asn Lys Ala Glu Lys Glu Leu Thr Arg
945 950 955 960
Ser Lys Ser Lys Thr Leu Asp Phe Gly Ile
965 970
<210> 7
<211> 760
<212> PRT
<213> 布氏拟甲烷球菌(Methanococcoides burtonii)
<400> 7
Met Met Ile Arg Glu Leu Asp Ile Pro Arg Asp Ile Ile Gly Phe Tyr
1 5 10 15
Glu Asp Ser Gly Ile Lys Glu Leu Tyr Pro Pro Gln Ala Glu Ala Ile
20 25 30
Glu Met Gly Leu Leu Glu Lys Lys Asn Leu Leu Ala Ala Ile Pro Thr
35 40 45
Ala Ser Gly Lys Thr Leu Leu Ala Glu Leu Ala Met Ile Lys Ala Ile
50 55 60
Arg Glu Gly Gly Lys Ala Leu Tyr Ile Val Pro Leu Arg Ala Leu Ala
65 70 75 80
Ser Glu Lys Phe Glu Arg Phe Lys Glu Leu Ala Pro Phe Gly Ile Lys
85 90 95
Val Gly Ile Ser Thr Gly Asp Leu Asp Ser Arg Ala Asp Trp Leu Gly
100 105 110
Val Asn Asp Ile Ile Val Ala Thr Ser Glu Lys Thr Asp Ser Leu Leu
115 120 125
Arg Asn Gly Thr Ser Trp Met Asp Glu Ile Thr Thr Val Val Val Asp
130 135 140
Glu Ile His Leu Leu Asp Ser Lys Asn Arg Gly Pro Thr Leu Glu Val
145 150 155 160
Thr Ile Thr Lys Leu Met Arg Leu Asn Pro Asp Val Gln Val Val Ala
165 170 175
Leu Ser Ala Thr Val Gly Asn Ala Arg Glu Met Ala Asp Trp Leu Gly
180 185 190
Ala Ala Leu Val Leu Ser Glu Trp Arg Pro Thr Asp Leu His Glu Gly
195 200 205
Val Leu Phe Gly Asp Ala Ile Asn Phe Pro Gly Ser Gln Lys Lys Ile
210 215 220
Asp Arg Leu Glu Lys Asp Asp Ala Val Asn Leu Val Leu Asp Thr Ile
225 230 235 240
Lys Ala Glu Gly Gln Cys Leu Val Phe Glu Ser Ser Arg Arg Asn Cys
245 250 255
Ala Gly Phe Ala Lys Thr Ala Ser Ser Lys Val Ala Lys Ile Leu Asp
260 265 270
Asn Asp Ile Met Ile Lys Leu Ala Gly Ile Ala Glu Glu Val Glu Ser
275 280 285
Thr Gly Glu Thr Asp Thr Ala Ile Val Leu Ala Asn Cys Ile Arg Lys
290 295 300
Gly Val Ala Phe His His Ala Gly Leu Asn Ser Asn His Arg Lys Leu
305 310 315 320
Val Glu Asn Gly Phe Arg Gln Asn Leu Ile Lys Val Ile Ser Ser Thr
325 330 335
Pro Thr Leu Ala Ala Gly Leu Asn Leu Pro Ala Arg Arg Val Ile Ile
340 345 350
Arg Ser Tyr Arg Arg Phe Asp Ser Asn Phe Gly Met Gln Pro Ile Pro
355 360 365
Val Leu Glu Tyr Lys Gln Met Ala Gly Arg Ala Gly Arg Pro His Leu
370 375 380
Asp Pro Tyr Gly Glu Ser Val Leu Leu Ala Lys Thr Tyr Asp Glu Phe
385 390 395 400
Ala Gln Leu Met Glu Asn Tyr Val Glu Ala Asp Ala Glu Asp Ile Trp
405 410 415
Ser Lys Leu Gly Thr Glu Asn Ala Leu Arg Thr His Val Leu Ser Thr
420 425 430
Ile Val Asn Gly Phe Ala Ser Thr Arg Gln Glu Leu Phe Asp Phe Phe
435 440 445
Gly Ala Thr Phe Phe Ala Tyr Gln Gln Asp Lys Trp Met Leu Glu Glu
450 455 460
Val Ile Asn Asp Cys Leu Glu Phe Leu Ile Asp Lys Ala Met Val Ser
465 470 475 480
Glu Thr Glu Asp Ile Glu Asp Ala Ser Lys Leu Phe Leu Arg Gly Thr
485 490 495
Arg Leu Gly Ser Leu Val Ser Met Leu Tyr Ile Asp Pro Leu Ser Gly
500 505 510
Ser Lys Ile Val Asp Gly Phe Lys Asp Ile Gly Lys Ser Thr Gly Gly
515 520 525
Asn Met Gly Ser Leu Glu Asp Asp Lys Gly Asp Asp Ile Thr Val Thr
530 535 540
Asp Met Thr Leu Leu His Leu Val Cys Ser Thr Pro Asp Met Arg Gln
545 550 555 560
Leu Tyr Leu Arg Asn Thr Asp Tyr Thr Ile Val Asn Glu Tyr Ile Val
565 570 575
Ala His Ser Asp Glu Phe His Glu Ile Pro Asp Lys Leu Lys Glu Thr
580 585 590
Asp Tyr Glu Trp Phe Met Gly Glu Val Lys Thr Ala Met Leu Leu Glu
595 600 605
Glu Trp Val Thr Glu Val Ser Ala Glu Asp Ile Thr Arg His Phe Asn
610 615 620
Val Gly Glu Gly Asp Ile His Ala Leu Ala Asp Thr Ser Glu Trp Leu
625 630 635 640
Met His Ala Ala Ala Lys Leu Ala Glu Leu Leu Gly Val Glu Tyr Ser
645 650 655
Ser His Ala Tyr Ser Leu Glu Lys Arg Ile Arg Tyr Gly Ser Gly Leu
660 665 670
Asp Leu Met Glu Leu Val Gly Ile Arg Gly Val Gly Arg Val Arg Ala
675 680 685
Arg Lys Leu Tyr Asn Ala Gly Phe Val Ser Val Ala Lys Leu Lys Gly
690 695 700
Ala Asp Ile Ser Val Leu Ser Lys Leu Val Gly Pro Lys Val Ala Tyr
705 710 715 720
Asn Ile Leu Ser Gly Ile Gly Val Arg Val Asn Asp Lys His Phe Asn
725 730 735
Ser Ala Pro Ile Ser Ser Asn Thr Leu Asp Thr Leu Leu Asp Lys Asn
740 745 750
Gln Lys Thr Phe Asn Asp Phe Gln
755 760
<210> 8
<211> 439
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> Dda解旋酶
<400> 8
Met Thr Phe Asp Asp Leu Thr Glu Gly Gln Lys Asn Ala Phe Asn Ile
1 5 10 15
Val Met Lys Ala Ile Lys Glu Lys Lys His His Val Thr Ile Asn Gly
20 25 30
Pro Ala Gly Thr Gly Lys Thr Thr Leu Thr Lys Phe Ile Ile Glu Ala
35 40 45
Leu Ile Ser Thr Gly Glu Thr Gly Ile Ile Leu Ala Ala Pro Thr His
50 55 60
Ala Ala Lys Lys Ile Leu Ser Lys Leu Ser Gly Lys Glu Ala Ser Thr
65 70 75 80
Ile His Ser Ile Leu Lys Ile Asn Pro Val Thr Tyr Glu Glu Asn Val
85 90 95
Leu Phe Glu Gln Lys Glu Val Pro Asp Leu Ala Lys Cys Arg Val Leu
100 105 110
Ile Cys Asp Glu Val Ser Met Tyr Asp Arg Lys Leu Phe Lys Ile Leu
115 120 125
Leu Ser Thr Ile Pro Pro Trp Cys Thr Ile Ile Gly Ile Gly Asp Asn
130 135 140
Lys Gln Ile Arg Pro Val Asp Pro Gly Glu Asn Thr Ala Tyr Ile Ser
145 150 155 160
Pro Phe Phe Thr His Lys Asp Phe Tyr Gln Cys Glu Leu Thr Glu Val
165 170 175
Lys Arg Ser Asn Ala Pro Ile Ile Asp Val Ala Thr Asp Val Arg Asn
180 185 190
Gly Lys Trp Ile Tyr Asp Lys Val Val Asp Gly His Gly Val Arg Gly
195 200 205
Phe Thr Gly Asp Thr Ala Leu Arg Asp Phe Met Val Asn Tyr Phe Ser
210 215 220
Ile Val Lys Ser Leu Asp Asp Leu Phe Glu Asn Arg Val Met Ala Phe
225 230 235 240
Thr Asn Lys Ser Val Asp Lys Leu Asn Ser Ile Ile Arg Lys Lys Ile
245 250 255
Phe Glu Thr Asp Lys Asp Phe Ile Val Gly Glu Ile Ile Val Met Gln
260 265 270
Glu Pro Leu Phe Lys Thr Tyr Lys Ile Asp Gly Lys Pro Val Ser Glu
275 280 285
Ile Ile Phe Asn Asn Gly Gln Leu Val Arg Ile Ile Glu Ala Glu Tyr
290 295 300
Thr Ser Thr Phe Val Lys Ala Arg Gly Val Pro Gly Glu Tyr Leu Ile
305 310 315 320
Arg His Trp Asp Leu Thr Val Glu Thr Tyr Gly Asp Asp Glu Tyr Tyr
325 330 335
Arg Glu Lys Ile Lys Ile Ile Ser Ser Asp Glu Glu Leu Tyr Lys Phe
340 345 350
Asn Leu Phe Leu Gly Lys Thr Ala Glu Thr Tyr Lys Asn Trp Asn Lys
355 360 365
Gly Gly Lys Ala Pro Trp Ser Asp Phe Trp Asp Ala Lys Ser Gln Phe
370 375 380
Ser Lys Val Lys Ala Leu Pro Ala Ser Thr Phe His Lys Ala Gln Gly
385 390 395 400
Met Ser Val Asp Arg Ala Phe Ile Tyr Thr Pro Cys Ile His Tyr Ala
405 410 415
Asp Val Glu Leu Ala Gln Gln Leu Leu Tyr Val Gly Val Thr Arg Gly
420 425 430
Arg Tyr Asp Val Phe Tyr Val
435
<210> 9
<211> 16
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 标签寡核苷酸
<400> 9
ggaacctctc tgacaa 16
<210> 10
<400> 10
000
<210> 11
<211> 84
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 多核苷酸链
<220>
<221> misc_feature
<222> (1)..(1)
<223> 5'磷酸
<220>
<221> misc_feature
<222> (30)..(31)
<223> 4iSp18
<400> 11
cgtcctgtcg ctgtgtctcg tttttttttt aatgtacttc gttcagttac gtattgctag 60
agccgagaca cagcgacagg acgt 84
<210> 12
<211> 45
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 多核苷酸链
<220>
<221> misc_feature
<222> (1)..(1)
<223> 5'磷酸
<220>
<221> misc_feature
<222> (23)..(23)
<223> 桥接核酸
<220>
<221> modified_base
<222> (24)..(24)
<223> m5c
<220>
<221> misc_feature
<222> (24)..(24)
<223> 桥接核酸
<220>
<221> misc_feature
<222> (25)..(25)
<223> 桥接核酸
<220>
<221> misc_feature
<222> (26)..(26)
<223> 桥接核酸
<220>
<221> misc_feature
<222> (27)..(27)
<223> 桥接核酸
<400> 12
gcaatacgta actgaacgaa gtacattttt gaggcgagcg gtcaa 45
<210> 13
<211> 3595
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 多核苷酸分析物
<400> 13
gccatcagat tgtgtttgtt agtcgctgcc atcagattgt gtttgttagt cgcttttttt 60
ttttggaatt ttttttttgg aatttttttt ttgcgctaac aacctcctgc cgttttgccc 120
gtgcatatcg gtcacgaaca aatctgatta ctaaacacag tagcctggat ttgttctatc 180
agtaatcgac cttattccta attaaataga gcaaatcccc ttattggggg taagacatga 240
agatgccaga aaaacatgac ctgttggccg ccattctcgc ggcaaaggaa caaggcatcg 300
gggcaatcct tgcgtttgca atggcgtacc ttcgcggcag atataatggc ggtgcgttta 360
caaaaacagt aatcgacgca acgatgtgcg ccattatcgc ctagttcatt cgtgaccttc 420
tcgacttcgc cggactaagt agcaatctcg cttatataac gagcgtgttt atcggctaca 480
tcggtactga ctcgattggt tcgcttatca aacgcttcgc tgctaaaaaa gccggagtag 540
aagatggtag aaatcaataa tcaacgtaag gcgttcctcg atatgctggc gtggtcggag 600
ggaactgata acggacgtca gaaaaccaga aatcatggtt atgacgtcat tgtaggcgga 660
gagctattta ctgattactc cgatcaccct cgcaaacttg tcacgctaaa cccaaaactc 720
aaatcaacag gcgccggacg ctaccagctt ctttcccgtt ggtgggatgc ctaccgcaag 780
cagcttggcc tgaaagactt ctctccgaaa agtcaggacg ctgtggcatt gcagcagatt 840
aaggagcgtg gcgctttacc tatgattgat cgtggtgata tccgtcaggc aatcgaccgt 900
tgcagcaata tctgggcttc actgccgggc gctggttatg gtcagttcga gcataaggct 960
gacagcctga ttgcaaaatt caaagaagcg ggcggaacgg tcagagagat tgatgtatga 1020
gcagagtcac cgcgattatc tccgctctgg ttatctgcat catcgtctgc ctgtcatggg 1080
ctgttaatca ttaccgtgat aacgccatta cctacaaagc ccagcgcgac aaaaatgcca 1140
gagaactgaa gctggcgaac gcggcaatta ctgacatgca gatgcgtcag cgtgatgttg 1200
ctgcgctcga tgcaaaatac acgaaggagt tagctgatgc taaagctgaa aatgatgctc 1260
tgcgtgatga tgttgccgct ggtcgtcgtc ggttgcacat caaagcagtc tgtcagtcag 1320
tgcgtgaagc caccaccgcc tccggcgtgg ataatgcagc ctccccccga ctggcagaca 1380
ccgctgaacg ggattatttc accctcagag agaggctgat cactatgcaa aaacaactgg 1440
aaggaaccca gaagtatatt aatgagcagt gcagatagag ttgcccatat cgatgggcaa 1500
ctcatgcaat tattgtgagc aatacacacg cgcttccagc ggagtataaa tgcctaaagt 1560
aataaaaccg agcaatccat ttacgaatgt ttgctgggtt tctgttttaa caacattttc 1620
tgcgccgcca caaattttgg ctgcatcgac agttttcttc tgcccaattc cagaaacgaa 1680
gaaatgatgg gtgatggttt cctttggtgc tactgctgcc ggtttgtttt gaacagtaaa 1740
cgtctgttga gcacatcctg taataagcag ggccagcgca gtagcgagta gcattttttt 1800
catggtgtta ttcccgatgc tttttgaagt tcgcagaatc gtatgtgtag aaaattaaac 1860
aaaccctaaa caatgagttg aaatttcata ttgttaatat ttattaatgt atgtcaggtg 1920
cgatgaatcg tcattgtatt cccggattaa ctatgtccac agccctgacg gggaacttct 1980
ctgcgggagt gtccgggaat aattaaaacg atgcacacag ggtttagcgc gtacacgtat 2040
tgcattatgc caacgccccg gtgctgacac ggaagaaacc ggacgttatg atttagcgtg 2100
gaaagatttg tgtagtgttc tgaatgctct cagtaaatag taatgaatta tcaaaggtat 2160
agtaatatct tttatgttca tggatatttg taacccatcg gaaaactcct gctttagcaa 2220
gattttccct gtattgctga aatgtgattt ctcttgattt caacctatca taggacgttt 2280
ctataagatg cgtgtttctt gagaatttaa catttacaac ctttttaagt ccttttatta 2340
acacggtgtt atcgttttct aacacgatgt gaatattatc tgtggctaga tagtaaatat 2400
aatgtgagac gttgtgacgt tttagttcag aataaaacaa ttcacagtct aaatcttttc 2460
gcacttgatc gaatatttct ttaaaaatgg caacctgagc cattggtaaa accttccatg 2520
tgatacgagg gcgcgtagtt tgcattatcg tttttatcgt ttcaatctgg tctgacctcc 2580
ttgtgttttg ttgatgattt atgtcaaata ttaggaatgt tttcacttaa tagtattggt 2640
tgcgtaacaa agtgcggtcc tgctggcatt ctggagggaa atacaaccga cagatgtatg 2700
taaggccaac gtgctcaaat cttcatacag aaagatttga agtaatattt taaccgctag 2760
atgaagagca agcgcatgga gcgacaaaat gaataaagaa caatctgctg atgatccctc 2820
cgtggatctg attcgtgtaa aaaatatgct taatagcacc atttctatga gttaccctga 2880
tgttgtaatt gcatgtatag aacataaggt gtctctggaa gcattcagag caattgaggc 2940
agcgttggtg aagcacgata ataatatgaa ggattattcc ctggtggttg actgatcacc 3000
ataactgcta atcattcaaa ctatttagtc tgtgacagag ccaacacgca gtctgtcact 3060
gtcaggaaag tggtaaaact gcaactcaat tactgcaatg ccctcgtaat taagtgaatt 3120
tacaatatcg tcctgttcgg agggaagaac gcgggatgtt cattcttcat cacttttaat 3180
tgatgtatat gctctctttt ctgacgttag tctccgacgg caggcttcaa tgacccaggc 3240
tgagaaattc ccggaccctt tttgctcaag agcgatgtta atttgttcaa tcatttggtt 3300
aggaaagcgg atgttgcggg ttgttgttct gcgggttctg ttcttcgttg acatgaggtt 3360
gccccgtatt cagtgtcgct gatttgtatt gtctgaagtt gtttttacgt taagttgatg 3420
cagatcaatt aatacgatac ctgcgtcata attgattatt tgacgtggtt tgatggcctc 3480
cacgcacgtt gtgatatgta gatgataatc attatcactt tacgggtcct ttccggtgaa 3540
aaaaaaggta ccaaaaaaaa catcgtcgtg agtagtgaac cgtaagcatg tagga 3595
<210> 14
<211> 10126
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 多核苷酸分析物
<400> 14
ggtcaggttg tggtgattgg tcgctgatgc aaaatgtttt atgtgaaacc gcctgcgggc 60
ggttttgtca tttatggagc gtgaggaatg ggtaaaggaa gcagtaaggg gcataccccg 120
cgcgaagcga aggacaacct aggagaagtc cacgcagttg ctgagtgtga tcgatgccat 180
cagcgaaggg ccgattgaag gtccggtgga tggcttaaaa agcgtgctgc tgaacagtac 240
gccggtgctg gacactgagg ggaataccaa catatccggt gtcacggtgg tgttccgggc 300
tggtgagcag gagcagactc cgccggaggg atttgaatcc tccggctccg agacggtgct 360
gggtacggaa gtgaaatatg acacgccgat cacccgcacc attacgtctg caaacatcga 420
ccgtctgcgc tttaccttcg gtgtacaggc actggtggaa accacctcaa agggtgacag 480
gaatccgtcg gaagtccgcc tgctggttca gatacaacgt aacggtggct gggtgacgga 540
aaaagacatc accattaagg gcaaaaccac ctcgcagtat ctggcctcgg tggtgatggg 600
taacctgccg ccgcgcccgt ttaatatccg gatgcgcagg atgacgccgg acagcaccac 660
agaccagctg cagaacaaaa cgctctggtc gtcatacact gaaatcatcg atgtgaaaca 720
gtgctacccg aacacggcac tggtcggcgt gcaggtggac tcggagcagt tcggcagcca 780
gcaggtgagc cgtaattatc atctgcgcgg gcgtattctg caggtgccgt cgaactataa 840
cccgcagacg cggcaataca gcggtatctg ggacggaacg tttaaaccgg catacagcaa 900
caacatggcc tggtgtctgt gggatatgct gacccatccg cgctacggca tggggaaacg 960
tcttggtgcg gcggatgtgg ataaatgggc gctgtatgtc atcggccagt actgcgacca 1020
gtcagtgccg gacggctttg gcggcacgga gccgcgcatc acctgtaatg cgtacctgac 1080
cacacagcgt aaggcgtggg atgtgctcag cgatttctgc tcggcgatgc gctgtatgcc 1140
ggtatggaac gggcagacgc tgacgttcgt gcaggaccga ccgtcggata agacgtggac 1200
ctataaccgc agtaatgtgg tgatgccgga tgatggcgcg ccgttccgct acagcttcag 1260
cgccctgaag gaccgccata atgccgttga ggtgaactgg attgacccga acaacggctg 1320
ggagacggcg acagagcttg ttgaagatac gcaggccatt gcccgttacg gtcgtaatgt 1380
tacgaagatg gatgcctttg gctgtaccag ccgggggcag gcacaccgcg ccgggctgtg 1440
gctgattaaa acagaactgc tggaaacgca gaccgtggat ttcagcgtcg gcgcagaagg 1500
gcttcgccat gtaccgggcg atgttattga aatctgcgat gatgactatg ccggtatcag 1560
caccggtggt cgtgtgctgg cggtgaacag ccagacccgg acgctgacgc tcgaccgtga 1620
aatcacgctg ccatcctccg gtaccgcgct gataagcctg gttgacggaa gtggcaatcc 1680
ggtcagcgtg gaggttcagt ccgtcaccga cggcgtgaag gtaaaagtga gccgtgttcc 1740
tgacggtgtt gctgaataca gcgtatggga gctgaagctg ccgacgctgc gccagcgact 1800
gttccgctgc gtgagtatcc gtgagaacga cgacggcacg tatgccatca ccgccgtgca 1860
gcatgtgccg gaaaaagagg ccatcgtgga taacggggcg cactttgacg gcgaacagag 1920
tggcacggtg aatggtgtca cgccgccagc ggtgcagcac ctgaccgcag aagtcactgc 1980
agacagcggg gaatatcagg tgctggcgcg atgggacaca ccgaaggtgg tgaagggcgt 2040
gagtttcctg ctccgtctga ccgtaacagc ggacgacggc agtgagcggc tggtcagcac 2100
ggcccggacg acggaaacca cataccgctt cacgcaactg gcgctgggga actacaggct 2160
gacagtccgg gcggtaaatg cgtgggggca gcagggcgat ccggcgtcgg tatcgttccg 2220
gattgccgca ccggcagcac cgtcgaggat tgagctgacg ccgggctatt ttcagataac 2280
cgccacgccg catcttgccg tttatgaccc gacggtacag tttgagttct ggttctcgga 2340
aaagcagatt gcggatatca gacaggttga aaccagcacg cgttatcttg gtacggcgct 2400
gtactggata gccgccagta tcaatatcaa accgggccat gattattact tttatatccg 2460
cagtgtgaac accgttggca aatcggcatt cgtggaggcc gtcggtcggg cgagcgatga 2520
tgcggaaggt tacctggatt ttttcaaagg caagataacc gaatcccatc tcggcaagga 2580
gctgctggaa aaagtcgagc tgacggagga taacgccagc agactggagg agttttcgaa 2640
agagtggaag gatgccagtg ataagtggaa tgccatgtgg gctgtcaaaa ttgagcagac 2700
caaagacggc aaacattatg tcgcgggtat tggcctcagc atggaggaca cggaggaagg 2760
caaactgagc cagtttctgg ttgccgccaa tcgtatcgca tttattgacc cggcaaacgg 2820
gaatgaaacg ccgatgtttg tggcgcaggg caaccagata ttcatgaacg acgtgttcct 2880
gaagcgcctg acggccccca ccattaccag cggcggcaat cctccggcct tttccctgac 2940
accggacgga aagctgaccg ctaaaaatgc ggatatcagt ggcagtgtga atgcgaactc 3000
cgggacgctc agtaatgtga cgatagctga aaactgtacg ataaacggta cgctgagggc 3060
ggaaaaaatc gtcggggaca ttgtaaaggc ggcgagcgcg gcttttccgc gccagcgtga 3120
aagcagtgtg gactggccgt caggtacccg tactgtcacc gtgaccgatg accatccttt 3180
tgatcgccag atagtggtgc ttccgctgac gtttcgcgga agtaagcgta ctgtcagcgg 3240
caggacaacg tattcgatgt gttatctgaa agtactgatg aacggtgcgg tgatttatga 3300
tggcgcggcg aacgaggcgg tacaggtgtt ctcccgtatt gttgacatgc cagcgggtcg 3360
gggaaacgtg atcctgacgt tcacgcttac gtccacacgg cattcggcag atattccgcc 3420
gtatacgttt gccagcgatg tgcaggttat ggtgattaag aaacaggcgc tgggcatcag 3480
cgtggtctga gtgtgttaca gaggttcgtc cgggaacggg cgttttatta taaaacagtg 3540
agaggtgaac gatgcgtaat gtgtgtattg ccgttgctgt ctttgccgca cttgcggtga 3600
cagtcactcc ggcccgtgcg gaaggtggac atggtacgtt tacggtgggc tattttcaag 3660
tgaaaccggg tacattgccg tcgttgtcgg gcggggatac cggtgtgagt catctgaaag 3720
ggattaacgt gaagtaccgt tatgagctga cggacagtgt gggggtgatg gcttccctgg 3780
ggttcgccgc gtcgaaaaag agcagcacag tgatgaccgg ggaggatacg tttcactatg 3840
agagcctgcg tggacgttat gtgagcgtga tggccggacc ggttttacaa atcagtaagc 3900
aggtcagtgc gtacgccatg gccggagtgg ctcacagtcg gtggtccggc agtacaatgg 3960
attaccgtaa gacggaaatc actcccgggt atatgaaaga gacgaccact gccagggacg 4020
aaagtgcaat gcggcatacc tcagtggcgt ggagtgcagg tatacagatt aatccggcag 4080
cgtccgtcgt tgttgatatt gcttatgaag gctccggcag tggcgactgg cgtactgacg 4140
gattcatcgt tggggtcggt tataaattct gattagccag gtaacacagt gttatgacag 4200
cccgccggaa ccggtgggct tttttgtggg gtgaatatgg cagtaaagat ttcaggagtc 4260
ctgaaagacg gcacaggaaa accggtacag aactgcacca ttcagctgaa agccagacgt 4320
aacagcacca cggtggtggt gaacacggtg ggctcagaga atccggatga agccgggcgt 4380
tacagcatgg atgtggagta cggtcagtac agtgtcatcc tgcaggttga cggttttcca 4440
ccatcgcacg ccgggaccat caccgtgtat gaagattcac aaccggggac gctgaatgat 4500
tttctctgtg ccatgacgga ggatgatgcc cggccggagg tgctgcgtcg tcttgaactg 4560
atggtggaag aggtggcgcg taacgcgtcc gtggtggcac agagtacggc agacgcgaag 4620
aaatcagccg gcgatgccag tgcatcagct gctcaggtcg cggcccttgt gactgatgca 4680
actgactcag cacgcgccgc cagcacgtcc gccggacagg ctgcatcgtc agctcaggaa 4740
gcgtcctccg gcgcagaagc ggcatcagca aaggccactg aagcggaaaa aagtgccgca 4800
gccgcagagt cctcaaaaaa cgcggcggcc accagtgccg gtgcggcgaa aacgtcagaa 4860
acgaatgctg cagcgtcaca acaatcagcc gccacgtctg cctccaccgc ggccacgaaa 4920
gcgtcagagg ccgccacttc agcacgagat gcggtggcct caaaagaggc agcaaaatca 4980
tcagaaacga acgcatcatc aagtgccggt cgtgcagctt cctcggcaac ggcggcagaa 5040
aattctgcca gggcggcaaa aacgtccgag acgaatgcca ggtcatctga aacagcagcg 5100
gaacggagcg cctctgccgc ggcagacgca aaaacagcgg cggcggggag tgcgtcaacg 5160
gcatccacga aggcgacaga ggctgcggga agtgcggtat cagcatcgca gagcaaaagt 5220
gcggcagaag cggcggcaat acgtgcaaaa aattcggcaa aacgtgcaga agatatagct 5280
tcagctgtcg cgcttgagga tgcggacaca acgagaaagg ggatagtgca gctcagcagt 5340
gcaaccaaca gcacgtctga aacgcttgct gcaacgccaa aggcggttaa ggtggtaatg 5400
gatgaaacga acagaaaagc ccactggaca gtccggcact gaccggaacg ccaacagcac 5460
caaccgcgct caggggaaca aacaataccc agattgcgaa caccgctttt gtactggccg 5520
cgattgcaga tgttatcgac gcgtcacctg acgcactgaa tacgctgaat gaactggccg 5580
cagcgctcgg gaatgatcca gattttgcta ccaccatgac taacgcgctt gcgggtaaac 5640
aaccgaagaa tgcgacactg acggcgctgg cagggctttc cacggcgaaa aataaattac 5700
cgtattttgc ggaaaatgat gccgccagcc tgactgaact gactcaggtt ggcagggata 5760
ttctggcaaa aaattccgtt gcagatgttc ttgaatacct tggggccggt gagaattcgg 5820
cctttccggc aggtgcgccg atcccgtggc catcagatat cgttccgtct ggctacgtcc 5880
tgatgcaggg gcaggcgttt gacaaatcag cctacccaaa acttgctgtc gcgtatccat 5940
cgggtgtgct tcctgatatg cgaggctgga caatcaaggg gaaacccgcc agcggtcgtg 6000
ctgtattgtc tcaggaacag gatggaatta agtcgcacac ccacagtgcc agtgcatccg 6060
gtacggattt ggggacgaaa accacatcgt cgtttgatta cgggacgaaa acaacaggca 6120
gtttcgatta cggcaccaaa tcgacgaata acacgggggc tcatgctcac agtctgagcg 6180
gttcaacagg ggccgcgggt gctcatgccc acacaagtgg tttaaggatg aacagttctg 6240
gctggagtca gtatggaaca gcaaccatta caggaagttt atccacagtt aaaggaacca 6300
gcacacaggg tattgcttat ttatcgaaaa cggacagtca gggcagccac agtcactcat 6360
tgtccggtac agccgtgagt gccggtgcac atgcgcatac agttggtatt ggtgcgcacc 6420
agcatccggt tgttatcggt gctcatgccc attctttcag tattggttca cacggacaca 6480
ccatcaccgt taacgctgcg ggtaacgcgg aaaacaccgt caaaaacatt gcatttaact 6540
atattgtgag gcttgcataa tggcattcag aatgagtgaa caaccacgga ccataaaaat 6600
ttataatctg ctggccggaa ctaatgaatt tattggtgaa ggtgacgcat atattccgcc 6660
tcataccggt ctgcctgcaa acagtaccga tattgcaccg ccagatattc cggctggctt 6720
tgtggctgtt ttcaacagtg atgaggcatc gtggcatctc gttgaagacc atcggggtaa 6780
aaccgtctat gacgtggctt ccggcgacgc gttatttatt tctgaactcg gtccgttacc 6840
ggaaaatttt acctggttat cgccgggagg ggaatatcag aagtggaacg gcacagcctg 6900
ggtgaaggat acggaagcag aaaaactgtt ccggatccgg gaggcggaag aaacaaaaaa 6960
aagcctgatg caggtagcca gtgagcatat tgcgccgctt caggatgctg cagatctgga 7020
aattgcaacg aaggaagaaa cctcgttgct ggaagcctgg aagaagtatc gggtgttgct 7080
gaaccgtgtt gatacatcaa ctgcacctga tattgagtgg cctgctgtcc ctgttatgga 7140
gtaatcgttt tgtgatatgc cgcagaaacg ttgtatgaaa taacgttctg cggttagtta 7200
gtatattgta aagctgagta ttggtttatt tggcgattat tatcttcagg agaataatgg 7260
aagttctatg actcaattgt tcatagtgtt tacatcaccg ccaattgctt ttaagactga 7320
acgcatgaaa tatggttttt cgtcatgttt tgagtctgct gttgatattt ctaaagtcgg 7380
ttttttttct tcgttttctc taactatttt ccatgaaata catttttgat tattatttga 7440
atcaattcca attacctgaa gtctttcatc tataattggc attgtatgta ttggtttatt 7500
ggagtagatg cttgcttttc tgagccatag ctctgatatc caaatgaagc cataggcatt 7560
tgttattttg gctctgtcag ctgcataacg ccaaaaaata tatttatctg cttgatcttc 7620
aaatgttgta ttgattaaat caattggatg gaattgttta tcataaaaaa ttaatgtttg 7680
aatgtgataa ccgtccttta aaaaagtcgt ttctgcaagc ttggctgtat agtcaactaa 7740
ctcttctgtc gaagtgatat ttttaggctt atctaccagt tttagacgct ctttaatatc 7800
ttcaggaatt attttattgt catattgtat catgctaaat gacaatttgc ttatggagta 7860
atcttttaat tttaaataag ttattctcct ggcttcatca aataaagagt cgaatgatgt 7920
tggcgaaatc acatcgtcac ccattggatt gtttatttgt atgccaagag agttacagca 7980
gttatacatt ctgccataga ttatagctaa ggcatgtaat aattcgtaat cttttagcgt 8040
attagcgacc catcgtcttt ctgatttaat aatagatgat tcagttaaat atgaaggtaa 8100
tttcttttgt gcaagtctga ctaacttttt tataccaatg tttaacatac tttcatttgt 8160
aataaactca atgtcatttt cttcaatgta agatgaaata agagtagcct ttgcctcgct 8220
atacatttct aaatcgcctt gtttttctat cgtattgcga gaatttttag cccaagccat 8280
taatggatca tttttccatt tttcaataac attattgtta taccaaatgt catatcctat 8340
aatctggttt ttgttttttt gaataataaa tgttactgtt cttgcggttt ggaggaattg 8400
attcaaattc aagcgaaata attcagggtc aaaatatgta tcaatgcagc atttgagcaa 8460
gtgcgataaa tctttaagtc ttctttccca tggtttttta gtcataaaac tctccatttt 8520
gataggttgc atgctagatg ctgatatatt ttagaggtga taaaattaac tgcttaactg 8580
tcaatgtaat acaagttgtt tgatctttgc aatgattctt atcagaaacc atatagtaaa 8640
ttagttacac aggaaatttt taatattatt attatcattc attatgtatt aaaattagag 8700
ttgtggcttg gctctgctaa cacgttgctc ataggagata tggtagagcc gcagacacgt 8760
cgtatgcagg aacgtgctgc ggctggctgg tgaacttccg atagtgcggg tgttgaatga 8820
tttccagttg ctaccgattt tacatatttt ttgcatgaga gaatttgtac cacctcccac 8880
cgaccatcta tgactgtacg ccactgtccc taggactgct atgtgccgga gcggacatta 8940
caaacgtcct tctcggtgca tgccactgtt gccaatgacc tgcctaggaa ttggttagca 9000
agttactacc ggattttgta aaaacagccc tcctcatata aaaagtattc gttcacttcc 9060
gataagcgtc gtaattttct atctttcatc atattctaga tccctctgaa aaaatcttcc 9120
gagtttgcta ggcactgata cataactctt ttccaataat tggggaagtc attcaaatct 9180
ataataggtt tcagatttgc ttcaataaat tctgactgta gctgctgaaa cgttgcggtt 9240
gaactatatt tccttataac ttttacgaaa gagtttcttt gagtaatcac ttcactcaag 9300
tgcttccctg cctccaaacg atacctgtta gcaatattta atagcttgaa atgatgaaga 9360
gctctgtgtt tgtcttcctg cctccagttc gccgggcatt caacataaaa actgatagca 9420
cccggagttc cggaaacgaa atttgcatat acccattgct cacgaaaaaa aatgtccttg 9480
tcgatatagg gatgaatcgc ttggtgtacc tcatctactg cgaaaacttg acctttctct 9540
cccatattgc agtcgcggca cgatggaact aaattaatag gcatcaccga aaattcagga 9600
taatgtgcaa taggaagaaa atgatctata ttttttgtct gtcctatatc accacaaaat 9660
ggacattttt cacctgatga aacaagcatg tcatcgtaat atgttctagc gggtttgttt 9720
ttatctcgga gattattttc ataaagcttt tctaatttaa cctttgtcag gttaccaact 9780
actaaggttg taggctcaag agggtgtgtc ctgtcgtagg taaataactg acctgtcgag 9840
cttaatattc tatattgttg ttctttctgc aaaaaagtgg ggaagtgagt aatgaaatta 9900
tttctaacat ttatctgcat cataccttcc gagcatttat taagcatttc gctataagtt 9960
ctcgctggaa gaggtagttt tttcattgta ctttaccttc atctctgttc attatcatcg 10020
cttttaaaac ggttcgacct tctaatccta tctgaccatt ataatttttt agaatggttt 10080
cataagaaag ctctgaatca acggactgcg ataataagtg gtagga 10126
<210> 15
<211> 41
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 多核苷酸衔接子
<400> 15
ggttaaacac ccaagcagac gcctttgagg cgagcggtca a 41
<210> 16
<211> 44
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 多核苷酸衔接子
<220>
<221> misc_feature
<222> (1)..(1)
<223> 20iSpC3
<220>
<221> misc_feature
<222> (10)..(11)
<223> 10iSpC3
<400> 16
tttttttttt tttttttttt ggcgtctgct tgggtgttta acct 44
<210> 17
<400> 17
000
<210> 18
<400> 18
000
<210> 19
<400> 19
000
<210> 20
<211> 3595
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 噬菌体λ片段
<400> 20
gccatcagat tgtgtttgtt agtcgctgcc atcagattgt gtttgttagt cgcttttttt 60
ttttggaatt ttttttttgg aatttttttt ttgcgctaac aacctcctgc cgttttgccc 120
gtgcatatcg gtcacgaaca aatctgatta ctaaacacag tagcctggat ttgttctatc 180
agtaatcgac cttattccta attaaataga gcaaatcccc ttattggggg taagacatga 240
agatgccaga aaaacatgac ctgttggccg ccattctcgc ggcaaaggaa caaggcatcg 300
gggcaatcct tgcgtttgca atggcgtacc ttcgcggcag atataatggc ggtgcgttta 360
caaaaacagt aatcgacgca acgatgtgcg ccattatcgc ctagttcatt cgtgaccttc 420
tcgacttcgc cggactaagt agcaatctcg cttatataac gagcgtgttt atcggctaca 480
tcggtactga ctcgattggt tcgcttatca aacgcttcgc tgctaaaaaa gccggagtag 540
aagatggtag aaatcaataa tcaacgtaag gcgttcctcg atatgctggc gtggtcggag 600
ggaactgata acggacgtca gaaaaccaga aatcatggtt atgacgtcat tgtaggcgga 660
gagctattta ctgattactc cgatcaccct cgcaaacttg tcacgctaaa cccaaaactc 720
aaatcaacag gcgccggacg ctaccagctt ctttcccgtt ggtgggatgc ctaccgcaag 780
cagcttggcc tgaaagactt ctctccgaaa agtcaggacg ctgtggcatt gcagcagatt 840
aaggagcgtg gcgctttacc tatgattgat cgtggtgata tccgtcaggc aatcgaccgt 900
tgcagcaata tctgggcttc actgccgggc gctggttatg gtcagttcga gcataaggct 960
gacagcctga ttgcaaaatt caaagaagcg ggcggaacgg tcagagagat tgatgtatga 1020
gcagagtcac cgcgattatc tccgctctgg ttatctgcat catcgtctgc ctgtcatggg 1080
ctgttaatca ttaccgtgat aacgccatta cctacaaagc ccagcgcgac aaaaatgcca 1140
gagaactgaa gctggcgaac gcggcaatta ctgacatgca gatgcgtcag cgtgatgttg 1200
ctgcgctcga tgcaaaatac acgaaggagt tagctgatgc taaagctgaa aatgatgctc 1260
tgcgtgatga tgttgccgct ggtcgtcgtc ggttgcacat caaagcagtc tgtcagtcag 1320
tgcgtgaagc caccaccgcc tccggcgtgg ataatgcagc ctccccccga ctggcagaca 1380
ccgctgaacg ggattatttc accctcagag agaggctgat cactatgcaa aaacaactgg 1440
aaggaaccca gaagtatatt aatgagcagt gcagatagag ttgcccatat cgatgggcaa 1500
ctcatgcaat tattgtgagc aatacacacg cgcttccagc ggagtataaa tgcctaaagt 1560
aataaaaccg agcaatccat ttacgaatgt ttgctgggtt tctgttttaa caacattttc 1620
tgcgccgcca caaattttgg ctgcatcgac agttttcttc tgcccaattc cagaaacgaa 1680
gaaatgatgg gtgatggttt cctttggtgc tactgctgcc ggtttgtttt gaacagtaaa 1740
cgtctgttga gcacatcctg taataagcag ggccagcgca gtagcgagta gcattttttt 1800
catggtgtta ttcccgatgc tttttgaagt tcgcagaatc gtatgtgtag aaaattaaac 1860
aaaccctaaa caatgagttg aaatttcata ttgttaatat ttattaatgt atgtcaggtg 1920
cgatgaatcg tcattgtatt cccggattaa ctatgtccac agccctgacg gggaacttct 1980
ctgcgggagt gtccgggaat aattaaaacg atgcacacag ggtttagcgc gtacacgtat 2040
tgcattatgc caacgccccg gtgctgacac ggaagaaacc ggacgttatg atttagcgtg 2100
gaaagatttg tgtagtgttc tgaatgctct cagtaaatag taatgaatta tcaaaggtat 2160
agtaatatct tttatgttca tggatatttg taacccatcg gaaaactcct gctttagcaa 2220
gattttccct gtattgctga aatgtgattt ctcttgattt caacctatca taggacgttt 2280
ctataagatg cgtgtttctt gagaatttaa catttacaac ctttttaagt ccttttatta 2340
acacggtgtt atcgttttct aacacgatgt gaatattatc tgtggctaga tagtaaatat 2400
aatgtgagac gttgtgacgt tttagttcag aataaaacaa ttcacagtct aaatcttttc 2460
gcacttgatc gaatatttct ttaaaaatgg caacctgagc cattggtaaa accttccatg 2520
tgatacgagg gcgcgtagtt tgcattatcg tttttatcgt ttcaatctgg tctgacctcc 2580
ttgtgttttg ttgatgattt atgtcaaata ttaggaatgt tttcacttaa tagtattggt 2640
tgcgtaacaa agtgcggtcc tgctggcatt ctggagggaa atacaaccga cagatgtatg 2700
taaggccaac gtgctcaaat cttcatacag aaagatttga agtaatattt taaccgctag 2760
atgaagagca agcgcatgga gcgacaaaat gaataaagaa caatctgctg atgatccctc 2820
cgtggatctg attcgtgtaa aaaatatgct taatagcacc atttctatga gttaccctga 2880
tgttgtaatt gcatgtatag aacataaggt gtctctggaa gcattcagag caattgaggc 2940
agcgttggtg aagcacgata ataatatgaa ggattattcc ctggtggttg actgatcacc 3000
ataactgcta atcattcaaa ctatttagtc tgtgacagag ccaacacgca gtctgtcact 3060
gtcaggaaag tggtaaaact gcaactcaat tactgcaatg ccctcgtaat taagtgaatt 3120
tacaatatcg tcctgttcgg agggaagaac gcgggatgtt cattcttcat cacttttaat 3180
tgatgtatat gctctctttt ctgacgttag tctccgacgg caggcttcaa tgacccaggc 3240
tgagaaattc ccggaccctt tttgctcaag agcgatgtta atttgttcaa tcatttggtt 3300
aggaaagcgg atgttgcggg ttgttgttct gcgggttctg ttcttcgttg acatgaggtt 3360
gccccgtatt cagtgtcgct gatttgtatt gtctgaagtt gtttttacgt taagttgatg 3420
cagatcaatt aatacgatac ctgcgtcata attgattatt tgacgtggtt tgatggcctc 3480
cacgcacgtt gtgatatgta gatgataatc attatcactt tacgggtcct ttccggtgaa 3540
aaaaaaggta ccaaaaaaaa catcgtcgtg agtagtgaac cgtaagcatg tagga 3595
<210> 21
<211> 38
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 寡核苷酸
<220>
<221> misc_feature
<222> (1)..(1)
<223> 5'生物素,通过TEG连接子
<220>
<221> misc_feature
<222> (10)..(11)
<223> iSp18
<400> 21
tttttttttt aatgtacttc gttcagttac gtattgct 38
<210> 22
<211> 65
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 寡核苷酸
<220>
<221> misc_feature
<222> (1)..(1)
<223> 5'磷酸
<220>
<221> misc_feature
<222> (23)..(23)
<223> 桥接核酸
<220>
<221> modified_base
<222> (24)..(24)
<223> m5c
<220>
<221> misc_feature
<222> (24)..(24)
<223> 桥接核酸
<220>
<221> misc_feature
<222> (25)..(25)
<223> 桥接核酸
<220>
<221> misc_feature
<222> (26)..(26)
<223> 桥接核酸
<220>
<221> misc_feature
<222> (27)..(27)
<223> 桥接核酸
<400> 22
gcaatacgta actgaacgaa gtacattttt gaggcgagcg gtcaattttt tttttttttt 60
ttttt 65
<210> 23
<400> 23
000
<210> 24
<211> 91
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 发夹寡核苷酸
<220>
<221> misc_feature
<222> (1)..(1)
<223> 5'磷酸
<400> 24
tgcaatacgt aactgaacga agtacatttt tttgaagata gagcgatttt tttttttttt 60
ttgtacttcg ttcagttacg tattgcatcc t 91
<210> 25
<211> 88
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 发夹寡核苷酸
<220>
<221> misc_feature
<222> (1)..(1)
<223> 5'磷酸
<400> 25
tgcaatacgt aactgaacga agtacatttt tttgaagata gagcgatttt tttttttttt 60
ttgtacttcg ttcagttacg tattgcat 88
<210> 26
<211> 92
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 发夹寡核苷酸
<220>
<221> misc_feature
<222> (1)..(1)
<223> 5'磷酸
<220>
<221> misc_feature
<222> (52)..(52)
<223> 5'荧光素
<220>
<221> misc_feature
<222> (53)..(53)
<223> 5'荧光素
<220>
<221> misc_feature
<222> (54)..(54)
<223> 5'荧光素
<400> 26
tgcaatacgt aactgaacga agtacatttt tttgaagata gagcgatttt tttttttttt 60
tttgtacttc gttcagttac gtattgcatc ct 92
<210> 27
<211> 13
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 寡核苷酸
<220>
<221> misc_feature
<222> (1)..(1)
<223> 桥接核酸
<220>
<221> modified_base
<222> (2)..(2)
<223> m5c
<220>
<221> misc_feature
<222> (2)..(2)
<223> 桥接核酸
<220>
<221> misc_feature
<222> (3)..(3)
<223> 桥接核酸
<220>
<221> modified_base
<222> (4)..(4)
<223> m5c
<220>
<221> misc_feature
<222> (4)..(4)
<223> 桥接核酸
<220>
<221> misc_feature
<222> (5)..(5)
<223> 桥接核酸
<400> 27
tcgctctatc ttc 13
<210> 28
<211> 89
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> Y衔接子寡核苷酸
<220>
<221> misc_feature
<222> (35)..(36)
<223> iSp18
<400> 28
gttattcaag acttctttaa tacacttttt tttttaatgt acttcgttca gttacgtatt 60
gctttggcgt ctgcttgggt gtttaacct 89
<210> 29
<400> 29
000
<210> 30
<211> 27
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> Y衔接子寡核苷酸
<220>
<221> misc_feature
<222> (23)..(23)
<223> 桥接核酸
<220>
<221> modified_base
<222> (24)..(24)
<223> m5c
<220>
<221> misc_feature
<222> (24)..(24)
<223> 桥接核酸
<220>
<221> misc_feature
<222> (25)..(25)
<223> 桥接核酸
<220>
<221> misc_feature
<222> (26)..(26)
<223> 桥接核酸
<220>
<221> misc_feature
<222> (27)..(27)
<223> 桥接核酸
<400> 30
gcaatacgta actgaacgaa gtacatt 27
<210> 31
<400> 31
000
<210> 32
<211> 25
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> Y衔接子寡核苷酸
<400> 32
gtgtattaaa gaagtcttga ataac 25
<210> 33
<211> 41
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> Y衔接子寡核苷酸
<220>
<221> misc_feature
<222> (1)..(1)
<223> 5'磷酸
<220>
<221> misc_feature
<222> (41)..(41)
<223> 30iSpC3
<400> 33
ggttaaacac ccaagcagac gcctttgagg cgagcggtca a 41
<210> 34
<211> 89
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> Y衔接子寡核苷酸
<220>
<221> misc_feature
<222> (36)..(37)
<223> iSp9
<400> 34
gttattcaag acttctttaa tacacttttt tttttaatgt acttcgttca gttacgtatt 60
gctttggcgt ctgcttgggt gtttaacct 89
<210> 35
<211> 21
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> Y衔接子寡核苷酸
<220>
<221> misc_feature
<222> (1)..(1)
<223> 5'磷酸
<220>
<221> misc_feature
<222> (21)..(21)
<223> 30iSpC3
<400> 35
aacacccaag cagacgcctt t 21
<210> 36
<211> 30
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> Y衔接子寡核苷酸
<220>
<221> misc_feature
<222> (26)..(26)
<223> 桥接核酸
<220>
<221> modified_base
<222> (27)..(27)
<223> m5c
<220>
<221> misc_feature
<222> (27)..(27)
<223> 桥接核酸
<220>
<221> misc_feature
<222> (28)..(28)
<223> 桥接核酸
<220>
<221> misc_feature
<222> (29)..(29)
<223> 桥接核酸
<220>
<221> misc_feature
<222> (30)..(30)
<223> 桥接核酸
<400> 36
tttgcaatac gtaactgaac gaagtacatt 30
<210> 37
<211> 37
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> Y衔接子寡核苷酸
<220>
<221> misc_feature
<222> (26)..(27)
<223> 3iSpC3
<220>
<221> misc_feature
<222> (37)..(37)
<223> 3'双脱氧胞苷
<400> 37
gtgtattaaa gaagtcttga ataacgaggc gagcggt 37
<210> 38
<211> 50
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 转座酶衔接子寡核苷酸
<220>
<221> misc_feature
<222> (1)..(1)
<223> 5'磷酸
<400> 38
gttttcgcat ttatcgtgaa acgctttcgc gtttttcgtg cgccgcttca 50
<210> 39
<211> 61
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 转座酶衔接子寡核苷酸
<220>
<221> misc_feature
<222> (1)..(1)
<223> 5'磷酸
<220>
<221> misc_feature
<222> (1)..(5)
<223> n是肌苷
<400> 39
nnnnntgaag cggcgcacga aaaacgcgaa agcgtttcac gataaatgcg aaaacaggtt 60
a 61
<210> 40
<211> 84
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 发夹衔接子寡核苷酸
<220>
<221> misc_feature
<222> (1)..(1)
<223> 5'磷酸
<220>
<221> misc_feature
<222> (20)..(21)
<223> 10iSpC3
<220>
<221> misc_feature
<222> (30)..(31)
<223> iSp18
<400> 40
cgtcctgtcg ctgtgtctcg tttttttttt aatgtacttc gttcagttac gtattgctag 60
agccgagaca cagcgacagg acgt 84
<210> 41
<211> 27
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 发夹衔接子寡核苷酸
<220>
<221> misc_feature
<222> (23)..(23)
<223> 桥接核酸
<220>
<221> modified_base
<222> (24)..(24)
<223> m5c
<220>
<221> misc_feature
<222> (24)..(24)
<223> 桥接核酸
<220>
<221> misc_feature
<222> (25)..(25)
<223> 桥接核酸
<220>
<221> misc_feature
<222> (26)..(26)
<223> 桥接核酸
<220>
<221> misc_feature
<222> (27)..(27)
<223> 桥接核酸
<400> 41
gcaatacgta actgaacgaa gtacatt 27
<210> 42
<211> 61
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 前导序列衔接子寡核苷酸
<220>
<221> misc_feature
<222> (1)..(1)
<223> 30iSpC3
<220>
<221> misc_feature
<222> (33)..(34)
<223> iSp18
<220>
<221> misc_feature
<222> (61)..(61)
<223> 用叠氮己酸标记的3'氨基C7
<400> 42
ctacatctcc ttattcgctg cacttttttt tttcctgtac ttcgttcagt tacgtattgc 60
t 61
<210> 43
<211> 41
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 前导序列衔接子寡核苷酸
<400> 43
gtgcagcgaa taaggagatg tagtttgagg cgagcggtca a 41
<210> 44
<211> 45
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 前导序列衔接子寡核苷酸
<220>
<221> modified_base
<222> (36)..(36)
<223> gm
<220>
<221> misc_feature
<222> (37)..(37)
<223> 2-O-甲基腺苷
<220>
<221> misc_feature
<222> (38)..(38)
<223> 2-O-甲基腺苷
<220>
<221> modified_base
<222> (39)..(39)
<223> gm
<220>
<221> modified_base
<222> (40)..(40)
<223> um
<220>
<221> misc_feature
<222> (41)..(41)
<223> 2-O-甲基腺苷
<220>
<221> modified_base
<222> (42)..(42)
<223> cm
<220>
<221> misc_feature
<222> (43)..(43)
<223> 2-O-甲基腺苷
<220>
<221> modified_base
<222> (44)..(44)
<223> gm
<220>
<221> modified_base
<222> (45)..(45)
<223> gm
<400> 44
ggttaaacac ccaagcaagc aatacgtaac tgaacgaagu acagg 45
<210> 45
<211> 30
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 前导序列衔接子寡核苷酸
<400> 45
gcaatacgta actgaacgaa gtacaggttt 30
<210> 46
<211> 26
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 前导序列衔接子寡核苷酸
<220>
<221> misc_feature
<222> (1)..(1)
<223> 5'磷酸
<220>
<221> misc_feature
<222> (26)..(26)
<223> 30iSpC3
<400> 46
ggttaaacac ccaagcagac gccttt 26
<210> 47
<211> 50
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 转座酶衔接子寡核苷酸
<220>
<221> misc_feature
<222> (1)..(1)
<223> 5'磷酸
<400> 47
gttttcgcat ttatcgtgaa acgctttcgc gtttttcgtg cgccgcttca 50

Claims (50)

1.一种表征样品中的多核苷酸的方法,所述方法包括:
(i)使检测器与多核苷酸接触;
(ii a)当所述多核苷酸的第一部分在所施加的力下相对于所述检测器自由移动时进行测量;
(iib)评估所述多核苷酸的所述第一部分的一个或多个性质;
(iii)(a)在所述多核苷酸的所述第一部分具有一个或多个期望的性质的情况下,控制所述多核苷酸的第二部分相对于所述检测器的移动,并且当所述多核苷酸的所述第二部分相对于所述检测器移动时进行测量以确定所述多核苷酸的一个或多个特性,由此表征所述多核苷酸;或(b)在所述多核苷酸的所述第一部分不具有一个或多个期望的性质的情况下,拒绝所述多核苷酸。
2.根据权利要求1所述的方法,其中在所述多核苷酸的所述第一部分不具有一个或多个期望的性质的情况下,步骤(iii)(b)包括将所述多核苷酸从所述检测器中排出。
3.根据权利要求1或权利要求2所述的方法,其中当所述多核苷酸的所述第一部分不具有一个或多个期望的性质时,步骤(iii)包括用来自所述样品的另外的多核苷酸重复步骤(i)、(iia)和(iib)直到鉴定出其中第一部分具有一个或多个期望的性质的多核苷酸为止。
4.根据前述权利要求中任一项所述的方法,其中所述一个或多个期望的性质选自所述多核苷酸的所述第一部分的大致长度、所述多核苷酸的所述第一部分的结构以及所述多核苷酸的所述第一部分的组成。
5.根据前述权利要求中任一项所述的方法,其中评估所述多核苷酸的所述一个或多个性质包括确定所述多核苷酸的所述第一部分的大致长度。
6.根据权利要求5所述的方法,其中确定所述多核苷酸的所述第一部分的大致长度包括确定所述多核苷酸的所述第一部分相对于所述检测器自由移动所花费的时间。
7.根据前述权利要求中任一项所述的方法,其中所述检测器是纳米孔;优选地其中所述检测器是跨膜蛋白纳米孔。
8.根据权利要求8所述的方法,其中步骤(iia)包括允许所述多核苷酸的所述第一部分在所施加的电势下自由易位通过或穿过所述纳米孔。
9.根据权利要求7或权利要求8所述的方法,其中确定所述多核苷酸的所述第一部分的大致长度包括确定所述多核苷酸的所述第一部分易位通过或穿过所述纳米孔所花费的时间。
10.根据权利要求7至9中任一项所述的方法,其中在所述多核苷酸的所述第一部分具有一个或多个期望的性质的情况下,步骤(iii)(a)包括控制所述多核苷酸的第二部分通过或穿过所述纳米孔的移动并且当所述多核苷酸的所述第二部分相对于所述纳米孔移动时进行测量以确定所述多核苷酸的一个或多个特性。
11.根据前述权利要求中任一项所述的方法,其中在步骤(iii)(a)中,使用多核苷酸结合蛋白控制所述多核苷酸的所述第二部分的所述移动。
12.根据前述权利要求中任一项所述的方法,其中所述多核苷酸是双链多核苷酸,所述双链多核苷酸包括通过发夹或发夹衔接子与第二链连接的第一链。
13.根据权利要求12所述的方法,其中在步骤(i)之前,多核苷酸结合蛋白与所述发夹或所述发夹衔接子结合和/或停靠(stall)在所述发夹或所述发夹衔接子处。
14.根据前述权利要求中任一项所述的方法,其中确定所述多核苷酸的一个或多个特性包括确定所述多核苷酸的序列。
15.根据前述权利要求中任一项所述的方法,其包括:
(i)使检测器与具有多核苷酸结合蛋白的多核苷酸接触,所述多核苷酸结合蛋白能够控制停靠在其上的所述多核苷酸的移动;
(ii a)确定所述多核苷酸的第一部分在所施加的力下相对于所述检测器自由移动所花费的时间;以及
(iib)确定所述多核苷酸的所述第一部分的大致长度。
16.根据前述权利要求中任一项所述的方法,其中在步骤(i)之前,衔接子与所述多核苷酸的一个或两个末端连接。
17.根据前述权利要求中任一项所述的方法,其中在步骤(i)之前,能够控制所述多核苷酸的所述移动的多核苷酸结合蛋白与所述多核苷酸或与和所述多核苷酸连接的衔接子结合。
18.根据前述权利要求中任一项所述的方法,其中所述多核苷酸在一个末端处包括单链前导序列并且在所述多核苷酸的同一链上的另一个末端处具有与其结合的或与和所述多核苷酸的同一链的另一个末端连接的衔接子结合的多核苷酸结合蛋白。
19.根据权利要求17或权利要求18所述的方法,其中所述多核苷酸结合蛋白与所述衔接子结合。
20.根据权利要求17至19中任一项所述的方法,其中所述多核苷酸结合蛋白停靠在所述多核苷酸或所述衔接子上。
21.根据前述权利要求中任一项所述的方法,其中在步骤(ii a)中,所述多核苷酸的所述第一部分相对于所述检测器在相对于所施加的力的第一方向上自由移动,并且在步骤(iii)中,所述多核苷酸结合蛋白控制所述多核苷酸的所述第二部分相对于所述检测器在相对于所施加的力的第二方向上的移动。
22.根据前述权利要求中任一项所述的方法,其中步骤(i)包括使所述检测器与所述多核苷酸的第一末端或与和所述多核苷酸的所述第一末端连接的衔接子接触,并且所述多核苷酸结合蛋白与所述多核苷酸的第二末端或与和所述多核苷酸的所述第二末端连接的衔接子结合。
23.根据前述权利要求中任一项所述的方法,其中:
a)步骤(i)包括使所述检测器与所述多核苷酸的所述第一末端处的前导序列接触,并且所述多核苷酸结合蛋白停靠在所述多核苷酸的第二末端处或停靠在与所述多核苷酸的所述第二末端连接的衔接子上;并且
b)所述多核苷酸的所述第一部分是位于所述前导序列与所述多核苷酸结合蛋白之间的部分,并且所述多核苷酸的所述第二部分与所述多核苷酸的所述第一部分相同;并且
c)所述多核苷酸结合蛋白定向在所述多核苷酸上,使得所述多核苷酸结合蛋白控制所述多核苷酸的所述第二部分相对于所述检测器抵抗所施加的力的移动。
24.根据权利要求1至11或14至23中任一项所述的方法,其中:
-所述多核苷酸是单链的;
-所述多核苷酸包括前导序列,其中所述前导序列定位于所述多核苷酸的所述第一末端处或包括在与所述多核苷酸的所述第一末端连接的衔接子中;并且
-所述多核苷酸结合蛋白停靠在所述多核苷酸的第二末端处或停靠在所述多核苷酸的所述第二末端处的衔接子上。
25.根据权利要求1至23中任一项所述的方法,其中所述多核苷酸是双链的。
26.根据权利要求25所述的方法,其中所述多核苷酸是双链的并且在所述双链多核苷酸的第一链的一个末端处包括单链前导序列并且在所述双链多核苷酸的所述第二链的一个末端处具有与其结合的多核苷酸结合蛋白。
27.根据权利要求25或26所述的方法,其中:
-所述多核苷酸是双链的并且包括第一链和第二链;
-所述多核苷酸包括定位于所述多核苷酸的第一末端处的前导序列,其中所述前导序列包括在所述第一链中或包括在与所述第一链连接的衔接子中;并且
-所述多核苷酸结合蛋白停靠在所述多核苷酸的第二末端处或停靠在所述多核苷酸的所述第二末端处的衔接子上。
28.根据权利要求27所述的方法,其中所述多核苷酸结合蛋白停靠在所述双链多核苷酸的所述第一链的所述第二末端处或停靠在所述双链多核苷酸的所述第一链的所述第二末端处的衔接子上。
29.根据权利要求25至28中任一项所述的方法,其中所述第一链和所述第二链通过所述第一链的所述第二末端处的发夹衔接子连接在一起。
30.根据权利要求29所述的方法,其中所述多核苷酸结合蛋白停靠在所述发夹衔接子处。
31.根据权利要求25至30中任一项所述的方法,其中发夹衔接子与所述双链多核苷酸的一个末端连接,并且包括单链前导序列的衔接子与所述双链多核苷酸的另一个末端连接,并且其中能够控制多核苷酸移动的多核苷酸结合蛋白与所述发夹衔接子结合。
32.根据权利要求2至30中任一项所述的方法,其中:
a)所述双链多核苷酸的所述第一部分是所述第一链的位于所述前导序列与所述多核苷酸结合蛋白之间的部分,并且所述多核苷酸的所述第二部分与所述多核苷酸的所述第一部分相同;并且
b)所述多核苷酸结合蛋白定向在所述多核苷酸上,使得所述多核苷酸结合蛋白控制所述多核苷酸的所述第二部分相对于所述检测器抵抗所施加的力的移动。
33.根据权利要求25至27中任一项所述的方法,其中:
-所述多核苷酸是双链的并且包括第一链和第二链;
-所述多核苷酸包括定位于所述第一链的第一末端处的前导序列或包括在与所述第一链的所述第一末端连接的衔接子中;
-所述第一链和所述第二链通过发夹衔接子连接在一起,所述发夹衔接子与(i)所述第一链的所述第二末端和(ii)所述第二链的第一末端连接;并且
-所述多核苷酸结合蛋白停靠在所述第二链的第二末端处或停靠在所述多核苷酸的所述第二链的所述第二末端处的衔接子上。
34.根据权利要求33所述的方法,其中:
a)所述多核苷酸的所述第一部分包括:(i)所述第一链的位于所述前导序列与所述发夹衔接子之间的部分;(ii)所述发夹衔接子;以及(iii)所述第二链的位于所述发夹衔接子与所述多核苷酸结合蛋白之间的部分;并且所述多核苷酸的所述第二部分与所述多核苷酸的所述第一部分相同;并且
b)所述多核苷酸结合蛋白定向在所述多核苷酸上,使得所述多核苷酸结合蛋白控制所述多核苷酸的所述第二部分抵抗所施加的力向回通过或穿过所述纳米孔的移动。
35.根据权利要求26至31中任一项所述的方法,其中所述单链前导序列与所述检测器接触,所述多核苷酸的所述第一部分是所述双链多核苷酸的第一链,所述多核苷酸的所述第二部分是所述双链多核苷酸的所述第二链,并且所述多核苷酸结合蛋白控制所述多核苷酸的所述第二部分相对于所述检测器的移动。
36.根据前述权利要求中任一项所述的方法,其中所述多核苷酸包括与标签序列互补的部分,其中优选地所述标签序列与所述检测器连接。
37.根据前述权利要求中任一项所述的方法,其中所述多核苷酸包括具有与其杂交的寡核苷酸的部分,并且其中所述寡核苷酸包括:(a)用于与所述多核苷酸杂交的杂交部分;以及(b)(i)与标签序列互补的部分或(ii)能够与标签结合的亲和分子。
38.根据权利要求36或权利要求37所述的方法,其中所述多核苷酸是双链的,并且所述与标签序列互补的部分是所述多核苷酸的所述第一链的一部分和/或所述具有与其杂交的寡核苷酸的部分是所述多核苷酸的所述第一链的一部分。
39.根据权利要求38所述的方法,其中当所述第一链相对于所述检测器移动时,所述第二链与所述标签序列杂交。
40.根据权利要求39所述的方法,其中所述第一链相对于所述检测器的移动被暂时暂停以允许所述第二链与所述标签序列杂交。
41.根据权利要求26至28或35至40中任一项所述的方法,其中所述第二链包括前导序列,所述前导序列与所述第一链杂交,使得所述前导序列仅在所述第一链移动通过所述纳米孔之后被所述纳米孔捕获。
42.根据前述权利要求中任一项所述的方法,其中在步骤(i)之前,多核苷酸结合蛋白停靠在所述多核苷酸或与其结合的衔接子上;并且步骤(iii)进一步包括使所述多核苷酸结合蛋白解除停靠(destall)的步骤。
43.根据权利要求42所述的方法,其中使所述多核苷酸结合蛋白解除停靠包括向所述多核苷酸施加停靠解除力(destalling force),其中所述停靠解除力的幅度低于(a)在步骤(ii a)中施加的力和/或(b)读取力的幅度和/或与所述力的方向相反,其中所述读取力是在所述多核苷酸结合蛋白控制所述多核苷酸的第二部分相对于所述检测器的移动并且进行测量以确定所述多核苷酸的一个或多个特性的同时施加的力。
44.根据权利要求43所述的方法,其中使所述多核苷酸结合蛋白解除停靠包括在所述停靠解除力与所述读取力之间逐步改变(step)所施加的力一次或多次。
45.根据前述权利要求中任一项所述的方法,其中所述多核苷酸包括用于防止多核苷酸结合蛋白与所述多核苷酸脱离接合的阻断部分。
46.根据权利要求45所述的方法,其中:
a)步骤(i)包括使所述多核苷酸的所述第一末端处的前导序列与所述检测器接触,并且多核苷酸结合蛋白停靠在所述多核苷酸的第二末端处或停靠在与所述多核苷酸的所述第二末端连接的衔接子上;并且
b)所述阻断部分定位于所述多核苷酸结合蛋白与所述多核苷酸的所述第二末端之间,
由此防止所述多核苷酸结合蛋白在所述多核苷酸的所述第二末端处与所述多核苷酸脱离接合。
47.根据前述权利要求中任一项所述的方法,其中所述多核苷酸的所述第一部分的长度为至少1000kB。
48.根据前述权利要求中任一项所述的方法,其中在步骤(ii a)中,所述多核苷酸相对于所述检测器的自由移动由超快速多核苷酸处理酶控制。
49.一种构建体,其包括双链多核苷酸,所述双链多核苷酸包括通过发夹衔接子连接在一起的第一链和第二链,其中能够控制所述多核苷酸相对于纳米孔的移动的多核苷酸结合蛋白停靠在所述发夹衔接子处。
50.根据权利要求49所述的构建体或根据权利要求11、13或17至48中任一项所述的方法,其中所述多核苷酸结合蛋白,优选地解旋酶停靠在包括一个或多个停靠单元的停靠位点处,所述一个或多个停靠单元独立地选自:
-多肽二级结构,优选地G-四链体(TBA);
-核酸类似物,所述核酸类似物优选地选自肽核酸(PNA)、甘油核酸(GNA)、苏糖核酸(TNA)、锁核酸(LNA)、桥接核酸(BNA)和无碱基核苷酸;
-间隔子单元,所述间隔子单元选自硝基吲哚、肌苷、吖啶、2-氨基嘌呤、2-6-二氨基嘌呤、5-溴-脱氧尿苷、反式胸苷(反式dT)、反式双脱氧胸苷(ddT)、双脱氧胞苷(ddC)、5-甲基胞苷、5-羟甲基胞苷、2'-O-甲基RNA碱基、异脱氧胞苷(异dC)、异脱氧鸟苷(异dG)、C3(OC3H6OPO3)基团、光可切割(PC)[OC3H6-C(O)NHCH2-C6H3NO2-CH(CH3)OPO3]基团、己二醇基团、间隔子9(iSp9)[(OCH2CH2)3OPO3]基团、多个间隔子18(iSp18)[(OCH2CH2)6OPO3]基团;以及硫醇连接;以及
-荧光团、如traptavidin、链霉亲和素和中性亲和素等亲和素和/或生物素、胆固醇、亚甲蓝、二硝基苯酚(DNP)、地高辛和/或抗地高辛以及二苄基环辛炔基团。
CN202180042330.5A 2020-06-18 2021-06-18 使用检测器选择性地表征多核苷酸的方法 Pending CN115698331A (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
GB2009334.0 2020-06-18
GBGB2009334.0A GB202009334D0 (en) 2020-06-18 2020-06-18 Selection method
GB2107193.1 2021-05-19
GBGB2107193.1A GB202107193D0 (en) 2021-05-19 2021-05-19 Selection method
PCT/GB2021/051555 WO2021255475A1 (en) 2020-06-18 2021-06-18 A method of selectively characterising a polynucleotide using a detector

Publications (1)

Publication Number Publication Date
CN115698331A true CN115698331A (zh) 2023-02-03

Family

ID=76730911

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180042330.5A Pending CN115698331A (zh) 2020-06-18 2021-06-18 使用检测器选择性地表征多核苷酸的方法

Country Status (4)

Country Link
US (1) US20230295712A1 (zh)
EP (1) EP4168582A1 (zh)
CN (1) CN115698331A (zh)
WO (1) WO2021255475A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114457145B (zh) * 2022-01-29 2023-08-11 成都齐碳科技有限公司 用于表征靶多核苷酸测序的接头、构建体、方法和应用

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5198543A (en) 1989-03-24 1993-03-30 Consejo Superior Investigaciones Cientificas PHI29 DNA polymerase
US6267872B1 (en) 1998-11-06 2001-07-31 The Regents Of The University Of California Miniature support for thin films containing single channels or nanopores and methods for using same
GB0505971D0 (en) 2005-03-23 2005-04-27 Isis Innovation Delivery of molecules to a lipid bilayer
DK2122344T3 (da) 2007-02-20 2019-07-15 Oxford Nanopore Tech Ltd Lipiddobbeltlags-sensorsystem
EP3543357A1 (en) 2007-05-08 2019-09-25 Trustees of Boston University Chemical functionalization of solid-state nanopores and nanopore arrays and applications thereof
EP2195648B1 (en) 2007-09-12 2019-05-08 President and Fellows of Harvard College High-resolution molecular graphene sensor comprising an aperture in the graphene layer
GB0724736D0 (en) 2007-12-19 2008-01-30 Oxford Nanolabs Ltd Formation of layers of amphiphilic molecules
BRPI1007215A2 (pt) 2009-01-30 2017-08-29 Oxford Nanopore Tech Ltd Método de acoplamento covalente de duas ou mais porções, primeira e segunda porções, primeiro porção acoplada a uma segunda porção, par de primeiro e segundo ligantes, e, uso de um par de ligantes.
GB0901588D0 (en) 2009-02-02 2009-03-11 Itis Holdings Plc Apparatus and methods for providing journey information
WO2010122293A1 (en) 2009-04-20 2010-10-28 Oxford Nanopore Technologies Limited Lipid bilayer sensor array
CN103154729B (zh) 2010-06-08 2015-01-07 哈佛大学校长及研究员协会 具有由石墨烯支持的人工脂质膜的纳米孔装置
WO2012107778A2 (en) 2011-02-11 2012-08-16 Oxford Nanopore Technologies Limited Mutant pores
JP6480183B2 (ja) 2011-05-27 2019-03-06 オックスフォード ナノポール テクノロジーズ リミテッド 結合方法
AU2012288629B2 (en) 2011-07-25 2017-02-02 Oxford Nanopore Technologies Limited Hairpin loop method for double strand polynucleotide sequencing using transmembrane pores
KR20140090633A (ko) 2011-10-21 2014-07-17 옥스포드 나노포어 테크놀로지즈 리미티드 포어 및 hel308 헬리카제를 사용하여 표적 폴리뉴클레오티드를 특성화하는 방법
GB201120910D0 (en) 2011-12-06 2012-01-18 Cambridge Entpr Ltd Nanopore functionality control
CN104136631B (zh) 2011-12-29 2017-03-01 牛津纳米孔技术公司 使用xpd解旋酶表征多核苷酸的方法
WO2013098562A2 (en) 2011-12-29 2013-07-04 Oxford Nanopore Technologies Limited Enzyme method
BR112014025157B1 (pt) 2012-04-10 2022-02-08 Oxford Nanopore Technologies Limited Monômero de lisenina mutante, construto, poro, método para caracterizar um analito alvo, uso de um poro, e, kit
JP6614972B2 (ja) 2012-07-19 2019-12-04 オックスフォード ナノポール テクノロジーズ リミテッド 修飾ヘリカーゼ
CN104936682B (zh) 2012-10-26 2017-12-15 牛津纳米孔技术公司 微滴界面
GB201313121D0 (en) 2013-07-23 2013-09-04 Oxford Nanopore Tech Ltd Array of volumes of polar medium
EP3004378B1 (en) 2013-05-24 2017-12-20 Illumina Cambridge Limited Pyrophosphorolytic sequencing using nanopores
CA2927726A1 (en) 2013-10-18 2015-04-23 Oxford Nanopore Technologies Limited Modified helicases for use in nucleic acid sequencing
JP6749243B2 (ja) * 2014-01-22 2020-09-02 オックスフォード ナノポール テクノロジーズ リミテッド 1つまたは複数のポリヌクレオチド結合タンパク質を標的ポリヌクレオチドに付着させる方法
WO2015150786A1 (en) 2014-04-04 2015-10-08 Oxford Nanopore Technologies Limited Method for characterising a double stranded nucleic acid using a nano-pore and anchor molecules at both ends of said nucleic acid
GB201417712D0 (en) 2014-10-07 2014-11-19 Oxford Nanopore Tech Ltd Method
CN117164682A (zh) 2014-09-01 2023-12-05 弗拉芒区生物技术研究所 突变csgg孔
US10689697B2 (en) 2014-10-16 2020-06-23 Oxford Nanopore Technologies Ltd. Analysis of a polymer
CN108027335B (zh) 2015-06-25 2021-05-04 罗斯韦尔生物技术股份有限公司 生物分子传感器和方法
GB201620450D0 (en) 2016-12-01 2017-01-18 Oxford Nanopore Tech Ltd Method

Also Published As

Publication number Publication date
US20230295712A1 (en) 2023-09-21
EP4168582A1 (en) 2023-04-26
WO2021255475A1 (en) 2021-12-23

Similar Documents

Publication Publication Date Title
US11959135B2 (en) Coupling method
US11649490B2 (en) Method of target molecule characterisation using a molecular pore
EP3097204B1 (en) Method for controlling the movement of a polynucleotide through a transmembrane pore
EP3137490B1 (en) Mutant pores
CN106103741B (zh) 将一个或多个多核苷酸结合蛋白连接到靶多核苷酸的方法
EP3259281B1 (en) Hetero-pores
EP2895618B1 (en) Sample preparation method
AU2020280243A1 (en) Method
US20230227903A1 (en) Method
CN115698331A (zh) 使用检测器选择性地表征多核苷酸的方法
US20230227902A1 (en) Method of repeatedly moving a double-stranded polynucleotide through a nanopore
WO2023118892A1 (en) Method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination