CN112534063A - 用于核酸测序的方法、系统和组合物 - Google Patents

用于核酸测序的方法、系统和组合物 Download PDF

Info

Publication number
CN112534063A
CN112534063A CN201980049362.0A CN201980049362A CN112534063A CN 112534063 A CN112534063 A CN 112534063A CN 201980049362 A CN201980049362 A CN 201980049362A CN 112534063 A CN112534063 A CN 112534063A
Authority
CN
China
Prior art keywords
nucleic acid
acid molecule
double
stranded
sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201980049362.0A
Other languages
English (en)
Inventor
邓素华
弗拉基米尔·伊万诺维奇·巴什基洛夫
田晖
伊戈尔·康斯坦汀·伊万诺夫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
An Xuyuan Co ltd
Original Assignee
An Xuyuan Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by An Xuyuan Co ltd filed Critical An Xuyuan Co ltd
Publication of CN112534063A publication Critical patent/CN112534063A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6806Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Organic Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Health & Medical Sciences (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Engineering & Computer Science (AREA)
  • Analytical Chemistry (AREA)
  • Molecular Biology (AREA)
  • Immunology (AREA)
  • Microbiology (AREA)
  • Biotechnology (AREA)
  • Biochemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Biophysics (AREA)
  • Physics & Mathematics (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本公开内容提供了用于处理或分析核酸分子的方法和系统。用于处理或分析双链核酸分子的方法可以包括提供双链核酸分子和双链衔接子。双链衔接子可以在其有义链或反义链内包含切口位点。然后可以将双链衔接子偶联至双链核酸分子,并且可以将与双链衔接子偶联的双链核酸分子环化以产生环化的双链核酸分子。

Description

用于核酸测序的方法、系统和组合物
交叉引用
本申请要求于2018年5月22日提交的美国临时申请号62/674,706的权益,该申请通过引用整体并入本文。
发明背景
核酸测序可用于提供核酸样品的序列信息。这样的序列信息可能有助于诊断或治疗受试者(例如,个体、患者等)的病况(例如,疾病)。例如,受试者的核酸序列信息可以用于鉴定、诊断或开发针对一种或多种遗传疾病的治疗。在另一个实例中,一种或多种病原体的核酸序列信息可指引对一种或多种传染性疾病的治疗。
在一些情况下,用于核酸测序的方法可以包括产生环状双链核酸链的切口,并且使聚合酶与切口结合。包含聚合酶和环状双链核酸复合物的所得复合物可与测序部分(例如,纳米孔)缔合(例如,偶联或邻近),并且可以产生与双链核酸的至少一部分具有互补性的生长链(例如,通过滚环扩增(RCA)),以通过测序部分进行测序。这样的方法可以用于全基因组测序或核酸库中一种或多种序列变体(例如,突变)的检测。
一种或多种稀有序列变体(例如,突变)的检测对于医疗保健可能是有价值的。稀有序列变体的检测对于一种或多种病理突变的早期检测可能很重要。在临床样品中检测一种或多种与癌症相关的突变(例如,点突变)可改善对复发患者的化学疗法或肿瘤细胞检测中一种或多种最小残留疾病的鉴定。此外,此类突变检测对于评估暴露于环境诱变剂、监测内源性DNA修复或研究衰老个体中一种或多种体细胞突变的积累可能是重要的。备选地或附加地,检测或稀有序列变体可以增强产前诊断并能够表征母体血液中存在的胎儿细胞。
发明内容
一方面,本公开内容提供了用于处理或分析双链核酸分子的方法,其包括:(a)提供(i)所述双链核酸分子和(ii)在其有义链或反义链内具有切口位点的双链衔接子;(b)将所述双链衔接子偶联至所述双链核酸分子;以及(c)使与所述双链衔接子偶联的所述双链核酸分子环化以产生环化的双链核酸分子。
在一些实施方案中,所述双链核酸分子和所述双链衔接子彼此异源。在一些实施方案中,所述双链核酸分子和所述双链衔接子以无细胞组合物的形式提供。在一些实施方案中,(b)或(c)在无细胞条件下进行。在一些实施方案中,(b)和(c)在无细胞条件下进行。
在一些实施方案中,所述偶联包括(i)将所述双链衔接子的所述有义链偶联至所述双链核酸分子的有义链,或(ii)将所述双链衔接子的所述反义链偶联至所述双链核酸分子的反义链。在一些实施方案中,所述偶联包括(i)将所述双链衔接子的所述有义链偶联至所述双链核酸分子的有义链,以及(ii)将所述双链衔接子的所述反义链偶联至所述双链核酸分子的反义链。
在一些实施方案中,所述切口位点是所述环化双链核酸分子的有义链的一部分。在一些实施方案中,所述切口位点是所述环化双链核酸分子的反义链的一部分。
在一些实施方案中,所述方法还包括使所述双链核酸分子从所述双链衔接子的所述切口位点进行测序。在一些实施方案中,所述测序包括(i)使所述双链核酸分子从所述双链衔接子的所述切口位点进行延伸反应以产生与所述双链核酸分子的链的至少一部分具有序列互补性的生长链,以及(ii)获得所述生长链的至少一部分的序列信息。在一些实施方案中,获得所述序列信息包括检测所述生长链的所述至少一部分。在一些实施方案中,所述延伸反应包括在足以将核苷酸掺入所述生长链中的条件下使所述双链核酸分子与偶联至标签的所述核苷酸接触,并且其中获得所述序列信息包括检测所述标签。在一些实施方案中,所述方法还包括在将所述核苷酸掺入所述生长链中时从所述核苷酸释放所述标签。在一些实施方案中,所述延伸反应在不使用寡核苷酸引物的情况下进行。在一些实施方案中,所述延伸反应包括滚环扩增。
在一些实施方案中,所述测序包括(i)使所述双链核酸分子从所述双链衔接子的所述切口位点进行切割反应以切割所述双链核酸分子的链的至少一部分,以及(ii)获得所述链的所述至少一部分的序列信息。在一些实施方案中,获得所述序列信息包括检测所述链的所述至少一部分。在一些实施方案中,所述测序包括基于纳米孔的测序。在一些实施方案中,与至少一个参考序列相比,所述双链核酸分子的至少一部分具有或被怀疑具有一个或多个测序变体,并且其中所述测序是为了鉴定所述双链核酸分子的所述至少一部分的存在。在一些实施方案中,所述一个或多个测序变体指示基因中的突变。在一些实施方案中,所述至少一个参考序列包括所述基因的至少一部分的共有序列。
在一些实施方案中,所述方法还包括在(b)之前,扩增所述双链核酸分子以产生所述双链核酸分子的多个拷贝。
在一些实施方案中,所述双链核酸分子包含识别序列,所述方法还包括至少部分基于所述识别序列从随机核酸分子库中富集所述双链核酸分子。在一些实施方案中,所述富集包括产生选定的双链核酸分子文库,其中所述选定文库的至少5%中的每个双链核酸分子包含所述识别序列。在一些实施方案中,所述选定文库的至少10%、20%、30%、40%、50%、60%、70%、80%、90%或95%中的每个双链核酸分子包含所述识别序列。在一些实施方案中,在没有任何错配的情况下出现所述识别序列的概率为在每1x104个碱基对中至多一次。在一些实施方案中,在没有任何错配的情况下出现所述识别序列的概率为在每5x104、7x104、1x105、1x106、1x107、1x108、1x109、1x1010、1x1011或1x1012个碱基对中至多一次。在一些实施方案中,所述识别序列包含至少5个碱基。在一些实施方案中,所述识别序列包含至少6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、35、40、45或50个碱基。在一些实施方案中,所述富集包括(i)将与所述识别序列具有互补性的识别部分结合至所述双链核酸分子以形成识别复合物,以及(ii)提取所述识别复合物。在一些实施方案中,所述富集在(a)之前或(b)之后进行。在一些实施方案中,所述富集在(a)之前和(b)之后进行。
在一些实施方案中,所述双链核酸分子来自或衍生自受试者的生物样品。在一些实施方案中,所述生物样品包括所述受试者的无细胞生物样品。在一些实施方案中,所述双链核酸分子来自或衍生自来自所述无细胞生物样品的无细胞核酸分子。在一些实施方案中,所述无细胞核酸分子包括循环肿瘤核酸分子或羊水核酸分子。在一些实施方案中,所述生物样品包括所述受试者的组织样品。在一些实施方案中,所述双链核酸分子来自或衍生自来自所述组织样品的基因组核酸分子。在一些实施方案中,所述组织样品衍生自:感染组织、病变组织、恶性组织、钙化组织、健康组织及其组合。在一些实施方案中,所述组织样品来自包含肿瘤、肉瘤、白血病或其衍生物的恶性组织。
在一些实施方案中,所述双链核酸分子包括DNA、互补DNA、其衍生物或其组合。在一些实施方案中,所述双链核酸分子包括RNA。
在另一方面,本公开内容提供了用于处理或分析双链核酸分子的反应混合物,其包含:组合物,所述组合物包含(i)所述双链核酸分子和(ii)在其有义链或反义链内具有切口位点的双链衔接子;以及至少一种酶,所述酶(i)将所述双链衔接子偶联至所述双链核酸分子,以及(ii)使与所述双链衔接子偶联的所述双链核酸分子环化以产生环化的双链核酸分子。
在一些实施方案中,所述双链核酸分子和所述双链衔接子彼此异源。在一些实施方案中,所述反应混合物是无细胞反应混合物。
在一些实施方案中,所述至少一种酶(i)将所述双链衔接子的所述有义链偶联至所述双链核酸分子的有义链,或(ii)将所述双链衔接子的所述反义链偶联至所述双链核酸分子的反义链。在一些实施方案中,所述至少一种酶(i)将所述双链衔接子的所述有义链偶联至所述双链核酸分子的有义链,和(ii)将所述双链衔接子的所述反义链偶联至所述双链核酸分子的反义链。在一些实施方案中,所述至少一种酶将所述双链衔接子连接至所述双链核酸分子。在一些实施方案中,所述至少一种酶包括连接酶、重组酶、聚合酶、其功能变体或其组合。
在一些实施方案中,所述切口位点是所述环化双链核酸分子的有义链的一部分。在一些实施方案中,所述切口位点是所述环化双链核酸分子的反义链的一部分。
在一些实施方案中,所述反应混合物还包含至少第二酶,所述至少第二酶进行延伸反应以产生与所述双链核酸分子的链的至少一部分具有序列互补性的生长链。在一些实施方案中,在将所述双链衔接子偶联至所述双链核酸分子之前,所述至少第二酶产生所述生长链。
在一些实施方案中,在将所述双链衔接子偶联至所述双链核酸分子之后,所述至少第二酶从所述双链衔接子的所述切口位点进行所述延伸反应以产生所述生长链。在一些实施方案中,所述反应混合物还包含与标签偶联的至少一个核苷酸,其中所述至少第二酶将所述核苷酸掺入所述生长链中。在一些实施方案中,当所述核苷酸掺入所述生长链中时,所述至少第二酶从所述核苷酸释放所述标签。在一些实施方案中,所述至少第二酶在不使用寡核苷酸引物的情况下进行所述延伸反应。在一些实施方案中,所述延伸反应包括滚环扩增。在一些实施方案中,所述至少第二酶包括聚合酶。
在一些实施方案中,所述反应混合物还包含至少第三酶,所述至少第三酶从所述双链衔接子的所述切口位点进行切割反应以切割所述双链核酸分子的链的至少一部分。
在一些实施方案中,与至少一个参考序列相比,所述双链核酸分子的至少一部分具有或被怀疑具有一个或多个变体。在一些实施方案中,所述反应混合物用于制备至少一种组合物,所述组合物用于测序以鉴定所述双链核酸分子的所述至少一部分的存在。在一些实施方案中,所述一个或多个测序变体指示基因中的突变。在一些实施方案中,所述至少一个参考序列包括所述基因的至少一部分的共有序列。
在一些实施方案中,所述双链核酸分子包含识别序列。在一些实施方案中,所述反应混合物还包含与所述识别序列缔合的识别部分,以至少部分基于所述识别序列从所述组合物中的随机核酸分子库中至少富集所述双链核酸分子。在一些实施方案中,所述识别部分包含至少一种与至少所述识别序列互补的寡核苷酸。在一些实施方案中,所述组合物包含选定的双链核酸分子文库,其中所述文库的至少5%中的每个双链核酸分子包含所述识别序列。在一些实施方案中,所述选定文库的至少10%、20%、30%、40%、50%、60%、70%、80%、90%或95%中的每个双链核酸分子包含所述识别序列。在一些实施方案中,在没有任何错配的情况下出现所述识别序列的概率为在每1x104个碱基对中至多一次。在一些实施方案中,在没有任何错配的情况下出现所述识别序列的概率为在每5x104、7x104、1x105、1x106、1x107、1x108、1x109、1x1010、1x1011或1x1012个碱基对中至多一次。在一些实施方案中,所述识别序列包含至少5个碱基。在一些实施方案中,所述识别序列包含至少6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、35、40、45或50个碱基。
在一些实施方案中,所述双链核酸分子来自或衍生自受试者的生物样品。在一些实施方案中,所述生物样品包括所述受试者的无细胞生物样品。在一些实施方案中,所述双链核酸分子来自或衍生自来自所述无细胞生物样品的无细胞核酸分子。在一些实施方案中,所述无细胞核酸分子包括循环肿瘤核酸分子或羊水核酸分子。在一些实施方案中,所述生物样品包括所述受试者的组织样品。在一些实施方案中,所述双链核酸分子来自或衍生自来自所述组织样品的基因组核酸分子。在一些实施方案中,所述组织样品衍生自:感染组织、病变组织、恶性组织、钙化组织、健康组织及其组合。在一些实施方案中,所述组织样品来自包含肿瘤、肉瘤、白血病或其衍生物的恶性组织。
在一些实施方案中,所述双链核酸分子包括DNA、互补DNA、其衍生物或其组合。在一些实施方案中,所述双链核酸分子包括RNA。
在不同的方面,本公开内容提供了环化的双链核酸分子的文库,其包含(i)双链核酸结构域,所述双链核酸结构域偶联至(ii)双链衔接子结构域,所述双链衔接子结构域包含在所述双链衔接子结构域的有义链或反义链内的切口位点,其中所述文库的至少5%中的每个环化双链核酸分子包含识别序列。
在一些实施方案中,在将所述双链衔接子结构域偶联至所述双链核酸结构域之前,所述切口位点存在于所述双链衔接子结构域内。在一些实施方案中,所述双链核酸结构域和所述双链衔接子结构域彼此异源。在一些实施方案中,所述文库在无细胞组合物中。
在一些实施方案中,与至少一个参考序列相比,所述环化的双链核酸结构域的至少一部分具有或被怀疑具有一个或多个测序变体。在一些实施方案中,所述一个或多个测序变体指示基因中的突变。在一些实施方案中,所述至少一个参考序列包括所述基因的至少一部分的共有序列。
在一些实施方案中,所述选定文库的至少10%、20%、30%、40%、50%、60%、70%、80%、90%或95%中的每个环化双链核酸分子包含所述识别序列。在一些实施方案中,在没有任何错配的情况下出现所述识别序列的概率为在每1x104个碱基对中至多一次。在一些实施方案中,在没有任何错配的情况下出现所述识别序列的概率为在每5x104、7x104、1x105、1x106、1x107、1x108、1x109、1x1010、1x1011、1x1012个碱基对中至多一次。在一些实施方案中,所述识别序列包含至少5个特异性碱基。在一些实施方案中,所述识别序列包含至少6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、35、40、45或50个碱基。
在一些实施方案中,所述切口位点是所述环化双链核酸分子的有义链的一部分。在一些实施方案中,所述切口位点是所述环化双链核酸分子的反义链的一部分。
在一些实施方案中,所述环化双链核酸分子来自或衍生自受试者的生物样品。在一些实施方案中,所述生物样品包括所述受试者的无细胞生物样品。在一些实施方案中,所述双链核酸分子来自或衍生自来自所述无细胞生物样品的无细胞核酸分子。在一些实施方案中,所述无细胞核酸分子包括循环肿瘤核酸分子或羊水核酸分子。在一些实施方案中,所述生物样品包括所述受试者的组织样品。在一些实施方案中,所述双链核酸分子来自或衍生自来自所述组织样品的基因组核酸分子。在一些实施方案中,所述组织样品衍生自:感染组织、病变组织、恶性组织、钙化组织、健康组织及其组合。在一些实施方案中,所述组织样品来自包含肿瘤、肉瘤、白血病或其衍生物的恶性组织。
在一些实施方案中,所述环化双链核酸分子包括DNA、互补DNA、其衍生物或其组合。在一些实施方案中,所述环化双链核酸分子包括RNA。
在不同的方面,本公开内容提供了用于处理或分析环状核酸分子的方法,其包括:(a)提供包含所述环状核酸分子的无细胞组合物,所述环状核酸分子包含(i)靶区域和(ii)距所述靶区域已知距离的切口位点;以及(b)在所述环状核酸分子的所述切口位点产生切口。在一些实施方案中,(b)在无细胞条件下进行。
在一些实施方案中,所述切口位点距离所述靶位点不超过100,000个核苷酸。在一些实施方案中,所述切口位点距离所述靶位点不超过50,000、10,000、5,000、1,000、500、400、300、200、100、90、80、70、60、50、40、30、25、20、15、10或5个核苷酸。在一些实施方案中,所述靶位点包含至多约500,000个核苷酸。在一些实施方案中,所述靶位点包含至多约100,000、50,000、10,000、5,000、1,000、500、400、300、200、100、50、40、30、25、20、15、10、9、8、7、6、5、4、3、2或1个核苷酸。
在一些实施方案中,所述核酸分子包括双链核酸分子。在一些实施方案中,所述切口位点是所述环状核酸分子的有义链的一部分。在一些实施方案中,所述切口位点是所述环状核酸分子的反义链的一部分。在一些实施方案中,所述方法还包括至少部分基于所述靶位点相对于至少一个参考序列的位置来确定所述切口位点。在一些实施方案中,所述至少一个参考序列包括基因的至少一部分的共有序列。在一些实施方案中,所述切口位点对于所述环状核酸分子是内源的。在一些实施方案中,所述切口位点对于所述环状核酸分子是外源的,并且其中所述确定包括将所述外源切口位点插入所述环状核酸分子。
在一些实施方案中,所述核酸分子还包含对切口酶具有特异性的切口酶结合位点,在(b)中还包括,在足以使所述切口酶与所述切口酶结合位点缔合并产生切口的条件下向所述核酸分子提供切口酶。在一些实施方案中,在没有任何错配的情况下出现所述切口酶结合位点的概率为在每1x104个碱基对中至多一次。在一些实施方案中,在没有任何错配的情况下出现所述切口酶结合位点的概率为在每5x104、7x104、1x105、1x106、1x107、1x108、1x109、1x1010、1x1011或1x1012个碱基对中至多一次。在一些实施方案中,所述切口酶结合位点包含至少5个碱基。在一些实施方案中,所述切口酶结合位点包含至少6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、35、40、45或50个碱基。在一些实施方案中,所述切口酶结合位点对于所述核酸分子是内源的。在一些实施方案中,所述切口酶结合位点对于所述核酸分子是外源的。在一些实施方案中,所述方法还包括在(b)之前,将所述外源切口酶结合位点插入所述核酸分子。在一些实施方案中,所述方法还包括在所述插入之前使所述核酸分子环化。在一些实施方案中,所述方法还包括在所述插入之后使所述核酸分子环化。在一些实施方案中,所述切口酶结合位点距离所述切口位点不超过30个核苷酸。在一些实施方案中,所述切口酶结合位点距离所述切口位点不超过25、20、19、18、17、16、15、14、13、12、11、10、9、8、7、6、5、4、3、2或1个核苷酸。在一些实施方案中,所述切口酶结合位点包含所述切口位点。
在一些实施方案中,所述方法还包括使所述环状核酸分子进行测序。在一些实施方案中,所述测序包括(i)使所述环状核酸分子从所述切口进行延伸反应以产生与所述环状核酸分子的链的至少一部分具有序列互补性的生长链,以及(ii)获得所述生长链的至少一部分的序列信息。在一些实施方案中,获得所述序列信息包括检测所述生长链的所述至少一部分。在一些实施方案中,所述延伸反应包括在足以将核苷酸掺入所述生长链中的条件下使所述环状核酸分子与偶联至标签的所述核苷酸接触,并且其中获得所述序列信息包括检测所述标签。在一些实施方案中,所述方法还包括在将所述核苷酸掺入所述生长链中时从所述核苷酸释放所述标签。在一些实施方案中,所述延伸反应在不使用寡核苷酸引物的情况下进行。在一些实施方案中,所述延伸反应包括滚环扩增。
在一些实施方案中,所述测序包括(i)使所述环状核酸分子从所述切口进行切割反应以切割所述双链核酸分子的链的至少一部分,以及(ii)获得所述链的所述至少一部分的序列信息。在一些实施方案中,获得所述序列信息包括检测所述链的所述至少一部分。在一些实施方案中,所述测序包括基于纳米孔的测序。在一些实施方案中,与至少一个参考序列相比,靶位点的至少一部分具有或被怀疑具有一个或多个测序变体,并且其中所述测序是为了鉴定所述靶位点的所述至少一部分的存在。在一些实施方案中,所述一个或多个测序变体指示基因中的突变。在一些实施方案中,所述至少一个参考序列包括所述基因的至少一部分的共有序列。
在一些实施方案中,所述方法还包括在(a)之前,将至少线性核酸分子环化为环状核酸分子。在一些实施方案中,所述至少线性核酸分子是扩增产物的一部分。在一些实施方案中,所述方法还包括在(b)之前,扩增所述环状核酸分子以产生所述环状核酸分子的多个拷贝。
在一些实施方案中,所述环状核酸分子包含识别序列,所述方法还包括至少部分基于所述识别序列从随机核酸分子库中富集所述环状核酸分子。在一些实施方案中,所述富集包括产生选定的环状核酸分子文库,其中所述选定文库的至少5%中的每个环状核酸分子包含所述识别序列。在一些实施方案中,所述选定文库的至少10%、20%、30%、40%、50%、60%、70%、80%、90%或95%中的每个环状核酸分子包含所述识别序列。在一些实施方案中,在没有任何错配的情况下出现所述识别序列的概率为在每1x104个碱基对中至多一次。在一些实施方案中,在没有任何错配的情况下出现所述识别序列的概率为在每5x104、7x104、1x105、1x106、1x107、1x108、1x109、1x1010、1x1011、1x1012个碱基对中至多一次。在一些实施方案中,所述识别序列包含至少5个碱基。在一些实施方案中,所述识别序列包含至少6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、35、40、45或50个碱基。在一些实施方案中,所述富集包括(i)将与所述识别序列具有互补性的识别部分结合至所述环状核酸分子以形成识别复合物,以及(ii)提取所述识别复合物。在一些实施方案中,所述富集在(a)之前或(b)之后进行。在一些实施方案中,所述富集在(a)之前和(b)之后进行。
在一些实施方案中,所述环状核酸分子来自或衍生自受试者的生物样品。在一些实施方案中,所述生物样品包括所述受试者的无细胞生物样品。在一些实施方案中,所述环状核酸分子来自或衍生自来自所述无细胞生物样品的无细胞核酸分子。在一些实施方案中,所述无细胞核酸分子包括循环肿瘤核酸分子或羊水核酸分子。在一些实施方案中,所述生物样品包括所述受试者的组织样品。在一些实施方案中,所述环状核酸分子衍生自来自所述组织样品的基因组核酸分子。在一些实施方案中,所述组织样品衍生自:感染组织、病变组织、恶性组织、钙化组织、健康组织及其组合。在一些实施方案中,所述组织样品来自包含肿瘤、肉瘤、白血病或其衍生物的恶性组织。
在一些实施方案中,所述环状核酸分子包括DNA、互补DNA、其衍生物或其组合。在一些实施方案中,所述环状核酸分子包括RNA。
在不同的方面,本公开内容提供了用于处理或分析环状核酸分子的反应混合物,其包含:无细胞组合物,所述无细胞组合物包含所述环状核酸分子,所述环状核酸分子包含(i)靶位点和(ii)距所述靶位点已知距离的切口位点;以及至少一种在所述环状核酸分子的所述切口位点产生切口的酶。在一些实施方案中,所述反应混合物是无细胞反应混合物。
在一些实施方案中,所述切口位点距离所述靶位点不超过100,000个核苷酸。在一些实施方案中,所述切口位点距离所述靶位点不超过50,000、10,000、5,000、1,000、500、400、300、200、100、90、80、70、60、50、40、30、25、20、15、10或5个核苷酸。
在一些实施方案中,所述靶位点包含至多约500,000个核苷酸。在一些实施方案中,所述靶位点包含至多约100,000、50,000、10,000、5,000、1,000、500、400、300、200、100、50、40、30、25、20、15、10、9、8、7、6、5、4、3、2或1个核苷酸。
在一些实施方案中,所述环状核酸分子包括环状双链核酸分子。在一些实施方案中,所述切口在所述环状双链核酸分子的有义链上。在一些实施方案中,所述切口在所述环状双链核酸分子的反义链上。在一些实施方案中,所述切口位点对于所述环状核酸分子是内源的。在一些实施方案中,所述切口位点对于所述环状核酸分子是外源的。
在一些实施方案中,所述核酸分子还包含对所述至少一种酶具有特异性的酶结合位点。在一些实施方案中,在没有任何错配的情况下出现所述酶结合位点的概率为在每1x104个碱基对中至多一次。在一些实施方案中,在没有任何错配的情况下出现所述酶结合位点的概率为在每5x104、7x104、1x105、1x106、1x107、1x108、1x109、1x1010、1x1011、1x1012个碱基对中至多一次。在一些实施方案中,所述酶结合位点包含至少5个碱基。在一些实施方案中,所述酶结合位点包含至少6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、35、40、45或50个碱基。在一些实施方案中,所述酶结合位点对于所述环状核酸分子是内源的。在一些实施方案中,所述酶结合位点对于所述环状核酸分子是外源的。在一些实施方案中,所述酶结合位点距离所述切口位点不超过30个核苷酸。在一些实施方案中,所述酶结合位点距离所述切口位点不超过25、20、19、18、17、16、15、14、13、12、11、10、9、8、7、6、5、4、3、2或1个核苷酸。在一些实施方案中,所述酶结合位点包含所述切口位点。
在一些实施方案中,所述反应混合物还包含至少第二酶,所述至少第二酶从所述切口进行延伸反应以产生与所述环状核酸分子的至少一部分具有序列互补性的生长链。在一些实施方案中,所述环状核酸分子是环状双链核酸分子,并且其中所述生长链与所述环状双链核酸分子的链的至少一部分具有序列互补性。在一些实施方案中,所述反应混合物还包含与标签偶联的至少一个核苷酸,其中所述至少第二酶将所述核苷酸掺入所述生长链中。在一些实施方案中,当所述核苷酸掺入所述生长链中时,所述至少第二酶从所述核苷酸释放所述标签。在一些实施方案中,所述至少第二酶在不使用寡核苷酸引物的情况下进行所述延伸反应。在一些实施方案中,所述延伸反应包括滚环扩增。在一些实施方案中,所述至少第二酶包括聚合酶。
在一些实施方案中,所述反应混合物还包含至少第三酶,所述至少第三酶从所述切口进行切割反应以切割所述环状核酸分子的至少一部分。在一些实施方案中,所述环状核酸分子是环状双链核酸分子,并且其中所述至少第三酶切割所述环状双链核酸分子的链的至少一部分。
在一些实施方案中,与至少一个参考序列相比,所述环状核酸分子的至少一部分具有或被怀疑具有一个或多个变体。在一些实施方案中,所述反应混合物用于制备至少一种组合物,所述组合物用于测序以鉴定所述环状核酸分子的所述至少一部分的存在。在一些实施方案中,所述一个或多个测序变体指示基因中的突变。在一些实施方案中,所述至少一个参考序列包括所述基因的至少一部分的共有序列。
在一些实施方案中,所述环状核酸分子包含识别序列。在一些实施方案中,所述反应混合物还包含与所述识别序列缔合的识别部分,以至少部分基于所述识别序列从所述组合物中的随机核酸分子库中至少富集所述环状核酸分子。在一些实施方案中,所述识别部分包含至少一种与至少所述识别序列互补的寡核苷酸。在一些实施方案中,所述组合物包含选定的环状核酸分子文库,其中所述文库的至少5%中的每个环状核酸分子包含所述识别序列。在一些实施方案中,所述选定文库的至少10%、20%、30%、40%、50%、60%、70%、80%、90%或95%中的每个环状核酸分子包含所述识别序列。在一些实施方案中,在没有任何错配的情况下出现所述识别序列的概率为在每1x104个碱基对中至多一次。在一些实施方案中,在没有任何错配的情况下出现所述识别序列的概率为在每5x104、7x104、1x105、1x106、1x107、1x108、1x109、1x1010、1x1011、1x1012个碱基对中至多一次。在一些实施方案中,所述识别序列包含至少5个碱基。在一些实施方案中,所述识别序列包含至少6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、35、40、45或50个碱基。
在一些实施方案中,所述环状核酸分子来自或衍生自受试者的生物样品。在一些实施方案中,所述生物样品包括所述受试者的无细胞生物样品。在一些实施方案中,所述环状核酸分子来自或衍生自来自所述无细胞生物样品的无细胞核酸分子。在一些实施方案中,所述无细胞核酸分子包括循环肿瘤核酸分子或羊水核酸分子。在一些实施方案中,所述生物样品包括所述受试者的组织样品。在一些实施方案中,所述环状核酸分子衍生自来自所述组织样品的基因组核酸分子。在一些实施方案中,所述组织样品衍生自:感染组织、病变组织、恶性组织、钙化组织、健康组织及其组合。在一些实施方案中,所述组织样品来自包含肿瘤、肉瘤、白血病或其衍生物的恶性组织。
在一些实施方案中,所述环状核酸分子包括DNA、互补DNA、其衍生物或其组合。在一些实施方案中,所述环状核酸分子包括RNA。
在不同的方面,本公开内容提供了环状核酸分子的无细胞文库,其中所述文库的至少5%中的每个个体的环状核酸分子包含(i)靶位点和(ii)与所述靶位点相距已知距离的切口。
在一些实施方案中,所述文库的至少10%、20%、30%、40%、50%、60%、70%、80%、90%或95%中的每个个体的环状核酸分子包含(i)所述靶位点和(ii)在距所述靶位点所述已知距离处的所述切口。在一些实施方案中,所述个体的环化核酸分子还包含识别序列。在一些实施方案中,在没有任何错配的情况下出现所述识别序列的概率为在每1x104个碱基对中至多一次。在一些实施方案中,在没有任何错配的情况下出现所述识别序列的概率为在每5x104、7x104、1x105、1x106、1x107、1x108、1x109、1x1010、1x1011、1x1012个碱基对中至多一次。在一些实施方案中,所述识别序列包含至少5个碱基。在一些实施方案中,所述识别序列包含至少6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、35、40、45或50个碱基。
在一些实施方案中,(i)第一个体核酸分子的第一靶位点和(ii)第二个体核酸分子的第二靶位点相同。在一些实施方案中,(i)第一切口与所述第一个体核酸分子的所述第一靶位点之间的第一已知距离和(ii)第二切口与所述第二个体核酸分子的所述第二靶位点之间的第二已知距离是相同的。在一些实施方案中,(i)第一切口与所述第一个体核酸分子的所述第一靶位点之间的第一已知距离和(ii)第二切口与所述第二个体核酸分子的所述第二靶位点之间的第二已知距离是不同的。
在一些实施方案中,(i)第一个体核酸分子的第一靶位点和(ii)第二个体核酸分子的第二靶位点不同。在一些实施方案中,(i)第一切口与所述第一个体核酸分子的所述第一靶位点之间的第一已知距离和(ii)第二切口与所述第二个体核酸分子的所述第二靶位点之间的第二已知距离是相同的。在一些实施方案中,(i)第一切口与所述第一个体核酸分子的所述第一靶位点之间的第一已知距离和(ii)第二切口与所述第二个体核酸分子的所述第二靶位点之间的第二已知距离是不同的。
在一些实施方案中,所述切口位点距离所述靶位点不超过100,000个核苷酸。在一些实施方案中,所述切口位点距离所述靶位点不超过50,000、10,000、5,000、1,000、500、400、300、200、100、90、80、70、60、50、40、30、25、20、15、10或5个核苷酸。
在一些实施方案中,所述靶位点包含至多约500,000个核苷酸。在一些实施方案中,所述靶位点包含至多约100,000、50,000、10,000、5,000、1,000、500、400、300、200、100、50、40、30、25、20、15、10、9、8、7、6、5、4、3、2或1个核苷酸。
在一些实施方案中,与至少一个参考序列相比,所述环状核酸分子的至少一部分具有或被怀疑具有一个或多个变体。在一些实施方案中,所述一个或多个测序变体指示基因中的突变。在一些实施方案中,所述至少一个参考序列包括所述基因的至少一部分的共有序列。
在一些实施方案中,所述环状核酸分子包括环状双链核酸分子。在一些实施方案中,所述切口在所述环状双链核酸分子的有义链上。在一些实施方案中,所述切口在所述环状双链核酸分子的反义链上。
在一些实施方案中,所述环状核酸分子来自或衍生自受试者的生物样品。在一些实施方案中,所述生物样品包括所述受试者的无细胞生物样品。在一些实施方案中,所述环状核酸分子来自或衍生自来自所述无细胞生物样品的无细胞核酸分子。在一些实施方案中,所述无细胞核酸分子包括循环肿瘤核酸分子或羊水核酸分子。在一些实施方案中,所述生物样品包括所述受试者的组织样品。在一些实施方案中,所述环状核酸分子来自或衍生自来自所述组织样品的基因组核酸分子。在一些实施方案中,所述组织样品衍生自:感染组织、病变组织、恶性组织、钙化组织、健康组织及其组合。在一些实施方案中,所述组织样品来自包含肿瘤、肉瘤、白血病或其衍生物的恶性组织。
在一些实施方案中,所述环状核酸分子包括DNA、互补DNA、其衍生物或其组合。在一些实施方案中,所述环状核酸分子包括RNA。
在不同的方面,本公开内容提供了用于处理或分析核酸分子的方法,其包括:(a)提供与纳米孔相邻的所述核酸分子,并在足以将核苷酸掺入与所述核酸分子的至少一部分互补的核酸链中的条件下,使所述核酸分子与具有标签的所述核苷酸接触,其中当所述核苷酸掺入所述核酸链中时,所述标签的至少一部分位于所述纳米孔内;(b)当所述标签的至少一部分在所述纳米孔内时,检测指示所述纳米孔中的阻抗或阻抗变化的一个或多个信号;以及(c)使用所述一种或多种信号鉴定掺入所述核酸链中的所述核苷酸。
在一些实施方案中,所述一个或多个信号是电流或电压。在一些实施方案中,所述方法还包括当所述标签的至少一部分位于所述纳米孔内时测量电流或其变化。在一些实施方案中,所述一个或多个信号不是隧道电流。在一些实施方案中,所述电流不是法拉第电流。在一些实施方案中,所述纳米孔是包含隧道结的电路的一部分。在一些实施方案中,所述纳米孔包括多个电极,并且其中(c)包括使用所述多个电极来检测所述一个或多个信号。
在一些实施方案中,所述纳米孔包括蛋白质纳米孔或固态纳米孔。
在一些实施方案中,所述方法还包括在(a)中,在将所述核苷酸掺入所述核酸链中时从所述核苷酸释放所述标签。在一些实施方案中,所述核酸分子包括环状核酸分子。在一些实施方案中,所述方法还包括在(b)之前,对所述核酸分子进行滚环扩增(RCA)以产生所述核酸链。在一些实施方案中,所述环状核酸分子是环状双链核酸分子。在一些实施方案中,所述掺入在不使用寡核苷酸引物的情况下进行。在一些实施方案中,所述提供包括偶联至少一种酶,所述酶执行向(i)所述纳米孔的至少一部分或(ii)具有所述纳米孔的膜的掺入。在一些实施方案中,所述膜是脂质双层。在一些实施方案中,所述膜是固态膜。在一些实施方案中,所述偶联包括将所述至少一种酶缀合至所述纳米孔或膜。
在不同的方面,本公开内容提供了用于处理或分析核酸分子的系统,其包括:纳米孔,所述纳米孔被配置为(i)在将包含标签的核苷酸掺入核酸链中时接收所述标签的至少一部分,其中所述核酸链与所述核酸分子的至少一部分互补,以及(ii)当所述标签的所述至少一部分在所述纳米孔内时,检测指示所述纳米孔中的阻抗或阻抗变化的一个或多个信号,其中所述一个或多个信号可用于鉴定掺入所述核酸链中的核苷酸。
在一些实施方案中,所述一个或多个信号是电流或电压。在一些实施方案中,所述纳米孔被配置为当所述标签的至少一部分位于所述纳米孔内时测量电流或其变化。在一些实施方案中,所述一个或多个信号不是隧道电流。在一些实施方案中,所述电流不是法拉第电流。在一些实施方案中,所述纳米孔是包含隧道结的电路的一部分。在一些实施方案中,所述纳米孔包括被配置为检测所述一个或多个信号的多个电极。
在一些实施方案中,所述纳米孔包括蛋白质纳米孔或固态纳米孔。
在一些实施方案中,当所述核苷酸掺入所述核酸链中时,所述标签的所述至少一部分从所述核苷酸释放。在一些实施方案中,所述系统还包含至少一种配置为进行所述掺入的酶。在一些实施方案中,所述至少一种酶与(i)所述纳米孔的至少一部分或(ii)具有纳米孔的膜偶联。在一些实施方案中,所述至少一种酶与(i)所述纳米孔的至少一部分或(ii)具有纳米孔的膜缀合。
在一些实施方案中,所述膜是脂质双层。在一些实施方案中,所述膜是固态膜。在一些实施方案中,所述纳米孔或膜被配置为结合所述至少一种酶的至少一部分。在一些实施方案中,所述至少一种酶被配置为结合至所述纳米孔的至少一部分或所述膜的至少一部分。
在不同的方面,本公开内容提供了对多个多核苷酸进行测序的方法,其包括:使个体多核苷酸环化以提供多个环状多核苷酸;使用切口酶对所述环状多核苷酸的一条链进行切口以在每个所述环状多核苷酸上提供切口位点;将聚合酶与所述切口位点结合;以及对所述环状多核苷酸进行测序。
在一些实施方案中,所述多核苷酸包括双链多核苷酸。在一些实施方案中,所述多核苷酸包括单链多核苷酸,并且所述方法包括在所述单链多核苷酸的衔接子区域添加引物序列。
在任何一种主题方法的一些实施方案中,所述方法还包括在环化个体多核苷酸之前,扩增所述多个多核苷酸。在任何一种主题方法的一些实施方案中,所述多核苷酸包括DNA、cDNA、ctDNA或任何前述的组合。在任何一种主题方法的一些实施方案中,使所述多个多核苷酸环化包括使所述多个多核苷酸与连接酶反应。在任何一种主题方法的一些实施方案中,所述环状多核苷酸包括环状双链多核苷酸,并且切口包括将所述环状双链多核苷酸的内链切口。在任何一种主题方法的一些实施方案中,所述环状多核苷酸包括环状双链多核苷酸,并且切口包括将所述环状双链多核苷酸的外链切口。
在任何一种主题方法的一些实施方案中,所述切口酶包括sgRNA-CRISPR Cas9n(Cas9 D10A)切口酶复合物。在一些实施方案中,sgRNA包含与靶核苷酸序列互补的核苷酸序列。在任何一种主题方法的一些实施方案中,所述切口酶包括Cas9n(Cas9 D10A)切口酶。
在任何一种主题方法的一些实施方案中,所述聚合酶包含接头。在一些实施方案中,所述方法还包括在将包含接头的所述聚合酶结合至所述切口位点之后,将所述接头结合至纳米孔。在任何一种主题方法的一些实施方案中,所述聚合酶包含接头和结合至接头的蛋白质纳米孔。
在任何一种主题方法的一些实施方案中,所述方法还包括在环化所述多个多核苷酸之前,切割所述多核苷酸以提供靶向的多核苷酸片段。在任何一种主题方法的一些实施方案中,所述切割包括将生物素化的sgRNA-CRISPER Cas9n复合物与所述多核苷酸结合。在一些实施方案中,所述生物素化的sgRNA包含与靶多核苷酸序列互补的核苷酸序列。在任何一种主题方法的一些实施方案中,所述方法还包括富集所述靶向的多核苷酸片段。
在任何一种主题方法的一些实施方案中,所述聚合酶表现出强的链置换活性。
在任何一种主题方法的一些实施方案中,所述测序包括在结合至所述纳米孔的同时对所述环状多核苷酸进行超过一次测序。在任何一种主题方法的一些实施方案中,所述测序包括正向测序和反向测序。在任何一种主题方法的一些实施方案中,所述多核苷酸包括双链多核苷酸,而无切口多核苷酸链包含用于扩增和测序的模板。在任何一种主题方法的一些实施方案中,所述多核苷酸包括基因组DNA、cDNA、无细胞DNA、ctDNA或其组合。在任何一种主题方法的一些实施方案中,所述测序包括滚环扩增和转录。在任何一种主题方法的一些实施方案中,所述测序包括全基因组测序。在任何一种主题方法的一些实施方案中,所述测序包括靶向测序。在任何一种主题方法的一些实施方案中,所述靶向测序包括鉴定序列变体。
本公开内容的另一方面提供了包含机器可执行代码的非暂时性计算机可读介质,所述机器可执行代码在由一个或多个计算机处理器执行时实现上述或本文其他地方的任何方法。
本公开内容的另一方面提供了包含一个或多个计算机处理器和与之耦合的计算机存储器的系统。所述计算机存储器包含机器可执行代码,所述机器可执行代码在由所述一个或多个计算机处理器执行时实现上述或本文其他地方的任何方法。
通过以下在其中仅示出和描述了本公开内容的说明性实施方案的详细描述,本公开内容的其他方面和优点对于本领域技术人员将变得显而易见。如将认识到的,本公开内容能够具有其他不同的实施方式,并且其若干细节能够在不脱离本公开内容的情况下在各种明显的方面进行修改。因此,附图和具体实施方式应被视为本质上是说明性的,而非限制性的。
援引并入
说明书中提及的所有出版物、专利和专利申请均通过引用并入本文,程度如同具体地和个别地指出要通过引用来并入每一个出版物、专利或专利申请。在通过引用并入的出版物和专利或专利申请与本说明书中包含的公开内容相抵触时,本说明书旨在取代和/或优先于任何此类矛盾的材料。
附图说明
本发明的新颖特征在所附权利要求中具体阐述。通过参考以下对其中利用到本发明原理的说明性实施方案加以阐述的详细描述以及附图(在本文也称为“图”),将会获得对本发明特征和优点的更好理解,在这些附图中:
图1A示意性地示出了用于提供具有切口的环状核酸的示例方法;
图1B和1C示意性地示出了用于分离或富集包含识别位点的线性或环状核酸的示例方法;
图1D示意性地示出了通过使用一种或多种尿嘧啶特异性酶来提供在环状核酸内的特定位置处包含切口的环状核酸的示例方法;
图2A和2B示意性地示出了用于在环状核酸内距靶位点已知距离处产生切口的示例方法;
图2C和2D示意性地示出了用于分离或富集包含识别位点和靶位点的环状核酸的示例方法;
图3示意性地示出了用于双链核酸测序的示例方法;
图4A示意性地示出了使用纳米孔测序进行靶向测序的示例方法;
图4B示意性地示出了使用纳米孔测序进行基因组测序的示例方法;
图5A至图5D示意性地示出了用于获得一个或多个核酸样品的序列信息的示例性纳米孔测序系统;
图6示出了被编程或以其他方式配置用于实现本文提供的方法的计算机系统。
图7A示出了包含多个环化的单链核酸的样品的凝胶电泳图像的实例,图7B示出了来自环化的单链核酸的RCA产物的荧光图像的实例;
图7C示出了包含多个环化的双链核酸的样品的凝胶电泳图像的实例,图7D示出了来自环化的双链核酸的RCA产物的荧光图像的实例;以及
图8示出了环状双链核酸与(i)野生型聚合酶和(ii)突变型聚合酶复合的凝胶电泳图像的实例。
具体实施方式
尽管本文已经示出和描述了本发明的各个实施方式,但对于本领域技术人员容易理解的是,这样的实施方式只是以示例的方式提供的。本领域技术人员可以在不偏离本发明的情况下想到许多更改、改变和替代。应当理解,可以采用对本文所描述的本发明实施方式的各种替代方案。
如说明书和权利要求书中所使用的,除非上下文另有明确指示,否则单数形式“一个”、“一种”和“该”可包括复数指代物。例如,术语“跨膜受体”可以包括多个跨膜受体。
如本文所用,术语“约”或“大约”可指在由本领域普通技术人员确定的特定值的可接受误差范围内,该可接受误差范围将部分取决于该值如何测量或确定,即,测量系统的局限性。例如,根据本领域的实践,“约”可以意指在1个标准偏差内或者大于1个标准偏差。或者,“约”可以意指给定值的至多20%、至多10%、至多5%或至多1%的范围。或者,特别是对于生物系统或过程,该术语可指在某值的数量级内,优选在5倍以内,更优选在2倍以内。在本申请和权利要求书中描述了特定值的情况下,除非另有说明,否则应当假定术语“约”意指在该特定值的可接受误差范围内。
如本文所用,术语“细胞”通常是指生物细胞或细胞衍生物。细胞可以是活生物体的基本结构、功能和/或生物单元。细胞可以源自任何具有一个或多个细胞的生物体。一些非限制性实例包括:原核细胞、真核细胞、细菌细胞、古菌细胞、单细胞真核生物体的细胞、原生动物细胞、来自植物的细胞(例如,来自植物作物、水果、蔬菜、谷物、大豆、玉米、玉蜀黍、小麦、种子、番茄、水稻、木薯、甘蔗、南瓜、干草、土豆、棉花、大麻、烟草、开花植物、针叶树、裸子植物、蕨类植物、石松类植物、角苔类植物、苔类植物、苔藓植物的细胞)、藻类细胞(例如,布朗葡萄藻(Botryococcus braunii)、莱茵衣藻(Chlamydomonas reinhardtii)、海洋富油微拟球藻(Nannochloropsis gaditana)、蛋白核小球藻(Chlorella pyrenoidosa)、展枝马尾藻圆干变种(Sargassum patens C.Agardh)等)、海藻(例如,海带)、真菌细胞(例如,酵母细胞、来自蘑菇的细胞)、动物细胞、来自无脊椎动物(例如,果蝇、刺胞动物、棘皮动物、线虫等)的细胞、来自脊椎动物(例如,鱼类、两栖动物、爬行动物、鸟类、哺乳动物)的细胞、来自哺乳动物(例如,猪、牛、山羊、绵羊、啮齿动物、大鼠、小鼠、非人类灵长类动物、人类等)的细胞等。有时细胞不起源于天然生物体(例如,细胞可以是合成的,有时称为人造细胞)。
如在本文中可互换使用的,术语“核苷酸”、“核碱基”和“碱基”通常是指碱基-糖-磷酸盐组合。核苷酸可包括合成核苷酸。核苷酸可包括合成核苷酸类似物。核苷酸可以是核酸序列的单体单元(例如,脱氧核糖核酸(DNA)和核糖核酸(RNA))。术语核苷酸可包括核糖核苷三磷酸(腺苷三磷酸(ATP)、尿苷三磷酸(UTP)、胞嘧啶三磷酸(CTP)、鸟苷三磷酸(GTP)、尿苷三磷酸(UTP))和脱氧核糖核苷三磷酸(如dATP、dCTP、dITP、dUTP、dGTP、dTTP)或其衍生物。这样的衍生物可以包括例如[αS]dATP、7-脱氮-dGTP和7-脱氮-dATP,以及在含有它们的核酸分子上赋予核酸酶抗性的核苷酸衍生物。如本文所用的,术语核苷酸通常指双脱氧核苷三磷酸(ddNTP)及其衍生物。双脱氧核苷三磷酸的说明性实例可包括但不限于ddATP、ddCTP、ddGTP、ddITP和ddTTP。核苷酸可以是未标记的或可检测地标记的。还可以用量子点执行标记。可检测的标记可以包括例如放射性同位素、荧光标记、化学发光标记、生物发光标记和酶标记。核苷酸的荧光标记可包括但不限于荧光素、5-羧基荧光素(FAM)、2′7′-二甲氧基-4′5-二氯-6-羧基荧光素(JOE)、罗丹明、6-羧基罗丹明(R6G)、N,N,N′,N′-四甲基-6-羧基罗丹明(TAMRA)、6-羧基-X-罗丹明(ROX)、4-(4′-二甲基氨基苯基偶氮)苯甲酸(DABCYL)、级联蓝、俄勒冈绿、德克萨斯红、花菁和5-(2′-氨基乙基)氨基萘-1-磺酸(EDANS)。荧光标记的核苷酸的具体实例可以包括可从Perkin Elmer,Foster City,Calif获得的[R6G]dUTP、[TAMRA]dUTP、[R110]dCTP、[R6G]dCTP、[TAMRA]dCTP、[JOE]ddATP、[R6G]ddATP、[FAM]ddCTP、[R110]ddCTP、[TAMRA]ddGTP、[ROX]ddTTP、[dR6G]ddATP、[dR110]ddCTP、[dTAMRA]ddGTP和[dROX]ddTTP;可从Amersham,Arlington Heights,Ill.获得的FluoroLink脱氧核苷酸、FluoroLink Cy3-dCTP、FluoroLink Cy5-dCTP、FluoroLink FluorX-dCTP、FluoroLink Cy3-dUTP和FluoroLink Cy5-dUTP;可从Boehringer Mannheim,Indianapolis,Ind.获得的荧光素-15-dATP、荧光素-12-dUTP、四甲基-罗丹明-6-dUTP、IR770-9-dATP、荧光素-12-ddUTP、荧光素-12-UTP和荧光素-15-2'-dATP;以及可从Molecular Probes,Eugene,Oreg获得的染色体标记的核苷酸、BODIPY-FL-14-UTP、BODIPY-FL-4-UTP、BODIPY-TMR-14-UTP、BODIPY-TMR-14-dUTP、BODIPY-TR-14-UTP、BODIPY-TR-14-dUTP、级联蓝-7-UTP、级联蓝-7-dUTP、荧光素-12-UTP、荧光素-12-dUTP、俄勒冈绿488-5-dUTP、罗丹明绿-5-UTP、罗丹明绿-5-dUTP、四甲基罗丹明-6-UTP、四甲基罗丹明-6-dUTP、德克萨斯红-5-UTP、德克萨斯红-5-dUTP和德克萨斯红-12-dUTP。核苷酸还可以通过化学修饰进行标记或标示。化学修饰的单个核苷酸可以是生物素-dNTP。生物素化dNTP的一些非限制性实例可以包括生物素-dATP(例如,bio-N6-ddATP、生物素-14-dATP)、生物素-dCTP(例如,生物素-11-dCTP、生物素-14-dCTP)和生物素-dUTP(例如,生物素-11-dUTP、生物素-16-dUTP、生物素-20-dUTP)。
天然存在的核苷酸鸟嘌呤、胞嘧啶、腺嘌呤、胸腺嘧啶和尿嘧啶可以分别缩写为G、C、A、T和U。核苷酸可以包括可以掺入生长的核酸链中的任何亚基。此类亚基可以是A、C、G、T或U,或对一个或多个互补A、C、G、T或U具有特异性的或与嘌呤(即,A或G或其变体)或嘧啶(即,C、T或U或其变体)互补的任何其他亚基。亚基可以使个体核酸碱基或碱基组(例如,AA、TA、AT、GC、CG、CT、TC、GT、GT、TG、AC、CA或其尿嘧啶对应物)分解。
术语“多核苷酸”、“寡核苷酸”、“寡聚体”和“核酸”在本文中可互换使用,通常指任何长度的核苷酸的聚合形式,无论是脱氧核糖核苷酸还是核糖核苷酸还是其类似物,无论是单链、双链还是多链形式。多核苷酸对于细胞而言可以是外源的或内源的。多核苷酸可以存在于无细胞环境中。多核苷酸可以是基因或其片段。多核苷酸可以是DNA。多核苷酸可以是RNA。多核苷酸可以具有任何三维结构,并且可以执行任何已知或未知的功能。多核苷酸可以包括一种或多种类似物(例如,改变的骨架、糖或核碱基)。在存在修饰的情况下,可以在聚合物组装之前或之后对核苷酸结构进行修饰。类似物的一些非限制性实例包括:5-溴尿嘧啶、肽核酸、异种核酸、吗啉代物、锁核酸、乙二醇核酸、苏糖核酸、双脱氧核苷酸、蛹虫草菌素、7-脱氮-GTP、荧光团(例如,与糖连接的罗丹明或荧光素)、含巯基核苷酸、生物素连接的核苷酸、荧光碱基类似物、CpG岛、甲基-7-鸟苷、甲基化核苷酸、肌苷、硫尿苷、假尿苷、二氢尿嘧啶核苷、辫苷和怀俄苷。多核苷酸的非限制性实例包括基因或基因片段的编码或非编码区、由连锁分析定义的基因座、外显子、内含子、信使RNA(mRNA)、转移RNA(tRNA)、核糖体RNA(rRNA)、短干扰RNA(siRNA)、短发夹RNA(shRNA)、微小RNA(miRNA)、核酶、互补DNA(cDNA,诸如双链cDNA(dd-cDNA)或单链cDNA(ss-cDNA))、循环肿瘤DNA(ctDNA)、受损DNA、重组多核苷酸、支化多核苷酸、质粒、载体、任何序列的分离DNA、任何序列的分离RNA、无细胞多核苷酸(包括无细胞DNA(cfDNA)和无细胞RNA(cfRNA))、核酸探针(例如,荧光原位杂交(FISH)探针)和引物。核苷酸的序列可被非核苷酸组分中断。多核苷酸可包含一个或多个经修饰的核苷酸,如甲基化核苷酸和核苷酸类似物。在存在修饰的情况下,可以在聚合物组装之前或之后对核苷酸结构进行修饰。核苷酸的序列可以被非核苷酸组分中断。多核苷酸可在聚合后进一步修饰,诸如通过与标记组分缀合。
如本文所用的,术语“基因”通常是指涉及编码RNA转录物的核酸(例如DNA,如基因组DNA和cDNA)及其相应的核苷酸序列。如本文中关于基因组DNA所使用的术语“基因”可以包括间插的非编码区以及调控区,并且可以包括5'和3’末端。在一些使用中,该术语包括转录的序列,包括5'和3'非翻译区(5'-UTR和3'-UTR)、外显子和内含子。在一些基因中,转录的区域将包含编码多肽的“开放阅读框”。在该术语的一些使用中,“基因”仅包括编码多肽所必需的编码序列(例如,“开放阅读框”或“编码区”)。基因可能不编码多肽,例如核糖体RNA(rRNA)基因和转移RNA(tRNA)基因。术语“基因”不仅可以包括转录序列,还包括非转录区,非转录区包括上游和下游调控区、增强子和启动子。基因可以是在生物体基因组中的自然位置的“内源基因”或天然基因。基因可以是“外源基因”或非天然基因。非天然基因可以是通常不在宿主生物体中发现的基因,而是通过基因转移引入宿主生物体的基因(例如,转基因)。非天然基因可以是包含突变、插入和/或缺失的天然存在的核酸或多肽序列(例如,非天然序列)。
如本文所用,术语“突变”通常是指正常保守的核酸序列的核苷酸序列的改变,导致形成不同于正常(未改变)或野生型序列的突变体。在测序之前,突变的位置(例如,相对于基因或样品多核苷酸)和序列可能是未知的。或者,在测序之前可能已知突变的位置(例如,相对于基因或样品多核苷酸)和序列,在这种情况下,可以进行测序以检测样品多核苷酸中是否存在突变。突变可包括碱基对置换(例如,单核苷酸置换)和移码突变。移码突变可能需要插入或删除一个至几个核苷酸对。
如本文所用的,术语“探针”通常是指标记有标记物(例如,荧光标记物)的核苷酸或多核苷酸,标记物可用于在杂交反应中通过与相应的靶序列杂交来检测或鉴定其相应的靶核苷酸或多核苷酸。如在本文中可互换使用的,术语“核苷酸探针”、“核苷酸标签”和“标记的核苷酸”通常是指具有单个核苷酸的探针。如在本文中可互换使用的,术语“多核苷酸探针”、“多核苷酸标签”和“标记的多核苷酸”通常是指具有多核苷酸的探针。多核苷酸探针可以用至少一个标记物(例如,多核苷酸探针的每个核苷酸一个标记物)标记。探针可以与一个或多个靶核苷酸或多核苷酸杂交。多核苷酸探针可以与样品中的一个或多个靶多核苷酸完全互补,或包含与样品中一个或多个靶多核苷酸的一个或多个核苷酸不互补(即错配)的一个或多个核苷酸。
如在本文中可互换使用的,术语“互补”、“互补序列”、“互补的”和“互补性”通常是指与给定序列完全互补且可杂交的序列。与给定核酸杂交的序列称为给定分子的“互补序列”或“反向互补序列”,前提是其在给定区域上的碱基序列能够与其结合伴侣的碱基序列互补地结合,使得例如形成A-T、A-U、G-C和G-U碱基对。通常,可与第二序列杂交的第一序列可与第二序列特异性或选择性地杂交,使得在杂交反应期间,相对于与非靶序列杂交,优选与第二序列或第二序列组杂交(例如,在给定条件(例如本领域常用的严格条件)下在热力学上更稳定)。通常,可杂交序列在其各自的全部或部分长度上共享一定程度的序列互补性,诸如25%-100%之间的互补性,包括至少25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%和100%的序列互补性。各自的长度可以包括具有至少2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、30、35、40、45、50或更多个核苷酸的区域。诸如出于评估互补性百分比的目的,可以通过任何合适的比对算法来测量序列同一性,包括但不限于Needleman-Wunsch算法(参见例如www.ebi.ac.uk/Tools/psa/emboss_needle/nucleotide.html上可用的EMBOSS Needle比对器,任选使用默认设置)、BLAST算法(参见例如blast.ncbi.nlm.nih.gov/Blast.cgi上可用的BLAST比对工具,任选使用默认设置)或Smith-Waterman算法(参见例如www.ebi.ac.uk/Tools/psa/emboss_water/nucleotide.html上可用的EMBOSS Water比对器,任选使用默认设置)。可以使用所选算法的任何合适参数,包括默认参数,来评估最佳比对。
互补性可以是完全的或实质上的/足够的。两个核酸之间的完全互补性可意指两个核酸可以形成双链体,其中双链体中的每个碱基都通过Watson-Crick配对与互补碱基结合。实质上的或足够的互补可意指一条链中的序列与相对链中的序列不完全和/或不完美互补,但是在一组杂交条件(例如,盐浓度和温度)下,两条链上的碱基之间发生足够的结合以形成稳定的杂合复合物。可以通过使用序列和标准数学计算来预测杂交链的Tm或通过使用常规方法凭经验确定Tm,从而预测这样的条件。
如本文所用的,术语“杂交”通常是指一种反应,其中一种或多种多核苷酸反应形成复合物,该复合物通过核苷酸残基的碱基之间的氢键稳定。氢键可以通过Watson Crick碱基配对、Hoogstein结合或根据碱基互补性以任何其他序列特异性方式发生。该复合物可包含形成双链体结构的两条链、形成多链复合物的三条或更多条链、一条自杂交链或它们的任意组合。杂交反应可以构成更广泛过程,诸如启动PCR或通过核酸内切酶进行多核苷酸的酶促切割中的一个步骤。与第一序列互补的第二序列可以被称为第一序列的“互补序列”。应用于多核苷酸的术语“可杂交的”通常是指多核苷酸形成复合物的能力,该复合物通过杂交反应中核苷酸残基的碱基之间的氢键而稳定。
如本文所用的,术语“靶多核苷酸”通常是指具有靶序列的核酸分子或核酸分子群体中的多核苷酸。其中需要确定存在、数目和/或核苷酸序列,或它们中的一个或多个的变化。术语“靶序列”通常是指核酸的单链上的核酸序列。靶序列可以是基因的一部分、调节序列、基因组DNA、cDNA、ctDNA、RNA(包括mRNA、miRNA、rRNA)或其他。靶序列可以是来自样品的靶序列或次级靶,诸如扩增反应的产物。靶多核苷酸可以是包含一个或多个突变的基因(或其片段)的一部分。
如本文所用的,术语“靶位点”通常是指包含靶多核苷酸(或靶核苷酸)的多核苷酸序列。靶位点的靶多核苷酸(或靶核苷酸)可以是一种或多种序列变体。一种或多种序列变体的实例可包括单个核苷酸变异、一个或多个核苷酸(例如,连续或非连续核苷酸)的插入或缺失、包含一个或多个核苷酸的一次或多次重复的拷贝数变异(CNV)(例如,平均大小为至少1、5、10、50、100、150、200或更多千碱基(kb)的CNV;平均大小至多为200、150、100、50、10、5、1或更小kb的CNV)以及微卫星不稳定性(MSI)。靶位点可以包括至少1、2、3、4、5、6、7、8、9、10、15、20、25、30、40、50、100、200、300、400、500、1,000、5,000、10,000、50,000、100,000、500,000或更多个核苷酸。靶位点可以包括至多500,000、100,000、50,000、10,000、5,000、1,000、500、400、300、200、100、50、40、30、25、20、15、10、9、8、7、6、5、4、3、2或1个核苷酸。靶位点可以比靶多核苷酸包含多至少1、2、3、4、5、6、7、8、9、10、15、20、25、30、40、50、100、200、300、400、500、1,000、5,000、10,000、50,000、100,000、500,000或更多个核苷酸。靶位点可以比靶多核苷酸包含多至多500,000、100,000、50,000、10,000、5,000、1,000、500、400、300、200、100、50、40、30、25、20、15、10、9、8、7、6、5、4、3、2或1个核苷酸。在一些实例中,靶位点可以是靶多核苷酸。
如本文所用的,术语“严格条件”通常是指一种或多种杂交条件,在该条件下,与靶序列具有互补性的核酸主要与靶序列杂交,并且基本上不与非靶序列杂交。严格条件可以是序列依赖性的,并且可以取决于许多因素而变化。在一些情况下,序列越长,序列可以与其靶序列特异性杂交的温度越高。
如本文所用的,术语“识别部分”通常是指能够与核酸序列相互作用的分子(例如,小分子、多核苷酸、蛋白质、其变体或其组合),即“识别序列”或“识别位点”,诸如所需(或靶标)核酸序列。识别部分可以包含能够结合(例如,杂交)到识别序列的结构域(例如,包含该结构域的组分)。这样的结构域可包含一个或多个氨基酸、一个或多个核苷酸、其变体或其组合。备选地或附加地,识别部分可以与包含这种结构域的二级分子缔合(例如,结合)。在一些实例中,识别部分可包含能够与识别序列杂交的核酸分子。在一些实例中,识别部分可包含表现出特定生物学活性的组分,活性包括但不限于核酸酶(例如,双链核酸酶)、切口酶、转录激活因子、转录阻遏物、核酸甲基化酶、核酸去甲基化酶和重组酶的一种或多种活性。识别序列可以包括至少3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、30、35、40、45、50个或更多核苷酸。识别序列可以包括至多50、45、40、35、30、25、24、23、22、21、20、19、18、17、16、15、14、13、12、11、10、9、8、7、6、5、4、3或更少核苷酸。
识别部分可用于从多个分子(例如,多个核酸分子)中分离出包含所需核酸序列的所需分子。识别部分可用于在组合物或反应混合物中富集包含所需核酸的所需分子。在一些实例中,识别部分可以由捕获系统(例如,磁珠)经由一种或多种相互作用(例如,抗生物素蛋白-生物素结合、磁结合等)捕获。在一个实例中,识别部分可以包含生物素,其可以与链霉亲和素磁珠复合以用于分离或富集。
识别部分的实例可包括CRISPR-相关(Cas)系统(例如,Cas蛋白,包括催化活性或非活性Cas多肽);锌指核酸酶(ZFN);转录激活子样效应物核酸酶(TALEN);大范围核酸酶;RNA结合蛋白(RBP);Cas RNA结合蛋白;重组酶;翻转酶;转座酶;Argonaute(Ago)蛋白(例如,原核Argonaute(pAgo)、古细菌Argonaute(aAgo)和真核Argonaute(eAgo));其变体;及其组合。识别部分可以包括可以被捕获系统通过一种或多种相互作用捕获的多核苷酸(例如,至少2、3、4、5、6、7、8、9、10或更多个核苷酸长的序列),例如,被生物素标记的多核苷酸序列可以被一个或多个抗生物素蛋白官能化的磁珠捕获。多核苷酸的至少一部分可以与靶核酸分子的识别序列共享互补性。
如本文所用的,术语“切口酶”通常是指切割双链核酸分子(即,对双链分子“切口”)的一条链的分子(例如,酶)。切口酶可以是仅切割单条DNA链的核酸酶,这是由于其天然功能或因为它已经被工程化(例如,通过突变和/或删除一个或多个核苷酸进行修饰)以仅切割单条DNA链。切口酶可以是产生切口的酶(例如,限制性核酸内切酶、切口核酸内切酶等)。切口酶可结合至双链核酸分子的切口位点,以在双链核酸分子的一条链中产生切口(或缺口)。切口可以在切口位点内产生。备选地,可以在切口位点附近产生切口。在一些情况下,切口酶可以结合至与切口位点相邻的切口酶结合位点。切口的长度可以是至少1、2、3、4、5、6、7、8、9、10或更多个核苷酸。切口的长度可以是至多10、9、8、7、6、5、4、3、2或1个核苷酸。切口酶的实例可以包括Cas系统(例如,Cas切口酶,诸如Cas9n)、N.Alw I、Nb.BbvCl、Nt.BbvCl、Nb.BsmI、Nt.BsmAI、Nt.BspQl、Nb.BsrDI、Nt.BstNBI、Nb.BstsCI、Nt.CviPII、Nb.Bpu l OI、Nt.Bpu l OI和Nt,Bst9I、其变体及其组合。在一些实例中,核酸分子(例如,自互补的双链核酸分子或单链核酸分子)可包含至少一个已经包括至少一个切口的切口位点。
如在本文中可互换使用的,术语“CRISPR-相关系统”、“Cas系统”和“Cas复合物”通常是指具有指导RNA(gRNA)和Cas多肽或蛋白质(例如,Cas核酸内切酶、其催化或非催化衍生物等)或其他具有核酸内切酶活性的蛋白质的双组分核蛋白复合物。术语“CRISPR”是指成簇的规律间隔的短回文重复序列及其相关系统。gRNA的至少一部分可与靶区域的至少一部分具有互补性。靶区域可包含“前间区序列”和“前间区序列邻近基序”(PAM),并且两个结构域对于Cas多肽的核酸酶活性(例如,切割)可能是必需的。前间区序列可以被称为靶位点(或基因组靶位点)。该gRNA可以与前间区序列(结合位点)的相对链配对(或杂交)以将Cas多肽引导至靶区域。PAM位点通常是指被Cas多肽识别的短序列,在一些情况下,可能是核酸酶(或切口酶)活性所必需的。PAM位点的核苷酸序列和数目可以根据Cas酶的类型而有所不同。
Cas多肽可包含核酸酶(或切口酶)活性,并且gRNA可与Cas多肽相互作用以将Cas多肽的核酸酶(或切口酶)活性引导至期望的靶区域。备选地,Cas多肽可以是非催化性的并且可以不包含核酸酶活性。非催化性Cas多肽可以被称为死亡的或失活的Cas(dCas)。
Cas蛋白可以包括CRISPR-相关的I型、II型或III型系统的蛋白质或衍生自CRISPR-相关的I型、II型或III型系统的蛋白质,该蛋白质可以具有RNA-指导的多核苷酸-结合或核酸酶活性。合适的Cas蛋白的实例包括Cas3、Cas4、Cas5、Cas5e(或CasD)、Cas6、Cas6e、Cas6f、Cas7、Cas8a1、Cas8a2、Cas8b、Cas8c、Cas9(也称为Csn1和Csxl2)、Cas10、Cas10d、CasF、CasG、CasH、Csy1、Csy2、Csy3、Cse1(或CasA)、Cse2(或CasB)、Cse3(或CasE)、Cse4(或CasC)、Csc1、Csc2、Csa5、Csn2、Csm2、Csm3、Csm4、Csm5、Csm6、Cmr1、Cmr3、Cmr4、Cmr5、Cmr6、Csb1、Csb2、Csb3、Csx17、Csx14、Csx10、Csx16、CsaX、Csx3、Csz1、Csx15、Csf1、Csf2、Csf3、Csf4、Cu1966、其同源物及其修饰形式(例如,催化的或非催化的)。在一些情况下,Cas蛋白可包括CRISPR-相关的V型或VI型系统的蛋白质或衍生自CRISPR-相关的V型或VI型系统的蛋白质,诸如Cpf1(或Cas12a)、C2c1(或Cas12b)、C2c2、其同源物和其修饰形式(例如,催化或非催化)。
尽管本文的某些实例涉及Cas蛋白,但是可以使用具有核酸内切酶活性的其他蛋白。例如,此类其他蛋白质可能不是Cas蛋白质,但可以配置为与gRNA一起使用。
可以将Cas多肽或蛋白质工程化以将核酸酶活性修饰为切口酶活性。例如,来自酿脓链球菌(S.pyogenes)的Cas9的RuvC I催化结构域中的天冬氨酸至丙氨酸置换(D10A)可以将Cas9从切割两条链的核酸酶转化为仅切割单条链的Cas9n切口酶。Cas9n切口酶突变体可以在DNA中引入gRNA-靶向的单链断裂,而不是野生型Cas多肽产生的双链断裂。使Cas9成为切口酶的突变的其他实例可以包括H840A、N854A和N863A。
如本文所用,术语“指导RNA(gRNA)”通常是指可以结合Cas多肽并帮助将Cas多肽靶向靶核酸区域内特定位置的RNA分子(例如,DNA或基因)。gRNA与靶核酸区域内特定位置之间的互补程度可以为至少50%、60%、75%、80%、85%、90%、95%、97.5%、99%或更高。指导RNA可以包含CRISPR RNA(crRNA)区段和反式激活的crRNA(tracrRNA)区段。如在本文中可互换使用的,术语“crRNA”和“crRNA区段”通常是指RNA分子或其部分,其包括多核苷酸靶向的指导序列、茎序列以及任选的5'-突出端序列。如在本文中可互换使用的,术语“tracrRNA”和“tracrRNA区段”通常是指包括蛋白质结合区段(例如,能够与CRISPR相关蛋白如Cas9相互作用的蛋白质结合区段)的RNA分子或其部分。在一些情况下,指导RNA可以是单个指导RNA(sgRNA),其中crRNA区段和tracrRNA区段位于同一RNA分子中。gRNA可以包含一种或多种肽核酸。
crRNA可以包含至少15、16、17、18、19、20、21、22、23、24、25、30、35、40或更多个RNA碱基。crRNA可以包含至多40、35、30、25、24、23、22、21、20、19、18、17、16、15或更少个RNA碱基。Cas系统的gRNA的靶核酸序列可以包含至少15、16、17、18、19、20、21、22、23、24、25、30、35、40或更多个DNA碱基。Cas系统的gRNA的靶核酸序列可以包含至多40、35、30、25、24、23、22、21、20、19、18、17、16、15或更少个DNA碱基。可以选择crRNA序列以靶向任何靶序列。靶序列可以是细胞基因组内的序列。靶序列可以包括在靶基因组中独特的序列。
如本文所用的,术语“聚合酶”通常是指能够催化聚合反应的酶(例如,天然的或合成的)。聚合酶的实例可包括核酸聚合酶(例如,DNA聚合酶或RNA聚合酶)、转录酶和连接酶(liage)。聚合酶可以是聚合反应酶(polymerization enzyme)。术语“DNA聚合酶”通常是指能够催化DNA的聚合反应的酶。
如本文所用的,术语“连接的聚合酶”通常是指偶联至(例如,融合至)接头的聚合酶,诸如DNA聚合酶。接头可能能够偶联(例如,结合或缀合至)另一实体(例如,纳米孔,诸如蛋白质纳米孔或固态纳米孔)。
如在本文中可互换使用的,术语“序列变体”和“测序变体”通常是指相对于一个或多个参考序列的任何序列变化。通常,对于提供参考序列的给定个体群体,序列变体出现的频率低于参考序列。例如,特定细菌属可能具有16S rRNA基因的共有参考序列,但该属中的个体种可能在基因或基因的一部分内具有一个或多个序列变体,其可用于鉴定细菌群体中的该种。作为进一步的实例,当最佳比对时,相同物种的多个个体的序列或相同个体的多个测序读取可产生共有序列,并且关于该共有序列的序列变体可以用于鉴定群体中指示危险污染的突变体。通常,“共有序列”是指反映序列中每个位置上最常见的碱基选择的核苷酸序列,在该序列中,相关核酸系列已进行了深入的数学和/或序列分析,例如根据多种序列比对算法中的任一种的最佳序列比对。参考序列是单个已知的参考序列,诸如单个个体的基因组序列。参考序列可以是通过比对多个已知序列而形成的共有序列,该已知序列诸如是用作参考群体的多个个体的基因组序列或是来自同一个体的多核苷酸的多个测序读取。参考序列可以是通过最佳地比对来自被分析样品的序列而形成的共有序列,从而序列变体代表相对于同一样品中的相应序列的变化。序列变体可以在群体中以低频率出现(也称为“稀有”序列变体)。例如,序列变体可以以小于或等于5%、4%、3%、2%、1.5%、1%、0.75%、0.5%、0.25%、0.1%、0.075%、0.05%、0.04%、0.03%、0.02%、0.01%、0.005%、0.001%或更低的频率出现。序列变体可以以小于或等于0.1%的频率出现。
序列变体可以是相对于参考序列的任何变异。序列变异可以包括单个核苷酸或多个核苷酸(诸如2、3、4、5、6、7、8、9、10或更多的核苷酸)的改变、插入或缺失。当序列变体包含两个或更多个核苷酸差异时,该不同的核苷酸可以彼此连续或不连续。序列变体类型的示例包括单核苷酸多态性(SNP)、缺失/插入多态性(DIP)、拷贝数变体(CNV)、短串联重复序列(STR)、简单序列重复序列(SSR)、可变数目的串联重复序列(VNTR)、扩增片段长度多态性(AFLP)、基于逆转录子的插入多态性、序列特异性的扩增多态性以及可以检测为序列变体的表观遗传标记差异(例如,甲基化差异)。
如本文所用的,术语“测序”通常是指确定核苷酸在靶核苷酸序列中出现的顺序的程序。测序方法可以包括高通量测序,例如下一代测序(NGS)。测序可以是全基因组测序或靶向测序。测序可以是单分子测序或大规模平行测序。下一代测序方法可在一次运行中获得数百万个序列。在一个实例中,可以使用一种或多种纳米孔测序方法来进行测序,例如,合成测序、连接测序或切割测序。
如本文所用的,术语“纳米孔”通常是指在膜中形成或以其他方式提供的孔、通道或通路。该膜可以是有机膜,诸如脂质双层,或合成膜,诸如由聚合物材料诸如蛋白质纳米孔形成的膜。该膜可以是固态膜(例如,硅基底)。纳米孔可邻近或接近感测电路或耦合至感测电路(例如,互补金属氧化物半导体(CMOS)或场效应晶体管(FET)电路)的电极而设置。纳米孔可以是感测电路的一部分。纳米孔可具有特征宽度或直径,例如,约0.1纳米(nm)至1000nm。纳米孔可以是生物纳米孔、固态纳米孔、杂化生物-固态纳米孔、其变体或其组合。生物纳米孔的实例包括但不限于来自大肠杆菌(E.coli)属、沙门氏菌(Salmonella)属、志贺氏菌(Shigella)属和假单胞菌(Pseudomonas)属的OmpG,以及来自金黄色葡萄球菌(S.aureus)的α溶血素、来自耻垢分枝杆菌(M.smegmatis)的MspA、其功能变体或其组合。测序可包括正向测序和/或反向测序。固态纳米孔的实例包括但不限于氮化硅、氧化硅、石墨烯、硫化钼、其功能变体或其组合。固态纳米孔可以通过高能束制造、压印(例如,纳米压印)、激光消融、化学蚀刻、等离子体蚀刻(例如,氧等离子体蚀刻)等来制造。
如本文所用的,术语“纳米孔测序复合物”通常是指与酶例如聚合酶连接或偶联的纳米孔,该酶又与聚合物例如多核苷酸模板缔合。纳米孔测序复合物可以位于膜例如脂质双层中,在膜中其功能是鉴定聚合物组分,例如核苷酸或氨基酸。
如在本文可互换使用的,术语“纳米孔测序”和“基于纳米孔的测序”通常是指借助于纳米孔确定多核苷酸的序列的方法。在一些情况下,可以以模板依赖性方式确定多核苷酸的序列。在一些情况下,本文公开的方法、系统或组合物可能不限于任何特定的纳米孔测序方法、系统或装置。
如本文所用的,术语“条形码”通常是指已知的核酸序列,其允许鉴定与条形码缔合的多核苷酸(例如,包含条形码的至少一部分的多核苷酸或与条形码的至少一部分具有互补性的多核苷酸)的某些特征。在一些实例中,待鉴定的多核苷酸的特征可以是多核苷酸所来源的样品。条形码的长度可以是至少约3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20或更多个核苷酸。条形码的长度可以是至多20、19、18、17、16、15、14、13、12、11、10、9、8、7、6、5、4、3或2个核苷酸。与来自第一样品的多核苷酸缔合的条形码可以不同于(例如,不同的序列和/或不同的长度)与来自不同于第一样品的第二样品的多核苷酸缔合的条形码。在这种情况下,鉴定相应多核苷酸中的条形码可以帮助鉴定一种或多种多核苷酸的样品来源。因此,具有不同条形码的不同样品可以一起(例如,分批)进行分析(例如,测序),并且在分析期间至少部分地基于条形码进行分离。在一些实例中,即使在条形码序列中的一个或多个核苷酸发生突变、插入或缺失(例如,至少1、2、3、4、5、6、7、8、9、10个或更多个核苷酸的突变、插入或缺失)后,也可以准确鉴定条形码。来自同一样品的多个多核苷酸可以具有相同的条形码。或者,来自同一样品的多个多核苷酸可以具有不同的条形码。第一条形码可以与第二条形码相差至少三个核苷酸位置,诸如至少3、4、5、6、7、8、9、10或更多个核苷酸位置。可以在样品库中表现多个条形码,每个样品包含多核苷酸,该多核苷酸包含一个或多个条形码,这一个或多个条形码与源自库中其他样品的多核苷酸中包含的条形码不同。包含一个或多个条形码的多核苷酸样品可以根据它们所连接的条形码序列进行集中,使得所有四个核苷酸碱基A、G、C和T近似均匀地在库中沿着每个条形码的一个或多个位置(诸如在条形码的1、2、3、4、5、6、7、8或更多位置或所有位置)表现。在一些实例中,本发明的方法可以包括基于靶多核苷酸连接的条形码序列来鉴定该靶多核苷酸所来源的样品。条形码可包含核酸序列,该核酸序列当与靶多核苷酸连接时可充当该靶多核苷酸所来源的样品的标识符。在一个实例中,寡核苷酸引物(例如,扩增引物)可包含一个或多个条形码。在另一个实例中,可以将核酸分子偶联(例如,连接)到衔接子核酸(例如,用于环化),并且衔接子核酸可以包含一个或多个条形码。
如本文所用的,术语“样品”通常是指可以包括用于处理或分析的一种或多种成分(例如,核酸分子)的任何样品。样品可以是生物样品。样品可以是细胞或组织样品。样品可以是无细胞的样品,诸如血液(例如,全血)、血浆、血清、汗液、唾液或尿液。样品可以体内获得或体外培养。
如本文所用的,术语“受试者”通常是指衍生出样品的个体或实体,例如,脊椎动物(例如,哺乳动物,诸如人)或无脊椎动物。哺乳动物可以是鼠、猴、人、农场动物(例如,牛、羊、猪或鸡)或宠物(例如,猫或狗)。受试者可以是植物。受试者可以是患者。该受试者可能没有疾病(例如,癌症)症状。备选地,受试者可能有疾病症状。
每当术语“至少”、“大于”或“大于或等于”在一系列两个或更多个数值中的第一个数值之前时,术语“至少”、“大于”或“大于或等于”应用于该系列数值中的每个数值。例如,大于或等于1、2或3相当于大于或等于1、大于或等于2或者大于或等于3。
每当术语“不超过”、“小于”或“小于或等于”在一系列两个或更多个数值中的第一个数值之前时,术语“不超过”、“小于”或“小于或等于”应用于该系列数值中的每个数值。例如,小于或等于3、2或1相当于小于或等于3、小于或等于2或者小于或等于1。
概述
当前可用的测序方法可以用于对一种或多种核酸进行测序。然而,这样的方法可能是昂贵的,并且可能无法在诊断或治疗受试者(例如,个人、患者等)所必需的时间段内以及在精度范围(或水平)内提供序列信息。
大规模平行核酸测序可用于鉴定群体(例如,复杂群体)内的一个或多个序列变异。然而,通过当前可用的测序技术进行的大规模并行测序可能会受到其错误频率的限制,该错误频率可能大于群体中实际序列变异的频率。在一个实例中,当前可用的高通量测序方法可以表现出约0.1-1百分比(%)的错误率。在一些情况下,当一个或多个序列变体(例如,一个或多个稀有序列变异)的频率较低时,例如,频率等于错误率或低于错误率时,该序列变体的检测可能具有高假阳性率。
用于测序的方法和组合物
用于测序的衔接子偶联
一方面,本公开内容提供了用于处理或分析双链核酸分子的方法。方法可包括提供(i)双链核酸分子和(ii)在其有义链或反义链内具有切口位点的双链衔接子。方法可包括将双链衔接子偶联至双链核酸分子。方法可包括使与双链衔接子偶联的双链核酸分子环化以产生环化的双链核酸分子。在双链衔接子与双链核酸分子之间进行偶联之前,切口位点可包含切口。切口可能是双链衔接子有义链中的断裂。备选地,切口可能是双链衔接子反义链中的断裂。
双链核酸分子的长度可以是至少2、3、4、5、10、50、100、500、1,000、5,000、10,000、50,000、100,000或更多的核苷酸。双链核酸分子的长度可以是至多100,000、50,000、10,000、5,000、1,000、500、100、50、10或更少的核苷酸。双链衔接子的长度可以是至少3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、30、35、40、45、50或更多的核苷酸。双链衔接子的长度可以是至多50、45、40、35、30、25、20、19、18、17、16、15、14、13、12、11、10、9、8、7、6、5、4、3或更少的核苷酸。
双链核酸分子和双链衔接子可以彼此异源。双链核酸分子和双链衔接子可以是相同基因或不同基因的不同部分。双链核酸分子和双链衔接子中的一个可以衍生自一个物种,而双链核酸分子和双链衔接子中的另一个可以来自不同的物种。双链核酸分子和双链衔接子中的一个可以是天然的,而双链核酸分子和双链衔接子中的另一个可以是合成的(例如,双链衔接子可以是合成分子)。备选地,双链核酸分子和双链衔接子都可以是合成的。
在一个实例中,双链核酸分子可以是来自受试者的基因组样品(例如,来自受试者的细胞)的片段化双链核酸分子,并且双链衔接子可以是包括切口位点的合成衔接子。在另一个实例中,双链核酸分子可以是来自受试者的无细胞生物样品(例如,血液、血浆、尿液等)的无细胞双链核酸分子,并且双链衔接子可以是包括切口位点的合成衔接子。
双链核酸分子和双链衔接子可以以无细胞组合物的形式提供。无细胞组合物可以基本上不含完整的细胞。无细胞组合物可以包含细胞裂解物或提取物。细胞裂解物可包含含有裂解细胞的一种或多种内容物的流体。细胞裂解物可以是粗制的(即,未纯化的)或至少部分纯化的(例如,以除去细胞碎片或颗粒,诸如受损的细胞外膜)。形成细胞裂解物的方法可包括超声处理、均质化、使用溶菌酶的酶裂解、冷冻、研磨和高压裂解。或者,无细胞组合物可衍生自无细胞生物样品。
双链衔接子与双链核酸分子的偶联可以在无细胞条件下进行,或者将与双链衔接子偶联的双链核酸分子环化为环化的双链核酸分子可以在无细胞条件下进行。双链衔接子与双链核酸分子的偶联可以在无细胞条件下进行,并且将与双链衔接子偶联的双链核酸分子环化为环化的双链核酸分子可以在无细胞条件下进行。或者,在一个或多个细胞的存在下,(i)可以进行双链衔接子与双链核酸分子的偶联,或者(ii)可以将与双链衔接子偶联的双链核酸分子环化为环化的双链核酸分子。在一个实例中,一个或多个细胞可以被配置成表达一种或多种能够执行(i)和/或(ii)中的过程的酶。
偶联可以包括将双链衔接子的有义链偶联至双链核酸分子的有义链。备选地,偶联可以包括将双链衔接子的反义链偶联至双链核酸分子的反义链。在不同的替代方案中,偶联可以包括(i)将双链衔接子的有义链偶联至双链核酸分子的有义链,以及(ii)将双链衔接子的反义链偶联至双链核酸分子的反义链。两个核酸分子的偶联可包括连接(例如,通过酶,诸如连接酶)、杂交(例如,在不存在酶的情况下)或两者。
切口位点可以是环化的双链核酸分子的有义链的一部分。切口位点可能既不是有义链的5′末端也不是3′末端。切口位点可以与有义链的5′末端或3′末端相距至少1、2、3、4、5、10、15、20、25、30或更多个核苷酸。切口位点可以与有义链的5′末端或3′末端相距至多30、25、20、15、10、5、4、3、2或1个核苷酸。备选地或附加地,切口位点可以是环化的双链核酸分子的反义链的一部分。切口位点可能既不是反义链的5′末端也不是3′末端。切口位点可以与反义链的5′末端或3′末端相距至少1、2、3、4、5、10、15、20、25、30或更多个核苷酸。切口位点可以与反义链的5′末端或3′末端相距至多30、25、20、15、10、5、4、3、2或1个核苷酸。
方法可以还包括使双链核酸分子从双链衔接子的切口位点进行测序。测序可以进行全基因组测序(或整基因组测序)或靶向测序。测序可以包括一种或多种NGS方法。测序可以包括基于纳米孔的测序。纳米孔可以是蛋白质纳米孔(例如,α-溶血素)或固态纳米孔。或者,该纳米孔可以是包含至少一部分蛋白质纳米孔(例如,α-溶血素)和至少一部分固态纳米孔的杂化纳米孔。基于纳米孔的测序可利用至少一种酶(例如,聚合酶或核酸酶)来与至少双链核酸分子相互作用。至少一种酶可以偶联至纳米孔。至少一种酶可以与蛋白质纳米孔或包含纳米孔的膜融合、缀合或结合。至少一种酶可以与固态纳米孔或包含固态纳米孔的膜缀合或结合。在一些实例中,至少一种酶可具有能够结合至纳米孔(或固态纳米孔)或膜的结合部分。
测序可包括(i)使双链核酸分子从双链衔接子的切口位点进行延伸反应以产生与双链核酸分子的链的至少一部分具有序列互补性的生长链,以及(ii)获得生长链的至少一部分的序列信息。双链核酸分子的链可以是其有义链或其反义链。因此,生长链可以显示出与有义链的至少一部分或反义链的至少一部分的互补性。或者,双链核酸分子的链可以是有义链和反义链。因此,第一生长链可以显示出与有义链的至少一部分的互补性,而第二生长链可以显示出与反义链的至少一部分的互补性。
延伸反应可包括扩增至少部分的双链核酸分子(例如,双链核酸分子和至少一部分的双链衔接子)。扩增可产生双链核酸分子的有义链和/或反义链的至少一部分的多个拷贝(例如,至少1、2、3、4、5、10、15、20或更多拷贝;至多20、15、10、5、4、3、2或1个拷贝)。在一些实例中,双链核酸分子可以是环状(或环化的)双链核酸分子的一部分,并且延伸反应可以是RCA。RCA可以生成生长链,该生长链包含环状双链核酸分子的有义链或反义链的至少一部分的一个或多个拷贝(例如,至少1、2、3、4、5、10、15、20或更多拷贝;至多20、15、10、5、4、3、2或1个拷贝)。
获得序列信息可以包括检测生长链的至少一部分。延伸反应可包括在足以将核苷酸掺入生长链的条件下使双链核酸分子与偶联至标签的核苷酸接触。在这种情况下,获得序列信息可以包括检测标签。在一些情况下,该方法可以还包括在将核苷酸掺入生长链中时从核苷酸释放标签,以及检测释放的标签以进行测序。
延伸反应可以用寡核苷酸引物进行。或者,可以在不使用寡核苷酸引物的情况下进行延伸反应。双链衔接子内的切口可充当能够进行延伸反应的酶(例如,聚合酶)的结合位点,因此可能不需要任何寡核苷酸引物。
备选地,测序可以包括(i)使双链核酸分子从双链衔接子的切口位点进行切割反应以切割双链核酸分子的链的至少一部分,以及(ii)获得链的至少一部分的序列信息。待切割的双链核酸分子的链可以是其有义链或其反义链。或者,待切割的双链核酸分子的链可以是有义链和反义链。之后,获得序列信息可以包括检测链的至少一部分。
与至少一个参考序列相比,双链核酸分子的至少一部分可具有或可被怀疑具有一种或多种测序变体(例如,一种或多种突变)。因此,可以进行测序以鉴定双链核酸分子的至少一部分的存在。一个或多个测序变体可以指示基因中的突变。至少一个参考序列可以包含基因的至少一部分的共有序列。共有序列和双链核酸分子可以衍生自相同物种或不同物种。共有序列可以是从相同物种的多个样品(例如,至少2、3、4、5、10、15、20、30、40、50或更多样品;至多50、40、30、20、15、10、4、3或2个样品)获得的基因的多个序列的集合中的代表性序列。在一个实例中,双链核酸分子和至少一个参考序列都可以源自人类样品,并且至少一个参考序列可以是感兴趣的人类基因的至少一部分的共有序列,诸如已知通常没有任何突变的基因的一部分。
该方法可以包括,在将双链衔接子偶联至双链核酸分子之前,扩增双链核酸分子以产生多个拷贝的双链核酸分子。扩增可产生至少1、2、3、4、5、10、15、20、30、40、50、100、150、200或更多拷贝的双链核酸分子。扩增可产生至多200、150、100、50、40、30、20、15、10、5、4、3、2或1个拷贝的双链核酸分子。这样,该方法可以利用多个双链衔接子,例如,其数目与双链核酸分子的拷贝数相同或更多。
双链核酸分子可包含识别序列。识别序列对于双链核酸分子可以是内源的或外源的。识别序列可以包含至少一种天然核苷酸、至少一种合成核苷酸或两者。识别序列可以包括至少5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、30、40、50、100个或更多核苷酸。识别序列可以包括至多100、50、40、30、25、24、23、22、21、20、19、18、17、16、15、14、13、12、11、10、9、8、7、6、5或更少核苷酸。该方法可以还包括至少部分基于识别序列从随机核酸分子库中富集双链核酸分子。该库可包含至少2、3、4、5、10、50、100、500、1,000、5,000、10,000、50,000、100,000、500,000、1,000,000或更多个随机核酸分子。该库可包含至多1,000,000、500,000、100,000、50,000、10,000、5,000、1,000、500、100、50、10、5、4、3或2个随机核酸分子。富集可包含从至少一个不包含识别序列的不同核酸分子中分离出双链核酸分子(包含识别序列)。双链核酸分子可以从至少1、5、10、50、100、500、1,000、5,000、10,000、50,000、100,000、500,000、1,000,000或更多个不包含识别序列的不同核酸分子中分离。双链核酸分子可以从至多1,000,000、500,000、100,000、50,000、10,000、5,000、1,000、500、100、50、10、5或1个不包含识别序列的不同核酸分子中分离。
在扩增之前,可以富集随机核酸分子库(其中之一是包含识别序列的双链核酸分子)中的双链核酸分子。备选地或附加地,可以在富集双链核酸分子之前扩增随机核酸分子库。
在(i)至少与双链衔接子偶联和(ii)环化之前,可以富集随机核酸分子库(其中之一是包含识别序列的双链核酸分子)中的双链核酸分子。备选地,可以使包含双链核酸分子的随机核酸分子库与双链衔接子进行偶联,然后进行环化。在不同的替代方案中,在富集包含识别序列的环化双链核酸分子(及其任何过量的线性双链核酸分子)之前,可以对包含双链核酸分子的随机核酸分子库进行(i)与至少双链衔接子的偶联和(ii)环化。
富集可包括产生选定的双链核酸分子(例如,线性或环状)文库。所述选定文库的至少5%、10%、15%、20%、25%、30%、35%、40%、45%、50%、60%、70%、80%、90%、95%或更多中的每个双链核酸分子可包含识别序列的至少一部分。所述选定文库的至多100%、95%、90%、80%、70%、60%、50%、45%、40%、35%、30%、25%、20%、15%、10%、5%或更少中的每个双链核酸分子可包含识别序列的至少一部分。
在没有任何错配的情况下出现识别序列的概率可以是在每1x104、5x104、7x104、1x105、5x105、1x106、5x106、1x107、5x107、1x108、5x108、1x109、5x109、1x1010、5x1010、1x1011、5x1011、1x1012、5x1012或更多个核苷酸中至多一次。备选地,在没有任何错配的情况下出现识别序列的概率可以是在每1x104、5x104、7x104、1x105、5x105、1x106、5x106、1x107、5x107、1x108、5x108、1x109、5x109、1x1010、5x1010、1x1011、5x1011、1x1012、5x1012或更多个核苷酸中至多两次、三次、四次、五次或更多。
识别序列可以包含至少5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、35、40、45、50个或更多核苷酸。识别序列可以包含至多50、45、40、35、30、29、28、27、26、25、24、23、22、21、20、19、18、17、16、15、14、13、12、11、10、9、8、7、6、5或更少核苷酸。
富集可包括(i)将与识别序列具有互补性的识别部分结合至双链核酸分子以形成识别复合物,以及(ii)从随机核酸分子库中提取识别复合物。识别部分可以与识别序列具有至少30%、40%、50%、60%、70%、80%、90%、95%或更多的互补性。识别部分可以与识别序列具有至多100%、95%、90%、80%、70%、60%、50%、40%、30%或更少的互补性。
可以(i)在提供一种或多种双链核酸分子和一种或多种具有切口位点的双链衔接子之前,或(ii)在将至少一种双链衔接子偶联到来自库的多种双链核酸分子中的每一种之后,富集随机核酸分子库中包含识别序列的一种或多种双链核酸分子。或者,可以(i)在提供一种或多种双链核酸分子和一种或多种具有切口位点的双链衔接子之前,和(ii)在将至少一种双链衔接子偶联到来自库的多种双链核酸分子中的每一种之后,富集随机核酸分子库中包含识别序列的一种或多种双链核酸分子。
备选地或附加地,双链衔接子可以包含至少一个识别序列。在双链衔接子与双链核酸分子偶联(例如,连接)之后,可以使用至少一个识别序列(例如,由本文提供的至少一个识别部分识别)来富集与双链衔接子偶联的双链核酸分子。富集可耗尽未与双链衔接子偶联的一个或多个双链核酸分子。
双链衔接子的识别序列可以包含至少一种天然核苷酸、至少一种合成核苷酸或两者。双链衔接子的识别序列可以包含至少5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、30、40、50、100或更多核苷酸。双链衔接子的识别序列可以包含至多100、50、40、30、25、24、23、22、21、20、19、18、17、16、15、14、13、12、11、10、9、8、7、6、5或更少核苷酸。该方法可以还包括至少部分地基于双链衔接子的识别序列,从随机核酸分子库中富集偶联至双链衔接子的双链核酸分子。该库可包含至少2、3、4、5、10、50、100、500、1,000、5,000、10,000、50,000、100,000、500,000、1,000,000或更多个随机核酸分子。该库可包含至多1,000,000、500,000、100,000、50,000、10,000、5,000、1,000、500、100、50、10、5、4、3或2个随机核酸分子。富集可包含从至少一个不包含识别序列的不同核酸分子中分离出双链核酸分子(其偶联至包含识别序列的双链衔接子)。双链核酸分子可以从至少1、5、10、50、100、500、1,000、5,000、10,000、50,000、100,000、500,000、1,000,000或更多个不包含识别序列的不同核酸分子中分离。双链核酸分子可以从至多1,000,000、500,000、100,000、50,000、10,000、5,000、1,000、500、100、50、10、5或1个不包含识别序列的不同核酸分子中分离。
双链核酸分子可以来自或衍生自受试者的生物样品。生物样品可以包括受试者的无细胞生物样品。无细胞生物样品可以选自:血液、血浆、血清、尿液、淋巴液、粪便、唾液、精液、羊水、脑脊液、胆汁、汗液、泪液、痰、滑液、呕吐物及其组合。双链核酸分子可以来自或衍生自来自无细胞生物样品的无细胞核酸分子。无细胞核酸分子可以包含循环肿瘤核酸分子(例如,ctDNA)或羊水核酸分子。
生物样品可以包括受试者的组织样品。组织样品可以衍生自:骨、心脏、胸腺、动脉、血管、肺、肌肉、胃、肠、肝、胰腺、脾、肾、胆囊、甲状腺、肾上腺、乳腺、卵巢、前列腺、睾丸、皮肤、脂肪、眼、脑及其组合。双链核酸分子可以来自或衍生自来自组织样品的基因组核酸分子。组织样品可以衍生自:感染组织、病变组织、恶性组织、钙化组织、健康组织及其组合。组织样品可以来自包含肿瘤、肉瘤、白血病或其衍生物的恶性组织。
双链核酸分子可包括DNA、cDNA、ctDNA、其衍生物或其组合。双链核酸分子包括RNA。
在另一方面,本公开内容提供了用于处理或分析双链核酸分子的反应混合物。反应混合物可包含组合物,该组合物包含(i)双链核酸分子和(ii)在其有义链或反义链内具有切口位点的双链衔接子。反应混合物可包含至少一种酶,所述酶(i)将双链衔接子偶联至双链核酸分子,或(ii)使与双链衔接子偶联的双链核酸分子环化以产生环化的双链核酸分子。在双链衔接子和双链核酸分子之间进行偶联之前,切口位点可包含切口。切口可能是双链衔接子的有义链中的断裂。备选地,切口可能是双链衔接子的反义链中的断裂。如本公开内容中所提供的,在用于衔接子连接的任何一种主题方法中,可以使用或鉴定反应混合物。反应混合物可以用于制备一种或多种文库(例如,核酸分子、酶或其组合的文库)或用于一种或多种测序方法的组合物。反应混合物的一种或多种组分可以在同一反应中同时使用。在一个实例中,反应可以在一个反应小瓶(例如,反应管)中进行,从而减少纯化步骤和/或样品损失,和/或用少量核酸样品输入进行测序。反应混合物的一种或多种组分可以在不同反应中分别使用。
反应混合物可包含至少1、2、3、4、5、10、50、100、500、1,000、5,000、10,000、50,000、100,000、500,000、1,000,000或更多个双链核酸分子。反应混合物可包含至多1,000,000、500,000、100,000、50,000、10,000、5,000、1,000、500、100、50、10、5、4、3或1个双链核酸分子。反应混合物可包含至少1、2、3、4、5、10、50、100、500、1,000、5,000、10,000、50,000、100,000、500,000、1,000,000或更多个双链衔接子。反应混合物可包含至多1,000,000、500,000、100,000、50,000、10,000、5,000、1,000、500、100、50、10、5、4、3或1个双链衔接子。
至少一种酶可能能够(i)将双链衔接子偶联至双链核酸分子,以及(ii)使与双链衔接子偶联的双链核酸分子环化以产生环化的双链核酸分子。反应混合物可包含至少0.01、0.1、1、10、100、1,000、10,000或更多单位(例如,Weiss单位或Modrich-Lehman单位)的至少一种酶。反应混合物可包含至多10,000、1,000、100、10、1、0.1、0.01或更少单位的至少一种酶。备选地,反应混合物可包含(i)将双链衔接子偶联至双链核酸分子的酶,以及(ii)使与双链衔接子偶联的双链核酸分子环化以产生环化的双链核酸分子的附加酶。酶和附加酶可以不同。反应混合物可包含至少0.01、0.1、1、10、100、1,000、10,000或更多单位的酶,和至少0.01、0.1、1、10、100、1,000、10,000或更多单位的附加酶。反应混合物可包含至多10,000、1,000、100、10、1、0.1、0.01或更少单位的酶,和至多10,000、1,000、100、10、1、0.1、0.01或更少单位的附加酶。
反应混合物可以是无细胞反应混合物。无细胞反应混合物可以基本上不含完整的细胞。无细胞反应混合物包含细胞裂解物或提取物。细胞裂解物可包含含有裂解细胞的一种或多种内容物的流体。细胞裂解物可以是粗制的(即,未纯化的)或至少部分纯化的(例如,以除去细胞碎片或颗粒,诸如受损的细胞外膜)。无细胞反应混合物可以是对一个或多个细胞进行超声处理、均质化、使用溶菌酶的酶促裂解、冷冻、研磨和高压裂解的产物。或者,无细胞反应混合物可衍生自无细胞生物样品。
至少一种酶可能能够(i)将双链衔接子的有义链偶联至双链核酸分子的有义链,或(ii)将双链衔接子的反义链偶联至双链核酸分子的反义链。至少一种酶可能能够(i)将双链衔接子的有义链偶联至双链核酸分子的有义链,和(ii)将双链衔接子的反义链偶联至双链核酸分子的反义链。备选地,(i)第一酶可能能够将双链衔接子的有义链偶联至双链核酸分子的有义链,和(ii)不同于第一酶的第二酶可能能够将双链衔接子的反义链偶联至双链核酸分子的反义链。至少一种酶可以包括连接酶、重组酶、聚合酶、其功能变体或其组合。在一些实例中,至少一种酶可能能够将双链衔接子连接至双链核酸分子。
反应混合物还包含至少第二酶,该至少第二酶进行延伸反应以产生与双链核酸分子的链的至少一部分具有序列互补性的生长链。在将双链衔接子偶联至双链核酸分子之前,至少第二酶可以产生生长链。在一些实例中,至少第二酶可产生多个生长链以扩增双链核酸分子。双链核酸分子的扩增拷贝可以用于相同的反应混合物中。或者,双链核酸分子的扩增拷贝可以被分成多个反应样品以在相同反应条件或不同反应条件下进行处理。至少第二酶可以包括聚合酶。至少第二酶可包括聚合酶和重组酶,例如,重组酶聚合酶扩增,其可用于单管等温扩增来替代聚合酶链反应(PCR)的反应扩增。
在将双链衔接子偶联至双链核酸分子之后,至少第二酶可能能够从双链衔接子的切口位点(或切口位点的切口)进行延伸反应以产生生长链。反应混合物可以还包含与标签偶联的至少一个核苷酸,其中至少第二酶将核苷酸掺入生长链中。标签可以是小分子、核苷酸、多核苷酸、氨基酸、多肽、聚合物、金属和/或陶瓷颗粒等。在一些实例中,核苷酸G、C、A、T和U中的每个可以包含彼此可区分的不同标签。在一些实例中,当核苷酸掺入到生长链中时,标签可能不会从核苷酸释放。备选地,当核苷酸掺入生长链中时,至少第二酶可能能够从核苷酸释放标签。至少第二酶可以在至少一种寡核苷酸引物的帮助下进行延伸反应。备选地,至少第二酶在不使用寡核苷酸引物的情况下可以进行延伸反应。在一个实例中,延伸反应可包含RCA,其中至少第二酶包括聚合酶。聚合酶可以结合到切口位点的切口上以用于RCA。
反应混合物可以还包含至少第三酶,该至少第三酶从双链衔接子的切口位点进行切割反应以切割双链核酸分子的链的至少一部分。从切口位点的切口开始,至少第三酶可以置换和切割(i)包含切口位点的双链衔接子的链的至少一部分和(ii)与双链衔接子的链偶联的双链核酸分子的链的至少一部分。至少第三酶可以包括核酸酶(例如,核酸内切酶,诸如限制性核酸内切酶)。
如本公开内容中所提供的,与至少一个参考序列相比,双链核酸分子的至少一部分可具有或被怀疑具有一个或多个变体。反应混合物可用于制备至少一种组合物,该组合物用于测序以鉴定双链核酸分子的至少一部分的存在。
如本公开内容中所提供的,双链核酸分子可包含识别序列。因此,反应混合物可还包含与识别序列缔合的识别部分,以至少部分基于识别序列从组合物中的随机核酸分子库中至少富集双链核酸分子。识别部分可包含与至少识别序列具有互补性的至少一种寡核苷酸(例如,用于Cas系统变型的gRNA的至少一部分)。识别部分的寡核苷酸可以与识别序列具有至少30%、40%、50%、60%、70%、80%、90%、95%或更多的互补性。识别部分的寡核苷酸可以与识别序列具有至多100%、95%、90%、80%、70%、60%、50%、40%、30%或更少的互补性。
反应混合物的组成可包含选定的双链核酸分子(例如,线性或环状)文库。所述选定文库的至少5%、10%、15%、20%、25%、30%、35%、40%、45%、50%、60%、70%、80%、90%、95%或更多中的每个双链核酸分子可包含识别序列的至少一部分。所述选定文库的至多100%、95%、90%、80%、70%、60%、50%、45%、40%、35%、30%、25%、20%、15%、10%、5%或更少中的每个双链核酸分子可包含识别序列的至少一部分。
在没有任何错配的情况下出现识别序列的概率可以是在每1x104、5x104、7x104、1x105、5x105、1x106、5x106、1x107、5x107、1x108、5x108、1x109、5x109、1x1010、5x1010、1x1011、5x1011、1x1012、5x1012或更多个核苷酸(或碱基对)中至多一次。备选地,在没有任何错配的情况下出现识别序列的概率可以是在每1x104、5x104、7x104、1x105、5x105、1x106、5x106、1x107、5x107、1x108、5x108、1x109、5x109、1x1010、5x1010、1x1011、5x1011、1x1012、5x1012或更多个核苷酸(或碱基对)中至多两次、三次、四次、五次或更多。
识别序列可以包含至少9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、35、40、45、50个或更多核苷酸(或碱基对)。识别序列可以包含至多50、45、40、35、30、29、28、27、26、25、24、23、22、21、20、19、18、17、16、15、14、13、12、11、10、9个或更少核苷酸(或碱基对)。
在不同的方面,本公开内容提供了环化的双链核酸分子的文库。该文库可以包含(i)双链核酸结构域,该双链核酸结构域偶联至(ii)双链衔接子结构域,该双链衔接子结构域包含在其有义链或反义链内的切口位点。文库的至少5%中的每个环化双链核酸分子可包含识别序列。环化的双链核酸分子的文库可以是本公开内容中提供的任何主题方法或反应混合物的起始材料或产物。
在将双链衔接子结构域偶联至双链核酸结构域之前,切口位点可以存在于双链衔接子结构域内。在双链衔接子和双链核酸分子之间进行偶联之前,切口位点可包含切口。
双链核酸结构域和双链衔接子结构域可以彼此异源。备选地,双链核酸结构域和双链衔接子结构域可以彼此不异源。该文库可以在无细胞组合物中。或者,该文库可以不在无细胞组合物中。
与至少一个参考序列相比,文库中的环化的双链核酸结构域的至少一部分可以具有或被怀疑具有一个或多个测序变体。一个或多个测序变体可以指示基因中的突变。至少一个参考序列可以包含基因的至少一部分的共有序列。
所述选定文库的至少5%、10%、15%、20%、25%、30%、35%、40%、45%、50%、60%、70%、80%、90%、95%或更多中的每个环化双链核酸分子可包含识别序列的至少一部分。所述选定文库的至多100%、95%、90%、80%、70%、60%、50%、45%、40%、35%、30%、25%、20%、15%、10%、5%或更少中的每个环化双链核酸分子可包含识别序列的至少一部分。
在没有任何错配的情况下出现识别序列的概率可以是在每1x104、5x104、7x104、1x105、5x105、1x106、5x106、1x107、5x107、1x108、5x108、1x109、5x109、1x1010、5x1010、1x1011、5x1011、1x1012、5x1012或更多个核苷酸(或碱基对)中至多一次。备选地,在没有任何错配的情况下出现识别序列的概率可以是在每1x104、5x104、7x104、1x105、5x105、1x106、5x106、1x107、5x107、1x108、5x108、1x109、5x109、1x1010、5x1010、1x1011、5x1011、1x1012、5x1012或更多个核苷酸(或碱基对)中至多两次、三次、四次、五次或更多。
识别序列可以包含至少9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、35、40、45、50个或更多核苷酸(或碱基对)。识别序列可以包含至多50、45、40、35、30、29、28、27、26、25、24、23、22、21、20、19、18、17、16、15、14、13、12、11、10、9个或更少核苷酸(或碱基对)。
切口位点可以是环化的双链核酸分子的有义链的一部分。备选地或附加地,切口位点可以是环化的双链核酸分子的反义链的一部分。
环化的双链核酸分子可以来自或衍生自受试者的生物样品。生物样品可以包括受试者的无细胞生物样品。环化的双链核酸分子可以来自或衍生自来自无细胞生物样品的无细胞核酸分子。无细胞核酸分子可以包括循环肿瘤核酸(例如,ctDNA)分子或羊水核酸分子。备选地,生物样品可以包括受试者的组织样品。环化的双链核酸分子可以来自或衍生自来自组织样品的基因组核酸分子。组织样品可以衍生自:感染组织、病变组织、恶性组织、钙化组织、健康组织及其组合。组织样品可以来自包含肿瘤、肉瘤、白血病或其衍生物的恶性组织。
环化的双链核酸分子可包括DNA、cDNA、ctDNA、其衍生物或其组合。环化的双链核酸分子包括RNA。
图1A示意性地示出了用于提供具有切口的环状核酸的示例方法。可以提供第一双链核酸分子110和第二双链核酸分子120。核酸分子可以是生物样品的至少一部分或衍生自生物样品。核酸分子120可以是衔接子(例如,用于环化、聚合、核酸酶活性等的衔接子)。第一双链核酸分子110可以包含识别序列112和靶位点114。与至少参考序列(例如,物种或多个物种的基因的一部分的共有序列)相比,靶位点114可具有或被怀疑具有一个或多个突变。第二双链核酸分子112可以在核酸分子112内包括切口122。切口122可以不直接位于核酸分子112的(i)有义链或(ii)反义链的5′或3′末端。备选地,核酸分子112的特征可以在于在正向链5′末端或反向链5′末端去除了磷酸基团。在一些实例中,可以通过DNA合成来产生去除了磷酸基团的核酸分子112。在其他实例中,可以通过PCR引物产生去除了磷酸基团的核酸分子112。
参照图1A,第一核酸分子110和第二核酸分子120可以偶联(例如,通过连接和/或杂交),以产生偶联的双链核酸分子130。偶联可以在恒定温度或在多个温度(例如,阶梯或梯度或多个温度)下进行。偶联可以通过一种或多种酶,例如连接酶和/或重组酶来进行。随后,可以将核酸分子130环化(例如,通过连接和/或杂交)以形成环状核酸分子140。环状核酸分子140可以包括核酸分子110的至少一部分(例如,识别序列112和靶位点114),以及核酸分子120的至少一部分(例如,切口122)。环状核酸分子140可以是用于测序(例如,纳米孔测序)的模板。在一个实例中,可以使用至少一种酶(例如,聚合酶或核酸酶)通过纳米孔测序来获得关于环状核酸分子140的靶位点114的信息,并且至少一种酶可以在环状核酸分子140的切口122处引发其活性(例如,延伸反应或切割)。
图1B和1C示意性地示出了用于分离或富集包含识别位点的线性或环状核酸的示例方法。参照图1B,随机核酸分子库150可以包括第一双链核酸分子110,该第一双链核酸分子110包括识别位点112和靶位点114。库150还可包含线性核酸分子,该线性核酸分子包含识别位点112,但不包含靶位点114。库150可以还包含不包含识别位点112的线性核酸分子。库150可以用至少一个识别部分(例如,dCas系统)113处理以结合至识别位点112并在识别位点112处形成识别复合物。可以从一个或多个不包含识别复合物的核酸分子中分离出包含这种识别复合物的任何线性核酸分子,以产生纯化的或富集的库155。在一些实例中,库155中的至少5%的核酸分子可以被表征为具有识别序列112。在另外的实例中,在一些实例中,库155的至少大部分核酸分子可以被表征为具有识别序列112。可以在纯化或富集时从识别位点112去除(分离)识别部分113。
参照图1C,随机环状核酸分子库160可以包括双链核酸分子140,该双链核酸分子110包含识别位点112和靶位点114。库160可以还包含不包含识别位点112的其他环状核酸分子。库160可以用至少一个识别部分(例如,dCas系统)113处理以结合至识别位点112并在识别位点112处形成识别复合物。可以从一个或多个不包含识别复合物的环状核酸分子中分离出包含这种识别复合物的任何环状核酸分子,以产生纯化的或富集的库165。在一些实例中,库165中的至少5%(或大部分)的环状核酸分子可以被表征为具有识别序列112。在一些实例中,库165的至少大部分的环状核酸分子可以被表征为具有识别序列112。可以在纯化或富集时从识别位点112去除(分离)识别部分113。
图1D示意性地示出了通过使用一种或多种尿嘧啶特异性酶来提供在环状核酸内的特定位置处包含切口的环状核酸的示例方法。可以提供双链核酸分子。双链核酸分子可以是来自生物样品的片段化或完整的核酸分子。双链核酸分子可包含两个平端。双链核酸分子可以不包含两个平端(例如,仅1个平端或不具有平端)。在这种情况下,可能需要进行末端修复,以使修复后的双链核酸分子可以(i)没有突出端,并且(ii)在有义链和反义链中含有5′磷酸基团和3′羟基基团。平端可以通过一种或多种酶(例如,限制性内切酶和/或核酸外切酶)的末端填充来获得。5′磷酸化可以通过一种或多种酶,例如激酶诸如T4多核苷酸激酶来实现。备选地或附加地,可以将非模板的脱氧腺苷5′-单磷酸酯(dAMP)掺入到双链核酸分子的平端的3’末端(即,dA-加尾)。dA加尾可以防止串联体形成(例如,在一个或多个连接步骤中)。dA加尾可使双链核酸分子与包含互补的脱氧胸苷单磷酸(dTMP或“dT”)突出端的一个或多个衔接子连接。
参照图1D,在过程170中,可以将修饰的双链核酸分子偶联至一个或多个衔接子。衔接子可包含一个或多个尿嘧啶(U)核苷酸(例如,在衔接子的一或多个链内)。衔接子可包含与修饰的双链核酸分子的dA尾互补的dT突出端。偶联可以包括将包含dA尾的经修饰双链核酸分子的末端连接(例如,通过DNA连接酶)到包含dT突出端的衔接子的末端。在该实例中,修饰的双链核酸分子可以与两个衔接子缀合,其中第一衔接子包含一个或多个尿嘧啶残基,而第二衔接子不包含任何尿嘧啶残基。随后,第一衔接子和第二衔接子的自由端可以彼此偶联(例如,连接),以产生环状核酸分子,环状核酸分子包含原始双链核酸分子的至少一部分、包含一个或多个尿嘧啶残基的第一衔接子的至少一部分和第二衔接子的至少一部分。随后,可以用一种或多种尿嘧啶特异性酶(例如,尿嘧啶特异性切除试剂或“USER”)处理环状核酸分子,以在尿嘧啶残基的位置产生单个核苷酸缺口(即切口)。可以分析在特定位点具有切口的所得环状核酸分子以进行测序。
参照图1D,在过程175中,可以将修饰的双链核酸分子偶联至一个或多个衔接子。衔接子可包含一个或多个尿嘧啶(U)核苷酸(例如,在衔接子的一或多个链内)。衔接子可包含与修饰的双链核酸分子的dA尾互补的dT突出端。衔接子可还包含用于杂交的粘性末端。偶联可以包括将包含dA尾的经修饰双链核酸分子的末端连接(例如,通过DNA连接酶)到包含dT突出端的衔接子的末端。在该实例中,修饰的双链核酸分子可以与两个衔接子缀合,其中第一衔接子包含一个或多个尿嘧啶残基,而第二衔接子不包含任何尿嘧啶残基。在偶联之后,两个衔接子可包括自由的黏端。随后,第一衔接子和第二衔接子的自由端可以彼此偶联(例如,通过黏端的杂交和连接),以产生环状核酸分子,该环状核酸分子包含原始双链核酸分子的至少一部分、包含一个或多个尿嘧啶残基的第一衔接子的至少一部分和至少一部分第二衔接子的至少一部分。随后,可以用一种或多种尿嘧啶特异性酶(例如,尿嘧啶特异性切除试剂)处理环状核酸分子,以在尿嘧啶残基的位置产生单个核苷酸缺口(即切口)。可以分析在特定位点具有切口的所得环状核酸分子以进行测序。
尿嘧啶特异性酶的其他实例可包括但不限于尿嘧啶-dna糖基化酶(UDG)和/或Afu尿嘧啶-dna糖基化酶(Afu UDG),例如,以切割脱氧尿苷的N-糖苷键并产生切口以供DNA聚合酶执行DNA延伸反应。或者,UDG和/或Afu UDG可以与一种或多种对脱嘌呤/脱嘧啶位点具有特异性的修复酶(例如FPG、hOGG1、hNEIL1等)组合。
控制切口到靶位点的距离以进行测序
一方面,本公开内容提供了用于处理或分析环状核酸分子的方法。该方法可以包括提供包含环状核酸分子的无细胞组合物,该环状核酸分子包含(i)靶区域和(ii)距靶区域已知距离的切口位点。该方法可以包括在环状核酸分子的切口位点产生切口。靶区域可以是感兴趣的基因。靶区域可以是可疑突变位点,也可以是与可疑突变位点相邻的其他位点。在一个实例中,特定疾病的可疑突变位点可以是已知的,并且包括该可疑突变位点的基因的序列也可以是已知的。因此,通过将切口位点分配至特征在于突变几率低的基因的特定区域,环状核酸分子包含(i)靶区域和(ii)在距靶区域已知距离处的切口位点。
在测序过程中,以一种或多种方式将切口定位在距靶位点已知距离处可能是有利的,该方式包括但不限于:(i)增加扩增(例如,RCA)过程中靶位点多次扩增的几率,(ii)增加在负责扩增的酶(例如,聚合酶)的活性耗尽之前靶位点扩增至少一次的几率,以及(iii)减少测序错误(例如,由于酶疲劳引起的酶错误)。
在一些实例中,可以准备多个切口酶(例如,多个不同类型的切口酶或同一切口酶的不同变体,例如,具有不同gRNA的Cas切口酶)以结合至环状核酸分子的多个切口位点。可以评估多个切口酶与相应切口位点的结合、任何脱靶结合或切口活性。可以选择多个切口位点中的至少一个切口位点以产生低脱靶结合和/或高切口活性。因此,通过从多个切口位点中选择切口位点,可以在处理或分析一个或多个另外的环状核酸分子之前已知切口位点与靶位点之间的距离。切口位点可以选自环状核酸分子的至少2、3、4、5、6、7、8、9、10、15、20、30、40、50、100或更多个切口位点。切口位点可以选自环状核酸分子的至多100、50、40、30、20、15、10、9、8、7、6、5、4、3或2个切口位点。
环状核酸分子的切口位点的切口的产生可以在无细胞条件下进行。无细胞条件可以基本上不含完整的细胞。无细胞条件可以包括具有细胞裂解物或提取物的条件。细胞裂解物可包含含有裂解细胞的一种或多种内容物的流体。细胞裂解物可以是粗制的(即,未纯化的)或至少部分纯化的(例如,以除去细胞碎片或颗粒,诸如受损的细胞外膜)。形成细胞裂解物的方法可包括超声处理、均质化、使用溶菌酶的酶裂解、冷冻、研磨和高压裂解。备选地,无细胞条件可以包括无细胞生物样品的条件。或者,在环状核酸分子的切口位点处的切口的产生可以在一种或多种细胞(例如,活的或死的)的存在下进行。
切口位点可以距离靶位点不超过100,000、50,000、10,000、5,000、1,000、500、400、300、200、100、90、80、70、60、50、40、30、25、20、15、10、5或更少的核苷酸。切口位点可以距离靶位点至少5、10、15、20、25、30、40、50、60、70、80、90、100、200、300、400、500、1,000、5,000、10,000、50,000、100,000或更多的核苷酸。
环状核酸分子可以包括环状双链核酸分子。切口位点可以是环状核酸分子的有义链的一部分。备选地或附加地,切口位点可以是环状核酸分子的反义链的一部分。该方法可以还包括至少部分基于靶位点相对于至少一个参考序列的位置来确定切口位点。至少一个参考序列可以包含基因的至少一部分的共有序列。切口位点对于环状核酸分子可以是内源的。因此,确定切口位点可包括选择环状核酸分子的内源序列。或者,切口位点对于环状核酸分子可以是外源的。因此,所述确定可以包括将外源切口位点插入环状核酸分子。在一些实例中,可以选择环状核酸分子的内源序列,然后可以将外源切口位点插入在环状核酸分子的内源序列内或附近。这样,可以控制或已知外源切口位点与靶位点之间的距离。
环状核酸分子可以还包含对切口酶具有特异性的切口酶结合位点。在这种情况下,该方法可以还包括在足以使切口酶与切口酶结合位点缔合并产生切口的条件下,向环状核酸分子提供切口酶。在没有任何错配的情况下出现切口酶结合位点的概率可以是在每1x104、5x104、7x104、1x105、5x105、1x106、5x106、1x107、5x107、1x108、5x108、1x109、5x109、1x1010、5x1010、1x1011、5x1011、1x1012、5x1012或更多个核苷酸(或碱基对)中至多一次。备选地,在没有任何错配的情况下出现切口酶结合位点的概率可以是在每1x104、5x104、7x104、1x105、5x105、1x106、5x106、1x107、5x107、1x108、5x108、1x109、5x109、1x1010、5x1010、1x1011、5x1011、1x1012、5x1012或更多个核苷酸(或碱基对)中至多两次、三次、四次、五次或更多。
切口酶结合位点可以包括至少9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、35、40、45、50个或更多核苷酸(或碱基对)。切口酶结合位点可以包括至多50、45、40、35、30、29、28、27、26、25、24、23、22、21、20、19、18、17、16、15、14、13、12、11、10、9个或更少核苷酸(或碱基对)。
切口酶结合位点对于环状核酸分子可以是内源的。在一个实例中,可以将包含内源切口酶结合位点的线性核酸分子环化以形成环状核酸分子。备选地,切口酶结合位点对于环状核酸分子可以是外源的。在这种情况下,该方法可以还包括在产生切口之前,将外源切口酶结合位点插入环状核酸分子或其起始材料(例如,线性核酸分子)。在一些实例中,外源切口酶结合位点可以在线性核酸分子环化成环状核酸分子之前插入线性核酸分子中。线性核酸分子可包含至少一个本文所提供的识别位点,并且识别部分(例如,催化活性识别部分,诸如Cas9)可用于(i)结合至识别位点,(ii)在识别位点切割线性核酸分子,以及(iii)有助于将外源切口酶结合位点插入到线性核酸分子的至少一个识别位点处或邻近至少一个识别位点处(例如,通过同源性定向修复)。该方法可以还包括在插入外源切口酶结合位点之后将核酸分子环化。在其他实例中,该方法可以还包括在将外源切口酶结合位点插入环状核酸分子之前,将线性核酸分子环化成环状核酸分子。环化后,识别部分(例如,催化活性识别部分,诸如Cas9)可用于(i)结合至环状核酸分子的识别位点,(ii)在识别位点切割环状核酸分子,以及(iii)有助于将外源切口酶结合位点插入到环状核酸分子的至少一个识别位点处或邻近至少一个识别位点处(例如,通过同源性定向修复)。
切口酶结合位点可以距离切口位点不超过30、25、20、19、18、17、16、15、14、13、12、11、10、9、8、7、6、5、4、3、2或1个核苷酸。切口酶结合位点可以距离切口位点至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、30或更多的核苷酸。在一些实例中,切口酶结合位点可包含切口位点。在这种情况下,切口位点可以在切口酶结合位点内。
该方法可以还包括使环状(或环化的)核酸分子从环状核酸分子的切口进行测序。测序可以用于全基因组测序(或整基因组测序)或靶向测序。测序可以包括一种或多种NGS方法。测序可以包括基于纳米孔的测序。纳米孔可以是蛋白质纳米孔(例如,α-溶血素)或固态纳米孔。或者,该纳米孔可以是包含至少一部分蛋白质纳米孔(例如,α-溶血素)和至少一部分固态纳米孔的杂化纳米孔。基于纳米孔的测序可利用至少一种酶(例如,聚合酶或核酸酶)来与至少环状核酸分子相互作用。至少一种酶可以偶联至纳米孔。至少一种酶可以与蛋白质纳米孔或包含纳米孔的膜融合、缀合或结合。至少一种酶可以与固态纳米孔或包含固态纳米孔的膜缀合或结合。在一些实例中,至少一种酶可具有能够结合至纳米孔(或固态纳米孔)或膜的结合部分。
测序可包括使环状(或环化的)核酸分子进行测序。测序可包括使环状核酸分子从切口开始进行延伸反应以产生与环状核酸分子的链的至少一部分具有序列互补性的生长链。该方法可以还包括获得生长链的至少一部分的序列信息。获得序列信息可以包括检测生长链的至少一部分。延伸反应可包括在足以将核苷酸掺入生长链的条件下使环状核酸分子与偶联至标签的核苷酸接触。获得序列信息可以包括检测标签的至少一部分。当进行测序分析时,标签的至少一部分可以与生长链相连。备选地,该方法可以还包括在将核苷酸掺入生长链中时从核苷酸释放标签,以及检测释放的标签以进行测序。
延伸反应可以用寡核苷酸引物进行。或者,可以在不使用寡核苷酸引物的情况下进行延伸反应。双链衔接子内的切口可充当能够进行延伸反应(例如,滚环扩增)的酶(例如,聚合酶)的结合位点,因此可以不需要寡核苷酸引物。
备选地,测序可以包括(i)使环状核酸分子从切口进行切割反应以切割双链核酸分子的链的至少一部分,以及(ii)获得链的至少一部分的序列信息。环状核酸分子的链可以是其有义链或其反义链。因此,生长链可以显示出与有义链的至少一部分或反义链的至少一部分的互补性。或者,双链核酸分子的链可以是有义链和反义链。因此,第一生长链可以显示出与有义链的至少一部分的互补性,而第二生长链可以显示出与反义链的至少一部分的互补性。
延伸反应可包括扩增环状核酸分子的至少一部分(例如,切口位点的至少一部分和靶位点的至少一部分)。扩增(例如,RCA)可产生环状核酸分子的有义链和/或反义链的至少一部分的多个拷贝(例如,至少1、2、3、4、5、10、15、20或更多拷贝;至多20、15、10、5、4、3、2或1个拷贝)。基于环状核酸分子的延伸产物将具有与切口位点的至少一部分互补的第一结构域和与靶位点的至少一部分互补的第二结构域,并且第一结构域与第二结构域之间的距离可以基本上与环状核酸分子中靶位点与切口位点之间的已知距离相同。之后,获得序列信息可以包括检测链的至少一部分。
与至少一个参考序列相比,环状核酸分子的至少一部分可具有或可被怀疑具有一种或多种测序变体(例如,一种或多种突变)。因此,可以进行测序以鉴定环状核酸分子的至少一部分的存在。一个或多个测序变体可以指示基因中的突变。至少一个参考序列可以包含基因的至少一部分的共有序列。共有序列和双链核酸分子可以衍生自相同物种或不同物种。共有序列可以是从相同物种的多个样品(例如,至少2、3、4、5、10、15、20、30、40、50或更多样品;至多50、40、30、20、15、10、4、3或2个样品)获得的基因的多个序列的集合的代表性序列。在一个实例中,环状核酸分子和至少一个参考序列都可以源自人类样品,并且至少一个参考序列可以是感兴趣的人类基因的至少一部分的共有序列,诸如已知通常没有任何突变的基因的一部分。
该方法可以包括使至少线性核酸分子环化以产生环状核酸分子。在一些情况下,该方法可以还包括扩增线性核酸分子以产生线性核酸分子的多个拷贝。扩增可产生至少1、2、3、4、5、10、15、20、30、40、50、100、150、200或更多拷贝的线性核酸分子。扩增可产生至多200、150、100、50、40、30、20、15、10、5、4、3、2或1个拷贝的线性核酸分子。该方法可以还包括使线性核酸分子的一个或多个拷贝环化以产生多个环状核酸分子。环化可包括自身连接(例如,通过一种或多种连接酶)、通过衔接子的连接、通过衔接子的杂交或其组合。
备选地或附加地,该方法可以包括扩增环状核酸分子以产生环状核酸分子的多个拷贝。扩增可产生至少1、2、3、4、5、10、15、20、30、40、50、100、150、200或更多拷贝的环状核酸分子。扩增可产生至多200、150、100、50、40、30、20、15、10、5、4、3、2或1个拷贝的环状核酸分子。
环状核酸分子可以包含识别序列。识别序列对于环状核酸分子可以是内源的或外源的。识别序列可以包含至少一种天然核苷酸、至少一种合成核苷酸或两者。识别序列可以包含至少5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、30、40、50、100个或更多核苷酸。识别序列可以包含至多100、50、40、30、25、24、23、22、21、20、19、18、17、16、15、14、13、12、11、10、9、8、7、6、5或更少核苷酸。该方法可以还包括至少部分基于识别序列从随机核酸分子库中富集环状核酸分子。该库可包含至少2、3、4、5、10、50、100、500、1,000、5,000、10,000、50,000、100,000、500,000、1,000,000或更多个随机核酸分子。该库可包含至多1,000,000、500,000、100,000、50,000、10,000、5,000、1,000、500、100、50、10、5、4、3或2个随机核酸分子。富集可包含从至少一个不包含识别序列的不同核酸分子中分离出环状核酸分子(包含识别序列)。环状核酸分子可以从至少1、5、10、50、100、500、1,000、5,000、10,000、50,000、100,000、500,000、1,000,000或更多个不包含识别序列的不同核酸分子中分离。环状核酸分子可以从至多1,000,000、500,000、100,000、50,000、10,000、5,000、1,000、500、100、50、10、5或1个不包含识别序列的不同核酸分子中分离。
在扩增之前,可以富集随机核酸分子库(其中之一是包含识别序列的线性核酸分子)中的包含识别序列的线性核酸分子。备选地或附加地,可以在富集包含识别序列的线性核酸分子之前扩增随机核酸分子库。或者,在扩增之前,可以富集随机核酸分子库(其中之一是包含识别序列的环状核酸分子)中的环状核酸分子。备选地或附加地,可以在富集环状核酸分子之前扩增随机核酸分子库。
富集可包括产生选定的环状核酸分子文库。所述选定文库的至少5%、10%、15%、20%、25%、30%、35%、40%、45%、50%、60%、70%、80%、90%、95%或更多中的每个环状核酸分子可包含识别序列的至少一部分。所述选定文库的至多100%、95%、90%、80%、70%、60%、50%、45%、40%、35%、30%、25%、20%、15%、10%、5%或更少中的每个环状核酸分子可包含识别序列的至少一部分。
在没有任何错配的情况下出现识别序列的概率可以是在每1x104、5x104、7x104、1x105、5x105、1x106、5x106、1x107、5x107、1x108、5x108、1x109、5x109、1x1010、5x1010、1x1011、5x1011、1x1012、5x1012或更多个核苷酸(或碱基对)中至多一次。备选地,在没有任何错配的情况下出现识别序列的概率可以是在每1x104、5x104、7x104、1x105、5x105、1x106、5x106、1x107、5x107、1x108、5x108、1x109、5x109、1x1010、5x1010、1x1011、5x1011、1x1012、5x1012或更多个核苷酸(或碱基对)中至多两次、三次、四次、五次或更多。
识别序列可以包含至少9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、35、40、45、50个或更多核苷酸(或碱基对)。识别序列可以包含至多50、45、40、35、30、29、28、27、26、25、24、23、22、21、20、19、18、17、16、15、14、13、12、11、10、9个或更少核苷酸(或碱基对)。
富集可包括(i)将与识别序列具有互补性的识别部分结合至环状核酸分子以形成识别复合物,以及(ii)从随机核酸分子库中提取识别复合物。识别部分可以与识别序列具有至少30%、40%、50%、60%、70%、80%、90%、95%或更多的互补性。识别部分可以与识别序列具有至多100%、95%、90%、80%、70%、60%、50%、40%、30%或更少的互补性。
可以富集随机核酸分子库中的一种或多种包含识别序列的环状核酸分子,该富集是在(i)提供包含环状核酸分子的无细胞组合物之前进行的,该环状核酸分子包含靶区域和距靶区域已知距离处的切口位点,或(ii)在环状核酸分子的切口位点产生切口之后进行的。或者,可以富集随机核酸分子库中的一种或多种包含识别序列的环状核酸分子,该富集是在(i)提供包含环状核酸分子的无细胞组合物之前进行的,该环状核酸分子包含靶区域和距靶区域已知距离处的切口位点,和(ii)在环状核酸分子的切口位点产生切口之后进行的。
环状核酸分子可以来自或衍生自受试者的生物样品。生物样品可以包括受试者的无细胞生物样品。无细胞生物样品可以选自:血液、血浆、血清、尿液、淋巴液、粪便、唾液、精液、羊水、脑脊液、胆汁、汗液、泪液、痰、滑液、呕吐物及其组合。环状核酸分子可以来自或衍生自来自无细胞生物样品的无细胞核酸分子。无细胞核酸分子可以包含循环肿瘤核酸分子(例如,ctDNA)或羊水核酸分子。
生物样品可以包括受试者的组织样品。组织样品可以衍生自:骨、心脏、胸腺、动脉、血管、肺、肌肉、胃、肠、肝、胰腺、脾、肾、胆囊、甲状腺、肾上腺、乳腺、卵巢、前列腺、睾丸、皮肤、脂肪、眼、脑及其组合。环状核酸分子可以来自或衍生自来自组织样品的基因组核酸分子。组织样品可以衍生自:感染组织、病变组织、恶性组织、钙化组织、健康组织及其组合。组织样品可以来自包含肿瘤、肉瘤、白血病或其衍生物的恶性组织。
环状核酸分子可包括DNA、cDNA、ctDNA、其衍生物或其组合。环状核酸分子包括RNA。
在另一方面,本公开内容提供了用于处理或分析环状核酸分子的反应混合物。反应混合物可包含包含环状核酸分子的无细胞组合物。环状核酸分子可包含(i)靶位点和(ii)与靶位点相距已知距离的切口位点。反应混合物可包含至少一种在环状核酸分子的切口位点产生切口的酶。至少一种酶可以包含核酸酶(例如,限制性核酸内切酶)或切口酶(例如,Cas9n切口酶)。至少一种酶可以包含核酸酶和切口酶。如本公开内容中所提供的,在用于以已知的切口至靶位点距离进行测序的任何一种主题方法中,可以使用或鉴定反应混合物。反应混合物可以用于制备一种或多种文库(例如,核酸分子、酶或其组合的文库)或用于一种或多种测序方法的组合物。反应混合物的一种或多种组分可以在同一反应中同时使用。在一个实例中,反应可以在一个反应小瓶(例如,反应管)中进行,从而减少纯化步骤和/或样品损失,和/或用少量核酸样品输入进行测序。反应混合物的一种或多种组分可以在不同反应中分别使用。反应混合物可以是无细胞反应混合物。或者,反应混合物可以不是无细胞反应混合物。
切口位点可以距离靶位点不超过100,000、50,000、10,000、5,000、1,000、500、400、300、200、100、90、80、70、60、50、40、30、25、20、15、10、5或更少的核苷酸。切口位点可以距离靶位点至少5、10、15、20、25、30、40、50、60、70、80、90、100、200、300、400、500、1,000、5,000、10,000、50,000、100,000或更多的核苷酸。
环状核酸分子可以包括环状双链核酸分子。切口位点可以是环状核酸分子的有义链的一部分。备选地或附加地,切口位点可以是环状核酸分子的反义链的一部分。该方法可以还包括至少部分基于靶位点相对于至少一个参考序列的位置来确定切口位点。至少一个参考序列可以包含基因的至少一部分的共有序列。切口位点对于环状核酸分子可以是内源的。因此,确定切口位点可包括选择环状核酸分子的内源序列。或者,切口位点对于环状核酸分子可以是外源的。因此,所述确定可以包括将外源切口位点插入环状核酸分子。在一些实例中,可以选择环状核酸分子的内源序列,然后可以将外源切口位点插入在环状核酸分子的内源序列内或附近。这样,可以控制或已知外源切口位点与靶位点之间的距离。
核酸分子可以还包含对至少一种酶具有特异性的酶结合位点。至少一种酶可以包含在一些实例中,至少一种酶可以表现出切口酶的活性,并且该酶结合位点可以与切口酶结合位点相同,如本公开内容中所提供的。
在没有任何错配的情况下出现酶结合位点的概率可以是在每1x104、5x104、7x104、1x105、5x105、1x106、5x106、1x107、5x107、1x108、5x108、1x109、5x109、1x1010、5x1010、1x1011、5x1011、1x1012、5x1012或更多个核苷酸(或碱基对)中至多一次。备选地,在没有任何错配的情况下出现酶结合位点的概率可以是在每1x104、5x104、7x104、1x105、5x105、1x106、5x106、1x107、5x107、1x108、5x108、1x109、5x109、1x1010、5x1010、1x1011、5x1011、1x1012、5x1012或更多个核苷酸(或碱基对)中至多两次、三次、四次、五次或更多。
酶结合位点可以包含至少9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、35、40、45、50个或更多核苷酸(或碱基对)。酶结合位点可以包含至多50、45、40、35、30、29、28、27、26、25、24、23、22、21、20、19、18、17、16、15、14、13、12、11、10、9个或更少核苷酸(或碱基对)。
酶结合位点对于环状核酸分子可以是内源的。在一个实例中,可以将包含内源酶结合位点的线性核酸分子环化以形成环状核酸分子。备选地,酶结合位点对于环状核酸分子可以是外源的。在这种情况下,该方法可以还包括在产生切口之前,将外源酶结合位点插入环状核酸分子或其起始材料(例如,线性核酸分子)。在一些实例中,外源酶结合位点可以在线性核酸分子环化成环状核酸分子之前插入线性核酸分子。线性核酸分子可包含至少一个本文所提供的识别位点,并且识别部分(例如,催化活性识别部分,诸如Cas9)可用于(i)结合至识别位点,(ii)在识别位点切割线性核酸分子,以及(iii)有助于将外源酶结合位点插入到线性核酸分子的至少一个识别位点处或邻近至少一个识别位点处(例如,通过同源性定向修复)。该方法可以还包括在插入外源酶结合位点之后将线性核酸分子环化。在其他实例中,该方法可以还包括在将切口酶结合位点插入环状核酸分子之前,将线性核酸分子环化成环状核酸分子。环化后,识别部分(例如,催化活性识别部分,诸如Cas9)可用于(i)结合至环状核酸分子的识别位点,(ii)在识别位点切割环状核酸分子,以及(iii)有助于将外源酶结合位点插入到环状核酸分子的至少一个识别位点处或邻近至少一个识别位点处(例如,通过同源性定向修复)。
酶结合位点可以距离切口位点不超过30、25、20、19、18、17、16、15、14、13、12、11、10、9、8、7、6、5、4、3、2或1个核苷酸。酶结合位点可以距离切口位点至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、30或更多的核苷酸。在一些实例中,酶结合位点可包含切口位点。在这种情况下,切口位点可以在酶结合位点内。
反应混合物还包含至少第二酶,该至少第二酶从切口进行延伸反应以产生与环状核酸分子的至少一部分具有序列互补性的生长链。环状核酸分子可以是环状双链核酸分子,并且生长链可以与环状双链核酸分子的链的至少一部分表现出序列互补性。环状双链核酸分子的链可以是其有义链、反义链或两者。在一些实例中,至少第二酶可以是聚合酶。反应混合物可以还包含与标签偶联的至少一个核苷酸,其中至少第二酶将核苷酸掺入生长链中。标签可以是小分子、核苷酸、多核苷酸、氨基酸、多肽、聚合物、金属和/或陶瓷颗粒等。在一些实例中,核苷酸G、C、A、T和U中的每个可以包含彼此可区分的不同标签。在一些实例中,当核苷酸掺入到生长链中时,标签可能不会从核苷酸释放。备选地,当核苷酸掺入生长链中时,至少第二酶可以从核苷酸释放标签。至少第二酶可以在至少一种寡核苷酸引物的帮助下进行延伸反应。备选地,至少第二酶可以在不使用寡核苷酸引物的情况下进行延伸反应。在一个实例中,延伸反应可包括RCA,其中至少第二酶包括聚合酶。聚合酶可以结合到切口位点的切口上以用于RCA。
反应混合物可还包含至少第三酶,该至少第三酶从切口进行切割反应以切割环状核酸分子的至少一部分。从切口开始,至少第三酶可以置换和切割环状核酸分子的链的至少一部分。至少第三酶可以包括核酸酶(例如,核酸内切酶,诸如限制性核酸内切酶)。
如本公开内容中所提供的,与至少一个参考序列相比,环状核酸分子的至少一部分可具有或被怀疑具有一个或多个变体。反应混合物可用于制备至少一种组合物,该组合物用于测序以鉴定环状核酸分子的至少一部分的存在。
如本公开内容中所提供的,环状核酸分子可包含识别序列。因此,反应混合物可还包含与识别序列缔合的识别部分,以至少部分基于识别序列从组合物中的随机核酸分子库中至少富集环状核酸分子。识别部分可包含与至少识别序列具有互补性的至少一种寡核苷酸(例如,用于Cas系统变型的gRNA的至少一部分)。识别部分的寡核苷酸可以与识别序列具有至少30%、40%、50%、60%、70%、80%、90%、95%或更多的互补性。识别部分的寡核苷酸可以与识别序列具有至多100%、95%、90%、80%、70%、60%、50%、40%、30%或更少的互补性。
反应混合物的组成可包含选定的环状核酸分子(例如,单链或双链)文库。所述选定文库的至少5%、10%、15%、20%、25%、30%、35%、40%、45%、50%、60%、70%、80%、90%、95%或更多中的每个环状核酸分子可包含识别序列的至少一部分。所述选定文库的至多100%、95%、90%、80%、70%、60%、50%、45%、40%、35%、30%、25%、20%、15%、10%、5%或更少中的每个环状核酸分子可包含识别序列的至少一部分。
在没有任何错配的情况下出现识别序列的概率可以是在每1x104、5x104、7x104、1x105、5x105、1x106、5x106、1x107、5x107、1x108、5x108、1x109、5x109、1x1010、5x1010、1x1011、5x1011、1x1012、5x1012或更多个核苷酸(或碱基对)中至多一次。备选地,在没有任何错配的情况下出现识别序列的概率可以是在每1x104、5x104、7x104、1x105、5x105、1x106、5x106、1x107、5x107、1x108、5x108、1x109、5x109、1x1010、5x1010、1x1011、5x1011、1x1012、5x1012或更多个核苷酸(或碱基对)中至多两次、三次、四次、五次或更多。
识别序列可以包含至少9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、35、40、45、50个或更多核苷酸(或碱基对)。识别序列可以包含至多50、45、40、35、30、29、28、27、26、25、24、23、22、21、20、19、18、17、16、15、14、13、12、11、10、9个或更少核苷酸(或碱基对)。
在不同的方面,本公开内容提供了环状核酸分子的无细胞文库。文库的至少5%中的每个个体的环状核酸分子可以包含(i)靶位点和(ii)与靶位点相距已知距离的切口。环状核酸分子文库可以是本公开内容中提供的任何主题方法或反应混合物的起始材料或产物。
环状核酸分子的无细胞文库可以是对包含识别位点的任何核酸分子的随机核酸分子库富集的产物或副产物。在一个实例中,随机环状核酸分子库可富集至少一种包含识别位点的环状核酸分子,并用至少一种酶(例如,切口酶,诸如Cas9n切口酶)处理以在距靶位点已知距离处产生切口。在另一个实例中,随机环状核酸分子库可用至少一种酶处理以在距靶位点的已知距离处产生切口,并富集至少一种包含识别位点的环状核酸分子。在不同的实例中,可以富集随机线性核酸分子库中的至少一种包含识别位点的线性核酸分子,用至少一种第一酶(例如,连接酶和/或重组酶)处理以环化一个或多个线性核酸分子,并用至少第二酶(例如,切口酶,诸如Cas9n切口酶)处理以在距靶位点已知距离处产生切口。在不同的实例中,可以富集随机环状核酸分子库中的至少一种包含识别位点的环状核酸分子,并用至少一种酶(例如,识别部分)处理以插入切口位点(在插入之前可能存在或可能不存在切口)。在不同的实例中,随机环状核酸分子库可用至少一种酶(例如,识别部分)处理以插入切口位点(在插入之前可能存在或可能不存在切口),并富集至少一种包含识别位点的环状核酸分子。在不同的实例中,随机线性核酸分子库可用至少第一酶(例如,识别部分)处理以插入切口位点(在插入之前可能存在或可能不存在切口),用至少第二酶(例如,连接酶和/或重组酶)处理以环化一个或多个线性核酸分子,并富集至少一种包含识别位点的环状核酸分子。在不同的实例中,随机线性核酸分子库可用至少第一酶(例如,识别部分)处理以插入在切口位点(在插入之前可能存在或可能不存在切口),富集至少一种包含识别位点的线性核酸分子,并用至少第二酶(例如,连接酶和/或重组酶)处理以环化一个或多个线性核酸分子。在另一个不同的实例中,可以富集随机线性核酸分子库中的至少一种包含识别位点的线性核酸分子,用至少第一酶(例如,识别部分)处理以插入切口位点(在插入之前可能存在或可能不存在切口),并用至少第二酶(例如,连接酶和/或重组酶)处理以环化一个或多个线性核酸分子。
文库的至少5%、10%、20%、25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%、95%或更多中的每个个体的环状核酸分子可以包含(i)靶位点和(ii)在距靶位点已知距离处的切口。文库的至多100%、95%、90%、85%、80%、75%、70%、65%、60%、55%、50%、45%、40%、35%、30%、25%、20%或更少中的每个个体的环状核酸分子可以包含(i)靶位点和(ii)在距靶位点已知距离处的切口。
个体的环化核酸分子可以还包含识别序列。在没有任何错配的情况下出现识别序列的概率可以是在每1x104、5x104、7x104、1x105、5x105、1x106、5x106、1x107、5x107、1x108、5x108、1x109、5x109、1x1010、5x1010、1x1011、5x1011、1x1012、5x1012或更多个核苷酸(或碱基对)中至多一次。备选地,在没有任何错配的情况下出现识别序列的概率可以是在每1x104、5x104、7x104、1x105、5x105、1x106、5x106、1x107、5x107、1x108、5x108、1x109、5x109、1x1010、5x1010、1x1011、5x1011、1x1012、5x1012或更多个核苷酸(或碱基对)中至多两次、三次、四次、五次或更多。
识别序列可以包含至少9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、35、40、45、50个或更多核苷酸(或碱基对)。识别序列可以包含至多50、45、40、35、30、29、28、27、26、25、24、23、22、21、20、19、18、17、16、15、14、13、12、11、10、9个或更少核苷酸(或碱基对)。
无细胞文库可以包含至少第一个体核酸分子和第二个体核酸分子。在一些实例中,(i)第一个体核酸分子的第一靶位点和(ii)第二个体核酸分子的第二靶位点可以相同。在这种情况下,(1)第一个体核酸分子的第一切口与第一靶位点之间的第一已知距离和(2)第二个体核酸分子的第二切口与第二靶位点之间的第二已知距离可以是相同的。备选地,(1)第一个体核酸分子的第一切口与第一靶位点之间的第一已知距离和(2)第二个体核酸分子的第二切口与第二靶位点之间的第二已知距离可以是不同的。在一些实例中,(i)第一个体核酸分子的第一靶位点和(ii)第二个体核酸分子的第二靶位点可以不同。在这种情况下,(1)第一个体核酸分子的第一切口与第一靶位点之间的第一已知距离和(2)第二个体核酸分子的第二切口与第二靶位点之间的第二已知距离可以是相同的。备选地,(1)第一个体核酸分子的第一切口与第一靶位点之间的第一已知距离和(2)第二个体核酸分子的第二切口与第二靶位点之间的第二已知距离可以是不同的。
切口位点可以距离靶位点不超过100,000、50,000、10,000、5,000、1,000、500、400、300、200、100、90、80、70、60、50、40、30、25、20、15、10、5或更少的核苷酸。切口位点可以距离靶位点至少5、10、15、20、25、30、40、50、60、70、80、90、100、200、300、400、500、1,000、5,000、10,000、50,000、100,000或更多的核苷酸。
选定文库的环状核酸分子可以包括环状双链核酸分子。切口可以在环状双链核酸分子的有义链上或在环状双链核酸分子的反义链上。切口可以在环状双链核酸分子的有义链上和在环状双链核酸分子的反义链上。
图2A和2B示意性地示出了用于在环状核酸内在距靶位点已知距离处产生切口的示例方法。参照图2A,可以提供环状核酸210a。环状核酸210a可包含靶位点214和对切口酶220(例如,Cas9n)具有特异性的切口酶结合位点212。与至少参考序列(例如,物种或多个物种的基因的一部分的共有序列)相比,靶位点214可具有或被怀疑具有一个或多个突变。切口酶结合位点212可以与靶位点214相距已知距离216(例如,切口酶结合位点212与靶位点214之间的核苷酸数目已知)。环状核酸210a可以还包含识别序列218,其可以被识别部分230(例如,Cas或dCas)特异性地识别。环状核酸210a可用切口酶220处理。切口酶220可以结合至切口酶结合位点212并产生切口,从而形成具有切口222的环状核酸210b,切口在切口酶结合位点212处、附近或之内。在产生切口222时,切口酶220可以被去除或分离(例如,自动分离)。切口酶结合位点212对于环状核酸210a可以是内源或外源的。
参照图2B,可以提供环状核酸220a。环状核酸220a可包含如本文所提供的靶位点214和识别序列218,识别序列218可被识别部分230(例如,Cas)特异性识别。环状核酸220a可以用识别部分230处理,以在识别位点218处、附近或之内产生断裂。在产生断裂后,可以将切口酶结合位点212插入(例如,通过同源性定向修复)到裂口中,并且可以封闭环状核酸以形成环状核酸分子220b。随后,切口酶220可以结合至切口酶结合位点212并产生切口,从而形成具有切口222的环状核酸分子220c,切口在切口酶结合位点212处、附近或之内。在产生切口222时,切口酶220可以被去除或分离(例如,自动分离)。
图2C和2D示意性地示出了用于分离或富集包含识别位点和靶位点的环状核酸的示例方法。参照图2C,随机核酸分子库可包括环状核酸分子210a,该环状核酸分子210a包含靶位点214、距靶位点214已知距离216的切口酶结合位点212,和识别位点218。可以用至少识别部分150(例如,dCas)处理随机核酸分子库以形成识别复合物。在一些实例中,识别部分150可以与磁珠缀合。备选地,识别部分150可包含一个或多个生物素分子,其随后可通过抗生物素蛋白-生物素相互作用偶联至呈现抗生物素蛋白的磁珠。可以通过磁珠分离将得到的识别复合物从缺少识别位点218的其他核酸分子中拉出(分离)。类似地,可以富集(例如,通过使用识别部分150)随机核酸分子库中的包含环状核酸分子210b的。
参照图2D,随机核酸分子库可包含环状核酸分子220a,该环状核酸分子220a包含靶位点214和识别位点218。使用图2C中提供的类似方法(例如,通过使用识别部分),该库可以富集环状核酸分子220a,或者环状核酸分子220a可以从库中分离。或者,随机核酸分子库可包含环状核酸分子220b,该环状核酸分子220b包含靶位点214、距靶位点214已知距离216的切口位点212,和识别位点218。使用图2C中提供的类似方法(例如,通过使用识别部分),该库可以富集环状核酸分子220b,或者环状核酸分子220b可以从库中分离。在不同的替代方案中,随机核酸分子库可包含环状核酸分子220c,该环状核酸分子220c包含靶位点214、距靶位点214已知距离216的切口222,和识别位点218。使用图2C中提供的类似方法(例如,通过使用识别部分),该库可以富集环状核酸分子220c,或者环状核酸分子220c可以从库中分离。
图3示意性地示出了用于对双链核酸测序进行测序的示例方法。可以提供双链核酸分子。双链核酸分子可以是来自生物样品的片段化或完整核酸分子。双链核酸分子可包含两个平端。备选地,双链核酸分子可以不包含两个平端(例如,仅1个平端或不具有平端)。在这种情况下,可能需要进行末端修复,以使修复后的双链核酸分子可以(i)没有突出端,或(ii)在有义链和反义链中含有5′磷酸基团和3′羟基基团,如在图1D中提供的。参照图3,在有或没有这种修复的情况下,双链核酸分子可以被变性成分离的单链核酸分子。每个个体的单链核酸分子可以被环化以形成单链环状核酸分子。在一些实例中,分离的单链核酸分子(例如,彼此至少部分或完全互补的有义链和反义链)可以偶联(例如,连接),然后环化为一个单链环状核酸分子。随后,可以使环状核酸分子处于足以使一种或多种随机六聚体引物与环状核酸分子的互补结构域杂交的条件下。可以通过合成测序,例如电信号的检测或经由光学成像的可视化,来分析具有一种或多种杂交六聚体的所得环状核酸分子。
在一个实例中,可以使用纳米孔测序。聚合酶可与杂交的六聚体之一结合并引发延伸反应。在延伸反应过程中,其他杂交的六聚体可通过聚合酶的直接或间接活性从环状核酸分子中置换出来。聚合酶可以位于邻近纳米孔(例如,蛋白质纳米孔或固态纳米孔)的位置或与之或偶联。
全基因组与靶向测序
对于全基因组测序,可以不控制环状多核苷酸内聚合酶的结合位点。非特异性切口酶可用于在环状多核苷酸的链的随机位置产生切口,并且聚合酶可以结合至非特异性切口位点,例如,以进行延伸反应。或者,可以不控制环状多核苷酸内聚合酶的结合位点。可以使用识别特定序列的切口酶来结合并产生切口,例如,Cas系统(例如,Cas切口酶,如Cas9n)、N.Alw I、Nb.BbvCl、Nt.BbvCl、Nb.BsmI、Nt.BsmAI、Nt.BspQl、Nb.BsrDI、Nt.BstNBI、Nb.BstsCI、Nt.CviPII、Nb.Bpu l OI、Nt.Bpu l OI和Nt,Bst9I,其变体及其组合。
靶向的多核苷酸测序可用于检测多核苷酸特定位置的序列变异(例如,一个或多个突变)。序列变异可以是,例如,单核苷酸多态性(SNP)。对于靶向测序,可能需要将聚合酶结合至感兴趣的多核苷酸序列(例如,靶位点)附近,如可能含有序列变体(例如,突变)的区段。在一些实例中,可以使用包含Cas切口酶和sgRNA的Cas系统。与邻近感兴趣的多核苷酸区段的多核苷酸序列具有碱基对互补的多核苷酸区段可以作为sgRNA的一部分产生。sgRNA可以与Cas9n切口酶结合,以形成sgRNA/Cas9n复合物,该复合物可以在由sgRNA的至少一部分鉴定的区段处与多核苷酸结合,并生成切口。
图4A示意性地示出了使用纳米孔测序进行靶向测序的示例方法。可以扩增包括基因组DNA/cDNA或无细胞DNA/cfDNA的样品。为了使DNA/cDNA混合物富集靶向的多核苷酸序列,可以使基因组DNA/cDNA与生物素化的sgRNA/CRISPER/Cas9复合物反应,以在感兴趣的区域中切割DNA/cDNA。通过使用链霉亲和素珠进行纯化,可以使DNA混合物富集靶DNA区段。然后可以将富集的靶DNA样品或无细胞DNA(如ctDNA)环化。环状DNA可以与sgRNA/CRISPR/Cas9n切口酶结合,以在DNA链中提供切口位点。sgRNA包含核苷酸序列,该核苷酸序列与邻近于感兴趣区域(如潜在具有序列变体的区域)的DNA的核苷酸序列互补。然后将聚合酶结合至切口位点。然后将聚合酶/DNA复合物与纳米孔缔合,并且DNA可以使用滚环扩增和转录进行测序。
图4B示意性地示出了使用纳米孔测序进行基因组测序的示例方法。该方法可以包括以下步骤:提供包含基因组DNA的样品,扩增基因组DNA,使基因组DNA环化以提供环状DNA,用切口酶对环状DNA进行切口,以在环状DNA的链上提供切口位点,将DNA聚合酶与切口位点结合,以及使用纳米孔对环状DNA进行扩增和测序。在一些实例中,限制性切口酶可用于在其各自的识别序列处生成切口,因此可以不控制切口与靶位点(例如,突变位点)之间的距离。或者,切口酶(例如,Cas9n复合物)可用于靶向感兴趣的特定序列,以在感兴趣的特定序列附近或之内生成切口,从而控制切口与靶位点(例如,突变位点)之间的距离。切口位点可以是单链DNA的一部分,该部分已被去除以暴露3′和5′端。3′端可以用作模板,聚合酶可以结合该模板并从其扩增。
样品
用于分析的样品可以包含多个多核苷酸。多核苷酸可以是单链DNA、双链DNA或其组合。多核苷酸可以包含基因组DNA、基因组cDNA、无细胞DNA、无细胞cDNA或前述的任何组合。
多核苷酸可以包括无细胞DNA、循环肿瘤DNA、基因组DNA和来自福尔马林固定和石蜡包埋(FFPE)样品的DNA。在一些实例中,从FFPE样品中提取的DNA可能被损坏,并且这种受损的DNA可以通过可用的FFPE DNA修复试剂盒进行修复。样品可以包含任何合适的DNA和/或cDNA样品,例如尿液、粪便、血液、唾液、组织、活检物、体液或肿瘤细胞。
多个多核苷酸可以是单链或双链的。
多核苷酸样品可以来自任何合适的来源。例如,样品可以从患者、动物、植物或环境获得,例如,天然存在或人工的大气、水系统、土壤、大气病原体收集系统、地下沉积物、地下水或污水处理厂。
来自样品的多核苷酸可以包括一种或多种不同的多核苷酸,例如,DNA、RNA、核糖体RNA(rRNA)、转移RNA(tRNA)、微小RNA(miRNA)、信使RNA(mRNA),前述任何一种的片段或前述任意种的组合。样品可以包含DNA。样品可以包含基因组DNA。样品可以包含线粒体DNA、叶绿体DNA、质粒DNA、细菌人工染色体、酵母人工染色体、寡核苷酸标签或前述任意种的组合。
多核苷酸可以是单链的、双链的或其组合。多核苷酸可以是单链多核苷酸,其中可以存在或可以不存在双链多核苷酸。
样品中多核苷酸的起始量可以,例如,小于50ng,如小于45ng、40ng、35ng、30ng、25ng、20ng、15ng、10ng、5ng、4ng、3ng、2ng、1ng、0.5ng、0.1ng或更少。样品中多核苷酸的起始量可以,例如,大于0.1ng,如大于0.5ng、1ng、2ng、3ng、4ng、5ng、10ng、15ng、20ng、25ng、30ng、35ng、40ng、45ng、50ng或更多。起始多核苷酸的量可以为,例如,0.1ng至100ng、1ng至75ng、5ng至50ng或10ng至20ng。
样品中的多核苷酸可以在获得时是单链的,或通过处理(例如,变性)成为单链。例如,本文关于本公开内容的各个方面描述了合适的多核苷酸的进一步实例。多核苷酸可以在没有提取步骤和/或没有纯化步骤的情况下进行后续步骤(例如,环化和扩增)。例如,可以在没有提取步骤的情况下对流体样品进行处理以去除细胞而产生纯化的液体样品和细胞样品,然后从纯化的流体样品中分离多核苷酸。可以使用多种分离多核苷酸的方法,如通过沉淀或与基底非特异性结合,然后洗涤基底以释放结合的多核苷酸。如果在不进行细胞提取步骤的情况下从从样品中分离出多核苷酸,则多核苷酸将主要是细胞外或“无细胞”多核苷酸,它们可能对应于死亡或受损的细胞。此类细胞的身份可用于表征例如在微生物群落中其来源的细胞或细胞群。
样品可以来自受试者。受试者可以是任何合适的生物体,包括,例如,植物、动物、真菌、原生生物、无核原生物、病毒、线粒体和叶绿体。样品多核苷酸可以从受试者中分离,如细胞样品、组织样品、体液样品或器官样品或源自任何这些的细胞培养物,包括,例如,培养的细胞系、活检物、血液样品、颊拭子或含有唾液等细胞的流体样品。受试者可以是动物,如牛、猪、小鼠、大鼠、鸡、猫、狗或哺乳动物,如人类。样品可以包含肿瘤细胞,如在来自受试者的肿瘤组织的样品中。
样品可以不包含完整细胞,可以被处理以去除细胞,或在没有细胞提取步骤的情况下分离多核苷酸,例如以分离无细胞多核苷酸,如无细胞DNA。
样品来源的其他实例包括血液、尿液、粪便、鼻腔、肺部、肠道、其他体液或排泄物、其衍生物或其组合。
来自单个个体的样品可以分为多个单独的样品,如2、3、4、5、6、7、8、9、10或更多个单独的样品,这些样品独立地经受本公开内容的方法,例如进行一式两份、三份、四份或更多份的分析。当样品来自受试者时,参考序列也可以源自受试者,如来自被分析样品的共有序列或来自相同受试者的另一样品或组织的多核苷酸序列。例如,可以分析血液样品的ctDNA突变,并且可以分析来自受试者的另一样品(如颊部或皮肤样品)的细胞DNA,以确定参考序列。
根据任何合适的方法,多核苷酸可以从样品中的细胞提取,也可以不从样品中的细胞提取。
多个多核苷酸可以包含无细胞多核苷酸,如无细胞DNA(cfDNA)或循环肿瘤DNA(ctDNA)。无细胞DNA在健康和患病个体中循环。来自肿瘤的cfDNA(ctDNA)不限于任何特定的癌症类型,但似乎是在不同恶性肿瘤情况下的共同发现。与患有或疑似患有疾病的患者相比,对照受试者的血浆中游离循环DNA浓度可能更低。在一个实例中,血浆中的游离循环DNA浓度在对照受试者中可以是例如14ng/mL至18ng/mL,而在瘤形成患者中可以是18ng/mL至318ng/mL。
凋亡和坏死性细胞死亡可能有助于产生体液中的无细胞循环DNA。例如,在前列腺癌患者和其他前列腺疾病(如良性前列腺增生和前列腺炎)患者的血浆中可以观察到循环DNA水平显著升高。此外,循环肿瘤DNA可能存在于来自肿瘤原发器官的流体中。在一个实例中,可以在导管灌洗液中实现乳腺癌检测;在粪便中实现结直肠癌检测;在痰中实现肺癌检测,以及在尿液或射精中实现前列腺癌检测。无细胞DNA可以从多种来源获得。示例性来源可以是受试者的血液样品。然而,cfDNA或其他片段化DNA可以来自多种其他来源,包括,例如,尿液和粪便样品可以是包括ctDNA在内的cfDNA的来源。
本公开内容提供的用于对多核苷酸测序的方法可以包括检索具有待测序的多核苷酸或多核苷酸集合的生物样品,从生物样品中提取或以其他方式分离多核苷酸样品,以及任选地,制备多核苷酸样品用于测序。
对多核苷酸样品进行测序的方法可以包括从生物样品(例如,组织样品、流体样品)中分离多核苷酸,并制备多核苷酸样品用于测序。在一些情况下,多核苷酸样品是从细胞中提取的。提取多核苷酸的技术的实例是使用溶菌酶、超声处理、萃取、高压或其任何组合。在一些情况下,多核苷酸是无细胞多核苷酸,并且不需要从细胞中提取。
在一些情况下,可以通过涉及从多核苷酸样品中去除蛋白质、细胞壁碎片和其他组分的过程来制备多核苷酸样品以进行测序。有许多商业产品可用于实现此操作,例如,旋转柱。备选地或附加地,可以使用乙醇沉淀和离心。
核酸片段化
来自样品的多核苷酸可以在进一步处理之前被片段化。片段化可以通过任何合适的方法来完成,包括化学、酶促和机械片段化。片段的平均或中位长度至少为10个核苷酸。片段的平均或中位长度可以为至少10、50、100、500、1,000、5,000、10,000、50,000或更多个核苷酸。片段的平均或中值长度至多为50,000、10,000、5,000、1,000、500、100、50、10或更少个核苷酸。片段可以为90个核苷酸至200个核苷酸,和/或具有150个核苷酸的平均长度或任何其他合适的平均长度。多核苷酸的片段化可以机械地完成,包括使样品多核苷酸经受声波处理。片段化可以包括在适合于一种或多种酶生成双链多核苷酸断裂的条件下,用一种或多种酶处理样品多核苷酸。片段化酶的实例包括序列特异性核酸酶和非序列特异性核酸酶。合适的核酸酶的实例包括DNA酶I、片段酶、限制性核酸内切酶、其变体以及前述任何一种的组合。片段化可以包括用一种或多种限制性核酸内切酶处理样品多核苷酸。片段化可产生具有5'突出端、3'突出端、平端或其组合的片段。当片段化包括使用一种或多种限制性核酸内切酶时,样品多核苷酸的切割留下具有可预测序列的突出端。片段化的多核苷酸可以通过标准方法,如柱纯化或从琼脂糖凝胶分离,经受大小选择片段的步骤。
线性核酸扩增
样品中的多核苷酸可以被扩增。多核苷酸可以使用多种方法扩增,如使用引物和DNA聚合酶的任何适当组合的引物延伸反应,包括但不限于聚合酶链反应(PCR)、逆转录及其组合。当引物延伸反应的模板是RNA时,逆转录产物称为互补DNA(cDNA)。可用于引物延伸反应的引物可以包含对一个或多个靶标具有特异性的序列、随机序列、部分随机序列及其组合。
扩增的多核苷酸可以在有或没有富集的情况下进行测序,如通过在测序之前进行富集步骤来富集扩增的多核苷酸中的一个或多个靶多核苷酸。富集步骤可以包括使扩增的多核苷酸与附接于基底的多个探针杂交。富集步骤可以包括在包含以下的扩增反应混合物中扩增包含以5'至3'方向定向的序列A和序列B的靶序列:(a)扩增的多核苷酸;(b)包含序列A'的第一引物,其中所述第一引物通过序列A与序列A'之间的序列互补性与靶序列的序列A特异性杂交;(c)包含序列B的第二引物,其中所述第二引物通过B与B'之间的序列互补性与存在于包含靶序列的互补序列的互补多核苷酸中的序列B'特异性杂交;以及(d)延伸所述第一引物和所述第二引物以产生扩增的多核苷酸的聚合酶;其中靶序列的序列A的5’末端与序列B的3’末端之间的距离为75nt或更小。
样品的富集
感兴趣的基因组DNA和cDNA的区域可以被选择性地靶向和扩增。靶向区域可以包括,例如,包含用于诊断目的的感兴趣序列变体的区域。
感兴趣的多核苷酸区域可以通过将生物素化的sgRNA/CRISPR/Cas9复合物结合至邻近感兴趣区域的多核苷酸区域而被切割。sgRNA可以包含与邻近感兴趣区域的区域处的多核苷酸序列互补的序列。sgRNA/CRISPR/Cas9复合物可以将双链多核苷酸切割成多核苷酸区段。可以使用一种或多种纯化方法,如将靶向区段结合至链霉亲和素珠,而使包含靶向多核苷酸区段和非靶多核苷酸区段的组合物富含靶向多核苷酸区段。
然后可以使富含感兴趣多核苷酸区段的多核苷酸混合物环化。
线性核酸环化
多核苷酸样品可以包含单链多核苷酸。使此类多核苷酸环化可以通过使多个多核苷酸进行连接反应来实现。环状多核苷酸可以具有在环化的多核苷酸中唯一的连接部。
环化可以包括将多核苷酸的5’末端连接至同一多核苷酸的3’末端,样品中另一多核苷酸的3’末端,或不同来源的多核苷酸(例如,人工多核苷酸,如寡核苷酸衔接子)的3’末端。例如,多核苷酸的5’末端可以连接至相同多核苷酸的3’末端(也称为“自连接”)。可以选择环化反应的条件,以有利于在特定长度范围内的多核苷酸自连接,从而产生以特定平均长度为特征的多个环化多核苷酸。例如,可以选择环化反应条件,以有利于长度小于5,000、2,500、1,000、750、500、400、300、200、150、100、50或更少的核苷酸的多核苷酸自连接。长度在50至5000个核苷酸、100至2500个核苷酸或150至500个核苷酸的多核苷酸片段可以是有利的,使得环化的多核苷酸的平均长度在所需范围内。例如,80%或更多的环化多核苷酸片段的长度可以在50至500个核苷酸之间,如长度在50至200个核苷酸之间。可以优化的反应条件包括连接反应的时间长度、各种试剂的浓度和/或要连接的多核苷酸的浓度。环化反应可以保留环化之前样品中片段长度的分布。例如,在环化前和经环化的多核苷酸中,样品中片段长度的平均值、中位数、模态和标准偏差中的一个或多个在彼此的75%、80%、85%、90%、95%或更多之间。
可以使用一个或多个衔接子寡核苷酸,使得样品中多核苷酸的5’末端和3’末端通过一个或多个介于之间的衔接子寡核苷酸连接,以形成环状多核苷酸,而不是形成自连接的环状多核苷酸。例如,多核苷酸的5’末端可以与衔接子的3’末端连接,并且同一衔接子的5’末端可以与同一多核苷酸的3’末端连接。衔接子寡核苷酸可以包括具有序列的任何合适的寡核苷酸,该序列的至少一部分是已知的,其可以与样品多核苷酸连接。衔接子寡核苷酸可以包括,例如,DNA、RNA、核苷酸类似物、非规范核苷酸、标记的核苷酸、修饰的核苷酸或前述任何一种的组合。衔接子寡核苷酸可以是单链、双链或部分双链体。部分双链体衔接子可以包含一个或多个单链区域和一个或多个双链区域。双链衔接子可以包含彼此杂交的两个单独的寡核苷酸,如寡核苷酸双链体,并且杂交可以留下一个或多个平端,一个或多个3'突出端,一个或多个5'突出端,一个或多个由错配和/或未配对核苷酸造成的凸起,或前述任何一种的组合。当衔接子的两个杂交区域被非杂交区域彼此分开时,会形成“气泡”结构。可以使用具有不同核苷酸序列的衔接子。可以在顺序反应中或同时将不同的衔接子连接至样品多核苷酸。可以将相同的衔接子添加至靶多核苷酸的两端。例如,可以将第一衔接子和第二衔接子添加到同一反应中。在与样品多核苷酸结合之前,可以操作衔接子。例如,可以添加或除去终端磷酸酯。
任何合适的方法均可用于对多核苷酸进行环化。例如,环化可以包括酶促反应,如使用连接酶,如RNA或DNA连接酶。合适的连接酶的实例包括CircligaseTM(Epicentre;Madison,Wis.)、RNA连接酶、T4 RNA连接酶1(ssRNA连接酶)、NAD-依赖性连接酶如Taq DNA连接酶、丝状栖热菌(Thermus filiformis)DNA连接酶、大肠杆菌DNA连接酶、Tth DNA连接酶、水管致黑栖热菌(Thermus scotoductus)DNA连接酶(I和II)、热稳定连接酶、Ampligase热稳定DNA连接酶、VanC型连接酶、9°N DNA连接酶、Tsp DNA连接酶、ATP-依赖性连接酶如T4RNA连接酶、T4 DNA连接酶、T3 DNA连接酶、T7 DNA连接酶、Pfu DNA连接酶、DNA连接酶1、DNA连接酶III和DNA连接酶IV。
对于自连接环化,可以调节多核苷酸和酶的浓度以促进形成分子内环,而不是分子间结构。反应温度和时间也可以调节。可以包括在环化反应后的核酸外切酶步骤以消化任何未连接的多核苷酸。例如,环状多核苷酸不含有游离的5'或3’末端,因此引入5'或3'核酸外切酶将不会消化闭环,但会消化未连接的多核苷酸。
多核苷酸的两端直接地或通过一个或多个中间衔接子寡核苷酸彼此连接形成环状多核苷酸可以产生具有连接序列的连接部。在多核苷酸的5’末端和3’末端通过衔接子多核苷酸连接的情况下,连接部可以指多核苷酸与衔接子之间的连接部(例如,5’末端连接部或3’末端连接部之一),或指由衔接子多核苷酸形成的并包括该衔接子多核苷酸的在多核苷酸的5’末端与3’末端之间的连接部。如果多核苷酸的5’末端和3’末端在没有介于之间的衔接子的情况下连接,如单链DNA的5’末端和3’末端,则连接部可以指这两端连接的点。连接部可以通过包含该连接部的核苷酸序列,即连接序列来鉴定。样品包含具有通过自然降解过程(如细胞裂解、细胞死亡和其他过程)形成的末端混合物的多核苷酸,该降解过程使DNA从细胞释放到其周围环境中并在其中进一步降解,如以无细胞多核苷酸的形式,片段化是样品处理(如固定、染色和/或存储过程)的副产物,并且片段化可通过切割DNA而不受特定靶序列限制的方法进行,如机械片段化或非序列特异性核酸酶处理,例如使用DNA酶I、片段酶。在样品可以包含具有末端混合物的多核苷酸的情况下,两个多核苷酸具有相同的5’末端或3’末端的可能性很低,并且两个多核苷酸独立地具有相同的5’末端和3’末端二者的可能性是极低的。在此类混合物中,即使两个多核苷酸包含具有相同靶序列的部分,连接部也可以用于区分不同的多核苷酸。如果在没有介于之间的衔接子的情况下连接多核苷酸末端,则可以通过与参考序列比对来鉴定连接序列。例如,在两个组分序列的顺序相对于参考序列似乎相反的情况下,看起来发生反转的点可以指示连接部。在通过一个或多个衔接子序列连接多核苷酸末端的情况下,可以通过与已知衔接子序列的接近性来鉴定连接部,或者如果测序读取的长度足以从环化多核苷酸的5'和3’末端获得序列,则可以通过如上所述的比对来鉴定。特定连接部的形成可能是非常稀有的事件,使得其在样品的环化多核苷酸中是唯一的。
环状核酸扩增
本公开内容提供的方法可以包括扩增环状多核苷酸。例如,可以扩增包含靶序列的多个不同的环状多核苷酸,其中所述靶序列包含以5'至3'方向定向的序列A和序列B。扩增环状DNA的方法可以包括使环状DNA经受多核苷酸扩增反应,其中反应扩增反应混合物包含(a)多个环状多核苷酸,其中所述多个环状多核苷酸中的个体环状多核苷酸包含通过环化具有5’末端和3’末端的个体多核苷酸而形成的不同连接部;(b)包含序列A'的第一引物,其中所述第一引物通过序列A与序列A'之间的序列互补性与靶序列的序列A特异性杂交;(c)包含序列B的第二引物,其中所述第二引物通过序列B与B'之间的序列互补性与存在于包含靶序列的互补序列的互补多核苷酸中的序列B'特异性杂交;以及(d)延伸所述第一引物和所述第二引物以产生扩增的多核苷酸的聚合酶;其中序列A和序列B是内源序列,并且靶序列的序列A的5’末端与序列B的3’末端之间的距离为75个核苷酸或更小。
环化后,可以扩增环状双链多核苷酸。有多种扩增环状多核苷酸(例如,DNA和/或RNA)的方法。扩增可以是线性的、指数的,也可以在多相扩增过程中同时包括线性和指数相。扩增方法可以涉及温度变化,如热变性步骤,或者可以是不需要热变性的等温过程。合适的扩增过程的实例包括滚环扩增(RCA)。在RCA中,反应混合物可以包含一种或多种引物、聚合酶和dNTP,并产生串联体。RCA反应中的聚合酶可以是具有链置换活性的聚合酶。可获得各种合适的聚合酶,包括,例如,缺乏核酸外切酶活性的DNA聚合酶I大(Klenow)片段、Phi29 DNA聚合酶和Taq DNA聚合酶。作为RCA的结果,形成的串联体多核苷酸扩增产物具有来自模板多核苷酸的靶序列的两个或更多个拷贝,如2、3、4、5、6、7、8、9、10个或更多靶序列的拷贝。扩增引物可以具有任何合适的长度,例如,至少5、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、90、100或更多个核苷酸,其任何部分或全部可以与引物所杂交的相应靶序列互补。RCA过程可以使用,例如,随机引物、靶特异性引物、衔接子靶向引物或不使用引物。
纯化
在将多核苷酸如双链DNA环化以提供环状dsDNA之后,可以例如通过分离环状多核苷酸或去除反应中的一种或多种其他分子,在扩增或测序前纯化环状dsDNA,以增加环状多核苷酸的相对浓度或纯度以用于后继步骤。例如,可以用核酸外切酶处理含有双链多核苷酸的混合物,以去除非环化的多核苷酸(例如,单链或双链),或者可以进行尺寸排阻色谱法,从而截留并丢弃小试剂,或将环化产物截留并释放在单独的体积中。纯化可以包括处理以除去或降解环化反应中使用的连接酶,和/或从这种连接酶中纯化环化的多核苷酸。处理以降解连接酶可以包括用蛋白酶处理。
切口
环状多核苷酸的混合物,如环状DNA、环状cDNA、环状ctDNA或其组合的混合物,可以与切口酶(例如,CRISPR/Cas9n复合物)反应,以切割环状多核苷酸的单链的区段,从而在多核苷酸的链中形成切口。对于环状双链多核苷酸,CRISPR/Cas9n复合物可以结合并切割内链或外链的区段。
CRISPR/Cas9n切口酶复合物可用于去除区段,即在由CRISPR/Cas9n复合物的gRNA的至少一部分所靶向的多核苷酸部分上形成切口。这种方法可以适用于全基因组测序和/或靶向测序。在一些实例中,CRISPR-Cas9n系统可以通过与识别特定DNA靶标的短RNA分子(称为短引导RNA(sgRNA))复合,以适于靶向特定核苷酸序列。为了靶向特定的感兴趣多核苷酸区域,可以使用sgRNA/CRISPR/Cas9n复合物将切口酶结合至邻近感兴趣区域的多核苷酸区域。切口酶可以暴露环状DNA的3′和5′端,并且3′端可以用作扩增和/或逆转录测序(例如,使用聚合酶,如DNA聚合酶)的结合位点。
治疗应用
本文提供的方法、系统和组合物可以针对一种或多种治疗应用,如用于表征患者样品和任选地诊断受试者的病况。治疗应用可以包括基于本公开内容提供的方法的结果,告知患者可能对其最有反应的治疗选择和/或告知需要治疗干预的受试者的治疗。
例如,本公开内容提供的方法可用于诊断肿瘤的存在、进展和/或转移,如当所分析的多核苷酸包含cfDNA、ctDNA或片段化的肿瘤DNA或由其组成时。例如,可以通过随时间监测ctDNA来监测受试者的肿瘤治疗功效,ctDNA的减少可以用作治疗功效的指示,并且ctDNA的增加可以告知选择不同的治疗和/或不同的剂量。其他用途包括评估移植受体的器官排斥反应,例如将与移植供体基因组相对应的循环DNA量的增加用作移植排斥反应的早期指标,以及病原体感染(如病毒或细菌感染)的基因分型/同型分型。循环胎儿DNA中序列变体的检测可用于诊断胎儿的病况。
本公开内容提供的方法可以包括基于测序结果诊断受试者,如诊断受试者患有与检测到的因果遗传变体相关的疾病,或报告患者患有或将患上此类疾病的可能性。
因果遗传变体可以包括与特定类型或阶段的癌症或具有特定特征(如转移潜力、耐药性和/或药物反应性)的癌症相关的序列变体。本公开内容提供的方法可以用于告知癌症治疗的治疗决定、指导和监测。例如,可以通过比较治疗前、治疗期间和治疗后患者的ctDNA样品来监测治疗效果,该治疗包括特定分子靶向疗法,如单克隆药物、化疗药物、放射方案以及前述任何方法的组合。例如,可以监测ctDNA以查看某些突变在治疗后是否增加或减少,或者是否出现新的突变,这可以使医生在比跟踪患者症状的监测方法更短的时间内修改治疗方案。方法可以包括基于多核苷酸测序的结果来诊断受试者,如诊断受试者患有与检测到的序列变体相关的特定阶段或类型的癌症,或者报告患者患有或将患上这种癌症的可能性。
例如,对于基于分子标志物专门针对患者的疗法,可以对患者进行测试以发现其肿瘤中是否存在某些突变,并且这些突变可以用于预测对疗法的响应或耐药性,并指导是否决定使用该疗法。在治疗过程中检测和监测ctDNA有助于指导治疗选择。
与一种或多种癌症有关的序列变体可用于诊断、预后或治疗决定。例如,合适的具有肿瘤学意义的靶序列包括TP53基因、ALK基因、KRAS基因、PIK3CA基因、BRAF基因、EGFR基因和KIT基因的改变。可以特异性地扩增靶序列,和/或特异性地分析靶序列的序列变体是否可能是癌症相关基因的全部或部分。
本公开内容提供的方法可用于发现与一种或多种癌症类型、阶段或癌症特征相关的新的稀有突变。例如,在共有被分析特征如特定疾病、癌症类型和/或癌症阶段的个体的群体中,使用本公开内容提供的方法可以鉴定反映特定基因或基因部分的突变的序列变体。与没有该特征的个体相比,在共有该特征的个体组中以统计上显著更高的频率出现的鉴定出的序列变体可以具有与该特征的关联度。然后,如此鉴定出的序列变体或序列变体的类型可以用于诊断或治疗被发现携带它们的个体。
额外的治疗应用可以包括在非侵入性胎儿诊断中的使用。在孕妇的血液中可以发现胎儿DNA。本公开内容提供的方法可用于鉴定循环胎儿DNA中的序列变体,并因此可用于诊断胎儿中的一种或多种遗传疾病,如与一种或多种因果遗传变体相关的疾病。因果遗传变体的实例包括三体、囊性纤维化、镰状细胞性贫血和Tay-Saks病。母亲可以提供对照样品和血液样品用于比较。对照样品可以是任何合适的组织,然后可以测序以提供参考序列。然后可以将对应于胎儿基因组DNA的cfDNA序列鉴定为相对于母体参考的序列变体。父亲还可以提供参考样品,以帮助鉴定胎儿序列和序列变体。
不同的治疗应用可以包括检测外源多核苷酸,包括从病原体如细菌、病毒、真菌和微生物中检测,这些信息可以提示治疗。
测序设备
基于阻抗的测序
在一方面,本公开内容提供了用于处理或分析核酸分子的方法。该方法可以包括提供与纳米孔相邻的核酸分子。该方法可以包括在足以将核苷酸掺入与核酸分子的至少一部分互补的核酸链中的条件下,使核酸分子与具有标签的核苷酸接触。当核苷酸掺入到核酸链中时,标签的至少一部分可以被置于纳米孔内。该方法可以包括当标签的至少一部分在纳米孔内时,检测指示纳米孔中的阻抗或阻抗变化的一个或多个信号。该方法可以包括使用一个或多个信号来鉴定掺入到核酸链中的核苷酸。该方法可以还包括当标签的至少一部分被置于纳米孔内时测量电流或其变化。
纳米孔可以设置在紧邻或邻近于感测电路或耦合至电路(例如,CMOS或FET电路)的电极。电路可以耦合至电压源。或者,纳米孔可以是电路的一部分。可以向电路施加恒定电压,并且可以测量电流的变化。或者,可以测量维持稳态电流所需的电压变化。纳米孔可以是包含隧道结的电路的一部分。纳米孔可以是纳米孔的隧道结。或者,纳米孔可以不是包含隧道结的电路的一部分。纳米孔可以在电解溶液(例如,0.5M乙酸钾和10mM KCl)中。或者,纳米孔可以不在电解溶液中。
一个或多个信号可以是从感测电路测量的电流或电压。一个或多个信号可以是从感测电路测量的电流和电压。信号可以是隧道电流。或者,信号可以不是隧道电流。电流可以是法拉第电流。或者,电流可以不是法拉第电流。电流可以是至少1皮安(pA)、10pA、100pA、1纳安(nA)、10nA、100nA、1微安(mA)、10mA、100mA或更高。电流至多为100mA、10mA、1mA、100nA、10nA、1nA、100pA、10pA、1pA或更小。电流可以至少在皮安(pA)范围、数十pA范围、数百pA范围、纳安(nA)范围、数十nA范围、数百nA范围、微安(mA)范围、数十mA范围内或更高。电流可以至多为数十mA范围、mA范围、数百nA范围、数十nA范围、nA范围、数百pA范围、数十pA范围、pA范围或更低。电压可以是至少0.1毫伏(mV)、0.5mV、1mV、5mV、10mV、50mV、100mV、500mV或更高。电压可以是至多500mV、100mV、50mV、10mV、5mV、1mV、0.5mV、0.1mV或更低。电压可以至少在毫伏(mV)范围、数十mV范围、数百mV范围或更高。电压可以至多为数百mV范围、数十mV范围、mV范围或更低。
电路可以包括多个电极(例如,金属电极)。电路可以包含至少2、3、4、5、6、7、8、9、10或更多个电极。电路可以包含至多10、9、8、7、6、5、4、3或2个电极。多个电极可以不与纳米孔直接接触。或者,多个电极可以与纳米孔直接接触。在另一个替代方案中,一些电极可以与纳米孔直接接触,而其他电极可以不与纳米孔直接接触。在一些情况下,纳米孔可以包含多个电极。或者,纳米孔可以不包含多个电极。鉴定掺入核酸链的核苷酸可以包括使用多个电极来检测一个或多个信号。
纳米孔可以包含蛋白质纳米孔或固态纳米孔。纳米孔可以包含蛋白质纳米孔和固态纳米孔。纳米孔可以具有,例如,约0.1nm至1,000nm的特征宽度或直径。纳米孔的宽度或直径可以为至少0.1nm、0.5nm、1nm、5nm、10nm、50nm、100nm、500nm、1,000nm或更大。纳米孔的宽度或直径可以为至多1,000nm、500nm、100nm、50nm、10nm、5nm、1nm、0.5nm、0.1nm或更小。
该方法可以还包括,在检测到指示纳米孔中的阻抗或阻抗变化的一个或多个信号之前,在将核苷酸掺入核酸链中时从核苷酸释放标签。至少一种酶可以将核苷酸掺入与核酸分子的至少一部分互补的核酸链中。至少一种酶可以在掺入之前、期间或之后从核苷酸进一步释放标签。备选地或附加地,额外的酶(其可以可操作地与至少一种酶偶联)可以在掺入之前、期间或之后从核苷酸释放标签。释放的标签的至少一部分可以进入纳米孔,并且该方法可以包括当所释放标签的至少一部分在纳米孔内时,检测指示纳米孔中的阻抗或阻抗变化的一个或多个信号。
核酸分子包括环状核酸分子。环状核酸分子可以是单链或双链的。或者,环状核酸分子的第一部分可以是单链的,并且环状核酸分子的第二部分可以是双链的。在一些实例中,核酸分子可以包括单链或双链的线性核酸分子。
掺入可以使用至少一种寡核苷酸引物进行。或者,掺入可以在不使用寡核苷酸引物的情况下进行。该方法可以还包括,在检测到指示纳米孔中的阻抗或阻抗变化的一个或多个信号之前,使核酸分子经受RCA,以生成核酸链。RCA可以生成核酸链,该核酸链包含核酸分子的至少一部分(例如,核酸分子的至少一条链的至少一部分)的至少1、2、3、4、5、6、7、8、9、10或更多拷贝。RCA可以生成核酸链,该核酸链包含核酸分子的至少一部分的至多10、9、8、7、6、5、4、3、2或1个拷贝。
所述提供可以包括偶联至少一种酶,该酶执行向(i)纳米孔的至少一部分或(ii)具有纳米孔的膜的掺入。所述提供可以包括偶联至少一种酶,该酶执行向(i)纳米孔的至少一部分和(ii)具有纳米孔的膜的掺入。偶联可以包括将至少一种酶缀合至纳米孔或膜。偶联可以包括将至少一种酶缀合至纳米孔和膜。偶联可以是共价的(例如,交联或缀合)。偶联可以通过另一种酶进行,如谷氨酰胺转胺酶、分选酶、枯草杆菌蛋白酶、酪氨酸酶、漆酶等,或通过化学交联剂进行,如1-乙基-3-(3-二甲氨基丙基)碳二亚胺(EDC)、N,N′-二环己基碳二亚胺(DCC)、N,N′-二异丙基碳二亚胺(DIC)等。备选地或附加地,偶联可以是非共价的,例如通过氢键、磁相互作用等。
膜可以是脂质双层。膜可以是固态膜(例如,薄膜)。膜可以是脂质双层和固态膜的组合。至少一种酶可以是聚合酶、核酸酶、其功能变体或其组合。
在另一方面,本公开内容提供了用于处理或分析核酸分子的系统。该系统可以包括被配置为在将包含标签的核苷酸掺入核酸链中时接收标签的至少一部分的纳米孔。核酸链可以与核酸分子的至少一部分互补。当标签的至少一部分在纳米孔内时,纳米孔可以被配置为检测指示纳米孔中的阻抗或阻抗变化的一个或多个信号。一个或多个信号可用于鉴定掺入核酸链的核苷酸。用于处理或分析核酸分子的系统可以被配置为执行本公开内容中提供的用于处理或分析核酸分子或其衍生物的一种或多种主题方法。
一个或多个信号可以是电流或电压。一个或多个信号可以是电流和电压。电流可以是法拉第电流。或者,电流可以不是法拉第电流。一个或多个信号可以不是隧道电流。或者,一个或多个信号可以是隧道电流。纳米孔可以是包含隧道结的电路的一部分。或者,纳米孔可以不是包含隧道结的电路的一部分。
纳米孔可以被配置为当标签的至少一部分被置于纳米孔内时测量电流或其变化。或者,当至少一部分标签从纳米孔内释放时,纳米孔可以被配置为测量电流或其变化。纳米孔可以包括被配置为检测一个或多个信号的多个电极。或者,纳米孔可以不包括被配置为检测一个或多个信号的多个电极,并且多个电极可以可操作地耦合至纳米孔以检测一个或多个信号。
纳米孔可以包含蛋白质纳米孔或固态纳米孔。纳米孔可以包含蛋白质纳米孔和固态纳米孔。
系统可以还包含被配置为执行掺入的至少一种酶。至少一种酶可以将核苷酸掺入与核酸分子的至少一部分互补的核酸链中。当核苷酸掺入核酸链中时,标签的至少一部分可以从核苷酸释放。至少一种酶可以在掺入之前、期间或之后从核苷酸释放标签。备选地或附加地,额外的酶(其可以可操作地与至少一种酶偶联)可以在掺入之前、期间或之后从核苷酸释放标签。释放的标签的至少一部分可以进入纳米孔,并且该方法可以包括当所释放标签的至少一部分在纳米孔内时,检测指示纳米孔中的阻抗或阻抗变化的一个或多个信号。至少一种酶可以是聚合酶、核酸酶、其功能变体或其组合。
掺入可以使用至少一种寡核苷酸引物进行。因此,系统可以还包含至少一种寡核苷酸引物。或者,掺入可以在不使用寡核苷酸引物的情况下进行。因此,系统可以不包含寡核苷酸引物。
至少一种酶(和/或额外的酶)可以偶联至(i)纳米孔的至少一部分或(ii)具有纳米孔的膜。至少一种酶(和/或额外的酶)可以偶联至(i)纳米孔的至少一部分和(ii)具有纳米孔的膜。至少一种酶(和/或额外的酶)可以缀合至(i)纳米孔的至少一部分或(ii)具有纳米孔的膜。至少一种酶(和/或额外的酶)可以缀合至(i)纳米孔的至少一部分和(ii)具有纳米孔的膜。膜可以是脂质双层或固态膜。所与膜可以是脂质双层和固态膜。
偶联可以通过偶联酶和/或化学交联剂进行。该系统可以还包含偶联酶(例如,谷氨酰胺转胺酶、分选酶、枯草杆菌蛋白酶、酪氨酸酶、漆酶等)或化学交联剂(例如EDC、DCC、DIC等)。该系统可以包含偶联酶和化学交联剂。或者,纳米孔或膜可以被配置为与至少一种酶(和/或额外的酶)的至少一部分结合。纳米孔或膜可以包含能够与至少一种酶的至少一部分结合的结合部分(例如,小分子、核苷酸、肽、聚合物、其组合等)。在不同的替代方案中,至少一种酶可以被配置为与纳米孔的至少一部分或膜的至少一部分结合。至少一种酶可以包含能够与膜的至少一部分结合的结合部分(例如,小分子、核苷酸、肽、聚合物、其组合等)。
图5A至图5D示意性地示出了用于获得一个或多个核酸样品的序列信息的示例性纳米孔测序系统。参考图5A,纳米孔测序系统510可以包括膜512,该膜512包括至少一个纳米孔514(示出了纳米孔514的横截面)。膜512可以是脂质双层和/或固态膜。纳米孔514可以包括多个电极516,其被配置为检测来自包含纳米孔514的电路的一个或多个信号。多个电极516可以设置在膜512的一侧。多个电极516可以耦合至纳米孔514。电路可以还包括电流表和电压源。核酸分子520可以在纳米孔514附近提供。通过使用酶530(例如,聚合酶),在足以将核苷酸541掺入与核酸分子520的至少一部分互补的核酸链540中的条件下,可以使核酸分子520与具有标签542的核苷酸541接触。例如,不同类型的核苷酸可以分别具有不同的标签542、544、546、548。在将核苷酸541掺入到核酸链540中时,标签542的至少一部分可以被置于纳米孔514内。当标签542的至少一部分在纳米孔内时,可以检测到指示纳米孔514中的阻抗或阻抗变化的一个或多个信号。一个或多个信号可以包括电流或其变化。在该实例中,当标签542被设置在纳米孔514内时,标签542可以被附接至核酸链540。一个或多个信号可以被用于鉴定掺入核酸链540中的核苷酸541。
参考图5B,纳米孔测序系统510可以包括膜512,该膜512包括至少一个纳米孔514(示出了纳米孔514的横截面)。膜512可以是脂质双层和/或固态膜。纳米孔514可以包括多个电极516,其被配置为检测来自包含纳米孔514的电路的一个或多个信号。多个电极516可以耦合至纳米孔514。电路可以还包括电流表和电压源。可以在纳米孔514附近提供核酸分子520。通过使用酶530(例如,聚合酶),在足以将核苷酸541掺入与核酸分子520的至少一部分互补的核酸链540中的条件下,可以使核酸分子520与具有标签542的核苷酸541接触。例如,不同类型的核苷酸可以分别具有不同的标签542、544、546、548。在将核苷酸541掺入到核酸链540中时,标签542可以从核苷酸541释放,并且释放的标签542的至少一部分可以置于纳米孔514内。当释放的标签542的至少一部分在纳米孔内时,可以检测纳米孔514中的指示阻抗或阻抗变化的一个或多个信号。一个或多个信号可用于鉴定掺入核酸链540中的核苷酸541。
参考图5C,纳米孔测序系统510可以包括膜512,该膜512包括至少一个纳米孔514(示出了纳米孔514的横截面)。膜512可以是脂质双层和/或固态膜。纳米孔514可以可操作地耦合至多个电极516,其被配置为检测来自电路的跨膜512的一个或多个信号。纳米孔测序系统512可以在电解溶液中。电路可以还包括电流表和电压源。核酸分子520可以在纳米孔514附近提供。通过使用酶530(例如,聚合酶),在足以将核苷酸541掺入与核酸分子520的至少一部分互补的核酸链540中的条件下,可以使核酸分子520与具有标签542的核苷酸541接触。例如,不同类型的核苷酸可以分别具有不同的标签542、544、546、548。在将核苷酸541掺入到核酸链540中时,标签542的至少一部分可以被置于纳米孔514内。当标签542的至少一部分在纳米孔内时,可以检测到指示纳米孔514中的阻抗或阻抗变化的一个或多个信号。一个或多个信号可以包括电流或其变化。在该实例中,当标签542被置于纳米孔514内时,标签542可以被附接至核酸链540。一个或多个信号可以被用于鉴定掺入核酸链540中的核苷酸541。
参考图5D,纳米孔测序系统510可以包括膜512,该膜512包括至少一个纳米孔514(示出了纳米孔514的横截面)。该膜可以是脂质双层和/或固态膜。纳米孔514可以包括多个电极516,其被配置为检测来自包含纳米孔514的电路的一个或多个信号。多个电极516可以设置在膜512的相对侧。多个电极516可以耦合至纳米孔514。电路可以还包括电流表和电压源。核酸分子520可以在纳米孔514附近提供。通过使用酶530(例如,聚合酶),在足以将核苷酸541掺入与核酸分子520的至少一部分互补的核酸链540中的条件下,可以使核酸分子520与具有标签542的核苷酸541接触。例如,不同类型的核苷酸可以分别具有不同的标签542、544、546、548。在将核苷酸541掺入到核酸链540中时,标签542的至少一部分可以被置于纳米孔514内。当标签542的至少一部分在纳米孔内时,可以检测到指示纳米孔514中的阻抗或阻抗变化的一个或多个信号。一个或多个信号可以包括电流或其变化。在该实例中,当标签542被置于纳米孔514内时,标签542可以被附接至核酸链540。一个或多个信号可以被用于鉴定掺入核酸链540中的核苷酸541。
在图5A、图5B和5D的情景中,纳米孔514可以是固态纳米孔,例如,被引导通过固态基底的孔或通道。在图5C的情景中,纳米孔是可以是孔蛋白,例如,嵌入在脂质双层中的α-溶血素分子。
设备概述
可以执行本公开内容提供的方法和系统,并使用任何合适的测序设备,如能够进行大规模并行测序反应的设备,获取测序数据。例如,可以使用高通量测序系统。
可以分析多核苷酸序列,例如,以鉴定重复单元长度(如单体长度)、通过环化形成的连接部,以及相对于参考序列的任何真实变化。鉴定重复单元的长度可以包括计算重复单元的区域,找到序列的参考位点(例如当靶向一个或多个序列进行扩增、富集和/或测序时)、每个重复区域的边界,和/或每个测序运行中的重复数目。序列分析可以包括分析双链体的两条链的序列数据。例如,出现来自样品的不同多核苷酸(如具有不同连接部的环化多核苷酸)的读取序列的相同变体可以被认为是已确认的变体。如果序列变体出现在同一多核苷酸的一个以上重复单元中,则也可以认为是真正的变体,因为相同的序列变异同样不太可能出现在同一串联体中重复的靶序列中的相同位置。在鉴定变体和确认的变体时,可以考虑序列的质量得分,例如,可以滤出质量得分低于阈值的序列和碱基。其他生物信息学方法可以用于进一步提高变异判定的敏感性和特异性。
例如,本公开内容提供的用于检测序列变体的系统可以包括:(a)被配置为接收用户对样品执行检测反应的请求的计算机;(b)多核苷酸制备系统,其响应于用户请求对样品或其一部分进行多核苷酸扩增反应,其中所述扩增反应包括以下步骤:(i)将个体多核苷酸环化以形成多个环状多核苷酸,其中每个环状多核苷酸在5’末端和3’末端之间具有连接部;以及(ii)扩增环状多核苷酸,或者,扩增双链多核苷酸并将扩增的双链多核苷酸环化;(iii)在环化的多核苷酸的单链上产生切口以提供切口位点;(iv)将聚合酶偶联至切口位点以提供聚合酶/环状多核苷酸复合物;(v)使聚合酶/环状多核苷酸复合物与纳米孔缔合;以及(c)测序系统,其生成多核苷酸的测序读取,鉴定测序读取与参考序列之间的序列差异,并将在至少两个具有不同连接部的环状多核苷酸中出现的序列差异判定为序列变体;以及(d)报告生成器,其将报告发送给接收者,其中报告含有检测序列变体的结果。在一些实施方案中,接收者是用户。在一些情况下,测序设备可以包括用于对核酸进行测序的传感器阵列,例如,纳米孔阵列。
每个纳米孔测序复合物可被插入膜中,例如,脂质双层中,并设置在紧邻或邻近于感测电路(如基于纳米孔的传感器的集成电路)的感测电极处。多个纳米孔传感器可以作为阵列提供,如存在于芯片或生物芯片上的阵列。纳米孔阵列可以具有任何合适数目的纳米孔。阵列可以包括约200、约400、约600、约800、约1000、约1500、约2000、约3000、约4000、约5000、约10000、约15000、约20000、约40000、约60000、约80000、约100000、约200000、约400000、约600000、约800000、约1000000或更多的纳米孔(或纳米孔测序复合物)。
在使用一个或多个标记的核苷酸(或一个或多个标记的多核苷酸)进行测序的过程中,可以用每个纳米孔测序复合物的酶(例如,聚合酶)来掺入标记的核苷酸。在聚合过程中,标签可以通过纳米孔检测,如通过将标签释放并传递到纳米孔中或通过纳米孔,或通过将其呈递给纳米孔。单个标签可以在单个核苷酸掺入时释放和/或呈递,并通过纳米孔检测。多个标签可以在多个核苷酸掺入时释放和/或呈递。与纳米孔相邻(或偶联至纳米孔)的纳米孔传感器可以检测单个标签或多个标签。与多个标签相关联的一个或多个信号可以被检测并处理以产生平均信号。标签可以被传感器检测为时间的函数。随时间检测的标签可用于确定多核苷酸样品的核酸序列,如借助于被编程为记录传感器数据并从该数据生成序列信息的计算机系统。
可以使用适合通过RCA和转录进行测序的任何设备和系统。在一些情况下,测序系统可以为由扩增系统扩增的多核苷酸生成测序读取,鉴定测序读取与参考序列之间的序列差异,并将在至少两个具有不同连接部的环状多核苷酸中出现的序列差异判定为序列变体。测序系统和扩增系统可以相同,或包括一个或多个重叠的装置。在一个实例中,扩增系统和测序系统可以利用相同的热循环仪。可以使用多种测序平台,并且可以基于选定的测序方法进行选择。扩增和测序可以涉及使用液体处理器。可以利用几种可商购的液体处理系统来运行这些过程的自动化。
测序系统可以包括,例如,计算机、包括计算机可执行代码的计算机可读介质、存储装置、通信装置、控制算法、分析算法和/或报告算法。
测序设备可用于检测序列变体。检测序列变体可以包括检测突变,如相对于参考序列或在无突变的背景下的稀有的体细胞突变,其中序列变体与疾病相关。有统计、生物和/或功能证据表明与疾病或性状相关的序列变体称为“因果遗传变体”。单个因果遗传变体可能与一种以上的疾病或性状有关。因果遗传变体可以与孟德尔性状、非孟德尔性状或两者相关。因果遗传变体可以表现为多核苷酸中的变异,如1、2、3、4、5、6、7、8、9、10、20、50或更多个序列差异(例如,包含因果遗传变体的多核苷酸与缺少因果遗传变体的多核苷酸之间在相同的相对基因组位置的序列差异)。因果遗传变体类型的实例包括单核苷酸多态性(SNP)、缺失/插入多态性(DIP)、拷贝数变体(CNV)、短串联重复序列(STR)、限制片段长度多态性(RFLP)、简单序列重复(SSR)、可变数目的串联重复序列(VNTR)、随机扩增多态性DNA(RAPD)、扩增片段长度多态性(AFLP)、逆转录转座子间扩增多态性(IRAP)、长短散在元件(LINE/SINE)、长串联重复序列(LTR)、移动元件、逆转录转座子微卫星扩增多态性、基于逆转录子的插入多态性、序列特异性的扩增多态性和可遗传的表观遗传修饰,例如,DNA甲基化。因果遗传变体也可以是一组密切相关的因果遗传变体。一些因果遗传变体可以作为RNA多核苷酸中的序列变异发挥影响。在此水平上,一些因果遗传变体也通过某种RNA多核苷酸的存在或不存在来表明。一些因果遗传变体导致蛋白质多肽的序列变异。已经报道了许多因果遗传变体。SNP因果遗传变体的实例是血红蛋白的Hb S变体,导致镰状细胞性贫血。DIP因果遗传变体的实例是CFTR基因的δ508突变,导致囊性纤维化。CNV因果遗传变体的实例是21三体,导致唐氏综合症。STR因果遗传变体的实例是串联重复序列,导致亨廷顿氏病。
纳米孔装置
测序系统可以包括反应室,该反应室包括一个或多个纳米孔装置。纳米孔装置可以是可单独寻址的纳米孔装置。可单独寻址的纳米孔可以是单独可读取的。可单独寻址的纳米孔可以是可单独写入的。可单独寻址的纳米孔可以是可单独读取和可单独写入的。该系统可以包括一个或多个计算机处理器,用于促进样品制备和本公开内容的各种操作,如多核苷酸测序。处理器可以耦合至纳米孔装置。
纳米孔装置可以包括多个可单独寻址的感测电极。每个感测电极可以包括与电极相邻的膜,以及膜中的一个或多个纳米孔。纳米孔可以在膜如脂质双层中,该膜与作为集成电路一部分或与集成电路耦合的电极相邻或在感测上接近。纳米孔可以与单个电极和感测集成电路关联或与多个电极和感测集成电路关联。纳米孔可以包含固态纳米孔。
用于由本公开内容提供的方法中的装置和系统可以准确地检测个体核苷酸掺入事件,如在将核苷酸掺入与模板互补的生长链中时。酶,如DNA聚合酶、RNA聚合酶或连接酶可以将核苷酸掺入正在生长的多核苷酸链中。诸如聚合酶的酶可以生成多核苷酸链。
添加的核苷酸可以与相应模板多核苷酸链互补,该模板多核苷酸链与生长链杂交。核苷酸可以包括偶联至核苷酸的任何位置的标签或标签物质,包括但不限于核苷酸的磷酸盐如γ-磷酸盐、糖或含氮碱基部分。在一些情况下,在核苷酸标签掺入过程中,当标签与聚合酶缔合时,标签被检测到。直到在核苷酸掺入以及随后标签的切割和/或释放后标签通过纳米孔移位之前,标签都可被检测到。核苷酸掺入事件可以从核苷酸释放标签,该标签穿过纳米孔并被检测到。标签可以通过聚合酶释放,或以任何合适的方式切割/释放,包括但不限于通过位于聚合酶附近的酶切割。通过这种方式,由于从每种类型的核苷酸(即腺嘌呤、胞嘧啶、鸟嘌呤、胸腺嘧啶或尿嘧啶)释放出独特的标签,因此可以鉴定掺入的碱基(即A、C、G、T或U)。在不释放的核苷酸掺入事件中,借助于纳米孔来检测与掺入的核苷酸偶联的标签。在一些实例中,标签可以移动穿过纳米孔或在纳米孔附近,并借助于纳米孔来检测。
本公开内容的方法和系统可以实现多核苷酸掺入事件的检测,例如在给定时间段内以至少1、2、3、4、5、6、7、8、9、10、20、30、40、50、100、500、1000、5000、10000、50000或100000个多核苷酸碱基的分辨率检测。例如,纳米孔装置可用于检测个体多核苷酸掺入事件,每个事件与个体核酸碱基相关。在其他实例中,纳米孔装置可用于检测与多个碱基相关的事件。例如,由纳米孔装置感测的信号可以是来自至少2、3、4或5个碱基的组合信号。
在某些测序方法中,标签不穿过纳米孔。标签可以通过纳米孔检测并且在不穿过纳米孔的情况下退出纳米孔,如从标签进入纳米孔的相反方向退出。测序装置可以被配置为主动将标签从纳米孔排出。
在某些测序方法中,标签不会在核苷酸掺入事件后释放。核苷酸掺入事件可以将标签呈递至纳米孔而不释放标签。标签可以被纳米孔检测而不被释放。标签可以通过足够长的接头附接至核苷酸,以将标签呈递至纳米孔以进行检测。
当核苷酸掺入事件发生时,纳米孔可以实时检测。附接在纳米孔上或附近的酶(如DNA聚合酶)可以促进多核苷酸通过或邻近纳米孔。核苷酸掺入事件,或多个核苷酸的掺入,可以释放或呈递一个或多个标签,这些标签可以被纳米孔检测。当标签经过或邻近纳米孔时,当标签驻留在纳米孔中和/或在将标签呈递至纳米孔时,可以进行检测。在一些情况下,附接于纳米孔或邻近纳米孔的酶可以在掺入一个或多个核苷酸时帮助检测标签。
标签可以是原子、分子、原子的集合或分子的集合。标签可以提供光学的、电化学的、磁性的或静电的(如感应的或电容)的签名,该签名可以借助于纳米孔检测。
纳米孔可以形成或以其他方式嵌入在邻近于感测电路(如集成电路)的感测电极设置的膜中。集成电路可以是专用集成电路(ASIC)。集成电路可以是场效应晶体管或互补金属氧化物半导体(CMOS)。感测电路可以位于具有纳米孔的芯片或其他装置中,或者位于芯片或装置外,如处于芯片外配置中。
当核酸或标签经过或邻近纳米孔时,感测电路检测与核酸或标签相关的电信号。核酸可以是较大链的亚基。标签可以是核苷酸掺入事件或被标记的核酸与纳米孔或邻近纳米孔的物质(如从核酸上切割标签的酶)之间的其他相互作用的副产物。标签可以保持附接于核苷酸。检测到的信号可以被收集并存储在存储位置中,然后用于构建核酸序列。所收集的信号可以被处理以解释所检测到的信号中的任何异常,如误差。
纳米孔可用于间接对多核苷酸进行测序,在一些情况下是通过电检测。间接测序可以是其中生长链中掺入的核苷酸不通过纳米孔的任何方法。多核苷酸可以在距纳米孔和/或接近纳米孔的任何合适距离内经过,在一些情况下,该距离使得在纳米孔中检测到从核苷酸掺入事件释放的标签。
核苷酸掺入事件的副产物可以由纳米孔检测。核苷酸掺入事件是指核苷酸掺入正在生长的多核苷酸链中。副产物可能与给定类型核苷酸的掺入相关。核苷酸掺入事件可以通过酶(如DNA聚合酶)催化,并使用与模板分子的碱基对相互作用来选择可用核苷酸进行每个位置的掺入。
可以使用标记的核苷酸或核苷酸类似物对核酸样品进行测序。在一些实例中,对核酸分子进行测序的方法包括:(a)掺入(例如,聚合)标记的核苷酸,其中与个体核苷酸缔合的标签在掺入时释放,以及(b)借助纳米孔检测释放的标签。在一些情况下,该方法还包括将附接至个体核苷酸或从个体核苷酸释放的标签引导通过纳米孔。可以通过任何合适的技术引导释放或附接的标签,在一些情况下,借助于酶(或分子马达)和/或跨孔的电压差。或者,释放或附接的标签可以在不使用酶的情况下被引导通过纳米孔。例如,如本文所述,标签可以跨纳米孔的电压差引导。
标签可以借助于在膜中具有至少一个纳米孔的纳米孔装置检测。标签可以在个体标记核苷酸的掺入过程中与个体标记核苷酸缔合。纳米孔装置可以在掺入过程中检测与个体标记核苷酸缔合的标签。标记的核苷酸,无论其掺入到正在生长的核酸链中还是未掺入,均可以在给定的时间段内由纳米孔装置来检测、确定或区分,在一些情况下,这借助于纳米孔装置的电极和/或纳米孔。纳米孔装置检测标签的时间可以短于(在一些情况下明显短于)标签和/或与标签偶联的核苷酸被酶(如促进核苷酸掺入核酸链的酶(例如,聚合酶))保持的时间。在掺入的标记核苷酸与酶缔合的时间段内,电极可以多次检测标签。例如,在掺入的标记核苷酸与酶缔合的时间段内,标签可以被电极检测至少1、2、3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90、100、200、300、400、500、1000、10,000、100,000或1,000,000次。
测序可以使用预加载的标签完成。预加载标签可以包括将标签的至少一部分引导通过纳米孔的至少一部分,同时标签可以附接至核苷酸,而该核苷酸可以已掺入核酸链(例如,正在生长的核酸链)中,正在被掺入到核酸链中,或尚未被掺入到核酸链中但可以被掺入到核酸链中。预加载标签可以包括在核苷酸被掺入核酸链之前或在核苷酸正被掺入核酸链时,将标签的至少一部分引导通过纳米孔的至少一部分。预加载标签可以包括在核苷酸已经被掺入核酸链后,将标签的至少一部分引导通过纳米孔的至少一部分。
与个体核苷酸相关的标签可以被纳米孔检测,而无需在掺入时从核苷酸释放。可以检测标签,而无需将其在与靶链互补的核酸链的合成过程中从掺入的核苷酸释放。标签可以通过接头附接至核苷酸,使得标签被呈递至纳米孔(例如,标签垂悬在纳米孔的至少一部分中或以其他方式延伸通过纳米孔的至少一部分)。接头的长度可以足够长,以允许标签延伸至或通过纳米孔的至少一部分。在一些情况下,通过电压差将标签呈递至(即,移入)纳米孔。将标签呈递到孔中的其他方式也可以是合适的(例如,使用酶、磁体、电场、压差)。在一些情况下,没有向标签施加主动力(即,标签扩散到纳米孔中)。
用于对核酸样品测序的芯片可以包含多个可单独寻址的纳米孔。多个可单独寻址的纳米孔中的可单独寻址的纳米孔可以含有形成于设置在与集成电路相邻的膜中的至少一个纳米孔。每个可单独寻址的纳米孔都能够检测与个体核苷酸缔合的标签。可以掺入(例如,聚合)核苷酸,并且掺入时标签可以不从核苷酸释放。
标签可以在核苷酸掺入事件后被呈递至纳米孔并从核苷酸释放。释放的标签可以穿过纳米孔。在一些情况下,标签不穿过纳米孔。在核苷酸掺入事件中释放的标签与可以经过纳米孔但在核苷酸掺入事件后在纳米孔中的停留时间内没有完全释放的标签相区别。在一些情况下,在纳米孔中停留至少100毫秒(ms)的标签在核苷酸掺入事件中被释放,并且在纳米孔中停留少于100ms的标签在核苷酸掺入事件中未被释放。标签可以被第二酶或蛋白质(例如,核酸结合蛋白)捕获和/或引导通过纳米孔。第二酶可以在核苷酸掺入时(例如,在此期间或之后)切割标签。标签与核苷酸之间的接头可以被切割。
基于标签在纳米孔中的停留时间或基于借助于纳米孔从未掺入的核苷酸检测到的信号,可以区分与掺入的核苷酸偶联的标签和与未掺入正在生长的互补链的核苷酸缔合的标签。未掺入的核苷酸生成的信号(例如,电压差、电流)可以在1纳秒(ns)至100毫秒之间或1ns至50ms之间的时间段内是可检测的,而掺入的核苷酸生成的信号的寿命可以在50ms至500ms之间,或100ms至200ms之间。未掺入的核苷酸生成的信号可以在1ns至10ms之间,或1ns至1ms之间的时间段内是可检测的。纳米孔可检测到未掺入的标签的时间段(平均)比纳米孔可检测掺入的标签的时间段更长。
与未掺入的核苷酸相比,掺入的核酸可以被纳米孔检测的时间段更短。或者,与未掺入的核苷酸相比,掺入的核酸可以被纳米孔检测检测的时间段更长。如本文所述,这些时间之间的差异和/或比例可用于确定是否掺入了由纳米孔检测的核苷酸。
检测时间可以基于核苷酸通过纳米孔的自由流动;未掺入的核苷酸可以在纳米孔或附近停留1纳秒(ns)至100ms之间或1ns至50ms之间的时间段,而掺入的核苷酸可以在纳米孔或附近停留50ms至500ms之间或100ms至200ms之间的时间段。时间段可以根据处理条件而有所不同;然而,掺入的核苷酸的停留时间可以大于未掺入的核苷酸的停留时间。
标签或标签物质可以包括可检测的原子或分子,或多个可检测的原子或分子。标签可以包括一个或多个腺嘌呤、鸟嘌呤、胞嘧啶、胸腺嘧啶、尿嘧啶或其衍生物,它们连接至任何位置,包括核酸分子的磷酸基团、糖或含氮碱基。标签可以包括与核酸碱基的磷酸基团共价连接的一种或多种腺嘌呤、鸟嘌呤、胞嘧啶、胸腺嘧啶、尿嘧啶或其衍生物。
标签可以具有至少0.1纳米(nm)、1nm、2nm、3nm、4、nm、5nm、6nm、7nm、8nm、9nm、10nm、20nm、30nm、40nm、50nm、60nm、70nm、80nm、90nm、100nm、200nm、300nm、400nm、500nm或1000nm的长度。
标签可以包括重复亚基的尾部,如多个腺嘌呤、鸟嘌呤、胞嘧啶、胸腺嘧啶、尿嘧啶或其衍生物。例如,标签可以包括具有腺嘌呤、鸟嘌呤、胞嘧啶、胸腺嘧啶、尿嘧啶或其衍生物的至少2、3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90、100、1000、10,000或100,000个亚基的尾部。这些亚基可以彼此连接,并且在末端与核酸的磷酸基团连接。标签部分的其他实例包括任何聚合材料,如聚乙二醇(PEG)、聚磺酸盐、氨基酸或任何完全或部分带正电荷、带负电荷或不带电荷的聚合物。
聚合酶
DNA聚合酶可在切口位点结合至多核苷酸的切口链的3′端。DNA测序可以通过使用酶(如DNA聚合酶)在纳米孔和标记核苷酸附近扩增和转录多核苷酸来完成。测序方法可以涉及使用聚合酶(如DNA聚合酶或转录酶)掺入或聚合标记的核苷酸。聚合酶可以突变以使其接收标记的核苷酸。聚合酶也可以突变以增加纳米孔检测标签的时间。
例如,测序酶可以是通过核苷酸的磷酸键产生多核苷酸链的任何合适的酶。例如,DNA聚合酶可以是9°NmTM聚合酶或其变体、大肠杆菌DNA聚合酶I、噬菌体T4 DNA聚合酶、序列酶、Taq DNA聚合酶、9°NmTM聚合酶(exo-)A485L/Y409V、φ29DNA聚合酶、Bst DNA聚合酶或前述任何一种的变体、突变体或同源物。同源物可以具有任何合适的百分比同源性,例如,至少30%、至少40%、至少50%、至少60%、至少70%、至少80%、至少90%或至少95%的序列同一性。
在一些实例中,对于纳米孔测序,可以将聚合酶附接至纳米孔或定位于纳米孔附近。用于将聚合酶附接至纳米孔的合适方法包括使酶交联至纳米孔或纳米孔附近,如通过形成分子内二硫键。纳米孔和酶也可以是融合体,例如由单个多肽链编码的融合体。产生融合蛋白的方法可以包括将酶的编码序列融合在框内并与纳米孔的编码序列相邻,并从单个启动子表达该融合序列。可以使用分子钉(staple)或蛋白指将聚合酶附接或偶联至纳米孔。聚合酶可以通过中间分子附接至纳米孔,例如缀合至酶和纳米孔的生物素,其中链霉亲和素四聚体连接至两个生物素。中间分子可以被称为接头。
测序酶也可以用抗体附接至纳米孔。彼此之间形成共价键的蛋白质可用于将聚合酶附接至纳米孔。磷酸酶或从核苷酸切割标签的酶也可以附接至纳米孔。
聚合酶可以相对于非突变聚合酶突变,以促进和/或提高突变的聚合酶将标记的核苷酸掺入生长的多核苷酸中的效率。聚合酶可以突变以使核苷酸类似物(如标记的核苷酸)更好地进入聚合酶的活性位点区域和/或突变以与活性区域中的核苷酸类似物相配。
其他突变,如氨基酸置换、插入、缺失,和/或聚合的外源性特征,可导致相对于非突变型聚合酶,有增强的金属离子配位、降低的核酸外切酶活性、聚合酶动力学周期的一个或多个步骤的降低的反应速率、减少的支化比例、改变的辅助因子选择性、增加的产率、增加的热稳定性、增加的准确性、增加的速度、增加的读取长度、增加的耐盐性。
合适的聚合酶可具有适用于通过纳米孔检测标签的动力学速率特性。速率特性通常是指核苷酸掺入的总速率和/或核苷酸掺入的任何步骤的速率,如核苷酸添加、酶异构化(例如成为封闭状态或从封闭状态异构化)、辅因子结合或释放、产物释放、多核苷酸向生长中的多核苷酸的掺入,或易位的速率。
聚合酶可以适于允许测序事件的检测。聚合酶的速率特性可以使得标签被加载纳米孔中(和/或由纳米孔检测)持续平均0.1毫秒(ms)、1ms、5ms 10ms、20ms、30ms、40ms、50ms、60ms、80ms、100ms、120ms、140ms、160ms、180ms、200ms、220ms、240ms、260ms、280ms、300ms、400ms、500ms、600ms、800ms或1000ms。例如,聚合酶的速率特性可以使得标签被加载到纳米孔中和/或被纳米孔检测持续至少5ms、至少10ms、至少20ms、至少30ms、至少40ms、至少50ms、至少60ms、至少80ms、至少100ms、至少120ms、至少140ms、至少160ms、至少180ms、至少200ms、至少220ms、至少240ms、至少260ms、至少280ms、至少300ms、至少400ms、至少500ms、至少600ms、至少800ms或至少1000ms。纳米孔可以在平均80ms至260ms之间、100ms至200ms之间或100ms至150m之间检测标签。
纳米孔/聚合酶复合物可以被配置为允许检测与环状多核苷酸的扩增和转录相关的一个或多个事件。一个或多个事件可以是动力学可观察的和/或非动力学可观察的,如核苷酸通过纳米孔迁移而不与聚合酶接触。
在一些情况下,聚合酶反应表现出开始于其中核苷酸或多磷酸产物与聚合酶结合的中间体的两个动力学步骤,以及开始于其中核苷酸和多磷酸产物不与聚合酶结合的中间体的两个动力学步骤。两个动力学步骤可以包括酶异构化、核苷酸掺入和产物释放。在一些情况下,两个动力学步骤是模板易位和核苷酸结合。
合适的聚合酶可以表现出强的或增强的链置换。
接头
聚合酶可以包含接头。接头可用于将聚合酶偶联至纳米孔。可以将包含接头的聚合酶与蛋白质纳米孔结合,从而形成可以与环状多核苷酸的切口位点结合的聚合酶/纳米孔复合物。
包含接头的聚合酶可以与带切口的环状多核苷酸反应以形成聚合酶/环状多核苷酸复合物。聚合酶/环状多核苷酸复合物可以通过接头与纳米孔如蛋白质纳米孔(如α-溶血素)或固态纳米孔结合。
聚合酶/环状多核苷酸/纳米孔复合物可用于多核苷酸测序。DNA聚合酶与纳米孔之间的连接性质可以增加有效标记的核苷酸浓度,从而降低熵势垒。可以优化的接头方面的实例是连接长度,其可以增加有效标记的核苷酸浓度,影响捕获的动力学和/或改变熵势垒;连接灵活性,其可以影响连接体构象变化的动力学;以及聚合酶与纳米孔之间连接的数目和位置,其可以减少可用构象状态的数目,从而增加适当的孔聚合酶取向的可能性,增加有效标记的核苷酸浓度并减少熵势垒。
接头可以是聚合物,如多肽、多核苷酸或聚乙二醇。接头可以是任何合适的长度。例如,接头的长度可以为5nm、10nm、15nm、20nm、40nm、50nm或100nm。接头的长度可以为至少5nm、至少10nm、至少15nm、至少20nm、至少40nm、至少50nm或至少100nm。接头的长度可以小于5nm、小于10nm、小于15nm、小于20nm、小于40nm、小于50nm或小于100nm。接头可以是刚性的、柔性的或其组合。
在一些实施方案中,不使用接头,并且聚合酶直接附接至纳米孔。
聚合酶可以通过两个或更多个接头附接至纳米孔。聚合酶与纳米孔之间的连接的数目和位置可以改变。实例包括αHL C末端至聚合酶N末端、αHL N末端至聚合酶C末端,以及不在末端的氨基酸之间的连接。
接头可以用于使聚合酶相对于纳米孔定向,使得标签可以借助纳米孔检测。
例如,在借助邻近感测电极的膜中的纳米孔对多核苷酸样品进行测序的方法中,包括将标记的核苷酸提供到包含纳米孔的反应室中,其中标记的核苷酸中的标记的个体核苷酸含有与核苷酸偶联的标签,其可借助于纳米孔检测。该方法可以包括借助通过接头附接至纳米孔的聚合酶进行聚合反应,从而将标记核苷酸的标记的个体核苷酸掺入与来自多核苷酸样品的单链多核苷酸互补的生长链中。该方法可以包括在掺入标记的个体核苷酸的过程中,借助纳米孔检测与标记的个体核苷酸缔合的标签,其中当核苷酸与聚合酶缔合时借助纳米孔检测标签。
扩增和测序
扩增和转录可以包括滚环扩增(RCA)。
在RCA中,反应混合物可以包含一种或多种引物、聚合酶和dNTP,并产生串联体。RCA反应中的聚合酶可以包含具有链置换活性的聚合酶。具有链置换活性的聚合酶的实例包括缺乏核酸外切酶活性的DNA聚合酶I大(Klenow)片段、Phi29 DNA聚合酶和Taq DNA聚合酶。
在扩增的同时进行测序的过程中,为了防止DNA聚合酶从原始模板结合至置换的单链DNA,可以使用单链切割酶(例如,截短的核酸外切酶VIII、T5核酸外切酶、T7核酸外切酶)将置换的单链DNA切割为dNMP、二核苷酸等。
在一些情况下,可以在荧光显微镜下或通过粒度分析将扩增的多核苷酸可视化为纳米球。
序列变体的鉴定
本公开内容提供的方法可以用于鉴定多核苷酸样品中的序列变体。如果序列差异出现在至少两个不同的多核苷酸,例如,两个不同的环状多核苷酸中,则测序读取与参考序列之间的序列差异被称为真实序列变体,这可以由于具有不同的连接部来区分。因为扩增或测序误差所导致的序列变体的位置和类型不太可能在包含相同靶序列的两个不同多核苷酸上精确复制,所以包括该验证参数可以减少误差序列变体的背景,同时提高了检测样品中实际序列变异的灵敏度和准确性。序列变体的频率可以小于5%、4%、3%、2%、1.5%、1%、0.75%、0.5%、0.25%、0.1%、0.075%、0.05%、0.04%、0.03%、0.02%、0.01%、0.005%、0.001%,或充分高于背景值以允许准确鉴定的更低频率。序列变体的发生频率可能小于0.1%。当序列变体的频率在统计上显著高于背景误差率时,例如,p值小于0.05、0.01、0.001或0.0001,则该序列变体的频率可以充分高于背景。当频率高于背景误差率至少为2倍、3倍、4倍、5倍、6倍、7倍、8倍、9倍、10倍、25倍、50倍、100倍或更多时,序列变体的频率可以充分高于背景。在给定位置准确确定序列的背景误差率可以小于1%、0.5%、0.1%、0.05%、0.01%、0.005%、0.001%或0.0005%。
鉴定序列变体可以包括使一个或多个测序读取与参考序列最佳地比对,以鉴定两者之间的差异,以及鉴定连接部。比对可以包括沿另一个序列放置一个序列,沿每个序列迭代地引入间隙,对两个序列的匹配程度进行评分,以及沿参考序列的不同位置进行重复。得分最高的匹配被认为是比对,并且代表对序列之间相关程度的推断。
与测序读取进行比较的参考序列是参考基因组,如与受试者相同物种的成员的基因组。参考基因组可以是完整的或不完整的。参考基因组只能由含有靶多核苷酸的区域组成,例如该区域来自参考基因组或从分析中的测序读取生成的共有序列。参考序列可以包含一种或多种生物体的多核苷酸序列或可以由其组成,如来自一种或多种细菌、古细菌、病毒、原生生物、真菌或其他生物体的序列。参考序列可以仅由参考基因组的一部分组成,如对应于分析中的一个或多个靶序列的区域。例如,为了检测病原体,参考基因组可以是病原体的整个基因组,或其用于鉴定的一部分,如特定菌株或血清型。测序读取可以与多个不同的参考序列比对,用于筛选多个不同的生物体或菌株。
计算机系统
本公开内容提供了被编程以实现本公开内容的一种或多种方法的计算机系统。本公开内容的计算机系统可以用于调节纳米孔测序的各种操作,如当样品(例如,标记的核苷酸的标签的至少一部分)在纳米孔(例如,蛋白质纳米孔或固态纳米孔)内时,检测指示纳米孔中的阻抗或阻抗变化的一个或多个信号。
图6示出了计算机系统601,该计算机系统601被编程或以其他方式被配置成与本公开内容的测序的各个方面通信并进行调节。例如,计算机系统601可以与耦合至或包括纳米孔(或包含纳米孔的膜)的一个或多个电路,以及用于制备、处理或保持一种或多种用于测序的反应混合物的一种或多种装置(例如,机器)进行通信。计算机系统601还可与本公开内容的一个或多个控制器或处理器通信。计算机系统601可以是用户的电子装置或相对于电子装置位于远程的计算机系统。该电子装置可以是移动电子装置。
计算机系统601包括中央处理单元(CPU,在本文中也称为“处理器”和“计算机处理器”)605,其可以是单核或多核处理器,或者是用于并行处理的多个处理器。计算机系统601还包括存储器或存储器位置610(例如,随机存取存储器、只读存储器、闪存),电子存储单元615(例如,硬盘),用于与一个或多个其他系统进行通信的通信接口620(例如,网络适配器),以及外围装置625,如高速缓存、其他存储器、数据存储和/或电子显示适配器。存储器610、存储单元615、接口620和外围装置625通过诸如主板的通信总线(实线)与CPU 605通信。存储单元615可以是用于存储数据的数据存储单元(或数据存储库)。计算机系统601可以借助于通信接口620可操作地耦合至计算机网络(“网络”)630。网络630可以是因特网、互联网和/或外部网,或与因特网通信的内部网和/或外部网。在一些情况下,网络630是电信和/或数据网络。网络630可以包括一个或多个计算机服务器,其可以实现分布式计算,如云计算。在一些情况下,网络630可以在计算机系统601的帮助下实现对等网络,该对等网络可以使耦合至计算机系统601的装置能够充当客户端或服务器。
CPU 605可以执行一系列机器可读指令,这些指令可以体现在程序或软件中。指令可以存储在存储器位置中,如存储器610。指令可以被定向到CPU 605,随后可以对CPU 605进行编程或以其他方式配置CPU 605以实现本公开内容的方法。由CPU 605执行的操作的实例可以包括获取、解码、执行和回写。
CPU 605可以是电路如集成电路的一部分。电路中可以包括系统601的一个或多个其他组件。在一些情况下,该电路是专用集成电路(ASIC)。
存储单元615可以存储文件,如驱动程序、库和保存的程序。存储单元615可以存储用户数据,例如,用户偏好和用户程序。在一些情况下,计算机系统601可以包括在计算机系统601外部的一个或多个额外的数据存储单元,如位于通过内部网或因特网与计算机系统601通信的远程服务器上。
计算机系统601可以通过网络630与一个或多个远程计算机系统通信。例如,计算机系统601可以与用户的远程计算机系统通信。远程计算机系统的实例包括个人计算机(例如,便携式PC)、平板或平板计算机(例如,
Figure BDA0002911780100001051
Galaxy Tab)、电话、智能电话(例如,
Figure BDA0002911780100001052
iPhone、支持Android的装置、
Figure BDA0002911780100001053
)或个人数字助理。用户可以通过网络630访问计算机系统601。
本文所述的方法可以通过存储在计算机系统601的电子存储位置(例如,存储器610或电子存储单元615)上的机器(例如,计算机处理器)可执行代码的方式来实现。机器可执行或机器可读代码可以以软件形式提供。在使用期间,代码可以由处理器605执行。在一些情况下,代码可以从存储单元615检索,并存储在存储器610中,以供处理器605随时访问。在一些情况下,可以不包括电子存储单元615,并且将机器可执行指令存储在存储器610中。
可以对代码进行预编译并配置为与具有适用于执行代码的处理器的机器一起使用,或者可以在运行时编译。可以以编程语言提供代码,可以选择编程语言以使代码能够以预编译或即时编译的方式执行。
本文所提供的系统和方法的方面,如计算机系统601,可以体现为编程。技术的各个方面可以被认为“产品”或“制品”,通常呈在机器可读介质上承载或体现的机器(或处理器)可执行代码和/或相关数据的形式。机器可执行代码可以存储在电子存储单元上,如存储器(例如,只读存储器、随机存取存储器、闪存)或硬盘。“存储”类型的介质可以包括计算机、处理器等的任何或所有有形存储器,或其相关模块,如各种半导体存储器、磁带驱动器、磁盘驱动器等,它们可以随时为软件编程提供非暂时性存储。软件的全部或部分有时可以通过因特网或其他各种电信网络进行通信。例如,这种通信可以使软件能够从一个计算机或处理器加载到另一个计算机或处理器,例如,从管理服务器或主机加载到应用服务器的计算机平台。因此,可以承载软件元素的另一种介质类型包括光波、电波和电磁波,如在本地装置之间的物理接口之间、通过有线和光学陆线网络以及在各种空中链路上所使用的。携带这种波的物理元素,如有线或无线链路、光链路等也可以被视为承载软件的介质。如本文所用,除非限于非暂时性的、有形的“存储”介质,否则诸如计算机或机器“可读介质”的术语是指参与向处理器提供指令以供执行的任何介质。
因此,机器可读介质,如计算机可执行代码,可以采取多种形式,包括但不限于有形存储介质、载波介质或物理传输介质。非易失性存储介质包括,例如,光盘或磁盘,如任何计算机中的任何存储装置等,它们例如可用于实现附图所示的数据库等。易失性存储介质包括动态存储器,如此类计算机平台的主存储器。有形的传输介质包括同轴电缆;铜线和光纤,包括构成计算机系统内总线的电线。载波传输介质可以采用电信号或电磁信号的形式,也可以采用声波或光波的形式,如在射频(RF)和红外(IR)数据通信期间生成的那些。因此,计算机可读介质的常见形式包括例如:软盘、柔性盘、硬盘、磁带、任何其他磁介质、CD-ROM、DVD或DVD-ROM、任何其他光学介质、穿孔卡纸带、带孔图案的任何其他物理存储介质、RAM、ROM、PROM和EPROM、FLASH-EPROM、任何其他存储芯片或盒带,传输数据或指令的载波、传输此类载波的电缆或链路,或计算机可以从中读取编程代码和/或数据的任何其他介质。计算机可读介质的许多这些形式可以涉及将一个或多个指令的一个或多个序列传送给处理器以执行。
计算机系统601可以包括电子显示器635或与电子显示器635通信,该电子显示器635包括用户界面(UI)640以提供,例如,(i)反应混合物的进度,(ii)测序的进度,以及(iii)从测序获得的测序信息。UI的实例包括,但不限于,图形用户界面(GUI)和基于网络的用户界面。
本公开内容的方法和系统可以通过一种或多种算法来实现。算法可以在由中央处理单元605执行时通过软件实现。例如,该算法可以在纳米孔测序时确定一个或多个靶位点(例如,一个或多个靶突变位点)的序列读出。
实施例
本公开内容的各个方面通过以下非限制性实例进一步说明。
实施例1:将单链核酸环化。
图7A示出了包含多个环化的单链核酸的样品的示例性凝胶电泳图像。环状单链环状DNA(环状ssDNA)可以从生物样品生成,或者可以合成。线性ss-DNA可以通过自连接(例如,不使用衔接子)环化为环状ssDNA。环状ssDNA可以用作模板以生成(例如,通过使用聚合酶经由RCA)一个或多个DNA纳米卷(DNR)。每个DNR可以包含聚合的核酸链,该链包含环状ssDNA的至少一部分的至少一个拷贝。在这个实例中,可以通过DNA连接酶生成59个核苷酸的环状ssDNA模板。DNA连接酶的实例可以包括T4 DNA连接酶、T7DNA连接酶、Taq DNA连接酶、SprintR连接酶、CircLigase等。可以在(i)环化过程和(ii)对任何过量的非环化单链线性DNA进行核酸外切酶耗尽后,通过将线性ssDNA的起始量与环状ssDNA的最终量比较来获得效率。起始材料714(环化,未用核酸外切酶处理)、产物716(环化,经核酸外切酶处理),对照阶梯712和寡核苷酸引物718可以在15%聚丙烯酰胺凝胶电泳710中解析,并用SYBRGreen染色以便可视化。图7B示出了来自环化单链核酸的RCA产物的荧光图像720的实例。聚合酶(例如,Phi29聚合酶)可用于在约40分钟的RCA过程中从多个环状ssDNA生成多个DNR。
线性ssDNA的实例:
5’磷酸化-
ATTTTAGCCCTGGAACCTTCAGAGAGTACGACGATATATGGGAACAACTGCTACCTGCT-3’
寡核苷酸引物序列的实例:5’-AGCAGGTAGCAGTTGTTCCCAT-3’
实施例2:将双链核酸环化。
图7C示出了包含多个环化双链核酸的样品的示例性凝胶电泳图像。环状双链DNA(环状dsDNA)可以从生物样品生成,或者可以合成。环状dsDNA可以用作模板以生成(例如,通过使用聚合酶经由RCA)一个或多个DNR。可以制备一个或多个纯化的200个核苷酸的环状dsDNA模板,每个模板均包含切口,其中与二聚体形式(泳道4)相比,单体形式可以占约90%。所得产物可以包含环状dsDNA 732的二聚体(例如,两个非共价缠结的环状dsDNA分子)和环状dsDNA 734的单体以及不可检测或最小可检测量的其他PCR产物。可以制备(例如,合成)200个碱基对的ssDNA,并通过PCR反应扩增。PCR反应可以使用正向寡核苷酸引物和反向寡核苷酸引物进行,每个引物包含供酶产生核苷酸缺口的核苷酸或核苷酸修饰。PCR反应可产生线性ssDNA及其互补链的拷贝,并且每条链可以包含供酶产生核苷酸缺口和黏端的核苷酸或核苷酸修饰。dsDNA分子可以通过两个黏端之间的杂交和一个连接步骤(例如,使用T4 DNA连接酶)环化,以形成包含有义链和反义链以及有义链或反义链中的核苷酸缺口的环状dsDNA。还可以评估DNA阶梯对照(泳道1)、纯化前的PCR产物(泳道2)以及在用质粒安全DNA酶处理前的环化和/或连接反应的产物(泳道3)。DNA样品可以在6%聚丙烯酰胺凝胶电泳730中解析,并用SYBR Green染色以便可视化。图7D示出了来自环化双链核酸的RCA产物的示例性荧光图像。聚合酶(例如,Phi29聚合酶)可用于在约40分钟的RCA过程中从多个包含1-核苷酸切口的环状dsDNA生成多个DNR。
实施例3:包含切口和聚合酶的环状双链核酸的复合。
图8示出了环状双链核酸与(i)野生型聚合酶812(例如,野生型Phi29 Pol)和(ii)突变型聚合酶814(例如,突变型Phi29 Pol)的复合的示例性凝胶电泳图像。可以评估至少一种蛋白质(例如,酶)与至少一种核酸分子的结合。突变型聚合酶814可以包含接头,并且突变型聚合酶-纳米孔蛋白复合物816可以包含通过接头偶联至纳米孔蛋白的突变型聚合酶。野生型Phi29 DNA聚合酶和突变型Phi29 DNA聚合酶都可结合200个碱基对的环状dsDNA模板。游离DNA和聚合酶-环状dsDNA复合物的迁移性可以通过SYBR Green染色来可视化。
尽管本文中已经示出并描述了本发明的优选实施方案,但对于本领域技术人员显而易见的是,这些实施方案仅以示例的方式提供。本发明并非意图被说明书中提供的特定示例限制。尽管本发明已经参考前述说明书进行了描述,但本文中的实施方案的描述和图示并不意味着以限制性的意义进行解释。本领域技术人员在不脱离本发明的情况下现将想到多种变化、改变和替代。此外,应当理解,本发明的所有方面不限于本文所阐述的依赖于各种条件和变量的具体描述、配置或相对比例。应当理解,本文中所述的本发明的实施方案的各种可替选方案可用于实施本发明。因此,可以预期的是,本发明还将涵盖任何这样的替代、修改、变化或等同方案。以下权利要求旨在限定本发明的范围,并由此涵盖这些权利要求范围内的方法和结构及其等同方案。

Claims (83)

1.一种用于处理或分析双链核酸分子的方法,包括:
(a)提供(i)所述双链核酸分子和(ii)在其有义链或反义链内具有切口位点的双链衔接子;
(b)将所述双链衔接子偶联至所述双链核酸分子;以及
(c)使与所述双链衔接子偶联的所述双链核酸分子环化以产生环化的双链核酸分子。
2.根据权利要求1所述的方法,其中所述双链核酸分子和所述双链衔接子彼此异源。
3.根据权利要求1所述的方法,其中所述双链核酸分子和所述双链衔接子以无细胞组合物的形式提供。
4.根据权利要求1所述的方法,其中(b)或(c)在无细胞条件下进行。
5.根据权利要求1所述的方法,其中所述偶联包括(i)将所述双链衔接子的所述有义链偶联至所述双链核酸分子的有义链,或(ii)将所述双链衔接子的所述反义链偶联至所述双链核酸分子的反义链。
6.根据权利要求1所述的方法,其中所述切口位点是所述环化双链核酸分子的有义链或反义链的部分。
7.根据权利要求1所述的方法,还包括使所述双链核酸分子从所述双链衔接子的所述切口位点进行测序。
8.根据权利要求7所述的方法,其中所述测序包括(i)使所述双链核酸分子从所述双链衔接子的所述切口位点进行延伸反应以产生与所述双链核酸分子的链的至少一部分具有序列互补性的生长链,以及(ii)获得所述生长链的至少一部分的序列信息。
9.根据权利要求8所述的方法,其中获得所述序列信息包括检测所述生长链的所述至少一部分。
10.根据权利要求8所述的方法,其中所述延伸反应包括在足以将核苷酸掺入所述生长链中的条件下使所述双链核酸分子与偶联至标签的所述核苷酸接触,并且其中获得所述序列信息包括检测所述标签。
11.根据权利要求10所述的方法,还包括在将所述核苷酸掺入所述生长链中时从所述核苷酸释放所述标签。
12.根据权利要求8所述的方法,其中所述延伸反应在不使用寡核苷酸引物的情况下进行。
13.根据权利要求8所述的方法,其中所述延伸反应包括滚环扩增。
14.根据权利要求7所述的方法,其中所述测序包括(i)使所述双链核酸分子从所述双链衔接子的所述切口位点进行切割反应以切割所述双链核酸分子的链的至少一部分,以及(ii)获得所述链的所述至少一部分的序列信息。
15.根据权利要求14所述的方法,其中获得所述序列信息包括检测所述链的所述至少一部分。
16.根据权利要求1所述的方法,其中所述双链核酸分子包含识别序列,所述方法还包括至少部分基于所述识别序列从随机核酸分子库中富集所述双链核酸分子。
17.根据权利要求16所述的方法,其中所述富集包括(i)将与所述识别序列具有互补性的识别部分结合至所述双链核酸分子以形成识别复合物,以及(ii)提取所述识别复合物。
18.根据权利要求1所述的方法,其中所述双链核酸分子来自或衍生自受试者的生物样品。
19.根据权利要求18所述的方法,其中所述生物样品包括所述受试者的无细胞生物样品。
20.根据权利要求18所述的方法,其中所述生物样品包括所述受试者的组织样品。
21.根据权利要求1所述的方法,其中所述双链核酸分子包括DNA、互补DNA、其衍生物或其组合。
22.根据权利要求1所述的方法,其中所述双链核酸分子包括RNA。
23.一种用于处理或分析双链核酸分子的反应混合物,包含:
组合物,所述组合物包含(i)所述双链核酸分子和(ii)在其有义链或反义链内具有切口位点的双链衔接子;以及
至少一种酶,所述酶(i)将所述双链衔接子偶联至所述双链核酸分子,以及(ii)使与所述双链衔接子偶联的所述双链核酸分子环化以产生环化的双链核酸分子。
24.根据权利要求23所述的反应混合物,其中所述反应混合物是无细胞反应混合物。
25.根据权利要求23所述的反应混合物,其中所述至少一种酶(i)将所述双链衔接子的所述有义链偶联至所述双链核酸分子的有义链,或(ii)将所述双链衔接子的所述反义链偶联至所述双链核酸分子的反义链。
26.根据权利要求23所述的反应混合物,其中所述至少一种酶将所述双链衔接子连接至所述双链核酸分子。
27.根据权利要求23所述的反应混合物,其中所述至少一种酶包括连接酶、重组酶、聚合酶、其功能变体或其组合。
28.根据权利要求23所述的反应混合物,其中所述切口位点是所述环化双链核酸分子的有义链或反义链的部分。
29.根据权利要求23所述的反应混合物,还包括至少第二酶,所述至少第二酶进行延伸反应以产生与所述双链核酸分子的链的至少一部分具有序列互补性的生长链。
30.根据权利要求29所述的反应混合物,其中在将所述双链衔接子偶联至所述双链核酸分子之前,所述至少第二酶产生所述生长链。
31.根据权利要求29所述的反应混合物,其中在将所述双链衔接子偶联至所述双链核酸分子之后,所述至少第二酶从所述双链衔接子的所述切口位点进行所述延伸反应以产生所述生长链。
32.根据权利要求31所述的反应混合物,还包含与标签偶联的至少一个核苷酸,其中所述至少第二酶将所述核苷酸掺入所述生长链中。
33.根据权利要求32所述的反应混合物,其中当所述核苷酸掺入所述生长链中时,所述至少第二酶从所述核苷酸释放所述标签。
34.根据权利要求31所述的反应混合物,其中所述至少第二酶在不使用寡核苷酸引物的情况下进行所述延伸反应。
35.根据权利要求23所述的反应混合物,还包含至少第三酶,所述至少第三酶从所述双链衔接子的所述切口位点进行切割反应以切割所述双链核酸分子的链的至少一部分。
36.根据权利要求23所述的反应混合物,其中所述双链核酸分子包含识别序列。
37.根据权利要求36所述的反应混合物,还包含与所述识别序列缔合的识别部分,以至少部分基于所述识别序列从所述组合物中的随机核酸分子库中至少富集所述双链核酸分子。
38.一种环化的双链核酸分子的文库,其包含(i)双链核酸结构域,所述双链核酸结构域偶联至(ii)双链衔接子结构域,所述双链衔接子结构域包含在所述双链衔接子结构域的有义链或反义链内的切口位点,其中所述文库的至少5%中的每个环化双链核酸分子包含识别序列。
39.根据权利要求38所述的文库,其中在将所述双链衔接子结构域偶联至所述双链核酸结构域之前,所述切口位点存在于所述双链衔接子结构域内。
40.根据权利要求38所述的文库,其中所述双链核酸结构域和所述双链衔接子结构域彼此异源。
41.根据权利要求38所述的文库,其中所述文库在无细胞组合物中。
42.根据权利要求38所述的文库,其中所选文库的至少10%、20%、30%、40%、50%、60%、70%、80%、90%或95%中的每个环化双链核酸分子包含所述识别序列。
43.一种用于处理或分析环状核酸分子的方法,包括:
(a)提供包含所述环状核酸分子的无细胞组合物,所述环状核酸分子包含(i)靶区域和(ii)距所述靶区域已知距离的切口位点;以及
(b)在所述环状核酸分子的所述切口位点产生切口。
44.根据权利要求43所述的方法,其中(b)在无细胞条件下进行。
45.根据权利要求43所述的方法,其中所述核酸分子包括双链核酸分子。
46.根据权利要求45所述的方法,其中所述切口位点是所述环状核酸分子的有义链或反义链的部分。
47.根据权利要求43所述的方法,还包括至少部分基于所述靶位点相对于至少一个参考序列的位置来确定所述切口位点。
48.根据权利要求47所述的方法,其中所述切口位点对于所述环状核酸分子是内源的。
49.根据权利要求47所述的方法,其中所述切口位点对于所述环状核酸分子是外源的,并且其中所述确定包括将所述外源切口位点插入所述环状核酸分子中。
50.根据权利要求43所述的方法,还包括对所述环状核酸分子进行测序。
51.根据权利要求50所述的方法,其中所述测序包括(i)使所述环状核酸分子从所述切口进行延伸反应以产生与所述环状核酸分子的链的至少一部分具有序列互补性的生长链,以及(ii)获得所述生长链的至少一部分的序列信息。
52.根据权利要求51所述的方法,其中获得所述序列信息包括检测所述生长链的所述至少一部分。
53.根据权利要求51所述的方法,其中所述延伸反应包括在足以将核苷酸掺入所述生长链中的条件下使所述环状核酸分子与偶联至标签的所述核苷酸接触,并且其中获得所述序列信息包括检测所述标签。
54.根据权利要求53所述的方法,还包括在将所述核苷酸掺入所述生长链中时从所述核苷酸释放所述标签。
55.根据权利要求51所述的方法,其中所述延伸反应在不使用寡核苷酸引物的情况下进行。
56.根据权利要求51所述的方法,其中所述延伸反应包括滚环扩增。
57.根据权利要求50所述的方法,其中所述测序包括(i)使所述环状核酸分子从所述切口进行切割反应以切割所述双链核酸分子的链的至少一部分,以及(ii)获得所述链的所述至少一部分的序列信息。
58.根据权利要求57所述的方法,其中获得所述序列信息包括检测所述链的所述至少一部分。
59.根据权利要求43所述的方法,其中所述环状核酸分子包含识别序列,所述方法还包括至少部分基于所述识别序列从随机核酸分子库中富集所述环状核酸分子。
60.根据权利要求59所述的方法,其中所述富集包括(i)将与所述识别序列具有互补性的识别部分结合至所述环状核酸分子以形成识别复合物,以及(ii)提取所述识别复合物。
61.一种用于处理或分析环状核酸分子的反应混合物,包含:
无细胞组合物,所述无细胞组合物包含所述环状核酸分子,所述环状核酸分子包含(i)靶位点和(ii)距所述靶位点已知距离的切口位点;以及
至少一种在所述环状核酸分子的所述切口位点产生切口的酶。
62.根据权利要求61所述的反应混合物,其中所述反应混合物是无细胞反应混合物。
63.根据权利要求61所述的反应混合物,其中所述切口在所述环状核酸分子的有义链或反义链上。
64.根据权利要求61所述的反应混合物,其中所述切口位点对于所述环状核酸分子是内源的。
65.根据权利要求61所述的反应混合物,其中所述切口位点对于所述环状核酸分子是外源的。
66.根据权利要求61所述的反应混合物,还包括至少第二酶,所述至少第二酶从所述切口进行延伸反应以产生与所述环状核酸分子的至少一部分具有序列互补性的生长链。
67.根据权利要求66所述的反应混合物,其中所述环状核酸分子是环状双链核酸分子,并且其中所述生长链与所述环状双链核酸分子的链的至少一部分具有序列互补性。
68.根据权利要求66所述的反应混合物,其中所述至少第二酶在不使用寡核苷酸引物的情况下进行所述延伸反应。
69.根据权利要求66所述的反应混合物,其中所述至少第二酶包括聚合酶。
70.根据权利要求61所述的反应混合物,还包含至少第三酶,所述至少第三酶从所述切口进行切割反应以切割所述环状核酸分子的至少一部分。
71.根据权利要求61所述的反应混合物,其中所述环状核酸分子是环状双链核酸分子,并且其中所述至少第三酶切割所述环状双链核酸分子的链的至少一部分。
72.根据权利要求61所述的反应混合物,其中所述环状核酸分子包含识别序列。
73.根据权利要求72所述的反应混合物,还包含与所述识别序列缔合的识别部分,以至少部分基于所述识别序列从所述组合物中的随机核酸分子库中至少富集所述环状核酸分子。
74.根据权利要求73所述的反应混合物,其中所述识别部分包含至少一种与至少所述识别序列互补的寡核苷酸。
75.一种环状核酸分子的无细胞文库,其中所述文库的至少5%中的每个个体的环状核酸分子包含(i)靶位点和(ii)与所述靶位点相距已知距离的切口。
76.根据权利要求75所述的无细胞文库,其中所述文库的至少10%、20%、30%、40%、50%、60%、70%、80%、90%或95%中的每个个体的环状核酸分子包含(i)所述靶位点和(ii)在距所述靶位点所述已知距离处的所述切口。
77.根据权利要求75所述的无细胞文库,其中所述个体的环化核酸分子还包含识别序列。
78.根据权利要求75所述的无细胞文库,其中(i)第一个体核酸分子的第一靶位点和(ii)第二个体核酸分子的第二靶位点相同。
79.根据权利要求78所述的无细胞文库,其中(i)第一切口与所述第一个体核酸分子的所述第一靶位点之间的第一已知距离和(ii)第二切口与所述第二个体核酸分子的所述第二靶位点之间的第二已知距离是相同的。
80.根据权利要求78所述的无细胞文库,其中(i)第一切口与所述第一个体核酸分子的所述第一靶位点之间的第一已知距离和(ii)第二切口与所述第二个体核酸分子的所述第二靶位点之间的第二已知距离是不同的。
81.根据权利要求75所述的无细胞文库,其中(i)第一个体核酸分子的第一靶位点和(ii)第二个体核酸分子的第二靶位点不同。
82.根据权利要求81所述的无细胞文库,其中(i)第一切口与所述第一个体核酸分子的所述第一靶位点之间的第一已知距离和(ii)第二切口与所述第二个体核酸分子的所述第二靶位点之间的第二已知距离是相同的。
83.根据权利要求81所述的无细胞文库,其中(i)第一切口与所述第一个体核酸分子的所述第一靶位点之间的第一已知距离和(ii)第二切口与所述第二个体核酸分子的所述第二靶位点之间的第二已知距离是不同的。
CN201980049362.0A 2018-05-22 2019-05-21 用于核酸测序的方法、系统和组合物 Pending CN112534063A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201862674706P 2018-05-22 2018-05-22
US62/674,706 2018-05-22
PCT/US2019/033376 WO2019226689A1 (en) 2018-05-22 2019-05-21 Methods, systems, and compositions for nucleic acid sequencing

Publications (1)

Publication Number Publication Date
CN112534063A true CN112534063A (zh) 2021-03-19

Family

ID=68617391

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980049362.0A Pending CN112534063A (zh) 2018-05-22 2019-05-21 用于核酸测序的方法、系统和组合物

Country Status (3)

Country Link
US (2) US11603562B2 (zh)
CN (1) CN112534063A (zh)
WO (1) WO2019226689A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114540473A (zh) * 2021-08-27 2022-05-27 四川大学华西第二医院 一种新型核酸测序系统

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112534063A (zh) 2018-05-22 2021-03-19 安序源有限公司 用于核酸测序的方法、系统和组合物
CN115279918A (zh) * 2020-03-11 2022-11-01 豪夫迈·罗氏有限公司 用于测序的新型核酸模板结构
WO2023055752A2 (en) * 2021-09-28 2023-04-06 Axbio Inc. Methods for processing a nucleic acid sample and compositions thereof
AU2022369290A1 (en) * 2021-10-18 2024-05-02 Flagship Pioneering Innovations Vii, Llc Dna compositions and related methods
CN114774411B (zh) * 2022-06-16 2022-10-21 序康医疗科技(苏州)有限公司 大片段dna环化连接方法

Family Cites Families (73)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4959615A (en) 1988-05-31 1990-09-25 Micro Encoder, Inc. Electrode structure for capacitance-type measurement transducers
US5795782A (en) 1995-03-17 1998-08-18 President & Fellows Of Harvard College Characterization of individual polymer molecules based on monomer-interface interactions
US6936702B2 (en) 2000-06-07 2005-08-30 Li-Cor, Inc. Charge-switch nucleotides
AU2001296645A1 (en) 2000-10-06 2002-04-15 The Trustees Of Columbia University In The City Of New York Massive parallel method for decoding dna and rna
US7223541B2 (en) 2001-08-29 2007-05-29 Ge Healthcare Bio-Sciences Corp. Terminal-phosphate-labeled nucleotides and methods of use
US7057026B2 (en) 2001-12-04 2006-06-06 Solexa Limited Labelled nucleotides
US7238485B2 (en) 2004-03-23 2007-07-03 President And Fellows Of Harvard College Methods and apparatus for characterizing polynucleotides
AU2005296200B2 (en) 2004-09-17 2011-07-14 Pacific Biosciences Of California, Inc. Apparatus and method for analysis of molecules
US7170050B2 (en) 2004-09-17 2007-01-30 Pacific Biosciences Of California, Inc. Apparatus and methods for optical analysis of molecules
US20060086626A1 (en) 2004-10-22 2006-04-27 Joyce Timothy H Nanostructure resonant tunneling with a gate voltage source
GB2446083B (en) 2005-10-31 2011-03-02 Univ Columbia Chemically cleavable 3'-0-allyl-dntp-allyl-fluorophore fluorescent nucleotide analogues and related methods
JP2009542220A (ja) 2006-06-30 2009-12-03 アプライド バイオシステムズ, エルエルシー 可逆性ターミネーターヌクレオチドおよび使用方法
GB2457402B (en) 2006-12-01 2011-10-19 Univ Columbia Four-color DNA sequencing by synthesis using cleavable fluorescent nucleotide reversible terminators
CA2684801C (en) 2007-04-04 2017-10-10 The Regents Of The University Of California Compositions, devices, systems, and methods for using a nanopore
AU2009223702B2 (en) 2008-03-13 2013-08-22 Pacific Biosciences Of California, Inc. Labeled reactants and their uses
US7973146B2 (en) 2008-03-26 2011-07-05 Pacific Biosciences Of California, Inc. Engineered fluorescent dye labeled nucleotide analogs for DNA sequencing
BRPI0909212A2 (pt) 2008-03-28 2015-08-18 Pacific Biosciences California Composições e método para sequeciamento de ácido nucléico
US8628940B2 (en) 2008-09-24 2014-01-14 Pacific Biosciences Of California, Inc. Intermittent detection during analytical reactions
WO2009151921A1 (en) 2008-05-27 2009-12-17 Trilink Biotechnologies Chemically modified nucleoside 5'-triphosphates for thermally initiated amplification of nucleic acid
CN103695530B (zh) 2008-07-07 2016-05-25 牛津纳米孔技术有限公司 酶-孔构建体
US8253174B2 (en) 2008-11-26 2012-08-28 Palo Alto Research Center Incorporated Electronic circuit structure and method for forming same
US9017937B1 (en) 2009-04-10 2015-04-28 Pacific Biosciences Of California, Inc. Nanopore sequencing using ratiometric impedance
US8986928B2 (en) 2009-04-10 2015-03-24 Pacific Biosciences Of California, Inc. Nanopore sequencing devices and methods
US8324914B2 (en) 2010-02-08 2012-12-04 Genia Technologies, Inc. Systems and methods for characterizing a molecule
EP2534284B1 (en) 2010-02-08 2021-03-17 Genia Technologies, Inc. Systems and methods for manipulating a molecule in a nanopore
WO2011106629A2 (en) 2010-02-26 2011-09-01 Life Technologies Corporation Modified proteins and methods of making and using same
WO2011143231A2 (en) 2010-05-10 2011-11-17 The Broad Institute High throughput paired-end sequencing of large-insert clone libraries
WO2012009206A2 (en) 2010-07-12 2012-01-19 Pacific Biosciences Of California, Inc. Sequencing reactions with alkali metal cations for pulse width control
KR101963462B1 (ko) 2010-10-04 2019-03-28 제납시스 인크. 재사용 가능한 자동화 평행 생물 반응 시스템 및 방법
EP2710359B1 (en) 2011-02-16 2020-09-16 Centrul International de Biodinamica Systems and method for detection and quantitation of analytes using impedance analysis
WO2012121756A1 (en) 2011-03-04 2012-09-13 Quantapore, Inc. Apparatus and methods for performing optical nanopore detection or sequencing
US8759036B2 (en) 2011-03-21 2014-06-24 Affymetrix, Inc. Methods for synthesizing pools of probes
US9926596B2 (en) 2011-05-27 2018-03-27 Genapsys, Inc. Systems and methods for genetic and biological analysis
KR101940833B1 (ko) 2011-05-27 2019-01-21 제납시스 인크. 유전자 및 생물학적 분석을 위한 시스템 및 방법
US9139874B2 (en) 2011-07-07 2015-09-22 Life Technologies Corporation Bi-directional sequencing compositions and methods
WO2013036929A1 (en) * 2011-09-09 2013-03-14 The Board Of Trustees Of The Leland Stanford Junior Methods for obtaining a sequence
WO2013082619A1 (en) 2011-12-01 2013-06-06 Genapsys, Inc. Systems and methods for high efficiency electronic sequencing and detection
US9528107B2 (en) 2012-01-31 2016-12-27 Pacific Biosciences Of California, Inc. Compositions and methods for selection of nucleic acids
JP6312607B2 (ja) 2012-02-16 2018-04-18 ザ リージェンツ オブ ザ ユニバーシティ オブ カリフォルニア 酵素仲介タンパク質トランスロケーションのためのナノポアセンサー
US9150914B2 (en) 2012-03-29 2015-10-06 Genewiz Inc., Suzhou Methods and compositions for amplification and sequencing of difficult DNA templates
EP2831283A4 (en) 2012-03-30 2015-11-04 Pacific Biosciences California METHODS AND COMPOSITION FOR SEQUENCING MODIFIED NUCLEIC ACIDS
WO2013154999A2 (en) 2012-04-09 2013-10-17 The Trustees Of Columbia University In The City Of New York Method of preparation of nanopore and uses thereof
WO2013185137A1 (en) * 2012-06-08 2013-12-12 Pacific Biosciences Of California, Inc. Modified base detection with nanopore sequencing
WO2013188841A1 (en) 2012-06-15 2013-12-19 Genia Technologies, Inc. Chip set-up and high-accuracy nucleic acid sequencing
WO2013191793A1 (en) 2012-06-20 2013-12-27 The Trustees Of Columbia University In The City Of New York Nucleic acid sequencing by nanopore detection of tag molecules
US9605309B2 (en) 2012-11-09 2017-03-28 Genia Technologies, Inc. Nucleic acid sequencing using tags
RU2529784C2 (ru) 2012-12-26 2014-09-27 Закрытое акционерное общество "Геноаналитика" Технология определения анеуплоидии методом секвенирования
US9809852B2 (en) 2013-03-15 2017-11-07 Genapsys, Inc. Systems and methods for biological analysis
US9290800B2 (en) * 2013-03-15 2016-03-22 Pacific Biosciences Of California, Inc. Targeted rolling circle amplification
WO2014161350A1 (zh) 2013-04-03 2014-10-09 华为技术有限公司 下行信息处理方法和设备
WO2014182630A1 (en) 2013-05-06 2014-11-13 Pacific Biosciences Of California , Inc. Real-time electronic sequencing
US9551697B2 (en) 2013-10-17 2017-01-24 Genia Technologies, Inc. Non-faradaic, capacitively coupled measurement in a nanopore cell array
US9322062B2 (en) 2013-10-23 2016-04-26 Genia Technologies, Inc. Process for biosensor well formation
CN109706222A (zh) 2013-12-11 2019-05-03 安可济控股有限公司 用于检测罕见序列变体的组合物和方法
EP3080294B1 (en) 2013-12-12 2018-06-13 Altratech Limited A capacitive sensor and method of use
SG10201502135TA (en) 2014-03-20 2015-10-29 Agency Science Tech & Res Sensor Device And Method Of Operating Thereof
MA39774A (fr) 2014-03-24 2021-05-12 Roche Sequencing Solutions Inc Procédés chimiques pour produire des nucléotides étiquetés
WO2015161054A2 (en) 2014-04-18 2015-10-22 Genapsys, Inc. Methods and systems for nucleic acid amplification
US20170191123A1 (en) 2014-05-28 2017-07-06 Toolgen Incorporated Method for Sensitive Detection of Target DNA Using Target-Specific Nuclease
US10060903B2 (en) 2014-11-05 2018-08-28 Genia Technologies, Inc. Exporting measurements of nanopore arrays
US10036739B2 (en) 2015-01-27 2018-07-31 Genia Technologies, Inc. Adjustable bilayer capacitance structure for biomedical devices
CN114989235A (zh) 2015-09-28 2022-09-02 哥伦比亚大学董事会 用作dna合成测序的可逆终止物的基于新的二硫键接头的核苷酸的设计与合成
CN108350491A (zh) 2015-11-18 2018-07-31 加利福尼亚太平洋生物科学股份有限公司 将核酸加载到基材上
WO2017087696A1 (en) 2015-11-18 2017-05-26 Pacific Biosciences Of California, Inc. Methods and compositions for loading of polymerase complexes
US10883140B2 (en) 2016-04-21 2021-01-05 President And Fellows Of Harvard College Method and system of nanopore-based information encoding
WO2018017884A1 (en) 2016-07-20 2018-01-25 Genapsys, Inc. Systems and methods for nucleic acid sequencing
US11686729B2 (en) 2016-11-29 2023-06-27 University Of Georgia Research Foundation, Inc. Bacteriophage-based electrochemical bacterial sensors, systems, and methods
US11981961B2 (en) * 2017-01-24 2024-05-14 Vastogen, Inc. Methods for constructing copies of nucleic acid molecules
WO2018183538A1 (en) 2017-03-28 2018-10-04 The Trustees Of Columbia University In The City Of New York 3'-o-modified nucleotide analogues with different cleavable linkers for attaching fluorescent labels to the base for dna sequencing by synthesis
US10947599B2 (en) 2017-06-13 2021-03-16 Genetics Research, Llc Tumor mutation burden
CN111356772B (zh) 2017-08-23 2023-10-03 豪夫迈·罗氏有限公司 酶筛选方法
CN112534063A (zh) 2018-05-22 2021-03-19 安序源有限公司 用于核酸测序的方法、系统和组合物
EP4003382A4 (en) 2019-07-31 2023-10-11 Axbio Inc. SYSTEMS AND METHODS FOR EVALUATION OF A TARGET MOLECULE

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114540473A (zh) * 2021-08-27 2022-05-27 四川大学华西第二医院 一种新型核酸测序系统
CN114540473B (zh) * 2021-08-27 2024-03-01 四川大学华西第二医院 一种新型核酸测序系统

Also Published As

Publication number Publication date
US11603562B2 (en) 2023-03-14
US20240076730A1 (en) 2024-03-07
US20210139971A1 (en) 2021-05-13
WO2019226689A1 (en) 2019-11-28

Similar Documents

Publication Publication Date Title
US11603562B2 (en) Methods, systems, and compositions for nucleic acid sequencing
JP7256748B2 (ja) エラーが訂正された核酸配列決定への適用を伴う標的化核酸配列濃縮のための方法
KR102643955B1 (ko) 근접 보존 전위
JP6803327B2 (ja) 標的化されたシークエンシングからのデジタル測定値
US11486004B2 (en) Methods of sequencing circular template polynucleotides
JP2017501739A (ja) 二本鎖dnaライブラリー作出法およびメチル化シトシンの同定のためのシーケンシング法
KR20170068540A (ko) 방법
WO2020120711A1 (en) Method of nucleic acid enrichment using site-specific nucleases followed by capture
US20220333186A1 (en) Method and system for targeted nucleic acid sequencing
US20220396831A1 (en) Systems and methods for assessing a target molecule
US11091791B2 (en) Methods for hybridization based hook ligation
US20220364169A1 (en) Sequencing method for genomic rearrangement detection
US20240026349A1 (en) Next Generation Sequencing
US20210388427A1 (en) Liquid sample workflow for nanopore sequencing
WO2023055752A2 (en) Methods for processing a nucleic acid sample and compositions thereof
WO2024086745A2 (en) Systems and methods for analyzing a target molecule
WO2024077111A2 (en) Compositions, methods, and systems for detecting nucleotides
WO2023137292A1 (en) Methods and compositions for transcriptome analysis
WO2020023493A1 (en) Methods and composition for targeted genomic analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40050771

Country of ref document: HK