CN118647730A - 制备核酸用于进一步分析其序列 - Google Patents

制备核酸用于进一步分析其序列 Download PDF

Info

Publication number
CN118647730A
CN118647730A CN202380019938.5A CN202380019938A CN118647730A CN 118647730 A CN118647730 A CN 118647730A CN 202380019938 A CN202380019938 A CN 202380019938A CN 118647730 A CN118647730 A CN 118647730A
Authority
CN
China
Prior art keywords
nucleic acid
sequence
target
oligonucleotide
barcode
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202380019938.5A
Other languages
English (en)
Inventor
宋慧媛
丹尼斯·爱德华·普罗森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Becton Dickinson and Co
Original Assignee
Becton Dickinson and Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Becton Dickinson and Co filed Critical Becton Dickinson and Co
Publication of CN118647730A publication Critical patent/CN118647730A/zh
Pending legal-status Critical Current

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6806Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay

Landscapes

  • Chemical & Material Sciences (AREA)
  • Organic Chemistry (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Immunology (AREA)
  • Microbiology (AREA)
  • Molecular Biology (AREA)
  • Biotechnology (AREA)
  • Physics & Mathematics (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Biochemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本文的公开内容包括用于全长全转录物组分析(WTA)的系统、方法、组合物和试剂盒。一些实施方案包括基于5’的基因表达谱分析、基于3’的基因表达谱分析和基于内部的基因表达谱分析。还提供了免疫组库(immune repertoire)谱分析方法。

Description

制备核酸用于进一步分析其序列
相关申请
本申请根据35U.S.C.§119(e)要求2022年2月7日提交的美国临时专利申请序号63/307,559的权益,该相关申请的内容出于所有目的通过引用以其整体并入本文。
背景
领域
本公开内容大体上涉及分子生物学领域,并且尤其涉及使用分子条形码的多组学分析。
对相关技术的描述
分子条形码化的方法和技术可用于单细胞转录组学分析,包括使用例如逆转录、聚合酶链式反应(PCR)扩增和下一代测序(NGS)破译基因表达谱以确定细胞的状态。分子条形码化还可用于单细胞蛋白质组学分析。对使核酸靶分子在5’末端和3’末端中的一个或两个上条形码化的方法和技术存在需求。对能够有效地定量分析细胞的基因表达的组合物、系统和方法存在需求。对能够获得核酸靶内部区域的序列的组合物、系统和方法存在需求。对于能够获得核酸靶的全长序列的组合物、系统和方法存在需求。
概述
本文的公开内容包括用于对样品中的核酸靶进行标记的方法。在一些实施方案中,方法包括:使核酸靶的拷贝与第一多于一种寡核苷酸条形码接触,其中第一多于一种寡核苷酸条形码中的每一种寡核苷酸条形码包含第一通用序列、第一分子标记和能够与核酸靶杂交的第一靶结合区。在一些实施方案中,方法包括:延伸与核酸靶的拷贝杂交的第一多于一种寡核苷酸条形码,以产生多于一种条形码化核酸分子,所述多于一种条形码化核酸分子各自包含第一通用序列、第一分子标记和与核酸靶的至少一部分互补的序列。在一些实施方案中,方法包括:使条形码化核酸分子与第二多于一种寡核苷酸条形码接触以进行杂交。在一些实施方案中,第二多于一种寡核苷酸条形码中的每一种寡核苷酸条形码包含第二通用序列、裂解结构域和阻断基团。在一些实施方案中,阻断基团能够防止寡核苷酸条形码的延伸,其中裂解结构域位于阻断基团的5’,并且其中当裂解结构域与条形码化核酸分子杂交时,裂解酶能够在裂解结构域内或与裂解结构域相邻的点处裂解寡核苷酸条形码。在一些实施方案中,方法包括:使与条形码化核酸分子杂交的第二多于一种寡核苷酸条形码与裂解酶接触,从而从所述寡核苷酸条形码去除阻断基团。在一些实施方案中,方法包括:延伸与条形码化核酸分子杂交的第二多于一种寡核苷酸条形码中的寡核苷酸条形码的3’末端,以产生多于一种延伸的条形码化核酸分子。
在一些实施方案中,多于一种延伸的条形码化核酸分子中的每一种延伸的条形码化核酸分子包含核酸靶的至少一部分的序列。在一些实施方案中,裂解酶是RNA酶H酶和/或RNA酶H2酶,任选地,RNA酶H2酶是深海火球菌(Pyrococcus abyssi)RNA酶H2酶。在一些实施方案中,裂解酶是热稳定的并且在较低温度具有降低的活性的热启动裂解酶。在一些实施方案中,热启动裂解酶是深海火球菌RNA酶H2,其包含(a)G12A氨基酸取代;(b)P13T氨基酸取代;(c)G169A氨基酸取代;或(d)其组合。在一些实施方案中,裂解酶是化学修饰的。在一些实施方案中,裂解酶是热稳定的并且在较低温度具有降低的活性的化学修饰的热启动裂解酶,任选地,裂解酶在较低温度通过与抗体相互作用被可逆地失活。在一些实施方案中,裂解结构域包含能够被RNA酶H酶裂解的一个或更多个核糖核苷酸。在一些实施方案中,裂解结构域包含以下部分中的一个或更多个:DNA残基、无碱基残基、修饰的核苷或修饰的磷酸核苷酸间连键。在一些实施方案中,裂解结构域包含至少一个RNA碱基。在一些实施方案中,裂解结构域包含一个或更多个2’-修饰的核苷,任选地,一个或更多个修饰的核苷是2’-氟核苷。在一些实施方案中,阻断基团附接至寡核苷酸条形码的3’末端核苷酸。在一些实施方案中,阻断基团在寡核苷酸条形码的3’末端处或附近。在一些实施方案中,阻断基团是2’,3’-双脱氧核苷酸、核糖核苷酸残基、2’,3’SH核苷酸或2’-O-PO3核苷酸。在一些实施方案中,阻断基团包含非核苷酸修饰。在一些实施方案中,阻断基团还包含萘基偶氮化合物、间隔区和/或生物素。
在一些实施方案中,延伸第二多于一种寡核苷酸条形码中的寡核苷酸条形码的3’末端包括用具有链置换活性的DNA聚合酶延伸第二多于一种寡核苷酸条形码中的寡核苷酸条形码的3’末端。在一些实施方案中,用具有链置换活性的DNA聚合酶延伸第二多于一种寡核苷酸条形码中的寡核苷酸条形码的3’末端能够产生包含第一分子标记的互补物和第一通用序列的互补物的延伸的条形码化核酸分子。在一些实施方案中,延伸第二多于一种寡核苷酸条形码中的寡核苷酸条形码的3’末端包括用没有链置换活性的DNA聚合酶延伸第二多于一种寡核苷酸条形码中的寡核苷酸条形码的3’末端。在一些实施方案中,聚合酶选自包括以下的组:Phi29 DNA聚合酶、大肠杆菌(E.coli)DNA聚合酶I、Bsu DNA聚合酶、Bst DNA聚合酶、Taq DNA聚合酶、VENTTMDNA聚合酶、DEEPVENTTMDNA聚合酶、Taq DNA聚合酶、热启动Taq DNA聚合酶、Crimson Taq DNA聚合酶、Crimson TaqDNA聚合酶、DNA聚合酶、Quick-DNA聚合酶、Hemo DNA聚合酶、DNA聚合酶、DNA聚合酶、高保真DNA聚合酶、PlatinumPfx DNA聚合酶、AccuPrime Pfx DNA聚合酶、Klenow片段、Pwo DNA聚合酶、Pfu DNA聚合酶、T4 DNA聚合酶、T7 DNA聚合酶、其衍生物或其任何组合。在一些实施方案中,延伸寡核苷酸条形码的3’末端包括使用嗜中温DNA聚合酶、嗜热DNA聚合酶、嗜冷DNA聚合酶或其任何组合延伸寡核苷酸条形码的3’末端。在一些实施方案中,延伸寡核苷酸条形码的3’末端包括使用缺乏5’至3’外切核酸酶活性和3’至5’外切核酸酶活性中的至少一种的DNA聚合酶延伸寡核苷酸条形码的3’末端,并且任选地,DNA聚合酶包括Klenow片段。在一些实施方案中,延伸第一多于一种寡核苷酸条形码包括使用逆转录酶延伸第一多于一种寡核苷酸条形码。在一些实施方案中,逆转录酶能够具有末端转移酶活性。在一些实施方案中,具有链置换活性的逆转录酶是PrimeScript逆转录酶、M-MuLV逆转录酶、SmartScribe逆转录酶、Maxima HMinus逆转录酶和/或Superscript II逆转录酶。在一些实施方案中,逆转录酶包括病毒逆转录酶,任选地病毒逆转录酶是鼠白血病病毒(MLV)逆转录酶或Moloney鼠白血病病毒(MMLV)逆转录酶。
在一些实施方案中,第二多于一种寡核苷酸条形码中的每一种寡核苷酸条形码包含第二分子标记,其中第二多于一种寡核苷酸条形码中的至少10种包含不同的第二分子标记序列,任选地每一种第二分子标记包含至少6个核苷酸,还任选地第二分子标记序列是随机序列。在一些实施方案中,第二多于一种寡核苷酸条形码经由第二分子标记和与核酸靶的至少一部分互补的序列之间的杂交而与条形码化核酸分子杂交。在一些实施方案中,第二多于一种寡核苷酸条形码中的每一种寡核苷酸条形码包含第二靶结合区。在一些实施方案中,第一靶结合区和/或第二靶结合区包括多(dA)区、多(dT)区、随机序列、基因特异性序列或其任何组合。在一些实施方案中,第二多于一种寡核苷酸条形码中的寡核苷酸条形码经由第二靶结合区和与核酸靶的至少一部分互补的序列之间的杂交而与条形码化核酸分子杂交。在一些实施方案中,第二多于一种寡核苷酸条形码中的至少10种包含不同的第二靶结合区,任选地靶结合区中的至少两个能够结合不同核酸靶的互补物,还任选地靶结合区中的至少两个能够与相同核酸靶的互补物的不同区域杂交。在一些实施方案中,第二多于一种寡核苷酸条形码中的两种或更多种寡核苷酸条形码能够与相同核酸靶的互补物的不同区域杂交以产生两种或更多种延伸的条形码化核酸分子。在一些实施方案中,所述两种或更多种延伸的条形码化核酸分子能够通过第二多于一种寡核苷酸条形码中的两种或更多种寡核苷酸条形码与相同核酸靶的互补物的不同区域杂交而产生。在一些实施方案中,所述两种或更多种延伸的条形码化核酸分子共同构成整个核酸靶的至少约50%的序列。
在一些实施方案中,方法包括:使多于一种条形码化核酸分子变性。在一些实施方案中,方法包括:使所述多于一种延伸的条形码化核酸分子变性。在一些实施方案中,方法包括:基于以下确定样品中核酸靶的拷贝数:与多于一种条形码化核酸分子或其产物关联的具有不同序列的第一分子标记的数目。在一些实施方案中,方法包括:基于以下确定样品中核酸靶的拷贝数:与多于一种延伸的条形码化核酸分子或其产物关联的具有不同序列的第一分子标记、具有不同序列的第二分子标记或其组合的数目。在一些实施方案中,确定核酸靶的拷贝数包括基于以下确定样品中多于一种核酸靶中的每一种的拷贝数:与包含多于一种核酸靶中的每一种的序列的多于一种条形码化核酸分子中的条形码化核酸分子或其的产物关联的具有不同序列的第一分子标记的数目;和/或与包含多于一种核酸靶中的每一种的序列的多于一种延伸的条形码化核酸分子中的延伸的条形码化核酸分子关联的具有不同序列的第一分子标记、具有不同序列的第二分子标记或其组合的数目。在一些实施方案中,多于一种核酸靶中的每一种的序列包括多于一种核酸靶中的每一种的子序列。在一些实施方案中,多于一种条形码化核酸分子中的核酸靶的序列包括核酸靶的子序列。在一些实施方案中,核酸靶包括mRNA。在一些实施方案中,样品包括单细胞,任选地免疫细胞,并且还任选地B细胞或T细胞。在一些实施方案中,样品包括多于一个细胞、多于一个单细胞、组织、肿瘤样品或其任何组合。在一些实施方案中,单细胞包括循环肿瘤细胞。
在一些实施方案中,第一多于一种寡核苷酸条形码中的每一种寡核苷酸条形码的第一通用序列在第一分子标记和第一靶结合区的5’;和/或第二多于一种寡核苷酸条形码中的每一种寡核苷酸条形码的第二通用序列在第二分子标记和/或第二靶结合区的5’。
在一些实施方案中,方法包括:使用扩增引物和包含第一通用序列或其一部分的引物扩增多于一种条形码化核酸分子,从而产生包含核酸靶的序列或其一部分的第一多于一种单标记的核酸分子,其中确定样品中核酸靶的拷贝数包括:基于与第一多于一种单标记的核酸分子或其产物关联的具有不同序列的第一分子标记的数目来确定样品中核酸靶的拷贝数。在一些实施方案中,方法包括:使用扩增引物和包含第二通用序列或其一部分的引物扩增多于一种延伸的条形码化核酸分子,从而产生包含核酸靶的序列或其一部分的第二多于一种单标记的核酸分子,其中确定样品中核酸靶的拷贝数包括:基于与第二多于一种单标记的核酸分子或其产物关联的具有不同序列的第二分子标记的数目来确定样品中核酸靶的拷贝数。在一些实施方案中,扩增引物包含第四通用序列。在一些实施方案中,扩增引物是靶特异性引物。在一些实施方案中,靶特异性引物与以下特异性杂交:免疫受体、免疫受体的恒定区、免疫受体的可变区、免疫受体的多样性区和/或免疫受体的可变区和多样性区的连接处。在一些实施方案中,免疫受体是T细胞受体(TCR)和/或B细胞受体(BCR),并且任选地TCR包含TCRα链、TCRβ链、TCRγ链、TCRδ链或其任何组合;并且BCR受体包含BCR重链和/或BCR轻链。
在一些实施方案中,方法包括:使随机引物与多于一种条形码化核酸分子杂交,并延伸随机引物以产生第一多于一种延伸产物,其中随机引物包含第三通用序列或其互补物;以及使用能够与第三通用序列或其互补物杂交的引物和能够与第一通用序列或其互补物杂交的引物扩增第一多于一种延伸产物,从而产生第三多于一种单标记的核酸分子或其产物。在一些实施方案中,确定样品中核酸靶的拷贝数包括:基于与第三多于一种单标记的核酸分子或其产物关联的具有不同序列的第一分子标记的数目来确定样品中核酸靶的拷贝数。在一些实施方案中,方法包括:使随机引物与多于一种延伸的条形码化核酸分子杂交,并延伸随机引物以产生第二多于一种延伸产物,其中随机引物包含第三通用序列或其互补物;以及使用能够与第三通用序列或其互补物杂交的引物和能够与第二通用序列或其互补物杂交的引物扩增第二多于一种延伸产物,从而产生第四多于一种单标记的核酸分子或其产物。在一些实施方案中,确定样品中核酸靶的拷贝数包括:基于与第四多于一种单标记的核酸分子或其产物关联的具有不同序列的第二分子标记的数目来确定样品中核酸靶的拷贝数。
在一些实施方案中,第一通用序列、第二通用序列、第三通用序列和/或第四通用序列是相同的。在一些实施方案中,第一通用序列、第二通用序列、第三通用序列和/或第四通用序列是不同的。在一些实施方案中,第一通用序列、第二通用序列、第三通用序列和/或第四通用序列包含测序引物的结合位点和/或测序衔接子、其互补序列和/或其部分。在一些实施方案中,测序衔接子包括P5序列、P7序列、其互补序列和/或其部分。在一些实施方案中,测序引物包括读段1测序引物、读段2测序引物、其互补序列和/或其部分。
在一些实施方案中,方法包括:获得多于一种条形码化核酸分子或其产物的序列信息。在一些实施方案中,获得序列信息包括将测序衔接子附接至多于一种延伸的条形码化核酸分子或其产物。在一些实施方案中,方法包括:获得多于一种延伸的条形码化核酸分子或其产物的序列信息。在一些实施方案中,获得序列信息包括将测序衔接子附接至延伸的条形码化核酸分子、条形码化核酸分子、其产物或其任何组合。在一些实施方案中,方法包括:获得第一多于一种单标记的核酸分子、第二多于一种单标记的核酸分子、第三多于一种单标记的核酸分子和第四多于一种单标记的核酸分子或其产物中的一种或更多种的序列信息。在一些实施方案中,获得序列信息包括将测序衔接子附接至第一多于一种单标记的核酸分子、第二多于一种单标记的核酸分子、第三多于一种单标记的核酸分子和第四多于一种单标记的核酸分子或其产物中的一种或更多种。在一些实施方案中,获得第一多于一种单标记的核酸分子、第二多于一种单标记的核酸分子、第三多于一种单标记的核酸分子和第四多于一种单标记的核酸分子或其产物中的一种或更多种的序列信息包括:获得包括第一多于一种单标记的核酸分子、第二多于一种单标记的核酸分子、第三多于一种单标记的核酸分子和第四多于一种单标记的核酸分子或其产物中的一种或更多种的多于一个测序读段的测序数据,其中多于一个测序读段中的每一个包含(1)细胞标记序列、(2)分子标记序列和/或(3)核酸靶的子序列。
在一些实施方案中,方法包括:对于指示样品的单细胞的每一种独特细胞标记序列:使核酸靶的多于一个测序读段中的每一个对齐以产生核酸靶的对齐序列。在一些实施方案中,核酸靶的对齐序列包含核酸靶的cDNA序列的至少50%、核酸靶的cDNA序列的至少70%、核酸靶的cDNA序列的至少90%或核酸靶的cDNA序列的全长。在一些实施方案中,核酸靶是免疫受体,任选地,免疫受体包含BCR轻链、BCR重链、TCRα链、TCRβ链、TCRγ链、TCRδ链或其任何组合。在一些实施方案中,核酸靶的对齐序列包含互补决定区1(CDR1)、互补决定区2(CDR2)、互补决定区3(CDR3)、可变区、可变区的全长或其组合。在一些实施方案中,核酸靶的对齐序列包含可变区、多样性区、可变区多样性区的连接区和/或恒定区或其任何组合。在一些实施方案中,获得序列信息包括获得单细胞的BCR轻链和BCR重链的序列信息,并且任选地BCR轻链和BCR重链的序列信息包括BCR轻链和/或BCR重链的互补决定区1(CDR1)、CDR2、CDR3或其任何组合的序列。在一些实施方案中,方法包括:基于所获得的序列信息使单细胞的BCR轻链和BCR重链进行配对。在一些实施方案中,样品包括多于一个单细胞,方法包括基于所获得的序列信息使至少50%的所述单细胞的BCR轻链和BCR重链进行配对。在一些实施方案中,获得序列信息包括获得单细胞的TCRα链和TCRβ链的序列信息,并且任选地TCRα链和TCRβ链的序列信息包括TCRα链和/或TCRβ链的互补决定区1(CDR1)、CDR2、CDR3或其任何组合的序列。在一些实施方案中,方法包括:基于所获得的序列信息使单细胞的TCRα链和TCRβ链进行配对。在一些实施方案中,样品包括多于一个单细胞,方法包括基于所获得的序列信息使至少50%的所述单细胞的TCRα链和TCRβ链进行配对。在一些实施方案中,获得序列信息包括获得单细胞的TCRγ链和TCRδ链的序列信息。在一些实施方案中,TCRγ链和TCRδ链的序列信息包括TCRγ链和/或TCRδ链的互补决定区1(CDR1)、CDR2、CDR3或其任何组合的序列。在一些实施方案中,方法包括:基于所获得的序列信息使单细胞的TCRγ链和TCRδ链进行配对。在一些实施方案中,样品包括多于一个单细胞,方法包括基于所获得的序列信息使至少50%的所述单细胞的TCRγ链和TCRδ链进行配对。
在一些实施方案中,分子标记的互补物包括分子标记的反向互补序列或分子标记的互补序列。在一些实施方案中,多于一种条形码化核酸分子包括条形码化脱氧核糖核酸(DNA)分子、条形码化核糖核酸(RNA)分子或其组合。在一些实施方案中,核酸靶包括核酸分子,任选地,核酸分子包括核糖核酸(RNA)、信使RNA(mRNA)、微RNA、小干扰RNA(siRNA)、RNA降解产物、包含多(A)尾的RNA或其任何组合,并且还任选地,mRNA编码免疫受体。在一些实施方案中,核酸靶包含细胞组分结合试剂,和/或核酸分子与细胞组分结合试剂关联,任选地,方法还包括使核酸分子和细胞组分结合试剂解离。在一些实施方案中,第一多于一种寡核苷酸条形码和/或第二多于一种寡核苷酸条形码中的至少10种包含不同的分子标记序列。在一些实施方案中,第一多于一种寡核苷酸条形码和/或第二多于一种寡核苷酸条形码的每一种细胞标记包含至少6个核苷酸。在一些实施方案中,第一多于一种寡核苷酸条形码和/或第二多于一种寡核苷酸条形码与固体支持物关联。在一些实施方案中,与同一固体支持物关联的第一多于一种寡核苷酸条形码和/或第二多于一种寡核苷酸条形码各自包含相同的样品标记。在一些实施方案中,第一多于一种寡核苷酸条形码和/或第二多于一种寡核苷酸条形码的每一种样品标记包含至少6个核苷酸。在一些实施方案中,第一多于一种寡核苷酸条形码和/或第二多于一种寡核苷酸条形码各自包含细胞标记。在一些实施方案中,第一多于一种寡核苷酸条形码和/或第二多于一种寡核苷酸条形码的每一种细胞标记包含至少6个核苷酸。在一些实施方案中,与同一固体支持物关联的第一多于一种寡核苷酸条形码和/或第二多于一种寡核苷酸条形码中的寡核苷酸条形码包含相同的细胞标记。在一些实施方案中,与不同固体支持物关联的第一多于一种寡核苷酸条形码和/或第二多于一种寡核苷酸条形码中的寡核苷酸条形码包含不同的细胞标记。在一些实施方案中,方法包括:在存在乙二醇、聚乙二醇、1,2-丙二醇、二甲基亚砜(DMSO)、甘油、甲酰胺、7-脱氮-GTP、乙酰胺、四甲基氯化铵盐、甜菜碱或其任何组合中的一种或更多种的情况下,延伸寡核苷酸条形码。
在一些实施方案中,固体支持物包括合成颗粒、平坦表面或其组合。在一些实施方案中,样品包括单细胞,方法包括将包含第一多于一种寡核苷酸条形码和第二多于一种寡核苷酸条形码的合成颗粒与样品的单细胞关联。在一些实施方案中,方法包括:在将合成颗粒与单细胞关联之后裂解单细胞,任选地裂解单细胞包括加热样品、使样品与去污剂接触、改变样品的pH,或其任何组合。在一些实施方案中,合成颗粒和单细胞在同一分区中,并且任选地该分区是孔或液滴。在一些实施方案中,第一多于一种寡核苷酸条形码和/或第二多于一种寡核苷酸条形码中的至少一种寡核苷酸条形码被固定或部分地固定在合成颗粒上,或者第一多于一种寡核苷酸条形码和/或第二多于一种寡核苷酸条形码中的至少一种寡核苷酸条形码被包封或部分地包封在合成颗粒中。在一些实施方案中,合成颗粒是可破坏的,任选地是可破坏的水凝胶颗粒。在一些实施方案中,合成颗粒包括珠,任选地珠是sepharose珠、链霉抗生物素蛋白珠、琼脂糖珠、磁珠、缀合珠、蛋白A缀合珠、蛋白G缀合珠、蛋白A/G缀合珠、蛋白L缀合珠、寡(dT)缀合珠、二氧化硅珠、二氧化硅样珠、抗生物素微珠、抗荧光染料微珠或其任何组合。在一些实施方案中,合成颗粒包含选自由以下组成的组的材料:聚二甲基硅氧烷(PDMS)、聚苯乙烯、玻璃、聚丙烯、琼脂糖、明胶、水凝胶、顺磁物质、陶瓷、塑料、玻璃、甲基苯乙烯、丙烯酸聚合物、钛、胶乳、Sepharose、纤维素、尼龙、硅酮及其任何组合。在一些实施方案中,第一多于一种寡核苷酸条形码和/或第二多于一种寡核苷酸条形码中的每一种寡核苷酸条形码包含接头官能团。在一些实施方案中,合成颗粒包含固体支持物官能团。在一些实施方案中,支持物官能团和接头官能团彼此关联,并且任选地接头官能团和支持物官能团单独地选自由以下组成的组:C6、生物素、链霉抗生物素蛋白、一种或更多种伯胺、一种或更多种醛、一种或更多种酮及其任何组合。
在一些实施方案中,提供了固体支持物。在一些实施方案中,固体支持物与本文公开的第一多于一种寡核苷酸条形码和第二多于一种寡核苷酸条形码中的一种或两种关联。
附图简述
图1图示了非限制性示例性条形码。
图2示出条形码化和数字计数的非限制性示例性工作流程。
图3是示出用于从多于一种靶产生在3’末端处条形码化的靶的索引文库的非限制性示例性过程的示意图。
图4A-图4H示出了使用本文提供的条形码化方法和组合物确定核酸靶(例如免疫受体的V(D)J区)的序列和用于全长全转录物组分析(WTA)的非限制性示例性工作流程的示意图。
图5A-图5E示出了使用本文提供的条形码化方法和组合物确定核酸靶(例如免疫受体的V(D)J区)的序列和用于全长全转录物组分析(WTA)的非限制性示例性工作流程的示意图。
详述
以下详述中参考了形成本文的一部分的附图。在附图中,除非上下文另外指示,否则类似的符号通常标识相似的组成部分。在详述、附图和权利要求书中描述的说明性实施方案不意味着是限制性的。在不脱离本文呈现的主题的精神或范围的情况下,可以利用其他实施方案,并且可以做出其他改变。将容易理解的是,如本文一般描述的以及附图中图示的本公开内容的方面能够以各种不同的配置来布置、替换、组合、分离和设计,所有这些都在本文中明确设想并且构成本公开内容的一部分。
本文提及的所有专利、公开的专利申请、其他出版物和来自GenBank的序列以及其他数据库关于相关技术通过引用以其整体并入。
对少量核酸(例如信使核糖核苷酸(mRNA)分子)进行定量对于确定例如在不同发育阶段或在不同环境条件下在细胞中表达的基因是临床上重要的。然而,确定核酸分子(例如mRNA分子)的绝对数目也可以是非常具有挑战性的,尤其是当分子数目非常小时。确定样品中分子的绝对数目的一种方法是数字聚合酶链式反应(PCR)。理想地,PCR在每个循环中产生相同拷贝的分子。然而,PCR可具有缺点,使得每个分子以随机概率复制,且此概率根据PCR循环和基因序列而变化,这导致扩增偏倚和不准确的基因表达测量。具有独特分子标记(molecular labels,也称为分子索引(molecular indexes,MI))的随机条形码可以用于计数分子数目和校正扩增偏倚。随机条形码化,诸如PreciseTM测定(Cellular Research,Inc.(Palo Alto,CA))和RhapsodyTM测定(Becton,Dickinson and Company(Franklin Lakes,NJ)),可以通过使用分子标记(ML)在逆转录(RT)过程中标记mRNA来校正由PCR和文库制备步骤诱导的偏倚。
PreciseTM测定可以利用具有在多(T)寡核苷酸上的大量(例如6561种至65536种)独特分子标记序列的随机条形码的非耗尽性池(non-depleting pool),以在RT步骤期间与样品中的所有多(A)-mRNA杂交。随机条形码可以包含通用PCR引发位点。在RT期间,靶基因分子与随机条形码随机反应。每一种靶分子可以与随机条形码杂交,导致产生随机条形码化的互补核糖核苷酸(cDNA)分子。在标记之后,可以将来自微孔板微孔的随机条形码化cDNA分子汇集到单个管中用于PCR扩增和测序。可以分析原始测序数据以产生读段的数目、具有独特分子标记序列的随机条形码的数目以及mRNA分子的数目。
本文的公开内容包括用于对样品中的核酸靶进行标记的方法。在一些实施方案中,方法包括:使核酸靶的拷贝与第一多于一种寡核苷酸条形码接触,其中第一多于一种寡核苷酸条形码中的每一种寡核苷酸条形码包含第一通用序列、第一分子标记和能够与核酸靶杂交的第一靶结合区。在一些实施方案中,方法包括:延伸与核酸靶的拷贝杂交的第一多于一种寡核苷酸条形码,以产生多于一种条形码化核酸分子,所述多于一种条形码化核酸分子各自包含第一通用序列、第一分子标记和与核酸靶的至少一部分互补的序列。在一些实施方案中,方法包括:使条形码化核酸分子与第二多于一种寡核苷酸条形码接触以进行杂交。在一些实施方案中,第二多于一种寡核苷酸条形码中的每一种寡核苷酸条形码包含第二通用序列、裂解结构域和阻断基团。在一些实施方案中,阻断基团能够防止寡核苷酸条形码的延伸,其中裂解结构域位于阻断基团的5’,并且其中当裂解结构域与条形码化核酸分子杂交时,裂解酶能够在裂解结构域内或与裂解结构域相邻的点处裂解寡核苷酸条形码。在一些实施方案中,方法包括:使与条形码化核酸分子杂交的第二多于一种寡核苷酸条形码与裂解酶接触,从而从所述寡核苷酸条形码去除阻断基团。在一些实施方案中,方法包括:延伸与条形码化核酸分子杂交的第二多于一种寡核苷酸条形码中的寡核苷酸条形码的3’末端,以产生多于一种延伸的条形码化核酸分子。在一些实施方案中,提供了固体支持物。在一些实施方案中,固体支持物与本文公开的第一多于一种寡核苷酸条形码和第二多于一种寡核苷酸条形码中的一种或两种关联。
定义
除非另外定义,否则本文使用的技术术语和科学术语具有与本公开内容所属领域的普通技术人员通常所理解的相同意义。参见,例如,Singleton等人,Dictionary ofMicrobiology and Molecular Biology,第2版,J.Wiley&Sons(New York,NY 1994);Sambrook等人,Molecular Cloning,ALaboratory Manual,Cold Spring Harbor Press(Cold Spring Harbor,NY 1989)。为了本公开内容的目的,下文定义了以下术语。
如本文使用的,术语“衔接子”可以意指促进关联的核酸的扩增或测序的序列。关联的核酸可以包括靶核酸。关联的核酸可以包括空间标记、靶标记、样品标记、索引标记或条形码序列(例如分子标记)中的一种或更多种。衔接子可以是线性的。衔接子可以是预腺苷酸化的衔接子(pre-adenylated adaptors)。衔接子可以是双链或单链的。一种或更多种衔接子可以位于核酸的5’末端或3’末端。当衔接子在5’末端和3’末端包含已知序列时,已知序列可以是相同或不同的序列。位于多核苷酸的5’末端和/或3’末端的衔接子可以能够与固定在表面上的一种或更多种寡核苷酸杂交。在一些实施方案中,衔接子可以包含通用序列。通用序列可以是两种或更多种核酸分子共有的核苷酸序列的区域。两种或更多种核酸分子也可以具有不同序列的区域。因此,例如,5’衔接子可以包含相同和/或通用核酸序列,并且3’衔接子可以包含相同和/或通用序列。可以存在于多于一种核酸分子的不同成员中的通用序列可以允许使用与通用序列互补的单种通用引物复制或扩增多于一种不同序列。类似地,可以存在于核酸分子的集合中的不同成员中的至少一种、两种(例如一对)或更多种通用序列可以允许使用与通用序列互补的至少一种、两种(例如一对)或更多种单一通用引物复制或扩增多于一种不同序列。因此,通用引物包含可与这样的通用序列杂交的序列。可以修饰具有靶核酸序列的分子以将通用衔接子(例如非靶核酸序列)附接至不同靶核酸序列的一个末端或两个末端。附接至靶核酸的一种或更多种通用引物可以提供通用引物杂交的位点。附接至靶核酸的一种或更多种通用引物可以彼此相同或不同。
如本文使用的,术语“关联”或“与...关联”可以意指两个或更多个物质可以被鉴定为在某个时间点共定位。关联可以意指,两个或更多个物质在或曾经在相似的容器内。关联可以是信息学关联。例如,关于两个或更多个物质的数字信息可以被存储并且可以用于确定一种或更多种物质在某个时间点共定位。关联也可以是物理关联。在一些实施方案中,两个或更多个关联的物质彼此“拴系”、“附接”或“固定”或与共同的固体或半固体表面“拴系”、“附接”或“固定”。关联可以指用于将标记与固体或半固体支持物(诸如珠)附接的共价或非共价方式。关联可以是靶与标记之间的共价键。关联可以包括两个分子(诸如靶分子和标记)之间的杂交。
如本文使用的,术语“互补”可以指两个核苷酸之间精确配对的能力。例如,如果核酸在给定位置处的核苷酸能够与另一个核酸的核苷酸形成氢键,则这两个核酸被认为在该位置处是彼此互补的。两个单链核酸分子之间的互补性可以是“部分的”,其中只有一些核苷酸结合,或者当单链分子之间存在全部互补性时它可以是完全的。如果第一核苷酸序列与第二核苷酸序列互补,则第一核苷酸序列可以被称为第二序列的“互补物”。如果第一核苷酸序列和与第二序列相反的序列(即,核苷酸顺序相反)互补,则第一核苷酸序列可以被称为第二序列的“反向互补物”。如本文使用的,“互补”序列可以指序列的“互补物”或“反向互补物”。从本公开内容理解,如果一个分子可以与另一个分子杂交,则其可以与其所杂交的分子互补或部分地互补。
如本文使用的,术语“数字计数”可以指用于估计样品中靶分子数目的方法。数字计数可以包括确定已经与样品中的靶关联的独特标记的数目的步骤。这种方法(其本质上可以是随机的)将计数分子的问题从相同分子的定位和鉴定之一转化为有关检测一组预定义标记的一系列是/否数字问题。
如本文使用的,术语“一个标记(label)”或“多于一个标记(labels)”可以指与样品中的靶关联的核酸代码。标记可以是例如核酸标记。标记可以是完全或部分地可扩增的标记。标记可以是完全或部分地可测序的标记。标记可以是可鉴定为有区别的天然核酸的一部分。标记可以是已知的序列。标记可以包括核酸序列的连接处,例如天然和非天然序列的连接处。如本文使用的,术语“标记”可以与术语“索引”、“标签”或“标记-标签”互换使用。标记可以传达信息。例如,在多种实施方案中,可以使用标记来确定样品的身份、样品的来源、细胞的身份和/或靶。
如本文使用的,术语“非耗尽性储库(non-depleting reservoir)”可以指由许多不同标记组成的条形码(例如随机条形码)的池。非耗尽性储库可以包括大量不同的条形码,使得当非耗尽性储库与靶池关联时,每种靶可能与独特条形码关联。每种标记的靶分子的独特性可以通过随机选择的统计来确定,并且取决于与标记的多样性相比在集合中相同的靶分子的拷贝数。所得的标记的靶分子的集合的大小可以通过条形码化处理的随机性质来确定,并且然后对检测到的条形码的数目的分析允许计算原始集合或样品中存在的靶分子的数目。当存在的靶分子的拷贝数与独特条形码的数目的比例低时,标记的靶分子是高度独特的(即,多于一个靶分子被给定标记标记的概率非常低)。
如本文使用的,术语“核酸”是指多核苷酸序列或其片段。核酸可以包括核苷酸。核酸对于细胞可以是外源的或内源的。核酸可以存在于无细胞环境中。核酸可以是基因或其片段。核酸可以是DNA。核酸可以是RNA。核酸可以包括一种或更多种类似物(例如改变的主链、糖或核酸碱基)。类似物的一些非限制性实例包括:5-溴尿嘧啶、肽核酸、异源核酸(xenonucleic acid)、吗啉代核酸(morpholinos)、锁核酸、二醇核酸、苏糖核酸、二脱氧核苷酸、虫草菌素、7-脱氮-GTP、荧光团(例如,罗丹明或与糖连接的荧光黄素)、含硫醇的核苷酸、生物素连接的核苷酸、荧光碱基类似物、CpG岛、甲基-7-鸟苷、甲基化的核苷酸、肌苷、硫代尿苷、假尿苷、二氢尿苷、辫苷(queuosine)以及怀俄苷(wyosine)。“核酸”、“多核苷酸”、“靶多核苷酸”和“靶核酸”可以互换使用。
核酸可以包括一种或更多种修饰(例如碱基修饰、主链修饰),以为核酸提供新的或增强的特征(例如改进的稳定性)。核酸可以包含核酸亲和标签。核苷可以是碱基-糖组合。核苷的碱基部分可以是杂环碱基。这样的杂环碱基的两个最常见的类别是嘌呤和嘧啶。核苷酸可以是还包括与核苷的糖部分共价连接的磷酸基团的核苷。对于包括呋喃戊糖的那些核苷,磷酸基团可以连接到糖的2’、3’或5’羟基部分。在形成核酸时,磷酸基团可以将相邻的核苷彼此共价连接以形成线性聚合化合物。继而,此线性聚合化合物的各端可以进一步连接而形成环状化合物;然而,线性化合物通常是合适的。此外,线性化合物可以具有内部核苷酸碱基互补性,并且因此可以按产生完全或部分地双链化合物的方式折叠。在核酸中,磷酸基团通常可以称为形成核酸的核苷间主链。连键(linkage)或主链可以是3’至5’磷酸二酯连键。
核酸可以包括修饰的主链和/或修饰的核苷间连键。修饰的主链可以包括那些在主链中保留磷原子的主链和那些在主链中没有磷原子的主链。合适的其中含磷原子的修饰的核酸主链可以包括,例如,硫代磷酸酯、手性硫代磷酸酯、二硫代磷酸酯、磷酸三酯、氨基烷基磷酸三酯、甲基和其他烷基膦酸酯诸如3’-亚烷基膦酸酯、5’-亚烷基膦酸酯、手性膦酸酯、亚膦酸酯、磷酰胺酯(phosphoramidate)(包括3’-氨基磷酰胺酯和氨基烷基磷酰胺酯、磷酸二酰胺酯(phosphorodiamidates)、硫代磷酰胺酯(thionophosphoramidates))、硫代烷基磷酸酯、硫代烷基磷酸三酯、硒代磷酸酯和硼磷酸酯,具有正常3’-5’连键、2’-5’连接的类似物以及具有反向极性的类似物(其中一个或更多个核苷酸间连键是3’至3’、5’至5’或2’至2’连键)。
核酸可以包括由短链烷基或环烷基核苷间连键,混合杂原子,和烷基或环烷基核苷间连键,或者一个或更多个短链杂原子的或杂环的核苷间连键形成的多核苷酸主链。这些可以包括具有吗啉代(morpholino)连键的那些(部分由核苷的糖部分形成);硅氧烷主链;硫化物、亚砜和砜主链;甲乙酰基(formacetyl)和硫代甲乙酰基主链;亚甲基甲乙酰基和硫代甲乙酰基主链;核糖乙酰基主链;含烯烃的主链;氨基磺酸酯主链;亚甲基亚氨基和亚甲基肼基主链;磺酸酯和磺酰胺主链;酰胺主链;和具有混合的N、O、S和CH2组分部分的其他的那些。
核酸可以包括核酸模拟物。术语“模拟物”可以意图包括其中仅呋喃糖环或呋喃糖环和核苷酸间连键两者被非呋喃糖基团替代的多核苷酸,仅呋喃糖环的替代也可以称为糖替代物(surrogate)。可以维持杂环碱基部分或修饰的杂环碱基部分,以与适当的靶核酸杂交。一种这样的核酸可以是肽核酸(PNA)。在PNA中,多核苷酸的糖主链可以被含酰胺的主链替代,特别是被氨基乙基甘氨酸主链替代。核苷酸可以被保留,并且直接或间接与主链的酰胺部分的氮杂氮原子结合。PNA化合物中的主链可以包含两个或更多个连接的氨基乙基甘氨酸单元,这使得PNA具有含酰胺的主链。杂环碱基部分可以直接或间接与主链的酰胺部分的氮杂氮原子结合。
核酸可以包括吗啉代主链结构。例如,核酸可以包含替代核糖环的6元吗啉代环。在这些实施方案的一些中,磷酸二酰胺酯或其他非磷酸二酯核苷间连键可以替代磷酸二酯连键。
核酸可以包括具有附接至吗啉代环的杂环碱基的连接的吗啉代单元(例如吗啉代核酸)。连接基团可以连接吗啉代核酸中的吗啉代单体单元。基于非离子吗啉代的寡聚化合物与细胞蛋白可以具有较少的不期望的相互作用。基于吗啉代的多核苷酸可以是核酸的非离子模拟物。吗啉代类别内的各种化合物可以使用不同的连接基团来连接。另外类别的多核苷酸模拟物可以称为环己烯基核酸(CeNA)。核酸分子中通常存在的呋喃糖环可以被环己烯基环替代。使用亚磷酰胺化学可以制备CeNADMT保护的亚磷酰胺单体并用于寡聚化合物合成。将CeNA单体掺入核酸链可以增加DNA/RNA杂合体的稳定性。CeNA寡腺苷酸酯可以与核酸互补物形成复合体,具有与天然复合体类似的稳定性。另外的修饰可以包括锁核酸(LNA),其中2’-羟基基团与糖环的4’碳原子连接,从而形成2’-C,4’-C-氧亚甲基连键,从而形成双环糖部分。连接可以是亚甲基(-CH2-)n,桥接2’氧原子和4’碳原子的基团,其中n是1或2。LNA和LNA类似物可以显示与互补核酸的非常高的双链体热稳定性(Tm=+3℃至+10℃)、对3’-外切核酸酶降解的稳定性和良好的溶解性。
核酸还可以包括核碱基(通常简称为“碱基”)修饰或取代。如本文使用的,“未修饰的”或“天然的”核碱基可以包括嘌呤碱基(例如,腺嘌呤(A)和鸟嘌呤(G)),以及嘧啶碱基(例如胸腺嘧啶(T)、胞嘧啶(C)和尿嘧啶(U))。修饰的核碱基可以包括其他合成以及天然的核碱基,诸如5-甲基胞嘧啶(5-me-C)、5-羟甲基胞嘧啶、黄嘌呤、次黄嘌呤、2-氨基腺嘌呤、腺嘌呤和鸟嘌呤的6-甲基衍生物和其他烷基衍生物、腺嘌呤和鸟嘌呤的2-丙基衍生物和其他烷基衍生物,2-硫代尿嘧啶、2-硫代胸腺嘧啶和2-硫代胞嘧啶、5-卤素尿嘧啶(5-halouracil)和胞嘧啶、5-丙炔基(-C≡C-CH3)尿嘧啶和胞嘧啶以及嘧啶碱基的其他炔基衍生物,6-偶氮尿嘧啶、胞嘧啶和胸腺嘧啶、5-尿嘧啶(假尿嘧啶)、4-硫代尿嘧啶,8-卤素、8-氨基、8-硫代、8-硫代烷基、8-羟基和其他8-取代的腺嘌呤和鸟嘌呤,5-卤素特别是5-溴、5-三氟甲基和其他5-取代的尿嘧啶和胞嘧啶,7-甲基鸟嘌呤和7-甲基腺嘌呤、2-F-腺嘌呤、2-氨基腺嘌呤、8-氮杂鸟嘌呤和8-氮杂腺嘌呤、7-脱氮鸟嘌呤和7-脱氮腺嘌呤和3-脱氮鸟嘌呤和3-脱氮腺嘌呤。修饰的核碱基可以包括三环嘧啶,诸如吩噁嗪胞苷(1H-嘧啶并(5,4-b)(1,4)苯并噁嗪-2(3H)-酮)、吩噻嗪胞苷(1H-嘧啶并(5,4-b)(1,4)苯并噻嗪-2(3H)-酮),G-钳(G-clamps)诸如取代的吩噁嗪胞苷(例如,9-(2-氨基乙氧基)-H-嘧啶并(5,4-(b)(1,4)苯并噁嗪-2(3H)-酮)、吩噻嗪胞苷(1H-嘧啶并(5,4-b)(1,4)苯并噻嗪-2(3H)-酮),G-钳诸如取代的吩噁嗪胞苷(例如,9-(2-氨基乙氧基)-H-嘧啶并(5,4-(b)(1,4)苯并噁嗪-2(3H)-酮)、咔唑胞苷(2H-嘧啶并(4,5-b)吲哚-2-酮)、吡啶并吲哚胞苷(H-吡啶并(3’,2’:4,5)吡咯并[2,3-d]嘧啶-2-酮)。
如本文使用的,术语“样品”可以指包含靶的组合物。用于通过所公开的方法、装置和系统进行分析的合适样品包括细胞、组织、器官或生物体。
如本文使用的,术语“采样装置”或“装置”可以指可以取样品的切片和/或将所述切片放置在基底上的装置。采样装置可以指例如荧光激活细胞分选(FACS)机、细胞分选机、活检针、活检装置、组织切片装置、微流体装置、刀片格栅和/或超薄切片机。
如本文使用的,术语“固体支持物”可以指可以附接多于一个条形码(例如随机条形码)的离散固体或半固体表面。固体支持物可以包括任何类型的实心的、多孔的或空心的球体、球、承座(bearing)、圆柱体或由塑料、陶瓷、金属或聚合材料(例如水凝胶)构成的其他类似配置,其上可以固定核酸(例如共价地或非共价地)。固体支持物可以包括可以是球形的(例如微球)或具有非球形或不规则形状的离散颗粒,所述形状诸如立方形、长方形、锥形、圆柱形、圆锥形、椭圆形或圆盘形等。珠的形状可以是非球形的。以阵列间隔开的多于一个固体支持物可以不包括基底。固体支持物可以与术语“珠”互换使用。
如本文使用的,术语“随机条形码”可以指本公开内容的包含标记的多核苷酸序列。随机条形码可以是可用于随机条形码化的多核苷酸序列。随机条形码可以用于对样品中的靶定量。随机条形码可以用于控制标记与靶关联之后可能发生的错误。例如,随机条形码可用于评估扩增或测序错误。与靶关联的随机条形码可以称为随机条形码-靶或随机条形码-标签-靶。
如本文使用的,术语“基因特异性随机条形码”可以指包含标记和基因特异性的靶结合区的多核苷酸序列。随机条形码可以是可用于随机条形码化的多核苷酸序列。随机条形码可以用于对样品中的靶定量。随机条形码可以用于控制标记与靶关联之后可能发生的错误。例如,随机条形码可用于评估扩增或测序错误。与靶关联的随机条形码可以称为随机条形码-靶或随机条形码-标签-靶。
如本文使用的,术语“随机条形码化”可以指核酸的随机标记(例如条形码化)。随机条形码化可以利用递归泊松策略来关联并对与靶关联的标记进行定量。如本文使用的,术语“随机条形码化”可以与“随机进行标记”互换使用。
如本文使用的,术语“靶”可以指可与条形码(例如随机条形码)关联的组合物。用于通过所公开的方法、装置和系统进行分析的示例性合适的靶包括寡核苷酸、DNA、RNA、mRNA、微RNA、tRNA等。靶可以是单链的或双链的。在一些实施方案中,靶可以是蛋白、肽或多肽。在一些实施方案中,靶是脂质。如本文使用的,“靶”可以与“物质(species)”互换使用。
如本文使用的,术语“逆转录酶”可以指具有逆转录酶活性(即,催化从RNA模板合成DNA)的一组酶。通常,这样的酶包括但不限于逆转录病毒逆转录酶、逆转录转座子逆转录酶、逆转录质粒(retroplasmid)逆转录酶、逆转录子逆转录酶、细菌逆转录酶、II组内含子衍生的逆转录酶及其突变体、变体或衍生物。非逆转录病毒逆转录酶包括非LTR逆转录转座子逆转录酶、逆转录质粒逆转录酶、逆转录子逆转录酶和II组内含子逆转录酶。II组内含子逆转录酶的实例包括乳酸乳球菌(Lactococcus lactis)LI.LtrB内含子逆转录酶、细长嗜热聚球藻(Thermosynechococcus elongatus)TeI4c内含子逆转录酶或嗜热脂肪地芽孢杆菌(Geobacillus stearothermophilus)GsI-IIC内含子逆转录酶。其他类别的逆转录酶可以包括许多类型的非逆转录病毒逆转录酶(即,尤其是逆转录子、II组内含子以及多样性产生型逆转录元件)。
术语“通用衔接子引物”、“通用引物衔接子”或“通用衔接子序列”可互换地使用,以指可以用于与条形码(例如随机条形码)杂交以产生基因特异性条形码的核苷酸序列。通用衔接子序列可以例如是在本公开内容的方法中使用的遍及所有条形码通用的已知序列。例如,当使用本文公开的方法标记多于一种靶时,每一种靶特异性序列可以连接到相同的通用衔接子序列。在一些实施方案中,多于一种通用衔接子序列可以用于本文公开的方法中。例如,当使用本文公开的方法标记多于一种靶时,至少两种靶特异性序列连接到不同的通用衔接子序列。通用衔接子引物及其互补物可以被包括在两种寡核苷酸中,其中的一种寡核苷酸包含靶特异性序列且另一种寡核苷酸包含条形码。例如,通用衔接子序列可以是包含靶特异性序列的寡核苷酸的一部分以产生与靶核酸互补的核苷酸序列。包含条形码和通用衔接子序列的互补序列的第二寡核苷酸可与核苷酸序列杂交并产生靶特异性条形码(例如靶特异性随机条形码)。在一些实施方案中,通用衔接子引物具有与本公开内容的方法中使用的通用PCR引物不同的序列。
条形码
条形码化,诸如随机条形码化,已在例如US2015/0299784、WO 2015/031691和Fu等人,Proc Natl Acad Sci U.S.A.2011年5月31日;108(22):9026-31中描述,这些出版物的内容特此以其整体并入。在一些实施方案中,本文公开的条形码可以是随机条形码,所述随机条形码可以是可以用于对靶进行随机标记(例如,条形码化、加标签)的多核苷酸序列。如果随机条形码的不同条形码序列的数目与待标记的任何靶的出现数目的比例可以是以下或可以是约以下:1:1、2:1、3:1、4:1、5:1、6:1、7:1、8:1、9:1、10:1、11:1、12:1、13:1、14:1、15:1、16:1、17:1、18:1、19:1、20:1、30:1、40:1、50:1、60:1、70:1、80:1、90:1、100:1或这些值中的任何两个值之间的数字或范围,则条形码可以称为随机条形码。靶可以是包括具有相同或几乎相同序列的mRNA分子的mRNA物质。如果随机条形码的不同条形码序列的数目与待标记的任何靶的出现数目的比例是至少以下或是至多以下:1:1、2:1、3:1、4:1、5:1、6:1、7:1、8:1、9:1、10:1、11:1、12:1、13:1、14:1、15:1、16:1、17:1、18:1、19:1、20:1、30:1、40:1、50:1、60:1、70:1、80:1、90:1或100:1,则条形码可以称为随机条形码。随机条形码的条形码序列可以称为分子标记。
条形码(例如随机条形码)可以包括一种或更多种标记。示例性标记可以包括通用标记、细胞标记、条形码序列(例如分子标记)、样品标记、板标记、空间标记和/或前空间标记(pre-spatial label)。图1图示了具有空间标记的示例性条形码104。条形码104可以包含可以将条形码与固体支持物108连接的5’胺。条形码可以包含通用标记、维度标记、空间标记、细胞标记和/或分子标记。条形码中不同标记(包括但不限于通用标记、维度标记、空间标记、细胞标记和分子标记)的顺序可以变化。例如,如图1中所示,通用标记可以是5’-末端标记,且分子标记可以是3’-末端标记。空间标记、维度标记和细胞标记可以处于任何顺序。在一些实施方案中,通用标记、空间标记、维度标记、细胞标记和分子标记处于任何顺序。条形码可以包含靶结合区。靶结合区可以与样品中的靶(例如靶核酸、RNA、mRNA、DNA)相互作用。例如,靶结合区可以包含可以与mRNA的多(A)尾相互作用的寡(dT)序列。在一些情况下,条形码的标记(例如通用标记、维度标记、空间标记、细胞标记和条形码序列)可以由1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个或20个或更多个核苷酸隔开。
标记(例如细胞标记)可以包含一组独特的定义长度的核酸子序列,例如每一种七个核苷酸(相当于一些汉明错误校正代码中使用的比特数目),其可被设计成提供错误校正能力。可以设计包含七个核苷酸序列的错误校正子序列组,使得所述组中的序列的任何成对组合展现出定义的“遗传距离”(或错配碱基数),例如一组错误校正子序列可被设计成展现三个核苷酸的遗传距离。在这种情况下,对于标记的靶核酸分子的序列数据组中的错误校正序列的审查(在下文更详细地描述)可允许人们检测或校正扩增错误或测序错误。在一些实施方案中,用于产生错误校正代码的核酸子序列的长度可以变化,例如,它们的长度可以是以下或可以是约以下:1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、15个、20个、30个、31个、40个、50个或这些值中的任何两个之间的数字或范围的核苷酸。在一些实施方案中,其他长度的核酸子序列可以用来产生错误校正代码。
条形码可以包含靶结合区。靶结合区可以与样品中的靶相互作用。靶可以是以下或包括以下:核糖核酸(RNA)、信使RNA(mRNA)、微RNA、小干扰RNA(siRNA)、RNA降解产物、各自含有多(A)尾的RNA或其任何组合。在一些实施方案中,多于一种靶可以包括脱氧核糖核酸(DNA)。
在一些实施方案中,靶结合区可以包括可以与mRNA的多(A)尾相互作用的寡(dT)序列。条形码的一种或更多种标记(例如通用标记、维度标记、空间标记、细胞标记和条形码序列(例如分子标记))可以通过间隔区(spacer)与条形码的另一种或两种剩余标记隔开。间隔区可以是例如1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个或20个或更多个核苷酸。在一些实施方案中,条形码的标记中没有一个标记被间隔区隔开。
通用标记
条形码可以包含一种或更多种通用标记。在一些实施方案中,一种或更多种通用标记对于附接至给定固体支持物的条形码组中的所有条形码可以是相同的。在一些实施方案中,一种或更多种通用标记对于附接至多于一个珠的所有条形码可以是相同的。在一些实施方案中,通用标记可以包括能够与测序引物杂交的核酸序列。测序引物可以用于对包括通用标记的条形码进行测序。测序引物(例如通用测序引物)可以包括与高通量测序平台相关的测序引物。在一些实施方案中,通用标记可以包括能够与PCR引物杂交的核酸序列。在一些实施方案中,通用标记可以包括能够与测序引物和PCR引物杂交的核酸序列。能够与测序引物或PCR引物杂交的通用标记的核酸序列可以被称为引物结合位点。通用标记可以包括可以用于引发条形码转录的序列。通用标记可以包括可以用于延伸条形码或条形码内的区域的序列。通用标记的长度可以是以下或可以是约以下:1个、2个、3个、4个、5个、10个、15个、20个、25个、30个、35个、40个、45个、50个或这些值中的任何两个之间的数字或范围的核苷酸。例如,通用标记可以包括至少约10个核苷酸。通用标记的长度可以是至少以下或可以是至多以下:1个、2个、3个、4个、5个、10个、15个、20个、25个、30个、35个、40个、45个、50个、100个、200个或300个核苷酸。在一些实施方案中,可裂解接头或修饰的核苷酸可以是通用标记序列的一部分,以使条形码能够从支持物上被裂解下来。
维度标记
条形码可以包含一种或更多种维度标记。在一些实施方案中,维度标记可以包括提供关于标记(例如随机标记)发生的维度的信息的核酸序列。例如,维度标记可以提供关于靶进行条形码化的时间的信息。维度标记可以与样品中条形码化(例如随机条形码化)的时间关联。维度标记可以在标记的时间被激活。不同的维度标记可以在不同的时间被激活。维度标记提供关于靶、靶的组和/或样品进行条形码化的顺序的信息。例如,在细胞周期的G0期可以将细胞的群体条形码化。在细胞周期的G1期,可以用条形码(例如随机条形码)对细胞再次进行脉冲处理。在细胞周期的S期,可以用条形码对细胞再次进行脉冲处理,等等。每次脉冲(例如细胞周期的每个时期)时的条形码可以包含不同的维度标记。以这种方式,维度标记提供关于哪些靶在细胞周期的哪个时期被标记的信息。维度标记可以探询许多不同的生物学时间。示例性的生物学时间可以包括但不限于细胞周期、转录(例如转录起始)和转录物降解。在另一个实例中,样品(例如细胞、细胞的群体)可以在用药物和/或疗法治疗之前和/或之后标记。不同靶的拷贝数的变化可以指示样品对药物和/或疗法的响应。
维度标记可以是可激活的。可激活的维度标记可以在特定时间点被激活。可激活的标记可以被例如组成性地激活(例如不关闭)。可激活的维度标记可以被例如可逆地激活(例如可激活的维度标记可以被打开和关闭)。维度标记可以被例如可逆地激活至少1次、2次、3次、4次、5次、6次、7次、8次、9次、10次或更多次。维度标记可以被可逆地激活例如至少1次、2次、3次、4次、5次、6次、7次、8次、9次、10次或更多次。在一些实施方案中,可以用荧光、光、化学事件(例如,裂解,连接另一种分子,添加修饰(例如,聚乙二醇化、类泛素化(sumoylate)、乙酰化、甲基化、去乙酰化、去甲基化)、光化学事件(例如光罩(photocaging))以及引入非天然的核苷酸将维度标记激活。
在一些实施方案中,维度标记对于附接至给定固体支持物(例如珠)的所有条形码(例如随机条形码)可以是相同的,但对于不同的固体支持物(例如珠)是不同的。在一些实施方案中,同一固体支持物上至少60%、70%、80%、85%、90%、95%、97%、99%或100%的条形码可以包含相同的维度标记。在一些实施方案中,同一固体支持物上至少60%的条形码可以包含相同的维度标记。在一些实施方案中,同一固体支持物上至少95%的条形码可以包含相同的维度标记。
多于一个固体支持物(例如珠)中可以呈现多达106种或更多种独特的维度标记序列。维度标记的长度可以是以下或可以是约以下:1个、2个、3个、4个、5个、10个、15个、20个、25个、30个、35个、40个、45个、50个或这些值中的任何两个之间的数字或范围的核苷酸。维度标记的长度可以是至少以下或可以是至多以下:1个、2个、3个、4个、5个、10个、15个、20个、25个、30个、35个、40个、45个、50个、100个、200个或300个核苷酸。维度标记可以包含约5个至约200个之间的核苷酸。维度标记可以包含约10个至约150个之间的核苷酸。维度标记可以包含长度在约20个至约125个之间的核苷酸。
空间标记
条形码可以包含一种或更多种空间标记。在一些实施方案中,空间标记可以包含提供关于与条形码关联的靶分子的空间取向的信息的核酸序列。空间标记可以与样品中的坐标关联。坐标可以是固定的坐标。例如,坐标可以相对于基底固定。空间标记可以参考二维或三维网格。坐标可以相对于界标(landmark)固定。界标可以在空间中被鉴定。界标可以是可以被成像的结构。界标可以是生物结构,例如解剖学界标。界标可以是细胞界标,例如细胞器。界标可以是非天然界标,诸如具有可鉴定标识(identifiable identifier)(诸如色码、条形码、磁特性(magnetic property)、荧光、放射性或独特尺寸或形状)的结构。空间标记可以与物理分区(例如孔、容器或液滴)关联。在一些实施方案中,将多于一个空间标记一起用于编码空间中的一个或更多个位置。
空间标记对于附接至给定固体支持物(例如珠)的所有条形码可以是相同的,但对于不同的固体支持物(例如珠)是不同的。在一些实施方案中,同一固体支持物上包含相同空间标记的条形码的百分比可以是以下或可以是约以下:60%、70%、80%、85%、90%、95%、97%、99%、100%或这些值中的任何两个之间的数字或范围。在一些实施方案中,同一固体支持物上包含相同空间标记的条形码的百分比可以是至少以下或至多以下:60%、70%、80%、85%、90%、95%、97%、99%或100%。在一些实施方案中,同一固体支持物上至少60%的条形码可以包含相同的空间标记。在一些实施方案中,同一固体支持物上至少95%的条形码可以包含相同的空间标记。
多于一个固体支持物(例如珠)中可以呈现多达106种或更多种独特的空间标记序列。空间标记的长度可以是以下或可以是约以下:1个、2个、3个、4个、5个、10个、15个、20个、25个、30个、35个、40个、45个、50个或这些值中的任何两个之间的数字或范围的核苷酸。空间标记的长度可以是至少以下或至多以下:1个、2个、3个、4个、5个、10个、15个、20个、25个、30个、35个、40个、45个、50个、100个、200个或300个核苷酸。空间标记可以包含约5个至约200个之间的核苷酸。空间标记可以包含约10个至约150个之间的核苷酸。空间标记可以包含长度在约20个至约125个之间的核苷酸。
细胞标记
条形码(例如随机条形码)可以包含一种或更多种细胞标记。在一些实施方案中,细胞标记可以包含提供用于确定哪种靶核酸来源于哪种细胞的信息的核酸序列。在一些实施方案中,细胞标记对于附接至给定固体支持物(例如珠)的所有条形码是相同的,但对于不同的固体支持物(例如珠)是不同的。在一些实施方案中,同一固体支持物上包含相同细胞标记的条形码的百分比可以是以下或可以是约以下:60%、70%、80%、85%、90%、95%、97%、99%、100%或这些值中的任何两个之间的数字或范围。在一些实施方案中,同一固体支持物上包含相同细胞标记的条形码的百分比可以是以下或可以是约以下:60%、70%、80%、85%、90%、95%、97%、99%或100%。例如,同一固体支持物上至少60%的条形码可以包含相同的细胞标记。作为另一个实例,同一固体支持物上至少95%的条形码可以包含相同的细胞标记。
多于一个固体支持物(例如珠)中可以呈现多达106种或更多种独特的细胞标记序列。细胞标记的长度可以是以下或可以是约以下:1个、2个、3个、4个、5个、10个、15个、20个、25个、30个、35个、40个、45个、50个或这些值中的任何两个之间的数字或范围的核苷酸。细胞标记的长度可以是至少以下或可以是至多以下:1个、2个、3个、4个、5个、10个、15个、20个、25个、30个、35个、40个、45个、50个、100个、200个或300个核苷酸。例如,细胞标记可以包含约5个至约200个之间的核苷酸。作为另一个实例,细胞标记可以包含约10个至约150个之间的核苷酸。作为又另一个实例,细胞标记可以包含长度在约20个至约125个之间的核苷酸。
条形码序列
条形码可以包含一种或更多种条形码序列。在一些实施方案中,条形码序列可以包含为与条形码杂交的特定类型的靶核酸物质提供鉴定信息的核酸序列。条形码序列可以包含为与条形码(例如靶结合区)杂交的靶核酸物质的特定出现提供计数器(例如提供粗略估计)的核酸序列。
在一些实施方案中,将一组相异的(diverse)条形码序列附接至给定固体支持物(例如珠)。在一些实施方案中,可以有以下或可以有约以下的独特分子标记序列:102种、103种、104种、105种、106种、107种、108种、109种或这些值中的任何两个之间的数字或范围。例如,多于一种条形码可以包括约6561种具有不同序列的条形码序列。作为另一个实例,多于一种条形码可以包括约65536种具有不同序列的条形码序列。在一些实施方案中,可以有至少以下或可以有至多以下的独特条形码序列:102种、103种、104种、105种、106种、107种、108种或109种。独特分子标记序列可以附接至给定固体支持物(例如珠)。在一些实施方案中,独特分子标记序列被颗粒(例如水凝胶珠)部分地或全部地包含。
在不同实施方式中,条形码的长度可以是不同的。例如,条形码的长度可以是以下或可以是约以下:1个、2个、3个、4个、5个、10个、15个、20个、25个、30个、35个、40个、45个、50个或这些值中的任何两个之间的数字或范围的核苷酸。作为另一个实例,条形码的长度可以是至少以下或可以是至多以下:1个、2个、3个、4个、5个、10个、15个、20个、25个、30个、35个、40个、45个、50个、100个、200个或300个核苷酸。
分子标记
条形码(例如随机条形码)可以包含一种或更多种分子标记。分子标记可以包含条形码序列。在一些实施方案中,分子标记可以包含为与条形码杂交的特定类型的靶核酸物质提供鉴定信息的核酸序列。分子标记可以包含为与条形码(例如靶结合区)杂交的靶核酸物质的特定出现提供计数器的核酸序列。
在一些实施方案中,将一组相异的分子标记附接至给定固体支持物(例如珠)。在一些实施方案中,可以有以下或可以有约以下的独特分子标记序列:102种、103种、104种、105种、106种、107种、108种、109种或这些值中的任何两个之间的数字或范围。例如,多于一种条形码可以包括约6561种具有不同序列的分子标记。作为另一个实例,多于一种条形码可以包括约65536种具有不同序列的分子标记。在一些实施方案中,可以有至少以下或可以有至多以下的独特分子标记序列:102种、103种、104种、105种、106种、107种、108种或109种。具有独特分子标记序列的条形码可以附接至给定固体支持物(例如珠)。
对于使用多于一个随机条形码进行的条形码化(例如随机条形码化),不同分子标记序列的数目与任何靶的出现次数的比例可以是以下或可以是约以下:1:1、2:1、3:1、4:1、5:1、6:1、7:1、8:1、9:1、10:1、11:1、12:1、13:1、14:1、15:1、16:1、17:1、18:1、19:1、20:1、30:1、40:1、50:1、60:1、70:1、80:1、90:1、100:1或这些值中的任何两个之间的数字或范围。靶可以是包括具有相同或几乎相同序列的mRNA分子的mRNA物质。在一些实施方案中,不同分子标记序列的数目与任何靶的出现次数的比例是至少以下或是至多以下:1:1、2:1、3:1、4:1、5:1、6:1、7:1、8:1、9:1、10:1、11:1、12:1、13:1、14:1、15:1、16:1、17:1、18:1、19:1、20:1、30:1、40:1、50:1、60:1、70:1、80:1、90:1或100:1。
分子标记的长度可以是以下或可以是约以下:1个、2个、3个、4个、5个、10个、15个、20个、25个、30个、35个、40个、45个、50个或这些值中的任何两个之间的数字或范围的核苷酸。分子标记的长度可以是至少以下或可以是至多以下:1个、2个、3个、4个、5个、10个、15个、20个、25个、30个、35个、40个、45个、50个、100个、200个或300个核苷酸。
靶结合区
条形码可以包含一个或更多个靶结合区,诸如捕获探针。在一些实施方案中,靶结合区可以与感兴趣的靶杂交。在一些实施方案中,靶结合区可以包含与靶(例如靶核酸、靶分子,例如待分析的细胞核酸)特异性杂交(例如与特定基因序列特异性杂交)的核酸序列。在一些实施方案中,靶结合区可以包含可以附接(例如杂交)到特定靶核酸的特定位置的核酸序列。在一些实施方案中,靶结合区可以包含能够与限制性酶位点突出端(例如EcoRI粘性末端突出端)特异性杂交的核酸序列。然后条形码可以连接至包含与限制性位点突出端互补的序列的任何核酸分子。
在一些实施方案中,靶结合区可以包含非特异性靶核酸序列。非特异性靶核酸序列可以指可以独立于靶核酸的特定序列结合多于一种靶核酸的序列。例如,靶结合区可以包括随机多聚体序列或与mRNA分子上的多(A)尾杂交的寡(dT)序列。随机多聚体序列可以是,例如,随机二聚体、三聚体、四聚体、五聚体、六聚体、七聚体、八聚体、九聚体、十聚体或任何长度的更高多聚体序列。在一些实施方案中,对于附接至给定珠的所有条形码,靶结合区是相同的。在一些实施方案中,对于附接至给定珠的多于一种条形码,靶结合区可以包括两种或更多种不同的靶结合序列。靶结合区的长度可以是以下或可以是约以下:5个、10个、15个、20个、25个、30个、35个、40个、45个、50个或这些值中的任何两个之间的数字或范围的核苷酸。靶结合区的长度可以是至多约5个、10个、15个、20个、25个、30个、35个、40个、45个、50个或更多个核苷酸。
在一些实施方案中,靶结合区可以包含寡(dT),所述寡(dT)可以与包含多腺苷酸化末端的mRNA杂交。靶结合区可以是基因特异性的。例如,可以将靶结合区配置为与靶的特定区域杂交。靶结合区的长度可以是以下或可以是约以下:1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、20个、21个、22个、23个、24个、25个、26个、27个、28个、29个、30个或这些值中的任何两个之间的数字或范围的核苷酸。靶结合区的长度可以是至少以下或可以是至多以下:1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、20个、21个、22个、23个、24个、25个、26个、27个、28个、29个或30个核苷酸。靶结合区的长度可以是约5-30个核苷酸。当条形码包含基因特异性靶结合区时,条形码在本文中可以称为基因特异性条形码。
定向特性(OrientationProperty)
随机条形码(例如随机条形码)可以包含一种或更多种可以用于定向(例如比对)条形码的定向特性。条形码可以包含用于等电聚焦的部分。不同的条形码可以包含不同的等电聚焦点。当将这些条形码引入样品中时,样品可以经历等电聚焦,以便于将条形码定向成已知的方式。以这种方式,定向特性可以用于开发样品中条形码的已知的映射。示例性定向特性可以包括电泳迁移率(例如基于条形码的尺寸)、等电点、自旋、电导率和/或自组装。例如,具有自组装的定向特性的条形码激活时可以自组装成特定的定向(例如核酸纳米结构)。
亲和特性(AffinityProperty)
条形码(例如随机条形码)可以包含一种或更多种亲和特性。例如,空间标记可以包含亲和特性。亲和特性可以包括可以促进条形码与另一种实体(例如细胞受体)结合的化学部分和/或生物部分。例如,亲和特性可以包括抗体,例如,对样品上的特定部分(例如受体)特异性的抗体。在一些实施方案中,抗体可以将条形码引导至特定细胞类型或分子。在特定细胞类型或分子处和/或特定细胞类型或分子附近的靶可以被标记(例如被随机标记)。在一些实施方案中,亲和特性可以提供空间标记的核苷酸序列之外的空间信息,因为抗体可以将条形码引导至特定位置。抗体可以是治疗性抗体,例如单克隆抗体或多克隆抗体。抗体可以是人源化的或嵌合的。抗体可以是裸抗体或融合抗体。
抗体可以是全长(即,天然存在的或通过正常免疫球蛋白基因片段重组过程形成的)免疫球蛋白分子(例如IgG抗体)或免疫球蛋白分子的免疫活性(即,特异性结合性)部分(如抗体片段)。
抗体片段可以是例如抗体的一部分,诸如F(ab’)2、Fab’、Fab、Fv、sFv等。在一些实施方案中,抗体片段可以与由全长抗体识别的相同抗原结合。抗体片段可以包括由抗体的可变区组成的分离的片段,诸如由重链和轻链的可变区组成的“Fv”片段和其中轻链和重链可变区通过肽接头连接的重组单链多肽分子(“scFv蛋白”)。示例性抗体可以包括但不限于癌细胞抗体、病毒抗体、与细胞表面受体(CD8、CD34、CD45)结合的抗体和治疗性抗体。
通用衔接子引物
条形码可以包含一种或更多种通用衔接子引物。例如,基因特异性条形码(诸如基因特异性随机条形码)可以包含通用衔接子引物。通用衔接子引物可以指遍及所有条形码的通用的核苷酸序列。通用衔接子引物可以用于构建基因特异性条形码。通用衔接子引物的长度可以是以下或可以是约以下:1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、20个、21个、22个、23个、24个、25个、26个、27个、28个、29个、30个或这些值中的任何两个之间的数字或范围的核苷酸。通用衔接子引物的长度可以是至少以下或可以是至多以下:1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、20个、21个、22个、23个、24个、25个、26个、27个、28个、29个或30个核苷酸。通用衔接子引物的长度可以是5-30个核苷酸。
接头
当条形码包含多于一种类型的标记(例如多于一种细胞标记或多于一种条形码序列,诸如一种分子标记)时,标记之间可以散布有接头标记序列。接头标记序列的长度可以是至少约5个、10个、15个、20个、25个、30个、35个、40个、45个、50个或更多个核苷酸。接头标记序列的长度可以是至多约5个、10个、15个、20个、25个、30个、35个、40个、45个、50个或更多个核苷酸。在一些情况下,接头标记序列的长度是12个核苷酸。接头标记序列可以用于促进条形码的合成。接头标记可以包括错误校正(例如汉明)码。
固体支持物
在一些实施方案中,本文公开的条形码(诸如随机条形码)可以与固体支持物关联。固体支持物可以是例如合成颗粒。在一些实施方案中,固体支持物上的多于一种条形码(例如第一多于一种条形码)的一些或所有条形码序列(诸如,随机条形码(例如第一条形码序列)的分子标记)相差至少一个核苷酸。同一固体支持物上的条形码的细胞标记可以是相同的。不同的固体支持物上的条形码的细胞标记可以相差至少一个核苷酸。例如,第一固体支持物上的第一多于一种条形码的第一细胞标记可以具有相同的序列,且第二固体支持物上的第二多于一种条形码的第二细胞标记可以具有相同的序列。第一固体支持物上的第一多于一种条形码的第一细胞标记和第二固体支持物上的第二多于一种条形码的第二细胞标记可以相差至少一个核苷酸。细胞标记可以是例如约5-20个核苷酸长。条形码序列可以是例如约5-20个核苷酸长。合成颗粒可以是例如珠。
珠可以是例如硅胶珠、可控孔径玻璃珠、磁珠、Dynabead、sephadex/sepharose珠、纤维素珠、聚苯乙烯珠或其任何组合。珠可以包括材料诸如聚二甲基硅氧烷(PDMS)、聚苯乙烯、玻璃、聚丙烯、琼脂糖、明胶、水凝胶、顺磁物质、陶瓷、塑料、玻璃、甲基苯乙烯、丙烯酸聚合物、钛、胶乳、sepharose、纤维素、尼龙、硅酮或其任何组合。
在一些实施方案中,珠可以是用条形码或随机条形码官能化的聚合物珠(例如可变形珠或凝胶珠)(诸如来自10X Genomics(San Francisco,CA)的凝胶珠)。在一些实施方案中,凝胶珠可以包括基于聚合物的凝胶。凝胶珠可以例如通过将一种或更多种聚合物前体包封到液滴中来产生。在将聚合物前体暴露于促进剂(例如四甲基乙二胺(TEMED))后,可以产生凝胶珠。
在一些实施方案中,颗粒可以是可破坏的(例如可溶解的、可降解的)。例如,聚合物珠可以例如在期望的条件下溶解、熔化或降解。所期望的条件可以包括环境条件。所期望的条件可以导致聚合物珠以受控方式溶解、熔化或降解。凝胶珠可以由于化学刺激、物理刺激、生物刺激、热刺激、磁刺激、电刺激、光刺激或其任何组合而溶解、熔化或降解。
例如,分析物和/或试剂(诸如寡核苷酸条形码)可以偶联/固定至凝胶珠的内表面(例如经由寡核苷酸条形码和/或用于产生寡核苷酸条形码的材料的扩散而可及的内部)和/或凝胶珠的外表面或本文描述的任何其他微胶囊。偶联/固定可以经由任何形式的化学键合(例如共价键、离子键)或物理现象(例如范德华力、偶极-偶极相互作用等)。在一些实施方案中,本文描述的试剂与凝胶珠或任何其他微胶囊的偶联/固定可以是可逆的,诸如,例如经由不稳定型部分(例如经由化学交联物,包括本文描述的化学交联物)。在施加刺激后,不稳定型部分可以被裂解并释放所固定的试剂。在一些实施方案中,不稳定型部分是二硫键。例如,在经由二硫键将寡核苷酸条形码固定至凝胶珠的情况下,使二硫键暴露于还原剂可以裂解二硫键并从珠释放寡核苷酸条形码。不稳定型部分可以作为凝胶珠或微胶囊的一部分、作为将试剂或分析物与凝胶珠或微胶囊连接的化学接头的一部分和/或作为试剂或分析物的一部分被包括。在一些实施方案中,多于一种条形码中的至少一种条形码可以被固定在颗粒上、被部分地固定在颗粒上、被包封在颗粒中、被部分地包封在颗粒中或其任何组合。
在一些实施方案中,凝胶珠可以包括宽范围的不同的聚合物,包括但不限于:聚合物、热敏聚合物、光敏聚合物、磁性聚合物、pH敏感聚合物、盐敏感聚合物、化学敏感聚合物、聚电解质、多糖、肽、蛋白和/或塑料。聚合物可以包括但不限于以下材料:诸如聚(N-异丙基丙烯酰胺)(PNIPAAm)、聚(苯乙烯磺酸酯)(PSS)、聚(烯丙基胺)(PAAm)、聚(丙烯酸)(PAA)、聚(乙烯亚胺)(PEI)、聚(双烯丙基二甲基-氯化铵)(PDADMAC)、聚(吡咯)(poly(pyrolle),PPy)、聚(乙烯基吡咯烷酮)(PVPON)、聚(乙烯基吡啶)(PVP)、聚(甲基丙烯酸)(PMAA)、聚(甲基丙烯酸甲酯)(PMMA)、聚苯乙烯(PS)、聚(四氢呋喃)(PTHF)、聚(邻苯二甲醛)(PPA)、聚(己基紫精)(PHV)、聚(L-赖氨酸)(PLL)、聚(L-精氨酸)(PARG)、聚(乳酸-共-羟基乙酸)(PLGA)。
许多化学刺激可以用于触发珠的破坏、溶解或降解。这些化学改变的实例可以包括但不限于pH介导的珠壁改变、经由交联键的化学裂解使珠壁崩解、珠壁的触发解聚和珠壁转换反应。容量改变(bulk changes)也可以用于触发珠的破坏。
通过各种刺激对微胶囊的容量或物理改变在设计胶囊以释放试剂方面也提供了许多优点。在宏观尺度上发生容量或物理改变,其中珠破裂是由刺激引起的机械-物理力的结果。这些过程可以包括但不限于压力引起的破裂、珠壁熔化或珠壁的孔隙率的改变。
生物刺激也可以用于触发珠的破坏、溶解或降解。通常,生物触发物类似于化学触发物,但是许多实例使用生物分子或生命系统中常见的分子,诸如酶、肽、糖、脂肪酸、核酸等。例如,珠可以包含具有对特定蛋白酶的裂解敏感的肽交联的聚合物。更特别地,一个实例可以包括包含GFLGK肽交联的微胶囊。在添加生物触发物(诸如蛋白酶组织蛋白酶B)后,壳壁的肽交联被裂解并且珠的内容物被释放。在其他情况下,蛋白酶可以是热激活的。在另一个实例中,珠包括包含纤维素的壳壁。壳聚糖水解酶的添加用作纤维素键裂解、壳壁解聚及其内部内容物释放的生物触发物。
还可以在施加热刺激后诱导珠释放其内容物。温度的改变可以引起珠的各种改变。热量的变化可以引起珠熔化,使得珠壁崩解。在一些实施方案中,热量可以增加珠内部组分的内部压力,使得珠破裂或爆炸。在一些实施方案中,热量可以使珠转化成收缩的脱水状态。热量还可以作用于珠壁内的热敏聚合物,从而引起珠的破坏。
将磁性纳米颗粒包括在微胶囊的珠壁中可以允许珠的触发破裂以及将珠引导成阵列。本公开内容的装置可以包括用于任一目的的磁珠。在一个实例中,将Fe3O4纳米颗粒掺入含聚电解质的珠中在存在振荡磁场刺激的情况下触发破裂。
珠也可以由于电刺激的结果被破坏、溶解或降解。与先前部分中描述的磁性颗粒类似,电敏珠可以允许珠的触发破裂以及其他功能,诸如电场中的对齐、电导率或氧化还原反应。在一个实例中,含电敏材料的珠在电场中对齐,从而可以控制内部试剂的释放。在其他实例中,电场可以在珠壁本身内引起氧化还原反应,这可以增加孔隙率。
也可以使用光刺激来破坏珠。许多光触发物是可能的,并且可以包括使用各种分子(诸如能够吸收特定波长范围的光子的纳米颗粒和发色团)的系统。例如,金属氧化物涂层可以用作胶囊触发物。涂覆有SiO2的聚电解质胶囊的UV照射可以导致珠壁的崩解。在又另一个实例中,可以将可光切换材料(诸如偶氮苯基团)掺入珠壁中。在施加UV或可见光后,诸如这些的化学物质在吸收光子后经历可逆的顺式至反式异构化。在此方面,掺入光子开关(photon switch)产生在施加光触发物后可以崩解或变得更多孔的珠壁。
例如,在图2中示出的条形码化(例如,随机条形码化)的非限制性实例中,在框208处将细胞(诸如单细胞)引入微孔阵列的多于一个微孔上之后,在框212处可以将珠引入微孔阵列的多于一个微孔上。每个微孔可以包含一个珠。珠可以包含多于一种条形码。条形码可以包含附接至珠的5’胺区域。条形码可以包含通用标记、条形码序列(例如分子标记)、靶结合区或其任何组合。
本文公开的条形码可以与固体支持物(例如珠)关联(例如附接)。与固体支持物关联的条形码可各自包含选自以下组的条形码序列,该组包括至少100种或1000种具有独特序列的条形码序列。在一些实施方案中,与固体支持物关联的不同条形码可以包含具有不同序列的条形码。在一些实施方案中,与固体支持物关联的条形码的一定百分比包含相同的细胞标记。例如,所述百分比可以是以下或可以是约以下:60%、70%、80%、85%、90%、95%、97%、99%、100%或这些值中的任何两个之间的数字或范围。作为另一个实例,所述百分比可以是至少以下或可以是至多以下:60%、70%、80%、85%、90%、95%、97%、99%或100%。在一些实施方案中,与固体支持物关联的条形码可以具有相同的细胞标记。与不同固体支持物关联的条形码可以具有选自以下组的不同的细胞标记,该组包括至少100种或1000种具有独特序列的细胞标记。
本文公开的条形码可以与固体支持物(例如珠)关联(例如附接)。在一些实施方案中,可以用包括与多于一种条形码关联的多于一个合成颗粒的固体支持物将样品中的多于一种靶条形码化。在一些实施方案中,固体支持物可以包括与多于一种条形码关联的多于一个合成颗粒。不同固体支持物上的多于一种条形码的空间标记可以相差至少一个核苷酸。固体支持物可以例如在二维或三维包括多于一种条形码。合成颗粒可以是珠。珠可以是硅胶珠、可控孔径玻璃珠、磁珠、Dynabead、Sephadex/sepharose珠、纤维素珠、聚苯乙烯珠或其任何组合。固体支持物可以包括聚合物、基质、水凝胶、针阵列装置、抗体或其任何组合。在一些实施方案中,固体支持物可以自由浮动。在一些实施方案中,固体支持物可以包埋到半固体或固体阵列中。条形码可以不与固体支持物关联。条形码可以是单独的核苷酸。条形码可以与基底关联。
如本文使用的,术语“拴系的”、“附接的”和“固定的”可以互换使用,并且可以指用于将条形码附接至固体支持物的共价或非共价方式。可以将各种不同的固体支持物中的任何一种用作固体支持物,以用于附接预先合成的条形码或用于条形码的原位固相合成。
在一些实施方案中,固体支持物是珠。珠可以包括一种或更多种类型的实心的、多孔的或空心的球体、球、承座、圆柱体或可以固定核酸(例如,共价地或非共价地)的其他类似配置。珠可以由例如塑料、陶瓷、金属、聚合物材料或其任何组合构成。珠可以是或包括球形的(例如微球)或具有非球形或不规则形状的离散颗粒,所述形状诸如立方形、长方形、锥形、圆柱形、圆锥形、椭圆形或圆盘形等。在一些实施方案中,珠的形状可以是非球形的。
珠可以包括各种材料,包括但不限于顺磁性材料(例如,镁、钼、锂和钽)、超顺磁性材料(例如,铁氧体(Fe3O4;磁铁矿)纳米颗粒)、铁磁材料(例如,铁、镍、钴,它们的一些合金,以及一些稀土金属化合物)、陶瓷、塑料、玻璃、聚苯乙烯、二氧化硅、甲基苯乙烯、丙烯酸聚合物、钛、胶乳、sepharose、琼脂糖、水凝胶、聚合物、纤维素、尼龙或其任何组合。
在一些实施方案中,珠(例如标记所附接的珠)是水凝胶珠。在一些实施方案中,珠包括水凝胶。
本文公开的一些实施方案包括一个或更多个颗粒(例如珠)。每个颗粒可以包含多于一种寡核苷酸(例如条形码)。多于一种寡核苷酸中的每一种可以包含条形码序列(例如分子标记序列)、细胞标记和靶结合区(例如寡(dT)序列、基因特异性序列、随机多聚体或其组合)。多于一种寡核苷酸的每一种的细胞标记序列可以是相同的。不同颗粒上的寡核苷酸的细胞标记序列可以是不同的,使得可以鉴定不同颗粒上的寡核苷酸。在不同实施方式中,不同细胞标记序列的数目可以是不同的。在一些实施方案中,细胞标记序列的数目可以是以下、是约以下、是至少以下或是至多以下:10、100、200、300、400、500、600、700、800、900、1000、2000、3000、4000、5000、6000、7000、8000、9000、10000、20000、30000、40000、50000、60000、70000、80000、90000、100000、106、107、108、109、这些值的任何两个之间的数字或范围或更多。在一些实施方案中,多于一个颗粒中的不多于1、2、3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900、1000或更多个颗粒包括具有相同细胞序列的寡核苷酸。在一些实施方案中,包括具有相同细胞序列的寡核苷酸的多于一个颗粒可以是至多0.1%、0.2%、0.3%、0.4%、0.5%、0.6%、0.7%、0.8%、0.9%、1%、2%、3%、4%、5%、6%、7%、8%、9%、10%或更多。在一些实施方案中,多于一个颗粒全都不具有相同的细胞标记序列。
在每个颗粒上的多于一种寡核苷酸可以包含不同的条形码序列(例如分子标记)。在一些实施方案中,条形码序列的数目可以是以下、是约以下、至少以下或是至多以下:10、100、200、300、400、500、600、700、800、900、1000、2000、3000、4000、5000、6000、7000、8000、9000、10000、20000、30000、40000、50000、60000、70000、80000、90000、100000、106、107、108、109或这些值的任何两个之间的数字或范围。例如,多于一种寡核苷酸中的至少100种包含不同的条形码序列。作为另一个实例,在单个颗粒中,多于一种寡核苷酸中的至少100种、500种、1000种、5000种、10000种、15000种、20000种、50000种、这些值中的任何两个之间的数字或范围或更多种包含不同的条形码序列。一些实施方案提供了多于一个包含条形码的颗粒。在一些实施方案中,待标记的靶和不同条形码序列的出现(或拷贝或数目)的比例可以是至少1:1、1:2、1:3、1:4、1:5、1:6、1:7、1:8、1:9、1:10、1:11、1:12、1:13、1:14、1:15、1:16、1:17、1:18、1:19、1:20、1:30、1:40、1:50、1:60、1:70、1:80、1:90或更高。在一些实施方案中,多于一种寡核苷酸中的每一种还包含样品标记、通用标记或两者。颗粒可以是例如纳米颗粒或微米颗粒。
珠的尺寸可以不同。例如,珠的直径范围可以为从0.1微米至50微米。在一些实施方案中,珠的直径可以是以下或可以是约以下:0.1微米、0.5微米、1微米、2微米、3微米、4微米、5微米、6微米、7微米、8微米、9微米、10微米、20微米、30微米、40微米或50微米或这些值中的任何两个之间的数字或范围。
珠的直径可以与基底的孔的直径相关。在一些实施方案中,珠的直径可以比孔的直径长或短以下、约以下、至少以下或至多以下:10%、20%、30%、40%、50%、60%、70%、80%、90%、100%或在这些值中的任何两个之间的数字或范围。珠的直径可以与细胞(例如被基底的孔捕获的单细胞)的直径相关。珠的直径可以与细胞(例如被基底的孔捕获的单细胞)的直径相关。在一些实施方案中,珠的直径可以比细胞的直径长或短以下、约以下、至少以下或至多以下:10%、20%、30%、40%、50%、60%、70%、80%、90%、100%、150%、200%、250%、300%或在这些值中的任何两个之间的数字或范围。
珠可以附接至基底和/或包埋到基底中。珠可以附接至凝胶、水凝胶、聚合物和/或基质和/或包埋到凝胶、水凝胶、聚合物和/或基质中。珠在基底(例如凝胶、基质、支架或聚合物)中的空间位置可以使用珠上的条形码上存在的空间标记来鉴定,该空间标记可以用作位置地址。
珠的实例可以包括但不限于链霉抗生物素蛋白珠、琼脂糖珠、磁珠、微珠、抗体缀合的珠(例如,抗免疫球蛋白微珠)、蛋白A缀合的珠、蛋白G缀合的珠、蛋白A/G缀合的珠、蛋白L缀合的珠、寡(dT)缀合的珠、二氧化硅珠、二氧化硅样珠、抗生物素微珠、抗荧光染料微珠和BcMagTM羧基封端磁珠。
珠可以与量子点或荧光染料关联(例如用量子点或荧光染料浸渍),以使其在一个荧光光学通道或多于一个光学通道中发荧光。珠可以与氧化铁或氧化铬关联,使其成为顺磁性或铁磁性。珠可以是可鉴定的。例如,可以使用照相机对珠成像。珠可以具有与珠关联的可检测代码。例如,珠可以包含条形码。珠可以改变尺寸,例如由于在有机溶液或无机溶液中溶胀。珠可以是疏水的。珠可以是亲水的。珠可以是生物相容的。
固体支持物(例如珠)可以被可视化。固体支持物可以包含可视化标签(例如荧光染料)。固体支持物(例如珠)可以蚀刻有标识符(例如数字)。标识符可以通过对珠成像来可视化。
固体支持物可以包括可溶性、半溶性或不溶性材料。当固体支持物包括与其附接的接头、支架、构建模块(building block)或其他反应性部分时,固体支持物可以被称为“官能化的”,而当固体支持物缺乏这样的与其附接的反应性部分时,固体支持物可以被称为“非官能化的”。固体支持物可以以溶液中游离,诸如在微量滴定孔中的形式;以流通形式,诸如在柱中;或以浸量尺(dipstick)使用。
固体支持物可以包括膜、纸(paper)、塑料、涂覆表面、平坦表面、玻璃、载玻片、芯片或其任何组合。固体支持物可以采取树脂、凝胶、微球或其他几何配置的形式。固体支持物可以包括二氧化硅芯片、微米颗粒、纳米颗粒、板、阵列、毛细管、平坦支持物诸如玻璃纤维过滤器、玻璃表面、金属表面(钢、金、银、铝、硅和铜)、玻璃支持物、塑料支持物、硅支持物、芯片、过滤器、膜、微孔板、载玻片、塑料材料包括多孔板或膜(例如,由聚乙烯、聚丙烯、聚酰胺、聚偏二氟乙烯形成),和/或晶片、梳、针或针头(例如,适于组合合成或分析的针阵列)或珠,平坦表面诸如晶片(例如,硅晶片)的凹陷或纳升孔阵列,具有凹陷的晶片(具有或不具有过滤器底部)。
固体支持物可以包括聚合物基质(例如凝胶、水凝胶)。聚合物基质可以能够渗透细胞内空间(例如细胞器周围)。聚合物基质可以能够被泵送到整个循环系统。
基底和微孔阵列
如本文使用的,基底可以指固体支持物类型。基底可以指可以包含本公开内容的条形码或随机条形码的固体支持物。基底可以例如包括多于一个微孔。基底可以例如是包括两个或更多个微孔的孔阵列。在一些实施方案中,微孔可以包括定义体积的小的反应室。在一些实施方案中,微孔可以捕获一个或更多个细胞。在一些实施方案中,微孔可以仅捕获一个细胞。在一些实施方案中,微孔可以捕获一个或更多个固体支持物。在一些实施方案中,微孔可以仅捕获一个固体支持物。在一些实施方案中,微孔捕获单细胞和单个固体支持物(例如珠)。微孔可以包含本公开内容的条形码试剂。
条形码化的方法
本公开内容提供了用于估计身体样品(例如组织、器官、肿瘤、细胞)中不同位置处的不同靶的数目的方法。方法可以包括将条形码(例如随机条形码)紧密接近样品放置,裂解样品,将不同的靶与条形码关联,对靶进行扩增和/或对靶进行数字计数。方法还可以包括对从条形码上的空间标记获得的信息进行分析和/或将所述信息可视化。在一些实施方案中,方法包括使样品中的多于一种靶可视化。将多于一种靶映射到样品的映射图上可以包括产生样品的二维映射图或三维映射图。可以在将样品中的多于一种靶条形码化(例如随机条形码化)之前或之后产生二维映射图和三维映射图。将样品中的多于一种靶可视化可以包括将多于一种靶映射到样品的映射图上。将多于一种靶映射到样品的映射图上可以包括产生样品的二维映射图或三维映射图。可以在将样品中的多于一种靶条形码化之前或之后产生二维映射图和三维映射图。在一些实施方案中,可以在裂解样品之前或之后生成二维映射图和三维映射图。在产生二维映射图或三维映射图之前或之后裂解样品可以包括加热样品、使样品与去污剂接触、改变样品的pH或其任何组合。
在一些实施方案中,将多于一种靶条形码化包括将多于一种条形码与多于一种靶杂交以产生条形码化靶(例如随机条形码化靶)。将多于一种靶条形码化可以包括产生条形码化靶的索引文库。产生条形码化靶的索引文库可以用包含多于一种条形码(例如随机条形码)的固体支持物来进行。
使样品和条形码接触
本公开内容提供了用于使样品(例如细胞)与本公开内容的基底接触的方法。可以使包括例如细胞、器官或组织薄切片的样品与条形码(例如随机条形码)接触。细胞可以例如通过重力流来接触,其中可以使细胞沉降并且产生单层。样品可以是组织薄切片。可以将薄切片放置于基底上。样品可以是一维的(例如形成平坦表面)。可以使样品(例如细胞)分散遍及基底,例如,通过在基底上生长/培养细胞。
当条形码紧密接近靶时,靶可以与条形码杂交。条形码可以按不可耗尽的比例接触,使得每一种不同的靶可以与本公开内容的不同条形码关联。为了确保靶与条形码之间的有效关联,可以将靶与条形码交联。
细胞裂解
在细胞和条形码的分配之后,可以将细胞裂解以释放靶分子。细胞裂解可以通过各种手段中的任何一种来完成,例如通过化学或生化手段,通过渗透冲击,或通过热裂解、机械裂解或光学裂解的手段。可以通过添加包含去污剂(例如,SDS、十二烷基硫酸锂、Triton X-100、Tween-20或NP-40)、有机溶剂(例如甲醇或丙酮)或消化酶(例如蛋白酶K、胃蛋白酶或胰蛋白酶)或其任何组合的细胞裂解缓冲液来裂解细胞。为了增加靶与条形码的关联,可以通过例如降低裂解物的温度和/或增加裂解物的粘度来改变靶分子的扩散速率。
在一些实施方案中,可以使用滤纸来裂解样品。可以在滤纸上部用裂解缓冲液浸泡滤纸。可以将滤纸用压力施加至样品,这可以促进样品的裂解以及样品的靶与基底的杂交。
在一些实施方案中,裂解可以通过机械裂解、热裂解、光学裂解和/或化学裂解来进行。化学裂解可以包括使用消化酶,诸如蛋白酶K、胃蛋白酶和胰蛋白酶。裂解可以通过将裂解缓冲液添加至基底来进行。裂解缓冲液可以包含Tris HCl。裂解缓冲液可以包含至少约0.01M、0.05M、0.1M、0.5M或1M或更多的Tris HCl。裂解缓冲液可以包含至多约0.01M、0.05M、0.1M、0.5M或1M或更多的Tris HCl。裂解缓冲液可以包含约0.1M Tris HCl。裂解缓冲液的pH可以是至少约或至多约1、2、3、4、5、6、7、8、9、10或更高。在一些实施方案中,裂解缓冲液的pH是约7.5。裂解缓冲液可以包含盐(例如LiCl)。裂解缓冲液中的盐浓度可以是至少约以下或至多约以下:0.1M、0.5M或1M或更高。在一些实施方案中,裂解缓冲液中盐的浓度是约0.5M。裂解缓冲液可以包含去污剂(例如SDS、十二烷基硫酸锂、triton X、tween、NP-40)。裂解缓冲液中的去污剂浓度可以是至少约以下、至多约以下:0.0001%、0.0005%、0.001%、0.005%、0.01%、0.05%、0.1%、0.5%、1%、2%、3%、4%、5%、6%或7%或更高。在一些实施方案中,裂解缓冲液中的去污剂浓度是约1%的十二烷基硫酸锂。裂解方法中使用的时间可以取决于所使用的去污剂的量。在一些实施方案中,使用的去污剂越多,裂解所需的时间越少。裂解缓冲液可以包含螯合剂(例如EDTA、EGTA)。裂解缓冲液中的螯合剂浓度可以是至少约以下或至多约以下:1mM、5mM、10mM、15mM、20mM、25mM或30mM。在一些实施方案中,裂解缓冲液中的螯合剂浓度是约10mM。裂解缓冲液可以包含还原剂(例如β-巯基乙醇、DTT)。裂解缓冲液中的还原剂浓度可以是至少约以下或至多约以下:1mM、5mM、10mM、15mM或20mM。在一些实施方案中,裂解缓冲液中的还原剂浓度是约5mM。在一些实施方案中,裂解缓冲液可以包含约0.1M Tris HCl,约pH 7.5,约0.5M LiCl,约1%十二烷基硫酸锂,约10mMEDTA和约5mM DTT。
裂解可以在约4℃、10℃、15℃、20℃、25℃或30℃的温度进行。裂解可以进行约1分钟、5分钟、10分钟、15分钟或20分钟或更多分钟。裂解的细胞可以包括至少约100000个、200000个、300000个、400000个、500000个、600000个或700000个或更多个靶核酸分子。裂解的细胞可以包括至多约100000个、200000个、300000个、400000个、500000个、600000个或700000个或更多个靶核酸分子。
将条形码附接至靶核酸分子
在细胞裂解和核酸分子从细胞释放之后,核酸分子可以与共定位的固体支持物的条形码随机关联。关联可以包括使条形码的靶识别区与靶核酸分子的互补部分杂交(例如条形码的寡(dT)可以与靶的多(A)尾相互作用)。可以选择用于杂交的测定条件(例如缓冲液pH、离子强度、温度等)以促进形成特定的稳定的杂交体。在一些实施方案中,可以将从裂解的细胞释放的核酸分子与基底上的多于一个探针关联(例如与基底上的探针杂交)。当探针包含寡(dT)时,可以将mRNA分子与探针杂交并且逆转录。寡核苷酸的寡(dT)部分可以充当用于cDNA分子的第一链合成的引物。例如,在图2中框216处图示的条形码化的非限制性实例中,mRNA分子可以与珠上的条形码杂交。例如,单链的核苷酸片段可以与条形码的靶结合区杂交。
附接还可以包括将条形码的靶识别区与靶核酸分子的一部分连接。例如,靶结合区可以包含可以能够与限制性位点突出端(例如EcoRI粘性末端突出端)特异性杂交的核酸序列。测定程序还可以包括用限制性酶(例如EcoRI)处理靶核酸以产生限制性位点突出端。然后条形码可以连接至包含与限制性位点突出端互补的序列的任何核酸分子。连接酶(例如T4 DNA连接酶)可以用于连接两个片段。
例如,在图2中框220处图示的条形码化的非限制性实例中,随后可以将来自多于一个细胞(或多于一个样品)的标记的靶(例如靶-条形码分子)汇集到例如管中。标记的靶可以通过例如回收(retrieving)条形码和/或附接靶-条形码分子的珠来汇集。
可以通过使用磁珠和外部施加的磁场来实现附接的靶-条形码分子的基于固体支持物的集合的回收。汇集靶-条形码分子后,所有进一步的处理可以在单个反应容器中进行。进一步的处理可以包括,例如,逆转录反应、扩增反应、裂解反应、解离反应和/或核酸延伸反应。进一步的处理反应可以在微孔内进行,即,不先汇集来自多于一个细胞的标记的靶核酸分子。
逆转录
本公开内容提供了使用逆转录来产生靶-条形码缀合物的方法(例如,在图2的框224处)。靶-条形码缀合物可以包含条形码以及靶核酸的全部或一部分的互补序列(即,条形码化的cDNA分子,诸如随机条形码化的cDNA分子)。关联的RNA分子的逆转录可以通过添加逆转录引物连同逆转录酶而发生。逆转录引物可以是寡(dT)引物、随机六核苷酸引物或靶特异性寡核苷酸引物。寡(dT)引物的长度可以是12-18个核苷酸或可以是约12-18个核苷酸,并且与哺乳动物mRNA的3’末端的内源多(A)尾结合。随机六核苷酸引物可以在各个互补位点处与mRNA结合。靶特异性寡核苷酸引物通常选择性地引发感兴趣的mRNA。
在一些实施方案中,标记的RNA分子的逆转录可以通过添加逆转录引物而发生。在一些实施方案中,逆转录引物是寡(dT)引物、随机六核苷酸引物或靶特异性寡核苷酸引物。通常,寡(dT)引物的长度是12-18个核苷酸,并且与哺乳动物mRNA的3’末端的内源多(A)尾结合。随机六核苷酸引物可以在各个互补位点处与mRNA结合。靶特异性寡核苷酸引物通常选择性地引发感兴趣的mRNA。
逆转录可以重复地发生以产生多于一个标记的cDNA分子。本文公开的方法可以包括进行至少约1次、2次、3次、4次、5次、6次、7次、8次、9次、10次、11次、12次、13次、14次、15次、16次、17次、18次、19次或20次逆转录反应。方法可以包括进行至少约25次、30次、35次、40次、45次、50次、55次、60次、65次、70次、75次、80次、85次、90次、95次或100次逆转录反应。
扩增
可以进行一个或更多个核酸扩增反应(例如在图2的框228处)以产生经标记的靶核酸分子的多于一个拷贝。扩增可以以多重化方式进行,其中多于一种靶核酸序列同时进行扩增。扩增反应可以用于向核酸分子添加测序衔接子。扩增反应可以包括扩增样品标记(如果存在)的至少一部分。扩增反应可以包括扩增细胞标记和/或条形码序列(例如分子标记)的至少一部分。扩增反应可以包括扩增样品标签、细胞标记、空间标记、条形码序列(例如分子标记)、靶核酸或其组合的至少一部分。扩增反应可以包括扩增多于一种核酸的0.5%、1%、2%、3%、4%、5%、6%、7%、8%、9%、10%、15%、20%、25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、97%、100%或这些值中的任何两个之间的范围或数字。方法还可以包括进行一个或更多个cDNA合成反应以产生包含样品标记、细胞标记、空间标记和/或条形码序列(例如分子标记)的靶-条形码分子的一个或更多个cDNA拷贝。
在一些实施方案中,扩增可以使用聚合酶链式反应(PCR)来进行。如本文使用的,PCR可以指用于通过DNA的互补链的引物同时延伸使特定DNA序列体外扩增的反应。如本文使用的,PCR可以涵盖反应的衍生形式,包括但不限于,RT-PCR、实时PCR、巢式PCR、定量PCR、多重化PCR、数字PCR以及组装PCR。
标记的核酸的扩增可以包括非基于PCR的方法。非基于PCR的方法的实例包括但不限于多重置换扩增(MDA)、转录介导的扩增(TMA)、基于核酸序列的扩增(NASBA)、链置换扩增(SDA)、实时SDA、滚环扩增或环到环扩增。其他非基于PCR的扩增方法包括DNA依赖性RNA聚合酶驱动的RNA转录扩增或RNA指导的DNA合成和转录的多于一个循环以扩增DNA或RNA靶、连接酶链式反应(LCR)、和Qβ复制酶(Qβ)方法、回文探针的使用、链置换扩增、使用限制性内切核酸酶的寡核苷酸驱动的扩增、使引物与核酸序列杂交并且将所得双链体在延伸反应和扩增之前裂解的扩增方法、使用缺乏5’外切核酸酶活性的核酸聚合酶的链置换扩增、滚环扩增和分支延伸扩增(RAM)。在一些实施方案中,扩增不产生环化转录物。
在一些实施方案中,本文公开的方法还包括对标记的核酸(例如标记的RNA、标记的DNA、标记的cDNA)进行聚合酶链式反应以产生标记的扩增子(例如随机标记的扩增子)。标记的扩增子可以是双链分子。双链分子可包括双链RNA分子、双链DNA分子或者与DNA分子杂交的RNA分子。双链分子的一条或两条链可以包含样品标记、空间标记、细胞标记和/或条形码序列(例如分子标记)。标记的扩增子可以是单链分子。单链分子可以包括DNA、RNA或其组合。本公开内容的核酸可以包括合成的或改变的核酸。
扩增可以包括使用一种或更多种非天然核苷酸。非天然核苷酸可以包括光不稳定或可触发的核苷酸。非天然核苷酸的实例可以包括但不限于肽核酸(PNA)、吗啉代和锁核酸(LNA)以及乙二醇核酸(GNA)与苏糖核酸(TNA)。可以将非天然核苷酸添加至扩增反应的一个或更多个循环中。添加非天然核苷酸可以用于鉴定扩增反应中特定循环或时间点的产物。
进行一个或更多个扩增反应可以包括使用一种或更多种引物。一种或更多种引物可以包括例如,1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个或15个或更多个核苷酸。一种或更多种引物可以包括至少1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个或15个或更多个核苷酸。一种或更多种引物可以包含少于12-15个核苷酸。一种或更多种引物可以退火至多于一个标记的靶(例如随机标记的靶)的至少一部分。一种或更多种引物可以退火至多于一个标记的靶的3’末端或5’末端。一种或更多种引物可以退火至多于一个标记的靶的内部区域。内部区域可以与多于一个标记的靶的3’末端距离至少约50个、100个、150个、200个、220个、230个、240个、250个、260个、270个、280个、290个、300个、310个、320个、330个、340个、350个、360个、370个、380个、390个、400个、410个、420个、430个、440个、450个、460个、470个、480个、490个、500个、510个、520个、530个、540个、550个、560个、570个、580个、590个、600个、650个、700个、750个、800个、850个、900个或1000个核苷酸。一种或更多种引物可以包括一组固定的引物。一种或更多种引物可以包括至少一种或更多种定制引物。一种或更多种引物可以包括至少一种或更多种对照引物。一种或更多种引物可以包括至少一种或更多种基因特异性引物。
一种或更多种引物可以包括通用引物。通用引物可以退火至通用引物结合位点。一种或更多种定制引物可以退火至第一样品标记、第二样品标记、空间标记、细胞标记、条形码序列(例如分子标记)、靶或其任何组合。一种或更多种引物可以包括通用引物和定制引物。定制引物可以被设计成扩增一种或更多种靶。靶可以包括一个或更多个样品中总核酸的子集。靶可以包括一个或更多个样品中总标记靶的子集。一种或更多种引物可以包括至少96种或更多种定制引物。一种或更多种引物可以包括至少960种或更多种定制引物。一种或更多种引物可以包括至少9600种或更多种定制引物。一种或更多种定制引物可以退火至两种或更多种不同的标记的核酸。两种或更多种不同的标记的核酸可以对应于一种或更多种基因。
可以在本公开内容的方法中使用任何扩增方案。例如,在一种方案中,第一轮PCR可以使用基因特异性引物和针对通用Illumina测序引物1序列的引物来扩增附接至珠的分子。第二轮PCR可以使用侧翼为Illumina测序引物2序列的巢式基因特异性引物和针对通用Illumina测序引物1序列的引物扩增第一PCR产物。第三轮PCR添加P5和P7以及样品索引,以使PCR产物变成Illumina测序文库。使用150bp×2测序的测序可以揭示读段1上的细胞标记和条形码序列(例如分子标记)、读段2上的基因以及索引1读段上的样品索引。
在一些实施方案中,可以使用化学裂解将核酸从基底去除。例如,存在于核酸中的化学基团或经修饰的碱基可以用于促进将核酸从固体支持物去除。例如,酶可以用于将核酸从基底去除。例如,通过限制性内切核酸酶消化可以将核酸从基底去除。例如,用尿嘧啶-d-糖苷酶(UDG)处理含dUTP或ddUTP的核酸可以用于将核酸从基底去除。例如,可以使用进行核苷酸切除的酶(诸如碱基切除修复酶,诸如无嘌呤/无嘧啶(apurinic/apyrimidinic,AP)内切核酸酶)将核酸从基底去除。在一些实施方案中,可以使用可光裂解基团以及光将核酸从基底去除。在一些实施方案中,可以使用可裂解接头将核酸从基底去除。例如,可裂解接头可以包括以下中的至少一种:生物素/抗生物素蛋白、生物素/链霉抗生物素蛋白、生物素/中性抗生物素蛋白、Ig蛋白A、光不稳定型接头、酸或碱不稳定型接头基团或适配体。
当探针是基因特异性时,可以将分子与探针杂交,并且逆转录和/或扩增。在一些实施方案中,在核酸已经合成(例如逆转录)之后,核酸可以被扩增。扩增可以以多重方式进行,其中多种靶核酸序列同时扩增。扩增可以将测序衔接子添加至核酸。
在一些实施方案中,可以例如用桥接扩增在基底上进行扩增。cDNA可以加同聚物尾,以便产生相容末端,用于使用基底上的寡(dT)探针进行桥接扩增。在桥接扩增中,与模板核酸的3’末端互补的引物可以是共价地附接至固体颗粒的每对引物中的第一引物。当包含模板核酸的样品与颗粒接触并进行单个热循环时,可以将模板分子退火至第一引物,并且第一引物通过添加核苷酸而向前延长以形成双链体分子,所述双链体分子由模板分子和与模板互补的新形成的DNA链构成。在下一循环的加热步骤中,双链体分子可以变性,从颗粒释放模板分子并且留下通过第一引物附接至颗粒的互补DNA链。在随后的退火和延长步骤的退火阶段中,互补链可以与第二引物杂交,第二引物在从第一引物去除的位置处与互补链的区段互补。这种杂交可导致互补链在第一引物和第二引物之间形成桥,通过共价键连接第一引物并通过杂交连接第二引物。在延长阶段,通过在同一反应混合物中添加核苷酸,第二引物可以在反向方向上延长,从而将桥转化为双链桥。然后开始下一个循环,并且双链桥可以变性以产生两个单链核酸分子,每个单链核酸分子具有的一个末端分别经由第一引物和第二引物附接至颗粒表面,其中每个单链核酸分子的另一个末端是未附接的。在这第二个循环的退火和延长步骤中,每条链可以与同一颗粒上先前未使用的另外的互补引物杂交,以形成新的单链桥。现在杂交的两个先前未使用的引物延长从而将两个新的桥转换成双链桥。
扩增反应可以包括扩增多于一种核酸的至少1%、2%、3%、4%、5%、6%、7%、8%、9%、10%、15%、20%、25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、97%或100%。
标记的核酸的扩增可以包括基于PCR的方法或非基于PCR的方法。标记的核酸的扩增可以包括对标记的核酸的指数式扩增。标记的核酸的扩增可以包括对标记的核酸的线性扩增。扩增可以通过聚合酶链式反应(PCR)来进行。PCR可以指用于通过DNA的互补链的引物同时延伸使特定DNA序列体外扩增的反应。PCR可以涵盖反应的衍生形式,包括但不限于,RT-PCR、实时PCR、巢式PCR、定量PCR、多重化PCR、数字PCR、抑制PCR、半抑制PCR以及组装PCR。
在一些实施方案中,标记的核酸的扩增包括非基于PCR的方法。非基于PCR的方法的实例包括但不限于多重置换扩增(MDA)、转录介导的扩增(TMA)、基于核酸序列的扩增(NASBA)、链置换扩增(SDA)、实时SDA、滚环扩增或环到环扩增。其他非基于PCR的扩增方法包括DNA依赖性RNA聚合酶驱动的RNA转录扩增或RNA指导的DNA合成和转录的多于一个循环以扩增DNA或RNA靶、连接酶链式反应(LCR)、Qβ复制酶(Qβ)方法、回文探针的使用、链置换扩增、使用限制性内切核酸酶的寡核苷酸驱动的扩增、使引物与核酸序列杂交并且将所得双链体在延伸反应和扩增之前裂解的扩增方法、使用缺乏5’外切核酸酶活性的核酸聚合酶的链置换扩增、滚环扩增和/或分支延伸扩增(RAM)。
在一些实施方案中,本文公开的方法还包括对扩增的扩增子(例如,靶)进行巢式聚合酶链式反应。扩增子可以是双链分子。双链分子可以包括双链RNA分子、双链DNA分子或者与DNA分子杂交的RNA分子。双链分子的一条或两条链可以包含样品标签或分子标识符标记。可选地,扩增子可以是单链分子。单链分子可以包括DNA、RNA或其组合。本发明的核酸可以包括合成的或改变的核酸。
在一些实施方案中,方法包括反复扩增标记的核酸以产生多于一种扩增子。本文公开的方法可以包括进行约以下或至少约以下:1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、20个、25个、30个、35个、40个、45个、50个、55个、60个、65个、70个、75个、80个、85个、90个、95个、100个或这些值中的任何两个之间的数字或范围的扩增反应。
扩增还可以包括将一种或更多种对照核酸添加至一个或更多个包含多于一个核酸的样品中。扩增还可以包括将一种或更多种对照核酸添加至多于一个核酸。对照核酸可以包含对照标记。
扩增可以包括使用一种或更多种非天然核苷酸。非天然核苷酸可以包括光不稳定型和/或可触发的核苷酸。非天然核苷酸的实例包括但不限于肽核酸(PNA)、吗啉代和锁核酸(LNA)以及乙二醇核酸(GNA)与苏糖核酸(TNA)。可以将非天然核苷酸添加至扩增反应的一个或更多个循环中。添加非天然核苷酸可以用于鉴定扩增反应中特定循环或时间点的产物。
进行一个或更多个扩增反应可以包括使用一种或更多种引物。一种或更多种引物可以包括一种或更多种寡核苷酸。一种或更多种寡核苷酸可以包含至少约7-9个核苷酸。一种或更多种寡核苷酸可以包含少于12-15个核苷酸。一种或更多种引物可以退火至多于一个标记的核酸的至少一部分。一种或更多种引物可以退火至多于一个标记的核酸的3’末端和/或5’末端。一种或更多种引物可以退火至多于一个标记的核酸的内部区域。内部区域可以与多于一种标记的核酸的3’末端距离至少约50个、100个、150个、200个、220个、230个、240个、250个、260个、270个、280个、290个、300个、310个、320个、330个、340个、350个、360个、370个、380个、390个、400个、410个、420个、430个、440个、450个、460个、470个、480个、490个、500个、510个、520个、530个、540个、550个、560个、570个、580个、590个、600个、650个、700个、750个、800个、850个、900个或1000个核苷酸。一种或更多种引物可以包括一组固定的引物。一种或更多种引物可以包括至少一种或更多种定制引物。一种或更多种引物可以包括至少一种或更多种对照引物。一种或更多种引物可以包括至少一种或更多种管家基因引物。一种或更多种引物可以包括通用引物。通用引物可以退火至通用引物结合位点。一种或更多种定制引物可以退火至第一样品标签、第二样品标签、分子标识符标记、核酸或其产物。一种或更多种引物可以包括通用引物和定制引物。定制引物可以被设计成扩增一种或更多种靶核酸。靶核酸可以包括一个或更多个样品中总核酸的子集。在一些实施方案中,引物是与本公开内容的阵列附接的探针。
在一些实施方案中,将样品中的多于一种靶条形码化(例如随机条形码化)还包括产生条形码化靶(例如随机条形码化靶)或靶的条形码化片段的索引文库。不同的条形码的条形码序列(例如不同的随机条形码的分子标记)可以彼此不同。产生条形码化靶的索引文库包括从样品中的多于一种靶产生多于一种索引多核苷酸。例如,对于包括第一索引靶和第二索引靶的条形码化靶的索引文库,第一索引多核苷酸的标记区与第二索引多核苷酸的标记区可以相差以下、相差约以下、相差至少以下或相差至多以下:1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、20个、30个、40个、50个或这些值中的任何两个之间的数字或范围的核苷酸。在一些实施方案中,产生条形码化靶的索引文库包括使多于一种靶(例如mRNA分子)与包含多(T)区和标记区的多于一种寡核苷酸接触;以及使用逆转录酶进行第一链合成以产生单链标记的cDNA分子(每一种包含cDNA区和标记区),其中多于一种靶包括至少两种不同序列的mRNA分子,且多于一种寡核苷酸包括至少两种不同序列的寡核苷酸。产生条形码化靶的索引文库还可以包括扩增单链标记的cDNA分子以产生双链标记的cDNA分子;以及对双链标记的cDNA分子进行巢式PCR以产生标记的扩增子。在一些实施方案中,方法可以包括产生衔接子标记的扩增子。
条形码化(例如随机条形码化)可以包括使用核酸条形码或标签以标记个体核酸(例如DNA或RNA)分子。在一些实施方案中,其包括在从mRNA产生cDNA分子时将DNA条形码或标签添加至cDNA分子。可以进行巢式PCR以使PCR扩增偏倚最小化。可以添加用于测序(例如NGS)使用的衔接子。例如在图2的框232处,可以使用测序结果来确定靶的一个或更多个拷贝的细胞标记、分子标记和核苷酸片段的序列。
图3是示出了产生条形码化靶(例如随机条形码化靶)的索引文库,诸如条形码化的mRNA或其片段的索引文库的非限制性示例性过程的示意图。如步骤1中示出的,逆转录过程可以用独特分子标记序列、细胞标记序列和通用PCR位点对每个mRNA分子进行编码。具体地,通过将一组条形码(例如随机条形码)310与RNA分子302的多(A)尾区308杂交(例如随机杂交),可以将RNA分子302逆转录以产生标记的cDNA分子304(包括cDNA区306)。条形码310中的每一个可以包括靶结合区,例如多(dT)区312、标记区314(例如条形码序列或分子)和通用PCR区316。
在一些实施方案中,细胞标记序列可以包含3个至20个核苷酸。在一些实施方案中,分子标记序列可以包含3个至20个核苷酸。在一些实施方案中,多于一种随机条形码中的每一种还包括通用标记和细胞标记中的一种或更多种,其中通用标记对于固体支持物上的多于一种随机条形码是相同的,并且细胞标记对于固体支持物上的多于一种随机条形码是相同的。在一些实施方案中,通用标记可以包含3个至20个核苷酸。在一些实施方案中,细胞标记包含3个至20个核苷酸。
在一些实施方案中,标记区314可以包含条形码序列或分子标记318和细胞标记320。在一些实施方案中,标记区314可以包括通用标记、维度标记和细胞标记中的一种或更多种。条形码序列或分子标记318的长度可以是以下、可以是约以下、可以是至少以下或可以是至多以下:1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、20个、30个、40个、50个、60个、70个、80个、90个、100个或这些值中的任何两个之间的数字或范围的核苷酸。细胞标记320的长度可以是以下、可以是约以下、可以是至少以下或可以是至多以下:1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、20个、30个、40个、50个、60个、70个、80个、90个、100个或这些值中的任何两个之间的数字或范围的核苷酸。通用标记的长度可以是以下、可以是约以下、可以是至少以下或可以是至多以下:1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、20个、30个、40个、50个、60个、70个、80个、90个、100个或这些值中的任何两个之间的数字或范围的核苷酸。通用标记对于固体支持物上的多于一种随机条形码可以是相同的,并且细胞标记对于固体支持物上的多于一种随机条形码是相同的。维度标记的长度可以是以下、可以是约以下、可以是至少以下或可以是至多以下:1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、20个、30个、40个、50个、60个、70个、80个、90个、100个或这些值中的任何两个之间的数字或范围的核苷酸。
在一些实施方案中,标记区314可以包括以下、可以包括约以下、可以包括至少以下或可以包括至多以下:1种、2种、3种、4种、5种、6种、7种、8种、9种、10种、20种、30种、40种、50种、60种、70种、80种、90种、100种、200种、300种、400种、500种、600种、700种、800种、900种、1000种或这些值中的任何两个值之间的数字或范围的不同标记,诸如条形码序列或分子标记318和细胞标记320。每一种标记的长度可以是以下、可以是约以下、可以是至少以下或可以是至多以下:1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、20个、30个、40个、50个、60个、70个、80个、90个、100个核苷酸或这些值中的任何两个之间的数字或范围的核苷酸。一组条形码或随机条形码310可以包含以下、可以包含约以下、可以包含至少以下或可以包含至多以下:10种、20种、40种、50种、70种、80种、90种、102种、103种、104种、105种、106种、107种、108种、109种、1010种、1011种、1012种、1013种、1014种、1015种、1020种或这些值中的任何两个之间的数字或范围的条形码或随机条形码310。并且条形码或随机条形码310的组可以例如,各自包含独特标记区314。标记的cDNA分子304可以进行纯化以去除过量的条形码或随机条形码310。纯化可以包括Ampure珠纯化。
如步骤2中示出的,来自步骤1中的逆转录过程的产物可以汇集至1支管中,并且用第1PCR引物池和第1通用PCR引物进行PCR扩增。因为独特标记区314,汇集是可能的。特别地,可以将标记的cDNA分子304扩增以产生巢式PCR标记的扩增子322。扩增可以包括多重PCR扩增。扩增可以包括以单一反应体积用96种多重引物进行的多重PCR扩增。在一些实施方案中,在单一反应体积中,多重PCR扩增可以利用以下、利用约以下、利用至少以下或利用至多以下:10种、20种、40种、50种、70种、80种、90种、102种、103种、104种、105种、106种、107种、108种、109种、1010种、1011种、1012种、1013种、1014种、1015种、1020种或这些值中的任何两个之间的数字或范围的多重引物。扩增可以包括使用包括靶向特定基因的定制引物326A-C的第1PCR引物池324和通用引物328。定制引物326可以与标记的cDNA分子304的cDNA部分306’内的区域杂交。通用引物328可以与标记的cDNA分子304的通用PCR区域316杂交。
如图3的步骤3中示出的,来自步骤2中的PCR扩增的产物可以用巢式PCR引物池和第2通用PCR引物进行扩增。巢式PCR可以使PCR扩增偏倚最小化。特别地,巢式PCR标记的扩增子322可通过巢式PCR进行进一步扩增。巢式PCR可以包括在单个反应体积中用巢式PCR引物332a-c的巢式PCR引物池330和第2通用PCR引物328’进行的多重PCR。巢式PCR引物池330可以包含以下、可以包含约以下、可以包含至少以下或可以包含至多以下:1种、2种、3种、4种、5种、6种、7种、8种、9种、10种、20种、30种、40种、50种、60种、70种、80种、90种、100种、200种、300种、400种、500种、600种、700种、800种、900种、1000种或这些值中的任何两个之间的数字或范围的不同的巢式PCR引物332。巢式PCR引物332可以包含衔接子334,并与标记的扩增子322的cDNA部分306”内的区域杂交。通用引物328’可以包含衔接子336,并与标记的扩增子322的通用PCR区域316杂交。由此,步骤3产生衔接子标记的扩增子338。在一些实施方案中,巢式PCR引物332和第2通用PCR引物328’可以不包含衔接子334和衔接子336。而是,衔接子334和衔接子336可以连接至巢式PCR的产物以产生衔接子标记的扩增子338。
如步骤4中示出的,可以使用文库扩增引物将来自步骤3的PCR产物进行PCR扩增用于测序。特别地,可以使用衔接子334和衔接子336对衔接子标记的扩增子338进行一个或更多个另外的测定。衔接子334和衔接子336可以与引物340和引物342杂交。一种或更多种引物340和引物342可以是PCR扩增引物。一种或更多种引物340和引物342可以是测序引物。一种或更多种衔接子334和衔接子336可以用于衔接子标记的扩增子338的进一步扩增。一种或更多种衔接子334和衔接子336可以用于对衔接子标记的扩增子338测序。引物342可以包含板索引344,使得使用同一组条形码或随机条形码310产生的扩增子可以使用NGS在一个测序反应中测序。
全长单细胞RNA测序
高通量单细胞RNA测序改变了对复杂和异质生物样品的理解。然而,大多数方法只能实现对mRNA转录物信息进行3’分析,这可能限制了对剪接变体、选择性转录起始位点和由于重排造成的高度可变基因座诸如T细胞受体和B细胞受体和抗体的VDJ连接处的分析。对于T细胞和B细胞两者,目前可用的基于C引发的方法可以读取V(D)J但遗漏上游V区。因此,目前可用的方法可能限制获得全长核酸靶(例如含V(D)J的转录物)信息的能力。本领域中的特定问题是,我们需要知道作为更长的读段的VDJ序列,因为存在由于可能的大量重组事件造成的许多VDJ。需要对序列(例如含V(D)J的转录物)计数和鉴定所述序列(特别是全长序列鉴定)的方法。
在一些实施方案中,提供了获得全长V(D)J信息(例如通过Rhapsody系统上的Illumina测序)的方法。T细胞受体和B细胞受体包含V区段、D区段(仅对于TCRβ链和BCR重链)、J区段以及mRNA3’引发末端的恒定区。CDR3由V(D)J连接区构成,包含大部分组库多样性并且足够短以在Illumina短读段平台上进行测序。然而,全长V区段和D区段以及J区段信息也是有用的,并且没有长读段测序技术而不能容易地获得,因为Illumina的短读段能力限制了获得全长V(D)J信息的能力。本文提供的方法可以使用户能够从单个文库和与Illumina测序仪相容的测序运行中获得CDR3信息以及全长V区段、全长D区段序列和/或全长J区段序列两者。因此,本文提供的方法的一些实施方案产生全长免疫受体mRNA序列。
本文的公开内容包括用于从cDNA产物(例如BD Rhapsody单细胞分析系统的cDNA产物)产生全转录组分析(WTA)文库用于在相容的测序仪(例如测序仪)上测序的方法。在一些实施方案中,靶向RNA分析通常对低表达靶产生更高的灵敏度,而WTARNA分析提供更大广度的被询问基因。在一些实施方案中,期望的靶的成功扩增可能需要彻底了解感兴趣的模型系统中的每种RNA的3’末端及其多腺苷酸化位点的使用。WTA方法,例如与BDRhapsody一起使用,允许获得若干水平的信息,包括1)在其模型系统中识别感兴趣的RNA靶,以鉴定待设计的一组基因;2)将其模型系统中转录组的3’末端表征为用于BD Rhapsody的新一代PCR组套设计(panel design)的输入,以及3)与标准BD Rhapsody靶向方法相比,允许用户通过测定更大广度的基因来进行发现生物学。
在一些实施方案中,提供了用于基于3’、基于内部和/或基于5’的全转录组物分析(WTA)的系统、方法、组合物和试剂盒。本文的公开内容包括用于5’、3’和内部WTA文库产生的方法和组合物。公开的方法和组合物可以用于使用例如Rhapsody系统的全长单细胞RNA测序。公开的方法和组合物能够使用BD Rhapsody系统对单细胞中mRNA的全长全转录组物分析(WTA)进行测序。目前可用的WTA测定通过捕获mRNA3’末端处的多A尾并添加独特分子指数(UMI)和细胞标记(CL)来对mRNA的3’末端进行测序。另外地,目前可用的方法可以通过在成桥回到珠的cDNA的5’末端添加序列,并在转录物的5’末端处添加UMI和CL来对mRNA的5’末端进行谱分析。然而,测序仪仅能够对小片段(通常~300-600个碱基对)进行谱分析;这意味着从3’或5’末端开始,任何大于~750个碱基的区域都不能够被谱分析,因为没有方法可用于将UMI和CL添加到内部区域中。目前可用的高通量scRNAseq方法提供对转录物3’或5’末端进行测序。一些目前可用的方法能够实现3’或5’解决方案,但不能够同时实现两者。全长RNA不被其他方法捕获。目前可用的低通量scRNAseq方法可以提供全长测序,但最大细胞数目要低得多,并且是高度劳动密集型的过程。由于Illumina装置上长序列测序的限制,需要新的方法和组合物。本文提供的方法和组合物可以克服目前可用方法的这些缺点。在一些实施方案中,提供了用于高通量实验的全长scRNAseq解决方案。在一些实施方案中,本文提供的系统、方法、组合物和试剂盒可以与2022年9月13日提交的题为"FULLLENGTH SINGLE CELL RNASEQUENCING"的PCT专利申请第PCT/US22/76366号中描述的方法和组合物结合使用,该专利申请的内容通过引用以其整体并入本文。
在一些实施方案中,提供了用于进行全长RNA测序(例如,使用Rhapsody系统)的组合物和方法。目前可用的工作流程在单细胞水平上提供3’或5’mRNA测序分析,但不是全长。所述目前可用的方法不能提供RNA的一个或更多个内部序列的原因是1)Illumina测序仪可以对有限大小的文库进行测序,2)为了获得单细胞信息,细胞标记和UMI(例如分子标记)应该在文库的末端。RNA/cDNA的当前捕获序列是通过多A(mRNA的3’末端)或模板转换寡核苷酸(mRNA的5’末端)。因此,这些方法仅提供一个或更多个3’和5’末端序列。为了将一个或更多个内部序列与细胞标记连接,重要的是使寡核苷酸在内部区域附近。本文提供的方法和组合物的一些实施方案使用珠上的一个或更多个靶向组序列的随机物(randomer)/内部测序来添加与一个或更多个内部mRNA序列连接的细胞标记信息。在一些实施方案中,本文描述的方法利用一种或更多种具有链置换活性的聚合酶来产生内部序列的多于一个拷贝和/或一种或更多种不具有链置换活性的聚合酶来产生内部序列的几个区域。根据全长测序的目的,可以利用这两种方法。如果用户期望完全覆盖cDNA序列,可以使用第一种方法。如果用户期望对内部区域进行测序,但由于测序的高成本而不期望完全覆盖,则后一种方法将是合适的。如果用户期望所有mRNA的内部序列,则可以使用随机物。如果用户期望内部序列的特定靶向基因集(即突变热点),则可以添加靶向基因特异性序列。图4A-图4H示出了使用本文提供的条形码化方法和组合物确定核酸靶(例如免疫受体的V(D)J区)的序列和用于全长全转录物组分析(WTA)的非限制性示例性工作流程的示意图。工作流程可以包括以下步骤中的一个或更多个:逆转录400a,变性400b,分子间杂交400c,与裂解剂接触400d,与没有链置换活性的聚合酶接触400e,与具有链置换活性的聚合酶接触400f,变性和引物杂交400g,变性和引物杂交400h,引物延伸、文库生成和测序400i,以及引物延伸、文库生成和测序400j。核酸靶406(例如mRNA)可以包含编码序列(例如414r)和多A尾(例如408)。第一多于一种寡核苷酸条形码402a可以包含第一通用序列426、第一分子标记422和与核酸靶的至少一部分互补的序列(例如第一靶结合区404)。第二多于一种寡核苷酸条形码416(例如416a1、416a2)中的每一种寡核苷酸条形码可以包含第二通用序列428、裂解结构域418和阻断基团420、第二分子标记430、第二靶结合区(403)。裂解结构域可以位于阻断基团的5’。寡核苷酸条形码可以包含细胞标记432。寡核苷酸条形码可以附接至固体支持物401。工作流程可以包括产生以下产物中的一个或更多个:402b、402c、414c、402c、416c、416d和416e。产物可以包括本文描述元件的反向互补物(rc)。工作流程可以包括使产物与随机引物446接触,并且这可以包括第三通用序列448。
在一些实施方案中,本文提供的固体支持物(例如Rhapsody珠)在珠上具有寡核苷酸dT捕获序列和/或模板转换寡核苷酸捕获序列以捕获通过mRNA/cDNA的3’或5’末端。尚未采用在固体支持物(例如Rhapsody珠)中添加一个或更多个用于捕获寡核苷酸的随机物/基因特异性序列。然而,如本文描述的,在固体支持物(例如Rhapsody珠)中具有这些寡核苷酸可以允许产生含内部序列的文库,以使全长RNAseq成为可能。通过添加阻断的引物,用户可以控制引物的使用时间,并且这可以降低文库制备期间的噪声产生。
图5A-图5E示出了使用本文提供的条形码化方法和组合物确定核酸靶(例如免疫受体的V(D)J区)的序列和用于全长全转录物组分析(WTA)的非限制性示例性工作流程的示意图。
图5A描绘了非限制性示例性固体支持物(例如珠)。全长RNAseq可以包含描绘的珠(例如rhapsody珠)和关联的寡核苷酸。工作流程可以包括mRNA捕获和逆转录,随后是mRNA变性或使用RNA酶H去除RNA(上方寡核苷酸(upper oligonucleotide))。随机物(UMI,分子标记)或基因特异性序列可以具有rhAmp末端,以防止该序列结合RNA和逆转录(下方寡核苷酸(lower oligonucleotide))。rhAmp PCR可以包含与靶退火的阻断的无活性引物。所述引物可以具有突出端和阻断部分5’的内部RNA碱基。RNA酶H2可以识别杂交的内部RNA碱基,并且在引物与靶DNA杂交之后,可以在RNA碱基的5’侧发生裂解。DNA聚合酶现在可以延伸新解封的引物。
图5B描绘了本文提供的第一工作流程和第二工作流程的非限制性示例性实施方案。在一些实施方案中,工作流程是包括没有链置换活性的全长RNAseq的第一工作流程。第一工作流程可以包括随机物在cDNA上的杂交。第一工作流程可以包括RNA酶H2处理以释放阻断物和聚合酶反应。在第一工作流程的一些实施方案中,由于没有链置换活性,聚合将在其他随机物结合区的末端处停止。该第一工作流程可以产生cDNA的不同区域的DNA片段。当用户期望中等水平的全长覆盖时,该第一工作流程可以是理想的。在一些实施方案中,工作流程是包括具有链置换活性的全长RNAseq的第二工作流程。第二工作流程可以包括随机物在cDNA上的杂交。第二工作流程可以包括RNA酶H2处理以释放阻断物和聚合酶反应。在一些实施方案中,由于链置换活性,聚合将继续进行并在第二工作流程中产生多于一个不同尺寸的DNA。图5C描绘了本文提供的第二工作流程(全长RNAseq(具有链置换活性))的非限制性示例性实施方案。由于第二工作流程中的链置换活性,聚合可以继续进行并产生多于一个不同尺寸的DNA。如果用户期望全长序列的完全覆盖,这可以是理想的。
图5D描绘了不含PTA的全长RNAseq的非限制性示例性实施方案。在一些实施方案中,聚合将产生不同尺寸的产物。图5E描绘了RPE-PCR的非限制性示例性实施方案(采用具有R2序列的随机序列)。来自T1寡核苷酸的UMI可以用于随机物,并且仍可以用于过滤PCR扩增子。在一些实施方案中,来自T1寡核苷酸的UMI可以用于计数分子数目。在一些实施方案中,来自T1寡核苷酸的UMI不用于计数分子数目(例如,将存在多于1个UMI/mRNA转录物)。在一些实施方案中,为了具有R2衔接子,重复RPE。在一些实施方案中,来自其他珠的随机物可以与cDNA结合。在一些实施方案中,代替采用随机物,序列特异性引物可以用于在单细胞水平产生某些感兴趣基因的全覆盖(例如候选基因中的癌症相关突变检测)。
本文的公开内容包括用于对样品中的核酸靶进行标记的方法。在一些实施方案中,方法包括:使核酸靶的拷贝与第一多于一种寡核苷酸条形码接触,其中第一多于一种寡核苷酸条形码中的每一种寡核苷酸条形码包含第一通用序列、第一分子标记和能够与核酸靶杂交的第一靶结合区。在一些实施方案中,方法包括:延伸与核酸靶的拷贝杂交的第一多于一种寡核苷酸条形码,以产生多于一种条形码化核酸分子,所述多于一种条形码化核酸分子各自包含第一通用序列、第一分子标记和与核酸靶的至少一部分互补的序列。在一些实施方案中,方法包括:使条形码化核酸分子与第二多于一种寡核苷酸条形码接触以进行杂交。在一些实施方案中,第二多于一种寡核苷酸条形码中的每一种寡核苷酸条形码包含第二通用序列、裂解结构域和阻断基团。在一些实施方案中,阻断基团能够防止寡核苷酸条形码的延伸,其中裂解结构域位于阻断基团的5’,并且其中当裂解结构域与条形码化核酸分子杂交时,裂解酶能够在裂解结构域内或与裂解结构域相邻的点处裂解寡核苷酸条形码。在一些实施方案中,方法包括:使与条形码化核酸分子杂交的第二多于一种寡核苷酸条形码与裂解酶接触,从而从所述寡核苷酸条形码去除阻断基团。在一些实施方案中,方法包括:延伸与条形码化核酸分子杂交的第二多于一种寡核苷酸条形码中的寡核苷酸条形码的3’末端,以产生多于一种延伸的条形码化核酸分子。
在一些实施方案中,多于一种延伸的条形码化核酸分子中的每一种延伸的条形码化核酸分子包含核酸靶的至少一部分的序列。在一些实施方案中,裂解酶是RNA酶H酶和/或RNA酶H2酶,任选地,RNA酶H2酶是深海火球菌RNA酶H2酶。在一些实施方案中,裂解酶是热稳定的并且在较低温度具有降低的活性的热启动裂解酶。在一些实施方案中,热启动裂解酶是深海火球菌RNA酶H2,其包含(a)G12A氨基酸取代;(b)P13T氨基酸取代;(c)G169A氨基酸取代;或(d)其组合。在一些实施方案中,裂解酶是化学修饰的。在一些实施方案中,裂解酶是热稳定的并且在较低温度具有降低的活性的化学修饰的热启动裂解酶,任选地,裂解酶在较低温度通过与抗体相互作用被可逆地失活。在一些实施方案中,裂解结构域包含能够被RNA酶H酶裂解的一个或更多个核糖核苷酸。在一些实施方案中,裂解结构域包含以下部分中的一个或更多个:DNA残基、无碱基残基、修饰的核苷或修饰的磷酸核苷酸间连键。在一些实施方案中,裂解结构域包含至少一个RNA碱基。在一些实施方案中,裂解结构域包含一个或更多个2’-修饰的核苷,任选地,一个或更多个修饰的核苷是2’-氟核苷。在一些实施方案中,阻断基团附接至寡核苷酸条形码的3’末端核苷酸。在一些实施方案中,阻断基团在寡核苷酸条形码的3’末端处或附近。在一些实施方案中,阻断基团是2’,3’-双脱氧核苷酸、核糖核苷酸残基、2’,3’SH核苷酸或2’-O-PO3核苷酸。在一些实施方案中,阻断基团包含非核苷酸修饰。在一些实施方案中,阻断基团还包含萘基偶氮化合物、间隔区和/或生物素。
在一些实施方案中,延伸第二多于一种寡核苷酸条形码中的寡核苷酸条形码的3’末端包括用具有链置换活性的DNA聚合酶延伸第二多于一种寡核苷酸条形码中的寡核苷酸条形码的3’末端。在一些实施方案中,用具有链置换活性的DNA聚合酶延伸第二多于一种寡核苷酸条形码中的寡核苷酸条形码的3’末端能够产生包含第一分子标记的互补物和第一通用序列的互补物的延伸的条形码化核酸分子。在一些实施方案中,延伸第二多于一种寡核苷酸条形码中的寡核苷酸条形码的3’末端包括用没有链置换活性的DNA聚合酶延伸第二多于一种寡核苷酸条形码中的寡核苷酸条形码的3’末端。在一些实施方案中,聚合酶选自包括以下的组:Phi29 DNA聚合酶、大肠杆菌DNA聚合酶I、Bsu DNA聚合酶、Bst DNA聚合酶、Taq DNA聚合酶、VENTTMDNA聚合酶、DEEPVENTTMDNA聚合酶、Taq DNA聚合酶、热启动Taq DNA聚合酶、Crimson Taq DNA聚合酶、Crimson Taq DNA聚合酶、DNA聚合酶、Quick-DNA聚合酶、Hemo DNA聚合酶、DNA聚合酶、DNA聚合酶、高保真DNA聚合酶、Platinum PfxDNA聚合酶、AccuPrime Pfx DNA聚合酶、Klenow片段、Pwo DNA聚合酶、Pfu DNA聚合酶、T4DNA聚合酶、T7 DNA聚合酶、其衍生物或其任何组合。在一些实施方案中,延伸寡核苷酸条形码的3’末端包括使用嗜中温DNA聚合酶、嗜热DNA聚合酶、嗜冷DNA聚合酶或其任何组合延伸寡核苷酸条形码的3’末端。在一些实施方案中,延伸寡核苷酸条形码的3’末端包括使用缺乏5’至3’外切核酸酶活性和3’至5’外切核酸酶活性中的至少一种的DNA聚合酶延伸寡核苷酸条形码的3’末端,并且任选地,DNA聚合酶包括Klenow片段。在一些实施方案中,延伸第一多于一种寡核苷酸条形码包括使用逆转录酶延伸第一多于一种寡核苷酸条形码。在一些实施方案中,逆转录酶能够具有末端转移酶活性。在一些实施方案中,具有链置换活性的逆转录酶是PrimeScript逆转录酶、M-MuLV逆转录酶、SmartScribe逆转录酶、Maxima H Minus逆转录酶和/或Superscript II逆转录酶。在一些实施方案中,逆转录酶包括病毒逆转录酶,任选地病毒逆转录酶是鼠白血病病毒(MLV)逆转录酶或Moloney鼠白血病病毒(MMLV)逆转录酶。
在一些实施方案中,第二多于一种寡核苷酸条形码中的每一种寡核苷酸条形码包含第二分子标记,其中第二多于一种寡核苷酸条形码中的至少10种包含不同的第二分子标记序列,任选地每一种第二分子标记包含至少6个核苷酸,还任选地第二分子标记序列是随机序列。在一些实施方案中,第二多于一种寡核苷酸条形码经由第二分子标记和与核酸靶的至少一部分互补的序列之间的杂交而与条形码化核酸分子杂交。在一些实施方案中,第二多于一种寡核苷酸条形码中的每一种寡核苷酸条形码包含第二靶结合区。在一些实施方案中,第一靶结合区和/或第二靶结合区包括多(dA)区、多(dT)区、随机序列、基因特异性序列或其任何组合。在一些实施方案中,第二多于一种寡核苷酸条形码中的寡核苷酸条形码经由第二靶结合区和与核酸靶的至少一部分互补的序列之间的杂交而与条形码化核酸分子杂交。在一些实施方案中,第二多于一种寡核苷酸条形码中的至少10种包含不同的第二靶结合区,任选地靶结合区中的至少两个能够结合不同核酸靶的互补物,还任选地靶结合区中的至少两个能够与相同核酸靶的互补物的不同区域杂交。在一些实施方案中,第二多于一种寡核苷酸条形码中的两种或更多种寡核苷酸条形码能够与相同核酸靶的互补物的不同区域杂交以产生两种或更多种延伸的条形码化核酸分子。在一些实施方案中,所述两种或更多种延伸的条形码化核酸分子能够通过第二多于一种寡核苷酸条形码中的两种或更多种寡核苷酸条形码与相同核酸靶的互补物的不同区域杂交而产生。在一些实施方案中,所述两种或更多种延伸的条形码化核酸分子共同构成整个核酸靶的至少约50%的序列。
在一些实施方案中,方法包括:使多于一种条形码化核酸分子变性。在一些实施方案中,方法包括:使所述多于一种延伸的条形码化核酸分子变性。在一些实施方案中,方法包括:基于以下确定样品中核酸靶的拷贝数:与多于一种条形码化核酸分子或其产物关联的具有不同序列的第一分子标记的数目。在一些实施方案中,方法包括:基于以下确定样品中核酸靶的拷贝数:与多于一种延伸的条形码化核酸分子或其产物关联的具有不同序列的第一分子标记、具有不同序列的第二分子标记或其组合的数目。在一些实施方案中,确定核酸靶的拷贝数包括基于以下确定样品中多于一种核酸靶中的每一种的拷贝数:与包含多于一种核酸靶中的每一种的序列的多于一种条形码化核酸分子中的条形码化核酸分子或其产物关联的具有不同序列的第一分子标记的数目;和/或与包含多于一种核酸靶中的每一种的序列的多于一种延伸的条形码化核酸分子中的延伸的条形码化核酸分子关联的具有不同序列的第一分子标记、具有不同序列的第二分子标记或其组合的数目。在一些实施方案中,多于一种核酸靶中的每一种的序列包括多于一种核酸靶中的每一种的子序列。在一些实施方案中,多于一种条形码化核酸分子中的核酸靶的序列包括核酸靶的子序列。在一些实施方案中,核酸靶包括mRNA。在一些实施方案中,样品包括单细胞,任选地免疫细胞,并且还任选地B细胞或T细胞。在一些实施方案中,样品包括多于一个细胞、多于一个单细胞、组织、肿瘤样品或其任何组合。在一些实施方案中,单细胞包括循环肿瘤细胞。
在一些实施方案中,第一多于一种寡核苷酸条形码中的每一种寡核苷酸条形码的第一通用序列在第一分子标记和第一靶结合区的5’;和/或第二多于一种寡核苷酸条形码中的每一种寡核苷酸条形码的第二通用序列在第二分子标记和/或第二靶结合区的5’。
在一些实施方案中,方法包括:使用扩增引物和包含第一通用序列或其一部分的引物扩增多于一种条形码化核酸分子,从而产生包含核酸靶的序列或其一部分的第一多于一种单标记的核酸分子,其中确定样品中核酸靶的拷贝数包括:基于与第一多于一种单标记的核酸分子或其产物关联的具有不同序列的第一分子标记的数目来确定样品中核酸靶的拷贝数。在一些实施方案中,方法包括:使用扩增引物和包含第二通用序列或其一部分的引物扩增多于一种延伸的条形码化核酸分子,从而产生包含核酸靶的序列或其一部分的第二多于一种单标记的核酸分子,其中确定样品中核酸靶的拷贝数包括:基于与第二多于一种单标记的核酸分子或其产物关联的具有不同序列的第二分子标记的数目来确定样品中核酸靶的拷贝数。在一些实施方案中,扩增引物包含第四通用序列。在一些实施方案中,扩增引物是靶特异性引物。在一些实施方案中,靶特异性引物与以下特异性杂交:免疫受体、免疫受体的恒定区、免疫受体的可变区、免疫受体的多样性区和/或免疫受体的可变区和多样性区的连接处。在一些实施方案中,免疫受体是TCR和/或BCR受体,并且任选地TCR包含TCRα链、TCRβ链、TCRγ链、TCRδ链或其任何组合;并且BCR受体包含BCR重链和/或BCR轻链。
在一些实施方案中,方法包括:使随机引物与多于一种条形码化核酸分子杂交,并延伸随机引物以产生第一多于一种延伸产物,其中随机引物包含第三通用序列或其互补物;以及使用能够与第三通用序列或其互补物杂交的引物和能够与第一通用序列或其互补物杂交的引物扩增第一多于一种延伸产物,从而产生第三多于一种单标记的核酸分子或其产物。在一些实施方案中,确定样品中核酸靶的拷贝数包括:基于与第三多于一种单标记的核酸分子或其产物关联的具有不同序列的第一分子标记的数目来确定样品中核酸靶的拷贝数。在一些实施方案中,方法包括:使随机引物与多于一种延伸的条形码化核酸分子杂交,并延伸随机引物以产生第二多于一种延伸产物,其中随机引物包含第三通用序列或其互补物;以及使用能够与第三通用序列或其互补物杂交的引物和能够与第二通用序列或其互补物杂交的引物扩增第二多于一种延伸产物,从而产生第四多于一种单标记的核酸分子或其产物。在一些实施方案中,确定样品中核酸靶的拷贝数包括:基于与第四多于一种单标记的核酸分子或其产物关联的具有不同序列的第二分子标记的数目来确定样品中核酸靶的拷贝数。
在一些实施方案中,第一通用序列、第二通用序列、第三通用序列和/或第四通用序列是相同的。在一些实施方案中,第一通用序列、第二通用序列、第三通用序列和/或第四通用序列是不同的。在一些实施方案中,第一通用序列、第二通用序列、第三通用序列和/或第四通用序列包含测序引物的结合位点和/或测序衔接子、其互补序列和/或其部分。在一些实施方案中,测序衔接子包括P5序列、P7序列、其互补序列和/或其部分。在一些实施方案中,测序引物包括读段1测序引物、读段2测序引物、其互补序列和/或其部分。
在一些实施方案中,方法包括:获得多于一种条形码化核酸分子或其产物的序列信息。在一些实施方案中,获得序列信息包括将测序衔接子附接至多于一种延伸的条形码化核酸分子或其产物。在一些实施方案中,方法包括:获得多于一种延伸的条形码化核酸分子或其产物的序列信息。在一些实施方案中,获得序列信息包括将测序衔接子附接至延伸的条形码化核酸分子、条形码化核酸分子、其产物或其任何组合。在一些实施方案中,方法包括:获得第一多于一种单标记的核酸分子、第二多于一种单标记的核酸分子、第三多于一种单标记的核酸分子和第四多于一种单标记的核酸分子或其产物中的一种或更多种的序列信息。在一些实施方案中,获得序列信息包括将测序衔接子附接至第一多于一种单标记的核酸分子、第二多于一种单标记的核酸分子、第三多于一种单标记的核酸分子和第四多于一种单标记的核酸分子或其产物中的一种或更多种。在一些实施方案中,获得第一多于一种单标记的核酸分子、第二多于一种单标记的核酸分子、第三多于一种单标记的核酸分子和第四多于一种单标记的核酸分子或其产物中的一种或更多种的序列信息包括:获得包括第一多于一种单标记的核酸分子、第二多于一种单标记的核酸分子、第三多于一种单标记的核酸分子和第四多于一种单标记的核酸分子或其产物中的一种或更多种的多于一个测序读段的测序数据,其中多于一个测序读段中的每一个包含(1)细胞标记序列、(2)分子标记序列和/或(3)核酸靶的子序列。
在一些实施方案中,方法包括:对于指示样品的单细胞的每一种独特细胞标记序列:使核酸靶的多于一个测序读段中的每一个对齐以产生核酸靶的对齐序列。在一些实施方案中,核酸靶的对齐序列包含核酸靶的cDNA序列的至少50%、核酸靶的cDNA序列的至少70%、核酸靶的cDNA序列的至少90%或核酸靶的cDNA序列的全长。在一些实施方案中,核酸靶是免疫受体,任选地,免疫受体包含BCR轻链、BCR重链、TCRα链、TCRβ链、TCRγ链、TCRδ链或其任何组合。在一些实施方案中,核酸靶的对齐序列包含互补决定区1(CDR1)、互补决定区2(CDR2)、互补决定区3(CDR3)、可变区、可变区的全长或其组合。在一些实施方案中,核酸靶的对齐序列包含可变区、多样性区、可变区多样性区的连接区和/或恒定区或其任何组合。在一些实施方案中,获得序列信息包括获得单细胞的BCR轻链和BCR重链的序列信息,并且任选地BCR轻链和BCR重链的序列信息包括BCR轻链和/或BCR重链的互补决定区1(CDR1)、CDR2、CDR3或其任何组合的序列。在一些实施方案中,方法包括:基于所获得的序列信息使单细胞的BCR轻链和BCR重链进行配对。在一些实施方案中,样品包括多于一个单细胞,方法包括基于所获得的序列信息使至少50%的所述单细胞的BCR轻链和BCR重链进行配对。在一些实施方案中,获得序列信息包括获得单细胞的TCRα链和TCRβ链的序列信息,并且任选地TCRα链和TCRβ链的序列信息包括TCRα链和/或TCRβ链的互补决定区1(CDR1)、CDR2、CDR3或其任何组合的序列。在一些实施方案中,方法包括:基于所获得的序列信息使单细胞的TCRα链和TCRβ链进行配对。在一些实施方案中,样品包括多于一个单细胞,方法包括基于所获得的序列信息使至少50%的所述单细胞的TCRα链和TCRβ链进行配对。在一些实施方案中,获得序列信息包括获得单细胞的TCRγ链和TCRδ链的序列信息。在一些实施方案中,TCRγ链和TCRδ链的序列信息包括TCRγ链和/或TCRδ链的互补决定区1(CDR1)、CDR2、CDR3或其任何组合的序列。在一些实施方案中,方法包括:基于所获得的序列信息使单细胞的TCRγ链和TCRδ链进行配对。在一些实施方案中,样品包括多于一个单细胞,方法包括基于所获得的序列信息使至少50%的所述单细胞的TCRγ链和TCRδ链进行配对。
在一些实施方案中,分子标记的互补物包括分子标记的反向互补序列或分子标记的互补序列。在一些实施方案中,多于一种条形码化核酸分子包括条形码化脱氧核糖核酸(DNA)分子、条形码化核糖核酸(RNA)分子或其组合。在一些实施方案中,核酸靶包括核酸分子,任选地,核酸分子包括核糖核酸(RNA)、信使RNA(mRNA)、微RNA、小干扰RNA(siRNA)、RNA降解产物、包含多(A)尾的RNA或其任何组合,并且还任选地,mRNA编码免疫受体。在一些实施方案中,核酸靶包含细胞组分结合试剂,和/或核酸分子与细胞组分结合试剂关联,任选地,方法还包括使核酸分子和细胞组分结合试剂解离。在一些实施方案中,第一多于一种寡核苷酸条形码和/或第二多于一种寡核苷酸条形码中的至少10种包含不同的分子标记序列。在一些实施方案中,第一多于一种寡核苷酸条形码和/或第二多于一种寡核苷酸条形码的每一种分子标记包含至少6个核苷酸。在一些实施方案中,第一多于一种寡核苷酸条形码和/或第二多于一种寡核苷酸条形码与固体支持物关联。在一些实施方案中,与同一固体支持物关联的第一多于一种寡核苷酸条形码和/或第二多于一种寡核苷酸条形码各自包含相同的样品标记。在一些实施方案中,第一多于一种寡核苷酸条形码和/或第二多于一种寡核苷酸条形码的每一种样品标记包含至少6个核苷酸。在一些实施方案中,第一多于一种寡核苷酸条形码和/或第二多于一种寡核苷酸条形码各自包含细胞标记。在一些实施方案中,第一多于一种寡核苷酸条形码和/或第二多于一种寡核苷酸条形码的每一种细胞标记包含至少6个核苷酸。在一些实施方案中,与同一固体支持物关联的第一多于一种寡核苷酸条形码和/或第二多于一种寡核苷酸条形码中的寡核苷酸条形码包含相同的细胞标记。在一些实施方案中,与不同固体支持物关联的第一多于一种寡核苷酸条形码和/或第二多于一种寡核苷酸条形码中的寡核苷酸条形码包含不同的细胞标记。在一些实施方案中,方法包括:在存在乙二醇、聚乙二醇、1,2-丙二醇、二甲基亚砜(DMSO)、甘油、甲酰胺、7-脱氮-GTP、乙酰胺、四甲基氯化铵盐、甜菜碱或其任何组合中的一种或更多种的情况下,延伸寡核苷酸条形码。
在一些实施方案中,固体支持物包括合成颗粒、平坦表面或其组合。在一些实施方案中,样品包括单细胞,方法包括将包含第一多于一种寡核苷酸条形码和第二多于一种寡核苷酸条形码的合成颗粒与样品的单细胞关联。在一些实施方案中,方法包括:在将合成颗粒与单细胞关联之后裂解单细胞,任选地裂解单细胞包括加热样品、使样品与去污剂接触、改变样品的pH,或其任何组合。在一些实施方案中,合成颗粒和单细胞在同一分区中,并且任选地该分区是孔或液滴。在一些实施方案中,第一多于一种寡核苷酸条形码和/或第二多于一种寡核苷酸条形码中的至少一种寡核苷酸条形码被固定或部分地固定在合成颗粒上,或者第一多于一种寡核苷酸条形码和/或第二多于一种寡核苷酸条形码中的至少一种寡核苷酸条形码被包封或部分地包封在合成颗粒中。在一些实施方案中,合成颗粒是可破坏的,任选地是可破坏的水凝胶颗粒。在一些实施方案中,合成颗粒包括珠,任选地珠是sepharose珠、链霉抗生物素蛋白珠、琼脂糖珠、磁珠、缀合珠、蛋白A缀合珠、蛋白G缀合珠、蛋白A/G缀合珠、蛋白L缀合珠、寡(dT)缀合珠、二氧化硅珠、二氧化硅样珠、抗生物素微珠、抗荧光染料微珠或其任何组合。在一些实施方案中,合成颗粒包含选自由以下组成的组的材料:聚二甲基硅氧烷(PDMS)、聚苯乙烯、玻璃、聚丙烯、琼脂糖、明胶、水凝胶、顺磁物质、陶瓷、塑料、玻璃、甲基苯乙烯、丙烯酸聚合物、钛、胶乳、Sepharose、纤维素、尼龙、硅酮及其任何组合。在一些实施方案中,第一多于一种寡核苷酸条形码和/或第二多于一种寡核苷酸条形码中的每一种寡核苷酸条形码包含接头官能团。在一些实施方案中,合成颗粒包含固体支持物官能团。在一些实施方案中,支持物官能团和接头官能团彼此关联,并且任选地接头官能团和支持物官能团单独地选自由以下组成的组:C6、生物素、链霉抗生物素蛋白、一种或更多种伯胺、一种或更多种醛、一种或更多种酮及其任何组合。
在一些实施方案中,提供了固体支持物。在一些实施方案中,固体支持物与本文公开的第一多于一种寡核苷酸条形码和第二多于一种寡核苷酸条形码中的一种或两种关联。
本文描述的方法和系统可以与使用与寡核苷酸关联(例如与寡核苷酸附接或缀合)的抗体(本文也称为AbO或AbOligo)的方法和系统一起使用。使用AbO来确定单细胞中的蛋白表达谱和追踪样品来源的一些实施方案已在US2018/0088112和US2018/0346970中描述;每一项的内容通过引用以其整体并入本文。在一些实施方案中,本文公开的方法允许对T细胞和B细胞的V(D)J谱分析、3’靶向扩增、5’靶向扩增、3’全转录组扩增(WTA)、5’WTA、用AbO进行蛋白表达谱分析和/或单个实验中的样品多重化分析。使用5’条形码化和/或3’条形码化确定核酸靶(例如,免疫受体的V(D)J区)的序列的方法在US2020/0109437中描述;该文献的内容通过引用以其整体并入本文。用于在核酸靶的5’末端上进行分子条形码化的系统、方法、组合物和试剂盒已经在例如US2019/0338278中描述,该文献的内容通过引用以其整体并入本文。在一些实施方案中,本文提供的用于基于内部的基因表达谱分析的系统、方法、组合物和试剂盒可以与使用组合的5’条形码化和随机引发方法获得全长V(D)J信息(例如,通过在Rhapsody系统上Illumina测序)的方法协同采用,所述组合的5’条形码化和随机引发方法在2020年11月6日提交的题为“USING RANDOM PRIMING TO OBTAIN FULL-LENGTHV(D)JINFORMATION FOR IMMUNE REPERTOIRE SEQUENCING”的美国专利申请第17/091,639号中描述;其内容通过引用以其整体并入本文。在一些实施方案中,本文提供的用于基于内部的基因表达谱分析的系统、方法、组合物和试剂盒可以与基于随机引发和延伸(RPE)的全转录组分析方法和组合物协同采用,所述基于随机引发和延伸(RPE)的全转录组分析方法和组合物已在美国专利申请第16/677,012号中描述;其内容通过引用以其整体并入本文。在一些实施方案中,本文提供的用于基于内部的基因表达谱分析的系统、方法、组合物和试剂盒可以与阻断剂寡核苷酸一起使用,该阻断剂寡核苷酸在US20210238661A1中描述,该文献的内容通过引用以其整体并入本文。本文公开的组合物和方法的一些实施方案包括第一多于一种寡核苷酸条形码和第二多于一种寡核苷酸条形码,该第一多于一种寡核苷酸条形码和第二多于一种寡核苷酸条形码已在US20210371909A1中描述,该文献的内容通过引用以其整体并入本文。在一些实施方案中,本文提供的系统、方法、组合物和试剂盒可以与包含阻断序列的模板转换寡核苷酸一起使用,在一些实施方案中,该模板转换寡核苷酸可以减少文库制备期间不期望的延伸产物的产生,并且已经在2022年8月29日提交的题为“TEMPLATE SWITCH OLIGONUCLEOTIDE(TSO)FOR MRNA5'ANALYSIS”的PCT专利申请PCT/US22/75577中描述,并且该文献的内容通过引用以其整体并入本文。
在一些实施方案中,本文公开的延伸产物和/或扩增产物可以用于测序。可以使用本领域已知的任何合适的测序方法,优选地高通量方法。例如,也可以利用使用以下平台的循环阵列测序:诸如Roche 454、Illumina Solexa、ABI-SOLiD、ION Torrent、CompleteGenomics、Pacific Bioscience、Helicos或Polonator平台。测序可以包括MiSeq测序和/或HiSeq测序。
本文的公开内容包括用于将具有分子标记(或分子索引)的条形码(例如随机条形码)附接至被条形码化或被标记的核酸靶(例如脱氧核糖核酸分子和核糖核酸分子)的5’末端的系统、方法、组合物和试剂盒。本文公开的基于5’和基于内部的转录物计数方法可以互补或补充例如基于3’的转录物计数方法(例如,RhapsodyTM测定(Becton,Dickinson andCompany,Franklin Lakes,NJ)、ChromiumTM单细胞3’解决方案(10X Genomics,SanFrancisco,CA))。条形码化核酸靶可用于序列鉴定、转录物计数、选择性剪接分析、突变筛选和/或以高通量方式进行全长测序。对5’末端(相对于被标记的靶核酸靶的5’)的转录物计数可以揭示在核酸分子的5’末端或较靠近核酸分子的5’末端的选择性剪接同种型和变体(包括但不限于剪接变体、单核苷酸多态性(SNP)、插入、缺失、取代)。在一些实施方案中,方法可以涉及分子内杂交。使用5’条形码化和/或3’条形码化确定核酸靶(例如,免疫受体的V(D)J区)的序列的方法在US2020/0109437中描述;该文献的内容通过引用以其整体并入本文。用于在核酸靶的5’末端上进行分子条形码化的系统、方法、组合物和试剂盒已经在US2019/0338278中描述,该文献的内容通过引用以其整体并入本文。
本公开内容的方法可以用于鉴定BCR、TCR和抗体的VDJ区。VDJ重组又称为体细胞重组,是免疫系统产生免疫球蛋白(Ig)(例如BCR)和TCR的早期阶段中的遗传重组机制。VDJ重组可以几乎随机地组合可变(V)基因区段、多样(D)基因区段和连接(J)基因区段。由于其在选择不同基因时的随机性,它能够多样地编码蛋白以匹配来自细菌、病毒、寄生虫、功能失调的细胞(诸如肿瘤细胞)和花粉的抗原。
VDJ区可以包含3Mb的大基因座,该3Mb的大基因座包含可变(V)基因、多样性(D)基因和连接(J)基因。这些是可以参与VDJ重组的区段。可以存在可以不经历VDJ重组的恒定基因。该基因座的VDJ重组中的第一个事件可以是,D基因中的一个重排到J基因中的一个。其后,V基因中的一个可以附加到该DJ重排以形成功能性的VDJ重排的基因,该功能性的VDJ重排的基因然后编码重链蛋白的可变区段。这两个步骤都可以由可以使间插DNA缺失的重组酶酶类催化。
该重组过程在祖B细胞中以逐步的方式发生以产生抗体组库所需的多样性。每个B细胞可以仅产生一种抗体(例如BCR)。这种特异性可以通过等位基因排斥,使得一个等位基因信号进行功能性重排以阻止第二个等位基因的进一步重组来实现。
在一些实施方案中,样品包括免疫细胞。免疫细胞可以包括,例如,T细胞、B细胞、淋巴样干细胞、髓样祖细胞、淋巴细胞、粒细胞、B细胞祖细胞、T细胞祖细胞、自然杀伤细胞、Tc细胞、Th细胞、浆细胞、记忆细胞、中性粒细胞、嗜酸性粒细胞、嗜碱性粒细胞、肥大细胞、单核细胞、树突状细胞和/或巨噬细胞或其任何组合。
T细胞可以是T细胞克隆,T细胞克隆可以指源自单个T细胞的T细胞或具有相同TCR的T细胞。T细胞可以是T细胞系的一部分,T细胞系可以包括T细胞克隆和具有不同TCR的T细胞的混合群体,所有这些TCR都可以识别相同的靶(例如,抗原、肿瘤、病毒)。T细胞可以从许多来源获得,包括外周血单个核细胞、骨髓、淋巴结组织、脾组织和肿瘤。T细胞可以诸如使用Ficoll分离从采集自受试者的单位血液获得。个体的循环血液中的细胞可以通过单采血液成分术(apheresis)或白细胞单采术(leukapheresis)获得。单采血液成分术产品可以包括淋巴细胞(包括T细胞、单核细胞、粒细胞、B细胞)、其他有核白细胞、红细胞和血小板。细胞可以被洗涤并在培养基中重悬以分离感兴趣的细胞。
T细胞可以通过裂解红细胞和耗尽单核细胞(例如,通过PERCOLLTM梯度离心)从外周血淋巴细胞中分离。可以通过正选择或负选择技术进一步分离特定的T细胞亚群,诸如CD28+T细胞、CD4+T细胞、CDC、CD45RA+T细胞、和CD45RO+T细胞。例如,T细胞可以通过与抗CD3/抗CD28(即,3×28)-缀合珠诸如M-450CD3/CD28 T或XCYTEDYNABEADSTM孵育足以对于合意的T细胞进行正选择的时间段来分离。免疫细胞(例如T细胞和B细胞)可以是抗原特异性的(例如肿瘤特异性的)。
在一些实施方案中,细胞可以是抗原呈递细胞(APC),诸如B细胞、来自淋巴结的活化的B细胞、类淋巴母细胞、静息B细胞或赘生性B细胞,例如来自淋巴瘤。APC可以指在其表面上表达至少一种BCRC蛋白的B细胞或滤泡树突状细胞。
本公开内容的方法可以用于追踪单个T细胞的分子表型。不同亚型的T细胞可以通过不同分子标志物的表达来区分。T细胞表达来自不同的TCR组库的独特TCR。在大多数T细胞中,TCR可以由α链和β链的异源二聚体组成;每一个功能链都可能是T细胞发育过程中体细胞DNA重组事件的产物,允许在单个个体中表达超过一百万种不同的TCR。TCR可以用来定义个体T细胞的身份,允许在免疫应答过程中对T细胞克隆扩增的谱系进行追踪。本公开内容的免疫学方法可以以多种方式使用,包括但不限于,鉴定单个T细胞中独特的TCRα链和TCRβ链配对,在单细胞水平定量TCR和标志物表达,鉴定个体中的TCR多样性,表征不同T细胞群体中表达的TCR组库,确定TCR的α链等位基因和β链等位基因的功能性,以及鉴定免疫应答期间T细胞的克隆扩增。
T细胞受体链配对
TCR是存在于T淋巴细胞表面上的识别分子。在T细胞表面上发现的T细胞受体可以由两个糖蛋白亚基组成,这两个亚基被称为α链和β链。两条链可以构成约40kDa的分子量并具有可变结构域和恒定结构域。编码α链和β链的基因可以在V、D和J区的文库中被组织,基因从V、D和J区通过遗传重排形成。TCR可以识别由抗原呈递细胞呈递的抗原,该抗原作为与由组织相容性基因编码的特定自身分子组成的复合体的一部分。最有效的组织相容性基因被称为主要组织相容性复合体(MHC)。因此,被T细胞受体识别的复合体由MHC/肽配体组成。
在一些实施方案中,本公开内容的方法、装置和系统可以用于TCR测序和配对。本公开内容的方法、装置和系统可以用于对T细胞受体α链和β链进行测序,使α链和β链进行配对,和/或确定T细胞受体α链的功能性拷贝。单细胞可以被容纳在具有单个固体支持物(例如珠)的单个分区(例如孔)中。细胞可以被裂解。珠可以包含随机标记,随机标记可以结合到TCR的α和/或β链内的特定位置。与固体支持物关联的TCRα分子和TCRβ分子可以经历本公开内容的分子生物学方法,包括逆转录、扩增和测序。包含相同细胞标记的TCRα链和β链可以被认为来自相同的单细胞,从而使TCR的α链和β链进行配对。
抗体组库中的重链和轻链配对
本公开内容的方法、装置和系统可以用于使BCR受体和抗体的重链和轻链进行配对。本公开内容的方法允许确定单个生物体或细胞群体中免疫受体和抗体的组库。本公开内容的方法可以帮助确定组成免疫受体的多肽链对。B细胞和T细胞各自表达免疫受体;B细胞表达免疫球蛋白和BCR,并且T细胞表达TCR。这两种免疫受体类型可以包含两条多肽链。免疫球蛋白可以包含可变重(VH)链和可变轻(VL)链。可以有两种TCR类型:一种由α链和β链组成,并且另一种由δ链和γ链组成。免疫受体中的多肽可以包含恒定区和可变区。可变区可以由B细胞或T细胞染色体上基因片段的重组和末端连接重排导致。在B细胞中,可变区的另外的多样化可以通过体细胞高频突变发生。
免疫系统有大量的受体,并且由淋巴细胞表达的任何给定受体对可以由一对分别的、独特的转录物编码。知晓单细胞中表达的免疫受体链对的序列可以用来确定给定个体或细胞群体的免疫组库(immune repertoire)。
在一些实施方案中,本公开内容的方法、装置和系统可以用于抗体测序和配对。本公开内容的方法、装置和系统可以用于对(例如在B细胞中的)抗体重链和轻链进行测序,和/或对重链和轻链进行配对。单细胞可以被容纳在具有单个固体支持物(例如珠)的单个分区(例如孔)中。细胞可以被裂解。
珠可以包含随机标记,随机标记可以结合到抗体(例如B细胞中的)的重链和/或轻链内的特定位置。与固体支持物关联的重链分子和轻链分子可以经历本公开内容的分子生物学方法,包括逆转录、扩增和测序。包含相同细胞标记的抗体重链和轻链可以被认为来自相同的单细胞,从而使抗体的重链和轻链进行配对。
本文公开的方法可以允许基于3’、基于内部和/或基于5’的序列确定。方法可以实现为序列确定提供灵活性。在一些实施方案中,对于样品诸如小鼠和人类样品,方法可以实现在RhapsodyTM系统上对T细胞和B细胞两者的免疫组库谱分析。在一些实施方案中,可以进行V(D)J的3’、内部和/或5’表达谱分析。在一些实施方案中,可以研究单细胞平台中T细胞和B细胞的表型标志物和V(D)J序列两者。在一些实施方案中,它们的转录物的3’、内部和5’信息都可以在单个实验中捕获。本文公开的方法可以允许T细胞和B细胞两者的V(D)J检测(例如高频突变)。
本文描述的方法和系统可以与使用与寡核苷酸关联(例如与寡核苷酸附接或缀合)的抗体(本文也称为AbO或AbOligo)的方法和系统一起使用。使用AbO来确定单细胞中的蛋白表达谱和追踪样品来源的实施方案已在美国专利申请第15/715,028号(公布为美国专利申请公布第2018/0088112号)和美国专利申请第15/937,713号中描述;每项专利申请的内容通过引用以其整体并入本文。在一些实施方案中,本文公开的方法允许对T细胞和B细胞的V(D)J谱分析、3’靶向扩增、5’靶向扩增、3’全转录组扩增(WTA)、5’WTA、用AbO进行蛋白表达谱分析和/或单个实验中的样品多重化分析。
在一些实施方案中,使随机引物延伸的步骤在近似恒定的温度进行。在一些实施方案中,使随机引物延伸的步骤在不变的温度进行。在一些实施方案中,使随机引物延伸的步骤在第一延伸温度开始。在一些实施方案中,使随机引物延伸的步骤在一个或更多个不同于第一延伸温度的温度(例如第二延伸温度和/或第三延伸温度)进行。第二延伸温度和/或第三延伸温度可以高于或低于第一延伸温度。在一些实施方案中,第二延伸温度和/或第三延伸温度是约30℃、31℃、32℃、33℃、34℃、35℃、36℃、37℃、38℃、39℃、40℃、41℃、42℃、43℃、44℃、45℃、46℃、47℃、48℃、49℃、50℃、51℃、52℃、53℃、54℃、55℃、56℃、57℃、58℃、59℃、60℃、61℃、62℃、63℃、64℃、65℃、66℃、67℃、68℃、69℃、70℃、71℃、72℃、73℃、74℃、75℃、76℃、77℃、78℃、79℃、80℃或这些值中的任何两个之间的数字或范围。在一些实施方案中,第一延伸温度是约37℃。在一些实施方案中,第二延伸温度是约55℃。在一些实施方案中,第二延伸温度是约45℃。
在不同实施方式中,随机引发和延伸循环的数目可以不同。在一些实施方案中,随机引发和延伸的循环的数目可以包括以下、包括约以下、包括至少以下或包括至多以下:1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、20个、21个、22个、23个、24个、25个、26个、27个、28个、29个、30个、31个、32个、33个、34个、35个、36个、37个、38个、39个、40个、41个、42个、43个、44个、45个、46个、47个、48个、49个、50个、60个、70个、80个、90个、100个或这些值中的任何两个之间的数字或范围的随机引发和延伸的循环。
随机引物可以包含随机核苷酸序列。随机核苷酸序列的长度可以是约4个至约30个核苷酸。在一些实施方案中,所述随机核苷酸序列的长度是6个或9个核苷酸。在不同实施方式中,随机核苷酸序列可以具有不同的长度。在一些实施方案中,随机引物中核苷酸的随机序列的长度是以下、是约以下、是至少以下或是至多以下:1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、20个、25个、30个、35个、40个、45个、50个、60个、70个、80个、90个、100个或这些值中的任何两个之间的数字或范围的核苷酸。在不同的实施方式中,随机引物可以在随机引发步骤期间具有不同的浓度。在一些实施方案中,随机引物在随机引发期间的浓度是以下、是约以下、是至少以下或是至多以下:1uM、2uM、3uM、4uM、5uM、6uM、7uM、8uM、9uM、10uM、11uM、12uM、13uM、14uM、15uM、16uM、17uM、18uM、19uM、20uM、25uM、30uM、35uM、40uM、45uM、50uM、60uM、70uM、80uM、90uM、100uM、110uM、120uM、128uM或这些值中的任何两个之间的数字或范围的uM。
制备寡核苷酸条形码和对颗粒进行条形码化的方法已在例如US2015/0299784、WO2015/031691、Fu等人,PNAS U.S.A.2011年5月31日;108(22):9026-31和2021年6月1日提交的题为“OLIGONUCLEOTIDES AND BEADS FOR 5PRIME GENE EXPRESSION ASSAY”的美国专利申请第17/336,055号中描述,这些申请和出版物的内容特此以其整体并入。
尽管本文已经公开了各种方面和实施方案,但其他方面和实施方案对本领域技术人员将是明显的。本文公开的各种方面和实施方案是用于说明的目的而并不意在限制,实际范围和精神由以下权利要求指出。
本领域的技术人员将理解,对于本文公开的这个和其他过程和方法,在该过程和方法中执行的功能可以以不同的顺序实现。此外,所概述的步骤和操作仅作为示例提供,并且该步骤和操作中的一些可以是任选的,组合成较少的步骤和操作,或者扩展成另外的步骤和操作,而不偏离所公开的实施方案的本质。
关于本文中基本上任何复数和/或单数术语的使用,在对于上下文和/或应用适当的情况下,本领域技术人员可以从复数转换为单数和/或从单数转换为复数。为了清楚起见,可以在本文明确阐述各种单数/复数排列。
本领域技术人员将理解,一般来说,本文使用的术语,并且尤其是所附权利要求(例如,所附权利要求的主体)中的术语,通常意在作为“开放式”术语(例如,术语“包括(including)”应解释为“包括但不限于(including but not limited to)”,术语“具有(having)”应解释为“具有至少(having at least)”,术语“包括(includes)”应解释为“包括但不限于(includes but is not limited to)”,等)。本领域技术人员将进一步理解,如果意图所介绍的权利要求陈述的特定数字,则这样的意图将明确地陈述于权利要求中,并且在这种陈述不存在的情况下,不存在这种意图。例如,作为对理解的帮助,以下所附权利要求可以包含前置短语“至少一个/至少一种(at least one)”和“一个或更多个/一种或更多种(one or more)”的使用,以引入权利要求陈述。然而,这样的短语的使用不应理解为暗含通过不定冠词“一个”或“一种”(“a”or“an”)引入权利要求陈述会将包含这样的引入的权利要求陈述的任何具体权利要求限制到包含仅一个这样的陈述的实施方案,甚至在相同的权利要求包括前置词“一个或更多个/一种或更多种”或“至少一个/至少一种”以及不定冠词诸如“一个”或“一种”时也是如此(例如,“一个”和/或“一种”应解释为意指“至少一个/至少一种”或“一个或更多个/一种或更多种”);这对于使用定冠词来引入权利要求陈述同样适用。此外,即使明确地陈述了所引入的权利要求陈述的特定数目,本领域技术人员将认识到,这样的陈述应解释为意指至少所陈述的数目(例如,仅陈述“两个陈述”而没有其他修饰词意指至少两个陈述,或两个或更多个陈述)。此外,在使用类似于“A、B和C等中的至少一种”的惯例的那些情况下,通常这种句法结构意在为本领域技术人员将理解该惯例的意义(例如,“具有A、B和C中的至少一种的系统”将包括但不限于具有单独的A,具有单独的B,具有单独的C,A和B一起,A和C一起,B和C一起,和/或A、B和C一起等的系统)。在使用类似于“A、B或C等中的至少一种”的惯例的那些情况下,通常这种句法结构意在为本领域技术人员将理解该惯例的意义(例如,“具有A、B或C中的至少一种的系统”将包括但不限于具有单独的A,具有单独的B,具有单独的C,A和B一起,A和C一起,B和C一起,和/或A、B和C一起等的系统)。本领域技术人员将进一步理解,实际上,无论在说明书、权利要求书还是在附图中,呈现两个或更多个替代术语的任何分离性词语和/或措辞应被理解为考虑到包括术语之一、任一术语或两个术语的可能性。例如,短语“A或B”应被理解为包括“A”或“B”或“A和B”的可能性。
此外,当本公开内容的特征或方面以马库什组(Markush group)描述时,本领域技术人员将意识到,本公开内容还由此以马库什组的任何个体成员或成员子组描述。
如本领域技术人员将理解的,出于任何和所有目的,诸如在提供书面描述方面,本文公开的所有范围还涵盖它的任何和所有可能的子范围和子范围的组合。任何列举的范围可以被容易地认为充分地描述了并且使得同一范围能够被分成至少相等的二分之一、三分之一、四分之一、五分之一、十分之一等。作为非限制性实例,本文讨论的每个范围可以被容易地分成下三分之一、中三分之一和上三分之一等。如本领域技术人员还将理解的,所有语言诸如“多达(up to)”、“至少”等包括所述及的数字并且指随后可以被分成如以上讨论的子范围的范围。最后,如本领域技术人员将理解的,范围包括每个个体的成员。因此,例如,具有1-3个细胞的组是指具有1个、2个或3个细胞的组。类似地,具有1-5个细胞的组是指具有1个、2个、3个、4个或5个细胞的组,等。
从前述内容,应当理解,本文出于说明的目的已经描述了本公开内容的各种实施方案,并且可以在不脱离本公开内容的范围和精神的情况下进行各种修改。因此,本文公开的各种实施方案并不旨在进行限制,真正的范围和精神由以下权利要求来指示。

Claims (99)

1.一种用于对样品中的核酸靶进行标记的方法,所述方法包括:
使核酸靶的拷贝与第一多于一种寡核苷酸条形码接触,其中所述第一多于一种寡核苷酸条形码中的每一种寡核苷酸条形码包含第一通用序列、第一分子标记和能够与所述核酸靶杂交的第一靶结合区;
延伸与所述核酸靶的拷贝杂交的所述第一多于一种寡核苷酸条形码以产生多于一种条形码化核酸分子,所述多于一种条形码化核酸分子各自包含所述第一通用序列、所述第一分子标记和与所述核酸靶的至少一部分互补的序列;
使所述条形码化核酸分子与第二多于一种寡核苷酸条形码接触以进行杂交,
其中所述第二多于一种寡核苷酸条形码中的每一种寡核苷酸条形码包含第二通用序列、裂解结构域和阻断基团,
其中所述阻断基团能够防止所述寡核苷酸条形码的延伸,其中所述裂解结构域位于所述阻断基团的5’,并且其中当所述裂解结构域与条形码化核酸分子杂交时,裂解酶能够在所述裂解结构域内或与所述裂解结构域相邻的点处裂解所述寡核苷酸条形码;
使与所述条形码化核酸分子杂交的所述第二多于一种寡核苷酸条形码与所述裂解酶接触,从而从所述寡核苷酸条形码去除所述阻断基团;
延伸与所述条形码化核酸分子杂交的所述第二多于一种寡核苷酸条形码中的寡核苷酸条形码的3’末端以产生多于一种延伸的条形码化核酸分子。
2.根据权利要求1所述的方法,其中所述多于一种延伸的条形码化核酸分子中的每一种延伸的条形码化核酸分子包含所述核酸靶的至少一部分的序列。
3.根据权利要求1-2中任一项所述的方法,其中所述裂解酶是RNA酶H酶和/或RNA酶H2酶,任选地,所述RNA酶H2酶是深海火球菌(Pyrococcus abyssi)RNA酶H2酶。
4.根据权利要求1-3中任一项所述的方法,其中所述裂解酶是热稳定的并且在较低温度具有降低的活性的热启动裂解酶。
5.根据权利要求1-4中任一项所述的方法,其中所述热启动裂解酶是深海火球菌RNA酶H2,其包含(a)G12A氨基酸取代;(b)P13T氨基酸取代;(c)G169A氨基酸取代;或(d)其组合。
6.根据权利要求1-5中任一项所述的方法,其中所述裂解酶是化学修饰的。
7.根据权利要求1-6中任一项所述的方法,其中所述裂解酶是热稳定的并且在较低温度具有降低的活性的化学修饰的热启动裂解酶,任选地所述裂解酶在较低温度通过与抗体相互作用被可逆地失活。
8.根据权利要求1-7中任一项所述的方法,其中所述裂解结构域包含能够被RNA酶H酶裂解的一个或更多个核糖核苷酸。
9.根据权利要求1-8中任一项所述的方法,其中所述裂解结构域包含以下部分中的一个或更多个:DNA残基、无碱基残基、修饰的核苷或修饰的磷酸核苷酸间连键。
10.根据权利要求1-9中任一项所述的方法,其中所述裂解结构域包含至少一个RNA碱基。
11.根据权利要求1-10中任一项所述的方法,其中所述裂解结构域包含一个或更多个2’-修饰的核苷,任选地所述一个或更多个修饰的核苷是2’-氟核苷。
12.根据权利要求1-11中任一项所述的方法,其中所述阻断基团附接至所述寡核苷酸条形码的3’-末端核苷酸。
13.根据权利要求1-12中任一项所述的方法,其中所述阻断基团在所述寡核苷酸条形码的3’末端处或附近。
14.根据权利要求1-13中任一项所述的方法,其中所述阻断基团是2’,3’-双脱氧核苷酸、核糖核苷酸残基、2’,3’SH核苷酸或2’-O-PO3核苷酸。
15.根据权利要求1-14中任一项所述的方法,其中所述阻断基团包含非核苷酸修饰。
16.根据权利要求1-15中任一项所述的方法,其中所述阻断基团还包含萘基偶氮化合物、间隔区和/或生物素。
17.根据权利要求1-16中任一项所述的方法,其中延伸所述第二多于一种寡核苷酸条形码中的寡核苷酸条形码的3’末端包括用具有链置换活性的DNA聚合酶延伸所述第二多于一种寡核苷酸条形码中的寡核苷酸条形码的3’末端。
18.根据权利要求17所述的方法,其中用具有链置换活性的DNA聚合酶延伸所述第二多于一种寡核苷酸条形码中的寡核苷酸条形码的3’末端能够产生包含所述第一分子标记的互补物和所述第一通用序列的互补物的延伸的条形码化核酸分子。
19.根据权利要求1-18中任一项所述的方法,其中延伸所述第二多于一种寡核苷酸条形码中的寡核苷酸条形码的3’末端包括用没有链置换活性的DNA聚合酶延伸所述第二多于一种寡核苷酸条形码中的寡核苷酸条形码的3’末端。
20.根据权利要求1-19中任一项所述的方法,其中所述聚合酶选自包括以下的组:Phi29 DNA聚合酶、大肠杆菌(E.coli)DNA聚合酶I、Bsu DNA聚合酶、Bst DNA聚合酶、TaqDNA聚合酶、VENTTMDNA聚合酶、DEEPVENTTMDNA聚合酶、Taq DNA聚合酶、热启动Taq DNA聚合酶、CrimsonTaq DNA聚合酶、Crimson Taq DNA聚合酶、DNA聚合酶、DNA聚合酶、Hemo DNA聚合酶、DNA聚合酶、DNA聚合酶、高保真DNA聚合酶、Platinum PfxDNA聚合酶、AccuPrime Pfx DNA聚合酶、Klenow片段、Pwo DNA聚合酶、Pfu DNA聚合酶、T4DNA聚合酶、T7 DNA聚合酶、其衍生物或其任何组合。
21.根据权利要求1-20中任一项所述的方法,其中延伸寡核苷酸条形码的3’末端包括使用嗜中温DNA聚合酶、嗜热DNA聚合酶、嗜冷DNA聚合酶或其任何组合延伸寡核苷酸条形码的3’末端。
22.根据权利要求1-21中任一项所述的方法,其中延伸寡核苷酸条形码的3’末端包括使用缺乏5’至3’外切核酸酶活性和3’至5’外切核酸酶活性中的至少一种的DNA聚合酶延伸寡核苷酸条形码的3’末端,并且任选地所述DNA聚合酶包括Klenow片段。
23.根据权利要求1-22中任一项所述的方法,其中延伸所述第一多于一种寡核苷酸条形码包括使用逆转录酶延伸所述第一多于一种寡核苷酸条形码。
24.根据权利要求1-23中任一项所述的方法,其中所述逆转录酶能够具有末端转移酶活性。
25.根据权利要求1-24中任一项所述的方法,其中所述具有链置换活性的逆转录酶是PrimeScript逆转录酶、M-MuLV逆转录酶、SmartScribe逆转录酶、Maxima H Minus逆转录酶和/或Superscript II逆转录酶。
26.根据权利要求1-25中任一项所述的方法,其中所述逆转录酶包括病毒逆转录酶,任选地所述病毒逆转录酶是鼠白血病病毒(MLV)逆转录酶或Moloney鼠白血病病毒(MMLV)逆转录酶。
27.根据权利要求1-26中任一项所述的方法,其中所述第二多于一种寡核苷酸条形码中的每一种寡核苷酸条形码包含第二分子标记,其中所述第二多于一种寡核苷酸条形码中的至少10种包含不同的第二分子标记序列,任选地每一种第二分子标记包含至少6个核苷酸,还任选地所述第二分子标记序列是随机序列。
28.根据权利要求1-27中任一项所述的方法,其中所述第二多于一种寡核苷酸条形码经由所述第二分子标记和与所述核酸靶的至少一部分互补的序列之间的杂交而与所述条形码化核酸分子杂交。
29.根据权利要求1-28中任一项所述的方法,其中所述第二多于一种寡核苷酸条形码中的每一种寡核苷酸条形码包含第二靶结合区。
30.根据权利要求1-29中任一项所述的方法,其中所述第一靶结合区和/或所述第二靶结合区包括多(dA)区、多(dT)区、随机序列、基因特异性序列或其任何组合。
31.根据权利要求1-30中任一项所述的方法,其中所述第二多于一种寡核苷酸条形码中的寡核苷酸条形码经由所述第二靶结合区和与所述核酸靶的至少一部分互补的序列之间的杂交而与所述条形码化核酸分子杂交。
32.根据权利要求1-31中任一项所述的方法,其中所述第二多于一种寡核苷酸条形码中的至少10种包含不同的第二靶结合区,任选地所述靶结合区中的至少两个能够结合不同核酸靶的互补物,还任选地所述靶结合区中的至少两个能够与相同核酸靶的互补物的不同区域杂交。
33.根据权利要求1-32中任一项所述的方法,其中所述第二多于一种寡核苷酸条形码中的两种或更多种寡核苷酸条形码能够与相同核酸靶的互补物的不同区域杂交以产生两种或更多种延伸的条形码化核酸分子。
34.根据权利要求1-33中任一项所述的方法,其中所述两种或更多种延伸的条形码化核酸分子能够由所述第二多于一种寡核苷酸条形码中的两种或更多种寡核苷酸条形码与相同核酸靶的互补物的不同区域杂交而产生。
35.根据权利要求1-34中任一项所述的方法,其中所述两种或更多种延伸的条形码化核酸分子共同构成整个所述核酸靶的至少约50%的序列。
36.根据权利要求1-35中任一项所述的方法,所述方法包括使所述多于一种条形码化核酸分子变性。
37.根据权利要求1-36中任一项所述的方法,所述方法包括使所述多于一种延伸的条形码化核酸分子变性。
38.根据权利要求1-37中任一项所述的方法,所述方法还包括基于以下确定所述样品中所述核酸靶的拷贝数:
与所述多于一种条形码化核酸分子或其产物关联的具有不同序列的第一分子标记的数目。
39.根据权利要求1-38中任一项所述的方法,所述方法还包括基于以下确定所述样品中所述核酸靶的拷贝数:
与所述多于一种延伸的条形码化核酸分子或其产物关联的具有不同序列的第一分子标记、具有不同序列的第二分子标记或其组合的数目。
40.根据权利要求1-39中任一项所述的方法,其中确定所述核酸靶的拷贝数包括基于以下确定所述样品中多于一种核酸靶中的每一种的拷贝数:
与包含所述多于一种核酸靶中的每一种的序列的所述多于一种条形码化核酸分子中的条形码化核酸分子或其产物关联的具有不同序列的第一分子标记的数目;和/或
与包含所述多于一种核酸靶中的每一种的序列所述多于一种延伸的条形码化核酸分子中的延伸的条形码化核酸分子关联的具有不同序列的第一分子标记、具有不同序列的第二分子标记或其组合的数目。
41.根据权利要求1-40中任一项所述的方法,其中所述多于一种核酸靶中的每一种的序列包括所述多于一种核酸靶中的每一种的子序列。
42.根据权利要求1-41中任一项所述的方法,其中所述多于一种条形码化核酸分子中的所述核酸靶的序列包括所述核酸靶的子序列。
43.根据权利要求1-42中任一项所述的方法,其中所述核酸靶包括mRNA。
44.根据权利要求1-43中任一项所述的方法,其中所述样品包括单细胞,任选地免疫细胞,并且还任选地B细胞或T细胞。
45.根据权利要求1-44中任一项所述的方法,其中所述样品包括多于一个细胞、多于一个单细胞、组织、肿瘤样品,或其任何组合。
46.根据权利要求44-45中任一项所述的方法,其中单细胞包括循环肿瘤细胞。
47.根据权利要求1-46中任一项所述的方法,其中:
所述第一多于一种寡核苷酸条形码中的每一种寡核苷酸条形码的第一通用序列在所述第一分子标记和所述第一靶结合区的5’;和/或
所述第二多于一种寡核苷酸条形码中的每一种寡核苷酸条形码的第二通用序列在所述第二分子标记和所述第二靶结合区的5’。
48.根据权利要求1-47中任一项所述的方法,
包括使用扩增引物和包含所述第一通用序列或其一部分的引物扩增所述多于一种条形码化核酸分子,从而产生包含所述核酸靶的序列或其一部分的第一多于一种单标记的核酸分子,
其中确定所述样品中所述核酸靶的拷贝数包括:基于与所述第一多于一种单标记的核酸分子或其产物关联的具有不同序列的第一分子标记的数目来确定所述样品中所述核酸靶的拷贝数。
49.根据权利要求1-48中任一项所述的方法,
包括使用扩增引物和包含所述第二通用序列或其一部分的引物扩增所述多于一种延伸的条形码化核酸分子,从而产生包含所述核酸靶的序列或其一部分的第二多于一种单标记的核酸分子,
其中确定所述样品中所述核酸靶的拷贝数包括:基于与所述第二多于一种单标记的核酸分子或其产物关联的具有不同序列的第二分子标记的数目来确定所述样品中所述核酸靶的拷贝数。
50.根据权利要求48-49中任一项所述的方法,其中所述扩增引物包含第四通用序列。
51.根据权利要求48-50中任一项所述的方法,其中所述扩增引物是靶特异性引物。
52.根据权利要求51所述的方法,其中所述靶特异性引物与以下特异性杂交:免疫受体、免疫受体的恒定区、免疫受体的可变区、免疫受体的多样性区和/或免疫受体的可变区和多样性区的连接处。
53.根据权利要求52所述的方法,其中所述免疫受体是T细胞受体(TCR)和/或B细胞受体(BCR),并且任选地
所述TCR包含TCRα链、TCRβ链、TCRγ链、TCRδ链或其任何组合;并且
所述BCR受体包含BCR重链和/或BCR轻链。
54.根据权利要求1-53中任一项所述的方法,所述方法包括:
使随机引物与所述多于一种条形码化核酸分子杂交并延伸所述随机引物以产生第一多于一种延伸产物,其中所述随机引物包含第三通用序列或其互补物;以及
使用能够与所述第三通用序列或其互补物杂交的引物和能够与所述第一通用序列或其互补物杂交的引物扩增所述第一多于一种延伸产物,从而产生第三多于一种单标记的核酸分子或其产物。
55.根据权利要求1-54中任一项所述的方法,其中确定所述样品中所述核酸靶的拷贝数包括:基于与所述第三多于一种单标记的核酸分子或其产物关联的具有不同序列的第一分子标记的数目来确定所述样品中所述核酸靶的拷贝数。
56.根据权利要求1-55中任一项所述的方法,所述方法包括:
使随机引物与所述多于一种延伸的条形码化核酸分子杂交并延伸所述随机引物以产生第二多于一种延伸产物,其中所述随机引物包含第三通用序列或其互补物;以及
使用能够与所述第三通用序列或其互补物杂交的引物和能够与所述第二通用序列或其互补物杂交的引物扩增所述第二多于一种延伸产物,从而产生第四多于一种单标记的核酸分子或其产物。
57.根据权利要求1-56中任一项所述的方法,其中确定所述样品中所述核酸靶的拷贝数包括:基于与所述第四多于一种单标记的核酸分子或其产物关联的具有不同序列的第二分子标记的数目来确定所述样品中所述核酸靶的拷贝数。
58.根据权利要求1-57中任一项所述的方法,其中所述第一通用序列、所述第二通用序列、所述第三通用序列和/或所述第四通用序列是相同的。
59.根据权利要求1-58中任一项所述的方法,其中所述第一通用序列、所述第二通用序列、所述第三通用序列和/或所述第四通用序列是不同的。
60.根据权利要求1-59中任一项所述的方法,其中所述第一通用序列、所述第二通用序列、所述第三通用序列和/或所述第四通用序列包含测序引物的结合位点和/或测序衔接子、其互补序列和/或其部分。
61.根据权利要求60所述的方法,其中所述测序衔接子包括P5序列、P7序列、其互补序列和/或其部分。
62.根据权利要求60-61中任一项所述的方法,其中所述测序引物包括读段1测序引物、读段2测序引物、其互补序列和/或其部分。
63.根据权利要求1-62中任一项所述的方法,所述方法包括获得所述多于一种条形码化核酸分子或其产物的序列信息。
64.根据权利要求63所述的方法,其中获得所述序列信息包括将测序衔接子附接至所述多于一种延伸的条形码化核酸分子或其产物。
65.根据权利要求1-64中任一项所述的方法,所述方法包括获得所述多于一种延伸的条形码化核酸分子或其产物的序列信息。
66.根据权利要求65所述的方法,其中获得所述序列信息包括将测序衔接子附接至所述延伸的条形码化核酸分子、条形码化核酸分子、其产物或其任何组合。
67.根据权利要求1-66中任一项所述的方法,所述方法包括获得所述第一多于一种单标记的核酸分子、第二多于一种单标记的核酸分子、第三多于一种单标记的核酸分子和第四多于一种单标记的核酸分子或其产物中的一种或更多种的序列信息。
68.根据权利要求67所述的方法,其中获得所述序列信息包括将测序衔接子附接至所述第一多于一种单标记的核酸分子、所述第二多于一种单标记的核酸分子、所述第三多于一种单标记的核酸分子和所述第四多于一种单标记的核酸分子或其产物中的一种或更多种。
69.根据权利要求67-68中任一项所述的方法,其中获得所述第一多于一种单标记的核酸分子、所述第二多于一种单标记的核酸分子、所述第三多于一种单标记的核酸分子和所述第四多于一种单标记的核酸分子或其产物中的一种或更多种的序列信息包括:
获得包含所述第一多于一种单标记的核酸分子、所述第二多于一种单标记的核酸分子、所述第三多于一种单标记的核酸分子和所述第四多于一种单标记的核酸分子或其产物中的一种或更多种的多于一个测序读段的测序数据,
其中所述多于一个测序读段中的每一个包含(1)细胞标记序列,(2)分子标记序列,和/或(3)所述核酸靶的子序列。
70.根据权利要求69所述的方法,所述方法包括:
对于指示所述样品的单细胞的每一种独特细胞标记序列:
使所述核酸靶的所述多于一个测序读段中的每一个对齐以产生所述核酸靶的对齐序列。
71.根据权利要求70所述的方法,其中所述核酸靶的对齐序列包含所述核酸靶的cDNA序列的至少50%、所述核酸靶的cDNA序列的至少70%、所述核酸靶的cDNA序列的至少90%或所述核酸靶的cDNA序列的全长。
72.根据权利要求1-71中任一项所述的方法,其中所述核酸靶是免疫受体,任选地所述免疫受体包含BCR轻链、BCR重链、TCRα链、TCRβ链、TCRγ链、TCRδ链或其任何组合。
73.根据权利要求70-72中任一项所述的方法,其中所述核酸靶的对齐序列包括互补决定区1(CDR1)、互补决定区2(CDR2)、互补决定区3(CDR3)、可变区、可变区的全长或其组合。
74.根据权利要求70-73中任一项所述的方法,其中所述核酸靶的对齐序列包含可变区、多样性区、可变区多样性区的连接处和/或恒定区或其任何组合。
75.根据权利要求63-74中任一项所述的方法,其中:
获得所述序列信息包括获得单细胞的所述BCR轻链和所述BCR重链的序列信息;
所述BCR轻链和所述BCR重链的序列信息包括所述BCR轻链和/或所述BCR重链的互补决定区1(CDR1)、CDR2、CDR3或其任何组合的序列;
所述方法包括基于所获得的序列信息使所述单细胞的所述BCR轻链和所述BCR重链进行配对;和/或
所述样品包括多于一个单细胞,所述方法包括基于所获得的序列信息使至少50%的所述单细胞的所述BCR轻链和所述BCR重链进行配对。
76.根据权利要求63-75中任一项所述的方法,其中:
获得所述序列信息包括获得单细胞的所述TCRα链和所述TCRβ链的序列信息;
所述TCRα链和所述TCRβ链的序列信息包含所述TCRα链和/或所述TCRβ链的互补决定区1(CDR1)、CDR2、CDR3或其任何组合的序列;
所述方法包括基于所获得的序列信息使所述单细胞的所述TCRα链和所述TCRβ链进行配对;和/或
所述样品包括多于一个单细胞,所述方法包括基于所获得的序列信息使至少50%的所述单细胞的所述TCRα链和所述TCRβ链进行配对。
77.根据权利要求63-76中任一项所述的方法,其中:
获得所述序列信息包括获得单细胞的所述TCRγ链和所述TCRδ链的序列信息;
所述TCRγ链和所述TCRδ链的序列信息包括所述TCRγ链和/或所述TCRδ链的互补决定区1(CDR1)、CDR2、CDR3或其任何组合的序列;
所述方法包括基于所获得的序列信息使所述单细胞的所述TCRγ链和所述TCRδ链进行配对;和/或
所述样品包括多于一个单细胞,所述方法包括基于所获得的序列信息使至少50%的所述单细胞的所述TCRγ链和所述TCRδ链进行配对。
78.根据权利要求1-77中任一项所述的方法,其中所述分子标记的互补物包括所述分子标记的反向互补序列或所述分子标记的互补序列。
79.根据权利要求1-78中任一项所述的方法,其中所述多于一种条形码化核酸分子包括条形码化脱氧核糖核酸(DNA)分子、条形码化核糖核酸(RNA)分子或其组合。
80.根据权利要求1-79中任一项所述的方法,其中所述核酸靶包括核酸分子,任选地所述核酸分子包括核糖核酸(RNA)、信使RNA(mRNA)、微RNA、小干扰RNA(siRNA)、RNA降解产物、包含多(A)尾的RNA或其任何组合,并且还任选地所述mRNA编码免疫受体。
81.根据权利要求1-80中任一项所述的方法,其中所述核酸靶包含细胞组分结合试剂,和/或所述核酸分子与所述细胞组分结合试剂关联,任选地,所述方法还包括使所述核酸分子和所述细胞组分结合试剂解离。
82.根据权利要求1-81中任一项所述的方法,其中所述第一多于一种寡核苷酸条形码和/或所述第二多于一种寡核苷酸条形码中的至少10种包含不同的分子标记序列。
83.根据权利要求1-82中任一项所述的方法,其中所述第一多于一种寡核苷酸条形码和/或所述第二多于一种寡核苷酸条形码的每一种分子标记包含至少6个核苷酸。
84.根据权利要求1-83中任一项所述的方法,其中所述第一多于一种寡核苷酸条形码和/或所述第二多于一种寡核苷酸条形码与固体支持物关联。
85.根据权利要求1-84中任一项所述的方法,其中与同一固体支持物关联的所述第一多于一种寡核苷酸条形码和/或第二多于一种寡核苷酸条形码各自包含相同的样品标记。
86.根据权利要求1-85中任一项所述的方法,其中所述第一多于一种寡核苷酸条形码和/或所述第二多于一种寡核苷酸条形码的每一种样品标记包含至少6个核苷酸。
87.根据权利要求1-86中任一项所述的方法,其中所述第一多于一种寡核苷酸条形码和/或所述第二多于一种寡核苷酸条形码各自包含细胞标记。
88.根据权利要求1-87中任一项所述的方法,其中所述第一多于一种寡核苷酸条形码和/或所述第二多于一种寡核苷酸条形码的每一种细胞标记包含至少6个核苷酸。
89.根据权利要求1-88中任一项所述的方法,其中与同一固体支持物关联的所述第一多于一种寡核苷酸条形码和/或所述第二多于一种寡核苷酸条形码中的寡核苷酸条形码包含相同的细胞标记。
90.根据权利要求1-89中任一项所述的方法,其中与不同的固体支持物关联的所述第一多于一种寡核苷酸条形码和/或所述第二多于一种寡核苷酸条形码中的寡核苷酸条形码包含不同的细胞标记。
91.根据权利要求1-90中任一项所述的方法,所述方法包括在存在乙二醇、聚乙二醇、1,2-丙二醇、二甲基亚砜(DMSO)、甘油、甲酰胺、7-脱氮-GTP、乙酰胺、四甲基氯化铵盐、甜菜碱或其任何组合中的一种或更多种的情况下延伸所述寡核苷酸条形码。
92.根据权利要求1-91中任一项所述的方法,其中所述固体支持物包括合成颗粒、平坦表面或其组合。
93.根据权利要求1-92中任一项所述的方法,其中所述样品包括单细胞,所述方法包括使包含所述第一多于一种寡核苷酸条形码和所述第二多于一种寡核苷酸条形码的合成颗粒与所述样品中的单细胞关联。
94.根据权利要求1-93中任一项所述的方法,所述方法包括在使所述合成颗粒与所述单细胞关联之后裂解所述单细胞,任选地裂解所述单细胞包括加热所述样品、使所述样品与去污剂接触、改变所述样品的pH或其任何组合。
95.根据权利要求1-94中任一项所述的方法,其中所述合成颗粒和所述单细胞在同一分区中,并且任选地所述分区是孔或液滴。
96.根据权利要求1-95中任一项所述的方法,其中所述第一多于一种寡核苷酸条形码和/或所述第二多于一种寡核苷酸条形码中的至少一种寡核苷酸条形码被固定或部分地固定在所述合成颗粒上,或者所述第一多于一种寡核苷酸条形码和/或所述第二多于一种寡核苷酸条形码中的至少一种寡核苷酸条形码被包封或部分地包封在所述合成颗粒中。
97.根据权利要求1-96中任一项所述的方法,其中:
所述合成颗粒是可破坏的,任选地是可破坏的水凝胶颗粒;
所述合成颗粒包括珠,任选地所述珠是sepharose珠、链霉抗生物素蛋白珠、琼脂糖珠、磁珠、缀合珠、蛋白A缀合珠、蛋白G缀合珠、蛋白A/G缀合珠、蛋白L缀合珠、寡(dT)缀合珠、二氧化硅珠、二氧化硅样珠、抗生物素微珠、抗荧光染料微珠或其任何组合;和/或
所述颗粒包含选自由以下组成的组的材料:聚二甲基硅氧烷(PDMS)、聚苯乙烯、玻璃、聚丙烯、琼脂糖、明胶、水凝胶、顺磁物质、陶瓷、塑料、玻璃、甲基苯乙烯、丙烯酸聚合物、钛、胶乳、Sepharose、纤维素、尼龙、硅酮及其任何组合。
98.根据权利要求1-97中任一项所述的方法,
其中所述第一多于一种寡核苷酸条形码和/或所述第二多于一种寡核苷酸条形码中的每一种寡核苷酸条形码包含接头官能团,
其中所述合成颗粒包含固体支持物官能团,并且
其中所述支持物官能团和所述接头官能团彼此关联,并且任选地所述接头官能团和所述支持物官能团单独地选自由以下组成的组:C6、生物素、链霉抗生物素蛋白、一种或更多种伯胺、一种或更多种醛、一种或更多种酮及其任何组合。
99.一种固体支持物,所述固体支持物与权利要求1-98中任一项所述的第一多于一种寡核苷酸条形码和第二多于一种寡核苷酸条形码中的一种或两种关联。
CN202380019938.5A 2022-02-07 2023-02-06 制备核酸用于进一步分析其序列 Pending CN118647730A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202263307559P 2022-02-07 2022-02-07
US63/307,559 2022-02-07
PCT/US2023/062070 WO2023150763A1 (en) 2022-02-07 2023-02-06 Preparing nucleic acid for further analysis of their sequence

Publications (1)

Publication Number Publication Date
CN118647730A true CN118647730A (zh) 2024-09-13

Family

ID=85873718

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202380019938.5A Pending CN118647730A (zh) 2022-02-07 2023-02-06 制备核酸用于进一步分析其序列

Country Status (2)

Country Link
CN (1) CN118647730A (zh)
WO (1) WO2023150763A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024086167A2 (en) * 2022-10-17 2024-04-25 10X Genomics, Inc. Methods, compositions, and kits for determining the location of an analyte in a biological sample

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013157821A1 (en) * 2012-04-19 2013-10-24 Seegene, Inc. Detection of target nucleic acid sequence by pto cleavage and extension-dependent signaling oligonucleotide cleavage
GB2546833B (en) 2013-08-28 2018-04-18 Cellular Res Inc Microwell for single cell analysis comprising single cell and single bead oligonucleotide capture labels
KR102363716B1 (ko) 2016-09-26 2022-02-18 셀룰러 리서치, 인크. 바코딩된 올리고뉴클레오티드 서열을 갖는 시약을 이용한 단백질 발현의 측정
EP3635135A1 (en) 2017-06-05 2020-04-15 Becton, Dickinson and Company Sample indexing for single cells
US11365409B2 (en) 2018-05-03 2022-06-21 Becton, Dickinson And Company Molecular barcoding on opposite transcript ends
JP2022511398A (ja) 2018-10-01 2022-01-31 ベクトン・ディキンソン・アンド・カンパニー 5’転写物配列の決定
WO2021092386A1 (en) * 2019-11-08 2021-05-14 Becton Dickinson And Company Using random priming to obtain full-length v(d)j information for immune repertoire sequencing
EP4097248A1 (en) 2020-01-31 2022-12-07 Becton, Dickinson and Company Mesophilic dna polymerase extension blockers
EP4158055B1 (en) 2020-06-02 2024-03-27 Becton, Dickinson and Company Oligonucleotides and beads for 5 prime gene expression assay

Also Published As

Publication number Publication date
WO2023150763A1 (en) 2023-08-10

Similar Documents

Publication Publication Date Title
CN112805389B (zh) 确定5’转录物序列
EP4158055B1 (en) Oligonucleotides and beads for 5 prime gene expression assay
US20210238661A1 (en) Mesophilic dna polymerase extension blockers
CN112243461B (zh) 在相对的转录物末端进行分子条形码化
EP4055160B1 (en) Using random priming to obtain full-length v(d)j information for immune repertoire sequencing
US11932901B2 (en) Target enrichment using nucleic acid probes for scRNAseq
US20220010362A1 (en) cDNA SPIKE-IN CONTROL FOR SINGLE CELL ANALYSIS
US20220033810A1 (en) Single cell assay for transposase-accessible chromatin
EP4150118A1 (en) Primers for immune repertoire profiling
CN118176306A (zh) 用于mRNA 5’分析的模板转换寡核苷酸(TSO)
CN118647730A (zh) 制备核酸用于进一步分析其序列
CN117957330A (zh) 全长单细胞rna测序
WO2024097718A1 (en) Polymerase mediated end modification of abseq
WO2024097719A1 (en) Application for peptide nucleic acid (pna) blocker

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination