CN111511912A - 标记来自单个细胞的核酸分子以进行定相测序 - Google Patents

标记来自单个细胞的核酸分子以进行定相测序 Download PDF

Info

Publication number
CN111511912A
CN111511912A CN201880066011.6A CN201880066011A CN111511912A CN 111511912 A CN111511912 A CN 111511912A CN 201880066011 A CN201880066011 A CN 201880066011A CN 111511912 A CN111511912 A CN 111511912A
Authority
CN
China
Prior art keywords
nucleic acid
acid molecules
base pairs
sequence
molecule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201880066011.6A
Other languages
English (en)
Inventor
图瓦尔·本-耶海兹克尔
英迪拉·吴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Element Bioscience Corp
Original Assignee
Metabiotech Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=65272613&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=CN111511912(A) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Metabiotech Corp filed Critical Metabiotech Corp
Publication of CN111511912A publication Critical patent/CN111511912A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1034Isolating an individual clone by screening libraries
    • C12N15/1065Preparation or screening of tagged libraries, e.g. tagged microorganisms by STM-mutagenesis, tagged polynucleotides, gene tags
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1096Processes for the isolation, preparation or purification of DNA or RNA cDNA Synthesis; Subtracted cDNA library construction, e.g. RT, RT-PCR
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6806Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • C12Q1/6874Methods for sequencing involving nucleic acid arrays, e.g. sequencing by hybridisation
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2563/00Nucleic acid detection characterized by the use of physical, structural and functional properties
    • C12Q2563/179Nucleic acid detection characterized by the use of physical, structural and functional properties the label being a nucleic acid
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2565/00Nucleic acid analysis characterised by mode or means of detection
    • C12Q2565/50Detection characterised by immobilisation to a surface
    • C12Q2565/514Detection characterised by immobilisation to a surface characterised by the use of the arrayed oligonucleotides as identifier tags, e.g. universal addressable array, anti-tag or tag complement array

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Engineering & Computer Science (AREA)
  • Organic Chemistry (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Biotechnology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biomedical Technology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Physics & Mathematics (AREA)
  • Biochemistry (AREA)
  • Microbiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Plant Pathology (AREA)
  • Immunology (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Preparation Of Compounds By Using Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

本公开内容提供了用于从单个细胞中进行长读取测序的方法。该方法可包括构建核酸文库和通过对多个较短核酸序列进行群集与组装来重构较长核酸序列。

Description

标记来自单个细胞的核酸分子以进行定相测序
交叉引用
本申请要求于2017年8月10日提交的美国临时申请号62/543,687的权益,该临时申请通过引用以其全文并入本文。
序列表
本公开内容含有以ASCII格式电子提交并在此通过引用以其全文并入的序列表。所述ASCII副本创建于2018年8月9日,名为50112-705_601_SL.txt,大小为41,162字节。
背景技术
在过去十年,下一代测序(NGS)技术的进步已允许研究人员能够对基因组、表观基因组和转录组进行重新测序,并且已经使人类遗传疾病的分子诊断发生了革命性变化。下一代测序的通量和准确性允许识别小规模和大规模的变异,范围从用于基因组测序的单个核苷酸取代,到用于表观基因组测序的脱氧核糖核酸(DNA)甲基化模式,再到使用转录组测序(核糖核酸(RNA)测序)的基因表达谱。直到最近,这些重新测序的工作大多集中在从组织或细胞集合中提取核酸内容物的生物样品上。虽然高通量测序允许进行详细的分析和在表型与基因组变异之间建立联系,但该分析代表了所分析样品的总体测量,因此掩盖了即使是同一细胞类型的细胞之间也可能存在许多细微之处。细胞群体的总体行为可能不代表单个细胞的行为。细胞周期中不同的时间位置、组织内不同的空间位置、体细胞突变和随机基因表达都会导致群体内细胞间的表达水平存在差异。此外,细胞群体的总体测量可能掩盖细胞亚群的存在,并对较大群体产生不相称的影响。肿瘤组织和微生物群体就是这样,它们在细胞群体组成和细胞克隆进化方面都众所周知地是异质的,并且对治疗具有动态响应。了解癌细胞群体内的异质性可以为控制肿瘤行为和微生物的复杂的细胞间相互作用提供宝贵的启示,并且对个体化护理十分重要。
发明内容
在某些方面,本公开内容提供了一种方法,包括:(a)提供来自分区内的单个细胞的多个核酸分子;(b)将衔接子附加至所述分区内的所述多个核酸分子的一端,其中所述衔接子包含分区特异性条形码和分子特异性条形码,从而生成多个条形码化核酸分子,其中所述分区特异性条形码是所述分区内的所述多个条形码化核酸分子中的每一个所共有的;(c)对所述多个条形码化核酸分子进行扩增,从而生成多个扩增的条形码化核酸分子;(d)对所述多个扩增的条形码化核酸分子进行片段化,以生成多个核酸片段,其中来自所述多个核酸片段的至少一部分(例如,每一个)的核酸片段的至少一部分(例如,每一个)包含不含所述衔接子的第一端和含所述衔接子的第二端;以及(e)通过将来自所述多个核酸片段的所述核酸片段的至少一部分(例如,每一个)的所述第一端连接至所述第二端,对所述多个核酸片段进行环化,从而生成包含所述衔接子的多个环化的核酸分子。
在某些实施方案中,所述方法进一步包括对所述多个环化的核酸分子进行测序,以生成测序读取。在某些实施方案中,所述方法进一步包括用所述分子特异性条形码对所述测序读取进行群集,以生成来自所述单个细胞的所述多个核酸分子的长读取测序信息。在某些实施方案中,所述方法进一步包括在(a)之前对所述分区内的所述单个细胞进行包封。在某些实施方案中,所述方法进一步包括提取所述分区内的所述多个核酸分子。在某些实施方案中,来自所述单个细胞的所述多个核酸分子包括脱氧核糖核酸(DNA)。在某些实施方案中,来自所述单个细胞的所述多个核酸分子包括互补脱氧核糖核酸(cDNA)。在某些实施方案中,来自所述单个细胞的所述多个核酸分子包括RNA。在某些实施方案中,将所述衔接子附加至所述多个核酸分子的5’端和3’端。在某些实施方案中,所述片段化包括对所述扩增的条形码化核酸分子进行随机片段化。在某些实施方案中,所述方法进一步包括对所述测序读取进行定相,以测定所述多个核酸分子中的两个或更多个等位基因的分子起源。在某些实施方案中,所述多个条形码化核酸分子的至少一部分(例如,每一个)包含独特的分子特异性条形码。在某些实施方案中,为所述独特的分子特异性条形码中的每一个生成单独的长读取序列。在某些实施方案中,为所述独特的分子特异性条形码(所述独特的分子特异性条形码中的每一个)生成长读取序列。在某些实施方案中,所述方法进一步包括在多个分区内进行(a)-(e),其中每个分区包含来自单个细胞的多个核酸分子。在某些实施方案中,所述方法进一步包括基于所述分区特异性条形码在来自不同分区的序列读取之间进行区分。在某些实施方案中,所述方法包括对所述多个条形码化核酸分子进行测序,以生成序列读取,以及基于所述分区特异性条形码在来自不同分区的序列读取之间进行区分。
在某些方面,本公开内容提供了一种方法,包括:(a)提供来自分区内的单个细胞的多个核酸分子;(b)将所述分区内的所述多个核酸分子在第一端附加分区特异性条形码并在第二端附加分子特异性条形码,从而生成在相对端包含所述分区特异性条形码和所述分子特异性条形码的多个条形码化核酸分子,其中所述分区特异性条形码是所述分区内的所述多个条形码化核酸分子中的每一个所共有的;(c)对所述多个条形码化核酸分子进行扩增,从而生成多个扩增的条形码化核酸分子;(d)对所述多个扩增的条形码化核酸分子进行片段化,以生成第一多个核酸片段和第二多个核酸片段,所述第一多个核酸片段包含含有所述分子特异性条形码的第一端和不含所述分子特异性条形码的第二端,所述第二多个核酸片段包含含有所述分区特异性条形码的第一端和不含所述分区特异性条形码的第二端;以及(e)通过在所述第一多个核酸片段的至少一部分(例如,每一个)中将所述第一端连接至所述第二端,对所述多个核酸片段进行环化,从而生成包含所述分子特异性条形码的多个环化的核酸分子。
在某些实施方案中,所述方法进一步包括对所述多个环化的核酸分子进行测序,以生成测序读取。在某些实施方案中,所述方法进一步包括用所述分子特异性条形码对所述测序读取进行群集,以生成来自所述单个细胞的所述多个核酸分子的长读取测序信息。在某些实施方案中,所述方法进一步包括在(a)之前对所述分区内的所述单个细胞进行包封。在某些实施方案中,所述方法进一步包括提取所述分区内的所述多个核酸分子。在某些实施方案中,来自所述单个细胞的所述多个核酸分子包括DNA。在某些实施方案中,来自所述单个细胞的所述多个核酸分子包括cDNA。在某些实施方案中,来自所述单个细胞的所述多个核酸分子包括RNA。在某些实施方案中,所述片段化包括对所述扩增的条形码化核酸分子进行随机片段化。在某些实施方案中,所述方法进一步包括对所述测序读取进行定相,以测定所述多个核酸分子中的两个或更多个等位基因的分子起源。在某些实施方案中,所述多个条形码化核酸分子的至少一部分(例如,每一个)包含独特的分子特异性条形码。在某些实施方案中,为所述独特的分子特异性条形码中的每一个生成单独的长读取序列。在某些实施方案中,为所述独特的分子特异性条形码(每一个独特的分子特异性条形码)生成长读取序列。在某些实施方案中,所述方法进一步包括在多个分区内进行(a)-(e),其中每个分区包含来自单个细胞的多个核酸分子。在某些实施方案中,所述方法进一步包括基于所述分区特异性条形码在来自不同分区的序列读取之间进行区分。在某些实施方案中,所述方法进一步包括对所述多个条形码化核酸分子进行测序,以生成序列读取,以及基于所述分区特异性条形码在来自不同分区的序列读取之间进行区分。
在某些方面,本公开内容提供了一种方法,包括:(a)提供来自分区内的单个细胞的多个核酸分子;(b)将所述分区内的所述多个核酸分子在第一端附加分区特异性条形码并在第二端附加分子特异性条形码,从而生成在相对端包含所述分区特异性条形码和所述分子特异性条形码的多个条形码化核酸分子,其中所述分区特异性条形码是所述分区内的所述多个条形码化核酸分子中的每一个所共有的;(c)对所述多个条形码化核酸分子进行扩增,从而生成多个扩增的条形码化核酸分子;(d)对所述多个扩增的条形码化核酸分子进行片段化,从而生成包含所述分区特异性条形码的第一核酸片段群体和包含所述分子特异性条形码的第二核酸片段群体;(e)将所述第一核酸片段群体与所述第二核酸片段群体连接,从而生成多个连接的核酸片段,其中所述多个连接的核酸片段的至少一部分(例如,每一个)包含在所述连接的核酸片段内彼此相邻的所述分区特异性条形码和所述分子特异性条形码;以及(f)通过将所述多个连接的核酸片段的至少一部分(例如,每一个)的相对端连接,对所述多个核酸片段进行环化,从而生成多个环化的核酸分子。
在某些实施方案中,所述方法进一步包括对所述多个环化的核酸分子进行测序,以生成测序读取。在某些实施方案中,所述方法进一步包括对来自所述测序读取的所述分子特异性条形码和所述分区特异性条形码进行配对,以生成来自所述单个细胞的所述多个核酸分子的长读取测序信息。在某些实施方案中,所述方法进一步包括在多个分区内进行(a)-(f),其中每个分区包含来自单个细胞的多个核酸分子。在某些实施方案中,所述方法进一步包括基于所述分区特异性条形码在来自不同分区的序列读取之间进行区分。在某些实施方案中,所述方法进一步包括对所述多个条形码化核酸分子进行测序,以生成序列读取,以及基于所述分区特异性条形码在来自不同分区的序列读取之间进行区分。在某些实施方案中,所述方法进一步包括在(a)之前对所述分区内的所述单个细胞进行包封。在某些实施方案中,所述方法进一步包括提取所述分区内的所述多个核酸分子。在某些实施方案中,来自所述单个细胞的所述多个核酸分子包括DNA。在某些实施方案中,来自所述单个细胞的所述多个核酸分子包括cDNA。在某些实施方案中,来自所述单个细胞的所述多个核酸分子包括RNA。在某些实施方案中,所述片段化包括对所述扩增的条形码化核酸分子进行随机片段化。在某些实施方案中,所述方法进一步包括对所述测序读取进行定相,以测定所述多个核酸分子中的两个或更多个等位基因的分子起源。在某些实施方案中,所述多个条形码化核酸分子的至少一部分(例如,每一个)包含独特的分子特异性条形码。在某些实施方案中,为所述独特的分子特异性条形码(所述独特的分子特异性条形码中的每一个)生成单独的配对。在某些实施方案中,所述方法包括对所述独特的分子特异性条形码中的每一个进行配对。
在某些方面,本公开内容提供了一种方法,包括:(a)提供来自分区内的单个细胞的多个核酸分子;(b)将衔接子附加至所述分区内的所述多个核酸分子的一端,其中所述衔接子包含分区特异性条形码和分子特异性条形码,从而生成多个条形码化核酸分子,其中所述分区特异性条形码是所述分区内的所述多个条形码化核酸分子中的每一个所共有的;(c)对所述多个条形码化核酸分子进行扩增,从而生成多个扩增的条形码化核酸分子;(d)将延长序列在包含所述衔接子的所述端处附加至所述多个扩增的条形码化核酸分子的至少一部分(例如,每一个),以生成包含所述延长序列的多个扩增的条形码化核酸分子,其中所述延长序列包含能与所述多个扩增的条形码化核酸分子的至少一部分(例如,每一个)中的核酸的一部分(例如,每一个)退火的序列;(e)使所述延长序列与所述多个扩增的条形码化核酸分子的所述至少一部分(例如,每一个)中的所述核酸的所述部分退火;以及(f)用聚合酶延伸与所述多个扩增的条形码化核酸分子的所述至少一部分(例如,每一个)中的所述核酸的所述部分退火的所述延长序列,从而生成多个延伸产物。
在某些实施方案中,所述方法进一步包括对所述多个延伸产物进行测序,以生成测序读取。在某些实施方案中,所述方法进一步包括用所述分子特异性条形码对所述测序读取进行群集,以生成来自所述单个细胞的所述多个核酸分子的长读取测序信息。在某些实施方案中,所述方法进一步包括在(a)之前对所述分区内的所述单个细胞进行包封。在某些实施方案中,所述方法进一步包括提取所述分区内的所述多个核酸分子。在某些实施方案中,来自所述单个细胞的所述多个核酸分子包括DNA。在某些实施方案中,来自所述单个细胞的所述多个核酸分子包括cDNA。在某些实施方案中,来自所述单个细胞的所述多个核酸分子包括RNA。在某些实施方案中,所述方法进一步包括对所述扩增的条形码化核酸分子进行片段化。在某些实施方案中,所述片段化包括对所述扩增的条形码化核酸分子进行随机片段化。在某些实施方案中,所述方法进一步包括对所述测序读取进行定相,以测定所述多个核酸分子中的两个或更多个等位基因的分子起源。在某些实施方案中,所述多个条形码化核酸分子的至少一部分(例如,每一个)包含独特的分子特异性条形码。在某些实施方案中,为所述独特的分子特异性条形码(每个所述独特的分子特异性条形码)生成长读取序列。在某些实施方案中,所述方法进一步包括在(e)之前使包含所述延长序列的所述多个扩增的条形码化核酸分子变性,以生成包含所述延长序列的多个扩增的条形码化单链核酸分子。
在某些方面,本公开内容提供了一种方法,包括:(a)提供来自分区内的单个细胞的多个核酸分子;(b)将所述分区内的所述多个核酸分子在第一端附加分区特异性条形码并在第二端附加分子特异性条形码,从而生成在相对端包含所述分区特异性条形码和所述分子特异性条形码的多个条形码化核酸分子,其中所述分区特异性条形码是所述分区内的所述多个条形码化核酸分子中的每一个所共有的;(c)对所述多个条形码化核酸分子进行扩增,从而生成多个扩增的条形码化核酸分子;(d)将延长序列附加至所述多个扩增的条形码化核酸分子的至少一部分(例如,每一个)的一个或多个端,以生成包含所述延长序列的多个扩增的条形码化核酸分子,其中所述延长序列包含能与所述多个扩增的条形码化核酸分子的所述至少一部分(例如,每一个)中的核酸的一部分(例如,每一个)退火的序列;(e)使所述延长序列与所述多个扩增的条形码化核酸分子的所述至少一部分(例如,每一个)中的所述核酸的所述部分退火;以及(f)用聚合酶延伸与所述多个扩增的条形码化核酸分子的至少一部分(例如,每一个)中的所述核酸的所述部分退火的所述延长序列,从而生成多个延伸产物。
在某些实施方案中,所述方法进一步包括对所述多个延伸产物进行测序,以生成测序读取。在某些实施方案中,所述方法进一步包括用所述分子特异性条形码对所述测序读取进行群集,以生成来自所述单个细胞的所述多个核酸分子的长读取测序信息。在某些实施方案中,所述方法进一步包括在(e)之前使包含所述延长序列的所述多个扩增的条形码化核酸分子变性,以生成包含所述延长序列的多个扩增的条形码化单链核酸分子。
在某些实施方案中,通过引物延伸进行(b)中的所述附加。在某些实施方案中,(a)中的所述多个核酸分子包括RNA,并且通过逆转录进行(b)中的所述附加。在某些实施方案中,通过连接进行(b)中的所述附加。在某些实施方案中,所述方法进一步包括在(b)之前对所述多个核酸分子进行片段化。在某些实施方案中,所述方法进一步包括在(b)之前对所述多个核酸分子进行扩增。在某些实施方案中,在所述分区内进行(b)中的所述附加。在某些实施方案中,通过PCR进行所述扩增。在某些实施方案中,所述分区特异性条形码和所述分子特异性条形码固定在微粒上,其中每个微粒包含多个相同的分区特异性条形码和多个独特的分子特异性条形码。在某些实施方案中,所述分区包含所述微粒。在某些实施方案中,所述分区进一步包含细胞裂解缓冲液。在某些实施方案中,所述分区为水性液滴。在某些实施方案中,所述分区包含单个微粒和单个细胞。在某些实施方案中,通过将包含来自所述单个细胞的所述核酸的液滴与包含所述分区特异性条形码和所述分子特异性条形码的液滴融合在一起来形成所述分区。
在某些方面,本公开内容提供了一种方法,包括:(a)将第一末端标签附加至多个核酸分子的至少一部分(例如,每一个)的第一端并将第二末端标签附加至多个核酸分子的至少一部分(例如,每一个)的第二端,以生成多个条形码化核酸分子,其中所述第一末端标签包含第一测序衔接子序列、通用聚合酶链反应(PCR)序列、分区特异性条形码和分子特异性条形码,含或不含靶分子序列,其中所述第二末端标签包含通用PCR序列,含或不含靶分子序列;(b)对所述多个条形码化核酸分子进行扩增,以生成扩增的核酸分子;(c)对所述扩增的核酸分子进行片段化,从而生成第一多个条形码化片段和第二多个条形码化片段,所述第一多个条形码化片段包含含有所述第一末端标签的第一端和不含所述第一末端标签的第二端,所述第二多个条形码化片段包含含有所述第二末端标签的第一端和不含所述第二末端标签的第二端;(d)对所述第一多个条形码化片段进行环化,以生成环化的核酸分子;(e)对所述环化的核酸分子进行片段化,从而生成多个线性的条形码化核酸分子,其中所述第一末端标签在所述多个线性的条形码化核酸分子的至少一部分(例如,每一个)的内部区域内;(f)将第二测序衔接子附加至所述多个线性的条形码化核酸分子的至少一部分(例如,每一个)的每一端,以生成多个连接双衔接子的条形码化核酸片段;以及(g)对所述多个连接双衔接子的条形码化核酸片段进行扩增,以生成多个扩增的连接双衔接子的条形码化核酸片段。
在某些实施方案中,所述方法进一步包括对所述多个扩增的连接双衔接子的标记条形码的核酸片段进行测序,以生成测序读取。在某些实施方案中,所述方法进一步包括用所述分子特异性条形码对所述测序读取进行群集,以生成所述多个核酸分子的长读取测序信息。在某些实施方案中,所述第一末端标签上的所述靶分子序列包含聚胸腺嘧啶重复,并且所述第二末端标签上的所述靶分子序列包含聚鸟嘌呤重复。在某些实施方案中,所述第一末端标签上的所述靶分子序列包括包夹(bracketing)感兴趣区域的一端的基因特异性序列,并且所述第二末端标签上的所述靶分子序列包含聚鸟嘌呤重复。在某些实施方案中,所述第一末端标签上的所述靶分子序列包括包夹感兴趣区域的一端的基因特异性序列,并且所述第二末端标签上的所述靶分子序列包括包夹所述感兴趣区域的另一端的第二基因特异性序列。在某些实施方案中,所述第一末端标签上的所述靶分子序列包含聚鸟嘌呤重复,并且所述第二末端标签上的所述靶分子序列包含聚胸腺嘧啶重复。在某些实施方案中,所述第一末端标签上的所述靶分子序列包含聚胸腺嘧啶重复。在某些实施方案中,所述第一末端标签上的所述靶分子序列包括靶特异性序列。在某些实施方案中,所述第一末端标签上的所述靶分子序列包含长度为至少6个碱基的随机序列。在某些实施方案中,所述第一末端标签上的所述靶分子序列包含长度为至少8个碱基的随机序列。在某些实施方案中,所述第一末端标签上的所述靶分子序列包含长度为至少10个碱基的随机序列。在某些实施方案中,所述第一末端标签上的所述靶分子序列包含长度为至少12个碱基的随机序列。在某些实施方案中,所述第一末端标签上的所述靶分子序列包含长度为至少16个碱基的随机序列。在某些实施方案中,所述第一末端标签上的所述靶分子序列包含长度为至少20个碱基的随机序列。
在某些方面,本公开内容提供了一种方法,包括:(a)将包含通用聚合酶链反应(PCR)序列和分区特异性条形码、含或不含靶分子序列的第一末端标签附加至多个核酸分子的第一端;(b)将第二末端标签附加至所述多个核酸分子的第二端,其中所述第二末端标签包含测序衔接子序列、通用PCR序列和分子特异性条形码,含或不含靶分子序列,从而生成在第一端包含第一末端标签并在第二端包含第二末端标签的多个条形码化核酸分子;(c)对所述多个条形码化核酸分子进行扩增,以生成扩增的条形码化核酸分子;(d)对所述扩增的条形码化核酸分子进行片段化,从而生成第一多个条形码化片段和第二多个条形码化片段,所述第一多个条形码化片段包含含有所述第一末端标签的第一端和不含所述第一末端标签的第二端,所述第二多个条形码化片段包含含有所述第二末端标签的第一端和不含所述第二末端标签的第二端;(e)对所述第一和第二多个条形码化片段进行环化,以生成环化的核酸分子;(f)对所述环化的核酸分子进行片段化,从而生成多个线性的条形码化核酸分子,其中所述第一末端标签在所述多个线性的条形码化核酸分子的至少一部分(例如,每一个)的内部区域内;(g)将第二测序衔接子附加至所述多个线性的条形码化核酸分子的至少一部分(例如,每一个)的每一端,以生成多个连接双衔接子的条形码化核酸片段;以及(h)对所述多个连接双衔接子的条形码化核酸片段进行扩增,以生成多个扩增的连接双衔接子的条形码化核酸片段。
在某些实施方案中,所述方法进一步包括对所述多个扩增的连接双衔接子的标记条形码的核酸片段进行测序,以生成测序读取。在某些实施方案中,所述方法进一步包括用所述分子特异性条形码对所述测序读取进行群集,以生成所述多个核酸分子的长读取测序信息。在某些实施方案中,所述分区特异性条形码标签上的所述靶分子序列包含聚胸腺嘧啶重复,并且所述分子特异性标签上的所述靶分子序列包含聚鸟嘌呤重复。在某些实施方案中,所述分区特异性条形码标签上的所述靶分子序列包含包夹感兴趣区域的一端的靶特异性序列,并且所述分子特异性标签上的所述靶分子序列包含聚鸟嘌呤重复。在某些实施方案中,所述分区特异性条形码标签上的所述靶分子序列包含包夹感兴趣区域的一端的靶特异性序列,并且所述分子特异性标签上的所述靶分子序列包含包夹所述感兴趣区域的另一端的第二基因特异性序列。在某些实施方案中,所述分区特异性条形码标签上的所述靶分子序列包含聚鸟嘌呤重复,并且所述分子特异性条形码标签上的所述靶分子序列包含聚胸腺嘧啶重复。在某些实施方案中,所述分区特异性条形码标签上的所述靶分子序列包含聚胸腺嘧啶重复。在某些实施方案中,所述分区特异性条形码标签上的所述靶分子序列包含基因特异性序列。在某些实施方案中,所述分区特异性条形码标签上的所述靶分子序列包含长度为至少6个碱基的随机序列。在某些实施方案中,所述分区特异性条形码标签上的所述靶分子序列包含长度为至少8个碱基的随机序列。在某些实施方案中,所述分区特异性条形码标签上的所述靶分子序列包含长度为至少10个碱基的随机序列。在某些实施方案中,所述分区特异性条形码标签上的所述靶分子序列包含长度为至少12个碱基的随机序列。在某些实施方案中,所述分区特异性条形码标签上的所述靶分子序列包含长度为至少16个碱基的随机序列。在某些实施方案中,所述分区特异性条形码标签上的所述靶分子序列包含长度为至少20个碱基的随机序列。在某些实施方案中,在单个细胞的分区内部发生(b)中的所述附加。在某些实施方案中,在分区被破坏并且所有所述标记条形码的核酸分子被合并后,发生(b)中的所述附加。在某些实施方案中,通过引物延伸进行(b)中的所述附加。在某些实施方案中,通过连接进行(b)中的所述附加。在某些实施方案中,在(b)中附加分子特异性条形码之前对所述核酸分子进行片段化。在某些实施方案中,通过PCR进行所述扩增。
在某些实施方案中,在分区内发生(a)中的所述附加。在某些实施方案中,通过引物延伸进行(a)中的所述附加。在某些实施方案中,通过逆转录进行(a)中的所述附加。在某些实施方案中,通过连接进行(a)中的所述附加。
在某些方面,本公开内容提供了一种方法,包括:(a)将第一末端标签附加至多个核酸分子的至少一部分(例如,每一个)的第一端并将第二末端标签附加至多个核酸分子的至少一部分(例如,每一个)的第二端,以生成多个条形码化核酸分子,其中所述第一末端标签包含第一测序衔接子序列、通用聚合酶链反应(PCR)序列、分区特异性条形码和分子特异性条形码,含或不含靶分子序列,其中所述第二末端标签包含通用聚合酶链反应(PCR)序列,含或不含靶分子序列;(b)对所述多个条形码化核酸分子进行扩增,从而生成多个扩增的条形码化核酸分子;(c)将延长序列在包含所述第一末端标签的一端处附加至所述多个扩增的条形码化核酸分子的至少一部分(例如,每一个),以生成包含所述延长序列的多个扩增的条形码化核酸分子,其中所述延长序列包含能与所述多个扩增的条形码化核酸分子的所述至少一部分(例如,每一个)中的核酸分子的一部分(例如,每一个)退火的序列;(d)使包含所述延长序列的所述多个扩增的条形码化核酸分子变性,以生成包含所述延长序列的多个扩增的条形码化单链核酸分子;(e)使所述延长序列与所述多个扩增的条形码化单链核酸分子的至少一部分(例如,每一个)中的所述核酸的所述部分退火;(f)用聚合酶延伸与所述多个扩增的条形码化单链核酸分子的所述至少一部分(例如,每一个)中的所述核酸的所述部分退火的所述延长序列,从而生成多个延伸产物;(g)将第二测序衔接子附加至所述多个延伸产物的至少一部分(例如,每一个)的每一端,以生成多个双衔接子的条形码化核酸片段;以及(h)对所述多个双衔接子的条形码化核酸片段进行扩增,以生成多个扩增的双衔接子的条形码化核酸片段。
在某些实施方案中,所述方法进一步包括对所述多个扩增的双衔接子的条形码化核酸片段进行测序,以生成测序读取。在某些实施方案中,所述方法进一步包括用所述分子特异性条形码对测序读取进行群集,以生成所述多个核酸分子的长读取测序信息。在某些实施方案中,通过PCR进行(b)中的所述扩增。在某些实施方案中,通过PCR进行(c)中的所述附加。在某些实施方案中,通过连接进行(c)中的所述附加。在某些实施方案中,使用含有所述第二测序衔接子和在所述延长序列下游的靶特异性序列的引物,通过PCR进行(g)中的所述附加。在某些实施方案中,所述方法进一步包括在进行(g)中的所述附加之前对所述标记条形码的且延长的核酸分子进行片段化。
在某些方面,本公开内容提供了一种方法,包括:(a)将包含通用聚合酶链反应(PCR)序列和分区特异性条形码、含或不含靶分子序列的第一末端标签附加至多个核酸分子的第一端;(b)将第二末端标签附加至所述多个核酸分子的第二端,其中所述第二末端标签包含测序衔接子序列、通用PCR序列和分子特异性条形码,含或不含靶分子序列,从而生成在第一端包含第一末端标签并在第二端包含第二末端标签的多个条形码化核酸分子;(c)对所述多个条形码化核酸分子进行扩增,以生成扩增的条形码化核酸分子;(d)将延长序列附加至所述多个扩增的条形码化核酸分子的至少一部分(例如,每一个)的一端,以生成包含所述延长序列的多个扩增的条形码化核酸分子,其中所述延长序列包含能与所述多个扩增的条形码化核酸分子的所述至少一部分(例如,每一个)中的核酸分子的一部分(例如,每一个)退火的序列;(e)使包含所述延长序列的所述多个扩增的条形码化核酸分子变性,以生成包含所述延长序列的多个扩增的条形码化单链核酸分子;(f)将所述延长序列与所述多个扩增的条形码化单链核酸分子的至少一部分(例如,每一个)中的所述核酸的所述部分退火;(g)用聚合酶延伸与所述多个扩增的条形码化单链核酸分子的所述至少一部分(例如,每一个)中的所述核酸的所述部分退火的所述延长序列,从而生成多个延伸产物;(h)将第二测序衔接子附加至所述多个延伸产物的至少一部分(例如,每一个)的每一端,以生成多个双衔接子的条形码化核酸片段;以及(i)对所述多个双衔接子的条形码化核酸片段进行扩增,以生成多个扩增的连接双衔接子的条形码化核酸片段。
在某些实施方案中,所述方法进一步包括对所述多个扩增的连接双衔接子的标记条形码的核酸片段进行测序,以生成测序读取。在某些实施方案中,所述方法进一步包括用所述分子特异性条形码对所述测序读取进行群集,以生成所述多个核酸分子的长读取测序信息。在某些实施方案中,在单个细胞的分区内发生(b)中的所述附加。在某些实施方案中,在分区被破坏并且所有所述标记条形码的核酸分子被合并后,发生(b)中的所述附加。在某些实施方案中,通过引物延伸进行(b)中的所述附加。在某些实施方案中,通过连接进行(b)中的所述附加。在某些实施方案中,在进行(b)中的所述附加之前对所述核酸分子进行片段化。在某些实施方案中,通过PCR进行(c)中的所述扩增。在某些实施方案中,通过PCR进行(d)中的所述附加。在某些实施方案中,通过连接进行(d)中的所述附加。在某些实施方案中,使用含有所述第二测序衔接子和在所述延长序列下游的靶特异性序列的引物,通过PCR进行(h)中的所述附加。在某些实施方案中,所述方法进一步包括在进行(h)中的所述附加之前对所述标记条形码的且延长的核酸分子进行片段化。
在某些实施方案中,在分区内发生(a)中的所述附加。在某些实施方案中,通过引物延伸进行(a)中的所述附加。在某些实施方案中,通过逆转录进行(a)中的所述附加。在某些实施方案中,通过连接进行(a)中的所述附加。在某些实施方案中,将不同的延长序列附加至共有相同分子特异性条形码的所述核酸分子的不同拷贝,从而生成具有与不同内部位置互补的不同延长序列的标记条形码的核酸分子的库。在某些实施方案中,经设计,所述不同的内部位置覆盖所述核酸分子的长度或者感兴趣的不连续区域。在某些实施方案中,所述延长序列包含长度为至少6个碱基的随机序列。在某些实施方案中,所述延长序列包含长度为至少8个碱基的随机序列。在某些实施方案中,所述延长序列包含长度为至少10个碱基的随机序列。在某些实施方案中,所述延长序列包含长度为至少12个碱基的随机序列。在某些实施方案中,所述延长序列包含长度为至少16个碱基的随机序列。在某些实施方案中,所述延长序列包含长度为至少20个碱基的随机序列。在某些实施方案中,在稀释条件下通过热变性进行所述变性。在某些实施方案中,在稀释条件下通过碱变性进行所述变性。在某些实施方案中,通过对待去除的链进行5’磷酸化以及用λ核酸外切酶进行酶消化来进行所述变性。在某些实施方案中,通过附加待用5’生物素化去除的链、将所述链固定在包覆链霉亲和素的固体表面以及经洗涤和/或变性释放所述用于延长的链来进行所述变性。在某些实施方案中,等温地进行所述延伸。在某些实施方案中,通过在一温度下进行引物退火以及在不同温度下进行延伸来进行所述延伸。
在某些实施方案中,核酸序列是针对长度为至少约500个碱基的核酸序列而获得的。在某些实施方案中,核酸序列是针对长度为至少约1000个碱基的较长核酸序列而获得的。在某些实施方案中,核酸序列是针对长度为至少约1000个或更多碱基的较长核酸序列而获得的。在某些实施方案中,核酸序列是针对长度为至少1千碱基至约20千碱基的较长核酸序列而获得的。
援引并入
本说明书中所提到的所有出版物、专利、专利申请和NCBI登记编号均通过引用并入本文,其程度如同特别地且单独地指出每个单独的出版物、专利、专利申请或NCBI登记编号通过引用而并入。如果通过引用而并入的出版物、专利、专利申请或NCBI登记编号与本说明书中包含的公开内容相矛盾,则本说明书旨在取代和/或优先于任何这样的矛盾材料。
附图说明
本公开内容的新颖特征在所附的权利要求书中具体阐述。通过参考以下对利用本公开内容原理的说明性实施方案加以阐述的详细描述和附图,将会获得对本公开内容的特征和优点的更好理解,在这些附图中:
图1描绘了利用分子内连接从单个细胞中的核酸分子获得组装的单分子合成长读取的说明性方法的概述。
图2描绘了利用分子内延长从单个细胞中的核酸分子获得组装的单分子合成长读取的说明性方法的概述。
图3描绘了含有分区特异性条形码和分子特异性条形码的说明性末端标签和模板转换寡核苷酸的结构。
图4描绘了含有条形码化微粒的单细胞包封的示例性说明。
图5和图6描绘了标记单个分子和将条形码分配到靶分子内的位置以生成短核酸分子的示例性说明。
图7描绘了用于标记单个分子和将条形码分配到靶分子内的位置以生成短核酸分子的另一种方法的示例性说明。
图8描绘了来自独特的分子条形码的示例短读取的位置映射。将具有分子条形码序列GCTTCCTTCTGA(SEQ ID NO:1)的短读取映射到参考序列NM_001323960.1(SEQ ID NO:30)。利用现有的3’RNAseq技术只能将短读取映射到RNA转录物的3’端。利用本公开内容的合成长读技术将短读取映射到RNA转录物的3’端以及整个转录物的长度。
图9描绘了来自独特的分子条形码的示例短读取的位置映射。将具有分子条形码序列GTCAGAAGCACT(SEQ ID NO:2)的短读取映射到参考序列NM_001688.4(SEQ ID NO:31)。利用现有的3’RNAseq技术只能将短读取映射到RNA转录物的3’端。利用本公开内容的合成长读技术将短读取映射到RNA转录物的3’端以及整个转录物的长度。
具体实施方式
虽然本文已经示出并描述了本公开内容的某些实施方案,但是对本领域技术人员来说,仅以示例的方式提供这些实施方案将是显而易见的。在不脱离本公开内容的前提下,本领域技术人员可想到各种改变、变化和替代。应理解的是,在实践本公开内容时可采用本文所述的本公开内容实施方案的各种替代方案。以下权利要求旨在限定本公开内容的范围,并由此涵盖这些权利要求范围内的方法和结构及其等同物。
在对各个实施方案的这种详细描述中,出于解释的目的,阐明了许多具体细节,以提供对所公开的实施方案的彻底理解。然而,本领域技术人员将理解,可以在有或没有这些具体细节的情况下实施这些各个实施方案。在其他情况下,结构和装置以框图形式示出。此外,本领域技术人员可以容易地理解,呈现和执行方法的具体顺序是说明性的,并且预期该顺序可以变化并且仍然保持在本文公开的各个实施方案的精神和范围内。
除非另有定义,本文使用的所有技术和科学术语与本公开内容所属领域的普通技术人员通常理解的含义相同。如有冲突,将以包括定义的本公开内容为准。此外,除非上下文另有要求,单数术语应包括复数,复数术语应包括单数。
目前,例如可以利用对来自单个细胞的mRNA分子进行3’和5’标记和测序来读取的cDNA序列的长度可能受限于大规模并行测序技术的测序长度,即短读取测序技术的读取长度。使用这些短读取测序技术的读取长度的范围可为100-500个碱基对(bp)。然而,当感兴趣基因或感兴趣区域比读取长度长时,和/或当感兴趣区域不在分子的3’或5’端的读取长度内时,mRNA分子的序列信息可能会丢失。此外,mRNA分子可能经历从由DNA转录的前体mRNA进行剪接,以去除内含子并将外显子连接在一起(通常以组合的方式)。由相同的新生前体信使RNA的可变剪接可产生不同的mRNA变体,称为剪接变体。这些剪接变体可共有相同的3’和/或5’序列,但不共有成熟mRNA形式中的间插序列。因此,仅获得mRNA分子的3’或5’序列可能掩盖mRNA分子的真实序列,进而掩盖转录组的真实多样性,从而可能会模糊单细胞差异基因表达分析。
避免读取长度问题的一个可能的方法是合成长读取(SLR)测序,其中,可用相同的分区特异性条形码多次标记相同的核酸分子,通过分区特异性标签的随机片段化和连接或者通过随机寡核苷酸引发来附加分区特异性标签,每个条形码拷贝可沿核酸分子标记在不同的位置上。然后可将从以这种方式制备的核酸文库得到的短读取序列信息用于通过将每个分区的重叠短读取组装至核酸分子的不同序列来重构原始核酸分子的序列。该方法的缺点在于这种方法可能无法在具有大量与相同细胞/分区中的其他分子相同或非常相似的序列段的核酸分子之间进行区分其他例如,在mRNA剪接变体的情况下,同源性组装法无法确定某些短读取序列是否来自同一mRNA分子或来自同一细胞内同一基因的不同mRNA剪接变体。相同细胞内的基因组DNA的同源段也可能有同样的情况。这种无法通过其分子起源准确地群集和组装短测序读取的现象可称为定相问题。
为了解决定相问题,可使用短读取数据来推断长读取测序信息。将来自单个细胞的核酸分子(例如,长度为数千碱基)稀释到多个分区中,从而使每个分区含高同源性分子的概率较低。可将每个分区中的核酸内容物用分区特异性条形码标记,扩增,并转化为短读取测序文库。可以使用分区特异性条形码将短读取序列信息组装回原始长分子。然而,当在样品中存在多个高同源性分子时,基于稀释的SLR方法可能失效,使得每个分区内的分子不具有独特性。在这种情况下,分区特异性条形码不能将同源的分子彼此区分开,因为短读取序列信息的组装依赖于使用短读取之间的同源性以及共有同源性的序列来自同一起始分子的假设。因此,现有的SLR方法可能无法准确地定相高同源性序列,因为它们无法确定特异性短读取测序数据是否起源于特定的核酸分子或来自相似/同源的分子,从而无法从短读取信息中生成合成长读取。
在没有将每个分区内的同源分子彼此区分的方式的情况下,目前的SLR技术还不能解决单细胞测序的定相问题。因此,仍然需要可促进核酸分子(包括与同一细胞内的其他分子同源的分子)的单细胞定相测序的SLR方法。本公开内容的方法可通过提供一种方法来满足这一需要,所述方法可以沿着长核酸分子将分子特异性条形码克隆地分配到各个位置,从而通过确保跨越核酸分子的整个长度的短读取测序信息可以回溯到其细胞/分区和回溯到其单个分子起源而解决了前述单个细胞的定相问题。本公开内容可增加从核酸末端到分子的整个长度或到分子的特定区域的单细胞测序的读取长度,并且可以减少长分子的覆盖偏差。
因此,本公开内容可涉及一种标记单个核酸分子以进行单细胞合成长读取(SLR)DNA测序或RNA测序的方法。例如,该方法可包括将单个细胞包封入各个分区和/或提取其在每个分区内的核酸内容物。该方法可包括用包含分区特异性条形码和/或独特的分子特异性条形码的末端衔接子标记每个分区内的核酸分子,从而获得在每个分区内共有相同分区特异性条形码的独特条形码化的DNA分子的库。该方法还可提供多个克隆的核酸分子,每个核酸分子可在末端具有相同的分区特异性条形码和分子特异性条形码。或者,每个核酸分子可在末端具有不同的分区特异性条形码和分子特异性条形码。该方法可进一步包括对分子内随机位置处的核酸进行片段化。核酸分子可被条形码化,并且/或者对于条形码化核酸分子的每个拷贝,条形码化的末端可与由随机片段化产生的端接合。例如,该方法可包括通过分子内连接对分子进行环化。该方法可还包括对分区特异性条形码、分子特异性条形码和分子中直到且包含随机片段化产生的端的内部序列进行测序。测序后,该方法可包括通过分子特异性条形码对测序数据进行群集以及从核酸分子的多个较短内部序列中为每个分子组装来自每个条形码群集的合成长读取测序数据。通过细胞特异性条形码对合成长读取测序数据进行群集可生成细胞特异性长读取测序数据。由本文所述方法生成的数据可允许在不同相(包括高同源性分子的分子变体)之间进行区分。
本公开内容可涉及一种标记单个核酸分子以进行单细胞合成长读取(SLR)DNA测序或RNA测序的方法。该方法可包括将单个细胞包封入各个分区以及提取其在每个分区内的核酸内容物。该方法可包括在一个末端用分区特异性条形码标记每个分区内的核酸分子和/或在相对的末端用独特的分子特异性条形码标记该核酸分子,从而获得独特条形码化的DNA分子的库。该方法还可提供多个克隆的核酸分子,每个克隆的核酸分子在末端具有相同的分区特异性条形码和分子特异性条形码。该方法可进一步包括对分子内的随机位置处的核酸进行片段化。该方法可包括,例如,通过分子内连接对分子进行环化,以将具有分子特异性条形码的核酸分子的末端与由随机片段化产生的端接合。然后对分区特异性条形码进行测序。例如,测序可包括对分子特异性条形码和分子中直到且包含随机片段化生成的端的内部序列进行测序。该方法可进一步包括对来自多个内部序列的核酸分子序列进行组装。由本文所述方法生成的数据可允许在不同相(包括高同源性分子的分子变体)之间进行区分。
本公开内容可提供一种标记单个核酸分子以进行单细胞合成长读取(SLR)DNA测序或RNA测序的方法。该方法可包括将单个细胞包封入各个分区以及提取其在每个分区内的核酸内容物。在每个分区内进行核酸分子的标记,其中在一个末端标记分区特异性条形码和/或在相对的末端标记独特的分子特异性条形码。从而生成独特条形码化的DNA分子的库。该方法还可提供多个克隆的核酸分子,其中,每个克隆的核酸分子在末端处具有相同的分区特异性条形码和分子特异性条形码。可将具有分区特异性条形码的末端与具有分子特异性条形码的末端接合。通过分子内连接进行分子的环化。该方法可进一步包括对分区特异性条形码和分子特异性条形码进行测序,对来自多个条形码序列的分子特异性条形码与分区特异性条形码进行配对,以及在来自不同分区的核酸分子的序列之间进行区分。
本公开内容可提供一种标记单个核酸分子以进行单细胞合成长读取(SLR)DNA测序或RNA测序的方法。该方法可包括将单个细胞包封入各个分区,提取其在每个分区内的核酸内容物以及用包含分区特异性条形码和独特的分子特异性条形码的末端衔接子标记每个分区内的核酸分子,从而获得独特条形码化的DNA分子的库。该方法可提供多个克隆的核酸分子,每个克隆的核酸分子在末端具有相同的分区特异性条形码和分子特异性条形码。向含有条形码的末端附加也在长核酸分子内部的延长序列。然后可以进行变性并获得在3’末端具有延长序列的单链DNA以进行分子内引发。该方法可包括使具有延长序列的3’末端在内部位置分子内退火,延伸分子,以及对分区特异性条形码、分子特定条形码和在延长序列下游的内部序列进行测序。该方法可包括从核酸分子的多个内部序列组装核酸分子的序列以及在不同相之间进行区分。由本文所述方法生成的数据可允许在不同相(包括高同源性分子的分子变体)之间进行区分。
本公开内容可提供一种标记单个核酸分子以进行单细胞合成长读取(SLR)DNA测序或RNA测序的方法。该方法可包括将单个细胞包封入各个分区以及提取其在每个分区内的核酸内容物。该方法可包括在一个末端用分区特异性条形码标记每个分区内的核酸分子以及在相对的末端用独特的分子特异性条形码标记核酸分子,从而获得独特条形码化的DNA分子的库。该方法可提供多个克隆的核酸分子,每个核酸分子在末端具有相同的分区特异性条形码和分子特异性条形码。该方法可包括向含有分子特异性条形码的末端附加也在长核酸分子内部的延长序列。然后可以进行变性并获得在3’末端具有延长序列的单链DNA以进行分子内引发。该方法可进一步包括使具有延长序列的3’末端在内部位置分子内退火,延伸分子,以及对分区特异性条形码、分子特异性条形码和在延长序列下游的内部序列进行测序。该方法可包括从核酸分子的多个内部序列组装核酸分子的序列。由本文所述方法生成的数据可允许在不同相(包括高同源性分子的分子变体)之间进行区分。
本公开内容可提供一种通过将多个短核酸序列组装成较长核酸序列来从核酸分子中获得核酸序列信息的方法。该方法可包括将包含测序衔接子序列、通用PCR序列、分区特异性条形码和分子特异性条形码、含或不含靶分子序列的末端标签附接至多个核酸分子的一端,以形成标记条形码的分子的库。可在该条形码标签的相对端附接包含通用PCR序列、含或不含靶分子序列的第二末端标签。该方法可包括对标记条形码的分子进行扩增以获得具有多个相同分子拷贝的标记条形码的分子的文库以及对标记条形码的分子进行片段化,从而生成标记条形码的片段,所述标记条形码的片段由在一端的条形码序列和在另一端的来自内部区域的未知序列组成。该方法可包括通过分子内连接,对由在一端的条形码序列和在另一端的来自内部区域的未知序列组成的标记条形码的片段进行环化,从而使条形码序列趋近至具有来自内部区域的未知序列。可将环化的标记条形码的片段片段化为线性的标记条形码的分子,其中条形码序列在线性分子的内部区域。第二测序衔接子可附接至线性的条形码化片段的每一端,以形成连接双衔接子的标记条形码的核酸片段。该方法可进一步包括对全部或部分的连接双衔接子的标记条形码的核酸片段进行扩增,以及对连接双衔接子的标记条形码的核酸片段进行测序。该方法还可包括用分子特异性条形码将经测序的核酸片段群集成组以及将每组具有相同分子特异性条形码的读取组装成长核酸序列。
本公开内容可提供一种通过将多个短核酸序列组装成较长核酸序列来从核酸分子中获得核酸序列信息的方法。该方法可包括将包含通用PCR序列和分区特异性条形码、含或不含靶分子序列的末端标签附接至多个核酸分子的一端,以形成标记条形码的分子的库。然后可在第一条形码标签的相对端附接包含测序衔接子序列、通用PCR序列和分子特异性条形码、含或不含靶分子序列的第二末端标签。对标记条形码的分子进行扩增,以获得具有多个相同分子拷贝的标记条形码的分子的文库。该方法可包括对标记条形码的分子进行片段化,从而生成标记条形码的片段,所述标记条形码的片段由在一端的条形码序列和在另一端的来自内部区域的未知序列组成。该方法可包括通过分子内连接,对由在一端的条形码序列和在另一端的来自内部区域的未知序列组成的标记条形码的片段进行环化,从而使条形码序列趋近至具有来自内部区域的未知序列。该方法可进一步包括将环化的标记条形码的片段片段化为线性的标记条形码的分子,其中条形码序列在线性分子的内部区域。然后可将第二测序衔接子附接至线性的条形码化片段的每一端,以形成连接双衔接子的标记条形码的核酸片段。可对全部或部分的连接双衔接子的标记条形码的核酸片段进行扩增。然后可对连接双衔接子的标记条形码的核酸片段进行测序。该方法可进一步包括用分子特异性条形码将经测序的核酸片段群集成组以及将每组具有相同分子特异性条形码的读取组装成长核酸序列。
本公开内容可提供一种通过将多个短核酸序列组装成较长核酸序列来从核酸分子中获得核酸序列信息的方法。该方法可包括将包含测序衔接子序列、通用PCR序列、分区特异性条形码和分子特异性条形码、含或不含靶分子序列的末端标签附接至多个核酸分子的一端,以形成标记条形码的分子的库。可在条形码标签的相对端附接包含通用PCR序列、含或不含靶分子序列的第二末端标签。该方法可进一步包括对标记条形码的分子进行扩增,以获得具有多个相同分子拷贝的标记条形码的分子的文库以及向含有条形码的末端附加也在长核酸分子内部的延长序列。然后使具有延长序列的标记条形码的双链分子变性或去除其两条链中的一条,从而生成标记条形码的分子,所述标记条形码的分子由条形码序列和3’端处的延长序列组成。可使具有延长序列的3’末端在内部位置分子内退火,以延伸分子,从而使条形码序列趋近至具有与延长序列互补的内部区域。第二测序衔接子可附接至分子内延长的条形码化分子,以形成双衔接子的标记条形码的核酸片段。该方法可进一步包括对全部或部分的双衔接子的标记条形码的核酸片段进行扩增以及对双衔接子的标记条形码的核酸片段进行测序。该方法还可包括用分子特异性条形码将经测序的核酸片段群集成组以及将每组具有相同分子特异性条形码的读取组装成长核酸序列。
本公开内容可提供一种通过将多个短核酸序列组装成较长核酸序列来从核酸分子中获得核酸序列信息的方法。该方法可包括将包含通用PCR序列和分区特异性条形码、含或不含靶分子序列的末端标签附接至多个核酸分子的一端,以形成标记条形码的分子的库。该方法可进一步包括在分区特异性条形码标签的相对端附接包含测序衔接子序列、通用PCR序列和分子特异性条形码、含或不含靶分子序列的第二末端标签。该方法可包括对标记条形码的分子进行扩增以获得具有多个相同分子拷贝的标记条形码的分子的文库,以及向含有条形码的末端附加也在长核酸分子内部的延长序列。然后可使具有延长序列的标记条形码的双链分子变性或去除其两条链中的一条,从而生成标记条形码的分子,所述标记条形码的分子由条形码序列和3’端处的延长序列组成。该方法可包括使具有延长序列的3’末端在内部位置分子内退火以及延伸分子,从而使条形码序列趋近至与延长序列互补的内部区域。第二测序衔接子可附接至分子内延长的条形码化分子,以形成双衔接子的标记条形码的核酸片段。可对所有或部分的双衔接子的标记条形码的核酸片段进行扩增,并对双衔接子的标记条形码的核酸片段进行测序。该方法可进一步包括使用分子特异性条形码将经测序的核酸片段群集成组以及将每组具有相同分子特异性条形码的读取组装成长核酸序列。
本公开内容可提供一种获得构建自短核酸序列的长读取、单细胞核酸信息的方法。可采用本公开内容的方法(例如,通过从短核酸序列组装中长核酸序列)来完成比当前短读取测序仪的读取长度更长的靶核酸分子的测序。本公开内容的方法可以比通过群集重叠的短读取并修正可能已经在NGS样品制备期间和短读取测序期间引入的错误来获得核酸序列信息的其他方法更加精确。
该方法通过允许识别和区分相同或不同染色体上的变异(该变异以其他方式会被同源区域包夹),可用于单体分型。采用本公开内容的方法可以提供定相信息,即变体之间的联系,因为该方法允许将间隔距离大于当前短读测序仪的读取长度的变体相关联。可利用定相序列来测定先前未识别的替代转录物的表达、对合成的长DNA分子进行质量控制、识别重复序列的长度等。本公开内容可提供一种获得高质量、定相长DNA序列的方法。
将单个细胞划分到单独的物理分区中可用于单独表征细胞核酸分子。此外,可将单个细胞的核酸分子在批量表征时与集合细胞的核酸分子分隔开。可采用本公开内容的方法,用条形码标记长核酸分子以及从长核酸分子中获得短核酸测序信息。可通过将一系列短核酸序列组装成较长核酸序列,获得长核酸分子的测序信息。可使用能标记长核酸分子的条形码来识别核酸测序信息的起源。这可包括,例如,可从中提取长核酸分子的物理分区和可从中获得短测序信息的长核酸分子。
可以以序列依赖性方式或序列非依赖性方式进行核酸内容物的条形码标记。可在条形码标记过程中利用序列特异性或部分序列特异性的引物进行序列依赖性条形码标记。作为非限制性示例,当研究可变剪接的转录物时,可以使用与转录物的外显子1互补的正向引物(通常是已知的)和与终止所有可变剪接转录物的聚A尾互补的反向引物将条形码特异性地添加至感兴趣的序列。可在引物混合物中的每个引物的3’端添加独特的条形码序列,以使所得到的产物包含从特异性外显子1起始的所有选择性转录物,其中每个扩增子在其两端侧接有两个独特的条形码序列。在某些情况下,仅正向引物包含条形码序列,从而获得仅在5’端具有独特条形码序列的PCR产物。
可利用可包含共同序列的引物进行序列非依赖性条形码标记,所述共同序列独立于感兴趣的内部序列。作为非限制性示例,当研究全细胞mRNA序列时,可通过利用与所有mRNA转录物共有的聚A尾互补的逆转录引物,将条形码添加至所有的mRNA分子。可用具有末端转移酶和链转换活性的逆转录酶进行逆转录。由逆转录酶在到达mRNA转录物的5’端时附加的短胞嘧啶重复可用于附接条形码序列。可通过利用包含随机序列的引物来进行序列依赖性条形码标记,所述随机序列能在靶核酸分子的库中的未知位置进行引发。或者,可通过将条形码经由连接直接附接在靶核酸分子的末端来进行序列非依赖性条形码标记。
靶核酸分子的条形码标记可包括用分区特异性条形码标记分子,其中每个分区内的多个分子共有相同的分区特异性条形码;以及用分子特异性条形码标记分子,其中每个分区内的每个分子具有独特的分子特异性条形码。可以在核酸分子的5’端和/或3’端标记分区特异性条形码和分子特异性条形码,或每端标记一个条形码,例如,5’端的分区特异性条形码和3’端的分子特异性条形码,反之亦然。例如,这可通过使用包含条形码的寡核苷酸进行引物延伸、使用包含条形码的寡核苷酸进行逆转录或者在核酸分子与包含条形码的连接衔接子之间进行平端连接来实现。
该方法可包括为混合物(例如,从物理分区内的单个细胞中提取的核酸分子)中的每个长核酸分子生成具有相同条形码的短核酸分子的库,所述条形码对每个长核酸分子来说都是独特的。短核酸分子可覆盖长分子的整个长度,或者覆盖长分子内的感兴趣的特定区域。感兴趣的特定区域可以是不连续的,例如,其可被同源性区域分隔,或者被因不是测序工作的重点而在测序信息收集中省略的区域分隔。
该方法可进一步包括在物理分区内将核酸分子的库片段化为多个较短的核酸分子,所述较短的核酸分子仍比短读测序仪的读取长度更长。当核酸分子的库是基因组DNA时,核酸分子的片段化可能是必要的。在物理分区内进行片段化之前,可以以序列依赖性或序列非依赖性方式对核酸分子进行扩增。
图1和图2示出了本公开内容的示例性流程概述。可以用分区特异性条形码和分子特异性条形码标记多个核酸分子(图1C)。可以扩增均具有相同的分区特异性条形码和分子特异性条形码的标记的多个核酸分子(图1D),以形成每个条形码化核酸分子的多个拷贝。这有利于下游加工,其中短核酸分子共同地覆盖长分子或长分子的特定区域。可将短核酸分子组装成一个或多个长核酸序列,所述方法包括:在长核酸分子内的未知位置处对标记条形码的核酸分子进行片段化,其中在不同的未知位置处将长核酸分子的每个克隆拷贝片段化(图1E);对片段化的标记条形码的核酸分子进行环化,从而使条形码分配并接近靶核酸分子内的不同位置(图1F);对环化的标记条形码的核酸片段进行片段化;将第二测序衔接子附接至线性的标记条形码的核酸片段(图1G);对被测序衔接子(包含条形码和长核酸分子的内部序列)包夹的序列进行扩增(图1G);对双衔接子的标记条形码的短核酸分子进行测序(图1H);使用分区特异性条形码和分子特异性条形码对短核酸分子进行群集(图1H);以及将短核酸序列的每个群集组装成一个或多个长核酸序列(图1I)。
该方法可进一步包括从标记条形码的序列中去除PCR引物区域。例如,可在对标记条形码的片段进行环化之前去除PCR引物区域。或者,可在未知位置处对标记条形码的分子进行片段化之前去除PCR引物区域。
在产生多个克隆核酸分子的同时,可将不同的延长序列附加至核酸分子,使得起源于相同长核酸分子的不同核酸分子可具有相同的分区特异性条形码和分子特异性条形码,以及不同的延长序列(图2D)。延长序列可与靶核酸分子的内部序列互补,或者可包含随机序列。这有利于下游加工,其中短核酸分子共同地覆盖长分子或长分子的特定区域。可将短核酸分子组装成一个或多个长核酸序列,所述方法包括:生成在3’端具有延长序列的标记条形码的单链核酸分子(图2E);使具有标记条形码的核酸分子的延长序列的3’末端在内部位置分子内退火(图2F);使在已知内部位置或未知位置处(取决于延长序列的性质)分子内退火的3’端延伸,从而使条形码分配和接近靶核酸分子内的不同位置(图2F);将第二测序衔接子附接至延长的标记条形码的核酸分子(图2G);对由测序衔接子(包含条形码和长核酸分子的内部序列)包夹的序列进行扩增(图2G);对双衔接子的标记条形码的短核酸分子进行测序;使用分区特异性条形码和分子特异性条形码对短核酸分子进行群集;以及将短核酸序列的每个群集组装成一个或多个核酸序列。
可利用标准NGS文库制备将标记条形码且分配条形码的核酸分子转化为NGS文库以进行短读取测序。该方法可包括:以适于短读取测序的长度在随机位置处对分配条形码的核酸分子进行片段化;通过截短3’突出端并填平3’凹陷端,对末端进行平端化;将平端化的末端加尾;通过TA连接来连接第二测序衔接子;以及对双衔接子的短核酸分子进行扩增。
使用PCR扩增的NGS文库制备可用于将分配条形码的核酸分子转化为NGS文库以进行短读取测序。该方法可包括:采用引物引发和扩增分配条形码的核酸分子,所述引物包含在核酸分子标记过程中并入的相同测序衔接子、第二测序衔接子以及可以在靶核酸分子内部的基因特异性序列;以及对双衔接子的短核酸分子进行进一步扩增。
可以在进行NGS文库制备和短读取测序后从独特条形码化的核酸分子中获得序列信息。该方法可进一步包括将获得的序列基于其分子起源来定相,所述分子起源由独特的分区特异性条形码和分子特异性条形码指示。可以依次采用分子特异性标签和分子特异性标签对短读取测序信息进行群集,并将其组装成从头序列。所得的序列可以是原始长核酸分子的定相重构,并且彼此具有任意程度的同源性或相似性。通过比较相同的或其分类中彼此具有任意共同性的长序列,本方法可在用于估计亲本长分子的库中不同分子的丰度的定量分析中具有明显的优势。
本公开内容可提供制备用于进行高通量、单细胞、长读取测序的核酸的系统和方法,包括单细胞的高通量可扩展划分、有效标记和对每个细胞内的复杂核酸内容物进行测序。此外,本公开内容可促进从核酸分子的短读取测序中推断出定相的长读取序列信息。
应理解的是,本公开内容不限于本文所述的具体方法、条款和试剂等,因为这些可以由熟练的技术人员进行改变。还应理解的是,本文使用的术语仅用于描述具体的说明性实施方案,并不旨在限制本公开内容的范围。除非上下文另有明确指定,否则如在本文和本说明书所附的权利要求书中使用的,单数形式“一个”、“一种”和“该”包括复数的指示对象。因此,例如,提及“一个DNA分子”是提及一个或多个DNA分子及其等同物,“一个多核苷酸”包括单个多核苷酸以及两个或更多个相同或不同的多核苷酸,并且提及“一个核酸”包括单个核酸以及两个或更多个相同或不同的核酸。
参照非限制性实施方案和附图中描述和/或说明以及在以下描述中详述的示例,更充分地解释了本公开内容的实施方案及其各个特征和有利细节。应注意,一个实施方案的特征可以与本领域技术人员将认识到的其他实施方案一起使用,即使本文没有明确说明。可以省略对已知组分和处理技术的描述,从而不会不必要地模糊本公开内容的实施方案。
本公开内容可提供一种将单个细胞包封入单个分区内,裂解分区内的细胞和标记长DNA或RNA分子以进行合成长读取(LSR)测序的方法。该方法可使样品中的单个细胞与裂解试剂和微粒一起分区在水性液滴中,所述微粒已功能化为含有分区特异性标签的多个拷贝,所述分区特异性标签对于使用的所有微粒群体来说是独特的(图4)。该方法可使被裂解细胞混合物中的每个长核酸分子标记有分子特异性条形码,所述分子特异性条形码在每个分区内是独特的。该方法还可使细胞混合物中的每个长核酸分子生成具有相同分子特异性条形码的短DNA分子的库,所述分子特异性条形码在每个分区内部是独特的,从而经设计,短DNA分子共同地跨越并覆盖长分子的整个长度或覆盖感兴趣的特定区域。
可通过使一个通道中的单细胞悬浮液与另一通道中悬浮在裂解缓冲液中的微粒穿过油通道共同流动,将单细胞悬浮液分区到水性液滴中并与条形码化的微粒一起包封。通过控制两个水性通道和油道的流速,可实现水性液滴的特定大小和液滴生成的特定速率。通过控制单细胞悬浮液和微粒悬浮液的浓度,可实现可含有一个细胞或不含细胞并且含有一个条形码化的微粒或不含条形码化的微粒的水性分区。由于分区特异性标签和/或分子特异性标签也可含有用于富集正确标记的长分子的通用测序衔接子,不含分区特异性标签和/或分子特异性标签的单细胞液滴一般不包含在最终的测序文库中。
单细胞悬浮液可被分区到不含条形码化微粒的水性液滴中。通过控制单细胞悬浮液的浓度,可实现可含有一个细胞或不含细胞的水性分区。此外,还可使用裂解缓冲液和含有分区特异性条形码的寡核苷酸溶液来生成水性液滴,使得每个液滴可含有单个分区特异性条形码的多个拷贝。一旦可获得每个分区含有单个细胞和单个分区特异性条形码序列的水性液滴,它们就会共同流动并且彼此融合。由于分区特异性标签和/或分子特异性标签还可含有通用测序衔接子,只有正确并且双重标记的长分子被富集并且包括在最终测序文库中。
用于SLR测序的靶标可以是RNA分子。对每个分区都是独特的末端标签可由测序衔接子、通用PCR序列、分区特异性条形码、分子特异性条形码和/或聚胸腺嘧啶序列组成。图3的末端标签结构1为可在本公开内容中使用的示例性衔接子。以聚胸腺嘧啶序列作为引发位点在RNA分子的聚腺嘌呤尾部进行引发,可在逆转录过程中对每个分区内的RNA分子进行标记。或者,对每个分区都是独特的末端标签由测序衔接子、通用PCR序列、分区特异性条形码、分子特异性条形码和/或基因特异性序列组成。图3的末端标签结构2为可在本公开内容中使用的示例性衔接子。以基因特异性序列作为引发位点在RNA分子的特定位置处进行引发,可在逆转录过程中对每个分区内的RNA分子进行标记。
当用分区特异性条形码和分子特异性条形码标记RNA分子时,在逆转录期间可在分区内使用逆转录酶。用于逆转录的逆转录酶可在cDNA分子的端处添加2-5个胞嘧啶。当RNA分子被具有末端转移酶和模板转换活性的逆转录酶条形码化时,可包含含有聚鸟嘌呤和通用PCR引发序列的模板转换寡核苷酸(TSO)。图3的末端标签结构3为可在本公开内容中使用的示例性衔接子。可以在逆转录酶到达RNA分子的3’端后,在分区内发生模板转换寡核苷酸的模板转换与拷贝。可以在分区已被破坏并且来自所有分区的cDNA已被合并后,发生模板转换寡核苷酸的模板转换与拷贝。
当使用含有分区特异性条形码和分子特异性条形码的末端标签通过逆转录酶对RNA分子进行条形码化时,可以通过使用DNA聚合酶在互补DNA(cDNA)上进行引物延长而在末端标签的相对端附加另外的通用序列。用于附加通用序列的引物还可含有在末端标签下游的基因特异性序列。可以在分区已被破坏并且来自所有分区的cDNA已被合并后,发生第二通用序列的添加。当使用含有分区特异性条形码和分子特异性条形码的末端标签通过逆转录酶对RNA分子进行条形码化时,使用DNA连接酶通过衔接子连接在末端标签的相对端附加另外的通用序列。含有第二通用序列的衔接子可以是双链的并且在两条链中的一条上被5’磷酸化。可以在分区已被破坏并且来自所有分区的cDNA已被合并后,发生第二通用序列的连接。
用于SLR测序的靶标可以是RNA分子,并且对每个分区都是独特的末端标签可包含测序衔接子、通用PCR序列、分区特异性条形码、分子条形码和/或聚鸟嘌呤序列。可使用低聚核苷酸,通过具有末端转移酶和模板转换活性的逆转录酶对每个分区内的RNA分子进行逆转录,所述低聚核苷酸含有通用PCR序列和作为引发位点以在RNA分子的聚腺嘌呤尾部进行引发的聚胸腺嘧啶。分区特异性条形码和分子特异性条形码可通过逆转录酶的模板转换活性拷贝到cDNA上。图3的末端标签结构4是可在本公开内容中使用的示例性衔接子。用于逆转录的寡核苷酸可含有通用PCR序列和聚胸腺嘧啶序列,例如,图3的末端标签结构5。或者,用于逆转录的寡核苷酸可含有通用PCR序列和可在RNA分子的特定位置进行引发的基因特异性序列,例如,图3的末端标签结构6。
对每个分区都是独特的末端标签还可包含通用PCR序列、分区特异性条形码和/或作为引发序列以在RNA分子的聚腺嘌呤尾部进行引发的聚胸腺嘧啶序列。可以使用具有末端转移酶和模板转换活性的逆转录酶,并且其可以在分区内拷贝含有聚鸟嘌呤、分子特异性条形码、测序衔接子和通用PCR序列的模板转换低聚核苷酸的序列。图3的末端标签结构7和末端标签结构8为在本公开内容中使用的示例性衔接子。可以在分区已被破坏并且来自所有分区的cDNA已被合并后,发生模板转换寡核苷酸的模板转换和拷贝。
或者,对每个分区都是独特的末端标签可包含通用PCR序列、分区特异性条形码和/或作为引发位点以在RNA分子的特定位置进行引发的基因特异性序列。可以使用具有末端转移酶和模板转换活性的逆转录酶,并且其可以在分区内拷贝含有聚鸟嘌呤、分子特异性条形码、测序衔接子和/或通用PCR序列的模板转换低聚核苷酸的序列。图3的末端标签结构9和末端标签结构8为可在本公开内容中使用的示例性衔接子。可以在分区已被破坏并且来自所有分区的cDNA已被合并后,发生模板转换寡核苷酸的模板转换和拷贝。
在其他情况下,对每个分区都是独特的末端标签可包含通用PCR序列、分区特异性条形码和/或聚鸟嘌呤序列。可使用低聚核苷酸,通过具有模板转换活性的逆转录酶对每个分区内的RNA分子进行逆转录,所述低聚核苷酸含有测序衔接子、通用PCR序列、分子特异性条形码和/或作为引发位点以在RNA分子的聚腺嘌呤尾部进行引发的聚胸腺嘧啶。图3的末端标签结构10为可在本公开内容中使用的示例性衔接子。分区特异性条形码可通过逆转录酶的模板转换活性拷贝到cDNA上。用于逆转录的寡核苷酸可含有测序衔接子、通用PCR序列和聚胸腺嘧啶序列,例如,图3的末端标签结构11。或者,用于逆转录的寡核苷酸可含有测序衔接子、通用PCR序列、分子特异性条形码和/或可在RNA分子的特定位置进行引发的基因特异性条形码,例如,图3的末端标签结构12。
模板转换寡核苷酸中使用的聚鸟嘌呤可以是核糖核苷酸,并且模板转换寡核苷酸中使用的聚鸟苷可以是脱氧核苷酸。
当使用含有分区特异性条形码的末端标签通过逆转录对RNA分子进行条形码化时,可使用DNA聚合酶,通过在互补DNA(cDNA)上进行引物延长,在末端标签的相对端附加分子特异性条形码。用于附加分子特异性条形码的引物还可含有在末端标签下游的基因特异性序列和通用序列。可以在分区已被破坏并且来自所有分区的cDNA已被合并后,发生分子特异性条形码的添加。当使用含有分区特异性条形码的末端标签通过逆转录酶对RNA分子进行条形码化时,可使用DNA连接酶,通过衔接子连接,在末端标签的相对端附加分子特异性条形码。含有分子特异性条形码的衔接子还可含有通用序列,可以是双链的,并且在两条链中一条上被5’磷酸化。在分区已被破坏并且来自所有分区的cDNA已被合并后,发生分子特异性条形码的连接。
用于通用序列和/或分子特异性条形码的衔接子连接的DNA连接酶可包括但不限于DNA连接酶I、DNA连接酶III、DNA连接酶IV和T4 DNA连接酶。
可以使用T4 DNA连接酶I,通过单链衔接子连接,对每个分区内的RNA分子进行标记。对每个分区都是独特的末端标签可包含测序衔接子、通用PCR序列、分区特异性条形码和分子特异性条形码。末端标签可以被5’磷酸化并且可含有防止末端标签彼此连接的3’修饰,如接头间隔区、倒置碱基或双脱氧核苷酸。图3的末端标签结构13是可在本公开内容中使用的示例性衔接子。
可以使用截短的T4 RNA连接酶II(截短的T4 Rnl2),通过单链衔接子连接,对每个分区内的RNA分子进行标记。对每个分区都是独特的末端标签可包含测序衔接子、通用PCR序列、分区特异性条形码和/或分子特异性条形码。末端标签可以被5’腺苷酸化并且可含有3’修饰,以使两个末端分子不能彼此连接。图3的末端标签结构14是可在本公开内容中使用的示例性衔接子。可以采用5’App DNA/RNA连接酶使单链衔接子连接至RNA分子。
用于SLR测序的靶标可以是DNA分子,并且对每个分区都是独特的末端标签可包含测序衔接子、通用PCR序列、分区特异性条形码、分子条形码和/或基因特异性序列。可以以基因特异性序列作为引发位点在DNA分子的特定位置进行引发,通过聚合酶退火-延伸,对每个分区内的DNA分子进行标记。
用于SLR测序的靶标可以是DNA分子,并且对每个分区都是独特的末端标签可包含测序衔接子、通用PCR序列、分区特异性条形码、分子条形码和/或随机序列。可以以随机序列作为引发位点在DNA分子的各个无偏倚位置进行引发,通过聚合酶退火-延伸,对每个分区内的DNA分子进行标记。
用于SLR测序的标靶可以是DNA分子,并且对每个分区都是独特的末端标签可包含通用PCR序列、分区特异性条形码和/或基因特异性序列。可以以基因特异性序列作为引发位点在DNA分子的特定位置进行引发,通过聚合酶退火-延伸,对每个分区内的DNA分子进行标记。由基因特异性序列、分子特异性条形码、测序衔接子和/或通用PCR序列组成的第二末端标签可用于在分区内对已标记有分区特异性条形码的DNA分子进行条形码化。可以在分区已被破坏并且来自分区的DNA已被合并后,发生用分子特异性条形码进行的第二标记事件。末端标签上的基因特异性序列可包夹DNA分子中的感兴趣区域,以进行下游扩增和定相。
用于SLR测序的靶标可以是DNA分子,并且对每个分区都是独特的末端标签可包含通用PCR序列、分区特异性条形码和/或随机序列。可以以随机序列作为引发位点在DNA分子的各个无偏倚位置进行引发,通过聚合酶退火-延伸,对每个分区内的DNA分子进行标记。包含随机序列、分子特异性条形码、测序衔接子和/或通用PCR序列的第二末端标签可用于使用DNA聚合酶在分区内对已标记有分区特定条形码的DNA分子进行条形码化。可以在分区已被破坏并且来自所有分区的DNA已被合并后,使用分子特异性条形码进行第二标记事件。
用于SLR测序的靶标可以是DNA分子,并且在分区内进行细胞裂解后,每个分区内的DNA分子可经受酶片段化成为比典型的短读取测序读取长度更长的长度。在酶片段化后,可以用DNA连接酶I将包含测序衔接子、通用PCR序列、分区特异性条形码和/或分子特异性条形码的末端标签连接至DNA长片段的一个末端。条形码衔接子可以是双链的并且在两条链中的一条上被5’磷酸化。图3的末端标签结构15是可在本公开内容中使用的示例性衔接子。可在酶片段化之前对DNA分子进行扩增。可在条形码衔接子连接之前对片段化的端进行平端化。
用于SLR测序的靶标可以是例如DNA分子。在分区内进行细胞裂解后,每个分区内的DNA分子可经受酶片段化成为比典型的短读取测序读取长度更长的长度。在酶片段化后,可以用DNA连接酶I将包含通用PCR序列和分区特异性条形码的末端标签连接至DNA长片段的一个末端。条形码衔接子可以是双链的并且在两条链中的一条上用非连接3’端进行5’磷酸化。图3的末端标签结构16是可在本公开内容中使用的示例性衔接子。可在酶片段化之前对DNA分子进行扩增。然后可使用DNA连接酶将包含测序衔接子、通用PCR序列和/或分子特异性条形码的第二末端标签连接在相对端上,例如,图3的末端标签结构17。可以在分区已被破坏并且来自所有分区的DNA已被合并后,使用分子特异性条形码进行第二标记事件。
片段化后的DNA分子的长度可以为大约500-100000个碱基对。片段化后的DNA分子的长度可以为大约1000-50000个碱基对。片段化后的DNA分子的长度可以为大约2000-20000个碱基对。片段化后的DNA分子的长度可以为约500个碱基对至约100,000个碱基对。片段化后的DNA分子的长度可以至少为约500个碱基对。片段化后的DNA分子的长度可以至多为约100,000个碱基对。例如,片段化后的DNA分子的长度可以为约500个碱基对至约1,000个碱基对、约500个碱基对至约2,000个碱基对、约500个碱基对至约5,000个碱基对、约500个碱基对至约7,000个碱基对、约500个碱基对至约10,000个碱基对、约500个碱基对至约20,000个碱基对、约500个碱基对至约30,000个碱基对、约500个碱基对至约40,000个碱基对、约500个碱基对至约50,000个碱基对、约500个碱基对至约75,000个碱基对、约500个碱基对至约100,000个碱基对、约1,000个碱基对至约2,000个碱基对、约1,000个碱基对至约5,000个碱基对、约1,000个碱基对至约7,000个碱基对、约1,000个碱基对至约10,000个碱基对、约1,000个碱基对至约20,000个碱基对、约1,000个碱基对至约30,000个碱基对、约1,000个碱基对至约40,000个碱基对、约1,000个碱基对至约50,000个碱基对、约1,000个碱基对至约75,000个碱基对、约1,000个碱基对至约100,000个碱基对、约2,000个碱基对至约5,000个碱基对、约2,000个碱基对至约7,000个碱基对、约2,000个碱基对至约10,000个碱基对、约2,000个碱基对至约20,000个碱基对、约2,000个碱基对至约30,000个碱基对、约2,000个碱基对至约40,000个碱基对、约2,000个碱基对至约50,000个碱基对、约2,000个碱基对至约75,000个碱基对、约2,000个碱基对至约100,000个碱基对、约5,000个碱基对至约7,000个碱基对、约5,000个碱基对至约10,000个碱基对、约5,000个碱基对至约20,000个碱基对、约5,000个碱基对至约30,000个碱基对、约5,000个碱基对至约40,000个碱基对、约5,000个碱基对至约50,000个碱基对、约5,000个碱基对至约75,000个碱基对、约5,000个碱基对至约100,000个碱基对、约7,000个碱基对至约10,000个碱基对、约7,000个碱基对至约20,000个碱基对、约7,000个碱基对至约30,000个碱基对、约7,000个碱基对至约40,000个碱基对、约7,000个碱基对至约50,000个碱基对、约7,000个碱基对至约75,000个碱基对、约7,000个碱基对至约100,000个碱基对、约10,000个碱基对至约20,000个碱基对、约10,000个碱基对至约30,000个碱基对、约10,000个碱基对至约40,000个碱基对、约10,000个碱基对至约50,000个碱基对、约10,000个碱基对至约75,000个碱基对、约10,000个碱基对至约100,000个碱基对、约20,000个碱基对至约30,000个碱基对、约20,000个碱基对至约40,000个碱基对、约20,000个碱基对至约50,000个碱基对、约20,000个碱基对至约75,000个碱基对、约20,000个碱基对至约100,000个碱基对、约30,000个碱基对至约40,000个碱基对、约30,000个碱基对至约50,000个碱基对、约30,000个碱基对至约75,000个碱基对、约30,000个碱基对至约100,000个碱基对、约40,000个碱基对至约50,000个碱基对、约40,000个碱基对至约75,000个碱基对、约40,000个碱基对至约100,000个碱基对、约50,000个碱基对至约75,000个碱基对、约50,000个碱基对至约100,000个碱基对,或者约75,000个碱基对至约100,000个碱基对。片段化后的DNA分子的长度可以为约500个碱基对、约1,000个碱基对、约2,000个碱基对、约5,000个碱基对、约7,000个碱基对、约10,000个碱基对、约20,000个碱基对、约30,000个碱基对、约40,000个碱基对、约50,000个碱基对、约75,000个碱基对或约100,000个碱基对。
可以在分区内进行随机片段化和条形码连接之前使用DNA聚合酶和长6-20个碱基的随机引物对DNA分子进行扩增。DNA聚合酶可通过使随机寡核苷酸与DNA分子退火而对DNA分子进行等温地扩增,可对模板进行扩增并在DNA合成期间取代与模板互补的链,和/或可生成部分单链DNA区,然后所述部分单链DNA区可用于额外的引物退火和延伸。
随机引物的长度可以为约6个碱基至约20个碱基。随机引物的长度可以为至少约6个碱基。随机引物的长度可以为至多约20个碱基。例如,随机引物的长度可以为约6个碱基至约7个碱基、约6个碱基至约8个碱基、约6个碱基至约9个碱基、约6个碱基至约10个碱基、约6个碱基至约11个碱基、约6个碱基至约12个碱基、约6个碱基至约15个碱基、约6个碱基至约17个碱基、约6个碱基至约18个碱基、约6个碱基至约19个碱基、约6个碱基至约20个碱基、约7个碱基至约8个碱基、约7个碱基至约9个碱基、约7个碱基至约10个碱基、约7个碱基至约11个碱基、约7个碱基至约12个碱基、约7个碱基至约15个碱基、约7个碱基至约17个碱基、约7个碱基至约18个碱基、约7个碱基至约19个碱基、约7个碱基至约20个碱基、约8个碱基至约9个碱基、约8个碱基至约10个碱基、约8个碱基至约11个碱基、约8个碱基至约12个碱基、约8个碱基至约15个碱基、约8个碱基至约17个碱基、约8个碱基至约18个碱基、约8个碱基至约19个碱基、约8个碱基至约20个碱基、约9个碱基至约10个碱基、约9个碱基至约11个碱基、约9个碱基至约12个碱基、约9个碱基至约15个碱基、约9个碱基至约17个碱基、约9个碱基至约18个碱基、约9个碱基至约19个碱基、约9个碱基至约20个碱基、约10个碱基至约11个碱基、约10个碱基至约12个碱基、约10个碱基至约15个碱基、约10个碱基至约17个碱基、约10个碱基至约18个碱基、约10个碱基至约19个碱基、约10个碱基至约20个碱基、约11个碱基至约12个碱基、约11个碱基至约15个碱基、约11个碱基至约17个碱基、约11个碱基至约18个碱基、约11个碱基至约19个碱基、约11个碱基至约20个碱基、约12个碱基至约15个碱基、约12个碱基至约17个碱基、约12个碱基至约18个碱基、约12个碱基至约19个碱基、约12个碱基至约20个碱基、约15个碱基至约17个碱基、约15个碱基至约18个碱基、约15个碱基至约19个碱基、约15个碱基至约20个碱基、约17个碱基至约18个碱基、约17个碱基至约19个碱基、约17个碱基至约20个碱基、约18个碱基至约19个碱基、约18个碱基至约20个碱基或约19个碱基至约20个碱基。随机引物的长度可以为约6个碱基、约7个碱基、约8个碱基、约9个碱基、约10个碱基、约11个碱基、约12个碱基、约15个碱基、约17个碱基、约18个碱基、约19个碱基或约20个碱基。
末端标签中的分区特异性条形码可以完全由随机序列组成,并且每个分区内的条形码的多个拷贝可以是相同的。或者,末端标签中的分区特异性条形码可以由随机序列与已知序列的组合组成。已知序列可用于识别从中可制得细胞分区的样品。末端标签中的分区特异性条形码可由完全已知序列组成,该完全已知序列包含分区特异性序列,或者既包含分区特异性序列又包含样品特异性序列。
可用分区特异性条形码标记核酸分子,所述分区特异性条形码可含有样品特异性条形码。也可进行包括例如分子特异性条形码的第二标记。第二标记可以作为整体单一反应发生,即,可单独标记从中制得细胞分区的每个样品,或者第二标记可以作为整体多重化反应发生,即,可一起标记从中制得不同细胞分区的多个样品(每个库具有不同的样品特异性序列)。
分子特异性末端衔接子可存在于长核酸分子的两端。分子特异性末端衔接子可存在于长核酸分子的一端。分子特异性末端衔接子的位置可以是长核酸分子的上游。或者,分子特异性末端衔接子的位置可以是长核酸分子的下游。
如本文所用,“分子特异性条形码”和“分子条形码”可以互换使用。末端标签中的分子特异性条形码或分子条形码可包含完全随机序列。末端标签中的分子条形码可包含半随机序列,例如,随机分子特异性序列与已知序列的组合,其中已知序列用于识别多个亲本核酸序列所起源的样品。或者,末端标签中的分子条形码可包含完全已知序列,该完全已知序列包含分子特异性序列,或者既包含分子特异性序列又包含样品特异性序列。
延长序列可包含完全随机序列。延长序列可包含随机分子特异性序列与已知序列的组合,其中已知序列用于识别多个亲本核酸序列所起源的样品。延长序列可包含完全已知序列,该完全已知序列包含分子特异性序列,或者既包含分子特异性序列又包含样品特异性序列。延长序列可与靶核酸序列的一部分有基本或完全的互补性。延长序列可与靶核酸序列的一部分有部分互补性。延长序列可与与之退火的靶核酸序列的一部分有例如至少约10%、15%、20%、25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、96%、97%、98%、99%或100%的互补性。
用于识别各个核酸分子的分区起源或者用于识别短读取序列的长分子起源的条形码序列可具有约10-50bp、约15-30bp或约20-25bp的长度。条形码序列可具有约10bp、约20bp、约30bp、约40bp或约50bp的长度。条形码序列可具有约15bp、约20bp、约25bp或约30bp的长度。条形码序列可具有约20bp或约25bp的长度。条形码序列的长度可以为约10个碱基对(bp)至约50个碱基对(bp)。条形码序列可具有约5bp至约50bp的长度。条形码序列可具有至少约5bp的长度。条形码序列可具有至多约50bp的长度。条形码序列的长度可以为至少约10个碱基对。条形码序列的长度可以为至多约50个碱基对。例如,条形码序列可具有约5bp至约10bp、约5bp至约15bp、约5bp至约20bp、约5bp至约25bp、约5bp至约30bp、约5bp至约35bp、约5bp至约40bp、约5bp至约45bp、约5bp至约50bp的长度。条形码序列的长度可以为约10个碱基对至约15个碱基对、约10个碱基对至约17个碱基对、约10个碱基对至约19个碱基对、约10个碱基对至约22个碱基对、约10个碱基对至约25个碱基对、约10个碱基对至约27个碱基对、约10个碱基对至约30个碱基对、约10个碱基对至约35个碱基对、约10个碱基对至约40个碱基对、约10个碱基对至约45个碱基对、约10个碱基对至约50个碱基对、约15个碱基对至约17个碱基对、约15个碱基对至约19个碱基对、约15个碱基对至约22个碱基对、约15个碱基对至约25个碱基对、约15个碱基对至约27个碱基对、约15个碱基对至约30个碱基对、约15个碱基对至约35个碱基对、约15个碱基对至约40个碱基对、约15个碱基对至约45个碱基对、约15个碱基对至约50个碱基对、约17个碱基对至约19个碱基对、约17个碱基对至约22个碱基对、约17个碱基对至约25个碱基对、约17个碱基对至约27个碱基对、约17个碱基对至约30个碱基对、约17个碱基对至约35个碱基对、约17个碱基对至约40个碱基对、约17个碱基对至约45个碱基对、约17个碱基对至约50个碱基对、约19个碱基对至约22个碱基对、约19个碱基对至约25个碱基对、约19个碱基对至约27个碱基对、约19个碱基对至约30个碱基对、约19个碱基对至约35个碱基对、约19个碱基对至约40个碱基对、约19个碱基对至约45个碱基对、约19个碱基对至约50个碱基对、约22个碱基对至约25个碱基对、约22个碱基对至约27个碱基对、约22个碱基对至约30个碱基对、约22个碱基对至约35个碱基对、约22个碱基对至约40个碱基对、约22个碱基对至约45个碱基对、约22个碱基对至约50个碱基对、约25个碱基对至约27个碱基对、约25个碱基对至约30个碱基对、约25个碱基对至约35个碱基对、约25个碱基对至约40个碱基对、约25个碱基对至约45个碱基对、约25个碱基对至约50个碱基对、约27个碱基对至约30个碱基对、约27个碱基对至约35个碱基对、约27个碱基对至约40个碱基对、约27个碱基对至约45个碱基对、约27个碱基对至约50个碱基对、约30个碱基对至约35个碱基对、约30个碱基对至约40个碱基对、约30个碱基对至约45个碱基对、约30个碱基对至约50个碱基对、约35个碱基对至约40个碱基对、约35个碱基对至约45个碱基对、约35个碱基对至约50个碱基对、约40个碱基对至约45个碱基对、约40个碱基对至约50个碱基对或约45个碱基对至约50个碱基对。条形码序列的长度可以为约5个碱基对、约10个碱基对、约15个碱基对、约17个碱基对、约19个碱基对、约22个碱基对、约25个碱基对、约27个碱基对、约30个碱基对、约35个碱基对、约40个碱基对、约45个碱基对或约50个碱基对。
5’末端标签和3’末端标签上的通用序列可以是相同的序列。或者,5’末端标签上的通用序列可与3’末端标签上的通用序列不同。可以用分区特异性条形码和分子特异性条形码二者标记DNA和RNA分子。可以使用末端标签中的通用序列区域通过例如PCR扩增来获得独特标记的核酸分子的若干拷贝。PCR扩增可用于例如通过使用含尿嘧啶的引物和耐尿嘧啶聚合酶来生成独特标记的核酸分子的多个拷贝。耐尿嘧啶聚合酶还具有校对活性。耐尿嘧啶聚合酶可使用含尿嘧啶的引物来启动延长和/或在DNA延伸期间掺入尿嘧啶。
用于扩增标记的核酸分子的引物可含有尿嘧啶。因此,可以在使用可去除尿嘧啶碱基的尿嘧啶-DNA糖基化酶与可去除无嘌呤/无嘧啶位点的诸如核酸内切酶VIII等核酸内切酶的组合进行PCR扩增之后,去除通用引发区域。诸如T4 DNA聚合酶或DNA聚合酶I大片段等核酸外切酶可用于去除与通用引发区域互补的序列。
可使用既包含通用序列又包含基因特异性序列的寡核苷酸对独特标记的核酸分子的库进行PCR扩增。基因特异性序列可以是标记的DNA分子内的序列。基因特异性序列可包含可用于在末端标记核酸分子的序列。含有不同基因特异性序列的一个或多个引物可用于对独特标记的核酸进行PCR扩增。基因特异性序列可用于使用DNA聚合酶进行分子内引发和延长反应。具体地,基因特异性序列可以是内部序列的反向互补序列并可作为引物以进行分子内延长。基因特异性序列可跨越内部核酸分子的长度,以便提供短读取测序文库中的整个长分子的序列覆盖度。
可使用既包含通用序列又包含短随机序列的寡核苷酸对独特标记的核酸分子的库进行PCR扩增。短随机序列可包含6-20个随机核苷酸并且可用于使用DNA聚合酶在标记的核酸分子内的随机位置进行分子内引发和延长反应。随机序列引物可跨越各个位置的内部核酸分子的长度,从而提供短读取测序文库中的整个长分子的序列覆盖度。
如果使用既包含通用序列又包含基因特异性序列或随机序列的寡核苷酸对独特标记的核酸分子的库进行PCR扩增,则基因特异性序列或随机序列可附加至含有分子特异性条形码的末端标签。此外,包含不同的通用序列的第二引物可用于对独特标记的核酸分子的库进行PCR扩增并且/或者可指示基因特异性序列或随机序列可附加在其上的末端。对独特标记的核酸分子的库进行PCR扩增可发生在单一反应中,即,从中制得细胞分区的每个样品可单独地扩增;或者作为多重化反应发生,即,可扩增从中制得细胞分区的多个样品,每个库具有不同的样品特异性序列。
可以在核酸分子内的随机位置对独特标记的DNA分子的PCR扩增的库进行片段化,并且产生含有5’末端标签、3’末端标签或不含标签的片段。可以选择片段化的平均速率,以使得文库既包含片段化的核酸分子又包含未片段化的核酸分子。核酸外切酶或具有强单链核酸外切酶活性的DNA聚合酶可用于在新片段化的核酸分子中产生平端。然后,可使用DNA连接酶,在稀释条件下,通过分子内连接,对标记且片段化的DNA分子的库进行环化。环化之前,可在随机位置对DNA分子进行片段化。末端标签处的分区特异性条形码和/或分子特异性条形码可被有效地分配至或者使得趋近于DNA分子内的各个位置。条形码所分配至的各个位置可提供跨越短读取测序文库中的长分子的整个长度的覆盖度。
可将标记且扩增的DNA分子片段化为片段,每个片段长度不同。可通过酶促片段化法、基于超声处理的片段化、声剪切、雾化、针剪切和费氏压碎器(French pressure cell)或其任意组合来进行片段化。可对片段化的DNA进行平端化。可使用诸如核酸外切酶I、核酸外切酶VII或其组合等单链特异性DNA核酸外切酶来生成平端,从而降解突出的单链端。此外,可使用诸如绿豆核酸内切酶或S1核酸内切酶等单链特异性DNA核酸内切酶来生成平端。可使用具有单链核酸外切酶活性的聚合酶如T4 DNA聚合酶、任意其他具有单链核酸外切酶活性的聚合酶或其组合来生成平端。可使用T4多核苷酸激酶对平端化的DNA进行5’磷酸化。5’磷酸化对于标记的DNA片段的随后分子内连接可以很重要。或者,可通过在末端衔接子中掺入dUTP来对平端化的DNA进行5’磷酸化。可使用尿嘧啶-DNA糖基化酶与核酸内切酶的组合来水解无嘌呤/无嘧啶位点,从而生成5’磷酸化位点。尿嘧啶-DNA糖基化酶可以是大肠杆菌(E.coli)尿嘧啶-DNA糖基化酶。
可在稀释条件下通过热变性使独特标记的双链DNA(dsDNA)分子的PCR扩增的库转化为单链DNA(ssDNA)分子。末端标签的3’端处的基因特异性序列或随机序列可用于使用DNA聚合酶在稀释条件下在长ssDNA分子内的特定位置或随机位置处进行分子内引发和延长。不同的基因特异性序列或随机序列可用于分子内延长。末端标签处的分区特异性条形码和/或分子特异性条形码可被有效地分配至或者使得趋近于DNA分子内的各个位置。基因特异性序列或随机序列可提供跨越短读取测序文库中长分子的整个长度或者长分子内的感兴趣特定区域的覆盖度。基因特异性位点的位置可被隔开一距离,该距离大约为短读取测序仪的读取长度。
在进行分子内延长之前,可将独特标记的核酸的库截短为较小的片段,如ssDNA或dsDNA。使用DNA聚合酶对含有3’基因特异性序列或随机序列的末端标签进行分子内延长,以产生不同长度的独特标记的双链DNA(dsDNA)的库。分子内延长期间的DNA延伸长度可限制为大约NGS的读取长度。生成各种长度DNA的分子内延长可发生在平行反应(例如,多个PCR反应,每个反应中具有相同的试剂组成或者不同的引物组成)或者多重化反应(例如,在相同反应中的具有不同引物组成的PCR反应)中。一旦含有分区特异性条形码和/或分子特异性条形码的末端标签通过分子内连接或分子内延长被分配至长核酸分子的各个位置,则可使用标准NGS文库制备和/或PCR扩增来制备针对NGS的核酸分子库。
用于转化具有分配至各个位置的分区特异性条形码和/或分子特异性条形码的核酸分子的标准NGS文库制备可包括使核酸分子片段化为大约为短读取测序仪的读取长度的大小,将片段化位点端修复为平端,对片段端加A尾以准备进行TA连接,以及用可包含第二测序衔接子的连接衔接子进行连接。因此,可对含有两个测序衔接子的核酸分子的库进行PCR扩增,以附加额外的通用测序序列(例如Illumina的P5和P7序列)以及附加第二样品索引以在短读取测序仪上在核酸分子的不同库之间进行区分。
如果连接衔接子被平端化和设计成使得它们无法自我连接,通过例如在连接衔接子上包含不可连接的3’端,则可删除在NGS文库制备期间的加A尾步骤。在NGS文库制备期间连接的第二测序衔接子可含有第二样品索引以在短读取测序仪上在核酸分子的不同库之间进行区分。可将最终的文库扩增附加至通用测序序列,例如Illumina的P5和P7序列。
用于转化具有分配至各个位置的分区特异性条形码和/或分子特异性条形码的核酸分子的标准NGS文库制备可包括使用一个或多个引物进行PCR扩增,每个引物含有第二测序衔接子和不同的基因特异性位点。共同地,基因特异性位点可提供跨越长核酸分子的长度或感兴趣的特定区域的覆盖度。基因特异性位点的位置可被隔开一距离,该距离大约为短读取测序仪的读取长度。然后,可对含有两个测序衔接子的核酸分子的库进行PCR扩增,以附加额外的通用测序序列(例如Illumina的P5和P7序列)以及附加第二样品索引以在短读取测序仪上在核酸分子的不同库之间进行区分。在NGS文库制备期间通过PCR扩增附加的第二测序衔接子可含有第二样品索引以在短读取测序仪上在核酸分子的不同库之间进行区分。可将最终的文库扩增附加至通用测序序列,例如Illumina的P5和P7序列。当末端标签包含用于分子内延长的3’基因特异性序列时,NGS文库制备期间使用的基因特异性位点可以在用于分子内延长的基因特异性位点的下游。用于分子内延长的基因特异性位点与用于NGS文库制备的基因特异性位点之间的距离可以大约为短读取测序仪的读取长度。
分区特异性末端标签和分子特异性末端标签可存在于长核酸分子的一端。或者,分区特异性末端标签可存在于核酸分子的一端,而分子特异性末端标签可存在于核酸分子的另一端。在其他情况下,分区特异性末端标签和分子特异性末端标签可存在于长核酸分子的两端。分区特异性末端标签和/或分子特异性末端标签的位置可以在长核酸分子的上游或下游。
分子内连接可在对基因座无偏倚的情况下分配条形码。基因座可均匀地分配在整个长核酸分子中,以使得感兴趣的基因座如若来自相同的单个长分子,则会与相同的分子特异性条形码相邻并共有相同的分子特异性条形码。基因座可间隔200-10000个碱基对,以使得相同的单个长分子上的感兴趣的基因座可共有相同的分子特异性条形码。此外,从分子内连接的文库构建的条形码化NGS短读取可为整个长核酸分子提供序列覆盖度并生成连续的合成长读取以用于定相。分子内延长可在无偏倚的情况下拷贝均匀分配在整个长核酸分子中的基因座,以使得感兴趣的基因座如若来自相同的单个长分子,则会与相同的分子特异性条形码相邻并共有相同的分子特异性条形码。
从分子内延长的文库构建的条形码化NGS短读取可为整个长核酸分子提供序列覆盖度并生成连续的合成长读取以用于定相。或者,从分子内延长的文库构建的条形码化NGS短读取可覆盖被同源性区域间隔开的感兴趣区域并生成不连续的合成长读取以用于定相。
末端衔接子标签中的分子内延长序列可以在3’端并且/或者可包含选自靶特异性自延长序列或随机序列的序列。在分子特异性末端衔接子的3’端处的自延长序列可以是与混合物中的独特条形码化且延长引发的ssDNA分子的内部序列互补的靶序列。平端连接、TA连接或引物延伸可用于向混合物中的长核酸分子附加含有分子特异性条形码和自延长序列的独特标签。可通过用含有独特标签的引物进行PCR,向核酸分子的混合物附加独特标签。可通过在DNA合成期间将独特标签添加至末端,向核酸分子的混合物附加独特标签。可在DNA合成期间进行序列非依赖性标记,以获得侧接有条形码标签的合成DNA序列。合成DNA的条形码化可用于其质量控制。
在某些方面,可向混合物中的长核酸分子附加既含有分子特定条形码又含有自延长序列的独特标签。在某些方面,可向混合物中的长核酸分子附加含有分子特定条形码但不含自延长序列的独特标签。
用独特标签初始标记单个核酸分子的混合物可以包括,例如,使用含有分子特异性标签的引物来进行PCR。可以通过使用含有分子特异性标签的引物来进行PCR。或者,可以通过只使用一个含有分子特异性标签的引物来进行PCR。可以用包含第一衔接子的互补序列的寡核苷酸来进行PCR。或者,可以使用包含第一衔接子的反向互补序列和与模板核酸的至少一部分互补的序列的寡核苷酸进行PCR。核苷酸的3’端可包含与模板核酸的至少一部分互补的序列。或者,可以使用包含第一衔接子的互补序列和与模板核酸的至少一部分互补的序列的寡核苷酸进行PCR,其中与模板核酸的至少一部分互补的序列包括随机序列或与模板核酸的部分的完全互补。
标记的双链DNA(dsDNA)可以在稀释条件下经受热变性,以准备进行单链DNA(ssDNA)的分子内延长。分子内退火和延长可比分子间退火(两条互补链退火回到一起)更有效。标记的dsDNA可在其一个5’末端进行选择性磷酸化;可通过使用核酸外切酶(如选择性降解5’磷酸化链的λ核酸外切酶)从dsDNA制备ssDNA,以用于分子内延长。标记的dsDNA可以通过5’生物素引物修饰与涂覆链霉亲和素的固体表面(如链霉亲和素磁珠)结合,并且通过热变性或碱变性,经由从磁珠洗下未结合的链,从未结合的对侧链来制备ssDNA以用于分子内延长。
分子内延长后的PCR引物延伸,或富集PCR可在平行反应中发生。富集PCR可在多个PCR反应中发生,其中每个反应具有不同的引物组成。或者,富集PCR可在多重化反应中发生,其中可在相同的反应中使用多个引物进行PCR反应。富集PCR可包括多个引物(例如,多重化反应),其中每个引物可具有可与延长基因座下游的序列互补的不同靶序列和通用测序衔接子。富集PCR可使用具有不同靶序列的引物作为多重化反应来进行。扩增的延长产物可含有来自每个延长基因座下游的所有靶序列的一个或多个产物。共同地,延长产物可以由延长基因座与每个延长基因座下游的靶序列的一个或多个组合表示。富集PCR中的延长基因座与靶序列之间的间隔距离可以大约为一个读取长度。或者,富集PCR中的延长基因座与靶序列之间的间隔距离可以为大约100bp、150bp、200bp、250bp、300bp、350bp、400bp、450bp或500bp。
延长基因座与靶序列之间的距离可以为约100个碱基对至约500个碱基对。延长基因座与靶序列之间的距离可以为至少约100个碱基对。延长基因座与靶序列之间的距离可以为至多约500个碱基对。延长基因座与靶序列之间的距离可以为约100个碱基对至约150个碱基对、约100个碱基对至约170个碱基对、约100个碱基对至约190个碱基对、约100个碱基对至约220个碱基对、约100个碱基对至约250个碱基对、约100个碱基对至约270个碱基对、约100个碱基对至约300个碱基对、约100个碱基对至约350个碱基对、约100个碱基对至约400个碱基对、约100个碱基对至约450个碱基对、约100个碱基对至约500个碱基对、约150个碱基对至约170个碱基对、约150个碱基对至约190个碱基对、约150个碱基对至约220个碱基对、约150个碱基对至约250个碱基对、约150个碱基对至约270个碱基对、约150个碱基对至约300个碱基对、约150个碱基对至约350个碱基对、约150个碱基对至约400个碱基对、约150个碱基对至约450个碱基对、约150个碱基对至约500个碱基对、约170个碱基对至约190个碱基对、约170个碱基对至约220个碱基对、约170个碱基对至约250个碱基对、约170个碱基对至约270个碱基对、约170个碱基对至约300个碱基对、约170个碱基对至约350个碱基对、约170个碱基对至约400个碱基对、约170个碱基对至约450个碱基对、约170个碱基对至约500个碱基对、约190个碱基对至约220个碱基对、约190个碱基对至约250个碱基对、约190个碱基对至约270个碱基对、约190个碱基对至约300个碱基对、约190个碱基对至约350个碱基对、约190个碱基对至约400个碱基对、约190个碱基对至约450个碱基对、约190个碱基对至约500个碱基对、约220个碱基对至约250个碱基对、约220个碱基对至约270个碱基对、约220个碱基对至约300个碱基对、约220个碱基对至约350个碱基对、约220个碱基对至约400个碱基对、约220个碱基对至约450个碱基对、约220个碱基对至约500个碱基对、约250个碱基对至约270个碱基对、约250个碱基对至约300个碱基对、约250个碱基对至约350个碱基对、约250个碱基对至约400个碱基对、约250个碱基对至约450个碱基对、约250个碱基对至约500个碱基对、约270个碱基对至约300个碱基对、约270个碱基对至约350个碱基对、约270个碱基对至约400个碱基对、约270个碱基对至约450个碱基对、约270个碱基对至约500个碱基对、约300个碱基对至约350个碱基对、约300个碱基对至约400个碱基对、约300个碱基对至约450个碱基对、约300个碱基对至约500个碱基对、约350个碱基对至约400个碱基对、约350个碱基对至约450个碱基对、约350个碱基对至约500个碱基对、约400个碱基对至约450个碱基对、约400个碱基对至约500个碱基对或约450个碱基对至约500个碱基对。延长基因座与靶序列之间的距离可以为约100个碱基对、约150个碱基对、约170个碱基对、约190个碱基对、约220个碱基对、约250个碱基对、约270个碱基对、约300个碱基对、约350个碱基对、约400个碱基对、约450个碱基对或约500个碱基对。
当富集PCR作为多重化反应进行时,用于分子内延长的基因座可与富集PCR反应中使用的靶序列不同。任意延长基因座与任意下游靶序列之间的间隔距离可以为至少约10-15bp。或者,任意延长基因座与任意下游靶序列之间的间隔距离可以为至少约50-100bp。当富集PCR作为多重化反应进行时,用于分子内延长的基因座可与富集PCR中使用的靶序列不同。当富集PCR作为多重化反应进行时,任意延长基因座与任意下游靶序列之间的间隔距离可以为至少约10bp、15bp、20bp、25bp、30bp、35bp、40bp、45bp或50bp。或者,当富集PCR作为多重化反应进行时,任意延长基因座与任意下游靶序列之间的间隔距离可以为至少约50bp、55bp、60bp、65bp、70bp、75bp、80bp、85b p、90bp、95bp或100bp。
延长基因座与下游靶序列之间的距离可以为约10bp至约100bp。延长基因座与下游靶序列之间的距离可以为约10个碱基对至约50个碱基对。延长基因座与下游靶序列之间的距离可以为至少约10个碱基对。延长基因座与下游靶序列之间的距离可以为至多约50个碱基对。延长基因座与下游靶序列之间的距离可以为至多约100个bp。延长基因座与下游靶序列之间的距离可以为约10个碱基对至约15个碱基对、约10个碱基对至约17个碱基对、约10个碱基对至约19个碱基对、约10个碱基对至约22个碱基对、约10个碱基对至约25个碱基对、约10个碱基对至约27个碱基对、约10个碱基对至约30个碱基对、约10个碱基对至约35个碱基对、约10个碱基对至约40个碱基对、约10个碱基对至约45个碱基对、约10个碱基对至约50个碱基对、约15个碱基对至约17个碱基对、约15个碱基对至约19个碱基对、约15个碱基对至约22个碱基对、约15个碱基对至约25个碱基对、约15个碱基对至约27个碱基对、约15个碱基对至约30个碱基对、约15个碱基对至约35个碱基对、约15个碱基对至约40个碱基对、约15个碱基对至约45个碱基对、约15个碱基对至约50个碱基对、约17个碱基对至约19个碱基对、约17个碱基对至约22个碱基对、约17个碱基对至约25个碱基对、约17个碱基对至约27个碱基对、约17个碱基对至约30个碱基对、约17个碱基对至约35个碱基对、约17个碱基对至约40个碱基对、约17个碱基对至约45个碱基对、约17个碱基对至约50个碱基对、约19个碱基对至约22个碱基对、约19个碱基对至约25个碱基对、约19个碱基对至约27个碱基对、约19个碱基对至约30个碱基对、约19个碱基对至约35个碱基对、约19个碱基对至约40个碱基对、约19个碱基对至约45个碱基对、约19个碱基对至约50个碱基对、约22个碱基对至约25个碱基对、约22个碱基对至约27个碱基对、约22个碱基对至约30个碱基对、约22个碱基对至约35个碱基对、约22个碱基对至约40个碱基对、约22个碱基对至约45个碱基对、约22个碱基对至约50个碱基对、约25个碱基对至约27个碱基对、约25个碱基对至约30个碱基对、约25个碱基对至约35个碱基对、约25个碱基对至约40个碱基对、约25个碱基对至约45个碱基对、约25个碱基对至约50个碱基对、约27个碱基对至约30个碱基对、约27个碱基对至约35个碱基对、约27个碱基对至约40个碱基对、约27个碱基对至约45个碱基对、约27个碱基对至约50个碱基对、约30个碱基对至约35个碱基对、约30个碱基对至约40个碱基对、约30个碱基对至约45个碱基对、约30个碱基对至约50个碱基对、约35个碱基对至约40个碱基对、约35个碱基对至约45个碱基对、约35个碱基对至约50个碱基对、约40个碱基对至约45个碱基对、约40个碱基对至约50个碱基对或者约45个碱基对至约50个碱基对。延长基因座与下游靶序列之间的距离可以为约10bp至约60bp、约10bp至约70bp、约10bp至约80bp、约10bp至约90bp、约10bp至约100bp、约20bp至约60bp、约20bp至约70bp、约20bp至约80bp、约20bp至约90bp、约20bp至约100bp、约30bp至约60bp、约30bp至约70bp、约30bp至约80bp、约30bp至约90bp、约30bp至约100bp、约40bp至约60bp、约40bp至约70bp、约40bp至约80bp、约40bp至约90bp、约40bp至约100bp、约50bp至约60bp、约50bp至约70bp、约50bp至约80bp、约50bp至约90bp、约50bp至约100bp、约60bp至约70bp、约60bp至约80bp、约60bp至约90bp、约60bp至约100bp、约70bp至约80bp、约70bp至约90bp、约70bp至约100bp、约80bp至约90bp、约80bp至约100bp或约90bp至约100bp。延长基因座与下游靶序列之间的距离可以为约10bp、约20bp、约30bp、约40bp、约50bp、约60bp、约70bp、约80bp、约90bp或约100bp。延长基因座与下游靶序列之间的距离可以为约10个碱基对、约15个碱基对、约17个碱基对、约19个碱基对、约22个碱基对、约25个碱基对、约27个碱基对、约30个碱基对、约35个碱基对、约40个碱基对、约45个碱基对、约50个碱基对、约60bp、约70bp、约80bp、约90bp或约100bp。
用分区特异性条形码和/或分子特异性条形码标记的核酸分子的平均长度的范围可以为约500至5000个碱基对。或者,要标记的核酸分子的平均长度的范围可以为约1000-10000个碱基对。
要标记的核酸分子的平均长度可以为约500个碱基对至约15,000个碱基对。例如,要标记的核酸分子的平均长度可以为至少约500个碱基对或至多约15,000个碱基对。具体地,要标记的核酸分子的平均长度可以为约500个碱基对至约1,000个碱基对、约500个碱基对至约2,000个碱基对、约500个碱基对至约3,000个碱基对、约500个碱基对至约4,000个碱基对、约500个碱基对至约5,000个碱基对、约500个碱基对至约6,000个碱基对、约500个碱基对至约7,000个碱基对、约500个碱基对至约8,000个碱基对、约500个碱基对至约9,000个碱基对、约500个碱基对至约10,000个碱基对、约500个碱基对至约15,000个碱基对、约1,000个碱基对至约2,000个碱基对、约1,000个碱基对至约3,000个碱基对、约1,000个碱基对至约4,000个碱基对、约1,000个碱基对至约5,000个碱基对、约1,000个碱基对至约6,000个碱基对、约1,000个碱基对至约7,000个碱基对、约1,000个碱基对至约8,000个碱基对、约1,000个碱基对至约9,000个碱基对、约1,000个碱基对至约10,000个碱基对、约1,000个碱基对至约15,000个碱基对、约2,000个碱基对至约3,000个碱基对、约2,000个碱基对至约4,000个碱基对、约2,000个碱基对至约5,000个碱基对、约2,000个碱基对至约6,000个碱基对、约2,000个碱基对至约7,000个碱基对、约2,000个碱基对至约8,000个碱基对、约2,000个碱基对至约9,000个碱基对、约2,000个碱基对至约10,000个碱基对、约2,000个碱基对至约15,000个碱基对、约3,000个碱基对至约4,000个碱基对、约3,000个碱基对至约5,000个碱基对、约3,000个碱基对至约6,000个碱基对、约3,000个碱基对至约7,000个碱基对、约3,000个碱基对至约8,000个碱基对、约3,000个碱基对至约9,000个碱基对、约3,000个碱基对至约10,000个碱基对、约3,000个碱基对至约15,000个碱基对、约4,000个碱基对至约5,000个碱基对、约4,000个碱基对至约6,000个碱基对、约4,000个碱基对至约7,000个碱基对、约4,000个碱基对至约8,000个碱基对、约4,000个碱基对至约9,000个碱基对、约4,000个碱基对至约10,000个碱基对、约4,000个碱基对至约15,000个碱基对、约5,000个碱基对至约6,000个碱基对、约5,000个碱基对至约7,000个碱基对、约5,000个碱基对至约8,000个碱基对、约5,000个碱基对至约9,000个碱基对、约5,000个碱基对至约10,000个碱基对、约5,000个碱基对至约15,000个碱基对、约6,000个碱基对至约7,000个碱基对、约6,000个碱基对至约8,000个碱基对、约6,000个碱基对至约9,000个碱基对、约6,000个碱基对至约10,000个碱基对、约6,000个碱基对至约15,000个碱基对、约7,000个碱基对至约8,000个碱基对、约7,000个碱基对至约9,000个碱基对、约7,000个碱基对至约100,00个碱基对、约7,000个碱基对至约15,000个碱基对、约8,000个碱基对至约9,000个碱基对、约8,000个碱基对至约10,000个碱基对、约8,000个碱基对至约15,000个碱基对、约9,000个碱基对至约10,000个碱基对、约9,000个碱基对至约15,000个碱基对,或者约10,000个碱基对至约15,000个碱基对。要标记的核酸分子的长度可以为约500个碱基对、约1,000个碱基对、约2,000个碱基对、约3,000个碱基对、约4,000个碱基对、约5,000个碱基对、约6,000个碱基对、约7,000个碱基对、约8,000个碱基对、约9,000个碱基对、约10,000个碱基对或约15,000个碱基对。
可在NGS文库制备和短读取测序之后,获得来自不同长度的独特条形码化的dsDNA分子的序列信息。本公开内容的任意一种方法均可进一步包括对获得的序列进行定相,该定相是基于由独特的分区特异性条形码和分子特异性条形码指示的其分子起源而进行的。可依次使用分区特异性标签和分子特异性标签对短读取测序信息进行群集并将其组装成从头序列。所得的序列可以是原始长核酸分子的定相重构并可以彼此共有任意程度的同源性或相似性。通过比较相同的或在分类上具有任何共同性的长序列,本公开内容的方法可在用于评估亲本长分子库中的不同分子的丰度时具有明显的优势。
PCR扩增可用于生成具有分子特异性末端标签的每个亲本长核酸分子的多个拷贝。扩增可在单个反应中完成,其中可单独扩增具有独特标记的分子库的每个样品。或者,扩增可作为多重化反应来完成,其中多个样品可作为单个反应扩增,其中每个样品具有独特标记分子的库,该独特标记分子在库中共有样品特异性序列。
短读取序列可基于独特的分区特异性条形码序列和分子特异性条形码序列群集为共同序列。共同序列可用于参考映射并定相为长叠连群。
可利用定相的序列来确定先前未识别的替代转录物的表达,以用于对合成的长核酸分子进行质量控制,用于识别重复序列的长度等。本公开内容的方法可用于克服获得高质量、长定相的DNA序列的挑战。
本公开内容可考虑数值范围。在提供值的范围的情况下,预期该范围包括范围端点,该范围的上下限之间的每个中间值,以及包含在本公开内容内的所阐述范围中的任何其他阐述或中间的值。例如,如果阐述了6至12个核苷酸的范围,则预期明确地公开了6个核苷酸、7个核苷酸、8个核苷酸、9个核苷酸、10个核苷酸、11个核苷酸和12个核苷酸,以及大于或等于6个核苷酸的值的范围和小于或等于12个核苷酸的值的范围。此外,如果适用,范围内的每个子范围和值都如同明确写出来一样地示出。
术语“约”或“大约”可意指在本领域普通技术人员所确定的特定值的可接受的误差范围内,其将部分取决于该值如何测量或确定,例如,测量系统的局限性。例如,“约”可意指在1、1.5、2、2.5、3个或更多个标准偏差内。或者,“约”可意指给定值的至多20%、至多10%、至多5%或至多1%的范围。或者,就生物系统或过程而言,该术语可意指在值的一个数量级内、5倍内或2倍内。如果在申请书和权利要求书中描述了特定值,除非另有说明,术语“约”通常可意指在特定值的可接受的误差范围内。
如本文所用,术语“核酸”或者“核酸分子”可包括任意形式的DNA或RNA,包括,例如,基因组DNA;互补DNA(cDNA),其可通过逆转录从信使RNA(mRNA)获得或者通过扩增获得;合成或扩增产生的DNA分子;无细胞DNA;无细胞RNA;mRNA、tRNA和rRNA。可从化学合成(例如,固相介导的化学合成)、从生物来源(例如,分离自任何生物体)或者从包括使用分子生物工具(例如,克隆、DNA复制、PCR扩增、逆转录或其任意组合)操纵核酸的工艺中获得核酸。核酸可以是DNA和/或RNA。
如本文所用,术语“测序”可指确定核酸样品(例如,DNA或RNA)中核苷酸(碱基序列)的顺序。
如本文所用,短语“靶核苷酸序列”或“要测序的亲本核酸分子”可指代表被测序的长靶核酸的参考(完全)核苷酸序列的多核苷酸分子,如通过扩增靶核酸获得的扩增产物或者逆转录RNA靶核酸产生的cDNA。
术语“寡核苷酸”用于指相对短的核酸,通常短于约200个核苷酸、短于约100个核苷酸或短于约50个核苷酸。如本文所用,术语“寡核苷酸”可指长度例如短于约1,000个核苷酸、短于约900个核苷酸、短于约800个核苷酸、短于约700个核苷酸、短于约600个核苷酸、短于约500个核苷酸、短于约400个核苷酸、短于约300个核苷酸、短于约200个核苷酸、短于约100个核苷酸或短于约50个核苷酸的核酸。寡核苷酸的范围可以在约15个核苷酸至约30个核苷酸、约20个核苷酸至约50个核苷酸、约20个核苷酸至约100个核苷酸、约50个核苷酸至约200个核苷酸、约50个核苷酸至约100个核苷酸、约50个核苷酸至约150个核苷酸、约50个核苷酸至约200个核苷酸、约100个核苷酸至约150个核苷酸、约100个核苷酸至约200个核苷酸、约150个核苷酸至约200个核苷酸之间。寡核苷酸可以为约50个核苷酸、约100个核苷酸、约150个核苷酸或约200个核苷酸。寡核苷酸可以为至少约15个核苷酸、至少约20个核苷酸、至少约25个核苷酸、至少约30个核苷酸、至少50个核苷酸、至少约100个核苷酸、至多约200个核苷酸、至多约300个核苷酸或至多约500个核苷酸。
如本文所用,术语“引物”可指这样的寡核苷酸,其能够与核酸杂交(也称为“退火”)并且能够作为起始位点以在适当的缓冲液中和适当的温度下、在适当条件(例如,存在四种不同的核苷三磷酸和用于聚合的试剂如DNA或RNA聚合酶或逆转录酶)下进行核苷酸(DNA或RNA)聚合。适当的引物长度取决于引物的预期用途。例如,引物可以为至少7个核苷酸长。引物长度的范围可以为约10至30个核苷酸或者约15至30个核苷酸。引物也可以更长,例如,约30至约50个核苷酸长。例如,引物不一定要与模板100%互补才能有效。为了在适当的扩增或测序条件下与模板杂交,根据情况,引物只需要足够的互补性。
引物可具有例如7个核苷酸至75个核苷酸的长度。引物可具有例如至少7个核苷酸的长度。引物可具有例如至多75个核苷酸的长度。引物可具有例如7个核苷酸至10个核苷酸、7个核苷酸至15个核苷酸、7个核苷酸至20个核苷酸、7个核苷酸至25个核苷酸、7个核苷酸至30个核苷酸、7个核苷酸至35个核苷酸、7个核苷酸至40个核苷酸、7个核苷酸至45个核苷酸、7个核苷酸至50个核苷酸、7个核苷酸至60个核苷酸、7个核苷酸至75个核苷酸、10个核苷酸至15个核苷酸、10个核苷酸至20个核苷酸、10个核苷酸至25个核苷酸、10个核苷酸至30个核苷酸、10个核苷酸至35个核苷酸、10个核苷酸至40个核苷酸、10个核苷酸至45个核苷酸、10个核苷酸至50个核苷酸、10个核苷酸至60个核苷酸、10个核苷酸至75个核苷酸、15个核苷酸至20个核苷酸、15个核苷酸至25个核苷酸、15个核苷酸至30个核苷酸、15个核苷酸至35个核苷酸、15个核苷酸至40个核苷酸、15个核苷酸至45个核苷酸、15个核苷酸至50个核苷酸、15个核苷酸至60个核苷酸、15个核苷酸至75个核苷酸、20个核苷酸至25个核苷酸、20个核苷酸至30个核苷酸、20个核苷酸至35个核苷酸、20个核苷酸至40个核苷酸、20个核苷酸至45个核苷酸、20个核苷酸至50个核苷酸、20个核苷酸至60个核苷酸、20个核苷酸至75个核苷酸、25个核苷酸至30个核苷酸、25个核苷酸至35个核苷酸、25个核苷酸至40个核苷酸、25个核苷酸至45个核苷酸、25个核苷酸至50个核苷酸、25个核苷酸至60个核苷酸、25个核苷酸至75个核苷酸、30个核苷酸至35个核苷酸、30个核苷酸至40个核苷酸、30个核苷酸至45个核苷酸、30个核苷酸至50个核苷酸、30个核苷酸至60个核苷酸、30个核苷酸至75个核苷酸、35个核苷酸至40个核苷酸、35个核苷酸至45个核苷酸、35个核苷酸至50个核苷酸、35个核苷酸至60个核苷酸、35个核苷酸至75个核苷酸、40个核苷酸至45个核苷酸、40个核苷酸至50个核苷酸、40个核苷酸至60个核苷酸、40个核苷酸至75个核苷酸、45个核苷酸至50个核苷酸、45个核苷酸至60个核苷酸、45个核苷酸至75个核苷酸、50个核苷酸至60个核苷酸、50个核苷酸至75个核苷酸,或60个核苷酸至75个核苷酸的长度。引物可具有例如7个核苷酸、10个核苷酸、15个核苷酸、20个核苷酸、25个核苷酸、30个核苷酸、35个核苷酸、40个核苷酸、45个核苷酸、50个核苷酸、60个核苷酸或75个核苷酸的长度。
如本文所用,术语“引物位点”和“引物结合位点”可指引物可与之杂交的靶核酸的区段。
如本文所用,术语“引物对”可指一组引物,包括可与要扩增的核酸序列的5’端的互补序列杂交的5’“上游引物”或“正向引物”和可与要扩增序列的3’端杂交的3’“下游引物”或“反向引物”。如本领域技术人员将认识到的,术语“上游”和“下游”或“正向”和“反向”并非旨在是限制性的,而是在具体实施方案中提供说明性取向。
如本文所用,术语“扩增”可包括例如以模板依赖性方式复制一个或多个靶核酸的至少一部分的任何方式。可以使用多种技术来线性地或指数地对核酸序列进行扩增。进行扩增的说明性方法包括连接酶链反应(LCR)、连接酶检测反应(LDR)、连接后Q-复制酶扩增、聚合酶链反应(PCR)、引物延伸、链置换扩增(SDA)、超支化链置换扩增、多重置换扩增(MDA)、基于核酸链的扩增(NASBA)、两步多重化扩增和滚环扩增(RCA),包括多重形式及其组合。扩增程序的多重形式和组合的示例包括但不限于寡核苷酸连接测定(OLA)/PCR、PCR/OLA、LDR/PCR、PCR/PCR/LDR、PCR/LDR、LCR/PCR和PCR/LCR(也称为组合链反应(CCR))等。
扩增可包括至少一个循环的以下顺序程序:使核酸双链体变性以分离链,使至少一个引物与至少一个靶核酸中的互补或基本上互补的序列退火;和使用聚合酶以模板依赖性方式合成至少一条核苷酸链。循环可以重复,也可以不重复。
如本文所用,术语“相邻”可指核酸中的两个核苷酸序列。“相邻”可指由0至约20个核苷酸、0至约50个核苷酸或者约1至约10个核苷酸间隔开的核酸序列,或者指直接接近彼此的序列。
如本文所用,术语“核苷酸标签”、“分子标签”和“条形码标签”可指可添加至靶核苷酸序列并且在某些情况下可作为标签的核苷酸序列(例如,独特的核苷酸序列)的组合。作为标签的核苷酸组合的一部分或整个长度可以为预定序列或者可以在序列数据分析期间根据经验确定,或者作为标签的核苷酸组合不可以为预定序列且不可以在序列数据分析期间根据经验确定。分子标签可以包含特异性和/或独特的核苷酸序列,该核苷酸序列编码关于在扩增反应中采用条形码引物时产生的扩增子的信息。例如,不同的标签可用于来自多个不同样品中的每个样品的一个或多个靶序列,以使得条形码核苷酸序列指示所得的扩增子的样品起源。分子标签还可以包括共有或通用的序列,这允许同时扩增不同标记的分子。例如,可以使用P5和P7 Illumina通用引物。分子标签的序列可以是随机的、半随机的、固定的或预定的。
如本文所用,术语“标签”可指短序列,该短序列可添加至引物,包含在序列中,或者以其他方式用为标记来提供独特的标识符。序列标识符可以是长度可变但限定的独特碱基序列,用于识别特异性核酸样品。例如,4个碱基对(bp)的标签有44=256个不同的标签。标签可用于在进一步处理时确定样品的起源。例如,可以使用独特的序列标签来识别复杂核酸序列混合物库或扩增文库中的各个序列的起源和坐标。在本公开内容的方法中可以使用多个标签。标签的示例为ZIP序列或富含GC的序列。标签可用于确定PCR样品的起源。在合并来自不同核酸样品的加工产物的情况下,可以使用不同的标签来识别不同的核酸样品。
可以在固体支撑体上捕获标签。标签可以为生物素,并由亲和素识别。亲和标签可以包括多个生物素残基,以增加与多个亲和素分子的结合。标签还可以包括官能团,如叠氮基或乙炔基基团,该官能团能够实现通过铜(I)介导的点击化学进行捕获(参见H.C.Kolb和K.B.Sharpless,Drug Discovery Today,2003,8(24),1128-1137)。标签可以包括可由结合在固体支撑体上的抗体捕获的抗原。标签的示例可以包括但不限于His标签、His6标签(SEQID NO:3)、钙调素标签、CBP、CYD(共价但可分离的NorpD肽)、Strep II、FLAG标签、HA标签、Myc标签、S标签、SBP标签、Softag-1、Softag-3、V5标签、Xpress标签、Isopeptag、SpyTag、B、HPC(蛋白质C的重链)肽标签、GST、MBP、生物素、生物素羧基载体蛋白、谷胱甘肽-S-转移酶标签、绿色荧光蛋白标签、麦芽糖结合蛋白标签、Nus标签、Strep标签、硫氧还蛋白标签及其组合。在某些情况下,可对标记的分子进行测序。
如本文所用,术语“标记”、“条形码化”和“编码反应”可指将至少一个核苷酸标签添加至靶核苷酸序列的反应。例如,可用分子特异性条形码,例如通过核酸文库的PCR扩增,对核酸分子的文库进行标记。PCR引物可在核酸分子的末端插入分子特异性条形码序列。或者,可通过使用DNA连接酶在核酸分子的末端连接分子特异性条形码来将条形码区段添加至核酸文库。
如本文所用,术语“标记的靶核苷酸序列”可指具有附加的核苷酸标签的核苷酸序列。
如本文所用,术语“将条形码分配或趋近至序列的不同部位”可以指使条形码接近(靠近或邻近)其所驻留的相同核酸分子的不同部位的过程或反应。可通过基于聚合酶的引发核酸延长反应使条形码接近,该反应由邻近于条形码的核酸引发序列进行促进。聚合酶引发序列可以是随机寡核苷酸(例如6-20个随机碱基)。可以存在具有独特单条形码的分子的许多拷贝,但是每个拷贝可具有不同的随机自延长序列。因此,随机引发可以以均匀的方式将核酸条形码(其可以靠近或邻近随机自延长序列)共同移位、分配或趋近至核酸分子的所有部位。由同一亲本长核酸分子上的随机引发事件产生的拷贝序列可以共有相同的分子特异性条形码。
聚合酶引发序列可以是具有例如6个随机碱基至25个随机碱基的长度的随机寡核苷酸。聚合酶引发序列可以是具有例如至少6个随机碱基的长度的随机寡核苷酸。聚合酶引发序列可以是具有例如至多25个随机碱基的长度的随机寡核苷酸。聚合酶引发序列可以是具有例如6个随机碱基至8个随机碱基、6个随机碱基至10个随机碱基、6个随机碱基至11个随机碱基、6个随机碱基至12个随机碱基、6个随机碱基至13个随机碱基、6个随机碱基至14个随机碱基、6个随机碱基至15个随机碱基、6个随机碱基至16个随机碱基、6个随机碱基至18个随机碱基、6个随机碱基至20个随机碱基、6个随机碱基至25个随机碱基、8个随机碱基至10个随机碱基、8个随机碱基至11个随机碱基、8个随机碱基至12个随机碱基、8个随机碱基至13个随机碱基、8个随机碱基至14个随机碱基、8个随机碱基至15个随机碱基、8个随机碱基至16个随机碱基、8个随机碱基至18个随机碱基、8个随机碱基至20个随机碱基、8个随机碱基至25个随机碱基、10个随机碱基至11个随机碱基、10个随机碱基至12个随机碱基、10个随机碱基至13个随机碱基、10个随机碱基至14个随机碱基、10个随机碱基至15个随机碱基、10个随机碱基至16个随机碱基、10个随机碱基至18个随机碱基、10个随机碱基至20个随机碱基、10个随机碱基至25个随机碱基、11个随机碱基至12个随机碱基、11个随机碱基至13个随机碱基、11个随机碱基至14个随机碱基、11个随机碱基至15个随机碱基、11个随机碱基至16个随机碱基、11个随机碱基至18个随机碱基、11个随机碱基至20个随机碱基、11个随机碱基至25个随机碱基、12个随机碱基至13个随机碱基、12个随机碱基至14个随机碱基、12个随机碱基至15个随机碱基、12个随机碱基至16个随机碱基、12个随机碱基至18个随机碱基、12个随机碱基至20个随机碱基、12个随机碱基至25个随机碱基、13个随机碱基至14个随机碱基、13个随机碱基至15个随机碱基、13个随机碱基至16个随机碱基、13个随机碱基至18个随机碱基、13个随机碱基至20个随机碱基、13个随机碱基至25个随机碱基、14个随机碱基至15个随机碱基、14个随机碱基至16个随机碱基、14个随机碱基至18个随机碱基、14个随机碱基至20个随机碱基、14个随机碱基至25个随机碱基、15个随机碱基至16个随机碱基、15个随机碱基至18个随机碱基、15个随机碱基至20个随机碱基、15个随机碱基至25个随机碱基、16个随机碱基至18个随机碱基、16个随机碱基至20个随机碱基、16个随机碱基至25个随机碱基、18个随机碱基至20个随机碱基、18个随机碱基至25个随机碱基或20个随机碱基至25个随机碱基的长度的随机寡核苷酸。聚合酶引发序列可以是具有例如6个随机碱基、8个随机碱基、10个随机碱基、11个随机碱基、12个随机碱基、13个随机碱基、14个随机碱基、15个随机碱基、16个随机碱基、18个随机碱基、20个随机碱基或25个随机碱基的长度的随机寡核苷酸。
如本文所用,术语“延长引发的单链核酸或ssDNA”可以指单链核酸或ssDNA分子,其3’末端可作为单链核酸或ssDNA分子的聚合酶驱动的DNA聚合的引发序列起作用。
如本文所用,术语“富集PCR”可以指可在核苷酸的分子内延长后发生的PCR引物延伸。
如本文所用,术语“群集”可指基于相同或相似核苷酸的短段或长段的存在来比较两个或更多个核苷酸序列。群集也可指使用术语“组装”或“比对”。
如本文所用,术语“配对端测序”可指一种基于高通量测序的方法,该方法从核酸分子的两端产生测序数据。
如本文所用,术语“连接衔接子”或“衔接子”可指长度为例如约10至约30bp或者约10至约80个碱基对的短核酸(例如,dsDNA)分子。衔接子可通过连接而附加至核酸分子。衔接子可通过聚合酶链反应而附加至核酸分子。衔接子可由两个合成寡核苷酸组成,这两个合成寡核苷酸具有可彼此部分或完全互补的核苷酸序列。在适当条件下在溶液中混合两个合成寡核苷酸时,这两个合成寡核苷酸可彼此退火,以形成双链结构。退火后,衔接子分子的一端被设计为与核酸片段的端匹配并可与之连接。衔接子的另一端可被设计为其不能被连接,但情况可能并非如此(例如,两个连接的衔接子)。衔接子可含有其他功能特征,例如标识符、限制酶的识别序列和引物结合部分。当含有其他功能特征时,衔接子的长度可增加;可通过将功能特征组合来控制和最小化衔接子的长度。
衔接子的长度可以为约10个碱基或碱基对至约100个碱基或碱基对。衔接子的长度可以为至少约10个碱基或碱基对。衔接子的长度可以为至多约100个碱基或碱基对。衔接子的长度可以为约10个碱基或碱基对至约20个碱基或碱基对、约10个碱基或碱基对至约30个碱基或碱基对、约10个碱基或碱基对至约40个碱基或碱基对、约10个碱基或碱基对至约50个碱基或碱基对、约10个碱基或碱基对至约60个碱基或碱基对、约10个碱基或碱基对至约70个碱基或碱基对、约10个碱基或碱基对至约80个碱基或碱基对、约10个碱基或碱基对至约90个碱基或碱基对、约10个碱基或碱基对至约100个碱基或碱基对、约20个碱基或碱基对至约30个碱基或碱基对、约20个碱基或碱基对至约40个碱基或碱基对、约20个碱基或碱基对至约50个碱基或碱基对、约20个碱基或碱基对至约60个碱基或碱基对、约20个碱基或碱基对至约70个碱基或碱基对、约20个碱基或碱基对至约80个碱基或碱基对、约20个碱基或碱基对至约90个碱基或碱基对、约20个碱基或碱基对至约100个碱基或碱基对、约30个碱基或碱基对至约40个碱基或碱基对、约30个碱基或碱基对至约50个碱基或碱基对、约30个碱基或碱基对至约60个碱基或碱基对、约30个碱基或碱基对至约70个碱基或碱基对、约30个碱基或碱基对至约80个碱基或碱基对、约30个碱基或碱基对至约90个碱基或碱基对、约30个碱基或碱基对至约100个碱基或碱基对、约40个碱基或碱基对至约50个碱基或碱基对、约40个碱基或碱基对至约60个碱基或碱基对、约40个碱基或碱基对至约70个碱基或碱基对、约40个碱基或碱基对至约80个碱基或碱基对、约40个碱基或碱基对至约90个碱基或碱基对、约40个碱基或碱基对至约100个碱基或碱基对、约50个碱基或碱基对至约60个碱基或碱基对、约50个碱基或碱基对至约70个碱基或碱基对、约50个碱基或碱基对至约80个碱基或碱基对、约50个碱基或碱基对至约90个碱基或碱基对、约50个碱基或碱基对至约100个碱基或碱基对、约60个碱基或碱基对至约70个碱基或碱基对、约60个碱基或碱基对至约80个碱基或碱基对、约60个碱基或碱基对至约90个碱基或碱基对、约60个碱基或碱基对至约100个碱基或碱基对、约70个碱基或碱基对至约80个碱基或碱基对、约70个碱基或碱基对至约90个碱基或碱基对、约70个碱基或碱基对至约100个碱基或碱基对、约80个碱基或碱基对至约90个碱基或碱基对、约80个碱基或碱基对至约100个碱基或碱基对,或约90个碱基或碱基对至约100个碱基或碱基对。衔接子的长度可以为约10个碱基或碱基对、约20个碱基或碱基对、约30个碱基或碱基对、约40个碱基或碱基对、约50个碱基或碱基对、约60个碱基或碱基对、约70个碱基或碱基对、约80个碱基或碱基对、约90个碱基或碱基对或者约100个碱基或碱基对。衔接子可具有例如8个碱基对至40个碱基对的长度。衔接子可具有例如至少8个碱基对的长度。衔接子可具有例如至多40个碱基对的长度。衔接子可具有例如8个碱基对至10个碱基对、8个碱基对至15个碱基对、8个碱基对至20个碱基对、8个碱基对至25个碱基对、8个碱基对至30个碱基对、8个碱基对至35个碱基对、8个碱基对至40个碱基对、10个碱基对至15个碱基对、10个碱基对至20个碱基对、10个碱基对至25个碱基对、10个碱基对至30个碱基对、10个碱基对至35个碱基对、10个碱基对至40个碱基对、15个碱基对至20个碱基对、15个碱基对至25个碱基对、15个碱基对至30个碱基对、15个碱基对至35个碱基对、15个碱基对至40个碱基对、20个碱基对至25个碱基对、20个碱基对至30个碱基对、20个碱基对至35个碱基对、20个碱基对至40个碱基对、25个碱基对至30个碱基对、25个碱基对至35个碱基对、25个碱基对至40个碱基对、30个碱基对至35个碱基对、30个碱基对至40个碱基对,或35个碱基对至40个碱基对的长度。衔接子可具有例如8个碱基对、10个碱基对、15个碱基对、20个碱基对、25个碱基对、30个碱基对、35个碱基对或40个碱基对的长度。
如本文所用,术语“末端衔接子”可指具有例如约20至约200个碱基或者20至100个碱基的核酸(例如,ssDNA)分子。末端衔接子可具有例如20个碱基至100个碱基的长度。末端衔接子可具有例如至少20个碱基的长度。末端衔接子可具有例如至多100个碱基的长度。末端衔接子可具有约例如20个碱基至30个碱基、20个碱基至40个碱基、20个碱基至50个碱基、20个碱基至60个碱基、20个碱基至70个碱基、20个碱基至80个碱基、20个碱基至100个碱基、30个碱基至40个碱基、30个碱基至50个碱基、30个碱基至60个碱基、30个碱基至70个碱基、30个碱基至80个碱基、30个碱基至100个碱基、40个碱基至50个碱基、40个碱基至60个碱基、40个碱基至70个碱基、40个碱基至80个碱基、40个碱基至100个碱基、50个碱基至60个碱基、50个碱基至70个碱基、50个碱基至80个碱基、50个碱基至100个碱基、60个碱基至70个碱基、60个碱基至80个碱基、60个碱基至100个碱基、70个碱基至80个碱基、70个碱基至100个碱基,或80个碱基至100个碱基的长度。末端衔接子可具有例如20个碱基、30个碱基、40个碱基、50个碱基、60个碱基、70个碱基、80个碱基或100个碱基的长度。末端衔接子可被设计为用为引物,与聚合酶一起用与附加具有特定序列的核酸分子,包括分子特异性条形码、用于下游扩增的序列和用于NGS测序的序列。末端衔接子可含有自延长序列,以用于延伸和拷贝可能在核酸分子内部的序列。
如本文所用,术语“测序衔接子”可指具有例如约20至80个碱基的核酸分子(例如,单链DNA(ssDNA))。测序衔接子可具有例如20个碱基至80个碱基的长度。测序衔接子可具有例如至少20个碱基的长度。测序衔接子可具有例如至多80个碱基的长度。测序衔接子可具有例如20个碱基至30个碱基、20个碱基至40个碱基、20个碱基至50个碱基、20个碱基至60个碱基、20个碱基至70个碱基、20个碱基至80个碱基、30个碱基至40个碱基、30个碱基至50个碱基、30个碱基至60个碱基、30个碱基至70个碱基、30个碱基至80个碱基、40个碱基至50个碱基、40个碱基至60个碱基、40个碱基至70个碱基、40个碱基至80个碱基、50个碱基至60个碱基、50个碱基至70个碱基、50个碱基至80个碱基、60个碱基至70个碱基、60个碱基至80个碱基,或70个碱基至80个碱基的长度。测序衔接子可具有例如20个碱基、30个碱基、40个碱基、50个碱基、60个碱基、70个碱基或80个碱基的长度。测序衔接子可以为能在高通量测序中使用的通用序列。例如,测序衔接子可含有通用序列,该通用序列由高通量测序仪使用以捕获核酸文库和生成测序群集(例如,P5和P7序列),以及生成短读取信息(例如,读取1和读取2序列)和样品索引信息(例如,P5、P7和读取2序列)。
测序衔接子的长度可以为约10个碱基或碱基对至约100个碱基或碱基对。测序衔接子的长度可以为至少约10个碱基或碱基对。测序衔接子的长度可以为至多约100个碱基或碱基对。测序衔接子的长度可以为约10个碱基或碱基对至约20个碱基或碱基对、约10个碱基或碱基对至约30个碱基或碱基对、约10个碱基或碱基对至约40个碱基或碱基对、约10个碱基或碱基对至约50个碱基或碱基对、约10个碱基或碱基对至约60个碱基或碱基对、约10个碱基或碱基对至约70个碱基或碱基对、约10个碱基或碱基对至约80个碱基或碱基对、约10个碱基或碱基对至约90个碱基或碱基对、约10个碱基或碱基对至约100个碱基或碱基对、约20个碱基或碱基对至约30个碱基或碱基对、约20个碱基或碱基对至约40个碱基或碱基对、约20个碱基或碱基对至约50个碱基或碱基对、约20个碱基或碱基对至约60个碱基或碱基对、约20个碱基或碱基对至约70个碱基或碱基对、约20个碱基或碱基对至约80个碱基或碱基对、约20个碱基或碱基对至约90个碱基或碱基对、约20个碱基或碱基对至约100个碱基或碱基对、约30个碱基或碱基对至约40个碱基或碱基对、约30个碱基或碱基对至约50个碱基或碱基对、约30个碱基或碱基对至约60个碱基或碱基对、约30个碱基或碱基对至约70个碱基或碱基对、约30个碱基或碱基对至约80个碱基或碱基对、约30个碱基或碱基对至约90个碱基或碱基对、约30个碱基或碱基对至约100个碱基或碱基对、约40个碱基或碱基对至约50个碱基或碱基对、约40个碱基或碱基对至约60个碱基或碱基对、约40个碱基或碱基对至约70个碱基或碱基对、约40个碱基或碱基对至约80个碱基或碱基对、约40个碱基或碱基对至约90个碱基或碱基对、约40个碱基或碱基对至约100个碱基或碱基对、约50个碱基或碱基对至约60个碱基或碱基对、约50个碱基或碱基对至约70个碱基或碱基对、约50个碱基或碱基对至约80个碱基或碱基对、约50个碱基或碱基对至约90个碱基或碱基对、约50个碱基或碱基对至约100个碱基或碱基对、约60个碱基或碱基对至约70个碱基或碱基对、约60个碱基或碱基对至约80个碱基或碱基对、约60个碱基或碱基对至约90个碱基或碱基对、约60个碱基或碱基对至约100个碱基或碱基对、约70个碱基或碱基对至约80个碱基或碱基对、约70个碱基或碱基对至约90个碱基或碱基对、约70个碱基或碱基对至约100个碱基或碱基对、约80个碱基或碱基对至约90个碱基或碱基对、约80个碱基或碱基对至约100个碱基或碱基对,或者约90个碱基或碱基对至约100个碱基或碱基对。测序衔接子的长度可以为约10个碱基或碱基对、约20个碱基或碱基对、约30个碱基或碱基对、约40个碱基或碱基对、约50个碱基或碱基对、约60个碱基或碱基对、约70个碱基或碱基对、约80个碱基或碱基对、约90个碱基或碱基对,或者约100个碱基或碱基对。
如本文所用,术语“覆盖”可意指可组装成连续的共同序列的一组重叠的多核苷酸序列,该连续的共同序列可以跨越并准确地表示被测序的亲本长核酸分子的完整序列。
如本文所用,术语“覆盖度偏倚”可指覆盖较长亲本序列的序列读取的非随机分配。由于非随机片段化和/或位点优先的限制酶消化,亲本序列可能未均匀覆盖或表示。其他引起偏倚的方法包括分子间连接,该分子间连接可能由于被环化的双链DNA(dsDNA)分子中的长度限制而受到限制。条形码配对可以改善组装长度。与两个不同的条形码相关联的读取可以与参考基因组比对。单独地,每一组读取组装成连续序列(“叠连群”),该连续序列的长度可以为几千碱基。条形码配对将各组合并,从而增加并平滑整个区域的覆盖度,以允许组装完整的10kb靶序列。将由来自参考基因组和样品的基因组读取(最小长度为约1000个碱基(bp))组装的叠连群的长度直方图进行比较。
在本公开内容的任何一种方法中,可以使用在复杂混合物中的大约100、大约101、大约102、大约103、大约104、大约105、大约106、大约107、大约108或大约109个核酸分子的群体。
如本文所用,术语“定相”可以指确定测序数据的单分子起源。例如,定相可以是将生成短段测序数据(短读取)的核酸测序反应群集成较长段的核酸序列信息以破译亲本长核酸分子的序列的能力。定相可以涉及鉴别跨越单个较长核酸分子的序列的测序反应(短读取)的集合,并且从较短的DNA测序反应(短读取)精确地重建单个长DNA/RNA分子的序列(长读取)。相位信息可用于通过例如人DNA、细菌DNA和病毒DNA的定相测序来理解遗传疾病研究的基因表达模式。可以通过基于实验室的实验方法来生成定相,或者可以使用计算和统计方法来估计定相。可对来自任何来源的核酸分子的混合物进行标记。核酸混合物可具有任何程度的同源性,包括细胞内基因的等位基因、生物体内基因的不同形式(体细胞突变的变体)、生物群体内基因的不同形式、剪接变体、同源基因、异源基因、基因的体细胞突变变体、复制基因以及合成基因的变体、在DNA合成过程中制备的基因文库或其任何组合。
如本文所用,术语“标准NGS文库制备”可用于描绘高质量、全面的测序文库制备。标准NGS文库制备可用于采用短读取文库样品制备的NGS方法,如全基因组测序、靶向DNA测序、全转录物组测序和靶向RNA测序。
实施例
以下具体实施例是说明性的并且是非限制性的。本文所描述的实施例参考前文所描述的各个实施方案并为其提供非限制性支持。
实施例1:来自单个细胞的RNA分子的序列依赖性标记
获得单细胞悬浮液,并使其与用含有分区特异性条形码和条形码特异性条形码的寡核苷酸功能化的微粒共同流动,以形成水性液滴,在每个液滴中含有一个或零个细胞和一个或零个微粒(参见图4)。每个微粒含有包含测序衔接子、通用PCR序列、分区特异性条形码、分子特异性条形码和聚胸腺嘧啶序列的多个末端标记衔接子。每个微粒上的多个标记衔接子共有相同的分区特异性条形码(其对该微粒来说是独特的)和不同的分子特异性条形码。一旦形成含有微粒和单个细胞的水性液滴,就将微粒悬浮在裂解缓冲液中,以辅助细胞裂解和释放核酸内容物。此外,在液滴形成期间,在水性溶液中包含具有末端转移酶活性的逆转录酶,并且mRNA分子在水性分区内进行逆转录。
或者,使用包含测序衔接子、通用PCR序列、分区特异性条形码、分子特异性条形码和基因特异性条形码的末端标记衔接子来从水性分区内的核酸内容物中选择性地逆转录特定RNA分子。
一旦逆转录完成,水性乳液被破坏,并且来自所有水性溶液的核酸内容物被合并(参见图5)。对于完成了逆转录的互补DNA(cDNA),即逆转录酶达到mRNA分子的5’末端,具有末端转移酶活性的逆转录酶将2-5个胞嘧啶添加至cDNA的3’末端。短胞嘧啶重复用于使包含通用PCR序列和短聚鸟嘌呤序列的第二末端标签退火,并且使第二末端标签的序列拷贝到cDNA的3’末端上,从而形成双标记的DNA分子的混合物。
cDNA分子的混合物可具有任意程度的同源性。混合物中的每个cDNA分子含有与在同一分区内逆转录的其他cDNA分子共有的分区特异性条形码,以及独特的分子特异性条形码。然后,使用存在于末端标签上的通用PCR序列对混合物中的每个cDNA分子进行扩增,从而获得了具有DNA分子原始库的许多相同拷贝的标记条形码的双链DNA分子的混合物(参见图5)。用耐尿嘧啶聚合酶和通用PCR序列的含尿嘧啶引物对标记条形码的DNA分子进行扩增。随后,通过用尿嘧啶-DNA糖基化酶与用于去除无嘌呤/无嘧啶位点的核酸内切酶的组合对扩增的标记条形码的DNA分子进行酶消化来去除通用PCR引发区域。
对扩增的标记条形码的DNA分子的混合物进行酶促片段化,使得平均每个长DNA分子都会被切割一次。获得含有5’条形码末端标签、3’末端标签、5’条形码末端标签和3’末端标签二者或者根本不含标签的DNA分子的混合物(参见图5)。此外,期望片段化位点是随机的。由于在片段化之前每个独特条形码化的分子具有许多相同的拷贝并且片段化位置是随机的,独特条形码化的分子的不同拷贝共有相同的分区特异性条形码和分子特异性条形码,和片段化产生的不同的3’端。共同地,独特条形码化分子的库的3’端的位置跨越原始条形码化分子的整个长度。还可对片段进行酶末端修复,以产生平端。
在片段化和末端修复后,对扩增的且标记条形码的DNA片段进行环化或分子内连接。由于片段的3’端是随机生成的,分子内连接使分区特异性条形码和分子特异性条形码分配至整个标记条形码的DNA分子的各个位置(参见图5和图6)。对环化的标记条形码的DNA片段进行第二次片段化,以使分子线性化并产生用于附接第二测序衔接子的可用末端。然后,对具有双端测序衔接子的标记条形码的DNA片段进行扩增、大小选择和测序。
使用分区特异性条形码和分子特异性条形码将短读取序列群集,并使用来自短读取序列的从头组装成原始分子的连续区域。任选地,使用原始分子的组装叠连群与分子的参考序列进行比较,以建立来自样品的定相信息。使用从头组装的定量分析和参考映射来表征长DNA分子。
实施例2
与实施例1中描述的方法相似,获得单细胞悬浮液,并使其与用含有分区特异性条形码和条形码特异性条形码的寡核苷酸功能化的微粒共同流动,以形成水性液滴,在每个液滴中含有一个或零个细胞和一个或零个微粒。每个微粒含有包含测序衔接子、通用PCR序列、分区特异性条形码、分子特异性条形码和基因特异性序列的多个末端标记衔接子。每个微粒上的多个标记衔接子共有相同的分区特异性条形码(其对该微粒来说是独特的),和不同的分子特异性条形码。一旦形成含有微粒和单个细胞的水性液滴,就将微粒悬浮在裂解缓冲液中,以辅助细胞裂解和释放核酸内容物。在液滴形成期间,在水性溶液中包含DNA聚合酶,并且使用末端标签中的基因特性序列作为引发位点在水性分区内拷贝基因组DNA分子(参见图7)。任选地,包含切点罕见限制酶来辅助引物进入基因组DNA分子。
或者,使用包含测序衔接子、通用PCR序列、分区特异性条形码、分子特异性条形码和随机序列的末端标记衔接子对来自水性分区内的核酸内容物的基因组DNA分子进行序列非依赖性标记。
一旦DNA分子被条形码化,水性乳液被破坏,并且来自所有水性溶液的核酸内容物被合并(参见图7)。包含通用PCR序列和在标记条形码的衔接子处的基因特异性序列下游的基因特定序列的第二末端标签被用于形成双标记的DNA分子的混合物。或者,对标记的DNA分子进行片段化和平端化,目的是以序列非依赖性方式连接包含通用PCR序列的第二末端标签。
混合物中的每个DNA分子含有与在同一分区内合成的其他DNA分子共有的分区特异性条码以及独特的分子特异性条形码。然后,使用末端标签上存在的通用PCR序列对混合物中的每个DNA分子进行扩增,从而获得具有原始DNA分子库的许多相同拷贝的标记条形码的双链DNA分子的混合物(参见图7)。此外,将与在标记条形码的DNA分子内部的序列互补的延长序列附加至含有分区特异性条形码和分子特异性条形码的末端。在扩增期间,使独特条形码化的分子复制为多个相同的拷贝,并且向独特条形码化的分子的每个复制附加不同的延长序列。共同地,经设计,延长序列跨越原始条形码化分子的整个长度,或者仅跨越感兴趣的特定区域。使具有附加的延长序列的标记条形码的双链DNA变性,从而生成具有延长序列以及在3’末端具有条形码序列的独特标记分子的库。
或者,标记条形码的单链DNA分子是通过酶降解从其双链对应部分生成的,例如,通过磷酸化链的λ核酸外切酶,具体地降解独特条形码化的DNA分子的一条链,以获得独特条形码化的且延长引发的单链DNA分子的库。
使用与相同分子的内部区域互补的3’末端上的延长序列对扩增的且标记条形码的DNA片段进行分子内退火和延伸,或者延长(参见图7)。由于使用了多个延长序列,分子内延长将分区特异性条形码和分子特异性条形码分配至整个标记条形码的DNA分子的各个位置。或者,在独特标记的DNA分子的扩增期间附加的延长序列为随机序列,从而以序列非依赖性方式发生分子内延长,并以序列非依赖性方式将条形码分配至整个标记条形码的DNA分子的各个位置。
最后,使用包含第二序列衔接子和在延长位点下游的基因特异性序列的寡核苷酸通过PCR引物延伸将第二测序衔接子整合至延长的标记条形码的DNA分子上。然后,对具有双端测序衔接子的标记条形码的DNA片段进行扩增、大小选择和测序。
使用分区特异性条形码和分子条形码将短读取序列群集,并使用来自短读取序列的从头组装将其组装成原始分子的连续或不连续区域。任选地,使用原始分子的组装叠连群来与分子的参考序列进行比较,以建立样品的定相信息。利用从头组装的定量分析和参考映射来表征长DNA分子。
实施例3
分别在互补DNA(cDNA)分子的5’端和3’端附加分子和细胞条形码。测序后,短读取使用附加的分子条形码序列进行群集并组装成合成长读取(SLR)叠连群。对于每个分子条形码,将组装的合成长读叠连群映射至参考数据库并识别(参见表1)。利用细胞条形码,将具有源自同一细胞或分区的不同分子条形码的合成长读取组成一组,以提供对细胞间差异表达模式的见解。参见图8和图9。
表1
Figure BDA0002444623670000731
Figure BDA0002444623670000741
虽然上文已经讨论了许多示例性方面和实施方案,但是应当理解的是,详细描述和附图是仅以阐述的方式给出的,并且基于该详细描述的各种变化和修改均被包含并落在本公开内容的精神和范围内。因此,旨在以下所附权利要求和此后引入的权利要求被解释为包括在本公开内容的真正精神和范围内的所有此类修改、排列、添加及其子组合。
在阅读说明书和研究附图后,其他限制对本领技术人员来说将是显而易见的。应当理解,本文所描述的方法和组成不限于本文所描述的特定方法、协议、结构和试剂,并且因此可以变化。还应理解,本文使用的术语仅用于描述特定实施方案的目的,并不旨在限制本文描述的方法和组成的范围,该范围将仅由所附权利要求限定。虽然本公开内容的某些实施方案已经在本文示出和描述,但是对于本领域技术人员来说,仅以示例的方式提供这些实施方案将是显而易见的。在不脱离本公开内容的情况下,本领域技术人员现将想到多种变化、改变和替换。应当理解,在实践本公开内容时,可以采用本文所述的本公开内容实施方案的各种替代方案。以下权利要求旨在限定本公开内容的范围,并由此涵盖这些权利要求范围内的方法和结构及其等同物。
若干个方面参考示例应用来描述。除非另有说明,否则任何实施方案都可以与任何其他实施方案组合。应当理解,阐述了许多具体细节、关系和方法以提供对本文所描述的特征的全面理解。然而,熟练的技术人员将容易地认识到,可以在没有一个或多个特定细节的情况下,或者使用其他方法的情况下,实践本文所描述的特征。这里描述的特征不受动作或事件的所示顺序的限制,因为一些动作可以不同的顺序发生和/或与其他动作或事件同时发生。此外,根据本文所描述的特征来实现方法并非需要所有示出的动作或事件。
本申请中引用的所有文献和类似材料包括但不限于专利、专利申请、NCBI编号、文章、书籍、论文、互联网网页和本公开内容中引用的其他出版物,无论这些文献和类似材料的格式如何,都清楚地通过引用整体并入本文用于任何目的,程度如同单独指明其每一个均通过引用而并入。如果一个或多个并入的文献和类似材料与本公开内容(包括但不限于定义的术语、术语用法、描述的技术等)不同或矛盾,则以本公开内容为准。
实施方案
1.一种方法,用于标记核酸分子以进行单细胞合成长读取(SLR)DNA测序或RNA测序,所述方法包括:
(a)将单个细胞包封入各个分区中,并提取其在每个分区内的核酸内容物;
(b)用包含分区特异性条形码和独特的分子特异性条形码的末端衔接子标记每个分区内的核酸分子,从而获得在每个分区内共有相同的分区特异性条形码的独特条形码化的核酸分子的库;
(c)提供多个克隆的核酸分子,每个克隆的核酸分子在末端具有相同的分区特异性条形码和分子特异性条形码;
(d)对于每个核酸分子,在分子内的随机位置对核酸进行片段化;
(e)对于条形码化核酸分子的每个拷贝,将条形码化的末端与由随机片段化产生的端接合,并且通过分子内连接对分子进行环化;
(f)对于每个核酸分子,对分区特异性条形码、分子特异性条形码和分子中直到且包含由随机片段化产生的端的内部序列进行测序;
(g)通过分子特异性条形码对测序数据进行群集,并从核酸分子的多个较短内部序列组装来自每个分子的每个条形码群集的合成长读取测序数据;
(h)通过细胞特异性条形码对合成长读取测序数据进行群集,以生成细胞特异性长读取测序数据;以及
(i)在高度同源分子的不同相,即分子变体,之间进行区分。
2.根据实施方案1所述的方法,其中用多个克隆的核酸群体进行所述方法,每个克隆的核酸群体具有与之附接的不同的分子特异性条形码,并且在(g)中为每个分子特异性条形码组装单独的序列。
3.一种方法,用于标记单个核酸分子以进行单细胞合成长读取(SLR)DNA测序或RNA测序,所述方法包括:
(a)将单个细胞包封入各个分区中,并提取其在每个分区内的核酸内容物;
(b)在一个末端用分区特异性条形码标记每个分区内的核酸分子;
(c)在相对末端用独特的分子特异性条形码标记核酸分子,从而获得独特条形码化的核酸分子的库;
(d)提供多个克隆的核酸分子,每个克隆的核酸分子在末端具有相同的分区特异性条形码和分子特异性条形码;
(e)对于每个核酸分子,在分子内的随机位置对核酸进行片段化;
(f)对于每个核酸分子,将具有分子特异性条形码的末端与由随机片段化产生的端接合,并且通过分子内连接对分子进行环化;
(g)对于每个核酸分子,对分区特异性条形码进行测序;
(h)对于每个核酸分子,对分子特异性条形码和分子中直到且包含由随机片段化产生的端的内部序列进行测序;
(i)从核酸分子的多个内部序列组装核酸分子的序列;以及
(j)在高度同源分子的不同相,即分子变体,之间进行区分。
4.根据实施方案3所述的方法,其中用多个克隆的核酸群体进行所述方法,每个克隆的核酸群体具有与之附接的不同的分子特异性条形码,并且在(i)中为每个分子特异性条形码组装单独的序列。
5.一种方法,用于标记单个核酸分子以进行单细胞合成长读取(SLR)DNA测序或RNA测序,所述方法包括:
(a)将单个细胞包封入各个分区中,并提取其在每个分区内的核酸内容物;
(b)在一个末端用分区特异性条形码标记每个分区内的核酸分子;
(c)在相对末端用独特的分子特异性条形码标记核酸分子,从而获得独特条形码化的核酸分子的库;
(d)提供多个克隆的核酸分子,每个克隆的核酸分子在末端具有相同的分区特异性条形码和分子特异性条形码;
(e)对于每个核酸分子,将具有分区特异性条形码的末端与具有分子特异性条形码的末端接合,并且通过分子内连接对分子进行环化;
(f)对于每个核酸分子,对分区特异性条形码和分子特异性条形码进行测序;
(g)将来自多个条形码序列的分子特异性条形码与分区特异性条形码配对;以及
(h)在来自不同分区的核酸分子的序列之间进行区分。
6.根据实施方案5所述的方法,其中用多个克隆的核酸群体进行所述方法,每个克隆的核酸群体具有与之附接的不同的分子特异性条形码,并且在(g)中为每个分子特异性条形码建立单独的配对。
7.一种方法,用于标记单个核酸分子以进行单细胞合成长读取(SLR)DNA测序或RNA测序,所述方法包括:
(a)将单个细胞包封入各个分区中,并提取其在每个分区内的核酸内容物;
(b)用包含分区特异性条形码和独特的分子特异性条形码的末端衔接子标记每个分区内的核酸分子,从而获得独特条形码化的DNA分子的库;
(c)提供多个克隆的核酸分子,每个克隆的核酸分子在末端具有相同的分区特异性条形码和分子特异性条形码;
(d)向含有条形码的末端附加也在长核酸分子内部的延长序列;
(e)对于每个核酸分子,进行变性并获得在3’末端具有延长序列的单链核酸以进行分子内引发;
(f)对于每个核酸分子,使具有延长序列的3’末端在内部位置分子内退火,并延伸分子;
(g)对于每个核酸分子,对分区特异性条形码、分子特异性条形码和在延长序列下游的内部序列进行测序;
(h)从核酸分子的多个内部序列组装核酸分子的序列;以及
(i)在高度同源分子的不同相,即分子变体,之间进行区分。
8.根据实施方案7所述的方法,其中用多个克隆的核酸群体进行所述方法,每个克隆的核酸群体具有与之附接的不同的分子特异性条形码,并且在(h)中为每个分子特异性条形码组装单独的序列。
9.一种方法,用于标记单个核酸分子以进行单细胞合成长读取(SLR)DNA测序或RNA测序,所述方法包括:
(a)将单个细胞包封入各个分区中,并提取其在每个分区内的核酸内容物;
(b)在一个末端用分区特异性条形码标记每个分区内的核酸分子;
(c)在相对末端用独特的分子特异性条形码标记核酸分子,从而获得独特条形码化的核酸分子;
(d)提供多个克隆的核酸分子,每个克隆的核酸分子在末端具有相同的分区特异性条形码和分子特异性条形码;
(e)向含有分子特异性条形码的末端附加也在长核酸分子内部的延长序列;
(f)对于每个核酸分子,进行变性并获得在3’末端具有延长序列的单链核酸以进行分子内引发;
(g)对于每个核酸分子,使具有延长序列的3’末端在内部位置分子内退火,并延伸分子;
(h)对于每个核酸分子,对分区特异性条形码、分子特异性条形码和在延长序列下游的内部序列进行测序;
(i)从核酸分子的多个内部序列组装核酸分子的序列;以及
(j)在高度同源分子的不同相,即分子变体,之间进行区分。
10.根据实施方案1、实施方案3、实施方案5、实施方案7或实施方案9所述的方法,其中通过引物延伸进行(b)中的标记。
11.根据实施方案1、实施方案3、实施方案5、实施方案7或实施方案9所述的方法,其中通过逆转录进行(b)中的标记。
12.根据实施方案1、实施方案3、实施方案5、实施方案7或实施方案9所述的方法,其中通过连接进行(b)中的标记。
13.根据实施方案1、实施方案3、实施方案5、实施方案7或实施方案9所述的方法,其中在进行(b)中的末端条形码标记之前,对核酸分子进行片段化。
14.根据实施方案1、实施方案3、实施方案5、实施方案7或实施方案9所述的方法,其中在进行(b)中的末端条形码标记之前,对核酸分子进行扩增和片段化。
15.根据实施方案3、实施方案5或实施方案9所述的方法,其中通过引物延伸进行(c)中的标记。
16.根据实施方案3、实施方案5或实施方案9所述的方法,其中通过连接进行(c)中的标记。
17.根据实施方案1或实施方案7所述的方法,其中通过PCR进行(c)中的提供多个克隆的核酸分子。
18.根据实施方案3、实施方案5或实施方案9所述的方法,其中在单分子分区内发生(c)中的标记。
19.根据实施方案3、实施方案5或实施方案9所述的方法,其中在分区被破坏且所有标记条形码的核酸分子被合并之后发生(c)中的标记。
20.根据实施方案3、实施方案5或实施方案9所述的方法,其中通过PCR进行(d)中的提供多个克隆的核酸分子。
21.根据实施方案1或实施方案7所述的方法,其中在微粒上固定包含分区特异性条形码和独特的分子特异性条形码的末端标签,每个微粒包含具有相同的分区特异性条形码和不同的分子特异性条形码的标签的许多拷贝。
22.根据实施方案21所述的方法,进一步包括在水性溶液中与单个细胞共同包封的条形码化的微粒。
23.根据实施方案21所述的方法,进一步包括,每个分区包含单个微粒和单个细胞。
24.根据实施方案21所述的方法,进一步包括,条形码化的微粒处于细胞裂解缓冲液的悬浮液中,以使得裂解缓冲液连同微粒和个体细胞一起被共同包封在水性溶液中。
25.根据实施方案1或实施方案7所述的方法,其中使包含分区特异性条形码和独特的分子特异性条形码的末端标签形成为水性液滴,每个液滴包含具有相同的分区特异性条形码和不同的不同的分子特异性条形码的标签的许多拷贝,从而产生条形码化的液滴。
26.根据实施方案25所述的方法,其中条形码化的液滴与具有单细胞分区的水性液滴融合。
27.根据实施方案25所述的方法,进一步包括,条形码标签处于细胞裂解缓冲液的悬浮液中,以使得当条形码标签液滴与单细胞液滴融合时,裂解缓冲液被共同包封在水性溶液中。
28.根据实施方案3、实施方案5或实施方案9所述的方法,其中在微粒上固定包含分区特异性条形码的末端标签,每个微粒包含具有相同分区特异性条形码的标签的许多拷贝。
29.根据实施方案28所述的方法,进一步包括在水性溶液中与单个细胞共同包封的条形码化的微粒。
30.根据实施方案28所述的方法,进一步包括,每个分区包含单个微粒和单个细胞。
31.根据实施方案28所述的方法,进一步包括,条形码化的微粒处于细胞裂解缓冲液的悬浮液中,以使得裂解缓冲液连同微粒和个体细胞一起被共同包封在水性溶液中。
32.根据实施方案3、实施方案5或实施方案9所述的方法,其中包含分区特异性条形码的末端标签形成为水性液滴,每个液滴包含具有相同的分区特异性条形码和不同的不同的分子特异性条形码的标签的许多拷贝,从而产生条形码化的液滴。
33.根据实施方案32所述的方法,进一步包括将条形码化的液滴与具有单细胞分区的水性液滴融合。
34.根据实施方案32所述的方法,进一步包括,条形码标签处于细胞裂解缓冲液的悬浮液中,以使得在条形码标签液滴与单细胞液滴融合时,裂解缓冲液被共同包封在水性溶液中。
35.一种通过将多个短核酸序列组装成较长的核酸序列来从核酸分子中获得核酸序列信息的方法,所述方法包括:
(a)将包含测序衔接子序列、通用PCR序列、分区特异性条形码和分子特异性条形码、含或不含靶分子序列的末端标签附接至多个核酸分子的一端,以形成标记条形码的分子的库;
(b)在条形码标签的相对端附接包含通用PCR序列、含或不含靶分子序列的第二末端标签;
(c)对标记条形码的分子进行扩增,以获得具有相同分子的许多拷贝的标记条形码的分子的文库;
(d)对标记条形码的分子进行片段化,从而生成标记条形码的片段,该标记条形码的片段由在一端的条形码序列和在另一端的来自内部区域的未知序列组成;
(e)经由分子内连接对标记条形码的片段进行环化,该标记条形码的片段由在一端的条形码序列和在另一端的来自内部区域的未知序列组成,从而使条形码序列趋近至来自内部区域的未知序列;
(f)将环化的、标记条形码的片段片段化为线性的、标记条形码的分子,其中条形码序列在线性分子的内部区域;
(g)将第二测序衔接子附接至线性的条形码化片段的每一端,以形成连接双衔接子的标记条形码的核酸片段;
(h)对全部或部分的连接双衔接子的标记条形码的核酸片段进行扩增;
(i)对连接双衔接子的标记条形码的核酸片段进行测序;
(j)使用分子特异性条形码将测序的核酸片段群集成组;以及
(k)将每组具有相同的分子特异性条形码的读取组装成长核酸序列。
36.根据实施方案35所述的方法,其中条形码标签上的靶分子序列包含聚胸腺嘧啶重复,并且相对标签上的靶分子序列包含聚鸟嘌呤重复。
37.根据实施方案35所述的方法,其中条形码标签上的靶分子序列包含包夹感兴趣区域的一端的基因特异性序列,并且相对标签上的靶分子序列包含聚鸟嘌呤重复。
38.根据实施方案35所述的方法,其中条形码标签上的靶分子序列包含包夹感兴趣区域的一端的基因特异性序列,并且相对标签上的靶分子序列包含包夹感兴趣区域的另一端的第二基因特异性序列。
39.根据实施方案35所述的方法,其中条形码标签上的靶分子序列包含聚鸟嘌呤重复,并且相对标签上的靶分子序列包含聚胸腺嘧啶重复。
40.根据实施方案35所述的方法,其中条形码标签上的靶分子序列包含聚胸腺嘧啶重复。
41.根据实施方案35所述的方法,其中条形码标签上的靶分子序列包含基因特异性序列。
42.根据实施方案35所述的方法,其中条形码标签上的靶分子序列包含长度为至少6个碱基的随机序列。
43.根据实施方案35所述的方法,其中条形码标签上的靶分子序列包含长度为至少8个碱基的随机序列。
44.根据实施方案35所述的方法,其中条形码标签上的靶分子序列包含长度为至少10个碱基的随机序列。
45.根据实施方案35所述的方法,其中条形码标签上的靶分子序列包含长度为至少12个碱基的随机序列。
46.根据实施方案35所述的方法,其中条形码标签上的靶分子序列包含长度为至少16个碱基的随机序列。
47.根据实施方案35所述的方法,其中条形码标签上的靶分子序列包含长度为至少20个碱基的随机序列。
48.一种通过将多个短核酸序列组装成较长的核酸序列来从核酸分子中获得核酸序列信息的方法,所述方法包括:
(a)将包含通用PCR序列和分区特异性条形码、含或不含靶分子序列的末端标签附接至多个核酸分子的一端,以形成标记条形码的分子的库;
(b)在第一条形码标签的相对端附接包含测序衔接子序列、通用PCR序列和分子特异性条形码、含或不含靶分子序列的第二末端标签;
(c)对标记条形码的分子进行扩增,以获得具有相同分子的许多拷贝的标记条形码的分子的文库;
(d)对标记条形码的分子进行片段化,从而生成标记条形码的片段,该标记条形码的片段由在一端的条形码序列和在另一端的来自内部区域的未知序列组成;
(e)经由分子内连接对标记条形码的片段进行环化,该标记条形码的片段由在一端的条形码序列和在另一端的来自内部区域的未知序列组成,从而使条形码序列趋近至来自内部区域的未知序列;
(f)将环化的、标记条形码的片段片段化为线性的、标记条形码的分子,其中条形码序列在线性分子的内部区域;
(g)将第二测序衔接子附接至线性的条形码化片段的每一端,以形成连接双衔接子的标记条形码的核酸片段;
(h)对全部或部分的连接双衔接子的标记条形码的核酸片段进行扩增;
(i)对连接双衔接子的标记条形码的核酸片段进行测序;
(j)使用分子特异性条形码将测序的核酸片段群集成组;以及
(k)将每组具有相同分子特异性条形码的读取组装成长核酸序列。
49.根据实施方案48所述的方法,其中分区特异性条形码标签上的靶分子序列包含聚胸腺嘧啶重复,并且分子特异性标签上的靶分子序列包含聚鸟嘌呤重复。
50.根据实施方案48所述的方法,其中分区特异性条形码标签上的靶分子序列包含包夹感兴趣区域的一端的基因特异性序列,并且分子特异性标签上的靶分子序列包含聚鸟嘌呤重复。
51.根据实施方案48所述的方法,其中分区特异性条形码标签上的靶分子序列包含包夹感兴趣区域的一端的基因特异性序列,并且分子特异性标签上的靶分子序列包含包夹感兴趣区域的另一端的第二基因特异性序列。
52.根据实施方案48所述的方法,其中分区特异性条形码标签上的靶分子序列包含聚鸟嘌呤重复,并且分子特异性条形码标签上的靶分子序列包含聚胸腺嘧啶重复。
53.根据实施方案48所述的方法,其中分区特异性条形码标签上的靶分子序列包含聚胸腺嘧啶重复。
54.根据实施方案48所述的方法,其中分区特异性条形码标签上的靶分子序列包含基因特异性序列。
55.根据实施方案48所述的方法,其中分区特异性条形码标签上的靶分子序列包含长度为至少6个碱基的随机序列。
56.根据实施方案48所述的方法,其中分区特异性条形码标签上的靶分子序列包含长度为至少8个碱基的随机序列。
57.根据实施方案48所述的方法,其中分区特异性条形码标签上的靶分子序列包含长度为至少10个碱基的随机序列。
58.根据实施方案48所述的方法,其中分区特异性条形码标签上的靶分子序列包含长度为至少12个碱基的随机序列。
59.根据实施方案48所述的方法,其中分区特异性条形码标签上的靶分子序列包含长度为至少16个碱基的随机序列。
60.根据实施方案48所述的方法,其中分区特异性条形码标签上的靶分子序列包含长度为至少20个碱基的随机序列。
61.根据实施方案35或实施方案48所述的方法,其中在分区特异性分区内发生(a)中的附接。
62.根据实施方案35或实施方案48所述的方法,其中通过引物延伸进行(a)中的附接。
63.根据实施方案35或实施方案48所述的方法,其中通过逆转录进行(a)中的附接。
64.根据实施方案35或实施方案48所述的方法,其中通过连接进行(a)中的附接。
65.根据实施方案35或实施方案48所述的方法,其中在单细胞分区内发生(b)中的附接。
66.根据实施方案35或实施方案48所述的方法,其中在分区被破坏并且所有标记条形码的核酸分子被合并之后发生(b)中的附接。
67.根据实施方案35或实施方案48所述的方法,其中通过引物延伸进行(b)中的附接。
68.根据实施方案35或实施方案48所述的方法,其中通过连接进行(b)中的附接。
69.根据实施方案35或实施方案48所述的方法,其中在(b)中用分子特异性条形码进行标记之前对核酸分子进行片段化。
70.根据实施方案35或实施方案48所述的方法,其中通过PCR进行(c)中的扩增。
71.根据实施方案70所述的方法,进一步包括使用耐尿嘧啶DNA聚合酶和含尿嘧啶的通用PCR引物。
72.根据实施方案71所述的方法,其中在(e)中的环化之前去除含尿嘧啶的通用区域。
73.根据实施方案35或实施方案48所述的方法,其中通过连接进行(e)中的环化。
74.一种通过将多个短核酸序列组装成较长核酸序列来从核酸分子中获得核酸序列信息的方法,所述方法包括:
(a)将包含测序衔接子序列、通用PCR序列、分区特异性条形码和分子特异性条形码、含或不含靶分子序列的末端标签附接至多个核酸分子的一端,以形成标记条形码的分子的库;
(b)在条形码标签的相对端附接包含通用PCR序列、含或不含靶分子序列的第二末端标签;
(c)对标记条形码的分子进行扩增,以获得具有相同分子的许多拷贝的标记条形码的分子的文库;
(d)向含有条形码的末端附加也内长核酸分子内部的延长序列;
(e)使具有延长序列的标记条形码的双链分子变性或去除其两条链中的一条,从而生成标记条形码的分子,该标记条形码的分子由条形码序列和在3’端的延长序列组成;
(f)使具有延长序列的3’末端在内部位置分子内退火并延伸分子,从而使条形码序列趋近至与延长序列互补的内部区域;
(g)将第二测序衔接子附接至分子内延长的条形码化的分子,以形成双衔接子的标记条形码的核酸片段;
(h)对全部或部分的双衔接子的标记条形码的核酸片段进行扩增;
(i)对双衔接子的标记条形码的核酸片段进行测序;
(j)使用分子特异性条形码将测序的核酸片段群集成组;以及
(k)将每组具有相同分子特异性条形码的读取组装成长核酸序列。
75.一种通过将多个短核酸序列组装成较长核酸序列来从核酸分子中获得核酸序列信息的方法,所述方法包括:
(a)将包含通用PCR序列和分区特异性条形码、含或不含靶分子序列的末端标签附接至多个核酸分子的一端,以形成标记条形码的分子的库;
(b)在分区特异性条形码标签的相对端附接包含测序衔接子、通用PCR序列和分子特异性条形码、含或不含靶分子序列的第二末端标签;
(c)对标记条形码的分子进行扩增,以获得具有相同分子的许多拷贝的标记条形码的分子的文库;
(d)向含有条形码的末端附加也内长核酸分子内部的延长序列;
(e)使具有延长序列的标记条形码的双链分子变性或去除其两条链中的一条,从而生成标记条形码的分子,该标记条形码的分子由条形码序列和在3’端的延长序列组成;
(f)使具有延长序列的3’末端在内部位置分子内退火并延伸分子,从而使条形码序列趋近至与延长序列互补的内部区域;
(g)将第二测序衔接子附接至分子内延长的条形码化的分子,以形成双衔接子的标记条形码的核酸片段;
(h)对全部或部分的双衔接子的标记条形码的核酸片段进行扩增;
(i)对双衔接子的标记条形码的核酸片段进行测序;
(j)使用分子特异性条形码将测序的核酸片段群集成组;以及
(k)将每组具有相同分子特异性条形码的读取组装成长核酸序列。
76.根据实施方案74或实施方案75所述的方法,其中在分区特异性分区内发生(a)中的附接。
77.根据实施方案74或实施方案75所述的方法,其中通过引物延伸进行(a)中的附接。
78.根据实施方案74或实施方案75所述的方法,其中通过逆转录进行(a)中的附接。
79.根据实施方案74或实施方案75所述的方法,其中通过连接进行(a)中的附接。
80.根据实施方案74或实施方案75所述的方法,其中在单细胞分区内发生(b)中的附接。
81.根据实施方案74或实施方案75所述的方法,其中在分区被破坏并且所有标记条形码的核酸分子被合并后发生(b)中的附接。
82.根据实施方案74或实施方案75所述的方法,其中通过引物延伸进行(b)中的附接。
83.根据实施方案74或实施方案75所述的方法,其中通过连接进行(b)中的附接。
84.根据实施方案74或实施方案75所述的方法,进一步包括在(b)中的附接之前对核酸分子进行片段化。
85.根据实施方案74或实施方案75所述的方法,其中通过PCR进行(c)中的扩增。
86.根据实施方案74或实施方案75所述的方法,其中通过PCR进行(d)中的扩增。
87.根据实施方案74或实施方案75所述的方法,其中通过连接进行(d)中的扩增。
88.根据实施方案74或实施方案75所述的方法,其中将不同的延长序列附加至共有相同分子特异性条形码的核酸分子的不同拷贝,从而生成标记条形码的核酸的库,所述标记条形码的核酸具有与不同的内部位置互补的不同的延长序列。共同地,经设计,不同的内部位置覆盖核酸分子的长度或者感兴趣的不连续区域。
89.根据实施方案74或实施方案75所述的方法,其中条形码标签上的延长序列包含长度为至少6个碱基的随机序列。
90.根据实施方案74或实施方案75所述的方法,其中条形码标签上的延长序列包含长度为至少8个碱基的随机序列。
91.根据实施方案74或实施方案75所述的方法,其中条形码标签上的延长序列包含长度为至少10个碱基的随机序列。
92.根据实施方案74或实施方案75所述的方法,其中条形码标签上的延长序列包含长度为至少12个碱基的随机序列。
93.根据实施方案74或实施方案75所述的方法,其中条形码标签上的延长序列包含长度为至少16个碱基的随机序列。
94.根据实施方案74或实施方案75所述的方法,其中条形码标签上的延长序列包含长度为至少20个碱基的随机序列。
95.根据实施方案74或实施方案75所述的方法,其中在稀释条件下通过热变性进行(e)中的生成ssDNA。
96.根据实施方案74或实施方案75所述的方法,其中在稀释条件下通过碱变性进行(e)中的生成ssDNA。
97.根据实施方案74或实施方案75所述的方法,其中通过待去除链的5’磷酸化和经λ核酸外切酶的酶消化进行(e)中的生成ssDNA。
98.根据实施方案74或实施方案75所述的方法,其中(e)中的生成ssDNA是通过以下进行的:通过5’生物素化附加待去除链,将链固定在包覆链霉亲和素的固体表面,以及通过洗涤和/或变性释放用于延长的链。
99.根据实施方案74或实施方案75所述的方法,其中等温地进行(f)中的延伸。
100.根据实施方案74或实施方案75所述的方法,其中通过在一温度下进行引物退火和在不同温度下进行延伸而进行(f)的所述延伸。
101.根据实施方案74或实施方案75所述的方法,其中使用含有第二测序衔接子和在延长序列下游的基因特异性序列的引物通过PCR进行(g)中的附接。
102.根据实施方案74或实施方案75所述的方法,进一步包括在进行(g)中的附接之前对标记条形码的且延长的核酸分子进行片段化。
103.根据实施方案1至102中任意一项所述的方法,其中对于长度为至少约500个碱基的较长核酸序列获得核酸序列。
104.根据实施方案1至103中任意一项所述的方法,其中对于长度为至少约1000个碱基的较长核酸序列获得核酸序列。
105.根据实施方案1至104中任意一项所述的方法,其中对于长度为至少1000个或更多碱基的较长核酸序列获得核酸序列。
106.根据实施方案1至105中任意一项所述的方法,其中对于长度为至少1千碱基至约20千碱基的较长核酸序列获得核酸序列。
序列表
<110> 梅塔生物科技公司
<120> 标记来自单个细胞的核酸分子以进行定相测序
<130> 50112-705.601
<140>
<141>
<150> 62/543,687
<151> 2017-08-10
<160> 42
<170> PatentIn版本3.5
<210> 1
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 人工序列的描述:合成的
寡核苷酸
<400> 1
gcttccttct ga 12
<210> 2
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 人工序列的描述:合成的
寡核苷酸
<400> 2
gtcagaagca ct 12
<210> 3
<211> 6
<212> PRT
<213> 人工序列
<220>
<223> 人工序列的描述:合成的
6xHis tag
<400> 3
His His His His His His
1 5
<210> 4
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 人工序列的描述:合成的
寡核苷酸
<400> 4
tcaatacagt ta 12
<210> 5
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 人工序列的描述:合成的
寡核苷酸
<400> 5
aacagtacct ag 12
<210> 6
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 人工序列的描述:合成的
寡核苷酸
<400> 6
tacctaaccc gc 12
<210> 7
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 人工序列的描述:合成的
寡核苷酸
<400> 7
cgaacaatcg ac 12
<210> 8
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 人工序列的描述:合成的
寡核苷酸
<400> 8
atagtagcgc tt 12
<210> 9
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 人工序列的描述:合成的
寡核苷酸
<400> 9
gatcagcata tc 12
<210> 10
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 人工序列的描述:合成的
寡核苷酸
<400> 10
aaagcggacg aa 12
<210> 11
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 人工序列的描述:合成的
寡核苷酸
<400> 11
cgcaccgacc cc 12
<210> 12
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 人工序列的描述:合成的
寡核苷酸
<400> 12
gcttccttct ga 12
<210> 13
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 人工序列的描述:合成的
寡核苷酸
<400> 13
tgactcctaa ac 12
<210> 14
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 人工序列的描述:合成的
寡核苷酸
<400> 14
acattactgg ac 12
<210> 15
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 人工序列的描述:合成的
寡核苷酸
<400> 15
aagagatcgt aa 12
<210> 16
<211> 12
<212> DNA
<213> 人工序列
<220>
<223> 人工序列的描述:合成的
寡核苷酸
<400> 16
gtcagaagca ct 12
<210> 17
<211> 16
<212> DNA
<213> 人工序列
<220>
<223> 人工序列的描述:合成的
寡核苷酸
<400> 17
catatggcag tcgatt 16
<210> 18
<211> 16
<212> DNA
<213> 人工序列
<220>
<223> 人工序列的描述:合成的
寡核苷酸
<400> 18
ggtgcgtagt agccga 16
<210> 19
<211> 16
<212> DNA
<213> 人工序列
<220>
<223> 人工序列的描述:合成的
寡核苷酸
<400> 19
ccttcgacaa cacccg 16
<210> 20
<211> 16
<212> DNA
<213> 人工序列
<220>
<223> 人工序列的描述:合成的
寡核苷酸
<400> 20
caccaggtcg gcgcta 16
<210> 21
<211> 16
<212> DNA
<213> 人工序列
<220>
<223> 人工序列的描述:合成的
寡核苷酸
<400> 21
acatacgaga ggtacc 16
<210> 22
<211> 16
<212> DNA
<213> 人工序列
<220>
<223> 人工序列的描述:合成的
寡核苷酸
<400> 22
acatcagcac ggccat 16
<210> 23
<211> 16
<212> DNA
<213> 人工序列
<220>
<223> 人工序列的描述:合成的
寡核苷酸
<400> 23
agtgtcatct aacttc 16
<210> 24
<211> 16
<212> DNA
<213> 人工序列
<220>
<223> 人工序列的描述:合成的
寡核苷酸
<400> 24
cagctaaaga caagcc 16
<210> 25
<211> 16
<212> DNA
<213> 人工序列
<220>
<223> 人工序列的描述:合成的
寡核苷酸
<400> 25
gtgcatagtc agataa 16
<210> 26
<211> 16
<212> DNA
<213> 人工序列
<220>
<223> 人工序列的描述:合成的
寡核苷酸
<400> 26
tagttgggtt accagt 16
<210> 27
<211> 16
<212> DNA
<213> 人工序列
<220>
<223> 人工序列的描述:合成的
寡核苷酸
<400> 27
gacgttacat cggtta 16
<210> 28
<211> 16
<212> DNA
<213> 人工序列
<220>
<223> 人工序列的描述:合成的
寡核苷酸
<400> 28
cgcttcacac aacgtt 16
<210> 29
<211> 16
<212> DNA
<213> 人工序列
<220>
<223> 人工序列的描述:合成的
寡核苷酸
<400> 29
ttcggtcgtc tccatc 16
<210> 30
<211> 1274
<212> DNA
<213> 智人
<400> 30
ccccgcctgc ggcccagctc cttcccgcgg ctctgcgatg cggcccgcag ggtgacccgg 60
gcgggagtcc ggggacccgc gatcagcccc ggaggacggg gtggggtcgc cccaaacagg 120
agcgccggga ccgctgggac cccgcactcg gcgtccgccg ccgccgggta gccgggcagt 180
ggaggtcccg gatgaggcga caatttttcc ggccccccct cccagtcccg ccccacttcc 240
ggggccgcca ctttcacttt ctcttccgcc gaagccgctc cccttgcgaa gaactggggc 300
ctcccgggag gagagagggc tttgccttga aacccgggac gccaggggcg ctcccgcaag 360
tgggggtcct ccgggacttg gaacgccccg gctgggtggt gtccgggcgt cctttccccg 420
cttcttccca cctcggctgg tcccgtttcc tcctgcgccc agtgcggacc tgtctcggcg 480
cccgctgccc tctcaccgcc ccacgcagga tcccggcctg gtcaccgggc agtgtgatgc 540
ttcccgactg ccgcggggac agcgaggcac acacagggct tgggccgcgc cggaggccac 600
acggcctggc tgagttgctc ctggtctccc gcctctccca ggcgacccgg aggtagcatt 660
tcccaggagg cacggtcccc cccaggggga tgggcacagc cacgccagat ggacgagaag 720
accaagaaag cagaggaaat ggccctgagc ctcacccgag cagtggcggg cggggatgaa 780
caggtggcaa tgaagtgtgc catctggctg gcagagcaac gggtgcccct gagtgtgcaa 840
ctgaagcctg aggtctcccc aacgcaggac atcagattcc tcatggtgca aaatggccat 900
tccagctcca tccagccatc acatcacagg aggaagggaa gaaagacacc cctccacact 960
cttctaaaga gcatagctca aaaattgtac acacttcttc cgttaattcc tgtggaccag 1020
aactgattcc cacagctaca gttcagcttg aggggagact gtatagccaa gatattcagc 1080
tagaattcag gggttcgctt ggtaagggaa gggaagagaa tggatactgt cggtctgtgc 1140
tccaggagac ttaaactcaa tgctgaaaca ctttgcacaa tgcctggcgt gttatgcact 1200
caataataaa cattagtgtc tatcgttaaa aaaaaaaaaa aaaaaaaaaa aaaaaaaaaa 1260
aaaaaaaaaa aaaa 1274
<210> 31
<211> 2116
<212> DNA
<213> 智人
<400> 31
actcccgggc cgccgggggc actagggggg gtggggtttc cttccgcatc tccacggttc 60
caactccaac ctagactcaa actggacgcc ggccggagac tccgctccgg cagcaaaccc 120
cacgtggtgc acctctgagc ctccgcccct ctcccgaggg aaccgcaact ctacttctcg 180
cgagaattgc ttctatggct ccatcctgct ttccggctgt cgccctcatg cgataggctc 240
tcagcgttac ttgactcttc tcgcgataat tttttttaaa aatctcccaa ggaaagttga 300
aggaagagta caaaattttc atctcgcgag acttgtgagc ggccatcttg gtcctgccct 360
gacagattct cctatcgggg tcacagggac gctaagattg ctacctggac tttcgttgac 420
catgctgtcc cgggtggtac tttccgccgc cgccacagcg gccccctctc tgaagaatgc 480
agccttccta ggtccagggg tattgcaggc aacaaggacc tttcatacag ggcagccaca 540
ccttgtccct gtaccacctc ttcctgaata cggaggaaaa gttcgttatg gactgatccc 600
tgaggaattc ttccagtttc tttatcctaa aactggtgta acaggaccct atgtactcgg 660
aactgggctt atcttgtacg ctttatccaa agaaatatat gtgattagcg cagagacctt 720
cactgcccta tcagtactag gtgtaatggt ctatggaatt aaaaaatatg gtccctttgt 780
tgcagacttt gctgataaac tcaatgagca aaaacttgcc caactagaag aggcgaagca 840
ggcttccatc caacacatcc agaatgcaat tgatacggag aagtcacaac aggcactggt 900
tcagaagcgc cattaccttt ttgatgtgca aaggaataac attgctatgg ctttggaagt 960
tacttaccgg gaacgactgt atagagtata taaggaagta aagaatcgcc tggactatca 1020
tatatctgtg cagaacatga tgcgtcgaaa ggaacaagaa cacatgataa attgggtgga 1080
gaagcacgtg gtgcaaagca tctccacaca gcaggaaaag gagacaattg ccaagtgcat 1140
tgcggaccta aagctgctgg caaagaaggc tcaagcacag ccagttatgt aaatgtatct 1200
atcccaattg agacagctag aaacagttga ctgactaaat ggaaactagt ctatttgaca 1260
aagtctttct gtgttggtgt ctactgaagt tatagtttac ccttcctaaa aatgaaaagt 1320
ttgtttcata tagtgagaga acgaaatctc tatcggccag tcagatgttt ctcatccttc 1380
ttgctctgcc tttgagttgt tccgtgatca cttctgaata agcagtttgc ctttataaaa 1440
acttgctgcc tgactaaaga ttaacaggtt atagtttaaa tttgtaatta attctaccat 1500
cttgcaataa agtgacaatt gaatgaaaca gggtttttca agttgtataa ttctctgaaa 1560
tactcagctt ttgtcatatg ggtaaaaatt aaagatgtca ttgaactact gtcttgttta 1620
tgagaccatt cagtggtgaa ctgtttctgg ctgataggtt atgagatatg taaagctttc 1680
tagtactctt aaaataacta aatggagtat tatatatcaa ttcatatcat tgactttatt 1740
attttagtag tatgcctata gaaaatatta tggactcaga gtgtcataaa atcactctta 1800
agaatccatg cagcaggcca ggcacagtgg ctcacacctg taatgcctgc actttggaag 1860
gccgagacag gcggatcact tgaggtcagg agtttgaaac cagccaggcc aacacagtga 1920
aaccctgtct ctactaaaaa tacaaaaggt tagccgggca tggtggcagg cgcctgtaat 1980
cccagctact caggaggctg aggcaggaga attgcttgaa cgcaggaggc aaaggttgca 2040
gtgagctgag atcacgccac tgcactccag cctgggcaac agacctcgac tccatctaga 2100
aaaaaaaaaa aaaaaa 2116
<210> 32
<211> 1125
<212> DNA
<213> 智人
<400> 32
ctctctttca ctgcaaggcg gcggcaggag aggttgtggt gctagtttct ctaagccatc 60
cagtgccatc ctcgtcgctg cagcgacaca cgctctcgcc gccgccatga ctgagcagat 120
gacccttcgt ggcaccctca agggccacaa cggctgggta acccagatcg ctactacccc 180
gcagttcccg gacatgatcc tctccgcctc tcgagataag accatcatca tgtggaaact 240
gaccagggat gagaccaact atggaattcc acagcgtgct ctgcggggtc actcccactt 300
tgttagtgat gtggttatct cctcagatgg ccagtttgcc ctctcaggct cctgggatgg 360
aaccctgcgc ctctgggatc tcacaacggg caccaccacg aggcgatttg tgggccatac 420
caaggatgtg ctgagtgtgg ccttctcctc tgacaaccgg cagattgtct ctggatctcg 480
agataaaacc atcaagctat ggaataccct gggtgtgtgc aaatacactg tccaggatga 540
gagccactca gagtgggtgt cttgtgtccg cttctcgccc aacagcagca accctatcat 600
cgtctcctgt ggctgggaca agctggtcaa ggtatggaac ctggctaact gcaagctgaa 660
gaccaaccac attggccaca caggctatct gaacacggtg actgtctctc cagatggatc 720
cctctgtgct tctggaggca aggatggcca ggccatgtta tgggatctca acgaaggcaa 780
acacctttac acgctagatg gtggggacat catcaacgcc ctgtgcttca gccctaaccg 840
ctactggctg tgtgctgcca caggccccag catcaagatc tgggatttag agggaaagat 900
cattgtagat gaactgaagc aagaagttat cagtaccagc agcaaggcag aaccacccca 960
gtgcacctcc ctggcctggt ctgctgatgg ccagactctg tttgctggct acacggacaa 1020
cctggtgcga gtgtggcagg tgaccattgg cacacgctag aagtttatgg cagagcttta 1080
caaataaaaa aaaaactggc ttttctgaca aaaaaaaaaa aaaaa 1125
<210> 33
<211> 852
<212> DNA
<213> 智人
<400> 33
cgtttttcct ctcttcagcg tggggcgccc acaatttgcg cgctctcttt ctgctgctcc 60
ccagctctcg gatacagccg acaccatggg tttcggagac ctgaaaagcc ctgccggcct 120
ccaggtgctc aacgattacc tggcggacaa gagctacatc gaggggtatg tgccatcaca 180
agcagatgtg gcagtatttg aagccgtgtc cagcccaccg cctgccgact tgtgtcatgc 240
cctacgttgg tataatcaca tcaagtctta cgaaaaggaa aaggccagcc tgccaggagt 300
gaagaaagct ttgggcaaat atggtcctgc cgatgtggaa gacactacag gaagtggagc 360
tacagatagt aaagatgatg atgacattga cctctttgga tctgatgatg aggaggaaag 420
tgaagaagca aagaggctaa gggaagaacg tcttgcacaa tatgaatcaa agaaagccaa 480
aaaacctgca cttgttgcca agtcttccat cttactagat gtgaaacctt gggatgatga 540
gacagatatg gcgaaattag aggagtgcgt cagaagcatt caagcagacg gcttagtctg 600
gggctcatct aaactagttc cagtgggata cggaattaag aaacttcaaa tacagtgtgt 660
agttgaagat gataaagttg gaacagatat gctggaggag cagatcactg cttttgagga 720
ctatgtgcag tcgatggatg tggctgcttt caacaagatc taaaatccat cctggatcat 780
ggcatttaaa taaaagattg aaagattaaa aaaaaaaaaa aaaaaaaaaa aaaaaagaaa 840
aaaaaaaaaa aa 852
<210> 34
<211> 1325
<212> DNA
<213> 智人
<400> 34
ggggctctac cggcgggatt tgatggcgtg atgtctcaca gaaagttctc cgctcccaga 60
catgggtccc tcggcttcct gcctcggaag cgcagcagca ggcatcgtgg gaaggtgaag 120
agcttcccta aggatgaccc gtccaagccg gtccacctca cagccttcct gggatacaag 180
gctggcatga ctcacatcgt gcgggaagtc gacaggccgg gatccaaggt gaacaagaag 240
gaggtggtgg aggctgtgac cattgtagag acaccaccca tggtggttgt gggcattgtg 300
ggctacgtgg aaacccctcg aggcctccgg accttcaaga ctgtctttgc tgagcacatc 360
agtgatgaat gcaagaggcg tttctataag aattggcata aatctaagaa gaaggccttt 420
accaagtact gcaagaaatg gcaggatgag gatggcaaga agcagctgga gaaggacttc 480
agcagcatga agaagtactg ccaagtcatc cgtgtcattg cccacaccca gatgcgcctg 540
cttcctctgc gccagaagaa ggcccacctg atggagatcc aggtgaacgg aggcactgtg 600
gccgagaagc tggactgggc ccgcgagagg cttgagcagc aggtacctgt gaaccaagtg 660
tttgggcagg atgagatgat cgacgtcatc ggggtgacca agggcaaagg ctacaaaggg 720
gtcaccagtc gttggcacac caagaagctg ccccgcaaga cccaccgagg cctgcgcaag 780
gtggcctgta ttggggcatg gcatcctgct cgtgtagcct tctctgtggc acgcgctggg 840
cagaaaggct accatcaccg cactgagatc aacaagaaga tttataagat tggccagggc 900
taccttatca aggacggcaa gctgatcaag aacaatgcct ccactgacta tgacctatct 960
gacaagagca tcaaccctct gggtggcttt gtccactatg gtgaagtgac caatgacttt 1020
gtcatgctga aaggctgtgt ggtgggaacc aagaagcggg tgctcaccct ccgcaagtcc 1080
ttgctggtgc agacgaagcg gcgggctctg gagaagattg accttaagtt cattgacacc 1140
acctccaagt ttggccatgg ccgcttccag accatggagg agaagaaagc attcatggga 1200
ccactgaaga aagaccgaat tgcaaaggaa gaaggagctt aatgccagga acagattttg 1260
cagttggtgg ggtctcaata aaagttattt tccactgaaa aaaaaaaaaa aaaaaaaaaa 1320
aaaaa 1325
<210> 35
<211> 1186
<212> DNA
<213> 智人
<400> 35
cacttctgcc gcccctgttt caagggataa gaaaccctgc gacaaaacct cctccttttc 60
caagcggctg ccgaagatgg cggaggtgca ggtcctggtg cttgatggtc gaggccatct 120
cctgggccgc ctggcggcca tcgtggctaa acaggccgga aggtggtggt cgtacgctgt 180
gaaggcatca acatttctgg caatttctac agaaacaagt tgaagtacct ggctttcctc 240
cgcaagcgga tgaacaccaa cccttcccga ggcccctacc acttccgggc ccccagccgc 300
atcttctggc ggaccgtgcg aggtatgctg ccccacaaaa ccaagcgagg ccaggccgct 360
ctggaccgtc tcaaggtgtt tgacggcatc ccaccgccct acgacaagaa aaagcggatg 420
gtggttcctg ctgccctcaa ggtcgtgcgt ctgaagccta caagaaagtt tgcctatctg 480
gggcgcctgg ctcacgaggt tggctggaag taccaggcag tgacagccac cctggaggag 540
aagaggaaag agaaagccaa gatccactac cggaagaaga aacagctcat gaggctacgg 600
aaacaggccg agaagaacgt ggagaagaaa attgacaaat acacagaggt cctcaagacc 660
cacggactcc tggtctgagc ccaataaaga ctgttaattc ctcatgcgtt gcctgccctt 720
cctccattgt tgccctggaa tgtacgggac ccaggggcag cagcagtcca ggtgccacag 780
gcagccctgg gacataggaa gctgggagca aggaaagggt cttagtcact gcctcccgaa 840
gttgcttgaa agcactcgga gaattgtgca ggtgtcattt atctatgacc aataggaaga 900
gcaaccagtt actatgagtg aaagggagcc agaagactga ttggagggcc ctatcttgtg 960
agtggggcat ctgttggact ttccacctgg tcatatactc tgcagctgtt agaatgtgca 1020
agcacttggg gacagcatga gcttgctgtt gtacacaggg tatttctaga agcagaaata 1080
gactgggaag atgcacaacc aaggggttac aggcatcgcc catgctcctc acctgtattt 1140
tgtaatcaga aataaattgc ttttaaagaa aaaaaaaaaa aaaaaa 1186
<210> 36
<211> 1458
<212> DNA
<213> 智人
<400> 36
aagcacttcc ttttcctgtg gcagcagccg ggctgagagg agcgtggctg tctcctctct 60
ccgccatggc gtgtgctcgc ccactgatat cggtgtactc cgaaaagggg gagtcatctg 120
gcaaaaatgt cactttgcct gctgtattca aggctcctat tcgaccagat attgtgaact 180
ttgttcacac caacttgcgc aaaaacaaca gacagcccta tgctgtcagt gaattagcag 240
gtcatcagac tagtgctgag tcttggggta ctggcagagc tgtggctcga attcccagag 300
ttcgaggtgg tgggactcac cgctctggcc agggtgcttt tggaaacatg tgtcgtggag 360
gccgaatgtt tgcaccaacc aaaacctggc gccgttggca tcgtagagtg aacacaaccc 420
aaaaacgata cgccatctgt tctgccctgg ctgcctcagc cctaccagca ctggtcatgt 480
ctaaaggtca tcgtattgag gaagttcctg aacttccttt ggtagttgaa gataaagttg 540
aaggctacaa gaagaccaag gaagctgttt tgctccttaa gaaacttaaa gcctggaatg 600
atatcaaaaa ggtctatgcc tctcagcgaa tgagagctgg caaaggcaaa atgagaaacc 660
gtcgccgtat ccagcgcagg ggcccgtgca tcatctataa tgaggataat ggtatcatca 720
aggccttcag aaacatccct ggaattactc tgcttaatgt aagcaagctg aacattttga 780
agcttgctcc tggtgggcat gtgggacgtt tctgcatttg gactgaaagt gctttccgga 840
agttagatga attgtacggc acttggcgta aagccgcttc cctcaagagt aactacaatc 900
ttcccatgca caagatgatt aatacagatc ttagcagaat cttgaaaagc ccagagatcc 960
aaagagccct tcgagcacca cgcaagaaga tccatcgcag agtcctaaag aagaacccac 1020
tgaaaaactt gagaatcatg ttgaagctaa acccatatgc aaagaccatg cgccggaaca 1080
ccattcttcg ccaggccagg aatcacaagc tccgggtgga taaggcagct gctgcagcag 1140
cggcactaca agccaaatca gatgagaagg cggcggttgc aggcaagaag cctgtggtag 1200
gtaagaaagg aaagaaggct gctgttggtg ttaagaagca gaagaagcct ctggtgggaa 1260
aaaaggcagc agctaccaag aaaccagccc ctgaaaagaa gcctgcagag aagaaaccta 1320
ctacagagga gaagaagcct gctgcataaa ctcttaaatt tgattattcc ataaaggtca 1380
aatcattttg gacagcttct tttgaataaa gacctgatta tacaggcagt gagaaacatg 1440
aaaaaaaaaa aaaaaaaa 1458
<210> 37
<211> 4565
<212> DNA
<213> 智人
<400> 37
gggcgggact tccgccgtcc tcctggtggt ggtcgttttg gttctgtgtg gtgtttcacc 60
aacttcggcc tatggctctg tctgacgtca ccgaagtgac ggaacggaaa agcgcgagaa 120
gcggctcggt tcccaccacg gagaggcggg agtgagtcaa ctgacaagcg ctggggacag 180
tggcgtcctt gtcttgcctt tgtcgctccc gccccgctct tccctggctg ggctggcgga 240
ggccttgctg atgaacctga ctgagggtcc cctggcgatg gcagaaatgg accctacaca 300
gggccgtgtg gtctttgagg acgtggccat atatttctcc caggaggagt gggggcacct 360
tgatgaggct cagagattgc tgtaccgtga tgtgatgctg gagaatttgg cccttttgtc 420
ctcactaggt tcttggcatg gagctgagga tgaggaggca ccttcacagc aaggtttttc 480
tgtaggagtg tcagaggtta cagcttcaaa gccctgtctg tccagccaga aggtccaccc 540
tagtgagaca tgtggcccac ccttgaaaga cattctgtgc ctggttgagc acaatggaat 600
tcatcctgag caacacatat atatttgtga ggcagagctt tttcagcacc caaagcagca 660
aattggagaa aatctttcca gaggggatga ttggatacct tcatttggga agaaccacag 720
agttcacatg gcagaggaga tcttcacatg catggagggc tggaaggact taccagccac 780
ctcatgcctt ctccagcacc agggccctca aagcgagtgg aagccataca gggacacaga 840
ggacagagaa gcctttcaga ctggacaaaa tgattacaaa tgtagtgaat gtgggaaaac 900
cttcacctgc agctattcat ttgttgagca ccagaaaatc cacacaggag aaaggtctta 960
tgaatgtaac aaatgtggga aattctttaa gtacagtgcc aatttcatga aacatcagac 1020
agttcacact agtgaaagga cttatgagtg cagagaatgt ggaaaatcct ttatgtacaa 1080
ctaccgactc atgagacata agcgagttca cactggagaa aggccttatg agtgcaacac 1140
atgtgggaaa ttctttcggt acagctccac atttgttaga catcagagag ttcacaccgg 1200
agaaaggccg tatgagtgca gggaatgtgg gaaattcttt atggacagct ccacactcat 1260
taaacatcag agagttcaca ccggagaaag accttataag tgcaatgatt gtgggaaatt 1320
ttttaggtat atctccacac tcattagaca tcagagaatt cacactggag aaaggcctta 1380
tgagtgcagt gtatgtgggg aattgtttag gtacaactcc agccttgtta aacattggag 1440
aaatcacact ggagaaaggc cttataaatg cagtgaatgt gggaaatcat ttaggtacca 1500
ctgcaggctc attagacacc agagagtcca cacgggagaa aggccttatg agtgcagcga 1560
atgcgggaaa ttctttcgtt acaactccaa cctcattaaa cattggagaa atcacactgg 1620
agaaaggcct tacgagtgca gagagtgtgg gaaagccttt agccacaagc atatacttgt 1680
tgagcaccag aaaatccaca gtggagaaag accttatgag tgcagcgaat gccagaaggc 1740
ctttattaga aagtctcacc tggttcatca ccagaaaatc cacagtgaag agaggcttgt 1800
gtgctccatg aatgtgggga attctttagc taaaactcca acctcattaa acatcagaga 1860
tttcacaatg gagaaagttt accattgact attgtaattg ggtagtaatg ttatataaat 1920
tccacatttt tatgcaacta atctccagaa catttttcct cttaccaaga agtaaaatgc 1980
tgtacccatt aacaacaact cattcccctt ccctacttcc ccagaaatgt ctcaactata 2040
tttctatact ctatggtact tatatgaggt accaatagat atctatgaat ttgatatata 2100
tttgtacctc atataagtgg attctacagt atttatcttt tgagactggc ttatttcact 2160
taggataagg tcttcacggt tcacccatgt tgtataatgt gtcagaatat ccttcctttt 2220
taggtgaaat aatattctat ggtatttata taccacattt atttatccat tcatctgtta 2280
gtggatactt gggctacttc caccttttgc ctattgaaat aatgctgcta tgaagatgag 2340
tgtacaagtg tctattcaag attctacttt caattcttat agggtatata ctcagaaatg 2400
gtggtgctgg atcatatagg atttctattt tttttttttg tttgtttttg agacagagtc 2460
ttgctctgtc acccaggctg gagtgcagtg ctgtgatctt ggctcactgc aagctccgcc 2520
tcccaggttc atgccattct cctgcctcac cctcccgagt agctgggact acaggtgcct 2580
gccaccacgc ctggctaatt tttttgtatt tttagtagag acggggtttc accgtgttag 2640
ccaggatggt cctgatctcc tgaccttgtg atctgcctgc cttggcctct caaagtgctg 2700
ggattacggg cgtgagccac cgcgcctggc caggatttct atttttaata tttttgggaa 2760
aatttttcca tagtacctgt gccattttac attcccacca gcagtgcaca aggattgcaa 2820
tctatataca tcctcaccaa cattgttcat tttctatttc tgtttttggg gttttttgta 2880
gtgccttttg ttttggatag cagctatctt gttggatgtg aggtggaatc tatagtgtct 2940
ttcattttta ttttgtgaat gattgatgat gttgaggatc ttttcatgtg cttgttaggc 3000
atttgtgtat ctggaaaaat attcaagtct tttttttcca tttttaatgg gactatttgc 3060
tttttgttgt tgagttgtag ttctttatac attctggata ttaactcctt accaaatata 3120
tgctttttac atattacctc ccagtccata ggttgctttt tcgctctgtt gattgtgtcc 3180
tttgatgaaa ttttaagttt tgatgtactg ttgactcttt ctgtctgtgg gttctgtatt 3240
catggatcga agcaaccatg gatcaaaagt atttggagca tccatggatt gcagtgatca 3300
ttaatcaaaa atatttggaa aacaaaaagg gtagttgcat ctgtactaaa catgaacaga 3360
cattttttct tgtcattatt ccctaaacta tatagtataa taaatattta catagcattt 3420
acattgtatt agaagttata aataacctaa tgataatcta tataggaaga tgtgtgtagg 3480
ttatattcaa acactatgcc tttttatgtg agggacctct tgagcatcag atgattttgg 3540
tatccacaag gggtcctgga atcagtcccc cacagacacc aagggatgac tgtagtgcat 3600
tttatctatt tttacttctg ttacctgggc ttttgatgtt atatattaaa aaaaattagt 3660
atcaaatcca atgccaagca ttttccctat gctttattct aagaatttta tatttgaagg 3720
tcttacattt aggtcttttt tttttttttc ttttggaggc agagtcttgc tctgtcaccc 3780
agcctggagt gcagtagtgg aatctcagct cactacaacc tccgcctcct gggttcgagc 3840
catcacccca cctcagcctc ccaagtagct tggattacaa gtgtacacca ccacacctgg 3900
ctaatttttg tatttttagt agagatgggg ttttgccatg ttggccaggc tggtcttaaa 3960
cttctggcct taagtgatcc ccctgcctcg gcctcccaaa ttgctgagat tacaggcagg 4020
agttgtaatg cactgtgcct ggctacattt agatctttaa tctacttggg gttcattttt 4080
gcatatggtt taaggcaaaa gtccacttta tgtggctatc cagttttcca agcaccattt 4140
tttgaaaaga gcatctttcc tctgttgagt agtcttggca cacttgtcaa aatcatttgt 4200
ccatatatgc catggtttat atgtggattc tctattttat tggtcatatg tctgtcttta 4260
tgtcagtacc acacatttta ggtgtgtgtg tgtgagactc agtgttgagg acaaggctag 4320
tgggctttca cactccagac tgctgtattc cagcccaaat tactcaaatt agccaatcca 4380
tggggaacat ggaaaacgta gctaatgcaa tccgcttgcc ttacctaagt tgtcccctgc 4440
agcctcaggt tgctgttact gtgtttcaga tgcaaccctc tgtgggaccc tacccaagtt 4500
ctctcattct tagctatagg taataaattg ttctgatttt gtgtatccaa aaaaaaaaaa 4560
aaaaa 4565
<210> 38
<211> 1681
<212> DNA
<213> 智人
<400> 38
cttgggagct ggagcaggtg gtggaggcct gaaatgacta cttgagctta ctcacatagc 60
atattggtat atcaaaatga aatgcaagga accaaaaata acataattga aggcagtaaa 120
agtgaaatta aataggaaga tcatcagtca aggaagaccc actggagagg acagaaaatg 180
aagcagtgtt ttatcatgtg tatttcagca ggtcttcttg aaatttaact aaaaatatga 240
ctgctctctc ttcagagaac tgctcttttc agtaccagtt acgtcaaaca aaccagcccc 300
tagatgttaa ctatctgcta ttcttgatca tacttgggaa aatattatta aatatcctta 360
cactaggaat gagaagaaaa aacacctgtc aaaattttat ggaatatttt tgcatttcac 420
tagcattcgt tgatctttta cttttggtaa acatttccat tatattgtat ttcagggatt 480
ttgtactttt aagcattagg ttcactaaat accacatctg cctatttact caaattattt 540
cctttactta tggctttttg cattatccag ttttcctgac agcttgtata gattattgcc 600
tgaatttctc taaaacaacc aagctttcat ttaagtgtca aaaattattt tatttcttta 660
cagtaatttt aatttggatt tcagtccttg cttatgtttt gggagaccca gccatctacc 720
aaagcctgaa ggcacagaat gcttattctc gtcactgtcc tttctatgtc agcattcaga 780
gttactggct gtcatttttc atggtgatga ttttatttgt agctttcata acctgttggg 840
aagaagttac tactttggta caggctatca ggataacttc ctatatgaat gaaactatct 900
tatattttcc tttttcatcc cactccagtt atactgtgag atctaaaaaa atattcttat 960
ccaagctcat tgtctgtttt ctcagtacct ggttaccatt tgtactactt caggtaatca 1020
ttgttttact taaagttcag attccagcat atattgagat gaatattccc tggttatact 1080
ttgtcaatag ttttctcatt gctacagtgt attggtttaa ttgtcacaag cttaatttaa 1140
aagacattgg attacctttg gatccatttg tcaactggaa gtgctgcttc attccactta 1200
caattcctaa tcttgagcaa attgaaaagc ctatatcaat aatgatttgt taatattatt 1260
aattaaaagt tacagctgtc ataagatcat aattttatga acagaaagaa ctcaggacat 1320
attaaaaaat aaactgaact aaaacaactt ttgccccctg actgatagca tttcagaatg 1380
tgtcttttga agggctatga taccagttat taaatagtgt tttattttaa aaacaaaata 1440
attccaagaa gtttttatag ttattcaggg acactatatt acaaatatta ctttgttatt 1500
aacacaaaaa gtgataagag ttaacatttg gctatactga tgtttgtgtt actcaaaaaa 1560
actactggat gcaaactgtt atgtaaatct gagatttcac tgacaacttt aagatatcaa 1620
cctaaacatt tttattaaat gttcaaatga aagcaagaaa gtaaaaattg ttcttaaaat 1680
g 1681
<210> 39
<211> 1028
<212> DNA
<213> 智人
<400> 39
ccttttccca ccccctagcg ccgctgggcc tgcaggtctc tgtcgagcag cggacgccgg 60
tctctgttcc gcaggatggg gtttgttaaa gttgttaaga ataaggccta ctttaagaga 120
taccaagtga aatttagaag acgacgagag ggtaaaactg attattatgc tcggaaacgc 180
ttggtgatac aagataaaaa taaatacaac acacccaaat acaggatgat agttcgtgtg 240
acaaacagag atatcatttg tcagattgct tatgcccgta tagaggggga tatgatagtc 300
tgcgcagcgt atgcacacga actgccaaaa tatggtgtga aggttggcct gacaaattat 360
gctgcagcat attgtactgg cctgctgctg gcccgcaggc ttctcaatag gtttggcatg 420
gacaagatct atgaaggcca agtggaggtg actggtgatg aatacaatgt ggaaagcatt 480
gatggtcagc caggtgcctt cacctgctat ttggatgcag gccttgccag aactaccact 540
ggcaataaag tttttggtgc cctgaaggga gctgtggatg gaggcttgtc tatccctcac 600
agtaccaaac gattccctgg ttatgattct gaaagcaagg aatttaatgc agaagtacat 660
cggaagcaca tcatgggcca gaatgttgca gattacatgc gctacttaat ggaagaagat 720
gaagatgctt acaagaaaca gttctctcaa tacataaaga acagcgtaac tccagacatg 780
atggaggaga tgtataagaa agctcatgct gctatacgag agaatccagt ctatgaaaag 840
aagcccaaga aagaagttaa aaagaagagg tggaaccgtc ccaaaatgtc ccttgctcag 900
aagaaggatc gggtagctca aaagaaggca agcttcctca gagctcagga gcgggctgct 960
gagagctaaa cccagcaatt ttctatgatt ttttcagata tagataataa acttatgaac 1020
agcaacta 1028
<210> 40
<211> 1527
<212> DNA
<213> 智人
<400> 40
gcggaagtga cgcgaggcgt agcggaagtt actgcagccg cggtgttgtg ctgtggggaa 60
gggagaagga tttgtaaacc ccggagcgag gttctgctta cccgaggccg ctgctgtgcg 120
gagacccccg ggtgaagcca ccgtcatcat gtctgaccag gaggcaaaac cttcaactga 180
ggacttgggg gataagaagg aaggtgaata tattaaactc aaagtcattg gacaggatag 240
cagtgagatt cacttcaaag tgaaaatgac aacacatctc aagaaactca aagaatcata 300
ctgtcaaaga cagggtgttc caatgaattc actcaggttt ctctttgagg gtcagagaat 360
tgctgataat catactccaa aagaactggg aatggaggaa gaagatgtga ttgaagttta 420
tcaggaacaa acggggggtc attcaacagt ttagatattc tttttatttt ttttcttttc 480
cctcaatcct tttttatttt taaaaatagt tcttttgtaa tgtggtgttc aaaacggaat 540
tgaaaactgg caccccatct ctttgaaaca tctggtaatt tgaattctag tgctcattat 600
tcattattgt ttgttttcat tgtgctgatt tttggtgatc aagcctcagt ccccttcata 660
ttaccctctc ctttttaaaa attacgtgtg cacagagagg tcaccttttt caggacattg 720
cattttcagg cttgtggtga taaataagat cgaccaatgc aagtgttcat aatgactttc 780
caattggccc tgatgttcta gcatgtgatt acttcactcc tggactgtga ctttcagtgg 840
gagatggaag tttttcagag aactgaactg tggaaaaatg acctttcctt aacttgaagc 900
tacttttaaa atttgagggt ctggaccaaa agaagaggaa tatcaggttg aagtcaagat 960
gacagataag gtgagagtaa tgactaactc caaagatggc ttcactgaag aaaaggcatt 1020
ttaagatttt ttaaaaatct tgtcagaaga tcccagaaaa gttctaattt tcattagcaa 1080
ttaataaagc tatacatgca gaaatgaata caacagaaca ctgctctttt tgattttatt 1140
tgtacttttt ggcctgggat atgggtttta aatggacatt gtctgtacca gcttcattaa 1200
aataaacaat atttgtaaaa atcatactaa tgcttatttt attttaattg tatagaaaga 1260
aaaaaatgcc taaaataagg ttttcttgca taaatactgg aaattgcaca tggtacaaat 1320
tttttcttca ttactgtaca gtgatgatgt taatgacttt gaagcactga aagttactga 1380
agtgccttct gaatcaagga tttaattaag gccacaatac ctttttaata ctcagtgttc 1440
tgttttttta aaaacttgat attcctgtat ggtgcatata tgatacagtt acctaatcat 1500
gttgaataaa tgggcatgcc aaaaatt 1527
<210> 41
<211> 3419
<212> DNA
<213> 智人
<400> 41
gcacgcacgc acgcacgcca gcggccggcg gggccgcagg ctcgcgcccg ggctcgcccc 60
gcgccgctcc agaggctcgc gcactcagca ggttgggctg cggcggcggc ggcagctgtg 120
gaagctcagg cgctgcgcgt gagaggtccc agatacgtct gcggttccgg ctccgccacc 180
ctcagcttct cttccccagg tctgggagcc gagtgcggaa ggagggaacg gccctagctt 240
tgggaagcca gaggacaccc ctggctcctg ccgacaccgc cctccttccc ttcccagccg 300
cgggcctcgc tcggtgctag gctactctgc cgggaggcgg cggcggctgc cagtctgtgg 360
agagtcctgc tgccctccag ccgggctcct ccaccgggcc ttgcaggggc cgagagagct 420
cggtgcccgc ccttccgctc gcctttttcg tcagctggct ggagcagcat cggtccggga 480
ggtctctagg ctgaggcggc ggccgctcct ctagttccac aatgtccacg ggcggagact 540
tcgggaatcc gctgaggaaa ttcaagctgg tgttcctggg ggagcaaagc gttggaaaga 600
catctttgat caccagattc atgtatgaca gttttgacaa cacctatcag gcaacaattg 660
gcattgactt tttatcaaaa actatgtact tggaggatcg aacaatcagg cttcagctgt 720
gggatactgc gggtcaggaa cgtttccgta gcctcattcc cagttacatc cgtgattctg 780
ctgcagctgt agtagtttac gatatcacaa atgttaactc attccagcaa actacaaagt 840
ggattgatga tgtcagaaca gaaagaggaa gtgatgttat catcatgcta gtaggaaata 900
aaacagatct tgctgacaag aggcaagtgt caattgagga gggagagagg aaagccaaag 960
agctgaatgt tatgtttatt gaaactagtg caaaagctgg atacaatgta aagcagctct 1020
ttcgacgtgt agcagcagct ttgccgggaa tggaaagcac acaggacaga agcagagaag 1080
atatgattga cataaaactg gaaaagcctc aggagcaacc agtcagtgaa ggaggctgtt 1140
cctgctaatc tcccatgtca tcttcaacct tcttcagaag ctcactgctt tggccccctt 1200
actctttcat tgactgcagt gtgaatattg gcttgaacct tttcccttca gtaataacgt 1260
attgcaattc atcattgctg cctgtctcgt ggagatgatc tattagcttc acaagcacaa 1320
caaaagtcag tgtcttcatt atttatattt tacaaaaagc caaaatattt cagcatattc 1380
cagtgataac tttaaaaatt agatacattt tcttaacatt tttttctttt ttaatgttat 1440
gataatgtac ttcaaaatga tggaaatctc aacagtatga gtatggcttg gttaacgagc 1500
ggtatgttca cagcctactt tatctctcct tgcttttctc acctctcact tacccccatt 1560
ccctattacc ctattcttac ctagcctccc ccgacttcct caaaacaaac aagagatggc 1620
aaagcagcag ttctaccaag cccattggaa ttatccttta attttacaga taccacttgc 1680
tgtaggctac ggaccaagat gtccaaaatt attcttgagc actgatataa attacggtct 1740
tctttgaggt caaaattcag ccatcatggt aggcagtgct tgaatgagaa aaggctcctg 1800
gtgcatcttc aaaatgagtc ctaaagaaca tactgagtac ttagaagtag aagaacataa 1860
gatgtatttc tgactaaaac aaatggctct ttcacatgtg ctttattaga ctctgggaga 1920
gaaaattaac caagtgcttc agaacaggtt tttagtattt aattcttcac ggtaagaaaa 1980
tgaagttcta atgaactgtt tctcccaagg ttttaaaatt gtcaagagtt attctgtttg 2040
tttaaaaaat aagaaacctc tttaagcaat agattttgct tgggttttct tttttaaaaa 2100
cataatactg tgcaggcaag gcactgtaaa agttttaatt ccttccagaa gaaccagtgg 2160
aagaatttaa atttggcgct acgatcaaaa ctactgaatt agtagaaata atgatgtcta 2220
aagcttacca acaaaagaac cctcagcaga ataacaaaaa ctttgctcag gacatttgag 2280
gtcaaattga agacggaaac cggaaaccgt tttcttgtaa gcccctagag gcagatcagg 2340
taaagcatac atagtagagg gaaaggagag aatggaaata aaactcaata ttatgcagat 2400
ttatgcctta ttttttagca ttttttaagg ttgggtcttt caggctggtt ttggtttgta 2460
ttagatctgt atagtttaat taactggtga tttagtttta tatttaagct acaattaatc 2520
ttttttcttt ggtgatattt atttctttgc cttttttttt tttaacaact ttcaatcttc 2580
agatgtttcg ttgaatctat ttagagcttc accatggcaa tatgtatttc ccttaaaaca 2640
ctgcaaacaa atatactagg agtgtgccct tttaatcttt actagttatt gtgagattgc 2700
tgtgtaagct aataaacaca tttgtaaata cattgtttgc aggacgaaaa cttctgagtt 2760
acagctcagg aaaagcctgc tgaatttatg ttgtaagcat tacttaacac agtataaaga 2820
tgaaaagaca acaaaaatat cttcatactt cctcatcccc tcattggaac aaaaccttaa 2880
actgggagaa ccttagtccc ctctctttcc tcttcctcct ccacttccca cttattgtca 2940
ccttgtaata ttcagagagc acttggatta tggatctgaa tagagaaatg cttacagata 3000
atcattagcc cacataccag taacttatac ttaaagatgg gatggagttg taaagtgctt 3060
ttataataca atataattgt taaaggcaag ggttgactct ttgttttatt ttgacatggc 3120
atgtcctgaa ataaatattg attcaatatg gcagatgggt catattcttt atttggaaga 3180
agttgtgact tctgacatgg gtgtgattgt cttcctacac tgttgcattt gattcttttt 3240
atgtattttt aagaaagtaa ccagttatac tgcttttaat attgattggt ctttttattt 3300
ggcttggagt tcttcaaagc attgaagtgt gttcatagtc caggtttttt ttttaataaa 3360
cacaattttg ctgccaaaaa tatataaata aaacacgaaa gaaaacaaaa aaaaaaaaa 3419
<210> 42
<211> 3527
<212> DNA
<213> 智人
<400> 42
cttggctgat cgcgcctgcg cagtggggag cagctcgctc ctgggctttg ggctggctgc 60
agtctgtctg agggcggccg aagtggctgg ctcatttaag atgaggcttc tgctgcttct 120
cctagtggcg gcgtctgcga tggtccggag cgaggcctcg gccaatctgg gcggcgtgcc 180
cagcaagaga ttaaagatgc agtacgccac ggggccgctg ctcaagttcc agatttgtgt 240
ttcctgaggt tataggcggg tgtttgagga gtacatgcgg gttattagcc agcggtaccc 300
agacatccgc attgaaggag agaattacct ccctcaacca atatatagac acatagcatc 360
tttcctgtca gtcttcaaac tagtattaat aggcttaata attgttggca aggatccttt 420
tgctttcttt ggcatgcaag ctcctagcat ctggcagtgg ggccaagaaa ataaggttta 480
tgcatgtatg atggttttct tcttgagcaa catgattgag aaccagtgta tgtcaacagg 540
tgcatttgag ataactttaa atgatgtacc tgtgtggtct aagctggaat ctggtcacct 600
tccatccatg caacaacttg ttcaaattct tgacaatgaa atgaagctca atgtgcatat 660
ggattcaatc ccacaccatc gatcatagca ccacctatca gcactgaaaa ctcttttgca 720
ttaagggatc attgcaagag cagcgtgact gacattatga aggcctgtac tgaagacagc 780
aagctgttag tacagaccag atgctttctt ggcaggctcg ttgtacctct tggaaaacct 840
caatgcaaga tagtgtttca gtgctggcat attttggaat tctgcacatt catggagtgc 900
aataatactg tatagctttc cccacctccc acaaaatcac ccagttaatg tgtgtgtgtg 960
tttttttttt aaggtaaaca ttactacttg taactttttt tcttagtcat atttgaaaaa 1020
gtagaaaatt gagttacaat ttgatttttt ttccaaagat gtctgttaaa tctgttgtgc 1080
ttttatatga atatttgttt tttatagttt aaaattgatc ctttgggaat ccagttgaag 1140
ttcccaaata ctttataaga gtttatcaga catctctaat ttggccatgt ccagtttata 1200
cagtttacaa aatatagcag atgcaagatt atgggggaaa tcctatattc agagtactct 1260
ataaattttt gtgtatgtgt gtatgtgcgt gtgattacca gagaactact aaaaaaacca 1320
actgcttttt aaatcctatt gtgtagttaa agtgtcatgc cttgaccaat ctaatgaatt 1380
gattaattaa ctgggccttt atacttaact aaataaaaaa ctaagcagat atgagttaaa 1440
tttaaaagtt tcaatttatt gctcagtgta cctgttaaca ttatatttaa caattgctta 1500
aatttttgtt tttgatttat ggataatttc ttaagagtac acactttaga tacacaaata 1560
atcgttcatt taccatcttt aggatcattg aaactcatct cactaaagaa agttcacttg 1620
aacctcttta tagcattgat actaggtgaa cagaaattac ctgactaata atttgtctaa 1680
catcatatat cagaatttta ttgtatatga tgaacaaaac ttaaaatttt ttaaatttaa 1740
tttttaaata ctgtttcaga gttctaaaaa ggcagttttt taaaaaactt aagttgataa 1800
aaactgtaag aataatttag cagaaataga accagaatgt agaagagtag tcatgtaaca 1860
gcagtaataa catacttcag cttccatata ggaatagaag tggtagagcc aaaagtgatt 1920
taggaaaagt tataaggtac aggttgagta tcccttttcc aaaaatgctt gggacaagaa 1980
gtatttcaga tttcataatt tttttcaaag tttggaatat ttgcattata cttaccagtt 2040
gggcatccca aatctgaaat ctgaaatgtt ccatgagcat ttcctttgag tgtcatgttg 2100
gcactcaaaa aggttcaaca ttgagtccac ttaacactta ggtgttagaa gacctaactt 2160
tctgtaacaa ttaaccttat actttgtttg tcatcgaata tttgttgaat gcatgtcagg 2220
taatggtctt gattgtgata gcttcaaggt ggaacatact gtaatctcca gatgctagga 2280
agttagtcta ataattcact gcagaaaatt gattaagtgg ctgtcctttt aattaagagt 2340
gtggagtcat aaacttaagt tcttcatata gtgacaagag tccttagaga ttgttattca 2400
agttccttag aaattgttat ttaggtataa tatcatcttg tctttgacta gagcttgaaa 2460
ccttgttatc tgattgtgta ccactccaaa ttccctgcct tctgcaagtt gaatgtcttg 2520
ctgaatgtgt ctaggggttc atcttcagta atcgacattc cactagtgcc atagttaact 2580
tcatgacatg tagacattca aaacttgagc cttggatgtt cctgtggacc tgacagttaa 2640
aaatataaag aacctaggat tcaattccaa ctttctctgt ttgccttggg ttgaataact 2700
tatcttttgg agaatagctt taagtggctt agacactgat aaaattcagc tgtgttgttg 2760
acgctcatct cttttgtctt acgcttagcc atatttaaat cttgaattta atagagtcta 2820
gtgaaaaaaa tgagtgggaa gaatgaatat aaaagtaata atataaggaa aaagggaaag 2880
taaactattt agaatgtagt tttgttatat tcccagcatt tcaatattta ttagttactt 2940
gtaaattact gtggctgtgt agtttataaa tgtctgtgca ctatattaat tagaagacca 3000
tagaacatgc cagcaggttg gctaatgcta tgggggtttt taccacagtt gccattgtgg 3060
aagaaattat ttggtacatt aataaaaaaa gttggtaaaa catggtttta tacctcagtg 3120
tataagatgt gcaagacaaa tatgcttatt tccttttcta gaatataagt gatattattt 3180
gcttatgaca ctaacactat taatgacagg agtcaatcag cctttacagc tatcaaaata 3240
taatgagatc ccaatgatga ttctttttta ctttgaatgt taattagttt gggactttga 3300
ttggctggca aacattttat cattgtcaga atttaattta gatttcaaaa atagcttaca 3360
ggattttaaa catggtgtgg tattctaaag cctttttttt aaaaaaagag atctttttga 3420
gagaaacaaa tgaggattgt aaagtttggg gacttacctc tgtagcattg tgaaaataaa 3480
ctttgattaa gctgatttga aaggaaaaaa aaaaaaaaaa aaaaaaa 3527

Claims (86)

1.一种方法,包括:
(a)提供来自分区内的单个细胞的多个核酸分子;
(b)将衔接子附加至所述分区内的所述多个核酸分子的一端,其中所述衔接子包含分区特异性条形码和分子特异性条形码,从而生成多个条形码化核酸分子,其中所述分区特异性条形码是所述分区内的所述多个条形码化核酸分子中的每一个所共有的;
(c)对所述多个条形码化核酸分子进行扩增,从而生成多个扩增的条形码化核酸分子;
(d)对所述多个扩增的条形码化核酸分子进行片段化,以生成多个核酸片段,其中来自所述多个核酸片段的至少一部分的核酸片段的至少一部分包含不含所述衔接子的第一端和含所述衔接子的第二端;以及
(e)通过将来自所述多个核酸片段的所述核酸片段的至少一部分的所述第一端连接至所述第二端,对所述多个核酸片段进行环化,从而生成包含所述衔接子的多个环化的核酸分子。
2.根据权利要求1所述的方法,进一步包括对所述多个环化的核酸分子进行测序,以生成测序读取。
3.根据权利要求2所述的方法,进一步包括用所述分子特异性条形码对所述测序读取进行群集,以生成来自所述单个细胞的所述多个核酸分子的长读取测序信息。
4.根据权利要求1所述的方法,进一步包括在(a)之前对所述分区内的所述单个细胞进行包封。
5.根据权利要求1所述的方法,进一步包括提取所述分区内的所述多个核酸分子。
6.根据权利要求1所述的方法,其中来自所述单个细胞的所述多个核酸分子包括脱氧核糖核酸(DNA)。
7.根据权利要求6所述的方法,其中所述DNA包括互补脱氧核糖核酸(cDNA)。
8.根据权利要求1所述的方法,其中来自所述单个细胞的所述多个核酸分子包括核糖核酸(RNA)。
9.根据权利要求1所述的方法,其中将所述衔接子附加至所述多个核酸分子的5’端和3’端。
10.根据权利要求1所述的方法,其中所述片段化包括对所述扩增的条形码化核酸分子进行随机片段化。
11.根据权利要求2所述的方法,进一步包括对所述测序读取进行定相,以测定所述多个核酸分子中的两个或更多个等位基因的分子起源。
12.根据权利要求1所述的方法,其中所述多个条形码化核酸分子的至少一部分包含独特的分子特异性条形码。
13.根据权利要求12所述的方法,其中为所述独特的分子特异性条形码生成长读取序列。
14.根据权利要求1所述的方法,进一步包括在多个分区内进行(a)-(e),其中每个分区包含来自单个细胞的多个核酸分子。
15.根据权利要求1所述的方法,进一步包括对所述多个条形码化核酸分子进行测序,以生成序列读取,以及基于所述分区特异性条形码在来自不同分区的序列读取之间进行区分。
16.一种方法,包括:
(a)提供来自分区内的单个细胞的多个核酸分子;
(b)将所述分区内的所述多个核酸分子在第一端附加分区特异性条形码并在第二端附加分子特异性条形码,从而生成在相对端包含所述分区特异性条形码和所述分子特异性条形码的多个条形码化核酸分子,其中所述分区特异性条形码是所述分区内的所述多个条形码化核酸分子中的每一个所共有的;
(c)对所述多个条形码化核酸分子进行扩增,从而生成多个扩增的条形码化核酸分子;
(d)对所述多个扩增的条形码化核酸分子进行片段化,以生成第一多个核酸片段和第二多个核酸片段,所述第一多个核酸片段包含含有所述分子特异性条形码的第一端和不含所述分子特异性条形码的第二端,所述第二多个核酸片段包含含有所述分区特异性条形码的第一端和不含所述分区特异性条形码的第二端;以及
(e)通过在所述第一多个核酸片段的至少一部分中将所述第一端连接至所述第二端,对所述多个核酸片段进行环化,从而生成包含所述分子特异性条形码的多个环化的核酸分子。
17.根据权利要求16所述的方法,进一步包括对所述环化的核酸分子进行测序,以生成测序读取。
18.根据权利要求17所述的方法,进一步包括用所述分子特异性条形码对所述测序读取进行群集,以生成来自所述单个细胞的所述多个核酸分子的长读取测序信息。
19.根据权利要求16所述的方法,进一步包括在(a)之前对所述分区内的所述单个细胞进行包封。
20.根据权利要求16所述的方法,进一步包括提取所述分区内的所述多个核酸分子。
21.根据权利要求16所述的方法,其中来自所述单个细胞的所述多个核酸分子包括脱氧核糖核酸(DNA)。
22.根据权利要求21所述的方法,其中所述DNA包括互补脱氧核糖核酸(cDNA)。
23.根据权利要求16所述的方法,来自所述单个细胞的所述多个核酸分子包括核糖核酸(RNA)。
24.根据权利要求16所述的方法,其中所述片段化包括对所述扩增的条形码化核酸分子进行随机片段化。
25.根据权利要求17所述的方法,进一步包括对所述测序读取进行定相,以测定所述多个核酸分子中的两个或更多个等位基因的分子起源。
26.根据权利要求16所述的方法,其中所述多个条形码化核酸分子的至少一部分包含独特的分子特异性条形码。
27.根据权利要求26所述的方法,其中为所述独特的分子特异性条形码生成长读取序列。
28.根据权利要求16所述的方法,进一步包括在多个分区内进行(a)-(e),其中每个分区包含来自单个细胞的多个核酸分子。
29.根据权利要求16所述的方法,进一步包括对所述多个条形码化核酸分子进行测序,以生成序列读取,以及基于所述分区特异性条形码在来自不同分区的序列读取之间进行区分。
30.一种方法,包括:
(a)提供来自分区内的单个细胞的多个核酸分子;
(b)将所述分区内的所述多个核酸分子在第一端附加分区特异性条形码并在第二端附加分子特异性条形码,从而生成在相对端包含所述分区特异性条形码和所述分子特异性条形码的多个条形码化核酸分子,其中所述分区特异性条形码是所述分区内的所述多个条形码化核酸分子中的每一个所共有的;
(c)对所述多个条形码化核酸分子进行扩增,从而生成多个扩增的条形码化核酸分子;
(d)对所述多个扩增的条形码化核酸分子进行片段化,从而生成包含所述分区特异性条形码的第一核酸片段群体和包含所述分子特异性条形码的第二核酸片段群体;
(e)将所述第一核酸片段群体与所述第二核酸片段群体连接,从而生成多个连接的核酸片段,其中所述多个连接的核酸片段的至少一部分包含在所述连接的核酸片段内彼此相邻的所述分区特异性条形码和所述分子特异性条形码;以及
(f)通过将所述多个连接的核酸片段的至少一部分的相对端连接,对所述多个核酸片段进行环化,从而生成多个环化的核酸分子。
31.根据权利要求30所述的方法,进一步包括对所述多个环化的核酸分子进行测序,以生成测序读取。
32.根据权利要求31所述的方法,进一步包括对来自所述测序读取的所述分子特异性条形码和所述分区特异性条形码进行配对,以生成来自所述单个细胞的所述多个核酸分子的长读取测序信息。
33.根据权利要求30所述的方法,进一步包括在多个分区内进行(a)-(f),其中每个分区包含来自单个细胞的多个核酸分子。
34.根据权利要求30所述的方法,进一步包括对所述多个条形码化核酸分子进行测序,以生成序列读取,以及基于所述分区特异性条形码在来自不同分区的序列读取之间进行区分。
35.根据权利要求30所述的方法,进一步包括在(a)之前对所述分区内的所述单个细胞进行包封。
36.根据权利要求30所述的方法,进一步包括提取所述分区内的所述多个核酸分子。
37.根据权利要求30所述的方法,其中来自所述单个细胞的所述多个核酸分子包括脱氧核糖核酸(DNA)。
38.根据权利要求37所述的方法,其中所述DNA包括互补脱氧核糖核酸(cDNA)。
39.根据权利要求30所述的方法,其中来自所述单个细胞的所述多个核酸分子包括核糖核酸(RNA)。
40.根据权利要求30所述的方法,其中所述片段化包括对所述扩增的条形码化核酸分子进行随机片段化。
41.根据权利要求31所述的方法,进一步包括对所述测序读取进行定相,以测定所述多个核酸分子中的两个或更多个等位基因的分子起源。
42.根据权利要求30所述的方法,其中所述多个条形码化核酸分子的至少一部分包含独特的分子特异性条形码。
43.根据权利要求42所述的方法,进一步包括对所述独特的分子特异性条形码进行配对。
44.一种方法,包括:
(a)提供来自分区内的单个细胞的多个核酸分子;
(b)将衔接子附加至所述分区内的所述多个核酸分子的一端,其中所述衔接子包含分区特异性条形码和分子特异性条形码,从而生成多个条形码化核酸分子,其中所述分区特异性条形码是所述分区内的所述多个条形码化核酸分子中的每一个所共有的;
(c)对所述多个条形码化核酸分子进行扩增,从而生成多个扩增的条形码化核酸分子;
(d)将延长序列在包含所述衔接子的所述端处附加至所述多个扩增的条形码化核酸分子的至少一部分,以生成包含所述延长序列的多个扩增的条形码化核酸分子,其中所述延长序列包含能与所述多个扩增的条形码化核酸分子的至少一部分中的核酸的一部分退火的序列;
(e)使所述延长序列与所述多个扩增的条形码化核酸分子的所述至少一部分中的所述核酸的所述部分退火;以及
(f)用聚合酶延伸与所述多个扩增的条形码化核酸分子的所述至少一部分中的所述核酸的所述部分退火的所述延长序列,从而生成多个延伸产物。
45.根据权利要求44所述的方法,进一步包括对所述多个延伸产物进行测序,以生成测序读取。
46.根据权利要求45所述的方法,进一步包括用所述分子特异性条形码对所述测序读取进行群集,以生成来自所述单个细胞的所述多个核酸分子的长读取测序信息。
47.根据权利要求40所述的方法,进一步包括在(a)之前对所述分区内的所述单个细胞进行包封。
48.根据权利要求44所述的方法,进一步包括提取所述分区内的所述多个核酸分子。
49.根据权利要求44所述的方法,其中来自所述单个细胞的所述多个核酸分子包括脱氧核糖核酸(DNA)。
50.根据权利要求49所述的方法,其中所述DNA包括互补脱氧核糖核酸(cDNA)。
51.根据权利要求44所述的方法,其中来自所述单个细胞的所述多个核酸分子包括核糖核酸(RNA)。
52.根据权利要求44所述的方法,进一步包括对所述扩增的条形码化核酸分子进行片段化。
53.根据权利要求52所述的方法,其中所述片段化是随机的。
54.根据权利要求45所述的方法,进一步包括对所述测序读取进行定相,以测定所述多个核酸分子中的两个或更多个等位基因的分子起源。
55.根据权利要求44所述的方法,其中所述多个条形码化核酸分子的至少一部分包含独特的分子特异性条形码。
56.根据权利要求55所述的方法,其中为所述独特的分子特异性条形码生成长读取序列。
57.根据权利要求44所述的方法,进一步包括在(e)之前使包含所述延长序列的所述多个扩增的条形码化核酸分子变性,以生成包含所述延长序列的多个扩增的条形码化单链核酸分子。
58.一种方法,包括:
(a)提供来自分区内的单个细胞的多个核酸分子;
(b)将所述分区内的所述多个核酸分子在第一端附加分区特异性条形码并在第二端附加分子特异性条形码,从而生成在相对端包含所述分区特异性条形码和所述分子特异性条形码的多个条形码化核酸分子,其中所述分区特异性条形码是所述分区内的所述多个条形码化核酸分子中的每一个所共有的;
(c)对所述多个条形码化核酸分子进行扩增,从而生成多个扩增的条形码化核酸分子;
(d)将延长序列附加至所述多个扩增的条形码化核酸分子的至少一部分的一个或多个端,以生成包含所述延长序列的多个扩增的条形码化核酸分子,其中所述延长序列包含能与所述多个扩增的条形码化核酸分子的所述至少一部分中的核酸的一部分退火的序列;
(e)使所述延长序列与所述多个扩增的条形码化核酸分子的所述至少一部分中的所述核酸的所述部分退火;以及
(f)用聚合酶延伸与所述多个扩增的条形码化核酸分子的至少一部分中的所述核酸的所述部分退火的所述延长序列,从而生成多个延伸产物。
59.根据权利要求58所述的方法,进一步包括对所述多个延伸产物进行测序,以生成测序读取。
60.根据权利要求59所述的方法,进一步包括用所述分子特异性条形码对所述测序读取进行群集,以生成来自所述单个细胞的所述多个核酸分子的长读取测序信息。
61.根据权利要求58所述的方法,进一步包括在(e)之前使包含所述延长序列的所述多个扩增的条形码化核酸分子变性,以生成包含所述延长序列的多个扩增的条形码化单链核酸分子。
62.根据前述权利要求中任意一项所述的方法,其中通过引物延伸进行(b)中的所述附加。
63.根据前述权利要求中任意一项所述的方法,其中(a)中的所述多个核酸分子包括核糖核酸(RNA),并且通过逆转录进行(b)中的所述附加。
64.根据前述权利要求中任意一项所述的方法,其中通过连接进行(b)中的所述附加。
65.根据前述权利要求中任意一项所述的方法,进一步包括在(b)之前对所述多个核酸分子进行片段化。
66.根据前述权利要求中任意一项所述的方法,进一步包括在(b)之前对所述多个核酸分子进行扩增。
67.根据前述权利要求中任意一项所述的方法,其中在所述分区内进行(b)中的所述附加。
68.根据前述权利要求中任意一项所述的方法,其中通过聚合酶链反应(PCR)进行所述扩增。
69.根据前述权利要求中任意一项所述的方法,其中使所述分区特异性条形码和所述分子特异性条形码固定在微粒上,其中每个微粒包含多个相同的分区特异性条形码和多个独特的分子特异性条形码。
70.根据权利要求69所述的方法,其中所述分区包含所述微粒。
71.根据前述权利要求中任意一项所述的方法,其中所述分区还包含细胞裂解缓冲液。
72.根据前述权利要求中任意一项所述的方法,其中所述分区为水性液滴。
73.根据前述权利要求中任意一项所述的方法,其中所述分区包含单个微粒和单个细胞。
74.根据前述权利要求中任意一项所述的方法,其中通过将包含来自所述单个细胞的所述核酸的液滴与包含所述分区特异性条形码和所述分子特异性条形码的液滴融合在一起来形成所述分区。
75.一种方法,包括:
(a)将第一末端标签附加至多个核酸分子的至少一部分的第一端并将第二末端标签附加至多个核酸分子的至少一部分的第二端,以生成多个条形码化核酸分子,其中所述第一末端标签包含第一测序衔接子序列、通用聚合酶链反应(PCR)序列、分区特异性条形码和分子特异性条形码,含或不含靶分子序列,其中所述第二末端标签包含通用PCR序列,含或不含靶分子序列;
(b)对所述多个条形码化核酸分子进行扩增,以生成扩增的核酸分子;
(c)对所述扩增的核酸分子进行片段化,从而生成第一多个条形码化片段和第二多个条形码化片段,所述第一多个条形码化片段包含含有所述第一末端标签的第一端和不含所述第一末端标签的第二端,所述第二多个条形码化片段包含含有所述第二末端标签的第一端和不含所述第二末端标签的第二端;
(d)对所述第一多个条形码化片段进行环化,以生成环化的核酸分子;
(e)对所述环化的核酸分子进行片段化,从而生成多个线性的条形码化核酸分子,其中所述第一末端标签在所述多个线性的条形码化核酸分子的至少一部分的内部区域内;
(f)将第二测序衔接子附加至所述多个线性的条形码化核酸分子的至少一部分的每一端,以生成多个连接双衔接子的条形码化核酸片段;以及
(g)对所述多个连接双衔接子的条形码化核酸片段进行扩增,以生成多个扩增的连接双衔接子的条形码化核酸片段。
76.根据权利要求75所述的方法,进一步包括对所述多个扩增的连接双衔接子的条形码化核酸片段进行测序,以生成测序读取。
77.根据权利要求76所述的方法,进一步包括用所述分子特异性条形码对所述测序读取进行群集,以生成所述多个核酸分子的长读取测序信息。
78.一种方法,包括:
(a)将包含通用聚合酶链反应(PCR)序列和分区特异性条形码、含或不含靶分子序列的第一末端标签附加至多个核酸分子的第一端;
(b)将第二末端标签附加至所述多个核酸分子的第二端,其中所述第二末端标签包含测序衔接子序列、通用PCR序列和分子特异性条形码,含或不含靶分子序列,从而生成在第一端包含第一末端标签并在第二端包含第二末端标签的多个条形码化核酸分子;
(c)对所述多个条形码化核酸分子进行扩增,以生成扩增的条形码化核酸分子;
(d)对所述扩增的条形码化核酸分子进行片段化,从而生成第一多个条形码化片段和第二多个条形码化片段,所述第一多个条形码化片段包含含有所述第一末端标签的第一端和不含所述第一末端标签的第二端,所述第二多个条形码化片段包含含有所述第二末端标签的第一端和不含所述第二末端标签的第二端;
(e)对所述第一和第二多个条形码化片段进行环化,以生成环化的核酸分子;
(f)对所述环化的核酸分子进行片段化,从而生成多个线性的条形码化核酸分子,其中所述第一末端标签在所述多个线性的条形码化核酸分子的至少一部分的内部区域内;
(g)将第二测序衔接子附加至所述多个线性的条形码化核酸分子的至少一部分的每一端,以生成多个连接双衔接子的条形码化核酸片段;以及
(h)对所述多个连接双衔接子的条形码化核酸片段进行扩增,以生成多个扩增的连接双衔接子的条形码化核酸片段。
79.根据权利要求78所述的方法,进一步包括对所述多个扩增的连接双衔接子的条形码化核酸片段进行测序,以生成测序读取。
80.根据权利要求79所述的方法,进一步包括用所述分子特异性条形码对所述测序读取进行群集,以生成所述多个核酸分子的长读取测序信息。
81.一种方法,包括:
(a)将第一末端标签附加至多个核酸分子的至少一部分的第一端并将第二末端标签附加至多个核酸分子的至少一部分的第二端,以生成多个条形码化核酸分子,其中所述第一末端标签包含第一测序衔接子序列、通用聚合酶链反应(PCR)序列、分区特异性条形码和分子特异性条形码,含或不含靶分子序列,其中所述第二末端标签包含通用聚合酶链反应(PCR)序列,含或不含靶分子序列;
(b)对所述多个条形码化核酸分子进行扩增,从而生成多个扩增的条形码化核酸分子;
(c)将延长序列在包含所述第一末端标签的一端处附加至所述多个扩增的条形码化核酸分子的至少一部分,以生成包含所述延长序列的多个扩增的条形码化核酸分子,其中所述延长序列包含能与所述多个扩增的条形码化核酸分子的所述至少一部分中的核酸分子的一部分退火的序列;
(d)使包含所述延长序列的所述多个扩增的条形码化核酸分子变性,以生成包含所述延长序列的多个扩增的条形码化单链核酸分子;
(e)使所述延长序列与所述多个扩增的条形码化单链核酸分子的至少一部分中的所述核酸的所述部分退火;
(f)用聚合酶延伸与所述多个扩增的条形码化单链核酸分子的所述至少一部分中的所述核酸的所述部分退火的所述延长序列,从而生成多个延伸产物;
(g)将第二测序衔接子附加至所述多个延伸产物的至少一部分的每一端,以生成多个双衔接子的条形码化核酸片段;以及
(h)对所述多个双衔接子的条形码化核酸片段进行扩增,以生成多个扩增的双衔接子的条形码化核酸片段。
82.根据权利要求81所述的方法,进一步包括对所述多个扩增的双衔接子的条形码化核酸片段进行测序,以生成测序读取。
83.根据权利要求82所述的方法,进一步包括用所述分子特异性条形码对测序读取进行群集,以生成所述多个核酸分子的长读取测序信息。
84.一种方法,包括:
(a)将包含通用聚合酶链反应(PCR)序列和分区特异性条形码、含或不含靶分子序列的第一末端标签附加至多个核酸分子的第一端;
(b)将第二末端标签附加至所述多个核酸分子的第二端,其中所述第二末端标签包含测序衔接子序列、通用PCR序列和分子特异性条形码,含或不含靶分子序列,从而生成在第一端包含第一末端标签并在第二端包含第二末端标签的多个条形码化核酸分子;
(c)对所述多个条形码化核酸分子进行扩增,以生成扩增的条形码化核酸分子;
(d)将延长序列附加至所述多个扩增的条形码化核酸分子的至少一部分的一端,以生成包含所述延长序列的多个扩增的条形码化核酸分子,其中所述延长序列包含能与所述多个扩增的条形码化核酸分子的所述至少一部分中的核酸分子的一部分退火的序列;
(e)使包含所述延长序列的所述多个扩增的条形码化核酸分子变性,以生成包含所述延长序列的多个扩增的条形码化单链核酸分子;
(f)将所述延长序列与所述多个扩增的条形码化单链核酸分子的至少一部分中的所述核酸的所述部分退火;
(g)用聚合酶延伸与所述多个扩增的条形码化单链核酸分子的所述至少一部分中的所述核酸的所述部分退火的所述延长序列,从而生成多个延伸产物;
(h)将第二测序衔接子附加至所述多个延伸产物的至少一部分的每一端,以生成多个双衔接子的条形码化核酸片段;以及
(i)对所述多个双衔接子的条形码化核酸片段进行扩增,以生成多个扩增的连接双衔接子的条形码化核酸片段。
85.根据权利要求84所述的方法,进一步包括对所述多个扩增的连接双衔接子的条形码化核酸片段进行测序,以生成测序读取。
86.根据权利要求85所述的方法,进一步包括用所述分子特异性条形码对所述测序读取进行群集,以生成所述多个核酸分子的长读取测序信息。
CN201880066011.6A 2017-08-10 2018-08-10 标记来自单个细胞的核酸分子以进行定相测序 Pending CN111511912A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201762543687P 2017-08-10 2017-08-10
US62/543,687 2017-08-10
PCT/US2018/046356 WO2019033062A2 (en) 2017-08-10 2018-08-10 MARKING OF NUCLEIC ACID MOLECULES OF INDIVIDUAL CELLS FOR STEP SEQUENCING

Publications (1)

Publication Number Publication Date
CN111511912A true CN111511912A (zh) 2020-08-07

Family

ID=65272613

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880066011.6A Pending CN111511912A (zh) 2017-08-10 2018-08-10 标记来自单个细胞的核酸分子以进行定相测序

Country Status (5)

Country Link
US (1) US20200231964A1 (zh)
EP (1) EP3665280A4 (zh)
CN (1) CN111511912A (zh)
GB (1) GB2581599B8 (zh)
WO (1) WO2019033062A2 (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3597772A1 (en) 2013-04-17 2020-01-22 Agency For Science, Technology And Research Method for generating extended sequence reads
CN113811391A (zh) * 2019-02-25 2021-12-17 艾勒根公司 使用微流体位置编码设备的方法
EP4106769A4 (en) * 2020-02-17 2024-03-27 Universal Sequencing Tech Corporation METHOD FOR BARCODING NUCLEIC ACIDS FOR DETECTION AND SEQUENCING
CN115768884A (zh) * 2020-03-20 2023-03-07 使命生物公司 用于全基因组扩增的单细胞工作流程
WO2021252617A1 (en) * 2020-06-09 2021-12-16 Illumina, Inc. Methods for increasing yield of sequencing libraries
WO2022018055A1 (en) * 2020-07-20 2022-01-27 Westfälische Wilhelms-Universität Münster Circulation method to sequence immune repertoires of individual cells
US20230392201A1 (en) * 2022-06-06 2023-12-07 Element Biosciences, Inc. Methods for assembling and reading nucleic acid sequences from mixed populations
WO2024022207A1 (en) * 2022-07-25 2024-02-01 Mgi Tech Co., Ltd. Methods of in-solution positional co-barcoding for sequencing long dna molecules

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012149042A2 (en) * 2011-04-25 2012-11-01 Bio-Rad Laboratories, Inc. Methods and compositions for nucleic acid analysis
CN105392902A (zh) * 2014-06-24 2016-03-09 生物辐射实验室股份有限公司 数字式pcr条码化
US20160152972A1 (en) * 2014-11-21 2016-06-02 Tiger Sequencing Corporation Methods for assembling and reading nucleic acid sequences from mixed populations
US20170009274A1 (en) * 2015-02-04 2017-01-12 The Regents Of The University Of California Sequencing of nucleic acids via barcoding in discrete entities

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014191976A1 (en) * 2013-05-31 2014-12-04 Si Lok Molecular identity tags and uses thereof in identifying intermolecular ligation products
US20160122753A1 (en) * 2013-06-12 2016-05-05 Tarjei Mikkelsen High-throughput rna-seq
CN110139931B (zh) * 2016-08-30 2024-06-11 元素生物科学公司 用于定相测序的方法和组合物

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012149042A2 (en) * 2011-04-25 2012-11-01 Bio-Rad Laboratories, Inc. Methods and compositions for nucleic acid analysis
CN105392902A (zh) * 2014-06-24 2016-03-09 生物辐射实验室股份有限公司 数字式pcr条码化
US20160152972A1 (en) * 2014-11-21 2016-06-02 Tiger Sequencing Corporation Methods for assembling and reading nucleic acid sequences from mixed populations
US20170009274A1 (en) * 2015-02-04 2017-01-12 The Regents Of The University Of California Sequencing of nucleic acids via barcoding in discrete entities

Also Published As

Publication number Publication date
GB202004670D0 (en) 2020-05-13
WO2019033062A2 (en) 2019-02-14
EP3665280A2 (en) 2020-06-17
EP3665280A4 (en) 2021-10-06
GB2581599A (en) 2020-08-26
US20200231964A1 (en) 2020-07-23
WO2019033062A3 (en) 2019-03-21
GB2581599B8 (en) 2023-09-20
GB2581599B (en) 2023-08-30

Similar Documents

Publication Publication Date Title
CN111511912A (zh) 标记来自单个细胞的核酸分子以进行定相测序
JP6803327B2 (ja) 標的化されたシークエンシングからのデジタル測定値
JP5977234B2 (ja) 対象の3−dゲノム領域配列決定戦略
US20170298345A1 (en) Compositions and methods for targeted nucleic acid sequence enrichment and high efficiency library generation
AU2022203184A1 (en) Sequencing controls
EP3450569A1 (en) Dna amplification method
CN110719958B (zh) 构建核酸文库的方法和试剂盒
CN110139931B (zh) 用于定相测序的方法和组合物
CN103333949A (zh) 使用aflp的高通量物理作图
CN110603326B (zh) 扩增靶核酸的方法
US20230074210A1 (en) Methods for removal of adaptor dimers from nucleic acid sequencing preparations
US20030170631A1 (en) Methods, compositions and kits for the detection and monitoring of breast cancer
AU2741899A (en) Method of identifying gene transcription patterns
US20160040228A1 (en) Sequencing strategies for genomic regions of interest
US10954542B2 (en) Size selection of RNA using poly(A) polymerase
EP4048812B1 (en) Methods for 3&#39; overhang repair
CN108588064B (zh) 构建目的序列dna文库的试剂盒及目的序列dna文库的构建方法
WO2005038026A1 (ja) 変異のタイピング方法
WO2005010184A1 (ja) 変異の検出方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20230627

Address after: California, USA

Applicant after: Element bioscience Corp.

Address before: California, USA

Applicant before: METABIOTECH Corp.

TA01 Transfer of patent application right