CN117987522A - 测序方法 - Google Patents
测序方法 Download PDFInfo
- Publication number
- CN117987522A CN117987522A CN202310133873.9A CN202310133873A CN117987522A CN 117987522 A CN117987522 A CN 117987522A CN 202310133873 A CN202310133873 A CN 202310133873A CN 117987522 A CN117987522 A CN 117987522A
- Authority
- CN
- China
- Prior art keywords
- sequencing
- nucleic acid
- signal
- signals
- intensity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012163 sequencing technique Methods 0.000 title claims abstract description 474
- 150000007523 nucleic acids Chemical class 0.000 claims abstract description 348
- 108020004707 nucleic acids Proteins 0.000 claims abstract description 345
- 102000039446 nucleic acids Human genes 0.000 claims abstract description 345
- 238000006243 chemical reaction Methods 0.000 claims abstract description 65
- 238000000034 method Methods 0.000 claims abstract description 38
- 230000008569 process Effects 0.000 claims abstract description 26
- 239000007790 solid phase Substances 0.000 claims abstract description 14
- 239000007787 solid Substances 0.000 claims description 31
- 238000012937 correction Methods 0.000 claims description 23
- 230000003321 amplification Effects 0.000 claims description 13
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 13
- 239000000758 substrate Substances 0.000 claims description 13
- 230000003287 optical effect Effects 0.000 claims description 7
- 108091028043 Nucleic acid sequence Proteins 0.000 claims description 4
- 230000003247 decreasing effect Effects 0.000 claims 2
- 238000004381 surface treatment Methods 0.000 claims 1
- 230000004907 flux Effects 0.000 abstract description 8
- 125000003729 nucleotide group Chemical group 0.000 description 45
- 239000002773 nucleotide Substances 0.000 description 42
- 239000000523 sample Substances 0.000 description 16
- 238000002073 fluorescence micrograph Methods 0.000 description 15
- 239000012071 phase Substances 0.000 description 10
- 239000012634 fragment Substances 0.000 description 9
- 238000003786 synthesis reaction Methods 0.000 description 7
- 108020004414 DNA Proteins 0.000 description 5
- 230000008901 benefit Effects 0.000 description 5
- 230000015572 biosynthetic process Effects 0.000 description 4
- OPTASPLRGRRNAP-UHFFFAOYSA-N cytosine Chemical compound NC=1C=CNC(=O)N=1 OPTASPLRGRRNAP-UHFFFAOYSA-N 0.000 description 4
- 230000005284 excitation Effects 0.000 description 4
- UYTPUPDQBNUYGX-UHFFFAOYSA-N guanine Chemical compound O=C1NC(N)=NC2=C1N=CN2 UYTPUPDQBNUYGX-UHFFFAOYSA-N 0.000 description 4
- 238000012216 screening Methods 0.000 description 4
- 108091034117 Oligonucleotide Proteins 0.000 description 3
- 238000001514 detection method Methods 0.000 description 3
- 238000003745 diagnosis Methods 0.000 description 3
- 238000012165 high-throughput sequencing Methods 0.000 description 3
- 238000007481 next generation sequencing Methods 0.000 description 3
- 238000006116 polymerization reaction Methods 0.000 description 3
- 108091033319 polynucleotide Proteins 0.000 description 3
- 239000002157 polynucleotide Substances 0.000 description 3
- 102000040430 polynucleotide Human genes 0.000 description 3
- 239000011148 porous material Substances 0.000 description 3
- 108090000623 proteins and genes Proteins 0.000 description 3
- 238000007841 sequencing by ligation Methods 0.000 description 3
- 108091032973 (ribonucleotides)n+m Proteins 0.000 description 2
- 229930024421 Adenine Natural products 0.000 description 2
- GFFGJBXGBJISGV-UHFFFAOYSA-N Adenine Chemical compound NC1=NC=NC2=C1N=CN2 GFFGJBXGBJISGV-UHFFFAOYSA-N 0.000 description 2
- ISAKRJDGNUQOIC-UHFFFAOYSA-N Uracil Chemical compound O=C1C=CNC(=O)N1 ISAKRJDGNUQOIC-UHFFFAOYSA-N 0.000 description 2
- 229960000643 adenine Drugs 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 229940104302 cytosine Drugs 0.000 description 2
- 238000001212 derivatisation Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000009609 prenatal screening Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- RWQNBRDOKXIBIV-UHFFFAOYSA-N thymine Chemical compound CC1=CNC(=O)NC1=O RWQNBRDOKXIBIV-UHFFFAOYSA-N 0.000 description 2
- ASJSAQIRZKANQN-CRCLSJGQSA-N 2-deoxy-D-ribose Chemical compound OC[C@@H](O)[C@@H](O)CC=O ASJSAQIRZKANQN-CRCLSJGQSA-N 0.000 description 1
- HMFHBZSHGGEWLO-SOOFDHNKSA-N D-ribofuranose Chemical compound OC[C@H]1OC(O)[C@H](O)[C@@H]1O HMFHBZSHGGEWLO-SOOFDHNKSA-N 0.000 description 1
- 238000000018 DNA microarray Methods 0.000 description 1
- 238000001712 DNA sequencing Methods 0.000 description 1
- 230000006820 DNA synthesis Effects 0.000 description 1
- 206010064571 Gene mutation Diseases 0.000 description 1
- 208000026350 Inborn Genetic disease Diseases 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- 230000006819 RNA synthesis Effects 0.000 description 1
- 238000003559 RNA-seq method Methods 0.000 description 1
- 108091028664 Ribonucleotide Proteins 0.000 description 1
- PYMYPHUHKUWMLA-LMVFSUKVSA-N Ribose Natural products OC[C@@H](O)[C@@H](O)[C@@H](O)C=O PYMYPHUHKUWMLA-LMVFSUKVSA-N 0.000 description 1
- 238000012300 Sequence Analysis Methods 0.000 description 1
- HMFHBZSHGGEWLO-UHFFFAOYSA-N alpha-D-Furanose-Ribose Natural products OCC1OC(O)C(O)C1O HMFHBZSHGGEWLO-UHFFFAOYSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006555 catalytic reaction Methods 0.000 description 1
- 239000003153 chemical reaction reagent Substances 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 239000000356 contaminant Substances 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 239000005547 deoxyribonucleotide Substances 0.000 description 1
- 125000002637 deoxyribonucleotide group Chemical group 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000009792 diffusion process Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000000295 emission spectrum Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 208000016361 genetic disease Diseases 0.000 description 1
- 238000010448 genetic screening Methods 0.000 description 1
- 239000012535 impurity Substances 0.000 description 1
- 208000015181 infectious disease Diseases 0.000 description 1
- 244000000010 microbial pathogen Species 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 150000004713 phosphodiesters Chemical class 0.000 description 1
- 238000012175 pyrosequencing Methods 0.000 description 1
- 230000010076 replication Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000002336 ribonucleotide Substances 0.000 description 1
- 125000002652 ribonucleotide group Chemical group 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 229940113082 thymine Drugs 0.000 description 1
- 229940035893 uracil Drugs 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Landscapes
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本申请提出了一种测序方法,该测序方法包括:提供固相载体,固相载体上具有第一位点,第一位点固定有多个核酸分子,且多个核酸分子具有n种序列不同的核酸模板,n取自2~4的自然数;对核酸分子实施多轮碱基延伸,并在碱基延伸过程中,获取各通道的测序信号,且在一轮以上碱基延伸反应中,第一位点处的测序信号至少具有信号强度最高的第一测序信号和信号强度次高的第二测序信号;基于各通道的测序信号的强度差异,将测序信号进行归属,确定至少两种核酸模板的测序结果。根据本申请的实施例,通过采用该测序方法,能够有效的通过强度差异对测序信号进行归类,从而实现了对多分子信号点的充分利用,提高了测序通量。
Description
技术领域
本发明涉及测序领域,具体的,本申请涉及测序方法。
背景技术
下一代测序(Next-Generation Sequencing,NGS)又称高通量测序或大规模平行测序,最早是从焦磷酸测序的原理上发展起来的,其采用边合成边测序作为基本设计理念,以待测核酸作为模板,通过一系列碱基延伸反应引入特定的核苷酸,进而可以基于所引入核苷酸的类型,完成对待测核酸的序列确定。
因为高通量测序一次可同时检测大量靶基因及其变异位点,检测灵敏度和特异性高,兼具定性和定量检测,并且对同样数量的基因和位点进行检测的检测费用相对较低,因而在无创产前筛查(noninvasive prenatal screening,NIPS)、肿瘤基因突变、遗传病、胚胎植入前遗传学筛查(preimplantation genetic screening,PGS)、胚胎植入前遗传学诊断(preimplantationgenetic diagnosis,PGD)、病原微生物及宏基因组学(metagenomics)等领域展现了极为广阔的临床及科研应用前景,成为目前DNA和RNA序列分析最高效的工具,也是精准医学时代研究和临床疾病诊疗的支撑技术。
然而,目前的边合成边测序技术仍有待进一步改进。例如,目前的测序方法,对于含有两个或两个以上不同核酸模板的位点(如含有两个不同核酸分子簇的位点)不能进行有效测序。具体的,每一轮测序反应中,该位点同时含有两个或以上不同测序模板产生的测序信号,由于这些测序信号叠加不能有效得到区分,导致该位点的测序数据不能得到有效利用,从而导致该位点测序失效,降低测序通量。
发明内容
本发明旨在至少在一定程度上解决上述技术问题之一或至少提供一种有用的商业选择。为此,本发明的一个目的在于提出一种能够提高测序通量的测序方法,实现同时对一个位点内不同核酸模板进行同步测序。
本申请是基于发明人的下列发现而完成的:
通常而言,在核酸测序中,技术人员会尽量保证固相载体上同一位点即信号亮点(或亮斑)中,仅有一种碱基信号。如果在同一轮碱基延伸反应中,一个亮点存在两种或更多种碱基信号,一般称这种位点为多分子信号点。因为多分子信号点产生的多个测序信号不能有效得到区分,干扰碱基的识别,导致准确性降低,因此在实际操作过程中,常规的做法是将多分子信号点产生的测序信号以及对应的测序数据舍弃。但这样操作会很显著地降低测序信号的有效利用率,从而降低测序通量,这是因为在固相载体的位点中掺杂少量其他核酸分子的情形难以完全避免。本申请的发明人基于对核酸测序的深入研究和经验,创造性地提出了一种能够利用多分子信号点所产生的测序信号,以提高测序通量的测序方法。本发明的发明人针对同一位点即信号亮点,通过信号强度的差异来对多分子信号点产生的多个测序信号进行归类。
由此,本申请的第一方面提出了一种测序方法,根据本申请的实施例,该测序方法包括:提供固相载体,所述固相载体上具有第一位点,所述第一位点固定有多个核酸分子,且所述多个核酸分子具有n种序列不同的核酸模板,n取自2~4的自然数;对所述核酸分子实施多轮碱基延伸,并在所述碱基延伸过程中,获取各通道的测序信号,且在一轮以上碱基延伸反应中,第一位点处的所述测序信号至少具有信号强度最高的第一测序信号和信号强度次高的第二测序信号;和基于各测序信号的强度差异,将所述测序信号进行归属,确定至少两种核酸模板的测序结果。
由此,根据本申请的实施例,本发明能够有效地针对多分子信号进行识别,当遇到一个多分子信号时,可以按照信号特征,识别出多个碱基,最后在多轮测序图像中,从一个信号亮点中,识别出两条或更多测序读段(read)的序列。根据本申请的实施例,通过采用该测序方法,能够通过分析第一位点多个测序信号的强度差异对测序信号进行归类,从而有效地实现了对多分子信号点的充分利用,提高了测序通量。另外,采用该方法,也能够避免丢失第一位点中分子数目较少的核酸模板带来的重要信息,使得测序结果更准确地反映待测对象的真实序列。
本发明的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1显示了常规测序的示意图;
图2显示了根据本申请一个实施例的测序方法流程图;
图3显示了本申请实施例1提供的测序数据统计图。
具体实施方式
为了使本申请要解决的技术问题、技术方案及有益效果更加清楚明白,以下结合实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
术语“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“至少一种(个)”或其类似表达,是指的这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,“a,b,或c中的至少一种(个)”,或,“a,b和c中的至少一种(个)”,均可以表示:a,b,c,a-b(即a和b),a-c,b-c,或a-b-c,其中a,b,c分别可以是单项(个),也可以是多项(个)。
在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。
应理解,在本申请的各种实施例中,各过程的序号的大小并不意味着执行顺序的先后,部分或全部步骤可以并行执行或先后执行,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
术语“第一”、“第二”、“第三”、“第四”仅用于描述目的,用来将目的如位置、对象等彼此区分开,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。例如,在不脱离本申请实施例范围的情况下,“第一”、“第二”可以互换,如第一位点也可以被称为第二位点,对应地,第二位点称为第一位点。由此,限定有“第一”、“第二”、“第三”、“第四”的特征可以明示或者隐含地包括一个或者更多个该特征。
术语“测序”又可称为“核酸测序”或“基因测序”,三者在表述上可以互换,均指核酸分子中碱基或核苷酸(包括核苷酸类似物)类型和排列顺序的测定。所称的测序包括使核苷酸结合到模板并采集核苷酸(包括类似物)上发出的相应的信号的过程。所称的测序包括合成测序(边合成边测序,SBS)和/或连接测序(边连接边测序,SBL),包括DNA测序和/或RNA测序,包括长片段测序和/或短片段测序,所称的长片段和短片段是相对的,如长于1Kb、2Kb、5Kb或者10Kb的核酸分子可称为长片段,短于1Kb或者800bp的可称为短片段。
测序一般包括多轮以实现核酸模板上的多个碱基或核苷酸的类型和排列顺序的测定的过程。本申请实施例将每一轮“以实现核酸模板上的多个碱基或核苷酸的类型和排列顺序的测定的过程”称为“一轮测序”。“一轮测序”(cycle)也称为“测序轮”,可定义为四种核苷酸/碱基的一次碱基延伸,换句话说,“一轮测序”可定义为完成模板上任意一个指定位置的碱基或核苷酸类型的测定。对于基于聚合或连接反应实现测序的测序平台,一轮测序包括实现一次四种核苷酸(包括核苷酸类似物)通过碱基互补方式结合到所称的核酸模板上,并采集发出的相应的测序信号的过程。其中,对于基于聚合反应实现测序的平台,反应体系包括反应底物核苷酸、聚合酶和核酸模板,核酸模板上结合有一段序列(测序引物),基于碱基配对原则和聚合反应原理,加入的反应底物核苷酸在聚合酶的催化下,连接到测序引物上实现该核苷酸与核酸模板的特定位置的结合。通常地,一轮测序可包括一次或多次碱基延伸(repeat),例如,四种核苷酸依次加入到反应体系中,分别进行碱基延伸和相应的反应信号的采集,一轮测序包括四次碱基延伸;又例如,四种核苷酸任意组合加入到反应体系中,例如两两组合或者一三组合,两个组合分别进行碱基延伸和相应的反应信号的采集,一轮测序包括两次碱基延伸;再例如,四种核苷酸同时加入到反应体系中进行碱基延伸和反应信号的采集,一轮测序包括一次碱基延伸。
术语“核酸分子”表示:任何长度的核苷酸的聚合物形式,并且可以包括核糖核苷酸或其类似物、脱氧核糖核苷酸或其类似物,以及上述核苷酸或其类似物形成的混合物。所称的核酸分子可以指单链多核苷酸或双链多核苷酸。核酸分子中的核苷酸可以包括天然存在的核苷酸及其功能上可替代的类似物。类似物的实例能够以序列特异性方式与核酸杂交,或者能够用作特定核苷酸序列的复制的模板。天然存在的核苷酸通常具有包含磷酸二酯键的主链。类似物结构可以具有包括本领域中已知的任何种类的替代的主链连接。天然存在的核苷酸通常具有脱氧核糖(例如,在DNA中发现的)或核糖(例如,在RNA中发现的)。类似物结构可以具有替代的糖部分,包括本领域中已知的任何种类。核苷酸可以包括天然碱基或非天然碱基。天然DNA中的碱基可以包括腺嘌呤、胸腺嘧啶、胞嘧啶和/或鸟嘌呤中的一种或更多种,并且天然RNA的碱基可以包括腺嘌呤、尿嘧啶、胞嘧啶和/或鸟嘌呤中的一种或更多种。核苷酸也可以使用任何非天然碱基或碱基类似物,诸如锁定核酸(LNA)和桥接核酸(BNA)。
术语“核酸模板”是指通过连续多轮碱基延伸结合核苷酸或核苷酸类似物的母版核酸分子或母版核酸分子片段。所称的核酸模板可以是核酸分子的全部序列,也可以是核酸分子的部分片段。所指的“核酸模板”可以是在进行边合成边测序的延伸反应中作为模板的核酸片段,由于延伸反应所添加的碱基与测序模板之间满足碱基配对原则,所以通过确定每轮延伸反应所添加的碱基类型,可以确定测序模板的序列。这里的核酸模板的序列通常可以包括但不限于靶分子的序列、UMI序列、样本标签序列的至少之一,有时在本文中也被称为“插入片段”或“靶分子”。
术语“簇”是指在固相载体如芯片上的一个信号点,通常而言,这个信号点可以包含多个核酸分子,但通常该信号点的多个核酸分子是衍生自同一个核酸分子,例如通过对同一个核酸分子进行桥式PCR所形成的多个核酸分子的扩增簇。
在本文中所使用的术语“主核酸分子”是指在一个信号点或者位点中,拷贝数最多的核酸分子。在本文中所使用的术语“次核酸分子”是指在一个信号点或者位点中,拷贝数低于主核酸分子的核酸分子。次核酸分子的产生原因并不受特别限制,可以是在桥式扩增过程中产生的,也可以是在信号点核酸分子扩增时在同一位点结合了多个不同的核酸分子。
术语“引物”又称“探针”,是指:可以与感兴趣的靶序列杂交的寡聚核苷酸或核酸分子。在实施例中,引物起底物(substrate)的作用,核苷酸可以通过聚合酶聚合到该底物上。例如,引物可以用作用于DNA或RNA合成的起点。例如,测序引物可以与合成的核酸模板链杂交,以便引发与合成的核酸模板链互补的新链的合成。引物可以包括核苷酸或其类似物的任何组合。在一些实例中,引物是单链寡核苷酸或多核苷酸。
术语“串色”(crosstalk)又称为laser-crosstalk或spectra-crosstalk,也称为“光谱串色”或“光谱交叉”,指对应一种碱基的信号扩散到另一种碱基的信号中的现象;对于利用标记不同的荧光分子来识别不同的碱基的测序平台,如果选择的两种或两种以上的荧光分子的发射光谱有重叠,可能检测到一轮测序中一种荧光分子的信号扩散到另一种荧光通道的情况。
术语“相位失相”,又称“相位失衡”、“失相”、“相位差异”,指化学反应中,一个群体比如一个核酸分子簇中的核酸分子之间的反应不同步的现象,包括落后/滞后(phasing或sequence lag)和提前/超前(prephasing或sequence lead)。
术语“通道”指的是测序拍照过程中,通过使用不同的激发光、不同的荧光滤色片等方式,形成的能够筛选和区分来源于A、C、G、T/U(表示T或U)四种荧光碱基的荧光信号光学通道。实际测序时,会在四个不同的荧光通道中拍摄照片。理想状况下,每个荧光通道中仅有该通道对应的荧光碱基类别的信号,但是实际情况下,由于荧光串扰(crosstalk)的影响,每个通道中除了对应的荧光碱基的荧光信号,也会出现其它碱基的荧光信号。本申请实施例所指的“通道”,包括四通道情形,是指测序拍照过程中,通过使用不同的激发光、不同的荧光滤色片等方式,形成四种能够筛选和区分来源于A、C、G、T/U(表示T或U)四种荧光碱基的荧光信号光学通道。“通道”还包括双通道情形,是指使用不同的激发光、不同的荧光滤色片等方式,每次筛选和区分来源于A、C、G、T/U的两种荧光碱基的荧光信号,经过两次获得A、C、G、T/U四种荧光碱基的荧光信号光学通道。本申请实施例所指的“通道”,还包括单通道情形,是指使用不同的激发光、不同的荧光滤色片等方式,每次筛选和区分来源于A、C、G、T/U的一种荧光碱基的荧光信号,经过四次获得A、C、G、T/U四种荧光碱基的荧光信号光学通道。当然,通道的数量并不受上文的限制。
目前的高通量测序,在对一个位点或一个核酸分子簇(cluster)进行信号采集时,为了获得可识别的信号和提高数据的可利用性,通常会尽量使同一个位点形成的亮斑(信号亮点)中仅含有一种类型的碱基信号。即如图1所示,现有的测序方法通常针对每个簇都是进行相同的碱基延伸反应,每一轮碱基延伸反应添加的碱基都是相同的。换句话说,在现有的碱基测序中,会尽量保证同一个信号亮点中只含一种碱基的测序信号。当采集自一轮碱基延伸的图像中的一个信号亮点中同时存在两种或更多种碱基的测序信号时,一般称位点或信号亮点为多分子信号点。由于多信号会干扰我们对引入的碱基类型的判断,导致碱基识别准确性降低。因此,在常规的测序中,通常期待每个信号亮点只含有一种碱基信号,即每个信号亮点对应一个单信号,这类多分子信号点是需要尽量避免的。然而,常规的测序存在一定的局限性,限制了测序在产生多分子信号位点的应用情景下的使用。
如,在实际的测序过程中,在将文库分子固定于固相载体表面时,文库中的核酸分子会与固相载体表面固定的探针随机杂交,固定于某一位置,该位置称为一个位点。大多情况下,一个位点固定一个核酸分子,该核酸分子经扩增形成一个扩增簇(cluster)。然而,在一些偶尔情况下,一个位点可能掺杂少量其他核酸分子,使扩增簇(cluster)形成两个核酸模板的拷贝集(即形成两个不同的核酸分子簇),从而导致一个位点中产生多个核酸模板的测序信号。示例性的,当固相载体为纳米井点阵芯片时,一个纳米井(nanowell)内形成两种核酸模板的拷贝集。在测序反应采集的图像中,该位点对应的信号亮点关联两个核酸模板。在后续的数据分析过程中,由于不能有效识别一轮碱基衍生过程中同一位点形成的两个测序信号,为了降低这类多分子信号点对测序准确率的影响,该位点的数据会被弃去,导致测序有效数据量降低,从而降低测序通量。
基于此,本发明的发明人提出了一种新的测序方法,该方法允许一个位点同时存在序列不同的多个核酸模板,在每一轮延伸反应中对序列不同的多种核酸分子进行独立地添加相同或者不同的碱基,并实现碱基识别。该方法针对含有多种核酸模板的位点,可以对存在分子数目差异的多种核酸模板同步进行测序反应,并且为了后续进行测序信号数据的区分和归类,使序列不同的核酸模板产生的测序信号强度有差异。即:在含有序列不同的多种核酸模板的位点中,序列不同的多种核酸模板同步进行测序反应,并且至少具有分子数目优势的主核酸分子(下文又称为“第一核酸分子”)和次核酸分子(下文又称为“第二核酸分子”)产生不同强度的测序信号。由此,可以将一轮碱基延伸过程中同一个位点产生的多个测序信号进行保留,并且仍能够有效地利用这些测序信号对应的测序数据,至少获得主核酸分子和次核酸分子的测序结果,从而提高了测序反应的测序通量。根据本申请的实施例,可以是在核酸文库的构建过程中,其他位点的核酸分子“错误地”在该位点进行扩增的结果,也可以是在该位点“故意地”设置多个核酸分子的结果。
具体的,参考图2,该测序方法包括:
S10.提供固相载体
在该步骤中,提供固相载体。本实施例中,固相载体理解为固定核酸分子或核酸模板的载体或支撑物。在一些应用示例中,固相载体又可以称为固相基底、测序芯片或测序生物芯片。在一实施例中,固相载体为具有阵列微孔的基板,且每一位置对应一个微孔所在的位置。示例性的,固相载体为纳米井点阵(pattern)芯片,纳米井点阵芯片包括阵列排布的纳米井(nanowell),纳米井又可称为纳米孔或微孔或孔洞。本申请实施例中,所指的纳米井与纳米孔可以相互替代,是指在固相载体表面形成的纳米级尺寸的孔状结构。纳米井(nanowell)或纳米孔的形状没有严格限定,可以为圆形、椭圆形、三角形、四边形或其他多边形、甚至没有特定形状,为了便于核酸分子扩增的均匀性,在一些实施例中,纳米井(nanowell)或纳米孔设置成横截面为对称图形的形状,示例性的,纳米井(nanowell)或纳米孔的横截面为圆形、正多边形,且正多边形的边数越多,越有利于核酸分子扩增反应的顺利延展。点阵芯片的示例如Illumina公司的pattern芯片,华大智造公司的DNB(DNAnanoball)阵列(pattern)芯片。在一实施例中,固相载体为平面基板,平面基板的表面包括若干经过表面处理的位置,每一位点对应一个位置。这一类固相载体的示例如random芯片。
本实施例中,固相载体表面固定有核酸分子,核酸分子连接在固相载体表面。在一种实施方式中,固相载体表面连接有探针,该探针通过与固相载体表面的分子/基团共价键连接,核酸模板通过探针连接于固相载体表面。其中,探针为一段可以与感兴趣的靶核酸分子杂交的寡聚核苷酸或核酸分子片段。在一实施例中,探针的至少一部分被配置为与核酸模板的3'端的至少一部分杂交。在另一种实施方式中,核酸模板的一端与固相载体表面的分子/基团共价键连接,从而连接在固相载体表面。
该实施例中,固相载体具有多个位点,核酸分子固定在固相载体上的位点表面。固相载体上的位点可以理解为固相载体用于固定核酸分子扩增簇的一个点,且相邻的两个这样的点之间存在一定的距离,且该距离足够大于同一点内核酸分子之间的距离,使得在采集碱基延伸产生的测序信号时,不同的点对应的测序信号能够被区分。示例性的,纳米井点阵芯片表面的每一纳米井为一个位点。本申请实施例可以通过对固相载体进行设计,确定这类点的分布或排列。在一实施例中,对于非纳米井点阵芯片,可以通过在固相载体表面形成点状探针簇来确定位点。同样的,探针簇是指在固相载体表面的一个点范围内聚集的多个探针,且相邻的两个探针簇之间存在一定的距离,且该距离足够大于同一探针簇内探针之间的距离,使得在对探针连接的核酸分子进行碱基延伸反应时,不同的探针簇所在的点产生的信号能够被区分。
本申请实施例中,固相载体的位点分别固定多个核酸分子。根据申请的实施例,理想情况下,每一位点固定多个核酸分子。在一些不可避免的情况下,可能会存在极少数位点没有固定核酸分子或一个位点仅固定一个核酸分子的情形。
通常,在一轮碱基延伸获得的测序信号中,同一位点出现两种或者以上不同的测序信号,则说明该位点中可能存在两种或以上序列不同的核酸分子。为了提高测序的准确度,这些位点的测序信号不被统计,对应的测序数据去除。不同于以往在一个位点只设置一种核酸模板的期待,本申请实施例中,允许部分位点存在两种或以上序列不同的核酸模板,且本申请实施例提供的测序方法,包括对这些位点内序列不同的核酸模板进行测序。由于含有两种或以上序列不同的核酸模板的位点,在一轮碱基延伸过程中会产生两个或以上的信号,因此,对应的,该部分位点又可称为多分子信号点。
本申请实施例提供的固相载体,根据一个位点中含有的序列不同的核酸模板的类型,位点可以分为几种类型。本申请实施例中,位点包括第一位点,第一位点固定有多个核酸分子,且多个核酸分子具有n种序列不同的核酸模板,n取自2~4的自然数。其中,第一位点表面的核酸模板包括来源于构建样本文库时形成的待测核酸分子,还可能包括在碱基延伸之前引入的杂质核酸分子。应当理解的时,通常,一个位点中杂质核酸分子的分子数目远低于待测核酸分子的分子数目,其产生的测序信号强度很低,形成背景噪声或容易淹没于背景噪声中。本申请实施例中,n种序列不同的核酸模板是指待测核酸分子。
本申请实施例中,第一位点中n种序列不同的核酸模板的分子数目各不相同,对应的,在每一轮碱基延伸过程中,第一位点产生n种强度不同的测序信号。n种序列不同的核酸模板至少包括分子数目最多的第一核酸分子和分子数目次多的第二核酸分子。在一些实施例中,第一位点具有两种序列不同、分子数目不同的核酸模板,即第一核酸分子和第二核酸分子,又称为主核酸分子和次核酸分子,相应地,测序信号具有信号强度最高的第一测序信号和信号强度次高的第二测序信号。在一些实施例中,第一位点具有三种序列不同、分子数目各不相同的核酸模板,即第一核酸分子、第二核酸分子和第三核酸分子,相应地,测序信号具有信号强度依次降低的第一测序信号、第二测序信号和第三测序信号。在一些实施例中,第一位点具有四种序列不同、分子数目各不相同的核酸模板,即第一核酸分子、第二核酸分子、第三核酸分子和第四核酸分子,相应地,测序信号具有信号强度依次降低的第一测序信号、第二测序信号、第三测序信号和第四测序信号。本申请实施例中,第一、第二、第三、第四仅仅只是为了根据第一位点中核酸分子的分子数目区分不同序列的核酸模板类型。
本申请实施例中,当一个第一位点中n种序列不同的核酸模板的分子数目相当时,该第一位点在每一轮碱基延伸过程中产生的两个测序信号的强度相差无几,在n种核酸模板的序列未知的情况下,无法将每一轮碱基延伸的测序信号归属到不同的核酸模板,导致无法区分两个核酸分子的顺序。因此,本申请实施例中,n种序列不同的核酸模板的分子数目各不相同。通常,n种序列不同的核酸模板的分子数目差异越明显,两者产生的测序信号的强度越显著,有利于后续通过强度差异将各轮碱基延伸产生的测序信号进行串联,以确定核酸分子的序列。在一些实施例中,n种序列不同的核酸模板中的至少两种在至少一轮碱基延伸中产生不同的测序信号。
在一些实施例中,在第一位点中,按照分子数目由高到低或由低到高的顺序,分子数目相邻的两种核酸模板中,分子数目较高的核酸模板的分子数目是分子数目较低的核酸模板的分子数目的至少1.2倍,即,同一第一位点中分子数目较高的核酸分子簇产生的测序信号的强度大概为分子数目较低的核酸分子簇产生的强度的至少1.2倍,也即,按照信号强度由高到低或由低到高的顺序,相邻的两种测序信号中,强度较高的测序信号的强度是强度较低的测序信号的强度的至少1.2倍。由此,使得在一轮碱基延伸反应中,同一第一位点中不同核酸模板产生的测序信号的强度呈现与核酸分子数目比例相当的差异,从而有利于两者在一轮碱基延伸反应中被区分。由此,可以进一步提高通过强度差异对测序信号进行归属的效率,从而进一步提高测序效率。应当理解的时,当两种不同序列的核酸模板的数目差异达到一定程度时,分子数目少的核酸模板产生的测序信号可能被掩盖或沦为不明显的背景信号而无法被识别,因此,本申请实施例中,第一位点中,分子数目较高的核酸模板的分子数目是分子数目较低的核酸模板的分子数目的至多10倍。
在一些实施例中,按照分子数目由高到低或由低到高的顺序,分子数目相邻的两种核酸模板中,分子数目较高的核酸模板的分子数目是分子数目较低的核酸模板的分子数目的至少1.5倍,在这种情况下,在一轮碱基延伸反应中,同一第一位点中分子数目较高的核酸分子簇产生的测序信号的强度大概为分子数目较低的核酸分子簇产生的强度的至少1.5倍,也即,按照信号强度由高到低或由低到高的顺序,相邻的两种测序信号中,强度较高的测序信号的强度是强度较低的测序信号的强度的至少1.5倍,两者均有较明显的测序信号强度差异,由此,有利于在每一轮碱基延伸产生的测序信号中,识别高强度的测序信号和低强度的测序信号。由于各轮碱基延伸中,高强度的测序信号来源于核酸分子数目较多的一种核酸分子(如主核酸分子),而低强度的测序信号来源于核酸分子数目较少的一种核酸分子(如次核酸分子),通过将各轮碱基延伸得到的强度较高的测序信号对应的碱基识别结果进行串联,即可获得核酸分子数目较多的一种核酸模板的碱基识别结果;通过将各轮碱基延伸得到的强度较低的测序信号对应的碱基识别结果进行串联,即可获得核酸分子数目较少的一种核酸模板的碱基识别结果。
在一些实施例中,按照分子数目由高到低或由低到高的顺序,分子数目相邻的两种核酸模板中,分子数目较高的核酸模板的分子数目是分子数目较低的核酸模板的分子数目的1.5~10倍。相应地,按照信号强度由高到低或由低到高的顺序,相邻的两种测序信号中,强度较高的测序信号的强度是强度较低的测序信号的强度的1.5~10倍。由此,在一轮碱基延伸反应中,不同的核酸模板产生的测序信号的强度具有较明显的差异,且分子数目少的核酸模板产生的测序信号相对分子数目较多的核酸模板仍具有一定的强度,使其不会因为强度过低被掩盖或沦为不明显的背景噪声而无法被识别。
应当理解的是,本申请实施例中,一个第一位点中n种序列不同的核酸模板的分子数目,可能无法通过有效的方式进行绝对计算,但是可以通过对比,得知不同的核酸模板之间的相对分子数目。如通过一轮或多轮碱基延伸得到的测序信号的强度,获得不同核酸模板的相对分子数目的比值或比例。同样的,本申请实施例所述的分子数目的比值或倍数,也是基于相对分子数目形成的比值或倍数。具体的,通过一轮或多轮测序反应过程中各通道采集到的测序信号以及各测序信号的强度,对不同序列的核酸模板在该第一位点中的相对分子数目进行判断。在一个实施例中,同一第一位点中,不同序列的核酸模板在至少一轮碱基延伸中产生不同的测序信号,此时,可以通过该碱基延伸产生的测序信号强度,确定该第一位点中不同序列的核酸模板的相对数目或相对含量。在另一个实施例中,同一第一位点中,不同序列的核酸模板可能在一轮碱基延伸中产生的测序信号部分相同。此时,通过一轮测序反应,可以判断测序信号不同的核酸分子在该第一位点的相对数目或相对含量。剩余的相对数目或相对含量没确定的核酸分子,在其他轮碱基延伸过程中也会产生不同的测序信号,此时,基于同样的方式,通过对测序信号强度进行识别,来确定其相对数目或相对含量。通过两轮或更多轮这样的碱基延伸,直至同一第一位点中不同序列的核酸模板的相对数目或相对含量能够得以确定。在此基础上,可以基于该第一位点中各核酸模板的相对数目或相对含量以及每一轮测序反应产生的测序信号强度,判断各核酸模板在当前轮测序反应过程中引入的碱基或核苷酸类型。即便两种不同序列的核酸模板产生相同的测序信号,也可以基于各核酸分子固定的相对数目或相对含量,对测序信号进行归属。亦即:对于含有多个不同序列核酸分子的第一位点,可以按照信号特征,识别出每轮碱基延伸的碱基或核苷酸类型,最后在多轮碱基延伸获得的测序信号如采集的荧光图像中,从一个第一位点识别出多种不同核酸分子的序列。
示例性的,以点阵芯片的同一第一位点中含有两种序列不同的核酸分子位列说明。从原理上来说,点阵芯片的一个纳米井中,可能存在两种序列不同的核酸模板扩增簇形成的双分子信号点。由于扩增开始的先后和扩增效率的差异,这两种核酸分子的扩增数量比值为7:3。每一轮碱基延伸两种核酸分子在某两个碱基通道产生的信号强度也表现为7:3的比例。基于每一轮碱基延伸得到的该测序信号的强度特征,便能知晓两个核酸模板在每轮碱基延伸引入的碱基或核苷酸类型。
n种序列不同的核酸模板中,当n的取值越大时,一个位点能够识别的核酸分子越多,受限于碱基类型或碱基通道数量的限定,一个位点最多能实现四种不同序列的核酸模板的碱基识别。在该情形下,同一第一位点的核酸分子的类型控制在4个以内。
在一些实施例中,固相载体上还具有第二位点,第二位点固定有序列相同的多个核酸分子,即,第二位点中的核酸分子为序列相同的核酸分子。
根据本申请提供的实施例,固相载体上具有多个位点,多个位点分别固定多个核酸分子。在位点上固定多个核酸分子之前,包括:基于待测对象,构建测序文库分子。多个位点分别固定的多个核酸分子由测序文库分子在固相载体表面扩增得到。
根据本申请的实施例,多个核酸分子是通过桥式扩增固定于位点表面。
根据本申请的实施例,第一位点中的多个核酸分子分别由不同的核酸模板通过桥式扩增形成,即,n种序列不同的核酸模板分别由不同的模板通过桥式扩增形成。
S20.实施多轮碱基延伸,获取各通道的测序信号
在该步骤中,对核酸分子实施多轮碱基延伸,并在碱基延伸过程中,获取各通道的测序信号。本申请实施例中,在一轮以上碱基延伸反应中,第一位点处的测序信号至少具有信号强度最高的第一测序信号和信号强度次高的第二测序信号。
在获得测序芯片后,对测序芯片实施多轮测序反应,并在测序反应过程中,针对给定位点,获取各碱基通道的测序信号。根据本申请的实施例,碱基延伸可以通过实施边合成边测序反应实现,也可以通过边连接边测序实现。
在测序反应过程中,对于每个核酸模板,每一轮碱基延伸延长一个连接有特定信号基团(通常为荧光基团)的核苷酸(或核苷酸类似物),通过在特定的通道中检测到特定信号基团产生的测序信号(通常为荧光信号),可以确定所延伸的碱基或核苷酸的类型,进而确定核酸模板的序列。在一些实施例中,每一轮测序过程中引入的核苷酸或核苷酸类似物表面的荧光基团的种类,碱基延伸可以分为基于四种不同荧光基团的碱基延伸(又称四色测序)和基于两种不同荧光基团的碱基延伸(又称双色测序)。对应的,获取各通道的测序信号的步骤,包括两种情形:对于四种不同荧光基团的碱基延伸,一次同时获取四个碱基通道的测序信号,每个碱基通道对应一种碱基的测序信号;对于两种不同荧光基团的碱基延伸,两次分别获取两个碱基通道的测序信号,最终获得四个碱基通过的测序信号。双色测序中,A、T/U、C、G分别在两个通道的信号中。用11、10、01、00的亮暗组合分类(1表示亮,两个通道分别为Green和red),双色测序对于多分子的分辨并不如四色测序明显。而在四色测序中,4种碱基的分类编码是1000、0100、0010、0001,其信息编码冗余度明显高于双色测序。实际测序中,通常还会可以进一步考虑亮度大小差异,而非仅以亮暗编码,但显然4色测序能比双色测序更好的区分复杂碱基信号。正因为四色测序可以通过亮度差异识别多信号,对复杂碱基的识别具备明显优势。所以,本申请实施例提供的碱基识别方法,更适用于四色测序。
根据本申请的实施例,在第一位点中,可以存在至少两种序列不同的核酸模板,对应形成至少两种不同的核酸分子,两种不同的核酸分子为第一核酸分子和第二核酸分子,又称主核酸分子和次核酸分子。应当理解的是,根据本申请的实施例,第一位点中的这些不同的核酸分子,既可以是在同一第一位点“意外”产生的,也可以是在同一第一位点“主动”生成的,只要其在碱基延伸产生的测序信号存在足够的强度差异,使其能够被区分即可。多种不同的核酸分子中的至少一部分可以在至少一轮测序反应中产生不同的测序信号。
本申请实施例中,在碱基延伸过程中,获取各通道的测序信号,包括获取每一轮碱基延伸各通道的测序信号。根据本申请的实施例,n种序列不同的核酸模板的分子数目不同,对应的,n种序列不同的核酸模板在每一轮碱基延伸中产生的测序信号的强度不同。
在一些实施例中,测序信号为光学信号。示例性的,测序信号为核苷酸上的荧光基团产生的荧光信号,此时,获取各通道的测序信号,包括:在实施一轮碱基延伸后,采集四个碱基通道的荧光图像,获取各通道荧光图像中的亮点信号。荧光图像中的一个亮点,对应一个位点的信号。对应的,多分子信号点产生的信号为多信号,此时,对应的亮点为多个混合信号形成的多信号亮点。在一些实施例中,获取各通道荧光图像中的亮点信号,包括确定荧光图像中各亮点的荧光强度的过程。具体的,可以提取荧光图像的灰度值,并对得到的灰度图像进行校正后确认荧光图像中各亮点的荧光强度,即,测序信号强度是经过校正的测序信号强度。示例性的,校正包括通道间串扰(如串色)校正和/或通道内串扰校正。
为了消除各通道之间的串扰,我们进行了串色(crosstalk)校正,其主要目的是,为了保证各荧光基团只在单一通道内显示信号,以方便识别位点内包含的真实碱基信号。根据本申请的实施例,按照排列组合对4维数据进行两两矫正总共有12种排列组合,例如AC矫正表示使用C矫正A信号,AT表示A对T的校正,TA则表示T对A的校正。在一个实施例种,双通道之间的矫正过程如下:针对特定组合,选取一个组合,构成x、y计算x对y的crosstalk校正。选取x中固定亮度段落,对这一区间中的(x,y),按照固定x步长,取(x,y)散点图的下边缘。这样取得的离散散点,可以表征x对y的crosstalk最小串扰。接下来,通过对采样后的离散点集合进行线性拟合可以得到线性拟合斜率,从而使用线性拟合的斜率k进行矫正计算,例如TA矫正,使用A矫正T信号:
T′=T-AXk
根据一些具体实施例,可以发现矫正后,AT图上的A臂与横坐标轴的夹角可以变为0。
另外,根据本申请的实施例,随着延伸反应的增长,多轮反应过后,发明人发现每个碱基的信号都不在纯粹单一。这是由于化学反应存在超前与滞后,导致相位误差,一般可以称之为phasing(滞后,本应在cycle N反应的碱基,却滞后到cycle N+1)与prephasing(超前,本应在Cycle N反应的碱基,却提前在Cycle N-1反应),可以简单理解为同一个通道内相邻延伸反应之间的串扰。这种串扰与通道间的crosstalk这种固定串扰不同,它随着延伸反应的增大,不断积累变强。根据本申请的实施例,phasing/prephasing的校正与crosstalk校正基本是“采样,线性拟合,校正”三个步骤。根据本申请的实施例,可以先进行通道间串扰校正,再进行通道内串扰校正,这样能够得到当前情况下最低的错误率。
S30.基于各测序信号的强度差异,将测序信号归类为主核酸分子和次核酸分子的测序结果。
在该步骤中,基于各测序信号的强度差异,将所述测序信号进行归属,确定至少两种核酸模板的测序结果。
在获得各测序信号后,基于各测序信号的强度差异,将测序信号归类为不同核酸模板的测序结果。通常而言,对于给定的测序反应,会仅选择信号最强的测序信号用于判断核酸模板的结果,如:当各通道得到的测序信号存在明显信号差异,且最强测序信号存在明显的主导优势时,将测序信号最强的通道对应的碱基类型确定为核酸分子在当轮碱基延伸过程中引入的碱基,其他通道的测序信号会被抛弃。在一些情况下,为了避免多通道的测序信号之间的干扰对碱基识别结果的影响,甚至将该信号点的全部数据抛弃。这样,会造成一些位点的数据损失,降低测序的通量。而本发明的发明人提出,基于各通道的测序信号的强度差异,可以将同一第一位点中不同序列的核酸模板之间的测序信号进行归类,从而得到不同序列的核酸模板的测序结果。由此,可以减少测序数据的浪费,提高测序通量。
根据本申请的实施例,在对第一位点进行同步测序中,由于不同序列的核酸模板的分子数目不同,不同序列的核酸模板产生的测序信号强度不同,因此,在确定核酸模板的测序结果时,可以通过获取位点的测序信号数据,并且基于测序信号的强度差异,确定多个不同序列的核酸模板的测序结果。
根据本申请的实施例,基于各测序信号的强度差异,将测序信号进行归属,确定至少两种核酸模板的测序结果,包括:
(1)基于至少一轮碱基延伸中,从第一位点获取的各测序信号的种类和测序信号强度,确定核酸模板的数量以及各核酸模板对应的测序信号的相对强度。
该步骤中,包括对碱基延伸产生的信号依据第一位点所在的位置(又可视为第一位点的坐标)进行对齐的过程。对于同一个第一位点,每轮碱基延伸中该第一位点处各通道的测序信号会包括多个不同强度的测序信号。在一实施例中,测序信号为光学信号,示例性的,如荧光信号。
应当理解的是,该实施例中,进行测序之前,需要通过碱基延伸表现出的测序信号的差异,确定不同序列的核酸模板在第一位点中的数目排序。该步骤包括:基于至少一轮碱基延伸中,从第一位点获取的具有测序信号的通道的数量和次数以及各测序信号强度,确定不同序列的核酸模板的相对数目以及不同序列的核酸模板的强度。
在第一种实施方式中,n=2,即第一位点的多个核酸分子中具有2种序列不同的核酸模板,对应的,多个核酸分子包括主核酸分子和次核酸分子。此时,该步骤中,对核酸分子实施碱基延伸时,获取各通道的测序信号中包括两个不同强度的测序信号,即信号强度最高的第一测序信号和信号强度次高的第二测序信号。示例性的,在一轮碱基延伸过程中,各通道的测序信号中,包括A碱基的测序信号和T碱基的测序信号,且A碱基的测序信号的强度和T碱基的测序信号的强度的比值大概为2:1,且该测序信号的通道数量以及测序信号的强度在多轮碱基延伸中得到重现,那么,通过信号通道显示的测序信号可以得出:第一位点的多个核酸分子中具有2种序列不同的核酸模板,且两种核酸模板的分子数目大约为2:1左右。
在第二种实施方式中,n=3,即第一位点的多个核酸分子中具有3种序列不同的核酸模板,对应的,多个核酸分子包括第一核酸分子、第二核酸分子和第三核酸分子。此时,该步骤中,对核酸分子实施碱基延伸时,获取各通道的测序信号中包括三个不同强度的测序信号,对应第一核酸分子、第二核酸分子和第三核酸分子,测序信号包括信号强度依次降低的第一测序信号、第二测序信号和第三测序信号。示例性的,在一轮碱基延伸过程中,各通道的测序信号中,包括A碱基的测序信号、C碱基的测序信号和T碱基的测序信号,且A碱基的测序信号的强度、C碱基的测序信号的强度和T碱基的测序信号的强度的比值大概为10:7:3,且该测序信号的通道数量以及测序信号的强度在多轮碱基延伸中得到重现,那么,通过信号通道显示的测序信号可以得出:第一位点的多个核酸分子中具有3种序列不同的核酸模板,且三种核酸模板的分子数目大约为10:7:3左右。
在第三种实施方式中,n=4,即第一位点的多个核酸分子中具有4种序列不同的核酸模板,对应的,多个核酸分子包括第一核酸分子、第二核酸分子、第三核酸分子和第四核酸分子。此时,该步骤中,对核酸分子实施碱基延伸时,获取各通道的测序信号中包括四个不同强度的测序信号,对应第一核酸分子、第二核酸分子、第三核酸分子和第四核酸分子,测序信号包括信号强度依次降低的第一测序信号、第二测序信号、第三测序信号和第四测序信号。示例性的,在一轮碱基延伸过程中,各通道的测序信号中,包括A碱基的测序信号、C碱基的测序信号和T碱基的测序信号,且A碱基的测序信号的强度、C碱基的测序信号的强度和T碱基的测序信号的强度的比值大概为13:7:3;在另一轮碱基延伸过程中,各通道的测序信号中,包括A碱基的测序信号、G碱基的测序信号、C碱基的测序信号和T碱基的测序信号,且A碱基的测序信号的强度、G碱基的测序信号的强度、C碱基的测序信号的强度和T碱基的测序信号的强度的比值大概为10:7:5:3。通过信号通道显示的测序信号可以得出:第一位点的多个核酸分子中具有4种序列不同的核酸模板,且四种核酸模板的分子数目大约为10:7:5:3左右。对于这种情形,由于在一轮或多轮碱基衍生过程中,四种核酸模板中的两种或两种以上引入的碱基或核苷酸类型相同,那么,其在对应的碱基通道产生的测序信号将叠加。通过多轮碱基延伸获得的测序信号的类型以及测序信号的强度,仍然能够获得各核酸模板分子数目的相对比例。
根据本申请的实施例,由于在碱基延伸过程产生的测序信号中,不可避免会存在一些感染型号,为了提高测序的准确性,在获取各通道的测序信号的步骤中,以标准亮度为100%计,选取各通道中亮度大于或等于10%的测序信号。也即:碱基延伸过程中,获取各通道的测序信号时,先对各通道的测序信号的强度进行评估,按照“以标准亮度为100%计,选取各通道中亮度大于或等于10%的测序信号”的标准,筛选满足要求的通道的测序信号,进入下一步骤进行碱基识别。
以含有两个核酸模板的第一位点为例,对此进行简单说明。如在多轮碱基延伸产生的图像中,如果四通道获得的测序信号中,在一固定位点总有两个通道具有测序信号或同一通道进行信号采集时两次具有测序信号,且两个测序信号的信号强度为相对恒定的比值,如7:3,那么,可以按照信号强度确定该位点中的两个核酸模板的拷贝数约为7:3。为了便于描述,可以将含量高的核酸模板命名为第一核酸模板,将含量低的核酸模板命名为第二核酸模板。
应当理解的是,该步骤中所指的强度或信号强度,可以为荧光图像对应的原始强度,也可以为校正后的信号强度。如前文所述,校正可以为串扰校正和/或相位失衡校正。
(2)基于每轮碱基延伸中第一位点对应位置处各测序信号的相对强度,按照由高到低或由低到高的顺序,排序每轮碱基延伸中各测序信号。
在一轮测序反应中,第一位点的n种不同序列的核酸模板可能在不同通道中表现为具有测序信号,或在同一通道进行信号采集时多次检测到测序信号。由于同一位点n种不同序列的核酸模板的分子数目如拷贝数不同,这些测序信号的强度会存在差异。可以根据各测序信号的强度差异,对各测序信号进行排序。例如,在含有两种核酸模板的第一位点中,主核酸分子和次核酸分子在一轮测序反应中引入的核苷酸不同,那么,该轮测序反应中两个不同通道会表现为在该第一位点存在亮点,同一通道进行多次信号采集时该第一位点两次存在亮点。且由于两种核酸分子的分子数目不同,两个通道中的测序信号强度不同。
以荧光强度为例,在含有两种核酸分子(主核酸分子和次核酸分子的分子数目约为7:3)的第一位点中,在一轮碱基延伸采集到的荧光图像中,A碱基通道和T碱基通道均表现为存在荧光信号,且两通道的荧光信号强度为7:3。此时,按照荧光信号强度由高到低或者由低到高的顺序,对两种通道获得的测序信号排序。如按照荧光信号强度由高到低,将各通道测序信号排位第一测序信号、第二测序信号。
应当理解的是,该步骤中,排序每轮测序反应中各测序信号的过程,能够得知信号强度高低对应的碱基类型。继续以上一个示例为例,在一轮测序反应采集到的荧光图像中,A碱基通道和T碱基通道均表现为存在荧光信号,且两通道的荧光信号强度为7:3。此时,第一测序信号对应的碱基类型为A碱基,对应的,第一核酸分子在该轮测序反应中引入的碱基为A碱基;第二测序信号对应的碱基类型为T碱基,对应的,第二核酸分子在该轮测序反应中引入的碱基为T碱基。
应当理解的是,在一些实施例中,可能会存在同一个第一位点中,n种不同序列的核酸模板在同一轮碱基延伸中引入的核苷酸类型相同的情形,此时,该第一位点会在一个通道中表现为测序信号,或者说,该位置在一个通道中表现出具有远高于其他通道的测序信号,使得通过该信号强度,可以确定该轮测序反应在该位点只引入一种核苷酸或核苷酸类似物。
(3)基于排序结果,串联每轮碱基延伸的测序信号,确定至少两种核酸模板的测序结果。
在一实施例中,基于排序结果,串联每轮碱基延伸的测序信号,确定至少两种核酸模板的测序结果的步骤,包括:
基于排序结果,确定每一轮碱基延伸中排序等级相同的测序信号;
确定排序等级相同的测序信号为同一种核酸模板产生的测序信号;
串联同一种核酸模板在各轮碱基延伸的测序信号,并基于串联的测序信号,确认至少两种核酸模板的测序结果。
由此,每一轮测序反应获得的各测序信号进行排序后,将每一轮测序反应中测序信号强度排第一的碱基通道对应的碱基类型依次串联,即可得到该第一位点中,分子数目最多的核酸模板的序列。依次类推,按照测序信号由强到弱或由弱到强的顺序,可以依次获得分子数目减少或增加对应的核酸模板的序列。
示例性的,以纳米井阵芯片的四色测序为例,来说明从一个含有两种不同序列的核酸模板的第一位点中识别两条序列的过程。从原理上来说,点阵芯片的一个纳米井中,可能有两条DNA片段进行扩增,形成一个双分子信号点。由于扩增开始的先后和扩增效率的差异,这两个DNA片段的扩增数量比值为7:3。以四通道为例,每一轮碱基延伸会采集获得四个碱基通道的荧光图像,可以从图像中提取4个灰度值。进一步的,可以对图像中的荧光强度进行串扰校正和/或相位失衡校正。若在一轮测序反应中,这两种核酸分子的碱基信号不同,分别为A,C,那么,图像中4个碱基的强度比值为7:3:0:0(A:C:G:T,假定4通道信号总比值为10),由此,我们识别出碱基A和碱基C。进入下一轮测序反应后,这两种核酸分子的碱基都是T,图像中4个碱基的强度比值为0:0:0:10,由此判断本轮测序反应引入的两个碱基均为T。在每轮反应中,分别识别图像中强度最大和次大的碱基,将其按亮暗规律排列,强度最大的碱基与强度最大的碱基串联,强度次之的碱基与强度次之的碱基串联,可以获得两种核酸分子的序列。从而实现在一个纳米井内输出两条序列,亦即实现了单位点内双核酸分子的识别。
在一些实施例中,方法还包括:基于测序结果,确定待测对象的核酸序列。
本申请的发明人通过实验验证了针对不同的核酸模板进行同步测序后,利用强度差异,可以对测序信号进行有效区分的技术思路,由此,可以大大提高测序通量。通过采用该测序方法,能够有效的通过强度差异对测序信号进行归类,从而实现了对多分子信号点的充分利用,提高了测序通量。
下面将结合实施例对本发明的方案进行解释。本领域技术人员将会理解,下面的实施例仅用于说明本发明,而不应视为限定本发明的范围。实施例中未注明具体技术或条件的,按照本领域内的文献所描述的技术或条件或者按照产品说明书进行。所用试剂或仪器未注明生产厂商者,均为可以通过市购获得的常规产品。
实施例1
在某一测序仪上对一测序芯片进行测序,对连续多轮碱基延伸(cycle)获得的收集测序图像数据进行分析,保留强度为标准强度10%以上的测序信号,以一个双信号位点中连续七轮碱基延伸获得的图像数据为例进行说明,如图3所示:
在第一轮碱基延伸获得的荧光图像中,结果显示A、T、G、C对应的4个碱基的强度比值为6:3:0:0,由此,我们识别出测序信号强度比为2:1的碱基A和碱基T;
在第二轮碱基延伸获得的荧光图像中,结果显示A、T、G、C对应的4个碱基的强度比值为2:4:0:0,由此,我们识别出测序信号强度比为2:1的碱基T和碱基A;
在第三轮碱基延伸获得的荧光图像中,结果显示A、T、G、C对应的4个碱基的强度比值为0:4:2:0,由此,我们识别出测序信号强度比为2:1的碱基T和碱基G;
在第四轮碱基延伸获得的荧光图像中,结果显示A、T、G、C对应的4个碱基的强度比值为0:2:4:0,由此,我们识别出测序信号强度比为2:1的碱基G和碱基T;
在第五轮碱基延伸获得的荧光图像中,结果显示A、T、G、C对应的4个碱基的强度比值为0:6:0:0,由此,我们识别出本轮测序反应引入的两个碱基均为T;
在第六轮碱基延伸获得的荧光图像中,结果显示A、T、G、C对应的4个碱基的强度比值为4:0:2:0,由此,我们识别出测序信号强度比为2:1的碱基A和碱基G;
在第七轮碱基延伸获得的荧光图像中,结果显示A、T、G、C对应的4个碱基的强度比值为0:0:4:2,由此,我们识别出测序信号强度比为2:1的碱基G和碱基C。
从上述碱基延伸获得的荧光图像可以得知,双信号位点中含有两个核酸模板,且在每一轮碱基延伸中,两个核酸模板的测序信号约为2:1,由此可知,两个核酸模板的分子数目约为2:1。分子数目较多的核酸模板在碱基延伸的图像中产生强度更高的测序信号,通过将每一轮碱基延伸得到的图像中强度高的测序信号识别的碱基类型进行串联,同样的,每一轮碱基延伸得到的图像中强度高的测序信号识别的碱基类型进行串联,得到两个核酸模板的序列,分别为:ATTGTAG和TAGTTGC。
由此,实现单位点内双核酸分子的识别。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在不脱离本发明的原理和宗旨的情况下在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
Claims (10)
1.一种测序方法,其特征在于,包括:
提供固相载体,所述固相载体上具有第一位点,所述第一位点固定有多个核酸分子,且所述多个核酸分子具有n种序列不同的核酸模板,n取自2~4的自然数;
对所述核酸分子实施多轮碱基延伸,并在所述碱基延伸过程中,获取各通道的测序信号,且在一轮以上碱基延伸反应中,第一位点处的所述测序信号至少具有信号强度最高的第一测序信号和信号强度次高的第二测序信号;和
基于各测序信号的强度差异,将所述测序信号进行归属,确定至少两种核酸模板的测序结果。
2.根据权利要求1所述的测序方法,其特征在于,所述n种序列不同的核酸模板在每一轮碱基延伸中产生的测序信号的强度不同;
任选地,n=2,所述测序信号具有信号强度最高的第一测序信号和信号强度次高的第二测序信号;
任选地,n=3,所述测序信号具有信号强度依次降低的第一测序信号、第二测序信号和第三测序信号;
任选地,n=4,所述测序信号具有信号强度依次降低的第一测序信号、第二测序信号、第三测序信号和第四测序信号;
任选地,按照信号强度由高到低或由低到高的顺序,相邻的两种测序信号中,强度较高的测序信号的强度是强度较低的测序信号的强度的至少1.2倍,优选至少1.5倍,更优选为1.5~10倍;
任选地,获取各通道的测序信号的步骤中,以标准亮度为100%计,选取各通道中亮度大于或等于10%的测序信号。
3.根据权利要求1或2所述的测序方法,其特征在于,基于各测序信号的强度差异,将所述测序信号进行归属,确定至少两种核酸模板的测序结果,包括:
基于至少一轮所述碱基延伸中,从所述第一位点获取的各测序信号的种类和测序信号强度,确定所述核酸模板的数量以及各所述核酸模板对应的测序信号的相对强度;
基于每轮碱基延伸中所述第一位点对应位置处各测序信号的相对强度,按照由高到低或由低到高的顺序,排序每轮碱基延伸中各测序信号;和
基于排序结果,串联每轮碱基延伸的测序信号,确定至少两种所述核酸模板的测序结果;
任选地,基于各排序结果,串联每轮碱基延伸的测序信号,确定至少两种所述核酸模板的测序结果的步骤,包括:
基于排序结果,确定每一轮碱基延伸中排序等级相同的测序信号;
确定排序等级相同的测序信号为同一种核酸模板产生的测序信号;和
串联同一种核酸模板在各轮碱基延伸的测序信号,并基于串联的测序信号,确认至少两种所述核酸模板的测序结果。
4.根据权利要求1-3任一项所述的测序方法,其特征在于,所述测序信号强度是经过校正的测序信号强度;
任选地,所述校正包括通道间串扰校正和通道内串扰校正的至少之一;
任选地,所述测序信号为光学信号。
5.根据权利要求1-4任一项所述的测序方法,其特征在于,所述第一位点中,所述n种序列不同的核酸模板的分子数目各不相同;
任选地,按照分子数目由高到低或由低到高的顺序,分子数目相邻的两种核酸模板中,分子数目较高的核酸模板的分子数目是分子数目较低的核酸模板的分子数目的至少1.2倍,优选至少1.5倍,更优选为1.5~10倍;
任选地,所述n种序列不同的核酸模板中的至少两种在至少一轮碱基延伸中产生不同的测序信号。
6.根据权利要求1-5任一项所述的测序方法,其特征在于,所述固相载体上还具有第二位点,所述第二位点固定有序列相同的多个核酸分子。
7.根据权利要求1-6任一项所述的测序方法,其特征在于,所述多个核酸分子通过桥式扩增固定于所述位点表面;
任选地,所述第一位点中的多个核酸分子分别由不同的核酸模板通过所述桥式扩增形成。
8.根据权利要求1-7任一项所述的测序方法,其特征在于,所述固相基板为具有阵列微孔的基板,且每一所述位点对应一个微孔所在的位置;或
所述固相基板为平面基板,所述平面基板的表面包括若干经过表面处理的位置,每一所述位点对应一个位置。
9.根据权利要求1-8任一项所述的测序方法,其特征在于,所述方法还包括:基于待测对象,构建测序文库分子,且所述多个核酸分子由所述测序文库分子在所述固相载体表面扩增得到。
10.根据权利要求9所述的测序方法,其特征在于,所述方法还包括:基于所述测序结果,确定所述待测对象的核酸序列。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310133873.9A CN117987522A (zh) | 2023-02-08 | 2023-02-08 | 测序方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310133873.9A CN117987522A (zh) | 2023-02-08 | 2023-02-08 | 测序方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117987522A true CN117987522A (zh) | 2024-05-07 |
Family
ID=90885991
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310133873.9A Pending CN117987522A (zh) | 2023-02-08 | 2023-02-08 | 测序方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117987522A (zh) |
-
2023
- 2023-02-08 CN CN202310133873.9A patent/CN117987522A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
AU2019275665B2 (en) | Enzyme- and amplification-free sequencing | |
KR102313431B1 (ko) | 화학적 조성물 및 이것을 사용하는 방법 | |
US7501253B2 (en) | DNA fingerprinting using a branch migration assay | |
AU2017200433B2 (en) | Multivariate diagnostic assays and methods for using same | |
CN109601008B (zh) | 用于工程化信号产生的竞争性探针 | |
EP2531610B1 (en) | Complexitiy reduction method | |
US20050260609A1 (en) | Methods and devices for sequencing nucleic acids | |
JP2007535928A (ja) | 染色体異常の検出 | |
CN101633961B (zh) | 循环“连接-延伸”基因组测序法 | |
US20200082908A1 (en) | Methods for Optimizing Direct Targeted Sequencing | |
CN106536735A (zh) | 分析dna样品的探针集合和使用所述探针集合的方法 | |
CN113564238A (zh) | 从多个引物测序以增加数据速率和密度 | |
JP2023126945A (ja) | 超並列シークエンシングのためのdnaライブラリー生成のための改良された方法及びキット | |
KR20180041331A (ko) | 분자결합핵산 선정과 표적분자 동정 방법 및 키드, 그리고 그들의 용도 | |
CN107849598B (zh) | 簇中的表面引物的增强利用 | |
WO2020243597A1 (en) | Flexible and high-throughput sequencing of targeted genomic regions | |
CN117987522A (zh) | 测序方法 | |
CN117987521A (zh) | 测序方法 | |
CN109415759B (zh) | 用于产生dna探针的方法以及使用dna探针分析基因组dna的方法 | |
CN104152568A (zh) | 高通量str序列核心重复数检测方法 | |
WO2023175018A1 (en) | Concurrent sequencing of forward and reverse complement strands on separate polynucleotides | |
CN118207309A (zh) | 短串联重复序列测序方法和分析方法 | |
Liu et al. | LNA-modified Oligodeoxynucleotide hybridization with DNA microarrays printed on Nanoporous membrane slides | |
CN117625767A (zh) | 一种文库扩增单克隆纯度表征方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |