发明内容
本发明要解决的技术问题之一是提供一种编码PCR的二代测序建库方法,用该方法构建的DNA文库可用于测序检测多个基因靶区的多位点和位点未知的突变片段,且可以溯源计算样品原始DNA分子的检出数和样品原始DNA突变检出数,达到高灵敏度和保真度。
为解决上述技术问题,本发明的第一种编码PCR二代测序建库方法,步骤包括:
1)提取样本DNA;
2)以步骤1)提取的DNA为模板,用3’端带有与模板互补的特异序列、5’端带有公共接头序列、中部带有随机分子编码序列的正向或反向引物进行单链特异线性扩增反应,并对扩增产物进行纯化;
3)以步骤2)所得纯化产物为模板,用3’端带有与模板互补的特异序列、5’端带有公共接头序列的反向或正向引物,与公共接头引物构成引物对,进行单端特异指数扩增反应,并对扩增产物进行纯化;所述公共接头引物的序列与本步骤所述模板的5’端的公共接头序列相同或互补;
4)以步骤3)所得纯化产物为模板,用测序双端公共接头引物对进行双端非特异指数扩增反应,并对扩增产物进行纯化;所述测序双端公共接头引物对的序列分别与步骤2)所述正向引物中的公共接头序列和步骤3)所述反向引物中的公共接头序列相同或互补;
5)定量,质检,获得DNA测序文库。
步骤1)所述样本DNA通常为150~500bp的短片段。
步骤2)所述随机分子编码序列由两段随机序列中间插入一段非随机序列构成,其中,每段随机序列的碱基数为4bp以上(优选4~5bp),非随机序列的碱基数为4~6bp。例如,4N-A4TA-4N、4N-T4AT-4N、4N-AGCT-4N、4N-CTAG-4N、4N-TACTGT-4N、5N-A4TA-4N、5N-A4TA-5N、4N-T4AT-5N、5N-T4AT-5N、4N-AGCT-5N、5N-AGCT-5N等,其中N代表随机碱基(即dATP、dCTP、dGTP、dTTP中的任何一种)。在引物合成时,随机序列各位点上的碱基(A、C、G、T)是通过随机连接得到的,非随机序列各位点上的碱基则是按照引物设计时所设定的碱基类型固定分配得到的。通过在随机序列中间插入非随机序列,隔断随机碱基,形成一个隔离区,可以提高随机编码引物的单链线性扩增反应的特异性,减少非特异产物的形成。
步骤2)所述引物的长度为50~65bp,所述正向或反向单链特异线性扩增反应的反应体系为:5×PCR缓冲液2μL,10mM dNTP 0.5μL,DNA模板1μL,5μM引物1μL,5U/μl KOD DNA聚合酶0.2μL,H2O 5.8μL,总体积10μL;反应条件为(慢降温三步法循环):95℃5分钟变性;95℃30秒,64℃退火1分钟,63℃退火1分钟,62℃退火1分钟,61℃退火1分钟,60℃退火1分钟,59℃退火1分钟,58℃退火1分钟,68℃~72℃30秒延伸,2~10个热循环;16℃保持。除KOD酶外,反应所用高保真聚合酶还可以选择Pfu酶、vent酶、kapa高保真酶等。本步采用多循环线性扩增,可以提高抽样率,确保达到初始DNA分子数非重复检出率大于30%的要求(ctDNA是cfDNA中的低频分子,如果对cfDNA的初始分子检出数不足,例如,在样品含有10000个DNA拷贝条件下,检出率小于10%,则检出0.1%的ctDNA的概率就不够,容易造成假阴性;如果检出率能大于30%,则检出0.1%的ctDNA为阳性的把握度就是10%检出率的3倍以上,就不容易造成假阴性)。此外,本步骤为单链线性扩增,亦即本发明的突变检测只检测DNA双链中的其中一条链,就能等效于互补双链突变检测,且同等检出效果条件下,可以节省一半的测序量。
步骤3)所述单端特异指数扩增反应先采用慢降温三步法循环,条件同步骤2),热循环数为4~6个;再采用两步法循环,95℃变性,68~72℃退火延伸,热循环数为15~20个。此反应条件有利于降低非特异产物的比例。
步骤4)所述双端非特异指数扩增反应的反应体系和反应条件按常规三步法循环(95℃变性,58℃退火,68℃延伸),热循环数为15~20个,引物浓度为5μM。扩增产物的纯化是用磁珠(磁珠与扩增产物的体积比为1.5:1)纯化220bp以上长片段,有利于去除180bp以下非目标产物。步骤4)中所述的测序双端公共接头引物对,当使用illumina二代测序仪测序时,为P5接头引物(SEQ ID NO:3)和P7接头引物(SEQ ID NO:4);当使用life公司的半导体芯片测序仪测序时,为PGM/A接头引物和PGM/B接头引物,序列如下:
PGM/A接头引物:CCATCTCATCCCTGCGTGTCTCCGACTCAG(SEQ ID NO:5)
PGM/B接头引物:CCTCTCTATGGGCAGTCGGTGAT(SEQ ID NO:6)
本发明要解决的技术问题之二是提供一种用于基因突变检测的编码PCR二代测序检测方法,该方法按照上述建库方法制备DNA测序文库,进行高通量测序检测,并对测序结果数据进行溯源分析。所述溯源分析包括误差识别、真实性判别、突变判别、突变比例计算,具体包括以下步骤:
1)分选不同靶标基因数据,形成多个子数据;
2)分别对子数据进行分子编码排序,一个独立分子编码定义为一个分子族,统计分子族数,计算分子族内的reads;
3)判别分子族有效性:一个分子族内的reads数小于预设数,将该分子族判别为无效;大于或等于预设数,将该分子族判别为有效;所述预设数为大于5的自然数;
4)分别将分子族内reads与参考序列进行比对分析、记录,统计错配reads和非错配reads,如果非错配reads数大于0,则将该分子族判别为野生型分子族;如果非错配reads数等于0,则继续进行步骤5)突变型分子族的判别;
5)突变型分子族的判别:如果突变位点和基因型的一致性大于90%,则将该分子族判别为突变型分子族,否则将该分子族判别为野生型分子族;
6)溯源统计,并按下式计算突变比例:溯源分子突变比例=突变型分子族数/(突变型分子族数+野生型分子族数)。
本发明要解决的技术问题之三是提供一种编码PCR二代测序建库试剂盒,该试剂盒包含有用上述建库方法制备的DNA测序文库,可用于0.03%~1%低频突变基因的高通量测序。
本发明要解决的技术问题之四是提供用于上述建库方法的引物对。其中,正向或反向引物具有如SEQ ID NO:1所示的序列,反向或正向引物具有如SEQ ID NO:2所示的序列;或者,正向或反向引物具有如SEQ ID NO:7~9所示序列中的一条或多条序列,反向或正向引物具有如SEQ ID NO:2、SEQ ID NO:10~11所示序列中的一条或多条序列。其中,序列中的N为A、C、G、T中的任意一种。
本发明以靶区突变位点未知的基因片段为模板,先进行随机分子编码的单端特异引物引导的线性单链合成反应,将原始模板上系列位点的碱基转化为分子编码标记的互补序列,纯化后再进行对侧单端特异引物引导的单端特异指数扩增合成反应,以减少靶标基因序列的编码丢失,增加产物的特异性,然后进行公共接头引物的多循环非特异指数扩增,获得高通量测序所需的足量完整待测序列。与现有建库及测序分析方法相比,本发明的方法具有以下优点和有益效果:
1.检测的特异性高,假阳性可达到0.01%以下,特异性比常规双链PCR扩增法的2%分辨率高200倍。这是因为通过单分子编码溯源分析(一个编码为一族,族内有多个序列结果,必须突变位点一致性达到90%以上,才判别为突变),可以消除PCR扩增产生的随机错配误差。
2.由于本发明抽检的是DNA双链中的一条链,而不是两条链,1个分子族代表一条DNA双链,检出2个分子族相同位点突变型代表2个DNA分子的相同突变,因此,本发明的检测方法灵敏度很高,检测限可达到0.03%突变水平,比双链PCR扩增法和接头连接建库法(这两种方法的检测限均为0.1%)高3倍;初始DNA分子数检出率可以达到30%~70%,突变分子检出限可以达到0.03%~0.1%。此外,本发明的单分子编码标记特异引物的线性扩增,即使在样本DNA分子数一定的情况下,也可以通过增加循环数,提高样本DNA分子的抽检率,亦即提高了突变检出的灵敏度,因此,本发明的方法的灵敏度是可调整、可控制的。
3.可以根据分子编码溯源分析,进行初始DNA分子的数字化定量测序,计算出初始DNA分子的检出数,因此可以准确进行分子数定量和突变比例定量,解决稀有低比例突变基因不能定量的问题。
4.当前常用的二代测序建库方法,都难以检测突变基因比例低于1%的样品,而本发明通过单端分子编码PCR建库,经二代测序,可以检测0.03%~1%的低比例突变基因,可应用于设计制备低频突变DNA二代测序建库试剂盒。
5.可以进行多重突变检测。一个常规取样量的血样可以同时检测多个基因、多个靶区、多个位点,并能检测发现未知突变位点。
6.可以避免C-smart等原始模板连接法的连接低效率、高丢失,以及PCR方法的扩增偏态使低比例突变更低甚至丢失的问题。
7.可以大大降低低比例突变基因检测的成本。
具体实施方式
以下实施例仅用于说明本发明,而不用于限制本发明的范围。实施例中未注明具体条件的实验方法,通常按照常规条件,例如Sambrook等人,分子克隆:实验室手册(NewYork:Cold Spring Harbor Laboratory Press,1989)中所述的条件,或按照制造厂商所建议的条件。
实施例1外周血血浆基因EGFR EXON20突变检测
1.样本DNA提取
取适量的受检者外周血血浆3~5ml,用游离DNA提取试剂盒(DK607-01,由上海莱枫生物科技有限公司提供)提取其游离基因组DNA。
2.正向单链特异线性扩增反应
正向引物EGFR EXON20-55bp-F:
TACACGACGCTCTTCCGATCTNNNNATTTTANNNNTAGGAAGCCTACGTGATGGC(SEQ ID NO:1)
正向单链特异线性扩增反应体系为:5×PCR缓冲液2μL,10mM dNTP 0.5μL,DNA模板1μL(含24.75ng DNA),5μM引物1μL,5U/μl KOD DNA聚合酶0.2μL,H2O 5.8μL,总体积10μL。
反应条件如表1所示,采用慢降温三步法热循环。
表1正向单链特异线性扩增反应条件
3.正向单链特异线性扩增产物纯化
在正向单链特异线性扩增产物的反应管中加入常用建库纯化磁珠,按常规二代测序建库纯化说明书操作,对正向单链特异线性扩增产物进行纯化。
4.反向单端特异指数扩增反应
对上述经磁珠纯化后的产物进行反向单端特异指数扩增反应,反应所用引物对如下:
反向引物EGFR EXON20-49bp-R:
GACTGGAGTTCCTTGGCACCCGAGAATTCCA-GCAGCCGAAGGGCATGAG(SEQ ID NO:2)
P5公共接头引物:
AATGATACGGCGACCACCGAGATCTACAC-TCTTTCCC-TACACGACGCTCTTCCGATCT(SEQ IDNO:3)
扩增反应体系同步骤2。反应条件为:先采用慢降温三步法热循环,见表1,其中循环数为5~6个;再采用两步法热循环,95℃变性,68℃退火延伸,20个循环。
5.反向单端特异指数扩增产物纯化
使用常用建库纯化磁珠,按常规二代测序建库纯化说明书操作,对步骤4所得单端特异指数扩增产物进行纯化。
6.双端非特异指数扩增反应
以步骤5所得纯化产物为模板,用illumina二代测序体系的双端公共接头引物对(5μM,各1μl)进行指数扩增反应。其中,
P5公共接头引物的序列为:
AATGATACGGCGACCACCGAGATCTACAC-TCTTTCCC-TACACGACGCTCTTCCGATCT(SEQ IDNO:3)
P7公共接头引物的序列为:
CAAGCAGAAGACGGCATACGAGATTACAGACGGTGACTG-GAGTTCCTTGGCACCCGAGA(SEQ IDNO:4)
扩增反应体系同步骤2,反应条件为常规三步法循环(95℃变性,58℃退火,68℃延伸),循环数为20个。
7.双端非特异指数扩增纯化、定量质检、测序
对上述步骤6的双端非特异指数扩增产物按常规方法进行磁珠纯化,磁珠与扩增产物的体积比为1.5:1。然后进行定量质检(使用常规QBIT检测仪定量,按仪器和定量检测试剂的说明书进行操作),定量超过10ng即为合格,送illumina NEXT SEQ500测序仪进行二代测序。
8.结果分析
二代测序获得200000reads。对所得数据进行溯源分析,判断突变基因的有无、类型和数量。
具体分析步骤为:1)用常规方法进行不同靶标基因数据分选,形成多个子数据。2)分别对子数据进行随机8位分子编码排序,设每个独立分子编码为一个分子族,并统计分子族数,计算分子族内的reads。3)分子族有效性判别:一个分子族内的reads数小于预设数(预设数>5,本实施例将预设数设定为6),判为无效;大于或等于预设数,判别为有效。4)分别对分子族内reads进行参考序列的比对分析,记录,统计错配reads和非错配reads,然后判别分子族是否为野生型,如果非错配reads数>0,则判为野生型族;如果非错配reads数为0,则继续进行突变型分子族的判别。5)突变型分子族的判别:如果分子族内reads与参比序列比对,突变位点和基因型的一致性〉90%,判别为真实突变型;否则判别为野生型。6)溯源统计,按下式计算突变比例:溯源分子突变比例=突变型分子族数/(突变型分子族数+野生型分子族数)。
表2为采用随机分子编码PCR建库(本发明实施例1)与不采用分子编码PCR建库(即采用常规的扩增子建库),在EGFR EXON20基因的二代测序结果上的差异比较。
表2两种建库方法EGFR EXON20基因二代测序结果比较
由表2可见,对于一个完全正常的DNA样品,不采用编码PCR建库,即使用常规的扩增子建库,二代测序结果中,突变比例多数在1%水平以上。而本发明实施例编码PCR建库二代测序的结果,突变比例极少在0.5%水平,绝大多数在0.02%水平以下;按60个位点计,除20、26、35、41位外,其他位点的突变比例为0,即90%以上位点正常基因的突变为零,显示了本发明的随机分子编码PCR建库二代测序方法比普通扩增子建库二代测序方法有更强的误差消除作用。此外,从表2可以估算出本实施例采用随机分子编码PCR建库二代测序的初始DNA分子数检出占比约为48%。
上述初始DNA分子数检出占比的计算,已经考虑了线性多循环扩增中的重复检出(以下简称重检)问题。具体估算方法如下:
1、样品初始DNA分子数=DNA质量(ng)×1000/3.3。(1个人类DNA拷贝数=3.3pg)
2、线性扩增单个循环合成的分子数=线性扩增累计循环合成的总分子族数/线性循环数;
3、每轮循环的累计非重检分子数=上一循环的累计非重检分子数+本轮循环线性扩增合成的分子数×(1-本轮循环的重复检出占比)
4、每轮循环的累计非重检分子占比=本轮循环的累计非重检分子数/样品初始DNA分子数
5、每轮循环的重复检出占比=上一循环的累计非重检分子占比
以本实施例为例,
样品初始DNA分子数=24.75×1000/3.3=7500个人类DNA拷贝;
8个线性扩增累计循环合成的总分子族数为4784(代表检测的溯源分子数),则线性扩增单个循环合成的分子数=4784/8=598;
每轮循环的累计非重检分子数、累计非重检分子占比、重复检出占比的计算参见表3所示,经过8个循环线性扩增之后,累计非重检分子占比为48.56%(即第8轮循环的累计非重检分子占比,亦即估算的初始DNA分子数检出占比)
表3
实施例2肿瘤患者样品外周血血浆基因EGFR EXON18、EGFR EXON19、EGFR EXON20多重突变检测
1.样本DNA提取
取适量的受检者外周血血浆3~5ml,用游离DNA提取试剂盒(DK607-01,由上海莱枫生物科技有限公司提供)提取其游离基因组DNA。
2.正向单链特异线性扩增反应
正向引物序列如下:
EGFR EXON20-55bp-F:
TACACGACGCTCTTCCGATCTNNNNTAAAATNNNNTAGGAAGCCTACGTGATGGC(SEQ ID NO:7)
EGFR EXON18-59bp-F:
TACACGACGCTCTTCCGATCTNNNNTAAAATNNNNGAGATCTTGAAGGAAACTGAATTC(SEQ IDNO:8)
EGFR EXON19-58bp-F:
TACACGACGCTCTTCCGATCTNNNNTAAAATNNNNGAAAGTTAAAATTCCCGTCGCTA(SEQ ID NO:9)
正向单链特异线性扩增反应体系为:5×PCR缓冲液2μL,10mM dNTP 0.5μL,DNA模板1μL(含33ng DNA),5μM引物1μL,5U/μl KOD DNA聚合酶0.2μL,H2O 5.8μL,总体积10μL。
反应条件同实施例1。
3.正向单链特异线性扩增产物纯化
在正向单链特异线性扩增产物的反应管中加入常用建库纯化磁珠,按常规二代测序建库纯化说明书操作,对正向单链特异线性扩增产物进行纯化。
4.反向单端特异指数扩增反应
对上述经磁珠纯化后的产物进行反向单端特异指数扩增反应,反应所用引物组如下:
反向引物:
EGFR EXON20-49bp-R:
GACTGGAGTTCCTTGGCACCCGAGAATTCCA-GCAGCCGAAGGGCATGAG(SEQ ID NO:2)
EGFR EXON18-55bp-R:
GACTGGAGTTCCTTGGCACCCGAGAATTCCA-CAGGGACCTTACCTTATACACCGT(SEQ ID NO:10)
EGFR EXON19-54bp-R:
GACTGGAGTTCCTTGGCACCCGAGAATTCCA-CAGCAAAGCAGAAACTCACATCG(SEQ ID NO:11)
P5公共接头引物:
AATGATACGGCGACCACCGAGATCTACAC-TCTTTCCC-TACACGACGCTCTTCCGATCT(SEQ IDNO:3)
扩增反应体系和反应条件同实施例1。
5.单端特异指数扩增产物纯化
使用常用建库纯化磁珠,按常规二代测序建库纯化说明书操作,对步骤4所得单端特异指数扩增产物进行纯化。
6.双端非特异指数扩增反应
以步骤5所得纯化产物为模板,用illumina二代测序体系的双端公共接头引物对(5μM,各1μl)进行指数扩增反应。其中,
P5公共接头引物的序列为:
AATGATACGGCGACCACCGAGATCTACAC-TCTTTCCC-TACACGACGCTCTTCCGATCT(SEQ IDNO:3)
P7公共接头引物的序列为:
CAAGCAGAAGACGGCATACGAGATTACAGACGGTGACTG-GAGTTCCTTGGCACCCGAGA(SEQ IDNO:4)
扩增反应体系和反应条件同实施例1,循环数为15个。
7.双端非特异指数扩增纯化、定量质检、测序
对上述步骤6的双端非特异指数扩增产物按常规方法进行磁珠纯化,并进行定量质检(使用常规QBIT检测仪定量,按仪器和定量检测试剂的说明书进行操作),定量超过10ng即为合格,送illumina NEXT SEQ500测序仪进行二代测序。
8.结果分析
二代测序获得1695790reads。对所得数据进行溯源分析,判断突变基因的有无、类型和数量。具体分析步骤同实施例1。
表4为本发明实施例2采用分子编码PCR建库对EGFR EXON18、EGFR EXON19、EGFREXON20基因的二代测序结果。
表4血浆ctDNA实测结果
由表4可见,对于一个肿瘤患者的DNA样品,应用本发明实施例2的编码PCR二代测序建库方法,能检出0.1%水平以上的突变型。DNA分子非重复检出占比的估算方法同实施例1。
序列表
<110> 上海基致生物医药科技有限公司
<120> 编码PCR二代测序建库方法、试剂盒及检测方法
<130> CPC-NP-16-100362
<160> 11
<170> PatentIn version 3.3
<210> 1
<211> 55
<212> DNA
<213> 人工序列
<220>
<221> misc_feature
<223> 引物
<400> 1
tacacgacgc tcttccgatc tnnnnatttt annnntagga agcctacgtg atggc 55
<210> 2
<211> 49
<212> DNA
<213> 人工序列
<220>
<221> misc_feature
<223> 引物
<400> 2
gactggagtt ccttggcacc cgagaattcc agcagccgaa gggcatgag 49
<210> 3
<211> 58
<212> DNA
<213> 人工序列
<220>
<221> misc_feature
<223> 引物
<400> 3
aatgatacgg cgaccaccga gatctacact ctttccctac acgacgctct tccgatct 58
<210> 4
<211> 59
<212> DNA
<213> 人工序列
<220>
<221> misc_feature
<223> 引物
<400> 4
caagcagaag acggcatacg agattacaga cggtgactgg agttccttgg cacccgaga 59
<210> 5
<211> 30
<212> DNA
<213> 人工序列
<220>
<221> misc_feature
<223> 引物
<400> 5
ccatctcatc cctgcgtgtc tccgactcag 30
<210> 6
<211> 23
<212> DNA
<213> 人工序列
<220>
<221> misc_feature
<223> 引物
<400> 6
cctctctatg ggcagtcggt gat 23
<210> 7
<211> 55
<212> DNA
<213> 人工序列
<220>
<221> misc_feature
<223> 引物
<400> 7
tacacgacgc tcttccgatc tnnnntaaaa tnnnntagga agcctacgtg atggc 55
<210> 8
<211> 59
<212> DNA
<213> 人工序列
<220>
<221> misc_feature
<223> 引物
<400> 8
tacacgacgc tcttccgatc tnnnntaaaa tnnnngagat cttgaaggaa actgaattc 59
<210> 9
<211> 58
<212> DNA
<213> 人工序列
<220>
<221> misc_feature
<223> 引物
<400> 9
tacacgacgc tcttccgatc tnnnntaaaa tnnnngaaag ttaaaattcc cgtcgcta 58
<210> 10
<211> 55
<212> DNA
<213> 人工序列
<220>
<221> misc_feature
<223> 引物
<400> 10
gactggagtt ccttggcacc cgagaattcc acagggacct taccttatac accgt 55
<210> 11
<211> 54
<212> DNA
<213> 人工序列
<220>
<221> misc_feature
<223> 引物
<400> 11
gactggagtt ccttggcacc cgagaattcc acagcaaagc agaaactcac atcg 54