CN105256030B

CN105256030B - 一种基于两核苷酸合成焦测序寻找新突变/snp位点的方法

Info

Publication number: CN105256030B
Application number: CN201510690927.7A
Authority: CN
Inventors: 肖鹏峰; 殷豪景; 唐健
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2015-10-22
Filing date: 2015-10-22
Publication date: 2018-05-15
Anticipated expiration: 2035-10-22
Also published as: CN105256030A

Abstract

本发明公开了一种基于两核苷酸合成焦测序寻找新突变/SNP位点的方法，该方法将一个已知序列样本和一个混合样本的基因组DNA分别进行PCR，并将获得的单链PCR产物按照特定的两核苷酸加入方法进行焦测序，每个样本得到两组两核苷酸合成焦测序信息、并进行校正；将两组校正后的混合样本测序信息和已知序列样本分别进行比较，如果混合样本的测序信息和已知序列样本的测序信息两组信息均无变化，则表明混合样本与已知序列样本测序信息一致，无新突变/SNP位点；如果混合样本的测序信息和已知序列样本的测序信息两组信息中至少存在一组信息不同，则表明混合样本与已知序列样本测序信息不完全一致，表明有新突变/SNP位点存在。

Description

一种基于两核苷酸合成焦测序寻找新突变/SNP位点的方法

技术领域

本发明属于生物技术领域，是一种PCR产物序列分析方法，具体涉及一种通过特定核苷酸加入的实施合成焦测序，从混合样本中发现新突变/SNP位点的方法。

背景技术

人类基因组计划和各种模式生物基因组计划的开展和完成，使人类步入了后基因时代，对当代的生物学研究和医学研究产生了巨大的影响，分子生物学相关学科得到了迅猛的发展。从基因水平上认识生命的差异，疾病发生、发展的规律，以及药物与生命体的相互作用将成为可能。在诸多基因变异中，点突变/SNP是研究基因遗传与变异时一种高效的量化标志。点突变/SNP既与单基因遗传病相关，也可能与多基因遗传病相关。目前已经确定4000多种遗传疾病是由单碱基突变引起的，而一些重大疾病如癌症、糖尿病、心血管疾病、抑郁症、哮喘等，是受众多基因以及环境因子共同作用，通过对于大量某一特定疾病的基因组样本中突变基因型进行大规模鉴定和检测，可以获得有关与该疾病相关基因型的信息。新突变/SNP的寻找与发现对于研究疾病基因的遗传规律，获得与该疾病相关基因型的信息有着十分重要的意义。如人类基因组单体型图计划(HapMap Project)的实施启动了在整个基因组范围内寻找SNP位点的项目。目前普遍的方法主要通过高通量测序，或者DNA芯片等来实施。这些高通量DNA检测技术可以大规模的并行进行，甚至可以实现整个基因组的全面覆盖。然而，这些优点也伴随着一些劣势，比如相当大的一笔投资、试剂昂贵、周转时间长、数据分析要求高等，同时也伴随着低丰度信息的丢失。这些特点使得高通量DNA测序技术更适用于在基因组范围内目标区域的确定，而对于常规的PCR产物中可能出现的新突变/SNP位点的筛查工作如果采用高通量DNA测序技术进行分析，则成本就会过于巨大。

传统的焦磷酸测序技术能够对DNA模板实施定量检测，然而对于PCR产物中含有两个DNA模板的样本而言，焦磷酸测序信息往往随加入核苷酸的顺序不同而不同；同时，包含新突变/SNP位点的DNA模板的丰度一般均比较低，检测信号会被高丰度正常DNA模板掩盖，而不容易被发现。2011年，Lin等人(Nucleic Acids Research,2011,39(5),e28)利用传统的焦测序技术，提出一种寻找新突变/SNP的方法。然而，这种方式将新突变/SNP的测序信息“没有规律”的分散在高丰度正常DNA模板测序信息中，仍然不容易被发现。根据我们以前提出一种基于两核苷酸实时合成测序的方法(肖鹏峰等，中国发明专利：ZL 2012 10128597.6)，它有将增加测序的阅读长度和信号放大提高检测限的特点；此外，它还能够通过不同的两核苷酸组合来实施测序而对同一分析对象得到不同的测序信息，提供更多的测序信息用于序列特征分析。本发明依据两核苷酸合成焦测序的特点，将一个已知序列样本和一个混合样本的测序信息进行比较，从而实现对新突变/SNP的寻找。

发明内容

发明目的：为了克服现有技术中存在的不足，本发明提供一种基于两核苷酸合成焦测序寻找新突变/SNP的方法，为从混合样本的PCR产物提供一种快速、高效、灵敏的新突变/SNP寻找方法。

技术方案：为实现上述目的，本发明采用的技术方案为：

一种基于两核苷酸合成焦测序寻找新突变/SNP位点的方法，该方法包括如下步骤：

(1)分别提取标准样本的DNA和混合样本的DNA；

(2)分别以标准样本的DNA和混合样本的DNA为模板进行PCR扩增，得到PCR产物；

(3)对步骤(2)得到的PCR产物进行测序，每个样本至少进行两组包含四个核苷酸的两核苷酸合成焦测序，两核苷酸的形式合包括：(dATPαS+dGTP)、(dATPαS+dCTP)、(dATPαS+dTTP)、(dCTP+dGTP)、(dCTP+dTTP)、(dGTP+dTTP)，得到混和样本和标准样本的测序信息；

(4)对混和样本和标准样本的测序信息进行校正，再进行关联分析。

步骤(3)的具体方法如下：

(3-1)制备单链DNA模板：将PCR扩增产物与链霉亲和素包裹的磁珠反应，生物素修饰的DNA链固定到所述磁珠上，在0.05～0.2M NaOH溶液中变性；将未固定的另一条DNA链清除；得到固定的单链DNA模板；

(3-2)测序引物杂交：将测序引物与固定的单链DNA模板在杂交反应体系中，70～80℃下放置5～10min，自然冷却至室温，得到杂交产物；

(3-3)测序：配备测序反应体系，与所述步骤(3-2)得到的杂交产物混合，焦测序反应按照两核苷酸顺序加入方式合成进行。

步骤(3-2)中，所述测序引物是与固定在磁珠上的单链DNA模板完全互补未标记PCR引物序列中3’末端至少缺失一个碱基的序列，保障混合样本第一个测序信息来自确定碱基。

步骤(3)中，两核苷酸参与的每个测序反应获得的测序信息包括两个核苷酸的类型、测序信号强度，所述测序信号强度与合成核苷酸数目成正比，即每个测序反应的测序信号强度可以用峰高表示，也可以用通过转化的核苷酸合成的数目表示，可以包括正整数和零，也可以是正非整数。

步骤(4)中，对步骤(3)得到标准样本和混合样本的至少两组两核苷酸合成焦测序信息进行校正，所述的校正是对标准样本和分析样本的焦测序信息进行除法或减法运算；

步骤(4)中，所述关联分析为：将两核苷酸加入相同测序条件的标准样本和混合样本的焦测序信息进行比较，得到至少两组标准样本和混合样本的比较数值，所述比较是指依次对标准样本和分析样本的焦测序信息进行除法或减法运算；

如果标准样本和分析样本的焦测序信息比较的结果完全一致，即在误差范围内除法运算中相应峰高的比值均为1，或减法运算中相应峰高的值均为0，则表明混合样本与已知序列样本测序信息一致，无新突变/SNP位点；

如果标准样本和分析样本的焦测序信息中至少存在一组信息不同，即在误差范围内除法运算中相应峰高的比值至少有一个不等于1，或减法运算中相应峰高的值至少有一个不等于0，则表明有新突变/SNP位点存在，根据两个样本的不同测序信息，推出具体的突变/SNP信息。

进一步，所描述的标准样本包括序列已知的DNA单模板样本，或者序列和组成已知的DNA多模板样本。

进一步，所描述的两核苷酸合成焦测序信息的校正，通过测序引物合成标准样本和混合样本中共有的已知序列，即与未修饰PCR引物序列中3’末端的一个或者若干个碱基完全互补，而获得至少一个测序信息为基准峰，以之调整因标准样本和混合样本总DNA模板量不一致产生的信号强度不一致。

步骤(2)中，所述PCR扩增用的一条引物的5’端被生物素、氨基或者丙烯酰胺基团修饰。

有益效果：本发明提供的一种基于两核苷酸合成焦测序寻找新突变/SNP位点的方法。该方法通过比较混合样本和已知序列样本的测序信息两组信息；根据两个样本的不同测序信息，推断是否有新突变/SNP、且确定出具体的突变/SNP信息。

本发明与传统焦测序相比，具有如下有益效果：

1)本发明适合多个混合样本的多模板PCR产物分析。相对于传统的焦测序分析方法，本发明能够大幅度提高DNA序列的测定长度，拓宽了寻找新突变/SNP位点的分析范围。

2)本发明可以直接确定出具体的突变/SNP信息、且能测定混合样本中各个DNA模板的比例，可以用于从大规模样本中寻找、筛选核酸标志物。

3)本发明直接采用商品化、非标记的天然核苷酸进行合成测序，它可以在现有任何基于实时合成测序的测序平台进行。

附图说明

图1为本发明一种基于两核苷酸合成焦测序寻找新突变/SNP位点的方法实验流程示意。血液、组织、唾液、尿液、粪便等均可作为样本来源，其中标准样本待测序的DNA片段序列事先经过实验确认。

具体实施方式

根据下述实施例，可以更好地理解本发明。然而，本领域的技术人员容易理解，实施例所描述的内容仅用于说明本发明，而不应当也不会限制权利要求书中所详细描述的本发明。

实施例1：

1)基因组DNA提取：根据样本的来源，选择成熟的实验步骤，分别从标准样本和混合样本中提取基因组DNA。

2)PCR：设计一对PCR引物、其中一条引物5’用生物素修饰，并扩增出待测序片段。

3)测序：将标准样本和混合样本PCR扩增产物分别平均分成两份、与链霉亲和素修饰的磁珠反应，制备出单链DNA模板；将测序引物与单链DNA模板完成杂交，进行特定的两核苷酸合成焦测序。

4)关联分析：对两核苷酸合成焦测序信息进行校正，通过对两组校正后的混合样本测序信息和已知序列样本分别进行除法、减法等运算，找出信息不同之处，并推导出具体的碱基变化信息。

以下以任意拟定的一段序列DNA1SEQ ID NO：1(其中设置为用于校正的基准峰碱基，在实际的分析中为未修饰PCR引物3’末端的互补碱基)作为标准样本的PCR产物，以及假定DNA1中某个碱基发生含量为x突变作为混合样本的PCR产物(含量(1-x)的DNA 1+含量x的DNA 2)来进行进一步说明测序和关联分析。

①测序：假定对标准样本和混合样本进行两核苷酸合成(dATPαS+dGTP)/(dCTP+dTTP)，(dATPαS+dTTP)/(dCTP+dGTP)焦测序分别得到表1和表2的测序信息：

表1(dATPαS+dGTP)/(dCTP+dTTP)循环焦测序结果

测序反应	1	2	3	4	5	6	7	8	9	10	11	12	13	14
															反应核苷酸	AG	CT	AG	CT	AG	CT	AG	CT	AG	CT	AG	CT	AG	CT
标准样本	1	1	2	1	2	5	2	1	1	2	2	3	2	2
															混合样本	1	1	2	1	2-x	5+x	2	1	1	2	2	3	2	2

表1中，第一行数字表示该循环焦测序进行到的测序反应；第二行中AG表示(dATPαS+dGTP)，CT表示(dCTP+dTTP)；第三、四行中的数字表示对应测序反应产生的测序信息转化为核苷酸的数目。

表2(dATPαS+dTTP)/(dCTP+dGTP)循环焦测序结果

测序反应	1	2	3	4	5	6	7	8	9	10	11	12	13	14	15	16	17	18	19
																				反应核苷酸	AT	CG	AT	CG	AT	CG	AT	CG	AT	CG	AT	CG	AT	CG	AT	CG	AT	CG	AT
标准样本	1	1	2	1	2	1	1	2	3	1	1	1	3	1	1	1	2	1	1
																				混合样本	1	1	2	1	2-_x	1+x	1	2	3	1	1	1	3	1	1	1	2	1	1

②测序信息校正：由于第一个测序碱基T设置为标准样本和混合样本总DNA模板共有的碱基，根据该碱基的测序信息，以标准样本的测序信息为依据，依次对混合样本的测序信息进行校正并分别用第一个基准峰进行数据校正(如当标准样本这个基准峰数值为2，而混合样本的这个基准峰数值为1时，混合样本的每个测序信息均为相应标准样本测序信息的2倍)

③关联：校正后的混合样本测序信息和已知序列样本分别进行减法运算得到表3、表4的关联信息。从表3中可以发现第5、6个测序信息有变化，而从表4中也可以发现第5、6个测序信息有变化，说明混合样本中除了标准样本的模板DNA1外，还存在由DNA1变化而来的模板DNA2。

表3混合样本和标准样本(dATPαS+dGTP)/(dCTP+dTTP)循环焦测序信息关联

表4混合样本和标准样本(dATPαS+dTTP)/(dCTP+dGTP)循环焦测序信息关联

④突变/SNP碱基的推导：由表3中可以发现第5、6个测序信息变化分别为(AG)^-x，(CT)^x；而从表4中也可以发现第5、6个测序信息变化分别为(AT)^-x，(CG)^x有变化。由于(dATPαS+dGTP)/(dCTP+dTTP)、(dATPαS+dTTP)/(dCTP+dGTP)两次测序测得是相同的DNA模板，突变/SNP碱基相同，可以推导出在混合样本中用于测序的核苷酸有x量的dATP用dCTP替代(参见图1)，表明混合样本中互补模板序列中有x量的T碱基被突变成G碱基，因而混合样本中含有下列两条DNA模板：

含量为(1-x)的DNA1(SEQ ID NO：1)：

含量为x的DNA 2(SEQ ID NO：2：(下划线字、黑斜体字母标示“变化”碱基，即为找出的新突变/SNP位点)。

另外，当使用(dATPαS+dCTP)/(dGTP+dTTP)与(dATPαS+dTTP)/(dCTP+dGTP)(dATPαS+dGTP)/(dCTP+dTTP)、(dATPαS+dTTP)/(dCTP+dGTP)其中的一组进行两组测序时，(dATPαS+dCTP)/(dGTP+dTTP)焦测序校正后的混合样本测序信息和已知序列样本分别进行减法运算其对应的数值均为0，表明这组信息没有差别；但根据(dATPαS+dTTP)/(dCTP+dGTP)或者(dATPαS+dGTP)/(dCTP+dTTP)一组的差别仍然可以推导出突变/SNP碱基：如从(dATPαS+dGTP)/(dCTP+dTTP)从测序信息中找出差别为：(AG)^-x、(CT)^x，而获得第一个变化的(AG)^-x测序信息对应(dATPαS+dTTP)/(dCTP+dGTP)测序信息的(AC)⁰，且A正好是标准序列测序需要合成的核苷酸，因此，同样可以推知A＝-x、C＝x。

实施例2：

从人样本UGT1A1基因一段序列中寻找新突变/SNP的方法，具体方法包括：

(1)选择一个序列信息确认的单人血样本为标准样本、100个不同人的血液混合样本为分析样本；

(2)采用传统的蛋白激酶K与苯酚/氯仿抽提法提取外周血中的基因组DNA；

(3)PCR扩增：PCR引物1：5’-biotin-CCCTGCTACCTTTGTGGACT-3’(SEQ ID NO：3)，PCR引物2 5’-CATTA TGCCCGAGACTAACAAA-3’(SEQ ID NO：4)与200ng基因组DNA，0.2mMdNTP，1U Taq DNA聚合酶,1×扩增缓冲液,1.8mM MgCl₂的50μL PCR扩增体系进行扩增，扩增条件为：95℃起始变性5min；40个热循环为：94℃变性30s、57℃退火45s、72℃延伸45s；最后72℃延伸7min。每个样本分别扩增两管、并分别作下列(4)～(7)步骤的操作；

(4)PCR扩增产物与链霉亲和素修饰的磁珠反应，使修饰生物素的DNA链固定到磁珠上，在0.1M NaOH溶液下变性，将未固定的另一条DNA链清除；然后用洗液(10mM Tris-Acetate,pH 7.6)洗涤，得到固定的单链DNA模板；

(5)将测序引物5’-CATTATGCCCGAGACTAA与磁珠固定的其中一份单链DNA模板模板在反应体系(10mM Tris-HCl,2M NaCl,1mM EDTA(乙二胺四乙酸钠),0.1％Tween 20,pH7.6)80℃下杂交5min，然后自然冷却至室温，完成杂交；

(6)焦测序反应体系包括0.1M Tris-Ac(pH 7.7),2mM EDTA(乙二胺四乙酸钠),10mM Mg(Ac)₂,0.2％BSA(小牛血清蛋白),10mM DTT(二巯苏糖醇),10mM APS(磷酰硫酸腺),0.4mg/mL PVP(聚乙烯吡咯烷酮),4mM D-luciferin(虫荧光素),2U/mL ATPsulfurylase(三磷酸腺苷硫酸化酶),0.4mM luciferase(荧光素酶),2U/mL apyrase VII(三磷酸腺苷双磷酸酶VII),2U/mL DNA聚合酶I(Klenow fragment,exo–)；焦测序反应体系与上述(5)杂交产物混合用于测序反应；

(7)将上述(6)的反应体系置于焦测序仪(PSQ 96MA system(Biotage AB,Uppsala,Sweden))中，分别对标准样本和混合样本进行(dATPαS+dGTP)/(dCTP+dTTP)、(dCTP+dGTP)/(dATPαS+dTTP)焦测序，得到由按照先后顺序排列的单个测序反应的测序信息。其中，(dATPαS+dGTP)/(dCTP+dTTP)第一个测序反应对DNA模板第一个碱基C测序信息为(dATPαS+dGTP)/(dCTP+dTTP)测序的基准峰；(dCTP+dGTP)/(dATPαS+dTTP)第一个测序反应对DNA模板第一个碱基C测序信息为(dCTP+dGTP)/(dATPαS+dTTP)测序的基准峰；

(8)参照图1，将两组校正后的混合样本测序信息和已知序列样本分别进行比较，如果混合样本的测序信息和已知序列样本的测序信息两组信息均无变化，则表明混合样本与已知序列样本测序信息一致，无新突变/SNP位点；如果混合样本的测序信息和已知序列样本的测序信息两组信息中至少存在一组信息不同，则表明混合样本与已知序列样本测序信息不完全一致，表明有新突变/SNP位点存在；根据两个样本的不同测序信息，推出具体的突变/SNP信息。

Claims

1.一种用于非诊断目的的基于两核苷酸合成焦测序寻找新突变/SNP位点的方法，其特征在于，该方法包括如下步骤：

(1)分别提取标准样本的DNA和混合样本的DNA；

(4)对混和样本和标准样本的测序信息进行校正，再进行关联分析；

如果标准样本和分析样本的焦测序信息中至少存在一组信息不同，即在误差范围内除法运算中相应峰高的比值至少有一个不等于1，或减法运算中相应峰高的值至少有一个不等于0，则表明有新突变/SNP位点存在，根据两个样本的不同测序信息，推出具体的突变/SNP信息，其中，

所述的基于两核苷酸合成焦测序寻找新突变/SNP位点的方法，其特征在于，步骤(3)的具体方法如下：

(3-3)测序：配备测序反应体系，与所述步骤(3-2)得到的杂交产物混合，焦测序反应按照两核苷酸顺序加入方式合成进行；步骤(3-2)中，所述测序引物是与固定在磁珠上的单链DNA模板完全互补未标记PCR引物序列中3’末端至少缺失一个碱基的序列，保障混合样本第一个测序信息来自确定碱基；步骤(3)中，两核苷酸参与的每个测序反应获得的测序信息包括两个核苷酸的类型、测序信号强度，所述测序信号强度与合成核苷酸数目成正比，即每个测序反应的测序信号强度用峰高表示或者用转化的核苷酸合成的数目表示，测序信号强度的数值为正整数和零或者正非整数；

所描述的标准样本包括序列已知的DNA单模板样本，或者序列和组成已知的DNA多模板样本；所描述的两核苷酸合成焦测序信息的校正，通过测序引物合成标准样本和混合样本中共有的已知序列，即与未修饰PCR引物序列中3’末端的一个或者若干个碱基完全互补，而获得至少一个测序信息为基准峰，以之调整因标准样本和混合样本总DNA模板量不一致产生的信号强度不一致；步骤(2)中，所述PCR扩增用的一条引物的5’端被生物素、氨基或者丙烯酰胺基团修饰。