CYP450基因型别数据库及基因分型、酶活性鉴定方法
技术领域
本发明涉及基因检测领域,特别涉及一种CYP450的标准基因型别数据库,以及CYP450基因分型方法、酶活性鉴定方法。
背景技术
细胞色素P450简称CYP450,目前已经从人体中鉴定出了57种CYP450氧化酶,其中参与药物代谢主要集中于CYP1、CYP2及CYP3家族,参与代谢目前90%以上的药物。CYP450在药物代谢中的重要作用导致CYP450基因多态性成为影响药物个体差异的最重要因素之一,其多态性包括点突变、插入或缺失、整个基因的缺失或复制,最终导致酶的活性增强、减弱或完全缺失。CYP450多态性可导致在标准的药物剂量下可能产生个体严重的副反应或不起作用。比如,华法林(warfarin)作为目前的一线口服抗凝药,其预防和治疗血栓栓塞的作用效果和口服给药的便利性和经济性是显而易见的,但是华法林治疗窗口很窄,且给药各个体差异和种族差异很大,要达到同样的作用效果,高低剂量可相差10倍以上。研究表明,这与个体间的CYP2C9的基因多态性密切相关。再如,广泛用于治疗乳腺癌和卵巢癌的他莫昔芬(tamoxifen)需要经过一系列的CYP450酶类代谢,才最终形成有活性的产物发挥治疗效果,其中CYP2D6的基因型是影响他莫昔芬疗效的主要限制因素,其缺陷型可导致无病生存期变短,而CYP2D6强代谢型只需要较小剂量的他莫昔芬即可达到同样的效果。
越来越多的研究显示,CYP450基因除了影响药物代谢外,其基因多态性与许多疾病的发生紧密相关。在先天性肾上腺皮质增生症中,CYP21B基因缺陷占病因90%-95%左右,CYP11B1基因突变约占5%,CYP17A1、CYP11A1的缺陷型突变也可导致此疾病的发生。
CYP450在代谢以及疾病发生中的重要作用,使得CYP450基因多态性的检测具有非常重要的社会意义和研究价值。
但是,目前对于CYP450突变检测的技术主要集中于单个或几个P450基因的已知突变;并且,各研究中的突变位点都是相对各自特定的序列而言的,彼此之间缺乏统一衡量比较的标准。另外,现有的CYP450检测方法对CYP450基因中仍然存在的未知突变位点检测效率不高;需要对大量样本进行检测时,耗时长,不能很好的满足研究和实践应用的需要。
发明内容
本发明的目的是提供一种CYP450基因型别的标准数据库及其构建方法,以及基于该数据库的快速检测CYP450基因型的方法和CYP450酶活性鉴定方法。
为实现上述目的,本发明采用了以下技术方案:
本发明公开了一种构建CYP450基因标准型别数据库的方法,包括以下步骤:将CYP450基因型别的突变信息对应的特定序列与人类全基因组标准序列进行比对,获得CYP450特定序列与人类全基因组标准序列在每个碱基位置上的对应关系;根据所获得的对应关系,将CYP450基因型转换成以人类全基因组标准序列为参考序列的基因型,获得CYP450基因的标准化基因型别。
优选的,CYP450基因包括选自CYP11A1、CYP11B1、CYP11B2、CYP17A1、CYP1A1、CYP1A2、CYP1B1、CYP20A1、CYP21A2、CYP24A1、CYP26A1、CYP26B1、CYP26C1、CYP27A1、CYP27B1、CYP27C1、CYP2A13、CYP2A6、CYP2A7、CYP2B6、CYP2C18、CYP2C19、CYP2C8、CYP2C9、CYP2D6、CYP2E1、CYP2F1、CYP2J2、CYP2R1、CYP2S1、CYP2U1、CYP2W1、CYP39A1、CYP3A4、CYP3A43、CYP3A5、CYP3A7、CYP46A1、CYP4A11、CYP4A22、CYP4B1、CYP4F11、CYP4F12、CYP4F2、CYP4F22、CYP4F3、CYP4F8、CYP4V2、CYP4X1、CYP4Z1、CYP51A1、CYP5A1、CYP7A1、CYP7B1、CYP8A1、CYP8B1、POR等58个人类CYP450基因的至少一种;
进一步的,还包括步骤,将CYP450基因定位于人类全基因组标准序列上,确定CYP450基因编码序列的起始位置和终止位置,获得CYP450基因型别突变信息对应的特定序列;
优选的,所述CYP450基因型别突变信息对应的特定序列包含CYP450基因编码序列的起始位置上游5000bp至编码序列终止位置下游500bp区域的DNA片段;
优选的,所述人类全基因组标准序列为hg19。
本发明另一方面,还公开了采用本发明的方法构建的CYP450基因标准型别数据库。
优选的,CYP450基因型别标准数据库中,CYP450基因的各标准化基因型别对应有酶活性信息;CYP450基因包括以下58个人类CYP450基因的至少一种。
表1人类CYP450基因
CYP11A1 |
CYP27B1 |
CYP2S1 |
CYP4F22 |
CYP11B1 |
CYP27C1 |
CYP2U1 |
CYP4F3 |
CYP11B2 |
CYP2A13 |
CYP2W1 |
CYP4F8 |
CYP17A1 |
CYP2A6 |
CYP39A1 |
CYP4V2 |
CYP19A1 |
CYP2A7 |
CYP3A4 |
CYP4X1 |
CYP1A1 |
CYP2B6 |
CYP3A43 |
CYP4Z1 |
CYP1A2 |
CYP2C18 |
CYP3A5 |
CYP51A1 |
CYP1B1 |
CYP2C19 |
CYP3A7 |
CYP5A1 |
CYP20A1 |
CYP2C8 |
CYP46A1 |
CYP7A1 |
CYP21A2 |
CYP2C9 |
CYP4A11 |
CYP7B1 |
CYP24A1 |
CYP2D6 |
CYP4A22 |
CYP8A1 |
CYP26A1 |
CYP2E1 |
CYP4B1 |
CYP8B1 |
CYP26B1 |
CYP2F1 |
CYP4F11 |
POR |
CYP26C1 |
CYP2J2 |
CYP4F12 |
|
CYP27A1 |
CYP2R1 |
CYP4F2 |
|
本发明的另一方面,公开了一种CYP450基因分型的方法,所述方法包括:获取待测样本CYP450基因的外显子序列,采用高通量测序平台测序并进行数据分析,将分析结果与本发明提供的CYP450基因型别数据库进行比较,从而得到待测样本的基因型别。
本发明的再一方面,公开了一种CYP450酶活性鉴定方法,所述方法包括:获取待测样本CYP450基因的外显子序列,采用高通量测序平台测序并进行数据分析,将分析结果与本发明提供的含有CYP450酶活性信息的CYP450基因型别标准数据库进行比较,得到待测样本的基因型别,并根据基因型别对应的酶活信息获得待测样本的CYP450酶活性结果。
本发明的实施方式中,获取待测样本CYP450基因外显子序列的过程包括:
A、制备能够捕获CYP450基因外显子序列的芯片,所述芯片上含有与CYP450基因外显子序列反向互补的寡核苷酸探针;
B、用待测样本的基因组DNA制备序列捕获文库,包括将待测样本基因组DNA打断为200~500bp大小的片段,进行末端处理后扩增得到序列捕获文库;
C、将步骤B制备得到的序列捕获文库与步骤A的芯片杂交,从而获取得到待测样本的CYP450基因外显子文库。
其中,芯片含有能分别与58个人类CYP450基因的所有外显子序列反向互补的寡核苷酸探针,寡核苷酸探针的长度为55-105bp;步骤B中,待测样本基因组DNA打断为200~300bp大小的片段。
进一步的,步骤B中,末端处理包括进行末端修复形成平末端磷酸化的DNA片段,并在平末端DNA的3’末端加上“A”碱基,并进一步连接标签。
更进一步的,步骤C中,杂交之前将来自多个不同待测样本的序列捕获文库混合后再同时与步骤A的芯片杂交,每个文库带有不同的Index碱基序列而相互区别,所述Index碱基序列长度优选为6~8bp。
本发明的实施方式中,测序后的数据分析包括:
i、过滤去掉影响信息分析的低质量测序序列,
ii、以人类全基因组标准序列为参考序列,将步骤i得到的序列用比对软件进行比对,比对软件优选用SOAP或BWA;
iii、选取比对到目标区域的序列进行后续分析,所述目标区域是指CYP450基因外显子序列所在区域;
iv、数据质控合格后进行变异分析,所述变异分析包括检测以下中的至少一种:单核苷酸多态性SNP、插入和删除INDEL、结构性变异SV、拷贝数变异CNV。
由于采用了以上技术方案,使本发明具备的有益效果在于:
本发明的CYP450基因分型方法为各CYP450基因分型提供了一个统一标准的数据库,对于已知基因型的CYP450基因,能够快速准确的给出相应基因型别信息,这对于涉及CYP450的疾病或药物等提供更精确的判断依据。通过在CYP450基因型别标准数据库中将基因型别对应有酶活性信息,从而在待测样本进行基因分型的同时,也可以直接得到样本对酶活性的反应情况。
本发明的CYP450基因分型检测方法,先获取所有CYP450基因的外显子序列后,再进行测序分析,与标准化数据库比对,能够有效的对CYP450基因中未知突变位点进行检测。
本发明利用芯片捕获具有高通量的性质,可以实现一次实验同时检测多达上百个样本,不仅提高了检测样本的数量,同时也大大降低了每个样本的检测费用。
本发明的CYP450基因分型检测方法,包含了目前人类中已经鉴定出的所有的57个CYP450氧化酶基因及1个P450还原酶基因的,覆盖范围全面广泛,极大的方便了专门针对CYP450基因的研究。
附图说明
图1为本发明一种实施例的外显子捕获文库构建流程图;
图2为本发明一种实施例的信息分析流程图。
具体实施方式
在本发明的一个具体的实施方式中,以目标区域经序列捕获后的高通量测序为基础,包括以下步骤:
一、CYP450基因型别标准化数据库的构建
在本发明的具体实施方式中,收集了CYP450全部功能基因,其中包含57个CYP450氧化酶基因和1个CYP450还原酶基因(见上文表1),通过BLAST(http://blast.ncbi.nlm.nih.gov/Blast.cgi)比对软件,以人类全基因组标准序列hg19为参考序列,将58个CYP450基因的所有基因型别序列与hg19参考序列比对,根据比对结果得到相对于hg19的突变位点信息,将CYP450基因的所有基因型别转换成统一的格式和标准。根据基因在全基因组上的注释信息,将基因型别转换为以hg19为标准的型别。具体包括以下步骤:
1.收集CYP450基因型别相关突变及酶活性信息
收集现有的58个CYP450基因的所有基因型别的突变信息和型别与酶活性相关信息。这些信息主要包括基因型别的名称、基因型别对应的蛋白质编号、基因型别与特定序列的突变信息、基因型别对应的酶在活体中的活性、基因型别对应的酶在体外试验中的活性、参考文献等。需要说明的是,本申请中所述“特定序列”,是指研究中所采用的作为参考的DNA序列片段或者一段cDNA序列。对收集的资料分析发现,每个型别的突变信息都是相对于其中一个特定序列给出的;也就是说,不同的研究资料中,58个CYP450基因其基因型别的参考对象不同,而针对不同的参考对象,同一个基因的不同基因型别也存在差异。对于不同资料上格式的不一致,需要改成统一的格式,以便后续的整理。
2.收集基因在特定序列上的CDS区域,及基因在hg19上的位置
在收集的资料中,很多基因型别突变信息是相对于给定的特定序列的,并且,突变位点信息是以1998公布的基因突变命名规则(Recommendations for anomenclature system for human gene mutations.Nomenclature Working Group)为标准的,以基因的CDS(编码序列)起始位置为+1的标准来给出突变位置的。所以为了后续的分析,需要找出所有基因在特定序列上的CDS起始位置。又因为特定序列非常的长,有些序列上包括了多个基因,所以要确定哪一段区域是我们需要的CYP450基因。我们是先找出CYP450基因在hg19上的位置,然后从CDS起始位置上游的5000bp到CDS终止位置下游的500bp作为CYP450基因的区域,但有些基因型别的突变位点离CDS区比较远,超出了上述的范围,对于这些基因,我们会把这个基因的区域定得更长一些,以囊括上述突变位点为原则。
3.BLAST比对
将特定序列与hg19进行BLAST比对。如果特定序列是cDNA,我们用BLAT进行比对。
4.确定特定序列与hg19的突变信息
在比对结果中,特定序列可能会比对上hg19的多个位置,选择比对最好的一个位置的比对结果,对每一个位置上的碱基进行分析,得到特定序列与hg19在每一个位置上的碱基对应关系。需要注意的是,如果比对到染色上的负链上,需要将碱基转换成正链上的碱基。
5.转换所有CYP450基因型别
根据特定序列与hg19的比对情况,将所有CYP450基因型别转换为以hg19为标准的突变位点信息。在进行坐标转换时,需要用到上面基因的CDS起始位置和定义的基因区域。有些基因型别上的突变位点信息都是负链的,在转换时需要将负链信息转换为正链。
6.整理文件格式及检查
整理文件格式,将基因型别酶活性的信息也加入进来,具体例子如表格2所列。之后再检查结果的正确性。
表2 CYP450基因的标准化基因分型数据库信息(部分)
二、CYP450基因型别检测
1、外显子捕获探针及捕获芯片
在本发明的具体实施方式中,根据57个CYP450氧化酶基因及一个CYP450还原酶基因,以人类基因组hg19为参考序列,选取这58个基因的全部外显子区域作为靶序列,靶序列长度之总和约276kb。针对每一个外显子序列,设计与外显子序列反向互补的长度约为55-105bp的寡核苷酸捕获探针。将设计的捕获探针高密度的固定合成在芯片上,形成包含58个CYP450基因所有外显子捕获探针的捕获芯片。设计好的探针由Roche-Nimblegen生产并合成固定在捕获芯片上。
本实施例中探针序列是参照hg19设计的,由于不同物种间基因组序列存在一定的差异,因此该探针优先适用于人源基因组DNA捕获,其它跟人类基因组同源性较高的物种的基因组可以适用,但捕获效果可能不如人源基因组理想。不同物种可以根据其参考序列设计跟本发明类似的探针,应用于不同物种靶区域的捕获。
2、序列捕获文库制备
步骤一片段制备
以没有RNA、蛋白质污染且没有降解的人基因组DNA作为实验材料,利用物理或化学的方法将DNA打断成200~300bp大小的片段,使用相关回收试剂盒回收DNA片段。
步骤二打断后的DNA片段末端修饰
回收纯化的片段化DNA通过T4DNA Polymerase、Klenow Fragment和T4Polynucleotide Kinase等酶的作用以dNTP为作用底物进行末端修复,形成补平的末端磷酸化的DNA片段。末端补平后的DNA纯化后利用Klenow Frgment(3’-5’exo-)聚合酶及dATP在补平序列的3’末端加上“A”碱基。
步骤三DNA片段加Index Adapter
末端加“A”后的DNA片段纯化后在T4 DNA Ligase作用下与Index Adapter连接,并用试剂盒进行纯化接头产物。
步骤四杂交前PCR及产物纯化
以Index Adapter序列引物对加接头后的DNA文库进行扩增,扩增产物经纯化后经Agilent 2100和Nano Drop定量、质控合格后用于下一步的文库混合。
步骤五多个样本文库混合
将按照步骤一至四建好的多个样本的文库混合,为了在测序中区别来自不同样本的文库,每个文库的DNA在连接Index Adapter接头时,其接头中都含有不同的6bp或8bp的Index碱基序列,每个文库DNA混合量可根据需要等量或按照一定比例混合。需要说明的是,等量即在需要每个样本测序数据量相同时,每个文库混合DNA量一致;有的研究不同样本测序数据量可能不同,文库使用量也就不同,混合比例按照本领域技术人员具体的研究目的或设计要求来确定。
3、芯片杂交
步骤五中质控合格的DNA按照Nimblegen固相芯片杂交标准操作说明与芯片杂交。杂交后的DNA经洗脱、纯化后以接头序列为引物扩增,扩增产物经Agilent 2100和Q-PCR质控合格后上机测序。
4、上机测序及数据分析
质控合格的文库使用Hiseq2000平台采用边合成边测序的测序方法进行测定。数据分析以人类基因组hg19(UCSC)为参考序列。测序后的数据分析包括几个方面。信息分析的流程图如图2。
步骤一对序列进行过滤
首先去掉影响信息分析的低质量测序序列:序列中每个碱基分别对应一个测序质量值,对于测序结果的一段序列,计算这段序列的平均质量值,若这条序列的平均质量值低于常规的经验阈值,这条序列会被过滤掉;另一方面,测序序列可能会被机器上的Adapter接头污染,这部分含有Adapter的序列也会被过滤掉。
步骤二序列比对
以hg19(UCSC)为参考序列,将经过步骤一过滤后的序列用比对软件(如SOAP,BWA)进行序列比对。这些比对软件对于一段序列,能够选择一个最佳的比对位置。对于比对位置有多个的重复序列,软件会选择一个位置输出,并添加一个标签。
步骤三选取比对到目标区域的序列
芯片杂交后会捕获到部分非目标区域的序列,步骤二中以hg19全基因组序列作为参考序列,非目标区域的序列就会根据最佳匹配原则比对到相应的位置,而不会比对的目标区域。选取比对到目标区域的序列用于后续分析,保证选取的序列都是目标区域序列。
步骤四数据质控
数据质控包括多个方面,如比对上序列的百分比,unique reads(序列与参考序列比对时只有一个最佳比对位置)的百分比,duplication(相同的序列)的比例,测序深度,目标区域的覆盖度等。这些质控要符合常规的经验阈值才能进行下一步的分析,如测序深度与预期一致,单碱基深度覆盖图服从泊松分布。
步骤五变异检测
数据质控合格才能进行变异分析,包括检测SNP(单核苷酸多态性),INDEL(插入和删除),SV(结构性变异),CNV(拷贝数变异)等。每种变异检测可根据需要使用不同的方式来实现。
步骤六CYP450基因分型
当变异检测分析完之后,整理每个基因中的突变位点信息,与之前整理好的CYP450标准数据库中的相应基因型别比较,得到每个样本的基因型别。由于人是二倍体生物,每个基因的型别最多只有两种型别,最后CYP450基因的分型结果是一种纯合型别或者杂合型别。一些基因型别有相应酶活性信息,所以通过样本基因分型之后,同时也可以得到样本对酶活性的反应情况。
在本申请之前,对于CYP450突变检测的技术主要集中于单个或几个CYP450基因的已知突变,对于未知突变或者大量样本检测存在耗时长、费用高等限制因素。而上述过程,明显具有以下几个优点:
一、包含了目前人类中已经鉴定出的所有有功能的57个CYP450氧化酶基因及1个CYP450还原酶基因,包含范围全面广泛,可以检测出这些CYP450基因所有已知和未知的多态性位点,极大的方便了专门针对CYP450基因的研究。
二、建立一个以hg19为参考序列的各CYP450基因型的标准数据库,对于已知基因型的CYPP450基因,能够快速准确的给出相应基因型别信息,这对于涉及CYP450的疾病或药物等提供更精确的判断依据。
三、利用芯片捕获具有高通量的性质,一次实验同时检测多达上百个样本,不仅提高了检测样本的数量,同时也大大降低了每个样本的检测费用。
下面通过具体实施方式对本发明做进一步详细的描述。以下实施例用于解释本发明,而不用于限定本发明。
实施例
本实施例实验流程部分描述为包括炎黄在内的50个样本建库杂交一张芯片,本实施例中的样本数用以解释本发明,而不是限制每张芯片可以杂交的样本数。
1、实验材料
本实施例中的试剂见表3,其它试剂、耗材和仪器设备未在表3中注明者,均为可通过市场购买的通用产品。
表3本实施例所用试剂
2、序列捕获文库制备
(1)基因组DNA片段化
以3μg无蛋白质、RNA污染且没有降解的炎黄基因组DNA为材料,使用Covaris-S2超声打断仪(Covaris,US)仪器进行打断。打断参数设置如下:
打断后的片段经电泳检测合格(主带集中在200bp-300bp之间)后,使用QIAquick PCR Purification Kit回收纯化,样本溶于75μL Elution Buffer中。
(2)DNA片段末端修复
将打断后回收纯化得到的DNA片段按下表在1.5mL的离心管中配制末端修复反应体系,形成补平的末端磷酸化的DNA片段。
样品DNA |
75μL |
10×Polynucleotide Kinase Buffer |
10μL |
dNTP Solution Set(10mM each) |
4μL |
T4 DNA Polymerase |
5μL |
Klenow Fragment |
1μL |
T4 Polynucleotide Kinase |
5μL |
Total volume |
100μL |
将上述100μL反应混合物轻微混匀后,在Thermomixer(Eppendorf)中20℃温浴30min后用QIAquick PCR Purification Kit纯化,DNA最后于32μL ddH2O中充分溶解。
(3)3’末端加“A”碱基修饰
在末端补平修复后的DNA片段3’末端加上“A”碱基,以便于下一步IndexAdapter接头连接。末端加“A”碱基反应体系如下表。
DNA |
32μL |
10x blue buffer |
5μL |
dATP(1mM) |
10μL |
Klenow(3’-5’exo-) |
3μL |
Total volume |
50μL |
将上述50μL反应混合物轻微混匀后,在Thermomixer(Eppendorf)中37℃温浴30min后用QIAquick PCR Purification Kit纯化,DNA最后于15μL ddH2O中充分溶解。
(4)Index Adapter接头连接
末端加“A”后的DNA片段纯化后在T4 DNA Ligase作用下与Index Adapter连接。在1.5ml的离心管中配制Index Adapter连接反应体系:
上述50μL反应混合物轻微振荡混合均匀,瞬时离心后置于Thermomixer(Eppendorf)中20℃温浴15min,反应完后用MiniElute PCR Purification Kit进行纯化,最后将样品溶于25μL Elution Buffer。
(5)杂交前PCR扩增
以上述步骤(4)得到的DNA为模板,以含有接头序列的引物进行扩增,扩增体系和条件如下:
PCR程序为94℃ 2min;4个循环的94℃ 15s,62℃ 30s,72℃ 30s;72℃ 5min。PCR产物用QIAquick PCR Purification Kit纯化,洗脱体积为30μL。
(7)样本文库混合
按照上述DNA打断、末端修复、加Index Adapter接头、杂交前PCR等步骤,构建其它49个样本文库,包括炎黄基因组DNA样本文库共计50个文库(包含4个HapMap样本、1个炎黄样本和45个正常人样本,其中45正常人样本用于测试一张芯片可以杂交的样本数目),从这50个文库中取等量的DNA均匀混合。为了在测序中区别来自不同样本的文库,在加Index Adapter接头时,每个文库的DNA末端都含有不同的6bp或8bp的Index碱基序列。需要说明的是,Index Adapter接头包括两部分,分别为用于区分各文库的Index碱基序列和IndexAdapter引物序列。
4、外显子文库构建
外显子文库的构建包括采用制备的序列捕获文库与捕获芯片杂交,将58个CYP450基因的全部外显子富集到捕获芯片上,洗脱杂交后的捕获芯片,洗脱产物即外显子序列,对外显子序列扩增处理得到外显子文库,具体如下:
(1)芯片杂交
A)在1.5mL离心管中加入450μg的COT-1DNA、3μg来自混合文库的DNA、1nmol Index-adpater1-block和Index-adpater2-block(Multiplexing SamplePreparation Oligonucleotide Kit,Illumina),混合物置于SpeedVac(Thermo)中蒸干,温度设置为60℃。
B)在蒸干的离心管中加入11.2μL纯水,充分溶解DNA后加入18.5μL的2×SC Hybridiation Buffer和7.3μL的SC Hybridiation,充分混匀后将混合物转移至杂交仪(Nimblegen)上95℃干浴器中10分钟使DNA变性。
C)将样品取出震荡后置于离心机上全速离心30秒,置于杂交仪(Nimblegen)上42℃位置,与外显子捕获芯片杂交。
D)杂交方法参照NimbleGen公司芯片杂交方法(Nimble Gen Arrays User’sGuide,Version 3.1,7 Jul 2009,Roche NimbleGen,Inc.)。样品上样量35μl,42℃杂交64-72hr,杂交完成并经过芯片的杂交后处理后,用900μl 160mM NaOH洗脱富集在芯片上的序列,洗脱产物用MinElute PCR Purification Kit纯化,最终用80μl Elution Buffer洗脱。
(2)捕获后PCR扩增
以从捕获芯片上洗脱下来的序列为模板进行PCR扩增,体系为Phusion Mix150μl,上下游引物各4.2μl(Multiplexing Sequencing Primers and Phix ControlKit),上述的80μl洗脱样品加85μl ddH20,混合后分6管进行PCR。PCR反应条件94℃,1min;16个循环的94℃ 30s,58℃ 30s,72℃ 30s;72℃ 5min。PCR反应后把6管混合并用QIAquick PCR Purification Kit磁珠纯化回收300-450bp大小的片段,洗脱体积为50μl。
(3)文库检测:
采用Bioanalyzer analysis system(Agilent,Santa Clara,USA)检测文库插入片段大小及含量;Q-PCR精确定量文库的浓度。
5、序列测定
对上述经过纯化和质量检测合格的PCR扩增产物进行测序,测序方法参照Illumina公司HiSeq2000操作方法(HiSeq 2000 User Guide.Catalog # SY-940-1001Part # 15011190Rev B,Illumina)。
6、数据分析
(1)测序数据过滤
对测序获得的数据进行两方面的过滤,一是测序质量值,对整条序列,计算其碱基质量值,当整条序列的平均质量值低于10时,将其过滤掉;二是检测Adapter接头污染,如果序列中含有Adapter序列,也将其过滤掉。
测序数据过滤结果显示,被过滤掉的序列约占7%,其余93%用于下一步的分析。
(2)序列比对
以hg19为参考序列,用BWA(Burrows-Wheeler Aligner)比对软件对经过数据过滤的序列进行比对。比对时每条序列最多允许5个错配,开gap(比对时允许有插入和删除)的比对,当一条序列有多个最佳比对位置时,随机选择一个位置输出,但会有标记。在本实施例的测试中,样本比对上的序列占所有进行比对的序列的约97%。
(3)选取比对到目标区域的序列
比对完之后,首先,根据比对的结果,去掉非unique reads,只保留那些唯一比对到全基因组中的序列;再去duplication,对于比对到参考序列上同一位置的配对reads,去重复任意保留其中一对reads,因为比对到同一位置的配对序列很可能是PCR过程引起的。
上面处理完后,根据CYP450芯片设计的目标区域,保留那些比对到参考序列上的目标区域的序列,进行下一步的分析。
(4)数据质控
数据质控包括样本的数据量,过滤的数据量大小,序列比对时比对上序列的比例,样本的平均深度是否符合预期,单碱基深度覆盖图是否符合泊松分布,样本的目标区域覆盖度等。
统计分析结果显示,本实施例的50个样本均符合质控要求,部分结果见表4。
具体地,数据质控包括两方面,一方面是看各样本之间是不是比较一致,如果各样本之间的数据都差不多,表示符合要求,如果有个别样本的数据其他大多数样本相差很多,说明这个样本很可能有问题;另一方面是每个样本的各质控数据,这些标准本领域技术人员都可根据经验来确定一个大概的范围,不同的测序区域可能会有些变化,具体来说,“数据过滤后剩余量”一般在90%以上,比对序列的比例(%)90%以上,去重复后剩余数据量60%以上,unique reads占的比例与具体的测序目标区域相关且90%以上,平均深度符合预期的实验设计要求,覆盖度要95%以上,都是可以接受的。
表4数据质控结果
(5)SNP分析
本实施例中,SNP是用samtools得到的,当选取比对到目标区域的序列后,用samtools转换格式、排序之后,用其中的mpileup命令进行SNP Calling。原始的SNP还会进行一些过滤,包括位点的深度、质量值等。通常,深度在4-400符合要求,质量值则是通过用统计的方法计算质量值的显著性,对显著性过滤。
在本实施例的样本中,包括4个HapMap样本(a、b、c、d)和1个炎黄样本(这5个样本已经有公布的基因组及分型数据),其中炎黄样本测了两次,对这五个样本的SNP进行了评价。4个HapMap样本与已有的HapMap数据进行比较,炎黄样本的SNP与已有的炎黄样本Genotyping位点进行了比较,表5和表6。
表5 Hap Map样本的SNP分析结果
表6炎黄样本的SNP分析结果
(6)CYP450基因分型
做完变异检测后,根据每个基因在全基因组上的区域,提取出每个基因的突变位点信息。根据这些突变位点信息与之前构建好的CYP450数据库进行比较,确定样本的基因型别信息和酶活性信息。部分样本的检测结果如表7。
表7CYP450基因型
分型结果显示,采用本实施例的方法得到的基因型别信息及酶活性信息与现有参考文献记载一致。
以上内容是结合具体的实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。