CN105779572B - 肿瘤易感基因目标序列捕获芯片、方法及突变检测方法 - Google Patents
肿瘤易感基因目标序列捕获芯片、方法及突变检测方法 Download PDFInfo
- Publication number
- CN105779572B CN105779572B CN201410811075.8A CN201410811075A CN105779572B CN 105779572 B CN105779572 B CN 105779572B CN 201410811075 A CN201410811075 A CN 201410811075A CN 105779572 B CN105779572 B CN 105779572B
- Authority
- CN
- China
- Prior art keywords
- mutation
- sequencing
- genetic
- tumor susceptibility
- susceptibility gene
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种肿瘤易感基因目标序列捕获芯片、方法及突变检测方法,所述芯片为液相芯片,其上结合有能够同时捕获表1所示的115种遗传性肿瘤易感基因中至少5种、优选至少10种、优选至少20种、优选至少30种、优选至少50种、优选至少80种、优选至少100种、优选至少110种、优选全部的目标捕获区域的探针组合。所述突变检测方法,使用上述液相芯片捕获遗传性肿瘤易感基因目标序列,然后使用第二代高通量测序技术进行测序,找到突变位点。本发明具有适用范围广、高效、全面、易操作的优势,可以检测目标序列中的单碱基替换、单碱基/多碱基插入或缺失以及大片段缺失/扩增,能够满足常见肿瘤易感基因突变的高效、全面检测。
Description
技术领域
本发明涉及芯片与测序技术领域,尤其涉及肿瘤易感基因目标序列捕获芯片、方法及突变检测方法。
背景技术
近年来,我国恶性肿瘤(即癌症)的发病率和死亡率不断升高,恶性肿瘤已成为我国重大的公共卫生问题。肿瘤的发病方式可以分为遗传性、家族性和散发性三种类型,其中遗传性肿瘤的发病率占肿瘤总发病率的5%-10%。遗传性肿瘤的发生源于某些特定基因发生了种系突变,且该突变会在家族中遗传,导致后代患癌风险增加,那些易发生种系突变的基因被称为遗传性肿瘤易感基因。携带有遗传性肿瘤易感基因的个体,其癌症发生的风险比普通人高出数倍甚至数十倍,同时发病年龄一般也要比散发型早,同时也提示其家族成员具有极高的遗传性肿瘤易感基因携带的风险。比如,女性人群中的BRCA基因种系突变携带者其一生患乳腺癌的几率高达50%-80%,而一般人群的累计发病风险则小于7%。另外,约25%结直肠癌是有遗传背景的,如遗传性非息肉病性结直肠癌是由其易感基因——错配修复基因(MLH1、MUTYH、MSH2等)发生致病突变引起,突变携带者一生累计患结直肠癌的风险约为80%,而一般人群的风险则为2%左右。针对乳腺癌、结直肠癌等这些具有遗传性倾向的癌症,美国国家综合癌症网(NCCN)给出了明确的风险评估及预防监测指导,要求符合遗传学入组标准的人群进行相关易感基因突变检测评估,并根据评估结果选择合适的预防监测措施,有效降低发病率、延缓肿瘤发病,以提高生活质量。因此,遗传性肿瘤易感基因突变检测及发病风险的早期预测在肿瘤防治工作中具有重要实用价值与意义。
目前常用的肿瘤易感基因突变检测方法有多重连接探针扩增技术(Multiplexligation-dependent Probe amplification,MLPA)、PCR-变性高效液相色谱(DHPLC)技术和PCR-传统测序技术等。另外,随着第二代高通量测序(Next Generation Sequencing,NGS)技术的迅速发展及普及,基于NGS的肿瘤易感基因突变检测已初步得到发展及应用。各技术介绍及技术特点如下:
1.多重连接探针扩增技术(MLPA)技术
MLPA技术最早由荷兰学者Dr.Schouten JP(Schouten JP,McElgunn CJ,WaaijerR,et al.Relative quantification of 40nucleic acid sequences by multiplexligation-dependent probe amplification.Nucleic Acids Res.2002Jun 15;30(12):e57)于2002年提出,是一种高通量、针对待测核酸中靶序列进行定性和定量分析的技术,它利用简单的杂合连接及PCR扩增反应,于单一反应管内可同时检测40个不同的核苷酸序列的拷贝数变化。到目前为止广泛应用于基因检测及基因诊断等多个领域,如染色体数目异常、遗传性疾病基因缺失重复(如假肥大性肌营养不良、遗传性非息肉病性结直肠癌等)、基因甲基化检测等。其检测特异性高、精准度高、重复性强、操作简便,适合于高通量检测,但是该技术也有其局限性,目前还不能检测单个细胞样本,也不能用于检测短串联重复序列多态性(STR)及染色体的平衡易位,对于基因内部的点突变尚不能检测(Huang CH,ChangYY,Chen CH,et al.Copy number analysis of survival motor neuron genes bymultiplex ligation-dependent probe amplification.Genet Med.2007Apr;9(4):241-8)等,因而在肿瘤易感基因突变检测上应用范围有限。
2.PCR-变性高效液相色谱(DHPLC)技术
PCR-DHPLC技术最初是用来检测单核苷酸多态性(SNP)和碱基突变的一种技术,也称为WAVE核苷酸片段分析系统。其利用DHPLC的原理,PCR扩增后的DNA片段与缓冲液(TEAA)混合形成流动相,流动相被高压驱动,通过一个DNA Sep分离柱,可对DNA片段进行分离和分析。变性温度是影响DNA片段分析的一个重要因素,变性温度升高,保留时间缩短。由于异源双链(错配的)DNA与同源双链DNA的解链特征不同,在相同的部分变性条件下,异源双链因有错配区的存在而更易变性,被色谱柱保留时间短于同源双链,故先被洗脱下来,在色谱图中表现为双峰或多峰的洗脱曲线,从而使二者得到区分。
PCR-DHPLC方法不需要灌胶、上样、电泳等繁琐的操作(Kodama CS,Cuadros-Orellana S,Bandeira CH,et al.Use of PCR-DHPLC with fluorescence detection forthe characterization of the bacterial diversity during cassava(Manihotesculenta Crantz)fermentation.Genet Mol Res.2014Feb 28;13(1):1304-13;Soumittra N,Meenakumari B,Parija T,et al.Molecular genetics analysis ofhereditary breast and ovarian cancer patients in India[J].Hered Cancer ClinPract,2009,7(1):13),快速、自动,可检测片段长达1500bp,准确率达96%以上。但是其检测突变类型有限,且针对每个突变位点需要设计专门的引物进行PCR扩增,样本使用量随检测位点数成倍增加,因此面对肿瘤易感基因的多位点检测需求,只能分开多次进行,耗时耗力,难以实现规模,低成本化(蔡贞,郑磊.多靶标基因并行检测技术为肿瘤个体化治疗提供新模式[J].分子诊断与治疗杂志,2013(6):361~366)。
3.PCR-传统测序技术
PCR产物直接测序技术是分子生物学和基因组学研究中的一个重要技术,广泛用于基因突变检测、遗传性疾病诊断、单核苷酸多态性研究、基因组重叠序列群等。与传统克隆测序技术相比较,直接对PCR扩增的DNA进行测序,省去了耗时的克隆步骤,避免了传统的细菌培养、模板提取等重复性操作,可以从少量的原始样品中得到正确的DNA序列信息。虽然PCR产物直接测序技术具有快速、简便、稳定经济的优点,但其也存在不足点,如通量低、成本高、操作步骤较为繁琐、自动化程度低等,难以大规模应用于肿瘤易感基因的多位点检测。
4.基于NGS的突变检测技术
DNA测序技术始于上世纪七十年代,由于测序技术可较直观地分辨出基因的核酸突变、插入和重排等变异,在检测靶基因的核酸序列中具有独特的优势,在肿瘤靶向药物的选择与分子分型等领域已得到广泛的应用。随着NGS测序技术的发展,测序时间和花费较第一代Sanger测序技术已大大降低,而测序的通量和深度却有了极大的提高。全转录组和全基因组测序技术结合,不仅能够提供完整的单个细胞基因转录集,还能检测出新型基因的突变、转录、基因融合等异常,甚至有助于解释基因组的功能。
发明内容
本发明提供一种肿瘤易感基因目标序列捕获芯片、方法及突变检测方法,具有适用范围广、高效、全面、易操作的优势,可以检测目标序列中的单碱基替换、单碱基/多碱基插入或缺失以及大片段缺失/扩增,能够满足常见肿瘤易感基因突变的高效、全面检测。
根据本发明的第一方面,本发明提供一种遗传性肿瘤易感基因目标序列捕获芯片,所述芯片为液相芯片,其上结合有能够同时捕获表1所示的115种遗传性肿瘤易感基因中至少5种、优选至少10种、优选至少20种、优选至少30种、优选至少50种、优选至少80种、优选至少100种、优选至少110种、优选全部的目标捕获区域的探针组合。
作为本发明的优选方案,所述目标捕获区域包括所有外显子区域和外显子与内含子连接区域。
作为本发明的优选方案,所述液相芯片是以罗氏的Nimblegen EZ芯片为载体的液相芯片。
本发明适用的遗传性肿瘤为乳腺癌、卵巢癌、肠癌、胃癌、前列腺癌、子宫内膜癌、白血病、成神经管细胞瘤、成神经节细胞瘤、成神经细胞瘤、多发性内分泌瘤、多发性神经纤维瘤、肺癌、肺母细胞瘤、副神经节瘤、骨肉瘤、黑色素瘤、横纹肌肉瘤、基底细胞瘤、甲状旁腺癌、甲状腺癌、淋巴瘤、内分泌瘤、皮肤癌、平滑细胞瘤、肾癌、肾母细胞瘤、肾上腺皮质癌、脑膜瘤、膀胱癌、视网膜细胞瘤、嗜络细胞瘤、神经胶质瘤、外生性骨肉瘤、胃肠道间质瘤、血小板增多症、圆柱瘤和胰腺癌中的一种或多种。
根据本发明的第二方面,本发明提供一种遗传性肿瘤易感基因目标序列捕获方法,包括使用第一方面所述的遗传性肿瘤易感基因目标序列捕获芯片与待捕获DNA样本进行杂交的步骤。
根据本发明的第三方面,本发明提供一种遗传性肿瘤易感基因的基因突变的检测方法,包括使用第一方面所述的遗传性肿瘤易感基因目标序列捕获芯片与待捕获DNA样本进行杂交的步骤;和使用第二代高通量测序技术对捕获得到的目标DNA进行测序的步骤。
作为本发明的优选方案,所述遗传性肿瘤易感基因的基因突变的检测方法包括如下步骤:
(1)将待检测的基因组DNA样本打断成片段,优选打断成长度为220-400bp的片段;
(2)对步骤(1)打断的片段进行纯化、末端修复、加接头,并用PCR进行扩增;
(3)将步骤(2)得到的产物与第一方面所述的遗传性肿瘤易感基因目标序列捕获芯片进行杂交,捕获到所述目标捕获区域的DNA片段;
(4)将步骤(3)捕获到的所述目标捕获区域的DNA片段洗脱下来,获得需要的目标DNA;
(5)使用步骤(4)获得的目标DNA构建测序文库;
(6)使用第二代高通量测序对步骤(5)得到的测序文库进行测序,得到读段(reads);
(7)将步骤(6)得到的reads与参考基因组进行比对分析。
作为本发明的优选方案,所述基因突变的形式为碱基替换、插入或缺失以及片段缺失或扩增。本发明的方法适用于单碱基替换、单碱基/多碱基插入或缺失以及大片段缺失/扩增等多种类型,相比现有技术,本发明的方法适用范围更广。
作为本发明的优选方案,所述步骤(2)中的接头为CG(Complete Genomics)测序平台的A接头;所述(5)具体为:再次进行PCR,对双链DNA进行环化,在所述A接头两端26bp处进行酶切,对切口进行末端修复,加B接头,然后将DNA双链分离成单链,并对所述单链进行环化。
本发明的一个实施例中,使用CG测序平台进行第二代高通量测序,相应的测序文库的构建,采用该平台通用的测序文库构建方法。该方法中使用Ⅲ类内切酶的切割特性,酶切A接头两侧26bp处的基因组DNA,然后对切口进行末端修复,加B接头,然后将DNA双链分离成单链,并对所述单链进行环化。其中,A接头和B接头是该平台的通用接头。
作为本发明的优选方案,所述步骤(6)中的第二代高通量测序为CG测序,并且保证每个所述测序文库的原始数据量达到0.6Gb以上,目标区域的测序深度达到400×以上,目标区域覆盖度达到99%以上。
作为本发明的优选方案,所述步骤(7)具体为:
首先,将测序得到的reads比对到参考基因组上,不允许有插入和缺失,优选用Teramap进行比对;
然后,鉴定可能与所述参考基因组不一样的区域,将有可能比对到这些区域的reads挑选出来进行局部组装,将组装得到的序列与所述参考基因组进行比较,确定各种类型的突变;
其后,对检测到的突变进行打分,优选用varScoreVAF和varScoreEAF进行打分;
最后,过滤掉低于预定质量,低于预定深度、优选alt_depth<2/all reads<5,低于预定频率、优选MAF<0.25的突变,得到最终突变列表。
根据本发明的第四方面,本发明提供使用第一方面所述的遗传性肿瘤易感基因目标序列捕获芯片或第三方面所述的遗传性肿瘤易感基因的基因突变的检测方法检测到的遗传性肿瘤易感基因的基因突变,所述基因突变为SEQ ID NO:1所示的编码序列在第640位核苷酸A碱基发生缺失;或SEQ ID NO:2所示的编码序列在第5800和5801位核苷酸之间插入有碱基A,或在第274和275位核苷酸之间插入有碱基A,或在第1219位核苷酸位置发生无义突变;或SEQ ID NO:3所示的编码序列在第1709至1710位核苷酸发生碱基AG缺失。
上述基因突变可作为遗传性乳腺癌的遗传学标志,当检测到上述基因突变说明相应个体可能存在较高的遗传性乳腺癌发生风险。因此,上述基因突变可用于基因检测中,或者用于制备检测遗传性乳腺癌的试剂中。
本发明通过对常见遗传性肿瘤易感基因目标区域捕获联合第二代高通量测序技术,并结合生物信息分析方法,实现遗传性肿瘤易感基因突变位点的全面检测,具有检测通量高、灵敏度高、特异性强、准确性高、覆盖度广等技术优势,有效解决遗传性肿瘤易感基因突变区域广、突变位点不确定等问题。具体优势说明如下:
1.检测范围广:本发明可以实现同时检测包括乳腺癌/卵巢癌、结直肠癌、胰腺癌、胃癌、视网膜母细胞瘤等癌症相关的115个肿瘤易感基因中的一些或者全部的变异信息,并且可以检测多种突变类型,例如SNP、插入缺失(InDel)等。
2.通量高:使用液相芯片可以同时捕获多个样本的DNA;而且,第二代高通量测序平台(如CG测序平台)可以同时对多个样本进行高通量、高深度、高覆盖度的测序(一次上机测序可获得约2T的数据量,目标区域平均覆盖度可达到99%以上);加上高性能的计算机信息处理能力,能够同时实现大量样本的变异检测及分析。
3.高灵敏度、特异性、准确性:基于第二代高通量测序平台(如CG测序平台)的高通量测序技术,可以获得准确的DNA序列信息,运用生物信息学的分析方法,可以检测目标范围内几乎所有的突变,并且分辨率可以达到单碱基水平。
4.实施方便:目前许多芯片生产商能够提供相关探针的合成,具备经济高效的特点,随时可以购买到,同时依据基因组测序平台,能够提供高通量的测序服务,满足相关检测需求。而且通过相关软件进行分析,易于实现自动化。
附图说明
图1为本发明中的测序数据突变检测流程;
图2为本发明实施例中从34例乳腺癌患者血液样本中提取的基因组DNA的琼脂糖凝胶电泳检测结果,其中M表示DNA Marker DL2000,1-34分别表示34例基因组DNA;
图3至图7分别为本发明实施例中的5号、10号、15号、25号和31号样本的Sanger测序所得峰图。
具体实施方式
本发明所阐述的用于常见遗传性肿瘤易感基因目标序列捕获联合高通量测序的方法是基于遗传性肿瘤的发病背景及其易感基因突变检测技术的需求而设计。本发明以常见遗传性肿瘤易感基因(表1所示的115种基因)的所有外显子区域和外显子与内含子连接区域为目标捕获区域,设计能够同时捕获所有目标序列区域的探针组合,定制液相芯片(由罗氏公司生产,Nimblegen EZ芯片),并联合Complete Genomics(CG)第二代高通量测序技术和信息分析技术,对所有捕获到的目标序列进行测序及不同类型的突变信息分析,以解读目标样本中是否存在能够导致肿瘤发病风险升高的易感基因的种系突变,并根据突变性质指导肿瘤预防及监测,同时可迅速积累遗传性肿瘤易感基因突变数据,为产业化提供有力数据支持。该发明具有适用范围广、高效、全面、易操作等优势,同时检测目标序列中的单碱基替换、单碱基/多碱基插入或缺失以及大片段缺失/扩增等突变类型,满足常见肿瘤易感基因突变的高效、全面检测。
本发明的一个实施例的设计方法及实验过程如下:
1.调研分析,确定目标基因
收集与肿瘤发病相关的易感基因,最终确定了115个遗传性肿瘤易感基因。表1和表2分别列出了各易感基因的名称和易感基因所对应的遗传性肿瘤的名称,其中不同的肿瘤可能会存在相同的易感基因。
表1.115个遗传性肿瘤易感基因列表
表2 各易感基因所对应的遗传性肿瘤名称
2.确定各目标易感基因的目标捕获区域,定制液相芯片
以115个目标易感基因的所有外显子区和外显子与内含子连接区域为总目标区域,定制液相捕获芯片,具体由罗氏公司根据提供的目标捕获区域设计捕获探针,生产成Nimblegen EZ芯片。最终获得的目标区域探针序列包含23434条探针,每条探针序列的长度为121bp,序列前后各包含16bp和15bp的标签序列,前后两个标签序列的序列组成分别是GAAGCGAGGATCAACT(SEQ ID NO:4)和CATTGCGTGAACCGA(SEQ ID NO:5)。这两个标签序列分别为酶切位点和转录位点,两端均是用来设计PCR引物的,同时转录位点用来做转录,起到转录为RNA探针的作用。
3.提取样本DNA
使用DNA提取试剂盒(QIAGEN DNA Blood mini kit)从受检者血液中提取基因组DNA,用于后续建库实验。
4.目标区域捕获的文库构建
首先,用打断仪将基因组DNA随机打断成220-400bp小片段,对DNA进行纯化、末端修复、加A接头(CG测序平台的接头)并用PCR进行扩增;然后,通过碱基互补配对原理,使用液相捕获芯片上的捕获探针对与其配对的基因组目标区域的DNA进行杂交,捕获到目标区域的DNA,通过洗脱试剂将目标DNA从探针上洗脱下来,获得需要的目标DNA;其后,再次进行PCR,对双链DNA进行环化,在A接头两端26bp处进行酶切,对切口进行末端修复,加上B接头(CG测序平台的接头);最后,分离DNA双链成单链,对单链进行环化,即构建成目标区域捕获的文库。
5.文库质控
使用Qubit及电泳检测样品条带和降解情况,使用PAGE-Urea测量插入片段大小情况,用BMG测量文库的摩尔浓度,只有样品文库合格了才能上机测序。
6.上机测序
捕获文库质检合格后,按照CG测序平台操作说明进行上机测序,并保证每个文库的原始数据量达到0.6Gb以上,目标区域测序深度达到400×以上,目标区域覆盖度达到99%以上。
7.测序数据过滤、比对、突变分析
测序完成后,对下机数据进行生物信息分析,流程如下(如图1所示):首先,将测序得到的reads用Teramap软件(Complete Genomics公司提供)比对到参考基因组Hg19(http://hgdownload.soe.ucsc.edu/goldenPath/hg19/bigZips/)上,不允许有插入和缺失;然后,鉴定可能与参考基因组不一样的区域,将有可能比对到这些区域的reads挑选出来进行局部组装,将组装得到的序列与参考基因组比较,确定各种类型的变异;其后,用varScoreVAF(Complete Genomics公司提供)和varScoreEAF(Complete Genomics公司提供)对检测到的突变进行打分;最后,过滤掉低质量(标注VQLOW)、低深度(支持突变的reads小于2)、低频率(突变allele频率(MAF)小于0.25)的突变,得到最后的突变列表。
8.突变数据解读,获得与遗传性肿瘤发病相关的突变位点
对于检测到的突变,首先用annovar(http://www.openbioinformatics.org/annovar/)注释,得到它们的基因信息、基因区域信息、转录本信息、氨基酸变化的信息;然后使用公共数据库dbSNP(http://www.ncbi.nlm.nih.gov/SNP/),1000ge nome(http://www.1000genomes.org/),hapmap(http://hapmap.ncbi.nlm.nih.gov/),BI C(http://www.nhgri.nih.gov/Intramural_research/Lab_transfer/Bic/),HGMD(http://www.hgmd.cf.ac.uk/ac/index.php),软件SIFT(http://sift.jcvi.org/)以及文献报道的信息来解读这些突变,确定它们是否与遗传性肿瘤发病相关。
本发明通过对常见遗传性肿瘤易感基因目标区域捕获联合第二代高通量测序技术,并结合生物信息分析方法,实现遗传性乳腺癌、结直肠癌等常见遗传性肿瘤易感基因突变位点的全面检测,具有检测通量高、灵敏度高、特异性强、准确性高、覆盖度广等技术优势,有效解决遗传性肿瘤易感基因突变区域广、突变位点不确定等问题。
下面将结合实施例对本发明的实施方案进行详细描述。实施例仅用于进一步说明本发明,而不应视为限定本发明的范围。实施例中未注明具体技术或条件者,按照本领域内的文献所描述的技术或条件或者按照产品说明书进行。所用试剂或仪器未注明生产厂商者,均为可以通过市购买获得的常规产品。
实施例:基于芯片捕获联合Complete Genomics测序的遗传性乳腺癌易感基因突变检测
1.实验目的
本实施例检测分析34例具有遗传倾向的乳腺癌患者(先证者)血液DNA中遗传性乳腺癌易感基因的SNP和Indel突变情况,确认该批样本是否存在乳腺癌相关易感基因的致病突变。
2.实验材料
样本信息:34例符合遗传性乳腺癌入组标准的乳腺癌患者血液样本,详细的样本入组标准为(以下条件符合一项即可):(1)乳腺癌患病年龄≤40岁;(2)男性乳腺癌患者,发病年龄不限;(3)三阴性乳腺癌患者,发病年龄不限;(4)双侧乳腺癌患者(可同时发生,也可不同时发生),发病年龄不限;(5)任何乳腺癌患者并且家族中存在易感基因突变;(6)本人在任何年龄患乳腺癌,并且:1)≥1位近亲患乳腺癌且患病年龄≤50岁,或者2)≥2近亲(需来自同一方家族:母方或父方)患乳腺癌或胰腺癌,发病年龄不限,或者3)≥1位近亲患卵巢癌(包括输卵管癌和原发性腹膜癌),发病年龄不限,或者4)≥1位父系或母系的家族成员患有乳腺癌并且≥1位父系或母系的家族成员患有以下恶性肿瘤(特别是发病年龄≤50岁):胰腺癌、前列腺癌、肉瘤、肾上腺皮质癌、脑瘤、子宫内膜癌、白血病/淋巴瘤、甲状腺癌、消化道多发性息肉(错构瘤型)、弥漫性胃癌。
主要试剂:QIAGEN血液DNA提取试剂盒,Complete Genomics平台建库试剂,人基因组(hg19)内目标区域约为600Kb的液相探针(罗氏公司,Nimblegen EZ芯片)。
3.实验方法及步骤
(1)血液基因组DNA提取
使用QIAGEN DNA Blood mini kit,并按照该试剂盒的提取说明书,从乳腺癌患者血液样本中提取基因组DNA,使用检测DNA浓度,原则上每份样本的DNA获得量≥2μg,然后电泳检测DNA是否完整及其降解程度,电泳条件为:1%的琼脂糖凝胶,电泳电压4V/cm,电泳时间45min。基因组DNA电泳检测结果如图2所示,结果显示:DNA完整,基本没有降解。
(2)测序前的文库构建
参考Complete Genomics外显子组测序文库构建流程,具体步骤为:1)基因组DNA打断,随机打断成220-400bp小片段,然后进行纯化和末端修复;2)加A接头,并进行PCR扩增;3)通过碱基互补配对的原理,使用探针对与其配对的基因组目标区域的DNA进行杂交,捕获到目标区域的DNA,通过洗脱试剂将目标DNA从探针上洗脱下来;4)PCR扩增,对DNA进行双链环化;5)在接头两端26bp处酶切;6)末端修复,添加B接头;7)分离DNA双链成单链,对单链进行环化;8)单链环化分子滚环复制,形成DNA纳米球(DNB)。
(3)Complete Genomics高通量测序
对质控合格后的文库DNA,按照Complete Genomics测序的操作说明进行上机测序。获得的每个样本的测序原始数据量达到0.6Gb以上,目标区域的平均测序深度达到400×,目标区域覆盖度为99%以上。34例样本的测序数据质量情况如表3所示。
表3 34例乳腺癌患者样本目标区域高通量测序数据质量情况
(4)测序数据处理及生物信息分析
根据测序平台的数据处理说明及实际需求,对下机所得数据进行初步处理及进行信息分析。首先,进行序列比对,将测序得到的序列用Teramap软件比对到人的参考基因组(hg19)上,同时不允许有插入和缺失;然后,鉴定可能与参考基因组不一样的区域,将有可能比对到这些区域的序列挑选出来进行局部组装,将组装得到的序列与参考基因组比较,确定各种类型的突变;此后,使用varScoreVAF和varScoreEAF对检测到的突变进行打分;最后,过滤掉低质量(VQLOW),低深度(alt_depth<2/all reads<5)和低频率(MAF<0.25)的突变,得到最后的突变位点信息。
(5)对乳腺癌易感基因的突变数据进行解读,找出致病突变
经过生物信息分析获得的SNP和Indel突变数据列表需要对其进行进一步的解读、筛选,解读步骤如下:首先,将所有乳腺癌易感基因的SNP和Indel突变数据筛选出来;其次,将乳腺癌易感基因的外显子区域和外显子与内含子连接区域的剪接突变、无义突变以及移码突变筛选出来;然后,在BIC(Breast Cancer Information Core,http://www.nhgri.nih.gov/Intramural_research/Lab_transfer/Bic/)数据库、HGMD(The HumanGene Mutation Database,http://www.hgmd.cf.ac.uk/ac/index.php)数据库以及相关研究文献中对筛选出来的突变位点进行搜索,明确突变位点是否为已知的突变,如果在现有数据库或研究文献中未搜索到相应的报道,则说明该突变为新突变。
4.实验结果
通过对34例样本的测序数据进行分析、数据库对比及解读,共发现5例先证者分别存在乳腺癌相关易感基因的突变位点,同时发现这些突变位点目前均未在研究文献、BIC等数据库报道过,故判定为新的突变位点。其余29例样本未发现相关基因的致病突变,只存在良性多态性变异(即单核苷酸多态性)。该批样本中通过分析解读后的突变位点如表4所示。
表4 从34例先证者血液DNA样本中测序所得的5个突变位点信息
以下是对发现的5个新的遗传性乳腺癌突变位点的详细描述:
(1)BARD1基因编码区的野生型序列为:
atgccggataatcggcagccgaggaaccggcagccgaggatccgctccgggaacgagcctcgttccgcgcccgccatggaaccggatggtcgcggtgcctgggcccacagtcgcgccgcgctcgaccgcctggagaagctgctgcgctgctcgcgttgtactaacattctgagagagcctgtgtgtttaggaggatgtgagcacatcttctgtagtaattgtgtaagtgactgcattggaactggatgtccagtgtgttacaccccggcctggatacaagacttgaagataaatagacaactggacagcatgattcaactttgtagtaagcttcgaaatttgctacatgacaatgagctgtcagatttgaaagaagataaacctaggaaaagtttgtttaatgatgcaggaaacaagaagaattcaattaaaatgtggtttagccctcgaagtaagaaagtcagatatgttgtgagtaaagcttcagtgcaaacccagcctgcaataaaaaaagatgcaagtgctcagcaagactcatatgaatttgtttccccaagtcctcctgcagatgtttctgagagggctaaaaaggcttctgcaagatctggaaaaaagcaaaaaaagaaaactttagctgaaatcaaccaaaaatggaatttagaggcagaaaaagaagatggtgaatttgactccaaagaggaatctaagcaaaagctggtatccttctgtagccaaccatctgttatctccagtcctcagataaatggtgaaatagacttactagcaagtggctccttgacagaatctgaatgttttggaagtttaactgaagtctctttaccattggctgagcaaatagagtctccagacactaagagcaggaatgaagtagtgactcctgagaaggtctgcaaaaattatcttacatctaagaaatctttgccattagaaaataatggaaaacgtggccatcacaatagactttccagtcccatttctaagagatgtagaaccagcattctgagcaccagtggagattttgttaagcaaacggtgccctcagaaaatataccattgcctgaatgttcttcaccaccttcatgcaaacgtaaagttggtggtacatcagggaggaaaaacagtaacatgtccgatgaattcattagtctttcaccaggtacaccaccttctacattaagtagttcaagttacaggcgagtgatgtctagtccctcagcaatgaagctgttgcccaatatggctgtgaaaagaaatcatagaggagagactttgctccatattgcttctattaagggcgacataccttctgttgaataccttttacaaaatggaagtgatccaaatgttaaagaccatgctggatggacaccattgcatgaagcttgcaatcatgggcacctgaaggtagtggaattattgctccagcataaggcattggtgaacaccaccgggtatcaaaatgactcaccacttcacgatgcagccaagaatgggcatgtggatatagtcaagctgttactttcctatggagcctccagaaatgctgttaatatatttggtctgcggcctgtcgattatacagatgatgaaagtatgaaatcgctattgctgctaccagagaagaatgaatcatcctcagctagccactgctcagtaatgaacactgggcagcgtagggatggacctcttgtacttataggcagtgggctgtcttcagaacaacagaaaatgctcagtgagcttgcagtaattcttaaggctaaaaaatatactgagtttgacagtacagtaactcatgttgttgttcctggtgatgcagttcaaagtaccttgaagtgtatgcttgggattctcaatggatgctggattctaaaatttgaatgggtaaaagcatgtctacgaagaaaagtatgtgaacaggaagaaaagtatgaaattcctgaaggtccacgcagaagcaggctcaacagagaacagctgttgccaaagctgtttgatggatgctacttctatttgtggggaaccttcaaacaccatccaaaggacaaccttattaagctcgtcactgcaggtgggggccagatcctcagtagaaagcccaagccagacagtgacgtgactcagaccatcaatacagtcgcataccatgcgagacccgattctgatcagcgcttctgcacacagtatatcatctatgaagatttgtgtaattatcacccagagagggttcggcagggcaaagtctggaaggctccttcgagctggtttatagactgtgtgatgtcctttgagttgcttcctcttgacagctga(SEQ ID NO:1)。
野生型BRAD1基因共编码778个氨基酸,5号先证者的测序数据显示其在编码区的第640位核苷酸(A碱基)发生缺失,发生移码突变,最终导致只能编码219个氨基酸。
(2)BRCA2基因编码区的野生型序列为:
atgcctattggatccaaagagaggccaacattttttgaaatttttaagacacgctgcaacaaagcagatttaggaccaataagtcttaattggtttgaagaactttcttcagaagctccaccctataattctgaacctgcagaagaatctgaacataaaaacaacaattacgaaccaaacctatttaaaactccacaaaggaaaccatcttataatcagctggcttcaactccaataatattcaaagagcaagggctgactctgccgctgtaccaatctcctgtaaaagaattagataaattcaaattagacttaggaaggaatgttcccaatagtagacataaaagtcttcgcacagtgaaaactaaaatggatcaagcagatgatgtttcctgtccacttctaaattcttgtcttagtgaaagtcctgttgttctacaatgtacacatgtaacaccacaaagagataagtcagtggtatgtgggagtttgtttcatacaccaaagtttgtgaagggtcgtcagacaccaaaacatatttctgaaagtctaggagctgaggtggatcctgatatgtcttggtcaagttctttagctacaccacccacccttagttctactgtgctcatagtcagaaatgaagaagcatctgaaactgtatttcctcatgatactactgctaatgtgaaaagctatttttccaatcatgatgaaagtctgaagaaaaatgatagatttatcgcttctgtgacagacagtgaaaacacaaatcaaagagaagctgcaagtcatggatttggaaaaacatcagggaattcatttaaagtaaatagctgcaaagaccacattggaaagtcaatgccaaatgtcctagaagatgaagtatatgaaacagttgtagatacctctgaagaagatagtttttcattatgtttttctaaatgtagaacaaaaaatctacaaaaagtaagaactagcaagactaggaaaaaaattttccatgaagcaaacgctgatgaatgtgaaaaatctaaaaaccaagtgaaagaaaaatactcatttgtatctgaagtggaaccaaatgatactgatccattagattcaaatgtagcaaatcagaagccctttgagagtggaagtgacaaaatctccaaggaagttgtaccgtctttggcctgtgaatggtctcaactaaccctttcaggtctaaatggagcccagatggagaaaatacccctattgcatatttcttcatgtgaccaaaatatttcagaaaaagacctattagacacagagaacaaaagaaagaaagattttcttacttcagagaattctttgccacgtatttctagcctaccaaaatcagagaagccattaaatgaggaaacagtggtaaataagagagatgaagagcagcatcttgaatctcatacagactgcattcttgcagtaaagcaggcaatatctggaacttctccagtggcttcttcatttcagggtatcaaaaagtctatattcagaataagagaatcacctaaagagactttcaatgcaagtttttcaggtcatatgactgatccaaactttaaaaaagaaactgaagcctctgaaagtggactggaaatacatactgtttgctcacagaaggaggactccttatgtccaaatttaattgataatggaagctggccagccaccaccacacagaattctgtagctttgaagaatgcaggtttaatatccactttgaaaaagaaaacaaataagtttatttatgctatacatgatgaaacatcttataaaggaaaaaaaataccgaaagaccaaaaatcagaactaattaactgttcagcccagtttgaagcaaatgcttttgaagcaccacttacatttgcaaatgctgattcaggtttattgcattcttctgtgaaaagaagctgttcacagaatgattctgaagaaccaactttgtccttaactagctcttttgggacaattctgaggaaatgttctagaaatgaaacatgttctaataatacagtaatctctcaggatcttgattataaagaagcaaaatgtaataaggaaaaactacagttatttattaccccagaagctgattctctgtcatgcctgcaggaaggacagtgtgaaaatgatccaaaaagcaaaaaagtttcagatataaaagaagaggtcttggctgcagcatgtcacccagtacaacattcaaaagtggaatacagtgatactgactttcaatcccagaaaagtcttttatatgatcatgaaaatgccagcactcttattttaactcctacttccaaggatgttctgtcaaacctagtcatgatttctagaggcaaagaatcatacaaaatgtcagacaagctcaaaggtaacaattatgaatctgatgttgaattaaccaaaaatattcccatggaaaagaatcaagatgtatgtgctttaaatgaaaattataaaaacgttgagctgttgccacctgaaaaatacatgagagtagcatcaccttcaagaaaggtacaattcaaccaaaacacaaatctaagagtaatccaaaaaaatcaagaagaaactacttcaatttcaaaaataactgtcaatccagactctgaagaacttttctcagacaatgagaataattttgtcttccaagtagctaatgaaaggaataatcttgctttaggaaatactaaggaacttcatgaaacagacttgacttgtgtaaacgaacccattttcaagaactctaccatggttttatatggagacacaggtgataaacaagcaacccaagtgtcaattaaaaaagatttggtttatgttcttgcagaggagaacaaaaatagtgtaaagcagcatataaaaatgactctaggtcaagatttaaaatcggacatctccttgaatatagataaaataccagaaaaaaataatgattacatgaacaaatgggcaggactcttaggtccaatttcaaatcacagttttggaggtagcttcagaacagcttcaaataaggaaatcaagctctctgaacataacattaagaagagcaaaatgttcttcaaagatattgaagaacaatatcctactagtttagcttgtgttgaaattgtaaataccttggcattagataatcaaaagaaactgagcaagcctcagtcaattaatactgtatctgcacatttacagagtagtgtagttgtttctgattgtaaaaatagtcatataacccctcagatgttattttccaagcaggattttaattcaaaccataatttaacacctagccaaaaggcagaaattacagaactttctactatattagaagaatcaggaagtcagtttgaatttactcagtttagaaaaccaagctacatattgcagaagagtacatttgaagtgcctgaaaaccagatgactatcttaaagaccacttctgaggaatgcagagatgctgatcttcatgtcataatgaatgccccatcgattggtcaggtagacagcagcaagcaatttgaaggtacagttgaaattaaacggaagtttgctggcctgttgaaaaatgactgtaacaaaagtgcttctggttatttaacagatgaaaatgaagtggggtttaggggcttttattctgctcatggcacaaaactgaatgtttctactgaagctctgcaaaaagctgtgaaactgtttagtgatattgagaatattagtgaggaaacttctgcagaggtacatccaataagtttatcttcaagtaaatgtcatgattctgttgtttcaatgtttaagatagaaaatcataatgataaaactgtaagtgaaaaaaataataaatgccaactgatattacaaaataatattgaaatgactactggcacttttgttgaagaaattactgaaaattacaagagaaatactgaaaatgaagataacaaatatactgctgccagtagaaattctcataacttagaatttgatggcagtgattcaagtaaaaatgatactgtttgtattcataaagatgaaacggacttgctatttactgatcagcacaacatatgtcttaaattatctggccagtttatgaaggagggaaacactcagattaaagaagatttgtcagatttaacttttttggaagttgcgaaagctcaagaagcatgtcatggtaatacttcaaataaagaacagttaactgctactaaaacggagcaaaatataaaagattttgagacttctgatacattttttcagactgcaagtgggaaaaatattagtgtcgccaaagagtcatttaataaaattgtaaatttctttgatcagaaaccagaagaattgcataacttttccttaaattctgaattacattctgacataagaaagaacaaaatggacattctaagttatgaggaaacagacatagttaaacacaaaatactgaaagaaagtgtcccagttggtactggaaatcaactagtgaccttccagggacaacccgaacgtgatgaaaagatcaaagaacctactctattgggttttcatacagctagcgggaaaaaagttaaaattgcaaaggaatctttggacaaagtgaaaaacctttttgatgaaaaagagcaaggtactagtgaaatcaccagttttagccatcaatgggcaaagaccctaaagtacagagaggcctgtaaagaccttgaattagcatgtgagaccattgagatcacagctgccccaaagtgtaaagaaatgcagaattctctcaataatgataaaaaccttgtttctattgagactgtggtgccacctaagctcttaagtgataatttatgtagacaaactgaaaatctcaaaacatcaaaaagtatctttttgaaagttaaagtacatgaaaatgtagaaaaagaaacagcaaaaagtcctgcaacttgttacacaaatcagtccccttattcagtcattgaaaattcagccttagctttttacacaagttgtagtagaaaaacttctgtgagtcagacttcattacttgaagcaaaaaaatggcttagagaaggaatatttgatggtcaaccagaaagaataaatactgcagattatgtaggaaattatttgtatgaaaataattcaaacagtactatagctgaaaatgacaaaaatcatctctccgaaaaacaagatacttatttaagtaacagtagcatgtctaacagctattcctaccattctgatgaggtatataatgattcaggatatctctcaaaaaataaacttgattctggtattgagccagtattgaagaatgttgaagatcaaaaaaacactagtttttccaaagtaatatccaatgtaaaagatgcaaatgcatacccacaaactgtaaatgaagatatttgcgttgaggaacttgtgactagctcttcaccctgcaaaaataaaaatgcagccattaaattgtccatatctaatagtaataattttgaggtagggccacctgcatttaggatagccagtggtaaaatcgtttgtgtttcacatgaaacaattaaaaaagtgaaagacatatttacagacagtttcagtaaagtaattaaggaaaacaacgagaataaatcaaaaatttgccaaacgaaaattatggcaggttgttacgaggcattggatgattcagaggatattcttcataactctctagataatgatgaatgtagcacgcattcacataaggtttttgctgacattcagagtgaagaaattttacaacataaccaaaatatgtctggattggagaaagtttctaaaatatcaccttgtgatgttagtttggaaacttcagatatatgtaaatgtagtatagggaagcttcataagtcagtctcatctgcaaatacttgtgggatttttagcacagcaagtggaaaatctgtccaggtatcagatgcttcattacaaaacgcaagacaagtgttttctgaaatagaagatagtaccaagcaagtcttttccaaagtattgtttaaaagtaacgaacattcagaccagctcacaagagaagaaaatactgctatacgtactccagaacatttaatatcccaaaaaggcttttcatataatgtggtaaattcatctgctttctctggatttagtacagcaagtggaaagcaagtttccattttagaaagttccttacacaaagttaagggagtgttagaggaatttgatttaatcagaactgagcatagtcttcactattcacctacgtctagacaaaatgtatcaaaaatacttcctcgtgttgataagagaaacccagagcactgtgtaaactcagaaatggaaaaaacctgcagtaaagaatttaaattatcaaataacttaaatgttgaaggtggttcttcagaaaataatcactctattaaagtttctccatatctctctcaatttcaacaagacaaacaacagttggtattaggaaccaaagtgtcacttgttgagaacattcatgttttgggaaaagaacaggcttcacctaaaaacgtaaaaatggaaattggtaaaactgaaactttttctgatgttcctgtgaaaacaaatatagaagtttgttctacttactccaaagattcagaaaactactttgaaacagaagcagtagaaattgctaaagcttttatggaagatgatgaactgacagattctaaactgccaagtcatgccacacattctctttttacatgtcccgaaaatgaggaaatggttttgtcaaattcaagaattggaaaaagaagaggagagccccttatcttagtgggagaaccctcaatcaaaagaaacttattaaatgaatttgacaggataatagaaaatcaagaaaaatccttaaaggcttcaaaaagcactccagatggcacaataaaagatcgaagattgtttatgcatcatgtttctttagagccgattacctgtgtaccctttcgcacaactaaggaacgtcaagagatacagaatccaaattttaccgcacctggtcaagaatttctgtctaaatctcatttgtatgaacatctgactttggaaaaatcttcaagcaatttagcagtttcaggacatccattttatcaagtttctgctacaagaaatgaaaaaatgagacacttgattactacaggcagaccaaccaaagtctttgttccaccttttaaaactaaatcacattttcacagagttgaacagtgtgttaggaatattaacttggaggaaaacagacaaaagcaaaacattgatggacatggctctgatgatagtaaaaataagattaatgacaatgagattcatcagtttaacaaaaacaactccaatcaagcagcagctgtaactttcacaaagtgtgaagaagaacctttagatttaattacaagtcttcagaatgccagagatatacaggatatgcgaattaagaagaaacaaaggcaacgcgtctttccacagccaggcagtctgtatcttgcaaaaacatccactctgcctcgaatctctctgaaagcagcagtaggaggccaagttccctctgcgtgttctcataaacagctgtatacgtatggcgtttctaaacattgcataaaaattaacagcaaaaatgcagagtcttttcagtttcacactgaagattattttggtaaggaaagtttatggactggaaaaggaatacagttggctgatggtggatggctcataccctccaatgatggaaaggctggaaaagaagaattttatagggctctgtgtgacactccaggtgtggatccaaagcttatttctagaatttgggtttataatcactatagatggatcatatggaaactggcagctatggaatgtgcctttcctaaggaatttgctaatagatgcctaagcccagaaagggtgcttcttcaactaaaatacagatatgatacggaaattgatagaagcagaagatcggctataaaaaagataatggaaagggatgacacagctgcaaaaacacttgttctctgtgtttctgacataatttcattgagcgcaaatatatctgaaacttctagcaataaaactagtagtgcagatacccaaaaagtggccattattgaacttacagatgggtggtatgctgttaaggcccagttagatcctcccctcttagctgtcttaaagaatggcagactgacagttggtcagaagattattcttcatggagcagaactggtgggctctcctgatgcctgtacacctcttgaagccccagaatctcttatgttaaagatttctgctaacagtactcggcctgctcgctggtataccaaacttggattctttcctgaccctagaccttttcctctgcccttatcatcgcttttcagtgatggaggaaatgttggttgtgttgatgtaattattcaaagagcataccctatacagtggatggagaagacatcatctggattatacatatttcgcaatgaaagagaggaagaaaaggaagcagcaaaatatgtggaggcccaacaaaagagactagaagccttattcactaaaattcaggaggaatttgaagaacatgaagaaaacacaacaaaaccatatttaccatcacgtgcactaacaagacagcaagttcgtgctttgcaagatggtgcagagctttatgaagcagtgaagaatgcagcagacccagcttaccttgagggttatttcagtgaagagcagttaagagccttgaataatcacaggcaaatgttgaatgataagaaacaagctcagatccagttggaaattaggaaggccatggaatctgctgaacaaaaggaacaaggtttatcaagggatgtcacaaccgtgtggaagttgcgtattgtaagctattcaaaaaaagaaaaagattcagttatactgagtatttggcgtccatcatcagatttatattctctgttaacagaaggaaagagatacagaatttatcatcttgcaacttcaaaatctaaaagtaaatctgaaagagctaacatacagttagcagcgacaaaaaaaactcagtatcaacaactaccggtttcagatgaaattttatttcagatttaccagccacgggagccccttcacttcagcaaatttttagatccagactttcagccatcttgttctgaggtggacctaataggatttgtcgtttctgttgtgaaaaaaacaggacttgcccctttcgtctatttgtcagacgaatgttacaatttactggcaataaagttttggatagaccttaatgaggacattattaagcctcatatgttaattgctgcaagcaacctccagtggcgaccagaatccaaatcaggccttcttactttatttgctggagatttttctgtgttttctgctagtccaaaagagggccactttcaagagacattcaacaaaatgaaaaatactgttgagaatattgacatactttgcaatgaagcagaaaacaagcttatgcatatactgcatgcaaatgatcccaagtggtccaccccaactaaagactgtacttcagggccgtacactgctcaaatcattcctggtacaggaaacaagcttctgatgtcttctcctaattgtgagatatattatcaaagtcctttatcactttgtatggccaaaaggaagtctgtttccacacctgtctcagcccagatgacttcaaagtcttgtaaaggggagaaagagattgatgaccaaaagaactgcaaaaagagaagagccttggatttcttgagtagactgcctttacctccacctgttagtcccatttgtacatttgtttctccggctgcacagaaggcatttcagccaccaaggagttgtggcaccaaatacgaaacacccataaagaaaaaagaactgaattctcctcagatgactccatttaaaaaattcaatgaaatttctcttttggaaagtaattcaatagctgacgaagaacttgcattgataaatacccaagctcttttgtctggttcaacaggagaaaaacaatttatatctgtcagtgaatccactaggactgctcccaccagttcagaagattatctcagactgaaacgacgttgtactacatctctgatcaaagaacaggagagttcccaggccagtacggaagaatgtgagaaaaataagcaggacacaattacaactaaaaaatatatctaa(SEQ ID NO:2)。
野生型BRCA2基因共编码3418个氨基酸,10、15和25号先证者样本的乳腺癌易感基因突变发生在BRCA2基因编码区上,具体突变位点分别是在第5800、274和1219核苷酸。其中,10号先证者的测序数据显示其在第5800和5801位核苷酸之间插入了碱基A,发生移码突变,最终导致只能编码1943个氨基酸;15号先证者的测序数据显示其在第274和275位氨基酸之间插入了碱基A,发生移码突变,最终导致只能编码99个氨基酸;25号先证者的测序数据显示其在第1219位核苷酸位置发生无义突变,最终导致只能编码406个氨基酸。
(3)PALB2基因编码区的野生型序列为:
atggacgagcctcccgggaagcccctcagctgtgaggagaaggaaaagttaaaggagaaattagcattcttgaaaagggaatacagcaagacactagcccgccttcagcgtgcccaaagagctgaaaagattaagcattctattaagaaaacagtagaagaacaagattgtttgtctcagcaggatctctcaccgcagctaaaacactcagaacctaaaaataaaatatgtgtttatgacaagttacacatcaaaacccatcttgatgaagaaactggagaaaagacatctatcacacttgatgttgggcctgagtcctttaaccctggagatggcccaggaggattacctatacaaagaacagatgacacccaagaacattttccccacagggtcagtgaccctagtggtgagcaaaagcagaagctgccaagcagaagaaagaagcagcagaagaggacatttatttcacaggagagagactgtgtctttggcactgattcactcagattgtctgggaaaagactaaaggaacaggaagaaatcagtagcaaaaatcctgctagatcaccagtaactgaaataagaactcaccttttaagtcttaaatctgaacttccagattctccagaaccagttacagaaattaatgaagacagtgtattaattccaccaactgcccaaccagaaaaaggtgttgatacattcctaagaagacctaatttcaccagggcgactacagttcctttacagactctatcagatagcggtagtagtcagcaccttgaacacattcctcctaaaggtagcagtgaacttactactcacgacctaaaaaacattagatttacttcacctgtaagtttggaggcacaaggcaaaaaaatgactgtctctacagataacctccttgtaaataaagctataagtaaaagtggccaactgcccacaagttctaatttagaggcaaatatttcatgttctctaaatgaactcacctacaataacttaccagcaaatgaaaaccaaaacttaaaagaacaaaatcaaacagagaaatctttaaaatctcccagtgacactcttgatggcaggaatgaaaatcttcaggaaagtgagattctaagtcaacctaagagtcttagcctggaagcaacctctcctctttctgcagaaaaacattcttgcacagtgcctgaaggccttctgtttcctgcagaatattatgttagaacaacacgaagcatgtccaattgccagaggaaagtagccgtggaggctgtcattcagagtcatttggatgtcaagaaaaaagggtttaaaaataaaaataaggatgcaagtaaaaatttaaacctttccaatgaggaaactgaccaaagtgaaattaggatgtctggcacatgcacaggacaaccaagttcaagaacctctcagaaacttctctcattaactaaagtcagctctcccgctgggcccactgaagataatgacttgtctaggaaggcagttgcccaagcacctggtagaagatacacaggaaaaagaaaatcagcctgcaccccagcatcagatcattgtgaaccacttttgccaacttctagcctgtcgattgttaacaggtccaaggaagaagtcacctcacacaaatatcagcacgaaaaattatttattcaagtgaaagggaagaaaagtcgtcatcaaaaagaggattccctttcttggagtaatagtgcttatttatccttggatgatgatgctttcacggctccatttcatagggatggaatgctgagtttaaagcaactactgtcttttctcagtatcacagactttcagttacctgatgaagactttggacctcttaagcttgaaaaagtgaagtcctgctcagaaaaaccagtggagccctttgagtcaaaaatgtttggagagagacatcttaaagagggaagctgtatttttccagaggaactgagtcctaaacgcatggatacagaaatggaggacttagaagaggaccttattgttctaccaggaaaatcacatcccaaaaggccaaactcgcaaagccagcatacaaagacgggcctttcttcatccatattactttatactcctttaaatacggttgcgcctgatgataatgacaggcctaccacagacatgtgttcacctgctttccccatcttaggtactactccagcctttggccctcaaggctcctatgaaaaagcatctacagaagttgctggacgaacttgctgcacaccccaacttgctcatttgaaagactcagtctgtcttgccagtgatactaaacaattcgacagttcaggcagcccagcaaaaccacataccaccctgcaagtgtcaggcaggcaaggacaacctacctgtgactgtgactctgtcccgccaggaacacctccacccattgagtcattcacttttaaagaaaatcagctctgtagaaacacatgccaggagctgcataaacattccgtcgaacagactgaaacagcagagcttcctgcttctgatagcataaacccaggcaacctacaattggtttcagagttaaagaatccttcaggttcctgttccgtagatgtgagtgccatgttttgggaaagagccggttgtaaagagccatgtatcataactgcttgcgaagatgtagtttctctttggaaagctctggatgcttggcagtgggaaaaactttatacctggcacttcgcagaggttccagtattacagatagttccagtgcctgatgtgtataatctcgtgtgtgtagctttgggaaatttggaaatcagagagatcagggcattgttttgttcctctgatgatgaaagtgaaaagcaagtactactgaagtctggaaatataaaagctgtgcttggcctgacaaagaggaggctagttagtagcagtgggaccctttctgatcaacaagtagaagtcatgacgtttgcagaagatggaggaggcaaagaaaaccaatttttgatgccccctgaggagactatactaacttttgctgaggtccaagggatgcaagaagctctgcttggtactactattatgaacaacattgttatttggaatttaaaaactggtcaactcctgaaaaagatgcacattgatgattcttaccaagcttcagtctgtcacaaagcctattctgaaatggggcttctctttattgtcctgagtcatccctgtgccaaagagagtgagtcgttgcgaagccctgtgtttcagctcattgtgattaaccctaagacgactctcagcgtgggtgtgatgctgtactgtcttcctccagggcaggctggcaggttcctggaaggtgacgtgaaagatcactgtgcagcagcaatcttgacttctggaacaattgccatttgggacttacttctcggtcagtgtactgccctcctcccacctgtctctgaccaacattggtcttttgtgaaatggtcgggtacagactctcatttgctggctggacaaaaagatggaaatatatttgtataccactattcataa(SEQID NO:3)。
野生型PALB2基因共编码1186个氨基酸,31号先证者的测序数据显示其编码区的第1709至1710位核苷酸发生缺失(缺失碱基为AG),发生移码突变,最终导致只能编码575个氨基酸。
5.使用金标准(Sanger测序)对5个致病突变位点进行验证
为了验证本发明的技术准确性,对5个突变位点所在的区域设计PCR引物,常规PCR扩增后进行Sanger测序,分析目标位点的峰图情况。验证结果显示:本发明的高通量测序分析结果与Sanger测序结果一致,5号、10号、15号、25号和31号样本的Sanger测序所得峰图分别如图3-7所示,图中阴影标记为突变所在/起始位点。
6.对突变携带者的相关家属进行突变验证和家族史分析
使用PCR联合Sanger测序法,分别对5个携带有乳腺癌易感基因突变的先证者的家属进行相应突变位点的验证,明确突变位点是否与疾病产生共分离。参与验证的家属包括母方和父方(其中一方存在乳腺癌等相关肿瘤家族史)的主要家族成员。验证结果表明,表现为乳腺癌家族史的一方亲属中的乳腺癌患者均携带和先证者相同的突变位点,而没有表现为乳腺癌家族史的一方亲属中不存在相应的突变位点。以上结果表明,我们所发现的5个乳腺癌易感基因突变位点会导致乳腺癌发生风险升高,是遗传性乳腺癌的致病突变。
由于目标区域芯片捕获联合NGS测序平台具有高通量、高准确性、高灵敏度等技术的特点,使得基于大规模人群的遗传性肿瘤易感基因突变检测的时间和成本得到大幅度降低。同时,建立在该平台上的信息分析方法和后续的变异解读则能够同时、全面的检测和注释遗传性肿瘤易感基因突变情况。因此,本发明不仅适合用于进行大规模人群的遗传性肿瘤易感基因突变检测,同时能够迅速积累大量的临床基因变异检测数据,为科学研究、临床应用及产业化提供大量、可靠的数据支持。
需要说明的是,本发明的遗传性肿瘤易感基因的基因突变的检测方法并非疾病的诊断方法,因为使用本发明检测到的突变结果只说明相关个体患相关癌症的风险较高,还需要结合临床结果和/或家族史分析等才能确认个体患病情况。
以上内容是结合具体的实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换。
Claims (14)
1.一种遗传性肿瘤易感基因目标序列捕获芯片,其特征在于,所述芯片为液相芯片,其上结合有能够同时捕获BARD1、BRCA2和PALB2基因的目标捕获区域的探针组合,其中BARD1基因包括c.640delA突变位点,BRCA2基因包括c.5800_5801insA、c.274_275insA和c.C1219T突变位点,PALB2基因包括c.1709_1710del突变位点,所述目标捕获区域包括所有外显子区域和外显子与内含子连接区域,所述遗传性肿瘤为乳腺癌。
2.根据权利要求1所述的遗传性肿瘤易感基因目标序列捕获芯片,其特征在于,所述液相芯片是以罗氏的Nimblegen EZ芯片为载体的液相芯片。
3.一种遗传性肿瘤易感基因目标序列捕获方法,其特征在于,所述方法包括使用权利要求1或2所述的遗传性肿瘤易感基因目标序列捕获芯片与待捕获DNA样本进行杂交的步骤。
4.一种遗传性肿瘤易感基因的基因突变的非诊断性检测方法,其特征在于,所述方法包括使用权利要求1或2所述的遗传性肿瘤易感基因目标序列捕获芯片与待捕获DNA样本进行杂交的步骤;和使用第二代高通量测序技术对捕获得到的目标DNA进行测序的步骤。
5.根据权利要求4所述的遗传性肿瘤易感基因的基因突变的非诊断性检测方法,其特征在于,所述方法包括如下步骤:
(1)将待检测的基因组DNA样本打断成片段;
(2)对步骤(1)打断的片段进行纯化、末端修复、加接头,并用PCR进行扩增;
(3)将步骤(2)得到的产物与权利要求1-4任一项所述的遗传性肿瘤易感基因目标序列捕获芯片进行杂交,捕获到所述目标捕获区域的DNA片段;
(4)将步骤(3)捕获到的所述目标捕获区域的DNA片段洗脱下来,获得需要的目标DNA;
(5)使用步骤(4)获得的目标DNA构建测序文库;
(6)使用第二代高通量测序对步骤(5)得到的测序文库进行测序,得到reads;
(7)将步骤(6)得到的reads与参考基因组进行比对分析。
6.根据权利要求5所述的遗传性肿瘤易感基因的基因突变的非诊断性检测方法,其特征在于,所述步骤(1)中将待检测的基因组DNA样本打断成长度为220-400bp的片段。
7.根据权利要求5所述的遗传性肿瘤易感基因的基因突变的非诊断性检测方法,其特征在于,所述基因突变的形式为碱基替换、插入或缺失以及片段缺失或扩增。
8.根据权利要求5所述的遗传性肿瘤易感基因的基因突变的非诊断性检测方法,其特征在于,所述步骤(2)中的接头为CG测序平台的A接头;所述(5)具体为:再次进行PCR,对双链DNA进行环化,在所述A接头两端26bp处进行酶切,对切口进行末端修复,加B接头,然后将DNA双链分离成单链,并对所述单链进行环化。
9.根据权利要求5所述的遗传性肿瘤易感基因的基因突变的非诊断性检测方法,其特征在于,所述步骤(6)中的第二代高通量测序为CG测序,并且保证每个所述测序文库的原始数据量达到0.6Gb以上,目标区域的测序深度达到400×以上,目标区域覆盖度达到99%以上。
10.根据权利要求5所述的遗传性肿瘤易感基因的基因突变的非诊断性检测方法,其特征在于,所述步骤(7)具体为:
首先,将测序得到的reads比对到参考基因组上,不允许有插入和缺失;
然后,鉴定可能与所述参考基因组不一样的区域,将有可能比对到这些区域的reads挑选出来进行局部组装,将组装得到的序列与所述参考基因组进行比较,确定各种类型的突变;
其后,对检测到的突变进行打分;
最后,过滤掉低于预定质量,低于预定深度,低于预定频率的突变,得到最终突变列表。
11.根据权利要求10所述的遗传性肿瘤易感基因的基因突变的非诊断性检测方法,其特征在于,所述将测序得到的reads比对到参考基因组上,不允许有插入和缺失,是用Teramap进行比对。
12.根据权利要求10所述的遗传性肿瘤易感基因的基因突变的非诊断性检测方法,其特征在于,所述对检测到的突变进行打分,是用varScoreVAF和varScoreEAF进行打分。
13.根据权利要求10所述的遗传性肿瘤易感基因的基因突变的非诊断性检测方法,其特征在于,所述预定深度是alt_depth<2/all reads<5,所述预定频率是MAF<0.25。
14.使用权利要求1或2所述的遗传性肿瘤易感基因目标序列捕获芯片或权利要求4-13任一项所述的遗传性肿瘤易感基因的基因突变的非诊断性检测方法检测到的核酸序列,所述核酸序列为SEQ ID NO:1所示的编码序列,其在第640位核苷酸A碱基发生缺失;或SEQ IDNO:2所示的编码序列,其在第5800和5801位核苷酸之间插入有碱基A,或在第274和275位核苷酸之间插入有碱基A,或在第1219位核苷酸位置发生无义突变;或SEQ ID NO:3所示的编码序列,其在第1709至1710位核苷酸发生碱基AG缺失。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410811075.8A CN105779572B (zh) | 2014-12-22 | 2014-12-22 | 肿瘤易感基因目标序列捕获芯片、方法及突变检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201410811075.8A CN105779572B (zh) | 2014-12-22 | 2014-12-22 | 肿瘤易感基因目标序列捕获芯片、方法及突变检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN105779572A CN105779572A (zh) | 2016-07-20 |
CN105779572B true CN105779572B (zh) | 2020-07-07 |
Family
ID=56376892
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201410811075.8A Active CN105779572B (zh) | 2014-12-22 | 2014-12-22 | 肿瘤易感基因目标序列捕获芯片、方法及突变检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105779572B (zh) |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107723364A (zh) * | 2016-08-12 | 2018-02-23 | 嘉兴允英医学检验有限公司 | 一种结直肠癌易感基因的筛查方法 |
CN106283199B (zh) * | 2016-08-27 | 2018-06-19 | 大连晶泰生物技术有限公司 | 检测肿瘤相关的50个热点突变基因的捕获文库和试剂盒 |
CN106319065B (zh) * | 2016-09-14 | 2020-03-10 | 上海思路迪医学检验所有限公司 | 基于高通量测序检测人brca1/2基因的捕获探针及试剂盒 |
CN107885972B (zh) * | 2016-09-30 | 2021-07-27 | 广州华大基因医学检验所有限公司 | 一种基于单端测序的融合基因检测方法及其应用 |
CN106407745A (zh) * | 2016-11-04 | 2017-02-15 | 成都鑫云解码科技有限公司 | 皮肤对应的基因的突变位点的获取方法及装置 |
CN110383385B (zh) * | 2016-12-08 | 2023-07-25 | 生命科技股份有限公司 | 从肿瘤样品中检测突变负荷的方法 |
CN106498082B (zh) * | 2016-12-20 | 2019-12-20 | 菁良基因科技(深圳)有限公司 | 卵巢癌易感基因变异文库构建方法 |
CN107292129A (zh) * | 2017-05-26 | 2017-10-24 | 中国科学院上海药物研究所 | 易感基因型检测方法 |
CN107502654A (zh) * | 2017-06-15 | 2017-12-22 | 至本医疗科技(上海)有限公司 | 用于实体瘤靶向用药指导的多基因富集和检测方法 |
CN109207471A (zh) * | 2017-06-30 | 2019-01-15 | 深圳华大基因股份有限公司 | 一种构建分片段核酸文库的方法及其应用 |
CN109385666A (zh) * | 2017-08-02 | 2019-02-26 | 深圳华大基因股份有限公司 | 淋巴瘤基因捕获芯片及其应用 |
WO2019173991A1 (zh) * | 2018-03-14 | 2019-09-19 | 深圳华大生命科学研究院 | 恶性淋巴瘤标志物及其应用 |
CN108920901B (zh) * | 2018-07-24 | 2019-10-01 | 中国医学科学院北京协和医院 | 一种测序数据突变分析系统 |
CN111690741A (zh) * | 2019-03-13 | 2020-09-22 | 复旦大学附属肿瘤医院 | 一种乳腺癌多基因筛选探针及其应用 |
CN110806479A (zh) * | 2019-11-15 | 2020-02-18 | 复旦大学附属肿瘤医院 | 一种乳腺癌相关的激酶变异的检测panel及其应用 |
CN110867207B (zh) * | 2019-11-26 | 2021-07-30 | 北京橡鑫生物科技有限公司 | 验证ngs变异检测方法的评估方法及评估装置 |
CN111009288B (zh) * | 2019-11-28 | 2023-08-29 | 苏州元德友勤医学检验所有限公司 | 一种cebpa基因的探针设计方法及其应用 |
CN113637735A (zh) * | 2021-08-09 | 2021-11-12 | 优葆优保健康科技(宁波)有限公司 | 一种儿童营养基因组检测试剂盒及应用 |
CN114014924B (zh) * | 2021-11-17 | 2022-06-10 | 安可来(重庆)生物医药科技有限公司 | 一种通过brca1和bard1蛋白提高基因编辑过程中同源重组效率的方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101104871A (zh) * | 2006-06-07 | 2008-01-16 | 天津医科大学附属肿瘤医院 | 乳腺癌标志基因群及其应用方法 |
CN102676642A (zh) * | 2011-03-17 | 2012-09-19 | 姬云 | 一种基于液相芯片的多靶点定量核酸检测方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5352775A (en) * | 1991-01-16 | 1994-10-04 | The Johns Hopkins Univ. | APC gene and nucleic acid probes derived therefrom |
AUPS037102A0 (en) * | 2002-02-07 | 2002-02-28 | Walter And Eliza Hall Institute Of Medical Research, The | A novel gene |
ATE555204T1 (de) * | 2005-10-04 | 2012-05-15 | Univ Regensburg | Verfahren zur herstellung künstlicher chromosomen,die frei von dna des wirtes sind |
-
2014
- 2014-12-22 CN CN201410811075.8A patent/CN105779572B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101104871A (zh) * | 2006-06-07 | 2008-01-16 | 天津医科大学附属肿瘤医院 | 乳腺癌标志基因群及其应用方法 |
CN102676642A (zh) * | 2011-03-17 | 2012-09-19 | 姬云 | 一种基于液相芯片的多靶点定量核酸检测方法 |
Non-Patent Citations (3)
Title |
---|
应用液相芯片分析肝细胞癌及癌旁组织小分子RNA表达谱差异;孙凯 等;《中华实验外壳杂志》;20060831;第23卷(第8期);第945-947页 * |
液相芯片技术在生物医学工程领域的研究进展;惠国华 等;《生物医学工程学杂志》;20101231;第27卷(第6期);第1406-1409页 * |
食管鳞癌中多基因表达的层次聚类分析;俞永康 等;《广东医学》;20131130;第34卷(第21期);第3305-3307页 * |
Also Published As
Publication number | Publication date |
---|---|
CN105779572A (zh) | 2016-07-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105779572B (zh) | 肿瘤易感基因目标序列捕获芯片、方法及突变检测方法 | |
Hu et al. | Next-generation sequencing technologies: An overview | |
CN108753967B (zh) | 一种用于肝癌检测的基因集及其panel检测设计方法 | |
CN106755501B (zh) | 一种基于二代测序的同时检测微卫星位点稳定性和基因组变化的方法 | |
TWI793586B (zh) | 血漿dna之單分子定序 | |
CN107177670B (zh) | 一种高通量检测帕金森病致病基因突变的方法 | |
Wadapurkar et al. | Computational analysis of next generation sequencing data and its applications in clinical oncology | |
Milbury et al. | COLD-PCR enrichment of rare cancer mutations prior to targeted amplicon resequencing | |
US20130324422A1 (en) | Detecting disease-correlated clonotypes from fixed samples | |
CN112375816A (zh) | 用序列标签进行大规模生物分子分析 | |
CN110211633B (zh) | Mgmt基因启动子甲基化的检测方法、测序数据的处理方法及处理装置 | |
CN111647648A (zh) | 一种用于检测乳腺癌基因突变的基因panel及其检测方法与应用 | |
WO2013037118A1 (zh) | 前列腺癌的生物学标志物、治疗靶点及其用途 | |
WO2020224159A1 (zh) | 基于二代测序用于脑胶质瘤的检测panel、检测试剂盒、检测方法及其应用 | |
Li et al. | CoolMPS: evaluation of antibody labeling based massively parallel non-coding RNA sequencing | |
CN113564266B (zh) | Snp分型遗传标记组合、检测试剂盒及用途 | |
Hopmans et al. | A programmable method for massively parallel targeted sequencing | |
US20240167078A1 (en) | Methods and systems for analyzing methylated polynucleotides | |
US20140364321A1 (en) | Method for analyzing DNA methylation based on MspJI cleavage | |
CN1982477A (zh) | 测定核酸中的突变和/或大规模改变的方法及其应用 | |
Buckley et al. | Targeted DNA methylation from cell-free DNA using hybridization probe capture | |
CN112442530A (zh) | 检测cah相关真假基因的方法 | |
CN113234822A (zh) | 一种捕获遗传性结直肠癌基因组靶序列的方法 | |
CA3157560A1 (en) | Methods, compositions and systems for improving the binding of methylated polynucleotides | |
CN106554993A (zh) | 试剂盒及其用途 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |