JMML相关基因甲基化水平评估方法、模型及构建方法
技术领域
本发明涉及分子生物学检测领域,具体涉及一种JMML相关基因甲基化水平评估方法、模型及构建方法。
背景技术
幼年型粒单核细胞白血病(juvenile myelomonocytic leukemia ,JMML)是一种克隆性骨髓多潜能造血干细胞疾病,主要发生于婴幼儿和儿童。其特征是粒系和单核系细胞异常增殖,外周血和骨髓中原始细胞+幼单核细胞<20%,并常伴有红系和巨核系细胞发育异常。无BCR-ABL融合基因,有特征性的累及RAS/MAPK通路基因的突变。当前建立的临床和遗传标记并不能完全概括该疾病的临床和生物学异质性。近年来研究发现,表观遗传学层面的因素,特别是DNA甲基化,对JMML的疾病分组或分型以及治疗效果评估,具有显著的科研和临床价值。
DNA 甲基化是在 DNA 甲基化转移酶的作用下将甲基选择性地添加到胞嘧啶上形成5-甲基化胞嘧啶的过程。DNA 甲基化是最早发现的基因修饰方式之一,可能存在于所有高等生物中,是表观遗传学(epigenetics)的重要组成部分。DNA 甲基化能关闭某些基因的活性,去甲基化则可诱导基因的重新活化和表达。它参与了动物胚胎发育、基因印迹和X染色体失活等过程,在基因表达的调控中具有重要作用,异常甲基化可以导致肿瘤的形成。
目前甲基化检测方法有特异位点的甲基化检测和全基因组的甲基化分析。特异位点的甲基化检测包括甲基化特异性PCR(MS-PCR),亚硫酸氢盐处理+测序,联合亚硫酸氢钠的限制性内切酶分析法(COBRA),荧光定量(Methylight),甲基化敏感性高分辨率熔解曲线分析,焦磷酸测序等;全基因组的甲基化分析包括甲基化芯片,高通量测序,飞行质谱等。
就全基因组的甲基化分析而言,目前流行的分析方法是芯片。Illumina的Infinium HumanMethylation850 BeadChip芯片,以单碱基分辨率覆盖了每个样品中超过85万个甲基化位点,实现了基因区域和CpG岛的全面覆盖。此外,还附加了甲基化专家所精选的高价值内容,包括CpG岛之外的CpG位点,在人类干细胞中鉴定出的非CpG甲基化位点,以及肿瘤和正常组织中差异表达的甲基化位点等等。它的高覆盖度、高通量以及低价格,让它成为筛选大样本人群的理想选择。
二代测序的飞速发展,使得测序成本大幅下降,也使得甲基化(methylome)的研究成为可能。然而全基因组甲基化测序的成本依然比较高,急需开发新的检测方法解决这一问题。
发明内容
针对上述现有技术的不足,本发明所要解决的问题是:如何提供一种JMML相关基因甲基化水平评估方法、模型及构建方法,以解决全基因组甲基化测序的成本高、效率低的问题。
为了解决上述问题,本发明采用了如下的技术方案:
一种用于构建JMML相关基因甲基化水平评估模型的方法,包括:
(1)确定JMML相关基因甲基化位点、设计探针,提取样本DNA,构建JMML相关基因甲基化文库;
(2)根据构建的JMML相关基因甲基化文库,进行碱基识别,去除序列接头、删除低质量碱基后比对至人基因组hg19,去冗余提取所有CpG位点信息;
(3)对所述JMML相关基因甲基化位点CpG进行聚类,并根据甲基化高低顺序,构建数据库,得到所述JMML相关基因甲基化水平评估模型。
具体的,所述样本DNA来源于离体骨髓液或外周血。
进一步,所述步骤(1)确定JMML相关基因甲基化位点包括:采用850K 芯片,检测多个阳性样本与多个阴性样本,筛选出差异化甲基化位点,并结合现有文献中筛选出部分差异化甲基化位点得出JMML相关基因甲基化位点;共计13999个位点。
具体的,所述现有文献为:Genome-wide DNA methylation is predictive ofoutcome in juvenile myelomonocytic leukemia。
进一步,所述步骤(1)设计探针包括:从所述JMML相关基因甲基化位点及前后75bp的位置,提取参考序列,根据参考序列的正向序列和反向序列,设计经过亚硫酸盐处理后的模拟高甲基化和低甲基化序列,然后以所述模拟高甲基化和低甲基化序列为模板从第一个碱基开始截取120bp的序列做探针,再一次往后移动 n 个碱基,截取120bp的序列做探针,直到最后一个120bp。
进一步,所述步骤(1)构建JMML相关基因甲基化文库包括:将所述样本DNA段化至200bp,进行末端修复和连接接头;将末端修复和连接接头后的样本DNA进行甲基化处理、PCR富集、文库质检和文库靶向富集,得到所述JMML相关基因甲基化文库;
所述接头由通用序列和防污染标签两部分构成,所述防污染标签包含8-10碱基,且接头中的胞嘧啶碱基全部被甲基化修饰,所述接头选择以下接头序列组中的一组或多组:
1-1.ACACTCTTTCCCTACACGACGCTCTTCCGATCTCGAGCTCA*T,
1-2.P-TGAGCTCGAGATCGGAAGAGCACACGTCT;
2-1.ACACTCTTTCCCTACACGACGCTCTTCCGATCTAGACATGCAG*T,
2-2.P-CTGCATGTCTAGATCGGAAGAGCACACGTCT;
3-1.ACACTCTTTCCCTACACGACGCTCTTCCGATCTGTCTAGCAC*T,
3-2.P-GTGCTAGACAGATCGGAAGAGCACACGTCT;
4-1.ACACTCTTTCCCTACACGACGCTCTTCCGATCTTACGCTAC*T,
4-2.P-GTAGCGTAAGATCGGAAGAGCACACGTCT;
5-1.ACACTCTTTCCCTACACGACGCTCTTCCGATCTCGTCACTAAG*T,
5-2.P-CTTAGTGACGAGATCGGAAGAGCACACGTCT;
6-1.ACACTCTTTCCCTACACGACGCTCTTCCGATCTCTCACGTGC*T,
6-2.P-GCACGTGAGAGATCGGAAGAGCACACGTCT;
7-1.ACACTCTTTCCCTACACGACGCTCTTCCGATCTATGTCTCA*T,
7-2.P-TGAGACATAGATCGGAAGAGCACACGTCT;
8-1.ACACTCTTTCCCTACACGACGCTCTTCCGATCTCACACGTCCA*T,
8-2.P-TGGACGTGTGAGATCGGAAGAGCACACGTCT;
9-1.ACACTCTTTCCCTACACGACGCTCTTCCGATCTACATCTCAG*T,
9-2.P-CTGAGATGTAGATCGGAAGAGCACACGTCT;
10-1.ACACTCTTTCCCTACACGACGCTCTTCCGATCTCGTAGCGT*T,
10-2.P-ACGCTACGAGATCGGAAGAGCACACGTCT。
进一步,所述步骤(2)中去除序列接头以及删除低质量碱基后比对至人基因组hg19包括:
使用cutadapt去除测序接头,删除低质量碱基,生成clean reads,其中 cutadapt的参数为-q10,10 --nextseq-trim=10 -a ATCTCGTATGCCGTCTTCTGCTTG -A AGATCGGAAGAGCGTCGTGTAGGGAAAGAGTGTAGATCTCGGTGGTCGCCGTATCATT,序列长度小于80;
使用Bismark将clean reads比对至人基因组hg19,生成bam文件;其中Bismark的参数为-un --genome_folder -N 1 -p 8 -L 30 -most_valid_alignments 3 -B --samtools_path –o --path_to_bowtie -1 -2。
进一步,所述步骤(2)中去冗余提取所有CpG位点信息包括:
使用Bismark中的deduplicate_bismark模块对对比后的bam文件去冗余,使用Bismark中的bismark_methylation_extractor模块对去冗余的bam文件提取所有CpG位点信息,参数为-p --no_overlap --ignore 4 --ignore_r2 4 --samtools_path --bedGraph --buffer_size 20G --cytosine_report --genome_folder -o ./ --multicore 10 bam。
本发明还提供所述用于构建JMML相关基因甲基化水平评估模型的方法构建的JMML相关基因甲基化水平评估模型。
进一步,所述JMML相关基因甲基化水平评估模型用于评估JMML病变水平。
本发明还提供一种JMML相关基因甲基化水平的非疾病诊断的评估方法,利用所述JMML相关基因甲基化水平评估模型对待测样本进行分析,将待测样本经过测序获得的数据与所述数据库混合,聚类得到所述待测样本的甲基化水平。
本发明的有益效果在于:本发明提供的JMML相关基因甲基化水平评估方法、模型及构建方法较目前全基因组甲基化测序的成本更低、耗时更短,可以准确高效的对JMML甲基化水平进行评估,更便于JMML预测。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步的详细描述,其中:
图1:本发明实施例Mann-Whitney 秩、检验的方法按照秩和检验的p值<0.05的标准进行差异甲基化位点的筛选得出的差异位点与850K芯片筛选得到的位点比对图;其中横轴为850K芯片检测结果,纵轴为捕获测序检测的结果;
图2:本发明实施例13999个甲基化位点甲基化状态图;
图3:本发明实施例疑似JMML患者的样本甲基化状态图。
具体实施方式
下面结合具体实施例对本发明作进一步的详细说明。
需要说明的是,这些实施例仅用于说明本发明,而不是对本发明的限制,在本发明的构思前提下本方法的简单改进,都属于本发明要求保护的范围。
实施例1 DNA甲基化检测方法建立
1、JMML相关的基因位点选择及探针设计
在患者知情同意的情况下,采集了32例临床上确诊为JMML患者骨髓液或外周血样本及8例正常患者的骨髓液或外周血样本,通过Illumina 850K 芯片检测后,对芯片数据进行分析,筛选出患者与正常人差异化的甲基化位点,同时参考Genome-wide DNAmethylation is predictive of outcome in juvenile myelomonocytic leukemia文献中部分差异化甲基化位点,共计13999个位点。
从上述13999个甲基化位点及前后75bp的位置,提取参考序列(参考基因组版本hg19),根据序列的正向序列和反向序列,设计经过亚硫酸盐处理后的模拟高甲基化和低甲基化序列,然后以这些序列为模板从第一个碱基开始截取120bp的序列做探针,再一次往后移动 n 个碱基,截取120bp的序列做探针,直到最后一个120bp。每个区域根据外显子的GC含量不同,n会有变化,GC含量太高或太低n越小,探针设计越密集以达到捕获的均一性提高。
2、样本DNA提取
骨髓液或外周血样本DNA提取:取300μL外周血或骨髓液按照血液DNA提取试剂盒(磁珠法)(康为,CWY0049)说明书提取基因组DNA后Qubit检测浓度。
3、基因组DNA甲基化文库构建
(1)甲基化防污染接头设计及合成
甲基化防污染接头由通用序列、防污染标签两部分构成,防污染标签包含8-10碱基(随机序列),且接头中的胞嘧啶(C)碱基全部被甲基化修饰,具体见表1(*T 硫代修饰 ,P磷酸化修饰),按照表中序列合成接头。将合成的接头的干粉用高速离心机12000 rpm离心,加入一定体积的 pH为8.0、10mM Tris-HCl稀释至100μM;将接头1和接各取50μL 100μM按照表2的反应程序退火后使用。
表1 甲基化防污染接头序列
接头编号 |
接头序列 |
修饰 |
SEQ ID NO |
1_1 |
ACACTCTTTCCCTACACGACGCTCTTCCGATCTCGAGCTCA*T |
5-MethyldC |
1 |
1_2 |
P-TGAGCTCGAGATCGGAAGAGCACACGTCT |
5-MethyldC |
2 |
2_1 |
ACACTCTTTCCCTACACGACGCTCTTCCGATCTAGACATGCAG*T |
5-MethyldC |
3 |
2_2 |
P-CTGCATGTCTAGATCGGAAGAGCACACGTCT |
5-MethyldC |
4 |
3_1 |
ACACTCTTTCCCTACACGACGCTCTTCCGATCTGTCTAGCAC*T |
5-MethyldC |
5 |
3_2 |
P-GTGCTAGACAGATCGGAAGAGCACACGTCT |
5-MethyldC |
6 |
4_1 |
ACACTCTTTCCCTACACGACGCTCTTCCGATCTTACGCTAC*T |
5-MethyldC |
7 |
4_2 |
P-GTAGCGTAAGATCGGAAGAGCACACGTCT |
5-MethyldC |
8 |
5_1 |
ACACTCTTTCCCTACACGACGCTCTTCCGATCTCGTCACTAAG*T |
5-MethyldC |
9 |
5_2 |
P-CTTAGTGACGAGATCGGAAGAGCACACGTCT |
5-MethyldC |
10 |
6_1 |
ACACTCTTTCCCTACACGACGCTCTTCCGATCTCTCACGTGC*T |
5-MethyldC |
11 |
6_2 |
P-GCACGTGAGAGATCGGAAGAGCACACGTCT |
5-MethyldC |
12 |
7_1 |
ACACTCTTTCCCTACACGACGCTCTTCCGATCTATGTCTCA*T |
5-MethyldC |
13 |
7_2 |
P-TGAGACATAGATCGGAAGAGCACACGTCT |
5-MethyldC |
14 |
8_1 |
ACACTCTTTCCCTACACGACGCTCTTCCGATCTCACACGTCCA*T |
5-MethyldC |
15 |
8_2 |
P-TGGACGTGTGAGATCGGAAGAGCACACGTCT |
5-MethyldC |
16 |
9_1 |
ACACTCTTTCCCTACACGACGCTCTTCCGATCTACATCTCAG*T |
5-MethyldC |
17 |
9_2 |
P-CTGAGATGTAGATCGGAAGAGCACACGTCT |
5-MethyldC |
18 |
10_1 |
ACACTCTTTCCCTACACGACGCTCTTCCGATCTCGTAGCGT*T |
5-MethyldC |
19 |
10_2 |
P-ACGCTACGAGATCGGAAGAGCACACGTCT |
5-MethyldC |
20 |
表2 退火反应程序
步骤 |
温度 |
时间 |
1 |
95℃ |
2min |
2 |
按照0.1℃/8s下降至25℃ |
约90min |
3 |
4℃ |
Hold |
(2)基因组DNA甲基化文库构建
A.基因组DNA片段化
使用Covaris 超声打断仪按照相关的说明书将从外周血或骨髓液中获得DNA片段化至200bp。
将步骤2中外周血或骨髓液中获得DNA利用Covaris超声打断仪(Covaris,S220)按照参数Peak Incident Power 175W、Duty Factor 10%、Cycles per Burst 200、TreatmentTime 180s片段化至200bp左右。
B.末端修复、连接接头
按照2000:1的比例在片段化DNA中加入Lambda DNA后使用Rapid Max DNA LibPrep Kit for Illumina(Abclonal,RK20217)试剂盒进行末端修复、连接接头。其中接头为步骤(1)中合成的甲基化修饰接头。
C.文库甲基化处理
使用Epitect Plus DNA Plus DNA Bisufite Kit(Qiagen,59124)甲基化处理试剂盒按照说明书对上一步产物进行甲基化处理。
D.PCR富集
将上一步甲基化产物使用KAPA HIFI高保真甲基化文库扩增试剂(KAPA,KK2802)进行扩增,并进行纯化,纯化使用Magbead DNA purification kit(康为,CW2508M)。
E.文库质检
上一步产物用qubit检测浓度。
4、文库靶向富集
将待测样本细胞或组织基因组DNA为文库按照专利201810580442.6实施例1的试剂和实施例2的方法进行靶向捕获。
5、生信分析
(1)碱基识别
使用Illumina官方软件bcf2fastq(version 2.15.0.4),根据样本index序列,将Illumina测序仪下机二进制BCF格式文件转化并拆分为单个样本可读文件fastq格式。
(2)数据质控
使用cutadapt(version 1.16)去除测序接头,删除低质量碱基,生成cleanreads。其中 cutadapt(version 1.16)的参数为(-q10,10 --nextseq-trim=10 -aATCTCGTATGCCGTCTTCTGCTTG -A AGATCGGAAGAGCGTCGTGTAGGGAAAGAGTGTAGATCTCGGTGGTCGCCGTATCATT),序列长度小于80。
(3)数据比对
使用甲基化比对专用软件Bismark(v0.17.0)将clean reads比对至人基因组hg19,其中Bismark比对参数为(-un --genome_folder -N 1 -p 8 -L 30 -most_valid_alignments 3 -B --samtools_path –o --path_to_bowtie -1 -2),生成bam文件
使用Bismark中的deduplicate_bismark模块对对比后的bam文件去冗余。
使用Bismark中的bismark_methylation_extractor模块对去冗余的bam文件提取CpG位点信息,参数为(-p --no_overlap --ignore 4 --ignore_r2 4 --samtools_path--bedGraph --buffer_size 20G --cytosine_report --genome_folder -o ./ --multicore 10 bam)
(4)CpG位点提取
通过bismark_methylation_extractor模块提取所有的CpG位点信息。
(5)数据库构建
使用32个JMML阳性样本与8个正常人样本中的13999个CpG位点进行聚类,按照聚类顺序划分高甲基化、中甲基化、低甲基化。
(6)待检样本甲基化水平判断
待检样本经过测序获得数据与数据库的样本混合在一起,聚类得到待检样本的甲基化水平。
实施例2
采用实施例1的方法建立预测模型
采集32例临床诊断为JMML的样本和8例正常人样本(均经患者知情同意)的样本按照实施例1的方法检测并建立甲基化分类模型。
实施例1的探针和方法靶向富集目标区域文库经高通量测序,结果显示:实施例1的探针、试剂及方法对目标区域具有高捕获率,达到60%以上;目标区域的有效平均测序深度为300X以上;覆盖度达到94%以上(部分数据见表3)。
表3 利用本发明方法检测样本的质控数据结果
样本编号 |
原始数据序列数(Mb) |
过滤后数据序列数(Mb) |
比对率 |
目标区域捕获效率(%) |
平均测序深度 |
目标区域覆盖度 |
JMML-1 |
2547.49 |
2046.93 |
70.30 |
73.23 |
335.60 |
94.08 |
JMML-2 |
3761.23 |
3172.53 |
75.40 |
76.60 |
525.44 |
94.68 |
JMML-3 |
3418.42 |
2751.10 |
68.10 |
55.20 |
325.19 |
94.30 |
JMML-4 |
3102.05 |
2566.40 |
76.10 |
54.12 |
318.09 |
94.40 |
JMML-5 |
3219.92 |
2679.41 |
76.70 |
58.36 |
325.18 |
94.45 |
JMML-6 |
3068.08 |
2476.76 |
64.50 |
65.18 |
304.99 |
94.11 |
JMML-7 |
3879.01 |
3221.88 |
75.30 |
61.62 |
399.84 |
94.56 |
JMML-8 |
4254.05 |
3572.57 |
76.90 |
65.84 |
434.92 |
94.63 |
JMML-9 |
6873.23 |
5571.54 |
67.10 |
60.35 |
646.33 |
94.94 |
JMML-10 |
4072.11 |
3361.84 |
74.00 |
55.70 |
387.59 |
94.62 |
JMML-11 |
4480.10 |
3766.94 |
76.70 |
60.17 |
429.05 |
94.71 |
JMML-12 |
6097.37 |
5049.00 |
75.70 |
56.73 |
526.79 |
94.96 |
JMML-13 |
3394.97 |
2871.34 |
76.70 |
72.74 |
407.20 |
94.62 |
JMML-14 |
4385.74 |
3504.49 |
69.70 |
49.67 |
368.92 |
94.48 |
JMML-15 |
3487.56 |
2893.60 |
75.90 |
55.60 |
370.59 |
94.51 |
JMML-16 |
4809.40 |
4031.16 |
77.20 |
61.72 |
460.67 |
94.70 |
JMML-17 |
4976.81 |
4008.19 |
67.90 |
52.40 |
455.98 |
94.61 |
JMML-18 |
4090.51 |
3399.55 |
75.20 |
62.15 |
446.25 |
94.58 |
JMML-19 |
4072.11 |
3444.93 |
78.40 |
61.71 |
400.12 |
94.56 |
JMML-20 |
4382.89 |
3519.56 |
67.10 |
44.23 |
352.72 |
94.48 |
将32例临床诊断为JMML的样本和8例正常人样本捕获测序获得数据采用Mann-Whitney 秩和检验的方法按照秩和检验的p值<0.05的标准进行差异甲基化位点的筛选,将筛选的差异位点与850K芯片筛选到位点比对,二者的结果高度一致,部分结果见附图1。
同时将32例临床诊断为JMML的样本和8例正常人样本捕获测序获得的13999个甲基化位点与后进行聚类,并按照聚类顺序分为低甲基化、中甲基化、高甲基化,建立成预测模型,结果见附图2。
将2例疑似JMML患者的样本按照实施例1的方法捕获测序获数据与模型中数据混在一起做聚类分析,得到该样本的甲基化状态,结果见附图3。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管通过参照本发明的优选实施例已经对本发明进行了描述,但本领域的普通技术人员应当理解,可以在形式上和细节上对其作出各种各样的改变,而不偏离所附权利要求书所限定的本发明的精神和范围。
序列表
<110> 北京迈基诺基因科技股份有限公司
<120> JMML相关基因甲基化水平评估方法、模型及构建方法
<160> 20
<170> SIPOSequenceListing 1.0
<210> 1
<211> 41
<212> DNA
<213> Synthetic sequence
<400> 1
acactctttc cctacacgac gctcttccga tctcgagctc a 41
<210> 2
<211> 29
<212> DNA
<213> Synthetic sequence
<400> 2
tgagctcgag atcggaagag cacacgtct 29
<210> 3
<211> 43
<212> DNA
<213> Synthetic sequence
<400> 3
acactctttc cctacacgac gctcttccga tctagacatg cag 43
<210> 4
<211> 31
<212> DNA
<213> Synthetic sequence
<400> 4
ctgcatgtct agatcggaag agcacacgtc t 31
<210> 5
<211> 42
<212> DNA
<213> Synthetic sequence
<400> 5
acactctttc cctacacgac gctcttccga tctgtctagc ac 42
<210> 6
<211> 30
<212> DNA
<213> Synthetic sequence
<400> 6
gtgctagaca gatcggaaga gcacacgtct 30
<210> 7
<211> 41
<212> DNA
<213> Synthetic sequence
<400> 7
acactctttc cctacacgac gctcttccga tcttacgcta c 41
<210> 8
<211> 29
<212> DNA
<213> Synthetic sequence
<400> 8
gtagcgtaag atcggaagag cacacgtct 29
<210> 9
<211> 43
<212> DNA
<213> Synthetic sequence
<400> 9
acactctttc cctacacgac gctcttccga tctcgtcact aag 43
<210> 10
<211> 31
<212> DNA
<213> Synthetic sequence
<400> 10
cttagtgacg agatcggaag agcacacgtc t 31
<210> 11
<211> 42
<212> DNA
<213> Synthetic sequence
<400> 11
acactctttc cctacacgac gctcttccga tctctcacgt gc 42
<210> 12
<211> 30
<212> DNA
<213> Synthetic sequence
<400> 12
gcacgtgaga gatcggaaga gcacacgtct 30
<210> 13
<211> 41
<212> DNA
<213> Synthetic sequence
<400> 13
acactctttc cctacacgac gctcttccga tctatgtctc a 41
<210> 14
<211> 29
<212> DNA
<213> Synthetic sequence
<400> 14
tgagacatag atcggaagag cacacgtct 29
<210> 15
<211> 43
<212> DNA
<213> Synthetic sequence
<400> 15
acactctttc cctacacgac gctcttccga tctcacacgt cca 43
<210> 16
<211> 31
<212> DNA
<213> Synthetic sequence
<400> 16
tggacgtgtg agatcggaag agcacacgtc t 31
<210> 17
<211> 42
<212> DNA
<213> Synthetic sequence
<400> 17
acactctttc cctacacgac gctcttccga tctacatctc ag 42
<210> 18
<211> 30
<212> DNA
<213> Synthetic sequence
<400> 18
ctgagatgta gatcggaaga gcacacgtct 30
<210> 19
<211> 41
<212> DNA
<213> Synthetic sequence
<400> 19
acactctttc cctacacgac gctcttccga tctcgtagcg t 41
<210> 20
<211> 29
<212> DNA
<213> Synthetic sequence
<400> 20
acgctacgag atcggaagag cacacgtct 29