CN113948150B - Jmml相关基因甲基化水平评估方法、模型及构建方法 - Google Patents

Jmml相关基因甲基化水平评估方法、模型及构建方法 Download PDF

Info

Publication number
CN113948150B
CN113948150B CN202111567840.2A CN202111567840A CN113948150B CN 113948150 B CN113948150 B CN 113948150B CN 202111567840 A CN202111567840 A CN 202111567840A CN 113948150 B CN113948150 B CN 113948150B
Authority
CN
China
Prior art keywords
jmml
methylation
sequence
related gene
sites
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111567840.2A
Other languages
English (en)
Other versions
CN113948150A (zh
Inventor
伍建
姬晓雯
王海丽
刘娜
韩路
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mygenostics Chongqing Gene Technology Co ltd
Original Assignee
Beijing Mygenostics Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Mygenostics Co ltd filed Critical Beijing Mygenostics Co ltd
Priority to CN202111567840.2A priority Critical patent/CN113948150B/zh
Publication of CN113948150A publication Critical patent/CN113948150A/zh
Application granted granted Critical
Publication of CN113948150B publication Critical patent/CN113948150B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/154Methylation markers

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Chemical & Material Sciences (AREA)
  • Medical Informatics (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Organic Chemistry (AREA)
  • Analytical Chemistry (AREA)
  • Zoology (AREA)
  • Databases & Information Systems (AREA)
  • Immunology (AREA)
  • Bioethics (AREA)
  • Pathology (AREA)
  • Genetics & Genomics (AREA)
  • Wood Science & Technology (AREA)
  • Molecular Biology (AREA)
  • Biochemistry (AREA)
  • Data Mining & Analysis (AREA)
  • Oncology (AREA)
  • Hospice & Palliative Care (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Microbiology (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Physiology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明涉及分子生物学检测领域,具体涉及一种JMML相关基因甲基化水平评估方法、模型及构建方法,通过确定JMML相关基因甲基化位点、设计探针,提取样本DNA,构建JMML相关基因甲基化文库,根据构建的JMML相关基因甲基化文库,进行碱基识别,去除序列接头以及删除低质量碱基后比对至人基因组hg19,去冗余提取所有CpG位点,对JMML相关基因甲基化位点CpG进行聚类,按照聚类顺序划分高甲基化、中甲基化、低甲基化,构建数据库;本发明方法以及构建的模型可减少全基因组甲基化测序的成本高和耗时长的问题,便于更高效快速的对JMML相关基因甲基化水平进行评估,利于JMML预后风险评估。

Description

JMML相关基因甲基化水平评估方法、模型及构建方法
技术领域
本发明涉及分子生物学检测领域,具体涉及一种JMML相关基因甲基化水平评估方法、模型及构建方法。
背景技术
幼年型粒单核细胞白血病(juvenile myelomonocytic leukemia ,JMML)是一种克隆性骨髓多潜能造血干细胞疾病,主要发生于婴幼儿和儿童。其特征是粒系和单核系细胞异常增殖,外周血和骨髓中原始细胞+幼单核细胞<20%,并常伴有红系和巨核系细胞发育异常。无BCR-ABL融合基因,有特征性的累及RAS/MAPK通路基因的突变。当前建立的临床和遗传标记并不能完全概括该疾病的临床和生物学异质性。近年来研究发现,表观遗传学层面的因素,特别是DNA甲基化,对JMML的疾病分组或分型以及治疗效果评估,具有显著的科研和临床价值。
DNA 甲基化是在 DNA 甲基化转移酶的作用下将甲基选择性地添加到胞嘧啶上形成5-甲基化胞嘧啶的过程。DNA 甲基化是最早发现的基因修饰方式之一,可能存在于所有高等生物中,是表观遗传学(epigenetics)的重要组成部分。DNA 甲基化能关闭某些基因的活性,去甲基化则可诱导基因的重新活化和表达。它参与了动物胚胎发育、基因印迹和X染色体失活等过程,在基因表达的调控中具有重要作用,异常甲基化可以导致肿瘤的形成。
目前甲基化检测方法有特异位点的甲基化检测和全基因组的甲基化分析。特异位点的甲基化检测包括甲基化特异性PCR(MS-PCR),亚硫酸氢盐处理+测序,联合亚硫酸氢钠的限制性内切酶分析法(COBRA),荧光定量(Methylight),甲基化敏感性高分辨率熔解曲线分析,焦磷酸测序等;全基因组的甲基化分析包括甲基化芯片,高通量测序,飞行质谱等。
就全基因组的甲基化分析而言,目前流行的分析方法是芯片。Illumina的Infinium HumanMethylation850 BeadChip芯片,以单碱基分辨率覆盖了每个样品中超过85万个甲基化位点,实现了基因区域和CpG岛的全面覆盖。此外,还附加了甲基化专家所精选的高价值内容,包括CpG岛之外的CpG位点,在人类干细胞中鉴定出的非CpG甲基化位点,以及肿瘤和正常组织中差异表达的甲基化位点等等。它的高覆盖度、高通量以及低价格,让它成为筛选大样本人群的理想选择。
二代测序的飞速发展,使得测序成本大幅下降,也使得甲基化(methylome)的研究成为可能。然而全基因组甲基化测序的成本依然比较高,急需开发新的检测方法解决这一问题。
发明内容
针对上述现有技术的不足,本发明所要解决的问题是:如何提供一种JMML相关基因甲基化水平评估方法、模型及构建方法,以解决全基因组甲基化测序的成本高、效率低的问题。
为了解决上述问题,本发明采用了如下的技术方案:
一种用于构建JMML相关基因甲基化水平评估模型的方法,包括:
(1)确定JMML相关基因甲基化位点、设计探针,提取样本DNA,构建JMML相关基因甲基化文库;
(2)根据构建的JMML相关基因甲基化文库,进行碱基识别,去除序列接头、删除低质量碱基后比对至人基因组hg19,去冗余提取所有CpG位点信息;
(3)对所述JMML相关基因甲基化位点CpG进行聚类,并根据甲基化高低顺序,构建数据库,得到所述JMML相关基因甲基化水平评估模型。
具体的,所述样本DNA来源于离体骨髓液或外周血。
进一步,所述步骤(1)确定JMML相关基因甲基化位点包括:采用850K 芯片,检测多个阳性样本与多个阴性样本,筛选出差异化甲基化位点,并结合现有文献中筛选出部分差异化甲基化位点得出JMML相关基因甲基化位点;共计13999个位点。
具体的,所述现有文献为:Genome-wide DNA methylation is predictive ofoutcome in juvenile myelomonocytic leukemia。
进一步,所述步骤(1)设计探针包括:从所述JMML相关基因甲基化位点及前后75bp的位置,提取参考序列,根据参考序列的正向序列和反向序列,设计经过亚硫酸盐处理后的模拟高甲基化和低甲基化序列,然后以所述模拟高甲基化和低甲基化序列为模板从第一个碱基开始截取120bp的序列做探针,再一次往后移动 n 个碱基,截取120bp的序列做探针,直到最后一个120bp。
进一步,所述步骤(1)构建JMML相关基因甲基化文库包括:将所述样本DNA段化至200bp,进行末端修复和连接接头;将末端修复和连接接头后的样本DNA进行甲基化处理、PCR富集、文库质检和文库靶向富集,得到所述JMML相关基因甲基化文库;
所述接头由通用序列和防污染标签两部分构成,所述防污染标签包含8-10碱基,且接头中的胞嘧啶碱基全部被甲基化修饰,所述接头选择以下接头序列组中的一组或多组:
1-1.ACACTCTTTCCCTACACGACGCTCTTCCGATCTCGAGCTCA*T,
1-2.P-TGAGCTCGAGATCGGAAGAGCACACGTCT;
2-1.ACACTCTTTCCCTACACGACGCTCTTCCGATCTAGACATGCAG*T,
2-2.P-CTGCATGTCTAGATCGGAAGAGCACACGTCT;
3-1.ACACTCTTTCCCTACACGACGCTCTTCCGATCTGTCTAGCAC*T,
3-2.P-GTGCTAGACAGATCGGAAGAGCACACGTCT;
4-1.ACACTCTTTCCCTACACGACGCTCTTCCGATCTTACGCTAC*T,
4-2.P-GTAGCGTAAGATCGGAAGAGCACACGTCT;
5-1.ACACTCTTTCCCTACACGACGCTCTTCCGATCTCGTCACTAAG*T,
5-2.P-CTTAGTGACGAGATCGGAAGAGCACACGTCT;
6-1.ACACTCTTTCCCTACACGACGCTCTTCCGATCTCTCACGTGC*T,
6-2.P-GCACGTGAGAGATCGGAAGAGCACACGTCT;
7-1.ACACTCTTTCCCTACACGACGCTCTTCCGATCTATGTCTCA*T,
7-2.P-TGAGACATAGATCGGAAGAGCACACGTCT;
8-1.ACACTCTTTCCCTACACGACGCTCTTCCGATCTCACACGTCCA*T,
8-2.P-TGGACGTGTGAGATCGGAAGAGCACACGTCT;
9-1.ACACTCTTTCCCTACACGACGCTCTTCCGATCTACATCTCAG*T,
9-2.P-CTGAGATGTAGATCGGAAGAGCACACGTCT;
10-1.ACACTCTTTCCCTACACGACGCTCTTCCGATCTCGTAGCGT*T,
10-2.P-ACGCTACGAGATCGGAAGAGCACACGTCT。
进一步,所述步骤(2)中去除序列接头以及删除低质量碱基后比对至人基因组hg19包括:
使用cutadapt去除测序接头,删除低质量碱基,生成clean reads,其中 cutadapt的参数为-q10,10 --nextseq-trim=10 -a ATCTCGTATGCCGTCTTCTGCTTG -A AGATCGGAAGAGCGTCGTGTAGGGAAAGAGTGTAGATCTCGGTGGTCGCCGTATCATT,序列长度小于80;
使用Bismark将clean reads比对至人基因组hg19,生成bam文件;其中Bismark的参数为-un --genome_folder -N 1 -p 8 -L 30 -most_valid_alignments 3 -B --samtools_path –o --path_to_bowtie -1 -2。
进一步,所述步骤(2)中去冗余提取所有CpG位点信息包括:
使用Bismark中的deduplicate_bismark模块对对比后的bam文件去冗余,使用Bismark中的bismark_methylation_extractor模块对去冗余的bam文件提取所有CpG位点信息,参数为-p --no_overlap --ignore 4 --ignore_r2 4 --samtools_path --bedGraph --buffer_size 20G --cytosine_report --genome_folder -o ./ --multicore 10 bam。
本发明还提供所述用于构建JMML相关基因甲基化水平评估模型的方法构建的JMML相关基因甲基化水平评估模型。
进一步,所述JMML相关基因甲基化水平评估模型用于评估JMML病变水平。
本发明还提供一种JMML相关基因甲基化水平的非疾病诊断的评估方法,利用所述JMML相关基因甲基化水平评估模型对待测样本进行分析,将待测样本经过测序获得的数据与所述数据库混合,聚类得到所述待测样本的甲基化水平。
本发明的有益效果在于:本发明提供的JMML相关基因甲基化水平评估方法、模型及构建方法较目前全基因组甲基化测序的成本更低、耗时更短,可以准确高效的对JMML甲基化水平进行评估,更便于JMML预测。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步的详细描述,其中:
图1:本发明实施例Mann-Whitney 秩、检验的方法按照秩和检验的p值<0.05的标准进行差异甲基化位点的筛选得出的差异位点与850K芯片筛选得到的位点比对图;其中横轴为850K芯片检测结果,纵轴为捕获测序检测的结果;
图2:本发明实施例13999个甲基化位点甲基化状态图;
图3:本发明实施例疑似JMML患者的样本甲基化状态图。
具体实施方式
下面结合具体实施例对本发明作进一步的详细说明。
需要说明的是,这些实施例仅用于说明本发明,而不是对本发明的限制,在本发明的构思前提下本方法的简单改进,都属于本发明要求保护的范围。
实施例1 DNA甲基化检测方法建立
1、JMML相关的基因位点选择及探针设计
在患者知情同意的情况下,采集了32例临床上确诊为JMML患者骨髓液或外周血样本及8例正常患者的骨髓液或外周血样本,通过Illumina 850K 芯片检测后,对芯片数据进行分析,筛选出患者与正常人差异化的甲基化位点,同时参考Genome-wide DNAmethylation is predictive of outcome in juvenile myelomonocytic leukemia文献中部分差异化甲基化位点,共计13999个位点。
从上述13999个甲基化位点及前后75bp的位置,提取参考序列(参考基因组版本hg19),根据序列的正向序列和反向序列,设计经过亚硫酸盐处理后的模拟高甲基化和低甲基化序列,然后以这些序列为模板从第一个碱基开始截取120bp的序列做探针,再一次往后移动 n 个碱基,截取120bp的序列做探针,直到最后一个120bp。每个区域根据外显子的GC含量不同,n会有变化,GC含量太高或太低n越小,探针设计越密集以达到捕获的均一性提高。
2、样本DNA提取
骨髓液或外周血样本DNA提取:取300μL外周血或骨髓液按照血液DNA提取试剂盒(磁珠法)(康为,CWY0049)说明书提取基因组DNA后Qubit检测浓度。
3、基因组DNA甲基化文库构建
(1)甲基化防污染接头设计及合成
甲基化防污染接头由通用序列、防污染标签两部分构成,防污染标签包含8-10碱基(随机序列),且接头中的胞嘧啶(C)碱基全部被甲基化修饰,具体见表1(*T 硫代修饰 ,P磷酸化修饰),按照表中序列合成接头。将合成的接头的干粉用高速离心机12000 rpm离心,加入一定体积的 pH为8.0、10mM Tris-HCl稀释至100μM;将接头1和接各取50μL 100μM按照表2的反应程序退火后使用。
表1 甲基化防污染接头序列
接头编号 接头序列 修饰 SEQ ID NO
1_1 ACACTCTTTCCCTACACGACGCTCTTCCGATCTCGAGCTCA*T 5-MethyldC 1
1_2 P-TGAGCTCGAGATCGGAAGAGCACACGTCT 5-MethyldC 2
2_1 ACACTCTTTCCCTACACGACGCTCTTCCGATCTAGACATGCAG*T 5-MethyldC 3
2_2 P-CTGCATGTCTAGATCGGAAGAGCACACGTCT 5-MethyldC 4
3_1 ACACTCTTTCCCTACACGACGCTCTTCCGATCTGTCTAGCAC*T 5-MethyldC 5
3_2 P-GTGCTAGACAGATCGGAAGAGCACACGTCT 5-MethyldC 6
4_1 ACACTCTTTCCCTACACGACGCTCTTCCGATCTTACGCTAC*T 5-MethyldC 7
4_2 P-GTAGCGTAAGATCGGAAGAGCACACGTCT 5-MethyldC 8
5_1 ACACTCTTTCCCTACACGACGCTCTTCCGATCTCGTCACTAAG*T 5-MethyldC 9
5_2 P-CTTAGTGACGAGATCGGAAGAGCACACGTCT 5-MethyldC 10
6_1 ACACTCTTTCCCTACACGACGCTCTTCCGATCTCTCACGTGC*T 5-MethyldC 11
6_2 P-GCACGTGAGAGATCGGAAGAGCACACGTCT 5-MethyldC 12
7_1 ACACTCTTTCCCTACACGACGCTCTTCCGATCTATGTCTCA*T 5-MethyldC 13
7_2 P-TGAGACATAGATCGGAAGAGCACACGTCT 5-MethyldC 14
8_1 ACACTCTTTCCCTACACGACGCTCTTCCGATCTCACACGTCCA*T 5-MethyldC 15
8_2 P-TGGACGTGTGAGATCGGAAGAGCACACGTCT 5-MethyldC 16
9_1 ACACTCTTTCCCTACACGACGCTCTTCCGATCTACATCTCAG*T 5-MethyldC 17
9_2 P-CTGAGATGTAGATCGGAAGAGCACACGTCT 5-MethyldC 18
10_1 ACACTCTTTCCCTACACGACGCTCTTCCGATCTCGTAGCGT*T 5-MethyldC 19
10_2 P-ACGCTACGAGATCGGAAGAGCACACGTCT 5-MethyldC 20
表2 退火反应程序
步骤 温度 时间
1 95℃ 2min
2 按照0.1℃/8s下降至25℃ 约90min
3 4℃ Hold
(2)基因组DNA甲基化文库构建
A.基因组DNA片段化
使用Covaris 超声打断仪按照相关的说明书将从外周血或骨髓液中获得DNA片段化至200bp。
将步骤2中外周血或骨髓液中获得DNA利用Covaris超声打断仪(Covaris,S220)按照参数Peak Incident Power 175W、Duty Factor 10%、Cycles per Burst 200、TreatmentTime 180s片段化至200bp左右。
B.末端修复、连接接头
按照2000:1的比例在片段化DNA中加入Lambda DNA后使用Rapid Max DNA LibPrep Kit for Illumina(Abclonal,RK20217)试剂盒进行末端修复、连接接头。其中接头为步骤(1)中合成的甲基化修饰接头。
C.文库甲基化处理
使用Epitect Plus DNA Plus DNA Bisufite Kit(Qiagen,59124)甲基化处理试剂盒按照说明书对上一步产物进行甲基化处理。
D.PCR富集
将上一步甲基化产物使用KAPA HIFI高保真甲基化文库扩增试剂(KAPA,KK2802)进行扩增,并进行纯化,纯化使用Magbead DNA purification kit(康为,CW2508M)。
E.文库质检
上一步产物用qubit检测浓度。
4、文库靶向富集
将待测样本细胞或组织基因组DNA为文库按照专利201810580442.6实施例1的试剂和实施例2的方法进行靶向捕获。
5、生信分析
(1)碱基识别
使用Illumina官方软件bcf2fastq(version 2.15.0.4),根据样本index序列,将Illumina测序仪下机二进制BCF格式文件转化并拆分为单个样本可读文件fastq格式。
(2)数据质控
使用cutadapt(version 1.16)去除测序接头,删除低质量碱基,生成cleanreads。其中 cutadapt(version 1.16)的参数为(-q10,10 --nextseq-trim=10 -aATCTCGTATGCCGTCTTCTGCTTG -A AGATCGGAAGAGCGTCGTGTAGGGAAAGAGTGTAGATCTCGGTGGTCGCCGTATCATT),序列长度小于80。
(3)数据比对
使用甲基化比对专用软件Bismark(v0.17.0)将clean reads比对至人基因组hg19,其中Bismark比对参数为(-un --genome_folder -N 1 -p 8 -L 30 -most_valid_alignments 3 -B --samtools_path –o --path_to_bowtie -1 -2),生成bam文件
使用Bismark中的deduplicate_bismark模块对对比后的bam文件去冗余。
使用Bismark中的bismark_methylation_extractor模块对去冗余的bam文件提取CpG位点信息,参数为(-p --no_overlap --ignore 4 --ignore_r2 4 --samtools_path--bedGraph --buffer_size 20G --cytosine_report --genome_folder -o ./ --multicore 10 bam)
(4)CpG位点提取
通过bismark_methylation_extractor模块提取所有的CpG位点信息。
(5)数据库构建
使用32个JMML阳性样本与8个正常人样本中的13999个CpG位点进行聚类,按照聚类顺序划分高甲基化、中甲基化、低甲基化。
(6)待检样本甲基化水平判断
待检样本经过测序获得数据与数据库的样本混合在一起,聚类得到待检样本的甲基化水平。
实施例2
采用实施例1的方法建立预测模型
采集32例临床诊断为JMML的样本和8例正常人样本(均经患者知情同意)的样本按照实施例1的方法检测并建立甲基化分类模型。
实施例1的探针和方法靶向富集目标区域文库经高通量测序,结果显示:实施例1的探针、试剂及方法对目标区域具有高捕获率,达到60%以上;目标区域的有效平均测序深度为300X以上;覆盖度达到94%以上(部分数据见表3)。
表3 利用本发明方法检测样本的质控数据结果
样本编号 原始数据序列数(Mb) 过滤后数据序列数(Mb) 比对率 目标区域捕获效率(%) 平均测序深度 目标区域覆盖度
JMML-1 2547.49 2046.93 70.30 73.23 335.60 94.08
JMML-2 3761.23 3172.53 75.40 76.60 525.44 94.68
JMML-3 3418.42 2751.10 68.10 55.20 325.19 94.30
JMML-4 3102.05 2566.40 76.10 54.12 318.09 94.40
JMML-5 3219.92 2679.41 76.70 58.36 325.18 94.45
JMML-6 3068.08 2476.76 64.50 65.18 304.99 94.11
JMML-7 3879.01 3221.88 75.30 61.62 399.84 94.56
JMML-8 4254.05 3572.57 76.90 65.84 434.92 94.63
JMML-9 6873.23 5571.54 67.10 60.35 646.33 94.94
JMML-10 4072.11 3361.84 74.00 55.70 387.59 94.62
JMML-11 4480.10 3766.94 76.70 60.17 429.05 94.71
JMML-12 6097.37 5049.00 75.70 56.73 526.79 94.96
JMML-13 3394.97 2871.34 76.70 72.74 407.20 94.62
JMML-14 4385.74 3504.49 69.70 49.67 368.92 94.48
JMML-15 3487.56 2893.60 75.90 55.60 370.59 94.51
JMML-16 4809.40 4031.16 77.20 61.72 460.67 94.70
JMML-17 4976.81 4008.19 67.90 52.40 455.98 94.61
JMML-18 4090.51 3399.55 75.20 62.15 446.25 94.58
JMML-19 4072.11 3444.93 78.40 61.71 400.12 94.56
JMML-20 4382.89 3519.56 67.10 44.23 352.72 94.48
将32例临床诊断为JMML的样本和8例正常人样本捕获测序获得数据采用Mann-Whitney 秩和检验的方法按照秩和检验的p值<0.05的标准进行差异甲基化位点的筛选,将筛选的差异位点与850K芯片筛选到位点比对,二者的结果高度一致,部分结果见附图1。
同时将32例临床诊断为JMML的样本和8例正常人样本捕获测序获得的13999个甲基化位点与后进行聚类,并按照聚类顺序分为低甲基化、中甲基化、高甲基化,建立成预测模型,结果见附图2。
将2例疑似JMML患者的样本按照实施例1的方法捕获测序获数据与模型中数据混在一起做聚类分析,得到该样本的甲基化状态,结果见附图3。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管通过参照本发明的优选实施例已经对本发明进行了描述,但本领域的普通技术人员应当理解,可以在形式上和细节上对其作出各种各样的改变,而不偏离所附权利要求书所限定的本发明的精神和范围。
序列表
<110> 北京迈基诺基因科技股份有限公司
<120> JMML相关基因甲基化水平评估方法、模型及构建方法
<160> 20
<170> SIPOSequenceListing 1.0
<210> 1
<211> 41
<212> DNA
<213> Synthetic sequence
<400> 1
acactctttc cctacacgac gctcttccga tctcgagctc a 41
<210> 2
<211> 29
<212> DNA
<213> Synthetic sequence
<400> 2
tgagctcgag atcggaagag cacacgtct 29
<210> 3
<211> 43
<212> DNA
<213> Synthetic sequence
<400> 3
acactctttc cctacacgac gctcttccga tctagacatg cag 43
<210> 4
<211> 31
<212> DNA
<213> Synthetic sequence
<400> 4
ctgcatgtct agatcggaag agcacacgtc t 31
<210> 5
<211> 42
<212> DNA
<213> Synthetic sequence
<400> 5
acactctttc cctacacgac gctcttccga tctgtctagc ac 42
<210> 6
<211> 30
<212> DNA
<213> Synthetic sequence
<400> 6
gtgctagaca gatcggaaga gcacacgtct 30
<210> 7
<211> 41
<212> DNA
<213> Synthetic sequence
<400> 7
acactctttc cctacacgac gctcttccga tcttacgcta c 41
<210> 8
<211> 29
<212> DNA
<213> Synthetic sequence
<400> 8
gtagcgtaag atcggaagag cacacgtct 29
<210> 9
<211> 43
<212> DNA
<213> Synthetic sequence
<400> 9
acactctttc cctacacgac gctcttccga tctcgtcact aag 43
<210> 10
<211> 31
<212> DNA
<213> Synthetic sequence
<400> 10
cttagtgacg agatcggaag agcacacgtc t 31
<210> 11
<211> 42
<212> DNA
<213> Synthetic sequence
<400> 11
acactctttc cctacacgac gctcttccga tctctcacgt gc 42
<210> 12
<211> 30
<212> DNA
<213> Synthetic sequence
<400> 12
gcacgtgaga gatcggaaga gcacacgtct 30
<210> 13
<211> 41
<212> DNA
<213> Synthetic sequence
<400> 13
acactctttc cctacacgac gctcttccga tctatgtctc a 41
<210> 14
<211> 29
<212> DNA
<213> Synthetic sequence
<400> 14
tgagacatag atcggaagag cacacgtct 29
<210> 15
<211> 43
<212> DNA
<213> Synthetic sequence
<400> 15
acactctttc cctacacgac gctcttccga tctcacacgt cca 43
<210> 16
<211> 31
<212> DNA
<213> Synthetic sequence
<400> 16
tggacgtgtg agatcggaag agcacacgtc t 31
<210> 17
<211> 42
<212> DNA
<213> Synthetic sequence
<400> 17
acactctttc cctacacgac gctcttccga tctacatctc ag 42
<210> 18
<211> 30
<212> DNA
<213> Synthetic sequence
<400> 18
ctgagatgta gatcggaaga gcacacgtct 30
<210> 19
<211> 41
<212> DNA
<213> Synthetic sequence
<400> 19
acactctttc cctacacgac gctcttccga tctcgtagcg t 41
<210> 20
<211> 29
<212> DNA
<213> Synthetic sequence
<400> 20
acgctacgag atcggaagag cacacgtct 29

Claims (6)

1.一种用于构建JMML相关基因甲基化水平评估模型的方法,其特征在于,包括:
(1)确定JMML相关基因甲基化位点、设计探针,提取样本DNA,构建JMML相关基因甲基化文库;
(2)根据构建的JMML相关基因甲基化文库,进行碱基识别,去除序列接头、删除低质量碱基后比对至人基因组hg19,去冗余提取所有CpG位点信息;
(3)对所述JMML相关基因甲基化位点CpG进行聚类,并根据甲基化高低顺序,构建数据库,得到所述JMML相关基因甲基化水平评估模型;
所述步骤(1)构建JMML相关基因甲基化文库包括:将所述样本DNA段化至200bp,进行末端修复和连接接头;将末端修复和连接接头后的样本DNA进行甲基化处理、PCR富集、文库质检和文库靶向富集,得到所述JMML相关基因甲基化文库;
所述接头由通用序列和防污染标签两部分构成,所述防污染标签包含8-10碱基,且接头中的胞嘧啶碱基全部被甲基化修饰,所述接头选择以下接头序列组中的一组或多组:
1-1.ACACTCTTTCCCTACACGACGCTCTTCCGATCTCGAGCTCA*T,
1-2.P-TGAGCTCGAGATCGGAAGAGCACACGTCT;
2-1.ACACTCTTTCCCTACACGACGCTCTTCCGATCTAGACATGCAG*T,
2-2.P-CTGCATGTCTAGATCGGAAGAGCACACGTCT;
3-1.ACACTCTTTCCCTACACGACGCTCTTCCGATCTGTCTAGCAC*T,
3-2.P-GTGCTAGACAGATCGGAAGAGCACACGTCT;
4-1.ACACTCTTTCCCTACACGACGCTCTTCCGATCTTACGCTAC*T,
4-2.P-GTAGCGTAAGATCGGAAGAGCACACGTCT;
5-1.ACACTCTTTCCCTACACGACGCTCTTCCGATCTCGTCACTAAG*T,
5-2.P-CTTAGTGACGAGATCGGAAGAGCACACGTCT;
6-1.ACACTCTTTCCCTACACGACGCTCTTCCGATCTCTCACGTGC*T,
6-2.P-GCACGTGAGAGATCGGAAGAGCACACGTCT;
7-1.ACACTCTTTCCCTACACGACGCTCTTCCGATCTATGTCTCA*T,
7-2.P-TGAGACATAGATCGGAAGAGCACACGTCT;
8-1.ACACTCTTTCCCTACACGACGCTCTTCCGATCTCACACGTCCA*T,
8-2.P-TGGACGTGTGAGATCGGAAGAGCACACGTCT;
9-1.ACACTCTTTCCCTACACGACGCTCTTCCGATCTACATCTCAG*T,
9-2.P-CTGAGATGTAGATCGGAAGAGCACACGTCT;
10-1.ACACTCTTTCCCTACACGACGCTCTTCCGATCTCGTAGCGT*T,
10-2.P-ACGCTACGAGATCGGAAGAGCACACGTCT。
2.根据权利要求1所述用于构建JMML相关基因甲基化水平评估模型的方法,其特征在于,所述样本DNA来源于离体骨髓液或外周血。
3.根据权利要求1所述用于构建JMML相关基因甲基化水平评估模型的方法,其特征在于,所述步骤(1)确定JMML相关基因甲基化位点包括:采用850K 芯片,检测多个阳性样本与多个阴性样本,筛选出差异化甲基化位点,并筛选出部分差异化甲基化位点得出所述JMML相关基因甲基化位点。
4.根据权利要求1所述用于构建JMML相关基因甲基化水平评估模型的方法,其特征在于,所述步骤(1)设计探针包括:从所述JMML相关基因甲基化位点及前后75bp的位置,提取参考序列,根据参考序列的正向序列和反向序列,设计经过亚硫酸盐处理后的模拟高甲基化和低甲基化序列,然后以所述模拟高甲基化和低甲基化序列为模板从第一个碱基开始截取120bp的序列做探针,再一次往后移动 n 个碱基,截取120bp的序列做探针,直到最后一个120bp。
5.根据权利要求1所述用于构建JMML相关基因甲基化水平评估模型的方法,其特征在于,所述步骤(2)中去除序列接头以及删除低质量碱基后比对至人基因组hg19包括:
使用cutadapt去除测序接头,删除低质量碱基,生成clean reads,其中 cutadapt的参数为-q10,10 --nextseq-trim=10 -a ATCTCGTATGCCGTCTTCTGCTTG -A AGATCGGAAGAGCGTCGTGTAGGGAAAGAGTGTAGATCTCGGTGGTCGCCGTATCATT,序列长度小于80;
使用Bismark将clean reads比对至人基因组hg19,生成bam文件;其中Bismark的参数为-un --genome_folder -N 1 -p 8 -L 30 -most_valid_alignments 3 -B --samtools_path –o --path_to_bowtie -1 -2。
6.根据权利要求1所述用于构建JMML相关基因甲基化水平评估模型的方法,其特征在于,所述步骤(2)中去冗余提取所有CpG位点信息包括:
使用Bismark中的deduplicate_bismark模块对对比后的bam文件去冗余,使用Bismark中的bismark_methylation_extractor模块对去冗余的bam文件提取所有CpG位点信息,参数为-p --no_overlap --ignore 4 --ignore_r2 4 --samtools_path --bedGraph --buffer_size 20G --cytosine_report --genome_folder -o ./ --multicore 10 bam。
CN202111567840.2A 2021-12-21 2021-12-21 Jmml相关基因甲基化水平评估方法、模型及构建方法 Active CN113948150B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111567840.2A CN113948150B (zh) 2021-12-21 2021-12-21 Jmml相关基因甲基化水平评估方法、模型及构建方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111567840.2A CN113948150B (zh) 2021-12-21 2021-12-21 Jmml相关基因甲基化水平评估方法、模型及构建方法

Publications (2)

Publication Number Publication Date
CN113948150A CN113948150A (zh) 2022-01-18
CN113948150B true CN113948150B (zh) 2022-04-19

Family

ID=79339408

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111567840.2A Active CN113948150B (zh) 2021-12-21 2021-12-21 Jmml相关基因甲基化水平评估方法、模型及构建方法

Country Status (1)

Country Link
CN (1) CN113948150B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111386352A (zh) * 2017-11-22 2020-07-07 乐彼代株式会社 利用基因的cpg甲基化变化评估肝癌的预后或者风险的方法
CN112375822A (zh) * 2020-06-01 2021-02-19 广州市基准医疗有限责任公司 用于检测乳腺癌的甲基化生物标记物及其应用
CN112779320A (zh) * 2020-12-04 2021-05-11 深圳市易基因科技有限公司 多区域dna甲基化检测探针设计及其检测方法
CN112823213A (zh) * 2019-05-31 2021-05-18 福瑞诺姆控股公司 用于甲基化核酸的高深度测序的方法和系统
CN113755585A (zh) * 2020-06-07 2021-12-07 复旦大学 与肾透明细胞癌预后相关的dna甲基化生物标志物

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102796808B (zh) * 2011-05-23 2014-06-18 深圳华大基因科技服务有限公司 甲基化高通量检测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111386352A (zh) * 2017-11-22 2020-07-07 乐彼代株式会社 利用基因的cpg甲基化变化评估肝癌的预后或者风险的方法
CN112823213A (zh) * 2019-05-31 2021-05-18 福瑞诺姆控股公司 用于甲基化核酸的高深度测序的方法和系统
CN112375822A (zh) * 2020-06-01 2021-02-19 广州市基准医疗有限责任公司 用于检测乳腺癌的甲基化生物标记物及其应用
CN113755585A (zh) * 2020-06-07 2021-12-07 复旦大学 与肾透明细胞癌预后相关的dna甲基化生物标志物
CN112779320A (zh) * 2020-12-04 2021-05-11 深圳市易基因科技有限公司 多区域dna甲基化检测探针设计及其检测方法

Also Published As

Publication number Publication date
CN113948150A (zh) 2022-01-18

Similar Documents

Publication Publication Date Title
WO2021128519A1 (zh) Dna甲基化生物标志物组合、检测方法和试剂盒
CN108866192B (zh) 基于甲基化修饰的肿瘤标记物stamp-ep1
WO2016049878A1 (zh) 一种基于snp分型的亲子鉴定方法及应用
CN113943817B (zh) 宫颈癌癌化水平评估模型及构建方法
WO2014163445A1 (ko) 위암에 대한 예후 예측 모형의 제조방법
WO2021180105A1 (zh) 一种检测常见两性癌症的探针组合物
CN109456968A (zh) 基于甲基化修饰的肿瘤标记物stamp-ep5
CN115341031A (zh) 一种泛癌甲基化生物标志物的筛选方法、生物标志物及应用
CN112210601B (zh) 基于粪便样本的结直肠癌筛查试剂盒
CN112259165B (zh) 用于检测微卫星不稳定性状态的方法及系统
CN111850116A (zh) 一组nk/t细胞淋巴瘤的基因突变位点群、靶向测序试剂盒及应用
WO2023226939A1 (zh) 用于检测结直肠癌淋巴结转移的甲基化生物标记物及其应用
CN110724743B (zh) 人血液中结直肠癌诊断相关的甲基化生物标记物及其应用
CN108374047A (zh) 一种基于高通量测序技术检测膀胱癌的试剂盒
CN116970705A (zh) 用于尿路上皮癌基因甲基化检测的核酸产品、试剂盒及应用
CN113948150B (zh) Jmml相关基因甲基化水平评估方法、模型及构建方法
WO2022262831A1 (zh) 用于评估肿瘤的物质及其方法
CN112771178A (zh) Dlbcl起源细胞亚型的预测和表征
CN111020710A (zh) 造血及淋巴组织肿瘤的ctDNA高通量检测
CN112210602B (zh) 基于粪便样本的结直肠癌筛查方法
CN110964821A (zh) 一种预测肝癌转移模式及风险的检测panel及其应用
CN115620809B (zh) 纳米孔测序数据分析方法、装置以及存储介质和应用
CN114182022B (zh) 一种基于cfDNA碱基突变频率分布检测肝癌特异突变的方法
CN114774514B (zh) 一种适用于高通量靶向基因组甲基化检测的文库构建方法及其试剂盒
WO2024027796A1 (zh) 标志物在诊断乳腺癌或预测乳腺癌风险中的用途

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20240308

Address after: 400000 1-2, 2-2, 3-2, 4-2, 5-2, 6-2, building 1, No. 6, Gangcheng East Ring Road, Jiangbei District, Chongqing

Patentee after: MYGENOSTICS (CHONGQING) GENE TECHNOLOGY CO.,LTD.

Country or region after: China

Address before: 101312 201, block a, building 12, courtyard 9, Anqing street, airport economic core area, Shunyi District, Beijing

Patentee before: BEIJING MYGENOSTICS CO.,LTD.

Country or region before: China