CN115410649B - 一种同时检测甲基化和突变信息的方法及装置 - Google Patents
一种同时检测甲基化和突变信息的方法及装置 Download PDFInfo
- Publication number
- CN115410649B CN115410649B CN202211211793.2A CN202211211793A CN115410649B CN 115410649 B CN115410649 B CN 115410649B CN 202211211793 A CN202211211793 A CN 202211211793A CN 115410649 B CN115410649 B CN 115410649B
- Authority
- CN
- China
- Prior art keywords
- template
- methylation
- mutation
- chain
- strand
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000011987 methylation Effects 0.000 title claims abstract description 168
- 238000007069 methylation reaction Methods 0.000 title claims abstract description 168
- 230000035772 mutation Effects 0.000 title claims abstract description 140
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000001514 detection method Methods 0.000 claims abstract description 47
- 230000036438 mutation frequency Effects 0.000 claims abstract description 26
- 238000012163 sequencing technique Methods 0.000 claims description 42
- 230000008569 process Effects 0.000 claims description 11
- 230000004048 modification Effects 0.000 claims description 9
- 238000012986 modification Methods 0.000 claims description 9
- 206010028980 Neoplasm Diseases 0.000 claims description 8
- 238000012360 testing method Methods 0.000 claims description 6
- 210000001519 tissue Anatomy 0.000 claims description 6
- 230000007704 transition Effects 0.000 claims description 6
- 210000001124 body fluid Anatomy 0.000 claims description 5
- 239000010839 body fluid Substances 0.000 claims description 5
- 238000012164 methylation sequencing Methods 0.000 claims description 5
- UORVGPXVDQYIDP-UHFFFAOYSA-N borane Chemical compound B UORVGPXVDQYIDP-UHFFFAOYSA-N 0.000 claims description 4
- 108090000790 Enzymes Proteins 0.000 claims description 3
- 102000004190 Enzymes Human genes 0.000 claims description 3
- 230000004792 oxidative damage Effects 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 208000002151 Pleural effusion Diseases 0.000 claims description 2
- 210000004369 blood Anatomy 0.000 claims description 2
- 239000008280 blood Substances 0.000 claims description 2
- 229910000085 borane Inorganic materials 0.000 claims description 2
- 210000001175 cerebrospinal fluid Anatomy 0.000 claims description 2
- 210000002381 plasma Anatomy 0.000 claims description 2
- 210000003296 saliva Anatomy 0.000 claims description 2
- 210000002966 serum Anatomy 0.000 claims description 2
- 210000002700 urine Anatomy 0.000 claims description 2
- 238000007482 whole exome sequencing Methods 0.000 claims description 2
- 238000012070 whole genome sequencing analysis Methods 0.000 claims description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 claims 1
- 229910052799 carbon Inorganic materials 0.000 claims 1
- 239000000126 substance Substances 0.000 abstract description 3
- RWQNBRDOKXIBIV-UHFFFAOYSA-N thymine Chemical compound CC1=CNC(=O)NC1=O RWQNBRDOKXIBIV-UHFFFAOYSA-N 0.000 description 18
- 208000034953 Twin anemia-polycythemia sequence Diseases 0.000 description 15
- OPTASPLRGRRNAP-UHFFFAOYSA-N cytosine Chemical group NC=1C=CNC(=O)N=1 OPTASPLRGRRNAP-UHFFFAOYSA-N 0.000 description 15
- LRSASMSXMSNRBT-UHFFFAOYSA-N 5-methylcytosine Chemical compound CC1=CNC(=O)N=C1N LRSASMSXMSNRBT-UHFFFAOYSA-N 0.000 description 14
- 108020004414 DNA Proteins 0.000 description 14
- 229940113082 thymine Drugs 0.000 description 9
- RYVNIFSIEDRLSJ-UHFFFAOYSA-N 5-(hydroxymethyl)cytosine Chemical compound NC=1NC(=O)N=CC=1CO RYVNIFSIEDRLSJ-UHFFFAOYSA-N 0.000 description 8
- 230000007067 DNA methylation Effects 0.000 description 8
- 238000001369 bisulfite sequencing Methods 0.000 description 7
- 230000008859 change Effects 0.000 description 7
- 229940104302 cytosine Drugs 0.000 description 7
- 238000012937 correction Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- UYTPUPDQBNUYGX-UHFFFAOYSA-N guanine Chemical group O=C1NC(N)=NC2=C1N=CN2 UYTPUPDQBNUYGX-UHFFFAOYSA-N 0.000 description 5
- 230000009466 transformation Effects 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000008439 repair process Effects 0.000 description 4
- NNTOJPXOCKCMKR-UHFFFAOYSA-N boron;pyridine Chemical compound [B].C1=CC=NC=C1 NNTOJPXOCKCMKR-UHFFFAOYSA-N 0.000 description 3
- 238000004590 computer program Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 108090000623 proteins and genes Proteins 0.000 description 3
- OIVLITBTBDPEFK-UHFFFAOYSA-N 5,6-dihydrouracil Chemical compound O=C1CCNC(=O)N1 OIVLITBTBDPEFK-UHFFFAOYSA-N 0.000 description 2
- 229930024421 Adenine Natural products 0.000 description 2
- 108091029523 CpG island Proteins 0.000 description 2
- 229960000643 adenine Drugs 0.000 description 2
- GFFGJBXGBJISGV-UHFFFAOYSA-N adenyl group Chemical group N1=CN=C2N=CNC2=C1N GFFGJBXGBJISGV-UHFFFAOYSA-N 0.000 description 2
- 230000000295 complement effect Effects 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 239000002773 nucleotide Substances 0.000 description 2
- 125000003729 nucleotide group Chemical group 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- BLQMCTXZEMGOJM-UHFFFAOYSA-N 5-carboxycytosine Chemical compound NC=1NC(=O)N=CC=1C(O)=O BLQMCTXZEMGOJM-UHFFFAOYSA-N 0.000 description 1
- LSNNMFCWUKXFEE-UHFFFAOYSA-M Bisulfite Chemical compound OS([O-])=O LSNNMFCWUKXFEE-UHFFFAOYSA-M 0.000 description 1
- 208000005623 Carcinogenesis Diseases 0.000 description 1
- VYZAMTAEIAYCRO-UHFFFAOYSA-N Chromium Chemical compound [Cr] VYZAMTAEIAYCRO-UHFFFAOYSA-N 0.000 description 1
- 108091092566 Extrachromosomal DNA Proteins 0.000 description 1
- 206010064571 Gene mutation Diseases 0.000 description 1
- 108700039691 Genetic Promoter Regions Proteins 0.000 description 1
- IYZHULIYBLNTOK-UHFFFAOYSA-N Nc1[nH]c(=O)ncc1CCC(O)CO Chemical compound Nc1[nH]c(=O)ncc1CCC(O)CO IYZHULIYBLNTOK-UHFFFAOYSA-N 0.000 description 1
- 108091028043 Nucleic acid sequence Proteins 0.000 description 1
- 208000005228 Pericardial Effusion Diseases 0.000 description 1
- 108700025716 Tumor Suppressor Genes Proteins 0.000 description 1
- 102000044209 Tumor Suppressor Genes Human genes 0.000 description 1
- 241000700605 Viruses Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000004075 alteration Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 230000036952 cancer formation Effects 0.000 description 1
- 231100000504 carcinogenesis Toxicity 0.000 description 1
- 238000007385 chemical modification Methods 0.000 description 1
- 238000003776 cleavage reaction Methods 0.000 description 1
- 238000010367 cloning Methods 0.000 description 1
- 230000001973 epigenetic effect Effects 0.000 description 1
- 210000003527 eukaryotic cell Anatomy 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000012252 genetic analysis Methods 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 230000006607 hypermethylation Effects 0.000 description 1
- 230000002779 inactivation Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 230000003902 lesion Effects 0.000 description 1
- 238000011528 liquid biopsy Methods 0.000 description 1
- 201000007270 liver cancer Diseases 0.000 description 1
- 208000014018 liver neoplasm Diseases 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000008844 regulatory mechanism Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000007017 scission Effects 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000010998 test method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/50—Mutagenesis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
Landscapes
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Genetics & Genomics (AREA)
- Biotechnology (AREA)
- Biophysics (AREA)
- Chemical & Material Sciences (AREA)
- Molecular Biology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Bioinformatics & Computational Biology (AREA)
- Analytical Chemistry (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
一种同时检测甲基化和突变信息的方法及装置,该方法包括:甲基化检测步骤,包括将模板链分为XM模板链、F1R2模板链、F2R1模板链,如果XM模板链存在错配,则预测为突变,如果F2R1模板链存在C到T的错配,则预测为突变,如果F1R2模板链存在G到A的错配,则预测为突变;XM模板链和F1R2模板链的G到A突变,以及F2R1模板链的C到T突变用于校正甲基化中由于突变导致的误差;突变统计步骤,包括使用F1R2的甲基化频率或者F2R1的甲基化频率校正突变的频率,获得校正后的突变频率。本发明通过在突变检测之间进行甲基化检测,使得甲基化和突变检测的结果更加精确,并能实现一次检测获得多组学数据的目标。
Description
技术领域
本发明涉及生物信息学领域,具体涉及一种同时检测甲基化和突变信息的方法及装置。
背景技术
DNA甲基化(DNA Methylation)为DNA化学修饰的一种形式,能够在不改变DNA序列的前提下,改变遗传表现。DNA甲基化是到目前为止研究最为深入的表观遗传调控机制之一。这种修饰是真核细胞内正常而普遍的修饰方式,但是基因表达受影响。甲基化修饰有多种方式,被修饰位点的碱基可以是腺嘌呤的N-6位、胞嘧啶的N-4位、鸟嘌呤的N-7位和胞嘧啶的C-5位,它们分别由不同的DNA甲基化酶催化。尽管修饰方式多种多样,但是绝大多数甲基化发生在基因的转座子区域以及基因区域上,相对来说,CpG岛的甲基化程度较低(10%)。研究表明,启动子区域的高甲基化导致抑癌基因失活是人类肿瘤所具有的共同特征之一。
2019年,有研究人员开发出了一种新型测序技术——TET辅助吡啶硼烷测序技术(TET-assisted pyridine borane sequencing,下文简称TAPS)。TAPS无需亚硫酸氢盐,可对目标序列直接进行DNA甲基化测序,是一种破坏性更小、效率更高的单碱基分辨率DNA甲基化测序方法。与BS(bisulfite sequencing,亚硫酸氢盐测序)相比,TAPS数据的处理速度不仅快了2倍,而且还能保留样本更多的原始信息,使得在DNA甲基化检测中,基因突变检测和结构变异检测变得更加容易。TAPS的覆盖范围更均匀,定位效率更高,可以生成更精确的测序数据。此外,TAPS测序成本仅为WGBS的一半。这意味着,相同投入下,TAPS可以获得两倍多的有效数据,有助于进行更高质量、更全面的基因分析。
然而,目前的TAPS技术和配套的检测软件astair主要针对全基因组的甲基化测序,不能针对特定癌种进行区域富集,并且其只能检测甲基化,不能检测突变,会导致甲基化状态识别可能受到突变的影响,精确度不够。
现有技术没有考虑到甲基化和突变共存的情况,比如一个C位点同时发生了C→T的突变和C→T的甲基化,则其甲基化和突变的检出频率均是单独计算,没有考虑联合的情况。
发明内容
根据第一方面,在一实施例中,提供一种同时检测甲基化和突变信息的方法,包括:
甲基化检测步骤,包括根据待测样本测序数据中的模板链是否包含XM标签,将模板链分为XM模板链、F1R2模板链、F2R1模板链,F表示正向模板链,F1R2表示由正向模板链复制和测序得到的数据,R表示反向模板链,F2R1表示由反向模板链复制和测序得到的数据,XM模板链和F1R2模板链用于统计C到T正链甲基化,XM模板链和F2R1模板链用于统计G到A负链甲基化;如果XM模板链存在错配,则预测为突变,如果F2R1模板链存在C到T的错配,则预测为突变,如果F1R2模板链存在G到A的错配,则预测为突变;XM模板链和F1R2模板链的G到A突变,以及F2R1模板链的C到T突变用于校正甲基化中由于突变导致的误差;
突变统计步骤,包括使用F1R2模板链的甲基化频率或者F2R1模板链的甲基化频率校正突变的频率,获得校正后的突变频率。
根据第二方面,在一实施例中,提供一种同时检测甲基化和突变信息的装置,包括:
甲基化检测模块,用于根据待测样本测序数据中的模板链是否包含XM标签,将模板链分为XM模板链、F1R2模板链、F2R1模板链,F表示正向模板链,F1R2表示由正向模板链复制和测序得到的数据,R表示反向模板链,F2R1表示由反向模板链复制和测序得到的数据,XM模板链和F1R2模板链用于统计C到T正链甲基化,XM模板链和F2R1模板链用于统计G到A负链甲基化;其中,如果XM模板链存在错配,则预测为突变,如果F2R1模板链存在C到T的错配,则预测为突变,如果F1R2模板链存在G到A的错配,则预测为突变;XM模板链和F1R2模板链的G到A突变,以及F2R1模板链的C到T突变用于校正甲基化中由于突变导致的误差;
突变统计模块,用于使用F1R2模板链的甲基化频率或者F2R1模板链的甲基化频率校正突变的频率,获得校正后的突变频率。
根据第三方面,在一实施例中,提供一种装置,包括:
存储器,用于存储程序;
处理器,用于通过执行所述存储器存储的程序以实现如第一方面所述的方法。
根据第四方面,在一实施例中,提供一种计算机可读存储介质,所述介质上存储有程序,所述程序能够被处理器执行以实现如第一方面所述的方法。
依据上述实施例的一种同时检测甲基化和突变信息的方法及装置,本发明通过在突变检测之间进行甲基化检测,使得甲基化和突变检测的结果更加精确,并能实现一次检测获得多组学数据的目标。
附图说明
图1为TET辅助吡啶硼烷测序流程图。
图2为一种实施例的甲基化位点IGV图。
图3为一例C→T甲基化的位点模板链的分布情况图。
具体实施方式
下面通过具体实施方式结合附图对本发明作进一步详细说明。其中不同实施方式中类似元件采用了相关联的类似的元件标号。在以下的实施方式中,很多细节描述是为了使得本申请能被更好的理解。然而,本领域技术人员可以毫不费力的认识到,其中部分特征在不同情况下是可以省略的,或者可以由其他元件、材料、方法所替代。在某些情况下,本申请相关的一些操作并没有在说明书中显示或者描述,这是为了避免本申请的核心部分被过多的描述所淹没,而对于本领域技术人员而言,详细描述这些相关操作并不是必要的,他们根据说明书中的描述以及本领域的一般技术知识即可完整了解相关操作。
另外,说明书中所描述的特点、操作或者特征可以以任意适当的方式结合形成各种实施方式。同时,方法描述中的各步骤或者动作也可以按照本领域技术人员所能显而易见的方式进行顺序调换或调整。因此,说明书和附图中的各种顺序只是为了清楚描述某一个实施例,并不意味着是必须的顺序,除非另有说明其中某个顺序是必须遵循的。
本文中为部件所编序号本身,例如“第一”、“第二”等,仅用于区分所描述的对象,不具有任何顺序或技术含义。
如本文所用,“突变”是指生物体、病毒或染色体外DNA基因组核苷酸水平的改变,通常是单个核苷酸的变异和小片段的indel。本文中,“突变”与“变异”可互换使用。
如本文所用,“CpG”是5'-C-磷酸-G-3'的简写,沿着5'→3'方向上胞嘧啶核苷酸(C)后面紧跟着鸟嘌呤核苷酸(G)。
如本文所用,对于CHG和CHH,其中H代表A或T或C碱基。
本文中,“模板链”与“模板”可互换使用。
TAPS技术流程如图1。左侧的TAPS路线具体包括:首先利用TET酶将5mC(5-甲基胞嘧啶)和5hmC(5-羟甲基胞嘧啶)转化为5caC(5-羧基胞嘧啶)。之后将5caC进一步转化为T。图1中,5gmC(5-甘油基-甲基胞嘧啶)在TAPS处理过程中不会发生转化。“DHU”是指二氢尿嘧啶。
在肿瘤生成的过程中,DNA甲基化和突变起到了关键作用,甲基化和突变检测目前有很多方法,但是没有一个可以通过一次测序同时检测突变和甲基化的方案。就目前广泛的液态活检而言,体液中游离DNA的含量很低,而来自肿瘤的游离DNA(ctDNA)则更少,并且绝大多数甲基化发生在基因的转座子区域以及基因区域上,相对而言,CpG岛的甲基化程度较高,通过高深度捕获测序方法对特定区域做富集可以更精确的识别肿瘤特异的甲基化特征,同时在捕获区域加上热点突变区间,即可以通过一次测序同时得到甲基化和突变信息。本发明提出了一种基于甲基化非重亚硫酸氢盐测序技术,通过捕获的方法富集来自肿瘤的游离DNA,快速地同时检测甲基化和突变信息。
根据第一方面,在一实施例中,提供一种同时检测甲基化和突变信息的方法,包括:
甲基化检测步骤,包括根据待测样本测序数据中的模板链(即序列,又称reads,reads是测序仪单次测序所得到的碱基序列,每一条reads都是聚簇后的reads,每一条都代表了原始数据的一簇reads)是否包含XM标签,将模板链分为XM模板链、F1R2模板链、F2R1模板链,F表示正向模板链,F1R2模板链表示由正向模板链复制和测序得到的数据,R表示反向模板链,F2R1模板链表示由反向模板链复制和测序得到的数据,XM模板链和F1R2模板链用于统计C(胞嘧啶)到T(胸腺嘧啶)正链甲基化,XM模板链和F2R1模板链用于统计G(鸟嘌呤)到A(腺嘌呤)负链甲基化;如果XM模板链存在错配,则预测为突变,如果F2R1存在C到T的错配,则预测为突变,如果F1R2模板链存在G到A的错配,则预测为突变;XM模板链和F1R2模板链的G到A突变,以及F2R1模板链的C到T突变用于校正甲基化中由于突变导致的误差;
突变统计步骤,包括使用F1R2模板链的甲基化频率或者F2R1模板链的甲基化频率校正突变的频率,获得校正后的突变频率。如果此位点存在C到T(亦可表示为C→T)的甲基化,则需要考虑对此点C到T突变的频率进行校正,因为检出的突变频率会受到甲基化的影响。同一个位点只有一种甲基化状态(突变后又甲基化的情况,只报出主要甲基化),要么C到T,要么G到A(亦可表示为G→A),校正时也只是用其中一种对突变频率进行校正,结果中不会同时存在。
在一实施例中,本发明重点在于单个位点的甲基化检出,由聚簇获得的新标签(XM)来区分正负链甲基化,本发明的解决方案可以为业内甲基化标记及检测提供新的思路。
在一实施例中,甲基化检测步骤中,包括根据物理位置和唯一分子标签(UMI)聚簇,将F1R2模板链和F2R1模板链合并为大簇。
在一实施例中,甲基化检测步骤中,如果大簇同时包含F1R2模板链和F2R1模板链,则预测该簇包含双链模板链,将F1R2模板链和F2R1模板链合并为一个模板链,将甲基化信息记录在XM标签上。
在一实施例中,甲基化检测步骤中,将包含XM标签的模板链分为XM模板链,将不包含XM标签的模板链分为F1R2模板链、F2R1模板链。
在一实施例中,甲基化检测步骤中,如果存在如下情况中的至少一种,则在合并过程中修复甲基化:
A)正向模板链和反向模板链只发生甲基化修饰;
B)单链甲基化和真实突变同时发生;
C)氧化损伤。
在一实施例中,甲基化检测步骤中,所述C(胞嘧啶)到T(胸腺嘧啶)正链甲基化是指5mC(5-甲基胞嘧啶)、5hmC(5-羟甲基胞嘧啶)中的至少一种到T(胸腺嘧啶)正链甲基化。
在一实施例中,甲基化检测步骤中,所述C(胞嘧啶)到T(胸腺嘧啶)正链甲基化是指5mC(5-甲基胞嘧啶)和5hmC(5-羟甲基胞嘧啶)到T(胸腺嘧啶)正链甲基化。即图1中最左侧的TAPS转化路线。
在一实施例中,本发明也适用于图1中的TAPSβ、CAPS转化路线。TAPSβ转化路线中,原始模板链上的5mC被转化为T,而5hmC转化为C。CAPS转化路线中,原始模板链上的5mC被转化为C,5hmC转化为T。本发明用于检测TAPSβ、CAPS转化路线时,检测方法做相应的调整即可。
在一实施例中,所述甲基化检测步骤中,所述C(胞嘧啶)到T(胸腺嘧啶)正链甲基化是指5mC(5-甲基胞嘧啶)到T(胸腺嘧啶)正链甲基化。即图1中的TAPSβ转化路线。
在一实施例中,甲基化检测步骤中,所述C(胞嘧啶)到T(胸腺嘧啶)正链甲基化是指5hmC(5-羟甲基胞嘧啶)到T(胸腺嘧啶)正链甲基化。即图1中的CAPS转化路线。
在一实施例中,甲基化检测步骤中,在合并过程中修复甲基化时,将C到T的转变记录为Z,G到A的转变记录为z。
在一实施例中,突变统计步骤,突变频率的校正公式如下:
公式中,Psnv是指校正后的突变频率,X表示XM模板链的数量,F表示F1R2模板链的数量,R表示F2R1模板链的数量,Xs表示发生C到T突变的XM模板链数量,Rs表示发生C到T突变的F2R1模板链数量。
在一实施例中,所述待测样本为游离DNA(cfDNA)或基因组DNA。
在一实施例中,所述待测样本为游离DNA。
在一实施例中,所述待测样本包括但不限于组织样本、体液样本中的至少一种。
在一实施例中,所述组织样本包括但不限于肿瘤组织样本。
在一实施例中,所述体液样本包括但不限于血液、血清、血浆、尿液、唾液、脑脊液、胸腔积液、心包积液等等中的至少一种。
在一实施例中,所述测序数据为甲基化测序数据。
在一实施例中,所述测序数据为TET(ten-eleven translocation)酶辅助硼烷(例如,可以是吡啶硼烷)测序数据。
在一实施例中,所述测序数据包括但不限于全基因组测序数据、全外显子组测序数据、靶向捕获测序数据中的至少一种。
根据第二方面,在一实施例中,提供一种同时检测甲基化和突变信息的装置,包括:
甲基化检测模块,用于根据待测样本测序数据中的模板链是否包含XM标签,将模板链分为XM模板链、F1R2模板链、F2R1模板链,F表示正向模板链,F1R2表示由正向模板链复制和测序得到的数据,R表示反向模板链,F2R1表示由反向模板链复制和测序得到的数据,XM模板链和F1R2模板链用于统计C到T正链甲基化,XM模板链和F2R1模板链用于统计G到A负链甲基化;如果XM模板链存在错配,则预测为突变,如果F2R1模板链存在C到T的错配,则预测为突变,如果F1R2模板链存在G到A的错配,则预测为突变;XM模板链和F1R2模板链的G到A突变,以及F2R1模板链的C到T突变用于校正甲基化中由于突变导致的误差;
突变统计模块,用于使用F1R2模板链的甲基化频率或者F2R1模板链的甲基化频率校正突变的频率,获得校正后的突变频率。
根据第三方面,在一实施例中,提供一种装置,包括:
存储器,用于存储程序;
处理器,用于通过执行所述存储器存储的程序以实现如第一方面所述的方法。
根据第四方面,在一实施例中,提供一种计算机可读存储介质,所述介质上存储有程序,所述程序能够被处理器执行以实现如第一方面所述的方法。
在一实施例中,本发明提出了一种基于甲基化非重亚硫酸氢盐测序技术,通过捕获的方法富集来自肿瘤的游离DNA,并且快速地同时检测甲基化和突变信息。
在一实施例中,本发明使用基于UMI(唯一分子标签)和甲基化非重亚硫酸氢盐测序技术获得的测序数据,同时检测甲基化和突变信息。
实施例1
人体内,为了保持DNA甲基化特征在分裂前后保持不变,DNA双链CpG/CHG往往是对称甲基化的,存在甲基化的DNA模板链经过甲基化非重亚硫酸氢盐测序技术处理后,甲基化的C碱基会被处理为T碱基,同时,DNA模板链的反向互补链上的G碱基会被处理为A碱基。但是,如果DNA也发生了真实的C碱基到T碱基的突变或G碱基到A碱基的突变,现有的软件难以区分甲基化和突变位点,如果这些携带甲基化位点的reads输入到后面变异检测的流程,会导致假阳性突变的报出,同时,如果存在真阳突变,会导致甲基化率升高,精度不够。具体甲基化表现形式如图2所示,图2为甲基化位点IGV(Integrative Genomics Viewer,整合基因组浏览器)图。
因此,为了使变异和甲基化检测精度较高,需要同时检测变异和甲基化,并互相校正,同时为了尽可能回收因甲基化非重亚硫酸氢盐测序技术处理而无法比对回参考基因组的序列,本实施例在变异检测前记录序列中可能甲基化的位点,以及甲基化的程度等信息,并修复甲基化位点为原来的C碱基或者G碱基。修复后的reads重新比对到参考基因组,并参与后续的变异检测。
由于DNA双链CpG/CHG往往是对称甲基化的,通过统计正反向模板(F1R2、F2R1)中突变的分布情况,可以区分甲基化状态与突变。以一段序列TCGT和它的反向互补序列AGCA为例,可能出现如表1的5种情况。表中F表示正向模板,F1R2表示由F模板复制和测序得到的数据,R表示反向模板,F2R1表示由R模板复制和测序得到的数据。本实施例用下划单直线碱基表示甲基化位点,用下划波浪线表示真实突变或者观测到的和参考基因组不一致的位点。
具体包括如下5种情形:
1)正向模板链和反向模板链只发生甲基化修饰,经过转化后,可以观测到F1R2的C变化成了T,记为正链甲基化,F2R1的G变化成了A,记为负链甲基化。
2)真实突变,F1R2和F2R1都发生了C到T的变化。
3)单链甲基化和真实突变同时发生,这个时候观测到的reads表现为F1R2的C和G变化成了T和A,但是F2R1只有G到A的变化。
4)单链甲基化,和第三种情况类似,但是由于没有突变的发生,只能观测到F1R2发生了C到T的变化。
5)氧化损伤,可以观测到F1R2的C碱基变为A碱基。
表1可能出现的突变或者甲基化场景
其中,在实际的模板链识别过程中,本实施例使用了基于物理位置和UMI的聚簇方法,可以将F1R2和F2R1合并为一个大簇,如果大簇同时包含F1R2和F2R1,则认为该簇包含双链模板,可以将F1R2和F2R1合并为一个模板,将甲基化信息记录在bam文件的XM标签上,对于存在甲基化的第1、3和5三种情况,合并过程中,本实施例会修复甲基化,并且将C到T的转变记录为Z,G到A的转变记录为z。这是非常关键的一个标记,calling甲基化时,会首先识别XM标签的情况,因为包含XM标签的read pair是由F和R链同时聚簇得到的,其甲基化信息相对更为可信。对于不包含双链模板的情况,本实施例不能记录甲基化信息到XM标签,同时也不能修复甲基化。
基于以上数据协议,本实施例开发了一个突变和甲基化共检测的软件,软件包含两大步骤:1)先检测甲基化,基于reads是否包含XM标签,将模板分为XM、F1R2、F2R1三种,XM和F1R2模板用来统计C到T正链甲基化,XM和F2R1用来统计G到A负链甲基化,其中XM如果存在错配(mismatch),其应该是突变,同时如果F2R1存在C到T的mismatc h,其应该是突变,如果F1R2存在G到A的错配,其应该是突变,这些XM和F1R2的G到A和F2R1的C到T突变可以用来校正甲基化中由于突变导致的误差;2)然后统计突变,在统计过程中F1R2的C到T的甲基化错配,和F2R1的G到A的甲基化错配,会对突变频率计算产生误差,因此在突变检测的过程中,使用第一步中的F1R2模板链的甲基化频率或者F2R1模板链的甲基化频率校正突变的频率。
通过汇总以上五种情况所观测到的碱基变化模式,本实施例可以判断出哪些碱基的变化属于甲基化修饰,哪些属于变异或者损伤突变。此方法在变异检测之前记录并修复甲基化位点信息,并且提供了一种甲基化数据储存在常用生物信息文件格式内的接口协议XM标签,通过变异和甲基化互相校正,使甲基化和变异检测的结果更加精确,并能实现一次检测获得多组学数据的目标。除此之外,修复甲基化位点也有助于提高数据比对率,避免数据浪费。
此处举例简要说明突变频率的校正过程。图3展示了一例C→T甲基化的位点模板链的分布情况。图3中,X表示XM模板链的数量,XM模板链包括Xg、Xs以及其他情况,Xg表示含有甲基化C(包括5mC、5hmC)的XM模板链数量,Xs表示发生C→T突变的XM模板链数量;其他情况的XM模板链包括和参考基因组一致的模板链。
F表示F1R2模板链的数量,F1R2模板链包括表现为C→T的变化(Ft)以及其他情况的F1R2模板链,Ft表示表现为C→T的变化的F1R2模板链数量,包括含有甲基化C(包括5mC、5hmC)的F1R2模板链数量(Fg),以及发生C→T突变的F1R2模板链数量(Fs);其他情况的F1R2模板链包括和参考基因组一致的模板链。
R表示F2R1模板链的数量,F2R1模板链包括发生C→T突变的F2R1模板链、含有甲基化C(包括5mC、5hmC)的F2R1模板链、保持原始序列的F2R1模板链以及其他情况的F2R1模板链,Rs表示发生C→T突变的F2R1模板链数量,Rc表示含有甲基化C(包括5mC、5hmC)的F2R1模板链数量,Rn表示保持原始序列的F2R1模板链数量;其他情况的F2R1模板链包括和参考基因组一致的模板链。
其中的难点在于区分F1R2模板链中的突变数量Fs和Fg,因为无论是突变还是甲基化,在F1R2模板链表现都为C→T的变化。
为了区分Ft中Fs和Fg的数量,我们先假设突变和甲基化在三种模板链上是均匀分布的,当然实际情况中不可能完全均匀,我们用理论值来代替。有了这个假设之后,我们可以根据F2R1模板链中C→T的突变和XM模板链中C→T的突变比例来计算F1R2中的突变比例,从而区分出Fs和Fg,本实施例的校正公式如下:
公式中,Psnv是指校正后的突变频率。
在模拟的突变和甲基化数据集上,当物理位点只发生突变或者甲基化时,本实施例可以完全区分,当物理位点同时发生甲基化和C到T或者G到A突变时,本实施例通过校正的方法,使得天然dup(重复序列,Duplicate reads)深度在5000×时,突变频率为1%,甲基化频率为1%时,检测的突变频率和甲基化频率误差在0.2%左右。
表2突变模拟输入
#chrom | start | end | AF | type | alt |
5 | 1295149 | 1295150 | 0.01 | SNV | T |
5 | 1295150 | 1295151 | 0.01 | SNV | A |
5 | 1295168 | 1295169 | 0.01 | SNV | T |
5 | 1295169 | 1295170 | 0.01 | SNV | A |
5 | 1295203 | 1295208 | 0.008 | del | . |
5 | 1295185 | 1295186 | 0.008 | ins | TTT |
5 | 1295224 | 1295225 | 0.01 | SNV | T |
5 | 1295225 | 1295226 | 0.01 | SNV | A |
表3突变检出结果
从表3可见,突变检出频率和真实突变由于甲基化影响,存在约0.1%的误差。
表4甲基化检出结果
从表4可见,模拟甲基化率是1,从RetioMethylation结果可见,受突变影响误差在1%左右。
实施例2
本实施例提供真实的样本检测,具体为1例肝癌样本,检测方法同实施例1,部分检测结果见表5(由于检测结果信息较多,因此,表5中仅展示一部分)。
表5
本领域技术人员可以理解,上述实施方式中各种方法的全部或部分功能可以通过硬件的方式实现,也可以通过计算机程序的方式实现。当上述实施方式中全部或部分功能通过计算机程序的方式实现时,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器、随机存储器、磁盘、光盘、硬盘等,通过计算机执行该程序以实现上述功能。例如,将程序存储在设备的存储器中,当通过处理器执行存储器中程序,即可实现上述全部或部分功能。另外,当上述实施方式中全部或部分功能通过计算机程序的方式实现时,该程序也可以存储在服务器、另一计算机、磁盘、光盘、闪存盘或移动硬盘等存储介质中,通过下载或复制保存到本地设备的存储器中,或对本地设备的系统进行版本更新,当通过处理器执行存储器中的程序时,即可实现上述实施方式中全部或部分功能。
以上应用了具体个例对本发明进行阐述,只是用于帮助理解本发明,并不用以限制本发明。对于本发明所属技术领域的技术人员,依据本发明的思想,还可以做出若干简单推演、变形或替换。
Claims (9)
1.一种同时检测甲基化和突变信息的方法,其特征在于,包括:
甲基化检测步骤,包括根据待测样本测序数据中的模板链是否包含XM标签,将模板链分为XM模板链、F1R2模板链、F2R1模板链,F表示正向模板链,F1R2表示由正向模板链复制和测序得到的数据,R表示反向模板链,F2R1表示由反向模板链复制和测序得到的数据,XM模板链和F1R2模板链用于统计C到T正链甲基化,XM模板链和F2R1模板链用于统计G到A负链甲基化;如果XM模板链存在错配,则预测为突变,如果F2R1模板链存在C到T的错配,则预测为突变,如果F1R2模板链存在G到A的错配,则预测为突变;XM模板链和F1R2模板链的G到A突变,以及F2R1模板链的C到T突变用于校正甲基化中由于突变导致的误差;
突变统计步骤,包括使用F1R2模板链的甲基化频率或者F2R1模板链的甲基化频率校正突变的频率,获得校正后的突变频率;突变频率的校正公式如下:
公式中,P snv是指校正后的突变频率,X表示XM模板链的数量,F表示F1R2模板链的数量,R表示F2R1模板链的数量,Xs表示发生C到T突变的XM模板链数量,Rs表示发生C到T突变的F2R1模板链数量。
2.如权利要求1所述的方法,其特征在于,甲基化检测步骤中,包括根据物理位置和唯一分子标签聚簇,将F1R2模板链和F2R1模板链合并为大簇。
3.如权利要求2所述的方法,其特征在于,甲基化检测步骤中,如果大簇同时包含F1R2模板链和F2R1模板链,则预测该大簇包含双链模板链,将F1R2模板链和F2R1模板链合并为一个模板链,将甲基化信息记录在XM标签上。
4.如权利要求1所述的方法,其特征在于,甲基化检测步骤中,将包含XM标签的模板链分为XM模板链,将不包含XM标签的模板链分为F1R2模板链、F2R1模板链;
甲基化检测步骤中,如果存在如下情况中的至少一种,则在合并过程中修复甲基化:
A)正向模板链和反向模板链只发生甲基化修饰;
B)单链甲基化和真实突变同时发生;
C)氧化损伤;
甲基化检测步骤中,所述C到T正链甲基化是指5mC、5hmC中的至少一种到T正链甲基化;
甲基化检测步骤中,在合并过程中修复甲基化时,将C到T的转变记录为Z,G到A的转变记录为z。
5.如权利要求1所述的方法,其特征在于,所述待测样本为游离DNA。
6.如权利要求1所述的方法,其特征在于,所述待测样本包括组织样本、体液样本中的至少一种;
所述组织样本包括肿瘤组织样本;
所述体液样本包括血液、血清、血浆、尿液、唾液、脑脊液、胸腔积液中的至少一种;
所述测序数据为甲基化测序数据;或者所述测序数据为TET酶辅助硼烷测序数据;或者所述测序数据包括全基因组测序数据、全外显子组测序数据、靶向捕获测序数据中的至少一种;或者所述测序数据包括二代测序数据。
7.一种同时检测甲基化和突变信息的装置,其特征在于,包括:
甲基化检测模块,用于根据待测样本测序数据中的模板链是否包含XM标签,将模板链分为XM模板链、F1R2模板链、F2R1模板链,F表示正向模板链,F1R2表示由正向模板链复制和测序得到的数据,R表示反向模板链,F2R1表示由反向模板链复制和测序得到的数据,XM模板链和F1R2模板链用于统计C到T正链甲基化,XM模板链和F2R1模板链用于统计G到A负链甲基化;如果XM模板链存在错配,则预测为突变,如果F2R1模板链存在C到T的错配,则预测为突变,如果F1R2模板链存在G到A的错配,则预测为突变;XM模板链和F1R2模板链的G到A突变,以及F2R1模板链的C到T突变用于校正甲基化中由于突变导致的误差;
突变统计模块,用于使用F1R2模板链的甲基化频率或者F2R1模板链的甲基化频率校正突变的频率,获得校正后的突变频率;突变频率的校正公式如下:
公式中,P snv是指校正后的突变频率,X表示XM模板链的数量,F表示F1R2模板链的数量,R表示F2R1模板链的数量,Xs表示发生C到T突变的XM模板链数量,Rs表示发生C到T突变的F2R1模板链数量。
8.一种同时检测甲基化和突变信息的装置,其特征在于,包括:
存储器,用于存储程序;
处理器,用于通过执行所述存储器存储的程序以实现如权利要求1~6任意一项所述的方法。
9.一种计算机可读存储介质,其特征在于,所述介质上存储有程序,所述程序能够被处理器执行以实现如权利要求1~6任意一项所述的方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2022103487979 | 2022-04-01 | ||
CN202210348797 | 2022-04-01 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115410649A CN115410649A (zh) | 2022-11-29 |
CN115410649B true CN115410649B (zh) | 2023-03-28 |
Family
ID=84167305
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211211793.2A Active CN115410649B (zh) | 2022-04-01 | 2022-09-30 | 一种同时检测甲基化和突变信息的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115410649B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109385465A (zh) * | 2018-07-27 | 2019-02-26 | 中山大学附属第六医院 | 一种dna甲基化定量系统 |
CN110010197A (zh) * | 2019-03-29 | 2019-07-12 | 深圳裕策生物科技有限公司 | 基于血液循环肿瘤dna的单核苷酸变异检测方法、装置和存储介质 |
WO2021073490A1 (zh) * | 2019-10-16 | 2021-04-22 | 中国医学科学院肿瘤医院 | 一种检测ctDNA中肿瘤特异基因的变异和甲基化的方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050214796A1 (en) * | 2003-10-29 | 2005-09-29 | Hanna Michelle M | Compositions, methods and detection technologies for reiterative oligonucleotide synthesis |
CN101792808A (zh) * | 2010-03-30 | 2010-08-04 | 广州市香港科大霍英东研究院 | 以Alu间聚合酶链式反应为基础的检测基因区特征的方法 |
CN110211633B (zh) * | 2019-05-06 | 2021-08-31 | 臻和精准医学检验实验室无锡有限公司 | Mgmt基因启动子甲基化的检测方法、测序数据的处理方法及处理装置 |
US20220213555A1 (en) * | 2019-05-06 | 2022-07-07 | Genecast (Wuxi) Precision Medical Dignostic Laboratory | Next generation sequencing-based detection panel for glioma, detection kit, detection method and application thereof |
CN110129422B (zh) * | 2019-05-29 | 2021-06-29 | 浙江大学 | 基于长片段pcr和单分子测序解析多核苷酸重复突变疾病突变结构的方法 |
CN112634984B (zh) * | 2020-12-29 | 2021-09-28 | 北京吉因加医学检验实验室有限公司 | 一种同时检测dna甲基化和基因组变异的方法、装置和存储介质 |
CN115083529B (zh) * | 2022-07-11 | 2023-03-14 | 北京吉因加医学检验实验室有限公司 | 一种检测样本污染率的方法及装置 |
-
2022
- 2022-09-30 CN CN202211211793.2A patent/CN115410649B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109385465A (zh) * | 2018-07-27 | 2019-02-26 | 中山大学附属第六医院 | 一种dna甲基化定量系统 |
CN110010197A (zh) * | 2019-03-29 | 2019-07-12 | 深圳裕策生物科技有限公司 | 基于血液循环肿瘤dna的单核苷酸变异检测方法、装置和存储介质 |
WO2021073490A1 (zh) * | 2019-10-16 | 2021-04-22 | 中国医学科学院肿瘤医院 | 一种检测ctDNA中肿瘤特异基因的变异和甲基化的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN115410649A (zh) | 2022-11-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Alkhnbashi et al. | Characterizing leader sequences of CRISPR loci | |
Uchi et al. | Integrated multiregional analysis proposing a new model of colorectal cancer evolution | |
US10127351B2 (en) | Accurate and fast mapping of reads to genome | |
Saha et al. | False positives in trans-eQTL and co-expression analyses arising from RNA-sequencing alignment errors | |
Gao et al. | Haplotype-aware analysis of somatic copy number variations from single-cell transcriptomes | |
JP7319197B2 (ja) | 標的核酸のシークエンシングデータをアライメントする方法 | |
CN112746097A (zh) | 一种检测样本交叉污染的方法以及预测交叉污染源的方法 | |
Höllbacher et al. | Seq-ing answers: Current data integration approaches to uncover mechanisms of transcriptional regulation | |
CN115803447A (zh) | 染色体邻近实验中的结构变异检测 | |
Walker et al. | Short-range template switching in great ape genomes explored using pair hidden Markov models | |
CN109920480B (zh) | 一种校正高通量测序数据的方法和装置 | |
CN112634984B (zh) | 一种同时检测dna甲基化和基因组变异的方法、装置和存储介质 | |
CN115410649B (zh) | 一种同时检测甲基化和突变信息的方法及装置 | |
Wang et al. | HRD-MILN: accurately estimate tumor homologous recombination deficiency status from targeted panel sequencing data | |
Lin et al. | Systematic and benchmarking studies of pipelines for mammal WGBS data in the novel NGS platform | |
Farooq et al. | Integrating whole genome sequencing, methylation, gene expression, topologically associated domain information in regulatory mutation prediction: A study of follicular lymphoma | |
CN113674802B (zh) | 一种基于甲基化测序数据进行变异检测的方法及装置 | |
Sinha et al. | CNV-CH: A convex hull based segmentation approach to detect copy number variations (CNV) using next-generation sequencing data | |
Chen et al. | Exon sequencing mutation detection algorithm based on PCR matching | |
Orduña et al. | On the Use of Parallel Architectures in DNA Methylation Analysis | |
Li et al. | Detecting Differentially Variable MicroRNAs via Model‐Based Clustering | |
Zhang | Discovery of in Frame Indel Somatic Driver Mutations in Cancer from MSK-Impact Clinical Sequencing Data | |
Chapman et al. | Selective amplification of hypermethylated DNA from diverse tumor types via MSRE-PCR | |
Orduña | On the Use of Parallel Architectures in DNA Methylation Analysis Juan M. Orduña, Lisardo Fernández, and Mariano Pérez | |
Walker | Statistical analysis of short template switch mutations in human genomes |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |