CN113674802A - 一种基于甲基化测序数据进行变异检测的方法及装置 - Google Patents
一种基于甲基化测序数据进行变异检测的方法及装置 Download PDFInfo
- Publication number
- CN113674802A CN113674802A CN202110960293.8A CN202110960293A CN113674802A CN 113674802 A CN113674802 A CN 113674802A CN 202110960293 A CN202110960293 A CN 202110960293A CN 113674802 A CN113674802 A CN 113674802A
- Authority
- CN
- China
- Prior art keywords
- comparison
- sequencing
- variation
- sequence
- methylation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/50—Mutagenesis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/30—Detection of binding sites or motifs
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
- G16B30/10—Sequence alignment; Homology search
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Biotechnology (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- Theoretical Computer Science (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Bioinformatics & Computational Biology (AREA)
- Chemical & Material Sciences (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Analytical Chemistry (AREA)
- Molecular Biology (AREA)
- Genetics & Genomics (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
一种基于甲基化测序数据进行变异检测的方法及装置,该方法包括:候选变异提取步骤,包括提取待测样本测序数据中的候选变异;比对文件提取步骤,包括锁定候选变异所在的基因组区域,提取基因组区域位置的比对文件;重比对步骤,包括将所述比对文件进行重比对,生成重比对之后的比对文件,即重比对文件;鉴定及修正步骤,包括对重比对文件进行转化位点的鉴定,修正转化位点的碱基信息,并重新生成修正碱基之后的比对文件,即修正比对文件;变异检测步骤,包括根据修正比对文件,进行变异检测,获得检测结果。通过重比对、转化位点的鉴定及修复,实现基于甲基化测序数据进行变异检测。
Description
技术领域
本发明涉及基因检测领域,具体涉及一种基于甲基化测序数据进行变异检测的方法及装置。
背景技术
人类基因组中存在各种各样的突变,包括但核苷酸变异(SNV)、插入缺失变异(InDel)等。其中相当一部分跟肿瘤的形成和发展息息相关。通过基因组测序,从测序的序列数据中,快速准确地鉴定出这些变异,对肿瘤的研究以及治疗有非常大的帮助。
最近,甲基化测序技术在肿瘤基因组中的应用越来越多。对比于普通的测序技术,甲基化测序技术除了能提供丰富的甲基化修饰信息,同时还能提供基因组变异信息。
但是甲基化测序会导致DNA上面的碱基信息改变。市面上主流的使用重亚硫酸盐处理的甲基化测序会导致非甲基化的C碱基变换成T。而最近出现的新甲基化测序方法,TET酶和吡啶硼烷结合处理的方法(TAPS)会导致甲基化的C碱基变换成T。这种碱基变换的干扰会影响序列比对以及突变检测。对于普通基因组测序的变异检测软件并不能很好地在甲基化测序数据上面兼容使用。对于单碱基变异(SNP),现时已经有多种方法和软件针对甲基化数据进行处理,例如bis-snp、BS-SNPer、gemBS等。但对于插入缺失突变(INDEL),并没有成熟的方法。其中主要有三方面的问题:第一、甲基化测序的干扰会影响序列比对,特别是容易出现与插入缺失变异密切相关的GAP比对错误,导致插入缺失变异错位;第二、甲基化测序会导致插入序列的改变;第三、不同于SNP,插入缺失突变无法通过修改基因型概率模型,兼容碱基转化的情况,对其进行处理。
发明内容
根据第一方面,在一实施例中,提供一种基于甲基化测序数据进行变异检测的方法,包括:
候选变异提取步骤,包括提取待测样本测序数据中的候选变异;
比对文件提取步骤,包括锁定候选变异所在的基因组区域,提取基因组区域位置的比对文件;
重比对步骤,包括将所述比对文件进行重比对,生成重比对之后的比对文件,即重比对文件;
鉴定及修正步骤,包括对重比对文件进行转化位点的鉴定,修正转化位点的碱基信息,并重新生成修正碱基之后的比对文件,即修正比对文件;
变异检测步骤,包括根据修正比对文件,进行变异检测,获得检测结果。
根据第二方面,在一实施例中,提供一种基于甲基化测序数据进行变异检测的系统,包括:
候选变异提取装置,用于提取待测样本测序数据中的候选变异;
比对文件提取装置,用于锁定候选变异所在的基因组区域,提取基因组区域位置的比对文件;
重比对装置,用于将所述比对文件进行重比对,生成重比对之后的比对文件,即重比对文件;
鉴定及修正装置,用于对重比对文件进行转化位点的鉴定,修正转化位点的碱基信息,并重新生成修正碱基之后的比对文件,即修正比对文件;
变异检测装置,用于根据修正比对文件,进行变异检测,获得检测结果。
根据第三方面,在一实施例中,提供一种基于甲基化测序数据进行变异检测的装置,包括:
存储器,用于存储程序;
处理器,用于通过执行所述存储器存储的程序以实现如第一方面所述的方法。
根据第四方面,在一实施例中,提供一种计算机可读存储介质,所述介质上存储有程序,所述程序能够被处理器执行以实现如第一方面所述的方法。
依据上述实施例的一种基于甲基化测序数据进行变异检测的方法及装置,通过重比对、转化位点的鉴定及修复,实现基于甲基化测序数据进行变异检测。
附图说明
图1为实施例1中的部分InDel候选集合截图;
图2为实施例1中的一个InDel位点的比对图;
图3为实施例1中的重比对图;
图4为实施例1中位点修复比对图。
具体实施方式
下面通过具体实施方式结合附图对本发明作进一步详细说明。其中不同实施方式中类似元件采用了相关联的类似的元件标号。在以下的实施方式中,很多细节描述是为了使得本申请能被更好的理解。然而,本领域技术人员可以毫不费力的认识到,其中部分特征在不同情况下是可以省略的,或者可以由其他元件、材料、方法所替代。在某些情况下,本申请相关的一些操作并没有在说明书中显示或者描述,这是为了避免本申请的核心部分被过多的描述所淹没,而对于本领域技术人员而言,详细描述这些相关操作并不是必要的,他们根据说明书中的描述以及本领域的一般技术知识即可完整了解相关操作。
另外,说明书中所描述的特点、操作或者特征可以以任意适当的方式结合形成各种实施方式。同时,方法描述中的各步骤或者动作也可以按照本领域技术人员所能显而易见的方式进行顺序调换或调整。因此,说明书和附图中的各种顺序只是为了清楚描述某一个实施例,并不意味着是必须的顺序,除非另有说明其中某个顺序是必须遵循的。
本文中为部件所编序号本身,例如“第一”、“第二”等,仅用于区分所描述的对象,不具有任何顺序或技术含义。而本申请所说“连接”、“联接,”如无特别说明,均包括直接和间接连接(联接)。
定义
本文中,“突变”(mutation)是指生物体、病毒或染色体外DNA基因组核苷酸序列的改变。突变包括小规模突变和大规模突变,小规模突变影响基因中的一个或几个核苷酸,其中,只影响到一个核苷酸的突变称为点突变。小规模突变包括:1)插入:将一个或多个额外的核苷酸添加到DNA中;2)缺失:从DNA中去除一个或多个核苷酸;3)替换:通常是由化学物质或DNA复制失常引起的替换突变,将基因中的单个核苷酸替换为另一个核苷酸。大规模突变涉及到染色体结构的突变,包括:1)扩增(或基因复制):导致染色体所有区域拷贝数增加,从而增加了染色体中基因的剂量;2)缺失:大片段染色体缺失,导致该区域内基因的丢失。按照遗传性质改变分类,突变分为生殖细胞突变、体细胞突变。本文中,“突变”与“变异”可互换使用。
本文中,“胚系变异”是指在动物体(尤其指人)的胚胎发育期已经携带的变异(几乎全部遗传自父母)。如果胚系变异存在于体细胞内,则不具有遗传性,如果胚系变异存在于生殖细胞内,则具有遗传性。胚系突变亦称生殖细胞突变,是来源于精子或卵子等生殖细胞的突变,因此,通常生物体中所有细胞都带有胚系突变。
本文中,“体细胞突变”亦称获得性突变,是在生物体生长、发育过程中或者环境因素影响下后天获得的突变,是指除性细胞外的体细胞发生的突变,通常,生物体中只有部分细胞带有体细胞突变。本文中,“体细胞突变”与“体细胞变异”可互换使用。
本文中,“DNA甲基化”是DNA化学修饰的一种,可以在不改变DNA序列的前提下,改变遗传物质。早在1925年,DNA甲基化修饰已经被发现。大量研究表明,DNA甲基化在基因调控中具有表现遗传作用。DNA甲基化中,研究最多的是5-甲基胞嘧啶(5mC),该修饰通常被认为是基因表达的一种稳定的抑制性调控因子。
本文中,TET辅助吡啶硼烷的甲基化测序法(TET-assisted pyridine boranesequencing),简称TAPS,无需亚硫酸氢盐,利用TET(Ten-Eleven Translocation,简称TET)酶将5mC(5-甲基胞嘧啶)和5hmC(5-羟甲基胞嘧啶)氧化为5caC(5-羧甲基胞嘧啶),随后使用有机硼烷(包括但不限于吡啶硼烷、2-甲基吡啶硼烷等等)将5caC还原为二氢尿嘧啶(dihydrou racil,DHU),而后的PCR再将DHU转化为胸腺嘧啶(T),可对目标序列直接进行DNA甲基化测序,是一种破坏性更小、效率更高的单碱基分辨率DNA甲基化测序方法。
本文中,基于重亚硫酸盐转化的甲基化测序法是一种基于二代测序技术的DNA甲基化检测方法,通过重亚硫酸氢盐将未甲基化的胞嘧啶(C)转化为尿嘧啶(U),然后在PCR过程中,采用U耐受的聚合酶,将U识别为胸腺嘧啶(T),实现C到T的转化,分析时将测序数据分别比对到C到T和G到A转化的参考基因组,识别样本DNA甲基化水平。在正常的人类DNA中,约有3%至6%的C被甲基化,因此经过重亚硫酸氢盐转化的测序数据超过90%的C转化为T。
本文中,术语“参考序列”指的是可将候选序列与其比较的已知序列,例如来自公共或内部数据库的序列。参考序列可以是参考基因组序列。
术语“基因组位置”或“基因组区域”可互换使用,用于指基因组(例如,动物或植物基因组,具体例如人类、猴子、大鼠、鱼或昆虫或植物的基因组)的区域。
根据第一方面,在一实施例中,提供一种基于甲基化测序数据进行变异检测的方法,包括:
候选变异提取步骤,包括提取待测样本测序数据中的候选变异;
比对文件提取步骤,包括锁定候选变异所在的基因组区域,提取基因组区域位置的比对文件;
重比对步骤,包括将比对文件进行重比对,生成重比对之后的比对文件,即重比对文件;
鉴定及修正步骤,包括对重比对文件进行转化位点的鉴定,修正转化位点的碱基信息,并重新生成修正碱基之后的比对文件,即修正比对文件;
变异检测步骤,包括根据修正比对文件,进行变异检测,获得检测结果。
在一实施例中,重比对步骤中,重比对的方法包括但不限于多重比对、基于一致性序列的比对中的至少一种。
在一实施例中,多重比对具体包括:对比对文件进行无参考基因组辅助的多重比对,将多重比对结果与参考基因组进行对齐处理,得到新的比对结果。
在一实施例中,基于一致性序列的比对具体包括:
将测序序列进行组装,获得组装图,将组装图中的路径比对到参考基因组,获得路径-参考基因组位置对应关系,将测序序列比对到组装图中的所有路径,获得测序序列-路径位置对应关系,选取符合筛选规则的测序序列-路径-参考基因组位置作为新的比对结果。
上述两种方法都能重新调节测序序列与参考基因组的比对结果,包括测序序列比对位置和GAP位置、个数和长度。该步的目的在于消除因为甲基化测序导致的错误比对,从而产生的假阳性插入缺失突变。
在一实施例中,将测序序列进行组装的方法包括但不限于德布鲁恩图组装法、先重叠后扩展组装法等组装方法中的至少一种。
德布鲁恩图组装法、先重叠后扩展组装法均可参照现有的文献,例如,德布鲁恩图组装法可参考文献《SOAPdenovo2:an empirically improved memory-efficient short-read de novo assembler》(Ruibang Luo,Binghang Liu,Yinlong Xie等,GigaScience,Volume 1,Issue 1,December 2012,2047-217X-1-18,https://doi.org/10.1186/2047-217X-1-18,公开日:2012年12月27日)。
先重叠后扩展组装法可参考文献《A consistency-based consensus algorithmfor de novo and reference-guided sequence assembly of short reads》(TobiasRausch,Sergey Koren,等,B ioinformatics,Volume 25,Issue 9,1May 2009,Pages1118–1124,https://doi.org/10.1093/bio informatics/btp131,公开日:2009年3月5日)。
上述文献仅仅是示例性列举,也可参考其他现有文献中的德布鲁恩图组装法或先重叠后扩展组装法。或者使用开源软件,将比对文件输入其中,得到重比对之后的比对文件。
在一实施例中,筛选规则包括但不限于如下规则中的至少一种:
1)综合比对分值最高;
2)综合最优比对概率最大。
在一实施例中,可以以综合最优比对概率最大作为筛选规则,即保留综合最优比对概率最大的测序序列-路径-参考基因组位置作为新的比对结果,通常情况下,比对分值和最优比对概率具有相关性。例如,a个序列可能比对到b个组装片段,两两组合,每种组合概率为Pab(有a×b个概率),同理,b个组装片段可能比对到c个基因组位置,每种组合概率为Pbc(有b×c个概率),最后计算总概率为Pab×Pbc,挑选最高概率的结果为最终比对结果。
在一实施例中,鉴定及修正步骤中,转化位点的鉴定方法包括:读取重比对文件,根据每一个基因组位置的比对情况,判断是否呈现出甲基化测序特有的转化模式,鉴定出测序数据中的转化位点位置。
在一实施例中,根据每一个基因组位置的比对情况,判断是否呈现出甲基化测序特有的转化模式,通过过滤,鉴定出测序数据中的转化位点位置。
在一实施例中,可以根据支持甲基化测序特有的转化模式的测序序列的支持数进行过滤,鉴定出测序数据中的转化位点位置。
在一实施例中,根据支持甲基化测序特有的转化模式的测序序列的支持数与阈值的大小关系进行过滤,鉴定出测序数据中的转化位点位置。
在一实施例中,如果支持甲基化测序特有的转化模式的测序序列的支持数>阈值,则判断为测序数据中的转化位点位置。
在一实施例中,阈值包括但不限于3,此处的具体阈值3为经验值,阈值越高越可靠,越低越灵敏,阈值可以根据实际需要进行确定。
在一实施例中,甲基化测序特有的转化模式包括但不限于TET辅助吡啶硼烷的甲基化测序法中特有的碱基转化模式、基于重亚硫酸盐转化的甲基化测序法中特有的碱基转化模式中的至少一种。
在一实施例中,甲基化测序特有的转化模式包括如下模式中的至少一种:
模式1):
比对到参考基因组正向的测序序列中的甲基化的胞嘧啶(C)变成胸腺嘧啶(T);
比对到参考基因组反向的测序序列中的鸟嘌呤(G)变成腺嘌呤(A),鸟嘌呤(G)与甲基化的胞嘧啶(C)配对;此模式为TET辅助吡啶硼烷的甲基化测序法中特有的碱基转化模式;
模式2):
比对到参考基因组正向的测序序列中未甲基化的胞嘧啶(C)变成胸腺嘧啶(T);
比对到参考基因组反向的测序序列中的鸟嘌呤(G)变成腺嘌呤(A),鸟嘌呤(G)与未甲基化的胞嘧啶(C)配对。此模式为基于重亚硫酸盐转化的甲基化测序法中特有的碱基转化模式。
在一实施例中,鉴定及修正步骤中,修正转化位点的碱基信息的方法包括:将测序数据中转化后的碱基修正为转化前的碱基。例如,对于模式1),将比对到参考基因组正向的测序序列中的胸腺嘧啶(T)修正为转化前的胞嘧啶(C),将比对到参考基因组反向的测序序列中的腺嘌呤(A)修正为鸟嘌呤(G)。再例如,对于模式2),将比对到参考基因组正向的测序序列中的胸腺嘧啶(T)修正为胞嘧啶(C),将比对到参考基因组反向的测序序列中的腺嘌呤(A)修正为鸟嘌呤(G)。
在一实施例中,候选变异包含插入变异、缺失变异中的至少一种。插入变异是指至少一个核苷酸插入到DNA中,缺失变异是指DNA中缺失至少一个核苷酸。
在一实施例中,本发明也适用于SNP(单核苷酸多态性)检测。
在一实施例中,候选变异为胚系变异、体细胞变异中的至少一种。
在一实施例中,候选变异为胚系变异。
在一实施例中,候选变异提取步骤中,待测样本测序数据为甲基化测序数据。甲基化测序数据是指通过甲基化测序法获得的测序数据。
在一实施例中,甲基化测序包括但不限于氧化亚硫酸氢盐测序(OXBS-SEQ)、TET辅助吡啶硼烷测序(TAPS)等等。
在一些实施例中,甲基化测序在不超过约40×的深度进行。在一些实施例中,甲基化测序在不大于约30×的深度进行。在一些实施例中,甲基化测序在不大于约25×的深度进行。在一些实施例中,甲基化测序在不超过约20×的深度进行。在一些实施例中,甲基化测序在不大于约12×的深度进行。在一些实施例中,甲基化测序在不大于约10×的深度进行。在一些实施例中,甲基化测序在不超过约8×的深度进行。在一些实施例中,甲基化测序在不超过约6×的深度进行。在一些实施例中,甲基化测序在不大于约5×,不大于约4×,不大于约3×,不大于约2×或不大于约1×的深度进行。
在一实施例中,待测样本包括但不限于组织样本、体液样本中的至少一种。
在一实施例中,组织样本包括但不限于肿瘤组织样本。
在一实施例中,体液样本包括但不限于血液样本、血浆样本中的至少一种。
在一实施例中,待测样本为DNA。
在一实施例中,候选变异提取步骤中,待测样本测序数据为靶向甲基化测序数据、全基因组甲基化测序数据中的至少一种。靶向甲基化测序数据可以是全外显子组范围的甲基化测序数据或区域捕获范围的甲基化测序数据。测序方法可以是第一代测序法(荧光标记的Sang er法)、第二代测序法(循环阵列合成测序法)、第三代测序法(不需要化学处理的第三代测序方法除外)等等。
在一实施例中,候选变异提取步骤中,包括通过分析比对文件中的比对信息,提取出候选变异。
在一实施例中,比对信息包括但不限于CIGAR字符串、MD字符串中的至少一种。
CIGAR字符串记录了测序序列与参考基因组序列之间的差异,例如单碱基变换、碱基插入缺失等。
在一实施例中,候选变异提取步骤中,还包括在提取出候选变异之后,通过对包含变异的测序序列支持数、测序序列频率初步过滤,得到候选变异集合。
在一实施例中,初步过滤时,保留满足如下条件的数据:
待测样本中包含变异的测序序列支持数(即支持变异的测序序列频数)≥3;
待测样本中包含变异的测序序列频率≥0.15。测序序列频率=变异位点的测序序列支持数/变异位点的测序深度。此处的包含变异的测序序列支持数阈值、测序序列频率阈值仅仅是示例性列举,可以根据需要设置其他阈值。
在一实施例中,通过分析比对文件中的比对信息,提取出候选变异时,比对文件为待测样本测序数据比对到参考基因组所得的比对文件。比对文件包括但不限于BAM文件、CRA M文件、SAM文件。
在一实施例中,候选变异所在的基因组区域是指包含候选变异集合所在位置以及包含变异上下游部分碱基的区域。生成只包含变异集合所在范围的比对文件,有利于加快后续分析速度。
在一实施例中,候选变异所在的基因组区域是指包含候选变异集合所在位置以及包含变异上下游200bp碱基的区域。即包含变异位点上游200bp、下游200bp碱基的区域。变异上下游碱基的数量不限于200bp,可以是其他任意数量的碱基。
根据第二方面,在一实施例中,提供一种基于甲基化测序数据进行变异检测的系统,包括:
候选变异提取装置,用于提取待测样本测序数据中的候选变异;
比对文件提取装置,用于锁定候选变异所在的基因组区域,提取基因组区域位置的比对文件;
重比对装置,用于将比对文件进行重比对,生成重比对之后的比对文件,即重比对文件;
鉴定及修正装置,用于对重比对文件进行转化位点的鉴定,修正转化位点的碱基信息,并重新生成修正碱基之后的比对文件,即修正比对文件;
变异检测装置,用于根据修正比对文件,进行变异检测,获得检测结果。
根据第三方面,在一实施例中,提供一种基于甲基化测序数据进行变异检测的装置,包括:
存储器,用于存储程序;
处理器,用于通过执行存储器存储的程序以实现如第一方面的方法。
根据第四方面,在一实施例中,提供一种计算机可读存储介质,介质上存储有程序,程序能够被处理器执行以实现如第一方面的方法。
在一实施例中,提供一种基于甲基化测序数据进行胚系插入缺失变异检测的方法,包括:快速提取样本中的候选插入缺失变异;锁定候选插入缺失变异所在的基因组区域,提取区域位置的比对文件;对提取出来的比对文件进行重比对,生成重比对之后的比对文件;对重新生成的比对文件进行转化位点的鉴定,修正转化位点的碱基信息,并重新生成修正碱基之后的比对文件;对于修正过后的比对文件,使用基因组插入缺失检测软件进行变异检测。该方法可以应用于靶向甲基化测序和全基因组甲基化测序数据。
在一实施例中,提供一种基于甲基化测序数据进行胚系插入缺失变异检测的方法,具体可以包括如下步骤:
(1)快速提取样本中的候选插入缺失变异。通过分析比对文件(例如,可以是BAM文件、CRAM文件等等)中的CIGAR字符串提取出候选变异。CIGAR字符串记录了测序序列与参考基因组序列之间的差异,例如单碱基变换、碱基插入缺失等。通过对测序序列支持数、测序序列频率初步过滤得到候选的插入缺失变异集合。
(2)锁定候选插入缺失变异所在的基因组区域,提取区域位置的比对文件。为加快后续分析速度,提取候选变异集合所在位置及旁边一定范围测序序列,例如±200bp。生成只包含变异集合所在范围的比对文件。
(3)对提取出来的比对文件进行重比对,生成重比对之后的比对文件。重比对可通过两种方法中的其中一种获得。第一种是对测序序列进行无参考基因组辅助的多重比对(multipl e sequence alignment)。将多重比对结果与参考基因组进行对齐处理,即得新的比对结果。第二种为基于一致性序列的比对(consensus alginment)。具体方法如下:先将测序序列进行组装,包括德布鲁恩图(De Brujin Graph)或先重叠后扩展等组装方法(Overlap-Layout-Cons ensus)。将组装图中的所有路径比对到参考基因组,获得路径-参考基因组位置对应关系。将测序序列比对到组装图中的所有路径,获得测序序列-路径位置对应关系。综合考虑三者两两间对应关系,例如综合比对分值最高或综合最优比对概率最大,选取出最优的测序序列-路径-参考基因组位置作为最终新的比对结果。上面两种方法都能重新调节测序序列与参考基因组的比对结果,包括测序序列比对位置和GAP位置,个数和长度。该步的目的在于消除因为甲基化测序导致的错误比对,从而产生的假阳性插入缺失突变。
(4)对重新生成的比对文件进行转化位点的鉴定,修正转化位点的碱基信息,并重新生成修正碱基之后的比对文件。甲基化测序会产生特有的甲基化碱基转化模式,例如TAPS测序,会将比对到参考基因组正向的pair 1(F1)或比对到参考基因组反向的pair2(R2)上面的甲基化碱基C变成T,会将比对到参考基因组正向的pair 2(F2)或比对到参考基因组反向的pair 1(R1)上面的测序碱基G(与甲基化碱基C配对)变成A。而重亚硫酸盐测序转化模式一致,但会对非甲基化碱基C进行转化。读取重比对文件,对每一个基因组位置的比对情况进行判断是否呈现出这种特有的转化模式。通过过滤,例如支持该种甲基化特有模式的测序序列支持数大于3。最终鉴定出测序数据中的转化位点位置。对转化位点进行碱基修复处理,将受碱基化转化T碱基或者A碱基转换成原来的C碱基或者G碱基。生成碱基修复过后的比对文件。该步的目的在于消除因为甲基化测序产生的错误的插入序列。
(5)对于修正过后的比对文件,使用基因组插入缺失检测软件进行变异检测。该步骤可以使用通用的用于一般基因组测序数据的变异检测软件,包括但不限于GATK、samtools、freebayes等等。
实施例1
本实施例检测的样本为Coriell人类基因组DNA标准品NA12878(样本信息参见网址:http://www.f-biology.com/pd.jsp?id=10384)。
本实施例对样本进行高深度全基因组甲基化测序。
对样本进行TAPS测序,文库构建方法参照申请号为201911159400.6的中国专利《全基因组甲基化非重亚硫酸氢盐测序文库及构建》的实施例4进行,DNA片段化时,是将Coriel l人类基因组DNA标准品NA12878与阳性内参(甲基化的pUC19)混合打断。上机测序所用的测序仪为MGISEQ-T7(华大智造),测序方式:PE100,测序深度47×。
下机数据经过预处理和参考基因组(Hs37d5)比对,具体是使用BWA软件进行比对,得到压缩比对文件CRAM/BAM(本实施例为BAM文件)。CRAM/BAM文件为本方法的输入文件。
下机数据的预处理包括:低质量序列(reads)过滤(过滤去除低质量碱基占比过大、N碱基占比过大的序列),接头序列污染reads过滤。
检测方法如下:
(1)读取CRAM/BAM文件,使用变异检测程序,通过CIGAR信息快速提取InDel候选集合。过滤InDel,条件为去掉read支持数小于3或者reads支持频率小于0.15的inDel变异。如图1所示。
变异检测程序参照申请号为202011158198.8的中国专利《一种检测体细胞突变的方法及装置》说明书第81、82段进行。
(2)将所有InDel位置拓展前后100bp(具体是在基因组序列上,以InDel位置为起点,上下游各自延伸100bp),获得候选处理区间。
(3)使用samtools软件中的view模块按步骤(2)中的区间对比对文件BAM进行测序序列的提取。图2为其中一个InDel位点的比对情况。
该点的突变信息如下表,存在两个不同碱基型的插入突变。
表1
#CHROM | POS | ID | REF | ALT |
1 | 3533921 | . | A | ACCGGCT |
1 | 3533921 | . | A | ACTGGCT |
(4)使用Bis-SNP软件(此为开源软件,参见网址https://sourceforge.net/projects/bissnp/files/BisSNP-0.82.2/)中的重比对模块BisulfiteIndelRealigner,输入步骤(3)中的BAM文件进行重比对,得到重比对之后的BAM文件。该步骤具体是基于一致性序列的比对,使用OLC(Overlap-Layout-Consensus)组装方法。OLC组装方法包括:首先构建重叠图(重叠图是指前后有若干个相同碱基的序列),然后将重叠图收束成Contig,然后每一个Contig选择最有可能的核苷酸序列。
图3为表1中示例位点的重比对情况。
(5)读取步骤(4)中的文件,使用碱基修复软件,对甲基化位点进行鉴定并修复。图4为表1中示例位点修复比对的情况。
(6)使用胚系突变检测程序Platypus(此为开源软件,参见网址:https://www.well.ox.ac.uk/research/research-groups/lunter-group/lunter-group/platypus-a-haplotype-based-variant-caller-for-next-generation-sequence-data)对步骤(5)中的BAM文件进行变异检测,其中产生的In Del集合为最终结果。结果中因为甲基化测序产生的错误插入突变ACTGGCT被去除,只有真实存在的ACCGGCT被保留。
表2
#CHROM | POS | ID | REF | ALT |
1 | 3533921 | . | A | ACCGGCT |
为了对比本实施例的高深度全基因组甲基化测序结果与现有的普通DNA测序结果,对样本进行了高深度全基因组普通DNA测序。
对于高深度全基因组普通DNA测序(测序深度为100×),文库构建方法为TA克隆连接接头建库,经过末端修复、加“A”、加接头和引入Index,再经过磷酸化、PCR后,构建得到测序仪可识别的DNA WGS文库,测序方法为二代测序,变异检测软件为platypus。
对于高深度全基因组甲基化测序,下机数据经过预处理和参考基因组比对(使用BWA软件)得到压缩比对文件CRAM/BAM(本实施例具体为BAM文件)。CRAM/BAM文件为本实施例方法的输入文件。使用本实施例的甲基化测序检测方法对比对文件进行分析,得到InDel变异集合。通过比较全基因组/外显子组区域内,甲基化测序得到的变异、普通DNA测序得到的变异、高可信度标准品答案集3者之间的一致性,评估方法性能。高可信度标准品答案来自于因美纳白金基因组数据(参见网址:https://www.illumina.com/platinumgenomes.html)以及瓶中基因组数据(参见网址:https://www.nist.gov/programs-projects/genome-bottle)。
表3标准品NA12878检测结果比较(全基因组InDel一致性)
“-”表示没有数据。
一致性的计算方法如下:以甲基化全基因组测序一致性的计算方法为例,甲基化全基因组测序一致性=共有位点数目/甲基化全基因组位点数×100%=(549480/608462)*100%=90.30%。
答案集一致性是指答案检出数占答案总数的百分比。
从表3可以看出,以共有位点数目占基于测序数据检测得到的变异数目的百分比计,普通全基因组测序一致性为84.55%,甲基化全基因组测序一致性达到90.30%。
普通全基因组测序的答案集一致性为94.20%,甲基化全基因组测序的答案集一致性为92.02%。
两种测序数据检测结果与答案集一致性较高,证明两种方法的灵敏性较高,均达到90%以上。甲基化全基因组测序的答案集一致性与普通全基因组测序的答案集一致性接近。全基因组范围内与全基因组测序一致性较高,表明准确度较高,达84%以上。上述结果表明,本实施例基于甲基化全基因组测序数据的变异检测方法具有较高的准确性。
表4标准品NA12878检测结果比较(全外显子组InDel一致性)
“-”表示没有数据。
从表4可以看出,以共有位点数目占基于测序数据检测得到的变异数目的百分比计,普通全外显子组测序一致性为94.02%,甲基化全外显子组测序一致性为96.75%。
普通全外显子组测序的答案集一致性为97.61%,甲基化全外显子组测序的答案集一致性为95.86%。
相对于全基因组测序,全外显子组测序的灵敏度更高,准确度更高,而且突变可解释性更强,因此,全外显子组测序为医学检测(例如遗传疾病的检测)中常用的测序手段。本实施例基于全外显子组测序的一致性都达到94%以上,证明本实施例基于甲基化全外显子组测序的变异检测方法具有较高的准确性。
实施例2
选择3例肿瘤患者血浆cfDNA样本进行高深度全基因组捕获甲基化测序,文库构建方法、测序所用仪器、测序方法同实施例1。
表3中,190038718BPD样本对应的受试者患肝癌,使用streck采血管,常温运输。
200037881BP1D样本对应的受试者患肝癌,使用streck采血管,常温运输。
208002626BP1D样本对应的受试者患左乳腺癌,骨、肝转移;既往检测:免疫组化/左乳,HER2(阳性)。使用streck采血管,常温运输。
下机数据经过预处理和参考基因组比对(使用BWA软件)得到压缩比对文件CRAM/BAM(本实施例具体为BAM文件)。CRAM/BAM文件为本实施例方法的输入文件。使用与实施例1相同的甲基化测序检测方法对比对文件进行分析,得到InDel变异集合。通过比较捕获测序区域内,甲基化测序得到的变异和普通DNA测序得到的变异之间一致性,评估方法性能。
普通DNA测序方法同实施例1,文库构建时,具体使用了Hieff NGS Ultima DNALibr ary Prep Kit for MGI文库构建试剂盒。
表5
从表5可以看出,虽然肿瘤cfDNA样本可能会对胚系突变检测带来影响,但甲基化测序一致性和全基因组重测序(whole genome sequencing,WGS)一致性都达到80%以上,灵敏度和准确度均较高。部分样本接近90%,接近普通全基因组重测序一致性水平。上述结果表明,本实施例基于甲基化测序数据的变异检测具有较高的准确性。
本领域技术人员可以理解,上述实施方式中各种方法的全部或部分功能可以通过硬件的方式实现,也可以通过计算机程序的方式实现。当上述实施方式中全部或部分功能通过计算机程序的方式实现时,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器、随机存储器、磁盘、光盘、硬盘等,通过计算机执行该程序以实现上述功能。例如,将程序存储在设备的存储器中,当通过处理器执行存储器中程序,即可实现上述全部或部分功能。另外,当上述实施方式中全部或部分功能通过计算机程序的方式实现时,该程序也可以存储在服务器、另一计算机、磁盘、光盘、闪存盘或移动硬盘等存储介质中,通过下载或复制保存到本地设备的存储器中,或对本地设备的系统进行版本更新,当通过处理器执行存储器中的程序时,即可实现上述实施方式中全部或部分功能。
以上应用了具体个例对本发明进行阐述,只是用于帮助理解本发明,并不用以限制本发明。对于本发明所属技术领域的技术人员,依据本发明的思想,还可以做出若干简单推演、变形或替换。
Claims (15)
1.一种基于甲基化测序数据进行变异检测的方法,其特征在于,包括:
候选变异提取步骤,包括提取待测样本测序数据中的候选变异;
比对文件提取步骤,包括锁定候选变异所在的基因组区域,提取基因组区域位置的比对文件;
重比对步骤,包括将所述比对文件进行重比对,生成重比对之后的比对文件,即重比对文件;
鉴定及修正步骤,包括对重比对文件进行转化位点的鉴定,修正转化位点的碱基信息,并重新生成修正碱基之后的比对文件,即修正比对文件;
变异检测步骤,包括根据修正比对文件,进行变异检测,获得检测结果。
2.如权利要求1所述的方法,其特征在于,重比对步骤中,重比对的方法选自多重比对、基于一致性序列的比对中的至少一种。
3.如权利要求2所述的方法,其特征在于,所述多重比对具体包括:对所述比对文件进行无参考基因组辅助的多重比对,将多重比对结果与参考基因组进行对齐处理,得到新的比对结果。
4.如权利要求2所述的方法,其特征在于,所述基于一致性序列的比对具体包括:将测序序列进行组装,获得组装图,将组装图中的路径比对到参考基因组,获得路径-参考基因组位置对应关系,将测序序列比对到组装图中的所有路径,获得测序序列-路径位置对应关系,选取符合筛选规则的测序序列-路径-参考基因组位置作为新的比对结果。
5.如权利要求4所述的方法,其特征在于,将测序序列进行组装的方法包括德布鲁恩图组装法、先重叠后扩展组装法中的至少一种;
所述筛选规则包括如下规则中的至少一种:
1)综合比对分值最高中的至少一种;
2)综合最优比对概率最大。
6.如权利要求1所述的方法,其特征在于,鉴定及修正步骤中,转化位点的鉴定方法包括:读取重比对文件,根据每一个基因组位置的比对情况,判断是否呈现出甲基化测序特有的转化模式,鉴定出测序数据中的转化位点位置。
7.如权利要求6所述的方法,其特征在于,根据每一个基因组位置的比对情况,判断是否呈现出甲基化测序特有的转化模式,通过过滤,鉴定出测序数据中的转化位点位置。
8.如权利要求7所述的方法,其特征在于,根据支持甲基化测序特有的转化模式的测序序列的支持数进行过滤,鉴定出测序数据中的转化位点位置;
和/或,根据支持甲基化测序特有的转化模式的测序序列的支持数与阈值的大小关系进行过滤,鉴定出测序数据中的转化位点位置;
和/或,如果支持甲基化测序特有的转化模式的测序序列的支持数>阈值,则判断为测序数据中的转化位点位置。
9.如权利要求6所述的方法,其特征在于,所述甲基化测序特有的转化模式包括TET辅助吡啶硼烷的甲基化测序法中特有的碱基转化模式、基于重亚硫酸盐转化的甲基化测序法中特有的碱基转化模式中的至少一种。
10.如权利要求6所述的方法,其特征在于,所述甲基化测序特有的转化模式包括如下模式中的至少一种:
模式1):
比对到参考基因组正向的测序序列中的甲基化的胞嘧啶(C)变成胸腺嘧啶(T);
比对到参考基因组反向的测序序列中的鸟嘌呤(G)变成腺嘌呤(A),所述鸟嘌呤(G)与甲基化的胞嘧啶(C)配对;
模式2):
比对到参考基因组正向的测序序列中未甲基化的胞嘧啶(C)变成胸腺嘧啶(T);
比对到参考基因组反向的测序序列中的鸟嘌呤(G)变成腺嘌呤(A),所述鸟嘌呤(G)与未甲基化的胞嘧啶(C)配对。
11.如权利要求1所述的方法,其特征在于,鉴定及修正步骤中,修正转化位点的碱基信息的方法包括:将测序数据中转化后的碱基修正为转化前的碱基。
12.如权利要求1所述的方法,其特征在于,所述候选变异包含插入变异、缺失变异中的至少一种;
所述候选变异为胚系变异、体细胞变异中的至少一种;
候选变异提取步骤中,所述待测样本测序数据为甲基化测序数据;
所述待测样本包括组织样本、体液样本中的至少一种;
所述组织样本包括肿瘤组织样本;
所述体液样本包括血液样本、血浆样本中的至少一种;
所述待测样本为DNA;
候选变异提取步骤中,所述待测样本测序数据为靶向甲基化测序数据、全基因组甲基化测序数据中的至少一种;
候选变异提取步骤中,包括通过分析比对文件中的比对信息,提取出候选变异;
所述比对信息包括CIGAR字符串、MD字符串中的至少一种;
候选变异提取步骤中,还包括在提取出候选变异之后,通过对包含变异的测序序列支持数、测序序列频率初步过滤,得到候选变异集合;
初步过滤时,保留满足如下条件中至少一种的数据:
1)待测样本中包含变异的测序序列支持数≥3;
2)待测样本中包含变异的测序序列频率≥0.15;
通过分析比对文件中的比对信息,提取出候选变异时,所述比对文件为待测样本测序数据比对到参考基因组所得的比对文件;
候选变异所在的基因组区域是指包含候选变异集合所在位置以及包含变异上下游部分碱基的区域。
13.一种基于甲基化测序数据进行变异检测的系统,其特征在于,包括:
候选变异提取装置,用于提取待测样本测序数据中的候选变异;
比对文件提取装置,用于锁定候选变异所在的基因组区域,提取基因组区域位置的比对文件;
重比对装置,用于将所述比对文件进行重比对,生成重比对之后的比对文件,即重比对文件;
鉴定及修正装置,用于对重比对文件进行转化位点的鉴定,修正转化位点的碱基信息,并重新生成修正碱基之后的比对文件,即修正比对文件;
变异检测装置,用于根据修正比对文件,进行变异检测,获得检测结果。
14.一种基于甲基化测序数据进行变异检测的装置,其特征在于,包括:
存储器,用于存储程序;
处理器,用于通过执行所述存储器存储的程序以实现如权利要求1~12任意一项所述的方法。
15.一种计算机可读存储介质,其特征在于,所述介质上存储有程序,所述程序能够被处理器执行以实现如权利要求1~12任意一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110960293.8A CN113674802B (zh) | 2021-08-20 | 2021-08-20 | 一种基于甲基化测序数据进行变异检测的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110960293.8A CN113674802B (zh) | 2021-08-20 | 2021-08-20 | 一种基于甲基化测序数据进行变异检测的方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113674802A true CN113674802A (zh) | 2021-11-19 |
CN113674802B CN113674802B (zh) | 2022-09-09 |
Family
ID=78544462
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110960293.8A Active CN113674802B (zh) | 2021-08-20 | 2021-08-20 | 一种基于甲基化测序数据进行变异检测的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113674802B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118506860A (zh) * | 2024-07-18 | 2024-08-16 | 广州女娲生命科技有限公司 | 药物表观遗传安全性评价的检测分析方法及系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105420351A (zh) * | 2015-10-16 | 2016-03-23 | 深圳华大基因研究院 | 确定个体基因突变的方法和系统 |
CN107451419A (zh) * | 2017-07-14 | 2017-12-08 | 浙江大学 | 一种通过计算机程序模拟产生简化dna甲基化测序数据的方法 |
CN110060733A (zh) * | 2019-04-28 | 2019-07-26 | 上海宝藤生物医药科技股份有限公司 | 基于单样本的二代测序肿瘤体细胞变异检测装置 |
CN112176419A (zh) * | 2019-10-16 | 2021-01-05 | 中国医学科学院肿瘤医院 | 一种检测ctDNA中肿瘤特异基因的变异和甲基化的方法 |
CN112289376A (zh) * | 2020-10-26 | 2021-01-29 | 深圳基因家科技有限公司 | 一种检测体细胞突变的方法及装置 |
CN112634984A (zh) * | 2020-12-29 | 2021-04-09 | 北京吉因加医学检验实验室有限公司 | 一种同时检测dna甲基化和基因组变异的方法、装置和存储介质 |
-
2021
- 2021-08-20 CN CN202110960293.8A patent/CN113674802B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105420351A (zh) * | 2015-10-16 | 2016-03-23 | 深圳华大基因研究院 | 确定个体基因突变的方法和系统 |
CN107451419A (zh) * | 2017-07-14 | 2017-12-08 | 浙江大学 | 一种通过计算机程序模拟产生简化dna甲基化测序数据的方法 |
CN110060733A (zh) * | 2019-04-28 | 2019-07-26 | 上海宝藤生物医药科技股份有限公司 | 基于单样本的二代测序肿瘤体细胞变异检测装置 |
CN112176419A (zh) * | 2019-10-16 | 2021-01-05 | 中国医学科学院肿瘤医院 | 一种检测ctDNA中肿瘤特异基因的变异和甲基化的方法 |
CN112289376A (zh) * | 2020-10-26 | 2021-01-29 | 深圳基因家科技有限公司 | 一种检测体细胞突变的方法及装置 |
CN112634984A (zh) * | 2020-12-29 | 2021-04-09 | 北京吉因加医学检验实验室有限公司 | 一种同时检测dna甲基化和基因组变异的方法、装置和存储介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118506860A (zh) * | 2024-07-18 | 2024-08-16 | 广州女娲生命科技有限公司 | 药物表观遗传安全性评价的检测分析方法及系统 |
CN118506860B (zh) * | 2024-07-18 | 2024-10-08 | 广州女娲生命科技有限公司 | 药物表观遗传安全性评价的检测分析方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113674802B (zh) | 2022-09-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
De Coster et al. | Towards population-scale long-read sequencing | |
CN109033749B (zh) | 一种肿瘤突变负荷检测方法、装置和存储介质 | |
CN109767810B (zh) | 高通量测序数据分析方法及装置 | |
JP7113838B2 (ja) | 配列バリアントコールのための有効化方法およびシステム | |
US20220130488A1 (en) | Methods for detecting copy-number variations in next-generation sequencing | |
KR102113896B1 (ko) | 모체 혈장으로부터의 비침습적 산전 분자 핵형분석 | |
JP6762932B2 (ja) | シーケンシングリードのde novoアセンブリーの方法、システム、およびプロセス | |
JP2020505947A (ja) | 不均一分子長を有するユニーク分子インデックスセットの生成およびエラー補正のための方法およびシステム | |
US20140249764A1 (en) | Method for Assembly of Nucleic Acid Sequence Data | |
CN110343748B (zh) | 基于高通量靶向测序分析肿瘤突变负荷的方法 | |
Larson et al. | A clinician’s guide to bioinformatics for next-generation sequencing | |
US12106825B2 (en) | Computational modeling of loss of function based on allelic frequency | |
EP4150113A1 (en) | Homologous recombination repair deficiency detection | |
CN114694750A (zh) | 一种基于ngs平台的单样本肿瘤体细胞突变判别及tmb检测方法 | |
English et al. | Benchmarking of small and large variants across tandem repeats | |
CN111180013B (zh) | 检测血液病融合基因的装置 | |
CN113674802B (zh) | 一种基于甲基化测序数据进行变异检测的方法及装置 | |
Simonyan et al. | HIVE-heptagon: a sensible variant-calling algorithm with post-alignment quality controls | |
CN113373234A (zh) | 一种基于突变特征的小细胞肺癌分子分型确定方法及应用 | |
CN112837748A (zh) | 一种区分不同解剖学起源肿瘤的系统及其方法 | |
CN116665775A (zh) | 检测线粒体起源核基因组序列的方法、装置和存储介质 | |
US20230332205A1 (en) | Linked dual barcode insertion constructs | |
JPWO2019132010A1 (ja) | 塩基配列における塩基種を推定する方法、装置及びプログラム | |
CN112513292A (zh) | 基于高通量测序检测同源序列的方法和装置 | |
US20230332220A1 (en) | Random insertion genome reconstruction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20220810 Address after: 518000 floor 1-2, building 5, 14 Zhongxing Road, Kengzi street, Pingshan District, Shenzhen City, Guangdong Province Applicant after: Shenzhen guiinga Medical Laboratory Applicant after: Suzhou jiyinga medical laboratory Co.,Ltd. Address before: 518000 floor 1-2, building 5, 14 Zhongxing Road, Kengzi street, Pingshan District, Shenzhen City, Guangdong Province Applicant before: Shenzhen guiinga Medical Laboratory |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant | ||
GR01 | Patent grant |