CN107451419A - 一种通过计算机程序模拟产生简化dna甲基化测序数据的方法 - Google Patents

一种通过计算机程序模拟产生简化dna甲基化测序数据的方法 Download PDF

Info

Publication number
CN107451419A
CN107451419A CN201710576797.3A CN201710576797A CN107451419A CN 107451419 A CN107451419 A CN 107451419A CN 201710576797 A CN201710576797 A CN 201710576797A CN 107451419 A CN107451419 A CN 107451419A
Authority
CN
China
Prior art keywords
sequencing
data
simulation
computer program
methylation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710576797.3A
Other languages
English (en)
Other versions
CN107451419B (zh
Inventor
陆燕
孙喜伟
刘鹏渊
周莉媛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN201710576797.3A priority Critical patent/CN107451419B/zh
Publication of CN107451419A publication Critical patent/CN107451419A/zh
Application granted granted Critical
Publication of CN107451419B publication Critical patent/CN107451419B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks

Abstract

本发明公开了一种通过计算机程序模拟产生简化DNA甲基化测序数据的方法,可以用来评估不同简化基因组甲基化(RRBS)测序数据比对软件的效率以及相应数据分析平台的可靠性,以此来确定最优的比对方法及相应的最优参数。本发明通过计算机程序模拟RRBS文库构建和测序过程,根据CpGs甲基化水平的分布,产生与真实RRBS测序数据非常相近的仿真数据。该仿真数据除了模拟单个碱基水平的甲基化水平外,还模拟了真实数据的插入、缺失、单核苷酸变异和结构变异等其他特性以增加真实性。此外,本发明在模拟RRBS测序过程中,通过引入经验误差模型来模拟测序过程中出现的误差,进一步增加了仿真数据的真实性。

Description

一种通过计算机程序模拟产生简化DNA甲基化测序数据的 方法
技术领域
本发明属于计算机技术模拟产生简化DNA甲基化测序数据(生物信息学)领域,具体涉及使用计算机程序模拟产生高仿真的简化DNA甲基化测序数据的方法。
背景技术
DNA甲基化是指在DNA序列不改变情况下,通过DNA化学修饰影响生物过程或者改变遗传表型。近年来,随着研究的深入,研究者发现DNA甲基化作为一种重要的表观遗传学修饰,其在肿瘤的形成发生发展过程中扮演重要角色。除此之外,研究也表明DNA甲基化还可能参与X染色体沉默,基因组印记,转座子沉默和干细胞分化等重要生物过程。因此,准确检测基因组上差异甲基化区域(DMR)对研究包括肿瘤在内的一些复杂疾病有非常重要的作用。
随着二代测序迅猛发展以及测序成本的降低,基于高通量测序和亚硫酸盐处理的来研究甲基化的技术越来受到关注。其中最常见的是简化DNA甲基化测序技术(RRBS)。与此同时,各种基于RRBS测序数据的后期比对工具也随之发展,层出不穷;如何系统地评估这些比对工具的功效变得日趋重要。通常,由于真实RRBS测序数据的甲基化信息的实际情况无从得知,从而难以以此去评估相应的比对工具的可靠性;然而,使用计算机模拟的RRBS测序数据却可以通过自主设定参数从而得知模拟数据的“真实”甲基化信息,提供基础比较标准,从而能便捷有效地评估这些工具的表现,以此来确定最优的比对方法及相应的最优参数。
目前已知的甲基化测序数据模拟工具大多是基于先前的全基因组甲基化测序(WGBS)设计的,并不适合目前广泛使用的RRBS测序技术数据,而且这些工具除了模拟甲基化信息外没有模拟真实数据的其它特性。近来,也有一些基于RRBS测序的数据模拟工具,但是他们只是通过统计模型产生一些DNA甲基化数据,并非模拟实际测序得到的读长(reads)数据,这些数据自然也不能用来评估相应拼接工具的可靠性。
发明内容
本发明的目的在于针对现有技术的不足,提供一种通过计算机程序模拟产生简化DNA甲基化测序数据的方法,通过计算机程序模拟RRBS文库构建和测序过程,根据基因组上的CpGs甲基化水平的分布,产生与真实RRBS测序数据非常相近的仿真数据。其中,该过程引入了测序经验误差模型模拟测序出现的误差以增加仿真数据的真实性。该高仿真数据可以用来测试目前各种甲基化测序数据比对软件的功效,以此来确定最优的拼接方法及相应的最优参数,也可用于后续新的比对工具的辅助开发。
本发明的目的是通过以下技术方案来实现的:一种通过计算机程序模拟产生简化DNA甲基化测序数据的方法,具体包括以下四个步骤:
(1)模拟产生包含单碱基插入、缺失、单核苷酸变异和结构变异特性(变异参数可由用户设定)的参考基因组序列,比如hg19;
(2)在步骤(1)得到的参考基因组上模拟CpG二核苷酸位点上的甲基化水平:由于人类基因组上的CpG位点的甲基化水平通常服从Beta分布,所以使用Beta统计模型来产生CpG位点的甲基化数值;此外,考虑到真实数据中邻近CpG位点的强相关性,对100bp距离内的CpG位点的甲基化水平进行基于最大似然统计模型的修正;
(3)对步骤(2)得到的基因组序列进行计算机模拟生物体内的限制性酶切过程(比如MspI限制性内切酶),记录相应的切割位置得到切割片段(fragments),然后根据服从泊松分布的覆盖度参数,模拟产生单端或者双端的测序读长(reads);可以通过内部选择过程,得到定向或者非定向文库的测序片段。
(4)模拟产生测序数据的质量文件:在Illumina测序中,碱基的测序质量值和它在读长中所处位置有关(越靠后质量越低),因此使用大量真实数据训练集来拟合Illumina测序的碱基质量分布,得到碱基的经验误差分布,并且用于产生数据的质量值情况。
进一步地,所述参考基因组包括人类各个版本参考基因组。
进一步地,所述计算机模拟的限制性酶切包括所有限制性内切酶。
本发明与背景技术相比具有的有益效果是:本发明提供了一种全面的RRBS测序数据模拟方法,它能够提供模拟实际测序得到的读长(reads)数据,其中不仅包含了单个CpG位点的甲基化水平值,也有如插入、缺失、单核苷酸变异和结构变异等实际数据含有的其它特性值,从而能够更加全面有效地评估现有拼接工具的表现,也能够用于辅助开发新的比对工具。
附图说明
图1为本发明的一个实施例流程图;
图2为本发明产生的仿真数据和真实数据间的FastQC报告比较,A为碱基质量得分分布,B为碱基平均质量得分分布;
图3为本发明方法模拟产生的和Illumina测序仪产生的测序数据对比图,A测序深度,B测序片段读长,C甲基化水平。
具体实施方式
下面参照附图用本发明的示例性实施例对本发明进行更全面的描述及说明,但这并不意味着本发明仅限与此。
实施例1:本发明提供的通过计算机程序(Python程序语言)模拟产生简化DNA甲基化测序数据的方法,首先根据图1所示模拟产生简化DNA甲基化测序数据:
(1)模拟产生包含单碱基插入、缺失、单核苷酸变异和结构变异等特性(这些变异参数可由用户自行给定)的参考基因组序列,比如hg19。
(2)在步骤(1)得到的参考基因组上模拟CpG二核苷酸位点上的甲基化水平。由于基因组上的CpG位点的甲基化水平通常服从Beta分布,所以我们使用Beta模型来产生CpG位点上的甲基化水平值。此外,考虑到真实数据中邻近CpG位点的强相关性,我们对100bp距离内的CpG位点的甲基化水平进行基于最大似然统计模型的修正。
(3)对步骤(2)得到的基因组序列进行计算机模拟生物体内的限制性酶切过程(比如MspI限制性内切酶),记录相应的切割位置得到切割片段(fragments),然后根据服从泊松分布的覆盖度参数,模拟产生单端或者双端的测序读长(reads)。该发明可以通过内部选择过程,实现得到定向或者非定向文库的测序片段。
接着如图2所示模拟产生测序质量误差数据:模拟产生测序数据的质量文件。在Illumina测序中,碱基的测序质量值和它在读长中所处位置有关(越靠后质量越低),因此我们使用大量的真实数据训练集来拟合Illumina测序的碱基质量分布,得到碱基的经验误差分布,并且用于产生数据的质量值情况。
本发明方法性能的评估:从测序数据的碱基质量得分分布(图2A)、基因组上测序深度(图3A)、Msp1片段大小(图3B)和甲基化水平的分布(图3C)等角度,本发明方法产生的RRBS数据和真实数据非常相似。所以,根据本发明方法产生的RRBS数据,我们可以用来测试目前各种甲基化测序数据拼接软件的功效,以此来确定最优的拼接方法及相应的最优参数,也可用于后续新的拼接工具的辅助开发。
应当说明的是:以上实施例仅用以说明本发明的技术流程而不是对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应该涵盖在本发明的权利要求范围当中。

Claims (3)

1.一种通过计算机程序模拟产生简化DNA甲基化测序数据的方法,其特征在于,具体包括以下四个步骤:
(1)模拟产生包含单碱基插入、缺失、单核苷酸变异和结构变异特性的参考基因组序列,变异参数可由用户设定;
(2)在步骤(1)得到的参考基因组上模拟CpG二核苷酸位点上的甲基化水平:使用Beta统计模型来产生CpG位点的甲基化数值;考虑到真实数据中邻近CpG位点的强相关性,对100bp距离内的CpG位点的甲基化水平进行基于最大似然统计模型的修正;
(3)对步骤(2)得到的基因组序列进行计算机模拟生物体内的限制性酶切过程,记录相应的切割位置得到切割片段fragments,然后根据服从泊松分布的覆盖度参数,模拟产生单端或者双端的测序读长reads;可以通过内部选择过程,得到定向或者非定向文库的测序片段;
(4)模拟产生测序数据的质量文件:在Illumina测序中,碱基的测序质量值和它在读长中所处位置有关,使用大量真实数据训练集来拟合Illumina测序的碱基质量分布,得到碱基的经验误差分布,并且用于产生数据的质量值情况。
2.根据权利要求1所述的通过计算机程序模拟产生简化DNA甲基化测序数据的方法,其特征在于:所述参考基因组包括人类各个版本参考基因组。
3.根据权利要求1所述的通过计算机程序模拟产生简化DNA甲基化测序数据的方法,其特征在于:所述计算机模拟的限制性酶切包括所有限制性内切酶。
CN201710576797.3A 2017-07-14 2017-07-14 通过计算机程序模拟产生简化dna甲基化测序数据的方法 Active CN107451419B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710576797.3A CN107451419B (zh) 2017-07-14 2017-07-14 通过计算机程序模拟产生简化dna甲基化测序数据的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710576797.3A CN107451419B (zh) 2017-07-14 2017-07-14 通过计算机程序模拟产生简化dna甲基化测序数据的方法

Publications (2)

Publication Number Publication Date
CN107451419A true CN107451419A (zh) 2017-12-08
CN107451419B CN107451419B (zh) 2020-01-24

Family

ID=60488574

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710576797.3A Active CN107451419B (zh) 2017-07-14 2017-07-14 通过计算机程序模拟产生简化dna甲基化测序数据的方法

Country Status (1)

Country Link
CN (1) CN107451419B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107918725A (zh) * 2017-12-28 2018-04-17 大连海事大学 一种基于机器学习选择最优特征的dna甲基化预测方法
CN108229101A (zh) * 2017-12-29 2018-06-29 北京科迅生物技术有限公司 基于ngs的靶向测序数据模拟方法和装置
CN109637583A (zh) * 2018-12-20 2019-04-16 中国科学院昆明植物研究所 一种植物基因组差异甲基化区域的检测方法
CN111383714A (zh) * 2018-12-29 2020-07-07 安诺优达基因科技(北京)有限公司 模拟目标疾病仿真测序文库的方法及其应用
CN111755072A (zh) * 2020-08-04 2020-10-09 深圳吉因加医学检验实验室 一种同时检测甲基化水平、基因组变异和插入片段的方法及装置
CN113674802A (zh) * 2021-08-20 2021-11-19 深圳吉因加医学检验实验室 一种基于甲基化测序数据进行变异检测的方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101665835A (zh) * 2009-09-23 2010-03-10 中国人民解放军第二军医大学 Hpp1基因甲基化定量检测方法
US20120149593A1 (en) * 2009-01-23 2012-06-14 Hicks James B Methods and arrays for profiling dna methylation
CN102648292A (zh) * 2009-09-16 2012-08-22 塞昆纳姆股份有限公司 基于甲基化从母体样品中富集胎儿核酸的可用于无创性产前诊断的方法和组合物
CN102796808A (zh) * 2011-05-23 2012-11-28 深圳华大基因科技有限公司 甲基化高通量检测方法
CN103088433A (zh) * 2011-11-02 2013-05-08 深圳华大基因科技有限公司 全基因组甲基化高通量测序文库的构建方法及其应用
CN103555856A (zh) * 2013-11-15 2014-02-05 复旦大学 一种全基因组dna甲基化的导向测序技术
US20150087529A1 (en) * 2013-09-20 2015-03-26 The Chinese University Of Hong Kong Sequencing analysis of circulating dna to detect and monitor autoimmune diseases

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120149593A1 (en) * 2009-01-23 2012-06-14 Hicks James B Methods and arrays for profiling dna methylation
CN102648292A (zh) * 2009-09-16 2012-08-22 塞昆纳姆股份有限公司 基于甲基化从母体样品中富集胎儿核酸的可用于无创性产前诊断的方法和组合物
CN101665835A (zh) * 2009-09-23 2010-03-10 中国人民解放军第二军医大学 Hpp1基因甲基化定量检测方法
CN102796808A (zh) * 2011-05-23 2012-11-28 深圳华大基因科技有限公司 甲基化高通量检测方法
CN103088433A (zh) * 2011-11-02 2013-05-08 深圳华大基因科技有限公司 全基因组甲基化高通量测序文库的构建方法及其应用
US20150087529A1 (en) * 2013-09-20 2015-03-26 The Chinese University Of Hong Kong Sequencing analysis of circulating dna to detect and monitor autoimmune diseases
CN103555856A (zh) * 2013-11-15 2014-02-05 复旦大学 一种全基因组dna甲基化的导向测序技术

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ALLAN LAZAROVICI.ET.: "Probing DNA shape and methylation state on a genomic scale with DNase I", 《PNAS》 *
MICHELLE R. LACEY*.ET.: "Modeling, simulation and analysis of methylation profiles from reduced representation bisulfite sequencing experiments", 《STATISTICAL APPLICATIONS IN GENETICS AND MOLECULAR BIOLOGY 2013》 *
陈勋: "基于简化基因组测序的油菜高通量SNP分析及白菜基因组DNA甲基化解析", 《中国博士学位论文全文数据库 农业科技辑》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107918725A (zh) * 2017-12-28 2018-04-17 大连海事大学 一种基于机器学习选择最优特征的dna甲基化预测方法
CN107918725B (zh) * 2017-12-28 2021-09-07 大连海事大学 一种基于机器学习选择最优特征的dna甲基化预测方法
CN108229101A (zh) * 2017-12-29 2018-06-29 北京科迅生物技术有限公司 基于ngs的靶向测序数据模拟方法和装置
CN108229101B (zh) * 2017-12-29 2021-07-06 北京科迅生物技术有限公司 基于ngs的靶向测序数据模拟方法和装置
CN109637583A (zh) * 2018-12-20 2019-04-16 中国科学院昆明植物研究所 一种植物基因组差异甲基化区域的检测方法
CN109637583B (zh) * 2018-12-20 2020-06-16 中国科学院昆明植物研究所 一种植物基因组差异甲基化区域的检测方法
CN111383714A (zh) * 2018-12-29 2020-07-07 安诺优达基因科技(北京)有限公司 模拟目标疾病仿真测序文库的方法及其应用
CN111383714B (zh) * 2018-12-29 2023-07-28 安诺优达基因科技(北京)有限公司 模拟目标疾病仿真测序文库的方法及其应用
CN111755072A (zh) * 2020-08-04 2020-10-09 深圳吉因加医学检验实验室 一种同时检测甲基化水平、基因组变异和插入片段的方法及装置
CN113674802A (zh) * 2021-08-20 2021-11-19 深圳吉因加医学检验实验室 一种基于甲基化测序数据进行变异检测的方法及装置

Also Published As

Publication number Publication date
CN107451419B (zh) 2020-01-24

Similar Documents

Publication Publication Date Title
CN107451419A (zh) 一种通过计算机程序模拟产生简化dna甲基化测序数据的方法
CN106446600B (zh) 一种基于CRISPR/Cas9的sgRNA的设计方法
CN107403074B (zh) 一种突变蛋白的检测方法及装置
Springer et al. Evolutionary models for the diversification of placental mammals across the KPg boundary
Li et al. Co-mention network of R packages: Scientific impact and clustering structure
Gill et al. Multi-trait multi-environment genomic prediction of agronomic traits in advanced breeding lines of winter wheat
De La Torre-bárcena et al. The impact of outgroup choice and missing data on major seed plant phylogenetics using genome-wide EST data
Williams et al. Plant microRNA prediction by supervised machine learning using C5. 0 decision trees
Palù et al. KEMET–A python tool for KEGG Module evaluation and microbial genome annotation expansion
CN106682450B (zh) 一种基于状态转移模型的新一代测序拷贝数变异仿真方法
Liu et al. BDBB: a novel beta-distribution-based biclustering algorithm for revealing local co-methylation patterns in epi-transcriptome profiling data
CN105631464A (zh) 对染色体序列和质粒序列进行分类的方法及装置
Martini et al. Meta-analysis of gene activity (maga) contributions and correlation with gene expression, through gagam
CN106570350A (zh) 单核苷酸多态位点分型算法
CN113035275B (zh) 结合轮廓系数和rjmcmc算法的肿瘤基因点突变的特征提取方法
Mao et al. Species identification in the Rhododendron vernicosum–R. decorum species complex (Ericaceae)
CN105046107B (zh) 一种限定性模体的发现方法
McKenzie et al. The multispecies coalescent in space and time
Sun et al. Extracting, filtering and simulating cellular barcodes using CellBarcode tools
CN111903499B (zh) 一种陆地棉f1产量优势杂交组合的预测方法
CN115274124B (zh) 一种基于数据驱动的肿瘤早筛靶向Panel和分类模型的动态优化方法
CN102789551B (zh) 用图形处理单元加速元基因组的物种分析的方法和系统
CN110021357A (zh) 模拟癌症基因组测序数据生成装置
Pease et al. Quartet Sampling distinguishes lack of support from conflicting support in the plant tree of life
Liberles et al. Characterizing gene family evolution

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant