CN109979534B - 一种c位点提取方法及装置 - Google Patents

一种c位点提取方法及装置 Download PDF

Info

Publication number
CN109979534B
CN109979534B CN201811621918.2A CN201811621918A CN109979534B CN 109979534 B CN109979534 B CN 109979534B CN 201811621918 A CN201811621918 A CN 201811621918A CN 109979534 B CN109979534 B CN 109979534B
Authority
CN
China
Prior art keywords
reads
site
methylation
module
sequencing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811621918.2A
Other languages
English (en)
Other versions
CN109979534A (zh
Inventor
赵红梅
陈重建
玄兆伶
李大为
梁峻彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anouta gene technology (Beijing) Co.,Ltd.
ZHEJIANG ANNOROAD BIOTECHNOLOGY Co.,Ltd.
Original Assignee
Anouta Gene Technology Beijing Co ltd
Zhejiang Annoroad Biotechnology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anouta Gene Technology Beijing Co ltd, Zhejiang Annoroad Biotechnology Co ltd filed Critical Anouta Gene Technology Beijing Co ltd
Publication of CN109979534A publication Critical patent/CN109979534A/zh
Application granted granted Critical
Publication of CN109979534B publication Critical patent/CN109979534B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Abstract

本发明涉及一种C位点提取方法及装置。该装置包括:数据过滤模块:用于对待测样本进行高通量测序并对测序数据进行过滤;数据比对模块:用于将所述经过过滤的测序数据进行碱基替换,比对到经过碱基替换的参考基因组上,并确定用于后续分析的Reads;C位点统计模块:用于将数据比对模块确定用于后续分析的Reads按照染色体进行拆分和排序以进行C位点统计;C位点提取结果输出模块:用于输出C位点统计结果。

Description

一种C位点提取方法及装置
技术领域
本发明涉及一种C位点提取方法及装置,以及用于C位点提取的计算机可读存储介质。本发明还涉及一种甲基化位点计算方法及装置,以及用于甲基化位点计算的计算机可读存储介质。本发明还涉及一种差异甲基化区域检测方法及装置,以及用于差异甲基化区域检测的计算机可读存储介质。
背景技术
DNA甲基化是指5-甲基胞嘧啶在DNA转甲基酶的催化作用下,某些胞嘧啶被转移上一个甲基所得的产物,它的形成过程被称为“DNA甲基化”。研究证实,在哺乳动物和植物基因组中,包含约1%-6%的5-甲基胞嘧啶,它通过参与基因表达的调控而影响生物体的发育、遗传、细胞的新陈代谢等过程,它的重要作用在近年来已经被人们重视,成为新的研究热点。
在肿瘤等恶性疾病状态下,DNA甲基化发生改变,与正常生理状态相比,形成了自身的特征和规律,并呈现组织特异性,这使它在临床诊治疾病中应用广泛。相比正常组织,肿瘤中许多CpG岛甲基化发生率增加。本世纪早期的表观遗传学研究认为,不同肿瘤细胞中,CpG岛甲基化谱也是不同的,表现出肿瘤组织特异性。而且对疾病进展和预后有诊断价值,同时为去甲基化治疗提供理论依据。表观遗传学国际专家Andrew Feinberg认为肿瘤组织有区别于正常组织的甲基化谱共性,可用于癌症的早期诊断。可喜的是,表观遗传修饰是一个可逆的过程,这为临床去甲基化治疗提供了理论支持。
目前DNA甲基化在国际上已证实应用于临床上的可行性,无论是寻找肿瘤的原发灶或是预后分层治疗,靶向用药都得到了充分的论证以及大量的临床试验验证,DNA甲基化在疾病治疗上有着非常重要的历史使命。但是人类的基因组长达3GB,由腺嘌呤(A)、胸腺嘧啶(T)、鸟嘌呤(G)、胞嘧啶(C)四个碱基组成,那么相当于四分之一长度是C(胞嘧啶),如何从海量的碱基序列中找到能够作为标记物的序列是摆在很多人面前的一大困难,并且可靠的甲基化生物标记物检测结果可以为临床用药以及预后分层,指导治疗方案等提供十分重要的依据。
目前用于寻找肿瘤甲基化标记物的方法有很多。例如Moran S[1]等研究人员通过研究表示可以利用一种新开发的表观遗传学检测技术EPICUP来寻找引发患者机体癌症转移的原发性肿瘤的类型,但是这种技术检测的CpG位点仅有485,577个位点,并且使用芯片杂交,利用光信号评估CpG位点的甲基化水平,在全基因组甲基化图谱的水平上分析研究肿瘤的甲基化标志物略显范围过小,局限性过大。
基于新一代测序(NGS)平台的甲基化检测,可以在保证检测性能的前提下一次性给出多个基因的甲基化检测结果,同时对于不同功能元件的甲基化有更好的检测效果。然而,相对于检测DNA甲基化谱的高通量实验技术的快速发展,从这些实验数据中查找与检测甲基化显著性差异区域的方法和装置的步伐却远远落后。
在甲基化检测方法中,甲基化位点的确定直接影响到检测结果的判定。Bismark是目前检测甲基化位点的主流方法。该方法的优点是:使用简单,灵活,整合单端测序和双端测序,并且可以有选择的处理特异性文库和非特异性文库,其输出结果能够很好的被使用者理解以及利用此数据进行后续的分析。但是该方法在其分析过程中会产生诸多未压缩临时文件,占用巨大的磁盘空间,稍微疏忽就会导致磁盘空间不足,分析流程断掉;而在对染色体排序的过程中,消耗大量的时间,占用大量的资源。
参考文献
[1]Moran S,Martínez-Cardús A,et.Epigenetic profiling to classifycancer of unknown primary:a multicentre,retrospective analysis.The LancetOncology,August 2016DOI:10.1016/S1470 1470-2045(16)30297-2.
发明内容
为了解决上述存在的技术问题,本发明提供一种C位点提取装置。该装置包括:数据过滤模块、数据比对模块、C位点统计模块以及C位点提取结果输出模块。
本发明还提供一种甲基化位点计算装置。该装置包括:数据过滤模块、数据比对模块、C位点统计模块、甲基化位点计算模块以及甲基化位点计算结果输出模块。
本发明还提供一种差异甲基化区域检测装置。该装置包括:数据过滤模块、数据比对模块、C位点统计模块、甲基化位点计算模块、差异甲基化位点筛选模块、差异甲基化区域计算模块以及差异甲基化区域检测结果输出模块。
本发明的目的是提供C位点提取方法及装置,本发明着重考虑检测时间及内存消耗,并且包括检测结果的准确性等多种因素。
具体来说,本发明的目的是通过以下技术方案予以实现。
1.一种C位点提取装置,其中,所述装置包括:
数据过滤模块:用于对待测样本进行高通量测序并对所述测序数据进行过滤;
数据比对模块:用于将所述经过过滤的测序数据进行碱基替换,比对到经过碱基替换的参考基因组上,并确定用于后续分析的Reads;
C位点统计模块:用于将数据比对模块确定用于后续分析的Reads按照染色体进行拆分和排序以进行C位点统计;以及
C位点提取结果输出模块:用于输出C位点统计结果。
2.一种甲基化位点计算装置,其中,所述装置包括:
数据过滤模块:用于对待测样本进行高通量测序并对所述测序数据进行过滤;
数据比对模块:用于将所述经过过滤的测序数据进行碱基替换,比对到经过碱基替换的参考基因组上,并确定用于后续分析的Reads;
C位点统计模块:用于将数据比对模块确定用于后续分析的Reads按照染色体进行拆分和排序以进行C位点统计;
甲基化位点计算模块:用于计算C位点为甲基化位点的显著性,获得甲基化位点信息;以及
甲基化位点计算结果输出模块:用于输出甲基化位点计算结果。
3.一种差异甲基化区域检测装置,其中,所述装置包括:
数据过滤模块:用于对待测样本进行高通量测序并对所述测序数据进行过滤;
数据比对模块:用于将所述经过过滤的测序数据进行碱基替换,比对到经过碱基替换的参考基因组上,并确定用于后续分析的Reads;
C位点统计模块:用于将数据比对模块确定用于后续分析的Reads按照染色体进行拆分和排序以进行C位点统计;
甲基化位点计算模块:用于计算C位点为甲基化位点的显著性,获得甲基化位点信息;
差异甲基化位点筛选模块:用于筛选两个以上待测样本的甲基化位点差异显著的CpG甲基化位点;
差异甲基化区域计算模块:用于根据所述差异显著的CpG甲基化位点计算差异甲基化区域,并筛选准确的差异甲基化区域;以及
差异甲基化区域检测结果输出模块:用于输出差异甲基化区域检测结果。
4.根据项1~3中任一项所述的装置,其中,所述C位点统计模块包括以下子模块:
染色体拆分子模块:用于将比对后的用于后续分析的Reads按照染色体进行拆分;
染色体排序子模块:用于对拆分后的染色体进行排序;以及
全基因组C位点信息统计子模块:用于在染色体排序后,根据全基因组上C位点的位置信息,获得全基因组C位点信息。
5.根据项2或3所述的装置,其中,所述甲基化位点计算模块包括以下子模块:
甲基化位点p-value计算子模块:使用p-value计算C位点为甲基化位点的显著性,选取p-value<0.05的位点;
甲基化位点q-value计算子模块:用于对上述p-value进行校正,选取校正后FDR<0.05的位点作为甲基化位点。
6.根据项1~3中任一项所述的装置,其中,所述数据比对模块包括以下子模块:
基因组碱基替换子模块:用于将基因组中的碱基进行替换,替换过程中同时进行C到T和G到A的替换,从而得到两套不同的基因组;
Reads碱基替换子模块:用于将Reads中的碱基进行替换,对于每一对Reads,首先将正链(Forward Read)中的C碱基转换为T碱基,而正链的互补链(Reverse Read)中的G碱基转换为A碱基;
比对子模块:用于将碱基替换过的Reads比对到相应替换过的基因组上,将测序Reads定位到基因组上;
比对统计子模块:用于统计比对后的结果,确定用于后续分析的Reads。
7.根据项3所述的装置,其中,所述差异甲基化位点筛选模块包括以下子模块:
差异甲基化位点p-value计算子模块:使用p-value计算两种以上待测样本之间C位点是差异甲基化位点的显著性,选取p-value<0.05的位点;
差异甲基化位点q-value计算子模块:用于对上述p-value进行校正,选取校正后FDR<0.05的位点作为潜在的甲基化位点;
差异甲基化位点差值计算子模块:用于计算两个以上待测样本之间C位点的平均甲基化水平的差值,选取差值大于等于20%(甲基化水平范围为[0,100])的位点。
8.根据项3所述的装置,其中,所述差异甲基化区域计算模块包括以下子模块:
差异甲基化区域p-value计算子模块:使用p-value计算两种以上待测样本之间甲基化区域显著性,选取p-value<0.05的区域;
差异甲基化区域q-value计算子模块:用于对上述p-value进行校正,选取矫正后FDR<0.05的区域作为潜在的差异甲基化区域;
差异甲基化区域差值计算子模块:用于计算两个以上样本之间差异甲基化区域的平均甲基化水平的差值,选取差值为大于等于20%(甲基化水平范围为[0,100])的区域。
9.根据项1所述的装置,其中,所述基因组选自人类基因组、动物基因组及植物基因组中的任意一种。
10.一种用于C位点提取的计算机可读存储介质,其上存储有计算机程序,其中,所述计算机程序用于执行以下步骤:
数据过滤步骤,用于对待测样本进行高通量测序并对所述测序数据进行过滤;
数据比对步骤,用于将所述经过过滤的测序数据进行碱基替换,比对到经过碱基替换的参考基因组上,并确定用于后续分析的Reads;C位点统计步骤,用于将数据比对步骤的确定用于后续分析的Reads按照染色体进行拆分和排序以进行C位点统计,以及
C位点提取结果输出步骤,用于输出C位点统计结果。
11.一种用于甲基化位点计算的计算机可读存储介质,其上存储有计算机程序,其中,所述计算机程序用于执行以下步骤:
数据过滤步骤,用于对待测样本进行高通量测序并对所述测序数据进行过滤;
数据比对步骤,用于将所述经过过滤的测序数据进行碱基替换,比对到经过碱基替换的参考基因组上,并确定用于后续分析的Reads;;
C位点统计步骤,用于将数据比对步骤确定用于后续分析的Reads按照染色体进行拆分和排序以进行C位点统计;
甲基化位点计算步骤:用于计算C位点为甲基化位点的显著性,获得甲基化位点信息。以及
甲基化位点计算结果输出步骤:用于输出甲基化位点计算结果。
12.一种用于差异甲基化区域检测的计算机可读存储介质,其上存储有计算机程序,其中,所述计算机程序用于执行以下步骤:
数据过滤步骤,用于对待测样本进行高通量测序并对所述测序数据进行过滤;
数据比对步骤,用于将所述经过过滤的测序数据进行碱基替换,比对到经过碱基替换的参考基因组上,并确定用于后续分析的Reads;;
C位点统计步骤,用于将数据比对步骤确定用于后续分析的Reads按照染色体进行拆分和排序以进行C位点统计;
甲基化位点计算步骤:用于计算C位点为甲基化位点的显著性,获得甲基化位点信息;
差异甲基化位点筛选步骤:用于筛选两个以上待测样本的甲基化位点差异显著的CpG甲基化位点;
差异甲基化区域计算步骤:用于根据所述差异显著的CpG甲基化位点计算差异甲基化区域,并筛选准确的差异甲基化区域;以及
差异甲基化区域检测结果数据输出步骤:用于输出差异甲基化区域检测结果。
13.根据项10~12中任一项所述的计算机可读存储介质,其中,所述C位点统计步骤包括以下步骤:
染色体拆分步骤:用于将比对后的用于后续分析的Reads按照染色体进行拆分;
染色体排序步骤:用于对拆分后的染色体进行排序;以及
全基因组C位点信息统计步骤:用于在染色体排序后,根据全基因组上C位点的位置信息,获得全基因组C位点信息。
14.根据项10或11所述的计算机可读存储介质,其中,所述甲基化位点计算步骤包括以下步骤:
甲基化位点p-value计算步骤:使用p-value计算C位点为甲基化位点的显著性,选取p-value<0.05的位点;
甲基化位点q-value计算步骤:用于对上述p-value进行校正,选取校正后FDR<0.05的位点作为甲基化位点。
15.根据项10~12中任一项所述的计算机可读存储介质,其中,所述数据比对步骤包括以下步骤:
基因组碱基替换步骤:用于将基因组中的碱基进行替换,替换过程中同时进行C到T和G到A的替换,从而得到两套不同的基因组;
Reads碱基替换步骤:用于将Reads中的碱基进行替换,对于每一对Reads,首先将正链(Forward Read)中的C碱基转换为T碱基,而正链的互补链(Reverse Read)中的G碱基转换为A碱基;
比对步骤:用于将碱基替换过的Reads比对到相应替换过的基因组上,将测序Reads定位到基因组上;
比对统计步骤:用于统计比对后的结果,确定用于后续分析的Reads。
16.根据项12所述的计算机可读存储介质,其中,所述差异甲基化位点筛选步骤包括以下步骤:
差异甲基化位点p-value计算步骤:使用p-value计算两种以上待测样本之间C位点是差异甲基化位点的显著性,选取p-value<0.05的位点;
差异甲基化位点q-value计算步骤:用于对上述p-value进行校正,选取校正后FDR<0.05的位点作为潜在的甲基化位点;
差异甲基化位点差值计算步骤:用于计算两个以上待测样本之间C位点的平均甲基化水平的差值,选取差值大于等于20%(甲基化水平范围为[0,100])的位点。
17.根据项12所述的计算机可读存储介质,其中,所述差异甲基化区域计算步骤包括以下步骤:
差异甲基化区域p-value计算步骤:使用p-value计算两种以上待测样本之间甲基化区域显著性,选取p-value<0.05的区域;
差异甲基化区域q-value计算步骤:用于对上述p-value进行校正,选取矫正后FDR<0.05的区域作为潜在的差异甲基化区域;
差异甲基化区域差值计算步骤:用于计算两个以上样本之间差异甲基化区域的平均甲基化水平的差值,选取差值为大于等于20%(甲基化水平范围为[0,100])的区域。
18.根据项10所述的计算机可读存储介质,其中,所述基因组选自人类基因组、动物基因组及植物基因组中的任意一种。
19.一种C位点提取方法,其中,所述方法包括:
数据过滤步骤:用于对待测样本进行高通量测序并对所述测序数据进行过滤;
数据比对步骤:用于将所述经过过滤的测序数据进行碱基替换,比对到经过碱基替换的参考基因组上,并确定用于后续分析的Reads;
C位点统计步骤:用于将数据比对步骤确定用于后续分析的Reads按照染色体进行拆分和排序以进行C位点统计;以及
C位点提取结果输出步骤:用于输出C位点统计结果。
20.一种甲基化位点计算方法,其中,所述装置包括:
数据过滤步骤:用于对待测样本进行高通量测序并对所述测序数据进行过滤;
数据比对步骤:用于将所述经过过滤的测序数据进行碱基替换,比对到经过碱基替换的参考基因组上,并确定用于后续分析的Reads;
C位点统计步骤:用于将数据比对步骤确定用于后续分析的Reads按照染色体进行拆分和排序以进行C位点统计;
甲基化位点计算步骤:用于计算C位点为甲基化位点的显著性,获得甲基化位点信息;以及
甲基化位点计算结果输出步骤:用于输出甲基化位点计算结果。
21.一种差异甲基化区域检测方法,其中,所述装置包括:
数据过滤步骤:用于对待测样本进行高通量测序并对所述测序数据进行过滤;
数据比对步骤:用于将所述经过过滤的测序数据进行碱基替换,比对到经过碱基替换的参考基因组上,并确定用于后续分析的Reads;
C位点统计步骤:用于将数据比对步骤确定用于后续分析的Reads按照染色体进行拆分和排序以进行C位点统计;
甲基化位点计算步骤:用于计算C位点为甲基化位点的显著性,获得甲基化位点信息;
差异甲基化位点筛选步骤:用于筛选两个以上待测样本的甲基化位点差异显著的CpG甲基化位点;
差异甲基化区域计算步骤:用于根据所述差异显著的CpG甲基化位点计算差异甲基化区域,并筛选准确的差异甲基化区域;以及
差异甲基化区域检测结果输出步骤:用于输出差异甲基化区域检测结果。
22.根据项19~21中任一项所述的方法,其中,所述C位点统计步骤包括以下步骤:
染色体拆分子步骤:用于将比对后的用于后续分析的Reads按照染色体进行拆分;
染色体排序子步骤:用于对拆分后的染色体进行排序;以及
全基因组C位点信息统计子步骤:用于在染色体排序后,根据全基因组上C位点的位置信息,获得全基因组C位点信息。
23.根据项19或20所述的方法,其中,所述甲基化位点计算步骤包括以下步骤:
甲基化位点p-value计算步骤:使用p-value计算C位点为甲基化位点的显著性,选取p-value<0.05的位点;
甲基化位点q-value计算步骤:用于对上述p-value进行校正,选取校正后FDR<0.05的位点作为甲基化位点。
24.根据项19~21中任一项所述的方法,其中,所述数据比对步骤包括以下步骤:
基因组碱基替换步骤:用于将基因组中的碱基进行替换,替换过程中同时进行C到T和G到A的替换,从而得到两套不同的基因组;
Reads碱基替换步骤:用于将Reads中的碱基进行替换,对于每一对Reads,首先将正链(Forward Read)中的C碱基转换为T碱基,而正链的互补链(Reverse Read)中的G碱基转换为A碱基;
比对步骤:用于将碱基替换过的Reads比对到相应替换过的基因组上,将测序Reads定位到基因组上;
比对统计步骤:用于统计比对后的结果,确定用于后续分析的Reads。
25.根据项21所述的方法,其中,所述差异甲基化位点筛选步骤包括以下步骤:
差异甲基化位点p-value计算步骤:使用p-value计算两种以上待测样本之间C位点是差异甲基化位点的显著性,选取p-value<0.05的位点;
差异甲基化位点q-value计算步骤:用于对上述p-value进行校正,选取校正后FDR<0.05的位点作为潜在的甲基化位点;
差异甲基化位点差值计算步骤:用于计算两个以上待测样本之间C位点的平均甲基化水平的差值,选取差值大于等于20%(甲基化水平范围为[0,100])的位点。
26.根据项21所述的方法,其中,所述差异甲基化区域计算步骤包括以下步骤:
差异甲基化区域p-value计算步骤:使用p-value计算两种以上待测样本之间甲基化区域显著性,选取p-value<0.05的区域;
差异甲基化区域q-value计算步骤:用于对上述p-value进行校正,选取矫正后FDR<0.05的区域作为潜在的差异甲基化区域;
差异甲基化区域差值计算步骤:用于计算两个以上样本之间差异甲基化区域的平均甲基化水平的差值,选取差值为大于等于20%(甲基化水平范围为[0,100])的区域。
27.根据项19所述的方法,其中,所述基因组选自人类基因组、动物基因组及植物基因组中的任意一种。
本发明中涉及的定义
高通量测序:高通量测序技术(High-throughput sequencing)又称“下一代”测序技(Next-generation sequencing technology),以能一次并行对几十万到几百万条DNA分子进行序列测定。
C位点:C为胞嘧啶,DNA序列中为胞嘧啶的位点称为C位点。
CpG site(也称为CpG位点):胞嘧啶-磷酸-鸟嘌呤位点,即DNA序列中胞嘧啶后紧连鸟嘌呤的位点,两个核苷酸之间通过磷酸酯键相连。
CpG位点甲基化:经DNA甲基转移酶催化胞嘧啶转化为5-甲基胞嘧啶。
CpG island:也称为CpG岛,双核苷酸在人类基因组中的分布很不均一,而在基因组的某些区段,CpG保持或高于正常概率,这些区段被称作CpG岛,CpG岛主要位于基因的启动子(promotor)和第一外显子区域,约有60%以上基因的启动子含有CpG岛。GC含量大于50%,长度超过200bp;
Reads:read的复数,高通量测序平台产生的一段短测序片段序列。
接头污染:Read末端含有接头序列,是指测read中包括5bp以上的接头序列。
接头序列:指的一段双链DNA序列,序列上带有通用的引物,以方便在文库构建过程中使用。
PE:即(Paired-end),指测一个插入片段两端的序列。
p:即为错误率(Error Rate)是指lambda基因组上被测成C位点的次数/C位点总测序次数(在得到全基因组所有碱基比对信息后计算得到的)。
FDR(false discovery rate):是指错误拒绝(拒绝真的(原)假设)的个数占所有被拒绝的原假设个数的比例的期望值。
DMR(Differently Methylation Region):两个样品或多个样品之间比较的差异甲基化区域。
GO功能注释(gene ontology):即数据库是一个结构化的标准生物学模型,指在建立基因及产物知识的标准词汇体系,涵盖了基因的细胞组分、分析功能、生物学过程三个方面。
KEGG通路注释:(Kyoto Encyclopedia of Genes and Genomes,京都基因与基因组百科全书)是基因组破译方面的数据库。KEGG是一个整合了基因组、化学和系统功能信息的数据库,把从已经完整测序的基因组中得到的基因目录与更高级别的细胞、物种和生态系统水平的系统功能关联起来。
GeneBody:为从转录起始位点到转录本末端的整个基因。
Q值:为本发明中使用的测序系统(例如Illumina测序仪)输出的单个碱基的质量值;
Q≤19值:Reads中质量值Q≤19的碱基占总碱基的15%以上。
发明效果
本发明的C位点提取装置、甲基化位点计算装置以及差异甲基化区域检测装置具有花费时间短(相对于现有方法最多可缩短20倍),减少磁盘的占用(相对于现有方法最多可节省15倍),缩短CPU占用时间等特点,能够有效的节约时间和磁盘占用,为进一步在表观遗传学方面的生物信息挖掘和研究提供基础,同时也为表观生物靶标,甚至药物设计等方面的研究提供一套启发性的方法。
附图说明
通过阅读下文优选的具体实施方式中的详细描述,本发明各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。说明书附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。显而易见地,下面描述的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。而且在整个附图中,用相同的附图标记表示相同的部件。
图1C位点提取装置各模块的示意图;
图2甲基化位点计算装置各模块的示意图;
图3差异甲基化区域检测装置各模块的示意图;
图4全基因组C位点结果可视化;
图5甲基化位点结果可视化;
图6正常组与肿瘤组的差异甲基化区域结果。
具体实施方式
如图1所示,本发明的C位点提取装置包括数据过滤模块1。数据过滤模块1用于对待测样本进行高通量测序并对测序数据进行过滤,以得到包含所有C位点的测序数据。
在进行高通量测序后测序得到的某些原始下机序列中会含有测序接头序列以及低质量序列,为了保证信息分析数据的质量,需要对原始序列进行过滤以得到高质量的Reads(也称为Clean Reads),再进行后续分析,后续分析需要基于Clean Reads来进行。
具体来说,本发明的数据过滤模块1包括如下子模块:
去除接头污染的Reads子模块,该模块判断如果Reads中为接头污染的碱基数大于5bp则去除该Reads;对于PE,该模块判断如果一端受到接头污染,则去除两端的Reads。
去除低质量的Reads子模块,该模块判断如果Reads中质量值Q≤19(Q值为软件(例如fastqc、trimmomatic、NGSQC、fgtools)输出的一个质量值)的碱基占总碱基的15%以上则去除该Reads,对于PE,该模块判断如果一端为低质量的Reads,则会去除两端的Reads。
去除含N比例大于5%的Reads子模块:对于PE,若一端含N比例大于5%,则去除两端的Reads。
在该数据过滤模块中,已知对下机原始数据进行过滤的软件均可在该模块中使用。例如过滤软件可为fastqc、trimmomatic、NGSQC、fgtools中的任意一种,但不限于以上软件。如上所述在此模块中优选的参数设置为:判断Reads中接头污染的碱基数是否大于5bp,判断Reads中质量值Q≤19的碱基占总碱基的15%以上;以及去除含N比例大于5%的Reads。
本发明的C位点提取装置还包括数据比对模块2。该数据比对模块2用于将所述经过过滤的测序数据进行碱基替换,比对到经过碱基替换的参考基因组上,并确定用于后续分析的Reads,具体来说用于将通过数据过滤模块获得进行碱基替换,比对到经过碱基替换的参考基因组上,并确定能够定位到基因组上唯一准确位置的测序数据,得到用于后续分析的reads。
具体来说,本发明的数据比对模块2包括如下子模块。
基因组碱基替换子模块:用于将基因组中的碱基进行替换,替换过程中同时进行C到T和G到A的替换,从而得到两套不同的基因组。
Reads碱基替换子模块:用于将Reads中的碱基进行替换,对于每一对Reads,首先将正链(Forward Read)中的C碱基转换为T碱基,而正链的互补链(Reverse Read)中的G碱基转换为A碱基。
比对子模块:用于将碱基替换过的Reads比对到相应碱基替换过的基因组上,将测序Reads定位到基因组上。
比对统计子模块:其用于统计上述比对后的结果,以确定用于后续分析的比对到基因组上唯一位置的Reads。
在确定用于后续分析Reads,该对比统计子模块会首先确定哪些Reads比对到基因组上,以及其中哪些Re ads比对到基因组上多个位置,哪些Reads比对到基因组上唯一位置,其中最后一种情况,即比对到基因组上的唯一位置的Reads是用于后续分析的Reads。
在本发明的数据比对模块2中,已知的比对软件均可在此使用,比对软件可以为bowtie、bowtie2,但不限于以上软件。由于实验步骤中对胞嘧啶进行亚硫酸盐处理,使得非甲基化位点转化为U,在PCR过程中与A配对,多次PCR之后,非甲基化位点将都转化为T,因此在比对过程中为了能将Reads比对到基因组上,需要将基因组分别进行碱基替换即C转化为T,G转化为A。同时将Reads上的碱基做同样替换,进行两次比对得到BAM文件之后挑选比对结果中打分最高的Reads(其中,打分最高的reads为比对位置最优的reads)。此模块中优选的参数设置为:mismatch为2(Reads长度为100);CPU为5(可根据实际数据量设置,其中,mismatch指错配,即错配的碱基数,CPU是指计算过程中占用几个CPU)。
本发明的C位点提取装置还包括C位点统计模块3,其用于检测及提取所述待测样本的基因组上的所有C位点的信息。具体来说,C位点统计模块用于对所述待测样本基因组上C位点的检测及提取。具体可以得到关于全基因组C位点的所有信息,包括:绝对位置,覆盖深度、支持甲基化位点的Reads数、不支持甲基化位点的Reads数。
本发明涉及的C位点统计模块3包括如下子模块。
染色体拆分子模块:用于将比对后的用于后续分析的Reads按照染色体进行拆分,从而可以降低整个装置运行的时间消耗,在此用于后续分析的Reads存储在如上所述的BAM文件中。
染色体排序子模块:用于对拆分后的染色体进行排序,从而可以缩短染色体排序时间,得到排序后得让临时文件。
全基因组C位点信息统计子模块:用于在染色体排序后,根据基因组上C位点的位置信息,获得全基因组C位点信息(其中,该C位点信息例如可以Bedgraph可视化文件的形式提供)。
本发明的C位点提取装置还包括C位点提取结果输出模块4,用于输出已获得的全基因覆盖到的C位点信息文件,如BedBedgraph文件,可为后续可视化提供文件。
本发明还涉及一种甲基化位点计算装置,该装置包括数据过滤模块1、数据比对模块2、C位点统计模块3,还包括甲基化位点计算模块5,甲基化位点计算结果输出模块6,用于计算C位点为甲基化位点的显著性,获得甲基化位点信息。
本发明涉及的甲基化位点计算模块5包括如下子模块。
甲基化位点p-value计算子模块,其用于计算C位点是甲基化位点的显著性,利用二项分布(Binomial Distribution)的方法,公式如下:
Figure BDA0001927066910000151
其中p即为错误率(Error Rate)是指lambda基因组上被测成C的次数/C位点总测序次数(在得到全基因组所有碱基比对信息后计算得到的),其中转化率=1-Error Rate即1-p,n为某C位点测到的次数,k为某个C位点未被测成C位点的次数。利用以上公式得到每个C位点的p-value。
甲基化位点q-value计算子模块,其用于对上一模块中p-value进行校正,选取校正后FDR<0.05的位点作为潜在的甲基化位点。
根据以上两个子模块,可以得到关于全基因C位点是否为甲基化位点的信息,以及p-value、q-value,进而可以计算每个位点的甲基化水平即支持甲基化位点的Reads数/(支持甲基化位点的Reads数+不支持甲基化位点的Reads数)*100。
本发明还提供一种差异甲基化区域检测装置,该装置包括:数据过滤模块1、数据比对模块2、C位点统计模块3、甲基化位点计算模块5,还包括差异甲基化位点筛选模块7,差异甲基化区域计算模块8、以及差异甲基化区域检测结果输出模块9。其中,差异甲基化位点筛选模块7用于筛选所述两种以上待测样本中甲基化位点差异变化显著的CpG位点。从而准确识别在待测样本(如肿瘤细胞)发育发展过程中动态变化的位点,以及在肿瘤用药过程中,去甲基化药物的实时监控作用。
所述差异甲基化位点筛选模块7包括如下子模块:
差异甲基化位点p-value计算子模块:使用p-value计算两种以上待测样本之间C位点是差异甲基化位点的显著性,选取p-value<0.05的位点;
差异甲基化位点q-value计算子模块:其用于对上述p-value进行校正,选取校正后FDR<0.05的位点作为潜在的甲基化位点。
差异甲基化位点差值计算子模块:其用于计算两个样本或三个以上样本之间C位点的平均甲基化水平的差值。一般情况下差值选取大于等于20%(甲基化水平范围为[0,100])。
具体来说,差异甲基化位点p-value计算子模块:用于计算两个样本或多个样本(例如,3个、4个、以及4个以上)之间C位点是差异甲基化位点的显著性,利用Fisher-test检验方法,公式如下:
Figure BDA0001927066910000161
其中a、b、c、d、n分别表示如下表:
Figure BDA0001927066910000162
根据此上述公式计算得到两个样本或多个样本之间的绝对位置相同的C位点的p-value。
差异甲基化位点q-value计算子模块:用于对上一模块中的p-value进行校正,选取校正后FDR<0.05的位点作为潜在的差异甲基化位点。
差异甲基化位点差值计算子模块:用于计算两个样本或多个样本之间C位点的平均甲基化水平的差值,一般情况下差值选取大于等于20%(甲基化水平范围为[0,100])。
本发明差异甲基化区域检测装置还包括差异甲基化区域计算模块8,其用于计算所述待测样本中差异甲基化区域,并筛选潜在的差异甲基化区域用于后续分析,其中该计算差异甲基化区域模块合理计算出甲基化差异区域的p-value,q-value,从而筛选准确的区域用于后续分析。
具体来说,所述差异甲基化区域计算模块8包括如下子模块。
差异甲基化区域p-value计算子模块:
用于计算两个样本或多个样本之间区域的差异显著性,利用双峰正态分布公式如下:
Figure BDA0001927066910000163
其中x表示对两个CpG位点距离取log2,F(x)表示拟合正态分布的概率密度分布函数,利用此公式计算出两个样本或多个样本的差异区域的p-value;差异甲基化区域q-value计算模块:用于校正对上一模块中p-value进行校正,选取校正后FDR<0.05的区域作为潜在的差异甲基化区域。
差异甲基化区域q-value计算子模块:用于校正对上一模块中p-value进行校正,选取校正后FDR<0.05的区域作为潜在的差异甲基化区域。
差异甲基化区域差值计算子模块:用于计算两个样本或多个样本之间差异甲基化区域的平均甲基化水平的差值。一般情况下差值选取大于等于20%(甲基化水平范围为[0,100])。
差异甲基化区域检测结果输出模块,还包括甲基化区域注释模块9。
具体来说差异甲基化区域注释模块9包括如下子模块。
差异甲基化区域注释模块,其用于将差异甲基化区域注释到GeneBody,明确该差异甲基化区域属于的功能元件(Promoter,Exons,Introns)以及得到注释到的基因。
差异甲基化区域相关基因功能注释模块:用于将上一步差异甲基化区域注释模块得到的基因进行GO功能注释以及Pathway注释。
其中,差异甲基化区域注释模块:已知对基因组不同区域寻找Overlap的软件bedtools,用于将差异甲基化区域注释到GeneBody,明确该差异甲基化区域所属的功能元件(Promoter,5’-UTR,Exons,Introns,CpGislands)以及得到注释到的基因。差异甲基化区域相关基因功能注释模块:已知web版GO功能注释软件DAVID用于将上一步差异甲基化区域注释模块得到的基因进行GO功能注释,利用KEGG数据对差异甲基化基因注释Pathway。
本发明涉及的结果可视化模块10用于对检测到的差异甲基化区域及注释结果进行可视化的展示。
具体来说,结果可视化模块10包括如下子模块。
可视化数据生成模块,其用于根据所述C位点统计模块的全基因组C位点信息统计模块产生Bedgraph可视化文件用于可视化。
读取数据可视化模块,其用于读取Bedgraph可视化文件,展示甲基化区域、甲基化位点以及注释到的基因。
其中,可视化数据生成模块:已知对数据展示软件IGV用于将分析结果进行展示,根据上述全基因组C位点信息统计模块步骤产生Bedgraph可视化文件用于可视化。读取数据可视化模块:用于读取Bedgraph可视化文件,展示其甲基化区域、甲基化位点以及注释到的基因。
在这里,基因组选自人基因组、动物基因组及植物基因组的任意一种。以人基因组为例,如人基因组的版本没有任何限制,可以是目前已知的人类基因组中的任意一种,例如hg19。
如上所述,本发明还涉及C位点提取方法、甲基化位点计算方法以及差异甲基化区域检测方法。
C位点提取方法包括数据过滤步骤、数据比对步骤、C位点统计步骤以及C位点提取结果输出步骤,其中针对上述各步骤可以参考上述C位点提取装置中的各模块的描述,通常也是由上述C位点提取装置中的各模块来实现上述各步骤的功能。
甲基化位点计算方法包括数据过滤步骤、数据比对步骤、C位点统计步骤、甲基化位点计算步骤,以及甲基化位点计算结果输出步骤,其中针对上述各步骤可以参考上述甲基化位点计算装置中的各模块的描述,通常也是由上述甲基化位点计算装置中的各模块来实现上述各步骤的功能。
差异甲基化区域检测方法包括数据过滤步骤、数据比对步骤、C位点统计步骤、甲基化位点计算步骤、差异甲基化位点筛选步骤、差异甲基化区域计算步骤以及差异甲基化区域检测结果输出步骤,其中针对上述各步骤可以参考上述差异甲基化区域检测装置中的各模块的描述,通常也是由上述差异甲基化区域检测装置中的各模块来实现上述各步骤的功能。
上述针对各装置的子模块所完成的功能,也均对应于上述方法中进行的各个步骤。
实施例
以下给出实施例,对本发明进行更具体的说明,但本发明不限于这些实施例。
实施例1本发明的C位点提取装置
本实施例的C位点提取装置包括:
数据过滤模块,用骨髓细胞进行高通量测序对测序数据进行过滤,以得到过滤后的测序数据。在该数据过滤模块中,使用fgtools软件对原始数据进行过滤,参数设置为:判断Reads中接头污染的碱基数是否大于5bp,判断Reads中质量值Q≤19的碱基占总碱基的15%以上;以及去除含N比例大于5%的Reads。
数据比对模块,与数据过滤模块相连接,用于将所述经过过滤的测序数据进行碱基替换,比对到经过碱基替换的参考基因组上,确定能够定位到人类基因组上唯一准确位置的测序数据,以得到用于后续分析的reads。使用bowtie2软件对过滤后的测序数据进行处理,由于实验步骤中对胞嘧啶进行亚硫酸盐处理,使得非甲基化位点转化为U,在PCR过程中与A配对,多次PCR之后,非甲基化位点将都转化为T,因此在比对过程中为了能将Reads比对到人类基因组上,需要将人类基因组分别进行碱基替换即C转化为T,G转化为A。同时将Reads上的碱基做同样替换,进行两次比对得到BAM文件之后挑选比对结果中打分最高的Reads。此模块中参数设置为:mismatch为2;CPU为5。
C位点统计模块,与数据比对模块相连,用于将数据比对模块的分析结果按照染色体进行拆分和排序以进行C位点统计。具体来说,C位点统计模块用于对待测样本基因组上C位点的检测及提取。具体可以得到关于全基因组C位点的所有信息,包括:绝对位置,覆盖深度、支持甲基化位点的Reads数、不支持甲基化位点的Reads数。
C位点提取结果输出模块,其与C位点统计模块相连接,用于输出C位点统计模块的统计结果。
其中,数据过滤模块通过以下子模块实现:
去除接头污染的Reads子模块,该模块判断如果Reads中为接头污染的碱基数大于5bp则去除该Reads;对于PE,该模块判断如果一端受到接头污染,则去除两端的Reads。
去除低质量的Reads子模块,该模块判断如果Reads中质量值Q≤19的碱基占总碱基的15%以上则去除该Reads,对于PE,该模块判断如果一端为低质量的Reads,则会去除两端的Reads。
去除含N比例大于5%的Reads子模块:对于PE,若一端含N比例大于5%,则去除两端的Reads。
数据比对模块,与数据过滤模块相连接,用于将所述经过过滤后的测序数据比对到人类基因组上,确定能够定位到人类基因组上唯一准确位置的测序数据,以得到用于后续分析的reads。包括如下子模块:
基因组碱基替换子模块:用于将人类基因组hg19中的碱基进行替换,替换过程中同时进行C到T和G到A的替换,从而得到两套不同的基因组。
Reads碱基替换子模块:与基因组碱基替换子模块相连,其用于将Reads中的碱基进行替换,对于每一对Reads,首先将正链(Forward Read)中的C碱基转换为T碱基,而正链的互补链(Reverse Read)中的G碱基转换为A碱基。
比对子模块:其与Reads碱基替换子模块连接,其用于将碱基替换过的Reads比对到相应替换过的人类基因组上,从而实现将测序序列定位到基因组上。
比对统计子模块:其与比对子模块连接,用于统计上述比对后的结果,以确定用于后续分析的Reads,获得比对结果(BAM文件)。
C位点统计模块,与所述数据过滤模块及数据比对模块相连,用于检测及提取所述待测样本的基因组上的所有C位点的信息。所述的C位点统计模块包括:
染色体拆分子模块:用于将比对的BAM文件按照染色体进行拆分,在此用于后续分析的Reads存储在如上所述的BAM文件中,此步骤开始运行时使用计时器开始计时。
染色体排序子模块:其与染色体拆分子模块连接,使用p_sort软件对每条染色体进行排序,此步骤运行结束时停止计时。
全基因组C位点信息统计子模块:其与染色体排序子模块相连接,用于在染色体排序后,根据人类基因组上C位点的位置信息,获得全基因组C位点信息。
C位点提取结果输出模块,用于输出已获得的全基因覆盖到的C位点信息,输出为BedBedgraph文件。
在C位点统计模块的染色体拆分子模块和染色体排序子模块共消耗时间1分37秒,内存占用为978M。部分结果详见图4,chr1代表1号染色体,下面的数字1564bp代表1号染色体的长度,长度下面的坐标代表1号染色体的位置,图中1号染色体上C位点的情况,包括C位点绝对位置(峰图下面的灰色位置代表Reads,Reads上的黑色部分为C位点,对应到染色体的上可以得到绝对位置),峰图代表在染色体上的覆盖深度,从图中可以得基因组上C位点的全部信息。
对比例1
使用Bismark软件对实施例1中的测序数据进行C位点提取,按照Bismark软件的使用说明进行操作,同样的,对C位点统计模块中染色体拆分子模块及染色体排序子模块运行进行计时。
结果显示,在C位点统计模块中染色体拆分子模块及染色体排序子模块共消耗时间26分09秒,运行是的内存占用为12150M。
与对比例1相比,实施例1在C位点统计模块中染色体拆分子模块及染色体排序子模块消耗的时间节省了16倍,内存消耗节省了12倍,说明本发明的C位点提取装置具有快速、准确、占用内存小的特性。
实施例2甲基化位点计算装置
本实施例的C位点提取装置具备:数据过滤模块、数据比对模块、C位点统计模块、甲基化位点计算模块、及甲基化位点计算结果输出模块;其中,数据过滤模块、数据比对模块、及C位点统计模块与实施例1中的步骤一致。
甲基化位点计算模块,其与C位点统计模块相连接,用于计算C位点为甲基化位点的显著性,包括以下子模块:
甲基化位点p-value计算子模块,其用于计算C位点是甲基化位点的显著性,利用二项分布(Binomial Distribution)的方法,公式如下:
Figure BDA0001927066910000211
其中p即为错误率(Error Rate)是指lambda基因组上被测成C的次数/C位点总测序次数(在得到全基因组所有碱基比对信息后计算得到的),其中转化率=1-Error Rate即1-p,n为某C位点测到的次数,k为某个C位点未被测成C位点的次数。利用以上公式得到每个C位点的p-value。
甲基化位点q-value计算子模块,其与甲基化位点p-value计算子模块相连接,用于对p-value进行校正,选取校正后FDR<0.05的位点作为潜在的甲基化位点。
根据以上两个子模块,可以得到关于全基因C位点是否为甲基化位点的信息,如p-value、q-value,进而可以计算每个位点的甲基化水平即支持甲基化位点的Reads数/(支持甲基化位点的Reads数+不支持甲基化位点的Reads数)*100,得到了甲基化为点的信息。
甲基化位点计算结果输出模块,其与甲基化位点计算模块相连接,用于输出C位点为甲基化位点信息结果。
所述甲基化位点计算结果输出模块的结果如图5所示:支持甲基化位点的Reads数(峰图中黑色代表支持甲基化位点的Reads)和不支持甲基化位点的Reads数(峰图中浅灰色代表不支持甲基化位点的Reads),同时可以得到支持甲基化位点Reads和不支持甲基化位点的Reads具体情况(峰图下面的黑色代表甲基化位点,深灰色代表不是甲基化的位点,浅灰代表Reads数)。通过本发明的甲基化位点计算装置,可准确获取甲基化位点信息。
实施例3差异甲基化区域检测装置
本实施例共使用10个样本,包括:5个正常血液样本(正常组),分别命名为Normal1、Normal2、Normal3、Normal4、Normal5,5个白血病患者血液样本(肿瘤组),分别命名为Cancer1、Cancer2、Cancer3、Cancer4、Cancer5;通过本发明的差异甲基化区域检测装置进行检测:其中差异甲基化区域检测装置包括:数据过滤模块、数据比对模块、C位点统计模块、甲基化位点计算模块、差异甲基化位点筛选模块、差异甲基化区域计算模块、差异甲基化区域注释模块、及数据输出模块。其中,数据过滤模块、数据比对模块、C位点统计模块与实施例1的步骤一致,甲基化位点计算模块与实施例2的步骤一致。
差异甲基化位点筛选模块,其与甲基化位点计算模块相连接,用于筛选两个以上待测样本的甲基化位点差异显著的CpG甲基化位点。差异甲基化位点筛选模块通过以下子模块实现:
差异甲基化位点p-value计算子模块:用于计算正常组与肿瘤组之间C位点是差异甲基化位点的显著性,利用Fisher-test检验方法,公式如下:
Figure BDA0001927066910000221
其中a、b、c、d、n分别表示如下表:
Figure BDA0001927066910000231
根据此上述公式计算得到正常组与肿瘤组之间的绝对位置相同的C位点的p-value。
差异甲基化位点q-value计算模块:用于对上一模块中的p-value进行校正,选取校正后FDR<0.05的位点作为潜在的差异甲基化位点。
差异甲基化位点差值计算模块:用于计算正常组与肿瘤组C位点的平均甲基化水平的差值,一般情况下差值选取大于等于20%(甲基化水平范围是[0,100])。
所述差异甲基化区域计算模块,其与差异甲基化位点计算模块相连接,用于根据差异显著的甲基化位点计算差异甲基化区域,并筛选准确的差异甲基化区域。要求DMR区域至少有5个CpG位点,至少有三个差异甲基化CpG位点。所述差异甲基化区域计算模块通过以下几个子模块实现:
差异甲基化区域p-value计算子模块:用于计算正常组与肿瘤组之间区域的差异显著性,利用双峰正态分布公式如下:
Figure BDA0001927066910000232
其中x表示对两个CpG位点距离取log2,F(x)表示拟合正态分布的概率密度分布函数,利用此公式计算出正常组与肿瘤组的差异区域的p-value;
差异甲基化区域q-value计算子模块:用于校正对上一模块中p-value进行校正,选取校正后FDR<0.05的区域作为潜在的差异甲基化区域,完成了差异甲基化区域计算模块。
差异甲基化区域检测结果输出模块:用于输出差异甲基化区域检测结果。
如图6所示,在chr8:19836956-19837207区域上,横轴表示该区域CpG位点,纵轴表示甲基化水平[0,100],Normal1~5及Cancer1~5上的竖线为在检测位点上甲基化水平的高低,如图可知,在该区域上正常组整体甲基化水平较肿瘤组低,其中“Difference”为表示正常组与肿瘤组的整体差异甲基化程度,可以看出正常组与肿瘤组的甲基化差异水平情况,确定该区域为正常组与肿瘤组的差异甲基化区域。
本发明的差异甲基化区域检测装置具有高度灵敏度、特异性和快速的特点,在解决大批样本或海量测序数据背景下准确查找并检测出样本基因组之间存在的甲基化差异性区域以及在该甲基化差异区域存在甲基化差异的样本组,为进一步在表观遗传学方面的生物信息挖掘与研究提供基础,同时也为表观生物靶标,甚至药物设计等方面的研究提供一套启发性的方法。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离发明技术原理的前提下,还可以做出若干改进和替换,这些改进和替换也应视为本发明的保护范围。

Claims (14)

1.一种C位点提取装置,其特征在于,所述装置包括:
数据过滤模块:用于对待测样本进行高通量测序并对测序数据进行过滤;
数据比对模块:用于将经过过滤的测序数据进行碱基替换,比对到经过碱基替换的参考基因组上,并确定用于后续分析的Reads;
C位点统计模块:用于将数据比对模块确定用于后续分析的Reads按照染色体进行拆分和排序以进行C位点统计;以及
C位点提取结果输出模块:用于输出C位点统计结果;
其中,所述C位点统计模块包括以下子模块:
染色体拆分子模块:用于将比对后的用于后续分析的Reads按照染色体进行拆分;
染色体排序子模块:用于对拆分后的染色体进行排序;以及
全基因组C位点信息统计子模块:用于在染色体排序后,根据全基因组上C位点的位置信息,获得全基因组C位点信息;
其中,数据过滤模块包括如下子模块:
去除接头污染的Reads子模块,该模块判断如果Reads中为接头污染的碱基数大于5bp则去除该Reads;对于PE,该模块判断如果一端受到接头污染,则去除两端的Reads;
去除低质量的Reads子模块,该模块判断如果Reads中质量值Q≤19的碱基占总碱基的15%以上则去除该Reads,对于PE,该模块判断如果一端为低质量的Reads,则会去除两端的Reads;
去除含N比例大于5%的Reads子模块:对于PE,若一端含N比例大于5%,则去除两端的Reads。
2.根据权利要求1所述的装置,其特征在于,所述数据比对模块包括以下子模块:
基因组碱基替换子模块:用于将基因组中的碱基进行替换,替换过程中同时进行C到T和G到A的替换,从而得到两套不同的基因组;
Reads碱基替换子模块:用于将Reads中的碱基进行替换,对于每一对Reads,首先将正链中的C碱基转换为T碱基,而正链的互补链中的G碱基转换为A碱基;
比对子模块:用于将碱基替换过的Reads比对到相应替换过的基因组上,将测序Reads定位到基因组上;
比对统计子模块:用于统计比对后的结果,确定用于后续分析的Reads。
3.根据权利要求1所述的装置,其特征在于,所述基因组选自人类基因组、动物基因组及植物基因组中的任意一种。
4.一种甲基化位点计算装置,其特征在于,所述装置包括:
数据过滤模块:用于对待测样本进行高通量测序并对测序数据进行过滤;
数据比对模块:用于将经过过滤的测序数据进行碱基替换,比对到经过碱基替换的参考基因组上,并确定用于后续分析的Reads;
C位点统计模块:用于将数据比对模块确定用于后续分析的Reads按照染色体进行拆分和排序以进行C位点统计;
甲基化位点计算模块:用于计算C位点为甲基化位点的显著性,获得甲基化位点信息;以及
甲基化位点计算结果输出模块:用于输出甲基化位点计算结果;
其中,所述C位点统计模块包括以下子模块:
染色体拆分子模块:用于将比对后的用于后续分析的Reads按照染色体进行拆分;
染色体排序子模块:用于对拆分后的染色体进行排序;以及
全基因组C位点信息统计子模块:用于在染色体排序后,根据全基因组上C位点的位置信息,获得全基因组C位点信息;
其中,数据过滤模块包括如下子模块:
去除接头污染的Reads子模块,该模块判断如果Reads中为接头污染的碱基数大于5bp则去除该Reads;对于PE,该模块判断如果一端受到接头污染,则去除两端的Reads;
去除低质量的Reads子模块,该模块判断如果Reads中质量值Q≤19的碱基占总碱基的15%以上则去除该Reads,对于PE,该模块判断如果一端为低质量的Reads,则会去除两端的Reads;
去除含N比例大于5%的Reads子模块,对于PE,若一端含N比例大于5%,则去除两端的Reads。
5.根据权利要求4所述的装置,其特征在于,所述甲基化位点计算模块包括以下子模块:
甲基化位点p-value计算子模块:使用p-value计算C位点为甲基化位点的显著性,选取p-value<0.05的位点;
甲基化位点q-value计算子模块:用于对上述p-value进行校正,选取校正后FDR<0.05的位点作为甲基化位点。
6.根据权利要求4所述的装置,其特征在于,所述数据比对模块包括以下子模块:
基因组碱基替换子模块:用于将基因组中的碱基进行替换,替换过程中同时进行C到T和G到A的替换,从而得到两套不同的基因组;
Reads碱基替换子模块:用于将Reads中的碱基进行替换,对于每一对Reads,首先将正链中的C碱基转换为T碱基,而正链的互补链中的G碱基转换为A碱基;
比对子模块:用于将碱基替换过的Reads比对到相应替换过的基因组上,将测序Reads定位到基因组上;
比对统计子模块:用于统计比对后的结果,确定用于后续分析的Reads。
7.一种差异甲基化区域检测装置,其特征在于,所述装置包括:
数据过滤模块:用于对待测样本进行高通量测序并对测序数据进行过滤;
数据比对模块:用于将经过过滤的测序数据进行碱基替换,比对到经过碱基替换的参考基因组上,并确定用于后续分析的Reads;
C位点统计模块:用于将数据比对模块确定用于后续分析的Reads按照染色体进行拆分和排序以进行C位点统计;
甲基化位点计算模块:用于计算C位点为甲基化位点的显著性,获得甲基化位点信息;
差异甲基化位点筛选模块:用于筛选两个以上待测样本的甲基化位点差异显著的CpG甲基化位点;
差异甲基化区域计算模块:用于根据所述差异显著的CpG甲基化位点计算差异甲基化区域,并筛选准确的差异甲基化区域;以及
差异甲基化区域检测结果输出模块:用于输出差异甲基化区域检测结果;
其中,所述C位点统计模块包括以下子模块:
染色体拆分子模块:用于将比对后的用于后续分析的Reads按照染色体进行拆分;
染色体排序子模块:用于对拆分后的染色体进行排序;以及
全基因组C位点信息统计子模块:用于在染色体排序后,根据全基因组上C位点的位置信息,获得全基因组C位点信息;
其中,数据过滤模块包括如下子模块:
去除接头污染的Reads子模块,该模块判断如果Reads中为接头污染的碱基数大于5bp则去除该Reads;对于PE,该模块判断如果一端受到接头污染,则去除两端的Reads;
去除低质量的Reads子模块,该模块判断如果Reads中质量值Q≤19的碱基占总碱基的15%以上则去除该Reads,对于PE,该模块判断如果一端为低质量的Reads,则会去除两端的Reads;
去除含N比例大于5%的Reads子模块,对于PE,若一端含N比例大于5%,则去除两端的Reads。
8.根据权利要求7所述的装置,其特征在于,所述甲基化位点计算模块包括以下子模块:
甲基化位点p-value计算子模块:使用p-value计算C位点为甲基化位点的显著性,选取p-value<0.05的位点;
甲基化位点q-value计算子模块:用于对上述p-value进行校正,选取校正后FDR<0.05的位点作为甲基化位点。
9.根据权利要求7所述的装置,其特征在于,所述数据比对模块包括以下子模块:
基因组碱基替换子模块:用于将基因组中的碱基进行替换,替换过程中同时进行C到T和G到A的替换,从而得到两套不同的基因组;
Reads碱基替换子模块:用于将Reads中的碱基进行替换,对于每一对Reads,首先将正链中的C碱基转换为T碱基,而正链的互补链中的G碱基转换为A碱基;
比对子模块:用于将碱基替换过的Reads比对到相应替换过的基因组上,将测序Reads定位到基因组上;
比对统计子模块:用于统计比对后的结果,确定用于后续分析的Reads。
10.根据权利要求7所述的装置,其特征在于,所述差异甲基化位点筛选模块包括以下子模块:
差异甲基化位点p-value计算子模块:使用p-value计算两种以上待测样本之间C位点是差异甲基化位点的显著性,选取p-value<0.05的位点;
差异甲基化位点q-value计算子模块:用于对上述p-value进行校正,选取校正后FDR<0.05的位点作为潜在的甲基化位点;
差异甲基化位点差值计算子模块:用于计算两个以上待测样本之间C位点的平均甲基化水平的差值,选取差值大于等于20%的位点,其中,甲基化水平范围为[0,100]。
11.根据权利要求7所述的装置,其特征在于,所述差异甲基化区域计算模块包括以下子模块:
差异甲基化区域p-value计算子模块:使用p-value计算两种以上待测样本之间甲基化区域显著性,选取p-value<0.05的区域;
差异甲基化区域q-value计算子模块:用于对上述p-value进行校正,选取矫正后FDR<0.05的区域作为潜在的差异甲基化区域;
差异甲基化区域差值计算子模块:用于计算两个以上样本之间差异甲基化区域的平均甲基化水平的差值,选取差值为大于等于20%的区域,其中,甲基化水平范围为[0,100]。
12.一种用于C位点提取的计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序用于执行以下步骤:
数据过滤步骤,用于对待测样本进行高通量测序并对测序数据进行过滤;
数据比对步骤,用于将经过过滤的测序数据进行碱基替换,比对到经过碱基替换的参考基因组上,并确定用于后续分析的Reads;
C位点统计步骤,用于将数据比对模块的确定用于后续分析的Reads按照染色体进行拆分和排序以进行C位点统计,以及
C位点提取结果输出步骤,用于输出C位点统计结果;
其中,所述C位点统计步骤包括以下步骤:
染色体拆分步骤:用于将比对后的用于后续分析的Reads按照染色体进行拆分;
染色体排序步骤:用于对拆分后的染色体进行排序;以及
全基因组C位点信息统计步骤:用于在染色体排序后,根据全基因组上C位点的位置信息,获得全基因组C位点信息;
其中,数据过滤步骤包括如下子步骤:
去除接头污染的Reads子步骤,该步骤判断如果Reads中为接头污染的碱基数大于5bp则去除该Reads;对于PE,该步骤判断如果一端受到接头污染,则去除两端的Reads;
去除低质量的Reads子步骤,该步骤判断如果Reads中质量值Q≤19的碱基占总碱基的15%以上则去除该Reads,对于PE,该步骤判断如果一端为低质量的Reads,则会去除两端的Reads;
去除含N比例大于5%的Reads子步骤,对于PE,若一端含N比例大于5%,则去除两端的Reads。
13.一种用于甲基化位点计算的计算机可读存储介质,其上存储有计算机程序,其特征在于,计算机程序用于执行以下步骤:
数据过滤步骤,用于对待测样本进行高通量测序并对测序数据进行过滤;
数据比对步骤,用于将经过过滤的测序数据进行碱基替换,比对到经过碱基替换的参考基因组上,并确定用于后续分析的Reads;
C位点统计步骤,用于将数据比对模块确定用于后续分析的Reads按照染色体进行拆分和排序以进行C位点统计;
甲基化位点计算步骤:用于计算C位点为甲基化位点的显著性,获得甲基化位点信息;以及
甲基化位点计算结果输出步骤:用于输出甲基化位点计算结果;
其中,所述C位点统计步骤包括以下步骤:
染色体拆分步骤:用于将比对后的用于后续分析的Reads按照染色体进行拆分;
染色体排序步骤:用于对拆分后的染色体进行排序;以及
全基因组C位点信息统计步骤:用于在染色体排序后,根据全基因组上C位点的位置信息,获得全基因组C位点信息;
其中,数据过滤步骤包括如下子步骤:
去除接头污染的Reads子步骤,该步骤判断如果Reads中为接头污染的碱基数大于5bp则去除该Reads;对于PE,该步骤判断如果一端受到接头污染,则去除两端的Reads;
去除低质量的Reads子步骤,该步骤判断如果Reads中质量值Q≤19的碱基占总碱基的15%以上则去除该Reads,对于PE,该步骤判断如果一端为低质量的Reads,则会去除两端的Reads;
去除含N比例大于5%的Reads子步骤,对于PE,若一端含N比例大于5%,则去除两端的Reads。
14.一种用于差异甲基化区域检测的计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序用于执行以下步骤:
数据过滤步骤,用于对待测样本进行高通量测序并对测序数据进行过滤;
数据比对步骤,用于将经过过滤的测序数据进行碱基替换,比对到经过碱基替换的参考基因组上,并确定用于后续分析的Reads;
C位点统计步骤,用于将数据比对模块确定用于后续分析的Reads按照染色体进行拆分和排序以进行C位点统计;
甲基化位点计算步骤:用于计算C位点为甲基化位点的显著性,获得甲基化位点信息;
差异甲基化位点筛选步骤:用于筛选两个以上待测样本的甲基化位点差异显著的CpG甲基化位点;
差异甲基化区域计算步骤:用于根据所述差异显著的CpG甲基化位点计算差异甲基化区域,并筛选准确的差异甲基化区域;以及
差异甲基化区域检测结果数据输出步骤:用于输出差异甲基化区域检测结果;
其中,所述C位点统计步骤包括以下步骤:
染色体拆分步骤:用于将比对后的用于后续分析的Reads按照染色体进行拆分;
染色体排序步骤:用于对拆分后的染色体进行排序;以及
全基因组C位点信息统计步骤:用于在染色体排序后,根据全基因组上C位点的位置信息,获得全基因组C位点信息;
其中,数据过滤步骤包括如下子步骤:
去除接头污染的Reads子步骤,该步骤判断如果Reads中为接头污染的碱基数大于5bp则去除该Reads;对于PE,该步骤判断如果一端受到接头污染,则去除两端的Reads;
去除低质量的Reads子步骤,该步骤判断如果Reads中质量值Q≤19的碱基占总碱基的15%以上则去除该Reads,对于PE,该步骤判断如果一端为低质量的Reads,则会去除两端的Reads;
去除含N比例大于5%的Reads子步骤,对于PE,若一端含N比例大于5%,则去除两端的Reads。
CN201811621918.2A 2017-12-28 2018-12-28 一种c位点提取方法及装置 Active CN109979534B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2017114558638 2017-12-28
CN201711455863 2017-12-28

Publications (2)

Publication Number Publication Date
CN109979534A CN109979534A (zh) 2019-07-05
CN109979534B true CN109979534B (zh) 2021-07-09

Family

ID=67063213

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811621918.2A Active CN109979534B (zh) 2017-12-28 2018-12-28 一种c位点提取方法及装置

Country Status (2)

Country Link
CN (1) CN109979534B (zh)
WO (1) WO2019129200A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112029761A (zh) * 2020-07-24 2020-12-04 三明学院 一种基于转录组测序的扩增基因全序列的方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101914628A (zh) * 2010-09-02 2010-12-15 深圳华大基因科技有限公司 检测基因组目标区域多态性位点的方法及 系统
CN102061337A (zh) * 2010-11-24 2011-05-18 深圳华大基因科技有限公司 一种组织特异性差异甲基化区域检测方法和系统
CN103525917A (zh) * 2013-09-24 2014-01-22 北京百迈客生物科技有限公司 基于高通量分型的高密度遗传图谱的构建和评价
CN104462868A (zh) * 2014-12-11 2015-03-25 西安电子科技大学 一种结合随机森林和Relief-F的全基因组SNP位点分析方法
CN104762402A (zh) * 2015-04-21 2015-07-08 广州定康信息科技有限公司 超快速检测人类基因组单碱基突变和微插入缺失的方法
CN105431552A (zh) * 2013-04-12 2016-03-23 香港中文大学 多组学标记在预测糖尿病中的用途
WO2017048932A1 (en) * 2015-09-17 2017-03-23 The United States Of America, As Represented By The Secretary, Department Of Health And Human Services Cancer detection methods
CN106845152A (zh) * 2017-02-04 2017-06-13 北京林业大学 一种基因组胞嘧啶位点表观基因型分型方法
CN106980763A (zh) * 2017-03-30 2017-07-25 大连理工大学 一种基于基因突变频率的癌症驱动基因的筛选方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ATE339520T1 (de) * 2002-06-05 2006-10-15 Epigenomics Ag Verfahren zur quantitiven bestimmung des methylierungsgrades von cytosinen in cpg- positionen
US7041455B2 (en) * 2003-03-07 2006-05-09 Illumigen Biosciences, Inc. Method and apparatus for pattern identification in diploid DNA sequence data
EP3377647B1 (en) * 2015-11-16 2020-03-11 Progenity, Inc. Nucleic acids and methods for detecting methylation status
CN106701939A (zh) * 2016-12-22 2017-05-24 中国热带农业科学院热带生物技术研究所 一种胞嘧啶甲基化挖掘的方法
CN107273663B (zh) * 2017-05-22 2018-12-11 人和未来生物科技(长沙)有限公司 一种dna甲基化测序数据计算解读方法
CN107447004A (zh) * 2017-08-11 2017-12-08 北京呈诺医学科技有限公司 Dna甲基化pcr检测引物或探针的特异性检测方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101914628A (zh) * 2010-09-02 2010-12-15 深圳华大基因科技有限公司 检测基因组目标区域多态性位点的方法及 系统
CN102061337A (zh) * 2010-11-24 2011-05-18 深圳华大基因科技有限公司 一种组织特异性差异甲基化区域检测方法和系统
CN105431552A (zh) * 2013-04-12 2016-03-23 香港中文大学 多组学标记在预测糖尿病中的用途
CN103525917A (zh) * 2013-09-24 2014-01-22 北京百迈客生物科技有限公司 基于高通量分型的高密度遗传图谱的构建和评价
CN104462868A (zh) * 2014-12-11 2015-03-25 西安电子科技大学 一种结合随机森林和Relief-F的全基因组SNP位点分析方法
CN104762402A (zh) * 2015-04-21 2015-07-08 广州定康信息科技有限公司 超快速检测人类基因组单碱基突变和微插入缺失的方法
WO2017048932A1 (en) * 2015-09-17 2017-03-23 The United States Of America, As Represented By The Secretary, Department Of Health And Human Services Cancer detection methods
CN106845152A (zh) * 2017-02-04 2017-06-13 北京林业大学 一种基因组胞嘧啶位点表观基因型分型方法
CN106980763A (zh) * 2017-03-30 2017-07-25 大连理工大学 一种基于基因突变频率的癌症驱动基因的筛选方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ChIP-seq Data Plays an Important Role in a Cytosine-Based DNA Methylation Prediction Model;Jie Lv等;《2009 Sixth International Conference on Fuzzy Systems and Knowledge Discovery》;20091228;33-36 *
基于高通量测序的DNA甲基化相关生物信息学工具的开发;吴金雨;《中国博士学位论文全文数据库 基础科学辑》;20140715;第2014年卷(第7期);A006-20 *

Also Published As

Publication number Publication date
CN109979534A (zh) 2019-07-05
WO2019129200A1 (zh) 2019-07-04

Similar Documents

Publication Publication Date Title
CN108753967B (zh) 一种用于肝癌检测的基因集及其panel检测设计方法
JP7051900B2 (ja) 不均一分子長を有するユニーク分子インデックスセットの生成およびエラー補正のための方法およびシステム
KR101795124B1 (ko) 복제 수 변이를 검측하기 위한 방법 및 시스템
CN110800063B (zh) 使用无细胞dna片段大小检测肿瘤相关变体
US11193175B2 (en) Normalizing tumor mutation burden
CN109767810B (zh) 高通量测序数据分析方法及装置
CN105555970B (zh) 同时进行单体型分析和染色体非整倍性检测的方法和系统
CN112941180A (zh) 一组肺癌dna甲基化分子标志物及其在制备用于肺癌早期诊断试剂盒中的应用
EP4004238A1 (en) Systems and methods for determining tumor fraction
CN110016497B (zh) 一种检测肿瘤单细胞基因组拷贝数变异的方法
US20210407623A1 (en) Determining tumor fraction for a sample based on methyl binding domain calibration data
CN105925665A (zh) 试剂盒、建库方法以及检测目标区域变异的方法及系统
AU2020231246A1 (en) Sequence-graph based tool for determining variation in short tandem repeat regions
WO2019046804A1 (en) IDENTIFICATION OF FALSE POSITIVE VARIANTS USING A MODEL OF IMPORTANCE
CN109979534B (zh) 一种c位点提取方法及装置
CN105483210A (zh) 一种rna编辑位点的检测方法
CN111951893B (zh) 构建肿瘤突变负荷tmb面板的方法
CN113373234A (zh) 一种基于突变特征的小细胞肺癌分子分型确定方法及应用
CN105838720B (zh) Ptprq基因突变体及其应用
CN105925666A (zh) 试剂盒、试剂盒的用途及检测目标区域变异的方法及系统
CN109097465B (zh) Clip3基因的snp位点的应用
CN111383713B (zh) ctDNA检测分析装置及方法
CN116042820B (zh) 一组结肠癌dna甲基化分子标志物及其在制备用于结肠癌早期诊断试剂盒中的应用
CN113674802B (zh) 一种基于甲基化测序数据进行变异检测的方法及装置
RU2766198C9 (ru) Способы и системы для получения наборов уникальных молекулярных индексов с гетерогенной длиной молекул и коррекции в них ошибок

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20210526

Address after: 322000 1st floor, building 9, standard workshop, No.10 Gaoxin Road, Houjiang street, Yiwu City, Jinhua City, Zhejiang Province

Applicant after: ZHEJIANG ANNOROAD BIOTECHNOLOGY Co.,Ltd.

Applicant after: Anouta gene technology (Beijing) Co.,Ltd.

Address before: Room 701, unit 2, building 8, yard 88, Kechuang 6th Street, Daxing District, Beijing 100176

Applicant before: Anouta gene technology (Beijing) Co.,Ltd.

GR01 Patent grant
GR01 Patent grant