CN108182348A - 基于种子序列信息的dna甲基化数据检测方法及其装置 - Google Patents

基于种子序列信息的dna甲基化数据检测方法及其装置 Download PDF

Info

Publication number
CN108182348A
CN108182348A CN201810030052.1A CN201810030052A CN108182348A CN 108182348 A CN108182348 A CN 108182348A CN 201810030052 A CN201810030052 A CN 201810030052A CN 108182348 A CN108182348 A CN 108182348A
Authority
CN
China
Prior art keywords
seed sequences
information
data
dna methylation
target sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810030052.1A
Other languages
English (en)
Other versions
CN108182348B (zh
Inventor
晏光荣
朱卉芳
韩悦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Third Affiliated Hospital of Guangzhou Medical University
Original Assignee
Third Affiliated Hospital of Guangzhou Medical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Third Affiliated Hospital of Guangzhou Medical University filed Critical Third Affiliated Hospital of Guangzhou Medical University
Priority to CN201810030052.1A priority Critical patent/CN108182348B/zh
Publication of CN108182348A publication Critical patent/CN108182348A/zh
Application granted granted Critical
Publication of CN108182348B publication Critical patent/CN108182348B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

本发明提供了一种基于种子序列信息的DNA甲基化数据检测方法及其装置。其中,所述方法包括:构建索引数据库;获取目标样品的测序数据,并根据预设种子序列长度将所述测序数据分割,得到分割种子序列信息;基于所述索引数据库,确定每个所述分割种子序列信息的比对候选位置信息;对每个所述比对候选位置信息进行系统评估,得到系统评估结果,并根据所述系统评估结果确定所述目标样品的DNA甲基化位点。本发明极大地缩短了数据分析中最为耗时的比对运算,在保证甲基化检测区域位点完整的基础上大幅度提高了数据的利用率、运算效率和准确率,为生命科学领域的科研工作者对于DNA碱基修饰信息的进一步研究带来了极大的方便。

Description

基于种子序列信息的DNA甲基化数据检测方法及其装置
技术领域
本发明涉及生物信息技术领域,更具体地说,涉及一种基于种子序列信息的DNA甲基化数据检测方法及其装置。
背景技术
DNA碱基修饰近年来一直是生命科学领域研究的热点之一,其中胞嘧啶第五位碳原子上的甲基化动态修饰(5mC)研究的较为深入。5mC是在DNA甲基化转移酶的作用下,将甲基选择性地添加到胞嘧啶形成5-甲基胞嘧啶的过程,被发现时被定义为第五种碱基,实际上它是一种重要的表观遗传学标记,在调控基因表达、维持染色质结构、基因印记、X染色体失活以及胚胎发育等生物学过程中发挥重要的作用。DNA甲基化作为一种可遗传的表观遗传修饰,在体细胞增殖过程中通过依赖于DNA复制的DNA甲基转移酶稳定地传递给子细胞,对胚胎正常发育和等位基因的选择表达至关重要。
因此准确定位DNA甲基化位点具有重要的科研和临床意义。近年来众多研究机构构建了各种各样的数据库来存储世界各大实验室和科研机构产生的DNA甲基化数据,各种各样的算法软件相继被开发用于处理这些数据。常见的基于短序列匹配专门处理亚硫酸氢盐法产生的序列软件包括MethTools、QUMA、BISMA、CyMATE、BRAT、Bismark、BSMAP、BSSeeker、CpGPatternFinder、MethMarker、RRBS和BiQAnalyzer HT等。
但是,现有对于DNA甲基化位点进行定位的工具及算法在实际使用过程中存在如下的缺陷:进行DNA碱基序列比对时,精度不高,数据量较大运行导致运算时间长效率严重不足,甲基化检测区域位点存在缺失的问题,为生命科学领域的科研工作者对于DNA碱基修饰信息的进一步研究带来了极大的不便。
发明内容
有鉴于此,本发明提供一种基于种子序列信息的DNA甲基化数据检测方法及其装置以解决现有技术的不足。
为解决上述问题,本发明提供一种基于种子序列信息的DNA甲基化数据检测方法,包括:
构建索引数据库;
获取目标样品的测序数据,并根据预设种子序列长度将所述测序数据分割,得到分割种子序列信息;
基于所述索引数据库,确定每个所述分割种子序列信息的比对候选位置信息;
对每个所述比对候选位置信息进行系统评估,得到系统评估结果,并根据所述系统评估结果确定所述目标样品的DNA甲基化位点。
优选地,所述“构建索引数据库”,包括:
获取所述目标样品的所属物种的参考基因序列;
根据所述预设种子序列长度对所述参考基因序列进行分割,得到参考种子序列;
根据所述参考种子序列建立比对候选位置信息的数组,构建索引数据库。
优选地,所述“获取目标样品的测序数据,并根据预设种子序列长度将所述测序数据分割,得到分割种子序列信息”,包括:
对所述目标样品进行测序,得到所述目标样品测序数据;
根据所述预设种子序列长度,对所述目标样品测序数据由起始位置逐段进行分割;
若所述目标样品测序数据按照所述预设种子序列长度能被平均分配,则生成互相不重叠的所述分割种子序列信息;
若所述目标样品测序数据按照所述预设种子序列长度不能被平均分配,则从所述目标样品测序数据最后一个字符起反向取预设种子序列长度的字符进行补充,生成所述分割种子序列信息。
优选地,所述“基于所述索引数据库,确定每个所述分割种子序列信息的比对候选位置信息”,包括:
将所述分割种子序列信息进行数据编码转换,得到数值数据;
将所述数值数据与索引数据库中的所述转换数值进行匹配,获得匹配结果信息,根据所述匹配结果信息获得所述分割种子序列信息的比对候选位置信息。
优选地,所述“将所述分割种子序列信息进行数据编码转换,得到数值数据”,包括:
将所述分割种子序列信息依据A=0,G=1,C=2,T=2的规则转换为三进制数据;
将所述三进制数据转换为十进制作为所述数值数据。
优选地,所述“对每个所述比对候选位置信息进行系统评估,得到系统评估结果,并根据所述系统评估结果确定目标样品的DNA序列的比对位置信息”,包括:
构建系统评估数组,根据所述系统评估数组对所述比对候选位置信息中的候选位置进行打分评价,得出系统评价结果;
选出所述系统评价结果中打分评价最高的所述候选位置,记为所述目标样品的所述DNA序列比对位置。
优选地,所述“构建系统评估数组,根据所述系统评估数组对所述比对候选位置信息中的候选位置进行打分评价,得出系统评估结果”,包括:
构建系统评估数组;其中,所述系统评估数组包括存储候选位置列表的第一数组和存储位置打分评价的第二数组;
将所述比对候选位置信息写入所述第一数组;
建立打分评价规则,基于所述打分评价规则,通过所述第一数组和所述第二数组对所述比对候选位置信息中的候选位置进行打分评价,得出系统评价结果。
此外,为解决上述问题,本发明还提供一种种子序列信息的DNA甲基化数据检测装置,包括构建模块、分割模块、定位模块和评价模块;
所述构建模块,用于构建索引数据库;
所述分割模块,用于获取目标样品的测序数据,并根据预设种子序列长度将所述测序数据分割,得到分割种子序列信息;
所述定位模块,用于基于所述索引数据库,确定每个所述分割种子序列信息的比对候选位置信息;
所述评价模块,用于对每个所述比对候选位置信息进行系统评价,得到系统评价结果,并根据所述系统评价结果确定所述目标样品的DNA甲基化位点。
此外,为解决上述问题,本发明还提供一种用户终端,包括存储器以及处理器,所述存储器用于存储种子序列信息的DNA甲基化数据检测程序,所述处理器运行所述种子序列信息的DNA甲基化数据检测程序以使所述用户终端执行如权利要求1-7中任一项所述的种子序列信息的DNA甲基化数据检测方法。
此外,为解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有种子序列信息的DNA甲基化数据检测程序,所述种子序列信息的DNA甲基化数据检测程序被处理器执行时实现如权利要求1-7任一项所述种子序列信息的DNA甲基化数据检测方法。
本发明提供的一种基于种子序列信息的DNA甲基化数据检测方法。其中,所述方法通过将目标样品测序数据根据预设种子序列长度进行分割,再对分割后的每个分割种子序列信息根据索引数据库确定甲基候选位置,再通过系统评价最终确定甲基化的位点,从而快速完成序列的比对,准确分析和系统评估基因组中存在的甲基化位点,极大地缩短了数据分析中最为耗时的比对运算,在保证甲基化检测区域位点完整的基础上大幅度提高了数据的利用率、运算效率和准确率,为生命科学领域的科研工作者对于DNA碱基修饰信息的进一步研究带来了极大的方便。
附图说明
图1为本发明种子序列信息的DNA甲基化数据检测方法实施例方案涉及的硬件运行环境的结构示意图;
图2为本发明种子序列信息的DNA甲基化数据检测方法第一实施例的流程示意图;
图3为本发明种子序列信息的DNA甲基化数据检测方法第二实施例的流程示意图;
图4为本发明种子序列信息的DNA甲基化数据检测方法第三实施例的流程示意图;
图5为本发明种子序列信息的DNA甲基化数据检测方法第四实施例的流程示意图;
图6为本发明种子序列信息的DNA甲基化数据检测方法第四实施例中包括步骤S310的细化步骤的流程示意图;
图7为本发明种子序列信息的DNA甲基化数据检测方法第五实施例的流程示意图;
图8为本发明种子序列信息的DNA甲基化数据检测方法第五实施例中包括步骤S410的细化步骤的流程示意图;
图9为本发明种子序列信息的DNA甲基化数据检测装置的功能模块示意图;
图10为本发明种子序列信息的DNA甲基化数据检测方法亚硫酸氢盐甲基化修饰位点测序法流程图;
图11为本发明种子序列信息的DNA甲基化数据检测方法的参考序列索引数据库的构建原理图;
图12为本发明种子序列信息的DNA甲基化数据检测方法的可平均分配序列示意图;
图13为本发明种子序列信息的DNA甲基化数据检测方法的不可平均分配序列示意图;
图14为本发明种子序列信息的DNA甲基化数据检测方法的系统评价示意图;
图15为本发明种子序列信息的DNA甲基化数据检测方法的序列完全匹配示意图;
图16为本发明种子序列信息的DNA甲基化数据检测方法的序列不完全匹配示意图;
图17为本发明种子序列信息的DNA甲基化数据检测方法的序列完全匹配堆积处理示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
下面详细描述本发明的实施例,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,图1是本发明实施例方案涉及的终端的硬件运行环境的结构示意图。
本发明实施例终端可以是PC,也可以是智能手机、平板电脑、电子书阅读器、MP3播放器、MP4播放器、便携计算机等具有显示功能的可移动式终端设备。
如图1所示,该终端可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏、输入单元比如键盘、遥控器,可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器,例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
可选地,终端还可以包括摄像头、RF(Radio Frequency,射频)电路,传感器、音频电路、WiFi模块等等。此外,移动终端还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器,在此不再赘述。
本领域技术人员可以理解,图1中示出的终端并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机可读存储介质的存储器1005中可以包括操作系统、数据接口控制程序、网络连接程序以及种子序列信息的DNA甲基化数据检测程序。
本发明提供的一种种子序列信息的DNA甲基化数据检测方法及其装置。其中,所述方法在保证甲基化检测区域位点完整的基础上大幅度提高了数据的利用率、运算效率和准确率,为生命科学领域的科研工作者对于DNA碱基修饰信息的进一步研究带来了极大的方便。该技术可以采用相关的软件或硬件实现,下面通过实施例进行描述。
实施例1:
参照图2,本发明第一实施例提供一种种子序列信息的DNA甲基化数据检测方法,包括:
步骤S100,构建索引数据库;
上述,在本实施例中,索引数据库为包含有目标待测样品的物种的参考基因组序列信息,例如目标待测样品为昆明种S180大鼠的DNA,则导入相关的鼠类的参考基因组序列信息作为对比参考。
步骤S200,获取目标样品的测序数据,并根据预设种子序列长度将所述测序数据分割,得到分割种子序列信息;
上述,需要理解的是,目前为止,采用亚硫酸氢盐测序法是检测DNA5mC碱基修饰相对比较高效的方法,能够直接检测单个胞嘧啶的甲基化状态。该方法用亚硫酸氢盐处理基因组DNA,则未发生甲基化的胞嘧啶被转化为尿嘧啶,而甲基化的胞嘧啶不变。随后通过设计BSP引物进行PCR,在扩增过程中尿嘧啶全部转化为胸腺嘧啶,最后对PCR产物进行二代测序,经过对测序数据的处理,与参考基因组进行比对,就可以获得DNA特定序列的全部甲基化信息。
上述,需要理解的是,目前很多方法通过排列组合方式将每条测序序列变成2k(k为测序序列中尿嘧啶的个数)条信息,再将变化后序列与参考基因组进行比对,由于目前测序序列长度在150~200bp,其中每条测序序列含有尿嘧啶的个数平均约为37-50个,因此这种排列组合方法完全不适合目前甲基化测序数据比对,随着大量全基因组DNA甲基化测序数据的产生,高通量数据处理和分析成为目前DNA甲基化研究过程的一个重点和难点。
在本实施例中,通过根据预设种子序列长度将所述测序数据进行分割,得到分割种子序列信息,从而分别对分割种子序列信息进行进一步的对甲基化位点的定位,大大提高运算和分析的效率。
步骤S300,基于所述索引数据库,确定每个所述分割种子序列信息的比对候选位置信息;
上述,如图11所示,将分割后的每一个分割种子序列信息,通过查询索引数据库,从而进一步通过列表列出种子序列候选位置信息,这其中包括多个不同的候选信息,以便于进一步的对于候选信息的筛选。
步骤S400,对每个所述比对候选位置信息进行系统评估,得到系统评估结果,并根据所述系统评估结果确定所述目标样品的DNA甲基化位点。
对所得到的比对候选位置信息通过系统评价,从而从大量的候选信息中筛选出DNA比对位置,确定甲基化位点,大大提高了甲基化位点的准确性。
本实施例所提供的种子序列信息的DNA甲基化数据检测方法,通过将目标样品测序数据根据预设种子序列长度进行分割,再对分割后的每个分割种子序列信息根据索引数据库确定甲基候选位置,再通过系统评价最终确定甲基化的位点,从而快速完成序列的比对,准确分析和系统评估基因组中存在的甲基化位点,极大地缩短了数据分析中最为耗时的比对运算,在保证甲基化检测区域位点完整的基础上大幅度提高了数据的利用率、运算效率和准确率,为生命科学领域的科研工作者对于DNA碱基修饰信息的进一步研究带来了极大的方便。
实施例2:
参照图3,本发明第二实施例提供一种种子序列信息的DNA甲基化数据检测方法,基于上述图2所示的第一实施例,所述步骤S100包括:
步骤S110,获取所述目标样品的所属物种的参考基因序列;
上述,在进行目标样品的甲基化定位前,需构建索引数据库,将目标样品所对应的研究物种的参考基因组序列文件写入到内存中。
步骤S120,根据所述预设种子序列长度对所述参考基因序列进行分割,得到参考种子序列;
上述,参考基因序列是由代表四种碱基的ATCG四个字母组成的一长串字符串,以人类参考基因组为例,实际长度约为3×109bp。采用编码的思想将字符串转化为数据,因为处理的是甲基化测序数据,用数字0替换字符A,数字1替换字符G,数字2替换字符C和T,因此参考基因组转换成了由数字0,1,2构成的数字排列,通过上述步骤,字符串信息转换成为三进制数据,依次从右到左按照如下规则将序列信息转化为数值数据。例如序列CTTAACCGGAAAGG,对应十进制数值2×313+2×312+2×311+0×310+0×39+2×38+2×37+1×36+1×35+0×34+0×33+0×32+1×31+1×30=4624294。
对参考基因序列进行分割,分割的每段字符串称为种子序列。根据设定的字符串长度k(预设种子序列长度),从参考基因序列起始位置逐段进行分割,每一段分割序列都是按照字符串位置依次连续进行,每一段均由k个字符组成,因此每段的起始位置也是相邻的。若k=14,则产生种子序列信息依次为1~14,2~15,3~16,4~17...。
步骤S130,根据所述参考种子序列建立比对候选位置信息的数组,构建索引数据库。
上述,建立一个计数数组SC[3n],数组索引代表种子序列的数值编码,数组中每个元素的值代表着参考基因组中包含该元素下标数字编码序列的个数。初始化数组中每个元素的值为0。
逐步扫描所述参考种子序列,将字符串转换成数值数据,记录在计数数组中对应数组下标的值中,每出现一次,相对应索引数组数值记录加一,统计数组SC中的最大值,记为SC_MAX。
建立一个指针数组*SI[3i]指向AL地址,同时建立一个存储种子序列位置信息的数组AL[sum_sc],其中SI[i]=AL+∑SC[i-1],sum_sc=∑SC[n],再次扫描参考基因组,那么SI[i][SC[i]]=Location,其中Location代表所有候选位置信息,这是由于指针数组引用了AL中的元素地址,Location最终存储在AL数组中,通过查找种子序列编码对应SI的下标,就能在AL中得到参考基因组中种子序列候选位置信息。
通过上述步骤,即构建了参考基因组种子序列的索引数据库,记录了其中所有种子序列的数值编码,出现次数及对应的位置信息。
实施例3:
参照图4,本发明第三实施例提供一种种子序列信息的DNA甲基化数据检测方法,基于上述图2所示的第一实施例,所述步骤S200,包括:
步骤S210,对所述目标样品进行测序,得到所述目标样品测序数据;
上述,对目标样品进行测序,即为如图10所示,将待测序的目标样品经过亚硫酸氢盐处理,通过二代测序仪进行高通量测序,从而得到目标样品测序数据。其中,显示DNA的序列信息会发生改变,原本无甲基化的胞嘧啶变成尿嘧啶,测序结果反应成胸腺嘧啶,而有甲基化的胞嘧啶和其他碱基保持不变。
步骤S220,根据所述预设种子序列长度,对所述目标样品测序数据由起始位置逐段进行分割;
上述,对每条目标样品测序数据按照设定的预设种子序列长度进行连续的平均分割,对于不能平均分割的情况,从序列尾部反向进行一次分割,作为最后一个种子序列的信息。
步骤S230,若所述目标样品测序数据按照所述预设种子序列长度能被平均分配,则生成互相不重叠的所述分割种子序列信息;
上述,如图12所示,读入目标样品测序数据并根据设定的预设种子序列长度进行分割时,由于测序所得序列数据的读长会有差异,按照预设种子序列长度进行分割时,必然会出现平均分配,和不能平均分配两种情况。
上述,对于可平均分配的目标样品测序数据的处理方法为,将序列长度按照设定的种子序列长度均匀连续分割成r1,r2,r3...rn,序列两两之间不会发生重叠。例如将序列分4段,即为1~14,15~28,29~42,30~43。
步骤S240,若所述目标样品测序数据按照所述预设种子序列长度不能被平均分配,则从所述目标样品测序数据最后一个字符起反向取预设种子序列长度的字符进行补充,生成所述分割种子序列信息。
上述,如图13所示,对于不能平均分配的目标样品测序数据的处理方法为,设定种子序列长度为k,从序列最后一个字符反向取k个字符作为一个分割的补充,最后一段序列即为到length的字符串。如将序列分4段,即为1~14,15~28,29~42,35~48。
实施例4:
参照图5和图6,本发明第四实施例提供一种种子序列信息的DNA甲基化数据检测方法,基于上述图2所示的第一实施例,所述步骤S300包括:
步骤S310,将所述分割种子序列信息进行数据编码转换,得到数值数据;
上述,将分割种子序列信息通过数据编码转换,由碱基数据信息转换为数值数据。
步骤S311,将所述分割种子序列信息依据A=0,G=1,C=2,T=2的规则转换为三进制数据;
上述,测序的序列信息由代表四种碱基的ATCG四个字母组成的一长串字符串,以人类参考基因组为例,实际长度约为3×109bp。采用编码的思想将字符串转化为数据,因为处理的是甲基化测序数据,用数字0替换字符A,数字1替换字符G,数字2替换字符C和T,因此参考基因组转换成了由数字0,1,2构成的数字排列,通过上述步骤,字符串信息转换成为三进制数据。
步骤S312,将所述三进制数据转换为十进制作为所述数值数据。
上述,依次从右到左按照规则将序列信息转化为数值数据。例如序列CTTAACCGGAAAGG,对应十进制数值2×313+2×312+2×311+0×310++0×39+2×38+2×37+1×36+1×35+0×34+0×33+0×32+1×31+1×30=4624294。
步骤S320,将所述数值数据与索引数据库中的所述转换数值进行匹配,获得匹配结果信息,根据所述匹配结果信息获得所述分割种子序列信息的比对候选位置信息。
上述,对于序列分割后产生种子序列r1,r2,r3...rn,进行编码转换,从而转换为数值数据,将r1序列转换的数值数据在所建立的索引数据库中进行搜索和匹配,从而取得所有候选位置信息。
实施例5:
参照图7和图8,本发明第五实施例提供一种种子序列信息的DNA甲基化数据检测方法,基于上述图2所示的第一实施例,所述步骤S400包括:
步骤S410,构建系统评估数组,根据所述系统评估数组对所述比对候选位置信息中的候选位置进行打分评价,得出系统评价结果;
构建一个系统评价的数组,用于对所获得的比对候选位置信息进行筛选,从而得出系统评价结果。
步骤S411,构建系统评估数组;其中,所述系统评估数组包括存储候选位置列表的第一数组和存储位置打分评价的第二数组;
步骤S412,将所述比对候选位置信息写入所述第一数组;
创建两个数组第一数组W1和第二数组W2,数组大小为 其中maxLen为输入设定值,k表示设定的种子长度,SC_MAX为数组sc中的最大值,W1表示用于存储r1,r2,r3...rn的readList候选位置列表的数组,W2表示用于存储readListScore位置打分的数组。进而将获得的候选位置信息存储在readList候选位置列表中。
步骤S413,建立打分评价规则,基于所述打分评价规则,通过所述第一数组和所述第二数组对所述比对候选位置信息中的候选位置进行打分评价,得出系统评价结果。
建立打分评价规则,即为种子间打分机制:对于序列在分割时能够平均分配的情况,种子序列r1和r2的第一个字符位置相差值为k,对应比对位置具有相同的相对关系,因此可以对所有的种子序列采用如下的转换关系HLocation=Location-k×(i-1),与r1的相对位置进行打分比较;对于序列在分割时不能够平均分配的情况,分割序列最后的两个种子序列,相对位置采用如下的转换关系HLocation=Location-k×(i-1)+Olen,其中Location位置信息即为AL位置数组的元素值,i表示分割的第i段序列,HLocation是转化后该序列潜在比对位置,Olen最后两段种子序列重叠长度。
步骤S420,选出所述系统评价结果中打分评价最高的所述候选位置,记为所述目标样品的所述DNA序列比对位置。
在进行打分评价的过程中,其中包括以下几种情况:
1、对于不含有胞嘧啶的测序序列数据,如图16所示,序列打分数即为种子序列支持的分段数,则认为比对成功,得到具体比对位置。
2、对于序列中含有胞嘧啶的情况,如图15所示,序列中的胸腺嘧啶可能来源于甲基化的胞嘧啶,对可能发生甲基化修饰后的序列转换关系,寻找最大可能性的比对候选位置,通过序列间打分关系进行判断,即通过序列堆积的方式,若转换后的值相等,则认为比对成功,同时确定甲基化修饰位点的具体位置。
3、若存在上述两种均不能匹配的情况,如图17所示,例如:11~24,25~38,39~52,45~58,59~72中39~52无法对应其余3段HLocation的值,将这段种子序列单独取出,与可能候选位置附近序列进行编辑距离比较,若差异字符占比小于等于这段序列的6%,则认为位置比对成功。
此外,参考图9,本发明还提供一种种子序列信息的DNA甲基化数据检测装置,包括构建模块、分割模块、定位模块和评价模块;
所述构建模块,用于构建索引数据库;
所述分割模块,用于获取目标样品的测序数据,并根据预设种子序列长度将所述测序数据分割,得到分割种子序列信息;
所述定位模块,用于基于所述索引数据库,确定每个所述分割种子序列信息的比对候选位置信息;
所述评价模块,用于对每个所述比对候选位置信息进行系统评价,得到系统评价结果,并根据所述系统评价结果确定所述目标样品的DNA甲基化位点。
此外,本发明还提供一种用户终端,包括存储器以及处理器,所述存储器用于存储种子序列信息的DNA甲基化数据检测程序,所述处理器运行所述种子序列信息的DNA甲基化数据检测程序以使所述计算机设备执行如上述所述的种子序列信息的DNA甲基化数据检测方法。
此外,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有种子序列信息的DNA甲基化数据检测程序,所述种子序列信息的DNA甲基化数据检测程序被处理器执行时实现如上述所述种子序列信息的DNA甲基化数据检测方法。
此外,为了更好的说明本发明所提供的一种种子序列信息的DNA甲基化数据检测方法,通过如下实施例及方法学验证对本发明进行说明。
1、通过模拟数据集验证甲基化测序数据比对性能。
因为重亚硫酸盐方法处理DNA序列后,甲基化的胞嘧啶测定为胸腺嘧啶,随机选取10000个胞嘧啶位点,人工替换为胸腺嘧啶,生成模拟甲基化基因组,利用art(doi:10.1093/bioinformatics/btr708)模拟软件生成高通量测序数据集,其中包括测序数据与相应比对位置信息。
2、参数设定。
设定比对软件中各个参数,运行程序,结果文件包括测序序列、比对到的染色体编号、正义链或反义链比对信息。
3、统计方法。
统计比对结果,定义如下:
其中TP表示结果中正确比对的百分比,FP表示结果中错误比对的百分比,MP表示正确比对个数占所有模拟数据的百分比,N表示所有比对结果个数,NTP表示结果中正确比对的个数,NFP表示结果中错误比对的个数,Nall表示所有模拟数据的个数。
4、模拟数据集比对结果验证。
分别对大肠杆菌和酵母采取上述策略进行数据模拟,运行比对程序,结果统计如下:
综上,本方法通过分别对大肠杆菌和酵母采取上述策略进行数据模拟,运行比对程序,证明本发明所提供方法的可行性验证通过。
需要说明的是,本专利提出种子序列投票打分思想,并实现高通量甲基化测序比对软件。软件整合了参考序列建立索引和数据比对的具体运算过程,并提供了用户友好的界面系统,使用者只需提供必要的参数即可。
其中,所需参数及其说明如下:
Max length:甲基化测序数据最大序列长度。
Max Error:序列比对中最大允许的错配(mismatch)碱基个数。
Indel detection:是否检测碱基插入和缺失的情况,勾选即为关闭。
Masked:是否标记重复和N序列,勾选即为否。
Min seed length:种子序列长度,可选参数包括10、12、14、16,该数值同时应用于索引建立和比对过程,长度与种子序列唯一性相关。
Ref.sequence:用于建立索引的参考基因组序列。
Dataset file:用于比对的甲基化测序数据。
Output file:比对输出结果文件。
Parallel core number:用于并行计算的处理器个数。
Split file size:并行计算中参考序列分割文件大小。
Work Folder:工作路径,即索引建立和比对计算中的临时文件。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个......”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种基于种子序列信息的DNA甲基化数据检测方法,其特征在于,包括:
构建索引数据库;
获取目标样品的测序数据,并根据预设种子序列长度将所述测序数据分割,得到分割种子序列信息;
基于所述索引数据库,确定每个所述分割种子序列信息的比对候选位置信息;
对每个所述比对候选位置信息进行系统评估,得到系统评估结果,并根据所述系统评估结果确定所述目标样品的DNA甲基化位点。
2.如权利要求1所述基于种子序列信息的DNA甲基化数据检测方法,其特征在于,所述“构建索引数据库”,包括:
获取所述目标样品的所属物种的参考基因序列;
根据所述预设种子序列长度对所述参考基因序列进行分割,得到参考种子序列;
根据所述参考种子序列建立比对候选位置信息的数组,构建索引数据库。
3.如权利要求1所述基于种子序列信息的DNA甲基化数据检测方法,其特征在于,所述“获取目标样品的测序数据,并根据预设种子序列长度将所述测序数据分割,得到分割种子序列信息”,包括:
对所述目标样品进行测序,得到所述目标样品测序数据;
根据所述预设种子序列长度,对所述目标样品测序数据由起始位置逐段进行分割;
若所述目标样品测序数据按照所述预设种子序列长度能被平均分配,则生成互相不重叠的所述分割种子序列信息;
若所述目标样品测序数据按照所述预设种子序列长度不能被平均分配,则从所述目标样品测序数据最后一个字符起反向取预设种子序列长度的字符进行补充,生成所述分割种子序列信息。
4.如权利要求2所述基于种子序列信息的DNA甲基化数据检测方法,其特征在于,所述“基于所述索引数据库,确定每个所述分割种子序列信息的比对候选位置信息”,包括:
将所述分割种子序列信息进行数据编码转换,得到数值数据;
将所述数值数据与索引数据库中的所述转换数值进行匹配,获得匹配结果信息,根据所述匹配结果信息获得所述分割种子序列信息的比对候选位置信息。
5.如权利要求4所述基于种子序列信息的DNA甲基化数据检测方法,其特征在于,所述“将所述分割种子序列信息进行数据编码转换,得到数值数据”,包括:
将所述分割种子序列信息依据A=0,G=1,C=2,T=2的规则转换为三进制数据;
将所述三进制数据转换为十进制作为所述数值数据。
6.如权利要求1所述基于种子序列信息的DNA甲基化数据检测方法,其特征在于,所述“对每个所述比对候选位置信息进行系统评估,得到系统评估结果,并根据所述系统评估结果确定目标样品的DNA序列的比对位置信息”,包括:
构建系统评估数组,根据所述系统评估数组对所述比对候选位置信息中的候选位置进行打分评价,得出系统评价结果;
选出所述系统评价结果中打分评价最高的所述候选位置,记为所述目标样品的所述DNA序列比对位置。
7.如权利要求6所述基于种子序列信息的DNA甲基化数据检测方法,其特征在于,所述“构建系统评估数组,根据所述系统评估数组对所述比对候选位置信息中的候选位置进行打分评价,得出系统评估结果”,包括:
构建系统评估数组;其中,所述系统评估数组包括存储候选位置列表的第一数组和存储位置打分评价的第二数组;
将所述比对候选位置信息写入所述第一数组;
建立打分评价规则,基于所述打分评价规则,通过所述第一数组和所述第二数组对所述比对候选位置信息中的候选位置进行打分评价,得出系统评价结果。
8.一种种子序列信息的DNA甲基化数据检测装置,其特征在于,包括构建模块、分割模块、定位模块和评价模块;
所述构建模块,用于构建索引数据库;
所述分割模块,用于获取目标样品的测序数据,并根据预设种子序列长度将所述测序数据分割,得到分割种子序列信息;
所述定位模块,用于基于所述索引数据库,确定每个所述分割种子序列信息的比对候选位置信息;
所述评价模块,用于对每个所述比对候选位置信息进行系统评价,得到系统评价结果,并根据所述系统评价结果确定所述目标样品的DNA甲基化位点。
9.一种用户终端,其特征在于,包括存储器以及处理器,所述存储器用于存储种子序列信息的DNA甲基化数据检测程序,所述处理器运行所述种子序列信息的DNA甲基化数据检测程序以使所述用户终端执行如权利要求1-7中任一项所述的种子序列信息的DNA甲基化数据检测方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有种子序列信息的DNA甲基化数据检测程序,所述种子序列信息的DNA甲基化数据检测程序被处理器执行时实现如权利要求1-7任一项所述种子序列信息的DNA甲基化数据检测方法。
CN201810030052.1A 2018-01-12 2018-01-12 基于种子序列信息的dna甲基化数据检测方法及其装置 Active CN108182348B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810030052.1A CN108182348B (zh) 2018-01-12 2018-01-12 基于种子序列信息的dna甲基化数据检测方法及其装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810030052.1A CN108182348B (zh) 2018-01-12 2018-01-12 基于种子序列信息的dna甲基化数据检测方法及其装置

Publications (2)

Publication Number Publication Date
CN108182348A true CN108182348A (zh) 2018-06-19
CN108182348B CN108182348B (zh) 2020-04-24

Family

ID=62550381

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810030052.1A Active CN108182348B (zh) 2018-01-12 2018-01-12 基于种子序列信息的dna甲基化数据检测方法及其装置

Country Status (1)

Country Link
CN (1) CN108182348B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110534158A (zh) * 2019-08-16 2019-12-03 浪潮电子信息产业股份有限公司 一种基因序列比对方法、装置、服务器及介质
CN113555062A (zh) * 2021-07-23 2021-10-26 哈尔滨因极科技有限公司 一种用于基因组碱基变异检测的数据分析系统及分析方法
CN113921083A (zh) * 2021-10-27 2022-01-11 云舟生物科技(广州)有限公司 自定义序列的分析方法、计算机存储介质及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6775622B1 (en) * 2000-01-31 2004-08-10 Zymogenetics, Inc. Method and system for detecting near identities in large DNA databases
CN102682226A (zh) * 2012-04-18 2012-09-19 盛司潼 一种核酸测序信息处理系统及方法
CN103336916A (zh) * 2013-07-05 2013-10-02 中国科学院数学与系统科学研究院 一种测序序列映射方法及系统
CN107403075A (zh) * 2017-08-02 2017-11-28 深圳市瀚海基因生物科技有限公司 比对方法、装置及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6775622B1 (en) * 2000-01-31 2004-08-10 Zymogenetics, Inc. Method and system for detecting near identities in large DNA databases
CN102682226A (zh) * 2012-04-18 2012-09-19 盛司潼 一种核酸测序信息处理系统及方法
CN103336916A (zh) * 2013-07-05 2013-10-02 中国科学院数学与系统科学研究院 一种测序序列映射方法及系统
CN107403075A (zh) * 2017-08-02 2017-11-28 深圳市瀚海基因生物科技有限公司 比对方法、装置及系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110534158A (zh) * 2019-08-16 2019-12-03 浪潮电子信息产业股份有限公司 一种基因序列比对方法、装置、服务器及介质
CN110534158B (zh) * 2019-08-16 2023-08-04 浪潮电子信息产业股份有限公司 一种基因序列比对方法、装置、服务器及介质
CN113555062A (zh) * 2021-07-23 2021-10-26 哈尔滨因极科技有限公司 一种用于基因组碱基变异检测的数据分析系统及分析方法
CN113921083A (zh) * 2021-10-27 2022-01-11 云舟生物科技(广州)有限公司 自定义序列的分析方法、计算机存储介质及电子设备

Also Published As

Publication number Publication date
CN108182348B (zh) 2020-04-24

Similar Documents

Publication Publication Date Title
US20240096450A1 (en) Systems and methods for adaptive local alignment for graph genomes
CN106068330B (zh) 将已知等位基因用于读数映射中的系统和方法
Kopylova et al. SortMeRNA: fast and accurate filtering of ribosomal RNAs in metatranscriptomic data
Hoffmann et al. Fast mapping of short sequences with mismatches, insertions and deletions using index structures
CA2424031C (en) System and process for validating, aligning and reordering genetic sequence maps using ordered restriction map
Grover et al. Searching microsatellites in DNA sequences: approaches used and tools developed
CN108182348A (zh) 基于种子序列信息的dna甲基化数据检测方法及其装置
CN110692101A (zh) 用于比对靶向的核酸测序数据的方法
CN110914911A (zh) 压缩分子标记的核酸序列数据的方法
Ren et al. Inference of Markovian properties of molecular sequences from NGS data and applications to comparative genomics
Hofacker Energy-directed RNA structure prediction
CN113178227A (zh) 多组学融合剪接位点的识别方法及系统、设备和存储介质
EP2923293A1 (en) Efficient comparison of polynucleotide sequences
CN103984879A (zh) 一种测定待测基因组区域表达水平的方法及系统
CN113344272A (zh) 一种基于机器学习的circRNA与miRNA、RBP相互作用关系的预测方法
CN101467032B (zh) 个体识别方法及设备
Yosef et al. Improved network-based identification of protein orthologs
Mester et al. Fast and accurate construction of ultra-dense consensus genetic maps using evolution strategy optimization
CN103310128B (zh) 考虑种子片段的长度的碱基序列处理系统及方法
Sun et al. Designing patterns for profile HMM search
Pandey et al. CANGS DB: a stand-alone web-based database tool for processing, managing and analyzing 454 data in biodiversity studies
CN117854594B (zh) 一种空间组学的测序定位匹配方法及装置、空间组学测序设备及介质
CN117672343B (zh) 测序饱和度评估方法及装置、设备及存储介质
Mabrouk et al. BIOINFTool: Bioinformatics and sequence data analysis in molecular biology using Matlab
CN113284552B (zh) 一种微单倍型的筛选方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant