CN110070908B - 一种二项树模型的模体搜索方法、装置、设备与存储介质 - Google Patents

一种二项树模型的模体搜索方法、装置、设备与存储介质 Download PDF

Info

Publication number
CN110070908B
CN110070908B CN201910181483.2A CN201910181483A CN110070908B CN 110070908 B CN110070908 B CN 110070908B CN 201910181483 A CN201910181483 A CN 201910181483A CN 110070908 B CN110070908 B CN 110070908B
Authority
CN
China
Prior art keywords
mer
motif
model
mers
dna sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910181483.2A
Other languages
English (en)
Other versions
CN110070908A (zh
Inventor
于强
张晓�
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xidian University
Original Assignee
Xidian University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xidian University filed Critical Xidian University
Priority to CN201910181483.2A priority Critical patent/CN110070908B/zh
Publication of CN110070908A publication Critical patent/CN110070908A/zh
Application granted granted Critical
Publication of CN110070908B publication Critical patent/CN110070908B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B10/00ICT specially adapted for evolutionary bioinformatics, e.g. phylogenetic tree construction or analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations

Landscapes

  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Chemical & Material Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Physiology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种二项树模型的模体搜索方法、装置、设备与存储介质,该方法包括:获取DNA序列大数据集、获取所述DNA序列大数据集的植入模体参数;根据所述DNA序列大数据集、所述植入模体参数,得到第一l‑mer集;根据所述第一l‑mer集,构建二项树模型;根据第一得分模型,从所述二项树模型中确定所述植入模体。本发明通过构建二项树模型的方法,不仅能够从DNA序列大数据集中搜索出了植入模体,同时在找出植入模体的运行时间数量级地快速于其它植入模体搜索方法。

Description

一种二项树模型的模体搜索方法、装置、设备与存储介质
技术领域
本发明属于DNA序列大数据处理领域,具体涉及一种二项树模型的模体搜索方法、装置、设备与存储介质。
背景技术
DNA是遗传信息的载体,遗传信息存储在DNA四种字符组成的序列中,生物体的生长发育本质就是遗传信息的传递和表达。作为遗传信息表达的第一步,转录是调控机制的中心。转录因子结合在DNA序列中的特定位点(长度约为5~20个碱基对),启动基因的转录和控制基因的转录效率。这些位点称为转录因子结合位点(Transcription FactorBinding Sites,简称TFBS),定位TFBS对研究基因的转录调控有着重要意义。
Quorum植入模体搜索(Quorum Protein Motifs Sequences,简称qPMS)是用于在DNA序列中定位TFBS的著名计算模型之一。常见的qPMS方法包括样本模式驱动的精确方法和后缀树的精确方法,其中,基于样本模式驱动的精确方法,例如PMSprune、StemFinder、qPMS7、TravStrR、PMS8和qPMS9,包含样本驱动和模式驱动两个阶段,样本驱动阶段是用选取一些参考DNA序列作为约束来生成尽可能少的候选模体,模式驱动阶段是对候选模体进行验证;基于后缀树的精确方法,例如Weeder,RISOTTO和FMotif,建立输入序列的后缀树索引来加速候选模体的验证。近似qPMS方法的目标是在较短的时间内找出最优或接近最优的模体,最典型的近似qPMS方法包括期望最大化、Gibbs采样和遗传方法等,对初始模体进行求精,在这些方法中,基于期望最大化的方法MEME-ChIP是最有名的模体发现方法之一。为了高效处理大数据集,又提出了一些基于新策略的模体发现方法,比如PairMotifChIP方法,PairMotifChIP方法是从输入的DNA序列中挖掘和合并相似的子串对来得出模体。
然而,qPMS方法和近似qPMS方法、PairMotifChIP方法存在共同的问题:计算问题,导致运行时间太长,在处理DNA序列大数据集时存在着瓶颈。
发明内容
为了解决现有技术中存在的上述问题,本发明提供了一种二项树模型的模体搜索方法、装置、设备与存储介质。
本发明实施例提供了一种二项树模型的模体搜索方法,该方法包括:
获取DNA序列大数据集、获取所述DNA序列大数据集的植入模体参数;
根据所述DNA序列大数据集、所述植入模体参数,得到第一l-mer集;
根据所述第一l-mer集,构建二项树模型;
根据第一得分模型,从所述二项树模型中确定所述植入模体。
在本发明的一个实施例中,根据所述DNA序列大数据集、所述植入模体参数,得到第一l-mer集,包括:
根据所述DNA序列大数据集、所述植入模体参数,得到第一k-mer集;
根据所述第一k-mer集,得到所述第一l-mer集,其中,所述第一l-mer集包括若干第一l-mer。
在本发明的一个实施例中,根据所述第一l-mer集,构建二项树模型,包括:
选取第一l-mer集中的第一l-mer作为第一二项树的根结点,依次根据第一二项树的第i层生成第一二项树的第i+1层,其中,0<i<d;
获取第二阈值,根据所述第二阈值裁剪所述第一二项树,得到所述二项树模型。
在本发明的一个实施例中,获取第二阈值,根据所述第二阈值裁剪所述第一二项树,得到所述二项树模型,包括:
根据所述植入模体参数,得到所述第二阈值;
判断所述第一二项树的第i+1层的结点的数量是否大于所述第二阈值,若所述第i+1层的结点的数量大于所述第二阈值,则根据第一得分模型、所述第二阈值裁剪所述第一二项树的第i+1层的结点,裁剪后的第一二项树的第i+1层的结点的数量为所述第二阈值,得到所述二项树模型,若所述第i+1层的结点的数量小于等于所述第二阈值,不需裁剪所述第一二项树的第i+1层的结点,得到所述二项树模型,其中,i的取值为0<i<d。
在本发明的一个实施例中,根据第一得分模型、所述第二阈值裁剪所述第一二项树的第i+1层的结点,并将裁剪后的第一二项树的第i+1层的结点的数量为所述第二阈值,得到所述二项树模型,包括:
根据所述DNA序列大数据集、所述植入模体参数,得到所述第一得分模型;
根据所述第一得分模型,得到所述第一二项树的第i+1层的结点的第一得分;
根据所述第一得分和所述第二阈值,裁剪所述第一二项树的第i+1层的结点,得到所述二项树模型。
在本发明的一个实施例中,根据所述DNA序列大数据集、所述植入模体参数,得到所述第一得分模型,包括:
从所述DNA序列大数据集中获取若干第三l-mer;
根据所述第三l-mer与所述第一l-mer之间的海明距离,得到第一排序队列;
根据所述第一排序队列,得到第四l-mer;
根据所述第四l-mer,得到第二排序队列;
根据所述第二排序队列、所述植入模体参数,得到所述第一得分模型。
在本发明的一个实施例中,根据第一得分模型,从所述二项树模型中确定所述植入模体,包括:
判断所述二项树模型第i+1层的结点是否是植入模体,若所述第i+1层的结点是植入模体,将所述结点存储于第一数组中,若所述二项树模型第i+1层的结点不是植入模体,则不需要存储于第一数组中,其中,0<i<d;
根据所述第一得分模型、所述第一数组,确定所述植入模体。
本发明的另一个实施例提供了一种二项树模型的模体搜索装置,该装置包括:
数据获取模块,用于获取DNA序列大数据集、获取所述DNA序列大数据集的所述植入模体参数;
数据处理模块,用于根据所述DNA序列大数据集、所述植入模体参数得到所述第一l-mer集;
数据模型构建模块,用于根据所述第一l-mer集,构建所述二项树模型;
数据确定模块,用于根据所述第一得分模型,从所述二项树模型中确定所述植入模体。
本发明的再一个实施例提供了一种二项树模型的模体搜索电子设备,所述电子设备包括处理器、通信接口、存储器和通信总线,其中,所述处理器、所述通信接口、所述存储器通过所述通信总线完成相互间的通信;
所述存储器,用于存放计算机程序;
所述处理器,用于执行所述存储器上所存放的所述计算机程序时,所述计算机程序被所述处理器执行实现上述任一项所述的方法。
本发明的又一个实施例提供了一种计算机可读存储介质,计算机程序被处理器执行时实现上述任一项所述的方法。
与现有技术相比,本发明的有益效果:
(1)本发明通过构建二项树模型的方法,不仅能够从DNA序列大数据集中搜索出了植入模体,同时在找出植入模体的运行时间数量级地快速于其它植入模体搜索方法。
(2)本发明对二项树模型的根结点第一l-mer集的获取中,首先通过选取高频k-mer生成第一k-mer集,从第一k-mer集获取数据生成第一l-mer集,在生成第一l-mer集过程中还进行了背景序列去冗余处理,进而减少了后续模体搜索的计算量,降低了APMS方法的运行时间。
(3)本发明对二项树模型的根结点第一l-mer集的获取中,根据二项树模型搜索到的植入模体对第一k-mer集进行去冗余处理,减少了后续通过第一k-mer集进行模体搜索的计算量,降低了APMS方法的运行时间。
附图说明
图1为本发明实施例提供的一种二项树模型的模体搜索方法的流程示意图;
图2为本发明实施例提供的传统二项树的植入模体搜索示意图;
图3为本发明实施例提供的一种二项树模型的模体搜索装置的结构示意图;
图4为本发明实施例提供的APMS、PairMotifChIP和MEME-ChIP方法在模拟数据集的不同DNA序列下的比较结果意图;
图5为本发明实施例提供的一种二项树模型的模体搜索方法在真实数据集的实验结果示意图。
具体实施方式
下面结合具体实施例对本发明做进一步详细的描述,但本发明的实施方式不限于此。
实施例一
请参见图1,图1为本发明实施例提供的一种二项树模型的模体搜索方法的流程示意图。本发明实施例提供了一种二项树模型的模体搜索方法,该方法包括如下步骤:
步骤1、获取DNA序列大数据集、获取DNA序列大数据集的植入模体参数。
步骤1.1、获取DNA序列大数据集。
具体地,本实施例中获取的DNA序列大数据集D,包括t条DNA序列,则DNA序列大数据集D可以表示为D={s1,s2,…st},其中,si表示第i条DNA序列;每条DNA序列包括n个字符。其中,每条DNA序列si是字符表Σ={A,C,G,T}上的一个字符串,即每条DNA序列由A、C、G、T组成长度为n的字符串。si[j]表示第i条DNA序列的第j个字符,si[j..j']表示第i条DNA序列中起始于位置j终止于位置j'的字符串。其中,i的取值为0~t-1,j的取值为0~n-1。
步骤1.2、获取DNA序列大数据集的植入模体参数。
具体地,本实施例中,植入模体(l,d)参数包括植入模体(l,d)的长度l、植入模体(l,d)的海明距离d、植入模体(l,d)搜索占比q、保守性参数g。
本实施例中,对于植入模体(l,d),基于二项树模型的APMS方法解决的问题是:给定t条长度为n的DNA序列大数据集D={s1,s2,…,st}和满足0<l<n、0≤d<l和0<q≤1的三个参数l、d和q,目标是找到一个l-mer(长为l的字符串)m,使得至少qt(q≤t)条DNA序列si中都含有一个与l-mer m存在至多d个位置差异(突变)的l-mer mi,该位置差异(突变)即定义为海明距离:dH(m,mi)=|{i:1≤i≤l,m[i]!=mi[i]}|。其中,l-mer m称为一个植入模体(l,d),DNA序列大数据集中的一个l-mer mi称为模体实例,DNA序列大数据集中不满足上述海明距离的序列称为背景序列。其中,基于二项树模型的APMS方法为本发明的一种二项树模型的模体搜索方法,本实施例中简称为APMS方法。
DNA序列大数据集有利于找出高质量植入模体(l,d),但是大多数现有的qPMS方法太耗时,并且不能在合理时间内完成qPMS的计算,找出植入模体(l,d)。而本实施例中APMS方法在qPMS方法的基础上,应对于DNA序列大数据集,不仅能找出植入模体(l,d),而且运行时间数量级地快速于现有模体搜索方法。
步骤2、根据DNA序列大数据集、植入模体参数,得到第一l-mer集,其中,第一l-mer集包括若干第一l-mer。
具体地,从DNA序列大数据集中获取第一l-mer,每个第一l-mer的包括l个字符,该长度l由植入模体(l,d)参数中的长度l决定,由第一l-mer构成第一l-mer集。
步骤3、根据第一l-mer集,构建二项树模型。
具体地,根据第一l-mer集,构建二项树模型,包括:
选取第一l-mer集中的第一l-mer作为第一二项树的根结点,依次根据第一二项树的第i层生成第一二项树的第i+1层,其中,i的取值为0<i<d;
获取第二阈值,根据第二阈值裁剪第一二项树,得到二项树模型。
具体地,请参见图2,图2为本发明实施例提供的传统二项树的植入模体搜索示意图。由图2可见,传统构建二项树的方法,二项树的根结点为第一l-mer集中的第一l-mer,二项树的第i层的内部结点或叶子结点是与根结点第一l-mer的海明距离为i的结点,i的取值范围为0<i≤d,该二项树的深度为d。每一层对应若干扩展结点,若干扩展结点是根结点第一l-mer的d邻居,它们与第一l-mer从根结点到内部结点或叶子结点的路径上标出的位置上存在着差异。这样,二项树中各个结点表示了与第一l-mer海明距离为i(0≤i≤d)的d邻居。其中,扩展结点均是长度为l的l-mer。
而本实施例构建的第一二项树,根结点为第一l-mer集中的第一l-mer,然后依次根据第一二项树的第i层生成第一二项树的第i+1层,其中,第一二项树的第i层的结点与在该结点生成的第一二项树的第i+1层结点的海明距离为1。
进一步地,获取第二阈值,根据第二阈值裁剪第一二项树,得到二项树模型,包括:
根据植入模体参数,得到第二阈值;
判断第一二项树的第i+1层的结点的数量是否大于第二阈值,若第i+1层的结点的数量大于第二阈值,根据第一得分模型、第二阈值裁剪第一二项树的第i+1层的结点,裁剪后的第一二项树的第i+1层的结点的数量为第二阈值,得到二项树模型,若第i+1层的结点的数量小于等于第二阈值,不需裁剪第一二项树的第i+1层的结点,得到二项树模型,其中,i的取值为0<i<d。
具体地,令第二阈值为Nmm(i),Nmm(i)表示二项树模型的第i(0<i<d)层结点的数量,为了避免丢失二项树中每一层的扩展结点,计算第二阈值Nmm(i)时,对第i+1层结点的数量乘以一个安全因子α(α≥1)。在APMS方法的实现中,根据经验本实施例中将α优选设置值为2,则第二阈值Nmm(i)设计如下:
Figure GDA0002965851530000091
例如,本实施例构建二项树模型时,已知植入模体长(l,d)度为5,海明距离d为3,其中,二项树模型根结点为第一l-mer,二项树模型第一层的结点为与根结点第一l-mer的海明距离为1的l-mer,则结点的数目共15个,因为植入模体(l,d)是长度为5的l-mer,每个位置都有3种突变情况,本实施例二项树模型第一层的结点取用根结点第一l-mer的所有突变情况,即二项树模型第一层的结点的数目是15;二项树模型第二层的结点是在二项树第一层的结点是植入模体(l,d)的基础上,对该二项树模型第一层的结点进行扩展,该结点与该结点的扩展结点的海明距离为1,并通过公式(1)确定二项树模型第二层结点的数目共C3 2*2=6;同理,二项树模型第三层结点是在二项树模型第二层的结点(结点数目为6)是植入模体(l,d)的基础上,对该二项树模型第二层的结点进行扩展,该结点与该结点的扩展结点的海明距离为1,并通过公式(1)确定二项树模型第三层结点的数目共C3 3*2=2。则最后构建的二项树模型是以第一l-mer为根结点,二项树第一层为15个结点,二项树第二层为6个结点,二项树第三层为2个结点的树型结构。
进一步地,根据第一得分模型、第二阈值裁剪第一二项树的第i+1层的结点,并将裁剪后的第一二项树的第i+1层的结点的数量为第二阈值,得到二项树模型,包括:
根据DNA序列大数据集、植入模体参数,得到第一得分模型;
根据第一得分模型,得到第一二项树的第i+1层的结点的第一得分;
根据第一得分和第二阈值,裁剪第一二项树的第i+1层的结点,得到二项树模型。
具体地,对于任意一个以第一l-mer构建的二项树模型中,传统方法评估二项树模型中每个结点y的第一得分,都是先计算该结点y在DNA序列大数据集D中t条DNA序列的得分,从每条DNA序列中找到一个与第一l-mer海明距离最小的l-mer的得分作为本条DNA序列的得分,再取前qt条DNA序列的得分,相加得到最终的得分作为该结点y的第一得分。选取这些结点y中第一得分最高的结点y作为植入模体(l,d)。
但传统的方法存在的缺点是每次计算结点y的第一得分的时候,都要重新去扫描一遍DNA序列大数据集D,计算成本大。
进一步地,根据DNA序列大数据集、植入模体参数,得到第一得分模型,包括:
从DNA序列大数据集D中获取若干第三l-mer;
根据第三l-mer与第一l-mer的海明距离,得到第一排序队列;
根据第一排序队列,得到第四l-mer;
根据第四l-mer,得到第二排序队列;
根据第二排序队列、植入模体参数,得到第一得分模型。
具体地,为了解决上述问题,本实施例在qPMS模型下,通过设计第一得分模型来评估构建的第一二项树的每个结点y的得分。其中,D'(y)是从DNA序列大数据集D中选出的用来计算二项树的每个结点y得分的含有qt条DNA序列的集合,s是某一条DNA序列中和结点y的海明距离最小的第三l-mer。一般来讲,第一二项树的结点y的得分越高,该结点y越接近于植入模体(l,d)。通常结点y的得分模型设计如下:
Figure GDA0002965851530000111
由公式(2)可见,本实施例最大的问题是如何快速从D'(y)中寻找出dis(y,s)中的最小的s。假定每条DNA序列中的有若干第三l-mer,每个第三l-mer包括l个字符,根据该第三l-mer与第一l-mer的海明距离从小到大升序排列,得到第一排队序列,根据第一排队序列,可以判断第一排队序列中比较靠前的第三l-mer极有可能是最终求得最小的s。通过第一排队序列再求取植入模体(l,d),大大降低了计算成本,基本上只需要扫描第一排队序列中的前几个第三l-mer就会找到本条DNA序列中得分最高的第三l-mer,确定出dis(y,s)中的最小的s。本实施例中,D'(y)集合可以表示为:
Figure GDA0002965851530000112
每条DNA序列中的若干第三l-mer与第一l-mer的海明距离从小到大升序排列,得到第一排队序列后,第三l-mer与第一l-mer海明距离最小的第三l-mer已经排在了第一排队序列最前面。获取每条DNA序列中排在第一排队序列最前面的第三l-mer,将该第三l-mer作为第四l-mer,第四l-mer包括l个字符,根据第四l-mer重新按第四l-mer与第一l-mer的海明距离从小到大升序排列,排列后得到第二排队序列,该第二排队序列中的某一行叫做Ci,则本实施例中,对于某一个第一l-mer m'和第一l-mer m'的一个d邻居y,存在Ci和Ci中一个位置j(1≤j≤|Ci|),如果dH(Ci[j],m')–dH(y,m')≥0,那么dH(Ci[j],m')–dH(y,m')是dH(y,Ci[j])的最小可能的值。因此,在第二排队序列的基础上扫描并计算第一得分的时候,在第二排队序列中某一行Ci,当遇到dH(Ci[j],m')–dH(y,m')≥dis(y,Ci[j])这种情况时,即可完成本行Ci扫描,当前行Ci的最小海明距离为dis(y,Ci[j]),将最小海明距离为dis(y,Ci[j])代入公式(2),得到本实施例的第一得分模型。并且开始下一行Ci+1行的扫描,直到第二排队序列中所有行扫描完毕,取第二排队序列中每一行Ci对应的得分scoren(y)的最高得分的结点y得分scoren(y)。
进一步地,根据第一得分模型,得到第一二项树的第i+1层的结点的第一得分,根据第一得分和第二阈值裁剪第一二项树的第i+1层的结点,得到二项树模型。
具体地,计算第一二项树的第i+1层的每个结点y在该层的得分scoren(y),通过根据上述公式(2)获取第一二项树的第i+1层的每个结点y得分scoren(y),并通过公式(1)获取第二阈值,将每个结点y的得分scoren(y)进行从小到大升序排序,从排序中选取前第二阈值个得分scoren(y)较高的结点y作为最终二项树模型的第i+1层的结点,即对第一二项树的第i+1层的结点进行了裁剪,保留了第二阈值个结点,得到了二项树模型。
可见,本实施例基于二项树模型的模体搜索方法,植入模体(l,d)是从根结点第一l-mer开始逐层地进行搜索。对于根结点第一l-mer,首先判断根结点第一l-mer是否为一个植入模体(l,d),并由与根结点第一l-mer的海明距离为1的所有结点作为第1层的扩展结点。对于第i(0<i<d)层,从该层的扩展结点中选取Nmm(i)个得分较高的结点作为该层结点,由分别与这Nmm(i)个选取出来的结点的海明距离为1的扩展结点作为第i+1层的结点。对于第d层,直接判断该层结点是否为一个植入模体(l,d)。在此搜索过程中,如果通过该二项树模型得到多个植入模体(l,d),则将得分最大的结点作为该第一l-mer构建的二项树植入模体(l,d)。
本实施例通过对第一l-mer集中的第一l-mer构建二项树模型,构建二项树模型中,选择从植入模体(l,d)的方向生成扩展结点,并在第一得分模型下计算第一得分,根据第一得分和第二阈值得到二项树模型最终的扩展结点,根据二项树模型获取植入模体(l,d),减少了植入模体(l,d)的计算量,降低了APMS方法的运行时间。
步骤4、根据第一得分模型,从二项树模型中确定植入模体。
本实施例中,根据第一得分模型,从二项树模型中确定植入模体,包括:
判断二项树模型第i+1层的结点是否是植入模体,若第i+1层的结点是植入模体,将结点存储于第一数组M中,若二项树模型第i+1层的结点不是植入模体,则不需要存储于第一数组M中,其中,0<i<d;
根据第一得分模型、第一数组M,确定植入模体。
进一步地,判断二项树模型第i+1层的结点是否是植入模体,若第i+1层的结点是植入模体,将结点存储于第一数组M中,若二项树模型第i+1层的结点不是植入模体,则不需要存储于第一数组M中。
具体地,判断二项树模型第i+1层的结点是否是植入模体,包括:
从植入模体参数获取海明距离d;
从DNA序列大数据集获取若干条DNA序列;
判断DNA序列中是否存在第二l-mer,若存在第二l-mer与二项树模型的第i+1层的结点之间的海明距离小于等于海明距离d,则二项树模型的第i+1层的结点是植入模体,若不存在第二l-mer与二项树模型的第i+1层的结点之间的海明距离小于等于海明距离d,则二项树模型的第i+1层的结点不是植入模体。其中,在判断二项树模型的第i+1层的结点是否为植入模体(l,d)时,是把这个结点代入到DNA序列大数据集中,判断是否至少存在qt条DNA序列里都包含一个第二l-mer与该结点的海明距离小于等于d,如果DNA序列中存在第二l-mer,则判定该结点是植入模体(l,d),否则该结点不是植入模体(l,d)。本实施例中,若干条DNA序列具体为至少qt条DNA序列。
可以看出,本实施例并未像传统方法一样,取用第一二项树的所有d邻居结点去搜索植入模体(l,d),而是判断二项树模型中的结点是否为植入模体(l,d),然后取用与植入模体(l,d)相似的结点去搜索,减少了模体搜索的计算量,降低了APMS方法的运行时间。
进一步地,根据第一得分模型、第一数组M,确定植入模体(l,d)。
具体地,第一数组M中的结点是从第一l-mer构建的二项树模型中选择出的接近植入模体(l,d)的结点集合,从第一数组M中选择得分最高的结点作为第一l-mer最可能的植入模体(l,d)。
进一步地,遍历第一l-mer集中每个第一l-mer,构建如上二项树模型,得到最终的植入模体(l,d)。
具体地,对第一l-mer集中每个第一l-mer构建如上二项树模型,按第一得分模型计算每个以第一l-mer为根结点的二项树模型的第一数组M,选择第一数组M中得分最高的结点作为该第一l-mer的植入模体(l,d),然后将第一l-mer集中的每个第一l-mer得到的植入模体(l,d)再按第一得分模型计算的得分重新进行从高到低的排序,输出该重新排序的结点集合作为最终的植入模体(l,d)。
请参见图3,图3为本发明实施例提供的一种二项树模型的模体搜索装置的结构示意图。本发明另一实施例提供了一种二项树模型的模体搜索装置,该装置包括:
数据获取模块,用于获取DNA序列大数据集、获取DNA序列大数据集的植入模体参数;
数据处理模块,用于根据DNA序列大数据集、植入模体参数得到第一l-mer集;
数据模型构建模块,用于根据第一l-mer集,构建二项树模型;
数据确定模块,用于根据第一得分模型,从二项树模型中确定植入模体。
本发明实施例提供的一种二项树模型的模体搜索装置,可以执行上述方法实施例,其实现原理和技术效果类似,在此不再赘述。
本发明再一实施例提供了一种二项树模型的模体搜索电子设备,该电子设备包括处理器、通信接口、存储器和通信总线,其中,处理器、通信接口、存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的计算机程序时,该计算机程序被处理器执行时实现以下步骤:
获取DNA序列大数据集、获取DNA序列大数据集的植入模体参数;
根据DNA序列大数据集、植入模体参数,得到第一l-mer集;
根据第一l-mer集,构建二项树模型;
根据第一得分模型,从二项树模型中确定植入模体。
本发明实施例提供了一种二项树模型的模体搜索电子设备,可以执行上述方法实施例,其实现原理和技术效果类似,在此不再赘述。
本发明又一实施例提供了一种计算机可读存储介质,其上存储有计算机程序,上述计算机程序被处理器执行时实现以下步骤:
获取DNA序列大数据集、获取DNA序列大数据集的植入模体参数;
根据DNA序列大数据集、植入模体参数,得到第一l-mer集;
根据第一l-mer集,构建二项树模型;
根据第一得分模型,从二项树模型中确定植入模体。
本发明实施例提供了一种计算机可读存储介质,可以执行上述方法实施例,其实现原理和技术效果类似,在此不再赘述。
实施例二
请再参见图1,本实施例在上述实施例的步骤基础上,对上述实施例中的步骤2采取如下步骤处理,但本发明步骤2的实现并不局限于本实施例。上述实施例中的步骤2的步骤处理:
具体地,本实施例根据DNA序列大数据集、植入模体参数,得到第一l-mer集,包括:
根据DNA序列大数据集、植入模体参数,得到第一k-mer集;
根据第一k-mer集,得到第一l-mer集。
步骤2.1、根据DNA序列大数据集、植入模体(l,d)参数得到第一k-mer集,第一k-mer集包括若干k-mer,每个k-mer包括k个字符。
具体地,根据DNA序列大数据集、植入模体(l,d)参数得到第一k-mer集,包括:
获取长度k,根据长度k从DNA序列大数据集中获取若干k-mer;
获取第一阈值
Figure GDA0002965851530000161
根据第一阈值
Figure GDA0002965851530000162
k-mer得到第一k-mer集。
进一步地,获取长度k,包括:
根据DNA序列大数据集,得到第一期望值;
根据DNA序列大数据集、植入模体(l,d)参数,得到第二期望值;
根据第一期望值、第二期望值得到长度k。
具体地,本实施例采用概率分析法来确定合适的k值,使得其能够较好地区分背景序列和模体实例中的k-mer。令fr(k)为第一期望值,第一期望值fr(k)表示任意背景序列中的k-mer在DNA序列大数据集D中出现频次的期望值;令fm(k)为第二期望值,第二期望值fm(k)表示任意模体实例中的k-mer在DNA序列大数据集D中出现频次的期望值。其中,第二期望值fm(k)与第一期望值fr(k)的比值越大,则背景序列中和模体实例中的k-mer从出现频次的角度看,越具备可区分性。因此,本实施例采用如下公式来确定k的值:
Figure GDA0002965851530000171
其中,kmin表示k的最小取值,ε是用于应对第一期望值fr(k)小于1的情况的因子。kmin优选为5,因为k值很小的时候,难以区分背景序列和模体实例中的k-mer。ε根据经验设定为1。
本实施例中,根据DNA序列大数据集获取公式(4)中的第一期望值fr(k),具体设计如下:
Figure GDA0002965851530000172
假定搜索的植入模体(l,d)为m,存在模体实例m1和模体实例m2,在DNA序列大数据集D中,对于一个任意模体实例m1中任意起始位置的一个k-mer x1和另一个任意模体实例m2中相同起始位置的一个k-mer x2,令pk表示k-mer x1和k-mer x2相等的概率,则公式(4)中的第二期望值fm(k)设计如下:
Figure GDA0002965851530000173
对于公式(6)中,pk表示k-mer x1和k-mer x2相等的概率,根据全概率公式,pk设计如下:
Figure GDA0002965851530000174
其中,Pri表示植入模体(l,d)m与模体实例m1的海明距离dH(m,m1)=i(0≤i≤d)的概率,Prj分别植入模体(l,d)m与模体实例m2的海明距离dH(m,m2)=j(0≤j≤d)的概率,Pri设计如下:
Figure GDA0002965851530000181
其中,g表示保守性参数,取值范围为0≤g≤1。
同理,Prj设计如下:
Figure GDA0002965851530000182
而pij表示在dH(m,m1)=i和dH(m,m2)=j的条件下,k-mer x1和k-mer x2相等的概率,pij设计如下:
Figure GDA0002965851530000183
由公式(10)可见,pij是在a取0到min{i,j}的范围内对三个因子相乘的积进行累加。其中,第一个因子表示模体实例m1中一个任意k-mer x1中有a个突变的概率;第二个因子表示k-mer x2和k-mer x1突变位置相同的概率;第三个因子表示在k-mer x2和k-mer x1突变位置相同的情况下,突变成的碱基完全一样的概率。
由上述公式(5)~(6)计算得到第一期望值fr(k)和第二期望值fm(k),k的取值范围为0~l,再根据公式(4)计算第二期望值fm(k)与第一期望值fr(k)的比值中最大的值作为本实施例第一k-mer集中每个k-mer的长度k。
从DNA序列大数据集D中,获取若干长度为k的k-mer。
进一步地,获取第一阈值
Figure GDA0002965851530000184
包括:
从DNA序列大数据集中获取DNA序列的数量;
根据第二期望值、DNA序列的数量得到第一阈值
Figure GDA0002965851530000191
具体地,本实施例并未从DNA序列大数据集D中获取所有长度为k的k-mer,而是取用了在DNA序列大数据集D中出现频次大于等于第一阈值
Figure GDA0002965851530000192
的k-mer作为高频k-mer,生成第一k-mer集。如上所述,fm(k)表示一个任意的模体实例中的一个任意k-mer在DNA序列大数据集D中出现频次的期望,如果将
Figure GDA0002965851530000193
直接设定为fm(k),那么可能会获取多个对应于同一模体的高频k-mer。因此,第一阈值
Figure GDA0002965851530000194
的设计是在fm(k)的基础上加了一个与DNA序列数量t成正比的变量,以避免得到过多冗余的高频k-mer。本实施例第一阈值
Figure GDA0002965851530000195
的设计如下:
Figure GDA0002965851530000196
进一步地,根据公式(11)得到的第一阈值
Figure GDA0002965851530000197
从每条DNA序列中获取满足大于等于该第一阈值的k-mer作为高频k-mer,由高频k-mer生成第一k-mer集。
本实施例通过从DNA序列大数据集中获取高频k-mer,使用高频k-mer作为后续模体搜索中的数据,从而减少了DNA序列大数据集的植入模体(l,d)搜索计算量,降低了APMS方法的运行时间。
步骤2.2、根据第一k-mer集,得到第一l-mer集,第一l-mer集包括若干第一l-mer,每个第一l-mer包括l个字符。
具体地,根据第一k-mer集,得到第一l-mer集,包括:
从第一k-mer集中获取k-mer;
对DNA序列大数据集中的每个k-mer进行扩展处理,得到扩展的第一k-mer集,扩展的第一k-mer集中每个扩展的k-mer长度为2l-k;
根据第二得分模型对扩展的第一k-mer集进行去冗余处理,得到扩展的第二k-mer集;
对扩展的第二k-mer集进行截取处理,得到第一l-mer;
根据第一l-mer,得到第一l-mer集。
进一步地,对DNA序列大数据集中的每个k-mer进行扩展处理,得到扩展的第一k-mer集,扩展的第一k-mer集中的每个扩展的k-mer长度为2l-k。
具体地,通过第一k-mer集搜索植入模体(l,d),首先从第一k-mer集中获取k-merx,因为k-mer x在植入模体(l,d)中的起始位置未知,因此,本实施例在DNA序列大数据集D中找到k-mer x后,将k-mer x在DNA序列大数据集D中向左和向右分别扩展l–k个字符,扩展的k-mer x变成长度为2l–k的字符串。通过这样处理,扩展的k-mer x在DNA序列大数据集D中的模体实例能够覆盖植入模体(l,d)。
例如,假设si[j..j+k–1]是k-mer x在DNA序列大数据集D中的一个精确出现,那么由此得到的k-mer x在DNA序列大数据集D中扩展的k-mer x的模体实例为si[j–l+k..j+l–1]。
进一步地,对DNA序列大数据集D中的每个k-mer x进行扩展处理,得到扩展的第一k-mer集。
进一步地,根据第二得分模型对扩展的第一k-mer集进行去冗余处理,得到扩展的第二k-mer集,扩展的第二k-mer集中的每个扩展的k-mer长度为2l-k。
具体地,如果扩展的第一k-mer集中的扩展的k-mer x在DNA序列大数据集D中不含有模体实例,即它完全由背景序列组成,这样扩展的k-mer x将影响第一l-mer集的质量。因此,本实施例在生成第一l-mer集之前,根据设计的第二得分模型scorei(y),对扩展的k-merx进行评估,评估扩展的k-mer x是否由背景序列组成。由上述可知,因为第一期望值fr(k)表示一个任意的背景序列中的k-mer在DNA序列大数据集D中出现频次的期望,所以本实施例,第二得分模型scorei(y)设计如下:
Figure GDA0002965851530000211
由公式(12)可见,第二得分模型scorei(y)的第二得分越小,扩展的k-mer x越可能是由背景序列组成,从而从扩展的第一k-mer集中滤除第二得分最小的扩展的k-mer x,得到扩展的第二k-mer集。
本实施例通过设计第二得分模型,从扩展的第一k-mer集中滤除可能是背景序列的扩展的k-mer x,减少了后续植入模体(l,d)搜索的计算量,降低了APMS方法的运行时间。
进一步地,对扩展的第二k-mer集进行截取处理,得到第一l-mer,包括:
根据扩展的第二k-mer集得到比对序列;
根据预设规则对比对序列进行截取处理,得到第一l-mer。
具体地,本实施例对DNA序列大数据集D中的扩展的第一k-mer集去冗余处理后,剩余扩展的k-mer形成扩展的第二k-mer集,将扩展的第二k-mer集中扩展的k-mer形成长度为2l-k的比对序列align,r(align[i])表示比对序列align中第i列的信息量,然后根据预设规则进行截取处理,得到第一l-mer。其中,信息量采用的是位置权值矩阵(PositionWeight Matrices,简称PWM),位置权值矩阵中每一列为扩展的k-mer中四个字符的占比,四个字符分别为A、C、G、T。
其中,本实施例中的预设规则为将扩展的第二k-mer集中的扩展k-mer右对齐形成比对序列align后,根据比对序列align中每列r(align[i])的信息量,首先获取长度为2l-k的一致序列,然后反复对比去除一致序列中左右两端信息量较小的列r(align[i]),直到得到一个长度为l的一致序列,该长度为l的一致序列即为第一l-mer。
例如,本实施例中,若植入模体(l,d)长度l为6,k-mer中的长度k为3,其中,DNA序列大数据集包括6个扩展的k-mer,分别为{AGATTGCAG},{CGATTGCAG},{CGATTGCAC},{CGCTTGCAG},{CGCTTGCAG},{CTATTGTAG},首先将该6个扩展的k-mer右对齐排列:
{AGATTGCAG,
CGATTGCAG,
CGATTGCAC,
CGCTTGCAC,
CGCTTGCAG,
CTATTGTAG},形成比对序列align,其中,比对序列align的每一列r(align[i])的信息量为:
{A:0.17,0.00,0.67,0.17,0.00,0.17,0.00,1.00,0.00
C:0.83,0.00,0.33,0.00,0.00,0.00,0.83,0.00,0.33
G:0.00,0.83,0.00,0.00,0.00,0.66,0.00,0.00,0.67
T:0.00,0.17,0.00,083,1.00,0.17,0.17,0.00,0.00},然后根据每一列r(align[i])信息量,得到一致序列,该一致序列为{CGATTGCAG}。从左边开始,观察一致序列{CGATTGCAG}的每一列字符A、C、G、T的占比,左边第一列中C的占比最大,左边选择字符C,然后右边第一列中G的占比最大,右边选择字符G,对比左边第一列字符C的占比和右边第一列字符G的占比,第一列字符C的占比大于第一列字符G的占比,则保留左边第一列字符C,删除右边第一列所有字符;接着,左边第一列选择保留的字符C,然后右边第一列中A的占比最大,右边选择字符A,对比左边第一列字符C的占比和右边第一列字符A的占比,第一列字符C的占比小于第一列字符A的占比,则保留右边第一列字符A,删除左边第一列所有字符;以此类推,直到一致序列截取为长度l的l-mer,该l-mer为{ATTGCA}且该l-mer为第一l-mer。
进一步地,遍历第一k-mer集中的k-mer,找出每个k-mer在DNA序列大数据集中的第一l-mer,形成第一l-mer集。
进一步地,得到第一l-mer集后,按照上述实施例步骤3对第一l-mer集进行处理:对第一l-mer集中的第一l-mer构建二项树模型,得到每个第一l-mer对应的植入模体(l,d)。
进一步地,根据每个第一l-mer对应的植入模体(l,d)对第一k-mer集进行去冗余处理,得到第二k-mer集,包括:
从DNA序列大数据集中获取第五l-mer;
获取第一l-mer对应的植入模体(l,d)的k-mer与第五l-mer的k-mer之间的第三期望值;
根据第三期望值判断第一k-mer集中的k-mer是否为冗余,当第一k-mer集中的k-mer与第一l-mer对应的植入模体(l,d)中的k-mer的海明距离d小于等于第三期望值,第一k-mer集中的k-mer为冗余,将k-mer从第一k-mer集中删除,得到第二k-mer集,否则将k-mer保留在第一k-mer集,得到第二k-mer集。
具体地,对于第一k-mer集,第一k-mer集中可能存在冗余的k-mer,k-mer是第一l-mer对应的植入模体(l,d)中同一起始位置的子串,或者k-mer与第一l-mer对应的植入模体(l,d)存在着长为k'(kmin≤k'<k)的交叠。基于此,本实施例在每次通过第一k-mer集中的k-mer获取第一l-mer时,首先用第一l-mer构建二项树模型时获取的植入模体(l,d)来判别第一k-mer集中的一个k-mer是否为一个冗余的k-mer,如果该k-mer为冗余,将k-mer从第一k-mer集中删除,得到第二k-mer集;如果该k-mer为不冗余,将k-mer保留在第一k-mer集,得到第二k-mer集。
令第三期望值e(k)表示一个任意模体实例中的一个任意起始位置的k-mer与植入模体(l,d)中相同起始位置的k-mer的海明距离的期望值。本实施例从DNA序列大数据集D中获取第五l-mer,将第五l-mer作为第三期望值e(k)计算的模体实例,二项树模型获取的植入模体(l,d)作为第三期望值e(k)计算的植入模体(l,d)。e(l)基于全概率公式计算而得,任取第五l-mer与植入模体(l,d)之间的一个突变位置,假设这个突变随机地出现于l个位置中的一个位置上,那么第三期望值e(k)等于e(l)乘以k/l。本实施例第三期望值e(k)设计如下:
Figure GDA0002965851530000241
本实施例中,对于第一k-mer集中的k-mer x是一个冗余的k-mer定义为:植入模体(l,d)中存在一个k-mer z使得dH(z,x)≤e(k),即第一k-mer集中的k-mer x与植入模体(l,d)中的k-mer z的海明距离d小于等于第三期望值e(k),则第一k-mer集中的k-mer为冗余,将k-mer从第一k-mer集中删除,不需要对该k-mer进行如上植入模体(l,d)搜索流程,否则将k-mer保留在第一k-mer集,进行如上植入模体(l,d)搜索流程。其中,对于第一k-mer集中的k-mer x是一个冗余的k-mer还可以定义为:令pf(x,k')和sf(x,k')分别表示一个字符串k-mer x的长度为k'的前缀和长度为k'的后缀,存在kmin≤k'<k使得dH(pf(z,k'),sf(x,k'))≤e(k')或者dH(sf(z,k'),pf(x,k'))≤e(k')。
本实施例中,通过设计第三期望值e(k),对第一k-mer集进行去冗余处理,减少了后续植入模体(l,d)的计算量,降低了APMS方法的运行时间。
进一步地,根据第二k-mer集,处理第一l-mer集。
具体地,通过上述对第一k-mer集进行去冗余处理后,得到了第二k-mer集,用第二k-mer集更新第一k-mer集。因为将冗余的k-mer从第一k-mer集中删除后,不需从第一k-mer集获取该冗余的k-mer,进而获取第一l-mer操作,所以本实施例APMS方法每一次从第一k-mer集获取k-mer,通过该k-mer获取第一l-mer,通过第一l-mer再构建二项树模型,通过二项树模型获取植入模体(l,d),然后通过该植入模体(l,d)从第一k-mer将冗余的k-mer去除,得到第二k-mer集,用第二k-mer集更新第一k-mer集,进而从更新后的第一k-mer集获取k-mer,通过该k-mer获取第一l-mer,进行如上反复的流程。对于第一l-mer集中的第一l-mer,每个第一l-mer构建二项树模型,计算二项树中每个结点的第一得分,将二项树中第一得分最高的结点作为该第一l-mer对应的植入模体(l,d),每个第一l-mer集中的第一l-mer对应存在一个植入模体(l,d),对所有的植入模体(l,d)按第一得分的高低顺序进行排列,得到最终的植入模体(l,d),这样极大节省了植入模体(l,d)搜索的计算量。
为了说明本发明的优势,本实施例分别在模拟数据和真实数据上验证本发明APMS方法的优势。模拟数据主要用于通过与现有方法在运行时间的比较来测试APMS方法的效率,同时验证APMS方法能否找到植入模体(l,d);真实数据主要用于验证APMS方法的有效性,验证APMS方法能否在现实世界的生物数据中高效地找到真实的模体。
其中,在模拟数据上,为了进行综合性测试,本实施例中生成了三组模拟数据集,在三组模拟数据集下与现有方法相比,验证本方法APMS的优势。其中,选取比较的现有方法包括FMotif、PairMotifChIP和MEME-ChIP:FMotif是应对DNA序列大数据集的效率最高的精确PMS方法;PairMotifChIP是最新提出的能够应对DNA序列大数据集的近似PMS方法;MEME-ChIP是最有名的模体发现方法之一。
本实施例采用性能系数mPC来衡量预测模体(l,d)mp与植入模体(l,d)mk的相似性。其中,lenoverlap(mp,mk)表示预测模体(l,d)mp与植入模体(l,d)mk交叠的字符个数,mPC计算如下:
Figure GDA0002965851530000261
(1)第一组模拟数据集用于在具有不同植入模体(l,d)的数据上进行验证测试,其中,在DNA序列大数据集中,DNA序列条数t=3000,每条DNA序列的字符数n=200,第一组模拟数据机测试中植入模体(l,d)搜索占比为q=0.5,即第一组模拟数据集测试中需要的DNA序列的条数为3000*0.5=1500,保守性参数g=0.5,则在不同l和d取值下,比较APMS、FMotif、PairMotifChIP和MEME-ChIP方法。
表1、第一组模拟数据集上的比较结果
Figure GDA0002965851530000262
Figure GDA0002965851530000271
表1中,time表示运行时间,s表示秒,m表示分钟,h表示小时,N表示运行时间超过48小时而作不出预测。由表1可见,给定t,n,q,g,在不同l和d的取值下,APMS方法运行时间均比APMS、FMotif、PairMotifChIP和MEME-ChIP方法快。在l和d取值比较大的时候,FMotif方法存在运行时间超过48小时而作不出预测的情况;PairMotifChIP和MEME-ChIP方法在l和d有所增加时,运行时间相对比较稳定,虽然APMS方法的运行时间随着l和d增加而有所增加,但仍然是s级别,比PairMotifChIP方法运行时间快,比MEME-ChIP方法运行时间更快。
(2)第二组模拟数据集用于在模体信号强度不同的数据上进行验证测试:其中,在DNA序列大数据集中,DNA序列条数t=3000,每条DNA序列的字符数n=200,植入模体(l,d)=(15,5),在第二组模拟数据测试中植入模体(l,d)搜索占比q和保守性参数g在不同取值下,比较APMS、FMotif、PairMotifChIP和MEME-ChIP方法。其中,模体信号强度取决于q和g,q取值小和g取值大时,模体信号强度小;q取值大和g取值小时,模体信号强度大。
表2、第二组模拟数据集上的比较结果
Figure GDA0002965851530000272
Figure GDA0002965851530000281
表2中,time表示运行时间,s表示秒,m表示分钟,h表示小时,N表示运行时间超过48小时而作不出预测。由表2可见,给定t,n,l,d,在不同q和g的取值下,APMS方法运行时间均比APMS、FMotif、PairMotifChIP和MEME-ChIP方法快。在模体信号强度比较小时,FMotif方法存在运行时间超过48小时而作不出预测的情况;APMS、PairMotifChIP、MEME-ChIP方法运行时间相对比较稳定,APMS比PairMotifChIP方法运行时间快,比MEME-ChIP方法运行时间更快。
(3)第三组模拟数据集用于在不同规模的DNA序列大数据集上进行验证测试:每条DNA序列的字符数n=200,植入模体(l,d)=(15,5),在第三组模拟数据测试中植入模体(l,d)搜索占比q=0.5和保守性参数g=0.5,则在DNA序列条数t在不同取值下,比较APMS、FMotif、PairMotifChIP和MEME-ChIP方法。
表3、第三组模拟数据集上的比较结果
Figure GDA0002965851530000282
Figure GDA0002965851530000291
表3中,time表示运行时间,s表示秒,m表示分钟,h表示小时,N表示运行时间超过48小时而作不出预测。由表3可见,给定n,q,g,l,d,在不同t的取值下,APMS方法运行时间均比APMS、FMotif、PairMotifChIP和MEME-ChIP方法快。在DNA序列大数据集的数据比较大的时候,MEME-ChIP方法存在运行时间超过48小时而作不出预测的情况,PairMotifChIP方法运行时间增长的级别大于APMS方法。其中,因为FMotif限定处理的最大DNA序列数量集是3000,所以FMotif没有参与第三组数据集上的比较。
由表1、表2和表3可见,APMS方法在所有情况下都可以在最短的时间内完成植入模体(l,d)的预测,数量级地快速于FMotif、PairMotifChIP和MEME-ChIP方法。其中,对于所有方法,性能系数mPC的值均为1,说明它们都能精准地找出植入模体(l,d),主要是原因三组模拟数据集中含有的模体信息量相当充足,即使在模体信号强度很小的时候,仍然可以精准地找出植入模体(l,d)。
请参见图4,图4为本发明实施例提供的APMS、PairMotifChIP和MEME-ChIP方法在模拟数据的不同DNA序列下的比较结果意图。可见,APMS方法的运行时间随着DNA序列数量集的增大而大约呈线性增长,而PairMotifChIP的运行时间随着DNA序列数量集的增大大约呈平方级增长,而MEME-ChIP方法在DNA序列条数为12000已经存在运行时间超过48小时而作不出预测的情况。
其中,在真实数据上,本实施例采用老鼠胚胎干细胞(Mouse Embryonic StemCell,简称mESC)的ChIP-seq数据,该ChIP-seq数据是最为广泛地被用于验证模体搜索方法有效性的数据。mESC数据包含12组数据集(c-Myc、CTCF、Esrrb、Klf4、Nanog、n-Myc、Oct4、Smad1、Sox2、STAT3、Tcfcp2I1、Zfx),其中每一组数据集由ChIP-ed转录因子来命名。在APMS方法搜索模体时,对12组不同的数据集采用统一的植入模体(l,d)搜索参数,植入模体(l,d)=(13,4),植入模体(l,d)搜索占比q=0.3,保守性参数g=0.5,对于每个数据集,取前3000条DNA序列作为APMS方法的输入。
请参见图5,图5为本发明实施例提供的一种高效求解DNA序列大数据集植入模体搜索方法在真实数据的实验结果示意图。由图可见,对于每个数据集,图中展示了含有的DNA序列数量、运行时间、序列logo形式的公布模体和预测模体,其中,序列logo中上边的为公布模体,下边的为预测模体。对于每个数据集,通过比较预测模体和公布模体,可以发现APMS方法可以在12组数据集上找到与公布模体相似的预测模体;而且在所有数据集上的运行时间都在6分钟之内。
可见,APMS方法可以用于高效且有效地处理真实的DNA序列大数据集。
综上所述,基于二项树模型的APMS方法不管在模拟数据集,还是真实数据集,都可以高效且有效地处理DNA序列大数据集,APMS方法不仅能够成功地找出植入模体(l,d)或真实的模体,而且比现有植入模体(l,d)搜索方法运行快速得多。在模拟数据集中,可见,APMS方法运行时间随着DNA序列数据集规模的增大呈线性增长。
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (8)

1.一种二项树模型的模体搜索方法,其特征在于,包括:
获取DNA序列大数据集、获取所述DNA序列大数据集的植入模体参数,其中,所述DNA序列大数据集包括若干条DNA序列,每条DNA序列包括若干字符,所述植入模体参数包括植入模体的长度l、植入模体的海明距离d、植入模体的搜索占比q、保守性参数g
根据所述DNA序列大数据集、所述植入模体参数,得到第一l-mer集,包括:
根据所述DNA序列大数据集、所述植入模体参数,得到第一k-mer集;
根据所述第一k-mer集,得到所述第一l-mer集,其中,所述第一k-mer集包括若干第一k-mer,每个第一k-mer包括k个字符,所述第一l-mer集包括若干第一l-mer,每个第一l-mer包括l个字符;
根据所述第一l-mer集,构建二项树模型;
根据第一得分模型,从所述二项树模型中确定所述植入模体,其中,所述第一得分模型表示二项树模型中每个结点的得分,根据所述DNA序列大数据集、所述植入模体参数得到所述第一得分模型,包括:
从所述DNA序列大数据集中获取若干第三l-mer,每个第三l-mer包括l个字符;
根据所述第三l-mer与所述第一l-mer之间的海明距离,得到第一排序队列;
根据所述第一排序队列,得到第四l-mer,所述第四l-mer包括l个字符;
根据所述第四l-mer,得到第二排序队列;
根据所述第二排序队列、所述植入模体参数,得到所述第一得分模型。
2.根据权利要求1所述的方法,其特征在于,根据所述第一l-mer集,构建二项树模型,包括:
选取第一l-mer集中的第一l-mer作为第一二项树的根结点,依次根据第一二项树的第i层生成第一二项树的第i+1层,其中,0 <i<d
获取第二阈值,根据所述第二阈值裁剪所述第一二项树,得到所述二项树模型,其中,所述第二阈值表示二项树模型的第i(0<i<d)层结点的数量。
3.根据权利要求2所述的方法,其特征在于,获取第二阈值,根据所述第二阈值裁剪所述第一二项树,得到所述二项树模型,包括:
根据所述植入模体参数,得到所述第二阈值;
判断所述第一二项树的第i+1层的结点的数量是否大于所述第二阈值,若所述第i+1层的结点的数量大于所述第二阈值,则根据第一得分模型、所述第二阈值裁剪所述第一二项树的第i+1层的结点,裁剪后的第一二项树的第i+1层的结点的数量为所述第二阈值,得到所述二项树模型,若所述第i+1层的结点的数量小于等于所述第二阈值,不需裁剪所述第一二项树的第i+1层的结点,得到所述二项树模型,其中,i的取值为0 <i<d,其中,d表示所述植入模体的海明距离d
4.根据权利要求3所述的方法,其特征在于,根据第一得分模型、所述第二阈值裁剪所述第一二项树的第i+1层的结点,并将裁剪后的第一二项树的第i+1层的结点的数量为所述第二阈值,得到所述二项树模型,包括:
根据所述第一得分模型,得到所述第一二项树的第i+1层的结点的第一得分;
根据所述第一得分和所述第二阈值,裁剪所述第一二项树的第i+1层的结点,得到所述二项树模型。
5.根据权利要求4所述的方法,其特征在于,根据第一得分模型,从所述二项树模型中确定所述植入模体,包括:
判断所述二项树模型第i+1层的结点是否是植入模体,若所述第i+1层的结点是植入模体,将所述结点存储于第一数组中,若所述二项树模型第i+1层的结点不是植入模体,则不需要存储于第一数组中,其中,0 <i<d
根据所述第一得分模型、所述第一数组,确定所述植入模体。
6.一种二项树模型的模体搜索装置,其特征在于,所述装置包括:
数据获取模块,用于获取DNA序列大数据集、获取所述DNA序列大数据集的植入模体参数,其中,所述DNA序列大数据集包括若干条DNA序列,每条DNA序列包括若干字符,所述植入模体参数包括植入模体的长度l、植入模体的海明距离d、植入模体的搜索占比q、保守性参数g
数据处理模块,用于根据所述DNA序列大数据集、所述植入模体参数得到第一l-mer集,包括:
根据所述DNA序列大数据集、所述植入模体参数,得到第一k-mer集;
根据所述第一k-mer集,得到所述第一l-mer集,其中,所述第一k-mer集包括若干第一k-mer,每个第一k-mer包括k个字符,所述第一l-mer集包括若干第一l-mer,每个第一l-mer包括l个字符;
数据模型构建模块,用于根据所述第一l-mer集,构建二项树模型;
数据确定模块,用于根据第一得分模型,从所述二项树模型中确定所述植入模体,其中,所述第一得分模型表示二项树模型中每个结点的得分,根据所述DNA序列大数据集、所述植入模体参数得到所述第一得分模型,包括:
从所述DNA序列大数据集中获取若干第三l-mer,每个第三l-mer包括l个字符;
根据所述第三l-mer与所述第一l-mer之间的海明距离,得到第一排序队列;
根据所述第一排序队列,得到第四l-mer,所述第四l-mer包括l个字符;
根据所述第四l-mer,得到第二排序队列;
根据所述第二排序队列、所述植入模体参数,得到所述第一得分模型。
7.一种二项树模型的模体搜索电子设备,其特征在于,所述电子设备包括处理器、通信接口、存储器和通信总线,其中,所述处理器、所述通信接口、所述存储器通过所述通信总线完成相互间的通信;
所述存储器,用于存放计算机程序;
所述处理器,用于执行所述存储器上所存放的所述计算机程序时,所述计算机程序被所述处理器执行实现权利要求1~5任一所述的方法。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1~5中任一项所述的方法。
CN201910181483.2A 2019-03-11 2019-03-11 一种二项树模型的模体搜索方法、装置、设备与存储介质 Active CN110070908B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910181483.2A CN110070908B (zh) 2019-03-11 2019-03-11 一种二项树模型的模体搜索方法、装置、设备与存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910181483.2A CN110070908B (zh) 2019-03-11 2019-03-11 一种二项树模型的模体搜索方法、装置、设备与存储介质

Publications (2)

Publication Number Publication Date
CN110070908A CN110070908A (zh) 2019-07-30
CN110070908B true CN110070908B (zh) 2021-08-13

Family

ID=67366141

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910181483.2A Active CN110070908B (zh) 2019-03-11 2019-03-11 一种二项树模型的模体搜索方法、装置、设备与存储介质

Country Status (1)

Country Link
CN (1) CN110070908B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111933215B (zh) * 2020-06-08 2024-04-05 西安电子科技大学 一种转录因子结合位点搜索方法、系统、存储介质、终端

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105046107A (zh) * 2015-08-28 2015-11-11 东北大学 一种限定性模体的发现方法
CN108052797A (zh) * 2017-12-28 2018-05-18 上海嘉因生物科技有限公司 应用于组织样本中染色体上转录因子结合位点的检测方法
CN108733977A (zh) * 2018-05-31 2018-11-02 中国人民解放军军事科学院军事医学研究院 真核生物保守转录因子结合位点聚集区tfcr的识别方法与应用

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9946835B2 (en) * 2011-08-22 2018-04-17 The Board Of Trustees Of The Leland Stanford Junior University Method and system for the use of biomarkers for regulatory dysfunction in disease
US20170145501A1 (en) * 2015-11-20 2017-05-25 Lasse Folkersen Apparatus and methods of using of biomarkers for predicting tnf-inhibitor response

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105046107A (zh) * 2015-08-28 2015-11-11 东北大学 一种限定性模体的发现方法
CN108052797A (zh) * 2017-12-28 2018-05-18 上海嘉因生物科技有限公司 应用于组织样本中染色体上转录因子结合位点的检测方法
CN108733977A (zh) * 2018-05-31 2018-11-02 中国人民解放军军事科学院军事医学研究院 真核生物保守转录因子结合位点聚集区tfcr的识别方法与应用

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
An Efficient Exact Algorithm for the Motif Stem Search Problem over Large Alphabets;Qiang Yu等;《IEEE/ACM Transactions on Computational Biology and Bioinformatics》;20150430;384-397 *
qPMS9: An Efficient Algorithm for Quorum Planted Motif Search;Marius Nicolae等;《SCIENTIFIC REPORTS》;20150115;1-8 *
植入(l,d)模体发现若干算法的实现与比较;胡宏涛等;《智能计算机与应用》;20190228;211-213 *

Also Published As

Publication number Publication date
CN110070908A (zh) 2019-07-30

Similar Documents

Publication Publication Date Title
CN110070909B (zh) 一种基于深度学习的融合多特征的蛋白质功能预测方法
CN111192631A (zh) 用于构建用于预测蛋白质-rna相互作用结合位点模型的方法和系统
CN112232413B (zh) 基于图神经网络与谱聚类的高维数据特征选择方法
CN112270958B (zh) 一种基于分层深度学习miRNA-lncRNA互作关系的预测方法
CN111599409B (zh) 基于MapReduce并行的circRNA识别方法
CN112489723B (zh) 基于局部进化信息的dna结合蛋白预测方法
Kolpakov et al. Searching for gapped palindromes
CN110070908B (zh) 一种二项树模型的模体搜索方法、装置、设备与存储介质
CN110059228B (zh) 一种dna数据集植入模体搜索方法及其装置与存储介质
CN113823356A (zh) 一种甲基化位点识别方法及装置
Orzechowski et al. Propagation-based biclustering algorithm for extracting inclusion-maximal motifs
US20040153307A1 (en) Discriminative feature selection for data sequences
CN116153396A (zh) 一种基于迁移学习的非编码变异预测方法
CN114694746A (zh) 基于改进的MRMD算法和DF模型的植物pri-miRNA编码肽预测方法
CN111951889B (zh) 一种rna序列中m5c位点的识别预测方法及系统
CN111755074B (zh) 一种酿酒酵母菌中dna复制起点的预测方法
CN109918659B (zh) 一种基于不保留最优个体遗传算法优化词向量的方法
CN108182347B (zh) 一种大规模跨平台基因表达数据分类方法
Liu et al. Discovery of deep order-preserving submatrix in DNA microarray data based on sequential pattern mining
CN111383710A (zh) 基于粒子群优化双子支持向量机的基因剪接位点识别模型构建方法
CN114093422B (zh) 一种基于多关系图卷积网络的miRNA和基因相互作用的预测方法及其系统
CN113887636B (zh) 基于遗传算法的可选择数据增强方法及系统
WO2008029154A1 (en) Processing a database
Strzoda et al. A mapping-free NLP-based technique for sequence search in Nanopore long-reads
CN117198396A (zh) 一种鉴定rna假尿苷位点的新方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant