CN112349349A - 一种基于Spark Streaming的转录因子结合位点识别发现方法及装置 - Google Patents

一种基于Spark Streaming的转录因子结合位点识别发现方法及装置 Download PDF

Info

Publication number
CN112349349A
CN112349349A CN202011230684.6A CN202011230684A CN112349349A CN 112349349 A CN112349349 A CN 112349349A CN 202011230684 A CN202011230684 A CN 202011230684A CN 112349349 A CN112349349 A CN 112349349A
Authority
CN
China
Prior art keywords
gene
gene segment
transcription factor
binding site
segment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011230684.6A
Other languages
English (en)
Inventor
李安亚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orca Data Technology Xian Co Ltd
Original Assignee
Orca Data Technology Xian Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Orca Data Technology Xian Co Ltd filed Critical Orca Data Technology Xian Co Ltd
Priority to CN202011230684.6A priority Critical patent/CN112349349A/zh
Publication of CN112349349A publication Critical patent/CN112349349A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biophysics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于Spark Streaming的转录因子结合位点识别发现方法和装置,根据转录因子结合位点的长度在转录因子中提取第一基因片段,根据每个第一基因片段确定其对应的候选基因片段集;将基因序列群分割为多个比较组;将每个第二基因片段与每个单位基因序列同时进行比较,当每个单位基因序列均具有第三基因片段时,根据第二基因片段确定转录因子的预测结合位点;遍历候选基因片段集,生成转录因子的结合位点集;本发明通过将基因序列群分为多个比较组,且结合Spark Streaming理论,同时将每个比较组中的每个单位基因序列与根据转录因子确定的第二基因片段进行比较,可以有效地提升整个方法的执行效率,减少转录因子结合位点识别过程中所消耗的时间。

Description

一种基于Spark Streaming的转录因子结合位点识别发现方 法及装置
技术领域
本发明属于信息处理技术领域,尤其涉及一种基于Spark Streaming的转录因子结合位点识别发现方法及装置。
背景技术
转录作为基因调节的一个重要阶段,它通过转录因子与特异的DNA序列进行结合,从而产生相应的基因表达。转录因子结合位点的识别发现问题即识别DNA序列中的结合区域,该工作对于发现DNA调控信号和破解基因组中的调控编码有重要意义。
更具体来说,转录因子结合位点识别发现问题是寻找一系列功能相近且形式相似的核苷酸片段,这些核苷酸片段也被称为结合位点,其作为DNA序列中一段保守的模式,能够被转录因子识别。一般在DNA序列的调控区域会含有众多结合位点组成集合,它是指由于某些碱基位发生突变而产生的新序列。
根据实现的方式不同,转录因子结合位点识别发现方法可以分为枚举法和局部搜索法两类。枚举法是确定结合位点在每条序列中的结合位点集合,基本思路是穷尽遍历整个搜索空间(即整个DNA的序列),依次评估每个候选结合位点的保守程度,然后输出得分最高的结合位点。
局部搜索法利用启发式搜索、聚类、概率分析和统计方法等手段,通过构建结合位点的多个初始模型,然后对于每个模型进行迭代更新,最终得到局部最优解,该方法克服了基于枚举思想的方法带来的高计算量的缺点,一般都在较短的时间内完成问题的求解。
但是,枚举法的计算需要覆盖由结合位点组成的某个集合,计算量是非常可观的,消耗时间很长。局部搜索法不是总能保证得到全局最优解,其精度难以保证。
发明内容
本发明的目的是提供一种基于Spark Streaming的转录因子结合位点识别发现方法及装置,可以减少结合位点识别过程所消耗的时间。
本发明采用以下技术方案:一种基于Spark Streaming的转录因子结合位点识别发现方法,包括以下步骤:
根据转录因子结合位点的长度在转录因子中提取第一基因片段,根据每个第一基因片段确定其对应的候选基因片段集;其中,候选基因片段集包括多个第二基因片段;
将基因序列群分割为多个比较组;其中,每个比较组由至少一个单位基因序列构成,单位基因序列的长度与转录因子的长度相等;
将每个第二基因片段与每个单位基因序列同时进行比较,当每个单位基因序列均具有第三基因片段时,根据第二基因片段确定转录因子的预测结合位点;其中,第三基因片段与第二基因片段的差异位数量等于差异位阈值;
遍历候选基因片段集,根据所有的预测结合位点,生成转录因子的结合位点集。
进一步地,将每个第二基因片段与每个单位基因序列同时进行比较包括:
在每个单位基因序列中筛选第四基因片段,第四基因片段的位点长度与第二基因片段的位点长度相等,且第四基因片段中与第二基因片段的不同位点数量为差异位阈值的m倍;其中,m≥2;
将第二基因片段与每个第四基因片段进行比对,得到多个第三基因片段。
进一步地,根据每个第一基因片段确定其对应的候选基因片段集包括:
依次对第一基因片段的各位点进行变异,得到多个第二基因片段;其中,第一基因片段的变换位点的数量小于等于差异位阈值;
将多个第二基因片段组合,得到候选基因片段集。
进一步地,每个比较组中单位基因序列的数量相等。
进一步地,每个比较组均由一个单位基因序列构成。
本发明的另一种技术方案:一种基于Spark Streaming的转录因子结合位点识别发现装置,包括:
提取模块,用于根据转录因子结合位点的长度在转录因子中提取第一基因片段,根据每个第一基因片段确定其对应的候选基因片段集;其中,候选基因片段集包括多个第二基因片段;
分割模块,用于将基因序列群分割为多个比较组;其中,每个比较组由至少一个单位基因序列构成,单位基因序列的长度与转录因子的长度相等;
比较模块,用于将每个第二基因片段与每个单位基因序列同时进行比较,当每个单位基因序列均具有第三基因片段时,根据第二基因片段确定转录因子的预测结合位点;其中,第三基因片段与第二基因片段的差异位等于差异位阈值;
生成模块,用于遍历候选基因片段集,根据所有的预测结合位点,生成转录因子的结合位点集。
进一步地,比较模块包括:
筛选模块,用于在每个单位基因序列中筛选第四基因片段,第四基因片段的位点长度与第二基因片段的位点长度相等,且第四基因片段中与第二基因片段的不同位点数量为差异位阈值的m倍;其中,m≥2;
比对模块,用于将第二基因片段与每个第四基因片段进行比对,得到多个第三基因片段。
进一步地,提取模块包括:
变异模块,用于依次对第一基因片段的各位点进行变异,得到多个第二基因片段;其中,第一基因片段的变换位点的数量小于等于差异位阈值;
组合模块,用于将多个第二基因片段组合,得到候选基因片段集。
本发明的另一种技术方案:一种基于Spark Streaming的转录因子结合位点识别发现装置,包括存储器、处理器以及存储在存储器中并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述任一项的一种基于Spark Streaming的转录因子结合位点识别发现方法。
本发明的另一种技术方案:一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现上述任一项的一种基于Spark Streaming的转录因子结合位点识别发现方法。
本发明的有益效果是:本发明通过将基因序列群分为多个比较组,且结合SparkStreaming理论,同时将每个比较组中的每个单位基因序列与根据转录因子确定的第二基因片段进行比较,可以有效地提升整个方法的执行效率,减少转录因子结合位点识别过程中所消耗的时间。
附图说明
图1为本发明实施例一种基于Spark Streaming的转录因子结合位点识别发现方法的流程示意图;
图2为本发明实施例中原始基因序列群数据按照时间序列进行划分的示意图;
图3为本发明实施例中基因序列群数据的分解与分发处理流程示意图;
图4为本发明实施例中在Spark Streaming框架下进行转录因子结合位点识别发现的工作流程图;
图5为本发明实施例基于Spark Streaming的转录因子结合位点识别发现框架图;
图6为本发明另一实施例一种基于Spark Streaming的转录因子结合位点识别发现装置的结构示意图;
图7为本发明另一实施例一种基于Spark Streaming的转录因子结合位点识别发现装置的结构示意图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明实施例公开了一种基于Spark Streaming的转录因子结合位点识别发现方法,如图1所示,包括以下步骤:S110、根据转录因子结合位点的长度在转录因子中提取第一基因片段,根据每个第一基因片段确定其对应的候选基因片段集;其中,候选基因片段集包括多个第二基因片段;S120、将基因序列群分割为多个比较组;其中,每个比较组由至少一个单位基因序列构成,单位基因序列的长度与转录因子的长度相等;S130、将每个第二基因片段与每个单位基因序列同时进行比较,当每个单位基因序列均具有第三基因片段时,根据第二基因片段确定转录因子的预测结合位点;其中,第三基因片段与第二基因片段的差异位等于差异位阈值;S140、遍历候选基因片段集,根据所有的预测结合位点,生成转录因子的结合位点集。
本发明通过将基因序列群分为多个比较组,且结合Spark Streaming理论,同时将每个比较组中的每个单位基因序列与根据转录因子确定的第二基因片段进行比较,可以有效地提升整个方法的执行效率,减少转录因子结合位点识别过程中所消耗的时间。
在本发明中,一个DNA序列由多个长度相等的基因片段组成,其中转录因子取自于其中的一个基因片段,基因序列群则是该DNA序列中除了转录因子所在的基因片段外其他所有基因片段的集合。在本发明所提到的第一基因片段、第二基因片段、第三基因片段和第四基因片段均是指的比转录因子位数还少的基因片段。
作为一种可能的实现方式,将每个第二基因片段与每个单位基因序列同时进行比较包括:在每个单位基因序列中筛选第四基因片段,第四基因片段的位点长度与第二基因片段的位点长度相等,且第四基因片段中与第二基因片段的不同位点数量为差异位阈值的m倍;其中,m≥2;将第二基因片段与每个第四基因片段进行比对,得到多个第三基因片段。
在该实施例中,通过长期实验发现,第三基因片段基本都存在于第四基因片段中,所以,通过提前在基因序列群中找出第四基因片段集合,可以有效缩小方法的查找范围,进而可以大大降低查找的时间。
在本发明实施例中,根据每个第一基因片段确定其对应的候选基因片段集包括:依次对第一基因片段的各位点进行变异,得到多个第二基因片段;其中,第一基因片段的变换位点的数量小于等于差异位阈值;将多个第二基因片段组合,得到候选基因片段集。
具体的,例如一个第一基因片段为CTGCC,差异位阈值为2,当对其进行变异时,第二基因片段则可以是CTGCT、CTGCG、CTGCA、CTGAA、CTGAG等等。
在本发明实施例中,由于引入了Spark Streaming并行编程模型,基因序列群相关数据被抽象成以时间片段分隔开的离散流(discretized stream)数据形式。简单而言,就是将所有的基因序列群数据按照一定的时间序列(如1秒)分割成一段又一段的小批次数据,如图2所示。
Spark Streaming采用的是Spark引擎,在进行转录因子结合位点识别发现时会将每一段小批次基因序列群数据转化成为Spark当中的RDD(弹性分布式数据集)。基因序列群数据即以RDD的形式在Spark Streaming系统中进行运算。如此即可将基因序列群数据划分成为大量的微批数据,通过对应多个job来并行执行运算。所以,每个比较组中单位基因序列的数量相等。
除开Spark系统本身组件外,如图3所示,用于转录因子结合位点识别发现的SparkStreaming系统还涉及其他重要组件。
1.master:它是Spark Streaming中基因序列群数据进行运算应用的入口。根据应用逻辑产生用于转换RDD的task然后进行调度,并对这些task进行追踪。
2.client:Spark Streaming建立了一个client库来将数据传入到系统当中。
3.worker:它是Spark Streaming中基因序列群数据(即模体数据)的入口以及执行RDD转换的主要组件。相对于Spark,主要新增了receiver对流数据进行独立的接收。
更为具体的,在本发明实施例中,为了简化运算,每个比较组均由一个单位基因序列构成。
本发明实施例在进行转录因子结合位点识别发现时,如图4所示,利用SparkStreaming的批处理引擎Spark Core对输入的基因序列群数据按照batch size(如1秒)分成一段一段的数据(Discretized Stream,离散流),每一段数据都转换成Spark中的RDD(Resilient Distributed Dataset,弹性分布式数据集),然后将Spark Streaming中对离散流的转化操作变为针对Spark中对RDD的转化操作,RDD的相关操作结果会保存在内存中。Spark会启用多个job进行RDD的运算,RDD支持转化和动作两种操作。其中转化可以将传入的基因序列数据集通过Map计算处理创建产生新的数据集结果,在动作操作中会通过Reduce函数将新产生的数据集进行聚合。
虽然每个job输入的数据不同,但通过相同的Map函数可以得到针对于转录因子结合位点识别发现问题在不同job部分数据最优的处理结果,即各job可以在分配给自己的数据集中寻找得到当前满足条件的最优转录因子结合位点。在Spark Streaming运行时会将转化产生的新数据集持久化存放于内存上,如此进行下一个数据集执行动作操作时就可以直接从内存上将计算好的新数据集取出进行后续Reduce函数聚合计算,能够极大提高整体计算效率,节省计算步骤和时间。
为改进算法的时间复杂度,本发明提出一种新的转录因子结合位点识别发现问题解决方法,在基因数据群中不需将所有的基因序列数据与第二基因片段(即候选结合位点)进行比较,而只需要将基因序列中与第二基因片段的海明距离不大于2d的基因片段进行比较即可,其中d表示差异位阈值。所以在本发明中可先生成一个与第二基因片段的海明距离不大于2d的集合位点集合,而第二基因片段只需与它进行比较即可。同时为进一步优化算法,这里提出基于Spark Streaming的转录因子结合位点识别发现问题解决思路,算法执行效率和准确度提升明显。Spark Streaming是一种构建在Spark上的实时计算框架,它扩展了Spark处理大规模流式数据的能力,可以在内存中快速对数据集进行多次迭代。
通过Spark Streaming分布式系统将原来的基因序列群数据分割成一个个时间片端,形成一个个独立的内存数据,在执行Spark Streaming任务调度时能够对分割完成的数据进行单独处理,可以执行map、flatmap等Map函数成倍缩小原问题的规模同时达到并行计算效果,也可以进行groupby、reduceby等Reduce操作完成运算结果的整合。
在Spark Streaming进行转录因子结合位点识别发现时,如图5所示,首先会产应一个应用(Application),它由一个任务控制节点(Driver)和若干个作业(Job)构成,一个作业由多个阶段(Stage)构成,一个阶段由多个任务(Task)组成。当执行转录因子结合位点识别发现应用时,任务控制节点会向集群管理器(Cluster Manager)申请资源,启动Executor,并向Executor发送应用程序代码和文件,然后在Executor上执行任务,运行结束后,执行结果会返回给任务控制节点,或者写到HDFS或者其他数据库中进行后续整合运算得到最终识别发现结果。
转录因子结合位点识别发现问题是一种典型的NP难解问题,现有的许多算法极易出现计算时间复杂度过高,或者因为陷入局部最优导致一些真正的模型在发现时出现遗漏。基于Spark Streaming的转录因子结合位点识别发现方法,首先精简待候选的基因片段集,主动生成一个与第二基因片段相距海明距离不大于2d的备选基因片段集,将其与第二基因片段直接比较即可,在一定程度上弱化算法复杂度,使得查找更有目的性。
同时,通过结合Spark Streaming分布式并行计算的思想,设计的转录因子结合位点识别发现算法可以实现更加优异的运行效果。在完成基因序列群数据划分并转化为RDD后,随即被分配到Spark Streaming分布式系统调度的多个job进行读入,然后并行化执行Map函数计算,缩短算法运行时间,处理后得到的结果数据集会在内存中进行保存,在下一轮的Reduce计算时可以直接拿来使用,提高转录因子结合位点的检索匹配效率。
转录因子结合位点识别发现是生物信息学、计算生物学和计算机科学等多学科交织的挑战问题,算法的选择对于结果的得出至关重要。对于同样一个问题,选择不同的识别发现算法致使程序执行效率可能差异巨大。求解转录因子结合位点识别发现问题涉及到计算机科学和生物信息学等相关知识,同时涉及巨大的计算量,设计有效并且优化的方法对解决转录因子结合位点识别发现问题显得尤为重要。
相比于Hadoop基于磁盘的批量处理引擎,Spark Streaming基于内存处理,为输入的待处理数据提供了近乎实时分析的功能。本发明结合Spark Streaming相关理论知识,利用Spark技术极大程度上提高转录因子结合位点识别发现算法的执行效率,本方法在时间和空间复杂度上优势明显。本方案中采用的RDD(弹性分布式数据集)可以具有持久性,能够将Map函数计算得到数据集缓存在内存中,如此在后续检索匹配对应数据集时可以直接将其调用进行运算,操作速度大大加快。同时本方案采用的RDD技术兼具容错性,当RDD计算的某个环节出错时,可以从指定的位置恢复已经计算的数据,不需要重新计算。
利用分布式并行计算的思想方法,可以在一定程度上解决转录因子结合位点识别发现过程中因复杂度过高而无法有效计算的问题。本发明涉及到的并行计算编程模型开发难度较低,执行高效,同时具有广泛的适用范围。只要原问题具有良好的并行特性,即可用此方法来缩短问题的解决时间。比如基于局部搜索的算法也可以采用Spark Streaming方法大幅度缩短计算时间,同时在一定程度上提高算法的准确度,算法的执行效率与正确性能够得到有效提升。
本发明另一实施例还公开了一种基于Spark Streaming的转录因子结合位点识别发现装置,如图6所示,包括:
提取模块110,用于根据转录因子结合位点的长度在转录因子中提取第一基因片段,根据每个第一基因片段确定其对应的候选基因片段集;其中,候选基因片段集包括多个第二基因片段;分割模块120,用于将基因序列群分割为多个比较组;其中,每个比较组由至少一个单位基因序列构成,单位基因序列的长度与转录因子的长度相等;比较模块130,用于将每个第二基因片段与每个单位基因序列同时进行比较,当每个单位基因序列均具有第三基因片段时,根据第二基因片段确定转录因子的预测结合位点;其中,第三基因片段与第二基因片段的差异位等于差异位阈值;生成模块140,用于遍历候选基因片段集,根据所有的预测结合位点,生成转录因子的结合位点集。
具体的,比较模块包括:
筛选模块,用于在每个单位基因序列中筛选第四基因片段,第四基因片段的位点长度与第二基因片段的位点长度相等,且第四基因片段中与第二基因片段的不同位点数量为差异位阈值的m倍;其中,m≥2;比对模块,用于将第二基因片段与每个第四基因片段进行比对,得到多个第三基因片段。
更为具体的,提取模块包括:
变异模块,用于依次对第一基因片段的各位点进行变异,得到多个第二基因片段;其中,第一基因片段的变换位点的数量小于等于差异位阈值;组合模块,用于将多个第二基因片段组合,得到候选基因片段集。
需要说明的是,上述模块之间的信息交互、执行过程等内容,由于与本发明方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将所述装置的内部结构划分成不同的功模块,以完成以上描述的全部或者部分功能。实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能模块的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。上述系统中模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本发明另一实施例还公开了一种基于Spark Streaming的转录因子结合位点识别发现装置,如图7所示,包括存储器31、处理器32以及存储在存储器31中并可在处理器上运行的计算机程序,处理器32执行计算机程序时实现上述的一种基于Spark Streaming的转录因子结合位点识别发现方法。
本发明另一实施例还公开了一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序被处理器执行时实现上述的一种基于Spark Streaming的转录因子结合位点识别发现方法。
所述计算机可读介质至少可以包括:能够将计算机程序代码携带到拍照装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,RandomAccess Memory)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区,根据立法和专利实践,计算机可读介质不可以是电载波信号和电信信号。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。

Claims (10)

1.一种基于Spark Streaming的转录因子结合位点识别发现方法,其特征在于,包括以下步骤:
根据转录因子结合位点的长度在所述转录因子中提取第一基因片段,根据每个所述第一基因片段确定其对应的候选基因片段集;其中,所述候选基因片段集包括多个第二基因片段;
将基因序列群分割为多个比较组;其中,每个所述比较组由至少一个单位基因序列构成,所述单位基因序列的长度与所述转录因子的长度相等;
将每个所述第二基因片段与每个所述单位基因序列同时进行比较,当每个所述单位基因序列均具有第三基因片段时,根据所述第二基因片段确定所述转录因子的预测结合位点;其中,所述第三基因片段与所述第二基因片段的差异位数量等于差异位阈值;
遍历所述候选基因片段集,根据所有的所述预测结合位点,生成所述转录因子的结合位点集。
2.如权利要求1所述的一种基于Spark Streaming的转录因子结合位点识别发现方法,其特征在于,将每个所述第二基因片段与每个所述单位基因序列同时进行比较包括:
在每个所述单位基因序列中筛选第四基因片段,所述第四基因片段的位点长度与所述第二基因片段的位点长度相等,且所述第四基因片段中与所述第二基因片段的不同位点数量为所述差异位阈值的m倍;其中,m≥2;
将所述第二基因片段与每个所述第四基因片段进行比对,得到多个所述第三基因片段。
3.如权利要求2所述的一种基于Spark Streaming的转录因子结合位点识别发现方法,其特征在于,根据每个所述第一基因片段确定其对应的候选基因片段集包括:
依次对所述第一基因片段的各位点进行变异,得到多个第二基因片段;其中,所述第一基因片段的变换位点的数量小于等于所述差异位阈值;
将多个所述第二基因片段组合,得到所述候选基因片段集。
4.如权利要求2或3所述的一种基于Spark Streaming的转录因子结合位点识别发现方法,其特征在于,每个所述比较组中单位基因序列的数量相等。
5.如权利要求4所述的一种基于Spark Streaming的转录因子结合位点识别发现方法,其特征在于,每个所述比较组均由一个单位基因序列构成。
6.一种基于Spark Streaming的转录因子结合位点识别发现装置,其特征在于,包括:
提取模块,用于根据转录因子结合位点的长度在所述转录因子中提取第一基因片段,根据每个所述第一基因片段确定其对应的候选基因片段集;其中,所述候选基因片段集包括多个第二基因片段;
分割模块,用于将基因序列群分割为多个比较组;其中,每个所述比较组由至少一个单位基因序列构成,所述单位基因序列的长度与所述转录因子的长度相等;
比较模块,用于将每个所述第二基因片段与每个所述单位基因序列同时进行比较,当每个所述单位基因序列均具有第三基因片段时,根据所述第二基因片段确定所述转录因子的预测结合位点;其中,所述第三基因片段与所述第二基因片段的差异位等于差异位阈值;
生成模块,用于遍历所述候选基因片段集,根据所有的所述预测结合位点,生成所述转录因子的结合位点集。
7.如权利要求6所述的一种基于Spark Streaming的转录因子结合位点识别发现装置,其特征在于,所述比较模块包括:
筛选模块,用于在每个所述单位基因序列中筛选第四基因片段,所述第四基因片段的位点长度与所述第二基因片段的位点长度相等,且所述第四基因片段中与所述第二基因片段的不同位点数量为所述差异位阈值的m倍;其中,m≥2;
比对模块,用于将所述第二基因片段与每个所述第四基因片段进行比对,得到多个所述第三基因片段。
8.如权利要求7所述的一种基于Spark Streaming的转录因子结合位点识别发现装置,其特征在于,所述提取模块包括:
变异模块,用于依次对所述第一基因片段的各位点进行变异,得到多个第二基因片段;其中,所述第一基因片段的变换位点的数量小于等于所述差异位阈值;
组合模块,用于将多个所述第二基因片段组合,得到所述候选基因片段集。
9.一种基于Spark Streaming的转录因子结合位点识别发现装置,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述的一种基于Spark Streaming的转录因子结合位点识别发现方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述的一种基于SparkStreaming的转录因子结合位点识别发现方法。
CN202011230684.6A 2020-11-06 2020-11-06 一种基于Spark Streaming的转录因子结合位点识别发现方法及装置 Pending CN112349349A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011230684.6A CN112349349A (zh) 2020-11-06 2020-11-06 一种基于Spark Streaming的转录因子结合位点识别发现方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011230684.6A CN112349349A (zh) 2020-11-06 2020-11-06 一种基于Spark Streaming的转录因子结合位点识别发现方法及装置

Publications (1)

Publication Number Publication Date
CN112349349A true CN112349349A (zh) 2021-02-09

Family

ID=74429508

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011230684.6A Pending CN112349349A (zh) 2020-11-06 2020-11-06 一种基于Spark Streaming的转录因子结合位点识别发现方法及装置

Country Status (1)

Country Link
CN (1) CN112349349A (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050065884A (ko) * 2003-12-26 2005-06-30 한국전자통신연구원 유사서열 추출을 통한 전사인자 결합부위 예측 장치 및 그방법
CN111312329A (zh) * 2020-02-25 2020-06-19 成都信息工程大学 基于深度卷积自动编码器的转录因子结合位点预测的方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20050065884A (ko) * 2003-12-26 2005-06-30 한국전자통신연구원 유사서열 추출을 통한 전사인자 결합부위 예측 장치 및 그방법
CN111312329A (zh) * 2020-02-25 2020-06-19 成都信息工程大学 基于深度卷积自动编码器的转录因子结合位点预测的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SOUAD BOUASKER等: "Pregnancy Associated Breast Cancer Gene Expressions : New Insights on Their Regulation Based on Rare Correlated Patterns", IEEE/ACM TRANSACTIONS ON COMPUTATIONAL BIOLOGYAND BIOINFORMATICS, vol. 18, no. 3, pages 1035 - 1048, XP011858854, DOI: 10.1109/TCBB.2020.3015236 *
李婷婷;蒋博;汪小我;张学工;: "转录因子结合位点的计算分析方法", 生物物理学报, no. 05, pages 334 - 347 *

Similar Documents

Publication Publication Date Title
CN108985008B (zh) 一种快速比对基因数据的方法和比对系统
CN103514201B (zh) 一种非关系型数据库的数据查询方法和装置
JP5427640B2 (ja) 決定木生成装置、決定木生成方法、及びプログラム
CN108549696B (zh) 一种基于内存计算的时间序列数据相似性查询方法
CN106778079A (zh) 一种基于MapReduce的DNA序列k‑mer频次统计方法
CN114420215B (zh) 基于生成树的大规模生物数据聚类方法及系统
US20220005546A1 (en) Non-redundant gene set clustering method and system, and electronic device
CN108334532B (zh) 一种基于Spark的Eclat并行化方法、系统及装置
CN108108251B (zh) 一种基于MPI并行化的参考点k近邻分类方法
CN113743453A (zh) 一种基于随机森林的人口数量预测方法
WO2020124275A1 (en) Method, system, and computing device for optimizing computing operations of gene sequencing system
CN112349349A (zh) 一种基于Spark Streaming的转录因子结合位点识别发现方法及装置
CN112768081B (zh) 基于子图及节点的共调控生物网络模体发现方法及装置
US20210202038A1 (en) Memory Allocation to Optimize Computer Operations of Seeding for Burrows Wheeler Alignment
US20210217492A1 (en) Merging Alignment and Sorting to Optimize Computer Operations for Gene Sequencing Pipeline
WO2015143708A1 (zh) 后缀数组的构造方法及装置
CN114138330A (zh) 基于知识图谱的代码克隆检测优化方法、装置和电子设备
CN112183567B (zh) Birch算法的优化方法、装置、设备及存储介质
US11250064B2 (en) System and method for generating filters for K-mismatch search
CN104570759A (zh) 控制系统中点定位问题的快速二叉树法
Al-Ssulami et al. An efficient method for significant motifs discovery from multiple DNA sequences
CN110892401B (zh) 生成用于k个不匹配搜索的过滤器的系统和方法
CN110059378A (zh) 一种基于GPU并行计算的自动制造系统Petri网状态生成方法
CN112825267B (zh) 确定小核酸序列集合的方法及其应用
Karthik et al. BANG: Billion-Scale Approximate Nearest Neighbor Search using a Single GPU

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 710000 Room 1202, 12th Floor, Cultural Creation Building, Yaodian Street Office, Qinhan New Town, Xixian New District, Xi'an, Shaanxi

Applicant after: Xi'an Okayun Data Technology Co.,Ltd.

Address before: No.6-2, Changxin Industrial Park, east section of Tiangong 1st Road, banxinzhuang village, ZhouLing street, Qinhan new town, Xixian New District, Xi'an City, Shaanxi Province, 710000

Applicant before: Xi'an Okayun Data Technology Co.,Ltd.