CN107665291A - 一种基于云计算平台Spark的变异检测方法 - Google Patents

一种基于云计算平台Spark的变异检测方法 Download PDF

Info

Publication number
CN107665291A
CN107665291A CN201710886300.8A CN201710886300A CN107665291A CN 107665291 A CN107665291 A CN 107665291A CN 201710886300 A CN201710886300 A CN 201710886300A CN 107665291 A CN107665291 A CN 107665291A
Authority
CN
China
Prior art keywords
spark
nodes
format file
mrow
mapping format
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710886300.8A
Other languages
English (en)
Other versions
CN107665291B (zh
Inventor
董守斌
吴宗泽
袁华
付佳兵
张铃启
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Original Assignee
South China University of Technology SCUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT filed Critical South China University of Technology SCUT
Priority to CN201710886300.8A priority Critical patent/CN107665291B/zh
Publication of CN107665291A publication Critical patent/CN107665291A/zh
Application granted granted Critical
Publication of CN107665291B publication Critical patent/CN107665291B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biophysics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于云计算平台Spark的变异检测方法,包括步骤:1)Spark主节点截取部分的输入序列比对映射格式文件,分发到各个Spark工作节点中;2)Spark工作节点并行对上述的片段序列比对映射格式文件进行预处理,获取片段的预处理信息并返回到Spark主节点;3)Spark主节点根据上述的预处理信息对输入序列比对映射格式文件进行自定义粒度划分,并分发到各个Spark工作节点;4)Spark工作节点对片段序列比对映射格式文件进行变异检测,Spark主节点接收所有工作节点的返回数据并写入文件。本发明能有效解决HaplotypeCaller变异检测方法不能适应于多节点环境情景或者在多节点时负载不均衡的问题。

Description

一种基于云计算平台Spark的变异检测方法
技术领域
本发明属于生物信息学技术领域,尤其是指一种基于云计算平台Spark的变异检测方法。
背景技术
近年来,随着第二代测序技术高通量测序技术(High Throughput Sequencing)的深入发展,人类个体测序的时间与成本已经减少到一个相对较低的水平。从原本每个碱基1美元的成本到现在1000~5000美元测序一套基因组,从耗时13年完成第一个人类基因组图谱到现在只需数星期的时间,人类基因组的研究已经进入了低成本高通量的测序时代。但是因为基因数据的急剧增长,海量数据也使得传统的基因处理软件有些无能为力,只有数据的获取速度和处理速度相匹配,才能更好地利用高通量测序技术带来的优势。
以参考序列为基准进行的个体或群体差异性分析被称为全基因组重测序(Resequencing)。研究人员通过全基因组重测序可以获得个体或群体的变异信息,包括单核苷酸多态(Single Nucleotide Polymorphism)、结构变异(Structure Variant)以及拷贝数变异(Copy Number Variant)等。其中结构变异细分为插入(Insertion)、删除(Deletion)、倒位(Inversion)、重复(Duplication)和移位(Translocation)。一般小段的插入和删除统称为InDel。后续这些变异信息可以用于临床医药研究、关联分析、群体遗传学研究等多种领域。全基因组重测序包括比对、重比对、去重、重校准、变异检测等步骤。变异检测步骤将中间的序列比对信息转换为最终的变异信息,是一个重要且耗时的步骤。
常用的变异检测工具有Samtools、FreeBayes、GATK UnifiedGenotyper、GATKHaplotypeCaller。在这些变异检测工具中,GATK的HaplotypeCaller工具因为其较高的准确性(特别是在InDel的检测),因此使用最为广泛。HaplotypeCaller算法主要包含四个步骤:1)定义活动区域(active region);2)通过活动区域的局部组装确定单倍体(haplotype);3)计算单倍体的似然性;4)分配样本的基因型。
当前主流的HaplotypeCaller多线程解决方案有GATK MapReduce、HugeSeqpipeline、Churchill pipeline等。但是GATK MapReduce适用于单节点,适用于共享存储的计算框架,不能较好地扩展到多个节点;HugeSeq pipeline按照染色体划分任务,而常规染色体中最长的染色体(chr1)的长度是最短的染色体(chrY)的4.2倍。如果考虑到众多未能完全匹配的染色体数据(如chr1_gl000191_random等),长度比最高可以达到58.5倍,因此按照染色体进行任务划分会导致负载较为不均衡;Churchill pipeline对染色体取长补短,将所有数据分割成定长的子染色体,对子染色体并行处理。但是它适用于FreeBayes、HaplotypeCaller等多个变异检测算法,并没有针对性地进行负载均衡处理,而HaplotypeCaller算法中,为了简化计算,其首先会检测其内较为可能有变异的activeregion(活动区域),并只对active region进行变异检测。因此即使输入数据长度一致,但是因为其内active region数量及其内序列数量的不同也会导致计算耗时有较大的区别。
与此同时,计算机领域诞生的面向大数据处理的云计算平台(如Hadoop、Spark)也日渐成熟,在各行各业都得到了广泛的应用。与Hadoop相比,Spark基于内存计算的架构,极大地减少了网络IO开销,特别适合于迭代计算。
发明内容
本发明的目的在于克服现有技术的不足,提供了一种基于云计算平台Spark的变异检测方法,能有效解决HaplotypeCaller变异检测方法不能适应于多节点环境情景或者在多节点时负载不均衡的问题。
为实现上述目的,本发明所提供的技术方案为:一种基于云计算平台Spark的变异检测方法,包括以下步骤:
1)Spark主节点截取部分的输入序列比对映射格式文件,分发到各个Spark工作节点中;
2)Spark工作节点并行对上述的片段序列比对映射格式文件进行预处理,获取片段的预处理信息并返回到Spark主节点;
3)Spark主节点根据上述的预处理信息对输入序列比对映射格式文件进行自定义粒度划分,并分发到各个Spark工作节点;
4)Spark工作节点对片段序列比对映射格式文件进行变异检测,Spark主节点接收所有工作节点的返回数据并写入文件。
在步骤1)中,输入的序列比对映射格式文件包括两种,SAM(Sequence Alignment/Map)格式及其二进制压缩的BAM格式。所述输入文件按照一定粒度划分成数据块,并存储在NFS(网络文件系统)中或者HDFS(Hadoop文件系统)等可以被多个节点访问的文件系统。所使用的Spark集群包括主节点和工作节点,其中主节点也可以是其中一个工作节点。
Spark主节点截取所述序列比对映射格式文件数据块的数量为nseg。根据公式(1-1)和(1-2)获得。
s×Tavg=Tmax (1-1)
nseg=s×(p-1) (1-2)
其中,p是工作节点的个数,Tavg和Tmax都是先验值,分别是事先统计的一个文件块变异检测的平均耗时和最大耗时,s是执行的回合数。
在步骤2)中Spark工作节点对片段序列比对映射格式文件执行的预处理步骤为HaplotypeCaller算法的前两步:定义活动区域(active region)和通过活动区域的局部组装确定haplotype,返回的预处理信息为预估时间复杂度Opredicted。计算公式如下:
Opredicted=n×m×r×h (2-1)
其中,n为数据块中active region内reads的数量,m为候选haplotype的数量,r为reads的总长度,h为候选haplotype的总长度。
在步骤3)中,根据预先拟合的转换函数将步骤2)返回的预估时间复杂度转换为预估耗时Tpredicted
其中,a、b、c为拟合的多项式函数的参数。
第i块预处理数据块的后续切分粒度ni的计算如公式(3-2),其余未预处理的数据按照默认的文件块粒度进行划分。
其中Ti,predicted为第i个预处理数据块的预估耗时,Tavg为数据块的平均耗时。
在步骤4)中,所使用的变异检测算法是HaplotypeCaller。该步骤中需要执行HaplotypeCaller算法完整的四个步骤:定义活动区域(active region)、通过活动区域的局部组装确定单倍体(haplotype)、计算单倍体的似然性、分配样本的基因型。最终获得VCF(Variant Call Format)格式的变异信息。主节点将VCF格式数据写入磁盘前,可以按照染色体位置对其进行排序。
本发明与现有技术相比,具有如下优点与有益效果:
1、基于Spark分布式技术。Spark是一种优秀的开源分布式计算框架,使用分布式的内存抽象RDD(Resilient Distributed Datasets)作为数据结构,具备自动容错、位置感知调度和伸缩性强的特点。同时Spark的求值运算是惰性的,框架会自动将连续的、不涉及节点间数据交换的多个转换操作合并起来,以减少计算数据的步骤。
2、细粒度与自适应粒度的任务划分。相比传统的按照染色体粒度划分、平均染色体长度划分等粗粒度的任务划分。本发明使用较小的粒度进行划分,有利于任务的负载均衡,同时还考虑到了HaplotypeCaller变异检测方法在相同长度的不同数据块中耗时的区别,对部分数据块做进一步的细粒度划分。因此本发明在负载均衡方面有较好的表现。
附图说明
图1为本发明方法流程图。
图2为相邻两个数据块重叠区域示意图。
具体实施方式
下面结合具体实施例对本发明作进一步说明。
如图1所示,本实施例所提供的基于云计算平台Spark的变异检测方法,包括以下步骤:
1)Spark主节点截取部分的输入序列比对映射格式文件,分发到各个Spark工作节点中。
本发明方法的输入是序列比对文件。序列比对文件常见的格式为SAM格式(Sequence Alignment/Map),以文本的方式记录测序序列reads到参考序列的比对信息。此外通常为了节约存储空间和提高传输速率,SAM文件会被二进制压缩处理成BAM文件。BAM文件是一种基于块压缩的格式,由一系列不超过64Kb的数据块组成。这种特性允许在压缩的格式下能够有效地通过索引文件进行随机访问,同时这也允许将数据进行切分,有利于结合HDFS在Spark框架中并行读取。
虽然Spark支持传统的网络文件系统NFS,但本发明推荐使用Hadoop文件系统HDFS。HDFS优点在于其分布式的特性,其默认将数据内容分成多个128Mb大小的数据块(如需修改,可以修改$HADOOP_HOME/conf/hdfs-site.xml中的dfs.block.size参数),并且这些数据块会均匀的保存到多个节点中。计算时,Spark的mapPartitions算子将会以一个数据块为任务粒度并行执行。同时Spark计算节点会优先使用当前节点的数据块进行计算,此时仅需要从本地磁盘读取而无需占用网络带宽,能充分利用多节点的磁盘IO。
HaplotypeCaller算法为了简化计算,首先会检测输入数据中较为可能有变异的active region(活动区域),并只对active region进行变异检测。虽然HDFS将数据分成等大小的数据块,但是每个数据块中active region的数量及其内序列reads的长度等信息不尽相同,而这些会直接影响这段数据变异检测的计算耗时。如果差异过大会极大的影响最终的性能。因此需要通过简单计算提前知晓数据段大约的计算耗时,以便对其进行细粒度划分。
在大数据的情况下,按默认数据块进行划分时,前期的数据块任务即时不均衡也不会造成太大的差异,仅需要对靠后的数据进行细粒度划分以保证在总体任务即将结束依旧是负载均衡的。通过这样能够避免最后结束时,其他工作节点都完成计算,而有一个工作节点还需要运行很久,进而拖慢总体性能的情况。
如何选择数据截取数量可以根据以下公式获取:
s×Tavg=Tmax (1-1)
nseg=s×(p-1) (1-2)
其中,p是工作节点的个数,Tavg和Tmax都是先验值,事先根据计算粒度统计的平均一个计算粒度的耗时和最大耗时。s是执行的回合数。nseg为需要预处理的数据块数量。因为切分点后的数据块会经过简单计算来估算耗时,而切分点前的不做预处理,因此考虑到最差的情况,即切分点前的一个分块刚好是耗时最多的数据块。此时需要其余的p-1个节点的每个节点在经过s轮计算后耗时与前面这个数据块耗时相同。
在默认情况下,HDFS数据块为128Mb,Tmax/Tavg大约为19。假设集群有10个计算节点,那么需要预处理的数据块有171个。如果输入文件小于21.375Gb,则需要对所有的数据块进行预处理。
2)Spark工作节点并行对上述的片段序列比对映射格式文件进行预处理,获取片段的预处理信息并返回到Spark主节点。
HaplotypeCaller算法主要的四个步骤为:一、定义活动区域(active region);二、通过活动区域的局部组装确定单倍体(haplotype);三、计算单倍体的似然性;四、分配样本的基因型。其中耗时占比最高的为第三步,其时间复杂度大致为:
O(N×M×R×H) (2-1)
其中,N是输入reads的数量,M为候选haplotype的数量,R为reads的总长度,H为候选haplotype的总长度。
因为第三步耗时占比较高,可以用其时间复杂度对整体时间复杂度进行估算。其中用于计算第三步时间复杂度的需要的参数由前两步的计算获得。因此Spark并行对nseg个数据块进行初步计算,执行HaplotypeCaller算法的第一步和第二步。即可获得数据块中active region的数量及其内reads的长度、haplotype的数量及其内reads的长度,接下来将这些数据相乘便能得到该数据块的估算时间复杂度Opredicted
Opredicted=n×m×r×h (2-2)
其中,n为数据块中active region内reads的数量,m为候选haplotype的数量,r为reads的总长度,h为候选haplotype的总长度。值得注意的是,实际中相乘的结果通常会比较大,为了防止溢出,所有乘数都进行一个固定的移位操作。
3)Spark主节点根据上述的预处理信息对输入序列比对映射格式文件进行自定义粒度划分,并分发到各个Spark工作节点。
在本发明方法实施前,需要预先进行实验,采集测试数据块的估算时间复杂度和对应HaplotypeCaller耗时,绘制散点图并拟合曲线。获得转换函数如下:
其中,a、b、c为拟合的多项式函数的参数,Opredicted为数据块的估算时间复杂度,Tpredicted为数据块的估算耗时。
然后将上一步获取的各个预处理块的估算时间复杂度转换成预处理块的预估耗时。对于预估耗时较多的预处理块,可以进一步的细粒度划分,以达到较好的负载均衡。第i块预处理数据块的后续切分粒度ni的计算如公式3-2,其余没有进行预处理的数据按照默认的文件块粒度进行划分。
其中,Ti,predicted为第i个预处理数据块的预估耗时,Tavg为数据块的平均耗时。
数据块的细粒度划分,可以通过自定义的InputFormat(Spark读取文件的类)进行。如果输入文件是BAM文件,分块大小需要是64Kb倍数以保证的每个BAM分块的完整性。此外,如果只是简单的将比对数据进行分割并分别进行变异检测,那么数据块边界上的位点信息将会有可能不完整,导致边界的变异丢失,为了解决这个问题,相邻的两个数据块需要有一定的重叠区域(如图2所示,条纹相同矩形内的数据内容相同)。最后数据块通过Spark的调度机制按序分发给工作节点。
4)Spark工作节点对片段序列比对映射格式文件进行变异检测,Spark主节点接收所有工作节点的返回数据并写入文件。
这一步中,工作节点将会对每个接收到的数据块进行完整的HaplotypeCaller变异检测算法。包括定义活动区域(active region)、通过活动区域的局部组装确定单倍体(haplotype)、计算单倍体的似然性、分配样本的基因型。最终获得VCF(Variant CallFormat)格式的变异信息。当所有工作节点的任务完成后,主节点获取所有的VCF格式数据,并按照染色体位置对其进行排序。上一步中相邻的两个数据块设置了一定的重叠区域,虽然解决了变异信息不完整的问题,但也有可能会导致两个数据块都检测出同一个变异信息,因此在写入文件前,需要对结果数据进行去重。最终写入文件的是完整的、排序的、去重的、VCF格式的变异信息。
以上所述实施例只为本发明之较佳实施例,并非以此限制本发明的实施范围,故凡依本发明之形状、原理所作的变化,均应涵盖在本发明的保护范围内。

Claims (4)

1.一种基于云计算平台Spark的变异检测方法,其特征在于,包括以下步骤:
1)Spark主节点截取部分的输入序列比对映射格式文件,分发到各个Spark工作节点中;
2)Spark工作节点并行对上述的片段序列比对映射格式文件进行预处理,获取片段的预处理信息并返回到Spark主节点;
3)Spark主节点根据上述的预处理信息对输入序列比对映射格式文件进行自定义粒度划分,并分发到各个Spark工作节点;
4)Spark工作节点对片段序列比对映射格式文件进行变异检测,Spark主节点接收所有工作节点的返回数据并写入文件。
2.根据权利要求1所述的一种基于云计算平台Spark的变异检测方法,其特征在于:在步骤1)中,输入的序列比对映射格式文件包括SAM格式及其二进制压缩的BAM格式,所述输入文件按照设定粒度划分成数据块,并存储在能够被多个节点访问的文件系统中,所使用的Spark集群包括主节点和工作节点,其中主节点也能够是其中一个工作节点;
Spark主节点截取所述序列比对映射格式文件数据块的数量为nseg,根据下面公式(1-1)和(1-2)获得;
s×Tavg=Tmax (1-1)
nseg=s×(p-1) (1-2)
式中,p是工作节点的个数,Tavg和Tmax都是先验值,分别是事先统计的一个文件块变异检测的平均耗时和最大耗时,s是执行的回合数。
3.根据权利要求1所述的一种基于云计算平台Spark的变异检测方法,其特征在于:在步骤2)中,Spark工作节点对片段序列比对映射格式文件执行的预处理步骤为HaplotypeCaller算法的前两步:定义活动区域和通过活动区域的局部组装确定单倍体,返回的预处理信息为预估时间复杂度Opredicted,计算公式如下:
Opredicted=n×m×r×h (2-1)
式中,n为数据块中活动区域内reads的数量,m为候选单倍体的数量,r为reads的总长度,h为候选单倍体的总长度;
在步骤3)中,根据预先拟合的转换函数将步骤2)返回的预估时间复杂度转换为预估耗时Tpredicted
<mrow> <msub> <mi>T</mi> <mrow> <mi>p</mi> <mi>r</mi> <mi>e</mi> <mi>d</mi> <mi>i</mi> <mi>c</mi> <mi>t</mi> <mi>e</mi> <mi>d</mi> </mrow> </msub> <mo>=</mo> <msubsup> <mi>aO</mi> <mrow> <mi>p</mi> <mi>r</mi> <mi>e</mi> <mi>d</mi> <mi>i</mi> <mi>c</mi> <mi>t</mi> <mi>e</mi> <mi>d</mi> </mrow> <mn>2</mn> </msubsup> <mo>+</mo> <msub> <mi>bO</mi> <mrow> <mi>p</mi> <mi>r</mi> <mi>e</mi> <mi>d</mi> <mi>i</mi> <mi>c</mi> <mi>t</mi> <mi>e</mi> <mi>d</mi> </mrow> </msub> <mo>+</mo> <mi>c</mi> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>-</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>
式中,a、b、c为拟合的多项式函数的参数;
第i块预处理数据块的后续切分粒度ni的计算如公式(3-2),其余未预处理的数据按照默认的文件块粒度进行划分;
式中,Ti,predicted为第i个预处理数据块的预估耗时,Tavg为数据块的平均耗时。
4.根据权利要求1所述的一种基于云计算平台Spark的变异检测方法,其特征在于:在步骤4)中,所使用的变异检测算法是HaplotypeCaller,该步骤中需要执行HaplotypeCaller算法完整的四个步骤:定义活动区域、通过活动区域的局部组装确定单倍体、计算单倍体的似然性、分配样本的基因型;最终获得VCF格式的变异信息;其中,主节点将VCF格式数据写入磁盘前,能够按照染色体位置对其进行排序。
CN201710886300.8A 2017-09-27 2017-09-27 一种基于云计算平台Spark的变异检测方法 Active CN107665291B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710886300.8A CN107665291B (zh) 2017-09-27 2017-09-27 一种基于云计算平台Spark的变异检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710886300.8A CN107665291B (zh) 2017-09-27 2017-09-27 一种基于云计算平台Spark的变异检测方法

Publications (2)

Publication Number Publication Date
CN107665291A true CN107665291A (zh) 2018-02-06
CN107665291B CN107665291B (zh) 2020-05-22

Family

ID=61098654

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710886300.8A Active CN107665291B (zh) 2017-09-27 2017-09-27 一种基于云计算平台Spark的变异检测方法

Country Status (1)

Country Link
CN (1) CN107665291B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111199777A (zh) * 2019-12-24 2020-05-26 西安交通大学 面向生物大数据的流式传输与变异实时挖掘系统及方法
CN112151114A (zh) * 2020-10-20 2020-12-29 中国农业科学院农业信息研究所 一种生物信息深度挖掘分析系统的架构构建方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105022670A (zh) * 2015-07-17 2015-11-04 中国海洋大学 一种云计算平台中的异构分布式任务处理系统及其处理方法
CN105550374A (zh) * 2016-01-29 2016-05-04 湖南大学 Spark云服务环境下面向大数据的随机森林并行机器学习方法
CN105718312A (zh) * 2016-01-20 2016-06-29 华南理工大学 面向生物基因测序计算任务的多队列回填作业调度方法
CN107145548A (zh) * 2017-04-26 2017-09-08 武汉大学 一种基于Spark平台的并行序列模式挖掘方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105022670A (zh) * 2015-07-17 2015-11-04 中国海洋大学 一种云计算平台中的异构分布式任务处理系统及其处理方法
CN105718312A (zh) * 2016-01-20 2016-06-29 华南理工大学 面向生物基因测序计算任务的多队列回填作业调度方法
CN105550374A (zh) * 2016-01-29 2016-05-04 湖南大学 Spark云服务环境下面向大数据的随机森林并行机器学习方法
CN107145548A (zh) * 2017-04-26 2017-09-08 武汉大学 一种基于Spark平台的并行序列模式挖掘方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
LINGQI ZHANG等: "High accuracy digital image correlation powered by GPU-based parallel computing", 《OPTICS AND LASERS IN ENGINEERING》 *
LIQUN DENG等: "HiGene: A High-Performance Platform for Genomic Data Analysis", 《2016 IEEE INTERNATIONAL CONFERENCE ON BIOINFORMATICS AND BIOMEDICINE (BIBM)》 *
XUEQI LI等: "Accelerating Large-Scale Genomic Analysis with Spark", 《2016 IEEE INTERNATIONAL CONFERENCE ON BIOINFORMATICS AND BIOMEDICINE (BIBM)》 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111199777A (zh) * 2019-12-24 2020-05-26 西安交通大学 面向生物大数据的流式传输与变异实时挖掘系统及方法
CN111199777B (zh) * 2019-12-24 2023-09-29 西安交通大学 面向生物大数据的流式传输与变异实时挖掘系统及方法
CN112151114A (zh) * 2020-10-20 2020-12-29 中国农业科学院农业信息研究所 一种生物信息深度挖掘分析系统的架构构建方法

Also Published As

Publication number Publication date
CN107665291B (zh) 2020-05-22

Similar Documents

Publication Publication Date Title
EP3955204A1 (en) Data processing method and apparatus, electronic device and storage medium
JP6771751B2 (ja) リスク評価方法およびシステム
CN108833458B (zh) 一种应用推荐方法、装置、介质及设备
CN103370722B (zh) 通过小波和非线性动力学预测实际波动率的系统和方法
US10467547B1 (en) Normalizing text attributes for machine learning models
CN106919957B (zh) 处理数据的方法及装置
CN109891508A (zh) 单细胞类型检测方法、装置、设备和存储介质
CN109086291B (zh) 一种基于MapReduce的并行异常检测方法及系统
CN111325619A (zh) 一种基于联合学习的信用卡欺诈检测模型更新方法及装置
CN107665291A (zh) 一种基于云计算平台Spark的变异检测方法
CN102141988B (zh) 一种数据挖掘系统中数据聚类的方法、系统及装置
Dong Application of Big Data Mining Technology in Blockchain Computing
CN116737373A (zh) 负载均衡方法、装置、计算机设备、存储介质
CN114627963B (zh) 蛋白数据填充方法、系统、计算机设备及可读存储介质
CN108229572B (zh) 一种参数寻优方法及计算设备
CN107656927A (zh) 一种特征选择方法及设备
CN115797726A (zh) 模型获得方法、装置、电子设备及存储介质
Yi et al. An Effective Approach for determining Rock Discontinuity sets using a modified Whale optimization Algorithm
CN112860531B (zh) 基于深度异构图神经网络的区块链广泛共识性能评测方法
US20230325757A1 (en) Computer-implemented method and system for testing a model
WO2022183019A1 (en) Methods for mitigation of algorithmic bias discrimination, proxy discrimination and disparate impact
Pham et al. Contimap: Continuous heatmap for large time series data
CN113326203A (zh) 一种信息推荐方法、设备及存储介质
CN112561569A (zh) 基于双模型的到店预测方法、系统、电子设备及存储介质
CN111984637A (zh) 数据建模中的缺失值处理方法和装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant