CN109698010A - 一种针对基因数据的处理方法 - Google Patents

一种针对基因数据的处理方法 Download PDF

Info

Publication number
CN109698010A
CN109698010A CN201710993693.2A CN201710993693A CN109698010A CN 109698010 A CN109698010 A CN 109698010A CN 201710993693 A CN201710993693 A CN 201710993693A CN 109698010 A CN109698010 A CN 109698010A
Authority
CN
China
Prior art keywords
fragment
data
base
gene data
sequencing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201710993693.2A
Other languages
English (en)
Inventor
张春明
张中海
范彦辉
王炳琛
谭光明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Wise Source Technology Co Ltd
Original Assignee
Beijing Wise Source Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Wise Source Technology Co Ltd filed Critical Beijing Wise Source Technology Co Ltd
Priority to CN201710993693.2A priority Critical patent/CN109698010A/zh
Publication of CN109698010A publication Critical patent/CN109698010A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明提供一种针对基因数据的处理方法及系统。所述方法,包括:1)根据设定的分片长度,对各个参考基因片段进行分片;2)将测序基因数据与所述参考基因片段进行比对,获得各个测序基因数据所处的分片,并针对每个分片统计处于所述分片中的测序基因数据的数量;3)根据每个分片中的测序基因数据的数量,对包含有比其他分片更多测序基因数据的分片进行再次分片;其中,所获得的各个分片被用于并行地对测序基因数据进行处理。

Description

一种针对基因数据的处理方法
技术领域
本发明涉及基因测序技术,尤其涉及对通过基因测序技术而获得的数据进行处理。
背景技术
随着人们对于生命科学的探究,越来越多的研究开始关注于分析测定基因的序列,以用于诸如医学方面的研究。例如,通过对血液或唾液进行分析以测定基因序列,从而预测罹患多种疾病的可能性,达到提前预防和治疗的目的。随着科学的发展,目前的基因测序技术已经发展到了第二代测序技术(Next-generation sequencing),其大体的操作流程包括:测序文库的构建、锚定桥接、预扩增、单碱基延伸测序、以及数据分析。近些年来二代测序技术得到了迅速地发展,越来越多的研究显示针对基因的数据分析过程逐渐成为所述技术的瓶颈。
在分析测定基因序列时,现有技术最常采用的方式是将通过基因测序技术而获得的测序基因片段与预先确定的参考基因序列中的碱基进行比对,例如,研究在基因片段的同一位置上携带不同的碱基是否会影响某种疾病的发生。因此为了方便使用和计算,现有技术在执行数据分析时,为了降低单个样本从数据产生到变异位点分析完成的响应时间,大多数现有技术采用了对数据进行划分,并且并行地在多机上针对所述数据进行计算。通过所述划分将通过基因测序技术而获得的数据划分为多个部分,在对所述数据进行诸如分析和调度的处理过程时,针对每一部分的数据设置一个任务,使得所述任务独立地处理所述部分的数据。例如,将一个参考基因序列划分为等长的多个区间,并将通过基因测序技术而获得的数据中落入到每个区间内的测序基因片段作为一个数据部分以进行并行计算。
然而,在实际的使用过程中,采集到的测序基因片段的数量在各个区间上的分布往往是不均匀的,例如在几个特定区间内更容易采集到碱基数据,而在其余区间上比较不容易采集到碱基数据,这使得大部分的碱基数据集中在几个特定的区间内,而在其他区间中仅分布了少量的碱基数据。这种情况在最常用的基因测序技术全基因组重测序(WGS)和全外显子组测序(WES)中尤为明显。可见,上述方式并不能实现将采集到的全部测序基因数据划分为数量相等的多个部分。换句话说,通过上述方式所获得的用于并行计算的各个数据部分的大小差异明显、局部数据倾斜、负载不均衡。在执行并行计算时由于负载的不均衡会产生的严重的“长尾效应”,即完成数据处理的最终响应时间取决于负载最大、处理速度最慢的一个区间,而这会严重地影响到系统处理基因数据的响应时间。
此外,在执行针对基因数据的处理过程中,在完成了针对各个区间的数据的处理后还需要对所获得的结果进行合并,这使得在并行程度非常高的处理方案中,往往会针对基因数据进行多次的区间划分以及多次的合并,这样会导致很大的网络和磁盘开销,降低了流程的整体性能和集群的资源利用率。在一个基因数据处理流程中,往往使用多种类似的算法或者需要重复地使用上述算法,如果在所述处理流程中每执行一个步骤均需要对基因数据进行划分和合并,则会对基因数据处理系统带来极大的压力。
发明内容
因此,本发明的目的在于克服上述现有技术的缺陷,提供一种针对基因数据的处理方法,包括:
1)根据设定的分片长度,对各个参考基因片段进行分片;
2)将测序基因数据与所述参考基因片段进行比对,获得各个测序基因数据所处的分片,并针对每个分片统计处于所述分片中的测序基因数据的数量;
3)根据每个分片中的测序基因数据的数量,对包含有比其他分片更多测序基因数据的分片进行再次分片;
其中,所获得的各个分片被用于并行地对测序基因数据进行处理。
优选地,根据所述方法,其中步骤1)包括:
根据所述分片长度代表的碱基数量、以及每个参考基因片段所含的碱基数量,确定所述参考基因片段包含的分片的编号。
优选地,根据所述方法,所述步骤2)包括:
2-1)将参考基因片段与测序基因数据进行比对,确定各个测序基因数据的碱基所对应的参考基因片段以及在所述参考基因片段中的位置;
2-2)根据所述测序基因数据的碱基所对应的参考基因片段以及在所述参考基因片段中的位置,计算所述测序基因数据的碱基所属的分片的编号;
2-3)针对每个分片统计处于所述分片中的测序基因数据的碱基的数量。
优选地,根据所述方法,其中步骤3)包括:
根据每个分片中的测序基因数据的碱基的数量,将所包含测序基因数据的碱基的数量超过平均值的分片切分为多个新的分片。
优选地,根据所述方法,其中步骤3)包括:
3-1)根据全部测序基因数据的碱基总数、以及全部参考基因片段的分片总数,确定每个分片上包含测序基因数据的碱基的平均值;
3-2)将所包含测序基因数据的碱基的数量超过所述平均值的分片切分为多个新的分片。
优选地,根据所述方法,其中步骤3-3)包括:
将需要进行再次分片的分片切分为n个新的分片,其中n等于对所述分片中的测序基因数据的碱基的数量除以所述每个分片上包含测序基因数据的碱基的平均值的结果取整数。
优选地,根据所述方法,还包括:
4)在Spark平台中,将与所获得的每个分片对应的测序基因数据封装为一个RDD格式的弹性数据集,针对多个弹性数据集并行地进行数据清理以及变异检测。
一种基于Spark平台的基因数据处理方法,包括:
1)将全部测序基因数据划分为多个部分;
2)将每个部分的测序基因数据封装为一个RDD格式的弹性数据集,以将每个弹性数据集分配给不同的虚拟节点;
3)由各个所述虚拟节点对弹性数据集中所包含的测序基因数据顺序地执行数据清理以及变异检测。
一种计算机可读存储介质,其中存储有计算机程序,所述计算机程序在被执行时用于实现如前述任意一项所述的方法。
一种用于针对基因数据进行处理的系统,包括:
处理器、和存储装置,
其中,所述存储装置用于存储计算机程序,所述计算机程序在被所述处理器执行时用于实现如前述任意一项所述的方法。
与现有技术相比,本发明的优点在于:
提供了一种在进行基因数据处理时对基因数据进行处理的方案,克服了在执行数据划分时由于数据分布倾斜而导致的负载不均的缺陷,并且避免了由于针对基因数据反复地执行划分和合并而带来的开销,降低了基因数据处理系统的压力。
附图说明
以下参照附图对本发明实施例作进一步说明,其中:
图1是根据本发明的一个实施例针对基因数据的划分方法的流程图;
图2是根据本发明的一个实施例,对参考基因片段进行分片以及确定测序基因数据中的碱基所处的分片的示意图;
图3是根据本发明的一个实施例,对所包含测序基因数据中的碱基的数量较多的分片进行切分以及确定切分后测序基因数据中的碱基所处的分片的编号的示意图;
图4是现有技术针对基因数据处理的Mapping、Data Clean、以及Variant Calling操作均执行切分、处理、以及合并的流程示意图;
图5是根据本发明采用Spark平台对Mapping、Data Clean、以及Variant Calling操作采用RDD格式的弹性数据集的示意图;
图6是根据本发明的一个实施例,在Spark平台下执行Mapping、Data Clean、以及Variant Calling操作的示意图;
图7是根据本发明的又一个实施例,在Spark平台下执行Mapping、Data Clean、以及Variant Calling操作的示意图。
具体实施方式
下面结合附图和具体实施方式对本发明作详细说明。
根据本发明的基因数据的划分方法,大致上包括:对测序基因(read)数据在参考基因(reference)序列上的分布进行统计,以确定落入参考基因序列的各个区间中的测序基因数据,并将所述区间中负载密集的区间切分成多个新的区间,从而根据所获得的各个区间将落入每个区间中的测序基因数据作为一个部分并行地对这些数据进行处理。
图1示出了根据本发明的一个实施例的针对基因数据的划分方法,参考图1,所述方法包括:
步骤1.设定一个预估的分片(partition)长度,根据该分片长度将各个参考基因片段划分为多个分片。为了方便,这里可以对每个分片进行编号(partition id)。这里的所述分片是为了定义针对参考基因序列所划分的区间,一个分片代表了一定数量的碱基,例如106个碱基。
所述分片的长度可以根据需要进行设定,例如可以根据数据处理的并行程度来设定,针对并行程度相对较低的应用场景设置相对较长的分片。
在步骤1中,可以根据所述分片长度代表的碱基数量、以及每个参考基因片段所含的碱基数量,确定所述参考基因片段包含的分片的编号。例如,参考图2所示出的示例,假设一个分片代表了106个碱基(bp),那么则可以根据在参考基因序列中的各个参考基因片段(contig)所包含的碱基数量计算出在所述参考基因片段中包含的分片数量,若第一个参考基因片段中包含2.5×108个碱基,则可以认为该参考基因片段中包含250个分片。类似地,可以确定其它各个参考基因片段中包含的分片数量,例如在第一至七个参考基因片段中分别包含250、244、199、192、181、172、160个分片。
步骤2.将测序基因数据与参考基因序列中的参考基因片段进行比对,获得各个测序基因数据所处的分片,并针对每个分片统计处于所述分片中的测序基因数据的数量。
在对通过基于测序技术所获得的测序基因数据进行分析和测定的过程中,将测序基因数据与参考基因片段进行比对(mapping)是其中不可缺少的一个环节。在本发明中,同样采用了这样的比对过程,即在实现对基因数据进行划时利用并完成了所述比对操作,因此在根据本发明的方法对基因数据划分为多个部分后无需再执行所述比对操作。在本发明中可以采用任意现有技术来实现所述比对,例如可以利用开源的比对工具BWA软件等。
在步骤2中,可以通过所述比对,确定测序基因数据中的各个碱基对应于哪个参考基因片段中的第几个碱基,从而判断出所述测序基因数据中的碱基应当被划分到哪个分片中,由此可以针对每个分片统计落入所述分片中的测序基因数据的碱基数量。例如,可以通过以下方式来执行步骤2,参考图2,根据步骤1所获得的结果可以针对每个参考基因片段确定其起始碱基所对应的分片的编号,例如对于第一至七个参考基因片段它们分别从编号为0、250、494、693、885、1006、1238的分片起始(这里第二个参考基因片段的起始编号250等于第一个参考基因片段的起始编号0与该第一个参考基因片段所包含的分片数量250之和,类似地,第三个参考基因片段的起始编号494等于第二个参考基因片段的起始编号250与该第二个参考基因片段所包含的分片数量244之和,以此类推)。假设,通过所述比对,将测序基因数据中的一个碱基的位置确定为(4,12345678),即所述碱基位于第4个参考基因片段中,并且所述碱基在该参考基因片段的全部碱基中处于第12345678个位点。由此,可以确定测序基因数据中的所述碱基对于的参考基因片段从编号为693的分片起始,并且所述碱基在该参考基因片段中偏移了12345678/1000000=12个分片,因此可以将所述碱基所处的分片确定为编号是693+12=705的分片。
通过这样的方式,可以针对测序基因数据中的每个碱基判断其所处的分片的编号,并由此针对每个分片统计落入到该分片中的测序基因数据的碱基数量。
步骤3.根据每个分片中的测序基因数据的数量,对包含有比其他分片更多测序基因数据的分片进行再次分片。根据再次分片后的结果,可以确定每个分片所对应的参考基因中的碱基以及测序基因数据中的碱基,由此可以针对各个分片并行地对测序基因数据进行处理。
如前文中所述,通过诸如WGS和WES方法获得的测序基因数据在参考基因序列中的分布往往是不均匀的,也就是说落入到各个分片中的参考基因中的碱基数量之间存在较大的差异。由此,发明人提出可以基于步骤2所获得的每个分片中的测序基因数据的数量,将负载偏大的分片切分成多个新的分片,使得在新获得的分片中的负载与其余分片中的负载相等或相近。
优选地,可以对负载超出平均值的分片进行切分。根据全部测序基因数据的碱基总数、以及全部参考基因片段的分片总数,确定每个分片上包含测序基因数据的碱基的平均值,判断每个分片中的测序基因数据的碱基的数量是否超过所述平均值,以将所含测序基因数据的碱基的数量超过所述平均值的分片切分为多个新的分片。例如,假设全部测序基因数据中一共包含3.6×104个碱基,并且通过上述步骤1的操作后,在参考基因序列中一共划分出了3509个分片,那么在每个分片上包含测序基因数据的碱基的平均值应当等于3.6×104/3509≈10个。参考图3所示出的示例,假设编号为705和801的分片上包含的测序基因数据的碱基的数量超过了10个,则需要对这两个分片进行切分。对于编号705的分片而言,若其中包含有41个测序基因数据的碱基,那么则需要将所述分片切分为41/10≈4份,并且为切分后的获得的新的分片增加新的编号,例如从第3509+1个ID开始编号。类似地,可以根据编号801的分片上所包含的测序基因数据的碱基的数量以及所述在每个分片上包含测序基因数据的碱基的平均值确定需要将所述分片切分为几份,例如5份。通过上述计算可以确定如图3所示出的分片切分表。
这里可以为切分后的获得的新的分片增加新的编号。在对再次切分后获得的新的分片重新编号后,还需要针对在被切分之前的分片中的所述碱基被分到哪一个新的分片中。如图3所示,对于测序基因数据中的一个碱基(4,12345678)而言,其在步骤2中被确定为划分至编号705的分片中,在步骤3中需要将原本的分片705分为4个新的分片,因此需要判断需要将所述碱基划分到哪个新的分片中。首先,根据分片切分表可知需要将原本代表106个碱基的分片切分为4份,则每份应当代表2.5×105个碱基(切分后获得的新的分片长度)。对于所述碱基,其位点12345678=12×106+345678,即所述碱基在切分后的分片中偏移了345678/2.5×105≈1个分片。假设新的分片从3510开始编号,则所述碱基应当位于划分后的编号为3511的分片中。类似地,可以针对所述编号为705以及801的分片中的每个测序基因数据中的碱基确定所处的划分后的分片的编号。
由此,便完成了针对基因数据的划分。
可以看到,通过上述实施例,可以将测序基因数据依照碱基数量均匀地分配到各个分片中,并且在划分的过程中完成了针对测序基因数据以及参考基因序列的匹配过程,克服了由于负载不均而在并行处理基因数据时可能产生的“长尾效应”,由此加快了处理基因数据的速度。
可以理解,一个参考基因序列包含了极其大量的碱基,以人类的参考基因序列为例,其DNA、RNA共包含了约30亿个碱基,针对这样数量级的参考基因序列以及测序基因数据进行各种操作的计算量非常大。因此,发明人认为可以采用诸如Spark等针对大规模数据处理的计算平台进行处理,例如利用Spark环境中集成的Indel Realignment、Base QualityScore Recalibration、Haplotype Caller和Mutect等算法。
根据本发明的优选实施例,可以在Spark平台中实现如前文中所述针对基因数据的划分方法,例如,在采用Indel Realignment、Base Realibration等基于数据划分而实施的算法之前对基因数据进行划分,并且将与所获得的每个分片对应的测序基因数据封装为一个RDD格式的弹性数据集,以在实施上述基于数据划分的算法时针对多个弹性数据集并行地进行数据清理以及变异检测。例如,在步骤1和/或步骤2和/或步骤3中广播、存储每个参考基因片段的起始分片编号的数据结构,在SAM record组成的RDD上将SAM record转换为与partition id相关的元组。为了在随后的步骤中,例如在随后的data clean、variantcalling操作中使用所述SAM record RDD,还可以对其进行缓存。
此外,发明人还认识到,在本领域中对测序基因数据进行的处理通常包括三个顺序执行的操作,即将测序基因数据与参考基因序列进行比对(mapping,所述步骤已在前文中进行了解释)、对测序基因数据进行数据清理和去冗余(data clean)、以及根据测序基因数据中的碱基检测是否发生变异(variant calling)。针对基因数据进行并行处理可以加快处理过程,然而若是针对上述三个操作均分别执行数据的切分、处理、以及合并,这样是不可取的。
图4示出了基于传统的基因处理流程,针对基因处理的每一项操作均执行切分、并行处理、合并,则所述基因数据处理方法包括:
步骤11.确定用于执行所述三个操作的多个虚拟节点(服务器),将其中一个节点作为控制节点、将其余节点作为处理节点;
步骤12.由控制节点将基因数据切分为多份,并将各份数据发往相应的处理节点进行Mapping操作;
步骤13.处理节点将处理后的数据返回至控制节点,由控制节点对各个处理器返回的结果进行合并;
步骤14.控制节点对基因数据再次地进行切分,并将各份发往相应的处理器进行Data Clean操作;
步骤15.处理节点将处理后的数据返回至控制节点,由控制节点对各个处理器返回的结果进行合并;
步骤16.控制节点对基因数据再次地进行切分,并将各份发往相应的处理器进行Variant Calling操作;
步骤17.处理节点将处理后的数据返回至控制节点,由控制节点对各个处理器返回的结果进行合并。
可以看到,这样的处理过程非常地繁琐,在执行完每一项Mapping、Data Clean、以及Variant Calling操作之后,为了在随后的操作中使用前一操作中的结果必须由控制节点对各个处理节点的处理后的数据进行汇总以及重分配。而发明人在使用Spark平台的过程中发现,可以利用Spark平台中RDD格式的弹性数据集的特性来简化上述处理过程。这是由于RDD属于一种弹性数据集,在处理节点的处理过程中,可以在RDD中保存处理的中间结果以用于随后的处理操作。在使用时,可以首先由处理节点将来自控制节点的RDD数据集中的内容作为需要执行操作的数据,在执行完一项操作后可以将中间结果保存在RDD数据集中,并利用所述中间结果执行下一项操作。图5示出了针对基因数据处理的三种操作中采用RDD数据集的一个示例。
下面将通过一个实施例介绍将根据本发明的针对基因数据的划分方法与Spark平台结合以执行Mapping、Data Clean、以及Variant Calling操作的过程。参考图6,根据本发明的一个实施例,所述基因数据的处理方法包括:
步骤31.确定用于执行操作的多个虚拟节点(服务器),将其中一个节点作为控制节点、将其余节点作为处理节点;
步骤32.由控制节点执行根据本发明的针对基因数据的划分方法,将切分后的每份基因数据封装为一个RDD数据集,并将各个RDD数据集发往相应的处理节点;
可以理解,在执行根据本发明的针对基因数据的划分方法时,利用并完成了针对基因数据的Mapping操作;
步骤33.处理节点根据RDD数据集中的基因数据,进行Data Clean操作并将中间结果保存在该RDD数据集中;
步骤34.处理节点根据RDD数据集中的内容,进行Variant Calling操作;这里可以将结果保存在该RDD数据集中,并向控制节点返回所述RDD数据集或直接向所述控制节点返回所述结果。
应当理解,参考图7,在本发明的其他实施例中,对于在执行基因数据划分的过程中未完成Mapping操作的情况,所述基因数据的处理方法包括:
步骤21.确定用于执行操作的多个虚拟节点(服务器),将其中一个节点作为控制节点、将其余节点作为处理节点;
步骤22.由控制节点将切分后的每份基因数据封装为一个RDD数据集,并将各个RDD数据集发往相应的处理节点;
步骤23.处理节点根据RDD数据集中的基因数据进行Mapping操作并将中间结果保存在该RDD数据集中;
步骤24.处理节点根据RDD数据集中的内容,进行Data Clean操作并将中间结果保存在该RDD数据集中;
步骤25.处理节点根据RDD数据集中的内容,进行Variant Calling操作;这里可以将结果保存在该RDD数据集中,并向控制节点返回所述RDD数据集或直接向所述控制节点返回所述结果。
通过上述实施例可以看出,本发明利用Spark平台RDD格式的弹性数据集来封装基因数据,使得在执行基因数据处理的过程中不必将每次处理过程所获得的中间结果反馈到控制节点,因而无需多次地对基因数据进行切分、合并的操作。并且,通过此种方式,减少了控制节点成为数据最为集中的节点的次数,缓解了系统的压力。
需要说明的是,上述实施例中介绍的各个步骤并非都是必须的,本领域技术人员可以根据实际需要进行适当的取舍、替换、修改等。
最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管上文参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (10)

1.一种针对基因数据的处理方法,包括:
1)根据设定的分片长度,对各个参考基因片段进行分片;
2)将测序基因数据与所述参考基因片段进行比对,获得各个测序基因数据所处的分片,并针对每个分片统计处于所述分片中的测序基因数据的数量;
3)根据每个分片中的测序基因数据的数量,对包含有比其他分片更多测序基因数据的分片进行再次分片;
其中,所获得的各个分片被用于并行地对测序基因数据进行处理。
2.根据权利要求1所述的方法,其中步骤1)包括:
根据所述分片长度代表的碱基数量、以及每个参考基因片段所含的碱基数量,确定所述参考基因片段包含的分片的编号。
3.根据权利要求2所述的方法,所述步骤2)包括:
2-1)将参考基因片段与测序基因数据进行比对,确定各个测序基因数据的碱基所对应的参考基因片段以及在所述参考基因片段中的位置;
2-2)根据所述测序基因数据的碱基所对应的参考基因片段以及在所述参考基因片段中的位置,计算所述测序基因数据的碱基所属的分片的编号;
2-3)针对每个分片统计处于所述分片中的测序基因数据的碱基的数量。
4.根据权利要求3所述的方法,其中步骤3)包括:
根据每个分片中的测序基因数据的碱基的数量,将所包含测序基因数据的碱基的数量超过平均值的分片切分为多个新的分片。
5.根据权利要求4所述的方法,其中步骤3)包括:
3-1)根据全部测序基因数据的碱基总数、以及全部参考基因片段的分片总数,确定每个分片上包含测序基因数据的碱基的平均值;
3-2)将所包含测序基因数据的碱基的数量超过所述平均值的分片切分为多个新的分片。
6.根据权利要求5所述的方法,其中步骤3-3)包括:
将需要进行再次分片的分片切分为n个新的分片,其中n等于对所述分片中的测序基因数据的碱基的数量除以所述每个分片上包含测序基因数据的碱基的平均值的结果取整数。
7.根据权利要求1-6中的任意一项方法,还包括:
4)在Spark平台中,将与所获得的每个分片对应的测序基因数据封装为一个RDD格式的弹性数据集,针对多个弹性数据集并行地进行数据清理以及变异检测。
8.一种基于Spark平台的基因数据处理方法,包括:
1)将全部测序基因数据划分为多个部分;
2)将每个部分的测序基因数据封装为一个RDD格式的弹性数据集,以将每个弹性数据集分配给不同的虚拟节点;
3)由各个所述虚拟节点对弹性数据集中所包含的测序基因数据顺序地执行数据清理以及变异检测。
9.一种计算机可读存储介质,其中存储有计算机程序,所述计算机程序在被执行时用于实现如权利要求1-8中任意一项所述的方法。
10.一种用于针对基因数据进行处理的系统,包括:
处理器、和存储装置,
其中,所述存储装置用于存储计算机程序,所述计算机程序在被所述处理器执行时用于实现如权利要求1-8中任意一项所述的方法。
CN201710993693.2A 2017-10-23 2017-10-23 一种针对基因数据的处理方法 Pending CN109698010A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710993693.2A CN109698010A (zh) 2017-10-23 2017-10-23 一种针对基因数据的处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710993693.2A CN109698010A (zh) 2017-10-23 2017-10-23 一种针对基因数据的处理方法

Publications (1)

Publication Number Publication Date
CN109698010A true CN109698010A (zh) 2019-04-30

Family

ID=66226793

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710993693.2A Pending CN109698010A (zh) 2017-10-23 2017-10-23 一种针对基因数据的处理方法

Country Status (1)

Country Link
CN (1) CN109698010A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110428871A (zh) * 2019-09-26 2019-11-08 深圳华大基因科技服务有限公司 一种基于arm架构的基因测序分析方法及系统
CN110990063A (zh) * 2019-11-28 2020-04-10 中国科学院计算技术研究所 一种用于基因相似性分析的加速装置、方法和计算机设备
CN111326216A (zh) * 2020-02-27 2020-06-23 中国科学院计算技术研究所 一种针对大数据基因测序文件的快速划分方法
CN111653318A (zh) * 2019-05-24 2020-09-11 北京哲源科技有限责任公司 一种用于基因比对的加速方法、装置、存储介质与服务器
WO2021042236A1 (zh) * 2019-09-02 2021-03-11 北京哲源科技有限责任公司 疾病治疗管理因素特征自动预测方法及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101354710A (zh) * 2008-07-10 2009-01-28 北京超图软件股份有限公司 一种线段求交的方法及装置
CN106407749A (zh) * 2016-08-30 2017-02-15 上海华点云生物科技有限公司 寻找样本的染色体突变位点的分析方法和分析装置
CN106446254A (zh) * 2016-10-14 2017-02-22 北京百度网讯科技有限公司 文件检测方法和装置
CN107220123A (zh) * 2017-05-25 2017-09-29 郑州云海信息技术有限公司 一种解决Spark数据倾斜方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101354710A (zh) * 2008-07-10 2009-01-28 北京超图软件股份有限公司 一种线段求交的方法及装置
CN106407749A (zh) * 2016-08-30 2017-02-15 上海华点云生物科技有限公司 寻找样本的染色体突变位点的分析方法和分析装置
CN106446254A (zh) * 2016-10-14 2017-02-22 北京百度网讯科技有限公司 文件检测方法和装置
CN107220123A (zh) * 2017-05-25 2017-09-29 郑州云海信息技术有限公司 一种解决Spark数据倾斜方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
XUEQI LI等: "Accelerating Large-Scale Genomic Analysis with Spark", 《2016 IEEE INTERNATIONAL CONFERENCE ON BIOINFORMATICS AND BIOMEDICINE (BIBM)》 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111653318A (zh) * 2019-05-24 2020-09-11 北京哲源科技有限责任公司 一种用于基因比对的加速方法、装置、存储介质与服务器
CN111653318B (zh) * 2019-05-24 2023-09-15 北京哲源科技有限责任公司 一种用于基因比对的加速方法、装置、存储介质与服务器
WO2021042236A1 (zh) * 2019-09-02 2021-03-11 北京哲源科技有限责任公司 疾病治疗管理因素特征自动预测方法及电子设备
CN112771618A (zh) * 2019-09-02 2021-05-07 北京哲源科技有限责任公司 疾病治疗管理因素特征自动预测方法及电子设备
CN110428871A (zh) * 2019-09-26 2019-11-08 深圳华大基因科技服务有限公司 一种基于arm架构的基因测序分析方法及系统
CN110990063A (zh) * 2019-11-28 2020-04-10 中国科学院计算技术研究所 一种用于基因相似性分析的加速装置、方法和计算机设备
CN111326216A (zh) * 2020-02-27 2020-06-23 中国科学院计算技术研究所 一种针对大数据基因测序文件的快速划分方法

Similar Documents

Publication Publication Date Title
CN109698010A (zh) 一种针对基因数据的处理方法
Alser et al. Technology dictates algorithms: recent developments in read alignment
AU2020201622B2 (en) Methods and system for detecting sequence variants
US20230044434A1 (en) Methods and systems for detecting sequence variants
Wang et al. Ascomycota has a faster evolutionary rate and higher species diversity than Basidiomycota
Bloom Identification of positive selection in genes is greatly improved by using experimentally informed site-specific models
US20160171153A1 (en) Bioinformatics Systems, Apparatuses, And Methods Executed On An Integrated Circuit Processing Platform
US20170277827A1 (en) Ancestral human genomes
Wang et al. The pace of hybrid incompatibility evolution in house mice
Wise et al. Departure from neutrality at the mitochondrial NADH dehydrogenase subunit 2 gene in humans, but not in chimpanzees
US20050227278A1 (en) Recursive categorical sequence assembly
US11816580B2 (en) Optimal solution determination method, optimal solution determination program, and optimal solution determination device
CN103761453B (zh) 一种基于簇图结构的并行基因拼接方法
CN108108592B (zh) 一种用于遗传变异致病性打分的机器学习模型的构建方法
HUE034642T2 (en) A method for selecting an optimized diverse population of variants
Narechania et al. Random addition concatenation analysis: a novel approach to the exploration of phylogenomic signal reveals strong agreement between core and shell genomic partitions in the cyanobacteria
Peterson et al. MicroRNAs as indicators into the causes and consequences of whole-genome duplication events
Chang et al. Patterns of clade support across the major lineages of moss phylogeny
Wang et al. Interploidy introgression shaped adaptation during the origin and domestication history of Brassica napus
Basantani et al. An update on bioinformatics resources for plant genomics research
Saeed et al. A high performance multiple sequence alignment system for pyrosequencing reads from multiple reference genomes
Orobitg et al. Exploiting parallelism on progressive alignment methods
Gil et al. Application of risks scores in acute coronary syndromes. How does ProACS hold up against other risks scores?
US6047109A (en) Methods and systems for re-evaluating assembly consensus sequences
Li et al. The complete mitochondrial genome of Coptotermes ‘suzhouensis’(syn. Coptotermes formosanus)(Isoptera: Rhinotermitidae) and molecular phylogeny analysis

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20190430