CN106407743B - 一种基于集群的高通量数据分析方法 - Google Patents

一种基于集群的高通量数据分析方法 Download PDF

Info

Publication number
CN106407743B
CN106407743B CN201610788828.7A CN201610788828A CN106407743B CN 106407743 B CN106407743 B CN 106407743B CN 201610788828 A CN201610788828 A CN 201610788828A CN 106407743 B CN106407743 B CN 106407743B
Authority
CN
China
Prior art keywords
data
file
result data
cpu
memory
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610788828.7A
Other languages
English (en)
Other versions
CN106407743A (zh
Inventor
杨飞
陈昌岳
任一
占雪峰
张祥林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHANGHAI MAJORBIO PHARM TECHNOLOGY Co Ltd
Original Assignee
SHANGHAI MAJORBIO PHARM TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHANGHAI MAJORBIO PHARM TECHNOLOGY Co Ltd filed Critical SHANGHAI MAJORBIO PHARM TECHNOLOGY Co Ltd
Priority to CN201610788828.7A priority Critical patent/CN106407743B/zh
Publication of CN106407743A publication Critical patent/CN106407743A/zh
Application granted granted Critical
Publication of CN106407743B publication Critical patent/CN106407743B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations

Landscapes

  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Biotechnology (AREA)
  • Biophysics (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Analytical Chemistry (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

一种高通量数据分析方法,一种高通量数据分析方法,对高通量测序下机数据的处理包括:对下机数据进行数据分割;在对下机数据进行数据分割后,生成多个前数据片文件,在与参考基因组的所以比对完成后,将生成的多个比对结果片文件合并为一个比对结果文件;预先指定一个区域文件,将其分割成指定的多个区域子文件;将所述比对结果文件根据指定的多个区域子文件抽取数据进行再次分割,生成多个后数据片文件,提供给后续步骤处理。对于分割后获得的多个数据片的运算处理,采用集群管理工具分配包括计算节点,以及相应的CPU和内存的计算资源。

Description

一种基于集群的高通量数据分析方法
技术领域
本发明属于基因测序技术领域,特别涉及一种基于集群的高通量数据分析方法。
背景技术
高通量基因测序技术又称“下一代”测序(next-generation sequencing,NGS)技术,可以一次性测定几十万甚至几百万条序列,是现今应用最广泛的测序技术。相对于传统的Sanger测序技术,NGS具有高速、高通量、低价格等优点。
基于高通量测序的变异检测在近年发展迅猛,现今又恰逢精准医疗的大力推广,变异检测的需求面临爆发式的增长。在变异检测的过程中,处理GB级别甚至上百GG的数据量是很普遍的情形,常规分析时间从几个小时到几天不等,医生或病人获知检测报告的时间较长,是精准医疗面临的一个问题。
除了提高硬件性能外,常用的加速变异检测的方式是使用多线程的方式对数据进行处理,然而基于应用程序多线程的加速处理对分析速度的提升有限,并且有所限制,如果应用程序不支持多线程,则此种加速则无法进行。
现今有基于分布式文件系统的Map Reduce加速方法,效果是很好的,但是这种方法需要对分布式文献系统有所了解,需要掌握相应的对口语言编程(比如java),部署较为困难,使用相较复杂,不利于这种并行计算方式在分析高通量测序数据方面的实施。
申请号CN201510192260.8的专利文献,涉及“一种超快速检测人类基因组单碱基突变和微插入缺失的方法,是一种能从人基因组DNA测序结果中快速地检测出单碱基突变、微插入缺失的可行方法”。该申请“通过把人参考基因组序列科学有效地切分为小的子参考序列块,把人重测序中的几乎全部步骤(包括分析时间较长的步骤)都切分为计算复杂度大大降低的子任务块,而各子任务块之间相互不影响,最后把从各子参考序列块中得到的遗传多态性信息进行去冗余、校正,然后过滤,从而得到原人重测序流程中需要获取的遗传多态性信息”。该申请认为上述方案解决了人重测序生物信息分析时间过长的问题,然而,该文献对于高通量基因测序技术并没有涉及,没有给出解决现有高通量基因测序方案中所存在问题的建议。
可见,现有的方案只能作全基因组数据的并行处理,对于全外显子或目标测序的情形不能较好应对,另外如果并行处理的任务数做了改变,需要重新分割参考基因组并作索引,增加了分析的时间和不便。
发明内容
本发明提供一种基于集群的高通量数据分析方法,该方法也是一种用于变异检测的通用简易的并行计算方法,用于加速整个分析过程。
本发明的技术方案是,一种高通量数据分析方法,对高通量测序下机数据的处理包括:
对下机数据进行数据分割;
对于分割后获得的多个数据片的运算处理,采用集群管理工具分配包括计算节点,以及相应的CPU和内存的计算资源。
优选的,在对下机数据进行数据分割后,生成多个前数据片文件,在与参考基因组的所有比对完成后,将生成的多个比对结果片文件合并为一个比对结果文件;
预先指定一个区域文件,将其分割成指定的多个区域子文件;
将所述比对结果文件根据指定的多个区域子文件抽取数据进行再次分割,生成多个后数据片文件,提供给后续步骤处理。
前数据片文件和后数据片文件均为以行为每条记录单位的区隔,做分割处理时,预先设定文件的总行数,以此控制产生的片文件数量,也由此设定需要并行处理的任务数。
优选的,该分析方法用于变异检测,测序下机数据文件为fastq格式。
优选的,该分析方法运行于linux系统,使用linux shell编程,集群管理工具使用torque。
一种高通量数据分析方法,包括以下步骤:
(1)对高通量测序下机数据进行数据分割,测序原始数据为fastq格式,下机数据是经过压缩的;
(2)使用torque对分割的数据分配计算节点、CPU和内存,作剪切adaptor序列、末端无效序列、低质量末端序列的处理,结果数据格式为fastq;
(3)使用torque对步骤(2)获得的结果数据分别分配计算节点、CPU和内存,将reads比对到参考基因组,结果数据格式为sam;
(4)使用torque对步骤(3)获得的结果数据分别分配计算节点、CPU和内存,对比对结果文件作的处理包括,对比对结果进行排序、去除比对质量低的部分比对结果、将比对结果数据作压缩和对比对结果作索引,结果数据格式为bam;
(5)使用torque对步骤(4)获得的结果数据分配计算节点、CPU和内存,将所有比对结果文件整合为一个总比对文件,结果数据格式为bam;
(6)使用预先指定的目标区域文件,将此目标区域文件包含的区域分割成指定的多个目标区域子文件,目标区域文件使用bed格式;
(7)按照各自的目标区域文件,使用torque对将步骤(5)获得的结果文件分配计算节点、CPU和内存,分割比对文件重新分割为多个文件,每个文件的比对数据比对到的区域只包含各自目标区域,结果数据格式为bam;
(8)使用torque对步骤(7)获得的结果数据分别分配计算节点、CPU和内存,作去除PCR引起的重复序列的处理,结果数据格式为bam;
(9)使用torque对步骤(8)获得的结果数据分别分配计算节点、CPU和内存,作indel区域再比对的处理,结果数据格式为bam;
(10)使用torque对步骤(9)获得的结果数据分别分配计算节点、CPU和内存,作碱基质量值再校正的处理,结果数据格式为bam;
(11)使用torque对步骤(10)获得的结果数据分别分配计算节点、CPU和内存,作SNP calling和INDEL calling,结果数据格式为vcf;
(12)使用torque对步骤(11)获得的结果数据分别分配计算节点、CPU和内存,对变异进行过滤和注释,结果数据格式为vcf;
(13)使用torque对步骤(12)获得的结果数据分别分配计算节点、CPU和内存,将所有的变异结果文件进行整合,结果数据格式为txt、xls、pdf或html。
本发明通过提供一个区域文件来定位各个任务对应的参考基因组的区域,能应对全基因组,全外显子,目标测序等,并很方便地扩展到其他分析上,比如拷贝数变异的分析。同时本发明还能灵活指定分析的并行处理任务数,根据任务数将提供的目标区域作分割,定位并行处理各自对应的参考基因组的区域,这可以灵活充分利用计算机资源。
用本发明的方法对高通量基因测序数据进行数据分割和并行化处理和分析,极大提高了分析速度。比如说,如果将原始数据分割成十份数据同时处理,在良好的情形,可以减小分析时间接近于原来的十分之一,因为分析时会有数据分割和再整合的过程。计算资源越多,分析数据越大,可以将数据分割为更多部分并行处理,本方法的效果更为明显。
附图说明
图1是本发明的数据分析方法中部分流程示意图。
图2是本发明的数据分析方法中部分流程示意图。
具体实施方式
如图1所示,对高通量测序下机数据进行数据分割。在对下机数据进行数据分割后,产生n个数据片文件。这些数据片文件在与参考基因组的所有比对完成后,将生成的n个比对结果片文件合并为一个比对结果文件。
如图2所示,预先指定一个区域文件,将其分割成指定的n个区域子文件。将所述比对结果文件根据指定的n个区域子文件抽取数据进行再次分割,生成n个数据片文件,提供给后续步骤处理。
上述的数据片文件均为以行为每条记录单位的区隔,做分割处理时,预先设定文件的总行数,以此控制产生的片文件数量,也由此设定需要并行处理的任务数。
对于分割后获得的多个数据片的运算处理,采用集群管理工具分配包括计算节点,以及相应的CPU和内存的计算资源。
本发明提供的一个实施例如下。
一种基于集群的高通量数据分析加速方法,用于变异检测,其步骤包括,(优选的,运行平台为linux,优选的,主程序使用linux shell编程。计算机集群系统基于hadoop框架。优选的,集群管理系统使用torque):
1)对高通量测序下机数据进行数据分割;优选的,所述测序原始数据为fastq格式,下机数据通常经过压缩。比如经由gzip压缩的数据后缀通常写作.fastq.gz。优选的,数据分割使用linux系统下的命令cat,zcat,gzip,pigz,split实现。
2)使用集群管理工具对分割的数据分别分配计算节点,CPU,内存作剪切adaptor序列,末端无效序列,低质量末端序列的处理,同时监测各个小任务的完成情况;优选的,中间结果数据格式为fastq,使用工具cutadapt。
3)待2)中相应小任务处理完成,使用集群管理工具对2)的中间结果数据分别分配计算节点,CPU,内存,将reads比对到参考基因组,同时监测各个小任务完成情况;优选的,中间结果数据格式为sam,使用工具bwa mem。
4)待3)中相应小任务处理完成,使用集群管理工具对3)的中间结果数据分别分配计算节点,CPU,内存,对比对结果文件作相关处理:对比对结果进行排序,去除比对质量低的部分比对结果,将比对结果数据作压缩,对比对结果作索引。同时监测各个小任务完成情况;优选的,中间结果数据格式为bam,使用工具samtools view,samtools sort,samtoolsindex。
5)待4)中各个任务处理完成,使用集群管理工具对4)的所有中间结果数据分配计算节点,CPU,内存,将所有比对结果文件整合为一个文件。同时监测此任务完成情况;优选的,中间结果数据格式为bam,使用工具samtools merge,samtools index。
6)使用预先指定的目标区域文件,将此目标区域文件包含的区域分割成指定的多个目标区域文件。同时监测各个小任务完成情况;优选的,目标区域文件使用bed格式,分割目标区域使用python语言编写程序实现。
7)待6)中任务处理完成,按照各自的目标区域文件,将5)中的结果文件分配计算节点,CPU,内存,重新分割为多个文件,每个文件的比对数据比对到的区域只包含各自目标区域。同时监测各个小任务完成情况;优选的,中间结果数据格式为bam,使用samtoolsview-L分割比对文件。
8)待7)中任务处理完成,使用集群管理工具对7)的中间结果数据分别分配计算节点,CPU,内存,分别作去除PCR等引起的重复序列的处理。同时监测各个小任务完成情况;优选的,中间结果数据格式为bam,使用picard MarkDuplicates.jar工具作处理。
9)待8)中任务处理完成,使用集群管理工具对8)的中间结果数据分别分配计算节点,CPU,内存,分别作indel区域再比对的处理。同时监测各个小任务完成情况;优选的,中间结果数据格式为bam,使用gatk RealignerTargetCreator,gatk IndelRealigner工具作处理。
10)待9)中任务处理完成,使用集群管理工具对9)的中间结果数据分别分配计算节点,CPU,内存,分别作碱基质量值再校正的处理。同时监测各个小任务完成情况;优选的,中间结果数据格式为bam,使用gatk BaseRecalibrator,gatkPrintReads工具作处理。
11)待10)中任务处理完成,使用集群管理工具对10)的中间结果数据分别分配计算节点,CPU,内存,分别作SNP calling和INDEL calling。同时监测各个小任务完成情况;优选的,中间结果数据格式为vcf,使用gatk UnifiedGenotyper工具作处理。
12)待11)中任务处理完成,使用集群管理工具对11)的中间结果数据分别分配计算节点,CPU,内存,对变异进行过滤和注释。同时监测各个小任务完成情况;优选的,中间结果数据格式为vcf,使用gatk VariantFiltration,gatk CombineVariants,snpEff,snpsift,VEP,annovar工具作处理。
13)待12)中任务处理完成,使用集群管理工具对12)的中间结果数据分别分配计算节点,CPU,内存,将所有的变异结果文件进行整合。优选的,结果数据格式为txt,xls,pdf,html等。使用perl,python,R,matlab等语言编写程序进行处理。
根据上述实施例,以全外显子分析为例,通过指定每个文件的总行数的数值,我们能控制分割的文件的个数。如果计算机资源较多,我们可以指定较小的总行数数值,生成较多的文件数作并行处理,反之可以指定较大的总行数数值。
以此我们首先将原始fastq文件分割成多个fastq文件,再将分割后的文件通过并行处理的方式分别比对到参考基因组,接下来我们将比对的文件合并成一个文件并排序。之后,我们将全外显子区域文件分割成指定个数的多个区域文件,每个区域文件包括全外显子区域的部分区域。通过分割成的各个区域文件,我们从合并成的比对文件抽取对应区域的比对数据,形成多个比对文件。接下来,我们对这些比对文件并行处理,加快分析速度。如果计算机资源较多,我们可以指定较大的并行处理任务数目,如果计算机资源较少,我们指定少的任务数。另外,依次进行的各个分析通常使用不同的计算机资源,通过集群管理系统的按需调配,提高了资源利用率。
另外,流程中大量使用了gatk集中的多个多个工具,通过人为限定分析时所对应的区域,能另外加快程序运行,在理论中更能提高分析的准确度。以全基因组的分析时间来看,从比对到基因型检测,再到注释和过滤,我们有记录的结果是把大于一周的分析时间,缩短到十二个小时完成,速度是高于原来的十四倍。

Claims (5)

1.一种高通量数据分析方法,其特征在于,对高通量测序下机数据的处理包括:
对下机数据进行数据分割;
在对下机数据进行数据分割后,生成多个前数据片文件,在与参考基因组的所有比对完成后,将生成的多个比对结果片文件合并为一个总比对文件;
预先指定一个区域文件,将其分割成指定的多个区域子文件;
将所述总比对文件根据指定的多个区域子文件抽取数据进行再次分割,生成多个后数据片文件,提供给后续步骤处理;
对于分割后获得的多个数据片的运算处理,采用集群管理工具分配包括计算节点,以及相应的CPU和内存的计算资源。
2.如权利要求1所述的高通量数据分析方法,其特征在于,
前数据片文件和后数据片文件均为以行为每条记录单位的区隔,做分割处理时,预先设定文件的总行数,以此控制产生的片文件数量,也由此设定需要并行处理的任务数。
3.如权利要求1所述的高通量数据分析方法,其特征在于,该分析方法用于变异检测,测序下机数据文件为fastq格式。
4.如权利要求1所述的高通量数据分析方法,其特征在于,该分析方法运行于linux系统,使用linux shell编程,集群管理工具使用torque。
5.如权利要求4所述的高通量数据分析方法,其特征在于,包括以下步骤:
(1)对高通量测序下机数据进行数据分割,测序原始数据为fastq格式,下机数据是经过压缩的;
(2)使用torque对分割的数据分配计算节点、CPU和内存,作剪切adaptor序列、末端无效序列、低质量末端序列的处理,结果数据格式为fastq;
(3)使用torque对步骤(2)获得的结果数据分别分配计算节点、CPU和内存,将reads比对到参考基因组,结果数据格式为sam;
(4)使用torque对步骤(3)获得的结果数据分别分配计算节点、CPU和内存,对比对结果文件作的处理包括,对比对结果进行排序、去除比对质量低的部分比对结果、将比对结果数据作压缩和对比对结果作索引,结果数据格式为bam;
(5)使用torque对步骤(4)获得的结果数据分配计算节点、CPU和内存,将所有比对结果文件整合为一个总比对文件,结果数据格式为bam;
(6)使用预先指定的目标区域文件,将此目标区域文件包含的区域分割成指定的多个目标区域子文件,目标区域文件使用bed格式;
(7)按照各自的目标区域文件,使用torque对将步骤(5)获得的总比对文件分配计算节点、CPU和内存,分割总比对文件为多个文件,每个文件的比对数据比对到的区域只包含各自目标区域,结果数据格式为bam;
(8)使用torque对步骤(7)获得的结果数据分别分配计算节点、CPU和内存,作去除PCR引起的重复序列的处理,结果数据格式为bam;
(9)使用torque对步骤(8)获得的结果数据分别分配计算节点、CPU和内存,作indel区域再比对的处理,结果数据格式为bam;
(10)使用torque对步骤(9)获得的结果数据分别分配计算节点、CPU和内存,作碱基质量值再校正的处理,结果数据格式为bam;
(11)使用torque对步骤(10)获得的结果数据分别分配计算节点、CPU和内存,作SNPcalling和INDEL calling,结果数据格式为vcf;
(12)使用torque对步骤(11)获得的结果数据分别分配计算节点、CPU和内存,对变异进行过滤和注释,结果数据格式为vcf;
(13)使用torque对步骤(12)获得的结果数据分别分配计算节点、CPU和内存,将所有的变异结果文件进行整合,结果数据格式为txt、xls、pdf或html。
CN201610788828.7A 2016-08-31 2016-08-31 一种基于集群的高通量数据分析方法 Active CN106407743B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610788828.7A CN106407743B (zh) 2016-08-31 2016-08-31 一种基于集群的高通量数据分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610788828.7A CN106407743B (zh) 2016-08-31 2016-08-31 一种基于集群的高通量数据分析方法

Publications (2)

Publication Number Publication Date
CN106407743A CN106407743A (zh) 2017-02-15
CN106407743B true CN106407743B (zh) 2019-03-05

Family

ID=58000544

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610788828.7A Active CN106407743B (zh) 2016-08-31 2016-08-31 一种基于集群的高通量数据分析方法

Country Status (1)

Country Link
CN (1) CN106407743B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106777262B (zh) * 2016-12-28 2020-07-03 上海华点云生物科技有限公司 高通量测序数据质量过滤方法和过滤装置
CN107506618B (zh) * 2017-07-07 2020-12-08 北京中科晶云科技有限公司 高通量测序序列的存储方法和查询方法
CN108456622B (zh) * 2018-01-26 2022-03-11 深圳市博瑞生物科技有限公司 一种数据存储方法和装置
CN111199777B (zh) * 2019-12-24 2023-09-29 西安交通大学 面向生物大数据的流式传输与变异实时挖掘系统及方法
CN111767256B (zh) * 2020-05-22 2023-10-20 北京和瑞精湛医学检验实验室有限公司 一种从fastq文件分离出样本read数据的方法
WO2021253346A1 (zh) * 2020-06-18 2021-12-23 李雨澄 数据传输计算方法,装置及存储介质
CN113299344A (zh) * 2021-06-23 2021-08-24 深圳华大医学检验实验室 基因测序分析方法、装置、存储介质和计算机设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103049680A (zh) * 2012-12-29 2013-04-17 深圳先进技术研究院 基因测序数据读取方法及系统
CN103824001A (zh) * 2014-02-27 2014-05-28 北京诺禾致源生物信息科技有限公司 染色体的检测方法和装置
CN104063631A (zh) * 2014-06-13 2014-09-24 周家锐 一种面向大数据的代谢组特征数据分析方法及其系统
CN104762402A (zh) * 2015-04-21 2015-07-08 广州定康信息科技有限公司 超快速检测人类基因组单碱基突变和微插入缺失的方法
CN105095686A (zh) * 2014-05-15 2015-11-25 中国科学院青岛生物能源与过程研究所 基于多核cpu硬件的高通量转录组测序数据质量控制方法
CN105349678A (zh) * 2015-12-03 2016-02-24 上海美吉生物医药科技有限公司 一种染色体拷贝数变异的检测方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160186262A1 (en) * 2013-01-23 2016-06-30 Reproductive Genetics And Technology Solutions, Llc Compositions and methods for genetic analysis of embryos
CN104699998A (zh) * 2013-12-06 2015-06-10 国际商业机器公司 用于对基因组进行压缩和解压缩的方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103049680A (zh) * 2012-12-29 2013-04-17 深圳先进技术研究院 基因测序数据读取方法及系统
CN103824001A (zh) * 2014-02-27 2014-05-28 北京诺禾致源生物信息科技有限公司 染色体的检测方法和装置
CN105095686A (zh) * 2014-05-15 2015-11-25 中国科学院青岛生物能源与过程研究所 基于多核cpu硬件的高通量转录组测序数据质量控制方法
CN104063631A (zh) * 2014-06-13 2014-09-24 周家锐 一种面向大数据的代谢组特征数据分析方法及其系统
CN104762402A (zh) * 2015-04-21 2015-07-08 广州定康信息科技有限公司 超快速检测人类基因组单碱基突变和微插入缺失的方法
CN105349678A (zh) * 2015-12-03 2016-02-24 上海美吉生物医药科技有限公司 一种染色体拷贝数变异的检测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"基于Hadoop的人类全基因组重测序数据处理技术的研究及实现";林晶晶;《中国优秀硕士学位论文全文数据库 基础科学辑》;20160415(第4期);第A006-236页
"基于并行计算的大规模外显子芯片数据分析";张武军 等;《数据采集与处理》;20150915;第30卷(第5期);第1080-1081页第1.2节
"植物基因组结构变异识别方法研究";陈纪岭;《中国优秀硕士学位论文全文数据库 基础科学辑》;20160215(第2期);第A006-61页

Also Published As

Publication number Publication date
CN106407743A (zh) 2017-02-15

Similar Documents

Publication Publication Date Title
CN106407743B (zh) 一种基于集群的高通量数据分析方法
Davis et al. Kraken: a set of tools for quality control and analysis of high-throughput sequence data
US11898206B2 (en) Systems and methods for clonotype screening
CN108573125B (zh) 一种基因组拷贝数变异的检测方法及包含该方法的装置
CN104762402B (zh) 超快速检测人类基因组单碱基突变和微插入缺失的方法
CN110033860B (zh) 一种基于机器学习的遗传代谢病检出率提升方法
CN108108592B (zh) 一种用于遗传变异致病性打分的机器学习模型的构建方法
CN109243530B (zh) 遗传变异判定方法、系统以及存储介质
EP3428798B1 (en) Resource allocation method and device for genetic analysis
WO2022267867A1 (zh) 基因测序分析方法、装置、存储介质和计算机设备
US20220112556A1 (en) Method and system for calculating tumor neoantigen burden
Arrigoni et al. Analysis RNA-seq and Noncoding RNA
CN111081315A (zh) 一种同源假基因变异检测的方法
Rybakowska et al. Data processing workflow for large-scale immune monitoring studies by mass cytometry
US10424396B2 (en) Computation pipeline of location-dependent variant calls
CN112599252A (zh) 慢性病案特征分类处理方法、装置及终端
CN110570901B (zh) 一种基于测序数据进行ssr分型的方法及系统
CN115295084A (zh) 一种肿瘤新抗原免疫组库数据可视化分析方法和系统
CN111027599B (zh) 基于随机抽样的聚类可视化方法及装置
CN110895542B (zh) 高风险sql语句筛选方法及装置
Wu et al. Hadoop-EDF: Large-scale distributed processing of electrophysiological signal data in hadoop MapReduce
RU2804535C1 (ru) Система обработки данных полногеномного секвенирования
KR102483880B1 (ko) 복수의 데이터베이스 정보를 기반으로 하는 질병 프로파일링 정보 제공 시스템 및 그 방법
Gupta et al. A bioinformatics pipeline for processing and analysis of whole transcriptome sequence data
CN112866044B (zh) 网络设备状态信息采集方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CB03 Change of inventor or designer information

Inventor after: Ren Yi

Inventor after: Zhang Xianglin

Inventor after: Zhan Xuefeng

Inventor after: Yang Fei

Inventor after: Chen Changyue

Inventor before: Yang Fei

Inventor before: Chen Changyue

Inventor before: Ren Yi

Inventor before: Zhan Xuefeng

Inventor before: Zhang Xianglin

CB03 Change of inventor or designer information