CN106599614B - 一种高通量测序数据处理及分析流程控制方法及系统 - Google Patents

一种高通量测序数据处理及分析流程控制方法及系统 Download PDF

Info

Publication number
CN106599614B
CN106599614B CN201610978322.2A CN201610978322A CN106599614B CN 106599614 B CN106599614 B CN 106599614B CN 201610978322 A CN201610978322 A CN 201610978322A CN 106599614 B CN106599614 B CN 106599614B
Authority
CN
China
Prior art keywords
analysis
configuration file
parameter configuration
file
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610978322.2A
Other languages
English (en)
Other versions
CN106599614A (zh
Inventor
刘宇婧
任永永
全雪萍
郝占平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Vishuo Medical Data Technology Beijing Co ltd
Original Assignee
Vishuo Medical Data Technology Beijing Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Vishuo Medical Data Technology Beijing Co ltd filed Critical Vishuo Medical Data Technology Beijing Co ltd
Priority to CN201610978322.2A priority Critical patent/CN106599614B/zh
Publication of CN106599614A publication Critical patent/CN106599614A/zh
Application granted granted Critical
Publication of CN106599614B publication Critical patent/CN106599614B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biophysics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

本发明涉及一种高通量测序数据处理及分析流程控制方法及系统,涉及分子生物信息学领域。设定流程参数配置文件,储存分析模块脚本路径和参考基因组数据库;根据用户操作生成描述样本数据信息和分析需求的参数配置文件;设定分析参数配置文件和功能应用,分别储存针对不同需求分析的参数和分析过程中所应用的功能;将描述样本数据信息、分析需求的参数配置文件与分析参数配置文件进行匹配,并调用流程参数配置文件进行处理获得处理结果文件。本发明提供一种通过不同数据处理模块的选取,帮助科研人员迅速完成标准化的高通量数据分析流程,从而优化科研人员和数据分析专员的工作时间分配,提升工作效率、降低总体科研成本。

Description

一种高通量测序数据处理及分析流程控制方法及系统
技术领域
本发明涉及分子生物信息学领域,具体涉及DNA测序数据分析技术领域。
背景技术
新一代高通量测序技术的出现极大地丰富了人们利用分子生物学手段研究细胞内变化规律的方案。目前诸如全基因组测序,全外显子测序,全转录组测序以及靶向目标重测序等在内的众多高通量测序技术,都有相关的分析方法或分析流程供科研人员使用,并总结出相应的数据处理分析的标准流程。但是,如何高效地选择使用这些标准化的分析流程,降低科研人员在数据分析时的重复劳动,数据分析的时间成本,选择适合分析目的的流程,过滤参数目前仍然没有一个有效的解决方案供广大技术从业人员参考,这无形中增加了数据分析人员的工作负担。
发明内容
本发明为了解决上述现有技术当中所存在的问题,提出了一种高通量测序数据处理及分析流程控制方法及系统。
本发明解决上述技术问题的技术方案如下:一种高通量测序数据处理及分析流程控制方法,所述方法包括:
S1、设定流程参数配置文件,储存分析模块脚本路径和参考基因组数据库;
S2、根据用户操作生成描述样本数据信息和分析需求的参数配置文件;
S3、设定分析参数配置文件和功能应用,分别储存针对不同需求分析的参数和分析过程中所应用的功能;
S4、将描述样本数据信息、分析需求的参数配置文件与分析参数配置文件进行匹配,并调用流程参数配置文件进行处理获得处理结果文件。
本发明的有益效果是:本发明提供一种通过不同数据处理模块的选取,帮助科研人员迅速完成标准化的高通量数据分析流程,从而优化科研人员和数据分析专员的工作时间分配,提升工作效率、降低总体科研成本。
在上述技术方案的基础上,本发明还可以做如下改进。
进一步,所述S1中所述的流程参数配置文件用于储存多种高通量分析流程名称信息、参考基因路径信息和参考数据库路径信息。
进一步,所述S2中生成的描述样本数据信息包括测序结果文件类型、样本来源、样本标识、组织类型、疾病名称、测序平台、建库方法和人种中的一种或几种。
进一步,所述S3中所述的分析参数配置文件用于储存针对不同疾病、测序结果文件类型、样本来源、样本标识、测序平台、建库方法、分析需求和分析流程的参数。
进一步,所述S4具体包括:
S41、将S2中生成的描述样本数据信息和分析需求的参数配置文件与S3中设定的分析参数配置文件进行匹配;
S42、根据疾病、测序结果文件类型、样本来源、样本标识、测序平台、建库方法以及分析需求调用S1中流程参数配置文件生成符合数据特征和需求的分析流程;
S43、根据S2中数据信息和分析需求选择S3中设定的分析参数配置文件中的过滤参数,实现数据分析流程运作,获得处理结果文件。
为了解决上述问题,本发明还提出了一种高通量测序数据处理及分析流程控制系统,所述系统包括:
流程参数配置文件设置模块,用于设定流程参数配置文件,储存分析模块脚本路径和参考基因组数据库;
配置文件生成模块,用于根据用户操作生成描述样本数据信息和分析需求的参数配置文件;
分析参数配置文件设置模块,用于设定分析参数配置文件和功能应用,分别储存针对不同需求分析的参数和分析过程中所应用的功能;
文件处理模块,用于将描述样本数据信息、分析需求的参数配置文件与分析参数配置文件进行匹配,并调用流程参数配置文件进行处理获得处理结果文件。
本发明的有益效果是:本发明提供一种通过不同数据处理模块的选取,帮助科研人员迅速完成标准化的高通量数据分析流程,从而优化科研人员和数据分析专员的工作时间分配,提升工作效率、降低总体科研成本。
进一步,流程参数配置文件设置模块中所述的流程参数配置文件用于储存多种高通量分析流程名称信息、参考基因路径信息和参考数据库路径信息。
进一步,配置文件生成模块中生成的描述样本数据信息包括测序结果文件类型、样本来源、样本标识、组织类型、疾病名称、测序平台、建库方法和人种中的一种或几种。
进一步,分析参数配置文件设置模块中所述的分析参数配置文件用于储存针对不同疾病、测序结果文件类型、样本来源、样本标识、测序平台、建库方法、分析需求和分析流程的参数。
进一步,文件处理模块包括:
匹配模块,用于将配置文件生成模块中生成的描述样本数据信息和分析需求的参数配置文件与分析参数配置文件设置模块中设定的分析参数配置文件进行匹配;
调用模块,用于根据疾病、测序结果文件类型、样本来源、样本标识、测序平台、建库方法以及分析需求调用流程参数配置文件设置模块中流程参数配置文件生成符合数据特征和需求的分析流程;
文件获取模块,用于根据配置文件生成模块中数据信息和分析需求选择分析参数配置文件设置模块中设定的分析参数配置文件中的过滤参数,实现数据分析流程运作,获得处理结果文件。
附图说明
图1为本发明实施例所述的高通量测序数据处理及分析流程控制方法的流程图;
图2为本发明实施例所述的获得处理结果文件的流程图;
图3为本发明实施例所述的高通量测序数据处理及分析流程控制系统的原理示意图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
实施例1
如图1所示,本实施例提出了一种高通量测序数据处理及分析流程控制方法,所述方法包括:
S1、设定流程参数配置文件,储存分析模块脚本路径和参考基因组数据库;
所述流程参数配置文件中参数包括针对肿瘤、单基因疾病、线粒体疾病、传染性疾病和健康风险预测等需求,兼容靶向重测序、全基因组、全外显子、线粒体基因组以及病毒基因组测序数据的不同流程。
所述的流程参数配置文件用于储存多种高通量分析流程名称信息、参考基因路径信息和参考数据库路径信息。
S2、根据用户操作生成描述样本数据信息和分析需求的参数配置文件;参数包括:测序结果文件类型,样本来源,样本标识,组织类型,疾病名称,测序平台,建库方法,人种。
S3、设定分析参数配置文件和功能应用,分别储存针对不同需求分析的参数和分析过程中所应用的功能;
参数包括用于保留可信变异位点的变异深度/覆盖深度阈值、插入/缺失长度阈值、ITD(内部串联重复)的重复序列相似度阈值,适用于不同组织类型样本(肿瘤/正常组织)的参数组合,以及适用于不同测序平台和建库方法的数据处理和方法组合;
分析过程中所应用的功能包括:质量控制、数据预处理、序列比对、变异识别、拷贝数变化检测、结构变异识别、变异位置注释和功能注释。
S4、将描述样本数据信息、分析需求的参数配置文件与分析参数配置文件进行匹配,并调用流程参数配置文件进行处理获得处理结果文件;
所述获得处理结果文件的具体过程如图2所示:
S41、将S2中生成的描述样本数据信息和分析需求的参数配置文件与S3中设定的分析参数配置文件进行匹配;
S42、根据疾病、测序结果文件类型、样本来源、样本标识、测序平台、建库方法以及分析需求调用S1中流程参数配置文件生成符合数据特征和需求的分析流程;
S43、根据S2中数据信息和分析需求选择S3中设定的分析参数配置文件中的过滤参数,实现数据分析流程运作,获得处理结果文件。
从描述样本数据信息和分析需求的参数配置文件中取出数据特征参数(例如,测序平台,建库方法,分子类型,样本/比对样本,人种)并从分析参数配置文件匹配中取出数据分析需求(例如肿瘤体细胞变异检测,内部串联重复检测,是否有指定使用软件)调用流程参数配置文件生成符合上传样本数据特征和需求的分析流程。以用于个性化用药方案的肿瘤石蜡包埋样本提取DNA经Illumina平台靶向重测序单样本分析为例,系统按顺序调用适合Illumina平台靶向重测序的数据预处理模块、序列比对模块、肿瘤体细胞DNA变异检测模块、根据变异深度/覆盖深度阈值、插入/缺失长度阈值、ITD(内部串联重复)的重复序列相似度阈值保留可信变异位点的过滤模块、序列矫正模块、注释模块(只保可能影响靶向用药的编码区有意义突变)生成分析流程。
最终由系统执行主控文件,根据数据特征和需求动态生成过滤参数,实现数据分析流程运作,获得处理结果文件。以用于个性化用药方案的肿瘤石蜡包埋样本提取DNA经Illumina平台靶向重测序单样本分析为例,主控文件会调用适合肿瘤石蜡包埋样本提取DNA的保留可信变异位点的变异深度/覆盖深度阈值、插入/缺失长度阈值、ITD(内部串联重复)的重复序列相似度阈值作为过滤参数,执行生成的分析流程文件。
所述对基因测序结果信息进行分析具体包括以下步骤:
根据基因测序结果数据特征和需求选择分析流程;
通过选择的分析流程对基因测序结果信息中的全部或部分测序短小序列与参考基因组比对,得到变异基因信息。
检测人体中体细胞突变,分析流程兼容靶向捕获测序数据、全外显子组测序数据和全基因组测序数据;
所述分析流程的数据结构为Illumina平台的fastq文件,或者是Ion torrent平台的bam文件。
Illumina平台的的fastq的分析流程:去除低质量碱基、采用sliding window算法去除包含较多低质量碱基的测序段片段、去除接头序列污染,进入比对阶段,将测序结果与人类基因组参考序列进行比对,过滤掉比对质量低的碱基序列,得到bam文件,进行变异位点提取,获得基因变异信息,包括单核苷酸变异(SNVs)、基因嵌入和缺失(Indel);对于全外显子和全基因组测序数据还包括拷贝数变异(CNV)、基因易位(gene translocations)等结构变异,得到VCF文件,进行过滤去除不可信变异,进行位置注释以及功能注释得到变异结果文件。
Ion torrent平台的bam文件:首先把bam文件转换回fastq文件进行质控,然后进入比对和变异识别,获得基因变异信息,包括单核苷酸变异(SNVs)、基因嵌入和缺失(Indel)、及全外显子组测序的拷贝数变异(CNV)、基因易位(gene translocations)等结构变异,得到VCF文件,进行过滤去除不可信变异,进行位置注释以及功能注释得到变异结果文件。
实施例2
如图3所示,本实施例提出了一种高通量测序数据处理及分析流程控制系统,所述系统包括:
流程参数配置文件设置模块,用于设定流程参数配置文件,储存分析模块脚本路径和参考基因组数据库;
所述流程参数配置文件中参数包括针对肿瘤、单基因疾病、线粒体疾病、传染性疾病和健康风险预测等需求,兼容靶向重测序、全基因组、全外显子、线粒体基因组以及病毒基因组测序数据的不同流程。
所述的流程参数配置文件用于储存多种高通量分析流程名称信息、参考基因路径信息和参考数据库路径信息。
配置文件生成模块,用于根据用户操作生成描述样本数据信息和分析需求的参数配置文件;参数包括:测序结果文件类型,样本来源,样本标识,组织类型,疾病名称,测序平台,建库方法,人种。
分析参数配置文件设置模块,用于设定分析参数配置文件和功能应用,分别储存针对不同需求分析的参数和分析过程中所应用的功能;
参数包括用于保留可信变异位点的变异深度/覆盖深度阈值、插入/缺失长度阈值、ITD(内部串联重复)的重复序列相似度阈值,适用于不同组织类型样本(肿瘤/正常组织)的参数组合,以及适用于不同测序平台和建库方法的数据处理和方法组合;
分析过程中所应用的功能包括:质量控制、数据预处理、序列比对、变异识别、拷贝数变化检测、结构变异识别、变异位置注释和功能注释。
文件处理模块,用于将描述样本数据信息、分析需求的参数配置文件与分析参数配置文件进行匹配,并调用流程参数配置文件进行处理获得处理结果文件。
所述文件处理模块具体包括:
匹配模块,用于将配置文件生成模块中生成的描述样本数据信息和分析需求的参数配置文件与分析参数配置文件设置模块中设定的分析参数配置文件进行匹配;
调用模块,用于根据疾病、测序结果文件类型、样本来源、样本标识、测序平台、建库方法以及分析需求调用流程参数配置文件设置模块中流程参数配置文件生成符合数据特征和需求的分析流程;
文件获取模块,用于根据配置文件生成模块中数据信息和分析需求选择分析参数配置文件设置模块中设定的分析参数配置文件中的过滤参数,实现数据分析流程运作,获得处理结果文件。
从描述样本数据信息和分析需求的参数配置文件中取出数据特征参数(例如,测序平台,建库方法,分子类型,样本/比对样本,人种)并从分析参数配置文件匹配中取出数据分析需求(例如肿瘤体细胞变异检测,内部串联重复检测,是否有指定使用软件)调用流程参数配置文件生成符合上传样本数据特征和需求的分析流程。以用于个性化用药方案的肿瘤石蜡包埋样本提取DNA经Illumina平台靶向重测序单样本分析为例,系统按顺序调用适合Illumina平台靶向重测序的数据预处理模块、序列比对模块、肿瘤体细胞DNA变异检测模块、根据变异深度/覆盖深度阈值、插入/缺失长度阈值、ITD(内部串联重复)的重复序列相似度阈值保留可信变异位点的过滤模块、序列矫正模块、注释模块(只保可能影响靶向用药的编码区有意义突变)生成分析流程。
最终由系统执行主控文件,根据数据特征和需求动态生成过滤参数,实现数据分析流程运作,获得处理结果文件。以用于个性化用药方案的肿瘤石蜡包埋样本提取DNA经Illumina平台靶向重测序单样本分析为例,主控文件会调用适合肿瘤石蜡包埋样本提取DNA的保留可信变异位点的变异深度/覆盖深度阈值、插入/缺失长度阈值、ITD(内部串联重复)的重复序列相似度阈值作为过滤参数,执行生成的分析流程文件。
所述对基因测序结果信息进行分析具体包括以下步骤:
根据基因测序结果数据特征和需求选择分析流程;
通过选择的分析流程对基因测序结果信息中的全部或部分测序短小序列与参考基因组比对,得到变异基因信息。
检测人体中体细胞突变,分析流程兼容靶向捕获测序数据、全外显子组测序数据和全基因组测序数据;
所述分析流程的数据结构为Illumina平台的fastq文件,或者是Ion torrent平台的bam文件。
Illumina平台的的fastq的分析流程:去除低质量碱基、采用sliding window算法去除包含较多低质量碱基的测序段片段、去除接头序列污染,进入比对阶段,将测序结果与人类基因组参考序列进行比对,过滤掉比对质量低的碱基序列,得到bam文件,进行变异位点提取,获得基因变异信息,包括单核苷酸变异(SNVs)、基因嵌入和缺失(Indel);对于全外显子和全基因组测序数据还包括拷贝数变异(CNV)、基因易位(gene translocations)等结构变异,得到VCF文件,进行过滤去除不可信变异,进行位置注释以及功能注释得到变异结果文件。
Ion torrent平台的bam文件:首先把bam文件转换回fastq文件进行质控,然后进入比对和变异识别,获得基因变异信息,包括单核苷酸变异(SNVs)、基因嵌入和缺失(Indel)、及全外显子组测序的拷贝数变异(CNV)、基因易位(gene translocations)等结构变异,得到VCF文件,进行过滤去除不可信变异,进行位置注释以及功能注释得到变异结果文件。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (2)

1.一种高通量测序数据处理及分析流程控制方法,其特征在于,所述方法包括:
S1、设定流程参数配置文件,储存分析模块脚本路径和参考基因组数据库;S1中所述的流程参数配置文件用于储存多种高通量分析流程名称信息、参考基因路径信息和参考数据库路径信息;
S2、根据用户操作生成描述样本数据信息和分析需求的参数配置文件;S2中生成的描述样本数据信息包括测序结果文件类型、样本来源、样本标识、组织类型、疾病名称、测序平台、建库方法和人种中的一种或几种;
S3、设定分析参数配置文件和功能应用,分别储存针对不同需求分析的参数和分析过程中所应用的功能;S3中所述的分析参数配置文件用于储存针对不同疾病、测序结果文件类型、样本来源、样本标识、测序平台、建库方法、分析需求和分析流程的参数;
S4、将描述样本数据信息、分析需求的参数配置文件与分析参数配置文件进行匹配,并调用流程参数配置文件进行处理获得处理结果文件;
所述S4具体包括:
S41、将S2中生成的描述样本数据信息和分析需求的参数配置文件与S3中设定的分析参数配置文件进行匹配;
S42、根据疾病、测序结果文件类型、样本来源、样本标识、测序平台、建库方法以及分析需求调用S1中流程参数配置文件生成符合数据特征和需求的分析流程;
S43、根据S2中数据信息和分析需求选择S3中设定的分析参数配置文件中的过滤参数,实现数据分析流程运作,获得处理结果文件。
2.一种高通量测序数据处理及分析流程控制系统,其特征在于,所述系统包括:
流程参数配置文件设置模块,用于设定流程参数配置文件,储存分析模块脚本路径和参考基因组数据库;流程参数配置文件设置模块中所述的流程参数配置文件用于储存多种高通量分析流程名称信息、参考基因路径信息和参考数据库路径信息;
配置文件生成模块,用于根据用户操作生成描述样本数据信息和分析需求的参数配置文件;配置文件生成模块中生成的描述样本数据信息包括测序结果文件类型、样本来源、样本标识、组织类型、疾病名称、测序平台、建库方法和人种中的一种或几种;
分析参数配置文件设置模块,用于设定分析参数配置文件和功能应用,分别储存针对不同需求分析的参数和分析过程中所应用的功能;分析参数配置文件设置模块中所述的分析参数配置文件用于储存针对不同疾病、测序结果文件类型、样本来源、样本标识、测序平台、建库方法、分析需求和分析流程的参数;
文件处理模块,用于将描述样本数据信息、分析需求的参数配置文件与分析参数配置文件进行匹配,并调用流程参数配置文件进行处理获得处理结果文件;
文件处理模块包括:
匹配模块,用于将配置文件生成模块中生成的描述样本数据信息和分析需求的参数配置文件与分析参数配置文件设置模块中设定的分析参数配置文件进行匹配;
调用模块,用于根据疾病、测序结果文件类型、样本来源、样本标识、测序平台、建库方法以及分析需求调用流程参数配置文件设置模块中流程参数配置文件生成符合数据特征和需求的分析流程;
文件获取模块,用于根据配置文件生成模块中数据信息和分析需求选择分析参数配置文件设置模块中设定的分析参数配置文件中的过滤参数,实现数据分析流程运作,获得处理结果文件。
CN201610978322.2A 2016-11-07 2016-11-07 一种高通量测序数据处理及分析流程控制方法及系统 Active CN106599614B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610978322.2A CN106599614B (zh) 2016-11-07 2016-11-07 一种高通量测序数据处理及分析流程控制方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610978322.2A CN106599614B (zh) 2016-11-07 2016-11-07 一种高通量测序数据处理及分析流程控制方法及系统

Publications (2)

Publication Number Publication Date
CN106599614A CN106599614A (zh) 2017-04-26
CN106599614B true CN106599614B (zh) 2020-05-19

Family

ID=58590037

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610978322.2A Active CN106599614B (zh) 2016-11-07 2016-11-07 一种高通量测序数据处理及分析流程控制方法及系统

Country Status (1)

Country Link
CN (1) CN106599614B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107451428B (zh) * 2017-08-02 2020-05-22 广东国盛医学科技有限公司 下一代测序中末端短串联序列的优化处理方法
CN109063959A (zh) * 2018-06-22 2018-12-21 深圳弘睿康生物科技有限公司 一种样本质量控制分析方法和系统
CN110415767B (zh) * 2019-06-20 2022-04-22 清华大学 液滴单细胞转录组测序数据降噪方法、装置和存储介质
CN110706750B (zh) * 2019-10-28 2022-04-19 广州基迪奥生物科技有限公司 一种动态交互式微生物组学在线分析云平台及其生成方法
CN111429967A (zh) * 2020-04-23 2020-07-17 北京诺禾致源科技股份有限公司 Pacbio三代测序数据的处理方法
CN112597751A (zh) * 2020-12-30 2021-04-02 武汉莱肯博奥科技有限公司 一种生物信息数据分析流程管控方法及装置
CN112599192A (zh) * 2020-12-31 2021-04-02 杭州柏熠科技有限公司 基于纳米孔测序的新冠病毒全基因组分析系统
CN113535492B (zh) * 2021-07-20 2022-04-08 深圳市博辰智控有限公司 设备的开发方法、装置、设备及存储介质
CN115565609B (zh) * 2022-09-28 2023-07-07 北京博安智联科技有限公司 一种针对dna测序数据的自动分析方法
CN117575358A (zh) * 2023-11-22 2024-02-20 江苏鸿剑网络科技有限公司 一种基于大数据的数据处理管理方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103853938A (zh) * 2013-11-27 2014-06-11 上海丰核信息科技有限公司 一种高通量测序数据处理及分析流程控制方法
CN105279391A (zh) * 2015-09-06 2016-01-27 苏州协云和创生物科技有限公司 一种宏基因组16S rRNA的高通量测序数据处理及分析流程控制方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7390463B2 (en) * 2001-09-07 2008-06-24 Corning Incorporated Microcolumn-based, high-throughput microfluidic device

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103853938A (zh) * 2013-11-27 2014-06-11 上海丰核信息科技有限公司 一种高通量测序数据处理及分析流程控制方法
CN105279391A (zh) * 2015-09-06 2016-01-27 苏州协云和创生物科技有限公司 一种宏基因组16S rRNA的高通量测序数据处理及分析流程控制方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Analysis of high dimensional data using pre-defined set and subset information, with applications to genomic data;Wenge Guo et al;《BMC Bioinformatics》;20121231;第13卷(第1期);1-8 *
Large-scale computational and statistical analyses of high transcription potentialities in 32 prokaryotic genomes;Christine Sinoquet et al;《Nucleic Acids Research》;20080425;第36卷(第10期);3332-3340 *
基于高通量RNA测序数据分析的弹性云平台;吴一雷等;《生物技术进展》;20121231;第2卷(第1期);52-56 *
新一代高通量RNA测序数据的处理与分析;王曦等;《生物化学与生物物理进展》;20101231;第37卷(第8期);834-846 *

Also Published As

Publication number Publication date
CN106599614A (zh) 2017-04-26

Similar Documents

Publication Publication Date Title
CN106599614B (zh) 一种高通量测序数据处理及分析流程控制方法及系统
Rochette et al. Stacks 2: Analytical methods for paired‐end sequencing improve RADseq‐based population genomics
McCormack et al. Sequence capture of ultraconserved elements from bird museum specimens
US10783984B2 (en) De novo diploid genome assembly and haplotype sequence reconstruction
Peterson et al. Double digest RADseq: an inexpensive method for de novo SNP discovery and genotyping in model and non-model species
Zhu et al. Proteogenomics produces comprehensive and highly accurate protein-coding gene annotation in a complete genome assembly of Malassezia sympodialis
Bossert et al. Gene tree estimation error with ultraconserved elements: an empirical study on Pseudapis bees
Xie et al. Applications and potentials of nanopore sequencing in the (epi) genome and (epi) transcriptome era
CN111192630B (zh) 一种宏基因组数据挖掘方法
CN113488106A (zh) 一种快速获取目标基因组区域比对结果数据的方法
Oldeschulte et al. Annotated draft genome assemblies for the Northern Bobwhite (Colinus virginianus) and the Scaled Quail (Callipepla squamata) reveal disparate estimates of modern genome diversity and historic effective population size
CN111180013B (zh) 检测血液病融合基因的装置
EP2631832A2 (en) System and method for processing reference sequence for analyzing genome sequence
US10424395B2 (en) Computation pipeline of single-pass multiple variant calls
CN110164504B (zh) 二代测序数据的处理方法、装置及电子设备
KR101839088B1 (ko) 단일 시료에 기반한 절대 복제수 변이를 분석하는 방법
CN114882951B (zh) 基于二代测序数据检测mhc ii型肿瘤新生抗原的方法和装置
Roy et al. NGS-μsat: Bioinformatics framework supporting high throughput microsatellite genotyping from next generation sequencing platforms
CN103547681A (zh) 目标区域捕获方法及其生物信息处理方法和系统
EP3114596B1 (en) Electronic methods and systems for microorganism characterization
CN115066503A (zh) 使用批量测序数据指导单细胞测序数据的分析
US20210319849A1 (en) Method for assessing genome alignment basis
US20210005285A1 (en) System and method using local unique features to interpret transcript expression levels for rna sequencing data
CN111599410B (zh) 一种整合多组学数据提取微卫星不稳定免疫治疗新抗原的方法和应用
Ortiz et al. A novel phylogenomics pipeline reveals complex pattern of reticulate evolution in Cucurbitales

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant