CN103853938B - 一种高通量测序数据处理及分析流程控制方法 - Google Patents

一种高通量测序数据处理及分析流程控制方法 Download PDF

Info

Publication number
CN103853938B
CN103853938B CN201310610931.9A CN201310610931A CN103853938B CN 103853938 B CN103853938 B CN 103853938B CN 201310610931 A CN201310610931 A CN 201310610931A CN 103853938 B CN103853938 B CN 103853938B
Authority
CN
China
Prior art keywords
data processing
data analysis
flux
control method
flow
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201310610931.9A
Other languages
English (en)
Other versions
CN103853938A (zh
Inventor
王立山
曹鑫恺
臧卫东
王媛媛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Scallop Biotechnology Co ltd
Original Assignee
Shanghai Eryun Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Eryun Information Technology Co Ltd filed Critical Shanghai Eryun Information Technology Co Ltd
Priority to CN201310610931.9A priority Critical patent/CN103853938B/zh
Publication of CN103853938A publication Critical patent/CN103853938A/zh
Application granted granted Critical
Publication of CN103853938B publication Critical patent/CN103853938B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明涉及一种高通量测序数据处理及分析流程控制方法,属于分子生物学技术领域。该方法首先生成自定义参数配置文件;在根据用户设定参数后的自定义参数配置文件和所述的高通量数据处理流程模版生成与数据分析流程对应的批处理可执行文件;最终由系统执行批处理可执行文件,实现数据分析流程运作,获得处理结果文件。从而能有效帮助科研人员迅速完成一套标准化的高通量数据分析流程,优化科研人员和数据分析专员的工作时间分配,提升工作效率,降低总体科研成本,且本发明的高通量测序数据处理及分析流程控制方法,其实现方法简便,应用范围较为广泛。

Description

一种高通量测序数据处理及分析流程控制方法
技术领域
本发明涉及分子生物学技术领域,特别涉及染色质测序数据分析技术领域,具体是指一种高通量测序数据处理及分析流程控制方法。
背景技术
新一代高通量测序技术的出现极大地丰富了人们利用分子生物学手段研究细胞内变化规律的方案。目前诸如ChIp-seq、RNA-seq、ChIRP-seq、High-C、MeDIP-seq、DNA-seq等在内的众多高通量测序技术,都有相关的分析方法或分析流程供科研人员使用,并总结出相应的数据处理分析的标准流程。但是,如何高效地使用这些标准化的分析流程,如何降低科研人员在数据分析时的重复劳动,降低数据分析的时间成本,目前仍然没有一个有效的解决方案供广大技术从业人员参考,这无形中增加了数据分析人员的工作负担。
发明内容
本发明的目的是克服了上述现有技术中的缺点,提供一种通过不同数据处理模块的选取,帮助科研人员迅速完成一套标准化的高通量数据分析流程,从而优化科研人员和数据分析专员的工作时间分配,提升工作效率,降低总体科研成本,且实现方法简便,应用范围较为广泛的高通量测序数据处理及分析流程控制方法。
为了实现上述的目的,本发明的高通量测序数据处理及分析流程控制方法包括以下步骤:
(1)系统根据高通量数据处理流程模版生成自定义参数配置文件;
(2)系统根据用户操作,将各参数存入所述的自定义参数配置文件;
(3)系统根据所述的存入参数的自定义参数配置文件和所述的高通量数据处理流程模版生成与数据分析流程对应的批处理可执行文件;
(4)系统根据用户操作,执行所述的批处理可执行文件,实现数据分析流程运作,获得并输出高通量数据处理结果文件。
该高通量测序数据处理及分析流程控制方法中,所述的系统根据高通量数据处理流程模版生成自定义参数配置文件具体为:系统根据高通量数据处理流程模版,并结合数据分析流 程各处理步骤的关键字段搜索,生成自定义参数配置文件。
该高通量测序数据处理及分析流程控制方法中,所述的系统根据所述的存入参数的自定义参数配置文件和所述的高通量数据处理流程模版生成与数据分析流程对应的批处理可执行文件,具体为:系统根据所述的存入参数的自定义参数配置文件和所述的高通量数据处理流程模版,并结合数据分析流程各处理步骤的关键字段搜索,生成与数据分析流程对应的批处理可执行文件。
采用了该发明的高通量测序数据处理及分析流程控制方法,由于其首先生成自定义参数配置文件;在根据用户设定参数后的自定义参数配置文件和所述的高通量数据处理流程模版生成与数据分析流程对应的批处理可执行文件;最终由系统执行批处理可执行文件,实现数据分析流程运作,获得处理结果文件。从而能有效帮助科研人员迅速完成一套标准化的高通量数据分析流程,优化科研人员和数据分析专员的工作时间分配,提升工作效率,降低总体科研成本,且本发明的高通量测序数据处理及分析流程控制方法,其实现方法简便,应用范围较为广泛。
附图说明
图1为本发明的高通量测序数据处理及分析流程控制方法的步骤流程图。
图2为本发明的高通量测序数据处理及分析流程控制方法在实际应用中的流程示意图。
具体实施方式
为了能够更清楚地理解本发明的技术内容,特举以下实施例详细说明。
请参阅图1所示,为本发明的高通量测序数据处理及分析流程控制方法的步骤流程图。
在一种实施方式中,该高通量测序数据处理及分析流程控制方法,如图1所示,包括以下步骤:
(1)系统根据高通量数据处理流程模版生成自定义参数配置文件;
(2)系统根据用户操作,将各参数存入所述的自定义参数配置文件;
(3)系统根据所述的存入参数的自定义参数配置文件和所述的高通量数据处理流程模版生成与数据分析流程对应的批处理可执行文件;
(4)系统根据用户操作,执行所述的批处理可执行文件,实现数据分析流程运作,获得并输出高通量数据处理结果文件。
在较优选的实施方式中,所述的步骤(1)具体为:系统根据高通量数据处理流程模版,并结合数据分析流程各处理步骤的关键字段搜索,生成自定义参数配置文件。
在更优选的实施方式中,所述的步骤(3)具体为:系统根据所述的存入参数的自定义参数配置文件和所述的高通量数据处理流程模版,并结合数据分析流程各处理步骤的关键字段搜索,生成与数据分析流程对应的批处理可执行文件。
在实际应用中,本发明的高通量测序数据处理及分析流程控制方法的应用流程如图2所示。
其系统包含1个Python脚本代码和2个高通量数据批处理分析流程模板,脚本和模板的名称如下:
(1)PROGRAM_pipeline_scheduler.py
(2)PIPELINE_ChIP-seq.sh
(3)PIPELINE_MeDIP-seq.sh
系统脚本的代码编写基于Python语言和Shell命令,可以在Linux和MacOS系统平台下使用。代码运行过程中,耗费系统资源少,能够在任意一台个人PC、工作站和或服务器上进行使用。
具体的数据处理流程如下:
该工具的数据处理和分析流程以各类型高通量数据批处理流程模版作为输入文件。
第一步,基于高通量数据处理流程模版,使用PROGRAM_pipeline_scheduler.py的configuration模式,结合处理步骤的关键词字段搜索,生成相关自定义参数配置文件。
第二步,用户可以对自定义参数进行逐一设置,并保存修改后的参数配置文件。
第三步,以修改后的修改后的参数配置文件作为输入,基于高通量数据处理流程模版,使用PROGRAM_pipelinescheduler.py的execute模式,结合处理步骤的关键词字段搜索,生成批处理可执行文件。
第四步,在系统终端运行新生成的可执行文件,开始流程化运作。
最终,按照用户所选操作类型,自动化输出相应文本格式结果和图形化。
此外,该工具包中附带成品化的ChIP-seq高通量数据批处理流程模版文件“PIPELINE_ChIP-seq.sh”和MeDIP-seq高通量数据批处理流程模版文件“PIPELINE_MeDIP-seq.sh”。
命令行模式下,键入Python PROGRAM_pipeline_scheduler.py命令后,系统会返回一系列详细的参数设置和对应的参数说明,指导数据分析人员正确使用设定参数。其中,参数分为两种类型:必要参数和可选参数。必要参数要求由数据分析人员提供输入值,无默认值。可选参数的默认值有程序内设,分析人员也可以结合实际需求进行调整,具有灵活性。
利用本发明,能够结合如ChIP-seq数据处理标准化流程、MeDIP-seq数据处理标准化流程等不同类型的高通量数据处理流程,能够单独提取流程中的局部分析模块,并进行模块内规定数据分析流程的快速执行。从而通过不同模块的选取,帮助科研人员迅速完成一套高通量数据的前期reads质控、数据上机比对以及后期的若干分析流程。该工具能够优化科研人员和数据分析专员的工作时间分配,显著提升工作效率。
采用了该发明的高通量测序数据处理及分析流程控制方法,由于其首先生成自定义参数配置文件;在根据用户设定参数后的自定义参数配置文件和所述的高通量数据处理流程模版生成与数据分析流程对应的批处理可执行文件;最终由系统执行批处理可执行文件,实现数据分析流程运作,获得处理结果文件。从而能有效帮助科研人员迅速完成一套标准化的高通量数据分析流程,优化科研人员和数据分析专员的工作时间分配,提升工作效率,降低总体科研成本,且本发明的高通量测序数据处理及分析流程控制方法,其实现方法简便,应用范围较为广泛。
在此说明书中,本发明已参照其特定的实施例作了描述。但是,很显然仍可以作出各种修改和变换而不背离本发明的精神和范围。因此,说明书和附图应被认为是说明性的而非限制性的。

Claims (1)

1.一种高通量测序数据处理及分析流程控制方法,其特征在于,所述的方法包括以下步骤:
(1)系统根据高通量数据处理流程模版,使用PROGRAM_pipeline_scheduler.py的configuration模式,并结合数据分析流程各处理步骤的关键字段搜索,生成自定义参数配置文件;其系统包含1个Python脚本代码和2个高通量数据批处理分析流程模板,脚本和模板的名称如下:
1)PROGRAM_pipeline_scheduler.py;
2)PIPELINE_ChIP-seq.sh;
3)PIPELINE_MeDIP-seq.sh;系统脚本的代码编写基于Python语言和Shell命令;
(2)系统根据用户操作,将各参数存入所述的自定义参数配置文件;
(3)系统根据所述的存入参数的自定义参数配置文件和所述的高通量数据处理流程模版,使用PROGRAM_pipelinescheduler.py的execute模式,并结合数据分析流程各处理步骤的关键字段搜索,生成与数据分析流程对应的批处理可执行文件;
(4)系统根据用户操作,执行所述的批处理可执行文件,实现数据分析流程运作,获得并输出高通量数据处理结果文件。
CN201310610931.9A 2013-11-27 2013-11-27 一种高通量测序数据处理及分析流程控制方法 Expired - Fee Related CN103853938B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310610931.9A CN103853938B (zh) 2013-11-27 2013-11-27 一种高通量测序数据处理及分析流程控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310610931.9A CN103853938B (zh) 2013-11-27 2013-11-27 一种高通量测序数据处理及分析流程控制方法

Publications (2)

Publication Number Publication Date
CN103853938A CN103853938A (zh) 2014-06-11
CN103853938B true CN103853938B (zh) 2017-09-15

Family

ID=50861586

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310610931.9A Expired - Fee Related CN103853938B (zh) 2013-11-27 2013-11-27 一种高通量测序数据处理及分析流程控制方法

Country Status (1)

Country Link
CN (1) CN103853938B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105468451A (zh) * 2014-08-19 2016-04-06 复旦大学 一种基于高通量测序数据的计算机集群的作业调度系统
CN106599614B (zh) * 2016-11-07 2020-05-19 为朔医学数据科技(北京)有限公司 一种高通量测序数据处理及分析流程控制方法及系统
CN106557666A (zh) * 2016-11-15 2017-04-05 上海派森诺生物科技股份有限公司 一种能够基于Nextseq500高通量测序平台的数据过滤方法
CN107122626A (zh) * 2017-03-13 2017-09-01 上海海云生物科技有限公司 二代测序dna突变检测的生物信息学分析的方法及系统
CN112597751B (zh) * 2020-12-30 2024-09-06 武汉莱肯博奥科技有限公司 一种生物信息数据分析流程管控方法及装置
CN118672666A (zh) * 2024-08-23 2024-09-20 成都赛力斯科技有限公司 可执行文件生成方法、装置、计算机设备和可读存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7352886B1 (en) * 2001-11-20 2008-04-01 Icad, Inc. Error handling in a high throughput computer-aided detection environment
CN101335959A (zh) * 2008-08-06 2008-12-31 统庆通信设备(深圳)有限公司 一种手机短信的批处理方法
CN101604286A (zh) * 2008-06-11 2009-12-16 中兴通讯股份有限公司 一种关键字驱动表格生成方法
CN102541933A (zh) * 2010-12-31 2012-07-04 北京安码科技有限公司 一种基于概念格的论坛人物跟踪方法
CN103207775A (zh) * 2013-03-11 2013-07-17 中国科学技术大学苏州研究院 采用gpu加速进行实时网络流应用程序的处理方法
CN103226555A (zh) * 2012-12-21 2013-07-31 北京邮电大学 一种改进的基于概念格的论坛人物跟踪方法
CN103353873A (zh) * 2013-06-07 2013-10-16 携程计算机技术(上海)有限公司 基于时间度量数据实时查询服务的优化实现方法及系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7352886B1 (en) * 2001-11-20 2008-04-01 Icad, Inc. Error handling in a high throughput computer-aided detection environment
CN101604286A (zh) * 2008-06-11 2009-12-16 中兴通讯股份有限公司 一种关键字驱动表格生成方法
CN101335959A (zh) * 2008-08-06 2008-12-31 统庆通信设备(深圳)有限公司 一种手机短信的批处理方法
CN102541933A (zh) * 2010-12-31 2012-07-04 北京安码科技有限公司 一种基于概念格的论坛人物跟踪方法
CN103226555A (zh) * 2012-12-21 2013-07-31 北京邮电大学 一种改进的基于概念格的论坛人物跟踪方法
CN103207775A (zh) * 2013-03-11 2013-07-17 中国科学技术大学苏州研究院 采用gpu加速进行实时网络流应用程序的处理方法
CN103353873A (zh) * 2013-06-07 2013-10-16 携程计算机技术(上海)有限公司 基于时间度量数据实时查询服务的优化实现方法及系统

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
cDNA(EST)文库的高通量生物信息学分析体系的构建与应用;张新宇等;《生物信息学》;20041231;6-10 *
DOS高手速成秘笈——批处理编程命令实例秀;何英;《Computer Fan》;20041231(第19期);57-64 *
OAP: short oligonucleotide alignment program;Li R,et al.,;《BIOINFORMATICS》;20081231;第24卷(第5期);713-714 *
SAGEmap分析以及DNA序列染色体定位的电子自动化实现;张新宇等;《生物信息学》;20041231;22-24 *
Tmod: Toolbox of Motif Discovery;H Sun,et al.,;《Bioinformatics Advance Access》;20091210;1~3 *
基于工作流挖掘的活动成批处理区发现;文一凭等;《小型微型计算机系统》;20121231;第33卷(第2期);215-219 *
大规模质谱数据处理及其平台构建;王雪;《中国优秀硕士学位论文全文数据库基础科学辑》;20110515(第05期);A006-24 *
蛋白质组质谱数据处理关键问题与技术研究;孙汉昌;《中国博士学位论文全文数据库信息科技辑》;20120715(第07期);正文110~113页 *

Also Published As

Publication number Publication date
CN103853938A (zh) 2014-06-11

Similar Documents

Publication Publication Date Title
CN103853938B (zh) 一种高通量测序数据处理及分析流程控制方法
GB2429554A (en) Method and apparatus to vectorize multiple input instructions
CN106126709A (zh) 实时生成聊天表情的方法及装置
WO2008030569A3 (en) Methods and apparatus for identifying workflow graphs using an iterative analysis of empirical data
CN103714180A (zh) 一种生物信息学数据库系统和数据处理方法
CN106648664A (zh) 自助终端业务流程的更新方法及装置
CN105653900A (zh) 无参转录组分析系统及方法
CN110032736A (zh) 一种文本分析方法、装置及存储介质
CN105426700B (zh) 一种批量计算基因组直系同源基因进化速率的方法
CN107122626A (zh) 二代测序dna突变检测的生物信息学分析的方法及系统
CN105897537B (zh) 一种电池管理系统配置整车通信协议的方法及系统
CN110321962A (zh) 一种数据处理方法及装置
CN110825453B (zh) 基于大数据平台的数据处理方法及装置
Lu et al. Modeling of waste flow in industrial symbiosis system at city-region level: A case study of Jinchang, China
Fang et al. Attention-aware contrastive learning for predicting T cell receptor–antigen binding specificity
CN105653897B (zh) 基于生物云平台的lncRNA分析系统及方法
Wichmann et al. MetaTransformer: deep metagenomic sequencing read classification using self-attention models
CN106874512B (zh) 一种生物分析平台中的工程师信息推送方法
CN106709273B (zh) 微藻蛋白质特征序列标签匹配的快速检测方法及系统
Majozi et al. Synthesis, design, and resource optimization in batch chemical plants
CN104331507A (zh) 机器数据类别自动发现和分类的方法及装置
CN105787175A (zh) 基于模型组合的水利模型云计算方法与装置
CN103810256B (zh) 基于分区技术在大数据网优平台中快速分发数据的方法
Saha et al. DeBERTNeXT: A Multimodal Fake News Detection Framework
CN111178016A (zh) 一种用于协同编辑及生成文档的方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C53 Correction of patent of invention or patent application
CB02 Change of applicant information

Address after: 200241 Shanghai City, Minhang District science and Technology Park of Cangyuan Jianchuan Road No. 951 building A Room 102

Applicant after: FENGHE (SHANGHAI) INFORMATION TECHNOLOGY Co.,Ltd.

Address before: 201108, room 4, building 508, No. 208 East Spring Road, Shanghai, Minhang District

Applicant before: FENGHE (SHANGHAI) INFORMATION TECHNOLOGY Co.,Ltd.

TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20170814

Address after: 200241 room 4016, building 555, Dongchuan Road, Minhang District, Shanghai, China

Applicant after: SHANGHAI ERYUN INFORMATION TECHNOLOGY Co.,Ltd.

Address before: 200241 Shanghai City, Minhang District science and Technology Park of Cangyuan Jianchuan Road No. 951 building A Room 102

Applicant before: FENGHE (SHANGHAI) INFORMATION TECHNOLOGY Co.,Ltd.

GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20190411

Address after: 215300 Room 717, E District, Zhongyin Plaza, No. 2 Xugongqiao Road, Huaqiao Town, Kunshan City, Jiangsu Province

Patentee after: Suzhou Scallop Biotechnology Co.,Ltd.

Address before: Room 4016, E/F, 555 Dongchuan Road, Minhang District, Shanghai, 200241

Patentee before: SHANGHAI ERYUN INFORMATION TECHNOLOGY Co.,Ltd.

TR01 Transfer of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20170915

CF01 Termination of patent right due to non-payment of annual fee