CN106775998A - 高通量16s测序数据自动化处理方法 - Google Patents
高通量16s测序数据自动化处理方法 Download PDFInfo
- Publication number
- CN106775998A CN106775998A CN201610986745.9A CN201610986745A CN106775998A CN 106775998 A CN106775998 A CN 106775998A CN 201610986745 A CN201610986745 A CN 201610986745A CN 106775998 A CN106775998 A CN 106775998A
- Authority
- CN
- China
- Prior art keywords
- analysis
- data
- high flux
- flow
- sequencing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F9/00—Arrangements for program control, e.g. control units
- G06F9/06—Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
- G06F9/46—Multiprogramming arrangements
- G06F9/50—Allocation of resources, e.g. of the central processing unit [CPU]
- G06F9/5005—Allocation of resources, e.g. of the central processing unit [CPU] to service a request
- G06F9/5027—Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Analytical Chemistry (AREA)
- Chemical & Material Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开的高通量16S测序数据自动化处理方法,包括如下步骤:1)输入要进行分析的项目信息;2)从存储数据的服务器调取高通量16S测序数据;3)将获取的对应项目的数据进行预处理;4)将优质序列进行注释,并开始进行标准分析流程;5)查看日志,保证结果的无误性。本发明的有益效果在于:基于linux shell的自动化分许流程,可进行批量项目分析,提高服务器使用效率,减少分析人员的分析压力,便于控制分析内容。
Description
技术领域
本发明属于分子生物信息检测领域,具体涉及一种高通量16S测序数据自动化处理方法。该方法只用在已有高通量16S测序数据匹配基础上,基于linux跨服务器数据自动传送的能力,以提高测序数据的使用效率以及分析效率,减少人为干涉因素对分析结果的影响。
背景技术
16SrDNA鉴定是指用利用细菌16SrDNA序列测序的方法对细菌进行种属鉴定。包括细菌基因组DNA提取、16SrDNA特异引物PCR扩增、扩增产物纯化、DNA测序、序列比对等步骤。是一种快速获得细菌种属信息的方法。英文名称是16S ribosomal DNA identification,应用有细菌种属鉴定。
细菌rRNA(核糖体RNA)按沉降系数分为3种,分别为5S、16S和23S rRNA。16S rDNA是细菌染色体上编码16S rRNA相对应的DNA序列,存在于所有细菌染色体基因中。
16S rDNA是细菌的系统分类研究中最有用的和最常用的分子钟,其种类少,含量大(约占细菌RNA含量的80%),分子大小适中,存在于所有的生物中,其进化具有良好的时钟性质,在结构与功能上具有高度的保守性,素有“细菌化石”之称。在大多数原核生物中rDNA都具有多个拷贝,5S、16S、23S rDNA的拷贝数相同。16S rDNA由于大小适中,约1.5Kb左右,既能体现不同菌属之间的差异,又能利用测序技术较容易地得到其序列,故被细菌学家和分类学家接受。
而分析16S高通量测序数据的软件,主要是使用mothur或者qiime,需要人为的进行调用命令或脚本,而且使用的数据存放于不同的服务器,因此分析时需要使用跨服务器数据传送命令,并且每次传送都需要手动输入密码,加大了分析人员的压力。
发明创造
本发明的目的在于针对现有16S高通量测序数据软件在数据处理方面所存在的问题提供一种高通量16S测序数据自动化处理方法,该方法基于linux shell的自动化分许流程,可进行批量项目分析,提高服务器使用效率,减少分析人员的分析压力,便于控制分析内容。
为了实现上述发明目的,本发明所采用的技术方案是:
高通量16S测序数据自动化处理方法,包括如下步骤:
1)输入要进行分析的项目信息
格式大致为一行表示一个项目的信息,前面几列的元素分别为合同号,开题单号,注释所用的数据库,其中间隔符设置为制表符;
2)从存储数据的服务器调取高通量16S测序数据
进入linux的except的环境,使用spawn命令,调取测序数据,与原来的不同是将密码内置于脚本中或环境变量中,避免手动输入密码的麻烦;
3)将获取的对应项目的数据进行预处理
包括对于样品名字的处理,以及质量过滤,去除引物和barcode,去嵌合体,随后得到优质序列进行分析;
4)将优质序列进行注释,并开始进行标准分析流程
将优质序列与其对应的数据库中进行注释,并建立进化树,此后,根据进化树以及注释结果,进行标准分析流程;
5)查看日志,保证结果的无误性
在进行标准分析流程的同时,如果分析出现的问题,会将错误信息以及错误的位置写入到日志文件中,流程结束后,查看日志文件,保证结果的无误性,如果出现问题,则查找原因,修复错误。
本发明的有益效果在于:
基于linux shell的自动化分许流程,可进行批量项目分析,提高服务器使用效率,减少分析人员的分析压力,便于控制分析内容。
附图说明
图1为本发明的高通量16S测序数据自动化处理方法的自动化流程的方法流程图。
具体实施方式
为了能够更清楚地理解本发明的技术内容,特举以下实施例详细说明。
请参阅图1所示,为本发明的高通量测序数据自动化处理方法的步骤流程图。
该方法如图1所示包括以下步骤:
(1)输入的需要分析的项目的信息文件;
(2)检测信息的是否满足条件(格式是否正确),;
(3)格式正确后,将对应项目进行任务分配,一般是同时进行2,3个项目分析;
(4)查找项目的对应的数据,判断是否存在,如果存在,传送数据到工作目录进行下一步,如果不存在,写入日志,该项目对应的任务退出;
(5)判断是否有分析所必须的map文件,判断机制与上一条类似;
(6)如果上述判断未出现问题,开始进行流程分析,如果流程中局部出现问题,也会写入日志,方便检查。
在实际应用中,本发明的方法所利用的工具包共包含1个Python脚本代码和3个shell脚本代码,每个脚本名称如下:
(1)work_start.py
(2)anno.sh
(3)newworkflow.sh
(4)treat_work.sh
上述每个脚本既能够独立执行,也可以嵌入到已有的数据分析流程中,使用非常灵活。
每个脚本的代码编写基于Python和shell语言,可以在Linux、MacOS等多种类unix系统平台下使用。代码运行过程中,耗费系统资源少,能够在任意一台个人PC、工作站和或服务器上进行使用。
每个脚本都应对高通量数据分析后期经常所需的操作进行设计。
1、work_start.py,主程序,以项目信息文件作为输入数据,通过调用其他的shell脚本以及自身的判断,进行流程图所示的过程。
2、anno.sh,以项目信息以及注释数据库作为输入数据,可以传送使用的数据,并且进行一系列预处理,并且加上注释。
3、newworkflow.sh,以项目信息以及注释数据库作为输入数据,此脚本用于日常的分析的流程,并且针对不同的数据库也有不同的处理。
4、treat_work.sh,要求提供对应treat的分组表以及对应的out表作为输入文件,分析流程真实的存放的地方,newworkflow.sh调用此脚本进行每个treat的分析。
此外,通过这4个独立脚本之间的不同组合能够帮助用户决解一系列高通量数据16S分析操作难题。
在应用过程中,上述脚本会返回一系列详细的参数设置和对应的参数说明,指导数据分析人员正确使用这些方法。其中,参数分为两种类型:必要参数和可选参数。必要参数要求由数据分析人员提供输入值,无默认值。可选参数的默认值有预设值,分析人员也可以结合实际需求进行调整,具有灵活性。
在此说明书中,本发明已参照其特定的实施例作了描述。但是,很显然仍可以作出各种修改和变换而不背离本发明的精神和范围。因此,说明书和附图应被认为是说明性的而非限制性的。
Claims (1)
1.高通量16S测序数据自动化处理方法,其特征在于,包括如下步骤:
1)输入要进行分析的项目信息
格式大致为一行表示一个项目的信息,前面几列的元素分别为合同号,开题单号,注释所用的数据库,其中间隔符设置为制表符;
2)从存储数据的服务器调取高通量16S测序数据进入linux的except的环境,使用spawn命令,调取测序数据,与原来的不同是将密码内置于脚本中或环境变量中,避免手动输入密码的麻烦;
3)将获取的对应项目的数据进行预处理
包括对于样品名字的处理,以及质量过滤,去除引物和barcode,去嵌合体,随后得到优质序列进行分析;
4)将优质序列进行注释,并开始进行标准分析流程
将优质序列与其对应的数据库中进行注释,并建立进化树,此后,根据进化树以及注释结果,进行标准分析流程;
5)查看日志,保证结果的无误性
在进行标准分析流程的同时,如果分析出现的问题,会将错误信息以及错误的位置写入到日志文件中,流程结束后,查看日志文件,保证结果的无误性,如果出现问题,则查找原因,修复错误。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610986745.9A CN106775998A (zh) | 2016-11-09 | 2016-11-09 | 高通量16s测序数据自动化处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610986745.9A CN106775998A (zh) | 2016-11-09 | 2016-11-09 | 高通量16s测序数据自动化处理方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106775998A true CN106775998A (zh) | 2017-05-31 |
Family
ID=58972816
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610986745.9A Pending CN106775998A (zh) | 2016-11-09 | 2016-11-09 | 高通量16s测序数据自动化处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106775998A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102477460A (zh) * | 2010-11-24 | 2012-05-30 | 深圳华大基因科技有限公司 | 对宏基因组16s高可变区v6进行测序聚类分析的方法 |
US20140249036A1 (en) * | 2013-03-04 | 2014-09-04 | Fry Laboratories, LLC | Method and kit for characterizing microorganisms |
CN104484558A (zh) * | 2014-12-08 | 2015-04-01 | 深圳华大基因科技服务有限公司 | 生物信息项目的分析报告自动生成方法及系统 |
CN104484582A (zh) * | 2014-12-08 | 2015-04-01 | 深圳华大基因科技服务有限公司 | 通过模块化选择实现的生物信息项目自动分析方法及系统 |
-
2016
- 2016-11-09 CN CN201610986745.9A patent/CN106775998A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102477460A (zh) * | 2010-11-24 | 2012-05-30 | 深圳华大基因科技有限公司 | 对宏基因组16s高可变区v6进行测序聚类分析的方法 |
US20140249036A1 (en) * | 2013-03-04 | 2014-09-04 | Fry Laboratories, LLC | Method and kit for characterizing microorganisms |
CN104484558A (zh) * | 2014-12-08 | 2015-04-01 | 深圳华大基因科技服务有限公司 | 生物信息项目的分析报告自动生成方法及系统 |
CN104484582A (zh) * | 2014-12-08 | 2015-04-01 | 深圳华大基因科技服务有限公司 | 通过模块化选择实现的生物信息项目自动分析方法及系统 |
Non-Patent Citations (3)
Title |
---|
李鹏: "免疫组库高通量数据分析流程的构建与应用", 《中国优秀硕士学位论文全文数据库 医药卫生科技辑》 * |
董伯佺: "节节麦基因组数据平台的构建", 《中国优秀硕士学位论文全文数据库 基础科学辑》 * |
陈星星: "传统发酵酸面团菌群结构的对比及优选菌株益生性能研究", 《中国优秀硕士学位论文全文数据库 工程科技Ⅰ辑》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109284758B (zh) | 一种发票印章消除方法、装置和计算机存储介质 | |
CN104915668B (zh) | 医学影像中的文字信息识别方法及装置 | |
CN106126279A (zh) | 自动添加bim模型族文件信息的方法及系统 | |
CN111273911A (zh) | 基于双向lstm和注意力机制的软件技术债务识别方法 | |
CN106775998A (zh) | 高通量16s测序数据自动化处理方法 | |
CN106874512B (zh) | 一种生物分析平台中的工程师信息推送方法 | |
CN108804877B (zh) | 一种生物学基因dna序列比对方法 | |
CN110852054A (zh) | 一种不良资产经营领域合同版本自动化对比工具及方法 | |
Christensen et al. | 16S rRNA amplicon sequencing for metagenomics | |
Bryce et al. | Draft genome sequence of Chlorobium sp. strain N1, a marine Fe (II)-oxidizing green sulfur bacterium | |
CN111078744A (zh) | 一种预对接和引导科技需求的方法、设备及存储介质 | |
CN115865777A (zh) | 一种基于rpa技术的招聘订单智能分发路由方法 | |
Aejas et al. | A review of contract entity extraction | |
Ghiorse | Applicability of ferromanganese-depositing microorganisms to industrial metal recovery processes | |
CN110263156B (zh) | 面向政企服务大数据的智能派单方法 | |
CN113657373A (zh) | 一种文书自动编目方法 | |
Bhatt | Lean Manufacturing Implementation Using Value Stream Mapping with Simulation to Reduce Cycle Time and Improve Productivity in Valve Manufacturing Unit. | |
CN106557666A (zh) | 一种能够基于Nextseq500高通量测序平台的数据过滤方法 | |
CN103810256B (zh) | 基于分区技术在大数据网优平台中快速分发数据的方法 | |
Gallardo | 16S Microbial analysis with Nanopore data | |
CN110134957A (zh) | 一种基于语义分析的科技成果入库方法及系统 | |
CN110297844A (zh) | 基于贝叶斯模型的人工智能教学系统及数据处理方法 | |
CN106650319A (zh) | 高通量Miseq测序数据自动化过滤方法 | |
Gupta et al. | DigiXpense: Handling expense compilation | |
CN110096257B (zh) | 一种基于智能识别的设计图形自动化评判系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170531 |
|
RJ01 | Rejection of invention patent application after publication |