CN106775998A - 高通量16s测序数据自动化处理方法 - Google Patents

高通量16s测序数据自动化处理方法 Download PDF

Info

Publication number
CN106775998A
CN106775998A CN201610986745.9A CN201610986745A CN106775998A CN 106775998 A CN106775998 A CN 106775998A CN 201610986745 A CN201610986745 A CN 201610986745A CN 106775998 A CN106775998 A CN 106775998A
Authority
CN
China
Prior art keywords
analysis
data
high flux
flow
sequencing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610986745.9A
Other languages
English (en)
Inventor
杨洋
王慧娟
姜丽荣
孙子奎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHANGHAI PERSONAL BIOTECHNOLOGY CO Ltd
Original Assignee
SHANGHAI PERSONAL BIOTECHNOLOGY CO Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHANGHAI PERSONAL BIOTECHNOLOGY CO Ltd filed Critical SHANGHAI PERSONAL BIOTECHNOLOGY CO Ltd
Priority to CN201610986745.9A priority Critical patent/CN106775998A/zh
Publication of CN106775998A publication Critical patent/CN106775998A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开的高通量16S测序数据自动化处理方法,包括如下步骤:1)输入要进行分析的项目信息;2)从存储数据的服务器调取高通量16S测序数据;3)将获取的对应项目的数据进行预处理;4)将优质序列进行注释,并开始进行标准分析流程;5)查看日志,保证结果的无误性。本发明的有益效果在于:基于linux shell的自动化分许流程,可进行批量项目分析,提高服务器使用效率,减少分析人员的分析压力,便于控制分析内容。

Description

高通量16S测序数据自动化处理方法
技术领域
本发明属于分子生物信息检测领域,具体涉及一种高通量16S测序数据自动化处理方法。该方法只用在已有高通量16S测序数据匹配基础上,基于linux跨服务器数据自动传送的能力,以提高测序数据的使用效率以及分析效率,减少人为干涉因素对分析结果的影响。
背景技术
16SrDNA鉴定是指用利用细菌16SrDNA序列测序的方法对细菌进行种属鉴定。包括细菌基因组DNA提取、16SrDNA特异引物PCR扩增、扩增产物纯化、DNA测序、序列比对等步骤。是一种快速获得细菌种属信息的方法。英文名称是16S ribosomal DNA identification,应用有细菌种属鉴定。
细菌rRNA(核糖体RNA)按沉降系数分为3种,分别为5S、16S和23S rRNA。16S rDNA是细菌染色体上编码16S rRNA相对应的DNA序列,存在于所有细菌染色体基因中。
16S rDNA是细菌的系统分类研究中最有用的和最常用的分子钟,其种类少,含量大(约占细菌RNA含量的80%),分子大小适中,存在于所有的生物中,其进化具有良好的时钟性质,在结构与功能上具有高度的保守性,素有“细菌化石”之称。在大多数原核生物中rDNA都具有多个拷贝,5S、16S、23S rDNA的拷贝数相同。16S rDNA由于大小适中,约1.5Kb左右,既能体现不同菌属之间的差异,又能利用测序技术较容易地得到其序列,故被细菌学家和分类学家接受。
而分析16S高通量测序数据的软件,主要是使用mothur或者qiime,需要人为的进行调用命令或脚本,而且使用的数据存放于不同的服务器,因此分析时需要使用跨服务器数据传送命令,并且每次传送都需要手动输入密码,加大了分析人员的压力。
发明创造
本发明的目的在于针对现有16S高通量测序数据软件在数据处理方面所存在的问题提供一种高通量16S测序数据自动化处理方法,该方法基于linux shell的自动化分许流程,可进行批量项目分析,提高服务器使用效率,减少分析人员的分析压力,便于控制分析内容。
为了实现上述发明目的,本发明所采用的技术方案是:
高通量16S测序数据自动化处理方法,包括如下步骤:
1)输入要进行分析的项目信息
格式大致为一行表示一个项目的信息,前面几列的元素分别为合同号,开题单号,注释所用的数据库,其中间隔符设置为制表符;
2)从存储数据的服务器调取高通量16S测序数据
进入linux的except的环境,使用spawn命令,调取测序数据,与原来的不同是将密码内置于脚本中或环境变量中,避免手动输入密码的麻烦;
3)将获取的对应项目的数据进行预处理
包括对于样品名字的处理,以及质量过滤,去除引物和barcode,去嵌合体,随后得到优质序列进行分析;
4)将优质序列进行注释,并开始进行标准分析流程
将优质序列与其对应的数据库中进行注释,并建立进化树,此后,根据进化树以及注释结果,进行标准分析流程;
5)查看日志,保证结果的无误性
在进行标准分析流程的同时,如果分析出现的问题,会将错误信息以及错误的位置写入到日志文件中,流程结束后,查看日志文件,保证结果的无误性,如果出现问题,则查找原因,修复错误。
本发明的有益效果在于:
基于linux shell的自动化分许流程,可进行批量项目分析,提高服务器使用效率,减少分析人员的分析压力,便于控制分析内容。
附图说明
图1为本发明的高通量16S测序数据自动化处理方法的自动化流程的方法流程图。
具体实施方式
为了能够更清楚地理解本发明的技术内容,特举以下实施例详细说明。
请参阅图1所示,为本发明的高通量测序数据自动化处理方法的步骤流程图。
该方法如图1所示包括以下步骤:
(1)输入的需要分析的项目的信息文件;
(2)检测信息的是否满足条件(格式是否正确),;
(3)格式正确后,将对应项目进行任务分配,一般是同时进行2,3个项目分析;
(4)查找项目的对应的数据,判断是否存在,如果存在,传送数据到工作目录进行下一步,如果不存在,写入日志,该项目对应的任务退出;
(5)判断是否有分析所必须的map文件,判断机制与上一条类似;
(6)如果上述判断未出现问题,开始进行流程分析,如果流程中局部出现问题,也会写入日志,方便检查。
在实际应用中,本发明的方法所利用的工具包共包含1个Python脚本代码和3个shell脚本代码,每个脚本名称如下:
(1)work_start.py
(2)anno.sh
(3)newworkflow.sh
(4)treat_work.sh
上述每个脚本既能够独立执行,也可以嵌入到已有的数据分析流程中,使用非常灵活。
每个脚本的代码编写基于Python和shell语言,可以在Linux、MacOS等多种类unix系统平台下使用。代码运行过程中,耗费系统资源少,能够在任意一台个人PC、工作站和或服务器上进行使用。
每个脚本都应对高通量数据分析后期经常所需的操作进行设计。
1、work_start.py,主程序,以项目信息文件作为输入数据,通过调用其他的shell脚本以及自身的判断,进行流程图所示的过程。
2、anno.sh,以项目信息以及注释数据库作为输入数据,可以传送使用的数据,并且进行一系列预处理,并且加上注释。
3、newworkflow.sh,以项目信息以及注释数据库作为输入数据,此脚本用于日常的分析的流程,并且针对不同的数据库也有不同的处理。
4、treat_work.sh,要求提供对应treat的分组表以及对应的out表作为输入文件,分析流程真实的存放的地方,newworkflow.sh调用此脚本进行每个treat的分析。
此外,通过这4个独立脚本之间的不同组合能够帮助用户决解一系列高通量数据16S分析操作难题。
在应用过程中,上述脚本会返回一系列详细的参数设置和对应的参数说明,指导数据分析人员正确使用这些方法。其中,参数分为两种类型:必要参数和可选参数。必要参数要求由数据分析人员提供输入值,无默认值。可选参数的默认值有预设值,分析人员也可以结合实际需求进行调整,具有灵活性。
在此说明书中,本发明已参照其特定的实施例作了描述。但是,很显然仍可以作出各种修改和变换而不背离本发明的精神和范围。因此,说明书和附图应被认为是说明性的而非限制性的。

Claims (1)

1.高通量16S测序数据自动化处理方法,其特征在于,包括如下步骤:
1)输入要进行分析的项目信息
格式大致为一行表示一个项目的信息,前面几列的元素分别为合同号,开题单号,注释所用的数据库,其中间隔符设置为制表符;
2)从存储数据的服务器调取高通量16S测序数据进入linux的except的环境,使用spawn命令,调取测序数据,与原来的不同是将密码内置于脚本中或环境变量中,避免手动输入密码的麻烦;
3)将获取的对应项目的数据进行预处理
包括对于样品名字的处理,以及质量过滤,去除引物和barcode,去嵌合体,随后得到优质序列进行分析;
4)将优质序列进行注释,并开始进行标准分析流程
将优质序列与其对应的数据库中进行注释,并建立进化树,此后,根据进化树以及注释结果,进行标准分析流程;
5)查看日志,保证结果的无误性
在进行标准分析流程的同时,如果分析出现的问题,会将错误信息以及错误的位置写入到日志文件中,流程结束后,查看日志文件,保证结果的无误性,如果出现问题,则查找原因,修复错误。
CN201610986745.9A 2016-11-09 2016-11-09 高通量16s测序数据自动化处理方法 Pending CN106775998A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610986745.9A CN106775998A (zh) 2016-11-09 2016-11-09 高通量16s测序数据自动化处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610986745.9A CN106775998A (zh) 2016-11-09 2016-11-09 高通量16s测序数据自动化处理方法

Publications (1)

Publication Number Publication Date
CN106775998A true CN106775998A (zh) 2017-05-31

Family

ID=58972816

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610986745.9A Pending CN106775998A (zh) 2016-11-09 2016-11-09 高通量16s测序数据自动化处理方法

Country Status (1)

Country Link
CN (1) CN106775998A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102477460A (zh) * 2010-11-24 2012-05-30 深圳华大基因科技有限公司 对宏基因组16s高可变区v6进行测序聚类分析的方法
US20140249036A1 (en) * 2013-03-04 2014-09-04 Fry Laboratories, LLC Method and kit for characterizing microorganisms
CN104484558A (zh) * 2014-12-08 2015-04-01 深圳华大基因科技服务有限公司 生物信息项目的分析报告自动生成方法及系统
CN104484582A (zh) * 2014-12-08 2015-04-01 深圳华大基因科技服务有限公司 通过模块化选择实现的生物信息项目自动分析方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102477460A (zh) * 2010-11-24 2012-05-30 深圳华大基因科技有限公司 对宏基因组16s高可变区v6进行测序聚类分析的方法
US20140249036A1 (en) * 2013-03-04 2014-09-04 Fry Laboratories, LLC Method and kit for characterizing microorganisms
CN104484558A (zh) * 2014-12-08 2015-04-01 深圳华大基因科技服务有限公司 生物信息项目的分析报告自动生成方法及系统
CN104484582A (zh) * 2014-12-08 2015-04-01 深圳华大基因科技服务有限公司 通过模块化选择实现的生物信息项目自动分析方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
李鹏: "免疫组库高通量数据分析流程的构建与应用", 《中国优秀硕士学位论文全文数据库 医药卫生科技辑》 *
董伯佺: "节节麦基因组数据平台的构建", 《中国优秀硕士学位论文全文数据库 基础科学辑》 *
陈星星: "传统发酵酸面团菌群结构的对比及优选菌株益生性能研究", 《中国优秀硕士学位论文全文数据库 工程科技Ⅰ辑》 *

Similar Documents

Publication Publication Date Title
Imelfort et al. GroopM: an automated tool for the recovery of population genomes from related metagenomes
Ju et al. 16S rRNA gene high-throughput sequencing data mining of microbial diversity and interactions
CN104915668B (zh) 医学影像中的文字信息识别方法及装置
CN111192630B (zh) 一种宏基因组数据挖掘方法
CN106126279A (zh) 自动添加bim模型族文件信息的方法及系统
CN106775998A (zh) 高通量16s测序数据自动化处理方法
Metz Building AI that can build AI
Christensen et al. 16S rRNA amplicon sequencing for metagenomics
Bryce et al. Draft genome sequence of Chlorobium sp. strain N1, a marine Fe (II)-oxidizing green sulfur bacterium
CN108804877B (zh) 一种生物学基因dna序列比对方法
CN101957759A (zh) 一种sdk接口转换系统及其实现方法
CN110263156B (zh) 面向政企服务大数据的智能派单方法
Ghiorse Applicability of ferromanganese-depositing microorganisms to industrial metal recovery processes
CN113657373A (zh) 一种文书自动编目方法
Aejas et al. A review of contract entity extraction
CN106557666A (zh) 一种能够基于Nextseq500高通量测序平台的数据过滤方法
Gallardo 16S Microbial analysis with Nanopore data
Bhatt Lean Manufacturing Implementation Using Value Stream Mapping with Simulation to Reduce Cycle Time and Improve Productivity in Valve Manufacturing Unit.
CN111078744A (zh) 一种预对接和引导科技需求的方法、设备及存储介质
CN110297844A (zh) 基于贝叶斯模型的人工智能教学系统及数据处理方法
CN106650319A (zh) 高通量Miseq测序数据自动化过滤方法
Gupta et al. DigiXpense: Handling expense compilation
CN110096257B (zh) 一种基于智能识别的设计图形自动化评判系统及方法
Christensen et al. 16S rRNA Amplicon Sequencing
CN113761938B (zh) 用于训练nlp模型的方法及装置、电子设备、存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170531

RJ01 Rejection of invention patent application after publication