CN106650319A - 高通量Miseq测序数据自动化过滤方法 - Google Patents

高通量Miseq测序数据自动化过滤方法 Download PDF

Info

Publication number
CN106650319A
CN106650319A CN201611005004.4A CN201611005004A CN106650319A CN 106650319 A CN106650319 A CN 106650319A CN 201611005004 A CN201611005004 A CN 201611005004A CN 106650319 A CN106650319 A CN 106650319A
Authority
CN
China
Prior art keywords
data
lower machine
information
project
project information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201611005004.4A
Other languages
English (en)
Inventor
刘书云
叶伟星
姜丽荣
孙子奎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SHANGHAI PERSONAL BIOTECHNOLOGY CO Ltd
Original Assignee
SHANGHAI PERSONAL BIOTECHNOLOGY CO Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SHANGHAI PERSONAL BIOTECHNOLOGY CO Ltd filed Critical SHANGHAI PERSONAL BIOTECHNOLOGY CO Ltd
Priority to CN201611005004.4A priority Critical patent/CN106650319A/zh
Publication of CN106650319A publication Critical patent/CN106650319A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics

Landscapes

  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioethics (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开的高通量Miseq测序数据自动化过滤方法,具体包括如下步骤:1)输入要进行分析的项目信息步骤;2)高通量测序数据与项目信息的匹配步骤;3)对相应项目的数据进行预处理步骤;4)对数据进行初步统计步骤。本发明的有益效果在于:基于Linux shell的Illumina Miseq数据自动化过滤流程,可进行批量数据过滤,提高数据处理效率和服务器使用效率,同时降低人为错误,便于判断样品数据量是否满足分析要求。

Description

高通量Miseq测序数据自动化过滤方法
技术领域
本发明涉及分子生物学技术领域,特别涉及Illumina Miseq测序数据分析技术领域,具体是指一种基于Linux跨服务器数据自动传送的能力,以提高测序数据的分组效率的高通量Miseq测序数据自动化过滤方法,以减少人为因素对分析结果的影响。
背景技术
高通量测序技术为人们利用分子生物学手段研究自然界的规律提供了更多可行性方案。目前众多高通量测序技术都有相关的分析方法或分析流程作为参考帮助科研人员进行高通量数据处理。但是,目前常用Illumina Miseq数据过滤过程中容易出现人为错误,因为过滤过程需要多个配置文件,各配置文件之间需要保持项目编号信息的一致性,如果是手动一步步操作,不仅耗费人力,还会出现数据和实际项目不匹配等人为错误,导致后续的数据出现错误。
常用Illumina Miseq数据过滤流程复杂,效率较低,当项目多、数据量大时一个个过滤数据会耗费大量时间。而且无法智能地处理不同批次数据,实际操作过程中一个项目可能会多次上机测序,这样就会得到不同批次的数据,这些数据不能简单的合并到一起进行处理,因为一旦其中一个批次的数据因为编号等问题出现错误都会导致后面所有的数据过滤都是徒劳。
现在宏基因组、转录组、基因组等项目类型下机数据类型不同,人为手动操作时步骤复杂任务量繁重,只需要准备好相应的配置文件该自动化流程即可以实现对不同类型的项目下机数据进行高效率处理。一个项目编号可能对应多个子编号,一个编号也会有不同批次的数据,该自动化流程可以实现对不同类型数据的自动化过滤及数据统计。提高服务器使用效率,减少分析人员的分析压力,便于控制分析内容。
发明内容
本发明的目的是针对目前常用Illumina Miseq数据过滤过程中容易出现人为错误等问题而提供一种基于Linux shell的高通量Miseq测序数据自动化过滤方法,该方法会自动对数据进行校验,确保配置文件的一致性。
为了实现上述目的,本发明所采用的技术方案如下:
高通量Miseq测序数据自动化过滤方法,具体包括如下步骤:
1)输入要进行分析的项目信息步骤
格式大致为一行表示一个项目的信息,前面几列的元素分别为下机编号,合同编号,开题单号,测序平台,样品名称,其中间隔符设置为制表符;
2)高通量测序数据与项目信息的匹配步骤
进入Linux环境,从存储数据的服务器调取测序的下机数据,与原来的不同是将数据的下机编号与项目信息匹配;
3)对相应项目的数据进行预处理步骤
包括对于样品名字的处理,去除引物和barcode,去嵌合体,以及质量过滤,随后得到数据进行下面的统计分析;
4)对数据进行初步统计步骤
对得到的数据进行统计得到下机数据的基本信息,主要包括原始数据量大小、Reads的数量。
本发明的有益效果在于:
基于Linux shell的Illumina Miseq数据自动化过滤流程,可进行批量数据过滤,提高数据处理效率和服务器使用效率,同时降低人为错误,便于判断样品数据量是否满足分析要求。
附图说明
图1为本发明的高通量Miseq测序数据自动化过滤方法流程图。
具体实施方式
为了能够更清楚地理解本发明的技术内容,特举以下实施例详细说明。请参阅图1所示,为本发明的高通量Miseq测序数据自动化过滤方法流程图。
在具体实施方式中,该方法如图1所示包括以下步骤:
(1)输入需要过滤的项目信息文件;
(2)检测文件信息是否满足条件(格式是否正确);
(3)格式正确后,将对应项目数据进行任务分配;
(4)查找项目的对应的数据,判断是否存在,如果存在,传送数据到对应的工作目录进行下一步,如果不存在,相应信息会输出在屏幕上,该项目对应的任务退出;
(5)如果上述判断未出现问题,开始进行数据流程分析,如果流程中局部出现问题,也会输出相应信息,方便检查。
在实际应用中,本发明的方法所利用的工具包共包含1个Perl脚本代码,脚本名称如下:
(1)MiSeq_DataFilter.pl
这个脚本的代码编写基于Perl语言,可以在Linux、MacOS等多种类Unix系统平台下使用。代码运行过程中,耗费系统资源少,能够在任意一台个人PC、工作站和或服务器上进行使用。
MiSeq_DataFilter.pl,主程序,以特定格式文件(第一列为下机编号,第二列为合同编号,第三列为开题单号,第四列为测序平台,第五列为样品名称)作为输入数据,通过调用其他的shell脚本以及自身的判断,进行流程图所示的过程。
在应用过程中,上述脚本会返回一系列详细的参数设置和对应的参数说明,指导数据分析人员正确使用这些方法。其中,参数分为两种类型:必要参数和可选参数。必要参数要求由数据分析人员提供输入值,无默认值。可选参数的默认值有预设值,分析人员也可以结合实际需求进行调整,具有灵活性。
在此说明书中,本发明已参照其特定的实施例作了描述。但是,很显然仍可以作出各种修改和变换而不背离本发明的精神和范围。因此,说明书和附图应被认为是说明性的而非限制性的。

Claims (1)

1.高通量Miseq测序数据自动化过滤方法,其特征在于,具体包括如下步骤:
1)输入要进行分析的项目信息步骤
格式大致为一行表示一个项目的信息,前面几列的元素分别为下机编号,合同编号,开题单号,测序平台,样品名称,其中间隔符设置为制表符;
2)高通量测序数据与项目信息的匹配步骤
进入Linux环境,从存储数据的服务器调取测序的下机数据,与原来的不同是将数据的下机编号与项目信息匹配;
3)对相应项目的数据进行预处理步骤
包括对于样品名字的处理,去除引物和barcode,去嵌合体,以及质量过滤,随后得到数据进行下面的统计分析;
4)对数据进行初步统计步骤
对得到的数据进行统计得到下机数据的基本信息,主要包括原始数据量大小、Reads的数量。
CN201611005004.4A 2016-11-15 2016-11-15 高通量Miseq测序数据自动化过滤方法 Pending CN106650319A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611005004.4A CN106650319A (zh) 2016-11-15 2016-11-15 高通量Miseq测序数据自动化过滤方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611005004.4A CN106650319A (zh) 2016-11-15 2016-11-15 高通量Miseq测序数据自动化过滤方法

Publications (1)

Publication Number Publication Date
CN106650319A true CN106650319A (zh) 2017-05-10

Family

ID=58806618

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611005004.4A Pending CN106650319A (zh) 2016-11-15 2016-11-15 高通量Miseq测序数据自动化过滤方法

Country Status (1)

Country Link
CN (1) CN106650319A (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104484581A (zh) * 2014-12-08 2015-04-01 深圳华大基因科技服务有限公司 生物信息项目的自动化分析方法及系统
CN104484750A (zh) * 2014-12-08 2015-04-01 深圳华大基因科技服务有限公司 生物信息项目的产品参数自动匹配方法及系统
CN104484375A (zh) * 2014-12-08 2015-04-01 深圳华大基因科技服务有限公司 在项目分析流程中自动建立数据库的方法及系统
CN104484582A (zh) * 2014-12-08 2015-04-01 深圳华大基因科技服务有限公司 通过模块化选择实现的生物信息项目自动分析方法及系统
US20160132923A1 (en) * 2014-08-27 2016-05-12 Yunguang Tong System of using high throughput studies to guide research and marketing

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160132923A1 (en) * 2014-08-27 2016-05-12 Yunguang Tong System of using high throughput studies to guide research and marketing
CN104484581A (zh) * 2014-12-08 2015-04-01 深圳华大基因科技服务有限公司 生物信息项目的自动化分析方法及系统
CN104484750A (zh) * 2014-12-08 2015-04-01 深圳华大基因科技服务有限公司 生物信息项目的产品参数自动匹配方法及系统
CN104484375A (zh) * 2014-12-08 2015-04-01 深圳华大基因科技服务有限公司 在项目分析流程中自动建立数据库的方法及系统
CN104484582A (zh) * 2014-12-08 2015-04-01 深圳华大基因科技服务有限公司 通过模块化选择实现的生物信息项目自动分析方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
徐秀红等: "《烤烟烘烤特性》", 31 October 2015, 中国农业科学技术出版社 *
陈星星: "传统发酵酸面团菌群结构的对比及优选菌株益生性能研究", 《中国优秀硕士学位论文全文数据库 工程科技Ⅰ辑》 *

Similar Documents

Publication Publication Date Title
CN104484558B (zh) 生物信息项目的分析报告自动生成方法及系统
CN110704880B (zh) 一种工程图纸的关联方法
CN112783921A (zh) 一种数据库操作方法及装置
CN106648664A (zh) 自助终端业务流程的更新方法及装置
CN105653900A (zh) 无参转录组分析系统及方法
CN110705283A (zh) 基于文本法律法规与司法解释匹配的深度学习方法和系统
CN103500181A (zh) 一种互联网信息分析方法和装置
CN107657453B (zh) 欺诈数据的识别方法及装置
CN107464083A (zh) 一种物料清单的生成方法、装置及设备
CN112948429B (zh) 一种数据报送方法、装置和设备
CN103853938B (zh) 一种高通量测序数据处理及分析流程控制方法
CN106874512B (zh) 一种生物分析平台中的工程师信息推送方法
CN106650319A (zh) 高通量Miseq测序数据自动化过滤方法
CN103853937A (zh) 高通量测序数据后期处理方法
CN104331507B (zh) 机器数据类别自动发现和分类的方法及装置
CN113822379B (zh) 工艺制程异常分析方法、装置、电子设备及存储介质
CN109190676A (zh) 模型训练方法、装置、设备及存储介质
CN115829925A (zh) 外观缺陷检测方法、装置、计算机设备及存储介质
CN104484750B (zh) 生物信息项目的产品参数自动匹配方法及系统
CN112328951B (zh) 一种分析样品的实验数据的处理方法
CN107577667A (zh) 一种实体词处理方法和装置
CN106557666A (zh) 一种能够基于Nextseq500高通量测序平台的数据过滤方法
CN104484581A (zh) 生物信息项目的自动化分析方法及系统
CN107729016A (zh) 一种基于docker的rpm包编译方法和系统
CN114220012B (zh) 一种基于深度自注意力网络的纺织品棉麻鉴别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20170510

RJ01 Rejection of invention patent application after publication