CN106557666A - 一种能够基于Nextseq500高通量测序平台的数据过滤方法 - Google Patents
一种能够基于Nextseq500高通量测序平台的数据过滤方法 Download PDFInfo
- Publication number
- CN106557666A CN106557666A CN201611006194.1A CN201611006194A CN106557666A CN 106557666 A CN106557666 A CN 106557666A CN 201611006194 A CN201611006194 A CN 201611006194A CN 106557666 A CN106557666 A CN 106557666A
- Authority
- CN
- China
- Prior art keywords
- data
- nextseq
- analysis
- filtering method
- flow process
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
Abstract
本发明公开的一种能够基于Nextseq 500高通量测序平台的数据过滤方法,包括如下步骤:1)输入要进行分析的项目信息步骤;2)从存储数据的服务器调取原始测序数据步骤;3)对得到的测序数据进行标记步骤;4)将获取的对应项目的数据进行预处理步骤;5)查看日志,保证结果的无误性步骤。本发明的有益效果在于:基于linux shell的自动化分许流程,可进行批量项目分析,提高服务器使用效率,减少分析人员的分析压力,便于控制分析内容。
Description
技术领域
本发明属于分子生物信息检测领域,具体涉及一种能够基于Nextseq 500高通量测序平台的数据过滤方法,该方法用在已有高通量测序数据匹配基础上,基于linux跨服务器数据自动传送的能力,以提高多样本测序数据过滤的效率以及分析效率,减少人为输入错误而对分析结果造成的错误。
背景技术
随着高通量测序技术的飞速发展,全基因组测序也在生物物种研究等领域得到广泛应用,而对于第二代高通量测序仪Nextseq 500的下机原始数据的过滤就显得尤为重要,普通的数据过滤方法大多通过人为的区分不同样本,不同上机次数产生的数据,容易造成人为误差,或因为样本数量过多而导致的繁重工作任务。
发明内容
本发明的目的在于提供一种基于linux shell的自动化分析流程,可进行批量原始数据过滤分析,提高服务器使用效率,减少分析人员的分析压力,便于控制分析内容的能够基于Nextseq 500高通量测序平台的数据过滤方法。
为了实现上述发明目的,本发明所采用的技术方案如下:
一种能够基于Nextseq 500高通量测序平台的数据过滤方法,包括如下步骤:
1)输入要进行分析的项目信息步骤
格式大致为一行表示一个项目的信息,第一列元素为合同号,第二列为样品名称,其中间隔符设置为制表符;
2)从存储数据的服务器调取原始测序数据步骤
在编写的perl脚本中设定一个数据存储位置的变量,方便调取测序数据,与原来的不同是根据输入的合同号自动寻找文件,避免手动输入造成的麻烦;
3)对得到的测序数据进行标记步骤
根据Nextseq 500测序仪得到的数据特点,在编写的perl脚本中对这个特定的barcode序列进行筛选;
4)将获取的对应项目的数据进行预处理步骤
包括对于样品名字的处理,以及质量过滤,去除引物和barcode,随后得到优质序列进行分析;
5)查看日志,保证结果的无误性步骤
在进行标准分析流程的同时,如果分析出现的问题,会将错误信息以及错误的位置写入到日志文件中,流程结束后,查看日志文件,保证结果的无误性,如果出现问题,则查找原因,修复错误。
本发明基于Nextseq 500下机数据的特点,且利用不同于其他测序平台的原始数据文件内容,通过开发软件分析达到高效、简洁的数据过滤效果,能够根据使用者自身定制的配置文件,软件自行寻找数据编号,及存放位置等等信息,能够实现多样本的数据过滤过程。
本发明的有益效果在于:
基于linux shell的自动化分许流程,可进行批量项目分析,提高服务器使用效率,减少分析人员的分析压力,便于控制分析内容。
附图说明
图1为本发明的基于Nextseq 500高通量测序平台的数据过滤流程的方法流程图。
具体实施方式
为了能够更清楚地理解本发明的技术内容,特举以下实施例详细说明。
请参阅图1所示,为本发明的高通量测序数据处理方法的步骤流程图。
在具体实施方式中,该方法如图1所示包括以下步骤:
(1)准备需要分析的项目的信息文件,第一列元素为合同号,第二列为样品名称,其中间隔符设置为制表符;
(2)检测信息是否满足条件(格式是否正确),;
(3)格式正确后,读取输入的配置文件,将对应项目进行任务分配;
(4)查找项目的对应的数据,判断是否存在,如果存在,传送数据到工作目录进行下一步,如果不存在,写入日志,该项目对应的任务退出;
(5)判断读入的原始数据是否为Nextseq 500测序仪产生的下机数据,判断机制与上一条类似;
(6)如果上述判断未出现问题,开始进行流程分析,如果流程中局部出现问题,也会写入日志,方便检查。
在实际应用中,本发明的方法所利用的工具包共包含2个perl脚本代码,每个脚本名称如下:
(1)NextSeq500_DataFilter.pl
(2)MiSeqQualityV2.0.pl
上述每个脚本既能够独立执行,也可以嵌入到已有的数据分析流程中,使用非常灵活。
每个脚本的代码编写基于perl语言,可以在Linux、MacOS等多种类unix系统平台下使用。代码运行过程中,耗费系统资源少,能够在任意一台个人PC、工作站和或服务器上进行使用。
每个脚本都应对高通量数据分析后期经常所需的操作进行设计。
1、NextSeq500_DataFilter.pl,主程序,以项目信息文件作为输入数据,通过调用另一个perl脚本以及自身的判断,进行流程图所示的过程。
2、以下机的原始数据作为输入数据,通过调用其他的shell脚本以及自身的判断,进行流程图所示的过程。
此外,通过这2个独立脚本之间的不同组合能够帮助用户决解一系列高通量数据基于Nextseq 500下机数据的数据过滤分析操作难题。
在应用过程中,上述脚本会返回一系列详细的参数设置和对应的参数说明,指导数据分析人员正确使用这些方法。其中,参数分为两种类型:必要参数和可选参数。必要参数要求由数据分析人员提供输入值,无默认值。可选参数的默认值有预设值,分析人员也可以结合实际需求进行调整,具有灵活性。
在此说明书中,本发明已参照其特定的实施例作了描述。但是,很显然仍可以作出各种修改和变换而不背离本发明的精神和范围。因此,说明书和附图应被认为是说明性的而非限制性的。
Claims (1)
1.一种能够基于Nextseq 500高通量测序平台的数据过滤方法,包括如下步骤:
1)输入要进行分析的项目信息步骤
格式大致为一行表示一个项目的信息,第一列元素为合同号,第二列为样品名称,其中间隔符设置为制表符;
2)从存储数据的服务器调取原始测序数据步骤
在编写的perl脚本中设定一个数据存储位置的变量,方便调取测序数据,与原来的不同是根据输入的合同号自动寻找文件,避免手动输入造成的麻烦;
3)对得到的测序数据进行标记步骤
根据Nextseq 500测序仪得到的数据特点,在编写的perl脚本中对这个特定的barcode序列进行筛选;
4)将获取的对应项目的数据进行预处理步骤
包括对于样品名字的处理,以及质量过滤,去除引物和barcode,随后得到优质序列进行分析;
5)查看日志,保证结果的无误性步骤
在进行标准分析流程的同时,如果分析出现的问题,会将错误信息以及错误的位置写入到日志文件中,流程结束后,查看日志文件,保证结果的无误性,如果出现问题,则查找原因,修复错误。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611006194.1A CN106557666A (zh) | 2016-11-15 | 2016-11-15 | 一种能够基于Nextseq500高通量测序平台的数据过滤方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611006194.1A CN106557666A (zh) | 2016-11-15 | 2016-11-15 | 一种能够基于Nextseq500高通量测序平台的数据过滤方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106557666A true CN106557666A (zh) | 2017-04-05 |
Family
ID=58444228
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611006194.1A Pending CN106557666A (zh) | 2016-11-15 | 2016-11-15 | 一种能够基于Nextseq500高通量测序平台的数据过滤方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106557666A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070010953A1 (en) * | 2002-08-28 | 2007-01-11 | Applera Corporation | Auto-Analysis Framework for Sequence Evaluation |
CN103853938A (zh) * | 2013-11-27 | 2014-06-11 | 上海丰核信息科技有限公司 | 一种高通量测序数据处理及分析流程控制方法 |
CN103853937A (zh) * | 2013-11-27 | 2014-06-11 | 上海丰核信息科技有限公司 | 高通量测序数据后期处理方法 |
CN104484375A (zh) * | 2014-12-08 | 2015-04-01 | 深圳华大基因科技服务有限公司 | 在项目分析流程中自动建立数据库的方法及系统 |
CN104484558A (zh) * | 2014-12-08 | 2015-04-01 | 深圳华大基因科技服务有限公司 | 生物信息项目的分析报告自动生成方法及系统 |
CN105653893A (zh) * | 2015-12-25 | 2016-06-08 | 北京百迈客生物科技有限公司 | 一种基因组重测序分析系统及方法 |
-
2016
- 2016-11-15 CN CN201611006194.1A patent/CN106557666A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070010953A1 (en) * | 2002-08-28 | 2007-01-11 | Applera Corporation | Auto-Analysis Framework for Sequence Evaluation |
CN103853938A (zh) * | 2013-11-27 | 2014-06-11 | 上海丰核信息科技有限公司 | 一种高通量测序数据处理及分析流程控制方法 |
CN103853937A (zh) * | 2013-11-27 | 2014-06-11 | 上海丰核信息科技有限公司 | 高通量测序数据后期处理方法 |
CN104484375A (zh) * | 2014-12-08 | 2015-04-01 | 深圳华大基因科技服务有限公司 | 在项目分析流程中自动建立数据库的方法及系统 |
CN104484558A (zh) * | 2014-12-08 | 2015-04-01 | 深圳华大基因科技服务有限公司 | 生物信息项目的分析报告自动生成方法及系统 |
CN105653893A (zh) * | 2015-12-25 | 2016-06-08 | 北京百迈客生物科技有限公司 | 一种基因组重测序分析系统及方法 |
Non-Patent Citations (2)
Title |
---|
李鹏: "免疫组库高通量数据分析流程的构建与应用", 《中国优秀硕士学位论文全文数据库 医药卫生科技辑》 * |
董伯佺: "节节麦基因组数据平台的构建", 《中国优秀硕士学位论文全文数据库 基础科学辑》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106777644B (zh) | 电厂标识系统编码的自动生成方法及装置 | |
CN106201643A (zh) | 数据解析方法及装置 | |
CN104182335A (zh) | 软件测试方法和装置 | |
CN107741903A (zh) | 应用程序兼容性测试方法、装置、计算机设备和存储介质 | |
CN109408807A (zh) | Ocr识别正确率的自动化测试方法及测试设备 | |
CN113157564B (zh) | 一种基于特征分布对齐和邻域实例选择的跨项目缺陷预测方法 | |
CN112733884A (zh) | 焊接缺陷识别模型训练方法、装置和计算机终端 | |
CN111444718A (zh) | 一种保险产品需求文档处理方法、装置及电子设备 | |
CN104699516B (zh) | Windows下自动识别安卓手机并安装驱动的方法和装置 | |
CN105095501A (zh) | 专利分析系统 | |
CN106066881B (zh) | 数据处理方法及装置 | |
CN106874512B (zh) | 一种生物分析平台中的工程师信息推送方法 | |
CN106557666A (zh) | 一种能够基于Nextseq500高通量测序平台的数据过滤方法 | |
Karnik et al. | Automated ESP Failure Root Cause Identification and Analyses Using Machine Learning and Natural Language Processing Technologies | |
CN101662394B (zh) | 自动化测试系统和自动化测试方法 | |
CN110969111A (zh) | 机械零部件数字图纸的自动识别归类方法 | |
CN115619763A (zh) | 基于多级推理检测的输电线路小部件图像目标检测方法 | |
Zalmanovici et al. | Cluster-based test suite functional analysis | |
CN111061749B (zh) | 基于事务顺序分析的数据库事务并发重做方法和装置 | |
CN106650319A (zh) | 高通量Miseq测序数据自动化过滤方法 | |
Chwastyk et al. | Integration CAD/CAPP/CAM systems in design process of innovative products | |
CN104484750A (zh) | 生物信息项目的产品参数自动匹配方法及系统 | |
CN109448789A (zh) | 一种基于perl语言的种群特异SNP位点的自动化分析方法 | |
CN104484581A (zh) | 生物信息项目的自动化分析方法及系统 | |
CN110096257B (zh) | 一种基于智能识别的设计图形自动化评判系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170405 |
|
RJ01 | Rejection of invention patent application after publication |