CN108388771A - 一种生物多样性自动分析方法 - Google Patents

一种生物多样性自动分析方法 Download PDF

Info

Publication number
CN108388771A
CN108388771A CN201810066740.3A CN201810066740A CN108388771A CN 108388771 A CN108388771 A CN 108388771A CN 201810066740 A CN201810066740 A CN 201810066740A CN 108388771 A CN108388771 A CN 108388771A
Authority
CN
China
Prior art keywords
sequence
fastq
diversity
bio
sequencing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810066740.3A
Other languages
English (en)
Other versions
CN108388771B (zh
Inventor
孙伟清
傅延
冯羽佳
张虎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Differential Gene Technology Co Ltd
Original Assignee
Anhui Differential Gene Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Differential Gene Technology Co Ltd filed Critical Anhui Differential Gene Technology Co Ltd
Priority to CN201810066740.3A priority Critical patent/CN108388771B/zh
Publication of CN108388771A publication Critical patent/CN108388771A/zh
Application granted granted Critical
Publication of CN108388771B publication Critical patent/CN108388771B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Bioethics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种生物多样性自动分析方法,其具体分析步骤如下:步骤一:引物24对,包含与illumina测序芯片匹配的序列、8碱基index序列、测序引物序列、差异序列、通用扩增引物序列,通过PCR反应得到上机测序的文库,并选择对应的测序模式;步骤二:下机数据bcl2fastq软件转化成fastq格式,并加参数“‑create‑fastq‑for‑index‑reads”;步骤三:通过过滤软件BBDuk软件包,使用Phred算法截取低质量序列;步骤四:使用QIIME包中的脚本对拼接好的Tags序列进行二次过滤。本发明压缩项目周期,改进了建库方法,数据过滤的方法和软件,有效降低嵌合体和测序错误带来的分析偏差,而且,即便由于微生物多样性项目,也能从数据生产到过滤成cleantags过程统一做,不用区分每个项目,节约了处理时间。

Description

一种生物多样性自动分析方法
技术领域
本发明涉及生物多样性分析领域,特别涉及一种生物多样性自动分析方法。
背景技术
微生物多样性分析项目,样本数量多,建库周期长,每个样品的数据量不均衡,过滤标准不一,且聚合酶链式反应(PCR)过程中会出现嵌合体,容易影响后续分析,而且,随着微生物分析数据量不断增大,标准分析流程日趋成熟,对如何能有创新性、快速、高效、可视化进行标准流程分析,更深入的进行个性化分析已经成为一个挑战。
因此,发明一种生物多样性自动分析方法来解决上述问题很有必要。
发明内容
本发明的目的在于提供一种生物多样性自动分析方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种生物多样性自动分析方法,其具体分析步骤如下:
步骤一:引物24对,包含与illumina测序芯片匹配的序列、8碱基index 序列、测序引物序列、差异序列、通用扩增引物序列,通过PCR反应得到上机测序的文库,并选择对应的测序模式;
步骤二:下机数据bcl2fastq软件转化成fastq格式,并加参数“-create-fastq-for-index-reads”;
步骤三:通过过滤软件BBDuk软件包,使用Phred算法截取低质量序列;
步骤四:使用QIIME包中的脚本对拼接好的Tags序列进行二次过滤,将得到的有效序列用于后续分析,使结果更加准确,并得到所有样品的fasta 文件;
步骤五:由于设计引物的时候加入了差异序列,因此,用cutadapt软件包对所有样品的fasta文件进行过滤,把测序引物和差异序列截掉;
步骤六:综合使用usearch、vsearch等软件对Tags序列进行OTU聚类;
步骤七:使用Greengene数据库对OTU进行注释,并进行后续分析。
优选的,所述步骤一中的文库带有双端index,所述测序模式选择251, 8,8,251模式。
优选的,所述步骤二中的下机数据bcl2fastq软件自带的自动化脚本为 perl/data/wqsun/perl/Bcl2fastq/bcl2raw_fastq.pl-i-oout_raw-pmiseq- t12&。
优选的,所述步骤四中的有效序列为 split_libraries_fastq.py-i$out_dir/barcodefile/reads.fastq-b$out_d ir/barcodefile/barcodes.fastq-m$out_dir/mapping.txt-barcode_type16 -o$out_dir/03.split_libraries_fastq/。
优选的,所述步骤五中截掉的测序引物和差异序列为 cutadapt-gCCTACGGGNGGCWGCAG-discard-untrimmed-match-read-wildcards -discard-untrimmed-e0.15-m300-no-indels03.split_libraries_fastq/se qs.fna|cutadapt-discard-untrimmed-aATTAGAWACCCBHGTAGTCT-match-read -wildcards-discard-untrimmed-e0.15-m300-no-indels-o$out_dir/03.spl it_libraries_fastq/clean.fna-&。
优选的,所述步骤一~七的分析流程中所涉及的软件包括CI框架 (V3.1.5)、PHP(V 5.4.16)、Perl(v5.16.3)、R(V 3.4.0)、HTML(5)、 linux操作系统(3.10.0-514.26.2.el7.x86_64)、QIIME、usearch、vsearch 和Greengene数据库。
优选的,所述分析流程具体见说明书附图1。
本发明的技术效果和优点:
1、改进了PCR引物的设计原理,可直接对每个样品扩增、建库,大大节约了建库时间,而且,由此产生的数据两端不存在barcode序列,可有效读长变长;
2、将传统的6碱基index改进为8碱基index,使样品拆分更加准确;
3、双端加barcode使PCR引物利用率更高,单次混样可达576个;
4、数据下机后,把index序列通过程序添加到序列的起始和终止位置,相当于再次给样品数据加标签;
5、改进了数据过滤软件和参数,使过滤低质量序列更加准确;
6、拼接完成后,对拼接后的序列进行合并,然后通过QIIME软件包进行二次质控,使序列质量更高,有利于后续分析;
7、根据不同客户的项目,可以把得到的数据分开,便于进行后续分析。
附图说明
图1为本发明的分析流程图;
图2为本发明的融合引物设计原理图;
图3为本发明的R1.fastq结构图;
图4为本发明的I1.fastq与R1.fastq以及I2.fastq与R2.fastq合并的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种生物多样性自动分析方法,其具体分析步骤如下:
步骤一:引物24对,包含与illumina测序芯片匹配的序列、8碱基index 序列、测序引物序列、差异序列、通用扩增引物序列,通过PCR反应得到上机测序的文库,文库带有双端index,测序模式选择251,8,8,251模式;
步骤二:下机数据bcl2fastq软件转化成fastq格式,并加参数“-create-fastq-for-index-reads”,其中,下机数据bcl2fastq软件自带的自动化脚本为 perl/data/wqsun/perl/Bcl2fastq/bcl2raw_fastq.pl-i-oout_raw-pmiseq- t12&,该程序不仅可以对下机数据进行转化,还可以对index序列创建fastq 格式的文件,让使用者通过index序列对应的质量值来判断数据拆分的结果是否可靠,而且,该程序还可以把index序列添加到样品reads序列的两端,使之符合illumina公司标准文库的测序结果,以匹配后续分析使用的软件。
步骤三:过滤软件BBDuk软件包,使用Phred算法截取低质量序列,可使得对序列中间存在低质量的碱基的截取更加准确,同时,该软件包还可以对整条序列的平均质量值进行质控,以达到提高处理速度和节约分析时间的效果;
步骤四:使用QIIME包中的脚本对拼接好的Tags序列进行二次过滤,将得到有效序列用于后续分析,使结果更加准确,并得到所有样品的fasta文件,其中,有效序列为split_libraries_fastq.py-i$out_dir/barcodefile/reads.fastq-b$out_d ir/barcodefile/barcodes.fastq-m$out_dir/mapping.txt-barcode_type16 -o$out_dir/03.split_libraries_fastq/;
步骤五:由于设计引物的时候加入了差异序列,因此,用cutadapt软件包对所有样品的fasta文件进行过滤,把测序引物和差异序列截掉,其中,截掉的测序引物和差异序列为 cutadapt-gCCTACGGGNGGCWGCAG-discard-untrimmed-match-read-wildcards -discard-untrimmed-e0.15-m300-no-indels03.split_libraries_fastq/se qs.fna|cutadapt-discard-untrimmed-aATTAGAWACCCBHGTAGTCT-match-read -wildcards-discard-untrimmed-e0.15-m300-no-indels-o$out_dir/03.spl it_libraries_fastq/clean.fna-&;
步骤六:综合使用usearch、vsearch等软件对Tags序列进行OTU聚类,可实现对聚类过程中的嵌合体进行过滤,时间短,效率高;
步骤七:使用Greengene数据库对OTU进行注释,并进行后续分析,其分析流程具体见说明书附图1。
应该说明的是:融合引物设计原理如说明书附图2所示,adaptor序列与测序仪器匹配,Index序列用来区分样品,差异序列保证测试荧光平衡,扩增引物用来扩增样品中所有微生物的某一可变区。
测序仪数据下机后,经过bcl2fastq软件转化,得到fastq格式的数据, R1.fastq结构如说明书附图3所示,第一行末端分别为i7index(GAATGTGG) 和i5index(GCGGAACT),中间以“+”号隔开,第二行以差异碱基开始(GT),后面紧跟扩增引物序列(CCTACGGGTGGCTGCAG),引物序列后面为样品中的可变区序列,不同的菌略有不同,也就是我们要分析的目标区域。
测序仪器数据下机后,转化的过程中同时生成index.fastq文件,其中I1.fastq.gz为i7index的质量值和序列文件,I2.fastq.gz为i5index的质量值和序列文件,根据需要,把I1.fastq与R1.fastq合并,I2.fastq与 R2.fastq合并,合并规则为:第一行相同,则第一行不变 (@M05392:5:000000000-BDLRD:1:1101:18380:1040 1:N:0:GAATGTGG+GCGGAACT),第二行依次输出 (GAATGTGG+GTCCTACGGGTGGCTGCAGTGGGGA*****),第三行不变(+),第四行依次输出(CCCCGGGG+CCCCCGGGGGGGGGGGGGGGG********),得到的数据结构为:i7index不仅出现在第一行的末端,而且会出现在Read1序列文件的差异序列前面,i5index不仅出现在第一行的末端,而且会出现在Read2序列文件的差异序列前面,具体见说明书附图4,这种数据结构符合大多数分析软件的匹配模式,可以直接应用到下游的分析流程中。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种生物多样性自动分析方法,其特征在于,其具体分析步骤如下:
步骤一:引物24对,包含与illumina测序芯片匹配的序列、8碱基index序列、测序引物序列、差异序列、通用扩增引物序列,通过PCR反应得到上机测序的文库,并选择对应的测序模式;
步骤二:下机数据bcl2fastq软件转化成fastq格式,并加参数“-create-fastq-for-index-reads”;
步骤三:通过过滤软件BBDuk软件包,使用Phred算法截取低质量序列;
步骤四:使用QIIME包中的脚本对拼接好的Tags序列进行二次过滤,将得到的有效序列用于后续分析,使结果更加准确,并得到所有样品的fasta文件;
步骤五:由于设计引物的时候加入了差异序列,因此,用cutadapt软件包对所有样品的fasta文件进行过滤,把测序引物和差异序列截掉;
步骤六:综合使用usearch、vsearch等软件对Tags序列进行OTU聚类;
步骤七:使用Greengene数据库对OTU进行注释,并进行后续分析。
2.根据权利要求1所述的一种生物多样性自动分析方法,其特征在于:所述步骤一中的文库带有双端index,所述测序模式选择251,8,8,251模式。
3.根据权利要求1所述的一种生物多样性自动分析方法,其特征在于:所述步骤二中的下机数据bcl2fastq软件自带的自动化脚本为perl/data/wqsun/perl/Bcl2fastq/bcl2raw_fastq.pl-i-oout_raw-pmiseq-t12&。
4.根据权利要求1所述的一种生物多样性自动分析方法,其特征在于:所述步骤四中的有效序列为split_libraries_fastq.py-i$out_dir/barcodefile/reads.fastq-b$out_dir/barcodefile/barcodes.fastq-m$out_dir/mapping.txt-barcode_type16-o$out_dir/03.split_libraries_fastq/。
5.根据权利要求1所述的一种生物多样性自动分析方法,其特征在于:所述步骤五中截掉的测序引物和差异序列为cutadapt-gCCTACGGGNGGCWGCAG-discard-untrimmed-match-read-wildcards-discard-untrimmed-e0.15-m300-no-indels03.split_libraries_fastq/seqs.fna|cutadapt-discard-untrimmed-aATTAGAWACCCBHGTAGTCT-match-read-wildcards-discard-untrimmed-e0.15-m300-no-indels-o$out_dir/03.split_libraries_fastq/clean.fna-&。
6.根据权利要求1所述的一种生物多样性自动分析方法,其特征在于:所述步骤一~七的分析流程中所涉及的软件包括CI框架(V3.1.5)、PHP(V 5.4.16)、Perl(v5.16.3)、R(V3.4.0)、HTML(5)、linux操作系统(3.10.0-514.26.2.el7.x86_64)、QIIME、usearch、vsearch和Greengene数据库。
CN201810066740.3A 2018-01-24 2018-01-24 一种生物多样性自动分析方法 Active CN108388771B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810066740.3A CN108388771B (zh) 2018-01-24 2018-01-24 一种生物多样性自动分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810066740.3A CN108388771B (zh) 2018-01-24 2018-01-24 一种生物多样性自动分析方法

Publications (2)

Publication Number Publication Date
CN108388771A true CN108388771A (zh) 2018-08-10
CN108388771B CN108388771B (zh) 2021-10-08

Family

ID=63077372

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810066740.3A Active CN108388771B (zh) 2018-01-24 2018-01-24 一种生物多样性自动分析方法

Country Status (1)

Country Link
CN (1) CN108388771B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109817277A (zh) * 2018-12-29 2019-05-28 北京百迈客生物科技有限公司 基于PacBio全长转录组测序数据的质控方法
CN112164424A (zh) * 2020-08-03 2021-01-01 南京派森诺基因科技有限公司 一种基于无参考基因组的群体进化分析方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1999021107A1 (de) * 1997-10-17 1999-04-29 Deutsches Krebsforschungszentrum Stiftung des öffentlichen Rechts Verfahren zur eingruppierung von sequenzen in familien
CN103981259A (zh) * 2014-05-06 2014-08-13 山西晋城无烟煤矿业集团有限责任公司 一种煤层水中微生物多样性和物种丰度的分析方法
US20160283651A1 (en) * 2013-12-31 2016-09-29 Biota Technology, Inc. Microbiome Based Systems, Apparatus and Methods for the Exploration and Production of Hydrocarbons
CN106055924A (zh) * 2016-05-19 2016-10-26 完美(中国)有限公司 微生物操作分类单元确定和序列辅助分离
CN106282165A (zh) * 2016-08-24 2017-01-04 成都罗宁生物科技有限公司 一种植物内生菌16S rRNA基因扩增方法及应用
CN106834465A (zh) * 2017-01-22 2017-06-13 西北农林科技大学 一种简便、高效且通用的植物叶绿体基因组测序方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1999021107A1 (de) * 1997-10-17 1999-04-29 Deutsches Krebsforschungszentrum Stiftung des öffentlichen Rechts Verfahren zur eingruppierung von sequenzen in familien
US20160283651A1 (en) * 2013-12-31 2016-09-29 Biota Technology, Inc. Microbiome Based Systems, Apparatus and Methods for the Exploration and Production of Hydrocarbons
CN103981259A (zh) * 2014-05-06 2014-08-13 山西晋城无烟煤矿业集团有限责任公司 一种煤层水中微生物多样性和物种丰度的分析方法
CN106055924A (zh) * 2016-05-19 2016-10-26 完美(中国)有限公司 微生物操作分类单元确定和序列辅助分离
CN106282165A (zh) * 2016-08-24 2017-01-04 成都罗宁生物科技有限公司 一种植物内生菌16S rRNA基因扩增方法及应用
CN106834465A (zh) * 2017-01-22 2017-06-13 西北农林科技大学 一种简便、高效且通用的植物叶绿体基因组测序方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109817277A (zh) * 2018-12-29 2019-05-28 北京百迈客生物科技有限公司 基于PacBio全长转录组测序数据的质控方法
CN109817277B (zh) * 2018-12-29 2022-03-18 北京百迈客生物科技有限公司 基于PacBio全长转录组测序数据的质控方法
CN112164424A (zh) * 2020-08-03 2021-01-01 南京派森诺基因科技有限公司 一种基于无参考基因组的群体进化分析方法
CN112164424B (zh) * 2020-08-03 2024-04-09 南京派森诺基因科技有限公司 一种基于无参考基因组的群体进化分析方法

Also Published As

Publication number Publication date
CN108388771B (zh) 2021-10-08

Similar Documents

Publication Publication Date Title
Venturini et al. Leveraging multiple transcriptome assembly methods for improved gene structure annotation
US11898206B2 (en) Systems and methods for clonotype screening
Karlsson et al. Scaffolding of a bacterial genome using MinION nanopore sequencing
CN105989246B (zh) 一种基于基因组组装的变异检测方法和装置
CN112506759B (zh) 伺服系统控制软件的自动化测试方法、装置及存储介质
CN104484558B (zh) 生物信息项目的分析报告自动生成方法及系统
CN104272311A (zh) Dna序列的数据分析
CN110033826A (zh) 一种应用于宏病毒组高通量测序数据的分析方法
CN109559780A (zh) 一种高通量测序的rna数据处理方法
CN108388771A (zh) 一种生物多样性自动分析方法
CN104123397A (zh) Web页面的自动化测试装置及方法
CN109859797A (zh) 一种基于miRBase数据库的无参的miRNA数据分析方法
CN116132553A (zh) 一种大数据传输优化方法及系统
CN113793644A (zh) 一种dna检测数据的质量评估方法
CN113571131A (zh) 一种泛基因组的构建方法及其相应的结构变异挖掘方法
CN110825617B (zh) 一种用于模拟设备间通讯交互的方法及装置
CN111863128A (zh) 一种基因可变剪切分析方法
CN108182116A (zh) 一种标书分析方法、装置、设备及存储介质
Glick et al. Panoramic: A package for constructing eukaryotic pan‐genomes
CN112967756B (zh) 基于snakemake语言快速批量可自动邮件反馈结果的高通量测序质控分析方法
US20230102127A1 (en) Systems and methods for identifying samples of interest by comparing aligned time-series measurements
CN111429967A (zh) Pacbio三代测序数据的处理方法
CN104484750A (zh) 生物信息项目的产品参数自动匹配方法及系统
CN112164424A (zh) 一种基于无参考基因组的群体进化分析方法
Hao et al. Quality control and preprocessing of sequencing reads

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant