CN108388771A

CN108388771A - 一种生物多样性自动分析方法

Info

Publication number: CN108388771A
Application number: CN201810066740.3A
Authority: CN
Inventors: 孙伟清; 傅延; 冯羽佳; 张虎
Original assignee: Anhui Differential Gene Technology Co Ltd
Current assignee: Anhui Differential Gene Technology Co Ltd
Priority date: 2018-01-24
Filing date: 2018-01-24
Publication date: 2018-08-10
Anticipated expiration: 2038-01-24
Also published as: CN108388771B

Abstract

本发明公开了一种生物多样性自动分析方法，其具体分析步骤如下：步骤一：引物24对，包含与illumina测序芯片匹配的序列、8碱基index序列、测序引物序列、差异序列、通用扩增引物序列，通过PCR反应得到上机测序的文库，并选择对应的测序模式；步骤二：下机数据bcl2fastq软件转化成fastq格式，并加参数“‑create‑fastq‑for‑index‑reads”；步骤三：通过过滤软件BBDuk软件包，使用Phred算法截取低质量序列；步骤四：使用QIIME包中的脚本对拼接好的Tags序列进行二次过滤。本发明压缩项目周期，改进了建库方法，数据过滤的方法和软件，有效降低嵌合体和测序错误带来的分析偏差，而且，即便由于微生物多样性项目，也能从数据生产到过滤成cleantags过程统一做，不用区分每个项目，节约了处理时间。

Description

一种生物多样性自动分析方法

技术领域

本发明涉及生物多样性分析领域，特别涉及一种生物多样性自动分析方法。

背景技术

微生物多样性分析项目，样本数量多，建库周期长，每个样品的数据量不均衡，过滤标准不一，且聚合酶链式反应(PCR)过程中会出现嵌合体，容易影响后续分析，而且，随着微生物分析数据量不断增大，标准分析流程日趋成熟，对如何能有创新性、快速、高效、可视化进行标准流程分析，更深入的进行个性化分析已经成为一个挑战。

因此，发明一种生物多样性自动分析方法来解决上述问题很有必要。

发明内容

本发明的目的在于提供一种生物多样性自动分析方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：一种生物多样性自动分析方法，其具体分析步骤如下：

步骤一：引物24对，包含与illumina测序芯片匹配的序列、8碱基index 序列、测序引物序列、差异序列、通用扩增引物序列，通过PCR反应得到上机测序的文库，并选择对应的测序模式；

步骤二：下机数据bcl2fastq软件转化成fastq格式，并加参数“-create-fastq-for-index-reads”；

步骤三：通过过滤软件BBDuk软件包，使用Phred算法截取低质量序列；

步骤四：使用QIIME包中的脚本对拼接好的Tags序列进行二次过滤，将得到的有效序列用于后续分析，使结果更加准确，并得到所有样品的fasta 文件；

步骤五：由于设计引物的时候加入了差异序列，因此，用cutadapt软件包对所有样品的fasta文件进行过滤，把测序引物和差异序列截掉；

步骤六：综合使用usearch、vsearch等软件对Tags序列进行OTU聚类；

步骤七：使用Greengene数据库对OTU进行注释，并进行后续分析。

优选的，所述步骤一中的文库带有双端index，所述测序模式选择251， 8，8，251模式。

优选的，所述步骤二中的下机数据bcl2fastq软件自带的自动化脚本为 perl/data/wqsun/perl/Bcl2fastq/bcl2raw_fastq.pl-i-oout_raw-pmiseq- t12&。

优选的，所述步骤四中的有效序列为 split_libraries_fastq.py-i$out_dir/barcodefile/reads.fastq-b$out_d ir/barcodefile/barcodes.fastq-m$out_dir/mapping.txt-barcode_type16 -o$out_dir/03.split_libraries_fastq/。

优选的，所述步骤五中截掉的测序引物和差异序列为 cutadapt-gCCTACGGGNGGCWGCAG-discard-untrimmed-match-read-wildcards -discard-untrimmed-e0.15-m300-no-indels03.split_libraries_fastq/se qs.fna|cutadapt-discard-untrimmed-aATTAGAWACCCBHGTAGTCT-match-read -wildcards-discard-untrimmed-e0.15-m300-no-indels-o$out_dir/03.spl it_libraries_fastq/clean.fna-&。

优选的，所述步骤一～七的分析流程中所涉及的软件包括CI框架 (V3.1.5)、PHP(V 5.4.16)、Perl(v5.16.3)、R(V 3.4.0)、HTML(5)、 linux操作系统(3.10.0-514.26.2.el7.x86_64)、QIIME、usearch、vsearch 和Greengene数据库。

优选的，所述分析流程具体见说明书附图1。

本发明的技术效果和优点：

1、改进了PCR引物的设计原理，可直接对每个样品扩增、建库，大大节约了建库时间，而且，由此产生的数据两端不存在barcode序列，可有效读长变长；

2、将传统的6碱基index改进为8碱基index，使样品拆分更加准确；

3、双端加barcode使PCR引物利用率更高，单次混样可达576个；

4、数据下机后，把index序列通过程序添加到序列的起始和终止位置，相当于再次给样品数据加标签；

5、改进了数据过滤软件和参数，使过滤低质量序列更加准确；

6、拼接完成后，对拼接后的序列进行合并，然后通过QIIME软件包进行二次质控，使序列质量更高，有利于后续分析；

7、根据不同客户的项目，可以把得到的数据分开，便于进行后续分析。

附图说明

图1为本发明的分析流程图；

图2为本发明的融合引物设计原理图；

图3为本发明的R1.fastq结构图；

图4为本发明的I1.fastq与R1.fastq以及I2.fastq与R2.fastq合并的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

一种生物多样性自动分析方法，其具体分析步骤如下：

步骤一：引物24对，包含与illumina测序芯片匹配的序列、8碱基index 序列、测序引物序列、差异序列、通用扩增引物序列，通过PCR反应得到上机测序的文库，文库带有双端index，测序模式选择251，8，8，251模式；

步骤二：下机数据bcl2fastq软件转化成fastq格式，并加参数“-create-fastq-for-index-reads”，其中，下机数据bcl2fastq软件自带的自动化脚本为 perl/data/wqsun/perl/Bcl2fastq/bcl2raw_fastq.pl-i-oout_raw-pmiseq- t12&，该程序不仅可以对下机数据进行转化，还可以对index序列创建fastq 格式的文件，让使用者通过index序列对应的质量值来判断数据拆分的结果是否可靠，而且，该程序还可以把index序列添加到样品reads序列的两端，使之符合illumina公司标准文库的测序结果，以匹配后续分析使用的软件。

步骤三：过滤软件BBDuk软件包，使用Phred算法截取低质量序列，可使得对序列中间存在低质量的碱基的截取更加准确，同时，该软件包还可以对整条序列的平均质量值进行质控，以达到提高处理速度和节约分析时间的效果；

步骤四：使用QIIME包中的脚本对拼接好的Tags序列进行二次过滤，将得到有效序列用于后续分析，使结果更加准确，并得到所有样品的fasta文件，其中，有效序列为split_libraries_fastq.py-i$out_dir/barcodefile/reads.fastq-b$out_d ir/barcodefile/barcodes.fastq-m$out_dir/mapping.txt-barcode_type16 -o$out_dir/03.split_libraries_fastq/；

步骤五：由于设计引物的时候加入了差异序列，因此，用cutadapt软件包对所有样品的fasta文件进行过滤，把测序引物和差异序列截掉，其中，截掉的测序引物和差异序列为 cutadapt-gCCTACGGGNGGCWGCAG-discard-untrimmed-match-read-wildcards -discard-untrimmed-e0.15-m300-no-indels03.split_libraries_fastq/se qs.fna|cutadapt-discard-untrimmed-aATTAGAWACCCBHGTAGTCT-match-read -wildcards-discard-untrimmed-e0.15-m300-no-indels-o$out_dir/03.spl it_libraries_fastq/clean.fna-&；

步骤六：综合使用usearch、vsearch等软件对Tags序列进行OTU聚类，可实现对聚类过程中的嵌合体进行过滤，时间短，效率高；

步骤七：使用Greengene数据库对OTU进行注释，并进行后续分析，其分析流程具体见说明书附图1。

应该说明的是：融合引物设计原理如说明书附图2所示，adaptor序列与测序仪器匹配，Index序列用来区分样品，差异序列保证测试荧光平衡，扩增引物用来扩增样品中所有微生物的某一可变区。

测序仪数据下机后，经过bcl2fastq软件转化，得到fastq格式的数据， R1.fastq结构如说明书附图3所示，第一行末端分别为i7index(GAATGTGG) 和i5index(GCGGAACT)，中间以“+”号隔开，第二行以差异碱基开始(GT)，后面紧跟扩增引物序列(CCTACGGGTGGCTGCAG)，引物序列后面为样品中的可变区序列，不同的菌略有不同，也就是我们要分析的目标区域。

测序仪器数据下机后，转化的过程中同时生成index.fastq文件，其中I1.fastq.gz为i7index的质量值和序列文件，I2.fastq.gz为i5index的质量值和序列文件，根据需要，把I1.fastq与R1.fastq合并，I2.fastq与 R2.fastq合并，合并规则为：第一行相同，则第一行不变 (@M05392:5:000000000-BDLRD:1:1101:18380:1040 1:N:0:GAATGTGG+GCGGAACT)，第二行依次输出 (GAATGTGG+GTCCTACGGGTGGCTGCAGTGGGGA*****)，第三行不变(+)，第四行依次输出(CCCCGGGG+CCCCCGGGGGGGGGGGGGGGG********)，得到的数据结构为：i7index不仅出现在第一行的末端，而且会出现在Read1序列文件的差异序列前面，i5index不仅出现在第一行的末端，而且会出现在Read2序列文件的差异序列前面，具体见说明书附图4，这种数据结构符合大多数分析软件的匹配模式，可以直接应用到下游的分析流程中。

最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种生物多样性自动分析方法，其特征在于，其具体分析步骤如下：

步骤一：引物24对，包含与illumina测序芯片匹配的序列、8碱基index序列、测序引物序列、差异序列、通用扩增引物序列，通过PCR反应得到上机测序的文库，并选择对应的测序模式；

步骤四：使用QIIME包中的脚本对拼接好的Tags序列进行二次过滤，将得到的有效序列用于后续分析，使结果更加准确，并得到所有样品的fasta文件；

2.根据权利要求1所述的一种生物多样性自动分析方法，其特征在于：所述步骤一中的文库带有双端index，所述测序模式选择251，8，8，251模式。

3.根据权利要求1所述的一种生物多样性自动分析方法，其特征在于：所述步骤二中的下机数据bcl2fastq软件自带的自动化脚本为perl/data/wqsun/perl/Bcl2fastq/bcl2raw_fastq.pl-i-oout_raw-pmiseq-t12&。

4.根据权利要求1所述的一种生物多样性自动分析方法，其特征在于：所述步骤四中的有效序列为split_libraries_fastq.py-i$out_dir/barcodefile/reads.fastq-b$out_dir/barcodefile/barcodes.fastq-m$out_dir/mapping.txt-barcode_type16-o$out_dir/03.split_libraries_fastq/。

5.根据权利要求1所述的一种生物多样性自动分析方法，其特征在于：所述步骤五中截掉的测序引物和差异序列为cutadapt-gCCTACGGGNGGCWGCAG-discard-untrimmed-match-read-wildcards-discard-untrimmed-e0.15-m300-no-indels03.split_libraries_fastq/seqs.fna|cutadapt-discard-untrimmed-aATTAGAWACCCBHGTAGTCT-match-read-wildcards-discard-untrimmed-e0.15-m300-no-indels-o$out_dir/03.split_libraries_fastq/clean.fna-&。

6.根据权利要求1所述的一种生物多样性自动分析方法，其特征在于：所述步骤一～七的分析流程中所涉及的软件包括CI框架(V3.1.5)、PHP(V 5.4.16)、Perl(v5.16.3)、R(V3.4.0)、HTML(5)、linux操作系统(3.10.0-514.26.2.el7.x86_64)、QIIME、usearch、vsearch和Greengene数据库。