CN112967756B

CN112967756B - 基于snakemake语言快速批量可自动邮件反馈结果的高通量测序质控分析方法

Info

Publication number: CN112967756B
Application number: CN202110338467.7A
Authority: CN
Inventors: 张建明; 顾胤聪; 肖云平; 史贤俊; 刘钰钏; 林博
Original assignee: Shanghai Oe Biotech Co ltd
Current assignee: Shanghai Oe Biotech Co ltd
Priority date: 2021-03-30
Filing date: 2021-03-30
Publication date: 2022-07-26
Anticipated expiration: 2041-03-30
Also published as: CN112967756A

Abstract

本发明公开了一种基于snakemake语言快速批量可自动邮件反馈结果的高通量测序质控分析方法，所述方法具体包括如下步骤：文件准备；多样本并行fastp质控过滤；单样本fastp运行监控；所有样本fastp质控结果汇总；质控结果汇总邮件反馈；多样本并行fastqc检测；所有样本结果进行整合；分析方法图绘制。本发明所述分析方法能够对样本进行批量处理，获得的结果全面，并能够自动整理所有分析结果，进行统计汇总可视化，同时所有操作步骤可溯源，方便错误查询。

Description

基于snakemake语言快速批量可自动邮件反馈结果的高通量测序质控分析方法

技术领域

本发明属于高通量微生物测序技术领域，涉及一种基于snakemake语言快速批量可自动邮件反馈结果的高通量测序质控分析方法。

背景技术

高通量测序又称“下一代测序”，是对传统测序的一次变革，与传统的Sanger测序相比，新一代测序技术的通量提高了一到两个数量级，能够经济地对基因组进行高倍率的序列覆盖。随着高通量测序仪器的性能的逐渐稳定和价格的不断下降，其应用也越来越广泛，因此基于高通量测序数据的研究将会在数量上和应用上呈现井喷式的快速发展趋势。

由于高通量测序技术本身的限制及人为的实验操作误差，原始生成的高通量测序数据往往含有部分低质量序列，包括低质量碱基和污染序列等。这些低质量序列的存在会极大影响后续数据分析结果，导致错误结果和结论。因此质量控制是进行高通量测速数据分析必须的关键步骤之一。

由于高通量测序数据往往具有数据量大，样本数多等特点，所以对应于高通量测序数据的质量控制，必须具有多样本批量处理、单样本分析速度快、实时监测单样本运行是否成功、快速反馈数据质控结果等特点。目前的普通分析方法利用Trimmomatic先进行低质量序列及测序接头进行过滤，然后使用fastqc对数据进行质量可视化分析，且只能进行单样本处理，对于大样本量的高通量测序数据进行质控处理可能需要几天甚至一个月的时间，且不能对分析结果进行快速反馈，没有流程监控机制，使数据分析成为相关研究中的一大瓶颈。

现有高通量测序质控分析流程在如下缺陷：(1)单样本分析速度慢：单个样本从原始数据到质控过滤出结果耗时长；(2)不能批量处理样本：只能进行单样本质控，不能多样本并行处理；(3)分析结果反馈不及时：流程跑完需要人工核对，不能及时邮件反馈；(4) 无错误检测机制：没有单样本是否运行成功的检测机制；(5)无分析流程可视化：没有对分析流程进行直观的可视化展示；(6)结果展示不完整：分析结果过于简单，缺少数据对应的可视化展示内容。

发明内容

为了解决现有技术存在的不足，本发明的目的是提供一种基于snakemake语言快速批量可自动邮件反馈结果的高通量测序质控分析方法。

所述方法具体包括如下步骤：

步骤一、文件准备：

准备所有样本的高通量测序原始数据。

步骤二、多样本并行fastp^[1]质控过滤：

使用fastp软件对每个样本数据自动进行全方位质控，包括利用滑窗(4bp大小)去除平均质量低于Q20的低质量碱基序列、通过软件自动识别接头序列并进行剪裁去除接头污染、去除短序列(长度小于下机长度一半)、去除含有5个及以上N碱基的序列、软件自动查找双端测序数据中每一对read的重叠区域并对该重叠区域中不匹配的碱基进行校正等，上述质控方法单双端都适用。

步骤三、单样本fastp运行监控：

对每个样本进行质控监测，即把运行统计结果的质控指标与参照质控指标进行核对，如果都符合参照指标，则生成一个check空文件表示此样本质控达标；若有部分质控指标不符合参照指标，则不生成check空文件，表示此样本质控未达标，此样本在不影响其它样本分析的条件下停在质控这个步骤，不参与下游分析。

步骤四、所有样本fastp质控结果汇总：

对所有样本fastp质控过滤结果进行汇总，形成一张包含常质控指标的excel表，所述 excel表包含达标与未达标所有样本的质控结果。

所述excel表中的常质控指标包含原始数据reads条数、clean数据reads条数、clean 数据与原始数据reads条数之比、原始数据量、clean数据量、clean数据量与原始数据量之比、GC含量、clean数据中大于Q20的比率、clean数据中大于Q30的比率指标信息。

步骤五、质控结果汇总邮件反馈：

使用python包smtplib对质控表进行邮件自动反馈。

步骤六、多样本并行fastqc检测：

当样本fastp质控运行成功后，对过滤后的数据进行fastqc检测，进行一组模块化的分析，包括序列测序质量统计、每个tile测序的情况、每序列的测序质量统计、序列碱基含量分布统计、序列平均GC含量分布图，通过这些分析快速了解数据是否存在测序质量偏低、某些tile受到不可控因素的影响而出现测序质量偏低、碱基含量不平稳、混入了其它物种的DNA序列等的问题，为后续进行进一步分析提供参考。

步骤七、所有样本结果进行整合：

对fastqc生成结果利用multiqc进行整合，使多样本整合成一个网页报告。

步骤八、分析方法图绘制：

当质控流程完成后，snakemake自动生成分析方法图，便于直观展示。

在本发明的一个优选实施例中，所述文件准备步骤当中所述包含的文件中包括：准备所有样本的高通量测序原始数据。

在本发明的一个优选实施例中，碱基质量分布图及各碱基含量分布图，所述绘制图像采用R语言的ggplot2软件包绘制。

本发明还提供了上述方法在高通量测序质控分析中的应用。

本发明的有益效果包括：

本发明采用snakemake代码对质控流程进行整合，使用fastp软件进行快速质控，完美支持gzip的输入和输出，同时支持SE和PE数据，而且不但支持像Illumina平台的shortread数据，也在一定程度上支持了PacBio/Nanopore的long reads数据。能够利用多线程对样本进行批量处理，质控结果基于python包smtplib自动发邮件快速反馈，对流程监控自动绘制直观流程图。

本发明获得的结果全面，包含涉及到的fastp结果、mutiqc结果、总样本质控汇总表、单样本碱基质量及含量分布图展示。

本发明所述流程能够自动整理所有分析结果，每一步分析完成之后自动对结果进行汇总统计，可视化。

本发明所有操作步骤可以溯源，方便错误查询，如果分析报错，会有对应的报错日志信息。

同时，本发明中使用的多样本并行fastp方法的运行速度比常规的Trimmomatic快近5 倍。

附图说明

图1为本发明的流程示意图。

图2为本发明实施例fastp质控统计结果中样本序列平均错误率分布图。

图3为本发明实施例fastp质控统计结果中样本序列成分饼图。

图4为本发明实施例fastp质控统计结果中样本碱基含量分布图。

图5为本发明实施例snakemake分析流程展示图。

具体实施方式

结合以下具体实施例和附图，对本发明作进一步的详细说明。实施本发明的过程、条件、实验方法等，除以下专门提及的内容之外，均为本领域的普遍知识和公知常识，本发明没有特别限制内容。

本发明提供了一种基于snakemake语言快速批量可自动邮件反馈结果的高通量测序质控分析方法，所述方法具体包括如下步骤：

步骤一、文件准备：

准备所有样本的高通量测序原始数据。

步骤二、多样本并行fastp质控过滤：

使用fastp软件对每个样本数据自动进行全方位质控，包括利用滑窗(4bp大小)去除平均质量低于Q20的低质量碱基序列、通过软件自动识别接头序列并进行剪裁去除接头污染、去除短序列(长度小于下机长度一半)、去除含有5个及以上N碱基的序列、软件自动查找双端测序(PE)数据中每一对read的重叠区域并对该重叠区域中不匹配的碱基进行校正等，上述质控方法单双端都适用。

步骤三、单样本fastp运行监控：

步骤四、所有样本fastp质控结果汇总：

对所有样本fastp质控过滤结果进行汇总，形成一张excel表，包含常质控指标，所述 excel表包含达标与未达标的所有样本的质控结果。

步骤五、质控结果汇总邮件反馈：

使用python包smtplib对质控表进行邮件自动反馈。

步骤六、多样本并行fastqc检测：

步骤七、所有样本结果进行整合：

步骤八、分析方法图绘制：

实施例

以A1、A2、A3三种样本为例，对本发明的流程进行说明：

1.接受用户高通量测序下机A1、A2、A3样本原始数据；

2.使用fastp软件对上述A1、A2、A3样本的每一个原始数据进行质控过滤，参见图2、 3、4；

图2为序列平均错误率分布图：横坐标为R1及R2两端的碱基位置，纵坐标为每个碱基位置上的平均错误率；

图3为序列成分饼图：图例部分包含高质量序列条数及所占百分比、低质量序列条数及所占百分比、包含过多N碱基序列条数及所占百分比、过短序列条数及所占百分比；

图4为碱基含量分布图：横坐标为R1及R2两端的碱基位置，纵坐标为碱基含量百分比；

3.检测fastp是否运行成功，汇总所有样本的质控结果表并邮件反馈，参见下表；

上表结果可以说明原始数据及过滤后的clean数据含量是否达到合同要求测序量，如果数据量不足需要补测数据、clean数据量百分比可以大致看出测序质量，测序质量好则百分比高、clean数据GC含量可以看出是否有污染，不同物种GC含量会有偏差、clean数据大于Q20及Q30碱基含量为测序质量，比率越高，测序质量越好。

4.对fastp运行成功的样本进行多样本并行fastqc检测；

5.使用multiqc软件整合所有样本的fastqc结果，生成网页报告；

6.最后绘制所有样本分析方法图，参见图5。

参考文献：

[1]Shifu Chen,Yanqing Zhou,Yaru Chen,Jia Gu,fastp:an ultra-fast all-in-one FASTQ preprocessor,Bioinformatics,Volume 34,Issue 17,01September 2018,Pages i884–i890,https://doi.org/10.1093/bioinformatics/bty560

本发明的保护内容不局限于以上实施例。在不背离本发明构思的精神和范围下，本领域技术人员能够想到的变化和优点都被包括在本发明中，并且以所附的权利要求书为保护范围。

Claims

1.一种基于snakemake语言快速批量可自动邮件反馈结果的高通量测序质控分析方法，其特征在于，所述方法具体包括如下步骤：

步骤一、文件准备：准备所有样本的高通量测序原始数据；

步骤二、多样本并行fastp质控过滤：使用fastp软件对每个样本数据自动进行全方位质控，包括利用4bp大小滑窗去除平均质量低于Q20的低质量碱基序列、通过软件自动识别接头序列并进行剪裁去除接头污染、去除长度小于下机长度一半的短序列、去除含有5个及以上N碱基的序列、软件自动查找双端测序数据中每一对read的重叠区域并对该重叠区域中不匹配的碱基进行校正；上述质控方法单双端都适用；

步骤三、单样本fastp运行监控：对每个样本进行质控监测，即把运行统计结果的质控指标与参照质控指标进行核对，如果都符合参照指标，则生成一个check空文件表示此样本质控达标；若有部分质控指标不符合参照指标，则不生成check空文件，表示此样本质控未达标，此样本在不影响其它样本分析的条件下停在质控这个步骤，不参与下游分析；

步骤四、所有样本fastp质控结果汇总：对所有样本fastp质控过滤结果进行汇总，形成一张包含常质控指标的excel表，所述excel表包含达标与未达标所有样本的质控结果；

步骤五、质控结果汇总邮件反馈：使用python包smtplib对质控表进行邮件自动反馈；

步骤六、多样本并行fastqc检测：当样本fastp质控运行成功后，对过滤后的数据进行fastqc检测，进行一组模块化的分析，通过这些分析快速了解数据是否存在问题，为后续进行进一步分析提供参考；所述模块化分析包括序列测序质量统计、每个tile测序的情况、每条序列的测序质量统计、序列碱基含量分布统计、序列平均GC含量分布图；分析结果提供是否存在测序质量偏低、某些tile受到不可控因素的影响而出现测序质量偏低、碱基含量不平稳、混入了其它物种的DNA序列的问题的信息；

步骤七、所有样本结果进行整合：对fastqc生成结果利用multiqc进行整合，使多样本整合成一个网页报告；

步骤八、分析方法图绘制：当质控流程完成后，snakemake自动生成分析方法图，便于直观展示。

2.如权利要求1所述的分析方法，其特征在于，步骤四中，所述excel表中的常质控指标包含原始数据reads条数、clean数据reads条数、clean数据与原始数据reads条数之比、原始数据量、clean数据量、clean数据量与原始数据量之比、GC含量、clean数据中大于Q20的比率、clean数据中大于Q30的比率指标信息。

3.如权利要求1所述的分析方法，其特征在于，步骤七中，所述网页报告中包含结果内容与步骤六中一致，但样本数是所有样本的综合结果。

4.如权利要求1-3之任一项所述方法在高通量测序质控分析中的应用。