CN112967756B - 基于snakemake语言快速批量可自动邮件反馈结果的高通量测序质控分析方法 - Google Patents

基于snakemake语言快速批量可自动邮件反馈结果的高通量测序质控分析方法 Download PDF

Info

Publication number
CN112967756B
CN112967756B CN202110338467.7A CN202110338467A CN112967756B CN 112967756 B CN112967756 B CN 112967756B CN 202110338467 A CN202110338467 A CN 202110338467A CN 112967756 B CN112967756 B CN 112967756B
Authority
CN
China
Prior art keywords
quality control
sample
analysis
samples
results
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110338467.7A
Other languages
English (en)
Other versions
CN112967756A (zh
Inventor
张建明
顾胤聪
肖云平
史贤俊
刘钰钏
林博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Oe Biotech Co ltd
Original Assignee
Shanghai Oe Biotech Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Oe Biotech Co ltd filed Critical Shanghai Oe Biotech Co ltd
Priority to CN202110338467.7A priority Critical patent/CN112967756B/zh
Publication of CN112967756A publication Critical patent/CN112967756A/zh
Application granted granted Critical
Publication of CN112967756B publication Critical patent/CN112967756B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/107Computer-aided management of electronic mailing [e-mailing]
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • Business, Economics & Management (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Human Resources & Organizations (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Bioethics (AREA)
  • Public Health (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Artificial Intelligence (AREA)
  • Computer Hardware Design (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Software Systems (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种基于snakemake语言快速批量可自动邮件反馈结果的高通量测序质控分析方法,所述方法具体包括如下步骤:文件准备;多样本并行fastp质控过滤;单样本fastp运行监控;所有样本fastp质控结果汇总;质控结果汇总邮件反馈;多样本并行fastqc检测;所有样本结果进行整合;分析方法图绘制。本发明所述分析方法能够对样本进行批量处理,获得的结果全面,并能够自动整理所有分析结果,进行统计汇总可视化,同时所有操作步骤可溯源,方便错误查询。

Description

基于snakemake语言快速批量可自动邮件反馈结果的高通量 测序质控分析方法
技术领域
本发明属于高通量微生物测序技术领域,涉及一种基于snakemake语言快速批量可自动邮件反馈结果的高通量测序质控分析方法。
背景技术
高通量测序又称“下一代测序”,是对传统测序的一次变革,与传统的Sanger测序相比,新一代测序技术的通量提高了一到两个数量级,能够经济地对基因组进行高倍率的序列覆盖。随着高通量测序仪器的性能的逐渐稳定和价格的不断下降,其应用也越来越广泛,因此基于高通量测序数据的研究将会在数量上和应用上呈现井喷式的快速发展趋势。
由于高通量测序技术本身的限制及人为的实验操作误差,原始生成的高通量测序数据往往含有部分低质量序列,包括低质量碱基和污染序列等。这些低质量序列的存在会极大影响后续数据分析结果,导致错误结果和结论。因此质量控制是进行高通量测速数据分析必须的关键步骤之一。
由于高通量测序数据往往具有数据量大,样本数多等特点,所以对应于高通量测序数据的质量控制,必须具有多样本批量处理、单样本分析速度快、实时监测单样本运行是否成功、快速反馈数据质控结果等特点。目前的普通分析方法利用Trimmomatic先进行低质量序列及测序接头进行过滤,然后使用fastqc对数据进行质量可视化分析,且只能进行单样本处理,对于大样本量的高通量测序数据进行质控处理可能需要几天甚至一个月的时间,且不能对分析结果进行快速反馈,没有流程监控机制,使数据分析成为相关研究中的一大瓶颈。
现有高通量测序质控分析流程在如下缺陷:(1)单样本分析速度慢:单个样本从原始数据到质控过滤出结果耗时长;(2)不能批量处理样本:只能进行单样本质控,不能多样本并行处理;(3)分析结果反馈不及时:流程跑完需要人工核对,不能及时邮件反馈;(4) 无错误检测机制:没有单样本是否运行成功的检测机制;(5)无分析流程可视化:没有对分析流程进行直观的可视化展示;(6)结果展示不完整:分析结果过于简单,缺少数据对应的可视化展示内容。
发明内容
为了解决现有技术存在的不足,本发明的目的是提供一种基于snakemake语言快速批量可自动邮件反馈结果的高通量测序质控分析方法。
所述方法具体包括如下步骤:
步骤一、文件准备:
准备所有样本的高通量测序原始数据。
步骤二、多样本并行fastp[1]质控过滤:
使用fastp软件对每个样本数据自动进行全方位质控,包括利用滑窗(4bp大小)去除平均质量低于Q20的低质量碱基序列、通过软件自动识别接头序列并进行剪裁去除接头污染、去除短序列(长度小于下机长度一半)、去除含有5个及以上N碱基的序列、软件自动查找双端测序数据中每一对read的重叠区域并对该重叠区域中不匹配的碱基进行校正等,上述质控方法单双端都适用。
步骤三、单样本fastp运行监控:
对每个样本进行质控监测,即把运行统计结果的质控指标与参照质控指标进行核对,如果都符合参照指标,则生成一个check空文件表示此样本质控达标;若有部分质控指标不符合参照指标,则不生成check空文件,表示此样本质控未达标,此样本在不影响其它样本分析的条件下停在质控这个步骤,不参与下游分析。
步骤四、所有样本fastp质控结果汇总:
对所有样本fastp质控过滤结果进行汇总,形成一张包含常质控指标的excel表,所述 excel表包含达标与未达标所有样本的质控结果。
所述excel表中的常质控指标包含原始数据reads条数、clean数据reads条数、clean 数据与原始数据reads条数之比、原始数据量、clean数据量、clean数据量与原始数据量之比、GC含量、clean数据中大于Q20的比率、clean数据中大于Q30的比率指标信息。
步骤五、质控结果汇总邮件反馈:
使用python包smtplib对质控表进行邮件自动反馈。
步骤六、多样本并行fastqc检测:
当样本fastp质控运行成功后,对过滤后的数据进行fastqc检测,进行一组模块化的分析,包括序列测序质量统计、每个tile测序的情况、每序列的测序质量统计、序列碱基含量分布统计、序列平均GC含量分布图,通过这些分析快速了解数据是否存在测序质量偏低、某些tile受到不可控因素的影响而出现测序质量偏低、碱基含量不平稳、混入了其它物种的DNA序列等的问题,为后续进行进一步分析提供参考。
步骤七、所有样本结果进行整合:
对fastqc生成结果利用multiqc进行整合,使多样本整合成一个网页报告。
步骤八、分析方法图绘制:
当质控流程完成后,snakemake自动生成分析方法图,便于直观展示。
在本发明的一个优选实施例中,所述文件准备步骤当中所述包含的文件中包括:准备所有样本的高通量测序原始数据。
在本发明的一个优选实施例中,碱基质量分布图及各碱基含量分布图,所述绘制图像采用R语言的ggplot2软件包绘制。
本发明还提供了上述方法在高通量测序质控分析中的应用。
本发明的有益效果包括:
本发明采用snakemake代码对质控流程进行整合,使用fastp软件进行快速质控,完美支持gzip的输入和输出,同时支持SE和PE数据,而且不但支持像Illumina平台的shortread数据,也在一定程度上支持了PacBio/Nanopore的long reads数据。能够利用多线程对样本进行批量处理,质控结果基于python包smtplib自动发邮件快速反馈,对流程监控自动绘制直观流程图。
本发明获得的结果全面,包含涉及到的fastp结果、mutiqc结果、总样本质控汇总表、单样本碱基质量及含量分布图展示。
本发明所述流程能够自动整理所有分析结果,每一步分析完成之后自动对结果进行汇总统计,可视化。
本发明所有操作步骤可以溯源,方便错误查询,如果分析报错,会有对应的报错日志信息。
同时,本发明中使用的多样本并行fastp方法的运行速度比常规的Trimmomatic快近5 倍。
附图说明
图1为本发明的流程示意图。
图2为本发明实施例fastp质控统计结果中样本序列平均错误率分布图。
图3为本发明实施例fastp质控统计结果中样本序列成分饼图。
图4为本发明实施例fastp质控统计结果中样本碱基含量分布图。
图5为本发明实施例snakemake分析流程展示图。
具体实施方式
结合以下具体实施例和附图,对本发明作进一步的详细说明。实施本发明的过程、条件、实验方法等,除以下专门提及的内容之外,均为本领域的普遍知识和公知常识,本发明没有特别限制内容。
本发明提供了一种基于snakemake语言快速批量可自动邮件反馈结果的高通量测序质控分析方法,所述方法具体包括如下步骤:
步骤一、文件准备:
准备所有样本的高通量测序原始数据。
步骤二、多样本并行fastp质控过滤:
使用fastp软件对每个样本数据自动进行全方位质控,包括利用滑窗(4bp大小)去除平均质量低于Q20的低质量碱基序列、通过软件自动识别接头序列并进行剪裁去除接头污染、去除短序列(长度小于下机长度一半)、去除含有5个及以上N碱基的序列、软件自动查找双端测序(PE)数据中每一对read的重叠区域并对该重叠区域中不匹配的碱基进行校正等,上述质控方法单双端都适用。
步骤三、单样本fastp运行监控:
对每个样本进行质控监测,即把运行统计结果的质控指标与参照质控指标进行核对,如果都符合参照指标,则生成一个check空文件表示此样本质控达标;若有部分质控指标不符合参照指标,则不生成check空文件,表示此样本质控未达标,此样本在不影响其它样本分析的条件下停在质控这个步骤,不参与下游分析。
步骤四、所有样本fastp质控结果汇总:
对所有样本fastp质控过滤结果进行汇总,形成一张excel表,包含常质控指标,所述 excel表包含达标与未达标的所有样本的质控结果。
所述excel表中的常质控指标包含原始数据reads条数、clean数据reads条数、clean 数据与原始数据reads条数之比、原始数据量、clean数据量、clean数据量与原始数据量之比、GC含量、clean数据中大于Q20的比率、clean数据中大于Q30的比率指标信息。
步骤五、质控结果汇总邮件反馈:
使用python包smtplib对质控表进行邮件自动反馈。
步骤六、多样本并行fastqc检测:
当样本fastp质控运行成功后,对过滤后的数据进行fastqc检测,进行一组模块化的分析,包括序列测序质量统计、每个tile测序的情况、每序列的测序质量统计、序列碱基含量分布统计、序列平均GC含量分布图,通过这些分析快速了解数据是否存在测序质量偏低、某些tile受到不可控因素的影响而出现测序质量偏低、碱基含量不平稳、混入了其它物种的DNA序列等的问题,为后续进行进一步分析提供参考。
步骤七、所有样本结果进行整合:
对fastqc生成结果利用multiqc进行整合,使多样本整合成一个网页报告。
步骤八、分析方法图绘制:
当质控流程完成后,snakemake自动生成分析方法图,便于直观展示。
实施例
以A1、A2、A3三种样本为例,对本发明的流程进行说明:
1.接受用户高通量测序下机A1、A2、A3样本原始数据;
2.使用fastp软件对上述A1、A2、A3样本的每一个原始数据进行质控过滤,参见图2、 3、4;
图2为序列平均错误率分布图:横坐标为R1及R2两端的碱基位置,纵坐标为每个碱基位置上的平均错误率;
图3为序列成分饼图:图例部分包含高质量序列条数及所占百分比、低质量序列条数及所占百分比、包含过多N碱基序列条数及所占百分比、过短序列条数及所占百分比;
图4为碱基含量分布图:横坐标为R1及R2两端的碱基位置,纵坐标为碱基含量百分比;
3.检测fastp是否运行成功,汇总所有样本的质控结果表并邮件反馈,参见下表;
Figure BDA0002998454840000051
上表结果可以说明原始数据及过滤后的clean数据含量是否达到合同要求测序量,如果数据量不足需要补测数据、clean数据量百分比可以大致看出测序质量,测序质量好则百分比高、clean数据GC含量可以看出是否有污染,不同物种GC含量会有偏差、clean数据大于Q20及Q30碱基含量为测序质量,比率越高,测序质量越好。
4.对fastp运行成功的样本进行多样本并行fastqc检测;
5.使用multiqc软件整合所有样本的fastqc结果,生成网页报告;
6.最后绘制所有样本分析方法图,参见图5。
参考文献:
[1]Shifu Chen,Yanqing Zhou,Yaru Chen,Jia Gu,fastp:an ultra-fast all-in-one FASTQ preprocessor,Bioinformatics,Volume 34,Issue 17,01September 2018,Pages i884–i890,https://doi.org/10.1093/bioinformatics/bty560
本发明的保护内容不局限于以上实施例。在不背离本发明构思的精神和范围下,本领域技术人员能够想到的变化和优点都被包括在本发明中,并且以所附的权利要求书为保护范围。

Claims (4)

1.一种基于snakemake语言快速批量可自动邮件反馈结果的高通量测序质控分析方法,其特征在于,所述方法具体包括如下步骤:
步骤一、文件准备:准备所有样本的高通量测序原始数据;
步骤二、多样本并行fastp质控过滤:使用fastp软件对每个样本数据自动进行全方位质控,包括利用4bp大小滑窗去除平均质量低于Q20的低质量碱基序列、通过软件自动识别接头序列并进行剪裁去除接头污染、去除长度小于下机长度一半的短序列、去除含有5个及以上N碱基的序列、软件自动查找双端测序数据中每一对read的重叠区域并对该重叠区域中不匹配的碱基进行校正;上述质控方法单双端都适用;
步骤三、单样本fastp运行监控:对每个样本进行质控监测,即把运行统计结果的质控指标与参照质控指标进行核对,如果都符合参照指标,则生成一个check空文件表示此样本质控达标;若有部分质控指标不符合参照指标,则不生成check空文件,表示此样本质控未达标,此样本在不影响其它样本分析的条件下停在质控这个步骤,不参与下游分析;
步骤四、所有样本fastp质控结果汇总:对所有样本fastp质控过滤结果进行汇总,形成一张包含常质控指标的excel表,所述excel表包含达标与未达标所有样本的质控结果;
步骤五、质控结果汇总邮件反馈:使用python包smtplib对质控表进行邮件自动反馈;
步骤六、多样本并行fastqc检测:当样本fastp质控运行成功后,对过滤后的数据进行fastqc检测,进行一组模块化的分析,通过这些分析快速了解数据是否存在问题,为后续进行进一步分析提供参考;所述模块化分析包括序列测序质量统计、每个tile测序的情况、每条序列的测序质量统计、序列碱基含量分布统计、序列平均GC含量分布图;分析结果提供是否存在测序质量偏低、某些tile受到不可控因素的影响而出现测序质量偏低、碱基含量不平稳、混入了其它物种的DNA序列的问题的信息;
步骤七、所有样本结果进行整合:对fastqc生成结果利用multiqc进行整合,使多样本整合成一个网页报告;
步骤八、分析方法图绘制:当质控流程完成后,snakemake自动生成分析方法图,便于直观展示。
2.如权利要求1所述的分析方法,其特征在于,步骤四中,所述excel表中的常质控指标包含原始数据reads条数、clean数据reads条数、clean数据与原始数据reads条数之比、原始数据量、clean数据量、clean数据量与原始数据量之比、GC含量、clean数据中大于Q20的比率、clean数据中大于Q30的比率指标信息。
3.如权利要求1所述的分析方法,其特征在于,步骤七中,所述网页报告中包含结果内容与步骤六中一致,但样本数是所有样本的综合结果。
4.如权利要求1-3之任一项所述方法在高通量测序质控分析中的应用。
CN202110338467.7A 2021-03-30 2021-03-30 基于snakemake语言快速批量可自动邮件反馈结果的高通量测序质控分析方法 Active CN112967756B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110338467.7A CN112967756B (zh) 2021-03-30 2021-03-30 基于snakemake语言快速批量可自动邮件反馈结果的高通量测序质控分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110338467.7A CN112967756B (zh) 2021-03-30 2021-03-30 基于snakemake语言快速批量可自动邮件反馈结果的高通量测序质控分析方法

Publications (2)

Publication Number Publication Date
CN112967756A CN112967756A (zh) 2021-06-15
CN112967756B true CN112967756B (zh) 2022-07-26

Family

ID=76279668

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110338467.7A Active CN112967756B (zh) 2021-03-30 2021-03-30 基于snakemake语言快速批量可自动邮件反馈结果的高通量测序质控分析方法

Country Status (1)

Country Link
CN (1) CN112967756B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115565609B (zh) * 2022-09-28 2023-07-07 北京博安智联科技有限公司 一种针对dna测序数据的自动分析方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108959848A (zh) * 2018-05-30 2018-12-07 广州普世医学科技有限公司 基于基因变异与疾病表型自动关联匹配的遗传病预测系统
CN109243532A (zh) * 2017-07-21 2019-01-18 上海桑格信息技术有限公司 基于计算云平台的真核无参转录组交互分析系统及其方法
CN109859797A (zh) * 2018-12-29 2019-06-07 南京派森诺基因科技有限公司 一种基于miRBase数据库的无参的miRNA数据分析方法
CN111261229A (zh) * 2020-01-17 2020-06-09 广州基迪奥生物科技有限公司 一种MeRIP-seq高通量测序数据的生物分析流程
CN111933218A (zh) * 2020-07-01 2020-11-13 广州基迪奥生物科技有限公司 一种优化的宏基因组binning分析微生物群落的方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108573125B (zh) * 2018-04-19 2022-05-13 上海亿康医学检验所有限公司 一种基因组拷贝数变异的检测方法及包含该方法的装置
CN109545281B (zh) * 2018-09-30 2023-06-20 南京派森诺基因科技有限公司 一种基于二代高通量测序的trio家系遗传突变模式的分析方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109243532A (zh) * 2017-07-21 2019-01-18 上海桑格信息技术有限公司 基于计算云平台的真核无参转录组交互分析系统及其方法
CN108959848A (zh) * 2018-05-30 2018-12-07 广州普世医学科技有限公司 基于基因变异与疾病表型自动关联匹配的遗传病预测系统
CN109859797A (zh) * 2018-12-29 2019-06-07 南京派森诺基因科技有限公司 一种基于miRBase数据库的无参的miRNA数据分析方法
CN111261229A (zh) * 2020-01-17 2020-06-09 广州基迪奥生物科技有限公司 一种MeRIP-seq高通量测序数据的生物分析流程
CN111933218A (zh) * 2020-07-01 2020-11-13 广州基迪奥生物科技有限公司 一种优化的宏基因组binning分析微生物群落的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
高通量测序DNA文库定量质控技术研究;王霞等;《计量学报》;20201028;第1308-1312页 *

Also Published As

Publication number Publication date
CN112967756A (zh) 2021-06-15

Similar Documents

Publication Publication Date Title
CN111354418B (zh) 基于参考基因组注释文件的高通量测序技术动物tRFs数据分析方法
CN108573125B (zh) 一种基因组拷贝数变异的检测方法及包含该方法的装置
CN112967756B (zh) 基于snakemake语言快速批量可自动邮件反馈结果的高通量测序质控分析方法
CN110033826B (zh) 一种应用于宏病毒组高通量测序数据的分析方法
CN103728891A (zh) 水质在线监测数据的控制方法及装置
CN110993023B (zh) 复杂突变的检测方法及检测装置
CN110021347B (zh) 一种基于miRBase数据库的动物有参的miRNA数据分析方法
CN109859797B (zh) 一种基于miRBase数据库的无参的miRNA数据分析方法
CN111326212A (zh) 一种结构变异的检测方法
CN108256295A (zh) 一种用于检测基因融合的装置
CN112289375A (zh) 一种宏基因组测序数据自动化分析方法
CN113793644A (zh) 一种dna检测数据的质量评估方法
CN113066532B (zh) 基于高通量测序技术的宿主中病毒来源sRNA数据分析方法
CN111243665A (zh) 一种核糖体印记测序数据分析方法及系统
CN111696655B (zh) 一种基于互联网的实时共享的血液筛查室内质控系统和方法
CN108388771A (zh) 一种生物多样性自动分析方法
CN112885407B (zh) 一种基于二代测序的微单倍型检测分型系统和方法
CN112489724A (zh) 一种基于二代测序的转录组数据自动化分析方法
CN114420207A (zh) 一种基因多序列比对方法、设备和系统
CN111429967A (zh) Pacbio三代测序数据的处理方法
Pfeifer et al. Package ‘PopGenome’
Baur et al. The MARK-AGE extended database: data integration and pre-processing
CN104484750A (zh) 生物信息项目的产品参数自动匹配方法及系统
CN115346607B (zh) Dna样本查重方法及装置
CN111651446B (zh) 一种基于大数据的数据重复频率监测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20210615

Assignee: Shanghai deer Biotechnology Co.,Ltd.

Assignor: SHANGHAI OE BIOTECH CO.,LTD.

Contract record no.: X2023980034388

Denomination of invention: High-throughput sequencing quality control analysis method based on snakemake language for rapid batch and automatic email feedback results

Granted publication date: 20220726

License type: Common License

Record date: 20230403