CN112735516A - 一种无参考基因组的群体变异检测分析方法 - Google Patents

一种无参考基因组的群体变异检测分析方法 Download PDF

Info

Publication number
CN112735516A
CN112735516A CN202011596548.9A CN202011596548A CN112735516A CN 112735516 A CN112735516 A CN 112735516A CN 202011596548 A CN202011596548 A CN 202011596548A CN 112735516 A CN112735516 A CN 112735516A
Authority
CN
China
Prior art keywords
reference genome
clustering
sample
variation detection
sequences
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011596548.9A
Other languages
English (en)
Inventor
徐昊
姜丽荣
孙子奎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Personal Biotechnology Co ltd
Original Assignee
Shanghai Personal Biotechnology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Personal Biotechnology Co ltd filed Critical Shanghai Personal Biotechnology Co ltd
Priority to CN202011596548.9A priority Critical patent/CN112735516A/zh
Publication of CN112735516A publication Critical patent/CN112735516A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Bioethics (AREA)
  • Data Mining & Analysis (AREA)
  • Chemical & Material Sciences (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Artificial Intelligence (AREA)
  • Analytical Chemistry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开了一种无参考基因组的群体变异检测分析方法,1)通过dd‑RAD的方法进行样本测序,测序后得到每个样本的数据使用flash软件包将有overlap的read1与read2连接起来,通过聚类软件对每个样本的序列聚类,提取每个样本序列中的consensus序列;2)将步骤1)得到的每个样本序列的consensus序列合并,然后进行聚类,过滤,得到群体的consensus序列,通过本发明使无参考基因组的群体进化分析更加高效,可以极大提高变异检测的速度和准确度。

Description

一种无参考基因组的群体变异检测分析方法
技术领域
本发明涉及基因检测技术领域,尤其涉及一种无参考基因组的群体变异检测分析方法。
背景技术
无参简化变异检测,即针对没有参考基因组、或参考序列组装质量较差的物种,通常采用简化基因组测序技术(单酶切,RAD;双酶切,GBS),用软件将不同样本的序列短片段(Tags)聚类对齐,找到位点间的变异、开发分子标记。
而通过群体进化分析能更加深入的探究同物种内不同亚群之间的群体结构差异、基因交流情况,也能够研究不同物种之间的群体结构特征,但很多的物种还没有参考基因组发表,所以就要进行无参考基因组的群体进化分析。采用dd-RAD的方法进行样本测序,得到数据之后进行无参简化群体进化项目的分析。
目前在无参简化群体进化项目中使用的变异检测工具为Stacks(v1.48)软件包中的cstacks,在该操作步骤当中实际流程中需要消耗大量的计算时间与资源,并且使用量随着样本数量的增加快速增加。极大制约了正常的项目运作。
发明内容
本发明的提供一种无参考基因组的群体变异检测分析方法。
本发明的方案是:
一种无参考基因组的群体变异检测分析方法,包括下列步骤:
1)通过dd-RAD的方法进行样本测序,测序后得到每个样本的数据使用flash软件包将有overlap的read1与read2连接起来,通过聚类软件对每个样本的序列聚类,提取每个样本序列中的consensus序列;
2)将步骤1)得到的每个样本序列的consensus序列合并,然后进行聚类,过滤,得到群体的consensus序列;
3)使用若干的N连接consensus序列,得到一套伪参考基因组;
4)然后将步骤3)中伪参考基因组按照有参的变异检测流程进行变异的检测与过滤,获得检测信息。
作为优选的技术方案,所述步骤1)中的dd-RAD的方法进行样本测序的建库双端读长150bp,插入片段200-500bp。
作为优选的技术方案,所述步骤步骤1)中的聚类软件为Stacks软件包中的ustacks。
作为优选的技术方案,所述步骤2)中过滤的条件为聚类时核酸序列相似>98%;聚类时reference与query双方的覆盖均>95%。
作为优选的技术方案,所述N的默认数量为1000。
作为优选的技术方案,所述步骤4)中有参的变异检测流程采用bwa软件包与gatk软件包。
由于采用了上述技术方案一种无参考基因组的群体变异检测分析方法,1)通过dd-RAD的方法进行样本测序,测序后得到每个样本的数据使用flash软件包将有overlap的read1与read2连接起来,通过聚类软件对每个样本的序列聚类,提取每个样本序列中的consensus序列;2)将步骤1)得到的每个样本序列的consensus序列合并,然后进行聚类,过滤,得到群体的consensus序列;3)使用若干的N连接consensus序列,得到一套伪参考基因组;4)然后将步骤3)中伪参考基因组按照有参的变异检测流程进行变异的检测与过滤,获得检测信息。
本发明的优点:1、通过本发明使无参考基因组的群体进化分析更加高效,可以极大提高变异检测的速度和准确度:
2.通过本发明更加灵活的对数据进行过滤和筛选,便于操作,简化了操作过程。
附图说明
图1位本发明的框架结构图。
具体实施方式
为了弥补以上不足,本发明提供了一种无参考基因组的群体变异检测分析方法以解决上述背景技术中的问题。
一种无参考基因组的群体变异检测分析方法,包括下列步骤:
1)通过dd-RAD的方法进行样本测序,测序后得到每个样本的数据使用flash软件包将有overlap的read1与read2连接起来,通过聚类软件对每个样本的序列聚类,提取每个样本序列中的consensus序列;
2)将步骤1)得到的每个样本序列的consensus序列合并,然后进行聚类,过滤,得到群体的consensus序列;
3)使用若干的N连接consensus序列,得到一套伪参考基因组;
4)然后将步骤3)中伪参考基因组按照有参的变异检测流程进行变异的检测与过滤,获得检测信息。
所述步骤1)中的dd-RAD的方法进行样本测序的建库双端读长150bp,插入片段200-500bp。
所述步骤步骤1)中的聚类软件为Stacks软件包中的ustacks。
所述步骤2)中过滤的条件为聚类时核酸序列相似>98%;聚类时reference与query双方的覆盖均>95%。
所述N的默认数量为1000。
所述步骤4)中有参的变异检测流程采用bwa软件包与gatk软件包。
为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体实施例,进一步阐述本发明。
实施例:
1)通过dd-RAD的方法进行样本测序,测序后得到每个样本的数据使用flash软件包将有overlap的read1与read2连接起来,通过聚类软件对每个样本的序列聚类,提取每个样本序列中的consensus序列;
2)将步骤1)得到的每个样本序列的consensus序列合并,然后进行聚类,过滤,得到群体的consensus序列;
3)使用若干的N连接consensus序列,得到一套伪参考基因组;
4)然后将步骤3)中伪参考基因组按照有参的变异检测流程进行变异的检测与过滤,获得检测信息。
所述步骤1)中的dd-RAD的方法进行样本测序的建库双端读长150bp,插入片段200-500bp。
所述步骤步骤1)中的聚类软件为Stacks软件包中的ustacks。
所述步骤2)中过滤的条件为聚类时核酸序列相似>98%;聚类时reference与query双方的覆盖均>95%。
所述N的默认数量为1000。
所述步骤4)中有参的变异检测流程采用bwa软件包与gatk软件包。
将上述实施例的方法与现有的无参简化变异检测方法进行测试,测试如下,
测试使用数据:
2个群体,每个群体3个样本,每个样本数据量约1G(read1、read2各500M);计算资源:
8cpu,16g ram;
关键步骤(从locus结果到变异检测结果)耗时对比:
现有的无参简化变异检测方法的流程需要16h28m30s;
本发明的流程需要4h15m2s;
两者的差距会随着样本数以及数据量增加而增加;
由此可见本发明能够有效的缩短耗时,达到准确检测结果。
以上显示和描述了本发明的基本原理、主要特征及本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (6)

1.一种无参考基因组的群体变异检测分析方法,其特征在于,包括下列步骤:
1)通过dd-RAD的方法进行样本测序,测序后得到每个样本的数据使用flash软件包将有overlap的read1与read2连接起来,通过聚类软件对每个样本的序列聚类,提取每个样本序列中的consensus序列;
2)将步骤1)得到的每个样本序列的consensus序列合并,然后进行聚类,过滤,得到群体的consensus序列;
3)使用若干的N连接consensus序列,得到一套伪参考基因组;
4)然后将步骤3)中伪参考基因组按照有参的变异检测流程进行变异的检测与过滤,获得检测信息。
2.如权利要求1所述的一种无参考基因组的群体变异检测分析方法,其特征在于:
所述步骤1)中的dd-RAD的方法进行样本测序的建库双端读长150bp,插入片段200-500bp。
3.如权利要求1所述的一种无参考基因组的群体变异检测分析方法,其特征在于:
所述步骤步骤1)中的聚类软件为Stacks软件包中的ustacks。
4.如权利要求1所述的一种无参考基因组的群体变异检测分析方法,其特征在于:
所述步骤2)中过滤的条件为聚类时核酸序列相似大于98%;聚类时reference与query双方的覆盖均大于95%。
5.如权利要求1所述的一种无参考基因组的群体变异检测分析方法,其特征在于:所述N的默认数量为1000。
6.如权利要求1所述的一种无参考基因组的群体变异检测分析方法,其特征在于:所述步骤4)中有参的变异检测流程采用bwa软件包与gatk软件包。
CN202011596548.9A 2020-12-29 2020-12-29 一种无参考基因组的群体变异检测分析方法 Pending CN112735516A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011596548.9A CN112735516A (zh) 2020-12-29 2020-12-29 一种无参考基因组的群体变异检测分析方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011596548.9A CN112735516A (zh) 2020-12-29 2020-12-29 一种无参考基因组的群体变异检测分析方法

Publications (1)

Publication Number Publication Date
CN112735516A true CN112735516A (zh) 2021-04-30

Family

ID=75611269

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011596548.9A Pending CN112735516A (zh) 2020-12-29 2020-12-29 一种无参考基因组的群体变异检测分析方法

Country Status (1)

Country Link
CN (1) CN112735516A (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012239430A (ja) * 2011-05-19 2012-12-10 Natl Inst Of Radiological Sciences 網羅的フラグメント解析における遺伝子同定方法および発現解析方法
CN104781421A (zh) * 2012-09-04 2015-07-15 夸登特健康公司 检测稀有突变和拷贝数变异的系统和方法
WO2016062713A1 (en) * 2014-10-21 2016-04-28 Barcelona Supercomputing Center - Centro Nacional De Supercomputación A computational method for the identification of variants in nucleic acid sequences
CN108004302A (zh) * 2017-12-12 2018-05-08 中国农业科学院麻类研究所 一种转录组参考的关联分析方法及其应用
CN109182538A (zh) * 2018-09-29 2019-01-11 南京农业大学 奶牛乳腺炎关键SNPs位点rs88640083及2b-RAD基因分型和分析方法
US20200005898A1 (en) * 2016-07-08 2020-01-02 Barcelona Supercomputing Center - Centro Nacional De Supercomputación A computer-implemented and reference-free method for identifying variants in nucleic acid sequences

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012239430A (ja) * 2011-05-19 2012-12-10 Natl Inst Of Radiological Sciences 網羅的フラグメント解析における遺伝子同定方法および発現解析方法
CN104781421A (zh) * 2012-09-04 2015-07-15 夸登特健康公司 检测稀有突变和拷贝数变异的系统和方法
WO2016062713A1 (en) * 2014-10-21 2016-04-28 Barcelona Supercomputing Center - Centro Nacional De Supercomputación A computational method for the identification of variants in nucleic acid sequences
US20200005898A1 (en) * 2016-07-08 2020-01-02 Barcelona Supercomputing Center - Centro Nacional De Supercomputación A computer-implemented and reference-free method for identifying variants in nucleic acid sequences
CN108004302A (zh) * 2017-12-12 2018-05-08 中国农业科学院麻类研究所 一种转录组参考的关联分析方法及其应用
CN109182538A (zh) * 2018-09-29 2019-01-11 南京农业大学 奶牛乳腺炎关键SNPs位点rs88640083及2b-RAD基因分型和分析方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
周卫星;石海鹤;: "高通量测序中序列拼接算法的研究进展", 计算机科学, vol. 46, no. 05, pages 36 - 43 *
胡景杰;任红艳;: "RAD测序技术及其在水生生物研究中的应用", 水产科学, vol. 37, no. 01, pages 125 - 132 *

Similar Documents

Publication Publication Date Title
US20200294628A1 (en) Creation or use of anchor-based data structures for sample-derived characteristic determination
US20200111542A1 (en) Method and Device for Analyzing Sequencing Data Result, and Sequencing Library Construction and Sequencing Method
CN110211633B (zh) Mgmt基因启动子甲基化的检测方法、测序数据的处理方法及处理装置
CN114657238B (zh) 一种枸杞40k液相芯片及应用
CN107944228A (zh) 一种基因测序变异位点的可视化方法
EP4152334A1 (en) Gene sequencing analysis method and apparatus, and storage medium and computer device
CN114121160A (zh) 一种检测样本中宏病毒组的方法和系统
WO2022125995A1 (en) Methods and systems for visualizing short reads in repetitive regions of the genome
CN116189763A (zh) 一种基于二代测序的单样本拷贝数变异检测方法
CN111518921A (zh) 一种采用snp分子标记技术鉴别连城白鸭的方法
CN110970091A (zh) 标签质控的方法及装置
CN113571131B (zh) 一种泛基因组的构建方法及其相应的结构变异挖掘方法
CN111292806B (zh) 一种利用纳米孔测序的转录组分析方法
CN112735516A (zh) 一种无参考基因组的群体变异检测分析方法
CN112102944A (zh) 一种基于ngs的脑肿瘤分子诊断的分析方法
CN115938491B (zh) 一种用于临床病原诊断的高质量细菌基因组数据库构建方法及系统
CN112750501A (zh) 一种宏病毒组流程的优化分析方法
CN115948521A (zh) 一种检测非整倍体缺失染色体信息的方法
CN113699253A (zh) 一种崂山奶山羊低密度液相snp芯片及其应用
WO2020242603A1 (en) Methods and usage for quantitative evaluation of clonal amplified products and sequencing qualities
CN112086128A (zh) 一种适用于Sequel测序的三代全长转录组测序结果分析方法
CN110684830A (zh) 一种石蜡切片组织rna分析方法
CN113793641B (zh) 一种从fastq文件中快速判断样本性别的方法
CN117265139B (zh) 一种萨福克羊体重相关snp标记及其筛选方法与应用
WO2023236121A1 (zh) 检测罕见细胞的方法、装置及其应用

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination