CN112735516A - 一种无参考基因组的群体变异检测分析方法 - Google Patents
一种无参考基因组的群体变异检测分析方法 Download PDFInfo
- Publication number
- CN112735516A CN112735516A CN202011596548.9A CN202011596548A CN112735516A CN 112735516 A CN112735516 A CN 112735516A CN 202011596548 A CN202011596548 A CN 202011596548A CN 112735516 A CN112735516 A CN 112735516A
- Authority
- CN
- China
- Prior art keywords
- reference genome
- clustering
- sample
- variation detection
- sequences
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 40
- 238000004458 analytical method Methods 0.000 title claims abstract description 12
- 238000000034 method Methods 0.000 claims abstract description 26
- 108091035707 Consensus sequence Proteins 0.000 claims abstract description 18
- 238000012163 sequencing technique Methods 0.000 claims abstract description 17
- 238000001914 filtration Methods 0.000 claims abstract description 15
- 230000035772 mutation Effects 0.000 claims description 15
- 239000012634 fragment Substances 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 4
- 150000007523 nucleic acids Chemical group 0.000 claims description 4
- 238000003556 assay Methods 0.000 claims 5
- 238000001976 enzyme digestion Methods 0.000 description 2
- 108090000623 proteins and genes Proteins 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012268 genome sequencing Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
Landscapes
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Biophysics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Bioethics (AREA)
- Data Mining & Analysis (AREA)
- Chemical & Material Sciences (AREA)
- Molecular Biology (AREA)
- Genetics & Genomics (AREA)
- Artificial Intelligence (AREA)
- Analytical Chemistry (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Evolutionary Computation (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种无参考基因组的群体变异检测分析方法,1)通过dd‑RAD的方法进行样本测序,测序后得到每个样本的数据使用flash软件包将有overlap的read1与read2连接起来,通过聚类软件对每个样本的序列聚类,提取每个样本序列中的consensus序列;2)将步骤1)得到的每个样本序列的consensus序列合并,然后进行聚类,过滤,得到群体的consensus序列,通过本发明使无参考基因组的群体进化分析更加高效,可以极大提高变异检测的速度和准确度。
Description
技术领域
本发明涉及基因检测技术领域,尤其涉及一种无参考基因组的群体变异检测分析方法。
背景技术
无参简化变异检测,即针对没有参考基因组、或参考序列组装质量较差的物种,通常采用简化基因组测序技术(单酶切,RAD;双酶切,GBS),用软件将不同样本的序列短片段(Tags)聚类对齐,找到位点间的变异、开发分子标记。
而通过群体进化分析能更加深入的探究同物种内不同亚群之间的群体结构差异、基因交流情况,也能够研究不同物种之间的群体结构特征,但很多的物种还没有参考基因组发表,所以就要进行无参考基因组的群体进化分析。采用dd-RAD的方法进行样本测序,得到数据之后进行无参简化群体进化项目的分析。
目前在无参简化群体进化项目中使用的变异检测工具为Stacks(v1.48)软件包中的cstacks,在该操作步骤当中实际流程中需要消耗大量的计算时间与资源,并且使用量随着样本数量的增加快速增加。极大制约了正常的项目运作。
发明内容
本发明的提供一种无参考基因组的群体变异检测分析方法。
本发明的方案是:
一种无参考基因组的群体变异检测分析方法,包括下列步骤:
1)通过dd-RAD的方法进行样本测序,测序后得到每个样本的数据使用flash软件包将有overlap的read1与read2连接起来,通过聚类软件对每个样本的序列聚类,提取每个样本序列中的consensus序列;
2)将步骤1)得到的每个样本序列的consensus序列合并,然后进行聚类,过滤,得到群体的consensus序列;
3)使用若干的N连接consensus序列,得到一套伪参考基因组;
4)然后将步骤3)中伪参考基因组按照有参的变异检测流程进行变异的检测与过滤,获得检测信息。
作为优选的技术方案,所述步骤1)中的dd-RAD的方法进行样本测序的建库双端读长150bp,插入片段200-500bp。
作为优选的技术方案,所述步骤步骤1)中的聚类软件为Stacks软件包中的ustacks。
作为优选的技术方案,所述步骤2)中过滤的条件为聚类时核酸序列相似>98%;聚类时reference与query双方的覆盖均>95%。
作为优选的技术方案,所述N的默认数量为1000。
作为优选的技术方案,所述步骤4)中有参的变异检测流程采用bwa软件包与gatk软件包。
由于采用了上述技术方案一种无参考基因组的群体变异检测分析方法,1)通过dd-RAD的方法进行样本测序,测序后得到每个样本的数据使用flash软件包将有overlap的read1与read2连接起来,通过聚类软件对每个样本的序列聚类,提取每个样本序列中的consensus序列;2)将步骤1)得到的每个样本序列的consensus序列合并,然后进行聚类,过滤,得到群体的consensus序列;3)使用若干的N连接consensus序列,得到一套伪参考基因组;4)然后将步骤3)中伪参考基因组按照有参的变异检测流程进行变异的检测与过滤,获得检测信息。
本发明的优点:1、通过本发明使无参考基因组的群体进化分析更加高效,可以极大提高变异检测的速度和准确度:
2.通过本发明更加灵活的对数据进行过滤和筛选,便于操作,简化了操作过程。
附图说明
图1位本发明的框架结构图。
具体实施方式
为了弥补以上不足,本发明提供了一种无参考基因组的群体变异检测分析方法以解决上述背景技术中的问题。
一种无参考基因组的群体变异检测分析方法,包括下列步骤:
1)通过dd-RAD的方法进行样本测序,测序后得到每个样本的数据使用flash软件包将有overlap的read1与read2连接起来,通过聚类软件对每个样本的序列聚类,提取每个样本序列中的consensus序列;
2)将步骤1)得到的每个样本序列的consensus序列合并,然后进行聚类,过滤,得到群体的consensus序列;
3)使用若干的N连接consensus序列,得到一套伪参考基因组;
4)然后将步骤3)中伪参考基因组按照有参的变异检测流程进行变异的检测与过滤,获得检测信息。
所述步骤1)中的dd-RAD的方法进行样本测序的建库双端读长150bp,插入片段200-500bp。
所述步骤步骤1)中的聚类软件为Stacks软件包中的ustacks。
所述步骤2)中过滤的条件为聚类时核酸序列相似>98%;聚类时reference与query双方的覆盖均>95%。
所述N的默认数量为1000。
所述步骤4)中有参的变异检测流程采用bwa软件包与gatk软件包。
为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体实施例,进一步阐述本发明。
实施例:
1)通过dd-RAD的方法进行样本测序,测序后得到每个样本的数据使用flash软件包将有overlap的read1与read2连接起来,通过聚类软件对每个样本的序列聚类,提取每个样本序列中的consensus序列;
2)将步骤1)得到的每个样本序列的consensus序列合并,然后进行聚类,过滤,得到群体的consensus序列;
3)使用若干的N连接consensus序列,得到一套伪参考基因组;
4)然后将步骤3)中伪参考基因组按照有参的变异检测流程进行变异的检测与过滤,获得检测信息。
所述步骤1)中的dd-RAD的方法进行样本测序的建库双端读长150bp,插入片段200-500bp。
所述步骤步骤1)中的聚类软件为Stacks软件包中的ustacks。
所述步骤2)中过滤的条件为聚类时核酸序列相似>98%;聚类时reference与query双方的覆盖均>95%。
所述N的默认数量为1000。
所述步骤4)中有参的变异检测流程采用bwa软件包与gatk软件包。
将上述实施例的方法与现有的无参简化变异检测方法进行测试,测试如下,
测试使用数据:
2个群体,每个群体3个样本,每个样本数据量约1G(read1、read2各500M);计算资源:
8cpu,16g ram;
关键步骤(从locus结果到变异检测结果)耗时对比:
现有的无参简化变异检测方法的流程需要16h28m30s;
本发明的流程需要4h15m2s;
两者的差距会随着样本数以及数据量增加而增加;
由此可见本发明能够有效的缩短耗时,达到准确检测结果。
以上显示和描述了本发明的基本原理、主要特征及本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
Claims (6)
1.一种无参考基因组的群体变异检测分析方法,其特征在于,包括下列步骤:
1)通过dd-RAD的方法进行样本测序,测序后得到每个样本的数据使用flash软件包将有overlap的read1与read2连接起来,通过聚类软件对每个样本的序列聚类,提取每个样本序列中的consensus序列;
2)将步骤1)得到的每个样本序列的consensus序列合并,然后进行聚类,过滤,得到群体的consensus序列;
3)使用若干的N连接consensus序列,得到一套伪参考基因组;
4)然后将步骤3)中伪参考基因组按照有参的变异检测流程进行变异的检测与过滤,获得检测信息。
2.如权利要求1所述的一种无参考基因组的群体变异检测分析方法,其特征在于:
所述步骤1)中的dd-RAD的方法进行样本测序的建库双端读长150bp,插入片段200-500bp。
3.如权利要求1所述的一种无参考基因组的群体变异检测分析方法,其特征在于:
所述步骤步骤1)中的聚类软件为Stacks软件包中的ustacks。
4.如权利要求1所述的一种无参考基因组的群体变异检测分析方法,其特征在于:
所述步骤2)中过滤的条件为聚类时核酸序列相似大于98%;聚类时reference与query双方的覆盖均大于95%。
5.如权利要求1所述的一种无参考基因组的群体变异检测分析方法,其特征在于:所述N的默认数量为1000。
6.如权利要求1所述的一种无参考基因组的群体变异检测分析方法,其特征在于:所述步骤4)中有参的变异检测流程采用bwa软件包与gatk软件包。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011596548.9A CN112735516A (zh) | 2020-12-29 | 2020-12-29 | 一种无参考基因组的群体变异检测分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011596548.9A CN112735516A (zh) | 2020-12-29 | 2020-12-29 | 一种无参考基因组的群体变异检测分析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112735516A true CN112735516A (zh) | 2021-04-30 |
Family
ID=75611269
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011596548.9A Pending CN112735516A (zh) | 2020-12-29 | 2020-12-29 | 一种无参考基因组的群体变异检测分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112735516A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012239430A (ja) * | 2011-05-19 | 2012-12-10 | Natl Inst Of Radiological Sciences | 網羅的フラグメント解析における遺伝子同定方法および発現解析方法 |
CN104781421A (zh) * | 2012-09-04 | 2015-07-15 | 夸登特健康公司 | 检测稀有突变和拷贝数变异的系统和方法 |
WO2016062713A1 (en) * | 2014-10-21 | 2016-04-28 | Barcelona Supercomputing Center - Centro Nacional De Supercomputación | A computational method for the identification of variants in nucleic acid sequences |
CN108004302A (zh) * | 2017-12-12 | 2018-05-08 | 中国农业科学院麻类研究所 | 一种转录组参考的关联分析方法及其应用 |
CN109182538A (zh) * | 2018-09-29 | 2019-01-11 | 南京农业大学 | 奶牛乳腺炎关键SNPs位点rs88640083及2b-RAD基因分型和分析方法 |
US20200005898A1 (en) * | 2016-07-08 | 2020-01-02 | Barcelona Supercomputing Center - Centro Nacional De Supercomputación | A computer-implemented and reference-free method for identifying variants in nucleic acid sequences |
-
2020
- 2020-12-29 CN CN202011596548.9A patent/CN112735516A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012239430A (ja) * | 2011-05-19 | 2012-12-10 | Natl Inst Of Radiological Sciences | 網羅的フラグメント解析における遺伝子同定方法および発現解析方法 |
CN104781421A (zh) * | 2012-09-04 | 2015-07-15 | 夸登特健康公司 | 检测稀有突变和拷贝数变异的系统和方法 |
WO2016062713A1 (en) * | 2014-10-21 | 2016-04-28 | Barcelona Supercomputing Center - Centro Nacional De Supercomputación | A computational method for the identification of variants in nucleic acid sequences |
US20200005898A1 (en) * | 2016-07-08 | 2020-01-02 | Barcelona Supercomputing Center - Centro Nacional De Supercomputación | A computer-implemented and reference-free method for identifying variants in nucleic acid sequences |
CN108004302A (zh) * | 2017-12-12 | 2018-05-08 | 中国农业科学院麻类研究所 | 一种转录组参考的关联分析方法及其应用 |
CN109182538A (zh) * | 2018-09-29 | 2019-01-11 | 南京农业大学 | 奶牛乳腺炎关键SNPs位点rs88640083及2b-RAD基因分型和分析方法 |
Non-Patent Citations (7)
Title |
---|
HANTAO QIN;GUOQIAN YANG;JIM PROVAN;JIE LIU;LIANMING GAO;: "Using MiddRAD-seq data to develop polymorphic microsatellite markers for an endangered yew species", PLANT DIVERSITY, no. 05, 25 October 2017 (2017-10-25) * |
周卫星;石海鹤;: "高通量测序中序列拼接算法的研究进展", 计算机科学, vol. 46, no. 05, 15 May 2019 (2019-05-15), pages 36 - 41 * |
周卫星;石海鹤;: "高通量测序中序列拼接算法的研究进展", 计算机科学, vol. 46, no. 05, pages 36 - 43 * |
段修军;董飚;孙国波;卞友庆;纪荣超;: "基于酶切的简化基因组测序在水禽品种进化关系研究中的应用", 西北农业学报, no. 01, 25 January 2015 (2015-01-25), pages 13 - 17 * |
窦锦壮;赵熙强;付晓腾;焦文倩;王南南;张玲玲;胡晓丽;王师;包振民;: "测序错误和重复序列对无参照基因组单核苷酸多态性分型的影响", 中国海洋大学学报(自然科学版), no. 05, 15 May 2013 (2013-05-15) * |
胡景杰;任红艳;: "RAD测序技术及其在水生生物研究中的应用", 水产科学, vol. 37, no. 01, 31 January 2018 (2018-01-31), pages 125 - 130 * |
胡景杰;任红艳;: "RAD测序技术及其在水生生物研究中的应用", 水产科学, vol. 37, no. 01, pages 125 - 132 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110349629A (zh) | 一种利用宏基因组或宏转录组检测微生物的分析方法 | |
US20200111542A1 (en) | Method and Device for Analyzing Sequencing Data Result, and Sequencing Library Construction and Sequencing Method | |
US20200294628A1 (en) | Creation or use of anchor-based data structures for sample-derived characteristic determination | |
AU2022298428B2 (en) | Gene sequencing analysis method and apparatus, and storage medium and computer device | |
CN114657238B (zh) | 一种枸杞40k液相芯片及应用 | |
CN113571131B (zh) | 一种泛基因组的构建方法及其相应的结构变异挖掘方法 | |
CN114121160A (zh) | 一种检测样本中宏病毒组的方法和系统 | |
CN117690483B (zh) | 一种基于病原宏基因二代测序的耐药基因检测方法 | |
EP4260325A1 (en) | Methods and systems for visualizing short reads in repetitive regions of the genome | |
CN116189763A (zh) | 一种基于二代测序的单样本拷贝数变异检测方法 | |
CN111518921A (zh) | 一种采用snp分子标记技术鉴别连城白鸭的方法 | |
CN111292806B (zh) | 一种利用纳米孔测序的转录组分析方法 | |
CN112735516A (zh) | 一种无参考基因组的群体变异检测分析方法 | |
CN117727363A (zh) | 多个测序平台肿瘤基因突变检测生物信息分析方法及系统 | |
CN112102944A (zh) | 一种基于ngs的脑肿瘤分子诊断的分析方法 | |
CN112750501A (zh) | 一种宏病毒组流程的优化分析方法 | |
CN115948521A (zh) | 一种检测非整倍体缺失染色体信息的方法 | |
CN113699253A (zh) | 一种崂山奶山羊低密度液相snp芯片及其应用 | |
WO2020242603A1 (en) | Methods and usage for quantitative evaluation of clonal amplified products and sequencing qualities | |
CN112086128A (zh) | 一种适用于Sequel测序的三代全长转录组测序结果分析方法 | |
CN113793641B (zh) | 一种从fastq文件中快速判断样本性别的方法 | |
CN117265139B (zh) | 一种萨福克羊体重相关snp标记及其筛选方法与应用 | |
WO2024055320A1 (zh) | 一种基因测序方法、装置、设备和介质 | |
CN116779036A (zh) | 一种基于多重pcr的靶向病原体纳米孔测序快速分析方法 | |
WO2024113164A1 (zh) | 原位测序及对原位测序结果进行区域划分的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |