CN112735516A

CN112735516A - 一种无参考基因组的群体变异检测分析方法

Info

Publication number: CN112735516A
Application number: CN202011596548.9A
Authority: CN
Inventors: 徐昊; 姜丽荣; 孙子奎
Original assignee: Shanghai Personal Biotechnology Co ltd
Current assignee: Shanghai Personal Biotechnology Co ltd
Priority date: 2020-12-29
Filing date: 2020-12-29
Publication date: 2021-04-30

Abstract

本发明公开了一种无参考基因组的群体变异检测分析方法，1)通过dd‑RAD的方法进行样本测序，测序后得到每个样本的数据使用flash软件包将有overlap的read1与read2连接起来，通过聚类软件对每个样本的序列聚类，提取每个样本序列中的consensus序列；2)将步骤1)得到的每个样本序列的consensus序列合并，然后进行聚类，过滤，得到群体的consensus序列，通过本发明使无参考基因组的群体进化分析更加高效，可以极大提高变异检测的速度和准确度。

Description

一种无参考基因组的群体变异检测分析方法

技术领域

本发明涉及基因检测技术领域，尤其涉及一种无参考基因组的群体变异检测分析方法。

背景技术

无参简化变异检测，即针对没有参考基因组、或参考序列组装质量较差的物种，通常采用简化基因组测序技术(单酶切，RAD；双酶切，GBS)，用软件将不同样本的序列短片段(Tags)聚类对齐，找到位点间的变异、开发分子标记。

而通过群体进化分析能更加深入的探究同物种内不同亚群之间的群体结构差异、基因交流情况，也能够研究不同物种之间的群体结构特征，但很多的物种还没有参考基因组发表，所以就要进行无参考基因组的群体进化分析。采用dd-RAD的方法进行样本测序，得到数据之后进行无参简化群体进化项目的分析。

目前在无参简化群体进化项目中使用的变异检测工具为Stacks(v1.48)软件包中的cstacks，在该操作步骤当中实际流程中需要消耗大量的计算时间与资源，并且使用量随着样本数量的增加快速增加。极大制约了正常的项目运作。

发明内容

本发明的提供一种无参考基因组的群体变异检测分析方法。

本发明的方案是：

一种无参考基因组的群体变异检测分析方法，包括下列步骤：

1)通过dd-RAD的方法进行样本测序，测序后得到每个样本的数据使用flash软件包将有overlap的read1与read2连接起来，通过聚类软件对每个样本的序列聚类，提取每个样本序列中的consensus序列；

2)将步骤1)得到的每个样本序列的consensus序列合并，然后进行聚类，过滤，得到群体的consensus序列；

3)使用若干的N连接consensus序列，得到一套伪参考基因组；

4)然后将步骤3)中伪参考基因组按照有参的变异检测流程进行变异的检测与过滤，获得检测信息。

作为优选的技术方案，所述步骤1)中的dd-RAD的方法进行样本测序的建库双端读长150bp，插入片段200-500bp。

作为优选的技术方案，所述步骤步骤1)中的聚类软件为Stacks软件包中的ustacks。

作为优选的技术方案，所述步骤2)中过滤的条件为聚类时核酸序列相似>98％；聚类时reference与query双方的覆盖均>95％。

作为优选的技术方案，所述N的默认数量为1000。

作为优选的技术方案，所述步骤4)中有参的变异检测流程采用bwa软件包与gatk软件包。

由于采用了上述技术方案一种无参考基因组的群体变异检测分析方法，1)通过dd-RAD的方法进行样本测序，测序后得到每个样本的数据使用flash软件包将有overlap的read1与read2连接起来，通过聚类软件对每个样本的序列聚类，提取每个样本序列中的consensus序列；2)将步骤1)得到的每个样本序列的consensus序列合并，然后进行聚类，过滤，得到群体的consensus序列；3)使用若干的N连接consensus序列，得到一套伪参考基因组；4)然后将步骤3)中伪参考基因组按照有参的变异检测流程进行变异的检测与过滤，获得检测信息。

本发明的优点：1、通过本发明使无参考基因组的群体进化分析更加高效，可以极大提高变异检测的速度和准确度：

2.通过本发明更加灵活的对数据进行过滤和筛选，便于操作，简化了操作过程。

附图说明

图1位本发明的框架结构图。

具体实施方式

为了弥补以上不足，本发明提供了一种无参考基因组的群体变异检测分析方法以解决上述背景技术中的问题。

3)使用若干的N连接consensus序列，得到一套伪参考基因组；

所述步骤1)中的dd-RAD的方法进行样本测序的建库双端读长150bp，插入片段200-500bp。

所述步骤步骤1)中的聚类软件为Stacks软件包中的ustacks。

所述步骤2)中过滤的条件为聚类时核酸序列相似>98％；聚类时reference与query双方的覆盖均>95％。

所述N的默认数量为1000。

所述步骤4)中有参的变异检测流程采用bwa软件包与gatk软件包。

为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解，下面结合具体实施例，进一步阐述本发明。

实施例：

3)使用若干的N连接consensus序列，得到一套伪参考基因组；

所述步骤步骤1)中的聚类软件为Stacks软件包中的ustacks。

所述N的默认数量为1000。

将上述实施例的方法与现有的无参简化变异检测方法进行测试，测试如下，

测试使用数据：

2个群体，每个群体3个样本，每个样本数据量约1G(read1、read2各500M)；计算资源：

8cpu，16g ram；

关键步骤(从locus结果到变异检测结果)耗时对比：

现有的无参简化变异检测方法的流程需要16h28m30s；

本发明的流程需要4h15m2s；

两者的差距会随着样本数以及数据量增加而增加；

由此可见本发明能够有效的缩短耗时，达到准确检测结果。

以上显示和描述了本发明的基本原理、主要特征及本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种无参考基因组的群体变异检测分析方法，其特征在于，包括下列步骤：

3)使用若干的N连接consensus序列，得到一套伪参考基因组；

2.如权利要求1所述的一种无参考基因组的群体变异检测分析方法，其特征在于：

3.如权利要求1所述的一种无参考基因组的群体变异检测分析方法，其特征在于：

所述步骤步骤1)中的聚类软件为Stacks软件包中的ustacks。

4.如权利要求1所述的一种无参考基因组的群体变异检测分析方法，其特征在于：

所述步骤2)中过滤的条件为聚类时核酸序列相似大于98％；聚类时reference与query双方的覆盖均大于95％。

5.如权利要求1所述的一种无参考基因组的群体变异检测分析方法，其特征在于：所述N的默认数量为1000。

6.如权利要求1所述的一种无参考基因组的群体变异检测分析方法，其特征在于：所述步骤4)中有参的变异检测流程采用bwa软件包与gatk软件包。