CN112182247A

CN112182247A - 一种遗传群体图谱构建方法、系统、存储介质及电子设备

Info

Publication number: CN112182247A
Application number: CN202011104688.XA
Authority: CN
Inventors: 邓秀新; 王楠; 宋谢天; 叶俊丽; 谢宗周; 曹榛; 张斯淇
Original assignee: Huazhong Agricultural University
Current assignee: Huazhong Agricultural University
Priority date: 2020-10-15
Filing date: 2020-10-15
Publication date: 2021-01-05
Anticipated expiration: 2040-10-15
Also published as: CN112182247B

Abstract

本发明公开了一种遗传群体图谱构建方法、系统、存储介质及电子设备，涉及遗传学领域。该方法包括：一种遗传群体图谱构建方法，包括：步骤1、获取矫正后的变异类型数据文件；步骤2、对所述变异类型数据文件中的子代变异类型数据进行处理得到重组交换位点；步骤3、根据所述重组交换位点确定n个bin区间；步骤4、确定每个bin区间的子代基因类型；步骤5、将每个bin区间的子代基因类型输入至joinmap4.0中得到图谱。本发明能够解决处理时间过长问题，避免偏分离问题，实现精准构建谱图。

Description

一种遗传群体图谱构建方法、系统、存储介质及电子设备

技术领域

本发明涉及遗传图谱构建领域，尤其涉及一种遗传群体图谱构建方法、系统、存储介质及电子设备。

背景技术

传统方法利用GATK进行变异检测，从测序下机到变异检测完成需要2-3天，同时因为缺少金标准的变异VCf文件，也没办法进行BQSR检测，不能重新矫正，且在处理～2Tb左右的数据进行并行处理更需要一个月以上，时间过长，另外传统构建方法中普遍存在假阳性的变异位点，以及偏分离的特征，这在一定程度上是图距表现出不均匀，标记密度稀疏，并且容易引入错误，造成定位结果不准确。

发明内容

本发明所要解决的技术问题是针对现有技术的不足，提供一种遗传群体图谱构建方法、系统、存储介质及电子设备。

本发明解决上述技术问题的技术方案如下：一种遗传群体图谱构建方法，包括：

步骤1、获取矫正后的变异类型数据文件；

步骤2、对所述变异类型数据文件中的子代变异类型数据进行处理得到重组交换位点；

步骤3、根据所述重组交换位点确定n个bin区间；

步骤4、确定每个bin区间的子代基因类型；

步骤5、将每个bin区间的子代基因类型输入至joinmap4.0中得到图谱。

本发明的有益效果是：通过上述方法可以有效的节约时间成本，提高效率，通过对于变异类型数据文件的校正可以提高数据的可信度同时减少了信息丢失的可能性，另外通过编码和特征过滤来计算重组交换位点等手段有效的避免了偏分离的特征，这在一定程度上杜绝了图距表现出不均匀，标记密度稀疏，并且引入错误等问题，另外，本方法能保留大量足够的nn X np和lm X ll标记，在使用BC1模型进行图谱构建的过程中具有精细准确的效果。

在上述技术方案的基础上，本发明还可以做如下改进。

进一步，步骤1具体为：

通过对非聚合酶链式反应重复的BAM文件进行变异检测，得到含有变异类型的文件数据，将所述文件数据中的子代变异类型中不符合遗传规律的变异位点剔除，将剔除后的文件数据进行合并，得到矫正后的变异类型数据文件。

采用上述进一步方案的有益效果是，通过对BAM文件进行变异检测可以粗略过滤文件中不符合要求的比对数据，这样不仅减少了后续对文件处理的工作量，同时提高了整套流程的处理效率，且更为重要的是将不符合要求的变异点剔除后可以极大程度提高比对到基因组的质量。

进一步，步骤1之后还包括：

步骤101、利用卡方检验对所述矫正后的变异类型数据文件进行检验，得到第一矫正数据。

采用上述进一步方案的有益效果是，卡方检验在检验单变量多项分类上的实计数和理论次数分布之间的差异效果显著，因此，通过卡方检验的数据可信度较高，可以为后续数据处理做好铺垫，在保证数据有效性的同时降低了后期数据处理的数量，提高了处理效率以及精确度，并且在一定程度上排除了由于错误比对的部分结果影响，筛选出了符合遗传学的变异位点，提高了后期用于构建图谱的基因型准确度。

进一步，步骤1之后还包括：

步骤102、对所述第一矫正数据进行未知基因类型填充，得到第二矫正数据。

采用上述进一步方案的有益效果是，对矫正后的数据进行未知基因类型的填充可以起到完善数据的作用，减少因为测序片段的覆盖度不够而导致得数据空缺，提高子代群体的完整度，以及图谱的准确度，根据遗传连锁关系对未知基因型填充，能够预测绝大多数的未知基因型，便于后期统计基因型频率。

进一步，步骤2具体为：

对所述第二矫正数据进行编码处理，得到重组交换位点。

采用上述进一步方案的有益效果是，使用离散编码是为了提高对数据处理的全面性，经离散编码循环处理后得到的重组交换位点更具有代表性及参考意义，且将基因型数据化，能够双向转化，便于从数据到基因型的反向传播。

进一步，步骤3具体为：

根据所述重组交换位点的染色体位置划分bin区间。

采用上述进一步方案的有益效果是，相较于传统bin区间的划分，该划分方法可以避免基因型不能完全代表该区域内的基因型的问题，同时可以减少因区间设置较小而带来的假阳性标记过多的情况，另外，通过该方法可以清晰的看到重组交换在基因组物理距离上的交换次数，同时大大提高了标记的准确性，并且基于重组交换进行遗传距离计算更能反映群体重组交换的真实水平，降低物理距离带来的假的遗传交换，同时能够确定交换区间，便于后期应用于遗传定位。

进一步，步骤4具体为：

在每个bin区间内进行离散检验，对每个bin区间内的离散程度进行筛选，统计基因型频数，根据频数筛选得到的结果即为该区间的子代基因类型。

采用上述进一步方案的有益效果是，在每个bin区间内进行离散检验，可以统计区间内子代基因型的频数，可以计算基因型最大概率，以此为基础获得的子代基因型用来构建图谱更具准确性，具有生物学意义，能够反映定位区间的重组交换水平。

本发明解决上述技术问题的另一种技术方案如下：一种遗传群体图谱构建系统，包括：

获取模块、用于获取矫正后的变异类型数据文件；

处理模块、用于对所述变异类型数据文件中的子代变异类型数据进行处理得到重组交换位点；

第一确定模块、用于根据所述重组交换位点确定n个bin区间；

第二确定模块、用于确定每个bin区间的子代基因类型；

输入模块、用于将每个bin区间的子代基因类型输入至joinmap4.0中得到图谱。

进一步，获取模块具体用于，通过对非聚合酶链式反应重复的BAM文件进行变异检测，得到含有变异类型的文件数据，将所述文件数据中的子代变异类型中不符合遗传规律的变异位点剔除，将剔除后的文件数据进行合并，得到矫正后的变异类型数据文件。

进一步，获取模块还具体用于，利用卡方检验对所述矫正后的变异类型数据文件进行检验，得到第一矫正数据。

进一步，获取模块还具体用于，对所述第一矫正数据进行未知基因类型填充，得到第二矫正数据。

进一步，处理模块具体用于，对所述第二矫正数据进行编码处理，得到重组交换位点。

进一步，第一确定模块具体用于，根据所述重组交换位点的染色体未知划分bin区间。

进一步，第二确定模块具体用于，在每个bin区间内进行离散检验，对每个bin区间内的离散程度进行筛选，筛选得到的结果即为该区间的子代基因类型。

本发明解决上述技术问题的另一种技术方案如下：一种存储介质，所述存储介质中存储有指令，当计算机读取所述指令时，使所述计算机执行如上述任一项所述的一种遗传群体图谱构建方法。

本发明解决上述技术问题的另一种技术方案如下：一种电子设备，包括存储器、处理器及存储在所述存储器上并在所述处理器上运行的程序，所述处理器执行所述程序时实现如上述任一项所述的一种遗传群体图谱构建方法。

本发明附加的方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明实践了解到。

附图说明

图1为本发明一种遗传群体图谱构建方法的实施例提供的流程示意图；

图2为本发明一种遗传群体图谱构建方法的其他实施例提供的父母标记图谱示意图；

图3为本发明一种遗传群体图谱构建方法的其他实施例提供的母本标记图谱示意图；

图4为本发明一种遗传群体图谱构建系统的实施例提供的结构框架图。

附图中，各标号所代表的部件列表如下：

100、获取模块，200、处理模块，300、第一确定模块，400、第二确定模块，500、输入模块。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实施例只用于解释本发明，并非用于限定本发明的范围。

如图1所示，本发明一种遗传群体图谱构建方法的实施例提供的流程示意图，包括：

步骤1、获取矫正后的变异类型数据文件；

步骤2、对变异类型数据文件中的子代变异类型数据进行离散编码，并计算得到重组交换位点；

步骤3、根据重组交换位点确定n个bin区间；

步骤4、确定每个bin区间的子代基因类型的频数来确定区间内的子代基因类型；

在一些可能的实施方式中，通过上述方法可以有效的节约时间成本，提高效率，通过对于变异类型数据文件的校正可以提高数据的可信度同时减少了信息丢失的可能性，另外通过编码和特征过滤来计算重组交换位点等手段有效的避免了偏分离的特征，这在一定程度上杜绝了图距表现出不均匀，标记密度稀疏，并且引入错误等问题，另外，本方法能保留大量足够的nn X np和lm X ll标记，在使用BC1模型进行图谱构建的过程中具有精细准确的效果。

需要说明的是，步骤2中对子代变异类型数据进行处理得到重组交换位点具体为：对子代变异类型数据进行编码处理，步骤3中确定n个bin区间为通过重组交换位点的染色体位置划分bin区间，步骤4中确定每个bin区间的子代基因类型为通过离散检验的方法确定每个bin区间的子代基因类型，因此，该方法的大致流程如下：首先利用fastp进行原始数据过滤，然后再利用bwa结合samtools进行比对和排序，再利用picard进行PCR片段重复去除。设置GPU加速，利用deepvariant进行变异检测，获得父母本和子代的重测序数据，利用glnexus进行群体变异检测，过滤错误变异位点信息，利用卡方检验进行遗传标记的偏分离过滤，再利用beagle进行第二轮子代基因型连锁分析，进行未知基因型的填充，再去掉偏分离和严重不连锁的变异位点，以离散编码的形式对遗位点基因型进行编码，最后再以物理距离250kb，其中，250kb算法是基于后面，基于假设：1cM＝0.5Mb，在单株200染色体级别的参考基因组在全基因组范围内以

为检测范围，为窗口进行重组交换位点的检测，根据重组位点在染色体上设置bin窗口，分析bin窗口内的基因型，通过统计bin窗口群体变异位点的频率，选择频率最高的两种类型来确定bin窗口的变异类型，并设置为bin标记，最后利用joinmap4.0构建图谱，其中，构建植物遗传图谱的过程中取样样本量大，一次达到200个单株左右很正常，测序产生的数据达到Tb级别，常规方法是利用基于java平台的GATK对非PCR重复的BAM文件进行变异检测，同时GATK的变异检测在非模式生物中不能完成BQSR，即碱基质量矫正，通常不做这一步，每一个样本做一次GATK就是接近20h，200个样本需要做相当长时间，但是用deepvariant来做变异检测，并且在Tesla V100的GPU中完成运算，每一个样本只需要2小时就能完成变异检测，优势有三点：第一是时间优势，第二是不需要做BQSR的碱基矫正，第三就是deepvariant可以在CPU和GPU两个平台上进行运算，GPU运算速度大于CPU预算，第四就是同时兼具很高的准确性，这四点是根据软件自身发布时候的表述来的。通常，一般方法用基于GATK对非PCR重复的BAM文件进行变异检测，获得包含变异类型的VCF文件，并用GATK将子代变异类型的多个VCF文件合并然后再进行群体标记筛选，具体做法是：利用卡方检验过滤p值小于0.01的子代标记，这些过滤的标记可认为存在偏分离的位点，不适合构建遗传图谱，剩下位点中筛选子代个体测序覆盖达到子代群体80％的即为可用位点。到此就直接用joinmap4.0去绘图了，但往往不可取，因为标记过多，绝大多数是无效的标记，但是joinmap4.0利用极大似然估计去计算，计算资源一般电脑很难满足。为了过滤无效的标记或者降低计算成本，会利用这些标记去做bin marker，即利用100kb或者10kb为一个区域，把能代表这个区域的标记做成bin marker，即以这个标记代表这个区域的标记。deepvariant是以卷积神经网络(CNN)为核心开发的变异检测工具，将比对到基因组上的BAM文件在基因组上的比对状态转化为可分割的数据，并基于多层卷积核和全连接层，最后输出变异位点类型的判断，其以人类基因组变异数据为训练模型。deepvariant是基于tensorflow平台开发的卷积神经网络模型，tensroflow是一款深度学习的框架，能够在GPU上完成运算，那么deepvariant也可以在GPU中完成运算。详细的操作流程可参考实施例1进行理解。

优选地，在上述任意实施例中，步骤1具体为：

通过对非聚合酶链式反应重复的BAM文件进行变异检测，得到含有变异类型的文件数据，将文件数据中的子代变异类型中不符合遗传规律的变异位点剔除，将剔除后的文件数据进行合并，得到矫正后的变异类型数据文件。

在一些可能的实施方式中，通过对BAM文件进行变异检测可以粗略过滤文件中不符合要求的比对数据，这样不仅减少了后续对文件处理的工作量，同时提高了整套流程的处理效率，且更为重要的是将不符合要求的变异点剔除后可以极大程度提高比对到基因组的质量。

优选地，在上述任意实施例中，步骤1之后还包括：

步骤101、利用卡方检验对矫正后的变异类型数据文件进行检验，得到第一矫正数据。

在一些可能的实施方式中，卡方检验在检验单变量多项分类上的实计数和理论次数分布之间的差异效果显著，因此，通过卡方检验的数据可信度较高，可以为后续数据处理做好铺垫，在保证数据有效性的同时降低了后期数据处理的数量，提高了处理效率以及精确度，并且在一定程度上排除了由于错误比对的部分结果影响，筛选出了符合遗传学的变异位点，提高了后期用于构建图谱的基因型准确度。

优选地，在上述任意实施例中，步骤1之后还包括：

步骤102、对第一矫正数据进行未知基因类型填充，得到第二矫正数据。

在一些可能的实施方式中，对矫正后的数据进行未知基因类型的填充可以起到完善数据的作用，减少因为测序片段的覆盖度不够而导致得数据空缺，提高子代群体的完整度，以及图谱的准确度，根据遗传连锁关系对未知基因型填充，能够预测绝大多数的未知基因型，便于后期统计基因型频率。

优选地，在上述任意实施例中，步骤2具体为：

对第二矫正数据进行编码处理，得到重组交换位点。

在一些可能的实施方式中，使用离散编码是为了提高对数据处理的全面性，经离散编码循环处理后得到的重组交换位点更具有代表性及参考意义，且将基因型数据化，能够双向转化，便于从数据到基因型的反向传播。

优选地，在上述任意实施例中，步骤3具体为：

根据重组交换位点的染色体位置划分bin区间。

在一些可能的实施方式中，相较于传统bin区间的划分，该划分方法可以避免基因型不能完全代表该区域内的基因型的问题，同时可以减少因区间设置较小而带来的假阳性标记过多的情况，另外，通过该方法可以清晰的看到重组交换在基因组物理距离上的交换次数，同时大大提高了标记的准确性，并且基于重组交换进行遗传距离计算更能反映群体重组交换的真实水平，降低物理距离带来的假的遗传交换，同时能够确定交换区间，便于后期应用于遗传定位。

优选地，在上述任意实施例中，步骤4具体为：

在每个bin区间内进行离散检验，对每个bin区间内的离散程度进行筛选，筛选得到的结果即为该区间的子代基因类型。

在一些可能的实施方式中，在每个bin区间内进行离散检验，可以统计区间内子代基因型的频数，可以计算基因型最大概率，以此为基础获得的子代基因型用来构建图谱更具准确性，具有生物学意义，能够反映定位区间的重组交换水平。

如图4所示，一种遗传群体图谱构建系统的实施例提供的结构框架图，包括：

获取模块100、用于获取矫正后的变异类型数据文件；

处理模块200、用于对变异类型数据文件中的子代变异类型数据进行处理得到重组交换位点；

第一确定模块300、用于根据重组交换位点确定n个bin区间；

第二确定模块400、用于确定每个bin区间的子代基因类型；

输入模块500、用于将每个bin区间的子代基因类型输入至joinmap4.0中得到图谱。

优选地，在上述任意实施例中，获取模块100具体用于，通过对非聚合酶链式反应重复的BAM文件进行变异检测，得到含有变异类型的文件数据，将文件数据中的子代变异类型中不符合遗传规律的变异位点剔除，将剔除后的文件数据进行合并，得到矫正后的变异类型数据文件。

优选地，在上述任意实施例中，获取模块100还具体用于，利用卡方检验对矫正后的变异类型数据文件进行检验，得到第一矫正数据。

优选地，在上述任意实施例中，获取模块100还具体用于，对第一矫正数据进行未知基因类型填充，得到第二矫正数据。

优选地，在上述任意实施例中，处理模块200具体用于，对第二矫正数据进行编码处理，得到重组交换位点。

优选地，在上述任意实施例中，第一确定模块300具体用于，根据重组交换位点的染色体位置划分bin区间。

优选地，在上述任意实施例中，第二确定模块400具体用于，在每个bin区间内进行离散检验，对每个bin区间内的离散程度进行筛选，筛选得到的结果即为该区间的子代基因类型。

本发明解决上述技术问题的另一种技术方案如下：一种存储介质，存储介质中存储有指令，当计算机读取所述指令时，使计算机执行如上述任一项的一种遗传群体图谱构建方法。

本发明解决上述技术问题的另一种技术方案如下：一种电子设备，包括存储器、处理器及存储在存储器上并在处理器上运行的程序，处理器执行程序时实现如上述任一项的一种遗传群体图谱构建方法。

实施例1，本发明基于deepvariant对非PCR重复的BAM文件进行变异检测，获得包含变异类型的g.VCF文件，利用glnexus对子代的变异类型进行合并，glnexus能够对单一位点是否符合群体遗传模型来屏蔽低信任度的位点，并且去掉不符合遗传规律的变异位点，得到矫正过的VCF文件，再利用卡方检验过滤p值小于0.01的子代标记，这些过滤的标记可认为存在偏分离的位点，不适合构建遗传图谱，剩下位点中筛选子代个体测序覆盖达到子代群体95％的即为可用位点，本发明筛选更加严格，得到新的VCF文件，这是第一轮矫正。利用beagle这个软件基于染色体上连续短片段位点连锁的特征，在1cM＝0.5Mb的假设下进行未知基因型的填充，能够将所有位点中没有覆盖到测序片段的子代单株的基因型进行填充，获得可信度高的更加完整的VCF文件，这是第二轮矫正。本发明不利用bin_marker去构建遗传图谱，而利用脚本获得基因组上重组交换的位点。具体的脚本算法：将基因组上所有的变异位点采用ordinalencode的离散型编码方法对基因组上所有位点进行编码，基于假设：1cM＝0.5Mb，在单株200染色体级别的参考基因组在全基因组范围内以

为检测范围，随机选择其中一个子代单株在检测范围内建立索引，过滤其他单株的基因型，设置一个二维的列向量特征过滤器filter，维度为(n,1)由1和-1两个元素构成的,其中n默认设置为50，在检测范围内以50个数据为一个步骤进行遍历数据并求输入单元与过滤器filter的乘积的内积，根据内积小大大于0.95×50＝40为筛选进行过滤，得到重组交换位点，经过重复两轮检测，在两轮检测中均产生信号的即为重组交换位点。根据重组交换的位点进行确定bin的区间，不再以传统的固定物理距离类似于10kb来做bin，在每个bin的区间内进行标记筛选，统计单个bin内的基因型的最大频数，选取2种基因型代表这个bin的特征基因型，然后再根据得到的bin的基因型导入joinmap4.0中，进行图谱构建，构建结果如图2及图3所示，其中，LG是根据本方法所选取的所有标记通过joinmap4.0软件之后，能够划分为这么多个连锁群，每一个连锁群就是一个LG，LG1就是连锁群1，以此类推，LG5.1和LG5.2按道理是一个连锁群，但是数据分布不紧密，软件判断为了两个连锁群，生成这个连锁图的对应的数据excel表可以直接在下游进行QTL检测，根据农艺性状来定位基因。

可以理解，在一些实施例中，可以包含如上述各实施例中的部分或全部可选实施方式。

需要说明的是，上述各实施例是与在先方法实施例对应的产品实施例，对于产品实施例中各可选实施方式的说明可以参考上述各方法实施例中的对应说明，在此不再赘述。

上述方法如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种遗传群体图谱构建方法，其特征在于，包括：

步骤1、获取矫正后的变异类型数据文件；

步骤3、根据所述重组交换位点确定n个bin区间；

步骤4、确定每个bin区间的子代基因类型；

2.根据权利要求1所述的一种遗传群体图谱构建方法，其特征在于，步骤1具体为：

3.根据权利要求1所述的一种遗传群体图谱构建方法，其特征在于，步骤1之后还包括：

4.根据权利要求3所述的一种遗传群体图谱构建方法，其特征在于，步骤1之后还包括：

5.根据权利要求4所述的一种遗传群体图谱构建方法，其特征在于，步骤2具体为：

对所述第二矫正数据进行编码处理，得到重组交换位点。

6.根据权利要求1所述的一种遗传群体图谱构建方法，其特征在于，步骤3具体为：

根据所述重组交换位点的染色体未知划分bin区间。

7.根据权利要求1所述的一种遗传群体图谱构建方法，其特征在于，步骤4具体为：

8.一种遗传群体图谱构建系统，其特征在于，包括：

获取模块、用于获取矫正后的变异类型数据文件；

第一确定模块、用于根据所述重组交换位点确定n个bin区间；

第二确定模块、用于确定每个bin区间的子代基因类型；

9.一种存储介质，其特征在于，所述存储介质中存储有指令，当计算机读取所述指令时，使所述计算机执行如权利要求1至7中任一项所述的一种遗传群体图谱构建方法。

10.一种电子设备，包括存储器、处理器及存储在所述存储器上并在所述处理器上运行的程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述的一种遗传群体图谱构建方法。