CN117912548A

CN117912548A - 筛选二倍体真核生物抗性关联snp位点的方法及其应用

Info

Publication number: CN117912548A
Application number: CN202410082355.3A
Authority: CN
Inventors: 杨诚; 汪亚平; 黄容; 李勇明; 何利波; 廖兰杰
Original assignee: Institute of Hydrobiology of CAS
Current assignee: Institute of Hydrobiology of CAS
Priority date: 2024-01-19
Filing date: 2024-01-19
Publication date: 2024-04-19
Anticipated expiration: 2044-01-19
Also published as: CN117912548B

Abstract

本发明属于动物遗传育种技术领域，尤其涉及一种筛选二倍体真核生物抗性关联SNP位点的方法及其应用，所述方法包括：S1、根据表型将所述实验群体划分为抗性组和易感组，统计每一个SNP位点在不同组内的基因型组合；S2、通过位点在抗性组和易感组之间基因型组合差异识别易感基因型，构建分析列表，按照预设规则，将分析列表中涉及易感组样本为易感纯合基因型的单元格赋值为“0”，否则为“1”，得到SNP位点在所述易感组样本中的关联列表；S3、寻找关联列表中易感基因型高度富集的最优位点组合。本发明有利于快速准确识别出与抗性表型显著相关联的SNP位点组合，将大大缩短育种年限，具有广阔的应用前景。

Description

筛选二倍体真核生物抗性关联SNP位点的方法及其应用

技术领域

本发明涉及动物遗传育种技术领域，特别涉及一种筛选二倍体真核生物抗性关联SNP位点的方法及其应用。

背景技术

水产养殖是人类获取优质动物蛋白的重要来源，也是国民经济中的重要支柱产业之一，目前我国已对多种水生动物进行了规模化养殖，但随着养殖技术的发展和市场需求的增多，养殖密度不断增加，从而造成水质环境恶化，水产动物病害随之发生，开始出现抗逆能力下降、产品种质退化等现象，严重制约了水产养殖业的健康、持续发展。缺乏抗逆能力强的品种是造成这些问题的重要原因之一，因此，加快培育抗逆性能力强的水产动物新品种是当前水产养殖工作关注的焦点和重点，例如抗病、抗虫、抗旱、耐低氧、耐温等都是显著影响养殖产业高质量发展的重要经济性状。

常规的育种策略是人工选育、杂交育种等方式，但其存在效率低、周期长、成本高等缺点。近年来，随着分子生物学、生物信息学、高通量测序等技术不断发展完善，采用分子标记辅助育种技术对水产动物复杂性状进行遗传解析，成为水产动物重要经济性状的遗传改良的主要方法。分子标记(Molecular Markers)是个体间遗传物质内核苷酸序列变异，能直接地反映DNA水平的遗传变异。分子标记辅助育种技术通过与某一性状或基因紧密连锁的分子标记的存在与否来推断生物的性状，可以克服抗性、品质等经济性状表性鉴定过程中的困难，增加优良性状选育的准确性，可实现早期筛查以将带有标记性状选育目标要求的生物材料进行规模饲养繁殖，较传统选育模式大大节省了资源，加快了选育进程，提高了选育效率。

单核苷酸多态性(single nucleotide polymorphism，SNP)是基因组中分布最为广泛的遗传分子标记，被广泛应用于种质资源遗传多样性分析、目标性状基因的标记与定位、抗性育种、作物品种纯度鉴定及品质鉴定等方面。然而，利用单核苷酸多态性分子标记辅助育种在农作物中已经有较为成功的例子，但在水产动物育种中起步较晚，与经济性状相连的、可以用于选择的分子标记报道较少，使得该技术在水产养殖领域进展相对较缓。有效开发水产动物SNP分子标记是急需解决的问题。

全基因组关联分析(GWAS)可在全基因组范围内对多个个体的SNP分子标记进行扫描，进一步根据遗传位点的连锁不平衡效应，将扫描得到的分子标记数据与表型性状之间进行群体水平的统计学分析，以此筛选出与目标性状显著相关联的位点，并挖掘出影响目标性状的候选基因。尽管该方法硕果累累，但也存在诸多问题；例如：GWAS获得的显著性关联位点过多，且大部分并不是致因突变位点；GWAS适用于单因子关联分析，难以解释抗病、抗逆等多因子复杂性状。究其原因，GWAS本身是根据基因组上标记的连锁不平衡原理设计的，其分析普遍采用线性模型，势必会受到实验群体分层、统计模型的计算偏好及样本抽样偏差等因素影响，这些因素交织在一起，导致遗传位点与目标性状的虚假关联，进而对后续的选种、育种工作带来极大干扰。因此，开发新型的抗性显著关联位点分析和筛选方法在培育抗逆新品种等方面具有广阔的应用前景。

发明内容

针对现有技术存在的问题，本发明提供了一种筛选二倍体真核生物抗性关联SNP位点的方法，并提供了该方法在二倍体真核生物抗性鉴定或育种中的应用，尤其是在水产动物草鱼抗出血病性状鉴定及其优良品系选育中的应用。

本发明第一方面提供了一种筛选二倍体真核生物抗性关联SNP位点的方法，包括以下步骤：S1、获取二倍体真核生物实验群体的SNP信息，分析每一个SNP位点的基因型，并根据表型将所述实验群体划分为抗性组和易感组，之后统计每一个所述SNP位点在不同组内的基因型组合；其中，当所述SNP位点为杂合基因型时，定义为“AB”基因型，当所述SNP位点为纯合基因型时，定义为“AA”基因型或“BB”基因型；

S2、在所述易感组中选择三种基因型组合“AA/BB/AB”的所述SNP位点为候选位点，通过所述候选位点在抗性组和易感组之间基因型组合差异识别易感基因型，并根据所述候选位点数量和所述易感组样本总数构建n行m列的分析列表；按照预设规则，将分析列表中涉及易感组样本含易感纯合基因型的单元格赋值为“0”，否则为“1”，从而得到所述SNP位点在所述易感组样本中的关联列表；S3、寻找所述关联列表中易感基因型高度富集的最优位点组合，所述最优位点组合包含最少的所述高度富集的SNP位点却能解释所有易感组样本非抗性的原因最优位点组合，得到与抗性表型相关的关联SNP位点。

进一步地，步骤S2中，所述预设规则包括：若所述候选位点在所述抗性组中基因型组合为“AA/AB”，且在所述易感组某样本中基因型为“BB”，则赋值为“0”，否则为“1”；若所述候选位点在所述抗性组中基因型组合为“BB/AB”，且在所述易感组某样本中基因型为“AA”，则赋值为“0”，否则为“1”；若所述候选位点在所述抗性组中基因型组合为“AA”，且在所述易感组某样本中基因型为“BB”，则赋值为“0”，否则为“1”；若所述候选位点在所述抗性组中基因型组合为“BB”，且在所述易感组某样本中基因型为“AA”，则赋值为“0”，否则为“1”；若所述候选位点在在所述易感组某样本中基因型没有检测结果，则赋值为“1”；若所述候选位点在所述抗性组中基因型组合为“AA/BB/AB”、“AA/BB”或“AB”，则忽略该位点。

进一步地，步骤S3中，寻找所述关联列表中易感基因型高度富集的最优位点组合，包括以下步骤：S31、基于所述关联列表，统计每一行含有0的个数，记作相关性评估值，选取相关性评估值最高的所述候选位点作为多叉树的父节点，之后剔除所述关联列表中该位点所在行及含“0”所在列，形成新的所述关联列表；S32、重复步骤S31，依次将相关性评估值最高的所述候选位点加入到所述多叉树的父节点下，直至新的所述关联列表的列数量为0，完成最优多叉树的构建；S33、获取所述最优多叉树的根节点至每一个叶子节点的通路中包含的所述候选位点，得到至少一个所述最优位点组合；S34、对所述最优位点组合进行验证，在原始的所述关联列表中提取所述候选位点对应的行数据，记录每一行中赋值为0的列编号，相同编号仅记录一次，若记录的列编号与所述易感组样本总数相同，则该套所述最优位点组合验证成功，所得最优位点组合即为与抗性表型相关的关联SNP位点。

本发明第二方面提供了一组与草鱼出血病相关联的SNP分子标记，所述SNP分子标记包括SNP1-27，SNP1-27的核苷酸序列分别如SEQ ID NO.1-27所示。

本发明第三方面提供了一组与草鱼出血病相关联的SNP分子标记的检测引物组，所述检测引物组包括检测SNP1-27的引物对，检测SNP1-27的引物对的核苷酸序列分别如SEQ ID NO.28-81所示。

本发明第四方面提供了如上所述的筛选二倍体真核生物抗性关联SNP位点的方法、或者如上所述的一组与草鱼出血病相关联的SNP分子标记或检测引物组在草鱼出血病抗性鉴定或者草鱼抗性育种中的应用。

本发明的优点及积极效果为：通过将不同样本组中单核苷酸多态性(SNP)变异的定量分析转化为组间样本基因型的定性比较，能够快速识别出易感等位基因，进一步依据每个位点含有的潜在易感基因型筛选出候选SNP位点，再通过关联列表分析得到目标关联位点，本发明方法将SNP位点的基因型与表型的联系从关联关系趋近于因果关系，避免了全基因组关联分析过程中如群体分层、统计模型的计算偏好及样本抽样偏差等因素对分析结果产生的干扰，尤其适用于多基因调控的复杂性状分析，有利于快速准确识别出与抗性表型显著相关联的抗性等位基因及其SNP位点组合，而且能针对不同规模的群体高效筛选抗性关联位点，对加快筛选出优良的后备亲本、促进生物体遗传改良、提高育种选择准确性等具有重要意义。

附图说明

为了更清楚地说明本发明实施例中技术方案，下面将对实施例描述中所需要使用的附图作简单介绍。

图1为本发明实施例筛选二倍体真核生物抗性关联SNP位点的方法流程图；

图2为本发明实施例实验群体致病组和抗病组中基因型组合数量分布图；

图3为本发明实施例致病组中候选SNP位点在抗病组中基因型组合数量分布图；

图4为本发明实施例前50个候选SNP位点在关联列表中的赋值分布图；

图5为本发明实施例候选SNP位点的多叉树结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例对本发明进行进一步详细说明，各实施例及试验例中所用的设备和试剂如无特殊说明，均可从商业途径得到。此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。为了更好地理解本发明而不是限制本发明的范围，在本申请中所用的表示用量、百分比的所有数字、以及其他数值，在所有情况下都应理解为以词语“大约”所修饰。除非特别说明，否则在说明书和所附权利要求书中所列出的数字参数都是近似值，其可能会根据试图获得的理想性质的不同而加以改变。各个数字参数至少应被看作是可以常规的四舍五入方法而获得的。

为使本发明的上述目的、特征和优点能够更为明显易懂，下面结合附图对具体实施方式做详细说明。

本发明实施例提供了一种筛选二倍体真核生物抗性关联SNP位点的方法，包括以下步骤：

S1、获取二倍体真核生物实验群体的SNP信息，分析每一个SNP位点的基因型，并根据表型将所述实验群体划分为抗性组和易感组，例如根据实验群体对致病菌、害虫等的敏感性分为抗病组(即抗性组)和致病组(即易感组)，之后统计每一个所述SNP位点在不同组内的基因型组合；其中，当所述SNP位点为杂合基因型时，定义为“AB”基因型，当所述SNP位点为纯合基因型时，定义为“AA”基因型或“BB”基因型；

一般而言，记录组内样本的SNP位点基因型，合并得到每一个SNP位点组内的基因型组合，其包括：同时具有三种基因型(“AA/BB/AB”组合)、同时具有两种基因型(“AA/BB”组合、“AA/AB”组合和“BB/AB”组合)或者仅具有一种基因型(“AA”、“BB”和“AB”)，共计7种组合形式。

S2、在所述易感组中选择三种基因型组合“AA/BB/AB”的所述SNP位点为候选位点，通过所述候选位点在抗性组和易感组之间基因型组合差异识别易感基因型，所述易感基因型为所述SNP位点在抗性组中缺少的基因型，并根据所述候选位点数量和所述易感组样本总数构建n行m列的分析列表，其中，n表示所述候选位点编号，m表示所述易感组样本编号；按照预设规则，将分析列表中涉及易感组样本含易感纯合基因型的单元格赋值为“0”，否则为“1”，从而得到所述SNP位点在所述易感组样本中的关联列表；

为了防止测序误差导致基因分型的误差，本发明仅选择在易感组中基因型组合为“AA/BB/AB”进行分析，是因为这种组合的SNP位点在易感组中都有测序记录，可以减少测序误差对后续的分析带来误差。而且以在易感组中基因型组合为“AA/BB/AB”的SNP位点为分析对象，根据组间基因型组合差异可以快速识别抗性和易感等位基因的类型。以抗病基因为例，若SNP位点在抗性组中基因型组合为“AA/AB”或“AA”，则等位基因A为该位点潜在的抗病等位基因，换言之，抗病组缺失“BB”基因型，等位基因B为该位点潜在的致病等位基因；若SNP位点在抗性组中基因型组合为“BB/AB”或“BB”，则等位基因B为该位点潜在的抗病等位基因，换言之，抗病组缺失“AA”基因型，等位基因A为该位点潜在的致病等位基因。需要说明的是，生物体对某一环境因素的呈现抗性如抗病性状通常是多基因控制的，即是由多个基因共同决定该性状的表型，若某样本中含有几个抗性基因型，该样本不一定能存活，因此易感组样本中含有某些抗性纯合等位基因是正常现象，但同时该样本一定含有易感等位基因位点。此外，根据组间基因型组合差异可以快速识别出易感基因型，例如，抗性组中基因型组合为“AA/AB”，且在易感组某样本中基因型为“BB”，表明等位基因B隐性纯合表达(易感基因型“BB”)导致生物体对环境因素敏感或致死，通过赋值“0”来表示样本敏感或致死的原因；再例如，抗性组中基因型组合为“AA”，且在易感组某样本中基因型为“BB”或“AB”，表明等位基因B为显性表达模式，其显性表达(易感基因型“BB”或“AB”)导致生物体对环境因素敏感或致死。

S3、寻找所述关联列表中易感基因型高度富集的最优位点组合，所述最优位点组合包含最少的所述高度富集的SNP位点却能解释所有易感组样本非抗性的原因，即，该组合位点对应于关联列表的列表中每列至少含有一个“0”，由此，该组合能够解释所有易感组样本对环境因素敏感或致死的原因，进而得到与抗性表型相关的关联SNP位点。

针对抗性表型等多基因调控的复杂性状，本发明通过将现有全基因组关联分析(GWAS)中单核苷酸多态性(SNP)变异的定量分析转化为样本之间基因型的定性比较，并通过每一SNP位点在组间的基因型组合差异，分析出抗性和易感等位基因及其表达模式；再采用关联列表分析模型，将SNP位点的基因型与表型的联系从关联关系趋近于因果关系，以达到快速准确筛选抗性关联位点的目的。具体地，通过抗性表型将实验群体划分为抗性组(如抗病组)和易感组(如致病组)；随后，依据实验群体在全基因组中SNP的基因型鉴定结果，寻找到抗性组和易感组之间基因型组合差异，从而识别出易感等位基因，相对应的另外一个等位基因即是抗性等位基因，然后在易感组中，通过易感等位基因在每个样本中的基因型分布情况，构建关联列表分析模型，并根据前述分布情况对列表中每一单元格赋值为“0”或者“1”，之后根据关联列表中0的分布状态选择最优位点组合，在关联列表分析模型中表现为：提取SNP位点组合对应的行，之后分析SNP位点组合的列数据，应当保证每列至少含有一个“0”，赋值为“0”的单元格表示该列易感组样本的SNP基因型呈现为易感基因型并可能是至因位点，由此形成的位点组合即为能够解释所有易感组样本对环境敏感或逆境致死的抗性关联位点组合。

本发明通过将不同样本组中单核苷酸多态性(SNP)变异的定量分析转化为组间样本基因型的定性比较，能够快速识别出易感等位基因和易感基因型，进一步根据具有易感基因型的易感组样本与抗性组基因型组合差异筛选出候选SNP位点，再通过关联列表分析得到目标关联SNP位点，避免了全基因组关联分析(GWAS)分析过程中诸多不确定因素如群体分层、统计模型的计算偏好及样本抽样偏差等分析结果产生的干扰，尤其适用于等多基因调控的复杂性状的分析，有利于快速准确识别出与抗性表型显著相关联的SNP位点组合，而且能针对不同规模的群体高效筛选抗性关联位点，对加快筛选出优良的后备亲本、促进生物体遗传改良、提高育种选择准确性等具有重要意义。

步骤S2中，所述预设规则具体包括以下情形：

1)若所述候选位点在所述抗性组中基因型组合为“AA/AB”，且在所述易感组某样本中基因型为“BB”，则赋值为“0”，否则为“1”，此时抗性等位基因A为显性表达模式，易感等位基因B为隐性表达模式，易感基因型为“BB”；

2)若所述候选位点在所述抗性组中基因型组合为“BB/AB”，且在所述易感组某样本中基因型为“AA”，则赋值为“0”，否则为“1”，此时抗性等位基因B为显性表达模式，易感等位基因A为隐性表达模式，易感基因型为“AA”；

3)若所述候选位点在所述抗性组中基因型组合为“AA”，且在所述易感组某样本中基因型为“BB”，则赋值为“0”，否则为“1”，此时抗性等位基因A为显性表达模式，易感等位基因B为隐性表达模式，易感基因型为“BB”；

4)若所述候选位点在所述抗性组中基因型组合为“BB”，且在所述易感组某样本中基因型为“AA”，则赋值为“0”，否则为“1”，此时抗性等位基因A为显性表达模式，易感等位基因A为隐性表达模式，易感基因型为“AA”；

5)若所述候选位点在在所述易感组某样本中基因型没有检测结果，则赋值为“1”；

6)若所述候选位点在所述抗性组中基因型组合为“AA/BB/AB”、“AA/BB”或“AB”，则忽略该位点。

步骤S3中，通常可以通过遍历列表获得每一列均包含至少含有一个“0”的SNP位点组合，但由于连锁不平衡关系，该方法选取的组合通常包含过多的非主效基因，将对后续选种、育种造成阻碍。本发明通过动态调整分析列表，能保证与抗性性状最相关的位点的选取，进而构建易感基因型高度富集的最优位点组合，该组合包含最少的高度富集位点却能解释所有易感组样本非抗性的原因。本发明采用多叉树辅助分析，其每个节点代表一个潜在的易感等位基因变异位点，通过不断选取表型相关度最高的SNP位点加入到多叉树中，并从原始关联列表中剔除该位点含“0”所在列，从而得到最优关联列表。包括以下步骤：

S31、基于所述关联列表，统计每一行含有0的个数，记作相关性评估值，选取相关性评估值最高的所述候选位点作为多叉树的父节点，之后剔除所述关联列表中该位点所在行及含“0”所在列，形成新的所述关联列表；其中，所述相关性评估值最高的候选位点即为与抗性性状最相关的位点，换言之，其为包含最多0的行编号；

S32、重复步骤S31，依次将相关性评估值最高的所述候选位点加入到所述多叉树的父节点下，直至新的所述关联列表的列数量为0，完成最优多叉树的构建；具体而言，第一次分析中相关性评估值最高的候选位点作为根节点，位居多叉树第一层，第二次分析中相关性评估值最高的作为第一层父节点的子节点，位居第二层，第三次分析中相关性评估值最高的作为第二层父节点的子节点，位居第三层，依次类推。若初始分析存在并列得分最高的多个候选位点，则任选一个作为根节点；若后续分析存在并列得分最高的候选位点则作为兄弟节点共同加入到同一父节点下；一直到多叉树中包含全部100个死亡样本，即，列数量为0，此时表明与抗性性状最相关联的所有候选位点已全部加入到多叉树中，否则基于新的关联列表，跳转到步骤S31继续构建多叉树；

S33、获取所述最优多叉树的根节点至每一个叶子节点的通路中包含的所述候选位点，形成至少一个所述最优位点组合；若有多个子节点，则获得多套潜在的位点组合；

S34、对所述最优位点组合进行验证，在原始的所述关联列表中提取所述候选位点对应的行数据，记录每一行中赋值为0的列编号，相同编号仅记录一次，若记录的列编号与所述易感组样本总数相同，则该套所述最优位点组合验证成功，否则验证失败，验证成功的所述最优位点组合即为与抗性表型相关的关联SNP位点。

上述所述的多叉树可采用python(版本号V 3.6.13)软件构建。

步骤S1中，所述的SNP信息可通过公开途径获得，如市售的全基因组微阵列芯片记载的SNP位点合集，或者通过对实验群体进行全基因组测序，测序数据比对分析得到SNP变异结果。因此，具体而言，分析每一个SNP位点的基因型包括以下步骤：提取所述实验群体的基因组DNA，通过与全基因组微阵列芯片的探针杂交，根据杂交信号判断所述SNP位点的基因型；或者，提取所述实验群体的基因组DNA，进行重测序，通过生物信息分析方法获取全基因组SNP位点，根据所述SNP位点在全基因组重测序数据中的比对结果判断所述SNP位点的基因型。若在某一实验样本中，该位点鉴定出两种等位基因，则为杂合基因型，记为“AB”；若仅鉴定出其中一种等位基因，则该位点在样本中为纯合基因型，记为“AA”或“BB”。

步骤S1中，所述二倍体真核生物可选自水生动物，具体地，可选自鱼类，如草鱼(Ctenopharyngodon idellus)。所述表型可选自任意的抗逆境表型，如抗病、抗逆、耐温等，具体地，所述表型选自抗病表型，如抗草鱼出血病。当所述表型选自抗病时，根据表型将所述实验群体分为抗性组和易感组，包括以下步骤：对所述实验群体进行攻毒实验，存活样本划分为抗病组，死亡样本划分为致病组。

在典型的实施过程中，本发明以草鱼为分析对象，在草鱼全基因组中筛选出27个与草鱼出血病高度关联的SNP位点，基于此，本发明实施例还提供了一组与草鱼出血病相关联的SNP分子标记，所述SNP分子标记包括SNP1-27，SNP1-27的核苷酸序列分别如SEQ IDNO.1-27所示。

本发明另一实施例提供了一种如上所述的一组与草鱼出血病相关联的SNP分子标记的引物组，所述引物组包括检测SNP1-27的引物对，检测SNP1-27的引物对的核苷酸序列分别如SEQ ID NO.28-81所示。

本发明通过检测引物进行扩增，通过琼脂糖凝胶电泳检测上述引物对扩增得到的目的片段条带明亮单一，与理论大小和序列信息一致，表明引物特异性良好，之后通过测序等手段分析扩增序列，能够得到准确的位点信息，有利于提高SNP位点基因分型的准确率和精确性。

本发明又一实施例提供了如上所述的筛选二倍体真核生物抗性关联SNP位点的方法、如上所述的一组与草鱼出血病相关联的SNP分子标记或检测引物组在草鱼出血病抗性鉴定或者草鱼抗性育种中的应用。

通过引物组扩增包含上述SNP分子标记的基因序列，之后通过测序等分析SNP位点基因型，再选择具有最多纯合抗性等位基因的SNP位点的雌、雄亲本，作为超级亲本繁育后代，能够大大提高后代对草鱼出血病的抗病性，以II型GCRV病毒原浆对超级亲本繁殖后的子代100尾进行灌胃感染，统计攻毒实验后第24天存活样本个数可达到41尾，抗性关联位点的抗病力达到41％。

可选地，所述应用包括：提取草鱼基因组DNA，通过如上所述的引物组进行PCR扩增，对扩增产物进行测序，分析得到如上所述的SNP分子标记的基因型，筛选含有最多纯合抗性基因型的亲本进行培养或者参与繁育。

可选地，所述PCR扩增的反应体系总体积为20μL，其中：2×Taq Master Mix(诺唯赞生物，中国，P111-AA)10μL，引物(10μmol/L)各1μL，DNA(50ng/μL)1μL，余量为无菌水。PCR反应条件：95℃预变性3min；95℃变性15s，56℃退火15s，72℃延伸20s，35个循环；最后72℃延伸5min。

可选地，测序方法选自sanger测序法、焦磷酸测序法(454焦磷酸测序技术)、合成测序法(如Illumina测序技术)、连接测序法和离子半导体测序法中的一种。此为本领域的常规技术，在此不再赘述。

下面结合具体实施例，进一步阐述本发明。下列实施例中未注明具体条件的实验方法，通常按照常规条件，例如冷泉港实验室出版的《分子克隆实验指南(第四版)》中所述的条件或者厂商所建议的条件。

草鱼是世界上最重要的淡水养殖对象之一，也是我国传统水产养殖品种“四大家鱼”之一，其重要性和经济价值不言而喻。然而草鱼生长快，但病害多，特别是由草鱼孤肠呼病毒(Grass carp reovirus，GCRV)导致的草鱼出血病，在稚鱼期其致死率高达90％，对草鱼养殖业构成重大威胁。由于草鱼的繁殖周期长，采用传统选育的方法培育草鱼新品种需要巨大的时间成本，目前尚未培育出草鱼优良新品种。有鉴于此，本实施例基于攻毒后不同表型的草鱼样本之间SNP基因型差异分析，识别潜在的致病等位基因，进而构建关联列表分析模型。随后通过关联列表分析模型构建多叉树，计算得到最优的抗性关联位点组合，获得与草鱼出血病性状高度关联的SNP位点，分析流程见图1。

需要说明的是，本发明实施例虽然采用草鱼作为实验对象，但本领域技术人员可以理解，基于同样的原理，该套实验流程同样适用于其它二倍体真核生物，区别仅在于根据表型和组间划分方式略有不同，然而，如何根据表型对群体分层为本领域的常规操作，不是本发明的改进重点，因此，本发明基于草鱼为实验对象的实施例不应作为对本发明保护范围的限制。

1、筛选草鱼出血病抗性关联SNP位点

从长江、珠江及湘江中收集11尾性成熟草鱼作为亲本(6雄、5雌)，人工随机交配，子代饲养于5m×5m×1m的水泥池中，维持水温26℃左右，每天投喂两次。随后，选取2000尾体长7-9cm，体重5-7g的草鱼样本作为实验群体，用于筛选草鱼出血病抗性关联SNP位点。

(1)SNP位点基因型鉴定和组内基因型组合统计

通过草鱼全基因组芯片获取实验群体的SNP信息，再通过分析每一个SNP位点在样本重测序数据中的比对结果，得到SNP位点的基因型，统计每一个SNP位点在抗病组和致病组内的基因型组合。具体操作如下：

1)表型划分：将实验群体转移至2m×2m×0.5m的塑料鱼缸中，选取II型GCRV病毒(由本实验室分离保存)原浆进行灌胃感染；具体地，使用丁香酚油将实验鱼麻醉之后，用移液枪吸取200μL的病毒液，随后缓慢渐进式的插入实验鱼口腔，待枪头深入咽喉齿以下后，将病毒液缓慢注入鱼的腹腔中。对灌胃后的实验鱼进行观察，记录每天死亡个体的数目。实验鱼在灌胃后第6-7天开始出现死亡，第11天左右达到死亡高峰期，至第16天，基本不再出现死亡个体。死亡鱼出现前期，可能是由于实验伤害造成的，因此选择第11天死亡的100尾样本作为致病组。至第23天，已连续7天不再出现死亡鱼，因此选择第24天存活的100尾样本作为抗病组。之后，对收集的鱼，剪取50-100mg的尾鳍，放至于含2mL无水乙醇的离心管中，在-20℃条件下冷冻保存。

2)全基因组重测序：用剪刀将上述保存的鳍条剪碎，使用Universal GenomicDNAkit(购自CWBIO，货号CW2298M)试剂盒参照说明书提取DNA，通过Biodropsis BD-1000核酸分析仪检测DNA的质量和浓度，1％琼脂糖凝胶电泳检测DNA的完整性，置于-20℃保持备用；对检测合格的DNA样品随机打断，纯化筛选符合要求的DNA片段，连接测序接头后，再通过滚环扩增制备DNA纳米球，使用华大基因的BGISEQ-500测序平台进行PE150的高通量测序。对测序生成的原始数据(Row data)去掉接头及过滤掉低质量数据后，获得样本的有效测序数据(Clean data)。

3)基因型鉴定：基于草鱼全基因组芯片鉴定实验群体的基因型，该芯片包含6317870个SNP位点，每个位点由一对51bp序列片段表征，每对片段彼此之间仅含的一个碱基差异，即为SNP。具体步骤包括：在样本的重测序数据中查找芯片序列，若一对芯片序列在Clean data中都完全匹配，则SNP位点在此实验样本中基因型为杂合型，记为“AB”；仅有其中一个序列查找成功，则样本在该SNP中基因型为纯合型，记为“AA”(与之对应的一条序列查找成功，则记为纯合型“BB”)；一对序列均查找失败，则样本中该SNP的基因型标记为“N”。

4)组内基因型组合统计：分别统计草鱼基因组6317870个SNP位点在致病组和抗病组中7种基因型组合情况；具体而言，具体鉴定步骤包括：针对某个SNP位点，统计三种基因型(“AB”、“AA”和“BB”)在100尾抗病组样本中出现次数，若三种基因型均出现，则该位点在抗病组内基因型组合为“AA/BB/AB”，仅有两种纯合基因型出现，则基因型组合为“AA/BB”，同时出现杂合和纯合基因型，则基因型组合为“AA/AB”组合或“BB/AB”组合，仅出现杂合基因型，则基因型组合为“AB”，仅出现一种纯合基因型，则基因型组合为“AA”或“BB”。同理鉴定SNP位点在100尾致病组样本中的基因型组合。在致病组和抗病组中基因型组合数量分布情况如图2所示。

(2)组间基因型组合差异分析和关联列表分析模型构建

1)通过比较SNP位点在致病组和抗病组中基因型组合上的差异，推测潜在的致病等位基因和抗性等位基因；具体操作包括：挑选在致病组中为三种基因型组合的候选位点(“AA/BB/AB”组合的位点共计1013681个)，在抗病组中分别寻找位点相对应的基因型组合。排除两组间基因型组合无差异和抗病组中未检测到的位点后，共得到69756个位点。其中，抗病组基因型组合为“AA/AB”的有62161个位点，由于这些位点在抗病组缺失“BB”基因型，即“A”等位基因的存在可能导致抗性表型的出现，因此，这些位点中“A”等位基因为潜在抗性等位基因，“B”为潜在的致病等位基因。同理，抗病组基因型组合为“BB/AB”有7595个位点，这些位点中“B”等位基因为潜在抗性等位基因，“A”为潜在的致病等位基因。图3示出了致病组筛选出的1013681个SNP位点在抗病组中基因型组合数量分布图。

2)构建关联列表分析模型：基于获得的69756个候选位点(62161+7595)在致病组100尾样本中基因型鉴定结果，依据每个位点含有的潜在致病等位基因，构建69756(行)×101(列)的分析列表(即，本实施例中1≤n≤69756，1≤m≤101)，并按照下述预设规则对列表中每一单元格进行赋值，得到关联列表：若候选位点在抗病组中基因型组合为“AA/AB”，且在致病组某样本中基因型为“BB”，则赋值为“0”，否则为“1”，致病基因型“BB”导致样本死亡(隐性至死)；若候选位点在抗病组中基因型组合为“BB/AB”，且在致病组某样本中基因型为“AA”，则赋值为“0”，否则为“1”，致病基因型“AA”导致样本死亡(隐性至死)。图4示出了候选位点中前50个赋值转化情况，用Excel表格记录，每一行代表一个SNP位点的转换结果，其中第1列为位点编号，第2列至第101列为100尾致病组死亡样本的基因型转换结果(用“0”或“1”表示)。

(3)基于关联列表寻找与抗病表型显著相关的关联SNP位点

以多叉树作为存储结构，不断从关联列表中选取表型相关度最高的候选位点加入到多叉树中，并从原始关联列表中剔除该位点所在行及含“0”所在列，直至关联列表无列数量。随后，对多叉树根节点至最底层叶节点通路中包含的位点组合进行筛选，获得抗性关联SNP位点。具体步骤如下：

基于关联列表，统计每一行含有0的个数，记作相关性评估值；采用python(版本号V 3.6.13)软件构建多叉树，根据相关性评估值由高到低，依次加入到多叉树的节点中，如图5所示，节点中数字表示候选位点加入多叉树后，该节点至根节点路径中包含的死亡样本数。首先，在69756个候选位点构建的关联列表中有1个SNP位点评估值得分最高(包含11个死亡样本，即11分)，因此将该位点作为多叉树的根节点，即第1层节点。随后，在关联列表中删除加入到多叉树中位点所在行及其行中含0的列，重新计算相关性评估值，选取相关性评估值的位点，如第2层所示，共有3个位点的得分最高(10分)，将这3个位点加入到第2层，作为根节点的子节点。由于3个节点均包含21个死亡样本(没有包含全体100尾死亡样本)，因此，重新计算关联列表中相关性评估值最高的位点，得到第3层所示的6个位点，该层的节点包含死亡样本数均未达到100，继续重复前述步骤。当计算至第24层时，共含261个子节点，其中有16个节点包含了100尾死亡样本，因此，完成最优多叉树构建。最后解析多叉树，获得抗性关联SNP位点。如图4所示，获取最优多叉树24层中16个结点(包含了100尾死亡样本)至第1层结点通路中包含的全部位点组合(每个组合含24个位点)；合并16种组合包含的全部位点，去掉相同的位点后，最终获得27个草鱼抗性关联位点。表1示出了27个草鱼抗性关联SNP位点在基因组中定位信息及对应抗性等位基因等信息，其中参考基因组的NCBI登录号为：GCA_019924925.1。

表1本发明实施例27个抗性关联SNP位点的定位信息及对应抗性等位基因扩增引物

2、草鱼出血病抗性关联SNP位点验证

(1)参照草鱼参考基因组序列，以抗性关联SNP位点作为靶位点设计引物(引物序列见表1，每一SNP位点按照上下游引物依次对应于核苷酸序列表中序列28-81)。采用检测检测引物对11尾亲本的DNA样品进行PCR扩增，PCR扩增的反应体系总体积为20μL，其中：2×Taq Master Mix(诺唯赞生物，中国，P111-AA)10μL，引物(10μmol/L)各1μL，DNA(50ng/μL)1μL，余量为无菌水。PCR反应条件：95℃预变性3min；95℃变性15s，56℃退火15s，72℃延伸20s，35个循环；最后72℃延伸5min。对扩增产物分别进行sanger测序，获得11尾亲本在27个靶位点中测序序列和峰图文件，使用SnapGene(V4.1.9)定位到峰图文件中靶位点，并观测碱基组成。若出现单峰则表示靶位点为纯合基因型(“A”为绿色，“G”为黑色，“T”为红色，“C”为蓝色)，套峰为杂合基因型。表2示出了测序所得序列的核苷酸信息。

表2本发明实施例27个抗性关联SNP位点的扩增序列信息

进一步，对亲本中纯合抗性等位基因型进行记录，若纯合基因型为该位点的抗性等位基因，则记录该位点的编号。对亲本进行逐一鉴定后，获得11尾亲本各自包含的纯合抗性等位基因位点编号。依据位点编号，统计5尾雌性亲本与6尾雄性亲本共包含的纯合抗性等位基因位点数量(相同编号仅统计一次)。将5尾雌性亲本和6尾雄性亲本，两两配对，形成30组组合，在每组组合中，分别统计纯合抗性等位基因位点的数量，在30(5×6)个统计结果中，选择含有最多纯合抗性等位基因位点的雌、雄视为超级亲本。

选取II型GCRV病毒原浆，对超级亲本繁殖后的子代(100尾)进行灌胃感染，统计攻毒实验后第24天存活样本个数(41尾)，因此抗性关联位点的抗病力为41％(抗病力＝存活样本数/验证群体样本总数)。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种筛选二倍体真核生物抗性关联SNP位点的方法，其特征在于，包括以下步骤：

S1、获取二倍体真核生物实验群体的SNP信息，分析每一个SNP位点的基因型，并根据表型将所述实验群体划分为抗性组和易感组，之后统计每一个所述SNP位点在不同组内的基因型组合；其中，当所述SNP位点为杂合基因型时，定义为“AB”基因型，当所述SNP位点为纯合基因型时，定义为“AA”基因型或“BB”基因型；

S2、在所述易感组中选择三种基因型组合“AA/BB/AB”的所述SNP位点为候选位点，通过所述候选位点在抗性组和易感组之间基因型组合差异识别易感基因型，并根据所述候选位点数量和所述易感组样本总数构建n行m列的分析列表；按照预设规则，将分析列表中涉及易感组样本含易感纯合基因型的单元格赋值为“0”，否则为“1”，从而得到所述SNP位点在所述易感组样本中的关联列表；

S3、寻找所述关联列表中易感基因型高度富集的最优位点组合，所述最优位点组合包含最少的所述高度富集的SNP位点却能解释所有易感组样本非抗性的原因最优位点组合，得到与抗性表型相关的关联SNP位点。

2.根据权利要求1所述的筛选二倍体真核生物抗性关联SNP位点的方法，其特征在于，步骤S1中，所述分析每一个SNP位点的基因型，包括以下步骤：

提取所述实验群体的基因组DNA，通过与全基因组微阵列芯片的探针杂交，根据杂交信号判断所述SNP位点的基因型；

或者，提取所述实验群体的基因组DNA，进行重测序，通过生物信息分析方法获取全基因组SNP位点，根据所述SNP位点在重测序数据中的比对结果判断所述SNP位点的基因型。

3.根据权利要求1所述的筛选二倍体真核生物抗性关联SNP位点的方法，其特征在于，步骤S1中，所述二倍体真核生物选自草鱼，所述表型选自草鱼出血病表型。

4.根据权利要求3所述的筛选二倍体真核生物抗性关联SNP位点的方法，其特征在于，步骤S1中，根据表型将所述实验群体分为抗性组和易感组，包括以下步骤：

对所述实验群体进行攻毒实验，存活样本划分为抗病组，死亡样本划分为致病组。

5.根据权利要求1所述的筛选二倍体真核生物抗性关联SNP位点的方法，其特征在于，步骤S2中，所述预设规则包括：

若所述候选位点在所述抗性组中基因型组合为“AA/AB”，且在所述易感组某样本中基因型为“BB”，则赋值为“0”，否则为“1”；

若所述候选位点在所述抗性组中基因型组合为“BB/AB”，且在所述易感组某样本中基因型为“AA”，则赋值为“0”，否则为“1”；

若所述候选位点在所述抗性组中基因型组合为“AA”，且在所述易感组某样本中基因型为“BB”，则赋值为“0”，否则为“1”；

若所述候选位点在所述抗性组中基因型组合为“BB”，且在所述易感组某样本中基因型为“AA”，则赋值为“0”，否则为“1”；

若所述候选位点在在所述易感组某样本中基因型没有检测结果，则赋值为“1”；

若所述候选位点在所述抗性组中基因型组合为“AA/BB/AB”、“AA/BB”或“AB”，则忽略该位点。

6.根据权利要求1所述的筛选二倍体真核生物抗性关联SNP位点的方法，其特征在于，步骤S3中，所述寻找所述关联列表中易感基因型高度富集的最优位点组合，包括以下步骤：

S31、基于所述关联列表，统计每一行含有0的个数，记作相关性评估值，选取相关性评估值最高的所述候选位点作为多叉树的父节点，之后剔除所述关联列表中该位点所在行及含“0”所在列，形成新的所述关联列表；

S32、重复步骤S31，依次将相关性评估值最高的所述候选位点加入到所述多叉树的父节点下，直至新的所述关联列表的列数量为0，完成最优多叉树的构建；

S33、获取所述最优多叉树的根节点至每一个子节点的通路中包含的所述候选位点，得到至少一个所述最优位点组合；

S34、对所述最优位点组合进行验证，在原始的所述关联列表中提取所述候选位点对应的行数据，记录每一行中赋值为0的列编号，相同编号仅记录一次，若记录的列编号与所述易感组样本总数相同，则该套所述最优位点组合验证成功，所得最优位点组合即为与抗性表型相关的关联SNP位点。

7.一组与草鱼出血病相关联的SNP分子标记，其特征在于，所述SNP分子标记包括SNP1-27，SNP1-27的核苷酸序列分别如SEQ ID NO.1-27所示。

8.一组与草鱼出血病相关联的SNP分子标记的检测引物组，其特征在于，所述检测引物组包括检测如权利要求7所述的SNP1-27的引物对，检测SNP1-27的引物对的核苷酸序列分别如SEQ ID NO.28-81所示。

9.如权利要求1-6任一项所述的筛选二倍体真核生物抗性关联SNP位点的方法、或者如权利要求8所述的一组与草鱼出血病相关联的SNP分子标记、或者如权利要求9所述的一组与草鱼出血病相关联的SNP分子标记的检测引物组在草鱼出血病抗性鉴定或者草鱼抗性育种中的应用。