CN115232881A

CN115232881A - 一种鲍基因组育种芯片及其应用

Info

Publication number: CN115232881A
Application number: CN202210530981.5A
Authority: CN
Inventors: 柯才焕; 刘峻宇; 游伟伟; 彭文竹; 於锋; 骆轩
Original assignee: Xiamen University
Current assignee: Xiamen University
Priority date: 2022-05-16
Filing date: 2022-05-16
Publication date: 2022-10-25

Abstract

一种鲍基因组育种芯片及其应用，涉及水产动物遗传育种。基于大规模全基因组重测序结果，设计覆盖40,000目标区段的液相探针，利用GenoBaits技术可检测87,959个频率分布合理、缺失率低、假阳性低的特异性SNP位点。每个目标区段的大小为100bp左右，区段内含1‑7个SNP位点，挑选多态性最高的SNP位点作为核心位点。可高通量检测鲍的DNA样品，对鲍重要经济性状关联分析，加速其在分子标记辅助育种或全基因组选择育种应用时的进程，并可对鲍育种群体进行遗传背景分析，开展近缘物种的基因型鉴定。该育种芯片具有通量高、重复性好、灵活性高、单个标记数据成本低、变异检测率高等特点，有广阔育种应用前景。

Description

一种鲍基因组育种芯片及其应用

技术领域

本发明属于水产动物遗传育种领域，涉及基因组学、生物信息学、分子生物学和基因组育种等技术领域，具体是涉及一种鲍基因组育种芯片及其应用。

背景技术

DNA分子标记是利用DNA水平上的遗传多态性标识生物个体间遗传变异的技术，在动植物遗传改良等领域发挥着重要作用。该技术可对目标基因进行精确定位和遗传基础研究，可对不同群体的遗传背景进行有效选择，可对不同品种进行准确分析和鉴定，可通过分子标记辅助选择或基因组选择加快育种进程，在现代分子育种技术中扮演重要角色。传统的分子标记如限制性内切酶片段长度多态性(Restriction Fragment LengthPolymorphism,RFLP)和简单重复序列(Simple Sequence Repeat,SSR)存在通量低、数量少、操作过程繁琐等缺点，不能满足现如今大规模商业化育种的需求。单核苷酸多态性(Single Nucleotide Polymorphism,SNP)是指基因组上单个核苷酸的变异，是由单个核苷酸对置换、颠换、插入或缺失所形成的变异形式，具有分布性广，稳定性高、易于实现自动化等特点，是目前广泛应用的新一代分子标记，也是用于开发高通量分子标记的理想基因分型目标。

SNP分型芯片技术和随机测序式基因型检测(Genotyping By Sequencing,GBS)使用最广泛的高通量基因分型技术平台，在水稻、玉米等作物，猪、鸡等家畜家禽以及水产动物中广泛应用，尤其在复杂性状的遗传解析、分子育种等方面发挥重要作用。其中，SNP芯片按寻址方式和最终检测载体分为固相芯片和液相芯片。固相芯片又叫SNP微阵列，该技术通过固定在芯片上的DNA标记序列与目标核酸分子发生碱基配对反应，从而精准鉴定基因信息的技术。研究人员已开发三种大西洋鲑SNP固相芯片(16.5K,6K,132K)，并在群体基因组学、经济性状的遗传定位、基因组选择育种等方面进行研究，结果表明使用大量SNP位点的基因组选择育种效果显著优于传统的BLUP(Best Linear Unbiased Prediction)育种；在大黄鱼和牙鲆的选育中，也已相继构建基于600K和50K固相芯片的基因组选育体系。

随着国内外科研机构和育种公司的广泛应用，基因型检测技术和检测设备得到了飞速发展。从3G时代的高成本固相芯片和GBS方法发展到成本低、对检测平台要求较低、基于靶向测序基因型检测(Genotyping By Target Sequencing,GBTS)的液相芯片，基因型检测技术完成向4G时代的转变。与GBS方法和固相芯片相比，GBTS技术具有平台广适性、标记灵活性、检测高效性、信息可加性、支撑便捷性和应用广谱性等优点，并且可以在单个扩增子内检测多个SNP，极大提高目标位点内变异的检测效率。目前，已在20余种主要农作物、蔬菜以及部分动物中开发GBTS标记50余套，并得到广泛应用。研究人员最早在玉米中开发20K和40K液相芯片，应用结果显示两种液相芯片的基因型可重复性均在98％以上，现已大规模应用于玉米的种质资源鉴定、遗传多样性分析及基因组选择等研究领域；在南美白对虾中，开发45K液相芯片，并在提高生长速度，抵抗白斑综合症等方面取得了显著进展。

鲍,隶属于软体动物门(Mollusca)、腹足纲(Gastropoda)、原始腹足目(Archaeogastropoda)、鲍科(Haliotidase)，是鲍属(Haliotis)物种的统称，因肉质鲜美、营养丰富，被誉为“海味珍品之冠”，广受消费者喜爱。我国具规模的鲍养殖始于上个世纪80年代，根据联合国粮食及农业组织(FAO)年鉴，2019年我国的鲍养殖产量达18.03万吨，占世界鲍养殖总量的九成以上。然而，伴随着鲍养殖业的迅速发展，种质资源退化以及高温导致的大规模鲍死亡问题严重制约鲍养殖业的可持续健康发展。基于现代分子育种技术开展鲍种质创新和优良品种培育工作成为当务之急。在鲍育种领域，目前国内外均还未见育种芯片的相关报道。随着多个鲍主养种全基因组序列图谱的成功破译，为了提高鲍选择育种的效率，亟需开发一种覆盖全基因组、通量高、灵活性高、单个标记数据成本低的鲍全基因组SNP芯片，以满足鲍优良新品种培育的需要。

发明内容

本发明的目的在于提供一种鲍全基因组育种芯片及其制备方法。

本发明的另一目的在于提供所述鲍全基因组育种芯片的应用。

本发明提供一种用于鲍育种的鲍全基因组育种芯片，命名为“鲍芯1号”，包含40,000个目标区段，每个目标区段长度为100bp左右，区段内含1-7个SNP位点，共87,959个SNP位点，SNP所在的核苷酸序列分别为SEQ No.1–SEQ No.40,000所示序列，每个SNP位点有两个等位基因；87,959个SNP位点均匀分布于染色体上的目标区段内，其中每个区段内多态性最高的SNP位点作为核心位点。

一种鲍全基因组育种芯片的制备方法，包括以下步骤：

1、构建皱纹盘鲍样本群体和全基因组重测序

从福建养殖群体中随机抽取1059只皱纹盘鲍进行全基因组重测序，使用DNeasy96Blood&Tissue Kit(Qiagen，Shanghai，China)从肌肉中提取DNA，并通过琼脂糖凝胶电泳和Nanodrop2000(Thermo Scientific，Wilmington，DE，USA)检测DNA的完整性和浓度。每个样本构建大小为350bp的双末端文库，并使用Novogene Corporation(Beijing，China)的Illumina NovaSeq 6000测序平台(Illumina，USA)进行测序。

经建库测序获得的原始数据(raw data)，使用Perl脚本通过3条准则质量过滤：1)去除带接头的成对reads；2)去除任一端测序read中N含量超过该条read长度比例10％的成对reads；3)去除任一端测序read中低质量(Q<＝5)碱基数超过该条read长度比例50％的成对reads；采用BWA软件将质量过滤得到的测序数据(clean data)比对皱纹盘鲍参考基因组，通过SAMTOOLS软件进行排序和标记，通过GATK4.0软件进行单样本标记提取，合并和质量过滤，SNP过滤条件为QD<2.0||MQ<40.0||FS>60.0||SOR>3.0||MQRankSum<-12.5||ReadPosRankSum<-8.0；经过滤，获得包含所有样本SNP变异信息的.vcf文件。

2、鉴定和筛选SNP，包括以下步骤：

1)从全部鲍测序数据中筛选测序深度≥5X的目标位点共计1,674,226个，用于最终目标位点的挑选；

2)筛选MAF＞0.05，SNP位点检出率＞70％，杂合率＜50％的位点作为所有候选位点集，按照均匀分布的原则，优先保留MAF值最高的位点，初步共筛选出70,065个SNP位点，对部分空洞区域进行补充1,896个SNP位点，最终共计筛选出71,961个目标位点，评估完成后剩余44,303个位点；

3)由于候选位点数较少且存在较大空洞区域，进行两次位点补充。基于均匀分布、优先保留MAF高的位点和位点间隔不小于1,000bp原则，分别补充7,538和13,671个位点；

4)所有挑选的位点共评估出46,578个，按照位点间最小距离为1150bp且均匀分布的原则筛选出45821个位点作为候选目标位点；

5)候选目标位点所在目标区域挑选mSNP位点：在45K候选目标位点附近筛选MAF>0.05,NA<30％,het＜50％的位点；去除位点间距离小于1,000bp的相邻位点；目标区段大小控制在110bp，形成mSNP区域，mSNP区域内的SNP位点数控制在1～7之间。当mSNP区域内数目大于7时，挑选7个MAF最大的SNP，共计45,821个目标区段，包含45,821个核心位点，区段内共计包含104,654个SNP；

6)利用GenoBaits探针设计软件对目标区段进行探针设计，合成测试后挑选最终的高捕获率的40K区段，包含87,959个SNP位点。

本发明提供一套用于检测鲍全基因组SNP标记位点组合的探针，对所述用于鲍育种的鲍全基因组育种芯片包含的40,000个目标区段进行定点捕获。

本发明提供一种用于检测鲍全基因组SNP标记位点组合的基因芯片，所述基因芯片采用液相芯片，基因芯片含有上述一套用于检测鲍全基因组SNP标记位点组合的探针。

所述鲍全基因组SNP位点组合或所述SNP位点组合核苷酸探针在制备鲍全基因组SNP基因芯片上的应用。基于Genobaits技术，首先对要测试的材料进行gDNA文库构建。同时根据DNA互补原理，在每个待测位点设计覆盖目标SNP的探针，采用生物素(Biotin)标记对目标探针进行修饰。然后，在液态中利用生物素修饰的探针与基因组目标区域杂交形成双链。随后利用链霉亲和素包被的磁珠对携有生物素修饰的探针进行分子吸附，从而捕获与探针杂交的靶点。最后，对捕获的靶点序列进行洗脱、靶点扩增和测序，最终获得目标SNP的基因型。

本发明提供所述鲍全基因组育种芯片在检测鲍DNA样品中的应用。

本发明提供所述鲍全基因组育种芯片在鲍育种材料的遗传背景分析中的应用。

本发明提供所述鲍全基因组育种芯片在鲍属近缘物种基因型鉴定中的应用。

本发明提供所述鲍全基因组育种芯片在鲍性状关联分析中的应用。

本发明提供所述鲍全基因组育种芯片在鲍基因组选择中的应用。

与现有技术相比，本发明具有以下优点和效果：

(1)与传统的SSR标记相比，具有通量高、位点分布性广，稳定性高、易于实现自动化等特点。

(2)与现阶段常用的固态芯片相比，具有操作简单、成本低、灵活性高等特点；与基于二代测序的简化基因组测序技术相比，数据分析更简单，来自不同实验室之间的数据具有可比性等优势。

(3)本发明涉及的多聚单核苷酸多态性(mSNP)检测技术可在单个扩增子内检测多个SNP，使得可检测出的SNP位点数大幅增加；同一扩增子内的多个SNP标记间可以构成单倍型，提高了变异的检测效率；可从每个mSNP(扩增子)内挑选低频等位基因频率(MAF)最大的SNP组成核心标记；mSNP提供更为精细的遗传变异检测，包括mSNP位点内和位点间的变异，而且可以采用单倍型和SNP 2种方式分别进行检测。mSNP技术不仅大大提高标记的利用率，同时通过“一点多标”提升标记鉴定的准确度和灵敏度。

附图说明

图1为本发明实施例所述鲍基因组育种芯片上的SNP标记在鲍基因组上的示意图。

图2为本发明实施例所述鲍基因组育种芯片上的目标区段和区段内全部SNP位点统计。

图3为本发明实施例所述鲍基因组育种芯片上全部SNP位点的MAF结果统计。

图4为本发明实施例所述鲍基因组育种芯片上全部SNP位点的PIC结果统计。

图5为本发明实施例所述鲍基因组育种芯片上全部SNP位点标记类型结果统计。

具体实施方式

以下实施例用于说明本发明，但不用于限制本发明的范围。在不背离本发明精神和实质的情况下，对本发明方法、步骤或条件所作的修改或替换，均属于本发明的范围。若未特别指明，实施例中所用的技术手段为本领域技术人员所熟知的常规手段。

实施例1鲍液相育种芯片的制备方法

1、构建皱纹盘鲍样本群体和全基因组重测序

经建库测序获得的原始数据(raw data)，使用Perl脚本通过3条准则进行质量过滤：1)去除带接头的成对reads；2)去除任一端测序read中N含量超过该条read长度比例10％的成对reads；3)去除任一端测序read中低质量(Q<＝5)碱基数超过该条read长度比例50％的成对reads；采用BWA软件将质量过滤得到的测序数据(clean data)进行基因组比对，通过SAMTOOLS软件进行排序和标记，通过GATK4.0软件进行单样本标记提取，合并和质量过滤，SNP过滤条件为QD<2.0||MQ<40.0||FS>60.0||SOR>3.0||MQRankSum<-12.5||ReadPosRankSum<-8.0；经过滤，获得包含所有样本SNP变异信息的.vcf文件。

2、基于1059只鲍的全基因组重测序数据，将测序数据比对至高质量的鲍参考基因组序列后，按照以下步骤鉴定和筛选SNP：

1)从全部鲍测序数据中筛选测序深度≥5X的目标位点共计1,674,226个，用于最终目标位点的挑选。

2)筛选MAF＞0.05，SNP位点检出率＞70％，杂合率＜50％的位点作为所有候选位点集，按照均匀分布的原则，优先保留MAF值最高的位点，初步共筛选出70,065个SNP位点，对部分空洞区域进行补充1,896个SNP位点，最终共计筛选出71,961个目标位点，评估完成后剩余44,303个位点。

3)由于候选位点数较少且存在较大空洞区域，进行了两次位点的补充。基于均匀分布、优先保留MAF高的位点和位点间隔不小于1,000bp的原则，分别补充7,538和13,671个位点。

4)所有挑选的位点共评估出46,578个，按照位点间最小距离为1150bp且均匀分布筛选出45,821个位点作为候选目标位点。

5)候选目标位点所在目标区域挑选mSNP位点：在45K候选目标位点附近筛选MAF>0.05,NA<30％,het＜50％的位点；去除位点间距离小于1000bp的相邻位点；目标区段大小控制在110bp，形成mSNP区域，mSNP区域内的SNP位点数控制在1～7之间。当mSNP区域内数目大于7时，挑选7个MAF最大的SNP，共计45,821个目标区段，包含45,821个核心位点，区段内共计包含104,654个SNP。

6)对目标区段进行探针设计，合成测试后挑选最终的高捕获率的40K区段，包含87,959个SNP位点。

实施例2鲍基因组育种芯片在检测鲍DNA样品中的应用

(1)鲍基因组DNA的提取和检测：根据检测需要，取鲍外套触手组织采用高通量DNA试剂盒抽提基因组DNA。提取后的DNA样品进行2种检测：使用1％琼脂糖凝胶电泳方法分析DNA的纯度和完整性，使用Qubit对DNA浓度进行准确定量。

(2)GenoBaits实验流程：取定量质检合格的DNA利用超声波破碎仪进行随机物理破碎，破碎片段峰值控制在200～300bp，破碎后的DNA经过末端修复后连接A尾。利用连接酶将加A后的DNA片段与测序接头连接在一起，然后利用羧基修饰的磁珠对文库进行纯化和片段选择，保留插入片段在200～300bp的连接产物。连接产物加入带有Barcode的测序引物和高保真PCR反应体系进行PCR扩增，不同的Barcode用于区分不同的样品。经过羧基磁珠纯化后扩增产物，即可用于探针杂交实验。

取500ng完成第一次测序文库的构建，冻干后加入探针与杂交试剂，变性后置于65℃温育2h即可完成杂交反应。杂交产物进行洗液清洗后，再进行一轮PCR完成杂交捕获文库的构建。

(3)第二次文库构建及上机测序：通过所述DNA质检合格的样品，使用相应的产品进行靶向测序文库构建，最终完成该项目全部样品的文库制备。文库构建完成后，先使用Qubit2.0进行初步定量，使用qPCR的方法对文库的有效浓度进行准确定量以保证文库质量。文库检合格后，进入上机测序阶段。

(4)信息分析流程：数据质控(去除接头和低质量数据)、与参考基因组比对、变异检测与注释等分析获得基因分型结果。

实施例3鲍育种芯片在育种材料遗传背景和多态性分析中的应用

为了进行鲍育种材料的遗传背景检测，使用本发明对来自10个家系的70只养殖鲍进行了检测，检测方法参考实施例2，结果显示50只样本位点检出率均大于95％，去除分型成功率小于90％及最小等位基因频率小于5％的位点后，剩余39,462个高质量位点。基于这些位点，进行该群体的多样性分析，平均多态信息含量(PIC)为0.36，属于中度多态性(0.25<PIC<0.5)。对家系进行遗传距离和聚类分析，发现半同胞家系的遗传距离最小，最先聚类在一起，表明该方法可以很好地进行鲍育种材料的遗传背景分析。

实施例4鲍育种芯片在鲍属近缘物种基因型鉴定中的应用

为了验证所述鲍育种芯片在鲍属近缘物种基因型鉴定中的应用，使用本发明对70只皱纹盘鲍、20只西氏鲍和19只绿盘鲍进行测试，检测方法参考实施例2，结果显示皱纹盘鲍和绿盘鲍的检出率均高于95％，西氏鲍的检出率位于90％～95％之间。这个结果显示，本发明对鲍属近缘物种均有良好的分型效果。

实施例5鲍育种芯片在鲍鱼性状关联中的应用

采集了1121只养殖鲍的耐高温性状数据，采用鲍育种芯片进行基因分型，实施方法参考实施例2。对获得的基因分型结果进行质量控制，质控参数为：最小等位基因频率(MAF)>0.05，位点检出率>90％，个体检出率>80％，最终得到64,788个位点和1059只皱纹盘鲍。采用GAPIT中的BLINK模型(PCA作为协变量)进行进行全基因组关联分析，并使用Bonferroni检验筛选显著的SNP位点，最终定位到13个与耐高温性状显著相关的SNP位点，注释到got2，znfx1，l(2)efl，lrp5等13个基因，这些候选基因在转运、代谢途径和神经活性配体受体相互作用等多种生物过程中发挥重要作用，可应用于鲍的分子辅助育种研究。

实施例6鲍育种芯片在鲍鱼基因组选择中的应用

采集1121只养殖鲍的耐高温性状数据，采用鲍育种芯片进行基因分型，实施方法参考实施例2。对获得的基因分型结果进行质量控制，质控参数为：最小等位基因频率(MAF)>0.05，位点检出率>90％，个体检出率>80％，最终得到64,788个位点和1059只皱纹盘鲍。基于表型数据和芯片测序数据，使用GBLUP模型和BayesB模型对皱纹盘鲍耐高温性状进行遗传评估和基因组预测，遗传力为0.35～0.42，属于中等遗传力，表明耐高温性状可通过选择得到显著的进展。BayesB的预测准确性为0.85±0.05，高于GBLUP(0.62±0.01)。这些结果为皱纹盘鲍基因组选择育种提供有效信息。

本发明实施例所述鲍基因组育种芯片上的SNP标记在鲍基因组上的示意图见图1。所述鲍基因组育种芯片上的目标区段和区段内全部SNP位点统计见图2。所述鲍基因组育种芯片上全部SNP位点的MAF结果统计见图3。所述鲍基因组育种芯片上全部SNP位点的PIC结果统计见图4。所述鲍基因组育种芯片上全部SNP位点标记类型结果统计见图5。

Claims

1.一种用于鲍育种的鲍全基因组育种芯片，其特征在于其包含40,000个目标区段，每个目标区段长度为100bp左右，区段内含1-7个SNP位点，共87,959个SNP位点，SNP所在的核苷酸序列分别为SEQ No.1–SEQ No.40,000所示序列，每个SNP位点有两个等位基因；87,959个SNP位点均匀分布于染色体上的目标区段内，其中每个区段内多态性最高的SNP位点作为核心位点。

2.一套用于检测鲍全基因组育种SNP分子标记组合的探针，其特征在于对如权利要求1所述40,000个目标区段进行定点捕获。

3.一种用于检测用于鲍全基因组育种SNP标记位点组合的基因芯片，其特征在于，所述基因芯片采用液相芯片，所述基因芯片含有如权利要求2所述探针。

4.如权利要求1所述SNP分子标记组合或权利要求2所述探针在制备鲍全基因组SNP基因芯片上的应用。

5.如权利要求3所述基因芯片在检测鲍DNA样品中的应用。

6.如权利要求3所述基因芯片在鲍育种材料的遗传背景分析中的应用。

7.如权利要求3所述基因芯片在鲍属近缘物种基因型鉴定中的应用。

8.如权利要求3所述基因芯片在鲍性状关联分析中的应用。

9.如权利要求3所述基因芯片在鲍基因组选择中的应用。