CN111278994B

CN111278994B - 一种牙鲆抗病育种基因芯片及其应用

Info

Publication number: CN111278994B
Application number: CN201980003897.4A
Authority: CN
Inventors: 陈松林; 周茜; 卢昇; 陈亚东; 刘洋; 徐文腾; 李仰真; 王磊; 杨英明; 王娜; 李希红
Original assignee: Yellow Sea Fisheries Research Institute Chinese Academy of Fishery Sciences
Current assignee: Yellow Sea Fisheries Research Institute Chinese Academy of Fishery Sciences
Priority date: 2019-12-17
Filing date: 2019-12-17
Publication date: 2023-02-07
Anticipated expiration: 2039-12-17
Also published as: JP2022518304A; CN111278994A; JP7158496B2; WO2021119980A1

Abstract

本发明的目的是提供一种用于牙鲆抗病良种选育的基因芯片，解决鱼类良种培育中缺乏基因芯片的问题，弥补传统育种技术的不足，为鱼类抗病高产优质良种培育提供一种新的分子育种方法，为鱼类养殖业提供抗病优良品种选育的技术手段，实现鱼类育种技术的更新换代，推动鱼类种业快速发展。本发明提供的基于与牙鲆抗病性相关的SNP位点的基因芯片可用于牙鲆抗病个体选育，并且实际的选择准确性与理论值接近，因此可以提高牙鲆抗病良种选择的准确性、缩短育种周期，为牙鲆抗病良种选育提供了基因芯片技术，为鱼类抗病良种选育开辟基因芯片育种新途径。

Description

一种牙鲆抗病育种基因芯片及其应用

技术领域

本发明属于水产遗传育种技术领域，具体涉及一种用于牙鲆抗病良种选育的基因芯片的制备方法及应用。

背景技术

水产养殖业是我国食品的重要来源，而鱼类养殖业又是水产养殖业的支柱产业，2015年鱼类养殖产量28457万吨，占整个水产养殖产量的57.6％；养殖鱼类已成为我国食物蛋白的重要来源。

然而，随着鱼类养殖业的迅速发展，缺乏优良品种、养殖种类种质退化；养殖规模扩大、集约化程度的提高以及养殖环境的恶化导致水产养殖病害发生频繁，养殖产品药残突出等问题也严重制约了鱼类养殖业的可持续发展。仅就鱼类而言，由于高密度养殖形成的免疫压抑，导致养殖鱼类的抗病力下降。由于对鱼类的免疫抗病机理及抗病力的分子遗传研究还不够深入，难以从分子水平上提出预防鱼类病害的方案；而且，由于缺乏抗病功能基因和抗病分子标记，也难以进行抗病优良品种的培育，因此目前养殖生产只能依靠抗病力差的野生或人工繁殖多代的苗种，导致流行性病害在鱼类养殖中频繁发生。据不完全统计，我国鱼类养殖业每年因病害造成的直接经济损失达100亿元之巨。病害已成为制约我国鱼类养殖业可持续发展的瓶颈。

牙鲆是世界性海水养殖鱼类，也是我国海水养殖的主导鱼类之一。但牙鲆养殖业中也存在病害频发、死亡率高等问题。危害牙鲆等养殖鱼类的主要病害包括细菌性和病毒性疾病。其中危害较大的疾病分别是爱德华氏菌病、弧菌病和淋巴囊肿病毒病。抗菌素类药物或者疫苗等防病措施虽然有一定效果，但无法从根本上解决水产养殖中的病害问题；且抗菌素类药物存在容易在鱼体内积累，降低养殖鱼类商品质量，对消费者的健康具有潜在危害，容易使病原菌产生抗药性以及严重污染养殖环境等问题，因而在水产养殖业中的应用越来越受到限制。同时，抗菌素的使用也不能满足人们日益增长的对无药物残留的绿色水产品的需求。因此，鱼类抗病良种选育是我国水产领域急需攻克的重大课题之一。

迄今为止，鱼类良种选育主要是基于表型性状的选育，包括群体选育、家系选育、杂交选育和BLUP选育等，主要是根据体长、体重等容易测量的表型值计算出来的育种值进行选择。分子标记出现以后，则是通过定位与重要经济性状相关联的分子标记而对经济性状进行选择，但传统的分子标记辅助选育所用的分子标记数量非常有限，对单基因性状或质量性状的选择效果不错，但对于多基因决定的数量性状的选择效果不理想。由于抗病性状是由多个基因控制的数量性状，难以直接测量，选择准确性相当低，所以对抗病良种的选育一直进展缓慢，限制了鱼类抗病新品种的培育，迫切需要一种新的育种技术来攻克这一难题。

基因芯片，又称DNA芯片、DNA微阵列，是采用光蚀刻技术，以硅片做固相支持物，将大量经过选择优化的DNA序列合成寡核苷酸，点在经特殊处理的玻片上，经变性、固定后形成DNA微阵列。基于核酸分子杂交技术，基因芯片可以同时对几万甚至几十万DNA片段进行并行化杂交和分析，具有高通量、并行性、高效率、样品量小等优点。目前，基因芯片已广泛应用于人类疾病、肿瘤的诊断，动植物遗传学分析及遗传育种中。在动物育种中，基因芯片已成功应用于畜牧，特别是奶牛、猪等物种的良种选育中。例如，在奶牛中，已先后开发出Bovine3K chip，Bovine25K SNP chip、BovineHD 700K，BovinLD 7K等多款基因芯片。目前，北美、欧洲、澳洲等采用Bovine SNP50 Beadchip芯片(54K SNP)作为基因组SNP标记分型检测的通用平台，并基于大规模参考群体获得的SNP分型结果，开展了产奶量、繁殖力、抗病力等多种经济性状的全基因组关联分析，建立了奶牛基因组选择体系。通过基因组选择可以实现初生公牛的早期选择，缩短了奶牛育种的世代间隔，增加遗传进展，极大提高种公牛的选择效率，显著节约了养殖和育种成本。但在水产养殖动物上，目前还未见育种用基因芯片，特别是抗病育种基因芯片的报道。

发明内容

本发明的目的是提供一种用于牙鲆抗病良种选育的基因芯片，解决鱼类良种培育中缺乏基因芯片的问题，弥补传统育种技术的不足，为鱼类抗病高产优质良种培育提供一种新的分子育种方法，为鱼类养殖业提供抗病优良品种选育的技术手段，实现鱼类育种技术的更新换代，推动鱼类种业快速发展。

本发明首先提供与牙鲆抗病性相关的SNP位点，所述的SNP位点是序列为SEQ NO:1—SEQ ID NO:48697中任一个序列的第36位碱基；

本发明的SNP位点可用于牙鲆抗病良种选育中；

本发明所提供的SNP位点用于制备牙鲆抗病良种选育用的检测制品；

所述的检测制品，优选为基因芯片；

本发明再一个方面是提供一种用于牙鲆抗病良种选育的基因芯片，其能够检测与牙鲆抗病力相关的SNP位点；

本发明再一个方面是提供一种牙鲆抗病个体的筛选方法，是使用上述的基因芯片来进行的；

所述的方法，包括如下的步骤：

1)提取候选群体中的个体基因组DNA，并利用上述基因芯片检测并获得SNP标记的分型结果；

2)从参考群体的SNP集合中提取出与基因芯片相同的SNP位点的分型结果，再将参考群体的SNP分型结果和候选群体利用芯片获得的分型结果合并；

3)利用合并的基因型和参考群体表型，使用加权GBLUP方法估算候选群体的估计育种值(GEBV)，再根据GEBV值确定待检测个体的抗病潜力；

利用参考群体基因型，使用加权最佳线性无偏估计(加权GBLUP)方法估算预测准确性；其中，5倍交叉验证为预测准确性评判方法，特征曲线下面积(AUC)为评判预测准确性指标；AUC越接近1，预测准确性越高。

本发明提供的基于与牙鲆抗病性相关的SNP位点的基因芯片可用于牙鲆抗病个体选育，并且实际的选择准确性与理论值接近，因此可以提高牙鲆抗病良种选择的准确性、缩短育种周期，为牙鲆抗病良种选育提供了基因芯片技术，为鱼类抗病良种选育开辟基因芯片育种新途径。

具体实施方式

本发明建立了牙鲆抗病良种培育的基因芯片的制作与应用方法，旨在为牙鲆等鱼类抗病良种培育提供一种新的分子育种技术手段。

下面对本发明所涉及的术语解释如下：

SNP：Single Nucleotide Polymorphism的缩写，即单核苷酸多态性，在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性。

基因芯片：通过微加工技术，将数以万计，乃至百万计的特定的DNA序列片段，有规律地排列固定于硅片、玻片等支持物上，构成的一个二维DNA探针阵列，可对遗传物质(DNA等)进行基因分型及分子检测。

兼并碱基：根据密码子的兼并性,常用一个符号代替某两个或者更多碱基。如R代表A/G,Y代表C/T，M代表A/C，K代表G/T，S代表G/C，W代表A/T等。

参考群体：在基因组选择中，通过人工感染等实验获得的具有表型数据的群体，通常从有表型性状的大的群体中筛选出的可以代表整个群体表型分布，并进行了基因组重测序，获得了基因型数据，进行实际基因组选择计算的个体的集合。

候选群体：在基因组选择中，候选群体是指通过基因组重测序，获得了基因型数据，但没有表型数据的群体，该群体具有育种潜力，拟用于接下来实际良种培育工作的个体的集合。

GBLUP：Genomic Best Linear Unbiased Prediction的缩写，即基因组最佳线性无偏预测，是利用基因组内高密度分子标记估算个体间亲缘关系(G矩阵)，进行基因组育种值估计的方法。

GEBV：Genomic Estimated Breeding Values的缩写，即基因组估计育种值，通过将全基因组上所有标记或单倍型的效应估计加和得到。

下面结合实施例对本发明进行详细的描述。

实施例1：“鱼芯1号”基因芯片SNP位点的筛选及芯片制备

1、牙鲆抗迟缓爱德华氏菌病参考群体的建立及表型性状测定

牙鲆基因组选择所用的参考群体和候选群体个体均来源于本课题组自2003年以来建立的牙鲆家系，在多年培育过程中，逐渐结合来源于韩国、日本和我国的牙鲆群体的快速生长、抗病抗逆等优良性状。尤其是从2013开始，针对牙鲆养殖业中迟缓爱德华氏菌病日益严重的形势，开展了牙鲆抗迟缓爱德华氏菌病家系选育的研究。

2013-2015年，连续对当年建立的牙鲆家系进行人工腹腔接种感染迟缓爱德华氏菌实验，对感染实验鱼苗收集鳍条，测量生长和抗病表型，2013，2014和2015各年分别采集样品4577尾、5942尾和6919尾，用于选择构建牙鲆抗迟缓爱德华氏菌病基因组选择的参考群体。

从感染实验的样品中，挑选出96个家系(2013年32个，2014年10个，2015年48个)，每个家系按照死亡率选取等比例死亡和存活个体10-15个，组成基因组选择的参考群体，将选取个体的感染实验结果(死亡或存活)作为参考群体的表型性状(表2)。

表2：用于基因组重测序的牙鲆个体统计表

2、牙鲆全基因组重测序及SNP位点鉴定

牙鲆参考群体经DNA提取，检测后，共有可用个体931个(表3)。

表3：牙鲆基因组选择参考群体与候选群体统计表

提取931个参考群体个体的基因组DNA，待DNA检测合格后，构建二代测序文库，建库类型为双端DNA文库(插入片段350bp)，使用Illumina Hiseq X10测序平台完成测序和数据产出，质量控制所得平均数据量为2G/个体。以本课题组提供的牙鲆基因组序列(GenBankID：PRJNA73673)为参考基因组，使用BWA(http://bio-bwa.sourceforge.net/)软件进行序列比对，然后用Samtools(http://www.htslib.org/)软件进行SNP预测和鉴定，获得42.2M个SNP集合。

3、SNP位点评价与筛选

(1)对步骤2所获得的42.2M牙鲆SNP标记,根据如下标准进行筛选：去除缺失率>0.1，最小等位基因频率(MAF)<0.05的位点，去除处于重复序列或转座子中的位点、去除不符合哈德温平衡的位点，获得3.4M个牙鲆SNP标记。

(2)对步骤(1)筛选的3.4M分子标记，进行SNP位点效应值分析和估计育种值计算，

牙鲆基因组选择计算选用Bayes Cπ算法，分析模型等式为：

模型中，y为表型值，u为群体平均值，qi是标记效应服从正态分布

m是标记的总数，X是与qi对应的关联矩阵，e是残差。

使用R语言包BGLR所提供的BayesCπ算法，结合整理好的基因型数据genotype.csv与表型数据phonetype.csv，对全基因组重测序的参考群体共931个牙鲆个体进行基因组选择计算。然后将所得SNP位点效应值由大到小排序，去除估计育种值<10^-5的位点，共得到864229个SNP位点用于基因芯片SNP位点的选取。

(3)进一步采用Affymetrix Axiom基因分型探针设计生物分析流程对步骤(2)筛选到的SNP分别进行探针设计和评估，去除探针转换可能性评估分值<0.6的位点。此外，保证SNP覆盖整个基因组且均匀分布、SNP的侧翼序列35bp内不存在其他SNP，SNP侧翼序列35bp的GC含量30-70％，最终筛选到48697个牙鲆SNP标记用于芯片制作，所述48697个SNP分子标记的序列记录在序列表中。

采用美国Thermo Fisher公司Affymetrix Axiom芯片制造技术制作牙鲆SNP芯片(基因芯片)，总共包含48697个牙鲆SNP位点，每张芯片可同时检测24个样品。

实施例2、“鱼芯1号”基因芯片的使用方法

1、芯片检测样品的制备与杂交

采集牙鲆鱼鳍条少量(米粒大小)，利用DNA提取试剂盒(中国，天根)提取鳍条基因组DNA，利用1％琼脂糖凝胶电泳和核酸分光光度计检测DNA质量和浓度，最终合格样品标准为：电泳要求DNA出现单一条带，片段长度大于10kb，完整度好，未出现降解，样品质量DNA检测结果；采用紫外分光光度计检测A260/280：1.8-2.0，A260/230>1.5，浓度不低于20ng/μl，总量不小于4μg。然后根据美国Thermo Fisher公司的SNP芯片检测样品制备标准流程操作(https://www.thermofisher.com/)进行芯片检测样品制备。1.将不低于4ug的高质量DNA模板加入2ml*96的深孔板中，加入变性剂进行常温变性，在变性10min后时终止变性，获得单链DNA；将用于扩增芯片位点的48697对引物和等温扩增酶，dNTP等加入深孔板中，将深孔板封膜，于37℃进行等温扩增；扩增24h后，将扩增产物片段化，加入等体积异丙醇，于-20℃冰箱中沉淀；沉淀24h后，采用4℃，3000g离心获得DNA产物沉淀，37℃下除去残余的异丙醇，将沉淀溶解，获得杂交液，杂交液采用5％的凝胶电泳检测结果质量，扩增产物质量检测结果，条带清晰，亮度较高；将杂交液采用控温扩增仪进行杂交，条件为95℃10min，48℃3min，之后将杂交液一直维持在48℃；将芯片块浸没至杂交液中，于48℃杂交炉中杂交24h，而后通过洗脱，连接荧光蛋白，固定荧光蛋白，杂交探针，扫描荧光信号，每个信号点为一个探针杂交结果，获得每个位点的杂交结果后，芯片扫描结果用Axiom Analysis Suite(AxAS)软件(美国Thermo Fisher公司)进行分析。

2、芯片检测和基因分型数据分析

(1)待测群体样品采集和DNA提取

选择部分进行过重测序的牙鲆个体DNA，使用所述芯片进行检测，对芯片基因分型的准确性以及使用重测序和基因芯片分型所得基因型数据进行基因组选择计算的可重复性进行检测。随后选择牙鲆育种过程中，建立家系所使用的候选亲本个体，进行基因组DNA的提取并用芯片进行检测，验证基因芯片在牙鲆基因组选择育种中的应用效果。所用个体信息见表4。

表4：用于基因芯片分型的牙鲆候选群体个体信息

(2)芯片检测

按照基因芯片检测标准流程，使用Affymetrix GeneTitan基因芯片处理系统完成探针杂交、染色和芯片扫描。具体操作如下：将4μg的高质量DNA模板加入2ml*96的深孔板中，加入变性剂进行变性(28℃)，在变性10min时快速加入变性终止液(反应时间不长于10min)，终止变性，获得单链DNA；将用于扩增芯片位点的48697对引物，等温扩增酶，dNTP和反应液等加入深孔板中，将深孔板封膜，于37℃进行等温扩增22-36h；优选扩增24h后，采用高温65℃处理20-30min使反应液失活，而后转移至37℃培养箱中孵育40min，加入片段化酶和反应液，将扩增产物片段化，加入与已有反应液等体积的异丙醇，将反应液混匀直至反应液澄清，而后于-20℃冰箱中沉淀产物；沉淀24h后，采用4℃，3,000g离心40-60min获得DNA产物沉淀，弃掉上清，保留沉淀，于37℃下完全除去残余的异丙醇后，将沉淀溶解，获得杂交液；将杂交液采用控温扩增仪进行杂交，条件为95℃10min，48℃3min，之后将杂交液一直维持在48℃；将芯片块浸没至杂交液中，于48℃杂交炉中杂交24h；而后通过洗脱，连接荧光蛋白，固定荧光蛋白，杂交探针，扫描荧光信号等，获得每个位点的杂交结果，芯片扫描结果用Axiom Analysis Suite(AxAS)软件(美国Thermo Fisher公司)进行分析。

(3)数据分析

利用AxAS软件(美国Thermo Fisher公司)分析芯片扫描结果，得到每个样品的基因分型结果。分析结果表明，芯片平均分型率为98.77％，分型效果良好；其中，高质量SNP比例为74.61％，各样品均能产生高质量的分型信息。

实施例3“鱼芯1号”基因芯片在牙鲆抗病育种中的应用

1、“鱼芯1号”基因芯片分型效果验证

从参考群体中挑选部分个体用于验证基因芯片分型的可靠性，这些选中的个体既有重测序的基因型，也有使用“鱼芯1号”基因芯片分型得到的基因型。从发明人已有的牙鲆参考群体中挑选部分个体应用基因芯片进行分型，统计。通过统计使用芯片得到的基因型(0/1/2表示AA/Aa/aa)和重测序得到的基因型的一致性以及利用重测序和芯片数据估算出的GEBV的相关系数来评估芯片分型的效果。若分型结果一致性达88％以上且GEBV之间的相关系数达0.9以上，则认为芯片具有好的分型效果。

分析结果表明，利用鱼芯1号”基因芯片分型得到的位点信息有90.08％与重测序相同，2组GEBV之间的相关系数为0.958。因此，本发明所研制的牙鲆基因芯片分型效果与重测序基本一致，能够对牙鲆进行准确的基因分型。

具体操作方法如下：

利用PLINK软件读取芯片数据，在服务器中输入以下指令对上述数据进行处理：

plink--vcf op2-1.vcf--make-bed--out op_Val_1

plink--vcf cs2-2.vcf--make-bed--out op_Val_2

plink--vcf op2-3.vcf--make-bed--out op_Val_3

plink--vcf op2-4.vcf--make-bed--out op_Val_4

经读取，4份vcf文件中信息如表5：

表5：用于验证基因芯片分型效果的个体数和标记数

a)在R中重新命名SNP并提取4份文件中共有的标记信息，命令如下：

#加载所需的R包

library(data.table)

#读取cs_Val_1和cs_Val_2的位点信息

val_1<-fread("op_Val_1.bim",header＝F)

val_2<-fread("op_Val_2.bim",header＝F)

val_3<-fread("op_Val_3.bim",header＝F)

val_4<-fread("op_Val_4.bim",header＝F)

#统一SNP命名方式并输出重新命名的文件

val_1$V2<-paste(paste(rep("rs",nrow(val_1)),val_1$V1,sep＝""),val_1$V4,sep＝":")

val_2$V2<-paste(paste(rep("rs",nrow(val_2)),val_2$V1,sep＝""),val_2$V4,sep＝":")

val_3$V2<-paste(paste(rep("rs",nrow(val_3)),val_3$V1,sep＝""),val_3$V4,sep＝":")

val_4$V2<-paste(paste(rep("rs",nrow(val_4)),val_4$V1,sep＝""),val_4$V4,sep＝":")

write.table(val_1,"op_Val_1.bim",sep＝"\t",col.names＝F,row.names＝F,quote＝F)

write.table(val_2,"op_Val_2.bim",sep＝"\t",col.names＝F,row.names＝F,quote＝F)

write.table(val_3,"op_Val_3.bim",sep＝"\t",col.names＝F,row.names＝F,quote＝F)

write.table(val_4,"op_Val_4.bim",sep＝"\t",col.names＝F,row.names＝F,quote＝F)

#提取并输出共有的位点信息

comm<-Reduce(intersect,list(a＝val_1$V2,b＝val_2$V2,c＝val_3$V2,d＝val_4$V2))

write.table(comm,"common_snps.txt",sep＝"\t",col.names＝F,row.names＝F,quote＝F)

b)利用PLINK软件合并4份文件，并保留共有的标记，命令如下：

plink--bfile op_Val_1--merge-list merge_op.txt--extract common_snps.txt--recode A--out

op_chip

文件“merge_op.txt”中存放如下信息：

op_Val_2.bed op_Val_2.bim op_Val_2.fam

op_Val_3.bed op_Val_3.bim op_Val_3.fam

op_Val_4.bed op_Val_4.bim op_Val_4.fam

c)利用PLINK软件从参考群体中提取出相同的个体和位点，将上述4份文件中.fam的信息整理至一个文件中并命名为“op_chip_indi.txt”，“…”表示文件目录，命令如下：

plink--bfile…/Val_ref--keep op_chip_indi.txt--extract common_snps.txt--recode A--out

op_rseq

经处理，上述4个文件共有的标记数为11,719，可在参考群体中找到的个体数为95。

d)利用R统计芯片和重测序分型的一致性，方法如下：

#加载所需的R包

library(data.table)

#分别读取芯片和重测序得到的分型信息

chip<-fread("op_chip.raw")

rseq<-fread("op_rseq.raw")

#统一文件中个体顺序

fid<-data.frame(rseq$FID)

colnames(fid)<-"FID"

chip<-data.table(merge(fid,chip,sort＝F))

#删去文件中的前6列，并输出基因型

chip[,c(1:6):＝NULL]

rseq[,c(1:6):＝NULL]

fwrite(chip,"geno_op_chip.csv",sep＝",",row.names＝F,quote＝F)

fwrite(rseq,"geno_op_rseq.csv",sep＝",",row.names＝F,quote＝F)

#统计一致性

sum(chip＝＝rseq)/(nrow(chip)*ncol(chip))*100

经统计，上述95个个体共有1,113,305个标记，完全相同的标记数为1,002,829。因此，芯片和重测序分型结果有90.08％完全一致。

e)为保证GEBV估算的准确性，利用PLINK软件提取参考群体中剩余个体的基因型，命令如下：

plink--bfile…/Val_ref--remove op_chip_indi.txt--extract common_snps.txt--recode A--out ref

f)利用R合并参考群体和验证个体的基因型，方法如下：

#加载所需的R包

library(data.table)

#分别读取芯片和重测序得到的分型信息

chip<-as.matrix(fread("geno_op_chip.csv"))

rseq<-as.matrix(fread("geno_op_rseq.csv"))

ref<-fread(“ref.raw”)

#删去文件中的前6列

ref[,c(1:6):＝NULL]

ref<-as.matrix(ref)

#合并基因型文件并输出合并后的基因型文件

geno_chip<-rbind(chip,ref)

geno_rseq<-rbind(rseq,ref)

write.table(geno_chip,"geno_Val_Chip.csv",sep＝",",row.names＝F,quote＝F)

write.table(geno_rseq,"geno_Val_Rseq.csv",sep＝",",row.names＝F,quote＝F)

g)利用g)中得到的2个xxx.csv文件在R中使用加权GBLUP方法估算GEBV。具体操作方法如下(Linux环境)：

#加载所需的R包和函数

library(parallel)

library(data.table)

library(asreml)

library(pROC)

source("ginv.R")

函数ginv定义如下：

经计算，迭代至第4次时加权GBLUP方法趋于稳定，因此此时的迭代结果进行后续的研究。用于验证的95个个体GEBV之间的相关系数为0.958，这些个体GEBV如表6所示：

表6：验证个体使用“鱼芯1号”基因芯片和重测序分型估算的GEBV值比较

2、“鱼芯1号”基因芯片位点在参考群体中的验证

从发明人已有的参考群体中提取出“鱼芯1号”基因芯片的设计位点，利用这些位点信息实施加权GBLUP，并采用5倍交叉验证和随机分组作为评价加权GBLUP预测准确性的方法，将受试者操作特征曲线下面积(AUC)作为评估加权GBLUP方法预测准确性的指标。分析模型使用广义线性混合模型。为了减小分组的随机误差，对整个数据集进行10次分组，每组计算5次。因此，一共计算50次，将50次AUC的均值作为最终的评价结果。

分析结果表明，在牙鲆参考群体中使用与SNP芯片相同的标记实施基因组选择，AUC(准确性)值为0.885，高于传统BLUP方法的AUC(0.579)值。因此，使用发明人所设计的芯片位点能够顺利并高效地实施基因组选择。

具体操作方法如下：

利用fcGENE、BEAGLE和PLINK软件处理从牙鲆参考群体中提取的芯片设计位点：填充缺失位点并输出基因型文件，命令如下：

a)在R中利用a)中得到的基因型文件在R中实施加权GBLUP。加权GBLUP具体方法参照1)中h)部分进行。

b)将构建好的加权G矩阵带入ASReml-R中进行交叉验证。交叉验证前需要进行分组：在R中使用函数sample(1:931,931)对所有个体进行随机排序，再将排序后的数字分为5列，每列包含的元素个数分别为186、186、186、186和187；重复上述过程10次，共得到10个文件；将这10个文件放入同一文件夹备用。分析采用广义线性混合模型，将不同实验批次和个体日龄作为固定效应，每个个体作为随机效应进行拟合。5倍交叉验证具体实施方法如下：

执行完上述代码后，加权GBLUP方法的AUC均值为0.885，传统BLUP方法的AUC均值为0.579。50次交叉验证结果见表7：

表7：加权GBLUP和传统BLUP方法交叉验证结果

3、“鱼芯1号”基因芯片在牙鲆抗病育种中的应用

为估算候选个体的基因组估计育种值(GEBV)，首先将候选个体基因型(由“鱼芯1号”基因芯片分型得到)与发明人已有的参考群体基因型合并，再使用R构建加权G矩阵，最后将准备好的加权G矩阵和表型数据带入ASReml-R、使用加权GBLUP方法估算各家系亲本的GEBV，再将亲本GEBV的均值作为相应家系的GEBV。将各家系按照感染存活率分为高存活率家系(存活率高于55％)和低存活率家系(存活率低于55％)，并计算各家系GEBV和感染存活率之间的AUC值，再将该AUC值与2、中得到的AUC进行比较，若接近甚至高于2、中得到的AUC，则说明发明人所设计的基因芯片满足基因组选择技术的要求并且能够在牙鲆抗病选育中具有良好的应用效果。计算各家系GEBV和感染存活率之间的AUC值并将该AUC值与2、中得到的AUC进行比较，以验证发明人所设计的基因芯片和基因组选择技术在牙鲆抗病选育中的实际应用效果。估算AUC值之前，需将子代的感染存活率用exp(x)/(1+exp(x))进行转换。转换后，将高于均值的家系的存活率记为1，低于均值的记为0。为满足基因芯片方法对标记的要求，不对所有候选个体的分型结果进行合并，故需要将每张芯片的分型结果单独与参考群体基因型合并。

分析结果表明16个候选群的子代家系中的6个高存活率家系的平均存活率为62.4％和10个低存活率家系的平均存活率为33.47％(表8)；其中，高存活率家系亲本平均GEBV为2.10，低存活率家系亲本平均GEBV为1.34(表8)。计算表明，利用这些牙鲆家系的GEBV值对其感染存活率预测的准确性可达0.794，接近理论值。因此，发明人所设计的基因芯片能够很好的应用于牙鲆抗病性状的选育。

具体操作方法如下：

利用PLINK和R处理候选个体分型文件，再从候选个体中挑出用于后续验证的个体，将这些个体信息存于一个文本文件中，按照家系编号、个体编号、父本编号、母本编号、性别和表型值的顺序准备文本文件，每行一个个体，每个个体的各项信息用table分隔符进行分隔。具体实施方法为：

#读取每张SNP芯片的分型结果，结果储存在xxx.bed、xxx.bim和xxx.fam三个文件中

plink--vcf op1.vcf--make-bed--out op1

plink--vcf op2.vcf--make-bed--out op2

plink--vcf op3.vcf--make-bed--out op3

在R中变更每份文件中SNP的命名方法，具体方法为：

再在R中使用如下命令输出基因型文件：

a)利用PLINK和R将参考群体基因型分别与每张芯片候选个体基因型进行合并，具体方法为：

plink--bfile…/op_Ref--extract snps_op1.txt--recode A--out op_Ref_op1

plink--bfile…/op_Ref--extract snps_op2.txt--recode A--out op_Ref_op2

plink--bfile…/op_Ref--extract snps_op3.txt--recode A--out op_Ref_op3

再在R中使用如下命令处理、合并基因型文件：

b)利用b)中处理好的4个基因型文件，在R中分别构建加权G矩阵，加权G矩阵构建方法同1)中所述

c)使用ASReml-R估算候选个体的GEBV，代码如下：

#加载所需的R包和函数

library(data.table)

library(asreml)

###op1###

pheno<-asreml.read.table("phenotype_op1.csv",sep＝",",header＝T)

Ginv<-fread("…/Ginv_op1.csv")

attr(Ginv,"rowNames")<-paste(pheno[,1])

op1<-asreml(status～Batch+Age,random＝～giv(AnimalID),ginverse＝list(AnimalID＝Ginv),rcov＝～units,family＝asreml.binomial(link＝"logit"),na.method.X＝"omit",data＝pheno,maxiter＝50)

write.table(coef(op1)$random,"gebv_op1.csv",sep＝",",col.names＝F,quote＝F)

###op2###

pheno<-asreml.read.table("phenotype_op2.csv",sep＝",",header＝T)

Ginv<-fread("…/Ginv_op2.csv")

attr(Ginv,"rowNames")<-paste(pheno[,1])

op2<-asreml(status～Batch+Age,random＝～giv(AnimalID),ginverse＝list(AnimalID＝Ginv),rcov＝～units,family＝asreml.binomial(link＝"logit"),na.method.X＝"omit",data＝pheno,maxiter＝50)

write.table(coef(op2)$random,"gebv_op2.csv",sep＝",",col.names＝F,quote＝F)

###op3###

pheno<-asreml.read.table("phenotype_op3.csv",sep＝",",header＝T)

Ginv<-fread("…/Ginv_op3.csv")

attr(Ginv,"rowNames")<-paste(pheno[,1])

op3<-asreml(status～Batch+Age,random＝～giv(AnimalID),ginverse＝list(AnimalID＝Ginv),rcov＝～units,family＝asreml.binomial(link＝"logit"),na.method.X＝"omit",data＝pheno,maxiter＝50)

write.table(coef(op3)$random,"gebv_op3.csv",sep＝",",col.names＝F,quote＝F)

d)根据估算的所有候选个体的GEBV计算相应家系GEBV，并使用公式exp(x)/(1+exp(x))对各家系的感染存活率进行转化，将转换后高于均值的家系的存活率设为1，低于均值的设为0。最后，计算各家系GEBV和转换后存活率之间的AUC值，AUC值计算方法如下：

#加载所需R包

library(data.table)

library(pROC)

#将各家系GEBV及相应感染存活率整理至一个文件中，按照家系编号、GEBV和转换后感染存活率的顺序排列，每行只包含一个家系信息，读取整理后的文件

res<-fread("…/gebv_and_sr_op_can.csv")

#转换子代家系存活率

res$SR_trans<-exp(res$SR)/(1+exp(res$SR))

#将转换后的存活率根据均值再转为0和1

SR_binary<-matrix(NA,nrow＝nrow(res),ncol＝1)

SR_binary[which(res$SR_trans>mean(res$SR_trans)),]<-1

SR_binary[which(res$SR_trans<mean(res$SR_trans)),]<-0

#计算AUC值

roc(SR_binary[,1],res$GEBV)

经计算，获得16个牙鲆家系的GEBV，计算表明各家系GEBV与相应感染存活率之间的AUC(准确性)为0.794。各家系GEBV及感染存活率见表8。

表8：牙鲆家系GEBV及感染存活率

将候选群的16个子代家系按照感染存活率分为高存活率家系6个(平均存活率62.4％)和低存活率家系10个(平均存活率33.47％)两大类(表8)，比较高存活率和低存活率家系亲本的GEBV，发现高存活率家系亲本平均GEBV为2.10，低存活率家系亲本平均GEBV为1.34(表8)。计算表明，使用这些牙鲆家系的GEBV值对其感染存活率预测的准确性可达0.794，接近理论值。因此，发明人所设计的基因芯片能够很好的应用于牙鲆抗病良种选育中。

上述结果表明，采用“鱼芯1号”基因芯片对牙鲆候选群体个体进行基因分型，采用加权GBLUP计算基因组育种值(GEBV)，根据GEBV数值大小进行牙鲆抗病亲鱼的筛选，采用这些亲鱼培育出的后代苗种的抗感染存活率明显提高，从而表明“鱼芯1号”基因芯片可以在牙鲆抗病良种培育中进行推广应用。

工业实用性

本发明所提供的基于与牙鲆抗病性相关的SNP位点的基因芯片可用于牙鲆抗病个体选育，并且实际的选择准确性与理论值接近，因此可以提高牙鲆抗病良种选择的准确性、缩短育种周期，为牙鲆抗病良种选育提供了基因芯片技术，为鱼类抗病良种选育开辟了基因芯片育种新途径。

Claims

1.检测与牙鲆抗迟缓爱德华氏菌抗病性相关的SNP位点组合的探针在制备基因芯片中的应用，所述的SNP位点组合的序列为SEQ ID NO:1—SEQ ID NO:48697。

2.一种用于牙鲆抗病良种选育的基因芯片，其特征在于，所述的基因芯片能够检测与牙鲆抗迟缓爱德华氏菌抗病性相关的SNP位点组合；所述的SNP位点组合的序列为SEQ IDNO:1—SEQ ID NO:48697。