CN115305290A

CN115305290A - 一种鸡液相芯片及其应用

Info

Publication number: CN115305290A
Application number: CN202211057950.9A
Authority: CN
Inventors: 姜雨; 赵桂苹; 王菲; 郭应威; 王巧; 徐乃一
Original assignee: Institute of Animal Science of CAAS; Northwest A&F University
Current assignee: Institute of Animal Science of CAAS; Northwest A&F University
Priority date: 2022-08-30
Filing date: 2022-08-30
Publication date: 2022-11-08

Abstract

本发明公开了一种鸡液相芯片及其应用，该液相芯片共有46990个探针靶点，其中25317个源于鸡参考基因组，其余21673个源于参考基因组缺失序列。实验结果表明，本发明的液相芯片可以通过靶向捕获测序技术实现鸡基因分型，所得结果可用于肉鸡、蛋鸡种质资源评价与改良等多个方面。

Description

一种鸡液相芯片及其应用

技术领域

本发明涉及生物技术应用领域，具体涉及一种鸡全基因组液相芯片。

背景技术

DNA分子标记(Molecular Markers)是以个体间核苷酸序列变异为基础的遗传标记，是分子育种的重要基础。与生物化学标记和细胞学标记等其他遗传标记相比，DNA分子标记类型多样，而且检测方法简单、迅速，已经广泛应用于动植物育种。单核苷酸多态性(Single Nucleotide Polymorphism,SNP)是由基因组单个核苷酸的变异(例如置换、颠换、插入或缺失)所形成的。单核苷酸多态性具有数量众多、检测准确度高等特点，是最常见的分子标记。

目前用于SNP位点分型的主要方法是全基因组重测序以及基因芯片。全基因组重测序是在整个基因组水平上对DNA进行随机打断，然后对片段化处理的样本加上接头，经扩增后对插入片段进行测序。虽然目前测序成本明显降低，但要针对成百上千的样本进行全基因组测序，依然面临成本高昂和海量数据处理的巨大挑战。为了降低成本和数据量，基于对部分位点或区域进行分型的基因芯片出现并广泛应用，以较小的测序量实现覆盖全基因组的高密度分子标记的检测。基因芯片主要包括固相芯片和液相芯片。其中固相芯片根据芯片上的标记序列与基因组杂交后荧光显色信号鉴定基因信息。液相芯片利用针对靶点附近区域设计的生物素标记的探针，并与基因组杂交后进行扩增、建库、二代测序，实现对基因组关键区域分型。与固相芯片相比，液相芯片存在以下优势：基于扩增原理，液相芯片不仅能对靶点进行分型，对该点周围位于探针覆盖范围内的其他位点(例如SNP)也可以进行分型；其次，液相芯片的检测位点灵活性较强、分型成本较低。

鸡商业化SNP芯片位点信息多来源于鸡参考基因组。然而鸡参考基因组组装尚不完整，例如一些编码基因存在缺失，对重要性状相关遗传位点的挖掘与利用造成了一定的影响，使其应用主要集中在品种鉴定和亲缘关系鉴定等方面。

已有研究公布了158.98Mb鸡参考基因组中缺失的序列(Li,M.,Sun,C.,Xu,N.,Bian,P.,Tian,X.,Wang,X.,Wang,Y.,Jia,X.,Heller,R.,Wang,M.,et al.De NovoAssembly of 20Chicken Genomes Reveals the Undetectable Phenomenon forThousands of Core Genes on Microchromosomes and Subtelomeric Regions.Mol BiolEvol，2022，39(4):msac066.)，但问题在于：目前尚无法确定这些序列中是否存在与经济性状相关的分子标记位点。

发明内容

本发明的目的在于提供一种鸡液相芯片及其应用，通过对参考基因组及其缺失序列中位点的捕获，提高测序数据的覆盖度，增强芯片的应用价值。

为达到上述目的，本发明采用了以下技术方案：

一种鸡全基因组芯片，该芯片的探针靶点包括来源于一个或多个鸡参考基因组缺失序列的第一类位点，第一类位点位于鸡参考基因组缺失序列的第一外显子的中间位置或位于鸡参考基因组缺失序列的中间位置。

优选的，所述芯片的探针靶点还包括来源于鸡参考基因组的一个或多个第二类位点，第二类位点为SNP位点。

优选的，所述SNP位点在鸡参考基因组上按照41Kb的平均距离间隔分布(94.5％的SNP位点间距在50Kb以内，其余5.5％的SNP位点间距超过50Kb)。

优选的，所述SNP位点包括Chr4:65539763、Chr5:38301786、Chr15:11741014、Chr30:658105中的一个或多个。

优选的，所述芯片的探针靶点具体包括定位在鸡参考基因组上的共计25317个SNP位点(具体位置信息参见表3)，可提供进行国内外多个鸡品种经济性状候选基因的定位、基因组选择、遗传多样性分析、品种鉴定、性别判断、亲缘关系鉴定、种质资源评价与改良、DNA指纹鉴定、全基因组关联分析(GWAS)以及全基因组选择育种(GS)的SNP分子标记组合。

优选的，所述第一类位点的探针序列按以下方式确定：根据探针靶点位置，在对应的鸡参考基因组缺失序列上由该位置向前、向后分别延伸50～55bp(探针序列的长度一般为100～110bp)。

优选的，所述第一类位点包括采用如下探针序列的位点：GGTGGGTGGGAGCAGGAAAATGTGGGATGCTGTCGATCTCACCAGCATCAGGATTACCAGCATCAGCATTTTTGGCGCAGTAGTAGATGCCCGTGTCCTC。

优选的，所述芯片的探针靶点具体包括在鸡参考基因组中缺失的21673个位点(具体位置信息参见表4)，这些位点的位置信息为：一部分位点是按照其所在鸡参考基因组缺失序列的中间位置进行选取，另一部分位点是按照其所在鸡参考基因组缺失序列中的第一外显子的中间位置进行选取；这些位点使得芯片能够尽可能地捕获非参考基因组上的序列，判断新基因与鸡重要经济性状的相关性，探究新基因在家禽重要性状形成中的作用。

优选的，所述芯片为基于靶向捕获测序技术的液相芯片。

优选的，所述鸡参考基因组为GRCg6a(GCF_000002315.6)。

本发明的有益效果体现在：

本发明通过添加鸡参考基因组中缺失的位点作为探针靶点，对鸡全基因组芯片的设计进行优化，使得芯片能够捕获更多区域，在提高检测效率的同时降低鸡全基因组芯片的检测成本，在肉鸡、蛋鸡种质资源评价与改良等多个方面均具有较高的应用价值。

进一步的，本发明从大规模测序数据中筛选出可用于芯片设计的25317个SNP位点，与商业芯片中设计的SNP位点相比，其位点来源涵盖世界范围内更多的鸡品种，通用性更强，同时还可以通过检测与鸡重要经济性状具有相关性的位点，促进鸡种质资源评价与改良工作。

进一步的，本发明的鸡全基因组芯片适用于靶向捕获测序技术(即构建为液相芯片)，通过相应的探针设计，不仅可以对探针靶点进行分型，同时可以对探针靶点周围扩增区域进行分型，因此与具有相同数目探针的固相芯片相比，可以检测出更多的变异位点(例如SNP位点)，同时在提高检测位点数目的基础上明显降低分型成本。

附图说明

图1为中外鸡品种PCA聚类结果图。

图2为同场不同鸡群PCA聚类结果图。

具体实施方式

以下结合附图和实施例对本发明作进一步详细说明，所述实施例仅用于解释本发明，而非对本发明保护范围的限制。

(一)鸡液相芯片的制备方法

本发明设计的芯片位点包括两类：一类是位于泛基因组中新组装出来的序列上的位点；另一类是位于参考基因组上的位点，这些位点源于世界范围内肉鸡、蛋鸡品种共961个全基因组重测序样本(样本测序数据来自数据库)。

1、第一类位点的选取

获得泛基因组中新组装出来的序列(Li,M.,Sun,C.,Xu,N.,Bian,P.,Tian,X.,Wang,X.,Wang,Y.,Jia,X.,Heller,R.,Wang,M.,et al.De Novo Assembly of 20ChickenGenomes Reveals the Undetectable Phenomenon for Thousands of Core Genes onMicrochromosomes and Subtelomeric Regions.Mol Biol Evol，2022，39(4):msac066.)。这些序列的来源简述如下：将白洛克、白来航、科尼什、洛岛红、贵妃鸡、Fayoumi、Asil、藏鸡、裸颈鸡、茶花鸡、大围山鸡、狼山鸡、溧阳鸡、丝羽乌骨鸡和斗鸡共计15个品种进行从头组装；将组装所得基因组与参考基因组(GRCg6a，GCF_000002315.6)进行全基因组比对，保留未比对上的序列，去除冗余后获得了45715条新序列(即鸡参考基因组缺失序列)。

对于每一条鸡参考基因组缺失序列，如果该序列存在外显子，则在第一外显子的中间位置挑选位点；如果该序列没有外显子，则在该序列的中间位置挑选位点。然后根据序列的GC含量和重复序列进行筛选，保留侧翼区域repeatCount较低(repeatCount<100)GC含量适中(25％～75％)的位点进行探针设计。

2、第二类位点的选取

收集世界各地肉鸡、蛋鸡(共961只)的全基因组重测序数据(参见表1)。

首先利用FastQC剔除低质量和具有接头污染的reads，从而得到clean data。所有的clean data通过BWA软件比对到参考基因组(GRCg6a，GCF_000002315.6)上，利用GATK软件进行变异的检测，并根据以下标准进行过滤：(1)平均深度的三分之一<深度<平均深度的三倍；(2)基于深度的变异置信度(QD)>2；(3)RMS映射质量(MQ)>40.0；(4)使用Fisher's精确检验的p-value(FS)<60；(5)对称比值比检验(SOR)估计的链偏倚<3.0；(6)Alt vs.Refread MQs的Wilcoxon秩和检验的Z-score(MQRankSum)>-12.5；(7)Alt与Ref读取位置偏差(ReadPosRankSum)的Wilcoxon秩和检验的Z-score>-8。据此标准过滤后共获得高质量的突变位点(SNP位点)32036888个，这些位点将作为第二类位点选取和探针设计的数据源。

为保证选取的位点在基因组上均匀分布，确保后续GWAS或GS等研究的有效性，将全基因组每40K划分为一个区间，利用以下公式计算区间内每个SNP位点的得分(SCORE)：

SCORE＝MAF×[(end-start)-|2×position-(end+start)|]

式中，MAF指位点的最小等位基因频率，start指位点所在区间的起始坐标，end指位点所在区间的终止坐标，position指位点的基因组坐标。

之后，在每个区间内选取SCORE值最高的SNP位点作为该区间的候选位点。

表1.全基因组重测序数据涉及的中外鸡品种

注：Abbr代表样本缩写，NA代表品种不详。

3、芯片位点最终确定流程和结果

(1)将第一类位点对应的目标捕获区域和第二类位点的位置信息送康普森公司打分后，去除不建议设计探针的位点；

(2)对于第二类位点，如果位点间的距离较大，按照上述位点选取原则进行重新筛选(例如，在区间内选择SCORE值次高的位点，依次类推)，确保位点均匀分布。

结果，液相芯片共有46990个探针设计位点(即探针靶点)，其中25317个位点定位于鸡参考基因组(GRCg6a，GCF_000002315.6)，且均为SNP位点(参见表2、表3)。其余21673个位点定位于鸡参考基因组缺失序列，这些位点的位置信息以其所在鸡参考基因组缺失序列的核苷酸位次进行标记，并与序列命名通过冒号隔开(参见表4)。

表2.芯片位点(定位于参考基因组的位点)的染色体数量分布

染色体	SNP个数	染色体	SNP个数	染色体	SNP个数
						chr1	4879	chr13	453	chr25	80
chr2	3751	chr14	377	chr26	134
						chr3	2728	chr15	317	chr27	148
chr4	2249	chr16	45	chr28	125
						chr5	1490	chr17	262	chr29	39
chr6	881	chr18	279	chr30	59
						chr7	909	chr19	251	chr31	19
chr8	742	chr20	346	chr32	136
						chr9	584	chr21	172	chrZ	1887
chr10	497	chr22	117	chrW	51
						chr11	486	chr23	153	总计	25317
chr12	501	chr24	170

表3.芯片位点(定位于参考基因组的位点)信息

注：由于参考基因组上是根据SNP位点挑选探针靶点，故提供SNP位点在参考基因组上的位置(POS)信息以及等位基因(Alle)信息。

表4.芯片位点(定位于鸡参考基因组缺失序列的位点)信息

注：非参考基因组上是根据序列挑选探针靶点，不存在等位基因信息；表中鸡参考基因组缺失序列的命名按照文献中序列的顺序依次进行命名，例如表中seq1代表文献中参考基因组缺失的第一条序列。

4、获得第一、二类位点对应的探针

根据表3中SNP位点的位置，在参考基因组上向前延伸0-150bp或者向后延伸0-65bp设计探针，最终选取SNP位点侧翼位置一共100bp的碱基作为该位点的探针序列。

根据表4中位点的位置，在相应的鸡参考基因组缺失序列上向前、后各延伸50bp，从而将包含所述位点在内一共100bp的碱基作为该位点的探针序列。

最后合成设计的探针，即可制备鸡液相芯片(属于鸡全基因组芯片)。

(二)利用鸡液相芯片对鸡DNA样本进行基因分型的流程

获得DNA样本：采集鸡血液样本，用酚-氯仿法或专用试剂盒提取血液基因组DNA，溶于ddH₂O，用质量分数为1％～1.5％的琼脂糖凝胶电泳检测提取的基因组DNA，并利用凝胶成像系统(GelDocXR System,美国Bio-Rad公司)判断电泳结果，保证基因组DNA完整性；用微量紫外分光光度计(Q5000，美国Quaweu公司)测定基因组DNA的浓度，将DNA浓度调整到工作浓度10～50ng/μL。

基因芯片检测：按照液相芯片标准检测流程操作。

数据分析：对检测获得的原始数据采用fastp软件(CHEN S,ZHOU Y,CHEN Y,etal.fastp:an ultra-fast all-in-one FASTQ preprocessor.Bioinformatics,2018,34(17):i884-i90.)进行质控，之后用bwa软件(LI H.Aligning sequence reads,clonesequences and assembly contigs with BWA-MEM.arXiv preprint arXiv:13033997,2013.)将测序数据分别比对到鸡参考基因组GRCg6a及泛基因组novel序列，采用GATK软件(VAN DER AUWERA G A,CARNEIRO M O,HARTL C,et al.From FastQ data to high-confidence variant calls:the genome analysis toolkit best practicespipeline.Current protocols in bioinformatics,2013,43(1):11.0.1-.0.33.)的标准流程检测SNP，进行基因分型。

(三)鸡液相芯片在中外鸡品种中的广泛适用性检测及遗传多样性分析

利用鸡液相芯片对斗鸡、大骨鸡、文昌鸡(于2021年10月在江苏省扬州市中国农业科学院家禽研究所采集)和白来航(于2021年5月在北京市北京畜牧兽医研究所昌平畜禽综合试验基地采集)共计3个地方鸡品种和1个引进鸡品种进行遗传多样性分析：首先对鸡液相芯片原始测序数据进行分析，得到分型结果集合。之后，将包含所有样本的分型结果集合进行主成分分析(PCA，结果见图1)。结果显示，整体上国外引进鸡品种白来航和国内地方鸡品种可以明显区分开，就国内地方鸡品种而言，斗鸡和文昌鸡的距离最近，其次是大骨鸡。结果表明，鸡液相芯片能够很好地应用于地方鸡品种和引进鸡品种种质资源多样性和亲缘关系分析中，鉴定结果准确可靠。

(四)基于鸡液相芯片分型结果进行品种鉴定

针对鸡场待测群体(K系品种，鸡群中可能掺杂少量其他品种的鸡个体)，利用鸡液相芯片对该鸡群中共计218个样本进行检测，对鸡液相芯片原始检测数据进行分析，得到分型结果集合。之后，将包含所有样本的分型结果集合进行PCA分析(结果见图2)。结果显示，存在29个掺入的其他品种的鸡(图2中黑圈以外个体)，需要在种用中进行剔除或是调整。结果表明，经鸡液相芯片检测和分析后，可实现在辅助育种中进行准确的品种鉴定，加速育种进程。

(五)鸡液相芯片在全基因组关联分析中的应用

采集广明2号鸡品种的血液样本(于2021年8月在云南省红河哈尼族彝族自治州弥勒市新广农牧科技有限公司育种场采集)，测定血液中异嗜性粒细胞和淋巴细胞数目并计算比例(Wang,J.,Zhu,B.,Wen,J.,Li,Q.,and Zhao,G.Genome-Wide Association Studyand Pathway Analysis for Heterophil/Lymphocyte(H/L)Ratio in Chicken.Gene，2020，11(9):1005.)，同时血液样本提取DNA后利用鸡液相芯片进行基因分型，对获得的基因分型结果进行质量控制，去除最小等位基因频率小于0.05、基因型缺失率大于0.1、以及样本缺失率大于0.1的个体，最终得到227505个标记位点，其中位于参考基因组上的为208747个，其余位于鸡参考基因组缺失序列中。之后，用筛选得到的标记位点与统计的性状数据进行全基因组关联分析，采用GEMMA软件的混合线性回归模型进行分析，发现与异嗜性粒细胞/淋巴细胞(H/L)比例显著相关的位点共6个(参见表5)。这些位点位于参考基因组上的共有5个，其中两个具体位于补体编码基因C3的内含子区域，该基因与淋巴细胞的激活和分化有关。另外还有一个位于鸡参考基因组缺失序列中，该序列中包含IGHV3-23的同源基因，该基因主要在免疫组织中表达，具体用于编码淋巴细胞中的免疫球蛋白重链。结果表明，利用鸡液相芯片可以得到准确的关联分析结果。

表5.广明2号全基因组关联分析的结果

注：Chromosome代表染色体，Position代表关联位点在染色体上的位置(前5行)或代表关联位点在鸡参考基因组缺失序列seq37864上的位置(最后一行)，例如871是序列seq37864的第871个碱基。

用于检测以上所发现的关联位点(表5中)的探针序列依次如下：

探针设计位点Chr4:65539763(表3中序号为12970)，探针序列为：

5`-AACTGTAAGTCTTCAGTGTGTTTGGAATATGTTTTCTctcataaaacacattttccccCTAGGTTTAATGTCCTGATTAACTGCATCACCAGCTTTATAA-3`

探针设计位点Chr5:38301786(表3中序号为14564)，探针序列为：

5`-TTGCTCTGCAGAAGCCAGAGCTGGCAAAATGATTGCTGCCgtcagagctgctcagcactaAGTTCTCACTGTAGCTCTGTGCAATGGGCTGCATGCTCCT-3`

探针设计位点Chr15:11741014(表3中序号为20814)，探针序列为：

5`-TGTTGTAGGAGTAATCATGTTCTGACCTAGTTTGAATTCCAGGCTGTTGGAATATTTCCTCCCTTGTATTTGTGATCTGTAGCAGAGAGCTCCCAAGGAG-3`

探针设计位点Chr30:658105(表3中序号为23143)，探针序列为：

5`-GTGATCCAATGGGAATCTTGGGTGGACCAAAAGGTGATTCGGGTGTCCTTTTTACTTGGAAATCCCAGGTGGAACTTGAATGACCCAATGAGTGACTCGA-3`

探针设计位点Seq37864:1528(表4中序号为19160)，探针序列为：

5`-GGTGGGTGGGAGCAGGAAAATGTGGGATGCTGTCGATCTCACCAGCATCAGGATTACCAGCATCAGCATTTTTGGCGCAGTAGTAGATGCCCGTGTCCTC-3`

(六)鸡液相芯片的优点

(1)检测的高效性。与具有相同数目探针的固相芯片相比，本发明的鸡液相芯片可以检测出更多的SNP位点(230K)；检测试剂成本明显降低，单个标记检测成本价格优势更为明显，可以进行肉鸡、蛋鸡的大规模分型。

(2)使用和升级的灵活性。本发明的鸡液相芯片单次检测没有样本量限制，定制和使用不需要凑足96或384样品或最小样本量；后期在加入新的探针时不需对已有探针进行调整，保证升级的灵活性。

(3)应用的广泛性。本发明中用于设计鸡液相芯片的样本来源于世界范围内肉鸡、蛋鸡品种，涵盖引进鸡品种和国内地方鸡品种，品种分布广泛、代表性强；同时适合功能已知位点和未知位点的检测，有利于育种工作的开展、种质资源评价、DNA指纹鉴定以及QTL定位的相关研究。

Claims

1.一种鸡全基因组芯片，其特征在于：该芯片的探针靶点包括来源于一个或多个鸡参考基因组缺失序列的第一类位点，该类位点位于鸡参考基因组缺失序列的第一外显子的中间位置或位于鸡参考基因组缺失序列的中间位置。

2.根据权利要求1所述一种鸡全基因组芯片，其特征在于：所述芯片的探针靶点还包括来源于鸡参考基因组的一个或多个第二类位点，该类位点为SNP位点。

3.根据权利要求2所述一种鸡全基因组芯片，其特征在于：所述SNP位点在鸡参考基因组上按照41Kb的平均距离间隔分布。

4.根据权利要求2所述一种鸡全基因组芯片，其特征在于：所述SNP位点包括Chr4:65539763、Chr5:38301786、Chr15:11741014、Chr30:658105中的一个或多个。

5.根据权利要求2所述一种鸡全基因组芯片，其特征在于：所述芯片的探针靶点具体包括定位在鸡参考基因组上的共计25317个SNP位点。

6.根据权利要求1所述一种鸡全基因组芯片，其特征在于：所述第一类位点的探针序列按以下方式确定：根据探针靶点位置，在对应的鸡参考基因组缺失序列上由该位置向前、向后分别延伸50～55bp。

7.根据权利要求1所述一种鸡全基因组芯片，其特征在于：所述第一类位点包括采用如下探针序列的位点：GGTGGGTGGGAGCAGGAAAATGTGGGATGCTGTCGATCTCACCAGCATCAGGATTACCAGCATCAGCATTTTTGGCGCAGTAGTAGATGCCCGTGTCCTC。

8.根据权利要求1所述一种鸡全基因组芯片，其特征在于：所述芯片的探针靶点具体包括在鸡参考基因组中缺失的21673个位点。

9.根据权利要求1所述一种鸡全基因组芯片，其特征在于：所述芯片为基于靶向捕获测序技术的液相芯片。

10.一种如权利要求1所述的鸡全基因组芯片在鸡品种经济性状候选基因的定位、基因组选择、遗传多样性分析、品种鉴定、性别判断、亲缘关系鉴定、种质资源评价与改良、DNA指纹鉴定、全基因组关联分析或全基因组选择育种中的应用。