CN117535429B

CN117535429B - 用于从岭藏鸡品种鉴定的snp位点集合及其应用

Info

Publication number: CN117535429B
Application number: CN202410036835.6A
Authority: CN
Inventors: 陈继兰; 袁经纬; 李云雷; 孙研研; 麻慧
Original assignee: Institute of Animal Science of CAAS
Current assignee: Institute of Animal Science of CAAS
Priority date: 2024-01-10
Filing date: 2024-01-10
Publication date: 2024-04-05
Anticipated expiration: 2044-01-10
Also published as: CN117535429A

Abstract

本发明公开了用于从岭藏鸡品种鉴定的SNP位点集合及其应用。所述SNP位点在基因组具体染色体位置是以鸡7.0参考基因组作为参考基因组比对后确定，所述SNP位点集合由SNP1‑SNP176所示的176个SNP位点组成的集合。本发明还公开了采用SNP位点集合在从岭藏鸡品种鉴定中的应用，包括：（1）DNA的提取和测序；（2）SNP基因分型和质控：将靶向测序的数据与鸡7.0参考基因组进行比对生成基因型文件并进行质控；（3）采用SVM机器学习方法和PCA分析鉴定待检测品种是否为从岭藏鸡品种。采用本发明提供的SNP标记组合能用最少的SNP标记更加准确的鉴定从岭藏鸡样本，极大提高了鉴定效率。

Description

用于从岭藏鸡品种鉴定的SNP位点集合及其应用

技术领域

本发明涉及SNP位点及其应用，尤其涉及用于从岭藏鸡品种鉴定的SNP位点集合及其应用，属于鸡SNP位点及其应用领域。

背景技术

从岭藏鸡生长于海拔1200 ~ 2900米，以草尖、草籽、虫子和其他杂物为食，对外界环境适应力强。该鸡体型较长而低矮，匀称紧凑，头小爪细，羽色鲜艳光亮，以黑色为主，兼有麻、褐色。成年公鸡体重1.5~2.0千克，成年母鸡体重1~1.5千克。母鸡年产蛋70~100枚，单枚蛋重30~35克。从岭藏鸡肉味甘，皮薄，肌肉紧实，肌纤维较细，脂肪含量低，清香味美。伴随着舟曲从岭藏鸡产业的发展，市场上出现一些套牌鸡种，以次充好，严重影响了从岭藏鸡保护利用单位的利益以及从岭藏鸡市场的健康发展。

单核苷酸多态性（SNP）是指个体或群体间在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性，是基因组可遗传变异中最常见的一种分子标记。二倍体生物中，SNP分子标记具有数量多、密度高、类型简单的特征。基于这些特征，通过SNP的差异鉴别种质资源的来源，成为当前遗传资源鉴定最有效的工具之一。获得基因组SNP的方法主要包括全基因组测序等高通量方法和Sanger测序等传统“金标准”方法。其中，全基因组重测序获取的SNP标记密度高、速度快。但应用于品种鉴定存在两个问题：一是需要进行大量的筛选工作才能获得真实有效的适用于种质资源鉴定的SNP标记；二是怎样用最少的SNP标记检测尽多的品种样本，因此，需要筛选出最简单及最准确的SNP标记组合。

发明内容

本发明的目的之一是提供用于从岭藏鸡品种鉴定的SNP位点集合；

本发明的目的之二是将所述的SNP位点集合应用于从岭藏鸡品种的鉴定；

为实现上述目的，本发明所采取的主要技术方案包括：

本发明的一方面是提供了用于从岭藏鸡品种鉴定的SNP位点集合，所述SNP位点在基因组具体染色体位置是以鸡7.0参考基因组（GRCg7b）作为参考基因组比对后确定，所述SNP位点集合由以下SNP1- SNP176所示的176个SNP位点组成的集合：

SNP1： 1号染色体，物理位置：1304190，突变碱基T，参考碱基C；

SNP2： 1号染色体，物理位置：4895824，突变碱基C，参考碱基T；

SNP3： 1号染色体，物理位置：14138529，突变碱基G，参考碱基A；

SNP4： 1号染色体，物理位置：27698625，突变碱基T，参考碱基C；

SNP5： 1号染色体，物理位置：48968559，突变碱基G，参考碱基C；

SNP6： 1号染色体，物理位置：52273892，突变碱基G，参考碱基A；

SNP7： 1号染色体，物理位置：52799375，突变碱基A，参考碱基G；

SNP8： 1号染色体，物理位置：52960797，突变碱基A，参考碱基G；

SNP9： 1号染色体，物理位置：52989389，突变碱基T，参考碱基C；

SNP10：1号染色体，物理位置：53080995，突变碱基G，参考碱基A；

SNP11：1号染色体，物理位置：53142996，突变碱基A，参考碱基T；

SNP12：1号染色体，物理位置：54959234，突变碱基G，参考碱基T；

SNP13：1号染色体，物理位置：55115690，突变碱基T，参考碱基C；

SNP14：1号染色体，物理位置：56602994，突变碱基T，参考碱基C；

SNP15：1号染色体，物理位置：80298900，突变碱基T，参考碱基C；

SNP16：1号染色体，物理位置：84127068，突变碱基T，参考碱基C；

SNP17：1号染色体，物理位置：84153175，突变碱基T，参考碱基A；

SNP18：1号染色体，物理位置：106396822，突变碱基T，参考碱基C；

SNP19：1号染色体，物理位置：123952880，突变碱基A，参考碱基G；

SNP20：1号染色体，物理位置：128709327，突变碱基A，参考碱基T；

SNP21：1号染色体，物理位置：128985622，突变碱基T，参考碱基C；

SNP22：1号染色体，物理位置：131096621，突变碱基A，参考碱基C；

SNP23：1号染色体，物理位置：131714962，突变碱基C，参考碱基T；

SNP24：1号染色体，物理位置：132207649，突变碱基T，参考碱基C；

SNP25：1号染色体，物理位置：132271510，突变碱基G，参考碱基A；

SNP26：1号染色体，物理位置：133571245，突变碱基G，参考碱基A；

SNP27：1号染色体，物理位置：162866129，突变碱基T，参考碱基C；

SNP28：1号染色体，物理位置：163899659，突变碱基T，参考碱基C；

SNP29：1号染色体，物理位置：163971419，突变碱基T，参考碱基A；

SNP30：1号染色体，物理位置：164289720，突变碱基A，参考碱基G；

SNP31：1号染色体，物理位置：164432108，突变碱基A，参考碱基G；

SNP32：1号染色体，物理位置：164511858，突变碱基C，参考碱基G；

SNP33：1号染色体，物理位置：173373136，突变碱基G，参考碱基A；

SNP34：1号染色体，物理位置：185628745，突变碱基A，参考碱基G；

SNP35：1号染色体，物理位置：188274783，突变碱基A，参考碱基G；

SNP36：2号染色体，物理位置：543649，突变碱基G，参考碱基A；

SNP37：2号染色体，物理位置：9799045，突变碱基A，参考碱基G；

SNP38：2号染色体，物理位置：17810865，突变碱基A，参考碱基C；

SNP39：2号染色体，物理位置：33921333，突变碱基A，参考碱基G；

SNP40：2号染色体，物理位置：33927252，突变碱基G，参考碱基A；

SNP41：2号染色体，物理位置：44211953，突变碱基T，参考碱基G；

SNP42：2号染色体，物理位置：46981651，突变碱基A，参考碱基G；

SNP43：2号染色体，物理位置：50331923，突变碱基G，参考碱基T；

SNP44：2号染色体，物理位置：60251855，突变碱基C，参考碱基T；

SNP45：2号染色体，物理位置：99918420，突变碱基C，参考碱基T；

SNP46：2号染色体，物理位置：100921928，突变碱基A，参考碱基G；

SNP47：2号染色体，物理位置：101718595，突变碱基A，参考碱基G；

SNP48：2号染色体，物理位置：102013782，突变碱基A，参考碱基C；

SNP49：2号染色体，物理位置：107290446，突变碱基C，参考碱基T；

SNP50：2号染色体，物理位置：108234563，突变碱基T，参考碱基A；

SNP51：2号染色体，物理位置：108263283，突变碱基C，参考碱基T；

SNP52：2号染色体，物理位置：109933824，突变碱基A，参考碱基G；

SNP53：2号染色体，物理位置：128561700，突变碱基T，参考碱基A；

SNP54：2号染色体，物理位置：133772775，突变碱基A，参考碱基G；

SNP55：2号染色体，物理位置：134433380，突变碱基C，参考碱基T；

SNP56：2号染色体，物理位置：138703974，突变碱基A，参考碱基G；

SNP57：2号染色体，物理位置：139018851，突变碱基G，参考碱基C；

SNP58：2号染色体，物理位置：139031145，突变碱基G，参考碱基T；

SNP59：2号染色体，物理位置：140432751，突变碱基A，参考碱基G；

SNP60：2号染色体，物理位置：142774719，突变碱基C，参考碱基T；

SNP61：2号染色体，物理位置：145355222，突变碱基A，参考碱基T；

SNP62：3号染色体，物理位置：7799471，突变碱基G，参考碱基T；

SNP63：3号染色体，物理位置：18613089，突变碱基T，参考碱基C；

SNP64：3号染色体，物理位置：28256464，突变碱基C，参考碱基T；

SNP65：3号染色体，物理位置：31283220，突变碱基C，参考碱基T；

SNP66：3号染色体，物理位置：31416904，突变碱基G，参考碱基A；

SNP67：3号染色体，物理位置：32270712，突变碱基G，参考碱基A；

SNP68：3号染色体，物理位置：33558099，突变碱基G，参考碱基A；

SNP69：3号染色体，物理位置：42070431，突变碱基T，参考碱基C；

SNP70：3号染色体，物理位置：42105259，突变碱基G，参考碱基C；

SNP71：3号染色体，物理位置：44746823，突变碱基G，参考碱基A；

SNP72：3号染色体，物理位置：55117050，突变碱基T，参考碱基C；

SNP73：3号染色体，物理位置：59633428，突变碱基T，参考碱基A；

SNP74：3号染色体，物理位置：60002999，突变碱基A，参考碱基G；

SNP75：3号染色体，物理位置：61846996，突变碱基A，参考碱基G；

SNP76：3号染色体，物理位置：62266204，突变碱基C，参考碱基T；

SNP77：3号染色体，物理位置：78229161，突变碱基C，参考碱基T；

SNP78：3号染色体，物理位置：86593916，突变碱基C，参考碱基G；

SNP79：3号染色体，物理位置：94586031，突变碱基T，参考碱基C；

SNP80：3号染色体，物理位置：95657310，突变碱基T，参考碱基C；

SNP81：3号染色体，物理位置：101955206，突变碱基A，参考碱基G；

SNP82：3号染色体，物理位置：107411520，突变碱基C，参考碱基T；

SNP83：4号染色体，物理位置：317320，突变碱基T，参考碱基C；

SNP84：4号染色体，物理位置：1043211，突变碱基A，参考碱基G；

SNP85：4号染色体，物理位置：3130336，突变碱基A，参考碱基G；

SNP86：4号染色体，物理位置：3611959，突变碱基C，参考碱基T；

SNP87：4号染色体，物理位置：16376720，突变碱基C，参考碱基A；

SNP88：4号染色体，物理位置：16487871，突变碱基T，参考碱基C；

SNP89：4号染色体，物理位置：16496005，突变碱基A，参考碱基G；

SNP90：4号染色体，物理位置：20732993，突变碱基C，参考碱基T；

SNP91：4号染色体，物理位置：21427365，突变碱基T，参考碱基A；

SNP92：4号染色体，物理位置：21456782，突变碱基G，参考碱基A；

SNP93：4号染色体，物理位置：21745251，突变碱基T，参考碱基C；

SNP94：4号染色体，物理位置：21772496，突变碱基T，参考碱基G；

SNP95：4号染色体，物理位置：22388861，突变碱基C，参考碱基T；

SNP96：4号染色体，物理位置：22456612，突变碱基A，参考碱基C；

SNP97：4号染色体，物理位置：27144054，突变碱基A，参考碱基G；

SNP98：4号染色体，物理位置：36803942，突变碱基A，参考碱基G；

SNP99：4号染色体，物理位置：43167126，突变碱基A，参考碱基G；

SNP100：4号染色体, 物理位置：43181077，突变碱基G，参考碱基A；

SNP101：4号染色体, 物理位置：43385962，突变碱基G ，参考碱基T；

SNP102：4号染色体, 物理位置：43441807，突变碱基C ，参考碱基T；

SNP103：4号染色体，物理位置：51164972，突变碱基A ，参考碱基C；

SNP104：4号染色体，物理位置：51959551，突变碱基G ，参考碱基C；

SNP105：4号染色体，物理位置：56294104，突变碱基A ，参考碱基G；

SNP106：4号染色体，物理位置：56916055，突变碱基C ，参考碱基A；

SNP107：4号染色体，物理位置：58383434，突变碱基T ，参考碱基A；

SNP108：4号染色体，物理位置：59789144，突变碱基T ，参考碱基A；

SNP109：4号染色体，物理位置：64991390，突变碱基C ，参考碱基G；

SNP110：4号染色体，物理位置：69972587，突变碱基C ，参考碱基T；

SNP111：4号染色体，物理位置：72453303，突变碱基G ，参考碱基T；

SNP112：4号染色体，物理位置：72652616，突变碱基T ，参考碱基C；

SNP113：4号染色体，物理位置：72662785，突变碱基T ，参考碱基C；

SNP114：4号染色体，物理位置：72975869，突变碱基G ，参考碱基C；

SNP115：4号染色体，物理位置：76430009，突变碱基A ，参考碱基G；

SNP116：4号染色体，物理位置：82834950，突变碱基C ，参考碱基G；

SNP117：4号染色体，物理位置：84688415，突变碱基G ，参考碱基A；

SNP118：5号染色体，物理位置：10687265，突变碱基T ，参考碱基C；

SNP119：5号染色体，物理位置：33348516，突变碱基A ，参考碱基G；

SNP120：5号染色体，物理位置：35174953，突变碱基A ，参考碱基C；

SNP121：5号染色体，物理位置：38084753，突变碱基C ，参考碱基G；

SNP122：5号染色体，物理位置：42593760，突变碱基C ，参考碱基A；

SNP123：5号染色体，物理位置：46937653，突变碱基A ，参考碱基G；

SNP124：5号染色体，物理位置：52188924，突变碱基G ，参考碱基A；

SNP125：6号染色体，物理位置：9479056，突变碱基T ，参考碱基A；

SNP126：6号染色体，物理位置：11620614，突变碱基C ，参考碱基T；

SNP127：7号染色体，物理位置：19519663，突变碱基G ，参考碱基A；

SNP128：7号染色体，物理位置：20270798，突变碱基G ，参考碱基A；

SNP129：7号染色体，物理位置：20771276，突变碱基G ，参考碱基A；

SNP130：7号染色体，物理位置：22851059，突变碱基G ，参考碱基A；

SNP131：7号染色体，物理位置：25419806，突变碱基C ，参考碱基T；

SNP132：7号染色体，物理位置：25878664，突变碱基G ，参考碱基T；

SNP133：7号染色体，物理位置：28591217，突变碱基T ，参考碱基C；

SNP134：7号染色体，物理位置：28776906，突变碱基G ，参考碱基A；

SNP135：8号染色体，物理位置： 5955322，突变碱基T，参考碱基C；

SNP136：8号染色体，物理位置：24534679，突变碱基A ，参考碱基G；

SNP137：9号染色体，物理位置：5896465，突变碱基G ，参考碱基C；

SNP138：9号染色体，物理位置：7092093，突变碱基G ，参考碱基A；

SNP139：9号染色体，物理位置：8686555，突变碱基T ，参考碱基C；

SNP140：9号染色体，物理位置：12334697，突变碱基G ，参考碱基A；

SNP141：9号染色体，物理位置：22007721，突变碱基T ，参考碱基C；

SNP142：10号染色体，物理位置：12091618，突变碱基T ，参考碱基A；

SNP143：11号染色体，物理位置：1208300，突变碱基A，参考碱基G；

SNP144：11号染色体，物理位置：9900985，突变碱基A ，参考碱基G；

SNP145：12号染色体，物理位置：1920699，突变碱基A ，参考碱基G；

SNP146：12号染色体，物理位置：15126105，突变碱基G ，参考碱基A；

SNP147：12号染色体，物理位置：19647339，突变碱基T ，参考碱基G；

SNP148：12号染色体，物理位置：19701284，突变碱基T ，参考碱基C；

SNP149：12号染色体，物理位置：20081316，突变碱基T ，参考碱基C；

SNP150：13号染色体，物理位置：2230564，突变碱基A ，参考碱基G；

SNP151：13号染色体，物理位置：7057059，突变碱基G ，参考碱基A；

SNP152：13号染色体，物理位置：8895408，突变碱基G ，参考碱基T；

SNP153：13号染色体，物理位置：14510490，突变碱基G，参考碱基A；

SNP154：13号染色体，物理位置：14551347，突变碱基A，参考碱基G；

SNP155：13号染色体，物理位置：15150826，突变碱基G，参考碱基A；

SNP156：14号染色体，物理位置：2658346 ，突变碱基T，参考碱基C；

SNP157：14号染色体，物理位置：5490504，突变碱基G，参考碱基C；

SNP158：14号染色体，物理位置：9344409，突变碱基C，参考碱基T；

SNP159：14号染色体，物理位置：10629231，突变碱基T，参考碱基G；

SNP160：15号染色体，物理位置：1773731 ，突变碱基A ，参考碱基G；

SNP161：15号染色体，物理位置：5019154 ，突变碱基A ，参考碱基G；

SNP162：17号染色体，物理位置：1660782，突变碱基A，参考碱基G；

SNP163：17号染色体，物理位置：1825614，突变碱基C，参考碱基T；

SNP164：17号染色体，物理位置：3634427 ，突变碱基A，参考碱基T；

SNP165：18号染色体，物理位置：1438519，突变碱基T，参考碱基C；

SNP166：19号染色体，物理位置：3911958，突变碱基A，参考碱基G；

SNP167：19号染色体，物理位置：7316413，突变碱基T，参考碱基C；

SNP168：23号染色体，物理位置：3733687，突变碱基T，参考碱基A；

SNP169：24号染色体，物理位置：561242，突变碱基T，参考碱基A；

SNP170：24号染色体，物理位置：600846，突变碱基A，参考碱基G；

SNP171：24号染色体，物理位置：1059118，突变碱基T，参考碱基G；

SNP172：24号染色体，物理位置：3237786，突变碱基A，参考碱基G；

SNP173：26号染色体，物理位置：946331，突变碱基C，参考碱基G；

SNP174：26号染色体，物理位置：2649464 ，突变碱基T，参考碱基G；

SNP175：28号染色体，物理位置：1828534 ，突变碱基T，参考碱基A；

SNP176：34号染色体，物理位置：2223365 ，突变碱基A，参考碱基G。

本发明的另一方面是将所述的由SNP1- SNP176所示的176个SNP位点组成的SNP位点集合应用于从岭藏鸡品种的鉴定。

本发明的一种优选的具体实施方案，本发明提供了一种应用所述的由SNP1-SNP176所示的176个SNP位点组成的SNP位点集合对于从岭藏鸡品种的鉴定方法，包括：

（1）DNA的提取和测序：提取待检测鸡样本的基因组DNA，进行176个SNP位点的靶向测序；

（2）SNP基因分型和质控：将靶向测序的数据与鸡7.0参考基因组（GRCg7b）进行比对生成基因型文件，再通过plink1.9软件对基因型文件进行质控；

（3）采用SVM机器学习方法和PCA分析鉴定待检测品种是否为从岭藏鸡品种。

本发明的一种优选的具体实施方案，步骤（1）中所述的进行176个SNP位点的靶向测序的方法包括：全基因组重测序、TaqMan探针法、酶切扩增多态性序列、Kompetitive特异等位基因PCR或飞行时间质谱等方法。

本发明的一种优选的具体实施方案，步骤（2）中通过plink1.9软件对基因型文件进行质控的方法包括：1）应用--geno 0.05删除SNP缺失率过高的SNP位点；2）应用 --maf0.01删除最小等位基因频率过低的SNP位点；3）应用 --hwe 0.00001删除不符合HardyWeinberg平衡的SNP。

本发明的一种优选的具体实施方案，步骤（3）中所述的采用SVM机器学习方法鉴定待检测品种是否为从岭藏鸡品种的方法包括：使用plink软件将提取待测样品的176个特征SNP集数据和参考样品的特征SNP数据合并；以参考样品数据为训练集，待测样品数据为测试集，进行SVM机器学习方法鉴定。

本发明的一种优选的具体实施方案，步骤（3）中所述的采用PCA分析鉴定对待检测品种是否为从岭藏鸡的方法包括：使用plink软件分别计算全部数据集和待测样品数据集的主成分，进行PCA分析；其中，基于特征位点集合的聚类分析结果，设置聚类的置信区间为95%，实际应用时可放宽至85%。

采用本发明提供的SNP标记组合能够准确的鉴定待检测鸡样品是否从岭藏鸡品种，避免了原始筛选的大量工作，能用最少的SNP标记更加准确的鉴定从岭藏鸡样本，极大提高了鉴定效率。

附图说明

图 1 为150个体（参考样品）的系统发育树。

图 2 为150个体（参考样品）的聚类分析。

图 3为三种机器学习方法在不同数量tagSNP情景中的预测准确性结果。

图 4为176个SNP位点集合对鸡9个品种（亚群）进行聚类分析的结果。

图 5为设置聚类的置信区间为95%时，基于特征位点集合的聚类分析结果（从岭藏鸡与西藏藏鸡和白来航鸡完全分开）。

图 6 为设置聚类的置信区间为85%时，基于特征位点集合的聚类分析结果（从岭藏鸡与西藏藏鸡和白来航鸡完全分开）。

具体实施方式

以下结合具体实施例来进一步描述本发明，本发明的优点和特点将会随着描述而更为清楚。但这些实施例仅是范例性的，并不对本发明的范围构成任何限制。本领域技术人员应该理解的是，在不偏离本发明的精神和范围下可以对本发明的细节和形式进行修改或替换，但这些修改和替换均落入本发明的保护范围内。

本发明中以下实施例或试验例中用于SNP标记筛选的163份鸡种质材料均由原产地采集，包括从岭藏鸡（n=15）、日喀则藏鸡（n=25）、山南藏鸡（n=20）、拉萨藏鸡（n=15）、林芝藏鸡（n=8）、雪域白鸡（n=20）、海东鸡（n=20）等5个高原地区本土鸡品种（亚群）和白来航鸡（n=15）、洛岛红鸡（n=25）等2个引进品种。

以下实施例中未特别说明的实验试剂均为本领域常规试剂，可按照本领域常规方法配制而得或商购获得；未特别说明的实验条件和软件，均为本领域常规实验条件和开源软件。

实施例1 高质量鸡全基因组SNP数据获得

DNA的提取和测序

通过静脉采血获得的163份鸡全血，采用天根试剂盒提取基因组DNA。质控合格后，采用华大智造DNBSEQ-T7平台对基因组DNA进行测序，测序深度为10×，得到重测序数据。

基因分型

测序数据经过fastp软件质控后，应用BWA软件比对到鸡7.0参考基因组（GRCg7b），根据GATK最优操作流程进行SNP分型，生成了163个DNA样本的全基因组数据集，进一步通过plink1.9软件将全基因组数据集转换成ped和map文件。

质量控制

通过plink1.9软件对基因型文件进行质控，包括1）应用--geno 0.05删除SNP缺失率过高的SNP位点；2）应用 --maf 0.01删除最小等位基因频率过低的SNP位点；3）应用 --hwe 0.00001删除不符合Hardy Weinberg平衡的SNP；4）删除Z、W染色体位点。通过以上操作，得到9669030个SNP和163个样本。

基因型填充和连锁不平衡（LD）删减

1）使用plink1.9软件将基因型文件（.bim、.bed和.fam）转换成分染色体的vcf格式文件；2）使用beagle5.4软件对缺失基因型进行填充；3）应用 plink1.9软件中的 --indep pairwise 50 5 0.2，对填充后基因型文件进行连锁不平衡（LD）的点进行删减。该函数在50个SNPs窗口，以5个SNPs的速度移动计算一对SNP间的LD值，当LD程度大于0.2时，排除一对SNPs中的一个。在高水平LD中去除SNP已被证明可以抵消确定偏差的影响，因此在质控程序中通过删减LD可以大大降低确定偏差；最终筛选得到5850521个SNP和163个样本，作为参考样品，用于后续实验。

实施例2 鸡品种特征SNP位点的获得

系统发育

利用python脚本vcf2phylip.py将基因型的vcf文件转换成.phy文件，然后通过MEGA软件构建鸡全基因组的Neighbor Joining发育树，分析不同品种（亚群）间的系统发育关系。

聚类分析

利用plink软件中的 --pca计算所有品种（亚群）SNP数据的主成分，并通过R语言中ggplot2包进行聚类的可视化，置信区间设定为95%，分析不同品种（亚群）间个体的聚类关系。

通过系统发育和聚类分析删除离群个体，最终得到150个体的系统发育和聚类关系（分别为图1和图2所示），7个鸡品种（亚群）完全聚集各自分支上且主成分各自分开分布，表明不同品种或亚群之间具有独立的繁育历史。

选择信号分析

基于系统发育树和聚类分析结果，采用VCFtools软件计算每个品种（亚群）与其他品种（亚群）之间的固定系数（Fst）。根据Fst值降序排列，分别提取每个品种（亚群）前2、4、6、8、10、20、40、50、100、200和500个SNP作为品种信息SNP。然后，使用plink1.9软件对不同品种的tagSNP按照MAF>0.25进行品种内的质控，最终得到每个品种的特征SNP (tagSNP)（表1所示），然后利用shell命令将不同品种（亚群）的tagSNP合并，使用plink1.9软件中--recodeA将SNP基因型转换成0、1、2格式的基因型文件，用于后续分析。

表1 不同品种（亚群）间MAF>0.25 tagSNP数量

实施例3机器学习方法确定从岭藏鸡品种鉴定SNP位点

采用R语言中支持向量机（SVM）、随机森林法(RF)和邻近算法 (KNN)等3种机器学习方法筛选品种鉴定位点：

1）SVM是通过R 包e1071 (https://cran.r-project.org/web/packages/e1071/)中的svm函数实现，代码及参数如下：

library('e1071')

svmfit = svm(y = y_train, x = x_train, type = "C-classification",kernel = "linear",scale = FALSE)

pred = predict(svmfit,x_test)

tab = table(pred,y_test)

sum(diag(tab))/sum(tab) #计算准确率

2）RF是通过R包randomForest (https://cran.r-project.org/web/packages/randomForest/)中的randomForest函数实现，代码及参数如下：

library('randomForest')

rf = randomForest(y = y_train, x = x_train,

mtry = floor(sqrt(ncol(mat1))),

ntree = 2001, importance = TRUE)

res = data.frame(y_test, predict(rf, x_test, type = "response"))

sum(res[, 1] == res[, 2])/nrow(res) #计算准确率

3）KNN是通过R包class (https://cran.rproject.org/web/packages/class/)中的 knn函数实现，代码及参数如下：

library('class')

library('caTools')

pred = knn(train = train_scaled, test = test_scaled, cl = train$breed, k=10)

actual = test$breed

cm = table(actual,pred)

accuracy = sum(diag(cm))/length(actual) #计算准确率

三种方法均重复50次，然后计算平均预测准确性和标准差。准确性由以下公式计算：，其中和分别表示正确和错误判定为相应品种的个体数。

三种机器学习方法在不同数量tagSNP情景中的预测结果如图3所示，预测品种分类的准确性达到95%以上，且SVM方法更加准确和稳健。当每个品种tagSNP数量设置为20时，品种分类的平均预测准确性即可达到99%以上。根据3种机器学习方法结果和SNP标记数量小而精的原则，选择tagSNP数量20中的176个SNP位点集合（表2）作为“从岭藏鸡”种质资源的鉴定位点并基于这些位点信息对9个品种（亚群）进行聚类分析,聚类分析结果如图4所示，根据聚类分析结果从岭藏鸡可以与其他藏鸡品种以及外国品种完全分开。

表2作为从岭藏鸡种质资源的鉴定位点的176个SNP位点集合

试验例1采用176个SNP位点集合对鸡新样本的品种鉴定试验

从甘肃舟曲获取了10个从岭藏鸡样本，从北京畜牧兽医研究所鸡遗传资源基地10个白来航鸡个体以及从西藏地区20个未知亚群的藏鸡个体采用实施例3筛选得到的176个SNP位点集合对不同的鸡品种进行鉴定分析。

鉴定步骤如下：

DNA的提取和测序

采用天根试剂盒提取40个鸡样本的基因组DNA。采用全基因组重测序（或TaqMan探针法或酶切扩增多态性序列或Kompetitive特异等位基因PCR或飞行时间质谱等方法）进行176个位点的靶向测序。

SNP基因分型和质控

测序数据比对到鸡7.0参考基因组（GRCg7b）生成基因型文件（操作步骤同实施例1），再通过plink1.9软件对基因型文件进行质控，包括1）应用--geno 0.05删除SNP缺失率过高的SNP位点；2）应用 --maf 0.01删除最小等位基因频率过低的SNP位点；3）应用 --hwe0.00001删除不符合HardyWeinberg平衡的SNP。

机器学习和主成分分析

a. 使用plink软件将提取待测样品的176个特征SNP集数据和参考样品（150个体的数据集）的特征SNP数据合并。以参考样品数据为训练集，待测样品数据为测试集，进行SVM机器学习方法预测，具体操作方法同实施例3。

b. 使用plink软件分别计算全部数据集和待测样品数据集的主成分，进行PCA分析，具体操作方法同实施例2。

从岭藏鸡鉴定标准：SVM预测分配准确率达到100%，然后再结合PCA分析可视化，以确定预测样本是否为“从岭藏鸡”。

a. 根据SVM方法鉴定结果（表3）从岭藏鸡和白来航鸡的预测准确性为100%，西藏藏鸡中18个个体被分配到山南藏鸡亚群，2个个体被分配到拉萨藏鸡亚群。

表3支持向量机（SVM）方法预测品种分类的统计结果

b. 基于特征位点集合的聚类分析结果，设置聚类的置信区间为95%，从岭藏鸡与西藏藏鸡和白来航鸡完全分开（图5），证明了特征SNP位点集合的有效性。当比较品种（亚群）较多时，可适当放宽置信区间为85%，以达到更好鉴定从岭藏鸡的目的（图6）。

Claims

1.SNP位点集合在从岭藏鸡品种鉴定中的应用，所述SNP位点在基因组具体染色体位置是以鸡7.0参考基因组GRCg7b作为参考基因组比对后确定，所述SNP位点集合由以下SNP1-SNP176所示的176个SNP位点组成的集合：

SNP83：4号染色体，物理位置：317320 ，突变碱基T，参考碱基C；

SNP153：13号染色体，物理位置：14510490，突变碱基G ，参考碱基A；

SNP154：13号染色体，物理位置：14551347，突变碱基A ，参考碱基G；

SNP155：13号染色体，物理位置：15150826，突变碱基G ，参考碱基A；

SNP156：14号染色体，物理位置：2658346 ，突变碱基T ，参考碱基C；

SNP157：14号染色体，物理位置：5490504，突变碱基G ，参考碱基C；

SNP158：14号染色体，物理位置：9344409，突变碱基C ，参考碱基T；

SNP159：14号染色体，物理位置：10629231，突变碱基T ，参考碱基G；

SNP164：17号染色体，物理位置：3634427，突变碱基A，参考碱基T；

SNP168：23号染色体，物理位置：3733687 ，突变碱基T，参考碱基A；

2.根据权利要求1所述的应用，其特征在于，包括：

（2）SNP基因分型和质控：将靶向测序的数据与鸡7.0参考基因组GRCg7b进行比对生成基因型文件，再通过plink1.9软件对基因型文件进行质控；

3.根据权利要求2所述的应用，其特征在于，步骤（1）中所述的进行176个SNP位点的靶向测序的方法包括：全基因组重测序、TaqMan探针法、酶切扩增多态性序列、Kompetitive特异等位基因PCR或飞行时间质谱。

4.根据权利要求2所述的应用，其特征在于，步骤（2）中通过plink1.9软件对基因型文件进行质控的方法包括：1）应用--geno 0.05删除SNP缺失率过高的SNP位点；2）应用 --maf0.01删除最小等位基因频率过低的SNP位点；3）应用 --hwe 0.00001删除不符合HardyWeinberg平衡的SNP。

5.根据权利要求2所述的应用，其特征在于，步骤（3）中所述的采用SVM机器学习方法鉴定待检测品种是否为从岭藏鸡品种的方法包括：使用plink软件将提取待测样品的176个特征SNP集数据和参考样品的特征SNP数据合并；以参考样品数据为训练集，待测样品数据为测试集，进行SVM机器学习方法鉴定。

6.根据权利要求2所述的应用，其特征在于，步骤（3）中所述的采用PCA分析鉴定对待检测品种是否为从岭藏鸡的方法包括：使用plink软件分别计算全部数据集和待测样品数据集的主成分进行PCA分析。

7.根据权利要求6所述的应用，其特征在于，基于特征位点集合的聚类分析结果，设置聚类的置信度为95%。