CN117037905A - 基于祖先信息标记的鸡品种鉴定方法、系统、设备及介质 - Google Patents

基于祖先信息标记的鸡品种鉴定方法、系统、设备及介质 Download PDF

Info

Publication number
CN117037905A
CN117037905A CN202310947536.3A CN202310947536A CN117037905A CN 117037905 A CN117037905 A CN 117037905A CN 202310947536 A CN202310947536 A CN 202310947536A CN 117037905 A CN117037905 A CN 117037905A
Authority
CN
China
Prior art keywords
snp
variety
chicken
genome
variety identification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310947536.3A
Other languages
English (en)
Inventor
杨宁
孙从佼
张博轩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Agricultural University
Original Assignee
China Agricultural University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Agricultural University filed Critical China Agricultural University
Priority to CN202310947536.3A priority Critical patent/CN117037905A/zh
Publication of CN117037905A publication Critical patent/CN117037905A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/50Mutagenesis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/10Signal processing, e.g. from mass spectrometry [MS] or from PCR
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P60/00Technologies relating to agriculture, livestock or agroalimentary industries
    • Y02P60/80Food processing, e.g. use of renewable energies or variable speed drives in handling, conveying or stacking
    • Y02P60/87Re-use of by-products of food processing for fodder production

Landscapes

  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Molecular Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Genetics & Genomics (AREA)
  • Analytical Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明公开一种基于祖先信息标记的鸡品种鉴定方法、系统、设备及介质,涉及生物学领域,该方法包括:确定若干个用于品种鉴定的目标品种,并获取目标品种的样本鸡;对样本鸡进行基因提取和基因分型,得到基因组SNP;对基因组SNP进行群体遗传分析和特征SNP检测,得到品种特征性SNP位点集;采用机器学习算法,根据品种特征性SNP位点集确定鸡品种鉴定模型;机器学习算法包括:Xgboost算法和Randomforest算法;获取待测鸡的SNP数据,并根据鸡品种鉴定模型确定待测鸡的品种。本发明能够实现对待测鸡品种的高效、准确区分。

Description

基于祖先信息标记的鸡品种鉴定方法、系统、设备及介质
技术领域
本发明涉及生物学领域,特别是涉及一种基于祖先信息标记的鸡品种鉴定方法、系统、设备及介质。
背景技术
中国是世界上鸡遗传资源最丰富的国家之一。很多地方品种在数年的选择下积累了相当丰富的遗传变异和多态性,这些拥有丰富的遗传变异的地方种质资源无疑可以作为优秀的育种素材,促进中国种业快速发展。但由于国外商业品种的引进与地方品种杂交的不规范性,使得中国许多地方鸡受到了不同程度的基因渗入,这种“基因污染”可能会导致当地地方品种的遗传多样性和环境适应能力下降。因此,对地方种质资源的保护已经迫在眉睫。传统的品种鉴定多是利用形态学、细胞学和血液生化等表型来进行品种区分。但传统的品种鉴定方法存在着形态学标记数目少、多态性差等特征,对血缘接近、外型相似的品种不能准确区分。
发明内容
本发明的目的是提供一种基于祖先信息标记的鸡品种鉴定方法、系统、设备及介质,以实现对待测鸡品种的高效、准确区分。
为实现上述目的,本发明提供了如下方案:
一种基于祖先信息标记的鸡品种鉴定方法,包括:
确定若干个用于品种鉴定的目标品种,并获取所述目标品种的样本鸡;
对所述样本鸡进行基因提取和基因分型,得到基因组SNP;
对所述基因组SNP进行群体遗传分析和特征SNP检测,得到品种特征性SNP位点集;
采用机器学习算法,根据所述品种特征性SNP位点集确定鸡品种鉴定模型;所述机器学习算法包括:Xgboost算法和Randomforest算法;
获取待测鸡的SNP数据,并根据所述鸡品种鉴定模型确定待测鸡的品种。
可选地,对所述样本鸡进行基因提取和基因分型,得到基因组SNP,具体包括:
对所述样本鸡进行基因提取,得到基因组DNA;
对所述基因组DNA进行基因测序,得到测序结果;
对所述测序结果进行变异检测和基因分型,得到基因组SNP。
可选地,对所述基因组SNP进行群体遗传分析和特征SNP检测,得到品种特征性SNP位点集,具体包括:
对所述基因组SNP进行群体遗传分析,得到群体遗传关系;
根据所述群体遗传关系对所述目标品种进行分组,得到分组结果;
根据所述分组结果对所述基因组SNP进行特征SNP检测,得到品种特征性SNP位点集。
可选地,对所述基因组SNP进行群体遗传分析,得到群体遗传关系,具体包括:
对所述基因组SNP进行主成分分析,得到主成分分析结果;
对所述基因组SNP进行系统发育树分析,得到系统发育树分析结果;
对所述基因组SNP进行STRUCTURE分析,得到STRUCTURE结果;
根据所述主成分分析结果、所述系统发育树分析结果和所述STRUCTURE结果确定群体遗传关系。
可选地,根据所述分组结果对所述基因组SNP进行特征SNP检测,得到品种特征性SNP位点集,具体包括:
基于祖先信息标记,根据所述分组结果和所述基因组SNP计算In统计量;所述In统计量包括:各分组两两之间的全基因组SNP的infocalc值和各分组内两两品种之间的全基因组SNP的infocalc值;所述infocalc值表征SNP在两份组或两品种之间的差异性的大小;
根据所述In统计量的大小对所述基因组SNP中的各SNP位点进行排序,并将每次分组间和品种间计算得到的前若干个SNP位点组成并集,得到品种特征性SNP位点集。
可选地,采用机器学习算法,根据所述品种特征性SNP位点集确定鸡品种鉴定模型,具体包括:
采用Xgboost算法和Randomforest算法对所述品种特征性SNP位点集进行特征重要性排序,得到特征重要性排序结果;
根据所述特征重要性排序结果确定若干个SNP梯度数据集;所述SNP梯度数据集中包括若干个SNP位点,且各所述SNP梯度数据集中的SNP位点数量逐渐增多;
采用Xgboost算法依次对所述SNP梯度数据集进行拟合,得到鸡品种鉴定模型。
可选地,采用Xgboost算法依次对所述SNP梯度数据集进行拟合,得到鸡品种鉴定模型,具体包括:
采用Xgboost算法依次对所述SNP梯度数据集进行拟合,得到拟合模型;所述拟合模型的最佳参数采用Grid-search方法确定;
采用五折交叉验证方法确定所述拟合模型的准确率;
将所述准确率大于设定值的所述拟合模型确定为鸡品种鉴定模型。
一种基于祖先信息标记的鸡品种鉴定系统,包括:
目标品种确定模块,用于确定若干个用于品种鉴定的目标品种,并获取所述目标品种的样本鸡;
基因组SNP确定模块,用于对所述样本鸡进行基因提取和基因分型,得到基因组SNP;
品种特征性SNP位点集确定模块,用于对所述基因组SNP进行群体遗传分析和特征SNP检测,得到品种特征性SNP位点集;
鸡品种鉴定模型确定模块,用于采用机器学习算法,根据所述品种特征性SNP位点集确定鸡品种鉴定模型;所述机器学习算法包括:Xgboost算法和Randomforest算法;
待测鸡品种确定模块,用于获取待测鸡的SNP数据,并根据所述鸡品种鉴定模型确定待测鸡的品种。
一种电子设备,包括存储器及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述电子设备执行上述的基于祖先信息标记的鸡品种鉴定方法。
一种计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行时实现上述的基于祖先信息标记的鸡品种鉴定方法。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明提供的基于祖先信息标记的鸡品种鉴定方法,一方面,通过对基因组SNP进行群体遗传分析和特征SNP检测,能够基于祖先信息标记得到品种特征性SNP位点集,使品种数量增多时进行多品种基因组分类变得更高效;另一方面,通过采用机器学习算法Xgboost和随机森林,根据品种特征性SNP位点集确定鸡品种鉴定模型,大幅度缩减了品种鉴别时所需要的SNP数量,能够进一步提高鸡品种鉴定的准确性和效率。本发明利用全基因组SNP信息寻找少量的可以推断品种类别的SNP,为鸡遗传资源保护提供新的思路,通过结合群体遗传学分析,利用机器学习算法,确定鸡品种鉴定模型,有助于节约成本,具有很高的经济应用价值和科研价值。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的鸡品种鉴定方法的流程图;
图2为本发明提供的鸡品种鉴定模型的构建流程图;
图3为本发明实施例对第一主成分和第二主成分的聚类结果图;
图4为本发明实施例对第一主成分和第三主成分的聚类结果图;
图5为本发明实施例对第二主成分和第三主成分的聚类结果图;
图6为本发明实施例的STRUCTURE分析结果图;
图7为本发明实施例的系统发育树分析结果图;
图8为本发明实施例鸡品种鉴定模型随SNP数目增多五折交叉验证准确性的变化曲线图;
图9为本发明实施例使用238个SNP对十四个品种进行预测的混淆矩阵结果图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种基于祖先信息标记的鸡品种鉴定方法、系统、设备及介质,以实现对待测鸡品种的高效、准确区分。
传统的品种鉴定方法存在着形态学标记数目少、多态性差等特征,对血缘接近、外型相似的品种不能准确区分。随着基因组和分子生物学的发展,利用全基因组信息来区分品种已经成为可能。且基因组信息有多态性丰富、数量大、容易获得等优点,因此,可以利用基因组信息对品种进行区分。
本发明利用全基因组SNP信息寻找少量的可以推断品种类别的SNP,为鸡遗传资源保护提供新的思路。目前针对血统估计和品种区分多是基于少量本身差异巨大的品种,这些品种往往在STRUCTURE中就可以表现出明显的区分。本发明通过结合群体遗传学分析,利用机器学习分类模型,建立出能精准鉴定更多品种的鸡品种鉴定模型,能够有助于节约成本,具有很大的经济应用价值和科研价值,是对传统品种鉴定方法的优化升级。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
实施例一
本发明实施例提供一种基于祖先信息标记的鸡品种鉴定方法。如图1及图2所示,该方法包括:
步骤S1:确定若干个用于品种鉴定的目标品种,并获取所述目标品种的样本鸡。
具体地,选择拟用于品种精准鉴定的多个目标品种;入选个体需成长到一定年龄以满足采血进行DNA检测的要求;每个目标品种的有效样本量需大于30个。
步骤S2:对所述样本鸡进行基因提取和基因分型,得到基因组SNP。该步骤具体包括:
步骤S2.1:对所述样本鸡进行基因提取,得到基因组DNA。
具体地,对样本鸡进行鸡翅静脉采血,用抗凝剂进行抗凝处理后经裂解、蛋白酶消化处理,然后采用酚仿法提取基因组DNA,以灭菌双蒸水溶解后备用。所述鸡翅静脉采血和酚仿法均为本领域的常规操作。
步骤S2.2:对所述基因组DNA进行基因测序,得到测序结果。
具体地,使用Illumina Hiseq 2500测序系统进行双末端150bp测序,测序深度为10×,以保证测序结果的稳定性和准确性。
步骤S2.3:对所述测序结果进行变异检测和基因分型,得到基因组SNP。
具体地,使用GATK软件对上述的测序结果进行变异检测与基因分型。首先利用软件Fastp对从公共数据库下载的双端测序数据进行质量控制,剔除在建库测序中的引物、接头和低质量reads(其中,reads指的是测序仪单次测序所得到的碱基序列)。使用BWA软件的MEM包,采用默认参数对质控后的双端测序reads比对到参考基因组,得到SAM文件。然后利用软件SAMtools的sort命令将按照参考基因组的物理位置比对好的SAM文件进行排序,并转换为二进制BAM文件。随后采用GATK MarkDuplicates对BAM文件进行去重复reads,并对去重后的BAM文件构建文件索引。使用去重复后的BAM文件利用GATK软件的HaplotypeCaller模块进行变异检测。最后使用GATK软件中的GenotypeGVCFs模块进行基因分型。
利用GATK软件的VariantFiltration模块对检测到的单核苷酸多态性(Singlenucleotide polymorphism,SNP)进行严格质控,标准为:1)QD>10.0;2)MQ>40.0;3)FS<60.0;4)MQRankSum>-12.5;5)ReadPosRankSum>-8.0。这一步骤称为GATK的硬过滤,目的是通过这几个参数删去测序中质量较低的SNP变异。各参数的含义如下:QD(Quality byDepth)为每个位点的质量深度比。它表示平均每个参考碱基的质量分数。高质量的变异通常具有较高的QD值。MQ(Mapping Quality)为比对质量。它表示比对到该位点的reads的平均比对质量分数。FS(Fisher Strand Bias)为Fisher's Exact Test的偏差。它用于评估正负链上参考和替代碱基的分布是否存在偏差。较低的FS值表示较小的偏差。MQRankSum为比对质量秩和。它是用于比较正负链上比对质量的统计指标。较高MQRankSum值表示较好的比对质量。ReadPosRankSum为读取位置秩和。它用于比较正负链上碱基的位置分布情况。较高的ReadPosRankSum值表示较好的碱基位置分布。
此外,如果在连续10bp范围内检测出超过3个SNP,则将这些SNP均视为假阳性结果并将其剔除,此步骤利用GATK软件的VariantFiltration模块中的命令-window 10和-cluster 3实现。
进一步地,这一步骤还包括基因变异质量控制。使用PLINKv1.9软件对分型后的原始数据进行最小等位基因频率(MAF)的筛选,保留MAF>0.05的位点,删除位点缺失率大于5%的位点以及个体位点缺失率大于5%的样本;使用Beagle对数据中的缺失位点进行基因型填充。其中,位点指的是SNP位点,每个样本都会在上一步中检测出大量的SNP。位点缺失率指的是某一SNP位点在所有个体中缺失的比率。个体位点缺失率指的是某一个体所缺失的位点比率。
步骤S3:对所述基因组SNP进行群体遗传分析和特征SNP检测,得到品种特征性SNP位点集。该步骤具体包括:
步骤S3.1:对所述基因组SNP进行群体遗传分析,得到群体遗传关系。
其中,群体遗传分析包括:主成分分析、系统发育树分析和STRUCTURE分析,即:对所述基因组SNP进行主成分分析,得到主成分分析结果;对所述基因组SNP进行系统发育树分析,得到系统发育树分析结果;对所述基因组SNP进行STRUCTURE分析,得到STRUCTURE结果;根据所述主成分分析结果、所述系统发育树分析结果和所述STRUCTURE结果确定群体遗传关系。
步骤S3.2:根据所述群体遗传关系对所述目标品种进行分组,得到分组结果。
具体地,使用PLINKv1.9软件去掉关联性很强的位点。使用500kb的窗口,50kb的步长,保留r2<0.2的位点(LD indep-pairwise 500500.2)作为独立位点,用于后续群体遗传分析。群体遗传分析包括主成分分析、系统发育树分析和STRUCTURE分析。
主成分分析使用PLINKv1.9软件对所有群体进行主成分分析(PCA–pca20),并提取前20维度的主成分分析结果,通过绘制前三个主成分的聚类图观察各个品种所有个体的聚类结果;系统发育树分析使用MEGA11软件构建邻近树,观察所有个体的分簇和系统发育关系;STRUCTURE分析使用ADMIXTURE v1.3.1软件对基因组数据进行品种聚类分析。
根据以上三种群体遗传分析的结果,观察各个品种间的遗传关系,按照品种间群体遗传关系的远近对品种进行分组。
步骤S3.3:根据所述分组结果对所述基因组SNP进行特征SNP检测,得到品种特征性SNP位点集。
用于祖源推断的遗传标记也被称之为祖先信息标记(Ancestry InformativeMarkers,AIMs),AIMs通常指的是在不同群体中等位基因频率差异极大的多态性位点,利用这些位点可以推断种群的祖先来源。
优选地,本发明基于祖先信息标记,根据所述分组结果和所述基因组SNP计算In统计量;所述In统计量包括:各分组两两之间的全基因组SNP的infocalc值和各分组内两两品种之间的全基因组SNP的infocalc值;所述infocalc值表征SNP在两份组或两品种之间的差异性的大小;根据所述In统计量的大小对所述基因组SNP中的各SNP位点进行排序,并将每次分组间和品种间计算得到的前若干个SNP位点组成并集,得到品种特征性SNP位点集。
具体地,使用搜寻AIMs的经典指数In统计量的方法进行品种特征SNP的搜寻。根据上一步的分组结果,计算组与组之间全基因组SNP的In统计量(infocalc)。随后计算组内各品种间的全基因组SNP的In统计量。根据每个SNP的In统计量大小进行排序,并分别选择每次计算中In统计量最大的前500个SNP,将每次分组间和品种间计算得到的前500个SNP组成并集,组建为品种特征性SNP位点集,将这些SNP位点集用于机器学习模型的构建。其中每个SNP的In统计量的计算公式如下:
其中,i表示品种的序号,j表示SNP的序号。pij表示第i个品种的第j个SNP的等位基因频率,K表示不同品种的总数,N表示SNP位点的总数,由公式(1)可推导出各品种的第j个SNP(即SNPj)的等位基因频率的平均值pj,利用pij与pj由公式(2)可以推导出多个群体K下,单个SNPj的In统计量。
步骤S4:采用机器学习算法,根据所述品种特征性SNP位点集确定鸡品种鉴定模型;所述机器学习算法包括:Xgboost算法和Randomforest算法。该步骤具体包括:
步骤S4.1:采用Xgboost算法和Randomforest算法对所述品种特征性SNP位点集进行特征重要性排序,得到特征重要性排序结果。
步骤S4.2:根据所述特征重要性排序结果确定若干个SNP梯度数据集;所述SNP梯度数据集中包括若干个SNP位点,且各所述SNP梯度数据集中的SNP位点数量逐渐增多。
步骤S4.3:采用Xgboost算法依次对所述SNP梯度数据集进行拟合,得到鸡品种鉴定模型。
具体地,采用Xgboost算法依次对所述SNP梯度数据集进行拟合,得到拟合模型;所述拟合模型的最佳参数采用Grid-search方法确定;采用五折交叉验证方法确定所述拟合模型的准确率;将所述准确率大于设定值的所述拟合模型确定为鸡品种鉴定模型。
作为一种具体的实施方式,基于以上选择的品种特征性SNP位点集,使用Xgboost来完成机器学习模型的构建。在算法拟合的过程中使用5折交叉验证来避免过拟合,其中5折交叉验证指的是将整个样本集平均分为5份,4份作为训练集,1份作为测试集,进行5次训练,这样就能得到样本集中每个个体的预测值。在算法拟合前使用Grid-search方法来实现最佳参数检索。
在训练过程中,使用Grid-search方法,实现最佳参数的检索。具体方式是:人为设置待选参数的所有可能取值,即穷举待选参数的所有组合进行模型验证,进而实现最佳参数组合的挑选。Grid-search的方法具体过程为:使用python中sklearn程辑包中的GridSearchCV模块,通过预设待选参数,然后利用GridSearchCV模块对所有预设待选参数进行拟合,最终根据每个预设待选参数拟合模型后的准确率确定最佳参数。
Xgboost的待选参数如下:objective=multi:softmax;num_round=[100,200,300,400,500,600,700,800,900,1000];min_child_weight=[0.01,0.1,1];subsample=[0.6,0.7,0.8,0.9,1];max_depth=[1,2,3,4,5,6,7,8,9,10];eta=[0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1.0];gamma=[0,0.05,0.1,0.3,0.5,0.7,0.9,1];colsample_bytree=[0.01,0.05,0.1,0.3,0.5,0.7,0.9,1];num_class=14(依据品种数目多少决定,如构建14个品种的品种预测模型,该参数便设为14)。
上述各参数的含义如下:objective表示xgboost所选用的损失函数,本实施例中选择的multi:softmax是多分类常用的损失函数;num_round表示所建立的树的个数;min_child_weight用以控制叶子上的最小样本数;subsample表示控制每棵树在训练过程中对于样本的采样比例;max_depth表示树的最大深度;eta又称为“学习率”,它控制每一次迭代中每个树对最终预测结果的贡献程度;gamma表示在树的叶节点上进行进一步分支所需的最小目标函数减少量,gamma越大,算法约保守,树的叶子数量越少,模型复杂度越低;colsample_bytree表示每次生成树时随机抽样特征的比例;num_class表示多分类时的类别数。
模型训练过程如下:
1.首先使用python中的xgboost程辑包中的Xgboost算法和sklearn程辑包中的Randomforest(随机森林)算法,对品种特征性SNP位点集进行拟合,并使用特征重要性排序对品种特征性SNP位点集中的SNP进行排序。
2.随后根据Randomforest与Xgboost中对品种特征性SNP位点集的排名结果,从排名前2位的SNP开始,取Randomforest和Xgboost中特征重要性排名前2的SNP的并集作为第一个SNP梯度数据集,然后依次增加一个SNP,直至前500个(视分类准确率而定,本实验根据分类的5折交叉验证准确率,选择仅比较前500个SNP)。以此方法建立了499个SNP梯度数据集。
3.然后依次对499个SNP梯度数据集使用Xgboost进行拟合,并在每次算法拟合过程均使用5折交叉验证(5-fold cross validation)来观察模型的准确率。Xgboost拟合基因组数据过程为:
(1)首先应用PLINKv1.9格式的基因组文件,使用—extract参数提取对应的每个SNP梯度数据集。
(2)使用—recodeA参数将基因组文件转变为raw格式。raw格式的第一列为个体的FID(familyID),第二列为个体的IID(individual ID),每一行即为对应的个体FID和IID。第七列及之后的列每一列对应一个SNP,每一行即为该个体对应的SNP的基因型,基因型用0,1,2表示,0表示该个体的该SNP位点为野生纯合子,1表示该个体的该SNP位点为杂合子,2表示该个体的该SNP位点为突变型纯合子。
(3)使用python中的pandas程辑包通过pandas.read_csv模块读取raw文件。
(4)使用excel复制raw文件的第二列,并手动增加一列输入每个个体对应的品种,将此文件作为family文件。
(5)使用python中的pandas.read_csv读取family文件。并对读取的raw文件使用函数iloc[:,6:].values进行划分,以保留raw的第七列及第七列之后的数据。
(6)使用sklearn程辑包中的train_test_split将所有个体以3:1的比例划分为训练集和测试集。
(7)使用Grid-search进行最佳参数的检索。
(8)利用最佳参数,使用xgboost.fit模块对训练集数据进行拟合。
(9)使用sklearn中的cross_val_score模块对raw文件所有个体数据进行5折交叉验证。
(10)对每一个SNP梯度数据集进行以上操作,并统计利用xgboost拟合每一个SNP梯度数据集的5折交叉验证准确率。随着SNP位点数的增加,5折交叉验证准确率也相应增加,当准确率达到98%时的SNP数量即确定为最终SNP集合。
(11)根据最终选出的SNP集合,通过输入该SNP集合的raw文件,结合上述xgboost通过Grid-search调整的最佳参数,即得到可鉴定多个目标品种的鸡品种鉴定模型。
步骤S5:获取待测鸡的SNP数据,并根据所述鸡品种鉴定模型确定待测鸡的品种。
具体地,可以基于上述步骤选出的SNP集合,通过测定待测鸡的SNP集合的基因分型结果,使用上述多品种的SNP集合的raw文件作为训练集,待测鸡的SNP集合的raw文件作为测试集,通过xgboost之前确定的最佳参数进行拟合,从而预测该待测鸡的品种类别。
此外,还可以用5折交叉验证准确率来判断模型的准确性。5折交叉验证准确率越高,说明模型拟合效果越好。最后,根据5折交叉验证准确率(以98%的准确率为阈值)来判断能够准确鉴定品种的SNP数量。
为进一步验证上述方法的可行性,还提供了以下具体实施例。
1.使用了14个鸡品种各30个样本的全基因组重测序数据进行分析,以筛选出可以准确鉴定各品种的最小数量的SNP组合。这14个鸡品种为藏鸡(TB)、茶花鸡(CH)、大围山微型鸡(DWS)、溧阳鸡(LY)、林甸鸡(LD)、丝羽乌骨鸡(SIL)、东乡绿壳蛋鸡(BS)、文昌鸡(WC)、洛岛红(RIR)、来航(LH)、浅花苏赛斯鸡(LS)、科宝肉鸡(Cobb)、矮脚黄羽肉鸡(YDB)和红色原鸡(RJF)。
2.使用上述变异检测与基因分型的方法对492个数据进行了SNP变异检测。
3.使用PLINKv1.9软件进行质控,质控条件为MAF>=0.05,位点缺失率<=0.05,个体的位点缺失率<=0.05。
4.使用PLINKv1.9软件完成PCA的计算(PCA-pca20),并观察在前三个主成分中各个品种的聚类情况,如图3、图4和图5所示。
5.使用ADMIXTURE对个体进行聚类,ADMIXTURE分析根据输入祖先数目的不同,可以给出每个样本每种祖先成分的比例,直观地反映每个样本潜在的混杂情况。本实施例假设2-16种祖先成分数目K用于ADMIXTURE分析,如图6所示。并使用MEGA11构建14个品种所有样本的系统发育树,以观察这些品种直接的遗传关系,如图7所示。
6.根据PCA、系统发育树和ADMIXTURE的结果,确定14个品种的群体遗传关系并进行分组。分组结果如下:
(1)由于Cobb、RIR、LS、LH在PCA和STRUCTURE中与其它品种有明显区分,所以首先将14个品种分为四个大组:亚洲鸡、美国鸡(Cobb和RIR)、英国鸡(LS)和意大利鸡(LH)。
(2)又由于在剩余的亚洲鸡中,各个品种又表现出了不同的群体遗传关系,于是根据群体遗传关系远近进一步将亚洲鸡再分类为以下五组:组1(RJF、DWS、TB);组2(CH);组3(SIL);组4(LD、BS、WC);组5(LY、YDB)。
7.首先计算4个大组两两之间的全基因组SNP的In统计量,其次计算亚洲组中5个小组两两之间全基因组SNP的In统计量,最后计算各组内两两品种之间的全基因组SNP的In统计量。并选取每次计算中In统计量排名前500的SNP用于后续分析。最后利用以上每次计算选出的SNP的并集同10990个SNP作为品种特征性SNP位点集。
8.使用python中的Xgboost程辑包和sklearn程辑包中的Randomforest完成模型的构建,其中使用grid-search完成最佳参数的挑选。并使用Xgboost和Randomforest中的重要性排序对品种特征性SNP位点集进行排序。根据Randomforest与Xgboost中对品种特征性SNP位点集的特征重要性排序结果,从排名前2位的SNP开始,依次增加一个,直至前500个。根据这些SNP在Randomforest和Xgboost中不同的排名,将两种机器学习算法中对应排名的位点合并。建立了499个SNP梯度数据集。使用Xgboost依次对SNP梯度数据集进行拟合,并对每个算法拟合过程均使用5折交叉验证(5-fold cross validation)来观察模型的准确率,如图8所示。最后使用238个SNP对十四个品种进行预测得到的混淆矩阵结果,如图9所示,其中横坐标Predicted label为预测标签,纵坐标True label为真实标签。
根据5折交叉验证准确率,可以发现仅使用238个SNP,在区分14个品种时5折交叉验证准确率为100%,具有非常良好的品种鉴定能力。
实施例二
为了执行上述实施例一对应的方法,以实现相应的功能和技术效果,下面提供一种基于祖先信息标记的鸡品种鉴定系统,该系统包括:
目标品种确定模块,用于确定若干个用于品种鉴定的目标品种,并获取所述目标品种的样本鸡。
基因组SNP确定模块,用于对所述样本鸡进行基因提取和基因分型,得到基因组SNP。
品种特征性SNP位点集确定模块,用于对所述基因组SNP进行群体遗传分析和特征SNP检测,得到品种特征性SNP位点集。
鸡品种鉴定模型确定模块,用于采用机器学习算法,根据所述品种特征性SNP位点集确定鸡品种鉴定模型;所述机器学习算法包括:Xgboost算法和Randomforest算法。
待测鸡品种确定模块,用于获取待测鸡的SNP数据,并根据所述鸡品种鉴定模型确定待测鸡的品种。
实施例三
本发明实施例还提供一种电子设备,包括存储器和处理器,该存储器用于存储计算机程序,该处理器用于运行计算机程序以使电子设备执行实施例一中的基于祖先信息标记的鸡品种鉴定方法。所述电子设备可以是服务器。
另外,本发明还提供一种计算机可读存储介质,其存储有计算机程序,该计算机程序被处理器执行时实现实施例一中的基于祖先信息标记的鸡品种鉴定方法。
综上所述,本发明提供的基于祖先信息标记的鸡品种鉴定方法、系统、设备及介质,利用群体遗传分析将鸡品种按遗传远近进行分组,随后计算各组之间全基因组SNP的In统计量,利用机器学习算法Xgboost和Randomforest进行特征重要性排序,以缩小SNP位点集,用最终的SNP位点集可以对鸡品种进行精准鉴定。
本发明具有以下优势:
1.本实验采用群体遗传学分组的方法,大大减少了品种特征性SNP搜寻时所需要的运算量。In统计量通常用于两两品种之间全基因组SNP的计算。当品种增多,两两之间的组合就会成倍增加。如本发明实施例中的14个品种两两组合就有91个组合。而在本次实验中,将鸡品种根据地理位置、群体遗传结构分为了4个大组和亚洲大组中的5个小组。两两之间的组合仅有大组中的6个组合、5个小组之间的10个组合、组内品种间的8个组合共24个组合。若进一步根据群体遗传学探索出更可靠的分组,则组合数还将继续减少。这种依据群体遗传结构进行分组的方法,将会使品种数量增多时进行多品种基因组分类变得更高效。
2.本实验利用机器学习算法Xgboost和随机森林的特征重要性排序,大幅度缩减了品种鉴别时所需要的SNP数量。在生产实践过程中,全基因组SNP芯片是一种性价比很高的方法。在本发明实施例中,依靠24个组合计算了In统计量的SNP,各取其排名前500的SNP,最多可能达到12000个SNP。但当品种数目越来越多,若区分多品种需要用几十万SNP,则其经济价值会大打折扣。所以利用Xgboost和随机森林算法,通过特征重要性排序,选择品种特征SNP数据集中对分类更有利的SNP,能将品种特征SNP数据集的数据量最小化。可以将选择好的多品种分类SNP位点进一步设计为品种鉴定SNP芯片。芯片的SNP数量的多少与芯片价格直接相关。一般位点数越多,SNP芯片价格越高。但使用了Xgboost和随机森林的特征重要性排序,将大量SNP位点根据在Xgboost和随机森林中的分类表现进行了排序。这样排名较高的SNP都是在品种分类中效果最好的SNP。随后将排名前1的、前2的、前3的…前5000的SNP都使用Xgboost拟合。观察5倍交叉准确率,当仅使用一定位点数量的SNP就可以达到98%以上的5倍交叉准确率时,就说明仅使用这些位点就足以进行品种区分。随着SNP数量减少,将这些SNP制作成品种鉴定SNP芯片的成本也将大大缩减。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种基于祖先信息标记的鸡品种鉴定方法,其特征在于,包括:
确定若干个用于品种鉴定的目标品种,并获取所述目标品种的样本鸡;
对所述样本鸡进行基因提取和基因分型,得到基因组SNP;
对所述基因组SNP进行群体遗传分析和特征SNP检测,得到品种特征性SNP位点集;
采用机器学习算法,根据所述品种特征性SNP位点集确定鸡品种鉴定模型;所述机器学习算法包括:Xgboost算法和Randomforest算法;
获取待测鸡的SNP数据,并根据所述鸡品种鉴定模型确定待测鸡的品种。
2.根据权利要求1所述的基于祖先信息标记的鸡品种鉴定方法,其特征在于,对所述样本鸡进行基因提取和基因分型,得到基因组SNP,具体包括:
对所述样本鸡进行基因提取,得到基因组DNA;
对所述基因组DNA进行基因测序,得到测序结果;
对所述测序结果进行变异检测和基因分型,得到基因组SNP。
3.根据权利要求1所述的基于祖先信息标记的鸡品种鉴定方法,其特征在于,对所述基因组SNP进行群体遗传分析和特征SNP检测,得到品种特征性SNP位点集,具体包括:
对所述基因组SNP进行群体遗传分析,得到群体遗传关系;
根据所述群体遗传关系对所述目标品种进行分组,得到分组结果;
根据所述分组结果对所述基因组SNP进行特征SNP检测,得到品种特征性SNP位点集。
4.根据权利要求3所述的基于祖先信息标记的鸡品种鉴定方法,其特征在于,对所述基因组SNP进行群体遗传分析,得到群体遗传关系,具体包括:
对所述基因组SNP进行主成分分析,得到主成分分析结果;
对所述基因组SNP进行系统发育树分析,得到系统发育树分析结果;
对所述基因组SNP进行STRUCTURE分析,得到STRUCTURE结果;
根据所述主成分分析结果、所述系统发育树分析结果和所述STRUCTURE结果确定群体遗传关系。
5.根据权利要求3所述的基于祖先信息标记的鸡品种鉴定方法,其特征在于,根据所述分组结果对所述基因组SNP进行特征SNP检测,得到品种特征性SNP位点集,具体包括:
基于祖先信息标记,根据所述分组结果和所述基因组SNP计算In统计量;所述In统计量包括:各分组两两之间的全基因组SNP的infocalc值和各分组内两两品种之间的全基因组SNP的infocalc值;所述infocalc值表征SNP在两份组或两品种之间的差异性的大小;
根据所述In统计量的大小对所述基因组SNP中的各SNP位点进行排序,并将每次分组间和品种间计算得到的前若干个SNP位点组成并集,得到品种特征性SNP位点集。
6.根据权利要求1所述的基于祖先信息标记的鸡品种鉴定方法,其特征在于,采用机器学习算法,根据所述品种特征性SNP位点集确定鸡品种鉴定模型,具体包括:
采用Xgboost算法和Randomforest算法对所述品种特征性SNP位点集进行特征重要性排序,得到特征重要性排序结果;
根据所述特征重要性排序结果确定若干个SNP梯度数据集;所述SNP梯度数据集中包括若干个SNP位点,且各所述SNP梯度数据集中的SNP位点数量逐渐增多;
采用Xgboost算法依次对所述SNP梯度数据集进行拟合,得到鸡品种鉴定模型。
7.根据权利要求6所述的基于祖先信息标记的鸡品种鉴定方法,其特征在于,采用Xgboost算法依次对所述SNP梯度数据集进行拟合,得到鸡品种鉴定模型,具体包括:
采用Xgboost算法依次对所述SNP梯度数据集进行拟合,得到拟合模型;所述拟合模型的最佳参数采用Grid-search方法确定;
采用五折交叉验证方法确定所述拟合模型的准确率;
将所述准确率大于设定值的所述拟合模型确定为鸡品种鉴定模型。
8.一种基于祖先信息标记的鸡品种鉴定系统,其特征在于,包括:
目标品种确定模块,用于确定若干个用于品种鉴定的目标品种,并获取所述目标品种的样本鸡;
基因组SNP确定模块,用于对所述样本鸡进行基因提取和基因分型,得到基因组SNP;
品种特征性SNP位点集确定模块,用于对所述基因组SNP进行群体遗传分析和特征SNP检测,得到品种特征性SNP位点集;
鸡品种鉴定模型确定模块,用于采用机器学习算法,根据所述品种特征性SNP位点集确定鸡品种鉴定模型;所述机器学习算法包括:Xgboost算法和Randomforest算法;
待测鸡品种确定模块,用于获取待测鸡的SNP数据,并根据所述鸡品种鉴定模型确定待测鸡的品种。
9.一种电子设备,其特征在于,包括存储器及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述电子设备执行如权利要求1至7中任意一项所述的基于祖先信息标记的鸡品种鉴定方法。
10.一种计算机可读存储介质,其特征在于,其存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述的基于祖先信息标记的鸡品种鉴定方法。
CN202310947536.3A 2023-07-31 2023-07-31 基于祖先信息标记的鸡品种鉴定方法、系统、设备及介质 Pending CN117037905A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310947536.3A CN117037905A (zh) 2023-07-31 2023-07-31 基于祖先信息标记的鸡品种鉴定方法、系统、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310947536.3A CN117037905A (zh) 2023-07-31 2023-07-31 基于祖先信息标记的鸡品种鉴定方法、系统、设备及介质

Publications (1)

Publication Number Publication Date
CN117037905A true CN117037905A (zh) 2023-11-10

Family

ID=88629085

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310947536.3A Pending CN117037905A (zh) 2023-07-31 2023-07-31 基于祖先信息标记的鸡品种鉴定方法、系统、设备及介质

Country Status (1)

Country Link
CN (1) CN117037905A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117746979A (zh) * 2024-02-21 2024-03-22 中国科学院遗传与发育生物学研究所 一种动物品种的鉴定方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117746979A (zh) * 2024-02-21 2024-03-22 中国科学院遗传与发育生物学研究所 一种动物品种的鉴定方法

Similar Documents

Publication Publication Date Title
CN108319984B (zh) 基于dna甲基化水平的木本植物叶片表型特征和光合特性预测模型的构建方法及预测方法
CN112233722B (zh) 品种鉴定的方法、其预测模型的构建方法和装置
CN109346130A (zh) 一种直接从全基因组重测序数据中得到微单体型及其分型的方法
CN106446597B (zh) 多物种特征选择及鉴定未知基因的方法
CN117037905A (zh) 基于祖先信息标记的鸡品种鉴定方法、系统、设备及介质
CN110997936A (zh) 基于低深度基因组测序进行基因分型的方法、装置及其用途
US7272506B2 (en) Computer algorithm for automatic allele determination from fluorometer genotyping device
CN107862177B (zh) 一种区分鲤群体的单核苷酸多态性分子标记集的构建方法
KR101539737B1 (ko) 유전체 정보와 분자마커를 이용한 여교잡 선발의 효율성 증진 기술
CN117133354A (zh) 一种高效鉴定林木关键育种基因模块的方法
CN108416189B (zh) 一种基于分子标记技术的农作物品种杂种优势模式鉴定方法
CN114530200B (zh) 基于计算snp熵值的混合样本鉴定方法
CN112102880A (zh) 品种鉴定的方法、其预测模型的构建方法和装置
CN113793637B (zh) 基于亲本基因型与子代表型的全基因组关联分析方法
CN115948521A (zh) 一种检测非整倍体缺失染色体信息的方法
KR102697335B1 (ko) 품종 식별이 가능한 유전마커 선발 시스템 및 이를 이용한 품종 식별방법
CN114300045A (zh) 基于对照组的半监督snp分型方法、装置和电子设备
CN108009401B (zh) 一种筛选指纹图谱遗传标记的方法
CN113493853A (zh) 用于水稻品种资源鉴定的snp标记组合
KR101911307B1 (ko) 유전자 단위에서 단상형을 구분하는 태그-snp 선발 및 활용 기술
CN117637020B (zh) 一种基于深度学习的四倍体牡蛎全基因组snp分型方法
CN112359102A (zh) 一种基于基因组学构建烟草核心种质的方法及其应用
CN111128297B (zh) 一种基因芯片的制备方法
CN108427866B (zh) 一种基于分子标记技术的农作物自交系类群的鉴定方法
CN117535429B (zh) 用于从岭藏鸡品种鉴定的snp位点集合及其应用

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination