CN117746979A - 一种动物品种的鉴定方法 - Google Patents

一种动物品种的鉴定方法 Download PDF

Info

Publication number
CN117746979A
CN117746979A CN202410191513.9A CN202410191513A CN117746979A CN 117746979 A CN117746979 A CN 117746979A CN 202410191513 A CN202410191513 A CN 202410191513A CN 117746979 A CN117746979 A CN 117746979A
Authority
CN
China
Prior art keywords
animal
lasso
identification
variety
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410191513.9A
Other languages
English (en)
Inventor
刘秋月
赵毅强
刘泽璇
王海涛
张娜
束海平
王大祥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Genetics and Developmental Biology of CAS
Original Assignee
Institute of Genetics and Developmental Biology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Genetics and Developmental Biology of CAS filed Critical Institute of Genetics and Developmental Biology of CAS
Priority to CN202410191513.9A priority Critical patent/CN117746979A/zh
Publication of CN117746979A publication Critical patent/CN117746979A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明涉及生物信息学技术领域,尤其涉及一种动物品种的鉴定方法。所述鉴定方法包括:获取待测动物群体的基因型数据和品种信息;依据所述基因型数据和所述品种信息构建Lasso模型,同时得到对应的多个基因位点;所述Lasso模型以所述基因型数据作为固定效应,依据glmnet软件包构建得到;通过对待测动物个体的所述多个基因位点的基因型进行检测实现动物品种鉴定。本发明通过使用Lasso模型合理选择与品种鉴定相关的SNP位点,进而应用于动物的品种鉴定,在较大程度上减少了鉴定过程中需要的检测点数量,同时还具备较高的分析效率和准确率,这对于动物的品种鉴定具有重要意义。

Description

一种动物品种的鉴定方法
技术领域
本发明涉及生物信息学技术领域,尤其涉及一种动物品种的鉴定方法。
背景技术
湖羊是一种地方绵羊品种,由于其肉质细嫩,营养丰富,现在成为了集约化养殖的主推品种,陆续出现了多家万只存栏以上大型湖羊育种场,这些场均可以作为种源培育的场区进行种源售卖,但市面上对于湖羊种羊的评定仍然基于表型和经验,没有可实际操作的标准。因此开发一套能够对湖羊纯度进行鉴定的分子鉴别方法,同时兼顾成本和实用性。对湖羊的种源保护有实际运用价值。
目前已报道过滩羊、藏羊等地方品种鉴定方法,多数利用重测序手段,通过Fst,ln, deltaAF等方法的选出差异的点,来进行品种鉴别。但是这些方法在获得重测序数据之后,基本都是基于选择信号的方法来获取不同品种间频率差异的突变位点,然后对这些单突变位点进行排序来寻找品种特异性位点,最终得到的特征性位点的数目非常多。因此,传统分析方法通常需要对重测序数据中获得的大量位点进行检测,既费时又昂贵。
发明内容
为了解决现有技术存在的问题,本发明提供一种动物品种的鉴定方法。
LASSO模型全称Least absolute shrinkage and selection operator。它通过构造一个惩罚函数得到一个较为精炼的模型,使得它压缩一些回归系数,即强制系数绝对值之和小于某个固定值;同时设定一些回归系数为零。因此保留了子集收缩的优点,是一种处理具有复共线性数据的有偏估计。
本申请通过使用LASSO模型,将所有位点作为整体考虑,合理地选择那些与品种鉴定相关的位点,可解释性好,同时大幅减少了在鉴定过程中需要的检测点数量。这不仅降低了成本,还提高了分析的效率。
第一方面,本发明提供一种动物品种的鉴定方法,包括:
获取待测动物群体的基因型数据和品种信息;
依据所述基因型数据和所述品种信息构建Lasso模型,同时得到对应的多个基因位点;所述Lasso模型以所述基因型数据作为固定效应;
通过对待测动物个体的所述多个基因位点的基因型进行检测实现动物品种鉴定。
进一步地,所述Lasso模型为依据glmnet软件包构建得到。
目前尚未现有技术将Lasso模型应用于动物品种鉴定,本发明将其应用于动物品种鉴定时,同时采用了glmnet和Seagull进行多种lasso模型的构建(还包括group lasso模型和sparse group lasso模型),但是在研究过程中发现想要得到高鉴定准确率,同时使用的基因位点较少的模型是不容易的,Seagull无论怎么进行参数的调节和筛选条件的变更,都需要大量基因位点,才能得到较高的鉴定准确率,因而不适合进行品种鉴定。而本发明采用以基因型数据作为固定效应的glmnet进行Lasso模型构建时得到两个兼具高鉴定准确性和较少的基因位点的模型,其可以实现动物品种的高效、准确的鉴别。
进一步地,所述Lasso模型通过如下方法构建得到:
将所述待测动物群体分为训练集和测试集,以所述训练集对应的基因型数据和品种信息为依据,基于M个不同的λ值采用glmnet函数进行建模得到M个不同的Lasso模型;采用cv.glmnet函数进行交叉验证得到N个Lasso模型;
在所有构建得到的Lasso模型中,选择符合如下任意一种要求的Lasso模型:
i)错判率最小的Lasso模型;
ii)具备优良性能,自变量个数最少的Lasso模型;
iii)在解释度合理范围内选择点尽量少的Lasso模型。
本发明所述具备优良性能为:解释度R2在90%以上。
本发明所述在解释度合理范围内选择点尽量少为:在解释度符合要求的情况下,非零位点数最少,解释度的要求可以人为定义,例如在90%、85%、80%或75%以上。
进一步地,所述Lasso模型的λ值在0.07012~0.08063之间。
本发明筛选得到的λ值为0.08063或0.07012的Lasso模型,其预测准确率在95%以上,同时涉及的基因位点较少,可以用于湖羊品种的准确高效鉴别。
进一步地,所述基因位点包括:SNP位点。
进一步地,所述待测动物群体的基因型数据和品种信息通过如下方法得到:
针对所述待测动物群体进行重测序,经过预处理后得到所述待测动物群体的基因型数据和品种信息。
进一步地,所述预处理包括如下流程:
将所述重测序得到的单倍型数据转换为基因型数据,每个基因位点上0代表reference allele纯和,1代表杂合子,2代表alternative allele纯和。
进一步地,所述动物品种为湖羊。
第二方面,本发明提供所述鉴定方法在动物品种选育中的应用。
本发明具备如下有益效果:
本发明将LASSO模型用于动物品种的鉴定,在所有SNP位点中,找到和动物品种相关的特异性位点,在显著降低了鉴定过程中的检测点数量的同时还具备较高的分析效率和准确率,这在动物的品种鉴定领域具有重要的应用价值。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
以下实施例中所用的试验方法,除非特别提及,均可以采用本领域常规方法实现。
实施例1
本实施例提供一种对湖羊进行鉴定的方法,具体包括如下步骤:
1、重测序
实验材料为377个(其中299只湖羊,其他包括巴音布鲁克,滩羊,小尾寒羊,苏尼特羊,呼伦贝尔羊)提取DNA之后进行重测序得到。
2、建模
2.1对重测序数据进行预处理:
2.1.1 生成单倍型
过滤质控后的vcf文件转为单倍型,每条染色体对应生成一个单倍型文件hap.chr.tab、一个位点ID文件marker.chr。
2.1.2 生成基因型
单倍型文件hap.chr.tab转为基因型文件geno.chr,每个位点上0代表referenceallele纯和,1代表杂合子,2代表alternative allele纯和。
2.1.3 合并
合并每条染色体对应的文件geno.chr生成geno.humeng,合并marker.chr文件生成marker.all。
2.2 lasso拟合建模
首先从377个体中随机抽取90%作为训练集;随机抽取约10%的数据(30只湖羊,8只蒙古羊)作为测试集。测试集不参与建模过程,只用来预测评价模型的效果。调用glmnet R包中glmnet和cv.glmnet函数进行建模,并通过9折交叉验证对模型调优,以找到性能最优模型的参数值。
2.2.1 第一批模型建立
(1)glmnet函数将所有的train数据用来一次性拟合模型,可能会造成过拟合,之后进行预测假阳性率可能会升高:参数 nlambda=50 让算法自动挑选50个不同的λ值,拟合出50个系数不同的模型;
(2)cv.glmnet函数中则是通过指定nfolds=9,进行9折交叉验证(crossvalidation)拟合进而选取模型,提升模型的准确度得到100个模型;
其中包括:
i)min:代表measure(错判率)最小时对应的参数,此时lambda(λ)为0.01143,index(索引)为75,measure(错判率)为1.18%,nonzero(非0位点)为44个。
ii)1se:代表具备优良性能但是自变量个数最少的模型,此时lambda(λ)为0.02092,index(索引)为62,measure(错判率)为1.48%,nonzero(非0位点)为34个。
最终采用cv.glmnet函数构建得到的模型进行后续的优化和筛选。
2.2.2 进一步优化模型参数
上一步骤的结果中保留的位点仍较多,考虑到点越少成本越低,因此在解释度合理范围内选择点尽量少的模型进行效果评估,最终得到两个符合要求的模型(如下model1和model2):
表1 不同模型的参数
注:表格中湖羊预测概率为采用测试集的数据进行效果评价得到
结果显示model1保留了9个位点,对应的预测概率大部分位于90%以上,model2保留了10个位点,对应的预测概率大部分位于95%以上。
3、计算用的相关公式
上述使用lasso模型是二分类模型,响应变量y取值为,首先预期存在如下关系,
其中为x的系数,/>截距。
经过logit变换后建立logistic模型,
其中p代表y为1的概率。之后使用train数据代入logistic模型拟合估计参数,损失函数的计算引入lasso回归,加入L1正则化,以此来约束模型。
其中λ是L1正则化系数,α代表glmnet及cv.glmnet函数中的弹性网混合参数,是为了区分lasso和岭回归,此处α=1,β代表x的系数,||β||1代表系数中各元素绝对值之和,即L1正则化的表现形式。
实施例2
本实施例采用实施例1构建得到的model2模型进行验证试验,实验样本为216个绵羊,盲采抗凝血之后,直接进行裂解提取DNA;然后利用针对model2得到的10个位点(Chr6_30055664,Chr6_30090758,Chr6_30168816,Chr6_30213432,Chr3_106647990, Chr6_30026228, Chr6_30101570, Chr10_29436488,Chr10_52736358,Chr9_30416736)上下游序列进行引物设计,对这些位点进行PCR扩增,根据每个位点的基因型判定这个样本是否为纯种的湖羊个体。
扩增体系如下:使用北京擎科生物科技股份有限公司的高保真PCR酶(2×T5Super PCR Mix(Basic))进行扩增,货号TSE008。
表2 扩增体系
扩增条件为:使用PCR扩增仪进行扩增,第一阶段:95℃预变性5min;第二阶段95℃变性30s,58℃退火30s,72℃延伸45s,34个循环;第三阶段72℃终延伸5min,4℃保存。
表 3 引物序列
结果显示:216个绵羊个体,通过PCR扩增获得10个位点的基因型,其中有206个血样预测结果和真实品种完全符合,预测准确率在95%以上。
对比例1
本实施例同时采用其他方法进行品种鉴定试验,进行效果对比,对照方法如下:
从实施例的2.2步骤的lasso拟合建模流程开始,采用的训练集与测试集数据相同,后续不调用glmnet R包进行建模,而是采用Seagull软件包进行建模,以基因型作为随机效应,最终得到如下结果:
表4 glmnet和Seagull的建模结果比对
从上表中的结果可以看出,本发明分别进行采用Seagull进行了lasso、grouplasso、saprse group lasso三种模型的拟合,其中lasso模型误差最小时解释度极高,达到97.54%,但是保留的位点过多(达到877303),实际无法应用。其余几个模型在误差最小以及1se条件下同样会保留较多位点。所以本发明进一步通过R2首次大于80%进行参数筛选,以在一定解释度基础上,保留尽可能少的位点。然而这些模型均无法在位点数量较低的同时保持较高的解释度,和glmnet方法相比,位点数更多,解释度更低。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (9)

1.一种动物品种的鉴定方法,其特征在于,包括:
获取待测动物群体的基因型数据和品种信息;
依据所述基因型数据和所述品种信息构建Lasso模型,同时得到对应的多个基因位点;所述Lasso模型以所述基因型数据作为固定效应,依据glmnet软件包构建得到;
通过对待测动物个体的所述多个基因位点的基因型进行检测实现动物品种鉴定。
2.根据权利要求1所述的鉴定方法,其特征在于,所述Lasso模型通过如下方法构建得到:
将所述待测动物群体分为训练集和测试集,以所述训练集对应的基因型数据和品种信息为依据,基于N个不同的λ值采用cv.glmnet函数进行拟合得到N个不同的Lasso模型,选择符合预定要求的Lasso模型。
3.根据权利要求2所述的鉴定方法,其特征在于,所述选择符合预定要求的Lasso模型包括:
在所有构建得到的Lasso模型中,选择符合如下任意一种要求的Lasso模型:
i)错判率最小的Lasso模型;
ii)具备优良性能,自变量个数最少的Lasso模型;
iii)在解释度合理范围内选择点尽量少的Lasso模型。
4.根据权利要求3所述的鉴定方法,其特征在于,所述Lasso模型的λ值在0.07012~0.08063之间。
5.根据权利要求1所述的鉴定方法,其特征在于,所述基因位点为SNP位点。
6.根据权利要求1-4任一项所述的鉴定方法,其特征在于,所述待测动物群体的基因型数据和品种信息通过如下方法得到:
针对所述待测动物群体进行重测序,经过预处理后得到所述待测动物群体的基因型数据和品种信息。
7.根据权利要求6所述的鉴定方法,其特征在于,所述预处理包括如下流程:
将所述重测序得到的单倍型数据转换为基因型数据,每个基因位点上0代表referenceallele纯和,1代表杂合子,2代表alternative allele纯和。
8.根据权利要求1-7任一项所述的鉴定方法,其特征在于,所述动物品种为湖羊。
9.权利要求1-8任一项所述的鉴定方法在动物品种选育中的应用。
CN202410191513.9A 2024-02-21 2024-02-21 一种动物品种的鉴定方法 Pending CN117746979A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410191513.9A CN117746979A (zh) 2024-02-21 2024-02-21 一种动物品种的鉴定方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410191513.9A CN117746979A (zh) 2024-02-21 2024-02-21 一种动物品种的鉴定方法

Publications (1)

Publication Number Publication Date
CN117746979A true CN117746979A (zh) 2024-03-22

Family

ID=90251289

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410191513.9A Pending CN117746979A (zh) 2024-02-21 2024-02-21 一种动物品种的鉴定方法

Country Status (1)

Country Link
CN (1) CN117746979A (zh)

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1505684A (zh) * 2001-03-28 2004-06-16 科学与工业研究会 用于野生生物鉴定的通用引物
CN101629209A (zh) * 2009-08-14 2010-01-20 西北农林科技大学 一种检测黄牛Six6基因单核苷酸多态性的方法
US20140032122A1 (en) * 2012-07-27 2014-01-30 The Johns Hopkins University Gene-wide significance (gwis) test: novel gene-based methods for the identification of genetic associations having multiple independent effects
US20150317444A1 (en) * 2012-12-13 2015-11-05 Metabogen Ab Identification of a Person Having Risk for Developing Type 2 Diabetes
WO2019138244A1 (en) * 2018-01-12 2019-07-18 John Innes Centre Method for identifying genes associated with a particular phenotype
US20200190568A1 (en) * 2018-12-10 2020-06-18 OneSkin Technologies, Inc. Methods for detecting the age of biological samples using methylation markers
KR20200102895A (ko) * 2019-02-22 2020-09-01 이원다이애그노믹스(주) 단일염기다형성 마커를 이용한 동물 개체 식별 방법
CN112292697A (zh) * 2018-04-13 2021-01-29 弗里诺姆控股股份有限公司 用于生物样品的多分析物测定的机器学习实施方式
CN113436684A (zh) * 2021-07-02 2021-09-24 南昌大学 一种癌症分类和特征基因选择方法
CN115651986A (zh) * 2022-10-31 2023-01-31 华中农业大学 利用全基因组snp信息快速鉴定猪品种的方法及其应用
CN115961020A (zh) * 2022-09-08 2023-04-14 西藏民族大学 一种用于高原肺水肿发病风险预测的SNPs位点组合、模型及系统
CN117037905A (zh) * 2023-07-31 2023-11-10 中国农业大学 基于祖先信息标记的鸡品种鉴定方法、系统、设备及介质
CN117437977A (zh) * 2023-05-17 2024-01-23 上海市农业科学院 基于snp和逻辑回归模型预测甜玉米胚乳突变基因的方法
CN117431324A (zh) * 2023-09-20 2024-01-23 中国农业大学 一种奶牛全基因组中高密度snp芯片及其应用
CN117558341A (zh) * 2023-11-29 2024-02-13 南京林业大学 美洲黑杨全基因组育种芯片及其构建方法和应用

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1505684A (zh) * 2001-03-28 2004-06-16 科学与工业研究会 用于野生生物鉴定的通用引物
CN101629209A (zh) * 2009-08-14 2010-01-20 西北农林科技大学 一种检测黄牛Six6基因单核苷酸多态性的方法
US20140032122A1 (en) * 2012-07-27 2014-01-30 The Johns Hopkins University Gene-wide significance (gwis) test: novel gene-based methods for the identification of genetic associations having multiple independent effects
US20150317444A1 (en) * 2012-12-13 2015-11-05 Metabogen Ab Identification of a Person Having Risk for Developing Type 2 Diabetes
WO2019138244A1 (en) * 2018-01-12 2019-07-18 John Innes Centre Method for identifying genes associated with a particular phenotype
CN112292697A (zh) * 2018-04-13 2021-01-29 弗里诺姆控股股份有限公司 用于生物样品的多分析物测定的机器学习实施方式
US20200190568A1 (en) * 2018-12-10 2020-06-18 OneSkin Technologies, Inc. Methods for detecting the age of biological samples using methylation markers
KR20200102895A (ko) * 2019-02-22 2020-09-01 이원다이애그노믹스(주) 단일염기다형성 마커를 이용한 동물 개체 식별 방법
CN113436684A (zh) * 2021-07-02 2021-09-24 南昌大学 一种癌症分类和特征基因选择方法
CN115961020A (zh) * 2022-09-08 2023-04-14 西藏民族大学 一种用于高原肺水肿发病风险预测的SNPs位点组合、模型及系统
CN115651986A (zh) * 2022-10-31 2023-01-31 华中农业大学 利用全基因组snp信息快速鉴定猪品种的方法及其应用
CN117437977A (zh) * 2023-05-17 2024-01-23 上海市农业科学院 基于snp和逻辑回归模型预测甜玉米胚乳突变基因的方法
CN117037905A (zh) * 2023-07-31 2023-11-10 中国农业大学 基于祖先信息标记的鸡品种鉴定方法、系统、设备及介质
CN117431324A (zh) * 2023-09-20 2024-01-23 中国农业大学 一种奶牛全基因组中高密度snp芯片及其应用
CN117558341A (zh) * 2023-11-29 2024-02-13 南京林业大学 美洲黑杨全基因组育种芯片及其构建方法和应用

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
王俊杰;赵勇;闵令江;雷初朝;沈伟;: "羊经济性状全基因组关联分析与基因组育种的研究进展", 家畜生态学报, no. 11, 15 November 2017 (2017-11-15) *
王琦;朱迪;王宇哲;吴杰;胡晓湘;赵毅强;: "全基因组SNP分型策略及基因组预测方法的研究进展", 畜牧兽医学报, no. 02, 31 December 2020 (2020-12-31) *

Similar Documents

Publication Publication Date Title
CN114999573B (zh) 一种基因组变异检测方法及检测系统
Van Bers et al. The design and cross‐population application of a genome‐wide SNP chip for the great tit Parus major
CN109346130B (zh) 一种直接从全基因组重测序数据中得到微单体型及其分型的方法
CN108647495B (zh) 身份关系鉴定方法、装置、设备及存储介质
Pool Genetic mapping by bulk segregant analysis in Drosophila: experimental design and simulation-based inference
Yoosefzadeh-Najafabadi et al. Genome-wide association study statistical models: A review
Li et al. Multiple linkage disequilibrium mapping methods to validate additive quantitative trait loci in Korean native cattle (Hanwoo)
Kearsey QTL analysis: problems and (possible) solutions.
Chen et al. Genetic diversity of Prunus sibirica L. superior accessions based on the SSR markers developed using restriction-site associated DNA sequencing
CN108694304B (zh) 一种身份关系鉴定方法、装置、设备及存储介质
CN117746979A (zh) 一种动物品种的鉴定方法
Liang et al. Globally relaxed selection and local adaptation in Boechera stricta
CN113981070B (zh) 胚胎染色体微缺失的检测方法、装置、设备和存储介质
Zheng et al. Genetic adaptation of Tibetan poplar (Populus szechuanica var. tibetica) to high altitudes on the Qinghai–Tibetan Plateau
Sottile et al. Penalized classification for optimal statistical selection of markers from high-throughput genotyping: application in sheep breeds
Robledo‐Arnuncio et al. Measuring viability selection from prospective cohort mortality studies: A case study in maritime pine
CN112102880A (zh) 品种鉴定的方法、其预测模型的构建方法和装置
Kadarmideen et al. Combined genetic, genomic and transcriptomic methods in the analysis of animal traits.
Karacaören An evaluation of machine learning for genomic prediction of hairy syndrome in dairy cattle.
CN113450878A (zh) 一种基于ld精减gbs标记划分玉米群体结构的方法
CN116168761B (zh) 核酸序列特征区域确定方法、装置、电子设备及存储介质
CN117210596B (zh) 一种甜瓜snp位点标记组合、检测snp位点标记探针组合、液相芯片及应用
CN117637020B (zh) 一种基于深度学习的四倍体牡蛎全基因组snp分型方法
Azizi et al. Study of population structure and genetic prediction of buffalo from different provinces of Iran using machine learning method
Merondun et al. The contribution of epigenetic variation to evolution in crows

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination