CN116072226A - 一种用于蛋鸡产蛋性状基因组选择的机器学习方法及系统 - Google Patents

一种用于蛋鸡产蛋性状基因组选择的机器学习方法及系统 Download PDF

Info

Publication number
CN116072226A
CN116072226A CN202310084899.9A CN202310084899A CN116072226A CN 116072226 A CN116072226 A CN 116072226A CN 202310084899 A CN202310084899 A CN 202310084899A CN 116072226 A CN116072226 A CN 116072226A
Authority
CN
China
Prior art keywords
model
phenotype
historical
laying hen
laying
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310084899.9A
Other languages
English (en)
Inventor
孙从佼
杨宁
李晓畅
代大庆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Agricultural University
Original Assignee
China Agricultural University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Agricultural University filed Critical China Agricultural University
Priority to CN202310084899.9A priority Critical patent/CN116072226A/zh
Publication of CN116072226A publication Critical patent/CN116072226A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • Public Health (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioethics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明提供了一种用于蛋鸡产蛋性状基因组选择的机器学习方法及系统,涉及机器学习技术领域。本发明包括:确定待测蛋鸡的DNA样本中的特征独立位点;对特征独立位点进行主成分分析,得到待测蛋鸡的特征矩阵;将特征矩阵输入到表型预测模型中,得到待测蛋鸡的表型预测结果;基于表型预测结果,对待测蛋鸡进行产蛋性状基因组选择。本发明通过集成算法(Stacking)有效提高基因组预测的准确性,能够加快育种的进展和准确度,对蛋鸡生产实践基因组选择研究具有推动作用。

Description

一种用于蛋鸡产蛋性状基因组选择的机器学习方法及系统
技术领域
本发明涉及机器学习技术领域,特别是涉及一种用于蛋鸡产蛋性状基因组选择的机器学习方法及系统。
背景技术
在过去20年里,科学家们已经在生物医学领域逐步实现基因组数据的整合和有效利用,但在动物育种方面,对适用于不同动物的基因组选择模型的研究仍处于起步阶段。相对于简单且相对可控的植物基因组,动物基因组的复杂性使得处理大基因组数据(如单核苷酸多态性,SNP)常会受到各种困难的挑战。使用传统的线性模型很难适应隐藏在大量嘈杂和冗余数据中的复杂关系,也无法解决缺乏足够的观察值以及预测变量P泛滥(这种情况也称为“大P,小N”范式或“维数灾难”)带来的阻碍。
当传统模型无法处理或建模具有复杂数据结构的大数据时,深度学习(DL)等机器学习(ML)技术可以极大地帮助提取模式和相似关系。在理论上,机器学习的非参数模型适合解决这些问题。信息呈指数增长的可用性以及随之而来的计算处理能力的提升,导致了更先进的最大似然方法的发展,并使得特定类型的神经网络和集成学习方法得以实现。目前世界各地的研究组通过各种机器学习方法,在不同物种不同性状上进行算法试验,以期收获合适的模型。有的学者提出通过ML改进现有的基因组选择模型(GBLUP)或Bayes模型,也有学者试图直接将SNP分型信息作为特征输入模型进行训练,大都产生了不错的效果。
在蛋鸡生产过程中,蛋鸡的产蛋数一直是生产者关注的重要经济指标。产蛋数的增长则是蛋鸡育种行业的核心育种目标。近年来,世界各育种企业相继开始超长产蛋期的研究,蛋鸡的生产周期终点从原来的70周龄延长至90周龄以上,致使对后期产蛋数的选择也需要进一步优化。产蛋数性状本质都是蛋鸡个体自身成百上千性状的集合,相当于一个复杂系统,非常适合用来进行机器学习模型的研究和探讨。
本发明设计的堆叠(Stacking)集成算法可以有效的提高基因组预测的准确性,这将对蛋鸡生产实践和基于机器学习算法的基因组选择研究产生一定的推动作用,加快育种的进展和准确度。
发明内容
本发明的目的是提供一种用于蛋鸡产蛋性状基因组选择的机器学习方法及系统,通过集成算法有效提高基因组预测的准确性,能够加快育种的进展和准确度,对蛋鸡生产实践基因组选择研究具有推动作用。
为实现上述目的,本发明提供了如下方案:
一种用于蛋鸡产蛋性状基因组选择的机器学习方法,包括:
确定待测蛋鸡的DNA样本中的特征独立位点;
对所述特征独立位点进行主成分分析,得到待测蛋鸡的特征矩阵;
将所述特征矩阵输入到表型预测模型中,得到待测蛋鸡的表型预测结果;所述表型预测模型是利用蛋鸡的多个DNA训练样本,对初始表型预测模型进行训练得到的;所述初始表型预测模型是利用集成算法对自适应增强提升算法(AdaBoost)模型、支持向量机回归模型、K最近邻(KNN)模型、梯度提升决策树改进(Xgboost)模型、分布式梯度提升框架(LightGBM)模型和卷积神经网络进行集成得到的;
基于所述表型预测结果,对所述待测蛋鸡进行产蛋性状基因组选择。
可选的,所述确定待测蛋鸡的DNA样本中的特征独立位点,包括:
对所述DNA样本进行基因分型,确定DNA样本上每个位点的基因型和最小等位基因频率;所述基因型包括纯合I型、纯合II型和杂合型;
确定最小等位基因频率大于最小等位基因频率阈值的位点为初始独立位点;
对初始独立位点进行关联性去除,得到多个独立位点;
利用随机森林算法对多个独立位点和表型进行关联拟合,并按照重要性对多个独立位点进行降序排列;
获取前预设比例的独立位点为特征独立位点。
可选的,在确定待测蛋鸡的DNA样本中的特征独立位点之前还包括:
构建初始表型预测模型;
获取多个DNA训练样本,以及每个DNA训练样本的实际表型;
确定每个历史DNA样本的历史特征独立位点;
对多个蛋鸡对应历史特征独立位点进行主成分分析,得到每个蛋鸡的历史特征矩阵;
以所述历史特征矩阵为输入,以对应蛋鸡的历史DNA样本的实际表型为输出,对初始表型预测模型进行训练,得到表型预测模型。
可选的,确定每个历史DNA样本的历史特征独立位点,包括:
确定任一历史DNA样本为当前历史DNA样本;
对所述当前历史DNA样本进行基因分型,确定当前历史DNA样本上每个位点的基因型和最小等位基因频率;所述基因型包括纯合I型、纯合II型和杂合型;
确定最小等位基因频率大于最小等位基因频率阈值的位点为初始历史独立位点;
对初始历史独立位点进行关联性去除,得到多个历史独立位点;
利用随机森林算法对多个历史独立位点和表型进行关联拟合,并按照重要性对多个历史独立位点进行降序排列;
获取前预设比例的独立位点为当前历史DNA样本的历史特征独立位点。
可选的,以所述历史特征矩阵为输入,以对应蛋鸡的历史DNA样本的实际表型为输出,对初始表型预测模型进行训练,得到表型预测模型,包括:
以所述历史特征矩阵为输入,以对应蛋鸡的历史DNA样本的实际表型为输出,对AdaBoostRegressor模型进行训练得到第一模型;
以所述历史特征矩阵为输入,以对应蛋鸡的历史DNA样本的实际表型为输出,对支持向量机回归模型进行训练得到第二模型;
以所述历史特征矩阵为输入,以对应蛋鸡的历史DNA样本的实际表型为输出,对KNN模型进行训练得到第三模型;
以所述历史特征矩阵为输入,以对应蛋鸡的历史DNA样本的实际表型为输出,对Xgboost模型进行训练得到第四模型;
以所述历史特征矩阵为输入,以对应蛋鸡的历史DNA样本的实际表型为输出,对LightGBM模型进行训练得到第五模型;
将多个蛋鸡的历史特征矩阵分别输入到所述第一模型中,得到每个蛋鸡的表型第一预测结果;
将多个蛋鸡的历史特征矩阵分别输入到所述第二模型中,得到每个蛋鸡的表型第二预测结果;
将多个蛋鸡的历史特征矩阵分别输入到所述第三模型中,得到每个蛋鸡的表型第三预测结果;
将多个蛋鸡的历史特征矩阵分别输入到所述第四模型中,得到每个蛋鸡的表型第四预测结果;
将多个蛋鸡的历史特征矩阵分别输入到所述第五模型中,得到每个蛋鸡的表型第五预测结果;
将同一蛋鸡对应的第一预测结果、第二预测结果、第三预测结果、第四预测结果和第五预测结果连接作为对应蛋鸡的中间特征,得到多个蛋鸡的中间特征;
以多个蛋鸡的中间特征为输入,以对应蛋鸡的历史DNA样本的实际表型为输出,对卷积神经网络进行训练,得到第六模型;
以所述第一模型、第二模型、第三模型、第四模型和第五模型为初级模型,以第六模型为次级模型,利用集成算法构建表型预测模型。
一种用于蛋鸡产蛋性状基因组选择的机器学习系统,包括:
特征独立位点确定模块,用于确定待测蛋鸡的DNA样本中的特征独立位点;
特征矩阵确定模块,用于对所述特征独立位点进行主成分分析,得到待测蛋鸡的特征矩阵;
表型预测模块,用于将所述特征矩阵输入到表型预测模型中,得到待测蛋鸡的表型预测结果;所述表型预测模型是利用蛋鸡的多个DNA训练样本,对初始表型预测模型进行训练得到的;所述初始表型预测模型是利用集成算法对自适应增强提升算法模型、支持向量机回归模型、K最近邻模型、梯度提升决策树改进模型、分布式梯度提升框架模型和卷积神经网络进行集成得到的;
产蛋性状基因组选择模块,用于基于所述表型预测结果,对所述待测蛋鸡进行产蛋性状基因组选择。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明提供的用于蛋鸡产蛋性状基因组选择的机器学习方法及系统,通过集成算法对对AdaBoostRegressor模型、支持向量机回归模型、KNN模型、Xgboost模型、LightGBM模型和卷积神经网络进行集成得到表型预测模型,能够有效提高基因组预测的准确性,能够加快育种的进展和准确度,对蛋鸡生产实践基因组选择研究具有推动作用。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例1用于蛋鸡产蛋性状基因组选择的机器学习方法流程图;
图2为本发明实施例1用于蛋鸡产蛋性状基因组选择的机器学习方法原理图;
图3为本发明实施例1用于蛋鸡产蛋性状基因组选择的机器学习方法预测结果图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种用于蛋鸡产蛋性状基因组选择的机器学习方法及系统,通过集成算法有效提高基因组预测的准确性,能够加快育种的进展和准确度,对蛋鸡生产实践基因组选择研究具有推动作用。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
实施例1
如图1所示,本实施例提供了一种用于蛋鸡产蛋性状基因组选择的机器学习方法,包括:
步骤101:确定待测蛋鸡的DNA样本中的特征独立位点。
步骤102:对特征独立位点进行主成分分析,得到待测蛋鸡的特征矩阵。
例如,步骤102包括:
步骤1021:对DNA样本进行基因分型,确定DNA样本上每个位点的基因型和最小等位基因频率;基因型包括纯合I型、纯合II型和杂合型。
步骤1022:确定最小等位基因频率大于最小等位基因频率阈值的位点为初始独立位点。
步骤1023:对初始独立位点进行关联性去除,得到多个独立位点。
步骤1024:利用随机森林算法对多个独立位点和表型进行关联拟合,并按照重要性对多个独立位点进行降序排列。
步骤1025:获取前预设比例的独立位点为特征独立位点。
目标群体和性状要求
本实施例对于目标群体和性状有如下三个要求:首先是入选个体必须具有完整且准确的表型记录信息;其次是入选个体需成长到一定年龄以满足采血进行DNA检测的要求;最后是目标性状所包含的有效样本数需大于500。
DNA提取和芯片测定
在对蛋鸡提取血样后,按照天根生化科技(北京)有限公司DNA提取试剂盒(DP318)说明书标准流程提取母鸡血液DNA样本。
之后对DNA样本进行基因分型。基因型是同一个基因座位上两个等位基因的组合。通常一个基因座位只有两种等位基因,因此基因型通常有三种,即“纯合I型”,“纯合II型”以及“杂合型”。而区分三种基因型的生化检测过程,即为基因分型。为保证分型准确性和节约成本,本实施例通过SNP芯片完成基因分型工作。SNP芯片是一类能够快速高效检测基因组上固定位置的基因型的生物芯片,为满足各种需求,不同芯片在位点密度和位点类型上存在很大区别。在本发明中采用的芯片,密度中等即可(10K-100K),过低的SNP密度会导致芯片结果包含的信息量不足以满足模型拟合的要求;而过高的SNP密度则会导致信息冗余,致使模型维度过高,造成过拟合。
另外,完成分型检测后,本实施例要求位点的检出率在85%以上,即该位点必须在85%的个体中被检出。
最终,本实施例能获得每个个体10K-100K数量的位点分型信息,作为原始数据构成一个N(样本数)×K(位点数)的矩阵,代入到下一步的处理过程中。
特征工程是将原始数据转化成更好的表达问题本质的特征的过程,目的是提高预测模型的预测精度,降低模型运算时间,提高运行效率。
在本发明中,特征工程主要包括位点质量控制,位点填充,独立位点筛选以及降维过程。
1.本实施例使用PLINKv1.9软件对分型后的原始数据进行最小等位基因频率(MAF)的筛选,本实施例保留MAF>0.05的位点;
2.本实施例使用Beagle对数据中的缺失位点进行了基因型填充;
3.本实施例在PLINKv1.9中使用25kb的窗口,5kb的步长,去掉关联很强的位点,而保留位点间关联程度r2<0.2的位点(LDindep-pairwise2550.2)作为独立位点,参与下一步的特征选取;
4.本实施例使用Python程辑包Sklearn中的RandomForestRegressor模块,通过随机森林算法,拟合独立位点与表型之间的关联,并获得位点重要性排序(ImportanceRank)。本实施例选择排序中前80%的位点作为重要独立位点代入到下一步的特征选取。
5.本实施例使用GCTA对4中所得的重要独立位点进行主成分分析(PCA),并取前30维度作为特征工程的结果。
最终,本实施例获得了每个个体的30个特征值作为特征工程的结果,构成了一个N(样本数)×30的矩阵,作为机器学习训练模型的输入部分。
步骤103:将特征矩阵输入到表型预测模型中,得到待测蛋鸡的表型预测结果;所述表型预测模型是利用蛋鸡的多个DNA训练样本,对初始表型预测模型进行训练得到的;所述初始表型预测模型是利用集成算法对自适应增强提升算法模型、支持向量机回归模型、K最近邻模型、梯度提升决策树改进模型、分布式梯度提升框架模型和卷积神经网络进行集成得到的。
步骤104:基于表型预测结果,对待测蛋鸡进行产蛋性状基因组选择。
在步骤101之前还包括:例如,步骤105-步骤109。
步骤105:构建初始表型预测模型。
步骤106:获取多个DNA训练样本,以及每个DNA训练样本的实际表型。
步骤107:确定每个历史DNA样本的历史特征独立位点。
例如步骤107包括:
步骤1071:确定任一历史DNA样本为当前历史DNA样本。
步骤1072:对当前历史DNA样本进行基因分型,确定当前历史DNA样本上每个位点的基因型和最小等位基因频率;基因型包括纯合I型、纯合II型和杂合型。
步骤1073:确定最小等位基因频率大于最小等位基因频率阈值的位点为初始历史独立位点。
步骤1074:对初始历史独立位点进行关联性去除,得到多个历史独立位点。
步骤1075:利用随机森林算法对多个历史独立位点和表型进行关联拟合,并按照重要性对多个历史独立位点进行降序排列。
步骤1076:获取前预设比例的独立位点为当前历史DNA样本的历史特征独立位点。
步骤108:对多个蛋鸡对应历史特征独立位点进行主成分分析,得到每个蛋鸡的历史特征矩阵。
步骤109:以历史特征矩阵为输入,以对应蛋鸡的历史DNA样本的实际表型为输出,对初始表型预测模型进行训练,得到表型预测模型。
例如,步骤109,包括:
步骤1091:以历史特征矩阵为输入,以对应蛋鸡的历史DNA样本的实际表型为输出,对AdaBoostRegressor模型进行训练得到第一模型。
步骤1092:以历史特征矩阵为输入,以对应蛋鸡的历史DNA样本的实际表型为输出,对支持向量机回归模型进行训练得到第二模型。
步骤1093:以历史特征矩阵为输入,以对应蛋鸡的历史DNA样本的实际表型为输出,对KNN模型进行训练得到第三模型。
步骤1094:以历史特征矩阵为输入,以对应蛋鸡的历史DNA样本的实际表型为输出,对Xgboost模型进行训练得到第四模型。
步骤1095:以历史特征矩阵为输入,以对应蛋鸡的历史DNA样本的实际表型为输出,对LightGBM模型进行训练得到第五模型。
步骤1096:将多个蛋鸡的历史特征矩阵分别输入到第一模型中,得到每个蛋鸡的表型第一预测结果。
步骤1097:将多个蛋鸡的历史特征矩阵分别输入到第二模型中,得到每个蛋鸡的表型第二预测结果。
步骤1098:将多个蛋鸡的历史特征矩阵分别输入到第三模型中,得到每个蛋鸡的表型第三预测结果。
步骤1099:将多个蛋鸡的历史特征矩阵分别输入到第四模型中,得到每个蛋鸡的表型第四预测结果。
步骤10910:将多个蛋鸡的历史特征矩阵分别输入到第五模型中,得到每个蛋鸡的表型第五预测结果。
步骤10911:将同一蛋鸡对应的第一预测结果、第二预测结果、第三预测结果、第四预测结果和第五预测结果连接作为对应蛋鸡的中间特征,得到多个蛋鸡的中间特征。
步骤10912:以多个蛋鸡的中间特征为输入,以对应蛋鸡的历史DNA样本的实际表型为输出,对卷积神经网络进行训练,得到第六模型。
步骤10913:以第一模型、第二模型、第三模型、第四模型和第五模型为初级模型,以第六模型为次级模型,利用集成算法构建表型预测模型。
Stacking训练模型
在本发明中,Stacking模型一共有两步:
第一步是用五种常用的机器学习算法分别单独拟合表型与特征之间的关联。本实施例因此能获得五个输出,即五个算法单独的预测结果,构成了一个N(样本数)×5的矩阵;
第二步是将上述的预测结果作为新的特征,通过一个新的算法,再次与表型拟合,得到最终的预测结果。
基于此,在本发明中,本实施例选择了五个稳定性较高的算法作为初级算法。本实施例使用python中的Sklearn(包含AdaBoostRegressor,SVR,KNN等多个本实施例预备使用的机器学习模块)、Xgboost、LightGBM共三个程辑包来完成stacking的初级算法的构建,然后使用pytorch构建一个多层的卷积神经网络作为次级算法,实现stacking的双层构建。
在算法拟合的过程中使用5折交叉验证来避免过拟合,使用Grid-search方法来实现最佳参数检索。
模型训练过程如下:
1.本实施例使用sklearn包中的AdaBoostRegressor,SVR,KNN模块,以及Xgboost,LightGBM共5种算法,分别对表型和特征结果进行拟合,得到关于表型的5个预测值。如上所述,这些预测值作为初级算法的输出,亦为次级算法的输入;
2.本实施例使用Pytorch程辑包,ReLU作为激活函数,构建一个三层的卷积神经网络(CNN)作为次级模型,将表型与上述5个预测值进行拟合,得到次级模型的输出结果,作为最终表型的预测值,代入进行下一步检验。
在训练过程中,本实施例对每个算法拟合过程均使用5折交叉验证(5-foldcrossvalidation)降低过拟合的影响。具体方式是将整个样本集平均分为5份,4份作为训练集,1份作为测试集,进行5次训练,这样就能得到样本集中每个个体的预测值。
另外,在训练过程中,本实施例使用Grid-search方法,实现最佳参数的检索。具体方式是:首先人为设置所有待选参数的所有可能取值,然后穷举待选参数的所有组合进行模型验证,进而实现最佳参数组合的挑选。
预测结果验证和展示
本实施例用均方根误差(RMSE)来判断预测准确性。RMSE的值越小,说明模型拟合效果越好。另外,本实施例使用5折交叉验证结果来判断模型拟合的稳定性。
本实施例选择具有完整且准确的表型记录信息的北京市华都峪口禽业有限责任公司(BeijingHuaduYukouPoultryIndustryCo,Ltd)洛岛红纯系蛋鸡群体,所用系谱为12~16世代共5个世代,一共包含4190只母鸡。
2.分别在蛋鸡38/48/56/72/80/90周龄采血,并用天根生化科技(北京)有限公司DNA提取试剂盒(DP318)提取DNA。具体操作如下:
(1)用移液器吸取10μl鸡血与2ml的离心管中,加入200μl的GS缓冲液。
(2)加入20μlProteinaseK溶液,混合均匀。
(3)加200μl缓冲液GB,充分颠倒混匀,56℃放置10min,其间颠倒混匀数次,溶液应变清亮(如溶液未彻底变清亮,请延长裂解时间至溶液清亮为止)。
(4)加200μl无水乙醇,充分颠倒混匀,此时可能会出现絮状沉淀。
(5)将上一步所得溶液和絮状沉淀都加入一个吸附柱CB3中(吸附柱放入收集管中),12000rpm(~13400×g)下离心30秒,倒掉收集管中的废液,将吸附柱CB3放入收集管中。向吸附柱CB3中加入500μlGD缓冲液,12000rpm(~13400×g)下离心30秒,倒掉收集管中的废液,将吸附柱CB3放入收集管中。
(6)向吸附柱CB3中加入600μl的PW漂洗液,12000rpm(~13400×g)下离心30秒,倒掉收集管中的废液,将吸附柱CB3放入收集管中。
(7)重复操作步骤6。
(8)12,000rpm(~13,400×g)下离心2分钟,倒掉废液。将吸附柱CB3置于室温放置数分钟,以彻底晾干吸附材料中残余的漂洗液。
(9)将吸附柱CB3转入1.5ml离心管中,向吸附膜中间位置悬空滴加100μl洗脱缓冲液TB,室温放置2min-5min,12000rpm(~13,400×g)离心2min,将溶液收集到离心管中。
(10)重复步骤9,以提高DNA得率。
(11)基因组DNA的纯度和完整性的检查:配置浓度为1%的琼脂糖凝胶,取0.5μl基因组DNA,加入2.5ul的6×loadingbuffer,在110V电压下电泳25分钟后使用凝胶成像系统观察。
(12)基因组DNA的浓度的检查:取1.5ul基因组DNA溶液,用超微量分光光度计测量样品。在230nm、260nm和280nm处的吸光值并记录。
3.采用本课题组独立开发的illumina50K芯片“凤芯壹号”中等密度SNP芯片对4190个个体进行基因分型。该芯片包含43681个有效位点,其中含有约16.5KSNPs与蛋鸡重要经济性状相关,主要分布在鸡的1-28号常染色体、32号和33号常染色体、一个连锁群(LGE64)和性染色体(Z)。该芯片是基于Gallus_gallus-5.0版本的参考基因组建立的,在我们的研究中,已将所有位点转换到Gallus_gallus-6.0版本上。基因分型的具体步骤如下:
(1)准备500ng-750nggDNA,利用NaOH变性。
(2)将gDNA恒温过夜,进行基因组全扩增,该过程不会产生等位基因偏向性扩增。
(3)扩增产物用随机内切酶酶切片断化。
(4)乙醇沉淀DNA,重新悬浮。
(5)杂交:将DNA片段与芯片进行杂交(准备芯片,在毛细管流通的小室进行杂交),芯片的微珠上连接有50-mers长度特异性捕获探针,gDNA酶切后产物与探针互补序列结合,杂交过夜。
(6)单碱基延伸:双色荧光染料标记的核苷酸底物(T和C)在捕获探针上进行单碱基延伸。只有与gDNA发生互补结合的探针才能得到延伸。
(7)芯片清洗后进行扫描。
(8)利用软件判读分型结果,SNP位点通过两种荧光颜色读取区分。
最终SNP位点检出率在86%。
4.我们用plink完成了质控,筛选了MAF。我们选择MAF>=0.05的SNP。通过此过程得到得到36,985个SNP。
5.我们用plink完成了独立位点的挑选。使用plink(v1.90)(pairwise25502)提取1989个与LD无关的SNP。
6.我们用GCTA完成了PCA的计算,并选择保留了前30个主成分。
7.我们用python中的sklearn、Xgboost、LightGBM程辑包完成了两级stacking模型构建,其中使用grid-search完成了最佳参数的挑选。并通过5折交叉验证的方式提升了模型的稳定性和普适性,降低了模型过拟合的风险。
8.我们使用构建好的stacking模型拟合了蛋鸡各周龄产蛋量与基因型的关联,并对产蛋量进行了预测,然后使用均方根误差(RootMeanSquaredError,RMSE)判断预测结果的准确性。
最终得到的结果如下图3所示(EN表示EggNumber,后面的数字表示蛋鸡所处周龄),对于不同周龄产蛋数的预测结果RMSE来看,stacking算法相比其他ML算法误差是最小的,具有非常显著的优势。
实施例2
为了执行上述实施例一对应的方法,以实现相应的功能和技术效果,下面提供了一种用于蛋鸡产蛋性状基因组选择的机器学习系统,包括:
特征独立位点确定模块,用于确定待测蛋鸡的DNA样本中的特征独立位点。
特征矩阵确定模块,用于对特征独立位点进行主成分分析,得到待测蛋鸡的特征矩阵。
表型预测模块,用于将特征矩阵输入到表型预测模型中,得到待测蛋鸡的表型预测结果;所述表型预测模型是利用蛋鸡的多个DNA训练样本,对初始表型预测模型进行训练得到的;所述初始表型预测模型是利用集成算法对自适应增强提升算法模型、支持向量机回归模型、K最近邻模型、梯度提升决策树改进模型、分布式梯度提升框架模型和卷积神经网络进行集成得到的。
产蛋性状基因组选择模块,用于基于表型预测结果,对待测蛋鸡进行产蛋性状基因组选择。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (6)

1.一种用于蛋鸡产蛋性状基因组选择的机器学习方法,其特征在于,包括:
确定待测蛋鸡的DNA样本中的特征独立位点;
对所述特征独立位点进行主成分分析,得到待测蛋鸡的特征矩阵;
将所述特征矩阵输入到表型预测模型中,得到待测蛋鸡的表型预测结果;所述表型预测模型是利用蛋鸡的多个DNA训练样本,对初始表型预测模型进行训练得到的;所述初始表型预测模型是利用集成算法对自适应增强提升算法模型、支持向量机回归模型、K最近邻模型、梯度提升决策树改进模型、分布式梯度提升框架模型和卷积神经网络进行集成得到的;
基于所述表型预测结果,对所述待测蛋鸡进行产蛋性状基因组选择。
2.根据权利要求1所述的一种用于蛋鸡产蛋性状基因组选择的机器学习方法,其特征在于,所述确定待测蛋鸡的DNA样本中的特征独立位点,包括:
对所述DNA样本进行基因分型,确定DNA样本上每个位点的基因型和最小等位基因频率;所述基因型包括纯合I型、纯合II型和杂合型;
确定最小等位基因频率大于最小等位基因频率阈值的位点为初始独立位点;
对初始独立位点进行关联性去除,得到多个独立位点;
利用随机森林算法对多个独立位点和表型进行关联拟合,并按照重要性对多个独立位点进行降序排列;
获取前预设比例的独立位点为特征独立位点。
3.根据权利要求1所述的一种用于蛋鸡产蛋性状基因组选择的机器学习方法,其特征在于,在确定待测蛋鸡的DNA样本中的特征独立位点之前还包括:
构建初始表型预测模型;
获取多个DNA训练样本,以及每个DNA训练样本的实际表型;
确定每个历史DNA样本的历史特征独立位点;
对多个蛋鸡对应历史特征独立位点进行主成分分析,得到每个蛋鸡的历史特征矩阵;
以所述历史特征矩阵为输入,以对应蛋鸡的历史DNA样本的实际表型为输出,对初始表型预测模型进行训练,得到表型预测模型。
4.根据权利要求3所述的一种用于蛋鸡产蛋性状基因组选择的机器学习方法,其特征在于,确定每个历史DNA样本的历史特征独立位点,包括:
确定任一历史DNA样本为当前历史DNA样本;
对所述当前历史DNA样本进行基因分型,确定当前历史DNA样本上每个位点的基因型和最小等位基因频率;所述基因型包括纯合I型、纯合II型和杂合型;
确定最小等位基因频率大于最小等位基因频率阈值的位点为初始历史独立位点;
对初始历史独立位点进行关联性去除,得到多个历史独立位点;
利用随机森林算法对多个历史独立位点和表型进行关联拟合,并按照重要性对多个历史独立位点进行降序排列;
获取前预设比例的独立位点为当前历史DNA样本的历史特征独立位点。
5.根据权利要求3所述的一种用于蛋鸡产蛋性状基因组选择的机器学习方法,其特征在于,以所述历史特征矩阵为输入,以对应蛋鸡的历史DNA样本的实际表型为输出,对初始表型预测模型进行训练,得到表型预测模型,包括:
以所述历史特征矩阵为输入,以对应蛋鸡的历史DNA样本的实际表型为输出,对AdaBoostRegressor模型进行训练得到第一模型;
以所述历史特征矩阵为输入,以对应蛋鸡的历史DNA样本的实际表型为输出,对支持向量机回归模型进行训练得到第二模型;
以所述历史特征矩阵为输入,以对应蛋鸡的历史DNA样本的实际表型为输出,对KNN模型进行训练得到第三模型;
以所述历史特征矩阵为输入,以对应蛋鸡的历史DNA样本的实际表型为输出,对Xgboost模型进行训练得到第四模型;
以所述历史特征矩阵为输入,以对应蛋鸡的历史DNA样本的实际表型为输出,对LightGBM模型进行训练得到第五模型;
将多个蛋鸡的历史特征矩阵分别输入到所述第一模型中,得到每个蛋鸡的表型第一预测结果;
将多个蛋鸡的历史特征矩阵分别输入到所述第二模型中,得到每个蛋鸡的表型第二预测结果;
将多个蛋鸡的历史特征矩阵分别输入到所述第三模型中,得到每个蛋鸡的表型第三预测结果;
将多个蛋鸡的历史特征矩阵分别输入到所述第四模型中,得到每个蛋鸡的表型第四预测结果;
将多个蛋鸡的历史特征矩阵分别输入到所述第五模型中,得到每个蛋鸡的表型第五预测结果;
将同一蛋鸡对应的第一预测结果、第二预测结果、第三预测结果、第四预测结果和第五预测结果连接作为对应蛋鸡的中间特征,得到多个蛋鸡的中间特征;
以多个蛋鸡的中间特征为输入,以对应蛋鸡的历史DNA样本的实际表型为输出,对卷积神经网络进行训练,得到第六模型;
以所述第一模型、第二模型、第三模型、第四模型和第五模型为初级模型,以第六模型为次级模型,利用集成算法构建表型预测模型。
6.一种用于蛋鸡产蛋性状基因组选择的机器学习系统,其特征在于,包括:
特征独立位点确定模块,用于确定待测蛋鸡的DNA样本中的特征独立位点;
特征矩阵确定模块,用于对所述特征独立位点进行主成分分析,得到待测蛋鸡的特征矩阵;
表型预测模块,用于将所述特征矩阵输入到表型预测模型中,得到待测蛋鸡的表型预测结果;所述表型预测模型是利用蛋鸡的多个DNA训练样本,对初始表型预测模型进行训练得到的;所述初始表型预测模型是利用集成算法对自适应增强提升算法模型、支持向量机回归模型、K最近邻模型、梯度提升决策树改进模型、分布式梯度提升框架模型和卷积神经网络进行集成得到的;
产蛋性状基因组选择模块,用于基于所述表型预测结果,对所述待测蛋鸡进行产蛋性状基因组选择。
CN202310084899.9A 2023-01-17 2023-01-17 一种用于蛋鸡产蛋性状基因组选择的机器学习方法及系统 Pending CN116072226A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310084899.9A CN116072226A (zh) 2023-01-17 2023-01-17 一种用于蛋鸡产蛋性状基因组选择的机器学习方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310084899.9A CN116072226A (zh) 2023-01-17 2023-01-17 一种用于蛋鸡产蛋性状基因组选择的机器学习方法及系统

Publications (1)

Publication Number Publication Date
CN116072226A true CN116072226A (zh) 2023-05-05

Family

ID=86179823

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310084899.9A Pending CN116072226A (zh) 2023-01-17 2023-01-17 一种用于蛋鸡产蛋性状基因组选择的机器学习方法及系统

Country Status (1)

Country Link
CN (1) CN116072226A (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104462868A (zh) * 2014-12-11 2015-03-25 西安电子科技大学 一种结合随机森林和Relief-F的全基因组SNP位点分析方法
CN107354220A (zh) * 2017-08-24 2017-11-17 中国农业大学 一种与鸡产蛋数性状相关的分子标记及其应用
CN110211635A (zh) * 2019-06-12 2019-09-06 北京康普森农业科技有限公司 用于畜禽基因组选择分析的方法及畜禽育种方法
CN112233722A (zh) * 2020-10-19 2021-01-15 北京诺禾致源科技股份有限公司 品种鉴定的方法、其预测模型的构建方法和装置
CN113039288A (zh) * 2018-09-29 2021-06-25 中国农业大学 一种蛋鸡全基因组snp芯片及其应用
CN114360651A (zh) * 2021-12-28 2022-04-15 中国海洋大学 一种基因组预测方法、预测系统及应用
CN114863991A (zh) * 2022-06-21 2022-08-05 沈阳农业大学 基于二步预测模型建立的提高全基因组预测精度方法
CN115019885A (zh) * 2022-07-01 2022-09-06 四川新希望六和猪育种科技有限公司 一种猪全基因组snp位点筛选方法、装置及存储介质
CN115410643A (zh) * 2022-08-08 2022-11-29 山东大学 一种基于stacking集成学习的增强子的预测方法、系统、设备及存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104462868A (zh) * 2014-12-11 2015-03-25 西安电子科技大学 一种结合随机森林和Relief-F的全基因组SNP位点分析方法
CN107354220A (zh) * 2017-08-24 2017-11-17 中国农业大学 一种与鸡产蛋数性状相关的分子标记及其应用
CN113039288A (zh) * 2018-09-29 2021-06-25 中国农业大学 一种蛋鸡全基因组snp芯片及其应用
CN110211635A (zh) * 2019-06-12 2019-09-06 北京康普森农业科技有限公司 用于畜禽基因组选择分析的方法及畜禽育种方法
CN112233722A (zh) * 2020-10-19 2021-01-15 北京诺禾致源科技股份有限公司 品种鉴定的方法、其预测模型的构建方法和装置
CN114360651A (zh) * 2021-12-28 2022-04-15 中国海洋大学 一种基因组预测方法、预测系统及应用
CN114863991A (zh) * 2022-06-21 2022-08-05 沈阳农业大学 基于二步预测模型建立的提高全基因组预测精度方法
CN115019885A (zh) * 2022-07-01 2022-09-06 四川新希望六和猪育种科技有限公司 一种猪全基因组snp位点筛选方法、装置及存储介质
CN115410643A (zh) * 2022-08-08 2022-11-29 山东大学 一种基于stacking集成学习的增强子的预测方法、系统、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
ZHUANG LIU 等: ""Genome-wide association analysis of egg production performance in chickens across the whole laying period"", 《BMC GENETICS》, vol. 20, 31 December 2019 (2019-12-31), pages 1 - 9 *

Similar Documents

Publication Publication Date Title
NZ759818A (en) Semi-supervised learning for training an ensemble of deep convolutional neural networks
Piomin et al. Quantitative genetics and developmental psychopathology
AU2019272062A1 (en) Deep learning-based techniques for pre-training deep convolutional neural networks
Kitchen et al. STAGdb: a 30K SNP genotyping array and Science Gateway for Acropora corals and their dinoflagellate symbionts
JP5710674B2 (ja) 血液型同定されたレシピエントに対する交差試験による、血液型が同定された輸血ドナーの選択
JP2007518403A (ja) イヌ科動物血統の同定のための方法および材料
CN110892484A (zh) 用于识别引起序列特异性错误(sse)的序列图案的基于深度学习的框架
Bernard et al. Development of a high-density 665 K SNP array for rainbow trout genome-wide genotyping
CN117230175B (zh) 一种基于三代测序的胚胎植入前遗传学检测方法
Peñalba et al. Sustained plumage divergence despite weak genomic differentiation and broad sympatry in sister species of Australian woodswallows (Artamus spp.)
CN111916151B (zh) 一种苜蓿黄萎病菌的溯源检测方法及应用
CN116246704B (zh) 用于胎儿无创产前检测的系统
CN116072226A (zh) 一种用于蛋鸡产蛋性状基因组选择的机器学习方法及系统
KR20220062263A (ko) 배아에서 유전 패턴을 결정하기 위한 시스템 및 방법(systems and methods for determining pattern of inheritance in embryos)
Xie et al. Towards an evolutionary model of transcription networks
Bouwman et al. Classifying aneuploidy in genotype intensity data using deep learning
Isobe et al. AnAms1. 0: A high-quality chromosome-scale assembly of a domestic cat Felis catus of American Shorthair breed
Hossein-Zadeh An overview of recent technological developments in bovine genomics
Miller-Crews et al. A 2b-RAD parentage analysis pipeline for complex and mixed DNA samples
Kadarmideen et al. Combined genetic, genomic and transcriptomic methods in the analysis of animal traits.
Schipper et al. Gene prioritization in GWAS loci using multimodal evidence
Koko et al. Exome sequencing of UK birth cohorts
Li et al. Inferring predictive genetic models and regulatory elements by deep learning of cross-species single-cell gene expression landscapes
Xu et al. Kinship analysis and pedigree reconstruction by RAD sequencing in cattle
Pearse et al. Identification of northeastern Pacific rockfish using multilocus nuclear DNA genotypes

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination