CN116580772B - 一种预测猪平均日增重的方法 - Google Patents

一种预测猪平均日增重的方法 Download PDF

Info

Publication number
CN116580772B
CN116580772B CN202310321682.5A CN202310321682A CN116580772B CN 116580772 B CN116580772 B CN 116580772B CN 202310321682 A CN202310321682 A CN 202310321682A CN 116580772 B CN116580772 B CN 116580772B
Authority
CN
China
Prior art keywords
pigs
data
average daily
daily gain
relative abundance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310321682.5A
Other languages
English (en)
Other versions
CN116580772A (zh
Inventor
赵云翔
李英
张涛
邓飞龙
彭云娟
刘鑫婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Foshan University
Original Assignee
Foshan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Foshan University filed Critical Foshan University
Publication of CN116580772A publication Critical patent/CN116580772A/zh
Application granted granted Critical
Publication of CN116580772B publication Critical patent/CN116580772B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/10Ontologies; Annotations
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Abstract

本发明公开了一种预测猪平均日增重的方法,涉及生物信息学领域。所述预测猪平均日增重的方法包括以下步骤:获取猪平均日增重数据并筛选与猪平均日增重相关的特定肠道微生物,计算所述特定肠道微生物的相对丰度;获取猪的原始SNP数据,计算与所述特定肠道微生物的相对丰度相关的SNP位点;以所述特定肠道微生物的相对丰度及其相关的SNP位点作为自变量,以猪平均日增重数据作为因变量,构建训练数据集;采用所述训练数据集对初始构建的机器学习回归模型进行训练,获得预测猪平均日增重模型,并基于所述预测猪平均日增重模型对猪只的平均日增重进行预测,可以准确地预测猪只生长过程中的日增重。

Description

一种预测猪平均日增重的方法
技术领域
本发明涉及生物信息学领域,特别涉及一种预测猪平均日增重的方法。
背景技术
我国是一个养猪大国,随着猪肉的需求日益增加,如何提高猪肉产量和改善猪肉质量,成为育种科学家长期的研究重点。早期的育种工作主要集中于对猪的表型选择,随着基因组工作的不断推进和分子标记的使用,通过单核苷酸多态性(single nucleotidepolymorphism,SNP)标记进行育种选择成为了目前的主流,但是该育种选择方式依旧存在准确率不高的问题。
随着近几年肠道微生物研究不断取得新的突破,人们逐渐认识到肠道微生物的重要性。哺乳动物胃肠道存在着大量的微生物群,其基因数量约为宿主基因的1-1.3倍,肠道微生物以及其代谢产物对宿主的生长发育有着不可忽视的影响,而目前鲜有将肠道微生物利用到禽畜育种中。
可见,现有技术还有待改进和提高。
发明内容
鉴于上述现有技术的不足之处,本发明的目的在于提供一种预测猪平均日增重的方法,旨在通过利用肠道微生物和SNP位点预测猪平均日增重,以提高预测的准确性。
为了达到上述目的,本发明采取了以下技术方案:
一种预测猪平均日增重的方法,包括以下步骤:获取猪平均日增重数据并筛选与猪平均日增重相关的特定肠道微生物,计算所述特定肠道微生物的相对丰度;获取猪的原始SNP数据,计算与所述特定肠道微生物的相对丰度相关的SNP位点;以所述特定肠道微生物的相对丰度及其相关的SNP位点作为自变量,以猪平均日增重数据作为因变量,构建训练数据集;采用所述训练数据集对初始构建的机器学习回归模型进行训练,获得预测猪平均日增重模型,并基于所述预测猪平均日增重模型对猪只的平均日增重进行预测。
所述的预测猪平均日增重的方法,其中,所述获取猪平均日增重数据并筛选与猪平均日增重相关的特定肠道微生物,计算所述特定肠道微生物的相对丰度,具体包括以下步骤:从多只猪的肛门采集粪便样品;提取粪便中的微生物基因组DNA,然后进行16S rDNA测序,获得微生物组16S rDNA数据;对所述微生物组16S rDNA数据进行质控和聚类,获得聚类后的16SrDNA数据;根据微生物数据库对每个16S rDNA进行注释,获得肠道微生物种群数据,根据所述肠道微生物种群数据计算各种微生物的相对丰度;根据微生物的相对丰度以及该微生物在猪只中的存在率对所述肠道微生物种群数据进行过滤;计算过滤后的所述肠道微生物种群数据与所述猪平均日增重数据的相关性,获得与所述猪平均日增重数据相关的特定肠道微生物及其相对丰度。
所述的预测猪平均日增重的方法,其中,所述根据微生物的相对丰度以及该微生物在猪只中的存在率对所述肠道微生物种群数据进行过滤,具体包括:保留相对丰度在0.1%以上,且在20%以上的粪便样品中存在的微生物。
所述的预测猪平均日增重的方法,其中,所述计算过滤后的所述肠道微生物种群数据与所述猪平均日增重数据的相关性,获得与所述猪平均日增重数据相关的特定肠道微生物及其相对丰度,具体包括:以所述猪平均日增重数据为因变量,以所述微生物的相对丰度为自变量,构建Lasso模型,以计算过滤后的所述肠道微生物种群数据与所述猪平均日增重数据的相关性,从过滤后的肠道微生物种群数据中筛选出与所述猪平均日增重数据相关的特定肠道微生物及其相对丰度。
所述的预测猪平均日增重的方法,其中,所述计算过滤后的所述肠道微生物种群数据与所述猪平均日增重数据的相关性,获得与所述猪平均日增重数据相关的特定肠道微生物及其相对丰度,具体包括:利用偏相关和信息论算法计算所述肠道微生物种群数据与猪平均日增重数据之间的相关性,以获得与所述猪平均日增重数据相关的特定肠道微生物及其相对丰度。
所述的预测猪平均日增重的方法,其中,所述获取猪的原始SNP数据,计算与所述特定肠道微生物的相对丰度相关的SNP位点,具体包括以下步骤:采集多只猪的组织,提取组织DNA,采用基因芯片进行分型,获得原始SNP数据;对所述原始SNP数据进行过滤,获得过滤后的SNP数据;以所述特定肠道微生物的相对丰度为响应值,以所述过滤后的SNP数据作为预测值,通过模型计算出与所述特定肠道微生物的相对丰度相关的SNP位点。
所述的预测猪平均日增重的方法,其中,所述对所述原始SNP数据进行过滤,获得过滤后的SNP数据,具体包括:去除所述原始SNP数据中符合以下任一条的SNP:缺失率大于0.1的SNP;最小等位基因频率小于0.05的SNP;不符合Hardy-Weinberg平衡的SNP。
所述的预测猪平均日增重的方法,其中,所述以所述特定肠道微生物的相对丰度为响应值,以所述过滤后的SNP数据作为预测值,通过模型计算出与所述特定肠道微生物的相对丰度相关的SNP位点后,还包括:通过邻近算法填补与所述特定肠道微生物的相对丰度相关的SNP位点中的缺失数据。所述的预测猪平均日增重的方法,其特征在于,所述机器学习回归模型为LR模型,其具体方程式为:
Y=0.019X1-0.000326X2-0.00326X3-0.0109X4-0.00503X5+0.00681X6
-0.0064X7+0.00146X8+0.0226X9+0.585X10+0.925
所述方程式中,Y为猪平均日增重的预测值,单位为千克/天,X1至X8依次对应的SNP位点为:rs339933029、rs333900969、rs332402643、rs338935223、rs80986577、rs81415286、rs81437804、rs343769713,所述方程式中SNP位点用0、1或2表示,0表示主等位基因纯合子,1表示杂合子,2表示次等位基因纯合子;X9和X10分别为普雷沃氏菌和土孢杆菌的相对丰度。
所述的预测猪平均日增重的方法,其中,所述机器学习回归模型为XGB模型;所述特定肠道微生物为:甲基杆菌属、弯曲杆菌属、肠杆菌科未分类属、拟杆菌属、普雷沃氏菌属和拟杆菌目未分类科;所述与特定肠道微生物的相对丰度相关的SNP位点为:rs81429163、rs81325861、rs81450579、rs81450581、rs81451919、rs332862557、rs80886192、rs319026277、rs326203392、rs328862801、rs81349632、rs80841854、rs342676309、rs326977015、rs81476003、rs81269743、rs326491162、rs81452654、rs81457084、rs330259558、rs330673669、rs34149272、rs81226653、rs81408398、rs340738784、rs81408146、rs81238518。
有益效果:
本发明提供了一种预测猪平均日增重的方法,通过特定肠道微生物的相对丰度及与其相关的SNP位点作为自变量,以猪平均日增重数据作为因变量,构建机器学习回归模型并进行训练,训练得到的预测猪平均日增重模型通过肠道微生物和SNP位点对猪平均日增重进行预测,预测结果更加准确。
具体实施方式
本发明提供一种预测猪平均日增重的方法,为使本发明的目的、技术方案及效果更加清楚、明确,以下举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
实施例1数据采集
以杜长大三元杂交猪为研究对象,收集385头杜长大三元杂交猪的平均日增重数据以及获取各头猪的原始SNP数据和微生物组16S rDNA数据。
S101.平均日增重数据采集
采用性能自动测定系统测定猪64~150日龄时的日增重,当体重达到130±5KG时,结束测定。原始体重数据经过质控后,计算每只猪的平均日增重。
S102.原始SNP数据获取
采集猪耳组织并进行DNA提取,采用GeneSeek Porcine 50K的基因芯片对385头猪进行基因分型,获得原始SNP数据。
S103.微生物组16S rDNA数据获取
采用直肠拭子从猪的肛门进行粪便样品的采集,采集后的样品暂存于冰盒内,随后转运至实验室-80℃冰箱保存。
微生物基因组DNA提取:采用CTAB对样本基因组DNA进行提取,提取后进行PCR扩增;
PCR扩增的步骤如下:
第一步、98℃预变性1分钟;
第二步、进行30个循环,每个循环依次为:变性:98℃处理10秒;退火:50℃处理30秒;延伸:72℃处理30秒;
第三步、72℃处理5分钟进行延伸。
PCR产物的混样和纯化:根据PCR产物浓度进行等浓度混样,充分混匀后使用1×TAE浓度2%的琼脂糖胶电泳纯化PCR产物,选择割胶回收目标条带。产物纯化试剂盒使用的是Thermo Scientific公司GeneJET胶回收试剂盒。
文库构建和上机测序:使用Illumina公司TruSeq DNA PCR-Free LibraryPreparation Kit建库试剂盒进行文库的构建,构建好的文库经过Qubit定量和文库检测,合格后,使用NovaSeq 6000进行上机测序;获得微生物组16S rDNA数据。
实施例2
一种预测猪平均日增重的方法,包括以下步骤:
S201.获取猪平均日增重数据并筛选与猪平均日增重相关的特定肠道微生物,计算所述特定肠道微生物的相对丰度;
S202.获取猪的原始SNP数据,计算与所述特定肠道微生物的相对丰度相关的SNP位点;
S203.以所述特定肠道微生物的相对丰度及其相关的SNP位点作为自变量,以猪平均日增重数据作为因变量,构建训练数据集;
S204.采用所述训练数据集对初始构建的机器学习回归模型进行训练,获得预测猪平均日增重模型,并基于所述预测猪平均日增重模型对猪只的平均日增重进行预测。
本实施例中,所述获取猪平均日增重数据并筛选与猪平均日增重相关的特定肠道微生物,计算所述特定肠道微生物的相对丰度,具体包括以下步骤:
S2011.对实施例1中获取的微生物组16S rDNA数据进行质控,质控的具体方法如下:利用QIIME2软件中的DADA2插件对微生物组16S rDNA数据进行质控和聚类,聚类后获得多个分类单元;所述质控包括去除序列中的引物,对序列进行截选,过滤掉数量低于2的序列。
S2012.对分类单元进行微生物组数据过滤,过滤后的数据通过比对NCBI RefSeq数据库以对这些分类单元进行物种注释,置信度超过97%的菌种,认为是同一种菌;物种注释后计算各种微生物的相对丰度;
S2013.根据微生物的相对丰度以及该微生物在猪只中的存在率对所述肠道微生物种群数据进行过滤,保留相对丰度超过0.1%,且在60%以上的粪便样品中存在的微生物,经过过滤得到18种微生物。
S2014.计算过滤后的所述肠道微生物种群数据与所述猪平均日增重数据的相关性,从过滤后的肠道微生物种群数据中筛选出与所述猪平均日增重数据相关的特定肠道微生物及其相对丰度,具体包括:利用R语言(版本4.1.3)使用CeTF包实现偏相关和信息论(PCIT)算法计算上述18种菌的相对丰度与猪平均日增重数据之间的相关性,经过计算得到土孢杆菌(Terrisporobacter petrolearius)、普雷沃氏菌(Prevotella copri)与猪平均日增重显著相关。
本实施例中,所述获取猪的原始SNP数据,计算与所述特定肠道微生物的相对丰度相关的SNP位点,具体包括以下步骤:
S2021.对实施例1中获取的原始SNP数据进行过滤,过滤的具体方法如下:利用PLINK(版本1.9)对原始SNP数据进行过滤,排除符合以下任一条件的SNP或个体:(1)个体或SNP缺失率大于0.1的个体或SNP;(2)最小等位基因频率(MAF)小于0.05的SNP;(3)不符合Hardy-Weinberg平衡(HWE)中的SNP;SNP数据的质量不佳,那么计算的结果的有效性和准确性就无法保证,在进行SNP芯片测序采集的过程中,难免在测序、人工操作等方面出现误差,导致不能真实反映个体的情况,如果不对这些测序出现问题的数据进行筛选控制,必然会对后续操作造成影响;
经过过滤处理后得到31931个SNP位点。
S2022.所述以所述特定肠道微生物的相对丰度为响应值,以所述过滤后的SNP数据作为预测值,通过模型计算出与所述特定肠道微生物的相对丰度相关的SNP位点,具体包括:通过python利用scikit-learn包进行Lasso线性模型的建立,其中以土孢杆菌和普雷沃氏菌的相对丰度为响应值,以上述获得的31931个SNP位点为预测值,进行与所述两种细菌相关的SNP位点选择,获得以下与土孢杆菌和普雷沃氏菌的相对丰度相关的SNP位点,具体为:rs339933029、rs333900969、rs332402643、rs338935223、rs80986577、rs81415286、rs81437804、rs343769713。
所述采用所述训练数据集对初始构建的机器学习回归模型进行训练,获得预测猪平均日增重模型,并基于所述预测猪平均日增重模型对猪只的平均日增重进行预测,具体包括:
S2041.通过python利用scikit-learn包建立线性回归模型(LR),分别进行10折交叉验证,每一折将数据分为30%测试数据集和70%的训练数据集,采用训练数据集对模型进行训练,获得的预测猪平均日增重模型的具体方程式为:
Y=0.019X1-0.000326X2-0.00326X3-0.0109X4-0.00503X5+0.00681X6
-0.0064X7+0.00146X8+0.0226X9+0.585X10+0.925
所述方程式中,Y为猪平均日增重的预测值,单位为千克/天,X1至X8依次对应的SNP位点为:rs339933029、rs333900969、rs332402643、rs338935223、rs80986577、rs81415286、rs81437804、rs343769713,所述方程式中SNP位点用0、1或2表示,0表示主等位基因纯合子,1表示杂合子,2表示次等位基因纯合子;X9和X10分别为普雷沃氏菌和土孢杆菌的相对丰度。
以土孢杆菌(Terrisporobacter petrolearius)和普雷沃氏菌(Prevotellacopri)及其相关位点信息进行平均日增重的预测,采用测试集和均方误差(MSE)对模型的预测能力进行检验,以反应预测的准确性,MSE越小代表模型预测能力越准确。
对比例1
一种预测猪平均日增重的方法,其与实施例2的区别在于,所述S2021中,通过python利用scikit-learn包建立随机森林模型(RF),对模型进行训练,获得预测猪平均日增重模型。
对比例2
一种预测猪平均日增重的方法,其与实施例2的区别在于,所述S2021中,通过python利用scikit-learn包建立支持向量回归模型(SVR),对模型进行训练,获得预测猪平均日增重模型。
对比例3
一种预测猪平均日增重的方法,其与实施例2的区别在于,所述S2021中,通过python利用scikit-learn包建立XGB模型,对模型进行训练,获得预测猪平均日增重模型。
对比例4
一种预测猪平均日增重的方法,其与实施例2的区别在于,所述S2021中,通过python利用scikit-learn包建立决策树模型(DT),对模型进行训练,获得预测猪平均日增重模型。
实施例3
一种预测猪平均日增重的方法,其与实施例2的区别在于:
所述S2013中,根据微生物的相对丰度以及该微生物在猪只中的存在率对所述肠道微生物种群数据进行过滤,保留相对丰度超过0.1%,且在20%以上的粪便样品中存在的微生物,经过过滤得到68类微生物(ASV)。
所述S2014中,通过构建LSSO线性回归模型鉴别与猪平均日增重相关的微生物。Lasso模型是使用Python机器学习库scikit-learn实现的,以猪平均日增重数据为因变量,微生物的相对丰度为自变量,模型中的惩罚项通过5倍交叉验证进行调整,最终得到的相关微生物为:甲基杆菌属Methylobacterium(ASV_1)、弯曲杆菌属Campylobacter(ASV_2)、肠杆菌科未分类属Enterobacteriaceae(ASV_3)、拟杆菌属
Bacteroides(ASV_4)、普雷沃氏菌属Prevotella(ASV_6)和拟杆菌目未分类科(ASV_9)。
所述S2022中,通过python利用scikit-learn包建立Lasso线性模型,以上述6类微生物的相对丰度为响应值,以上述获得的31931个SNP位点为预测值,计算与所述两种细菌相关的SNP位点,共获得以下与上述6类微生物的相对丰度相关的SNP位点,具体为:
序号 Trait SNP 序号 Trait SNP
1 ASV_1 rs81429163 11 ASV_2 rs81443784
2 ASV_1 rs81429663 12 ASV_4 rs80821991
3 ASV_2 rs80872010 13 ASV_4 rs80982274
4 ASV_2 rs80796860 14 ASV_4 rs80837723
5 ASV_2 rs80927800 15 ASV_4 rs80805016
6 ASV_2 rs81384192 16 ASV_4 rs80879715
7 ASV_2 rs81233323 17 ASV_4 rs81315938
8 ASV_2 rs81415154 18 ASV_6 rs80968564
9 ASV_2 rs81300123 19 ASV_9 rs81238518
10 ASV_2 rs81418488
上述结果中,没有出现计算出与肠杆菌科未分类属(ASV_3)相关的SNP位点。
所述S2041中,通过python利用scikit-learn包建立线性回归模型(LR),对模型进行训练,获得预测猪平均日增重模型。
实施例4
一种预测猪平均日增重的方法,其与实施例3的区别在于:所述S2041中,通过python利用scikit-learn包建立机器学习随机森林回归模型(RF),对模型进行训练,获得预测猪平均日增重模型。
实施例5
一种预测猪平均日增重的方法,其与实施例3的区别在于:
所述S2022中,通过全基因组关联分析(GWAS),鉴定出与甲基杆菌属(ASV_1)、弯曲杆菌属(ASV_2)、肠杆菌科未分类属(ASV_3)、拟杆菌属(ASV_4)、普雷沃氏菌属(ASV_6)和拟杆菌目未分类科(ASV_9)的相对丰度显著相关的SNP位点,共获得如下27个相关的SNP位点:
序号 Trait SNP 序号 Trait SNP
1 ASV_1 rs81429163 15 ASV_3 rs81476003
2 ASV_1 rs81325861 16 ASV_3 rs81269743
3 ASV_1 rs81450579 17 ASV_3 rs326491162
4 ASV_1 rs81450581 18 ASV_3 rs81452654
5 ASV_1 rs81451919 19 ASV_3 rs81457084
6 ASV_2 rs332862557 20 ASV_4 rs330259558
7 ASV_2 rs80886192 21 ASV_4 rs330673669
8 ASV_2 rs319026277 22 ASV_4 rs34149272
9 ASV_2 rs326203392 23 ASV_6 rs81226653
10 ASV_2 rs328862801 24 ASV_6 rs81408398
11 ASV_3 rs81349632 25 ASV_6 rs340738784
12 ASV_3 rs80841854 26 ASV_6 rs81408146
13 ASV_3 rs342676309 27 ASV_9 rs81238518
14 ASV_3 rs326977015
利用邻近算法(KNN)填补上述27个SNP位点中的缺失数据。
所述S2041中,通过python利用scikit-learn包建立机器学习XGB回归模型,对模型进行训练,获得预测猪平均日增重模型。
对实施例2、对比例1-4训练得到的预测猪平均日增重模型进行10次交叉验证,10次交叉验证的均方误差(MSE)如下表所示,MSE越小代表模型预测能力越准确:
从实施例2以及对比例1-4的结果中可以看出,当限定特定肠道微生物为普雷沃氏菌和土孢杆菌,以及限定SNP位点为:rs339933029、rs333900969、rs332402643、rs338935223、rs80986577、rs81415286、rs81437804、rs343769713时,以训练LR模型所得到的预测猪平均日增重模型,其10次交叉验证的均方误差(MSE)比其他模型更小,准确率更高。
实施例3中,对S2013中对过滤条件进行了调整,保留相对丰度超过0.1%,且在20%以上的粪便样品中存在的微生物,过滤后得到微生物类型更多,并最终获得的相关微生物类型更多,得到的特定肠道微生物共有6类,通过采用Lasso线性模型筛选SNP位点,得到的相关SNP位点有27个,进一步训练线性回归模型(LR)所得到的预测猪平均日增重模型,其10次交叉验证的均方误差(MSE)比实施例2的小,但是降幅不明显,仅有0.4%。从实施例2和实施例3的结果上看,若仅增加用于预测猪日平均增重的微生物类型及相关的SNP位点,并不能提高模型的预测准确率。
实施例4中,采用了训练随机森林回归模型(RF)所得到的预测猪平均日增重模型,其10次交叉验证的均方误差(MSE)大小比实施例2有明显的下降,下降率为4.1%,说明在增加了预测的微生物类型的条件下,同时调整训练的模型种类,能够有效提高获得的预测猪日平均增重模型的预测准确率。
实施例5中,采用了全基因组关联分析计算出与实施例3中六类微生物的相对丰度相关的SNP,得到的SNP位点比实施例3更多,实施例5还以XGB模型为初始模型进行训练,所得到的预测猪平均日增重模型,其10次交叉验证的均方误差比实施例2-4的均方误差更小,准确性得到进一步提高。
可以理解的是,对本领域普通技术人员来说,可以根据本发明的技术方案及其发明构思加以等同替换或改变,而所有这些改变或替换都应属于本发明所附的权利要求的保护范围。

Claims (3)

1.一种预测猪平均日增重的方法,其特征在于,包括以下步骤:
获取猪平均日增重数据并筛选与猪平均日增重相关的特定肠道微生物,计算所述特定肠道微生物的相对丰度,具体包括以下步骤:从多只猪的肛门采集粪便样品;提取粪便中的微生物基因组DNA,然后进行16S rDNA测序,获得微生物组16S rDNA数据;对所述微生物组16S rDNA数据进行质控和聚类,获得聚类后的16S rDNA数据;根据微生物数据库对每个16SrDNA进行注释,获得肠道微生物种群数据,根据所述肠道微生物种群数据计算各种微生物的相对丰度;根据微生物的相对丰度以及该微生物在猪只中的存在率对所述肠道微生物种群数据进行过滤,具体包括:保留相对丰度在0.1%以上,且在20%以上的粪便样品中存在的微生物;计算过滤后的所述肠道微生物种群数据与所述猪平均日增重数据的相关性,获得与所述猪平均日增重数据相关的特定肠道微生物及其相对丰度,具体包括:利用偏相关和信息论算法计算所述肠道微生物种群数据与猪平均日增重数据之间的相关性,以获得与所述猪平均日增重数据相关的特定肠道微生物及其相对丰度;
获取猪的原始SNP数据,计算与所述特定肠道微生物的相对丰度相关的SNP位点,具体包括以下步骤:采集多只猪的组织,提取组织DNA,采用基因芯片进行分型,获得原始SNP数据;对所述原始SNP数据进行过滤,获得过滤后的SNP数据,具体包括:去除所述原始SNP数据中符合以下任一条的SNP,以获得过滤后的SNP数据:缺失率大于0.1的SNP;最小等位基因频率小于0.05的SNP;不符合Hardy-Weinberg平衡的SNP;以所述特定肠道微生物的相对丰度为响应值,以所述过滤后的SNP数据作为预测值,通过模型计算出与所述特定肠道微生物的相对丰度相关的SNP位点;
以所述特定肠道微生物的相对丰度及其相关的SNP位点作为自变量,以猪平均日增重数据作为因变量,构建训练数据集;
采用所述训练数据集对初始构建的机器学习回归模型进行训练,获得预测猪平均日增重模型,并基于所述预测猪平均日增重模型对猪只的平均日增重进行预测;
所述机器学习回归模型为XGB模型;所述特定肠道微生物为:甲基杆菌属、弯曲杆菌属、肠杆菌科未分类属、拟杆菌属、普雷沃氏菌属和拟杆菌目未分类科;所述与特定肠道微生物的相对丰度相关的SNP位点为:rs81429163、rs81325861、rs81450579、rs81450581、rs81451919、rs332862557、rs80886192、rs319026277、rs326203392、rs328862801、rs81349632、rs80841854、rs342676309、rs326977015、rs81476003、rs81269743、rs326491162、rs81452654、rs81457084、rs330259558、rs330673669、rs34149272、rs81226653、rs81408398、rs340738784、rs81408146、rs81238518。
2.根据权利要求1所述的预测猪平均日增重的方法,其特征在于,所述计算过滤后的所述肠道微生物种群数据与所述猪平均日增重数据的相关性,获得与所述猪平均日增重数据相关的特定肠道微生物及其相对丰度,具体包括:
以所述猪平均日增重数据为因变量,以所述微生物的相对丰度为自变量,构建Lasso模型,以计算过滤后的所述肠道微生物种群数据与所述猪平均日增重数据的相关性,从过滤后的肠道微生物种群数据中筛选出与所述猪平均日增重数据相关的特定肠道微生物及其相对丰度。
3.根据权利要求1所述的预测猪平均日增重的方法,其特征在于,所述以所述特定肠道微生物的相对丰度为响应值,以所述过滤后的SNP数据作为预测值,通过模型计算出与所述特定肠道微生物的相对丰度相关的SNP位点后,还包括:
通过邻近算法填补与所述特定肠道微生物的相对丰度相关的SNP位点中的缺失数据。
CN202310321682.5A 2022-10-19 2023-03-29 一种预测猪平均日增重的方法 Active CN116580772B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2022112793244 2022-10-19
CN202211279324.4A CN115341044A (zh) 2022-10-19 2022-10-19 一种利用微生物及其相关snp位点预测猪日增重的方法

Publications (2)

Publication Number Publication Date
CN116580772A CN116580772A (zh) 2023-08-11
CN116580772B true CN116580772B (zh) 2024-01-30

Family

ID=83957670

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202211279324.4A Pending CN115341044A (zh) 2022-10-19 2022-10-19 一种利用微生物及其相关snp位点预测猪日增重的方法
CN202310321682.5A Active CN116580772B (zh) 2022-10-19 2023-03-29 一种预测猪平均日增重的方法

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN202211279324.4A Pending CN115341044A (zh) 2022-10-19 2022-10-19 一种利用微生物及其相关snp位点预测猪日增重的方法

Country Status (1)

Country Link
CN (2) CN115341044A (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116463413B (zh) * 2023-06-12 2023-10-03 佛山科学技术学院 猪间性病相关的wwox基因分子标记及其应用

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103667279A (zh) * 2013-12-30 2014-03-26 华中农业大学 猪平均日增重相关基因Resistin的分子标记及其应用
WO2014177667A1 (en) * 2013-05-03 2014-11-06 Nestec S.A. Lachnospiraceae in the gut microbiota and association with body weight
CN109874294A (zh) * 2016-04-15 2019-06-11 埃斯库斯生物科技股份公司 通过施用微生物聚生体或其纯化菌株来提高禽类的农业生产的方法
CN110097928A (zh) * 2019-04-17 2019-08-06 广东省微生物研究所(广东省微生物分析检测中心) 一种基于肠道菌群预测组织微量元素含量的预测方法和预测模型
CN110751985A (zh) * 2019-09-20 2020-02-04 上海交通大学 与大体重鸡只高度关联的肠道微生物标记物
CN110827917A (zh) * 2019-11-06 2020-02-21 华中科技大学鄂州工业技术研究院 一种基于snp鉴定个体肠道菌群类型的方法
CN111254183A (zh) * 2020-01-22 2020-06-09 中国科学院亚热带农业生态研究所 一种利用肠道微生物菌群评价生猪个体蛋白营养状态的方法
CN113994010A (zh) * 2019-05-31 2022-01-28 马斯公司 预测马体重减轻倾向的方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7118870B2 (en) * 2001-09-28 2006-10-10 The State Of Oregon Acting By And Through The State Board Of Higher Education On Behalf Of Oregon State University Detection of fecal contamination using nucleic acid molecules that recognize bacterial 16S rDNA sequences
US20030104392A1 (en) * 2001-11-27 2003-06-05 En-Chung Lin Detection of growth performance of pigs
BRPI1006135A2 (pt) * 2009-01-12 2017-08-15 Danisco Bactérias do ácido láctico e seu uso em produtos microbianos para ração direta a suínos
KR101212251B1 (ko) * 2010-07-14 2012-12-12 서울대학교산학협력단 돼지의 장내 미생물 진단용 dna 칩, 칩을 포함하는 키트 및 키트를 이용한 진단방법
AR091482A1 (es) * 2012-06-21 2015-02-04 Recombinetics Inc Celulas modificadas geneticamente y metodos par su obtencion
AR100216A1 (es) * 2014-04-28 2016-09-21 Recombinetics Inc Edición de genes multiplexados
CN111567689A (zh) * 2020-05-18 2020-08-25 西北农林科技大学 一种改善肠道健康的猪饲料及其制备方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014177667A1 (en) * 2013-05-03 2014-11-06 Nestec S.A. Lachnospiraceae in the gut microbiota and association with body weight
CN103667279A (zh) * 2013-12-30 2014-03-26 华中农业大学 猪平均日增重相关基因Resistin的分子标记及其应用
CN109874294A (zh) * 2016-04-15 2019-06-11 埃斯库斯生物科技股份公司 通过施用微生物聚生体或其纯化菌株来提高禽类的农业生产的方法
CN110097928A (zh) * 2019-04-17 2019-08-06 广东省微生物研究所(广东省微生物分析检测中心) 一种基于肠道菌群预测组织微量元素含量的预测方法和预测模型
CN113994010A (zh) * 2019-05-31 2022-01-28 马斯公司 预测马体重减轻倾向的方法
CN110751985A (zh) * 2019-09-20 2020-02-04 上海交通大学 与大体重鸡只高度关联的肠道微生物标记物
CN110827917A (zh) * 2019-11-06 2020-02-21 华中科技大学鄂州工业技术研究院 一种基于snp鉴定个体肠道菌群类型的方法
CN111254183A (zh) * 2020-01-22 2020-06-09 中国科学院亚热带农业生态研究所 一种利用肠道微生物菌群评价生猪个体蛋白营养状态的方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Impact of Intestinal Microbiota on Growth and Feed Efficiency in Pigs: A Review;Gillian E. Gardiner 等;《Microorganisms 2020》;1-31 *
mpact of Intestinal Microbiota on Growth and Feed Efficiency in Pigs: A Review;Gillian E. Gardiner 等;《Microorganisms 2020》;1-31 *
不同初生重、日采食量和日采食次数对猪生长性能的影响;杨凯 等;《佛山科学技术学院学报(自然科学版)》;第40卷(第2期);56-62 *
不同初生重、日采食量和日采食次数对猪生长性能的影响_杨凯;杨凯 等;《佛山科学技术学院学报(自然科学版)》;第40卷(第2期);56-62 *
大白猪饲料利用效率遗传和微生物标记挖掘及宿主遗传与肠道微生物互作关系的研究;司景磊;《中国博士学位论文全文数据库 农业科技辑》(第2021年07期);D050-9 *

Also Published As

Publication number Publication date
CN116580772A (zh) 2023-08-11
CN115341044A (zh) 2022-11-15

Similar Documents

Publication Publication Date Title
CN107937556B (zh) 一个与猪饲料转化率相关的snp位点及其应用
CN116580772B (zh) 一种预测猪平均日增重的方法
CN110846422A (zh) 与猪产活仔数性状关联的分子标记及其应用
CN108060260B (zh) 与大豆种子蛋氨酸含量相关的snp标记、区间、引物及应用
CN107988421B (zh) 与大豆种子油分含量相关的分子标记、区间、引物及应用
CN116516029A (zh) 一种金鲳全基因组育种芯片及应用
CN111485026A (zh) 一种与绵羊出生重相关的snp位点、应用、分子标记和引物
CN107988424B (zh) 与大豆种子蛋氨酸含量相关的分子标记、区间、引物及应用
CN116926234B (zh) 与大豆籽粒油分含量相关的snp分子标记及其应用
CN107828897A (zh) 与猪达100kg体重日龄性状相关的SNP分子标记及其应用
CN109234412B (zh) 快速检测生长速度快的翘嘴红鲌的方法及所用的分子标记
CN116434840B (zh) 一种预测猪饲料转化率的方法
CN114875157B (zh) 与黄颡鱼个体生长性状相关的snp标记及应用
CN106701930B (zh) 利用pcr-sscp检测绵羊fth-1基因插入缺失多态性的方法及其应用
CN113684280A (zh) 一种仿刺参抗高温育种低密度12k snp芯片及应用
CN106755370B (zh) 利用pcr-rflp检测绵羊fth-1基因单核苷酸多态性的方法及其应用
CN116479164B (zh) 大豆百粒重与尺寸相关的snp位点、分子标记、扩增引物及其应用
CN107937558A (zh) 一个与猪平均日采食量相关的snp位点及其应用
CN112458183B (zh) 一种猪3号染色体上与猪日增重和上市体重日龄相关的拷贝数变异分子标记及应用
CN117051127B (zh) 一种与牦牛生长性状相关的snp位点及应用
CN114790488B (zh) 一种金黄色葡萄球菌的mnp标记位点、引物组合物、试剂盒及其应用
CN117535419A (zh) 双峰驼乳脂率相关基因palm2akap2及其作为分子标记的应用
CN110777209B (zh) 麦洼牦牛特异性基因、引物组及应用
CN117230240A (zh) 与大豆籽粒油分含量相关的InDel位点、分子标记、引物及其应用
CN117248061A (zh) 与大豆籽粒油分含量相关的InDel位点、分子标记、引物及其应用

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant