CN116434840A - 一种预测猪饲料转化率的方法 - Google Patents
一种预测猪饲料转化率的方法 Download PDFInfo
- Publication number
- CN116434840A CN116434840A CN202310321599.8A CN202310321599A CN116434840A CN 116434840 A CN116434840 A CN 116434840A CN 202310321599 A CN202310321599 A CN 202310321599A CN 116434840 A CN116434840 A CN 116434840A
- Authority
- CN
- China
- Prior art keywords
- conversion rate
- feed conversion
- data
- relative abundance
- snp
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000006243 chemical reaction Methods 0.000 title claims abstract description 154
- 238000000034 method Methods 0.000 title claims abstract description 58
- 244000005700 microbiome Species 0.000 claims abstract description 117
- 230000000968 intestinal effect Effects 0.000 claims abstract description 79
- 241000282887 Suidae Species 0.000 claims abstract description 23
- 238000012549 training Methods 0.000 claims abstract description 19
- 238000010801 machine learning Methods 0.000 claims abstract description 10
- 238000012216 screening Methods 0.000 claims abstract description 8
- 230000001419 dependent effect Effects 0.000 claims abstract description 7
- 108020004465 16S ribosomal RNA Proteins 0.000 claims description 15
- 238000001914 filtration Methods 0.000 claims description 15
- 108700028369 Alleles Proteins 0.000 claims description 14
- 241000589323 Methylobacterium Species 0.000 claims description 13
- 230000000813 microbial effect Effects 0.000 claims description 13
- 241001183186 Fusobacteriaceae Species 0.000 claims description 9
- 238000004422 calculation algorithm Methods 0.000 claims description 8
- 241000605861 Prevotella Species 0.000 claims description 7
- 238000003908 quality control method Methods 0.000 claims description 7
- 238000012163 sequencing technique Methods 0.000 claims description 7
- 241000606125 Bacteroides Species 0.000 claims description 6
- 108090000623 proteins and genes Proteins 0.000 claims description 6
- 230000002550 fecal effect Effects 0.000 claims description 5
- 230000004044 response Effects 0.000 claims description 5
- 210000000436 anus Anatomy 0.000 claims description 3
- 238000012217 deletion Methods 0.000 claims description 3
- 230000037430 deletion Effects 0.000 claims description 3
- 244000005709 gut microbiome Species 0.000 claims description 3
- 210000003608 fece Anatomy 0.000 claims description 2
- 230000000717 retained effect Effects 0.000 claims description 2
- 230000008569 process Effects 0.000 abstract description 2
- 238000012417 linear regression Methods 0.000 description 13
- 230000000875 corresponding effect Effects 0.000 description 9
- 238000011160 research Methods 0.000 description 6
- 238000003066 decision tree Methods 0.000 description 5
- 238000007637 random forest analysis Methods 0.000 description 5
- 241000894007 species Species 0.000 description 4
- 241000186562 Clostridium carnis Species 0.000 description 3
- 241000318609 Fenollaria massiliensis Species 0.000 description 3
- 238000012098 association analyses Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 3
- 238000009395 breeding Methods 0.000 description 3
- 230000001488 breeding effect Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 244000144972 livestock Species 0.000 description 3
- 238000002156 mixing Methods 0.000 description 3
- 238000007400 DNA extraction Methods 0.000 description 2
- 241001415140 Dunalia Species 0.000 description 2
- 241000143742 Methylobacterium persicinum Species 0.000 description 2
- 238000012408 PCR amplification Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000002790 cross-validation Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 239000000499 gel Substances 0.000 description 2
- 238000009396 hybridization Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- LZZYPRNAOMGNLH-UHFFFAOYSA-M Cetrimonium bromide Chemical compound [Br-].CCCCCCCCCCCCCCCC[N+](C)(C)C LZZYPRNAOMGNLH-UHFFFAOYSA-M 0.000 description 1
- 241000726221 Gemma Species 0.000 description 1
- 241000124008 Mammalia Species 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 238000000246 agarose gel electrophoresis Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000000137 annealing Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000010219 correlation analysis Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000004925 denaturation Methods 0.000 description 1
- 230000036425 denaturation Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000009313 farming Methods 0.000 description 1
- 235000021050 feed intake Nutrition 0.000 description 1
- 210000001035 gastrointestinal tract Anatomy 0.000 description 1
- 235000020997 lean meat Nutrition 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000002207 metabolite Substances 0.000 description 1
- 125000002496 methyl group Chemical group [H]C([H])([H])* 0.000 description 1
- 244000144977 poultry Species 0.000 description 1
- 238000012257 pre-denaturation Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 238000000746 purification Methods 0.000 description 1
- 239000002096 quantum dot Substances 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 210000000664 rectum Anatomy 0.000 description 1
- 238000010079 rubber tapping Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 208000010603 vasculitis due to ADA2 deficiency Diseases 0.000 description 1
- 230000004584 weight gain Effects 0.000 description 1
- 235000019786 weight gain Nutrition 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/10—Ontologies; Annotations
Landscapes
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- Biotechnology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Chemical & Material Sciences (AREA)
- Databases & Information Systems (AREA)
- Analytical Chemistry (AREA)
- Bioethics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Public Health (AREA)
- Evolutionary Computation (AREA)
- Epidemiology (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Genetics & Genomics (AREA)
- Molecular Biology (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种预测猪饲料转化率的方法,涉及生物信息学领域。所述预测猪饲料转化率的方法包括以下步骤:获取饲料转化率数据并筛选与饲料转化率相关的特定肠道微生物,计算所述特定肠道微生物的相对丰度;获取猪的原始SNP数据,计算与所述特定肠道微生物的相对丰度相关的SNP位点;以所述特定肠道微生物的相对丰度及其相关的SNP位点作为自变量,以饲料转化率数据作为因变量,构建训练数据集;采用所述训练数据集对初始构建的机器学习回归模型进行训练,获得预测猪饲料转化率模型,基于所述预测猪饲料转化率模型对猪饲料转化率进行预测。本发明通过构建预测猪饲料转化率模型可以准确地预测猪只生长过程中的饲料转化率。
Description
技术领域
本发明涉及生物信息学领域,特别涉及一种预测猪饲料转化率的方法。
背景技术
生猪养殖业的主要效益取决于与饲料有关的成本以及所生产的瘦肉的数量和质量。为了提高畜牧业的经济效益,降低饲料成本,有必要了解影响生猪生长发育性能的因素。其中猪的饲料转化率(FCR)是畜牧养殖的重要经济性状,直接与猪的生长性状相关,是指饲养的畜禽增重一公斤所消耗的饲料量,它是评价饲料报酬的一个重要指标,也是编制生产计划和财务计划的重要依据,在育种中具有重要的研究意义。目前,许多研究致力于探索基因与性状之间的关系。但随着研究的深入,其边际效益不断下降,需要一个新的研究切入点。
随着近几年肠道微生物研究不断取得新的突破,人们逐渐认识到肠道微生物的重要性。哺乳动物胃肠道存在着大量的微生物群,其基因数量约为宿主基因的1-1.3倍,肠道微生物以及其代谢产物对宿主的生长发育有着不可忽视的影响,而目前鲜有将肠道微生物利用到禽畜育种中。
可见,现有技术还有待改进和提高。
发明内容
鉴于上述现有技术的不足之处,本发明的目的在于提供一种预测猪饲料转化率的方法,旨在通过利用肠道微生物和SNP位点预测猪饲料转化率,以提高预测的准确性。
为了达到上述目的,本发明采取了以下技术方案:
一种预测猪饲料转化率的方法,包括以下步骤:获取饲料转化率数据并筛选与饲料转化率相关的特定肠道微生物,计算所述特定肠道微生物的相对丰度;获取猪的原始SNP数据,计算与所述特定肠道微生物的相对丰度相关的SNP位点;以所述特定肠道微生物的相对丰度及其相关的SNP位点作为自变量,以饲料转化率数据作为因变量,构建训练数据集;采用所述训练数据集对初始构建的机器学习回归模型进行训练,获得预测猪饲料转化率模型,并基于所述预测猪饲料转化率模型对饲料转化率进行预测。
所述的预测猪饲料转化率的方法,其中,所述获取饲料转化率数据并筛选与饲料转化率相关的特定肠道微生物,计算所述特定肠道微生物的相对丰度,具体包括以下步骤:从多只猪的肛门采集粪便样品;提取粪便中的微生物基因组DNA,然后进行16S rDNA测序,获得微生物组16S rDNA数据;对所述微生物组16S rDNA数据进行质控和聚类,获得聚类后的16S rDNA数据;根据微生物数据库对每个16S rDNA进行注释,获得肠道微生物种群数据,根据所述肠道微生物种群数据计算各种微生物的相对丰度;根据微生物的相对丰度以及该微生物在猪只中的存在率对所述肠道微生物种群数据进行过滤;计算过滤后的所述肠道微生物种群数据与所述饲料转化率数据的相关性,获得与所述饲料转化率数据相关的特定肠道微生物及其相对丰度。
所述的预测猪饲料转化率的方法,其中,所述计算过滤后的所述肠道微生物种群数据与所述饲料转化率数据的相关性,获得与所述饲料转化率数据相关的特定肠道微生物及其相对丰度,具体包括:利用偏相关和信息论算法计算所述肠道微生物种群数据与饲料转化率数据之间的相关性,以获得与所述饲料转化率数据相关的特定肠道微生物及其相对丰度。
所述的预测猪饲料转化率的方法,其中,所述计算过滤后的所述肠道微生物种群数据与所述饲料转化率数据的相关性,获得与所述饲料转化率数据相关的特定肠道微生物及其相对丰度,具体包括:对所述肠道微生物种群数据进行分类,以属作为最小分类等级,分类后获得多个同属微生物单元,计算所述同属微生物单元与所述饲料转化率数据的相关性。
所述的预测猪饲料转化率的方法,其中,所述根据微生物的相对丰度以及该微生物在猪只中的存在率对所述肠道微生物种群数据进行过滤,具体包括:保留相对丰度在0.1%以上,且在20%以上的粪便样品中存在的微生物。
所述的预测猪饲料转化率的方法,其中,所述获取猪的原始SNP数据,计算与所述特定肠道微生物的相对丰度相关的SNP位点,具体包括以下步骤:采集多只猪的组织,提取组织DNA,采用基因芯片进行分型,获得原始SNP数据;对所述原始SNP数据进行过滤,获得过滤后的SNP数据;以所述特定肠道微生物的相对丰度为响应值,以所述过滤后的SNP数据作为预测值,通过模型计算出与所述特定肠道微生物的相对丰度相关的SNP位点。
所述的预测猪饲料转化率的方法,其中,所述对所述原始SNP数据进行过滤,获得过滤后的SNP数据,具体包括:去除所述原始SNP数据中符合以下任一条的SNP,以获得过滤后的SNP数据:缺失率大于0.1的SNP;最小等位基因频率小于0.05的SNP;不符合Hardy-Weinberg平衡的SNP。
所述的预测猪饲料转化率的方法,其中,所述以所述特定肠道微生物的相对丰度为响应值,以所述过滤后的SNP数据作为预测值,通过模型计算出与所述特定肠道微生物的相对丰度相关的SNP位点,具体包括:通过构建LASSO模型计算出与所述特定肠道微生物的相对丰度相关的SNP位点。
所述的预测猪饲料转化率的方法,其中,所述机器学习回归模型为LR模型,其具体方程式为:
Y=0.03410414X1+0.05310852X2-0.17967665X3+2.6525974048842955
所述方程式中,Y为饲料转化率的预测值,X1和X2分别对应的SNP位点为:rs81429163和rs81429663,所述方程式中SNP位点用0、1或2表示,0表示主等位基因纯合子,1表示杂合子,2表示次等位基因纯合子;X3为甲基杆菌的相对丰度。
所述的预测猪饲料转化率的方法,其中,所述机器学习回归模型为RF模型;所述特定肠道微生物为:甲基杆菌属、拟杆菌属、普雷沃氏菌属、梭杆菌科未分类属、拟杆菌目未分类科;所述与特定肠道微生物的相对丰度相关的SNP位点为:rs81429163、rs81325861、rs81450579、rs81450581、rs81451919、rs330259558、rs330673669、rs34149272、rs81226653、rs81408398、rs340738784、rs81408146、rs80787454、rs328122894、rs81436486、rs343879761、rs318740977、rs80814938、rs81452772、rs81275853、rs81238518。
有益效果:
本发明提供了一种预测猪饲料转化率的方法,通过特定肠道微生物的相对丰度及与其相关的SNP位点作为自变量,以饲料转化率数据作为因变量,构建机器学习回归模型并进行训练,训练得到的预测猪饲料转化率模型通过肠道微生物和SNP位点对饲料转化率进行预测,预测结果更加准确。
具体实施方式
本发明提供一种预测猪饲料转化率的方法,为使本发明的目的、技术方案及效果更加清楚、明确,以下举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
实施例1数据采集
以杜长大三元杂交猪为研究对象,收集385头杜长大三元杂交猪的平均日增重数据以及获取各头猪的原始SNP数据和微生物组16S rDNA数据。
S101.平均日增重数据采集
采用性能自动测定系统测定猪64~150日龄时的日增重,当体重达到130±5KG时,结束测定。原始体重数据经过质控后,根据饲料投食量,计算每只猪的饲料转化率,饲料转化率=消耗饲料总量(kg)/增重总量(kg)。
S102.原始SNP数据获取
采集猪耳组织并进行DNA提取,采用GeneSeek Porcine 50K的基因芯片对385头猪进行基因分型,获得原始SNP数据。
S103.微生物组16S rDNA数据获取
采用直肠拭子从猪的肛门进行粪便样品的采集,采集后的样品暂存于冰盒内,随后转运至实验室-80℃冰箱保存。
微生物基因组DNA提取:采用CTAB对样本基因组DNA进行提取,提取后进行PCR扩增;
PCR扩增的步骤如下:
第一步、98℃预变性1分钟;
第二步、进行30个循环,每个循环依次为:变性:98℃处理10秒;退火:50℃处理30秒;延伸:72℃处理30秒;
第三步、72℃处理5分钟进行延伸。
PCR产物的混样和纯化:根据PCR产物浓度进行等浓度混样,充分混匀后使用1×TAE浓度2%的琼脂糖胶电泳纯化PCR产物,选择割胶回收目标条带。产物纯化试剂盒使用的是Thermo Scientific公司GeneJET胶回收试剂盒。
文库构建和上机测序:使用Illumina公司TruSeq DNA PCR-Free LibraryPreparation Kit建库试剂盒进行文库的构建,构建好的文库经过Qubit定量和文库检测,合格后,使用NovaSeq 6000进行上机测序;获得微生物组16S rDNA数据。
实施例2
一种预测猪饲料转化率的方法,包括以下步骤:
S201.获取猪饲料转化率数据并筛选与猪饲料转化率相关的特定肠道微生物,计算所述特定肠道微生物的相对丰度;
S202.获取猪的原始SNP数据,计算与所述特定肠道微生物的相对丰度相关的SNP位点;
S203.以所述特定肠道微生物的相对丰度及其相关的SNP位点作为自变量,以猪饲料转化率数据作为因变量,构建训练数据集;
S204.采用所述训练数据集对初始构建的机器学习回归模型进行训练,获得预测猪饲料转化率模型,并基于所述预测猪饲料转化率模型对猪只的平均日增重进行预测。
本实施例中,所述获取猪饲料转化率数据并筛选与猪饲料转化率相关的特定肠道微生物,计算所述特定肠道微生物的相对丰度,具体包括以下步骤:
S2011.对实施例1中获取的微生物组16S rDNA数据进行质控,质控的具体方法如下:利用QIIME2软件中的DADA2插件对微生物组16S rDNA数据进行质控和聚类,聚类后获得多个分类单元;所述质控包括去除序列中的引物,对序列进行截选,过滤掉数量低于2的序列。
S2012.对分类单元进行微生物组数据过滤,过滤后的数据通过比对NCBI RefSeq数据库以对这些分类单元进行物种注释,置信度超过97%的菌种,认为是同一种菌;物种注释后计算各种微生物的相对丰度;
S2013.根据微生物的相对丰度以及该微生物在猪只中的存在率对所述肠道微生物种群数据进行过滤,保留相对丰度超过0.1%,且在20%以上的粪便样品中存在的微生物,过滤后得到68种微生物。
S2014.计算过滤后的所述肠道微生物种群数据与所述饲料转化率数据的相关性,从过滤后的肠道微生物种群数据中筛选出与所述饲料转化率数据相关的特定肠道微生物及其相对丰度,具体包括:
通过python利用scikit-learn包构建Lasso线性模型,计算68种微生物的相对丰度与饲料转化率数据之间的相关性,经过计算,得到甲基杆菌(Methylobacteriumpersicinum)与饲料转化率显著相关。
本实施例中,所述获取猪的原始SNP数据,计算与所述特定肠道微生物的相对丰度相关的SNP位点,具体包括以下步骤:
S2021.对实施例1中获取的原始SNP数据进行过滤,过滤的具体方法如下:利用PLINK(版本1.9)对原始SNP数据进行过滤,排除符合以下任一条件的SNP或个体:(1)个体或SNP缺失率大于0.1的个体或SNP;(2)最小等位基因频率(MAF)小于0.05的SNP;(3)不符合Hardy-Weinberg平衡(HWE)中的SNP;SNP数据的质量不佳,那么计算的结果的有效性和准确性就无法保证,在进行SNP芯片测序采集的过程中,难免在测序、人工操作等方面出现误差,导致不能真实反映个体的情况,如果不对这些测序出现问题的数据进行筛选控制,必然会对后续操作造成影响;
经过过滤处理后得到31931个SNP位点。
S2022.所述以所述特定肠道微生物的相对丰度为响应值,以所述过滤后的SNP数据作为预测值,通过模型计算出与所述特定肠道微生物的相对丰度相关的SNP位点,具体包括:采用全基因组关联性分析,利用gemma进行全基因组分析,利用gec软件矫正p值为5.23E-5,得到与甲基杆菌相关联的SN P位点有:rs81429163、rs81325861、rs81450579、rs81450581、rs81451919。
所述采用所述训练数据集对初始构建的机器学习回归模型进行训练,获得预测猪饲料转化率模型,并基于所述预测猪饲料转化率模型对猪只的平均日增重进行预测,具体包括:
S2041.通过python利用scikit-learn包建立线性回归模型(LR),分别进行5折交叉验证,每一折将数据分为30%的测试数据集和70%的训练数据集,采用训练数据集对模型进行训练,获得的预测猪饲料转化率模型的具体方程式为:
Y=-0.15249576X1+0.04179918X2-0.0001629X3+0.03331888X4+0.011125
89X5-0.01743993X6
所述方程式中,Y为饲料转化率的预测值,X1为甲基杆菌的相对丰度,X2至X6依次对应的SNP位点为:rs81429163、rs81325861、rs81450579、rs81450581、rs81451919,所述方程式中SNP位点用0、1或2表示,0表示主等位基因纯合子,1表示杂合子,2表示次等位基因纯合子。
以甲基杆菌及其相关位点信息进行饲料转化率的预测,采用测试集和均方误差(MSE)对模型的预测能力进行检验,以反应预测的准确性,MSE越小代表模型预测能力越准确。
实施例3
一种预测猪饲料转化率的方法,其与实施例2的区别在于,所述S2021中,通过python利用scikit-learn包建立决策树模型(DT),对模型进行训练,获得预测猪饲料转化率模型。
实施例4
一种预测猪饲料转化率的方法,其与实施例2的区别在于,所述S2021中,通过python利用scikit-learn包建立支持随机森林模型(RF),对模型进行训练,获得预测猪饲料转化率模型。
实施例5
一种预测猪饲料转化率的方法,其与实施例2的区别在于,所述S2021中,通过python利用scikit-learn包建立支持向量机模型(SVR),对模型进行训练,获得预测猪饲料转化率模型。
实施例6
一种预测猪饲料转化率的方法,其与实施例2的区别在于,所述S2021中,通过python利用scikit-learn包建立梯度提升模型(XGB),对模型进行训练,获得预测猪饲料转化率模型。
实施例7
一种预测猪饲料转化率的方法,其与实施例2的区别在于:
所述S2014中,对所述肠道微生物种群数据进行分类,以属作为最小分类等级,分类后获得多个同属微生物单元;
通过python利用scikit-learn包构建Lasso线性模型,计算同属微生物单元的相对丰度与饲料转化率数据之间的相关性,经过计算,得到甲基杆菌属(Methylobacterium)、普雷沃氏菌属(Prevotella)、拟杆菌属(Bacteroides)、梭杆菌科未分类属(Fusobacteriaceae)、拟杆菌目未分类科(Bacteroidales)与饲料转化率显著相关。
S2022中,通过全基因组关联性分析得到与上述微生物显著相关的SNP为:
所述S2041中,通过python利用scikit-learn包建立线性回归模型(LR),对模型进行训练,获得预测猪饲料转化率模型。
实施例8
一种预测猪饲料转化率的方法,其与实施例6的区别在于:所述S2041中,通过python利用scikit-learn包建立决策树模型(DT),对模型进行训练,获得预测猪饲料转化率模型。
实施例9
一种预测猪饲料转化率的方法,其与实施例6的区别在于:所述S2041中,通过python利用scikit-learn包建立随机森林模型(RF),对模型进行训练,获得预测猪饲料转化率模型。
实施例10
一种预测猪饲料转化率的方法,其与实施例6的区别在于:所述S2041中,通过python利用scikit-learn包建立梯度提升模型(XGB),对模型进行训练,获得预测猪饲料转化率模型。
实施例11
一种预测猪饲料转化率的方法,其与实施例2的区别在于:
S2014中,利用R语言(版本4.1.3)使用CeTF包实现偏相关和信息论(PCIT)算法计算68种微生物的相对丰度与饲料转化率之间的相关性,计算得到Fenollariamassiliensis和Clostridium carnis与饲料转化率显著相关。
S2022中,采用全基因组关联性分析得到与Fenollaria massiliensis和Clostridium carnis相关联的SNP位点有:rs81367309、rs81430187、rs80849522、rs80902784、rs81318490、rs80838375、rs80956143。
所述S2041中,通过python利用scikit-learn包建立线性回归模型(LR),对模型进行训练,获得预测猪饲料转化率模型;
所述预测猪饲料转化率模型的方程式为:
Y=0.0155083374X1-0.0459946054X2+0.0500502357X3+0.05002357X4+0.
0500502357X5-0.105219107X6+0.0156824091X7+0.249537406X8-8.80126679X9+2.6786203108368087
所述方程式中,Y为饲料转化率的预测值,X1至X7依次对应的SNP位点为:rs81367309、rs81430187、rs80849522、rs80902784、rs81318490、rs80838375、rs80956143,所述方程式中SNP位点用0、1或2表示,0表示主等位基因纯合子,1表示杂合子,2表示次等位基因纯合子,X8和X9分别为Fenollaria massiliensis和Clostridium carnis的相对丰度。
实施例12
一种预测猪饲料转化率的方法,其与实施例11的区别在于:
所述S2041中,通过python利用scikit-learn包建立决策树模型(DT),对模型进行训练,获得预测猪饲料转化率模型。
实施例13
一种预测猪饲料转化率的方法,其与实施例11的区别在于:所述S2041中,通过python利用scikit-learn包建立随机森林模型(RF),对模型进行训练,获得预测猪饲料转化率模型。
实施例14
一种预测猪饲料转化率的方法,其与实施例11的区别在于:所述S2041中,通过python利用scikit-learn包建立梯度提升模型(XGB),对模型进行训练,获得预测猪饲料转化率模型。
实施例15
一种预测猪饲料转化率的方法,其与实施例2的区别在于:
S2022中,通过构建LASSO模型,以甲基杆菌的相对丰度为因变量,基因型为自变量,计算与甲基杆菌线性相关的SNP位点,得到的相关SNP位点为:rs81429163和rs81429663。
S2041.通过python利用scikit-learn包建立线性回归模型(LR),获得的预测猪饲料转化率模型的具体方程式为:
Y=0.03410414X1+0.05310852X2-0.17967665X3+2.6525974048842955
所述方程式中,Y为饲料转化率的预测值,X1至X2依次对应的SNP位点为:rs81429163和rs81429663,所述方程式中SNP位点用0、1或2表示,0表示主等位基因纯合子,1表示杂合子,2表示次等位基因纯合子,X3为甲基杆菌(Methylobacterium persicinum)的相对丰度。
实施例16
一种预测猪饲料转化率的方法,其与实施例15的区别在于:
所述S2041中,通过python利用scikit-learn包建立决策树模型(DT),对模型进行训练,获得预测猪饲料转化率模型。
实施例17
一种预测猪饲料转化率的方法,其与实施例15的区别在于:所述S2041中,通过python利用scikit-learn包建立随机森林模型(RF),对模型进行训练,获得预测猪饲料转化率模型。
实施例18
一种预测猪饲料转化率的方法,其与实施例15的区别在于:所述S2041中,通过python利用scikit-learn包建立梯度提升模型(XGB),对模型进行训练,获得预测猪饲料转化率模型。
实施例19
一种预测猪饲料转化率的方法,其与实施例2的区别在于:
所述S2014中,对所述肠道微生物种群数据进行分类,以属作为最小分类等级,分类后获得多个同属微生物单元;
利用R语言(版本4.1.3)使用CeTF包实现偏相关和信息论(PCIT)算法计算多个同属微生物单元的相对丰度与饲料转化率之间的相关性,计算得到普雷沃氏菌属(Prevotella)和梭杆菌科未分类属(Fusobacteriaceae)与饲料转化率显著相关。
所述S2022中,通过构建LASSO模型,以甲基杆菌的相对丰度为因变量,基因型为自变量,计算与普雷沃氏菌属和梭杆菌科未分类属线性相关的SNP位点,得到的相关SNP位点为:rs81238518和rs80968564。
S2041.通过python利用scikit-learn包建立线性回归模型(LR),获得的预测猪饲料转化率模型的具体方程式为:
Y=0.02334701X1+0.00925973X2+0.39380811X3+0.82699312X4+2.5807323142083325
所述方程式中,Y为饲料转化率的预测值,X1至X2依次对应的SNP位点为:rs81238518和rs80968564,所述方程式中SNP位点用0、1或2表示,0表示主等位基因纯合子,1表示杂合子,2表示次等位基因纯合子,X3和X4分别为普雷沃氏菌属(Frevotella)和梭杆菌科未分类属(Fusobacteriaceae)的相对丰度。
实施例20
一种预测猪饲料转化率的方法,其与实施例19的区别在于:
所述S2041中,通过python利用scikit-learn包建立决策树模型(DT),对模型进行训练,获得预测猪饲料转化率模型。
实施例21
一种预测猪饲料转化率的方法,其与实施例19的区别在于:所述S2041中,通过python利用scikit-learn包建立随机森林模型(RF),对模型进行训练,获得预测猪饲料转化率模型。
实施例22
一种预测猪饲料转化率的方法,其与实施例19的区别在于:所述S2041中,通过python利用scikit-learn包建立梯度提升模型(XGB),对模型进行训练,获得预测猪饲料转化率模型。
对实施例2-22训练得到的预测猪饲料转化率模型进行5次交叉验证,5次交叉验证的均方误差(MSE)如下表所示,MSE越小代表模型预测能力越准确:
上述结果中,实施例2-6的区别仅在于,初始构建的机器学习回归模型的种类不同,从结果上看,采用LR模型构建的猪饲料转化率模型的均方误差(MSE)最小,对应的准确率最高。
实施例7-10与实施例2的区别在于,S2014中,以属作为最小分类单元对微生物种群数据进行分类,并以此计算与饲料转化率相关的属,得到相应的结果后,再分别构建不同的模型预测饲料转化率。从结果上看,若以属作为最小分类单元(实施例2-6是以种作为最小分类单元),得到的与饲料转化率相关的微生物种类更多,相应的SNP位点也更多,以此构建的饲料转化率预测模型根据模型的具体种类不同,准确率也不同。
实施例7同样是采用LR模型,但是结果与实施例2略有下降;实施例8和实施例10的准确性也不如实施例2。
实施例9采用的是RF模型,其准确率明显高于实施例2,说明最小分类单元以及模型种类的调整能够优化构建的饲料转化率预测模型。
实施例11-14与实施例2的区别在于,计算微生物与饲料转化率相关性的算法不同,以及后续构建的模型种类不同,计算相关性的算法不同会导致得到的微生物种类发生变化,其进一步构建的饲料转化率预测模型也不同。从结果上看,实施例11所构建的饲料转化率预测模型的准确性相对于实施例2有所上升,但是略差于实施例9,而实施例12-14的准确性均不如实施例2。
实施例15-18与实施例2的区别在于,S2022中,计算与微生物相关的SNP位点的算法不同,得到的相关SNP位点不同,相应构建的饲料转化率预测模型也有所不同。从结果上看,实施例15以及实施例16的MSE值分别较实施例2和实施例3小,而实施例17和实施例18的MSE值则分别较实施例5和实施例6大,说明对于不同的模型种类,算法所导致的微生物种类和SNP位点的不同,会给不同种类的预测模型带来不同的影响。
实施例19-22与实施例2-6的区别在于,S2014中,以属作为最小分类单元对微生物种群数据进行分类,并利用PCIT法进行相关性分析计算与饲料转化率相关的属;另外S2022中采用LASSO模型计算与特定肠道微生物相关的SNP位点,最终训练得到的模型中,LR模型的准确性最好。
综合比较各个实施例,发现实施例9所构建的模型的预测准确性最好,实施例11次之。
可以理解的是,对本领域普通技术人员来说,可以根据本发明的技术方案及其发明构思加以等同替换或改变,而所有这些改变或替换都应属于本发明所附的权利要求的保护范围。
Claims (10)
1.一种预测猪饲料转化率的方法,其特征在于,包括以下步骤:
获取饲料转化率数据并筛选与饲料转化率相关的特定肠道微生物,计算所述特定肠道微生物的相对丰度;
获取猪的原始SNP数据,计算与所述特定肠道微生物的相对丰度相关的SNP位点;
以所述特定肠道微生物的相对丰度及其相关的SNP位点作为自变量,以饲料转化率数据作为因变量,构建训练数据集;
采用所述训练数据集对初始构建的机器学习回归模型进行训练,获得预测猪饲料转化率模型,并基于所述预测猪饲料转化率模型对饲料转化率进行预测。
2.根据权利要求1所述的预测猪饲料转化率的方法,其特征在于,所述获取饲料转化率数据并筛选与饲料转化率相关的特定肠道微生物,计算所述特定肠道微生物的相对丰度,具体包括以下步骤:
从多只猪的肛门采集粪便样品;
提取粪便中的微生物基因组DNA,然后进行16S rDNA测序,获得微生物组16S rDNA数据;
对所述微生物组16S rDNA数据进行质控和聚类,获得聚类后的16S rDNA数据;
根据微生物数据库对每个16S rDNA进行注释,获得肠道微生物种群数据,根据所述肠道微生物种群数据计算各种微生物的相对丰度;
根据微生物的相对丰度以及该微生物在猪只中的存在率对所述肠道微生物种群数据进行过滤;
计算过滤后的所述肠道微生物种群数据与所述饲料转化率数据的相关性,获得与所述饲料转化率数据相关的特定肠道微生物及其相对丰度。
3.根据权利要求2所述的预测猪饲料转化率的方法,其特征在于,所述计算过滤后的所述肠道微生物种群数据与所述饲料转化率数据的相关性,获得与所述饲料转化率数据相关的特定肠道微生物及其相对丰度,具体包括:
利用偏相关和信息论算法计算所述肠道微生物种群数据与饲料转化率数据之间的相关性,以获得与所述饲料转化率数据相关的特定肠道微生物及其相对丰度。
4.根据权利要求2所述的预测猪饲料转化率的方法,其特征在于,所述计算过滤后的所述肠道微生物种群数据与所述饲料转化率数据的相关性,获得与所述饲料转化率数据相关的特定肠道微生物及其相对丰度,具体包括:对所述肠道微生物种群数据进行分类,以属作为最小分类等级,分类后获得多个同属微生物单元,计算所述同属微生物单元与所述饲料转化率数据的相关性。
5.根据权利要求2所述的预测猪饲料转化率的方法,其特征在于,所述根据微生物的相对丰度以及该微生物在猪只中的存在率对所述肠道微生物种群数据进行过滤,具体包括:保留相对丰度在0.1%以上,且在20%以上的粪便样品中存在的微生物。
6.根据权利要求1所述的预测猪饲料转化率的方法,其特征在于,所述获取猪的原始SNP数据,计算与所述特定肠道微生物的相对丰度相关的SNP位点,具体包括以下步骤:
采集多只猪的组织,提取组织DNA,采用基因芯片进行分型,获得原始SNP数据;
对所述原始SNP数据进行过滤,获得过滤后的SNP数据;
以所述特定肠道微生物的相对丰度为响应值,以所述过滤后的SNP数据作为预测值,通过模型计算出与所述特定肠道微生物的相对丰度相关的SNP位点。
7.根据权利要求6所述的预测猪饲料转化率的方法,其特征在于,所述对所述原始SNP数据进行过滤,获得过滤后的SNP数据,具体包括:去除所述原始SNP数据中符合以下任一条的SNP,以获得过滤后的SNP数据:
缺失率大于0.1的SNP;
最小等位基因频率小于0.05的SNP;
不符合Hardy-Weinberg平衡的SNP。
8.根据权利要求6所述的预测猪饲料转化率的方法,其特征在于,所述以所述特定肠道微生物的相对丰度为响应值,以所述过滤后的SNP数据作为预测值,通过模型计算出与所述特定肠道微生物的相对丰度相关的SNP位点,具体包括:
通过构建LASSO模型计算出与所述特定肠道微生物的相对丰度相关的SNP位点。
9.根据权利要求1所述的预测猪饲料转化率的方法,其特征在于,所述机器学习回归模型为LR模型,其具体方程式为:
Y=0.03410414X1+0.05310852X2-0.17967665X3+2.6525974048842955
所述方程式中,Y为饲料转化率的预测值,X1和X2分别对应的SNP位点为:rs81429163和rs81429663,所述方程式中SNP位点用0、1或2表示,0表示主等位基因纯合子,1表示杂合子,2表示次等位基因纯合子;X3为甲基杆菌的相对丰度。
10.根据权利要求1所述的预测猪饲料转化率的方法,其特征在于,所述机器学习回归模型为RF模型;所述特定肠道微生物为:甲基杆菌属、拟杆菌属、普雷沃氏菌属、梭杆菌科未分类属、拟杆菌目未分类科;所述与特定肠道微生物的相对丰度相关的SNP位点为:rs81429163、rs81325861、rs81450579、rs81450581、rs81451919、rs330259558、rs330673669、rs34149272、rs81226653、rs81408398、rs340738784、rs81408146、rs80787454、rs328122894、rs81436486、rs343879761、rs318740977、rs80814938、rs81452772、rs81275853、rs81238518。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211280319.5A CN115341045A (zh) | 2022-10-19 | 2022-10-19 | 一种利用微生物及其相关snp位点预测猪饲料转化率的方法 |
CN2022112803195 | 2022-10-19 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116434840A true CN116434840A (zh) | 2023-07-14 |
CN116434840B CN116434840B (zh) | 2024-04-19 |
Family
ID=83957307
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211280319.5A Pending CN115341045A (zh) | 2022-10-19 | 2022-10-19 | 一种利用微生物及其相关snp位点预测猪饲料转化率的方法 |
CN202310321599.8A Active CN116434840B (zh) | 2022-10-19 | 2023-03-29 | 一种预测猪饲料转化率的方法 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211280319.5A Pending CN115341045A (zh) | 2022-10-19 | 2022-10-19 | 一种利用微生物及其相关snp位点预测猪饲料转化率的方法 |
Country Status (1)
Country | Link |
---|---|
CN (2) | CN115341045A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107937556A (zh) * | 2017-11-14 | 2018-04-20 | 中国农业大学 | 一个与猪饲料转化率相关的snp位点及其应用 |
CN110827917A (zh) * | 2019-11-06 | 2020-02-21 | 华中科技大学鄂州工业技术研究院 | 一种基于snp鉴定个体肠道菌群类型的方法 |
CN111254183A (zh) * | 2020-01-22 | 2020-06-09 | 中国科学院亚热带农业生态研究所 | 一种利用肠道微生物菌群评价生猪个体蛋白营养状态的方法 |
AU2020102040A4 (en) * | 2020-08-28 | 2020-10-08 | Central South University | A Technique for Predicting Acarbose Treatment Based on Stratification of Gut by Using 16SrRNA Sequencing |
CN114093515A (zh) * | 2021-11-17 | 2022-02-25 | 江南大学 | 一种基于肠道菌群预测模型集成学习的年龄预测方法 |
CN114196761A (zh) * | 2021-11-22 | 2022-03-18 | 四川农业大学 | 一种主选父系品种猪饲料报酬的液相芯片的制作方法 |
CN114530249A (zh) * | 2022-02-15 | 2022-05-24 | 北京浩鼎瑞生物科技有限公司 | 一种基于肠道微生物的疾病风险评估模型构建方法及应用 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050065736A1 (en) * | 2003-07-15 | 2005-03-24 | Bauck Stewart William | Systems and methods for improving efficiencies in livestock production |
AU2005244673B2 (en) * | 2004-02-19 | 2009-12-10 | The Governors Of The University Of Alberta | Leptin promoter polymorphisms and uses thereof |
WO2007129219A2 (en) * | 2006-01-13 | 2007-11-15 | The Governors Of The University Of Alberta | Polymorphisms in growth hormone receptor, ghrelin, leptin, neuropeptide y, and uncoupling protein 2 genes and their associations with measures of performance and carcass merit in beef cattle |
CN110295236B (zh) * | 2019-06-06 | 2023-05-30 | 佛山科学技术学院 | 猪饲料转化率的snp分子遗传标记 |
CN111621577B (zh) * | 2020-03-09 | 2023-09-05 | 中国科学院亚热带农业生态研究所 | 一种基于鼻腔原核微生物相对丰度的评价保育猪个体所处生长环境温湿状态的方法 |
-
2022
- 2022-10-19 CN CN202211280319.5A patent/CN115341045A/zh active Pending
-
2023
- 2023-03-29 CN CN202310321599.8A patent/CN116434840B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107937556A (zh) * | 2017-11-14 | 2018-04-20 | 中国农业大学 | 一个与猪饲料转化率相关的snp位点及其应用 |
CN110827917A (zh) * | 2019-11-06 | 2020-02-21 | 华中科技大学鄂州工业技术研究院 | 一种基于snp鉴定个体肠道菌群类型的方法 |
CN111254183A (zh) * | 2020-01-22 | 2020-06-09 | 中国科学院亚热带农业生态研究所 | 一种利用肠道微生物菌群评价生猪个体蛋白营养状态的方法 |
AU2020102040A4 (en) * | 2020-08-28 | 2020-10-08 | Central South University | A Technique for Predicting Acarbose Treatment Based on Stratification of Gut by Using 16SrRNA Sequencing |
CN114093515A (zh) * | 2021-11-17 | 2022-02-25 | 江南大学 | 一种基于肠道菌群预测模型集成学习的年龄预测方法 |
CN114196761A (zh) * | 2021-11-22 | 2022-03-18 | 四川农业大学 | 一种主选父系品种猪饲料报酬的液相芯片的制作方法 |
CN114530249A (zh) * | 2022-02-15 | 2022-05-24 | 北京浩鼎瑞生物科技有限公司 | 一种基于肠道微生物的疾病风险评估模型构建方法及应用 |
Non-Patent Citations (3)
Title |
---|
PABEL CERVANTES-AVILÉS ETC.: "Bioconversion of Lemna sp and Nejayote into Biogas as a starting point for agrowaste", 2022 8TH INTERNATIONAL CONFERENCE ON ENERGY EFFICIENCY AND AGRICULTURAL ENGINEERING (EE&AE), 21 July 2022 (2022-07-21) * |
司景磊: "大白猪饲料利用效率遗传和微生物标记挖掘及宿主遗传与肠道微生物互作关系的研究", 中国博士学位论文全文数据库 农业科技辑, no. 7, pages 3 - 6 * |
康润敏;李瑶;吕学斌;姬高升;应三成;曾凯;李琰;殷明郁;: "利用16SrDNA扩增子测序技术分析不同品种猪盲肠微生物菌落多样性", 中国畜牧兽医, no. 11 * |
Also Published As
Publication number | Publication date |
---|---|
CN115341045A (zh) | 2022-11-15 |
CN116434840B (zh) | 2024-04-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107937556B (zh) | 一个与猪饲料转化率相关的snp位点及其应用 | |
CN116580772B (zh) | 一种预测猪平均日增重的方法 | |
CN113493843A (zh) | 一种影响鸡卵黄重的snp遗传标记及其应用 | |
CN106755371B (zh) | 利用pcr-rflp检测绵羊pcnp基因单核苷酸多态性的方法及其应用 | |
CN111485026A (zh) | 一种与绵羊出生重相关的snp位点、应用、分子标记和引物 | |
Mukherjee et al. | Muscle transcriptome signature and gene regulatory network analysis in two divergent lines of a hilly bovine species Mithun (Bos frontalis) | |
Li et al. | Multiple linkage disequilibrium mapping methods to validate additive quantitative trait loci in Korean native cattle (Hanwoo) | |
Fan et al. | Development and validation of a 1 K sika deer (Cervus nippon) SNP Chip | |
CN116434840B (zh) | 一种预测猪饲料转化率的方法 | |
CN113249492B (zh) | 一种评估猪眼肌面积的snp标记及其应用方法 | |
CN106701930B (zh) | 利用pcr-sscp检测绵羊fth-1基因插入缺失多态性的方法及其应用 | |
Kadarmideen et al. | Combined genetic, genomic and transcriptomic methods in the analysis of animal traits. | |
CN106755370B (zh) | 利用pcr-rflp检测绵羊fth-1基因单核苷酸多态性的方法及其应用 | |
CN116590435B (zh) | 一种与猪背膘厚相关的因果候选基因及其鉴定方法和应用 | |
CN114790488B (zh) | 一种金黄色葡萄球菌的mnp标记位点、引物组合物、试剂盒及其应用 | |
CN112458183B (zh) | 一种猪3号染色体上与猪日增重和上市体重日龄相关的拷贝数变异分子标记及应用 | |
CN117637020B (zh) | 一种基于深度学习的四倍体牡蛎全基因组snp分型方法 | |
CN117535419A (zh) | 双峰驼乳脂率相关基因palm2akap2及其作为分子标记的应用 | |
CN113897443B (zh) | 一个与南方荷斯坦奶牛乳脂率相关的snp分子标记、试剂盒及应用和选育方法 | |
CN114182025B (zh) | 与猪饲料转化率相关的snp分子标记及其应用 | |
CN107937558A (zh) | 一个与猪平均日采食量相关的snp位点及其应用 | |
CN111705136B (zh) | 中国和牛与金钱腱重量相关的snp位点及应用 | |
CN111500743B (zh) | 一种提高中国和牛里脊重量的方法 | |
CN116083600A (zh) | 双峰驼乳脂率相关基因card11及其作为分子标记的应用 | |
Azizi et al. | Study of population structure and genetic prediction of buffalo from different provinces of Iran using machine learning method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |