CN116580772B - 一种预测猪平均日增重的方法 - Google Patents
一种预测猪平均日增重的方法 Download PDFInfo
- Publication number
- CN116580772B CN116580772B CN202310321682.5A CN202310321682A CN116580772B CN 116580772 B CN116580772 B CN 116580772B CN 202310321682 A CN202310321682 A CN 202310321682A CN 116580772 B CN116580772 B CN 116580772B
- Authority
- CN
- China
- Prior art keywords
- pigs
- data
- average daily
- daily gain
- relative abundance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 241000282887 Suidae Species 0.000 title claims abstract description 123
- 238000000034 method Methods 0.000 title claims abstract description 40
- 244000005700 microbiome Species 0.000 claims abstract description 115
- 230000000968 intestinal effect Effects 0.000 claims abstract description 80
- 238000012549 training Methods 0.000 claims abstract description 22
- 238000010801 machine learning Methods 0.000 claims abstract description 12
- 238000012216 screening Methods 0.000 claims abstract description 10
- 230000001419 dependent effect Effects 0.000 claims abstract description 8
- 238000001914 filtration Methods 0.000 claims description 15
- 108020004465 16S ribosomal RNA Proteins 0.000 claims description 14
- 230000000813 microbial effect Effects 0.000 claims description 13
- 108700028369 Alleles Proteins 0.000 claims description 7
- 241000606125 Bacteroides Species 0.000 claims description 7
- 238000003908 quality control method Methods 0.000 claims description 7
- 230000004044 response Effects 0.000 claims description 7
- 238000012163 sequencing technique Methods 0.000 claims description 7
- 241000894006 Bacteria Species 0.000 claims description 6
- 238000004422 calculation algorithm Methods 0.000 claims description 6
- 241000588921 Enterobacteriaceae Species 0.000 claims description 5
- 108090000623 proteins and genes Proteins 0.000 claims description 5
- 241000589876 Campylobacter Species 0.000 claims description 4
- 230000002550 fecal effect Effects 0.000 claims description 4
- 239000005465 B01AC22 - Prasugrel Substances 0.000 claims description 3
- 241000589323 Methylobacterium Species 0.000 claims description 3
- 210000000436 anus Anatomy 0.000 claims description 3
- 238000012217 deletion Methods 0.000 claims description 3
- 230000037430 deletion Effects 0.000 claims description 3
- DTGLZDAWLRGWQN-UHFFFAOYSA-N prasugrel Chemical compound C1CC=2SC(OC(=O)C)=CC=2CN1C(C=1C(=CC=CC=1)F)C(=O)C1CC1 DTGLZDAWLRGWQN-UHFFFAOYSA-N 0.000 claims description 3
- 229960004197 prasugrel Drugs 0.000 claims description 3
- 210000003608 fece Anatomy 0.000 claims description 2
- 238000011049 filling Methods 0.000 claims description 2
- 244000005709 gut microbiome Species 0.000 claims description 2
- 230000008569 process Effects 0.000 abstract description 2
- 238000012417 linear regression Methods 0.000 description 8
- 238000002790 cross-validation Methods 0.000 description 7
- 230000000052 comparative effect Effects 0.000 description 6
- 241000605861 Prevotella Species 0.000 description 5
- 238000009395 breeding Methods 0.000 description 5
- 230000001488 breeding effect Effects 0.000 description 5
- 241000193830 Bacillus <bacterium> Species 0.000 description 4
- 239000002689 soil Substances 0.000 description 4
- 241000894007 species Species 0.000 description 4
- 238000002156 mixing Methods 0.000 description 3
- 235000015277 pork Nutrition 0.000 description 3
- 238000007637 random forest analysis Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000007400 DNA extraction Methods 0.000 description 2
- 241001415140 Dunalia Species 0.000 description 2
- 238000012408 PCR amplification Methods 0.000 description 2
- 241000881049 Terrisporobacter petrolearius Species 0.000 description 2
- 238000012098 association analyses Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 230000000875 corresponding effect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000499 gel Substances 0.000 description 2
- 238000009396 hybridization Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000002773 nucleotide Substances 0.000 description 2
- 125000003729 nucleotide group Chemical group 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- LZZYPRNAOMGNLH-UHFFFAOYSA-M Cetrimonium bromide Chemical compound [Br-].CCCCCCCCCCCCCCCC[N+](C)(C)C LZZYPRNAOMGNLH-UHFFFAOYSA-M 0.000 description 1
- 241000124008 Mammalia Species 0.000 description 1
- 241000589325 Methylobacillus Species 0.000 description 1
- 241000385060 Prevotella copri Species 0.000 description 1
- 238000000246 agarose gel electrophoresis Methods 0.000 description 1
- 238000000137 annealing Methods 0.000 description 1
- 235000021053 average weight gain Nutrition 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000004925 denaturation Methods 0.000 description 1
- 230000036425 denaturation Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 210000001035 gastrointestinal tract Anatomy 0.000 description 1
- 244000144972 livestock Species 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000002207 metabolite Substances 0.000 description 1
- 238000012257 pre-denaturation Methods 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 238000000746 purification Methods 0.000 description 1
- 239000002096 quantum dot Substances 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 210000000664 rectum Anatomy 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000010079 rubber tapping Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 208000010603 vasculitis due to ADA2 deficiency Diseases 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
- G16B50/10—Ontologies; Annotations
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Abstract
本发明公开了一种预测猪平均日增重的方法,涉及生物信息学领域。所述预测猪平均日增重的方法包括以下步骤:获取猪平均日增重数据并筛选与猪平均日增重相关的特定肠道微生物,计算所述特定肠道微生物的相对丰度;获取猪的原始SNP数据,计算与所述特定肠道微生物的相对丰度相关的SNP位点;以所述特定肠道微生物的相对丰度及其相关的SNP位点作为自变量,以猪平均日增重数据作为因变量,构建训练数据集;采用所述训练数据集对初始构建的机器学习回归模型进行训练,获得预测猪平均日增重模型,并基于所述预测猪平均日增重模型对猪只的平均日增重进行预测,可以准确地预测猪只生长过程中的日增重。
Description
技术领域
本发明涉及生物信息学领域,特别涉及一种预测猪平均日增重的方法。
背景技术
我国是一个养猪大国,随着猪肉的需求日益增加,如何提高猪肉产量和改善猪肉质量,成为育种科学家长期的研究重点。早期的育种工作主要集中于对猪的表型选择,随着基因组工作的不断推进和分子标记的使用,通过单核苷酸多态性(single nucleotidepolymorphism,SNP)标记进行育种选择成为了目前的主流,但是该育种选择方式依旧存在准确率不高的问题。
随着近几年肠道微生物研究不断取得新的突破,人们逐渐认识到肠道微生物的重要性。哺乳动物胃肠道存在着大量的微生物群,其基因数量约为宿主基因的1-1.3倍,肠道微生物以及其代谢产物对宿主的生长发育有着不可忽视的影响,而目前鲜有将肠道微生物利用到禽畜育种中。
可见,现有技术还有待改进和提高。
发明内容
鉴于上述现有技术的不足之处,本发明的目的在于提供一种预测猪平均日增重的方法,旨在通过利用肠道微生物和SNP位点预测猪平均日增重,以提高预测的准确性。
为了达到上述目的,本发明采取了以下技术方案:
一种预测猪平均日增重的方法,包括以下步骤:获取猪平均日增重数据并筛选与猪平均日增重相关的特定肠道微生物,计算所述特定肠道微生物的相对丰度;获取猪的原始SNP数据,计算与所述特定肠道微生物的相对丰度相关的SNP位点;以所述特定肠道微生物的相对丰度及其相关的SNP位点作为自变量,以猪平均日增重数据作为因变量,构建训练数据集;采用所述训练数据集对初始构建的机器学习回归模型进行训练,获得预测猪平均日增重模型,并基于所述预测猪平均日增重模型对猪只的平均日增重进行预测。
所述的预测猪平均日增重的方法,其中,所述获取猪平均日增重数据并筛选与猪平均日增重相关的特定肠道微生物,计算所述特定肠道微生物的相对丰度,具体包括以下步骤:从多只猪的肛门采集粪便样品;提取粪便中的微生物基因组DNA,然后进行16S rDNA测序,获得微生物组16S rDNA数据;对所述微生物组16S rDNA数据进行质控和聚类,获得聚类后的16SrDNA数据;根据微生物数据库对每个16S rDNA进行注释,获得肠道微生物种群数据,根据所述肠道微生物种群数据计算各种微生物的相对丰度;根据微生物的相对丰度以及该微生物在猪只中的存在率对所述肠道微生物种群数据进行过滤;计算过滤后的所述肠道微生物种群数据与所述猪平均日增重数据的相关性,获得与所述猪平均日增重数据相关的特定肠道微生物及其相对丰度。
所述的预测猪平均日增重的方法,其中,所述根据微生物的相对丰度以及该微生物在猪只中的存在率对所述肠道微生物种群数据进行过滤,具体包括:保留相对丰度在0.1%以上,且在20%以上的粪便样品中存在的微生物。
所述的预测猪平均日增重的方法,其中,所述计算过滤后的所述肠道微生物种群数据与所述猪平均日增重数据的相关性,获得与所述猪平均日增重数据相关的特定肠道微生物及其相对丰度,具体包括:以所述猪平均日增重数据为因变量,以所述微生物的相对丰度为自变量,构建Lasso模型,以计算过滤后的所述肠道微生物种群数据与所述猪平均日增重数据的相关性,从过滤后的肠道微生物种群数据中筛选出与所述猪平均日增重数据相关的特定肠道微生物及其相对丰度。
所述的预测猪平均日增重的方法,其中,所述计算过滤后的所述肠道微生物种群数据与所述猪平均日增重数据的相关性,获得与所述猪平均日增重数据相关的特定肠道微生物及其相对丰度,具体包括:利用偏相关和信息论算法计算所述肠道微生物种群数据与猪平均日增重数据之间的相关性,以获得与所述猪平均日增重数据相关的特定肠道微生物及其相对丰度。
所述的预测猪平均日增重的方法,其中,所述获取猪的原始SNP数据,计算与所述特定肠道微生物的相对丰度相关的SNP位点,具体包括以下步骤:采集多只猪的组织,提取组织DNA,采用基因芯片进行分型,获得原始SNP数据;对所述原始SNP数据进行过滤,获得过滤后的SNP数据;以所述特定肠道微生物的相对丰度为响应值,以所述过滤后的SNP数据作为预测值,通过模型计算出与所述特定肠道微生物的相对丰度相关的SNP位点。
所述的预测猪平均日增重的方法,其中,所述对所述原始SNP数据进行过滤,获得过滤后的SNP数据,具体包括:去除所述原始SNP数据中符合以下任一条的SNP:缺失率大于0.1的SNP;最小等位基因频率小于0.05的SNP;不符合Hardy-Weinberg平衡的SNP。
所述的预测猪平均日增重的方法,其中,所述以所述特定肠道微生物的相对丰度为响应值,以所述过滤后的SNP数据作为预测值,通过模型计算出与所述特定肠道微生物的相对丰度相关的SNP位点后,还包括:通过邻近算法填补与所述特定肠道微生物的相对丰度相关的SNP位点中的缺失数据。所述的预测猪平均日增重的方法,其特征在于,所述机器学习回归模型为LR模型,其具体方程式为:
Y=0.019X1-0.000326X2-0.00326X3-0.0109X4-0.00503X5+0.00681X6
-0.0064X7+0.00146X8+0.0226X9+0.585X10+0.925
所述方程式中,Y为猪平均日增重的预测值,单位为千克/天,X1至X8依次对应的SNP位点为:rs339933029、rs333900969、rs332402643、rs338935223、rs80986577、rs81415286、rs81437804、rs343769713,所述方程式中SNP位点用0、1或2表示,0表示主等位基因纯合子,1表示杂合子,2表示次等位基因纯合子;X9和X10分别为普雷沃氏菌和土孢杆菌的相对丰度。
所述的预测猪平均日增重的方法,其中,所述机器学习回归模型为XGB模型;所述特定肠道微生物为:甲基杆菌属、弯曲杆菌属、肠杆菌科未分类属、拟杆菌属、普雷沃氏菌属和拟杆菌目未分类科;所述与特定肠道微生物的相对丰度相关的SNP位点为:rs81429163、rs81325861、rs81450579、rs81450581、rs81451919、rs332862557、rs80886192、rs319026277、rs326203392、rs328862801、rs81349632、rs80841854、rs342676309、rs326977015、rs81476003、rs81269743、rs326491162、rs81452654、rs81457084、rs330259558、rs330673669、rs34149272、rs81226653、rs81408398、rs340738784、rs81408146、rs81238518。
有益效果:
本发明提供了一种预测猪平均日增重的方法,通过特定肠道微生物的相对丰度及与其相关的SNP位点作为自变量,以猪平均日增重数据作为因变量,构建机器学习回归模型并进行训练,训练得到的预测猪平均日增重模型通过肠道微生物和SNP位点对猪平均日增重进行预测,预测结果更加准确。
具体实施方式
本发明提供一种预测猪平均日增重的方法,为使本发明的目的、技术方案及效果更加清楚、明确,以下举实施例对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
实施例1数据采集
以杜长大三元杂交猪为研究对象,收集385头杜长大三元杂交猪的平均日增重数据以及获取各头猪的原始SNP数据和微生物组16S rDNA数据。
S101.平均日增重数据采集
采用性能自动测定系统测定猪64~150日龄时的日增重,当体重达到130±5KG时,结束测定。原始体重数据经过质控后,计算每只猪的平均日增重。
S102.原始SNP数据获取
采集猪耳组织并进行DNA提取,采用GeneSeek Porcine 50K的基因芯片对385头猪进行基因分型,获得原始SNP数据。
S103.微生物组16S rDNA数据获取
采用直肠拭子从猪的肛门进行粪便样品的采集,采集后的样品暂存于冰盒内,随后转运至实验室-80℃冰箱保存。
微生物基因组DNA提取:采用CTAB对样本基因组DNA进行提取,提取后进行PCR扩增;
PCR扩增的步骤如下:
第一步、98℃预变性1分钟;
第二步、进行30个循环,每个循环依次为:变性:98℃处理10秒;退火:50℃处理30秒;延伸:72℃处理30秒;
第三步、72℃处理5分钟进行延伸。
PCR产物的混样和纯化:根据PCR产物浓度进行等浓度混样,充分混匀后使用1×TAE浓度2%的琼脂糖胶电泳纯化PCR产物,选择割胶回收目标条带。产物纯化试剂盒使用的是Thermo Scientific公司GeneJET胶回收试剂盒。
文库构建和上机测序:使用Illumina公司TruSeq DNA PCR-Free LibraryPreparation Kit建库试剂盒进行文库的构建,构建好的文库经过Qubit定量和文库检测,合格后,使用NovaSeq 6000进行上机测序;获得微生物组16S rDNA数据。
实施例2
一种预测猪平均日增重的方法,包括以下步骤:
S201.获取猪平均日增重数据并筛选与猪平均日增重相关的特定肠道微生物,计算所述特定肠道微生物的相对丰度;
S202.获取猪的原始SNP数据,计算与所述特定肠道微生物的相对丰度相关的SNP位点;
S203.以所述特定肠道微生物的相对丰度及其相关的SNP位点作为自变量,以猪平均日增重数据作为因变量,构建训练数据集;
S204.采用所述训练数据集对初始构建的机器学习回归模型进行训练,获得预测猪平均日增重模型,并基于所述预测猪平均日增重模型对猪只的平均日增重进行预测。
本实施例中,所述获取猪平均日增重数据并筛选与猪平均日增重相关的特定肠道微生物,计算所述特定肠道微生物的相对丰度,具体包括以下步骤:
S2011.对实施例1中获取的微生物组16S rDNA数据进行质控,质控的具体方法如下:利用QIIME2软件中的DADA2插件对微生物组16S rDNA数据进行质控和聚类,聚类后获得多个分类单元;所述质控包括去除序列中的引物,对序列进行截选,过滤掉数量低于2的序列。
S2012.对分类单元进行微生物组数据过滤,过滤后的数据通过比对NCBI RefSeq数据库以对这些分类单元进行物种注释,置信度超过97%的菌种,认为是同一种菌;物种注释后计算各种微生物的相对丰度;
S2013.根据微生物的相对丰度以及该微生物在猪只中的存在率对所述肠道微生物种群数据进行过滤,保留相对丰度超过0.1%,且在60%以上的粪便样品中存在的微生物,经过过滤得到18种微生物。
S2014.计算过滤后的所述肠道微生物种群数据与所述猪平均日增重数据的相关性,从过滤后的肠道微生物种群数据中筛选出与所述猪平均日增重数据相关的特定肠道微生物及其相对丰度,具体包括:利用R语言(版本4.1.3)使用CeTF包实现偏相关和信息论(PCIT)算法计算上述18种菌的相对丰度与猪平均日增重数据之间的相关性,经过计算得到土孢杆菌(Terrisporobacter petrolearius)、普雷沃氏菌(Prevotella copri)与猪平均日增重显著相关。
本实施例中,所述获取猪的原始SNP数据,计算与所述特定肠道微生物的相对丰度相关的SNP位点,具体包括以下步骤:
S2021.对实施例1中获取的原始SNP数据进行过滤,过滤的具体方法如下:利用PLINK(版本1.9)对原始SNP数据进行过滤,排除符合以下任一条件的SNP或个体:(1)个体或SNP缺失率大于0.1的个体或SNP;(2)最小等位基因频率(MAF)小于0.05的SNP;(3)不符合Hardy-Weinberg平衡(HWE)中的SNP;SNP数据的质量不佳,那么计算的结果的有效性和准确性就无法保证,在进行SNP芯片测序采集的过程中,难免在测序、人工操作等方面出现误差,导致不能真实反映个体的情况,如果不对这些测序出现问题的数据进行筛选控制,必然会对后续操作造成影响;
经过过滤处理后得到31931个SNP位点。
S2022.所述以所述特定肠道微生物的相对丰度为响应值,以所述过滤后的SNP数据作为预测值,通过模型计算出与所述特定肠道微生物的相对丰度相关的SNP位点,具体包括:通过python利用scikit-learn包进行Lasso线性模型的建立,其中以土孢杆菌和普雷沃氏菌的相对丰度为响应值,以上述获得的31931个SNP位点为预测值,进行与所述两种细菌相关的SNP位点选择,获得以下与土孢杆菌和普雷沃氏菌的相对丰度相关的SNP位点,具体为:rs339933029、rs333900969、rs332402643、rs338935223、rs80986577、rs81415286、rs81437804、rs343769713。
所述采用所述训练数据集对初始构建的机器学习回归模型进行训练,获得预测猪平均日增重模型,并基于所述预测猪平均日增重模型对猪只的平均日增重进行预测,具体包括:
S2041.通过python利用scikit-learn包建立线性回归模型(LR),分别进行10折交叉验证,每一折将数据分为30%测试数据集和70%的训练数据集,采用训练数据集对模型进行训练,获得的预测猪平均日增重模型的具体方程式为:
Y=0.019X1-0.000326X2-0.00326X3-0.0109X4-0.00503X5+0.00681X6
-0.0064X7+0.00146X8+0.0226X9+0.585X10+0.925
所述方程式中,Y为猪平均日增重的预测值,单位为千克/天,X1至X8依次对应的SNP位点为:rs339933029、rs333900969、rs332402643、rs338935223、rs80986577、rs81415286、rs81437804、rs343769713,所述方程式中SNP位点用0、1或2表示,0表示主等位基因纯合子,1表示杂合子,2表示次等位基因纯合子;X9和X10分别为普雷沃氏菌和土孢杆菌的相对丰度。
以土孢杆菌(Terrisporobacter petrolearius)和普雷沃氏菌(Prevotellacopri)及其相关位点信息进行平均日增重的预测,采用测试集和均方误差(MSE)对模型的预测能力进行检验,以反应预测的准确性,MSE越小代表模型预测能力越准确。
对比例1
一种预测猪平均日增重的方法,其与实施例2的区别在于,所述S2021中,通过python利用scikit-learn包建立随机森林模型(RF),对模型进行训练,获得预测猪平均日增重模型。
对比例2
一种预测猪平均日增重的方法,其与实施例2的区别在于,所述S2021中,通过python利用scikit-learn包建立支持向量回归模型(SVR),对模型进行训练,获得预测猪平均日增重模型。
对比例3
一种预测猪平均日增重的方法,其与实施例2的区别在于,所述S2021中,通过python利用scikit-learn包建立XGB模型,对模型进行训练,获得预测猪平均日增重模型。
对比例4
一种预测猪平均日增重的方法,其与实施例2的区别在于,所述S2021中,通过python利用scikit-learn包建立决策树模型(DT),对模型进行训练,获得预测猪平均日增重模型。
实施例3
一种预测猪平均日增重的方法,其与实施例2的区别在于:
所述S2013中,根据微生物的相对丰度以及该微生物在猪只中的存在率对所述肠道微生物种群数据进行过滤,保留相对丰度超过0.1%,且在20%以上的粪便样品中存在的微生物,经过过滤得到68类微生物(ASV)。
所述S2014中,通过构建LSSO线性回归模型鉴别与猪平均日增重相关的微生物。Lasso模型是使用Python机器学习库scikit-learn实现的,以猪平均日增重数据为因变量,微生物的相对丰度为自变量,模型中的惩罚项通过5倍交叉验证进行调整,最终得到的相关微生物为:甲基杆菌属Methylobacterium(ASV_1)、弯曲杆菌属Campylobacter(ASV_2)、肠杆菌科未分类属Enterobacteriaceae(ASV_3)、拟杆菌属
Bacteroides(ASV_4)、普雷沃氏菌属Prevotella(ASV_6)和拟杆菌目未分类科(ASV_9)。
所述S2022中,通过python利用scikit-learn包建立Lasso线性模型,以上述6类微生物的相对丰度为响应值,以上述获得的31931个SNP位点为预测值,计算与所述两种细菌相关的SNP位点,共获得以下与上述6类微生物的相对丰度相关的SNP位点,具体为:
序号 | Trait | SNP | 序号 | Trait | SNP |
1 | ASV_1 | rs81429163 | 11 | ASV_2 | rs81443784 |
2 | ASV_1 | rs81429663 | 12 | ASV_4 | rs80821991 |
3 | ASV_2 | rs80872010 | 13 | ASV_4 | rs80982274 |
4 | ASV_2 | rs80796860 | 14 | ASV_4 | rs80837723 |
5 | ASV_2 | rs80927800 | 15 | ASV_4 | rs80805016 |
6 | ASV_2 | rs81384192 | 16 | ASV_4 | rs80879715 |
7 | ASV_2 | rs81233323 | 17 | ASV_4 | rs81315938 |
8 | ASV_2 | rs81415154 | 18 | ASV_6 | rs80968564 |
9 | ASV_2 | rs81300123 | 19 | ASV_9 | rs81238518 |
10 | ASV_2 | rs81418488 |
上述结果中,没有出现计算出与肠杆菌科未分类属(ASV_3)相关的SNP位点。
所述S2041中,通过python利用scikit-learn包建立线性回归模型(LR),对模型进行训练,获得预测猪平均日增重模型。
实施例4
一种预测猪平均日增重的方法,其与实施例3的区别在于:所述S2041中,通过python利用scikit-learn包建立机器学习随机森林回归模型(RF),对模型进行训练,获得预测猪平均日增重模型。
实施例5
一种预测猪平均日增重的方法,其与实施例3的区别在于:
所述S2022中,通过全基因组关联分析(GWAS),鉴定出与甲基杆菌属(ASV_1)、弯曲杆菌属(ASV_2)、肠杆菌科未分类属(ASV_3)、拟杆菌属(ASV_4)、普雷沃氏菌属(ASV_6)和拟杆菌目未分类科(ASV_9)的相对丰度显著相关的SNP位点,共获得如下27个相关的SNP位点:
序号 | Trait | SNP | 序号 | Trait | SNP |
1 | ASV_1 | rs81429163 | 15 | ASV_3 | rs81476003 |
2 | ASV_1 | rs81325861 | 16 | ASV_3 | rs81269743 |
3 | ASV_1 | rs81450579 | 17 | ASV_3 | rs326491162 |
4 | ASV_1 | rs81450581 | 18 | ASV_3 | rs81452654 |
5 | ASV_1 | rs81451919 | 19 | ASV_3 | rs81457084 |
6 | ASV_2 | rs332862557 | 20 | ASV_4 | rs330259558 |
7 | ASV_2 | rs80886192 | 21 | ASV_4 | rs330673669 |
8 | ASV_2 | rs319026277 | 22 | ASV_4 | rs34149272 |
9 | ASV_2 | rs326203392 | 23 | ASV_6 | rs81226653 |
10 | ASV_2 | rs328862801 | 24 | ASV_6 | rs81408398 |
11 | ASV_3 | rs81349632 | 25 | ASV_6 | rs340738784 |
12 | ASV_3 | rs80841854 | 26 | ASV_6 | rs81408146 |
13 | ASV_3 | rs342676309 | 27 | ASV_9 | rs81238518 |
14 | ASV_3 | rs326977015 |
利用邻近算法(KNN)填补上述27个SNP位点中的缺失数据。
所述S2041中,通过python利用scikit-learn包建立机器学习XGB回归模型,对模型进行训练,获得预测猪平均日增重模型。
对实施例2、对比例1-4训练得到的预测猪平均日增重模型进行10次交叉验证,10次交叉验证的均方误差(MSE)如下表所示,MSE越小代表模型预测能力越准确:
从实施例2以及对比例1-4的结果中可以看出,当限定特定肠道微生物为普雷沃氏菌和土孢杆菌,以及限定SNP位点为:rs339933029、rs333900969、rs332402643、rs338935223、rs80986577、rs81415286、rs81437804、rs343769713时,以训练LR模型所得到的预测猪平均日增重模型,其10次交叉验证的均方误差(MSE)比其他模型更小,准确率更高。
实施例3中,对S2013中对过滤条件进行了调整,保留相对丰度超过0.1%,且在20%以上的粪便样品中存在的微生物,过滤后得到微生物类型更多,并最终获得的相关微生物类型更多,得到的特定肠道微生物共有6类,通过采用Lasso线性模型筛选SNP位点,得到的相关SNP位点有27个,进一步训练线性回归模型(LR)所得到的预测猪平均日增重模型,其10次交叉验证的均方误差(MSE)比实施例2的小,但是降幅不明显,仅有0.4%。从实施例2和实施例3的结果上看,若仅增加用于预测猪日平均增重的微生物类型及相关的SNP位点,并不能提高模型的预测准确率。
实施例4中,采用了训练随机森林回归模型(RF)所得到的预测猪平均日增重模型,其10次交叉验证的均方误差(MSE)大小比实施例2有明显的下降,下降率为4.1%,说明在增加了预测的微生物类型的条件下,同时调整训练的模型种类,能够有效提高获得的预测猪日平均增重模型的预测准确率。
实施例5中,采用了全基因组关联分析计算出与实施例3中六类微生物的相对丰度相关的SNP,得到的SNP位点比实施例3更多,实施例5还以XGB模型为初始模型进行训练,所得到的预测猪平均日增重模型,其10次交叉验证的均方误差比实施例2-4的均方误差更小,准确性得到进一步提高。
可以理解的是,对本领域普通技术人员来说,可以根据本发明的技术方案及其发明构思加以等同替换或改变,而所有这些改变或替换都应属于本发明所附的权利要求的保护范围。
Claims (3)
1.一种预测猪平均日增重的方法,其特征在于,包括以下步骤:
获取猪平均日增重数据并筛选与猪平均日增重相关的特定肠道微生物,计算所述特定肠道微生物的相对丰度,具体包括以下步骤:从多只猪的肛门采集粪便样品;提取粪便中的微生物基因组DNA,然后进行16S rDNA测序,获得微生物组16S rDNA数据;对所述微生物组16S rDNA数据进行质控和聚类,获得聚类后的16S rDNA数据;根据微生物数据库对每个16SrDNA进行注释,获得肠道微生物种群数据,根据所述肠道微生物种群数据计算各种微生物的相对丰度;根据微生物的相对丰度以及该微生物在猪只中的存在率对所述肠道微生物种群数据进行过滤,具体包括:保留相对丰度在0.1%以上,且在20%以上的粪便样品中存在的微生物;计算过滤后的所述肠道微生物种群数据与所述猪平均日增重数据的相关性,获得与所述猪平均日增重数据相关的特定肠道微生物及其相对丰度,具体包括:利用偏相关和信息论算法计算所述肠道微生物种群数据与猪平均日增重数据之间的相关性,以获得与所述猪平均日增重数据相关的特定肠道微生物及其相对丰度;
获取猪的原始SNP数据,计算与所述特定肠道微生物的相对丰度相关的SNP位点,具体包括以下步骤:采集多只猪的组织,提取组织DNA,采用基因芯片进行分型,获得原始SNP数据;对所述原始SNP数据进行过滤,获得过滤后的SNP数据,具体包括:去除所述原始SNP数据中符合以下任一条的SNP,以获得过滤后的SNP数据:缺失率大于0.1的SNP;最小等位基因频率小于0.05的SNP;不符合Hardy-Weinberg平衡的SNP;以所述特定肠道微生物的相对丰度为响应值,以所述过滤后的SNP数据作为预测值,通过模型计算出与所述特定肠道微生物的相对丰度相关的SNP位点;
以所述特定肠道微生物的相对丰度及其相关的SNP位点作为自变量,以猪平均日增重数据作为因变量,构建训练数据集;
采用所述训练数据集对初始构建的机器学习回归模型进行训练,获得预测猪平均日增重模型,并基于所述预测猪平均日增重模型对猪只的平均日增重进行预测;
所述机器学习回归模型为XGB模型;所述特定肠道微生物为:甲基杆菌属、弯曲杆菌属、肠杆菌科未分类属、拟杆菌属、普雷沃氏菌属和拟杆菌目未分类科;所述与特定肠道微生物的相对丰度相关的SNP位点为:rs81429163、rs81325861、rs81450579、rs81450581、rs81451919、rs332862557、rs80886192、rs319026277、rs326203392、rs328862801、rs81349632、rs80841854、rs342676309、rs326977015、rs81476003、rs81269743、rs326491162、rs81452654、rs81457084、rs330259558、rs330673669、rs34149272、rs81226653、rs81408398、rs340738784、rs81408146、rs81238518。
2.根据权利要求1所述的预测猪平均日增重的方法,其特征在于,所述计算过滤后的所述肠道微生物种群数据与所述猪平均日增重数据的相关性,获得与所述猪平均日增重数据相关的特定肠道微生物及其相对丰度,具体包括:
以所述猪平均日增重数据为因变量,以所述微生物的相对丰度为自变量,构建Lasso模型,以计算过滤后的所述肠道微生物种群数据与所述猪平均日增重数据的相关性,从过滤后的肠道微生物种群数据中筛选出与所述猪平均日增重数据相关的特定肠道微生物及其相对丰度。
3.根据权利要求1所述的预测猪平均日增重的方法,其特征在于,所述以所述特定肠道微生物的相对丰度为响应值,以所述过滤后的SNP数据作为预测值,通过模型计算出与所述特定肠道微生物的相对丰度相关的SNP位点后,还包括:
通过邻近算法填补与所述特定肠道微生物的相对丰度相关的SNP位点中的缺失数据。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2022112793244 | 2022-10-19 | ||
CN202211279324.4A CN115341044A (zh) | 2022-10-19 | 2022-10-19 | 一种利用微生物及其相关snp位点预测猪日增重的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116580772A CN116580772A (zh) | 2023-08-11 |
CN116580772B true CN116580772B (zh) | 2024-01-30 |
Family
ID=83957670
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211279324.4A Pending CN115341044A (zh) | 2022-10-19 | 2022-10-19 | 一种利用微生物及其相关snp位点预测猪日增重的方法 |
CN202310321682.5A Active CN116580772B (zh) | 2022-10-19 | 2023-03-29 | 一种预测猪平均日增重的方法 |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211279324.4A Pending CN115341044A (zh) | 2022-10-19 | 2022-10-19 | 一种利用微生物及其相关snp位点预测猪日增重的方法 |
Country Status (1)
Country | Link |
---|---|
CN (2) | CN115341044A (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116463413B (zh) * | 2023-06-12 | 2023-10-03 | 佛山科学技术学院 | 猪间性病相关的wwox基因分子标记及其应用 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103667279A (zh) * | 2013-12-30 | 2014-03-26 | 华中农业大学 | 猪平均日增重相关基因Resistin的分子标记及其应用 |
WO2014177667A1 (en) * | 2013-05-03 | 2014-11-06 | Nestec S.A. | Lachnospiraceae in the gut microbiota and association with body weight |
CN109874294A (zh) * | 2016-04-15 | 2019-06-11 | 埃斯库斯生物科技股份公司 | 通过施用微生物聚生体或其纯化菌株来提高禽类的农业生产的方法 |
CN110097928A (zh) * | 2019-04-17 | 2019-08-06 | 广东省微生物研究所(广东省微生物分析检测中心) | 一种基于肠道菌群预测组织微量元素含量的预测方法和预测模型 |
CN110751985A (zh) * | 2019-09-20 | 2020-02-04 | 上海交通大学 | 与大体重鸡只高度关联的肠道微生物标记物 |
CN110827917A (zh) * | 2019-11-06 | 2020-02-21 | 华中科技大学鄂州工业技术研究院 | 一种基于snp鉴定个体肠道菌群类型的方法 |
CN111254183A (zh) * | 2020-01-22 | 2020-06-09 | 中国科学院亚热带农业生态研究所 | 一种利用肠道微生物菌群评价生猪个体蛋白营养状态的方法 |
CN113994010A (zh) * | 2019-05-31 | 2022-01-28 | 马斯公司 | 预测马体重减轻倾向的方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7118870B2 (en) * | 2001-09-28 | 2006-10-10 | The State Of Oregon Acting By And Through The State Board Of Higher Education On Behalf Of Oregon State University | Detection of fecal contamination using nucleic acid molecules that recognize bacterial 16S rDNA sequences |
US20030104392A1 (en) * | 2001-11-27 | 2003-06-05 | En-Chung Lin | Detection of growth performance of pigs |
BRPI1006135A2 (pt) * | 2009-01-12 | 2017-08-15 | Danisco | Bactérias do ácido láctico e seu uso em produtos microbianos para ração direta a suínos |
KR101212251B1 (ko) * | 2010-07-14 | 2012-12-12 | 서울대학교산학협력단 | 돼지의 장내 미생물 진단용 dna 칩, 칩을 포함하는 키트 및 키트를 이용한 진단방법 |
AR091482A1 (es) * | 2012-06-21 | 2015-02-04 | Recombinetics Inc | Celulas modificadas geneticamente y metodos par su obtencion |
AR100216A1 (es) * | 2014-04-28 | 2016-09-21 | Recombinetics Inc | Edición de genes multiplexados |
CN111567689A (zh) * | 2020-05-18 | 2020-08-25 | 西北农林科技大学 | 一种改善肠道健康的猪饲料及其制备方法 |
-
2022
- 2022-10-19 CN CN202211279324.4A patent/CN115341044A/zh active Pending
-
2023
- 2023-03-29 CN CN202310321682.5A patent/CN116580772B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014177667A1 (en) * | 2013-05-03 | 2014-11-06 | Nestec S.A. | Lachnospiraceae in the gut microbiota and association with body weight |
CN103667279A (zh) * | 2013-12-30 | 2014-03-26 | 华中农业大学 | 猪平均日增重相关基因Resistin的分子标记及其应用 |
CN109874294A (zh) * | 2016-04-15 | 2019-06-11 | 埃斯库斯生物科技股份公司 | 通过施用微生物聚生体或其纯化菌株来提高禽类的农业生产的方法 |
CN110097928A (zh) * | 2019-04-17 | 2019-08-06 | 广东省微生物研究所(广东省微生物分析检测中心) | 一种基于肠道菌群预测组织微量元素含量的预测方法和预测模型 |
CN113994010A (zh) * | 2019-05-31 | 2022-01-28 | 马斯公司 | 预测马体重减轻倾向的方法 |
CN110751985A (zh) * | 2019-09-20 | 2020-02-04 | 上海交通大学 | 与大体重鸡只高度关联的肠道微生物标记物 |
CN110827917A (zh) * | 2019-11-06 | 2020-02-21 | 华中科技大学鄂州工业技术研究院 | 一种基于snp鉴定个体肠道菌群类型的方法 |
CN111254183A (zh) * | 2020-01-22 | 2020-06-09 | 中国科学院亚热带农业生态研究所 | 一种利用肠道微生物菌群评价生猪个体蛋白营养状态的方法 |
Non-Patent Citations (5)
Title |
---|
Impact of Intestinal Microbiota on Growth and Feed Efficiency in Pigs: A Review;Gillian E. Gardiner 等;《Microorganisms 2020》;1-31 * |
mpact of Intestinal Microbiota on Growth and Feed Efficiency in Pigs: A Review;Gillian E. Gardiner 等;《Microorganisms 2020》;1-31 * |
不同初生重、日采食量和日采食次数对猪生长性能的影响;杨凯 等;《佛山科学技术学院学报(自然科学版)》;第40卷(第2期);56-62 * |
不同初生重、日采食量和日采食次数对猪生长性能的影响_杨凯;杨凯 等;《佛山科学技术学院学报(自然科学版)》;第40卷(第2期);56-62 * |
大白猪饲料利用效率遗传和微生物标记挖掘及宿主遗传与肠道微生物互作关系的研究;司景磊;《中国博士学位论文全文数据库 农业科技辑》(第2021年07期);D050-9 * |
Also Published As
Publication number | Publication date |
---|---|
CN116580772A (zh) | 2023-08-11 |
CN115341044A (zh) | 2022-11-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107937556B (zh) | 一个与猪饲料转化率相关的snp位点及其应用 | |
CN116580772B (zh) | 一种预测猪平均日增重的方法 | |
CN110846422A (zh) | 与猪产活仔数性状关联的分子标记及其应用 | |
CN108060260B (zh) | 与大豆种子蛋氨酸含量相关的snp标记、区间、引物及应用 | |
CN107988421B (zh) | 与大豆种子油分含量相关的分子标记、区间、引物及应用 | |
CN116516029A (zh) | 一种金鲳全基因组育种芯片及应用 | |
CN111485026A (zh) | 一种与绵羊出生重相关的snp位点、应用、分子标记和引物 | |
CN107988424B (zh) | 与大豆种子蛋氨酸含量相关的分子标记、区间、引物及应用 | |
CN116926234B (zh) | 与大豆籽粒油分含量相关的snp分子标记及其应用 | |
CN107828897A (zh) | 与猪达100kg体重日龄性状相关的SNP分子标记及其应用 | |
CN109234412B (zh) | 快速检测生长速度快的翘嘴红鲌的方法及所用的分子标记 | |
CN116434840B (zh) | 一种预测猪饲料转化率的方法 | |
CN114875157B (zh) | 与黄颡鱼个体生长性状相关的snp标记及应用 | |
CN106701930B (zh) | 利用pcr-sscp检测绵羊fth-1基因插入缺失多态性的方法及其应用 | |
CN113684280A (zh) | 一种仿刺参抗高温育种低密度12k snp芯片及应用 | |
CN106755370B (zh) | 利用pcr-rflp检测绵羊fth-1基因单核苷酸多态性的方法及其应用 | |
CN116479164B (zh) | 大豆百粒重与尺寸相关的snp位点、分子标记、扩增引物及其应用 | |
CN107937558A (zh) | 一个与猪平均日采食量相关的snp位点及其应用 | |
CN112458183B (zh) | 一种猪3号染色体上与猪日增重和上市体重日龄相关的拷贝数变异分子标记及应用 | |
CN117051127B (zh) | 一种与牦牛生长性状相关的snp位点及应用 | |
CN114790488B (zh) | 一种金黄色葡萄球菌的mnp标记位点、引物组合物、试剂盒及其应用 | |
CN117535419A (zh) | 双峰驼乳脂率相关基因palm2akap2及其作为分子标记的应用 | |
CN110777209B (zh) | 麦洼牦牛特异性基因、引物组及应用 | |
CN117230240A (zh) | 与大豆籽粒油分含量相关的InDel位点、分子标记、引物及其应用 | |
CN117248061A (zh) | 与大豆籽粒油分含量相关的InDel位点、分子标记、引物及其应用 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |