CN113643750A - 一种基于母本反刍动物瘤胃菌群结构预测子代生长性状的方法 - Google Patents
一种基于母本反刍动物瘤胃菌群结构预测子代生长性状的方法 Download PDFInfo
- Publication number
- CN113643750A CN113643750A CN202110911708.2A CN202110911708A CN113643750A CN 113643750 A CN113643750 A CN 113643750A CN 202110911708 A CN202110911708 A CN 202110911708A CN 113643750 A CN113643750 A CN 113643750A
- Authority
- CN
- China
- Prior art keywords
- ruminant
- growth
- rumen
- female
- predicting
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 241000282849 Ruminantia Species 0.000 title claims abstract description 90
- 210000004767 rumen Anatomy 0.000 title claims abstract description 68
- 238000000034 method Methods 0.000 title claims abstract description 46
- 239000012530 fluid Substances 0.000 claims abstract description 24
- 238000010801 machine learning Methods 0.000 claims abstract description 22
- 108020004465 16S ribosomal RNA Proteins 0.000 claims abstract description 19
- 238000004458 analytical method Methods 0.000 claims abstract description 14
- 238000012165 high-throughput sequencing Methods 0.000 claims abstract description 14
- 230000008774 maternal effect Effects 0.000 claims abstract description 10
- 230000000813 microbial effect Effects 0.000 claims abstract description 7
- 238000007637 random forest analysis Methods 0.000 claims description 20
- 108020004414 DNA Proteins 0.000 claims description 14
- 238000003066 decision tree Methods 0.000 claims description 12
- 230000004584 weight gain Effects 0.000 claims description 11
- 235000019786 weight gain Nutrition 0.000 claims description 11
- 244000005700 microbiome Species 0.000 claims description 10
- 230000006870 function Effects 0.000 claims description 6
- LZZYPRNAOMGNLH-UHFFFAOYSA-M Cetrimonium bromide Chemical group [Br-].CCCCCCCCCCCCCCCC[N+](C)(C)C LZZYPRNAOMGNLH-UHFFFAOYSA-M 0.000 claims description 5
- 230000001580 bacterial effect Effects 0.000 claims description 5
- 108091093088 Amplicon Proteins 0.000 claims description 4
- 241000203069 Archaea Species 0.000 claims description 4
- 241000894006 Bacteria Species 0.000 claims description 4
- 210000003763 chloroplast Anatomy 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 4
- 238000011156 evaluation Methods 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 239000012634 fragment Substances 0.000 claims description 3
- 238000012216 screening Methods 0.000 claims description 3
- 238000009966 trimming Methods 0.000 claims description 3
- 238000010276 construction Methods 0.000 abstract description 5
- 238000005070 sampling Methods 0.000 abstract description 4
- 241001494479 Pecora Species 0.000 description 10
- 241001465754 Metazoa Species 0.000 description 5
- 238000012163 sequencing technique Methods 0.000 description 5
- 241000283903 Ovis aries Species 0.000 description 4
- 239000006228 supernatant Substances 0.000 description 4
- 239000002244 precipitate Substances 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Chemical compound O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 3
- IJGRMHOSHXDMSA-UHFFFAOYSA-N Atomic nitrogen Chemical compound N#N IJGRMHOSHXDMSA-UHFFFAOYSA-N 0.000 description 2
- 238000007400 DNA extraction Methods 0.000 description 2
- LFQSCWFLJHTTHZ-UHFFFAOYSA-N Ethanol Chemical compound CCO LFQSCWFLJHTTHZ-UHFFFAOYSA-N 0.000 description 2
- KFZMGEQAYNKOFK-UHFFFAOYSA-N Isopropanol Chemical compound CC(C)O KFZMGEQAYNKOFK-UHFFFAOYSA-N 0.000 description 2
- 235000019687 Lamb Nutrition 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 238000009395 breeding Methods 0.000 description 2
- 230000001488 breeding effect Effects 0.000 description 2
- 238000002790 cross-validation Methods 0.000 description 2
- 239000003651 drinking water Substances 0.000 description 2
- 235000020188 drinking water Nutrition 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 210000004798 organs belonging to the digestive system Anatomy 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 208000010603 vasculitis due to ADA2 deficiency Diseases 0.000 description 2
- 241000283690 Bos taurus Species 0.000 description 1
- 229920002488 Hemicellulose Polymers 0.000 description 1
- 241000282414 Homo sapiens Species 0.000 description 1
- 241000124008 Mammalia Species 0.000 description 1
- 108091007491 NSP3 Papain-like protease domains Proteins 0.000 description 1
- 102000006382 Ribonucleases Human genes 0.000 description 1
- 108010083644 Ribonucleases Proteins 0.000 description 1
- 229910000831 Steel Inorganic materials 0.000 description 1
- QCWXUUIWCKQGHC-UHFFFAOYSA-N Zirconium Chemical compound [Zr] QCWXUUIWCKQGHC-UHFFFAOYSA-N 0.000 description 1
- 239000011543 agarose gel Substances 0.000 description 1
- PNEYBMLMFCGWSK-UHFFFAOYSA-N aluminium oxide Inorganic materials [O-2].[O-2].[O-2].[Al+3].[Al+3] PNEYBMLMFCGWSK-UHFFFAOYSA-N 0.000 description 1
- 239000011324 bead Substances 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000001913 cellulose Substances 0.000 description 1
- 229920002678 cellulose Polymers 0.000 description 1
- 238000005119 centrifugation Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- YTRQFSDWAXHJCC-UHFFFAOYSA-N chloroform;phenol Chemical compound ClC(Cl)Cl.OC1=CC=CC=C1 YTRQFSDWAXHJCC-UHFFFAOYSA-N 0.000 description 1
- 238000011109 contamination Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000037213 diet Effects 0.000 description 1
- 235000005911 diet Nutrition 0.000 description 1
- 235000014113 dietary fatty acids Nutrition 0.000 description 1
- 235000019621 digestibility Nutrition 0.000 description 1
- 230000029087 digestion Effects 0.000 description 1
- 102000038379 digestive enzymes Human genes 0.000 description 1
- 108091007734 digestive enzymes Proteins 0.000 description 1
- 238000001962 electrophoresis Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 210000003238 esophagus Anatomy 0.000 description 1
- 239000000194 fatty acid Substances 0.000 description 1
- 229930195729 fatty acid Natural products 0.000 description 1
- 150000004665 fatty acids Chemical class 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 150000004676 glycans Chemical class 0.000 description 1
- 239000008187 granular material Substances 0.000 description 1
- 230000003862 health status Effects 0.000 description 1
- 239000007788 liquid Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 235000013372 meat Nutrition 0.000 description 1
- 230000004060 metabolic process Effects 0.000 description 1
- 235000013336 milk Nutrition 0.000 description 1
- 239000008267 milk Substances 0.000 description 1
- 210000004080 milk Anatomy 0.000 description 1
- 229910052757 nitrogen Inorganic materials 0.000 description 1
- 239000001814 pectin Substances 0.000 description 1
- 229920001277 pectin Polymers 0.000 description 1
- 235000010987 pectin Nutrition 0.000 description 1
- 230000035790 physiological processes and functions Effects 0.000 description 1
- 229920001282 polysaccharide Polymers 0.000 description 1
- 239000005017 polysaccharide Substances 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 210000003296 saliva Anatomy 0.000 description 1
- 230000035945 sensitivity Effects 0.000 description 1
- 239000004460 silage Substances 0.000 description 1
- 210000003491 skin Anatomy 0.000 description 1
- 239000010959 steel Substances 0.000 description 1
- 239000008223 sterile water Substances 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 210000002268 wool Anatomy 0.000 description 1
- 229910052726 zirconium Inorganic materials 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B5/00—ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Biophysics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Physiology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Analytical Chemistry (AREA)
- Molecular Biology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Artificial Intelligence (AREA)
- Bioethics (AREA)
- Chemical & Material Sciences (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Evolutionary Computation (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明提供一种基于母本反刍动物瘤胃菌群结构预测子代生长性状的方法,包括以下步骤:步骤1,收集子代反刍动物生长性状数据,并采集母本反刍动物瘤胃液样本;步骤2,从母本反刍动物瘤胃液样本中提取母本反刍动物瘤胃微生物DNA,并进行16S rDNA高通量测序;步骤3,对16S rDNA高通量测序的结果进行分析;步骤4,根据子代反刍动物生长性状数据和母本反刍动物瘤胃液样本的分析结果构建机器学习模型,利用机器学习模型对子代生长性状进行预测。本发明通过16S rDNA分析待测母本反刍动物瘤胃的菌群结构,基于机器学习模型的构建,实现高效准确的预测子代反刍动物生长性状,避免直接采样对幼龄反刍动物造成的损伤。
Description
技术领域
本发明涉及一种预测动物子代生长性状的方法,特别涉及一种基于母本反刍动物瘤胃菌群结构预测子代生长性状的方法。
背景技术
反刍动物是重要的家畜(牛、羊等),为人类提供了大量肉、乳、皮、毛等重要农产品。反刍动物能够利用日粮中其他哺乳动物难以消化的植物纤维,这主要归功于其特有的消化器官—瘤胃。瘤胃中存在着复杂的微生物菌群落帮助瘤胃发挥消化生理功能,是反刍动物主要的消化器官。瘤胃微生物分泌多种消化酶作用于食物中的纤维素、半纤维素和果胶等多糖类物质,产生的挥发性脂肪酸为反刍动物宿主提供60-70%的能量来源。大量研究表明,瘤胃微生物与反刍动物的饲料消化率、新陈代谢及健康状况高度相关,并且能够利用瘤胃微生物菌群结构有效预测动物饲料效率。
因此,可以将瘤胃菌群运用于幼龄反刍动物的生长性状早期预测。然而幼龄动物食道脆弱,难以通过常规的口腔采集瘤胃液方法测定瘤胃微生物。而已有研究表明,来自于幼龄动物母本的微生物与子代的初期生长发育密切相关,且反刍动物瘤胃微生物存在一定的遗传特性,因此,利用母本微生物结构能够有效预测幼龄反刍动物的生长性状。
发明内容
本发明的目的在于提供一种基于母本反刍动物瘤胃菌群结构预测子代生长性状的方法,通过提取母木反刍动物瘤胃液中微生物总DNA,测序并分析计算瘤胃菌群构成,以ASV丰度为变量,建立随机森林二分类模型,以实现其子代生长性状的预测。
本发明解决其技术问题所采用的技术方案是:
一种基于母本反刍动物瘤胃菌群结构预测子代生长性状的方法,该方法包括以下步骤:
步骤1,收集子代反刍动物生长性状数据,并采集母本反刍动物瘤胃液样本;
步骤2,从所述母本反刍动物瘤胃液样本中提取母本反刍动物瘤胃微生物DNA,并进行16S rDNA高通量测序;
步骤3,对所述16S rDNA高通量测序的结果进行分析;
步骤4,根据所述子代反刍动物生长性状数据和所述母本反刍动物瘤胃液样本的分析结果构建机器学习模型,利用所述机器学习模型对子代生长性状进行预测。
作为优选,所述步骤1中,子代反刍动物生长性状数据包括子代反刍动物的初生体重和断奶体重。
作为优选,所述步骤2中,提取母本反刍动物瘤胃微生物DNA的方法为CTAB法。
作为优选,所述步骤2中,16S rDNA高通量测序的片段区域为V3-V4区,以引物341F和806R进行扩增。
作为优选,所述步骤3中,所述分析方法为扩增子序列变异(ASV)分析。
作为优选,所述步骤3中,所述分析方法包括以下步骤:
步骤3.1,去除barcodes和引物序列,获得样品真实序列;
步骤3.2,将样品真实序列过滤、修剪和合并后生成ASV表;
步骤3.3,移除嵌合体、古细菌和叶绿体信息,仅保留细菌序列;
步骤3.4,将各样本序列抽平至10000个序列的深度。
作为优选,所述步骤4中,所述机器学习模型为随机森林模型。
作为优选,所述步骤4中,所述构建机器学习模型包括以下步骤:
步骤4.1,定义生长性状组别和模型的特征变量;
步骤4.2,使用RandomForestClassifier函数来构建随机森林模型;
步骤4.3,使用变量选择从待选特征变量中筛选出有效特征变量,设定有效特征变量阈值为1e-3;
步骤4.4,对随机森林模型中的决策树个数、最大特征数目和决策树最大深度依次调参,选择最佳参数以提高模型精度并防止过度拟合;
步骤4.5,以十折交叉验证下模型的准确度,并以ROC曲线图形对随机森林模型进行评估,评估合格后得到有效的机器学习模型。
作为优选,所述步骤4.1中,所述定义生长性状组别的方法为:以子代反刍动物的断奶体重或断奶增重作为生长性状,在每个产仔数水平下,定义生长形状前25%的子代反刍动物为高性状组,生长形状后25%的子代反刍动物为低性状组。
作为优选,所述步骤4.1中,所述模型的特征变量为对数转换后的母本细菌ASV相对丰度。
本发明的有益效果是:
本发明的一种基于母本反刍动物瘤胃菌群结构预测子代生长性状的方法,通过16S rDNA分析待测母本反刍动物瘤胃的菌群结构,基于机器学习模型的构建,实现高效、准确的预测子代反刍动物的生长性状,避免了直接采样对幼龄反刍动物造成的损伤。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1是本发明实施例2的湖羊羔羊断奶增重预测模型ROC曲线图;
图2是本发明实施例2的湖羊羔羊断奶重预测模型ROC曲线图。
具体实施方式
下面通过具体实施例,并结合附图,对本发明的技术方案作进一步的具体说明。应当理解,本发明的实施并不局限于下面的实施例,对本发明所做的任何形式上的变通和/或改变都将落入本发明保护范围。
在本发明中,若非特指,所有的份、百分比均为重量单位,所采用的设备和原料等均可从市场购得或是本领域常用的。下述实施例中的方法,如无特别说明,均为本领域的常规方法。下述实施例中的部件或设备如无特别说明,均为通用标准件或本领域技术人员知晓的部件,其结构和原理都为本技术人员均可通过技术手册得知或通过常规实验方法获知。
实施例1:
一种基于母本反刍动物瘤胃菌群结构预测子代生长性状的方法,该方法包括以下步骤:
步骤1,收集子代反刍动物生长性状数据,并采集母本反刍动物瘤胃液样本;
步骤2,从母本反刍动物瘤胃液样本中提取母本反刍动物瘤胃微生物DNA,并进行16S rDNA高通量测序;
步骤3,对16S rDNA高通量测序的结果进行分析;
步骤4,根据子代反刍动物生长性状数据和所述母本反刍动物瘤胃液样本的分析结果构建机器学习模型,利用机器学习模型对子代生长性状进行预测。
通过上述技术方案,通过16S rDNA分析待测母本反刍动物瘤胃的菌群结构,基于机器学习模型的构建,实现高效、准确的预测子代反刍动物的生长性状,避免了直接采样对幼龄反刍动物造成的损伤。
实施例2:
一种基于母本反刍动物瘤胃菌群结构预测子代生长性状的方法,该方法包括以下步骤:
步骤1,收集子代反刍动物生长性状数据,并采集母本反刍动物瘤胃液样本;
步骤2,从母本反刍动物瘤胃液样本中提取母本反刍动物瘤胃微生物DNA,并进行16S rDNA高通量测序;
步骤3,对16S rDNA高通量测序的结果进行分析;
步骤4,根据子代反刍动物生长性状数据和所述母本反刍动物瘤胃液样本的分析结果构建机器学习模型,利用机器学习模型对子代生长性状进行预测。
步骤1中,子代反刍动物生长性状数据包括子代反刍动物的初生体重和断奶体重。
步骤2中,提取母本反刍动物瘤胃微生物DNA的方法为CTAB法;16S rDNA高通量测序的片段区域为V3-V4区,以引物341F和806R进行扩增。
步骤3中,分析方法为扩增子序列变异(ASV)分析,包括以下步骤:
步骤3.1,去除barcodes和引物序列,获得样品真实序列;
步骤3.2,将样品真实序列过滤、修剪和合并后生成ASV表;
步骤3.3,移除嵌合体、古细菌和叶绿体信息,仅保留细菌序列;
步骤3.4,将各样本序列抽平至10000个序列的深度。
步骤4中,机器学习模型为随机森林模型,构建随机森林模型包括以下步骤:
步骤4.1,定义生长性状组别和模型的特征变量;
步骤4.2,使用RandomForestClassifier函数来构建随机森林模型;
步骤4.3,使用变量选择从待选特征变量中筛选出有效特征变量,设定有效特征变量阈值为1e-3;
步骤4.4,对随机森林模型中的决策树个数、最大特征数目和决策树最大深度依次调参,选择最佳参数以提高模型精度并防止过度拟合;
步骤4.5,以十折交叉验证下模型的准确度,并以ROC曲线图形对随机森林模型进行评估,评估合格后得到有效的机器学习模型。
步骤4.1中,定义生长性状组别的方法为:以子代反刍动物的断奶体重或断奶增重作为生长性状,在每个产仔数水平下,定义生长形状前25%的子代反刍动物为高性状组,生长形状后25%的子代反刍动物为低性状组;模型的特征变量为对数转换后的母本细菌ASV相对丰度。
根据上述方法,以湖羊为例,根据母本湖羊的对湖羊羔羊的生长性状进行预测,具体实例如下。
一、幼龄反刍动物生长性状数据收集
幼龄反刍动物生长性状数据收集于中国国家级肉羊养殖核心场(浙江赛诺生态农业有限公司)的179只湖羊母羔羊。羔羊与母本同栏饲养至45天断奶,出生时测量羔羊初生体重,并于45天断奶时测量断奶体重,期间一直可自由采食饮用水与颗粒料。结果显示:羔羊群体初生重为3.65±0.71kg,断奶重为14.10±1.72kg。
二、母本反刍动物瘤胃液样品采集
(1)样品来源:瘤胃液样本采集于中国国家级肉羊养殖核心场(浙江赛诺生态农业有限公司)的128只1032.7±424.62日龄的母本湖羊。湖羊于相同饲养条件下围栏养殖,自由采食青贮饲料和饮水。
(2)瘤胃液采集:在母本湖羊分娩后59.7±1.55天晨饲前,使用瘤胃液采集管(A1320K,科立博牧业科技有限公司)通过口腔采集瘤胃液。弃去前20mL瘤胃液以避免唾液污染,收集的瘤胃液样品在液氮中速冻,随后储存在-80℃中。
三、瘤胃微生物DNA提取和16S高通量测序
(1)DNA提取:利用CTAB法提取母本瘤胃生物的总DNA。将冻存的瘤胃液样本在冰上解冻,取0.2-0.3g样品加入含1mL 2%CTAB溶液、0.3g无菌氧化铝锆珠(0.1mm)和2个钢珠(2mm)的2mL研磨管中。混合物通过研磨仪(JXFSTPRP-24,上海净信实业发展有限公司)物理破碎,65Hz运行30s,停顿10s,重复三次。随后在4℃,14000rpm下离心15min。将上清液转移至新的2mL离心管,加入等体积PCI溶液(酚氯仿25:24:1)振荡器剧烈震荡30s。室温14000rpm离心10min。上清移至新离心管(1.5mL),加入0.6-0.8倍体积异丙醇,上下颠倒温柔混匀。-20℃过夜或-80℃2小时。室温14000rpm离心30min。弃上清,可见白色DNA沉淀。用1ml 70%乙醇清洗沉淀,将沉淀从管底吹起。4℃14000rpm离心30min,弃上清。干燥沉淀。50μL无菌水溶解DNA。加RNase至终浓度为0.1mg/ml。37℃水浴15min。利用1%琼脂糖凝胶电泳检测DNA的质量。提取的DNA溶液保存在-20℃。
(2)16S rDNA测序:利用引物341F(5’-CCTAYGGGRBGCASCAG-3’,SEQ ID No.1)和引物806R(5’-GGACTACNNGGGTATCTAAT-3’,SEQ ID No.2)对扩增16S rDNA序列的V3-V4高可变区,其具有6bp样品标签barcodes。样品的二代高通量测序由北京诺禾致源科技股份有限公司进行,使用Illumina NovaSeq 6000平台2×250双端测序。
四、16S rDNA测序数据分析
将原始序列根据标签barcodes进行分组,并去除barcodes和引物序列。随后使用R软件(版本4.0.2)中的DADA2包(版本1.16)基于模式化流程(http://benjjneb.github.io/dada2/tutorial.html)对测序结果进行扩增子序列变异(amplicon sequence variants,ASV)分析。即每个样本的序列被过滤、修剪和合并后生成ASV表并导入phyloseq包(版本1.34.0)以移除嵌合体、古细菌和叶绿体信息,仅保留细菌序列,并将各样本序列抽平至10000个序列的深度。
五、基于母本瘤胃细菌菌群结构预测子代生长性状的机器学习模型构建
使用目标群体中已知子代断奶重、断奶增重的样本建立随机森林二分类模型,并以此模型判断其他个体的子代属于高生长形状个体还是低生长性状个体(生长性状可以是断奶重、断奶增重等)。利用已知数据构建模型的过程为:在每个产仔数水平下,定义生长性状前25%的为高性状组,后25%的为低性状组。模型的变量为对数转换后的母代细菌ASV相对丰度。使用python的Sklearn包(版本0.23.2,https://scikit-learn.org/stable/)中的RandomForestClassifier函数来构建随机森林模型,通过自助法(bootstrap sample)重采样,从训练样本集N中有放回地重复随机抽取n个样本,生成新的训练样本集合训练决策树,然后按以上步骤生成m棵决策树组成随机森林,将m棵分类树投票最多的类别指定为最终的输出。
计算待选特征基尼指数(Gini值)后从大到小排序,依次作为决策树根节点、中间节点和叶结点的分类特征。
其中,Gini(D,Am)为根据待选特征A(对数转化的ASV相对丰度)被分割为D1(高生产性状)和D2(低生产性状)两类的Gini指数,|D1|、|D2|、|D|分别为集合D1、D2、D中样本的个数。
随后用变量选择功能feature_selection筛选有效特征A变量(阈值=1e-3)。使用param_grid功能对n_estimators、max_features和max_depth参数依次调参。其中n_estimators为随机森林中的分类器,即决策树的个数;max_features为建立决策树时选择的最大特征数目;max_depth为决策树的最大深度。选择最佳参数以提高模型精度,并防止过度拟合。以十折交叉验证下模型的准确度和ROC曲线图形对模型进行评估。
得到有效模型后输入待预测的母本瘤胃ASV信息即可获得对其子代的预测结果。十折交叉验证下对于断奶增重高低判别的平均准确率为0.7986,对于断奶重高低的判别平均准确率为0.7889。ROC曲线图显示,如图1所示,断奶增重随机森林模型曲线下面积(AUC)为0.89,如图2所示,断奶重随机森林模型AUC为0.88。以上结果表明,通过本申请的一种基于母本反刍动物瘤胃菌群结构预测子代生长性状的方法,能够有效预测子代断奶增重和断奶重生长性状,具有较高的准确率、灵敏度和特异度。
以上所述的实施例只是本发明的一种较佳的方案,并非对本发明作任何形式上的限制,在不超出权利要求所记载的技术方案的前提下还有其它的变体及改型。
序列表
<110> 浙江大学
<120> 一种基于母本反刍动物瘤胃菌群结构预测子代生长性状的方法
<130> ZJWL-WJK202102
<160> 2
<170> SIPOSequenceListing 1.0
<210> 1
<211> 17
<212> DNA
<213> 人工合成(341F)
<400> 1
cctaygggrb gcascag 17
<210> 2
<211> 20
<212> DNA
<213> 人工合成(806R)
<220>
<221> misc_feature
<222> (8)..(9)
<223> n is a, c, g, t or u
<400> 2
ggactacnng ggtatctaat 20
Claims (10)
1.一种基于母本反刍动物瘤胃菌群结构预测子代生长性状的方法,其特征在于:该方法包括以下步骤:
步骤1,收集子代反刍动物生长性状数据,并采集母本反刍动物瘤胃液样本;
步骤2,从所述母本反刍动物瘤胃液样本中提取母本反刍动物瘤胃微生物DNA,并进行16S rDNA高通量测序;
步骤3,对所述16S rDNA高通量测序的结果进行分析;
步骤4,根据所述子代反刍动物生长性状数据和所述母本反刍动物瘤胃液样本的分析结果构建机器学习模型,利用所述机器学习模型对子代生长性状进行预测。
2.根据权利要求1所述的一种基于母本反刍动物瘤胃菌群结构预测子代生长性状的方法,其特征在于:所述步骤1中,子代反刍动物生长性状数据包括子代反刍动物的初生体重和断奶体重。
3.根据权利要求1所述的一种基于母本反刍动物瘤胃菌群结构预测子代生长性状的方法,其特征在于:所述步骤2中,提取母本反刍动物瘤胃微生物DNA的方法为CTAB法。
4.根据权利要求1所述的一种基于母本反刍动物瘤胃菌群结构预测子代生长性状的方法,其特征在于:所述步骤2中,16S rDNA高通量测序的片段区域为V3-V4区,以引物341F和806R进行扩增。
5.根据权利要求1所述的一种基于母本反刍动物瘤胃菌群结构预测子代生长性状的方法,其特征在于:所述步骤3中,所述分析方法为扩增子序列变异(ASV)分析。
6.根据权利要求1所述的一种基于母本反刍动物瘤胃菌群结构预测子代生长性状的方法,其特征在于:所述步骤3中,所述分析方法包括以下步骤:
步骤3.1,去除barcodes和引物序列,获得样品真实序列;
步骤3.2,将样品真实序列过滤、修剪和合并后生成ASV表;
步骤3.3,移除嵌合体、古细菌和叶绿体信息,仅保留细菌序列;
步骤3.4,将各样本序列抽平至10000个序列的深度。
7.根据权利要求1所述的一种基于母本反刍动物瘤胃菌群结构预测子代生长性状的方法,其特征在于:所述步骤4中,所述机器学习模型为随机森林模型。
8.根据权利要求1所述的一种基于母本反刍动物瘤胃菌群结构预测子代生长性状的方法,其特征在于:所述步骤4中,所述构建机器学习模型包括以下步骤:
步骤4.1,定义生长性状组别和模型的特征变量;
步骤4.2,使用RandomForestClassifier 函数来构建随机森林模型;
步骤4.3,使用变量选择从待选特征变量中筛选出有效特征变量,设定有效特征变量阈值为1e-3;
步骤4.4,对随机森林模型中的决策树个数、最大特征数目和决策树最大深度依次调参,选择最佳参数以提高模型精度并防止过度拟合;
步骤4.5,以十折交叉验证下模型的准确度,并以ROC曲线图形对随机森林模型进行评估,评估合格后得到有效的机器学习模型。
9.根据权利要求1所述的一种基于母本反刍动物瘤胃菌群结构预测子代生长性状的方法,其特征在于:所述步骤4.1中,所述定义生长性状组别的方法为:以子代反刍动物的断奶体重或断奶增重作为生长性状,在每个产仔数水平下,定义生长形状前25%的子代反刍动物为高性状组,生长形状后25%的子代反刍动物为低性状组。
10.根据权利要求1所述的一种基于母本反刍动物瘤胃菌群结构预测子代生长性状的方法,其特征在于:所述步骤4.1中,所述模型的特征变量为对数转换后的母本细菌ASV相对丰度。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110911708.2A CN113643750A (zh) | 2021-08-09 | 2021-08-09 | 一种基于母本反刍动物瘤胃菌群结构预测子代生长性状的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110911708.2A CN113643750A (zh) | 2021-08-09 | 2021-08-09 | 一种基于母本反刍动物瘤胃菌群结构预测子代生长性状的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113643750A true CN113643750A (zh) | 2021-11-12 |
Family
ID=78420466
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110911708.2A Pending CN113643750A (zh) | 2021-08-09 | 2021-08-09 | 一种基于母本反刍动物瘤胃菌群结构预测子代生长性状的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113643750A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114418182A (zh) * | 2021-12-17 | 2022-04-29 | 北京市农林科学院信息技术研究中心 | 基于机器学习的肉牛育种优选方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070129897A1 (en) * | 2005-12-02 | 2007-06-07 | Bull's Eye Solutions, Llc | System and method of facilitating animal propagation |
CN104099323A (zh) * | 2014-07-18 | 2014-10-15 | 西南民族大学 | 一种用于解析牦牛瘤胃微生物结构多样性的dna提取方法 |
CN104789675A (zh) * | 2015-04-15 | 2015-07-22 | 江苏师范大学 | 一种检测荷斯坦奶牛瘤胃微生物的方法 |
CN106202989A (zh) * | 2015-04-30 | 2016-12-07 | 中国科学院青岛生物能源与过程研究所 | 一种基于口腔微生物群落获得儿童个体生物年龄的方法 |
WO2021001834A1 (en) * | 2019-07-02 | 2021-01-07 | The National Institute for Biotechnology in the Negev Ltd. | Bacterial populations for desirable traits in ruminating animals |
-
2021
- 2021-08-09 CN CN202110911708.2A patent/CN113643750A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070129897A1 (en) * | 2005-12-02 | 2007-06-07 | Bull's Eye Solutions, Llc | System and method of facilitating animal propagation |
CN104099323A (zh) * | 2014-07-18 | 2014-10-15 | 西南民族大学 | 一种用于解析牦牛瘤胃微生物结构多样性的dna提取方法 |
CN104789675A (zh) * | 2015-04-15 | 2015-07-22 | 江苏师范大学 | 一种检测荷斯坦奶牛瘤胃微生物的方法 |
CN106202989A (zh) * | 2015-04-30 | 2016-12-07 | 中国科学院青岛生物能源与过程研究所 | 一种基于口腔微生物群落获得儿童个体生物年龄的方法 |
WO2021001834A1 (en) * | 2019-07-02 | 2021-01-07 | The National Institute for Biotechnology in the Negev Ltd. | Bacterial populations for desirable traits in ruminating animals |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114418182A (zh) * | 2021-12-17 | 2022-04-29 | 北京市农林科学院信息技术研究中心 | 基于机器学习的肉牛育种优选方法及装置 |
CN114418182B (zh) * | 2021-12-17 | 2023-01-31 | 北京市农林科学院信息技术研究中心 | 基于机器学习的肉牛育种优选方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lau et al. | Differential microbial communities of omnivorous and herbivorous cattle in southern China | |
Engel et al. | Individual-and species-specific skin microbiomes in three different estrildid finch species revealed by 16S amplicon sequencing | |
Shi et al. | Applications of microbiome analyses in alternative poultry broiler production systems | |
Wang et al. | Effects of rearing system (floor vs. cage) and sex on performance, meat quality and enteric microorganism of yellow feather broilers | |
Foster et al. | Forensic microbiology reveals that Neisseria animaloris infections in harbour porpoises follow traumatic injuries by grey seals | |
CN113643750A (zh) | 一种基于母本反刍动物瘤胃菌群结构预测子代生长性状的方法 | |
Liu et al. | Molecular differentiation and species composition of genus Culicoides biting midges (Diptera: Ceratopogonidae) in different habitats in southern China | |
Zsolnai et al. | Do Mangalica pigs of different colours really belong to different breeds? | |
Fu et al. | Domestication shapes the community structure and functional metagenomic content of the yak fecal microbiota | |
Kušec et al. | Local pig breeds and pork products in Croatia and Slovenia–unexploited treasure | |
CN114164287B (zh) | 一种基于金丝猴生物模式评价人类干扰对野生动物健康风险影响的方法 | |
Parker et al. | Genomic characterization of Campylobacter jejuni adapted to the Guinea Pig (Cavia porcellus) host | |
Alizadeh et al. | AFLP, pathogenicity and mating type analysis of Iranian Fusarium proliferatum isolates recovered from maize, rice, sugarcane and onion | |
Buzu | Selection of Moldovan Karakul sheep by the body weight | |
Lourenco et al. | Fecal microbiome differences in angus steers with differing feed efficiencies during the feedlot-finishing phase. Microorganisms 2022; 10: 1128 | |
CN107893111A (zh) | 一种抗仔猪流行性腹泻的饲用益生菌的筛选方法 | |
Mpofu et al. | Assessing body condition scores, weight gain dynamics, and fecal egg counts in feedlot and non-feedlot cattle within high throughput abattoirs of the Eastern Cape Province | |
Sultana et al. | First report of Lichtheimia hyalospora from fresh water dried shrimp in Bangladesh | |
Safika et al. | First Study on profiling of gut microbiome in wild and captive Sumatran orangutans (Pongo abelii) | |
Popoola et al. | Genetic Variability in Cultured and Wild Population of Clarias gariepinus Using Sodium Dodecyl Sulfate-Polyacrylamide Gel Electrophoresis (SDS-PAGE) | |
Eslahi et al. | First molecular insights into gastrointestinal helminths of domestic birds in the Caspian Sea Littoral of Iran with an emphasis on the One Health concern | |
Wijebandara et al. | Phylogenetic analysis of local cattle population in northern province of Sri Lanka | |
CN118318764B (zh) | 一种基于肠道菌群的单环刺螠速生品系选育方法 | |
Zölzer | Characterization of the herbivore and carnivore faecal microbiota with special emphasis on diet and host-specificity | |
Raju et al. | Deciphering the influence of soil and feed on the nutritional status of ruminants in rainfed areas using metagenomic analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |