CN113643750A

CN113643750A - 一种基于母本反刍动物瘤胃菌群结构预测子代生长性状的方法

Info

Publication number: CN113643750A
Application number: CN202110911708.2A
Authority: CN
Inventors: 王佳堃; 金舒文; 何波; 覃怡琅; 张功海; 陈宏伟
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2021-08-09
Filing date: 2021-08-09
Publication date: 2021-11-12

Abstract

本发明提供一种基于母本反刍动物瘤胃菌群结构预测子代生长性状的方法，包括以下步骤：步骤1，收集子代反刍动物生长性状数据，并采集母本反刍动物瘤胃液样本；步骤2，从母本反刍动物瘤胃液样本中提取母本反刍动物瘤胃微生物DNA，并进行16S rDNA高通量测序；步骤3，对16S rDNA高通量测序的结果进行分析；步骤4，根据子代反刍动物生长性状数据和母本反刍动物瘤胃液样本的分析结果构建机器学习模型，利用机器学习模型对子代生长性状进行预测。本发明通过16S rDNA分析待测母本反刍动物瘤胃的菌群结构，基于机器学习模型的构建，实现高效准确的预测子代反刍动物生长性状，避免直接采样对幼龄反刍动物造成的损伤。

Description

一种基于母本反刍动物瘤胃菌群结构预测子代生长性状的方法

技术领域

本发明涉及一种预测动物子代生长性状的方法，特别涉及一种基于母本反刍动物瘤胃菌群结构预测子代生长性状的方法。

背景技术

反刍动物是重要的家畜(牛、羊等)，为人类提供了大量肉、乳、皮、毛等重要农产品。反刍动物能够利用日粮中其他哺乳动物难以消化的植物纤维，这主要归功于其特有的消化器官—瘤胃。瘤胃中存在着复杂的微生物菌群落帮助瘤胃发挥消化生理功能，是反刍动物主要的消化器官。瘤胃微生物分泌多种消化酶作用于食物中的纤维素、半纤维素和果胶等多糖类物质，产生的挥发性脂肪酸为反刍动物宿主提供60-70％的能量来源。大量研究表明，瘤胃微生物与反刍动物的饲料消化率、新陈代谢及健康状况高度相关，并且能够利用瘤胃微生物菌群结构有效预测动物饲料效率。

因此，可以将瘤胃菌群运用于幼龄反刍动物的生长性状早期预测。然而幼龄动物食道脆弱，难以通过常规的口腔采集瘤胃液方法测定瘤胃微生物。而已有研究表明，来自于幼龄动物母本的微生物与子代的初期生长发育密切相关，且反刍动物瘤胃微生物存在一定的遗传特性，因此，利用母本微生物结构能够有效预测幼龄反刍动物的生长性状。

发明内容

本发明的目的在于提供一种基于母本反刍动物瘤胃菌群结构预测子代生长性状的方法，通过提取母木反刍动物瘤胃液中微生物总DNA，测序并分析计算瘤胃菌群构成，以ASV丰度为变量，建立随机森林二分类模型，以实现其子代生长性状的预测。

本发明解决其技术问题所采用的技术方案是：

一种基于母本反刍动物瘤胃菌群结构预测子代生长性状的方法，该方法包括以下步骤：

步骤1，收集子代反刍动物生长性状数据，并采集母本反刍动物瘤胃液样本；

步骤2，从所述母本反刍动物瘤胃液样本中提取母本反刍动物瘤胃微生物DNA，并进行16S rDNA高通量测序；

步骤3，对所述16S rDNA高通量测序的结果进行分析；

步骤4，根据所述子代反刍动物生长性状数据和所述母本反刍动物瘤胃液样本的分析结果构建机器学习模型，利用所述机器学习模型对子代生长性状进行预测。

作为优选，所述步骤1中，子代反刍动物生长性状数据包括子代反刍动物的初生体重和断奶体重。

作为优选，所述步骤2中，提取母本反刍动物瘤胃微生物DNA的方法为CTAB法。

作为优选，所述步骤2中，16S rDNA高通量测序的片段区域为V3-V4区，以引物341F和806R进行扩增。

作为优选，所述步骤3中，所述分析方法为扩增子序列变异(ASV)分析。

作为优选，所述步骤3中，所述分析方法包括以下步骤：

步骤3.1，去除barcodes和引物序列，获得样品真实序列；

步骤3.2，将样品真实序列过滤、修剪和合并后生成ASV表；

步骤3.3，移除嵌合体、古细菌和叶绿体信息，仅保留细菌序列；

步骤3.4，将各样本序列抽平至10000个序列的深度。

作为优选，所述步骤4中，所述机器学习模型为随机森林模型。

作为优选，所述步骤4中，所述构建机器学习模型包括以下步骤：

步骤4.1，定义生长性状组别和模型的特征变量；

步骤4.2，使用RandomForestClassifier函数来构建随机森林模型；

步骤4.3，使用变量选择从待选特征变量中筛选出有效特征变量，设定有效特征变量阈值为1e-3；

步骤4.4，对随机森林模型中的决策树个数、最大特征数目和决策树最大深度依次调参，选择最佳参数以提高模型精度并防止过度拟合；

步骤4.5，以十折交叉验证下模型的准确度，并以ROC曲线图形对随机森林模型进行评估，评估合格后得到有效的机器学习模型。

作为优选，所述步骤4.1中，所述定义生长性状组别的方法为：以子代反刍动物的断奶体重或断奶增重作为生长性状，在每个产仔数水平下，定义生长形状前25％的子代反刍动物为高性状组，生长形状后25％的子代反刍动物为低性状组。

作为优选，所述步骤4.1中，所述模型的特征变量为对数转换后的母本细菌ASV相对丰度。

本发明的有益效果是：

本发明的一种基于母本反刍动物瘤胃菌群结构预测子代生长性状的方法，通过16S rDNA分析待测母本反刍动物瘤胃的菌群结构，基于机器学习模型的构建，实现高效、准确的预测子代反刍动物的生长性状，避免了直接采样对幼龄反刍动物造成的损伤。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1是本发明实施例2的湖羊羔羊断奶增重预测模型ROC曲线图；

图2是本发明实施例2的湖羊羔羊断奶重预测模型ROC曲线图。

具体实施方式

下面通过具体实施例，并结合附图，对本发明的技术方案作进一步的具体说明。应当理解，本发明的实施并不局限于下面的实施例，对本发明所做的任何形式上的变通和/或改变都将落入本发明保护范围。

在本发明中，若非特指，所有的份、百分比均为重量单位，所采用的设备和原料等均可从市场购得或是本领域常用的。下述实施例中的方法，如无特别说明，均为本领域的常规方法。下述实施例中的部件或设备如无特别说明，均为通用标准件或本领域技术人员知晓的部件，其结构和原理都为本技术人员均可通过技术手册得知或通过常规实验方法获知。

实施例1：

步骤2，从母本反刍动物瘤胃液样本中提取母本反刍动物瘤胃微生物DNA，并进行16S rDNA高通量测序；

步骤3，对16S rDNA高通量测序的结果进行分析；

步骤4，根据子代反刍动物生长性状数据和所述母本反刍动物瘤胃液样本的分析结果构建机器学习模型，利用机器学习模型对子代生长性状进行预测。

通过上述技术方案，通过16S rDNA分析待测母本反刍动物瘤胃的菌群结构，基于机器学习模型的构建，实现高效、准确的预测子代反刍动物的生长性状，避免了直接采样对幼龄反刍动物造成的损伤。

实施例2：

步骤3，对16S rDNA高通量测序的结果进行分析；

步骤1中，子代反刍动物生长性状数据包括子代反刍动物的初生体重和断奶体重。

步骤2中，提取母本反刍动物瘤胃微生物DNA的方法为CTAB法；16S rDNA高通量测序的片段区域为V3-V4区，以引物341F和806R进行扩增。

步骤3中，分析方法为扩增子序列变异(ASV)分析，包括以下步骤：

步骤3.1，去除barcodes和引物序列，获得样品真实序列；

步骤3.2，将样品真实序列过滤、修剪和合并后生成ASV表；

步骤3.4，将各样本序列抽平至10000个序列的深度。

步骤4中，机器学习模型为随机森林模型，构建随机森林模型包括以下步骤：

步骤4.1，定义生长性状组别和模型的特征变量；

步骤4.2，使用RandomForestClassifier函数来构建随机森林模型；

步骤4.1中，定义生长性状组别的方法为：以子代反刍动物的断奶体重或断奶增重作为生长性状，在每个产仔数水平下，定义生长形状前25％的子代反刍动物为高性状组，生长形状后25％的子代反刍动物为低性状组；模型的特征变量为对数转换后的母本细菌ASV相对丰度。

根据上述方法，以湖羊为例，根据母本湖羊的对湖羊羔羊的生长性状进行预测，具体实例如下。

一、幼龄反刍动物生长性状数据收集

幼龄反刍动物生长性状数据收集于中国国家级肉羊养殖核心场(浙江赛诺生态农业有限公司)的179只湖羊母羔羊。羔羊与母本同栏饲养至45天断奶，出生时测量羔羊初生体重，并于45天断奶时测量断奶体重，期间一直可自由采食饮用水与颗粒料。结果显示：羔羊群体初生重为3.65±0.71kg，断奶重为14.10±1.72kg。

二、母本反刍动物瘤胃液样品采集

(1)样品来源：瘤胃液样本采集于中国国家级肉羊养殖核心场(浙江赛诺生态农业有限公司)的128只1032.7±424.62日龄的母本湖羊。湖羊于相同饲养条件下围栏养殖，自由采食青贮饲料和饮水。

(2)瘤胃液采集：在母本湖羊分娩后59.7±1.55天晨饲前，使用瘤胃液采集管(A1320K，科立博牧业科技有限公司)通过口腔采集瘤胃液。弃去前20mL瘤胃液以避免唾液污染，收集的瘤胃液样品在液氮中速冻，随后储存在-80℃中。

三、瘤胃微生物DNA提取和16S高通量测序

(1)DNA提取：利用CTAB法提取母本瘤胃生物的总DNA。将冻存的瘤胃液样本在冰上解冻，取0.2-0.3g样品加入含1mL 2％CTAB溶液、0.3g无菌氧化铝锆珠(0.1mm)和2个钢珠(2mm)的2mL研磨管中。混合物通过研磨仪(JXFSTPRP-24，上海净信实业发展有限公司)物理破碎，65Hz运行30s，停顿10s，重复三次。随后在4℃，14000rpm下离心15min。将上清液转移至新的2mL离心管，加入等体积PCI溶液(酚氯仿25:24:1)振荡器剧烈震荡30s。室温14000rpm离心10min。上清移至新离心管(1.5mL)，加入0.6-0.8倍体积异丙醇，上下颠倒温柔混匀。-20℃过夜或-80℃2小时。室温14000rpm离心30min。弃上清，可见白色DNA沉淀。用1ml 70％乙醇清洗沉淀，将沉淀从管底吹起。4℃14000rpm离心30min，弃上清。干燥沉淀。50μL无菌水溶解DNA。加RNase至终浓度为0.1mg/ml。37℃水浴15min。利用1％琼脂糖凝胶电泳检测DNA的质量。提取的DNA溶液保存在-20℃。

(2)16S rDNA测序：利用引物341F(5’-CCTAYGGGRBGCASCAG-3’，SEQ ID No.1)和引物806R(5’-GGACTACNNGGGTATCTAAT-3’，SEQ ID No.2)对扩增16S rDNA序列的V3-V4高可变区，其具有6bp样品标签barcodes。样品的二代高通量测序由北京诺禾致源科技股份有限公司进行，使用Illumina NovaSeq 6000平台2×250双端测序。

四、16S rDNA测序数据分析

将原始序列根据标签barcodes进行分组，并去除barcodes和引物序列。随后使用R软件(版本4.0.2)中的DADA2包(版本1.16)基于模式化流程(http://benjjneb.github.io/dada2/tutorial.html)对测序结果进行扩增子序列变异(amplicon sequence variants，ASV)分析。即每个样本的序列被过滤、修剪和合并后生成ASV表并导入phyloseq包(版本1.34.0)以移除嵌合体、古细菌和叶绿体信息，仅保留细菌序列，并将各样本序列抽平至10000个序列的深度。

五、基于母本瘤胃细菌菌群结构预测子代生长性状的机器学习模型构建

使用目标群体中已知子代断奶重、断奶增重的样本建立随机森林二分类模型，并以此模型判断其他个体的子代属于高生长形状个体还是低生长性状个体(生长性状可以是断奶重、断奶增重等)。利用已知数据构建模型的过程为：在每个产仔数水平下，定义生长性状前25％的为高性状组，后25％的为低性状组。模型的变量为对数转换后的母代细菌ASV相对丰度。使用python的Sklearn包(版本0.23.2，https://scikit-learn.org/stable/)中的RandomForestClassifier函数来构建随机森林模型，通过自助法(bootstrap sample)重采样，从训练样本集N中有放回地重复随机抽取n个样本，生成新的训练样本集合训练决策树，然后按以上步骤生成m棵决策树组成随机森林，将m棵分类树投票最多的类别指定为最终的输出。

计算待选特征基尼指数(Gini值)后从大到小排序，依次作为决策树根节点、中间节点和叶结点的分类特征。

其中，Gini(D，A_m)为根据待选特征A(对数转化的ASV相对丰度)被分割为D₁(高生产性状)和D₂(低生产性状)两类的Gini指数，|D₁|、|D₂|、|D|分别为集合D₁、D₂、D中样本的个数。

随后用变量选择功能feature_selection筛选有效特征A变量(阈值＝1e-3)。使用param_grid功能对n_estimators、max_features和max_depth参数依次调参。其中n_estimators为随机森林中的分类器，即决策树的个数；max_features为建立决策树时选择的最大特征数目；max_depth为决策树的最大深度。选择最佳参数以提高模型精度，并防止过度拟合。以十折交叉验证下模型的准确度和ROC曲线图形对模型进行评估。

得到有效模型后输入待预测的母本瘤胃ASV信息即可获得对其子代的预测结果。十折交叉验证下对于断奶增重高低判别的平均准确率为0.7986，对于断奶重高低的判别平均准确率为0.7889。ROC曲线图显示，如图1所示，断奶增重随机森林模型曲线下面积(AUC)为0.89，如图2所示，断奶重随机森林模型AUC为0.88。以上结果表明，通过本申请的一种基于母本反刍动物瘤胃菌群结构预测子代生长性状的方法，能够有效预测子代断奶增重和断奶重生长性状，具有较高的准确率、灵敏度和特异度。

以上所述的实施例只是本发明的一种较佳的方案，并非对本发明作任何形式上的限制，在不超出权利要求所记载的技术方案的前提下还有其它的变体及改型。

序列表

<110> 浙江大学

<120> 一种基于母本反刍动物瘤胃菌群结构预测子代生长性状的方法

<130> ZJWL-WJK202102

<160> 2

<170> SIPOSequenceListing 1.0

<210> 1

<211> 17

<212> DNA

<213> 人工合成(341F)

<400> 1

cctaygggrb gcascag 17

<210> 2

<211> 20

<212> DNA

<213> 人工合成(806R)

<220>

<221> misc_feature

<222> (8)..(9)

<223> n is a, c, g, t or u

<400> 2

ggactacnng ggtatctaat 20

Claims

1.一种基于母本反刍动物瘤胃菌群结构预测子代生长性状的方法，其特征在于：该方法包括以下步骤：

步骤3，对所述16S rDNA高通量测序的结果进行分析；

2.根据权利要求1所述的一种基于母本反刍动物瘤胃菌群结构预测子代生长性状的方法，其特征在于：所述步骤1中，子代反刍动物生长性状数据包括子代反刍动物的初生体重和断奶体重。

3.根据权利要求1所述的一种基于母本反刍动物瘤胃菌群结构预测子代生长性状的方法，其特征在于：所述步骤2中，提取母本反刍动物瘤胃微生物DNA的方法为CTAB法。

4.根据权利要求1所述的一种基于母本反刍动物瘤胃菌群结构预测子代生长性状的方法，其特征在于：所述步骤2中，16S rDNA高通量测序的片段区域为V3-V4区，以引物341F和806R进行扩增。

5.根据权利要求1所述的一种基于母本反刍动物瘤胃菌群结构预测子代生长性状的方法，其特征在于：所述步骤3中，所述分析方法为扩增子序列变异（ASV）分析。

6.根据权利要求1所述的一种基于母本反刍动物瘤胃菌群结构预测子代生长性状的方法，其特征在于：所述步骤3中，所述分析方法包括以下步骤：

步骤3.1，去除barcodes和引物序列，获得样品真实序列；

步骤3.2，将样品真实序列过滤、修剪和合并后生成ASV表；

步骤3.4，将各样本序列抽平至10000个序列的深度。

7.根据权利要求1所述的一种基于母本反刍动物瘤胃菌群结构预测子代生长性状的方法，其特征在于：所述步骤4中，所述机器学习模型为随机森林模型。

8.根据权利要求1所述的一种基于母本反刍动物瘤胃菌群结构预测子代生长性状的方法，其特征在于：所述步骤4中，所述构建机器学习模型包括以下步骤：

步骤4.1，定义生长性状组别和模型的特征变量；

步骤4.2，使用RandomForestClassifier 函数来构建随机森林模型；

9.根据权利要求1所述的一种基于母本反刍动物瘤胃菌群结构预测子代生长性状的方法，其特征在于：所述步骤4.1中，所述定义生长性状组别的方法为：以子代反刍动物的断奶体重或断奶增重作为生长性状，在每个产仔数水平下，定义生长形状前25%的子代反刍动物为高性状组，生长形状后25%的子代反刍动物为低性状组。

10.根据权利要求1所述的一种基于母本反刍动物瘤胃菌群结构预测子代生长性状的方法，其特征在于：所述步骤4.1中，所述模型的特征变量为对数转换后的母本细菌ASV相对丰度。