CN114093515A

CN114093515A - 一种基于肠道菌群预测模型集成学习的年龄预测方法

Info

Publication number: CN114093515A
Application number: CN202111360059.8A
Authority: CN
Inventors: 王鸿超; 陈宇涛; 陆文伟; 朱金林; 赵建新; 张灏; 陈卫
Original assignee: Jiangnan University
Current assignee: Jiangnan University
Priority date: 2021-11-17
Filing date: 2021-11-17
Publication date: 2022-02-25

Abstract

本发明公开了一种基于肠道菌群预测模型集成学习的年龄预测方法，包括：获取人类肠道菌群宏基因组学的原始数据，将获得的基因组数据进行质量控制，并获取肠道菌群物种组成和代谢通路组成丰度表，构建样本数据集；然后对样本数据集进行特征选择；使用筛选后的特征结合宿主地域信息构建多类年龄预测模型，并采用网格搜索确定使得预测模型精度更高的超参数并对各个最佳预测模型进行训练和预测，得到集成年龄预测方法；最后利用确定的肠道菌群特征和集成年龄预测方法预测样本的年龄，并通过特征解释确定与年龄相关的关键物种和通路。本发明采用了集成学习方法，有效提高了年龄预测准确率；并且能够定向指导肠道菌群的调整，进而实现抗衰老干预。

Description

一种基于肠道菌群预测模型集成学习的年龄预测方法

技术领域

本发明涉及一种基于肠道菌群预测模型集成学习的年龄预测方法，属于微生物和计算机科学的交叉技术领域。特别地，本发明涉及一种基于肠道菌群预测模型集成学习的成年人年龄预测方法。

背景技术

人的衰老是一个持续不断的过程，其会导致机体器官的生理功能降低，进而导致疾病的产生。随着人类微生物组计划等肠道菌群测序项目的展开，对于肠道菌群和宿主机体互作的认知不断加深。研究表明，肠道菌群的组成、功能及其代谢产物等会随着年龄而不断发生变化，而肠道菌群的年龄特异性的变化同时也会进一步的影响宿主的肠道营养状态等，从而影响机体慢性炎症和衰弱进程。因此，肠道菌群和衰老的关联在调控人体健康方面具有重要作用，基于肠道菌群能够实现对于衰老进程的干预。但由于肠道菌群其物种及功能组成较为复杂，并且在物种组成、基因家族以及代谢通路等层面都存在着特征维度高，相互作用关系多等特点，因此，现有技术中尚缺乏统一并且可靠的将多角度肠道菌群特征与年龄表征相关联的研究方法，因而难以实现确定与年龄相关的肠道菌群标志物的鉴别。

随着测序技术的发展，宏基因组测序使得能够对肠道菌群实现全面的表征，相较于以往的16s rRNA测序，宏基因组侧测序不仅能够实现物种水平的物种注释，还能够进一步的研究肠道菌群的代谢通路及基因家族的组成，是深入研究肠道菌群的有利工具。通过宏基因组测序手段结合生物信息学分析工具、机器学习模型算法，为探究肠道菌群其物种、功能及基因等与宿主健康状态之间的关联提供了方法支持，不断更新扩展的基因组数据库则为大规模的分析提供了数据基础。

随着肠道菌群相关研究的增加，已产生了海量的宏基因组测序数据；同时，伴随着机器学习算法的不断革新，越来越多的方法和模型可供选择。然而，由于领域内的研究队列之间的独立性以及地域性，研究者们难以对海量的肠道菌群宏基因组测序数据实现广泛利用，并且由于涉及微生物和计算机科学两领域之间的交叉，在对于肠道菌群的研究当中，对于机器学习方法的使用方面还存在着滞后，从而导致了当前对于肠道菌群与年龄关联的研究中存在着预测方法准确度低、数据利用率低、特征存在冗余、模型算法单一以及受宿主背景因素影响等问题。

因此，如何实现利用机器学习方法来构建基于肠道菌群宏基因组测序数据的准确年龄预测模型进而解析关键肠道菌群生物标志物，尚缺少可靠的解决方法；而目前的基于肠道菌群的年龄预测方法单一模型，如套索算法、弹性网络、贝叶斯岭回归、支持向量机、随机森林、梯度提升回归树、XGBoost和LightGBM模型，均存在准确度低、数据利用率低、特征存在冗余、模型算法单一以及受宿主背景因素影响的缺点。

发明内容

[技术问题]

本发明的目的是为了解决当前的基于肠道菌群的年龄预测模型及预测方法准确度低、数据利用率低、特征存在冗余、模型算法单一以及受宿主背景因素影响的问题，而提出了一种基于肠道菌群预测模型集成学习的成年人年龄预测方法及其应用。

[技术方案]

本发明上述目的是通过以下技术方案实现的：

一种基于肠道菌群预测模型集成学习的成年人年龄预测方法，具体包括如下步骤：

步骤一：获取不同年龄的成年人的肠道菌群数据样本作为原始数据，同时收集与数据样本相对应的宿主的背景信息，包括年龄以及地域特征；

步骤二：对获取的原始数据进行预处理，所述预处理包括对宿主背景信息整理以及原始数据的质量控制，以及肠道菌群物种和代谢通路的组成及相对丰度的注释；其中，相对丰度是指肠道菌群物种及代谢通路两者各自的相对丰度；

步骤三：对于经过注释后获得的肠道菌群的物种及代谢通路的相对丰度信息表进行归一化处理，并选定特征选择算法的最佳算法；

步骤四：采用最佳算法对肠道菌群物种及代谢通路的相对份丰度信息表进行特征选择；采用特征选择后的肠道菌群物种及代谢通路的相对份丰度信息表构建各类年龄预测模型，并使用网格搜索方法筛选出各类年龄预测模型中，每一类模型对应的最佳年龄预测模型及其超参数组合；

步骤五：将各类模型中选定的最佳预测模型通过集成学习来构建最终的集成年龄预测方法；

步骤六：利用步骤五构建的集成年龄预测方法对待预测的数据样本进行年龄预测。

根据本发明的技术方案，相对丰度表可以理解为对于肠道菌群物种即代谢通路的不同组成的定量描述，并且组成信息也可以进行定性的描述，即有哪些组分；同时也可以定量描述，例如各组分有多少。但是定量表述中相对丰度是一种描述方式，还可以有其他不同单位的表述。可以理解为，对应的相对丰度信息表包含了除了后期添加的地域外其他的在年龄预测过程中所必要的特征。

根据本发明的成年人年龄预测方法，进一步地，所述步骤一中，获取不同年龄的成年人的肠道菌群数据作为原始数据，同时收集于样本相对应的宿主背景信息具体包括：

步骤A1：根据关键词检索相关文献，以构建肠道菌群数据集，所述关键词包括人类肠道菌群，宏基因组；并且，通过文献研读筛选并结合NCBI SRA数据库来获取对应的肠道菌群原始宏基因组测序数据以及相关宿主背景信息，包括年龄以及国家水平的地域特征；

步骤A2：使用宏基因组学全基因组测序技术进行测序并分析，收集成年人粪便样本进行测序并收集相关宿主背景信息。

根据本发明的成年人年龄预测方法，进一步地，所述步骤二中，对原始数据进行预处理包括宿主背景信息整理以及原始数据的质量控制，肠道菌群的物种和代谢通路的组成及相对丰度的注释具体包括：

步骤B1：对于收集获得的数据样本对应的宿主的背景信息进行过滤，选择18岁以上并且具有地域标签的成年人作为研究对象，并将其依照地域因素的地理位置，从国家水平聚类至子区间；

步骤B2：对于获得的肠道菌群物种的原始数据，使用BWA和samtools结合人类参考基因组Hg38去除测序数据中的宿主序列，使用Trimmomatic对于去宿主后的序列进行质量控制，包括去接头以及去除低质量序列；

步骤B3：对于质控后的高质量序列，使用MetaPhlAn和HUMAnN软件进行肠道菌群物种组成和代谢通路注释，从而获得肠道菌群的物种和代谢通路的组成及相对丰度信息表。

根据本发明的成年人年龄预测方法，进一步地，所述步骤三中，具体包括如下步骤：

步骤C1：对注释获得的肠道菌群物种组成及代谢通路丰度表进行归一化处理，将所有的数据映射到特定的数值范围内，使用零-均值归一化：

z＝(x-μ)/σ

式中，z为经过归一化之后的数值，x为未归一化的原始丰度值，μ为所对应特征丰度均值，σ为所对应特征丰度的标准差；

步骤C2：对归一化后的肠道菌群物种和代谢通路的相对丰度信息表分别使用单变量线性回归检验、连续变量互信息估计、随机森林、梯度提升回归树、XGBoost和LightGBM进行特征选择，使用套索算法、弹性网络、贝叶斯岭回归、支持向量机、随机森林、梯度提升回归树、XGBoost和LightGBM模型对特征选择前后的年龄预测性能进行比较，并将具有最多预测正确率显著性增加模型数量的特征选择算法作为最佳方法，在预测差异变化相同的情况下，将具有最少特征数量的特征选择算法选定为最佳算法；并且，将年龄预测性能通过决定系数来评价，其计算公式如下：

式中r²为决定系数，y为样本真值，

为回归拟合值，

为y的平均值；

根据本发明的成年人年龄预测方法，进一步地，所述步骤四中，进行特征选择并构建年龄回归预测模型，使用网格搜索方法筛选出各类年龄预测模型中，每一类模型对应的最佳预测模型的具体的过程如下：

步骤D1：采用选定的最佳算法对肠道菌群物种及代谢通路的相对丰度信息表进行特征选择；并将地域因素标签作为额外特征，对特征选择后的肠道菌群物种和代谢通路丰度表进行合并，从而减少宿主背景因素即地域因素对于肠道菌群组成结构的影响。

步骤D2：对合并后的肠道菌群物种组成及代谢通路的相对丰度表分别使用套索算法、弹性网络、贝叶斯岭回归、支持向量机、随机森林、梯度提升回归树、XGBoost和LightGBM模型构建年龄预测模型，并利用网格搜索方法筛选每一类模型中具有最佳年龄预测性能的模型超参数组合，模型的最佳超参数组合所对应的模型为该类的最佳预测模型。

根据本发明的成年人年龄预测方法，进一步地，所述步骤五中，将各类模型中选定的最佳预测模型通过集成学习来构建最终的集成年龄预测方法，具体包括如下步骤：

步骤E1：采用由步骤D1得到的合并后的肠道菌群物种和代谢通路的相对丰度信息表，分别使用套索算法、弹性网络、贝叶斯岭回归、支持向量机、随机森林、梯度提升回归树、XGBoost和LightGBM模型中每一类模型的最佳预测模型进行模型训练和预测；

其中，针对每个最佳预测模型的模型训练和预测的具体步骤如下：

步骤(a)，将用于模型训练的数据集随机等分成五份；

步骤(b)，选用其中的四份数据作为训练数据构建最佳年龄预测模型f_n，其中模型的超参数设置为经过网格搜索确定的最佳超参数组合；

步骤(c)，将剩余的一份数据作为该次模型构建过程中的验证数据，使用构建获得的预测模型进行预测，从而获得一份对应的年龄预测结果p_n；

步骤(d)，重复上述步骤(b)和步骤(c)的过程直至五分数据全部完成训练和预测，将获得预测结果p_n合并，获得一份完整数据集大小的的年龄预测结果P，P＝{p₁,p₂,p₃,p₄,p₅}，并且保存过程中每轮训练过程中获得的最佳预测模型F，F＝{f₁,f₂,f₃,f₄,f₅}；

步骤E2：将由步骤E1获得的各类模型中的最佳预测模型F构建最佳预测模型集合G，G＝{F₁,F₂,……,F_k}，最佳预测模型集合G中包含了每个最佳预测模型训练后获得的模型子集合F；并使用构建的最佳预测模型集合G对需要进行年龄预测的测试集数据x_t进行预测，具体过程如下：

针对预测模型集合G中每一个最佳预测模型F，使用其中构建的各模型f对测试集数据x_t进行预测，进而获得五份x_t的年龄预测结果；并对获得的年龄预测结果进行平均，获得与最佳预测模型F对应的x_t平均年龄预测结果p_t。

根据本发明的技术方案，用于模型训练的数据集是指不同类别的肠道菌群数据，包括但不限于本发明内容中涉及的肠道菌群物种和代谢通路的相对丰度信息表。测试集数据是指不包含于用于模型训练的数据集中，且需要进行年龄预测的独立数据，其包含与训练数据相同类别的肠道菌群数据。针对各个类别的肠道菌群数据都分别进行步骤E1进行模型训练，并且用于模型训练的数据集能够分别采用步骤E2进行预测；即对于n份不同类别的肠道菌群数据(即肠道菌群物种组成和代谢通路相对丰度信息表)，使用上述k类模型进行集成，依据前述模型训练方法，对于每份数据各类模型都通过网格搜索选择最佳预测模型，最后共计n×k个最佳预测模型进行集成学习。

根据本发明的技术方案，集成学习的目的是通过对多类不同模型的预测结果进行综合，通过增加模型的多样性来弥补不同模型预测结果的偏差。最终通过获得的加权权值对多类模型的预测结果加权计算。最终构建的集成年龄预测方法，即为依据前述的模型训练方法，对于各不同类别的肠道菌群数据，针对用于模型训练的数据集先独立构建对应的最佳预测模型，之后基于各个最佳预测模型的预测结果通过加权计算获得最终的年龄预测结果。

步骤E3：使用上述预测模型集合G中各个最佳预测模型获得的年龄预测结果构建线性回归模型，从而获得不同最佳预测模型的预测年龄与真实年龄的加权权值。

根据本发明的成年人年龄预测方法，进一步地，所述步骤六中，具体包括如下步骤：

对于待预测的数据样本的肠道菌群物种组成和代谢通路相对丰度表，使用步骤E2获得的最佳预测模型集合进行预测，获得数据样本根据各类模型的年龄预测结果，并使用步骤E3获得的加权权值对预测结果进行加权计算，并输出待预测的数据样本对应的成年人的年龄最终预测值。

根据本发明的成年人年龄预测方法，进一步地，所述方法还包括利用构建的集成年龄预测方法，对前述经过特征选择后的肠道菌群物种及其代谢通路的全部特征进行特征解释，特征解释的目的是确定全部特征中与年龄最为相关的特征，从而其可能具有潜在的与年龄、衰老相关的相互作用。

特征解释具体包括如下步骤：

首先，通过对预测模型输入的特征按照数据分布划分为不同的区间，对于每一个区间中的样本，分别采用该区间的上限和下限值置换原始的特征值，并计算预测的差异；

其次，根据集成年龄预测方法的预测结果采用累计局部效应法，确定各个特征的效应值，即前述各区间计算获得的预测差异，从而获得与年龄最相关的、影响程度最高的肠道菌群关键物种和代谢通路；

最后，将各个区间所计算得到的效应值求和并中心化，从而得到对应特征的效应值。对计算获得的各累计特征效应值按照绝对值降序排序，从而确定肠道菌群物种组成与代谢通路中与年龄表型关联的生物标志物。

本发明有益效果是：

本发明的一种基于肠道菌群预测模型的集成学习的成年人年龄预测方法，如步骤C2所述，本发明全面考虑样本的宏基因组测序结果，包括菌群的物种组成和代谢通路，并结合宿主的地域因素来减少独立研究队列之间存在的差异，进而来体现不同年龄下的人肠道菌群变化情况。

根据本发明的预测方法，如步骤五中的各个步骤所述，本发明通过结合多种异质性机器学习模型，使用集成学习来弥补各类模型存在的不足之处，使得最终构建的年龄预测方法实现更好的预测性能，减少预测偏差，有效提高模型预测的准确性；同时对模型进行特征解释，确定与年龄表型变化相关的关键肠道菌群生物标志物，对基于肠道菌群的年龄特征解析、衰老进程干预等具有参考意义。

本发明的技术方案采用了集成学习方法并且结合了肠道菌群物种组成、代谢通路和地域因素，有效提高了年龄预测准确率；并且可作为衰老进程的评价指标，定向指导肠道菌群的调整，进而实现抗衰老干预。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明所述的成年人年龄预测方法的流程示意图；

图2是本发明中不同预测模型结合各特征选择的预测性能的示意图；

图3是本发明实施例二中预测年龄与实际年龄的预测准确性示意图；

图4是本发明实施例二中解释的对年龄具有较高影响的关键生物标志物。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

实施例一：

本实施例提供一种基于肠道菌群预测模型集成学习的年龄预测方法，结合图1所示，所述年龄预测方法包括如下步骤：

步骤二：对获取的原始数据进行预处理，所述预处理包括对宿主背景信息整理以及原始数据的质量控制，肠道菌群物种和代谢通路的组成及相对丰度的注释，其中，相对丰度是指肠道菌群物种及代谢通路两者各自的相对丰度；

步骤三：对于经过注释后的肠道菌群的物种及代谢通路的相对丰度信息表进行归一化处理，并选定特征选择算法的最佳算法；

步骤四：采用最佳算法对肠道菌群物种及代谢通路的相对份丰度信息表进行特征选择；采用特征选择后的肠道菌群物种及代谢通路的相对份丰度数据，并加入额外的地域特征，构建年龄回归预测模型，并使用网格搜索方法筛选出具有最佳年龄预测性能的模型超参数组合，依据模型参数调整后的年龄预测准确性选定最佳预测模型；

步骤五：将选定的最佳预测模型通过集成学习来构建最终的集成年龄预测方法；

步骤六：利用构建的集成年龄预测方法，预测数据样本对应的成年人的年龄。

根据本实施例的成年人年龄预测方法，进一步地，所述步骤一中，获取不同年龄的成年人的肠道菌群数据作为原始数据，同时收集于样本相对应的宿主背景信息具体包括：

进一步地，所述步骤二中，对原始数据进行预处理包括宿主背景信息整理以及原始数据的质量控制，肠道菌群的物种和代谢通路的组成及相对丰度的注释具体包括：

进一步地，所述步骤三中，具体包括如下步骤：

z＝(x-μ)/σ

式中r²为决定系数，y为样本真值，

为回归拟合值，

为y的平均值；

进一步地，所述步骤四中，进行特征选择并构建年龄回归预测模型，使用网格搜索方法筛选出最佳性能模型的具体的过程如下：

步骤D1：采用选定的最佳算法对肠道菌群物种及代谢通路的相对份丰度信息表进行特征选择；并将地域因素标签作为额外特征，对特征选择后的肠道菌群物种和代谢通路丰度表进行合并，从而减少宿主背景因素即地域因素对于肠道菌群组成结构的影响。

步骤D2：对合并后的肠道菌群物种组成和代谢通路表分别使用套索算法、弹性网络、贝叶斯岭回归、支持向量机、随机森林、梯度提升回归树、XGBoost和LightGBM模型构建年龄预测模型，并利用网格搜索方法，寻找各模型的最佳超参数组合，将具有最高年龄预测准确率的模型超参数组合作为最佳参数，依据模型参数调整后的年龄预测准确性选定最佳预测模型，并保存经过网格搜索获得的最佳超参数组合。

进一步地，所述步骤五中，将各类模型中选定的最佳预测模型通过集成学习来构建最终的集成年龄预测方法，具体包括如下步骤：

步骤(a)，将用于模型训练的数据集随机等分成五份；

步骤(d)，重复上述步骤(b)和步骤(c)的过程直至五分数据全部完成训练和预测，将获得预测结果p_n合并，获得一份完整数据集大小的的年龄预测结果P，P＝{p₁,p₂,p₃,p₄,p₅}，并且保存过程中每轮训练过程中获得的最佳预测模型F＝{f₁,f₂,f₃,f₄,f₅}；

步骤E2：将由步骤E1获得的各类模型中的最佳预测模型F构建最佳预测模型集合G＝{F₁,F₂,……,F_k}，最佳预测模型集合G中包含了每个最佳预测模型训练后获得的模型子集合F；并使用构建的最佳预测模型集合G对需要进行年龄预测的测试集数据x_t进行预测，具体过程如下：

根据本实施例，集成学习的目的是通过对多类不同模型的预测结果进行综合，通过增加模型的多样性来弥补不同模型预测结果的偏差。最终通过获得的加权权值对多类模型的预测结果加权计算。最终构建的集成年龄预测方法，即为依据前述的模型训练方法，对于各不同类别的肠道菌群数据，针对用于模型训练的数据集先独立构建对应的最佳预测模型，之后基于各个最佳预测模型的预测结果通过加权计算获得最终的年龄预测结果。

进一步地，所述方法还包括利用构建的集成年龄预测方法，对前述经过特征选择后的肠道菌群物种及其代谢通路的全部特征进行特征解释，特征解释的目的是确定全部特征中与年龄最为相关的特征，从而其可能具有潜在的与年龄、衰老相关的相互作用。

特征解释具体包括如下步骤：

本实施例的技术方案采用了集成学习方法并且结合了肠道菌群物种组成、代谢通路和地域因素，有效提高了年龄预测准确率；并且可作为衰老进程的评价指标，定向指导肠道菌群的调整，进而实现抗衰老干预。

实施例二

根据本实施例，本发明的基于肠道菌群模型集成学习的年龄预测方法，具体实施步骤如下：

(1)从NCBI(National Center for Biotechnology Information)和EMBL(European Molecular Biology Laboratory)等基因数据库获取的原始数据并进行预处理，所述预处理包括宿主背景信息整理以及原始数据的质量控制，物种和代谢通路的组成及丰度的注释。

对于收集获得的样本背景信息依照联合国子区域，标准国家或地区代码标准(United Nations subregions,standard country or area codes for statisticaluse)，使用地域因素的地理位置，从国家水平聚类至子区间水平。

对于获得的肠道菌群原始数据，使用BWA将样本序列与人类基因组序列Hg38进行序列比对，使用samtools筛选出原始数据中未比中序列并排序合并，从而去除原始数据中的宿主序列信息。并且使用Trimmomatic去除去宿主后数据中的低质量、双端不合格以及接头提高序列质量。

对于质控后的高质量序列，使用MetaPhlAn2和HUMAnN2软件进行物种组成和代谢通路注释，并计算注释结果的相对丰度值，从而获得物种和代谢通路的组成和丰度信息表；

(2)注释获得的物种组成和代谢通路丰度表是高维数据，特征数量分别为904和468个。在对注释获得的物种组成及代谢通路丰度表进行特征选择之前，先对数据进行归一化处理，将所有的数据映射到特定的数值范围内。

本实验使用零-均值归一化法：

z＝(x-μ)/σ

式中z为经过归一化之后的数值，x为未归一化的原始丰度值，μ为所对应特征丰度均值，σ为所对应特征丰度的标准差。

由肠道菌群数据集进行特征选择的基本过程为：

对归一化后的物种和代谢通路表分别使用单变量线性回归检验、连续变量互信息估计、随机森林、梯度提升回归树、XGBoost和LightGBM模型进行特征选择。

在特征选择后，再分别使用套索算法、弹性网络、贝叶斯岭回归、支持向量机、随机森林、梯度提升回归树、XGBoost和LightGBM模型使用10折5次交叉验证计算原始数据以及经过特征选择后数据的年龄预测性能。

所述年龄预测性能通过决定叙述进行评价：

式中，r2为决定系数，y为样本真值，

为回归拟合值，

为y的平均值。

使用T检验比较经过特征选择后的数据年龄预测性能与原始未经选择数据的性能差异。具有与原始数据相比最多预测性能显著提高模型数量的特征选择方法作为最佳方法；当性能提升模型数量相同时，选择具有最小特征数量的特征选方法作为最佳方法。

如图2所示，综合比较了不同预测模型结合各特征选择算法后的年龄预测性，其中“*”表示经过特征选择后与未经特征选择的预测性能之间存在显著性差异。结果表明，使用基于梯度提升回归树的特征选择方法具有最佳的特征选择性能，能够有效降低物种组成(224)和代谢通路(223)的特征维度；

(3)对筛选后的物种组成和代谢通路表分别使用套索算法、弹性网络、贝叶斯岭回归、支持向量机、随机森林、梯度提升回归树、XGBoost和LightGBM模型构建年龄预测模型，利用网格搜索方法，寻找各模型的最佳超参数组合。

利用网格搜索方法来寻找各模型的最佳超参数，同时在网格搜索基础上进行5折10次交叉验证来避免在网格搜索过程中出现的模型预测性能随机波动。对于套索算法寻找惩罚项alpha和最大迭代次数的最佳组合；对于弹性网络寻找惩罚项常数alpha、惩罚项混合参数l1_ratio和最大迭代次数的最佳组合；对于贝叶斯岭回归寻找最大迭代次数、alpha_1、alpha_2、lambda_1和lambd_2的最佳组合；对于支持向量机寻找正则化参数C、核函数的最佳组合；对于随机森林寻找树数量、节点分割条件和节点最小样本量的最佳组合；对于梯度提升决策树寻找损失函数、学习速率、提升次数和叶节点最小样本量的最佳组合；对于XGBoost寻找提升次数、树最大深度和学习速率的最佳组合；对于LightGBM寻找最大树叶数、树最大深度、学习速率和提升次数的最佳组合。

经过网格搜索后，套索算法的物种预测正确率为0.296(alpha＝0.2，最大迭代次数＝1000)，通路预测正确率为0.326(alpha＝0.2，最大迭代次数＝1000)；弹性网络物种预测正确率为0.313(alpha＝0.2，l1_traio＝0.1，最大迭代次数＝1000),通路预测正确率为0.333(alpha＝0.2，l1_traio＝0.2，最大迭代次数＝1000)；贝叶斯岭回归物种预测正确率为0.303(alpha_1＝5e-7，alpha_2＝5e-6，lambda_1＝5e-6，lambda_2＝5e-7，最大迭代次数＝300)，通路预测正确率为0.331(alpha_1＝5e-7，alpha_2＝5e-6，lambda_1＝5e-6，lambda_2＝5e-7，最大迭代次数＝300)；支持向量机物种预测正确率为0.321(C＝5.0，核函数＝rbf)，通路预测正确率为0.336(C＝5.0，核函数＝rbf)；随机森林物种预测正确率为0.444(节点分割条件＝mse，节点最小样本量＝1，迭代次数＝1000)，通路预测正确率为0.446(节点分割条件＝mse，节点最小样本量＝1，迭代次数＝1000)；梯度提升决策树物种预测正确率为0.505(学习速率＝0.1，损失函数＝ls，提升次数＝500，叶节点最小样本量＝10)，通路预测正确率为0.450(学习速率＝0.05，损失函数＝ls，提升次数＝500，叶节点最小样本量＝10)；XGBoost物种预测正确率为0.507(学习速率＝0.1，树最大深度＝6，提升次数＝500)，通路预测正确率为0.445(学习速率＝0.5，树最大深度＝10，提升次数＝300)；XGBRF物种预测正确率为0.417(学习速率＝1，树最大深度＝10，提升次数＝500)，通路预测正确率为0.439(学习速率＝1，树最大深度＝10，提升次数＝500)；LightGBM物种预测正确率为0.530(学习速率＝0.05，树最大深度＝-1，最大树叶数＝15，提升次数＝500)，通路预测正确率为0.462(学习速率＝0.05，树最大深度＝-1，最大树叶树＝15，提升次数＝500)；

(4)多模型集成学习，并基于超参数调整后的最佳模型来进行集成年龄预测；预测模型集成学习分为两步：

步骤一：对于单个最佳预测模型先将用于训练的数据集随机分成五份，使用其中的四份构建年龄预测模型，其中超参数设置为经过网格搜索确定的最佳参数值，剩余的一份以及测试集使用构建获得的模型进行预测，重复上述过程直至五份训练集全部完成预测，从而获得一份训练集的年龄预测数据，并且保存过程中每次训练获得的模型；

步骤二：分别使用优化后的套索算法、弹性网络、贝叶斯岭回归、支持向量机、随机森林、梯度提升回归树、XGBoost和LightGBM模型作为基学习器对物种组成和代谢通路数据完成步骤一；其后使用各类模型获得的年龄预测结果，以线性回归模型作为加权方式，从而获得不同模型年龄预测与真实年龄的加权权值以及最后的预测结果。

通过对多种异质性机器学习的预测模型以及不同宏基因组学注释数据的集成学习，能够有效减少模型预测过程中的偏差，从而实现基于肠道菌群宏基因组学数据的全面利用。经过集成后的方法其最终年龄预测性能为0.578；进一步加入聚类后的地域因素作为额外特征来进行校正，如图3，预测获得的年龄值与实际年龄之间表现出明显的线性关系，基于集成学习后的方法年龄预测性能为0.598，表明本发明构建的年龄预测方法具有较好的预测性能。

(5)根据模型集成学习获得的最终预测方法进行预测，并根据预测结果确定各个特征的效应值，从而获得与年龄的相关的关键物种和通路。通过对输入的特征按照数据分布划分为不同的区间，对于每一个区间中的样本，分别采用该区间的上限和下限值置换原始的特征值，并计算预测的差异；最后将各个区间所计算得到的效应指求和并中心化，从而得到对应特征的效应值。对计算获得的各累计特征效应值按照绝对值降序排序，从而确定与年龄相关的关键物种和代谢通路。

如图4所示，通过平均累计效应值的排序确定对年龄具有不同影响程度的生物标志物，其中平均效应值大于零的标志物表明随着其相对丰度增加，在预测模型中会导致预测年龄的增加，其可能是潜在的不利因素；反之随着丰度增加，能够减少预测模型的预测值，可能具有潜在的抗衰老能力；最后完成了基于肠道菌群模型集成学习的成年人年龄预测及特征解释。

本发明实施例中的部分步骤，可以利用软件实现，相应的软件程序可以存储在可读取的存储介质中，如光盘或硬盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于肠道菌群预测模型集成学习的年龄预测方法，其特征在于，所述预测方法包括如下步骤：

步骤二：对于步骤一获取的原始数据进行预处理，所述预处理包括对宿主背景信息的整理以及对原始数据的质量控制，以及对肠道菌群物种和代谢通路进行注释获得相对丰度信息表；其中，相对丰度是指肠道菌群物种及代谢通路两者各自的相对丰度；

步骤三：对于经过注释后得到的相对丰度信息表进行归一化处理，并选定特征选择算法的最佳算法；

步骤四：采用最佳算法对肠道菌群物种及代谢通路的相对份丰度信息表进行特征选择；采用特征选择后的相对份丰度信息表构建多类年龄预测模型；并使用网格搜索方法筛选每一类模型中的最佳预测模型；

2.根据权利要求1所述的预测方法，其特征在于，所述步骤一中还包括：

步骤A1：根据关键词检索相关文献，以构建肠道菌群数据集，所述关键词包括人类肠道菌群，宏基因组；并且，通过文献研读筛选并结合NCBI SRA数据库来获取对应的肠道菌群原始宏基因组测序数据以及相对应的宿主背景信息，包括年龄以及国家水平的地域特征；

3.根据权利要求1所述的预测方法，其特征在于，所述步骤二中还包括：

步骤B3：对于质量控制后的高质量序列，使用MetaPhlAn和HUMAnN软件进行物种组成和代谢通路注释，从而获得肠道菌群物种和代谢通路的组成及相对丰度信息表。

4.根据权利要求1所述的预测方法，其特征在于，所述步骤三中还包括：

步骤C1：对注释获得的肠道菌群物种及代谢通路的组成及相对丰度信息表进行归一化处理，将所有的数据映射到特定的数值范围内，使用零-均值归一化：

z＝(x-μ)/σ

式中，z为经过归一化之后的数值，x为未归一化的原始丰度值，μ为x所对应特征的丰度均值，σ为所对应特征丰度的标准差；

步骤C2：对归一化后的肠道菌群物种和代谢通路的相对丰度信息表分别使用单变量线性回归检验、连续变量互信息估计、随机森林、梯度提升回归树、XGBoost和LightGBM进行特征选择，使用套索算法、弹性网络、贝叶斯岭回归、支持向量机、随机森林、梯度提升回归树、XGBoost和LightGBM模型对特征选择前后的年龄预测性能进行比较，并将具有最多预测正确率显著性增加模型数量的特征选择算法作为最佳方法；在预测差异变化相同的情况下，将具有最少特征数量的特征选择算法选定为最佳算法。

5.根据权利要求1所述的预测方法，其特征在于，所述步骤四中还包括：

步骤D1：使用选定的最佳算法对肠道菌群物种和代谢通路的相对丰度信息表进行特征选择，并将地域因素标签作为额外特征，与特征选择后的肠道菌群物种和代谢通路的相对丰度信息表进行合并；

步骤D2：对合并后的肠道菌群物种组成和代谢通路的相对丰度信息表分别使用套索算法、弹性网络、贝叶斯岭回归、支持向量机、随机森林、梯度提升回归树、XGBoost和LightGBM模型构建年龄预测模型，并利用网格搜索方法筛选上述每一类模型中具有最佳年龄预测性能的模型超参数组合，最佳超参数组合所对应的模型为该类模型中的最佳预测模型。

6.根据权利要求1所述的预测方法，其特征在于，所述步骤五中还包括：

步骤E2：将由步骤E1获得的各类模型中的最佳预测模型F构建最佳预测模型集合G，G＝{F₁,F₂,……,F_k}；并使用所述最佳预测模型集合G对需要进行年龄预测的测试集数据进行预测；

步骤E3：使用所述预测模型集合G中各个最佳预测模型获得的年龄预测结果构建线性回归模型，从而获得不同最佳预测模型的预测年龄与真实年龄的加权权值。

7.根据权利要求6所述的预测方法，其特征在于，所述步骤E1中，针对每个最佳预测模型的模型训练和预测的步骤包括：

步骤(a)：将用于模型训练的数据集随机等分成五份；

步骤(b)：选用其中的四份数据作为训练数据构建最佳年龄预测模型f_n，其中模型的超参数设置为经过网格搜索确定的最佳超参数组合；

步骤(c)：将剩余的一份数据作为该次模型构建过程中的验证数据，使用构建获得的预测模型进行预测，从而获得一份对应的年龄预测结果p_n；

步骤(d)：重复所述步骤(b)和步骤(c)的过程直至五分数据全部完成训练和预测，将获得预测结果p_n合并，获得一份完整数据集大小的年龄预测结果P，P＝{p₁,p₂,p₃,p₄,p₅}，并保存每轮训练过程中获得的最佳预测模型F，F＝{f₁,f₂,f₃,f₄,f₅}。

8.根据权利要求6所述的预测方法，其特征在于，所述步骤五中，还包括：

最终构建的集成年龄预测方法为，依据所述步骤E1的模型训练方法，对于各不同类别的肠道菌群数据，针对用于模型训练的数据集先独立构建对应的最佳预测模型，并基于各个最佳预测模型的预测结果通过加权计算获得最终的年龄预测结果。

9.根据权利要求1所述的预测方法，其特征在于，所述步骤六还包括：

对于待预测的数据样本的肠道菌群物种组成和代谢通路相对丰度表，使用步骤五中的步骤E2获得的最佳预测模型集合进行预测，获得数据样本根据各类模型的年龄预测结果，并使用步骤E3获得的加权权值对预测结果进行加权计算，并输出待预测的数据样本对应的成年人的年龄最终预测值。

10.根据权利要求1所述的预测方法，其特征在于，所述预测方法还包括：

对经过特征选择后的肠道菌群物种及其代谢通路的全部特征进行特征解释，特征解释的目的是确定全部特征中与年龄最为相关的特征，从而确定该特征可能具有的与年龄相关的相互作用。