CN108345768B

CN108345768B - 一种确定婴幼儿肠道菌群成熟度的方法和标志物组合

Info

Publication number: CN108345768B
Application number: CN201810054474.2A
Authority: CN
Inventors: 李俊桦; 彭也; 陈冰; 张慧; 林宇翔; 贾慧珏
Original assignee: BGI Shenzhen Co Ltd
Current assignee: BGI Shenzhen Co Ltd
Priority date: 2017-01-20
Filing date: 2018-01-19
Publication date: 2021-11-02
Anticipated expiration: 2038-01-19
Also published as: CN108345768A; HK1254445A1

Abstract

本申请公开了一种确定婴幼儿肠道菌群成熟度的方法和标志物组合。本申请的方法，包括以提取自待测婴幼儿离体样品的核酸为基础，对肠道菌群成熟度的标志物组合进行定量分析，将标志物组合的定量分析结果，与基线参考标准相比较，确定肠道菌群的相对成熟度；标志物组合包括：X个分类学单元、Y个代谢通路、和/或Z个基因基线参考标准是以提取自标准婴幼儿个体的离体样品的核酸为基础，对肠道菌群成熟度的标志物组合进行定量分析的结果；标准婴幼儿个体符合(a)人体测量指标符合WHO儿童生长标准的正常范围；(b)顺产出生、断奶前为母乳喂养、采样前无抗生素暴露。本申请的方法可提高确定婴儿肠道菌群成熟度的准确性、精确性和稳健性。

Description

一种确定婴幼儿肠道菌群成熟度的方法和标志物组合

技术领域

本申请涉及肠道微生物菌落检测和分析领域，特别是涉及一种确定婴幼儿肠道菌群成熟度的方法和标志物组合。

背景技术

随着二代高通量测序技术的进步和测序成本的降低，基因测序得到越来越广泛的应用，在与人类相关的微生态研究领域，以构成人类“第二基因组”的肠道菌群研究最为广泛、深入。肠道菌群与人的健康状况息息相关，在婴幼儿(或幼年实验动物)的营养物质供给、免疫系统构建方面扮演着尤为重要的角色。婴幼儿肠道菌群的建立、成熟受到多种因素影响，包括生产方式、喂养方式和母亲及婴幼儿本身的药物使用等。研究表明，顺产出生的婴儿相较剖腹产出生的婴儿在儿童时期更不易患过敏性疾病，由母乳喂养的婴幼儿不易发胖；这些有益作用一定程度上归功于产道、母乳中的菌群，而母亲孕期及哺乳期使用抗生素则会扰乱相应菌群，进而影响婴幼儿的生长发育；而婴幼儿本身使用抗生素，不仅可能剧烈扰乱肠道菌群，使分类学组成和功能组成多样性的减少，还可能引起抗生素抗性基因的富集，对短期及长期的健康造成影响。

现有方法通常基于分类学组成，如菌属或菌种的分类学水平，对肠道菌群状况进行评估，现有方法有以下缺点：

1)现有方法构建参考基线时，有的仅考虑外在指标，即人体测量分数是否符合儿童生长标准；有的仅考虑影响肠道菌群的因素，即生产方式、喂养方式、使用抗生素情况。前者能够衡量婴幼儿当前的身体发育状况，而后者则反映婴幼儿所处环境是否有利于其生长。现有方法的入组条件并未同时兼顾二者，可能使得构建出的基线标准范围过大，不利于肠道菌群状况的准确评估。

2)现有方法构建参考基线及评估待测样品时，只考虑分类学组成情况，且仅在菌属或菌种的分类学水平进行研究。而同属一个菌种的不同菌株所包含的基因信息可能存在巨大差异，行使的功能也不尽相同，同属一个菌属的不同菌种间的差异可能更大，如果简单地在一个较高的分类学水平研究菌群与健康的关系，则很可能把与健康状态呈正相关、无关甚至负相关的类别都加到一起，这无论在生物学还是统计学上都有明显谬误。另一方面，属于不同菌属或菌种的细菌，可能占据同一生态位，行使相近的功能，或者存在合作关系，对基因组成和代谢通路组成进行分析有利于发掘、利用这些信息。因此，仅考虑菌种或菌属水平的分类学组成情况对肠道菌群状况进行评估，不利于提高方法的准确性、精确性和稳健性，也不利于全面的生物学解释。

发明内容

本申请的目的是提供一种新的确定婴幼儿肠道菌群成熟度的方法，以及用于确定婴幼儿肠道菌群成熟度的标志物组合。

本申请的第一方面提供了一种确定婴幼儿肠道菌群成熟度的方法，第二方面提供了一种用于确定婴幼儿肠道菌群成熟度的标志物组合，第三方面提供了一种用于确定婴幼儿肠道菌群成熟度的基线参考标准，第四方面提供了一种确定用于确定婴幼儿肠道菌群成熟度的标志物的方法。

本申请具体采用了以下技术方案：

本申请的第一方面公开了一种确定婴幼儿肠道菌群成熟度的方法，包括以提取自待测婴幼儿离体样品的核酸为基础，对肠道菌群成熟度的标志物组合进行定量分析，将标志物组合的定量分析结果，与基线参考标准相比较，确定肠道菌群的相对成熟度；

其中，标志物组合包括：X个分类学单元、Y个代谢通路、和/或Z个基因；

X个分类学单元是指：分类学单元1、分类学单元2、……、分类学单元X；

Y个代谢通路是指：代谢通路1、代谢通路2、……、代谢通路Y；

Z个基因是指：基因1、基因2、……、基因Z；

X为≥0的整数，Y为≥0的整数，Z为≥0的整数；

基线参考标准是以提取自标准婴幼儿个体的离体样品的核酸为基础，对肠道菌群成熟度的标志物组合进行定量分析的结果；标准婴幼儿个体符合以下两个条件(a)人体测量指标符合WHO儿童生长标准的正常范围，或生理指标符合实验动物临床生理指标正常范围；(b)顺产出生、断奶前为母乳喂养、采样前无抗生素暴露；采样前无抗生素暴露是指母亲在孕期和哺乳期未使用抗生素，或者婴幼儿出生后至采样前未使用抗生素，又或者至少在采样前一周未使用抗生素。

在另一优选例中，X+Y+Z之和≥10，或X+Y+Z之和≥20，较佳地X+Y+Z≥30，更佳地X+Y+Z≥40，最佳地X+Y+Z≥50，如20-500，30-300或50-500。

在另一优选例中，X为5-50，较佳地5-30。

在另一优选例中，Y为2-30，更佳地5-20。

在另一优选例中，Z为5-200，较佳地10-100。

在另一优选例中，X个分类学单元包括宏基因组学操作分类单元(mOTU)定义的分类学单元。

在另一优选例中，X个分类学单元包括菌群的门(Phylum)、纲(Class)、目(Order)、科(Family)、属(Genus)、种(species)、亚种、株、或其组合。

在另一优选例中，Y个代谢通路包括构成代谢通路的单个生化反应(Reaction)。

在另一优选例中，Z个基因包括直系同源物(Orthology)、酶(Enzyme)、基因本体(Gene ontology)、或其组合。

在另一优选例中，标志物组合包括表1、表2、表3、表4、和/或表6中的至少一个。

在另一优选例中，离体样品为肠道排泄物。

在另一优选例中，标志物或标志物组合为肠道菌群的标志物或标志物组合。

在另一优选例中，对肠道菌群成熟度的标志物组合进行定量分析，包括利用基因芯片微阵列分析、qPCR、和/或宏基因组测序等方式对标志物组合进行定量分析，从而确定标志物组合中各标记物的含量。

在另一优选例中，以提取自待测婴幼儿离体样品的核酸为基础，对肠道菌群成熟度的标志物组合进行定量分析，具体包括，对核酸进行宏基因组测序和/或宏转录组测序，获得宏基因组测序数据和/或宏转录组测序数据，基于宏基因组测序数据和/或宏转录组测序数据，对肠道菌群中的分类学单元种类和数量进行定量分析，获得定量结果，并且基于宏基因组数据和/或宏转录组数据进行分析，获得肠道菌群中的分类学单元分类信息、代谢通路信息和/或基因信息，以及分类学单元分类、代谢通路和基因的多样性信息和丰度信息。

在另一优选例中，标准婴幼儿个体的年龄为0岁-7岁；优选的，年龄为0岁-3岁；更优选的，年龄为0岁-1岁。

需要说明的是，基于标准婴幼儿个体所形成的基线参考标准，可以是一个完整的数据库，例如其中包括0岁-7岁或者更宽年龄范围的基线参考标准数据，而在针对具体的待测婴幼儿进行分析时，再选择待测婴幼儿年龄段的基线参考标准数据用于待测婴幼儿肠道菌群的相对成熟度分析，在此不做具体限定。

在另一优选例中，肠道菌群选自下组：细菌、病毒、真菌、衣原体、支原体、或其组合。

在另一优选例中，本申请的确定婴幼儿肠道菌群成熟度的方法，还包括根据待测婴幼儿的标志物组合的定量分析结果，确定待测婴幼儿的理论年龄。

需要说明的是，该理论年龄是根据标志物组合的定量分析结果推测或拟合的年龄，同样的，会对与待测婴幼儿同龄的标准婴幼儿个体按照相同的方法和准则推测或拟合一个理论年龄，通过比较待测婴幼儿的理论年龄，与同龄的标准婴幼儿个体的理论年龄，即可给出待测婴幼儿的相对成熟度。

在另一优选例中，肠道菌群的相对成熟度采用公式一进行计算，

公式一RM＝(M1-M_平均)÷SE

其中，RM为相对成熟度，M1为待测婴幼儿的理论年龄，M_平均为与待测婴幼儿同龄的标准婴幼儿个体的理论年龄的均值或中位数，SE为与待测婴幼儿同龄的标准婴幼儿个体的理论年龄的标准差；相对成熟度RM衡量待测婴幼儿的成熟度与基线参考标准的接近程度，RM越接近0表示与健康同龄人越相似，大于0表示肠道菌群发育过快，小于0则表示肠道菌群发育过缓。

本申请中，除非明确说明为理论年龄，其它情况提到的年龄，例如待测婴幼儿同龄、标准婴幼儿个体的年龄、年龄、月龄、生理年龄等，都是指所称对象的实际年龄。

在另一优选例中，与待测婴幼儿同龄，具体为年龄处于M±N年的人群，其中，M为待测婴幼儿的实际年龄，N为0-1，例如0、1/365、1/360、1/52、1/24、1/12、0.05、0.1、0.2、0.3、0.4、0.5。

在另一优选例中，以WHO确定月龄的公式为参考，构建以月龄为区间的判断模型。

在另一优选例中，本申请的确定婴幼儿肠道菌群成熟度的方法是非诊断性和非治疗性的。

本申请的第二方面公开了一种用于确定婴幼儿肠道菌群成熟度的标志物组合，该标志物组合包括：X个分类学单元、Y个代谢通路和/或Z个基因；

Z个基因是指：基因1、基因2、……、基因Z；

其中，X为≥0的整数，Y为≥0的整数，Z为≥0的整数。

优选的，标志物组合包括表1、表2、表3、表4、和/或表6中的至少一个。

需要说明的是，本申请用于确定婴幼儿肠道菌群成熟度的标志物组合，实际上就是本申请的确定婴幼儿肠道菌群成熟度的方法中所采用的标志物组合，在此不累述。

本申请的第三方面公开了一种用于确定婴幼儿肠道菌群成熟度的基线参考标准，该基线参考标准是以提取自标准婴幼儿个体的离体样品的核酸为基础，对肠道菌群成熟度的标志物组合进行定量分析的结果；

其中，标志物组合包括：X个分类学单元、Y个代谢通路和/或Z个基因；所述X个分类学单元是指：分类学单元1、分类学单元2、……、分类学单元X；所述Y个代谢通路是指：代谢通路1、代谢通路2、……、代谢通路Y；所述Z个基因是指：基因1、基因2、……、基因Z；其中，X为≥0的整数，Y为≥0的整数，Z为≥0的整数；优选的，标志物组合包括表1、表2、表3、表4、和/或表6中的至少一个。

定量分析包括利用微阵列分析、qPCR、和/或宏基因组测序等方式对标志物组合进行定量分析，从而确定标志物组合中各标记物的含量；

标准婴幼儿个体符合以下两个条件(a)人体测量指标符合WHO儿童生长标准的正常范围，或生理指标符合实验动物临床生理指标正常范围；(b)顺产出生、断奶前为母乳喂养、采样前无抗生素暴露；采样前无抗生素暴露是指母亲在孕期和哺乳期未使用抗生素，或者婴幼儿出生后至采样前未使用抗生素，又或者至少在采样前一周未使用抗生素。

需要说明的是，本申请用于确定婴幼儿肠道菌群成熟度的基线参考标准，实际上也是本申请的确定婴幼儿肠道菌群成熟度的方法中所采用的基线参考标准，在此不累述。

优选的，本申请的用于确定婴幼儿肠道菌群成熟度的基线参考标准中，对核酸进行宏基因组测序和/或宏转录组测序，获得宏基因组测序数据和/或宏转录组测序数据，基于宏基因组测序数据和/或宏转录组测序数据，对肠道菌群中的分类学单元种类和数量进行定量分析，获得定量结果，并且基于宏基因组数据和/或宏转录组数据进行分析，获得肠道菌群中的分类学单元分类信息、代谢通路信息和/或基因信息，以及分类学单元分类、代谢通路和基因的多样性信息和丰度信息。

本申请的第四方面公开了一种确定用于确定婴幼儿肠道菌群成熟度的标志物的方法，包括以下步骤，

(a)提供样品；

(b)提取样品的核酸，并进行宏基因组测序，基于测序数据，得到肠道菌群的分类学单元、代谢通路和/或基因作为候选标志物，通过以下步骤确定标志物：

①将标准差较小的候选标志物过滤；

②将与样品提供者月龄相关性较小的候选标志物过滤；

③计算剩余候选标志物两两之间的相关性或距离，通过聚类，保留同一簇中与聚类中心距离最近的候选标志物；

④将剩余候选标志物与响应变量输入随机森林回归模型，计算各个候选标志物的重要性，基于对候选标志物数与错误率关系的分析，保留适当数目Num的重要性排名靠前的候选标志物，作为确定的用于确定婴幼儿肠道菌群成熟度的标志物；其中，响应变量为生理年龄。

在另一优选例中，“①将标准差较小的候选标志物过滤”中，标准差较小指某一标志物的标准差＜所有标志物标准差的0.95分位数，较佳地＜0.75分位数、更佳地＜0.50分位数。

在另一优选例中，“与待测婴幼儿月龄相关性较小”指某一标志物与样品提供者月龄的皮尔森相关性系数的绝对值＜0.8，较佳地＜0.5，更佳地＜0.3。

优选的，本申请的确定用于确定婴幼儿肠道菌群成熟度的标志物的方法还包括步骤(c)，基于步骤(b)中所确定的候选标志物，使用随机森林回归模型对用于确定标志物的样品的理论年龄进行预测，得到参考标准，该参考标准包括每个理论年龄区间的预测结果的均值和标准差；其中，均值也可以替换为中位数。

优选的，Num为10-200的整数，更优选的为20-100的整数。

在另一优选例中，确定用于确定婴幼儿肠道菌群成熟度的标志物的方法中，样品为肠道排泄物。

在另一优选例中，确定用于确定婴幼儿肠道菌群成熟度的标志物的方法中，样品提供者为身体测量指标符合WHO儿童生长标准的正常范围，或生理指标符合实验动物临床生理指标正常范围，且顺产出生、断奶前是母乳喂养、无抗生素暴露的婴幼儿个体。

在另一优选例中，确定肠道菌群中的物种分类学单元信息、代谢通路信息和基因信息，以及物种分类学单元、代谢通路和基因的丰度信息的方法，参见专利PCT/CN2016/105372。

在另一优选例中，确定用于确定婴幼儿肠道菌群成熟度的标志物的方法还包括步骤(d)验证的步骤：提供验证样品，该验证样品包括第一样品、第二样品和第三样品；

第一样品来自身体测量指标符合WHO儿童生长标准的正常范围或生理指标符合实验动物临床生理指标正常范围，且顺产出生、断奶前是母乳喂养、无抗生素暴露的婴幼儿个体；

第二样品来自身体测量符合WHO儿童生长标准正常范围，但由剖腹术生产、由配方奶喂养或近期使用过抗生素的个体；

第三样品来自由阴道分娩、断奶前是母乳喂养、无抗生素暴露，但身体测量不符合WHO儿童生长标准正常范围的个体；

提取验证样品的核酸，并进行宏基因组测序，分析步骤(b)中得到的标志物的信息，输入步骤(c)的模型，

若第一样品的评估结果与基线参考标准无显著差异或处于基线参考标准范围内，且第二样品和第三样品的评估结果与基线参考标准有显著差异，或处于基线参考标准范围外，即得到用于确定婴幼儿肠道菌群成熟度的标志物。

在另一优选例中，确定用于确定婴幼儿肠道菌群成熟度的标志物的方法中，样品的来自年龄为0岁-7岁，较佳地，0岁-3岁，更佳地，0岁-1岁的婴幼儿。

在另一优选例中，确定用于确定婴幼儿肠道菌群成熟度的标志物的方法中，肠道菌群选自下组：细菌、病毒、真菌、衣原体、支原体、或其组合。

在另一优选例中，确定用于确定婴幼儿肠道菌群成熟度的标志物的方法中，经确定的婴幼儿肠道菌群成熟度的标志物选自下组：肠道菌群物种分类学单元、肠道菌群代谢通路、肠道菌群基因、或其组合。

本发明还提供了一种确定婴幼儿肠道菌群的相对成熟度的方法，包括步骤：

(a)提供样品；

(b)提取样品中的核酸；

(c)对核酸进行宏基因组测序和/或宏转录组测序，从而获得宏基因组测序数据，和/或宏转录组测序数据；

(d)基于宏基因组测序数据和/或宏转录组测序数据，对肠道菌群中的物种分类学单元种类和数量进行定量分析，获得定量结果，并且基于宏基因组数据和/或宏转录组数据进行分析，从而获得肠道菌群中的物种分类学单元分类信息、代谢通路信息和/或基因信息，以及物种分类学单元分类、代谢通路和基因的多样性信息和丰度信息；

(e)基于步骤(d)中的信息，确定肠道菌群的相对成熟度。

公式一RM＝(M1-M_平均)÷SE

在另一优选例中，确定肠道菌群中的物种分类学单元分类信息、代谢通路信息和基因信息，以及物种分类学单元分类、代谢通路和基因的多样性信息和丰度信息的方法，参见专利PCT/CN2016/105372。

在另一优选例中，样品的来自年龄为0岁-7岁，较佳地0岁-3岁，更佳地，0岁-1岁的婴幼儿。

在另一优选例中，0岁指刚出生的婴幼儿。

在另一优选例中，确定婴幼儿肠道菌群的相对成熟度的方法是非诊断性和非治疗性的。

应理解，在本申请范围内中，本申请的上述各技术特征和在下文如实施例中具体描述的各技术特征之间都可以互相组合，从而构成新的或优选的技术方案。限于篇幅，在此不再一一累述。

附图说明

图1是本申请实施例确定用于确定婴幼儿肠道菌群成熟度的标志物的方法中建模的流程框图；

图2是本申请实施例中79个用于模型训练和测试的样品的月龄分布情况，其中，横坐标为生理月龄，纵坐标为各月龄数据的个数；

图3是本申请实施例中55个用于模型训练的样品的月龄分布情况，其中，横坐标为生理月龄，纵坐标为各月龄数据的个数；

图4是本申请实施例中24个用于测试的样品的月龄分布情况，其中，横坐标为生理月龄，纵坐标为各月龄数据的个数；

图5是本申请实施例1中训练数据样品的特征的标准差分布情况，其中，横坐标为标准差大小，纵坐标为特征个数，纵坐标经过对数转换；

图6是本申请实施例1中训练数据样品的特征与样品生理月龄的相关性系数分布情况，其中，横坐标为特征与生理月龄的皮尔森相关性系数大小，纵坐标为特征个数；

图7是本申请实施例1候选标志物的来源情况，其中，左边圆形表示1088个标准差位于75％分位数以上的特征，右边圆形表示127个与生理月龄的相关性系数绝对值≥0.3的特征，两圆相交部分表示89个候选标志物；

图8是本申请实施例1采用不同个数候选标志物所构建模型的性能的变化情况，其中，横坐标为模型所用重要性排名靠前的特征的个数，左侧纵坐标表示模型解释度，右侧纵坐标表示模型预测的残差平方和，图中灰色实线指示模型训练时的解释度值(score)，黑色实线指示随机森林模型3次交叉验证的解释度平均值(score)，灰色虚线指示模型训练时预测结果的残差平方和(residual)；

图9是本申请实施例1采用14个特征，在55个训练样品进行预测的性能表现，横坐标为实际的生理月龄(区间)，纵坐标为模型对月龄(区间)的预测结果即理论年龄，R²为皮尔森相关性系数的平方；

图10是本申请实施例1采用14个特征对24个测试样品进行预测的性能表现，横坐标为实际的生理月龄(区间)，纵坐标为模型对月龄(区间)的预测结果即理论年龄，R²为皮尔森相关性系数的平方；

图11是本申请实施例2中训练数据样品的特征的标准差分布情况，其中，横坐标为标准差大小，纵坐标为特征个数，纵坐标经过对数转换；

图12是本申请实施例2中训练数据样品的特征与样品生理月龄的相关性系数分布情况，其中，横坐标为特征与生理月龄的皮尔森相关性系数大小，纵坐标为特征个数；

图13是本申请实施例2候选标志物的来源情况，其中，左边圆形表示6112个标准差位于75％分位数以上的特征，右边圆形表示7378个与生理月龄的相关性系数绝对值≥0.3的特征，两圆相交部分表示4924个候选标志物；

图14是本申请实施例2采用不同个数候选标志物所构建模型的性能的变化情况，其中，横坐标为模型所用重要性排名靠前的特征的个数，左侧纵坐标表示模型解释度，右侧纵坐标表示模型预测的残差平方和，图中灰色实线指示模型训练时的解释度值(score)，黑色实线指示随机森林模型3次交叉验证的解释度平均值(score)，灰色虚线指示模型训练时预测结果的残差平方和(residual)；

图15是本申请实施例2采用52个特征，在55个训练样品进行预测的性能表现，横坐标为实际的生理月龄(区间)，纵坐标为模型对月龄(区间)的预测结果即理论年龄，R²为皮尔森相关性系数的平方；

图16是本申请实施例2采用52个特征对24个测试样品进行预测的性能表现，横坐标为实际的生理月龄(区间)，纵坐标为模型对月龄(区间)的预测结果即理论年龄，R²为皮尔森相关性系数的平方；

图17是本申请实施例3中训练数据样品的特征的标准差分布情况，其中，横坐标为标准差大小，纵坐标为特征个数，纵坐标经过对数转换；

图18是本申请实施例3中训练数据样品的特征与样品生理月龄的相关性系数分布情况，其中，横坐标为特征与生理月龄的皮尔森相关性系数大小，纵坐标为特征个数；

图19是本申请实施例3候选标志物的来源情况，其中，左边圆形表示377个标准差位于75％分位数以上的特征，右边圆形表示310个与生理月龄的相关性系数绝对值≥0.3的特征，两圆相交部分表示271个候选标志物；

图20是本申请实施例3采用不同个数候选标志物所构建模型的性能的变化情况，其中，横坐标为模型所用重要性排名靠前的特征的个数，左侧纵坐标表示模型解释度，右侧纵坐标表示模型预测的残差平方和，图中灰色实线指示模型训练时的解释度值(score)，黑色实线指示随机森林模型3次交叉验证的解释度平均值(score)，灰色虚线指示模型训练时预测结果的残差平方和(residual)；

图21是本申请实施例3采用3个特征，在55个训练样品进行预测的性能表现，横坐标为实际的生理月龄(区间)，纵坐标为模型对月龄(区间)的预测结果即理论年龄，R²为皮尔森相关性系数的平方；

图22是本申请实施例3采用3个特征对24个测试样品进行预测的性能表现，横坐标为实际的生理月龄(区间)，纵坐标为模型对月龄(区间)的预测结果即理论年龄，R²为皮尔森相关性系数的平方；

图23是本申请实施例中综合考虑宏基因组测序数据可提供信息的原因及示例，其中实线方框表示模型选用的标记物，虚线方框标识模型未采用的标记物；

图24是本申请实施例5中训练数据样品的特征的标准差分布情况，其中，横坐标为标准差大小，纵坐标为特征个数，纵坐标经过对数转换；

图25是本申请实施例5中训练数据样品的特征与样品生理月龄的相关性系数分布情况，其中，横坐标为特征与生理月龄的皮尔森相关性系数大小，纵坐标为特征个数；

图26是本申请实施例5候选标志物的来源情况，其中，左边圆形表示7495个标准差位于75％分位数以上的特征，右边圆形表示7815个与生理月龄的相关性系数绝对值≥0.3的特征，两圆相交部分表示5743个候选标志物；

图27是本申请实施例5采用不同个数候选标志物所构建模型的性能的变化情况，其中，横坐标为模型所用重要性排名靠前的特征的个数，左侧纵坐标表示模型解释度，右侧纵坐标表示模型预测的残差平方和，图中灰色实线指示模型训练时的解释度值(score)，黑色实线指示随机森林模型3次交叉验证的解释度平均值(score)，灰色虚线指示模型训练时预测结果的残差平方和(residual)；

图28是本申请实施例5采用12个特征，在55个训练样品进行预测的性能表现，横坐标为实际的生理月龄(区间)，纵坐标为模型对月龄(区间)的预测结果即理论年龄，R²为皮尔森相关性系数的平方；

图29是本申请实施例5采用12个特征对24个测试样品进行预测的性能表现，横坐标为实际的生理月龄(区间)，纵坐标为模型对月龄(区间)的预测结果即理论年龄，R²为皮尔森相关性系数的平方；

图30是本申请实施例5中55个基线数据得到的各理论月龄下预测结果的平均值、标准差的参考标准和模型应用的示例，其中，平均值为黑色实线即中间的一条曲线，标准差为灰色实线，即上下两条曲线；

图31本申请实施例6中643个用于模型训练和测试的样品的月龄分布情况，其中，横坐标为生理月龄，纵坐标为各月龄数据的个数；

图32是本申请实施例6中450个用于模型训练的样品的月龄分布情况，其中，横坐标为生理月龄，纵坐标为各月龄数据的个数；

图33是本申请实施例6中193个用于测试的样品的月龄分布情况，其中，横坐标为生理月龄，纵坐标为各月龄数据的个数；

图34是本申请实施例6中训练数据样品的特征的标准差分布情况，其中，横坐标为标准差大小，纵坐标为特征个数，纵坐标经过对数转换；

图35是本申请实施例6中训练数据样品的特征与样品生理月龄的相关性系数分布情况，其中，横坐标为特征与生理月龄的皮尔森相关性系数大小，纵坐标为特征个数；

图36是本申请实施例6候选标志物的来源情况，其中，左边圆形表示7495个标准差位于75％分位数以上的特征，右边圆形表示6461个与生理月龄的相关性系数绝对值≥0.3的特征，两圆相交部分表示4343个候选标志物；

图37是本申请实施例6采用不同个数候选标志物所构建模型的性能的变化情况，其中，横坐标为模型所用重要性排名靠前的特征的个数，左侧纵坐标表示模型解释度，右侧纵坐标表示模型预测的残差平方和，图中灰色实线指示模型训练时的解释度值(score)，黑色实线指示随机森林模型3次交叉验证的解释度平均值(score)，灰色虚线指示模型训练时预测结果的残差平方和(residual)；

图38是本申请实施例6采用42个特征，在450个训练样品进行预测的性能表现，横坐标为实际的生理月龄(区间)，纵坐标为模型对月龄(区间)的预测结果即理论年龄，R²为皮尔森相关性系数的平方；

图39是本申请实施例6采用42个特征对193个测试样品进行预测的性能表现，横坐标为实际的生理月龄(区间)，纵坐标为模型对月龄(区间)的预测结果即理论年龄，R²为皮尔森相关性系数的平方；

图40是本申请实施例6中450个基线数据得到的各生理月龄下预测结果的平均值、标准差的参考标准和模型应用的示例，其中，平均值为黑色实线即中间的一条曲线，标准差为灰色实线，即上下两条曲线。

具体实施方式

经过深入广泛的研究，本申请发明人意外的发现，基于宏基因组测序数据和/或宏转录组测序数据，对肠道菌群中的分类学单元种类和数量进行定量分析，获得定量结果，并且基于宏基因组数据和/或宏转录组数据进行分析，可精确的获得肠道菌群中的分类学单元分类信息、代谢通路信息和基因信息，以及分类学单元分类、代谢通路和基因的多样性信息和丰度信息，并基于上述信息，可精确的确定所述肠道菌群的成熟度。此外，本申请还意外的发现了筛选用于确定婴幼儿肠道菌群成熟度的标志物的方法，以及确定婴幼儿肠道菌群成熟度的标志物组合。在此基础上完成了本发明。

术语

本申请中，术语“肠道菌群(Gut flora)”是指存在于人类或其他动物(包括昆虫)消化道内复杂的微生物群落。

“分类学单元(taxon)”是指分类学上的一个群体，在本发明中包括界、门、纲、目、科、属、种、亚种、株。

“丰富度”是指某种分类体系下出现类别的数目多少。

“多样性”是指某种分类体系下出现类别的香农多样性指数，该指数的计算受各个类别含量或丰度的影响。

本申请所用“特征”和“候选标志物”含义相同。

确定婴幼儿肠道菌群的成熟度的方法

本申请涉及一种确定婴幼儿肠道菌群成熟度的方法，包括步骤：

(a)提供一样品；

(b)提取样品中的核酸；

(c)基于核酸，对肠道菌群成熟度的标志物组合进行定量分析；和

(d)基于步骤(c)获得的定量信息，从而确定肠道菌群的相对成熟度；

其中，的肠道菌群成熟度的标志物组合包括：X个分类学单元、Y个代谢通路、和/或Z个基因，其中：

X个分类学单元是指：分类学单元1，分类学单元2，……，分类学单元X；

Y个代谢通路是指：代谢通路1，代谢通路2，……，代谢通路Y；

Z个基因是指：基因1，基因2，……，基因Z；

其中，X为≥0的整数，Y为≥0的整数，Z为≥0的整数。

在一优选实施方式中，本申请的确定婴幼儿肠道菌群的成熟度的方法包括步骤：

(a)提供样品；

(b)提取所述样品中的核酸；

(d)基于宏基因组测序数据和/或宏转录组测序数据，对肠道菌群中的分类学单元种类和数量进行定量分析，获得定量结果，并且基于宏基因组数据和/或宏转录组数据进行分析，从而获得肠道菌群中的分类学单元分类信息、代谢通路信息和基因信息，以及分类学单元分类、代谢通路和基因的多样性信息和丰富度信息；和

(e)基于步骤(d)中所述信息，从而确定肠道菌群的成熟度。

本申请还涉及了一种基于健康婴幼儿或哺乳动物的肠道菌群特征，建立评估肠道菌群发育状况基线的方法。

1)本申请构建基线参考标准时，既考虑了外在身体指标，即符合WHO人体测量标准或实验动物临床生理指标正常范围，又考虑了影响肠道菌群因素，即顺产出生、断奶前是母乳喂养、无抗生素暴露等，认为符合这两方面标准的个体当前身体状态健康，且处于有利于其生长发育的环境，方可入选基线群体。更准确地反映肠道菌群状况。

2)综合考虑肠道菌群特征，包括高分辨率的分类学组成即菌株水平、基因组成、代谢通路组成以及对这些组成进行综合描述的指标，如丰富度和多样性等，从中挑选出年龄特异性marker，构建用于评估肠道菌群发育状况或外界因素对肠道菌群影响程度的模型。使评估结果更准确，更有利于生物学解释。

在一优选的实施方式中，建立评估肠道菌群发育状况基线的方法，如图1所示，包括步骤：

1)基线选择

a.入选个体的人体测量指标符合WHO儿童生长标准的正常范围，和/或生理指标符合实验动物临床生理指标正常范围；

b.入选个体为顺产出生、断奶前是母乳喂养、采样前一周无抗生素暴露，和/或母亲在孕期和哺乳期未使用抗生素，和/或婴幼儿出生后至采样前未使用抗生素；

2)特征选取

a.综合提取粪便样品的肠道菌群特征；

b.通过特征工程挑选所需特征；

3)模型构建

基于2)b得到的特征，使用回归模型进行预测，得到参考标准。

确定婴幼儿肠道菌群成熟度的标志物的方法

本申请涉及一种确定用于确定婴幼儿肠道菌群成熟度的标志物的方法，包括步骤：

(a)提供样品；

(b)提取所述样品的核酸，并进行宏基因组测序，基于测序数据，得到肠道菌群的分类学单元、代谢通路和/或基因作为候选标志物，通过以下步骤确定标志物：

①将标准差较小的候选标志物过滤；

②将与样品提供者月龄相关性较小的候选标志物过滤；

④将剩余候选标志物与生理年龄响应变量输入随机森林回归模型，计算各个候选标志物的重要性，基于对候选标志物数与错误率关系的分析，保留适当数目(Num)的重要性排名靠前的候选标志物，作为确定的用于确定婴幼儿肠道菌群成熟度的标志物。

本申请的主要优点包括：

1)基线入组条件考虑了人体测量指标或实验动物临床生理指标和影响肠道菌群的因素，提高模型准确性，使其评估结果更具参考意义。例如，可以将剖腹产出生和/或母乳喂养的婴幼儿的肠道菌群特征输入评估模型，评估该个体的肠道菌群相对同月龄基线群体的发育状况；再如，可以在婴幼儿使用抗生素或其他药物后，对其进行连续采样，监测其肠道菌群的恢复状况，即与同月龄基线群体的接近程度。

2)综合考虑肠道菌群特征，使模型评估时考虑的内容更全面，既可提高方法的准确性、精确性和稳健性，又有利于生物学解释。例如，某些特定菌株、基因家族、代谢通路和各组成的多样性、丰富度等特征，其对年龄的判别效果可能比现有方法仅从低分辨率分类学组成得到的marker的好，另外，对某个个体评估结果中各个marker的分析，可以得知哪些功能缺失或过剩，而现有方法不具备类似功能。

3)提供了一个用于确定婴幼儿肠道菌群发育的成熟度的方法和一个以月龄为区间的相对成熟度参考标准。可为传统评估生长发育水平的指标，如人体测量指标提供补充。

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。下列实施例中未注明具体条件的实验方法，通常按照常规条件如Sambrook等人，分子克隆：实验室手册(New York:Cold Spring Harbor LaboratoryPress,1989)中所述的条件，或按照制造厂商所建议的条件。除非另外说明，否则百分比和份数按重量计算。本发明中所涉及的实验材料和试剂如无特殊说明均可从市售渠道获得。

实施例1

本实施例以人类婴幼儿作为研究对象。

1.1基线数据获取

基于以下原则筛选样品：

a.入选个体的身体质量指数(Body mass index,BMI)位于WHO儿童生长标准的三个标准差范围以内。

b.入选个体为顺产出生、断奶前是母乳喂养、采样前一周未使用抗生素。

本例共有0-36个月龄的79个中国婴幼儿的肠道菌群的宏基因组测序数据入选，其中随机选取55个数据用于模型训练，另外24个数据用于模型测试，数据来源样品的月龄，以3月龄为区间归类，分布情况如图2至图4所示；另外挑选3个未入选基线的数据用于说明模型和标准的使用过程。

对79个样品的宏基因组测序数据进行分析，提取各个分类学水平的分类学单元、基因、代谢通路等维度的定量信息，并计算各样品各维度定量信息的香农多样性指数(alpha-diversity)。对79个样品的上述信息取并集，即，若某一候选标志物在至少一个样品中出现，则在其他样品的信息中补充该候选标志物，将其定量信息设定为0。使用最大-最小值缩放法对各候选标志物进行标准化，即，使各候选标志物的值缩放到[0,1]区间中，使用公式如下：

样品A的候选标志物1的缩放值＝(样品A的候选标志物1的原始值–所有样品中候选标志物1的最小值)/(所有样品中候选标志物1的最大值-所有样品中候选标志物1的最小值)。

其中，分类学水平的分类学单元包括：界、门、纲、目、科、属、种、株，基因包括基因本体、直系同源物、酶及其催化的生化反应。

本实施例选取其中菌株水平分类学组成，即界、门、纲、目、科、属、种、株，的定量信息及其多样性和丰富度指数，共4,020个候选标志物作为候选标志物库。

1.2标志物选取

1)将标准差较小的候选标志物过滤；

计算55个训练样品所述标准化后的候选标志物库中各个标志物在样品中的标准差，取其中标准差大于75％分位数的标准差的标志物，即去除在样品中差异不大的标志物，共1,088个。所有候选标志物的标准差分布如图5所示。

2)将与样品提供者月龄相关性较小的候选标志物过滤；

计算标准化后的候选标志物库中各个标志物与样品生理月龄信息的皮尔森相关性系数，取其中相关性系数≥0.3，或≤-0.3的标志物，即去除与生理月龄相关性较小的标志物，共127个。所有标志物与生理月龄的相关性系数分布如图6所示。

取1088个标准差位于75％分位数以上的候选标志物和127个与生理月龄的相关性系数绝对值≥0.3的候选标志物的交集，共89个标志物，作为下一步选取的候选标志物，如图7所示。

3)保留变化趋势类似的候选标志物中有代表性的标志物；

计算剩余89个候选标志物两两之间的皮尔森相关性系数，在相关性大于0.95的标志物中，以较大的概率保留代表性较好的标志物，选得71个候选标志物。

4)保留对模型重要性大的标志物；基于对候选标志物数与错误率关系的分析，保留适当数目的重要性排名靠前的标志物

将剩余71个候选标志物的信息作为预测变量，与样品生理月龄作为响应变量输入随机森林回归模型，计算各个候选标志物的重要性，选取由模型计算得到的重要性，即对月龄的影响程度，大于万分之五的标志物，共48个。分别将55个样品48个候选标志物的1个至48个的前n个的信息作为预测变量，将其生理月龄作为响应变量，构建随机森林回归模型，共48个。考察各个模型训练时对响应变量的解释度(score)及对应的预测结果的残差平方和即相对响应变量的变异情况、各模型在3次交叉验证(cross validation)中对相应变量解释度的平均值，如图8所示。由图8可见，包含14个标志物的模型的单次预测解释度为0.889，交叉验证的解释度的均值最高，为0.591。因此选取重要性排名为前14的标志物作为最终的预测变量。

14个标志物的信息如表1所示。

表1分类学单元的14个标志物

1.3模型构建和验证

将55个训练集样品所述14个标志物的信息作为预测变量，将其对应的生理月龄信息作为响应变量，构建随机森林回归模型；使用24个测试集样品14个标志物的信息作为预测变量，使用随机森林回归模型预测其理论年龄。模型对训练集、测试集样品的理论年龄的预测结果与实际值的皮尔森相关性系数平方(R²)分别为0.889和0.732，如图9和图10所示。

验证结果表明：使用多个水平的分类学单元，即界、门、纲、目、科、属、种、株，的定量信息即相对丰度，及其多样性和丰富度指数，能有效评估肠道菌群发育状况。

实施例2

2.1基线数据获取

本实施例基于实施例1所用样品，选取其中基因组成的定量信息及其多样性和丰富度指数，共24,452个候选标志物作为候选标志物库。这些基因组成包括基因本体、直系同源物、酶及其催化的生化反应。

2.2标志物选取

1)将标准差较小的候选标志物过滤；

计算55个训练样品所述标准化后的候选标志物库中各个标志物在样品中的标准差，取其中标准差大于75％分位数的标准差的标志物，即去除在样品中差异不大的标志物，共6,113个。所有候选标志物的标准差分布如图11所示。

2)将与样品提供者月龄相关性较小的候选标志物过滤；

计算所述标准化后的候选标志物库中各个标志物与样品生理月龄信息的皮尔森相关性系数，取其中相关性系数≥0.3，或≤-0.3的标志物，即去除与生理月龄相关性较小的标志物，共7,378个。所有标志物与生理月龄的相关性系数分布如图12所示。

取所述6,113个标准差位于75％分位数以上的候选标志物和7,378个与生理月龄的相关性系数绝对值≥0.3的候选标志物的交集，共4,924个标志物，作为下一步选取的候选标志物，如图13所示。

3)保留变化趋势类似的候选标志物中有代表性的标志物；

计算剩余4,924个候选标志物两两之间的皮尔森相关性系数，在相关性大于0.95的标志物中，以较大的概率保留代表性较好的标志物，选得1,602个候选标志物。

将剩余1,602个候选标志物的信息作为预测变量，与生理年龄响应变量输入随机森林回归模型，计算各个候选标志物的重要性，选取由模型计算得到的重要性，即对月龄的影响程度，大于万分之五的标志物，共78个。分别将55个样品所述48个候选标志物的1个至78个的前n个的信息作为预测变量，将其生理月龄作为响应变量，构建随机森林回归模型，共78个。考察各个模型训练时对响应变量的解释度(score)及对应的预测结果的残差平方和即相对响应变量的变异情况、各模型在3次交叉验证(cross validation)中对相应变量解释度的平均值，如图14所示。由图14可见，包含52个标志物的模型交叉验证的解释度的均值最高，为0.584。但由于78个模型中，模型交叉验证解释度均值的75％分位数为0.528，与最大值(0.584)较接近，产生大于或等于该值的模型的标志物数量为18个，此时单次预测解释度为0.905。当标志物数量大于18个时，模型的表现即预测解释度较接近，因此选取重要性排名为前18的标志物作为最终的预测变量。

18个标志物的信息如表2所示。

表2基因组成的18个标志物

2.3模型构建和验证

将55个训练集样品所述18个标志物的信息作为预测变量，将其对应的生理月龄信息作为响应变量，构建随机森林回归模型；使用24个测试集样品所述18个标志物的信息作为预测变量，使用所述随机森林回归模型预测其理论年龄。模型对训练集、测试集样品的理论年龄的预测结果与实际值的皮尔森相关性系数平方(R²)分别为0.919和0.655，结果如图15和图16所示。

验证结果表明：使用基因组成，包括基因本体、直系同源物、酶及其催化的生化反应，及其多样性和丰富度指数，能有效评估肠道菌群发育状况。

实施例3

3.1基线数据获取

本实施例基于实施例1所用样品，选取其中代谢通路的定量信息及其多样性和丰富度指数，共1,505个候选标志物作为候选标志物库。

3.2标志物选取

1)将标准差较小的候选标志物过滤；

计算55个训练样品所述标准化后的候选标志物库中各个标志物在样品中的标准差，取其中标准差大于75％分位数的标准差的标志物，即去除在样品中差异不大的标志物，共377个。所有候选标志物的标准差分布如图17所示。

2)将与样品提供者月龄相关性较小的候选标志物过滤；

计算所述标准化后的候选标志物库中各个标志物与样品生理月龄信息的皮尔森相关性系数，取其中相关性系数≥0.3，或≤-0.3的标志物，即去除与生理月龄相关性较小的标志物，共310个。所有标志物与生理月龄的相关性系数分布如图18所示。

取所述377个标准差位于75％分位数以上的候选标志物和310个与生理月龄的相关性系数绝对值≥0.3的候选标志物的交集，共271个标志物，作为下一步选取的候选标志物，如图19所示。

3)保留变化趋势类似的候选标志物中有代表性的标志物；

计算剩余4,924个候选标志物两两之间的皮尔森相关性系数，在相关性大于0.95的标志物中，以较大的概率保留代表性较好的标志物，选得151个候选标志物。

将剩余151个候选标志物的信息作为预测变量，与响应变量即样品生理月龄输入随机森林回归模型，计算各个候选标志物的重要性，选取由模型计算得到的重要性，即对月龄的影响程度，大于万分之五的标志物，共71个。分别将55个样品所述71个候选标志物的1个至71个的前n个的信息作为预测变量，将其生理月龄作为响应变量，构建随机森林回归模型，共71个。考察各个模型训练时对响应变量的解释度(score)及对应的预测结果的残差平方和即相对响应变量的变异情况、各模型在3次交叉验证(cross validation)中对相应变量解释度的平均值，如图20所示。由图20可见，包含3个标志物的模型交叉验证的解释度的均值最高，为0.498；此时单次预测解释度为0.923。因此选取重要性排名为前3的标志物作为最终的预测变量。

3个标志物的信息如表3。

表3代谢通路的3个标志物

3.3模型构建和验证

将55个训练集样品所述3个标志物的信息作为预测变量，将其对应的生理月龄信息作为响应变量，构建随机森林回归模型；使用24个测试集样品所述3个标志物的信息作为预测变量，使用所述随机森林回归模型预测其理论年龄。模型对训练集、测试集样品的理论年龄的预测结果与实际值的皮尔森相关性系数平方(R2)分别为0.914和0.417，结果如图21和图22所示。

验证结果表明：使用代谢通路及其多样性和丰富度指数，能有效评估肠道菌群发育状况。

实施例4

若综合考虑肠道菌群的特征，假设最终模型中使用X个分类学单元，Y个代谢通路，Z个基因和这三个维度的多样性和丰富度进行判别，Y和Z不一定都包含于X个分类学单元中，因为X以外的分类学单元也极有可能拥有Y个代谢通路和Z个基因中的一种或几种。

如图23所示，其中第X+1个分类学单元未被模型纳入，但其包含的代谢通路1和5均包含在模型采用的Y个中；而第Y+1(Y+2)个代谢通路，虽未被模型纳入，但其包含的基因2和Z(3和4)均包含在模型采用的Z个中；另一方面，无论某一分类学单元、代谢通路或基因是否被模型采用，其均会对其所在维度，即分类学单元、代谢通路或基因，的多样性和丰富度的计算产生影响，这也是本方法综合考虑宏基因组测序能提供的信息的原因。

实施例5

5.1基线数据获取

本实施例基于实施例1所用样品，综合考虑肠道菌群特征，即选取各个分类学单元组成、基因组成、代谢通路的定量信息及其多样性和丰富度指数，共29,977个候选标志物作为候选标志物库。其中，分类学单元组成即界、门、纲、目、科、属、种。

5.2标志物选取

1)将标准差较小的候选标志物过滤；

计算55个训练样品标准化后的候选标志物库中各个标志物在样品中的标准差，取其中标准差大于75％分位数的标准差的标志物，即去除在样品中差异不大的标志物，共7,495个。所有候选标志物的标准差分布如图24所示。

2)将与样品提供者月龄相关性较小的候选标志物过滤；

计算标准化后的候选标志物库中各个标志物与样品生理月龄信息的皮尔森相关性系数，取其中相关性系数≥0.3，或≤-0.3的标志物，即去除与生理月龄相关性较小的标志物，共7,815个。所有标志物与生理月龄的相关性系数分布如图25所示。

取7,495个标准差位于75％分位数以上的候选标志物和7,815个与生理月龄的相关性系数绝对值≥0.3的候选标志物的交集，共5,743个标志物，作为下一步选取的候选标志物，如图26所示。

3)保留变化趋势类似的候选标志物中有代表性的标志物；

计算剩余5,743个候选标志物两两之间的皮尔森相关性系数，在相关性大于0.95的标志物中，以较大的概率保留代表性较好的标志物，选得1,850个候选标志物。

将剩余1,850个候选标志物的信息作为预测变量，与响应变量即样品生理月龄输入随机森林回归模型，计算各个候选标志物的重要性，选取由模型计算得到的重要性，即对月龄的影响程度，大于万分之五的标志物，共77个。分别将55个样品所述77个候选标志物的1个至77个的前n个的信息作为预测变量，将其生理月龄作为响应变量，构建随机森林回归模型，共77个。考察各个模型训练时对响应变量的解释度(score)及对应的预测结果的残差平方和即相对响应变量的变异情况、各模型在3次交叉验证(cross validation)中对相应变量解释度的平均值，如图27所示。由图27可见，包含12个标志物的模型交叉验证的解释度的均值最高，为0.603，该值高于实施例1至3中仅考虑单一类型标志物的解释度均值，此时单次预测解释度为0.919，残差平方和最小。因此选取重要性排名为前12的标志物作为最终的预测变量。

12个标志物的信息如表4。

表4综合分类学单元、基因组成和代谢通路的12个标志物

5.3模型构建和验证

将55个训练集样品所述12个标志物的信息作为预测变量，将其对应的生理月龄信息作为响应变量，构建随机森林回归模型；使用24个测试集样品的12个标志物的信息作为预测变量，使用随机森林回归模型预测其理论年龄。模型对训练集、测试集样品的理论年龄的预测结果与实际值的皮尔森相关性系数平方(R²)分别为0.915和0.521，结果如图28和图29所示。

验证结果表明：综合考虑肠道菌群特征，即选取各个分类学单元组成、基因组成、代谢通路的定量信息及其多样性和丰富度指数，能有效评估肠道菌群发育状况。其中分类学单元组成即界、门、纲、目、科、属、种。

5.4模型应用

对上步构建模型对55个训练集样品的基线数据的预测结果进行分析，使用各理论年龄下预测结果的平均值和标准差作为参考标准。见表5和图30。

表5基于模型对55个样品的理论年龄预测结果计算的参考标准

生理月龄	参考预测均值	参考预测标准差
			0-3	6.0	2.0
4-6	8.3	1.3
			7-9	11.6	1.0
10-12	13.0	1.4
			13-15	18.8	2.5
16-18	20.5	3.2
			19-21	22.5	1.5
22-24	24.0	3.2
			25-27	25.0	2.8
28-30	28.8	3.1
			31-33	31.2	2.4
34-36	35.0	1.4

采用以下公式确定待测样品的相对成熟度：

公式一RM＝(M1-M_平均)÷SE

其中，成熟度由上述模型确定，即预测的理论年龄。RM为相对成熟度，M1为待测婴幼儿的理论年龄，M_平均为与待测婴幼儿同龄的标准婴幼儿个体的理论年龄的均值或中位数，SE为与待测婴幼儿同龄的标准婴幼儿个体的理论年龄的标准差；相对成熟度RM衡量待测婴幼儿的成熟度与基线参考标准的接近程度，RM越接近0表示与健康同龄人越相似，大于0表示肠道菌群发育过快，小于0则表示肠道菌群发育过缓。

使用3个未参与模型构建的样品进行模型应用。其中样品1为顺产出生，配方奶喂养，采样前无使用抗生素；样品2为剖腹产出生，母乳喂养，采样前无使用抗生素；样品3为顺产出生，母乳喂养，采样前有使用抗生素。提取3个样品的12个标志物的信息，输入模型，预测结果如图30所示，图30中标记为1、2、3的三个点依序对应样品1、2、3的预测结果。

其中样品1和2的实际生理月龄均为10个月，预测的理论年龄分别为15.6个月和18.3个月，基于参考标准计算得到的相对成熟度分别为1.86和3.79，该结果显示配方奶喂养的样品1和剖腹产出生的样品2所属个体肠道菌群发育过快。样品3的实际生理月龄为35个月，预测的月龄为10.2个月，基于参考标准计算得到的相对成熟度为-17.71，该结果显示近期使用抗生素的样品3所属个体肠道菌群发育过缓。

上述实验结果表明，本例的方法可以有效地确定婴幼儿肠道菌群相对同月龄段健康人群的成熟度或相对成熟度，且有助于了解生活方式、成长环境对婴幼儿肠道菌群发育的影响。

实施例6

6.1基线数据获取

本实施例选用0-36个月龄的643个中国婴幼儿的肠道菌群的宏基因组测序数据作为研究对象，用以阐述利用本发明的方法评估婴幼儿相较同龄人肠道菌群发育状态的可行性。这643个样品包含前面实施例使用的79个样品。643个样品中，450个数据用于模型训练，193个数据用于模型测试，数据来源样品的月龄，以3月龄为区间归类，分布情况如图31、图32和图33所示；另外挑选4个未入选基线的数据用于说明模型和标准的使用过程。

对643个样品的宏基因组测序数据进行分析，提取各个分类学水平的分类学单元、基因、代谢通路等维度的定量信息，并计算各样品各维度定量信息的香农多样性指数(alpha-diversity)。对643个样品的上述信息取并集，即，若某一候选标志物在至少一个样品中出现，则在其他样品的信息中补充该候选标志物，将其定量信息设定为0。使用最大-最小值缩放法对各候选标志物进行标准化，即，使各候选标志物的值缩放到[0,1]区间中，使用公式如下：

本实施例基于实施例1所用样品，综合考虑肠道菌群特征，即选取各个分类学单元组成、基因组成、代谢通路的定量信息及其多样性和丰富度指数，共29,977个候选标志物作为候选标志物库。其中，分类学单元组成即界、门、纲、目、科、属、种；基因包括基因本体、直系同源物、酶及其催化的生化反应。

6.2标志物选取

1)将标准差较小的候选标志物过滤；

计算450个训练样品所述标准化后的候选标志物库中各个标志物在样品中的标准差，取其中标准差大于75％分位数的标准差的标志物，即去除在样品中差异不大的标志物，共7,495个。所有候选标志物的标准差分布如图34所示。

2)将与样品提供者月龄相关性较小的候选标志物过滤；

计算标准化后的候选标志物库中各个标志物与样品生理月龄信息的皮尔森相关性系数，取其中相关性系数≥0.3，或≤-0.3的标志物，即去除与生理月龄相关性较小的标志物，共6,461个。所有标志物与生理月龄的相关性系数分布如图35所示。

取7,495个标准差位于75％分位数以上的候选标志物和6,461个与生理月龄的相关性系数绝对值≥0.3的候选标志物的交集，共4,343个标志物，作为下一步选取的候选标志物，如图36所示。

3)保留变化趋势类似的候选标志物中有代表性的标志物；

计算剩余4,343个候选标志物两两之间的皮尔森相关性系数，在相关性大于0.95的标志物中，以较大的概率保留代表性较好的标志物，选得1,750个候选标志物。

将剩余1,750个候选标志物的信息作为预测变量，与响应变量即样品生理月龄输入随机森林回归模型，计算各个候选标志物的重要性，选取由模型计算得到的重要性，即对月龄的影响程度，大于万分之五的标志物，共163个。分别将450个样品所述163个候选标志物的1个至163个的前n个的信息作为预测变量，将其生理月龄作为响应变量，构建随机森林回归模型，共163个。考察各个模型训练时对响应变量的解释度(score)及对应的预测结果的残差平方和即相对响应变量的变异情况、各模型在3次交叉验证(cross validation)中对相应变量解释度的平均值，如图37所示。由图37可见，包含52个标志物的模型交叉验证的解释度的均值最高，为0.584。但由于162个模型中，模型交叉验证解释度均值的75％分位数为0.528，与最大值较接近，产生大于或等于该值的模型的标志物数量为42个，此时单次预测解释度为0.905。当标志物数量大于42个时，模型的表现较接近，因此选取重要性排名为前42的标志物作为最终的预测变量。

42个标志物的信息如表6所示。

表6综合分类学单元、基因组成和代谢通路的42个标志物

6.3模型构建和验证

将450个训练集样品的42个标志物的信息作为预测变量，将其对应的生理月龄信息作为响应变量，构建随机森林回归模型；使用193个测试集样品42个标志物的信息作为预测变量，使用随机森林回归模型预测其理论年龄。模型对训练集、测试集样品的理论年龄的预测结果与实际值的皮尔森相关性系数平方(R²)分别为0.952和0.720，如图38和图39所示。

验证结果表明：综合考虑肠道菌群特征，即选取各个分类学单元组成、基因组成、代谢通路的定量信息及其多样性和丰富度指数，能有效评估肠道菌群发育状况。

6.4模型应用

对上步构建模型对450个样品基线数据的预测结果进行分析，使用各生理月龄下预测结果的平均值和标准差作为参考标准。见表7和图40。

表7基于模型对450个样品的理论年龄预测结果计算的参考标准

采用以下公式确定待测样品的相对成熟度：

相对成熟度＝(待测个体成熟度-同龄人群成熟度均值)/同龄人群成熟度标准差

其中，成熟度由上述模型确定，即预测的理论年龄。

相对成熟度可衡量该个体的成熟度与健康基线参考标准的接近或偏离程度，越接近0表示与健康同龄人越相似，其值大于0表示肠道菌群发育过快，小于0则表示肠道菌群发育过缓。

使用4个未参与模型构建的样品进行模型应用。提取4个样品的42个标志物的信息，输入模型，预测结果如图40所示，图中，标记为1、2、3、4的四个点即对应4个样品的预测结果。

其中样品1和样品3的实际生理月龄分别为7个月和55个月，预测的月龄分别为14.4个月和54.1个月，基于参考标准计算得到的相对成熟度分别为0.72和0.05，该结果显示样品1和样品3所属个体肠道菌群发育正常；样品2和样品4的实际生理月龄分别为43个月和77个月，预测的月龄分别为27.4个月和66.5个月，基于参考标准计算得到的相对成熟度分别为-2.50和-1.74，该结果显示样品2和样品4所属个体肠道菌群发育过缓。

上述实验结果表明，本例的方法可以有效地确定婴幼儿肠道菌群相对同月龄人群的成熟度或相对成熟度。

以上内容是结合具体的实施方式对本申请所作的进一步详细说明，不能认定本申请的具体实施只局限于这些说明。对于本申请所属技术领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本申请的保护范围。

Claims

1.一种确定婴幼儿肠道菌群成熟度的方法，其特征在于：包括以提取自待测婴幼儿离体样品的核酸为基础，对肠道菌群成熟度的标志物组合进行定量分析，将标志物组合的定量分析结果，与基线参考标准相比较，确定肠道菌群的相对成熟度；

其中，所述标志物组合包括：X个分类学单元、Y个代谢通路和/或Z个基因；

所述X个分类学单元是指：分类学单元1、分类学单元2、……、分类学单元X；

所述Y个代谢通路是指：代谢通路1、代谢通路2、……、代谢通路Y；

所述Z个基因是指：基因1、基因2、……、基因Z；

X为≥0的整数，Y为≥0的整数，Z为≥0的整数；

所述基线参考标准是以提取自标准婴幼儿个体的离体样品的核酸为基础，对肠道菌群成熟度的标志物组合进行定量分析的结果；所述标准婴幼儿个体符合以下两个条件(a)人体测量指标符合WHO儿童生长标准的正常范围，或生理指标符合实验动物临床生理指标正常范围；(b)顺产出生、断奶前为母乳喂养、采样前无抗生素暴露；所述采样前无抗生素暴露是指母亲在孕期和哺乳期未使用抗生素，或者婴幼儿出生后至采样前未使用抗生素，又或者至少在采样前一周未使用抗生素。

2.根据权利要求1所述的方法，其特征在于：所述标志物组合包括表1、表2、表3、表4和/或表6中的至少一个；

表1分类学单元的14个标志物

表2基因组成的18个标志物

表3代谢通路的3个标志物

表4综合分类学单元、基因组成和代谢通路的12个标志物

表6综合分类学单元、基因组成和代谢通路的42个标志物

3.根据权利要求1所述的方法，其特征在于：所述标准婴幼儿个体的年龄为0岁-7岁。

4.根据权利要求1所述的方法，其特征在于：还包括根据待测婴幼儿的标志物组合的定量分析结果，确定所述待测婴幼儿的理论年龄。

5.根据权利要求4所述的方法，其特征在于：所述肠道菌群的相对成熟度采用公式一进行计算，

公式一RM＝(M1-M_平均)÷SE

其中，RM为相对成熟度，M1为所述待测婴幼儿的理论年龄，M_平均为与待测婴幼儿同龄的标准婴幼儿个体的理论年龄的均值或中位数，SE为与待测婴幼儿同龄的标准婴幼儿个体的理论年龄的标准差；

所述相对成熟度RM衡量待测婴幼儿的成熟度与基线参考标准的接近程度，RM越接近0表示与健康同龄人越相似，大于0表示肠道菌群发育过快，小于0则表示肠道菌群发育过缓。

6.根据权利要求1-5任一项所述的方法，其特征在于：包括以下步骤，

(a)提供一样品；

(b)提取所述样品中的核酸；

(c)基于所述核酸，对肠道菌群成熟度的标志物组合进行定量分析；和

其中，所述的肠道菌群成熟度的标志物组合包括：X个分类学单元、Y个代谢通路和/或Z个基因，其中：

所述X个分类学单元是指：分类学单元1，分类学单元2，……，分类学单元X；

所述Y个代谢通路是指：代谢通路1，代谢通路2，……，代谢通路Y；

所述Z个基因是指：基因1，基因2，……，基因Z；

其中，X为≥0的整数，Y为≥0的整数，Z为≥0的整数。

7.根据权利要求6所述的方法，其特征在于：X+Y+Z之和≥10。

8.根据权利要求6所述的方法，其特征在于：所述对肠道菌群成熟度的标志物组合进行定量分析，包括利用微阵列分析、qPCR和/或宏基因组测序等方式对标志物组合进行定量分析，从而确定标志物组合中各标记物的含量。

9.根据权利要求6所述的方法，其特征在于：所述以提取自待测婴幼儿离体样品的核酸为基础，对肠道菌群成熟度的标志物组合进行定量分析，具体包括，对所述核酸进行宏基因组测序和/或宏转录组测序，获得宏基因组测序数据和/或宏转录组测序数据，基于宏基因组测序数据和/或宏转录组测序数据，对肠道菌群中的分类学单元种类和数量进行定量分析，获得定量结果，并且基于宏基因组数据和/或宏转录组数据进行分析，获得肠道菌群中的分类学单元分类信息、代谢通路信息和/或基因信息，以及分类学单元分类、代谢通路和基因的多样性信息和丰度信息。

10.一种用于确定婴幼儿肠道菌群成熟度的标志物组合，其特征在于：所述标志物组合包括：X个分类学单元、Y个代谢通路和/或Z个基因；

所述Z个基因是指：基因1、基因2、……、基因Z；

其中，X为≥0的整数，Y为≥0的整数，Z为≥0的整数。

11.根据权利要求10所述的标志物组合，其特征在于：所述标志物组合包括表1、表2、表3、表4和/或表6中的至少一个；

表1分类学单元的14个标志物

表2基因组成的18个标志物

表3代谢通路的3个标志物

表4综合分类学单元、基因组成和代谢通路的12个标志物

表6综合分类学单元、基因组成和代谢通路的42个标志物

12.一种用于确定婴幼儿肠道菌群成熟度的基线参考标准，其特征在于：所述基线参考标准是以提取自标准婴幼儿个体的离体样品的核酸为基础，对肠道菌群成熟度的标志物组合进行定量分析的结果；

所述标志物组合包括：X个分类学单元、Y个代谢通路和/或Z个基因；所述X个分类学单元是指：分类学单元1、分类学单元2、……、分类学单元X；所述Y个代谢通路是指：代谢通路1、代谢通路2、……、代谢通路Y；所述Z个基因是指：基因1、基因2、……、基因Z；其中，X为≥0的整数，Y为≥0的整数，Z为≥0的整数；

所述定量分析包括利用微阵列分析、qPCR和/或宏基因组测序等方式对标志物组合进行定量分析，从而确定标志物组合中各标记物的含量；

所述标准婴幼儿个体符合以下两个条件(a)人体测量指标符合WHO儿童生长标准的正常范围，或生理指标符合实验动物临床生理指标正常范围；(b)顺产出生、断奶前为母乳喂养、采样前无抗生素暴露；所述采样前无抗生素暴露是指母亲在孕期和哺乳期未使用抗生素，或者婴幼儿出生后至采样前未使用抗生素，又或者至少在采样前一周未使用抗生素。

13.根据权利要求12所述的用于确定婴幼儿肠道菌群成熟度的基线参考标准，其特征在于：所述标志物组合包括表1、表2、表3、表4和/或表6中的至少一个，

表1分类学单元的14个标志物

表2基因组成的18个标志物

表3代谢通路的3个标志物

表4综合分类学单元、基因组成和代谢通路的12个标志物

表6综合分类学单元、基因组成和代谢通路的42个标志物

14.根据权利要求12或13所述的用于确定婴幼儿肠道菌群成熟度的基线参考标准，其特征在于：所述定量分析还包括对所述核酸进行宏基因组测序和/或宏转录组测序，获得宏基因组测序数据和/或宏转录组测序数据，基于宏基因组测序数据和/或宏转录组测序数据，对肠道菌群中的分类学单元种类和数量进行定量分析，获得定量结果，并且基于宏基因组数据和/或宏转录组数据进行分析，获得肠道菌群中的分类学单元分类信息、代谢通路信息和/或基因信息，以及分类学单元分类、代谢通路和基因的多样性信息和丰度信息。

15.一种用于确定婴幼儿肠道菌群成熟度的标志物的方法，其特征在于：包括以下步骤，

(a)提供样品；

①将标准差较小的候选标志物过滤；标准差较小指某一标志物的标准差＜所有标志物标准差的0.95分位数；

②将与样品提供者月龄相关性较小的候选标志物过滤；与待测婴幼儿月龄相关性较小指某一标志物与样品提供者月龄的皮尔森相关性系数的绝对值＜0.8；

④将剩余候选标志物与响应变量输入随机森林回归模型，计算各个候选标志物的重要性，基于对候选标志物数与错误率关系的分析，保留适当数目Num的重要性排名靠前的候选标志物，作为确定的用于确定婴幼儿肠道菌群成熟度的标志物；其中，响应变量为生理年龄；所述适当数目Num是指Num为10-200的整数。

16.根据权利要求15所述的方法，其特征在于：还包括步骤(c)，基于步骤(b)中所确定的候选标志物，使用随机森林回归模型对用于确定标志物的样品的理论年龄进行预测，得到参考标准，该参考标准包括每个理论年龄区间的预测结果的均值或中位数，以及标准差。

17.根据权利要求15或16所述的方法，其特征在于：所述Num为20-100的整数。