CN114317671A

CN114317671A - 可作为1型糖尿病生物标志物的肠道细菌和粪便代谢物及其应用

Info

Publication number: CN114317671A
Application number: CN202111614872.3A
Authority: CN
Inventors: 罗飞宏; 王睿瑞; 袁宵潇; 季光; 韩冰; 徐真然; 孙成君; 章淼滢
Original assignee: Shanghai University of Traditional Chinese Medicine; Childrens Hospital of Fudan University
Current assignee: Shanghai University of Traditional Chinese Medicine; Childrens Hospital of Fudan University
Priority date: 2021-12-27
Filing date: 2021-12-27
Publication date: 2022-04-12
Anticipated expiration: 2041-12-27
Also published as: CN114317671B

Abstract

本发明属于医学检测领域，具体涉及可作为1型糖尿病生物标志物的肠道细菌和粪便代谢物及其应用。本发明针对1型糖尿病(Type 1 diabetes，T1D)，高效筛选出包括DL‑苄基琥珀酸、2‑氨基‑4‑羟基蝶啶、宠大真杆菌、卵形布劳特氏菌等在内的18种预测标志物。本发明的1型糖尿病标志物可用于对1型糖尿病患病风险进行预警，指导肠道微生物环境的调整；可用于指示肠道微生物环境与1型糖尿病的关联，作为协助诊断；以及药物作用靶点研究、精准用药、发病机理的研究等。

Description

可作为1型糖尿病生物标志物的肠道细菌和粪便代谢物及其应用

技术领域

本发明属于医学检测领域，具体涉及可作为1型糖尿病生物标志物的肠道细菌和粪便代谢物及其应用。

背景技术

1型糖尿病(type 1diabetes，T1D)，又名胰岛素依赖型糖尿病，T1D多发生在儿童和青少年，其发病率在全球呈显著上升趋势，并已成为一项重大的公共卫生问题。T1D患者起病急，代谢紊乱症状明显，患者需注射胰岛素以维持生命。临床上多数患者入院时存在严重的胰岛素缺乏，容易发生酮症酸中毒，严重者可导致死亡，因此需要提倡早检查、早发现、早诊断、早治疗。然而由于缺乏诊断T1D的早期生物学标志物，往往导致早期有效治疗的延误。

发明内容

本发明的目的在于提供可作为1型糖尿病生物标志物的肠道细菌和粪便代谢物。

本发明的再一目的在于提供上述生物标志物的应用。

本发明的再一目的在于提供一种预测1型糖尿病风险模型的构建方法。

根据本发明具体实施方式的可作为1型糖尿病生物标志物的肠道细菌和粪便代谢物，包括

DL-苄基琥珀酸、

2-氨基-4-羟基蝶啶、

20-羟基-5Z,8Z,11Z,14Z-二十碳四烯酸、

甘氨鹅脱氧胆酸、

可可碱、

1,7-二甲基尿酸、

(±)-18-羟基-5Z,8Z,11Z,14Z,16E-二十碳五烯酸、

宠大真杆菌(Anaerostipes hadrus)、

卵形布劳特氏菌(Blautia obeum)、

食葡糖罗斯拜瑞氏菌(Roseburia inulinivorans)、

1,3-二甲基尿酸(1,3-Dimethyluric Acid)、

假小链双歧杆菌(Bifidobacterium pseudocatenulatum)、

伴生粪球菌(Coprococcus comes)、

韦氏布劳特氏菌(Blautia wexlerae)、

直肠真杆菌(Eubacterium rectale)、

产气柯林斯菌(Collinsella aerofaciens)、

1,7-二甲基黄嘌呤(1,7-Dimethylxanthine)、

未分类的双歧杆菌属(unclassified Bifidobacterium)中的至少一种。

本发明利用微生物组、代谢组数据形成组合标志物panel，借助机器学习算法，高效筛选针对1型糖尿病(Type 1diabetes，T1D)的预测标志物。根据分类器的结果，肠道菌中对1型糖尿病相关度按照由高到低的排序为：DL-苄基琥珀酸、2-氨基-4-羟基蝶啶、20-羟基-5Z,8Z,11Z,14Z-二十碳四烯酸、甘氨鹅脱氧胆酸、可可碱、1,7-二甲基尿酸、(±)-18-羟基-5Z,8Z,11Z,14Z、16E-二十碳五烯酸、宠大真杆菌、卵形布劳特氏菌、食葡糖罗斯拜瑞氏菌、1,3-二甲基尿酸、假小链双歧杆菌、伴生粪球菌、韦氏布劳特氏菌、直肠真杆菌、产气柯林斯菌、1,7-二甲基黄嘌呤、未分类的双歧杆菌属。

本发明的1型糖尿病微生物标志物可用于对1型糖尿病患病风险进行预警、预估个体在将来患1型糖尿病的可能性，指导肠道微生物环境的调整。通过确定对象肠道菌群中是否存在上述标志物中的一种或者两种或者多种，从而有效地确定检测对象是否易感1型糖尿病。

本发明还提供上述标志物在制备1型糖尿病诊断试剂方面的应用，优选的，本发明提供一种试剂盒，所述试剂盒包括检测上述标志物的含量的试剂。通过特异性检测肠道标志物的相对含量，评估1型糖尿病发生的风险，为1型糖尿病的筛查和诊断提供新的检测手段，尽早进行临床干预，预防病情进展。

同时，上述标志物还可以作为干预靶标，持续监测个体的健康状况，从而在发现与某些1型糖尿病相关的异常特征时进行早期干预。

本发明还提供上述标志物在制备治疗1型糖尿病药物方面的应用，优选的，本发明提供一种药物组合物，所述药物组合物中包含调节上述用于评估1型糖尿病风险的标志物的相对含量而实现降低1型糖尿病患病风险的药物。所述药物组合物可以调节微生物标志物，以平衡各个菌属之间的相对含量，降低1型糖尿病的患病风险，同时所述药物组合物能够调节肠道中代谢物的含量，减少不良代谢产物可以通过吸收进入肠肝循环而进入宿主的血液，改善个体的内环境。

本发明还提供一种可作为1型糖尿病生物标志物的肠道细菌和粪便代谢物组合的模型，所述模型的输入变量为上述用于评估1型糖尿病风险的标志物的丰度。

本发明还提供一种可作为1型糖尿病风险预测模型的构建方法，包括如下步骤：

(1)分别检测健康个体和1型糖尿病患者粪便中的微生物和代谢物的含量，所述微生物和代谢物的种类为上述基于肠道菌群和粪便代谢物的1型糖尿病生物标志物，

(2)将步骤(1)得到的数据输入随机森林模型，训练模型，存储训练后的模型，得到用于预测1型糖尿病风险的模型。

其中，步骤(1)中，微生物含量的检测方法为宏基因组测序，步骤(1)中，代谢物含量的检测方法为液相色谱串联质谱检测。

具体的，可作为1型糖尿病生物标志物的肠道细菌和粪便代谢物组合模型的构建方法，包括如下步骤：

(1)针对1型糖尿病人和健康人的粪便细菌进行宏基因深度测序和代谢组学检测，清洗数据并匹配数据库得到特定菌属的细菌的丰度含量；

(2)构建机器学习分类器：测到的菌属和代谢物丰度值作为输入数据,诊断结果作为目标结果(0：对照，1：患1型糖尿病疾病)；构建的分类器为随机森林。

(3)交叉验证选取模型：10-fold交叉验证用来测试模型的准确性，是将样本随机分成10份，取其中9份作为训练样本来训练模型，1份作为测试样本，进行模型验证，通过与实际结果比较，可用来评价模型的好坏。这里，对随机森林分类模型使用10-fold交叉验证，获得最小分类错误率下的物种个数，用来初步筛选重要物种(变量)。

(4)绘制受试者工作特征曲线：受试者工作特征曲线(receiver operatingcharacteristic curve，简称ROC曲线)是以真阳性率(敏感性)为纵坐标，假阳性率(1-特异性)为横坐标绘制的曲线，AUC值是ROC曲线下面的面积，常用其来评判一个二值分类器的优劣。这里根据不同变量数下(按物种重要性排序的)AUC值大小来初步筛选重要物种(变量)。

本发明的有益效果：

本发明分别招募了1型糖尿病人和健康人，将其分为发现队列和验证队列，并对所有1型糖尿病人和健康人的粪便细菌进行宏基因深度测序和液相色谱串联质谱检测，分别得到差异菌属的细菌和差异代谢物的丰度含量。

通过构建机器学习分类器，将发现队列中受试者测到的差异菌属和差异代谢物丰度值作为输入数据，筛选重要的细菌和代谢物，并且绘制ROC曲线，通过AUC面积评判二值分类器的优劣，从而筛出生物标志物，并在验证队列中检验该生物标志物组合的判别效率。

本发明高效筛选出包括DL-苄基琥珀酸、2-氨基-4-羟基蝶啶、宠大真杆菌、卵形布劳特氏菌等在内的18种预测标志物，并通过绘制ROC曲线分析，在T1D发现队列中AUC值为0.976，在T1D验证队列进一步验证18种联合生物标志物的诊断效能，AUC值为0.809，说明本发明筛选得到的18种生物标志物诊断价值极高，可用于对1型糖尿病患病风险进行预警，作为协助诊断，以及药物作用靶点研究、精准用药、发病机理的研究等。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1显示不同物种(变量)数下随机森林的AUC图；

图2为物种重要性点图；

图3为MRM代谢物检测多峰图；

图4为根据OPLS-DA模型分析代谢组数据，绘制各分组的得分图；

图5为OPLS-DA模型验证图；

图6为OPLS-DA的S-plot图；

图7为不同变量数下随机森林的AUC图；

图8显示不同变量的相对重要程度情况；

图9为本发明筛选得到的18种标志物的受试者工作特征曲线。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将对本发明的技术方案进行详细的描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式，都属于本发明所保护的范围。

实施例1筛选1型糖尿病的微生物标志物

1.针对1型糖尿病人和健康人的粪便细菌进行宏基因深度测序检测，清洗数据并匹配数据库得到特定菌属的细菌的丰度含量。

1.1测序实验流程

(1)环境样品DNA抽提

进行样品基因组的DNA抽提后，利用1％琼脂糖凝胶电泳检测抽提的基因组DNA。

(2)片段化：

使用仪器Covaris M220，进行片段化处理。

(3)构建PE文库

1)连接“Y”字形接头；

2)使用磁珠筛选去除接头自连片段；

请补充磁珠筛选所用的试剂和试验参数。

3)利用PCR扩增进行文库模板的富集；

Primer 1：5'-AATGATACGGCGACCACCGAGATCTACAC-3'，

Primer 2：5'-CAAGCAGAAGACGGCATACGAGAT-3'。

PCR程序如下：

4)氢氧化钠变性，产生单链DNA片段；

(4)桥式PCR

1)DNA片段的一端与引物碱基互补，固定在芯片上；

2)另一端随机与附近的另外一个引物互补，也被固定住，形成“桥(bridge)”；

3)PCR扩增，产生DNA簇；

4)DNA扩增子线性化成为单链。

试剂：HiSeq 3000/4000PE Cluster Kit。

(5)Illumina Hiseq测序

1)加入DNA聚合酶和带有4种荧光标记的dNTP，每次循环只合成一个碱基；

2)用激光扫描反应板表面，读取每条模板序列第一轮反应所聚合上去的核苷酸种类；

3)将“荧光基团”和“终止基团”化学切割，恢复3'端粘性，继续聚合第二个核苷酸；

4)统计每轮收集到的荧光信号结果，获知模板DNA片段的序列。

试剂：HiSeq 3000/4000SBS Kits。

1.2进行生信分析

数据分析从下机原始序列开始，首先对原始序列进行拆分、质量剪切以及去除污染等优化处理。然后使用优化序列进行拼接组装和基因预测，对得到的基因进行物种和功能上的注释以及分类，包括NR，EggNOG，KEGG等。在上述分析的基础上，可以进行相似聚类，分组排序，差异比较等多方向的统计分析和探索，并对结果进行可视化展示，挖掘数据中的有效信息。

1)原始序列统计

在测序实验中采用多个样品平行混合测序，各样品中的序列均引入了一段标示其样本来源信息的Index标签序列。

根据Index序列区分各个样品的数据，提取出的数据以fastq格式保存。MP或PE文库的数据结果中，每个样品有fq1和fq2两个文件，里面为测序两端的reads，并且reads的顺序严格一致、相互对应。

2)在分析之前会先对原始测序数据进行质控，去除原始测序数据中包含的测序接头序列、低质量碱基、N(N表示不确定碱基信息)碱基及长度过短序列，以便得到高质量的质控数据(clean data)，保证后续分析结果的准确性。

使用软件：fastp(Vesion 0.19.5)。

具体步骤及顺序如下：

①使用软件fastp剪切序列3’端和5’端的adapter序列；

②使用软件fastp去除质量剪切后长度小于50bp、平均质量值低于20以及含N碱基的reads，保留高质量的pair-end reads和single-end reads；

③在进行数据分析之前，确认需要对样本进行宿主剔除(人或动物的粪便样本)，而且该宿主Homo_sapiens本身的基因组已被发表，则通过软件BWA将reads比对宿主DNA序列，并去除比对相似性高的污染reads。

3)物种分类学注释

NR数据库：非冗余蛋白质的氨基酸序列数据库，包含SwissProt、PIR(ProteinInformation Resource)、PRF(Protein Research Foundation)、PDB(Protein Data Bank)蛋白质数据库非冗余的数据以及从GenBank和RefSeq的CDS数据翻译来的蛋白质数据。

使用Diamond(Version 0.8.35)将非冗余基因集与NR数据库进行比对(比对参数设置期望值e-value为1e-5)，并通过NR库对应的分类学信息数据库获得物种注释，然后使用物种对应的基因丰度总和计算该物种的丰度，并在Domain(域)、Kingdom(界)、Phylum(门)、Class(纲)、Order(目)、Family(科)、Genus(属)、Species(种)各个分类学水平上统计物种在各个样品中的丰度，从而构建相应分类学水平上的丰度谱(abundance profile)。

4)随机森林分析

使用R包randomForest中的随机森林方法，构建随机森林诊断模型，10-fold交叉验证用来测试模型的准确性，获得最小分类错误率下的物种个数，最终以筛出1型糖尿病的微生物标志物，结果见图1，其横坐标代表重要性排名TOPn的物种(变量)个数，纵坐标表示在使用对应物种(变量)个数时，构建随机森林的AUC值，其中，实心点表示选取的AUC值最高的点。

如图1所示，当数量为35个菌时，随机森林AUC值最高，具有最佳的诊断效果，故选择此35个微生物为生物标志物。

图2为物种重要性点图。其中，横坐标为重要性衡量标准，纵坐标为按重要性排序后的上述35个关键微生物的名称。

实施例2筛选1型糖尿病的关键差异代谢物

2.1粪便样本

(1)从-80℃冰箱中取出样品(1型糖尿病人的粪便和健康人的粪便)，放在冰上解冻，称量样本50mg；

(2)加入500uL的-20℃预冷的70％的甲醇水(含1ug/mL的2-氯苯丙氨酸作为内标)；

(3)称量好的样本涡旋三分钟，冰水浴中超声10min，取出样本，涡旋1min；

(4)在4℃，12000r/min下离心10min；

(5)吸取上清液到对应进样瓶中，用于LC-MS/MS分析。

2.2色谱质谱采集条件

数据采集仪器系统主要包括超高效液相色谱(Ultra Performance LiquidChromatography，UPLC)和串联质谱(Tandem mass spectrometry，MS/MS)。

1)色谱柱：Waters ACQUITY UPLC HSS T3 C₁₈ 1.8μm，2.1mm*100mm；

2)流动相：A相为超纯水(0.04％的乙酸)，B相为乙腈(0.04％的乙酸)；

3)洗脱梯度：0min水/乙腈(95:5V/V)，11.0min为5:95V/V，12.0min为5:95V/V，12.1min为95:5V/V，14.0min为95:5V/V；

4)流速0.4mL/min；柱温40℃；进样量2uL。

质谱条件主要包括：

电喷雾离子源(electrospray ionization，ESI)温度500℃，质谱电压5500V(positive),-4500V(negative)，离子源气体I(GS I)55psi，气体II(GS II)60psi，气帘气(curtain gas,CUR)25psi，碰撞诱导电离(collision-activated dissociation，CAD)参数设置为高。在三重四极杆(Qtrap)中，每个离子对是根据优化的去簇电压(declusteringpotential，DP)和碰撞能(collision energy，CE)进行扫描检测。

2.3代谢物定性与定量

建立靶向标品数据库MWDB(metware database)，根据检测物质的保留时间RT(Retention time)、子母离子对信息及二级谱数据进行定性分析。

代谢物定量是利用三重四极杆质谱的多反应监测模式(multiple reactionmonitoring，MRM)分析完成。

基于本地代谢数据库，对样本的代谢物进行了质谱定性定量分析。如图3所示，展示了样本中能够检测到的物质，不同颜色的色谱峰代表检测到的不同代谢物。MRM模式中，第一重四极杆首先筛选目标物质的前体离子(母离子)，排除掉其他物质对应的前体离子以初步排除干扰；前体离子在第二重四极杆中经碰撞诱导电离后被打碎，并依据物质自身的结构特征断裂形成一系列该物质特有的碎片离子，碎片离子再通过第三重四极杆过滤选择出一个典型的特征碎片离子，排除非目标离子的干扰，使定量更为精确，重复性更好。

在获得不同样本的液质下机数据后，对所有代谢物的提取离子色谱峰分别进行峰下面积积分，并对其中同一代谢物在不同标本中的色谱峰进行积分校正。

2.4差异代谢物筛选

根据代谢组学数据“高维、海量”的特点，本发明结合单变量统计分析和多元统计分析的方法，并根据数据特性从多角度分析，最终准确地挖掘差异代谢物。

单变量统计分析方法包括参数检验和非参数检验。多元统计分析方法包括主成分分析、偏最小二乘法判别分析等。

图4是根据OPLS-DA模型分析代谢组数据，绘制各分组的得分图，进一步展示各个分组之间的差异，表明本实验组(1型糖尿病患者)和对照组(健康对照组)粪便代谢物差异显著。

基于OPLS-DA结果，从获得的多变量分析OPLS-DA模型的变量重要性投影(variable importance in projection，VIP)，可以初步筛选出不同品种或组织间差异的代谢物。同时可以结合单变量分析的p-value或者差异倍数值(fold change)来进一步筛选出差异代谢物。若为无生物学重复样本比较，根据fold change值进行差异筛选。若有生物学重复，则采取将fold change和OPLS-DA模型的VIP值相结合的方法来筛选差异代谢物。

图5为OPLS-DA模型验证，横坐标表示模型准确率，纵坐标是模型分类效果出现的频数，即本模型对数据进行200次随机排列组合实验，若Q2的p＝0.02，说明在此次Permutation检测中共有4个随机分组模型的预测能力优于本OPLS-DA模型，若R2Y的p＝0.545，说明在此次Permutation检测中共有109个随机分组模型其对Y矩阵的解释率优于本OPLS-DA模型。一般情况下，p＜0.05时模型最佳。本实验P＜0.005，模型效果极佳。

图6为OPLS-DA的S-plot图，横坐标表示主成分与代谢物的协相关系数，纵坐标表示主成分与代谢物的相关系数，越靠近右上角和左下角的代谢物表示其差异越显著，红色的点表明这些代谢物的VIP值大于等于1，绿色的点表示这些代谢物的VIP值小于1。

差异代谢物筛选标准：

1、选取fold change≥2和fold change≤0.5的代谢物。代谢物在对照组和实验组中差异为2倍以上或0.5以下，则认为差异显著。

2、因为样品分组存在生物学重复，在上述的基础上，选取VIP≥1的代谢物。VIP值表示对应代谢物的组间差异在模型中各组样本分类判别中的影响强度，认为VIP≥1的代谢物则为差异显著。

基于上述方法，共找出26个显著差异代谢物，结果见下表：

实施例3筛选1型糖尿病的细菌和代谢物联合诊断的标志物

1.构建机器学习分类器：将测到35个关键差异微生物和26个关键差异代谢物丰度值作为输入数据，诊断结果作为目标结果(0：对照，1：患1型糖尿病疾病)，构建的分类器为随机森林。

通过对对象和变量进行抽样构建预测模型，即生成多个决策树，并依次对对象进行分类。最后将各决策树的分类结果汇总，所有预测类别中的众数类别即为随机森林所预测的该对象的类别，分类准确率提升。

本发明使用微生物群落研究中的微生物和代谢物的丰度数据，使用R包randomForest中的随机森林方法，通过代表性微生物和代谢物的丰度构建预测模型，即仅通过上述物质的丰度即可判断样本分类，目的是找到能够稳定区分两种环境的代表性组合(作为生物标志物)。

结果如图7所示，当18个变量时，随机森林AUC值最高，具有最佳的诊断效果，故以此18个菌和代谢物为生物标志物。

进一步，选择“Mean Decrease Accuracy”和“Mean Decrease Gini”随机森林模型中的两个重要指标来计算变量的相对重要程度。其中，“mean decrease accuracy”表示随机森林预测准确性的降低程度，该值越大表示该变量的重要性越大；“Mean DecreaseGini”计算每个变量对分类树每个节点上观测值的异质性的影响，从而比较变量的重要性，该值越大表示该变量的重要性越大。

如图8所示，最终筛选18个关键的微生物和代谢物组合，作为有效区分两种环境的生物标志物。

2.交叉验证选取模型：

对随机森林分类模型，使用10-fold交叉验证来测试模型的准确性，获得最小分类错误率下的物种个数，用来初步筛选重要物种(变量)。

根据计算得到的各物质重要性的值(“Mean Decrease Accuracy”)，由高往低排序后，通过执行重复5次的十折交叉验证，根据交叉验证曲线进行取舍。

10-fold交叉验证是将样本随机分成10份，取其中9份作为训练样本来训练模型，1份作为测试样本，进行模型验证，通过与实际结果比较，可用来评价模型的好坏。并尝试利用不同的训练集/验证集划分来对模型做多组不同的训练/验证，来应对单独测试结果过于片面以及训练数据不足的问题。

交叉验证曲线展示了模型误差与用于拟合的物质数量之间的关系。误差首先会随物质数量的增加而减少，开始时下降非常明显，但到了特定范围处，下降幅度将不再有显著变化，甚至有所增加。

最终，得到排名前面的变量，如下表所示：

Compounds	物质
		DL_Benzylsuccinic_acid	DL-苄基琥珀酸
Pterine	2-氨基-4-羟基蝶啶
		20-HETE	20-羟基-5Z,8Z,11Z,14Z-二十碳四烯酸
Glycochenodeoxycholic Acid	甘氨鹅脱氧胆酸
		Theobromine	可可碱
1,7-Dimethyluric Acid	1,7-二甲基尿酸
		(±)18-HEPE	(±)-18-羟基-5Z,8Z,11Z,14Z,16E-二十碳五烯酸
Anaerostipes hadrus	宠大真杆菌
		Blautia obeum	卵形布劳特氏菌
Roseburia inulinivorans	食葡糖罗斯拜瑞氏菌
		1,3-Dimethyluric Acid	1,3-二甲基尿酸
Bifidobacterium pseudocatenulatum	假小链双歧杆菌
		Coprococcus comes	伴生粪球菌
Blautia wexlerae	韦氏布劳特氏菌
		Eubacterium rectale	直肠真杆菌
Collinsella aerofaciens	产气柯林斯菌
		1,7-Dimethylxanthine	1,7-二甲基黄嘌呤
unclassified Bifidobacterium	未分类的双歧杆菌属
		Roseburia_sp._CAG18	罗氏菌
N1_Acetylspermine	N1-乙酰精胺
		3_7_Dimethyluric_Acid	3,7-二甲基尿酸
Glycoursodeoxycholic_Acid	甘氨熊脱氧胆酸
		Bifidobacterium_adolescentis	青春双歧杆菌
Blautia_sp._CAG237	布劳特氏菌

本发明选择重要性排名前面的变量，将上表中前18个物质确定为关键的微生物和代谢物组合。

3.绘制受试者工作特征曲线：受试者工作特征曲线(receiver operatingcharacteristic curve，简称ROC曲线)是以真阳性率(敏感性)为纵坐标，假阳性率(1-特异性)为横坐标绘制的曲线，AUC值是ROC曲线下面的面积，常用其来评判一个二值分类器的优劣。

基于R语言中ROCR包绘制ROC曲线，如图9所示，本发明在1型糖尿病人和健康人发现队列中最终高效筛选出包括DL-苄基琥珀酸、2-氨基-4-羟基蝶啶、宠大真杆菌、卵形布劳特氏菌等在内的18种预测标志物，并通过绘制ROC曲线分析，在T1D发现队列中AUC值为0.976，说明该分类器分类效果极好，诊断价值极高。

在T1D验证队列，再次进行宏基因深度测序和代谢组学检测，分别得到差异菌属的细菌和差异代谢物的丰度含量，并进一步验证18种联合生物标志物的诊断效能，AUC值为0.809，如图9所示，说明该18种生物标志物诊断价值极高，可用于对1型糖尿病患病风险进行预警，作为协助诊断，以及药物作用靶点研究、精准用药、发病机理的研究等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.可作为1型糖尿病生物标志物的肠道细菌和粪便代谢物，其特征在于，所述生物标志物包括

DL-苄基琥珀酸、

2-氨基-4-羟基蝶啶、

20-羟基-5Z,8Z,11Z,14Z-二十碳四烯酸、

甘氨鹅脱氧胆酸、

可可碱、

1,7-二甲基尿酸、

(±)-18-羟基-5Z,8Z,11Z,14Z,16E-二十碳五烯酸、

宠大真杆菌(Anaerostipes hadrus)、

卵形布劳特氏菌(Blautia obeum)、

食葡糖罗斯拜瑞氏菌(Roseburia inulinivorans)、

1,3-二甲基尿酸(1,3-Dimethyluric Acid)、

假小链双歧杆菌(Bifidobacterium pseudocatenulatum)、

伴生粪球菌(Coprococcus comes)、

韦氏布劳特氏菌(Blautia wexlerae)、

直肠真杆菌(Eubacterium rectale)、

产气柯林斯菌(Collinsella aerofaciens)、

1,7-二甲基黄嘌呤(1,7-Dimethylxanthine)、

未分类的双歧杆菌属(unclassified Bifidobacterium)中的至少一种。

2.权利要求1所述的可作为1型糖尿病生物标志物的肠道细菌和粪便代谢物在1型糖尿病早期预警中的应用。

3.权利要求1所述的可作为1型糖尿病生物标志物的肠道细菌和粪便代谢物在制备1型糖尿病诊断试剂方面的应用。

4.权利要求1所述的可作为1型糖尿病生物标志物的肠道细菌和粪便代谢物在制备治疗1型糖尿病药物方面的应用。

5.一种预测1型糖尿病风险的模型，其特征在于，所述模型的输入变量为权利要求1所述的可作为1型糖尿病生物标志物的肠道细菌和粪便代谢物的丰度。

6.一种试剂盒，其特征在于，所述试剂盒包括检测权利要求1所述的可作为1型糖尿病生物标志物的肠道细菌和粪便代谢物的试剂。

7.一种药物组合物，其特征在于，所述药物组合物中包含调节权利要求1所述的可作为1型糖尿病生物标志物的肠道细菌和粪便代谢物的相对含量，以实现降低1型糖尿病患病风险的药物。

8.一种预测1型糖尿病风险模型的构建方法，其特征在于，所述方法包括如下步骤：

(1)分别检测健康个体和1型糖尿病患者粪便中的微生物和代谢物的含量，所述微生物和代谢物的种类为权利要求1所述的可作为1型糖尿病生物标志物的肠道细菌和粪便代谢物，

9.根据权利要求8所述的预测1型糖尿病风险模型的构建方法，其特征在于，步骤(1)中，微生物含量的检测方法为宏基因组测序方法。

10.根据权利要求8所述的预测1型糖尿病风险模型的构建方法，其特征在于，步骤(1)中，代谢物含量的检测方法为液相色谱串联质谱代谢组学检测。