CN110097928A - 一种基于肠道菌群预测组织微量元素含量的预测方法和预测模型 - Google Patents

一种基于肠道菌群预测组织微量元素含量的预测方法和预测模型 Download PDF

Info

Publication number
CN110097928A
CN110097928A CN201910309446.5A CN201910309446A CN110097928A CN 110097928 A CN110097928 A CN 110097928A CN 201910309446 A CN201910309446 A CN 201910309446A CN 110097928 A CN110097928 A CN 110097928A
Authority
CN
China
Prior art keywords
data
prediction
faecal microbiota
model
prediction model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910309446.5A
Other languages
English (en)
Other versions
CN110097928B (zh
Inventor
谢黎炜
刘秉东
潘潇寒
刘志红
韩木兰
许国焕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Detection Center of Microbiology of Guangdong Institute of Microbiology
Original Assignee
Guangdong Detection Center of Microbiology of Guangdong Institute of Microbiology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Detection Center of Microbiology of Guangdong Institute of Microbiology filed Critical Guangdong Detection Center of Microbiology of Guangdong Institute of Microbiology
Priority to CN201910309446.5A priority Critical patent/CN110097928B/zh
Publication of CN110097928A publication Critical patent/CN110097928A/zh
Application granted granted Critical
Publication of CN110097928B publication Critical patent/CN110097928B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures

Landscapes

  • Chemical & Material Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明公开了一种基于肠道菌群预测组织微量元素含量的预测方法和预测模型。本发明基于粪便菌群种级别相对丰度的数据,利用随机森林模型结合交叉验证的方法,构建决策树来建立预测模型,并根据MDA值来判断各个菌种在预测模型的重要性,以此来筛选出决定分组的最关键菌种;基于粪便菌群种级别相对丰度的数据或筛选出的最关键菌种,利用LAS SO回归对样本各组织的铁含量进行预测,并建立回归模型,筛选出准确率最高的基于肠道菌群预测组织微量元素含量的预测模型。本发明无需穿刺或抽血,不会对受试者产生额外的伤害,导致不可避免的医疗事故。

Description

一种基于肠道菌群预测组织微量元素含量的预测方法和预测 模型
技术领域
本发明属于微生物领域,具体涉及一种基于肠道菌群预测组织微量元素含量的预测方法和预测模型。
背景技术
铁元素是生长,全身代谢和免疫反应所必需微量元素。铁也是大多数细菌生长和繁殖的关键元素,膳食铁除了一小部分被小肠吸收外,大部分的铁随着食糜进入结肠,影响肠道细菌的丰度和菌群多样性。低铁和高铁摄入都会导致肠道菌群稳态的失调,导致微生物多样性被破坏,扰乱宿主系统代谢和免疫平衡,包括局部病原体积聚、诱导炎症反应等,导致多种疾病如炎症性肠病、癌症的发生和发展。现有的检测系统铁含量的方法包括血清铁含量检测、肝脏穿刺检测铁含量等,这些方法直接涉及临床取样并且会对受试者产生额外的伤害,导致不可避免的医疗事故,因此,开发一种简便预测组织铁含量检测手段势在必行。
发明内容
本发明的目的是提供一种基于肠道菌群预测组织微量元素含量的预测方法,利用该方法可以利用肠道菌群相对含量的信息来预测组织铁含量。
本发明的基于肠道菌群预测组织微量元素含量的预测方法,其特征在于,包括以下步骤:
a、获取人或动物样本的粪便,获得粪便菌群丰度的数据(包含各分类级别的数据,例如门纲目科属种等各级别数据)作为数据矩阵,测定粪便相对应人或动物的各组织的铁含量数据作为数据矩阵;例如正常对照组、缺铁饮食组和高铁饮食组的粪便菌群丰度的数据和相对应的铁含量数据;
b、采用粪便菌群种级别相对丰度的数据,利用随机森林模型结合交叉验证的方法,构建决策树来建立预测模型,并根据MDA值来判断各个菌种在预测模型的重要性,以此来筛选出决定分组的最关键菌种;
c、采用粪便菌群种级别相对丰度的数据或步骤b筛选出的最关键菌种,利用LASSO回归对样本各组织的铁含量进行预测,并建立回归模型,筛选出准确率最高的基于肠道菌群预测组织微量元素含量的预测模型;
d、利用基于肠道菌群预测组织微量元素含量的预测模型,输入待预测样本粪便菌群丰度的数据,输出所预测的各组织微量元素含量数据。
所述的获得粪便菌群丰度的数据是通过以下方法获得的:
粪便菌群DNA提取和建库;对DNA进行测序,获得下机数据;对下机数据进行预处理,产生包含所有样本及OUT丰度的数据,即为粪便菌群丰度的数据。
所述的粪便菌群DNA提取和建库是粪便菌群16srDNA的获取。进一步优选是对菌群16 S rDNA的V3-V4区进行扩增,获取该段序列。
优选,所述的步骤a具体为:
获取人或动物样本的粪便,采用细菌通用引物338F-806R针对细菌16S rDNA的V3-V4 区进行扩增,所述的细菌通用引物338F-806R具体为:338F-5’-TCCCTACACGACGCTCTTCCGATCTACTCCTACGGGAGGCAGCA-3’;806R--5’-AGACGTGTGCTCTTCCGATCTGGACTACHVGGGTWTCTAAT-3’;扩增序列增加接头方便进行上机测序,接头如下:Forward: 5’-CAAGCAGAAGACGGCATACGAGATCCACTCCTGTGACTGGAGTTCAGACGTGTGCTC TTCCGATCT-3’;Reverse-5’-AATGATACGGCGACCACCGAGATCTACACTGAACCTTACACTCTTTCCCTACACGACGCTCTTCCGATCT-3’;再进行测序,获得下机数据;所有下机的原始双端序列文件采用FASTX-Tool kit工具进行修剪,得到的CLEAN_FASTQ文件按照Q 20进行质控,采用标准化流程进行分析;
所述的采用标准化流程进行分析流程如下:
(a)原始数据首先经过usearch61去除序列文件中的嵌合体;
(b)采用Uclust_ref算法,按照97%阈值将序列进行聚类;
(c)聚类的OTU先用pick_close_refernece_otus.py与Greengene数据库进行比对,无法比对上的序列再利用pick_de_nono_otus.py进行de novo拼接进一步比对;
(d)使用pick_rep_set.py获得代表性OTU序列,并与Greengene数据库比对进行注释;
(e)过滤掉在所有样本中总数目小于1的OTU;
(f)最终产生包含所有样本及OTU丰度的数据存储在BIOM文件中;
由此获得粪便菌群丰度的数据(包含各分类级别的数据,例如门纲目科属种等各级别数据)作为数据矩阵,测定粪便相对应人或动物的各组织的铁含量数据作为数据矩阵。
所述的步骤b具体为:采用粪便菌群种级别相对丰度的数据,利用随机森林模型结合交叉验证的方法,随机选取了若干个(优选不少于10个)随机数作为重复,对正常对照组、缺铁饮食组和高铁饮食组建模分析,并采用错误率与标准差之和的最小值为标准,选择截线(C ut-off),剔除噪音变量,构建决策树来建立预测模型,并根据MDA值来判断各个菌种在预测模型的重要性,确立最终的随机森林最优模型,以此来筛选出决定分组的最关键菌种。
所述的步骤c为:
采用粪便菌群种级别相对丰度的数据或步骤b筛选出的最关键菌种,利用LASSO回归对样本各组织的铁含量进行预测,并建立回归模型,LASSO回归的训练随着惩罚系数的逐渐增大,各个菌种的回归系数逐渐被压缩至0,在这个过程中,可以筛选出准确率最高的模型,并得到此时回归系数不为0的菌种,即预测模型的关键的菌种。
所述的各组织中的铁含量指的是肝脏中的铁含量。
本发明第二个目的是提供一种基于肠道菌群预测组织微量元素含量的预测模型,其特征在于,包括:
a、数据获取模块:用于获取待测样本粪便菌群丰度的数据;
b、组织铁含量预测模块:
基于粪便菌群种级别相对丰度的数据,利用随机森林模型结合交叉验证的方法,构建决策树来建立预测模型,并根据MDA值来判断各个菌种在预测模型的重要性,以此来筛选出决定分组的最关键菌种;基于粪便菌群种级别相对丰度的数据或筛选出的最关键菌种,利用LASSO回归对样本各组织的铁含量进行预测,并建立回归模型,筛选出准确率最高的基于肠道菌群预测组织微量元素含量的预测模型;
c、结果获取模块:通过基于肠道菌群预测组织微量元素含量的预测模型输入待测样本粪便菌群丰度的数据,获得待预测样本的组织铁含量。
本发明主要结合高通量测序和机器学习模型以及组织铁含量构建了一种预测模型,其能够有效的连接肠道菌群的相对丰度和肠道和肝脏的铁含量。
本发明的有益效果如下:
1、本发明利用粪便菌群的相对丰度和组织微量元素的含量数据搭建预测模型,本预测模型借助RDA数学模型,利用肠道菌群相对丰度信息和组织铁含量建立肠道菌群和铁含量的相关性(图1)。
2、本发明的预测模型,其中组织铁含量预测模块配有两个输入端口:粪便菌群高通量测序数据和组织微量元素含量;
3、本发明的预测模型,配备单一输入(菌群测序数据)和输出端口(预测的组织微量元素含量数据);(图2,图3分析的核心菌种信息用于构建预测模型以及其预测准确率)
4、本发明可构建人群和动物粪便菌群测序信息和组织微量元素信息的预测模型,模型构建完成后,输入新的个体粪便测序信息,输出预测的组织微量元素含量信息。无需穿刺或抽血,不会对受试者产生额外的伤害,导致不可避免的医疗事故。
附图说明
图1是利用肠道菌群相对丰度和组织铁含量建立的相关性模式图;
图2是基于随机森林模型的核心菌种发现和预测概率;
图3是基于LASSO回归模型和核心菌种的组织铁含量预测模型;
图4是冗余分析的原理示意图;
图5是随机森林的原理示意图;
图6是交叉验证的原理示意图。
具体实施方式
以下实施例是对本发明的进一步说明,而不是对本发明的限制。
实施例1:
本实施例的基于肠道菌群预测组织微量元素含量的预测方法和预测模型,包括以下步骤:
1、粪便菌群DNA提取和建库
以小鼠作为实验对象,分别使用正常饲料(Fe含量为33ppm)、缺铁饲料(Fe含量为3ppm)和高铁饲料(Fe含量为200ppm)进行饲喂,分别对应正常对照组,缺铁饮食组和高铁饮食组,处理完毕后,收集所有小鼠粪便样本,所有小鼠粪便样本均严格按照操作流程使用DNA专用提取试剂盒(DNA Extraction kit)提取。根据紫外可见分光光度计选取0.50ng样本DNA用于上游建库。
本实验采用两步建库法:
a)采用细菌通用引物338F-806R针对细菌16S rDNA的V3-V4区进行扩增。
338F TCCCTACACGACGCTCTTCCGATCTACTCCTACGGGAGGCAGCA
806R AGACGTGTGCTCTTCCGATCTGGACTACHVGGGTWTCTAAT
b)扩增序列增加接头方便进行上机测序。
2、测序平台
本发明菌群测序通过IlluminaHiSeq2500测序平台进行二代测序。
3、下机数据预处理
所有下机的原始双端序列文件采用FASTX-Tool kit工具进行修剪(Trim),得到的CLE AN_FASTQ文件按照Q20进行质控,采用Qiime 1.91标准化流程进行分析:
a)原始数据首先经过usearch61去除序列文件中的嵌合体;
b)采用Uclust_ref算法,按照97%阈值将序列进行聚类;
c)聚类的OTU先用pick_close_refernece_otus.py与Greengene数据库进行比对,无
法比对上的序列再利用pick_de_nono_otus.py进行de novo拼接进一步比对。
d)使用pick_rep_set.py获得代表性OTU序列,并与Greengene数据库比对进行注释
e)过滤掉在所有样本中总数目小于1的OTU
f)最终产生包含所有样本及OTU丰度的数据存储在BIOM(BiologicalObservation Matrix)文件中。
4、下游数据模型构建软件平台:R(3.5.1version),Ubuntu 16.04.4LTS,Python2.7.14, Python 3.6.1
5、组织铁含量测定
收集各小鼠粪便样本所对应个体的组织(例如粪便、小肠、肝脏),称重,按照每100mg组织加200μl去离子水比例混合,利用匀浆仪破碎组织,加入等体积酸溶液(1NHCl盐酸,1%TCA三氯乙酸),100℃金属浴煮1小时,16000×g离心十分钟,收集上清液,50μl 上清液与50μl铁检测溶液(1M菲洛嗪,1.5M醋酸钠和10%硫基乙酸)混合在96孔板内混合,37℃一小时,酶标仪可见光562nM读取光吸收度,此外,通过柠檬酸铁标准品建立铁含量的标准曲线,计算组织实际铁含量。
并收集小鼠的体重数据和血红蛋白含量的数据。
6、冗余分析(Redundancy analysis,RDA)
冗余分析(Redundancy analysis,RDA),作为多元变量统计分析的一种排序方法,是由对应分析(correspondence analysis,CA)发展而来,可以将原始数据矩阵与解释矩阵充分结合起来,本质上属于原始数据矩阵与解释矩阵之间的多元多重性回归的拟合值矩阵的PCA分析。P.Legendre和Loic Legendre于1998年在Numerical Ecology,Volume 24对此作了详细的推导阐释3。本研究选取样本门水平相对丰度的数据矩阵与小鼠重量和粪便、小肠、肝脏的铁含量及血红蛋白的数据,使用‘permute’、‘lattice’和‘vegan’包进行分析:首先采用去趋势对应分析4(Detrended correspondence analysis,DCA)判断每个排序轴的梯度长度均小于3. 0,然后标准化所有数据去量纲,采用RDA进行分析,并根据蒙特卡洛置换检验5(Monte Carlo permutation test)的方法(Number of permutations=9999),检验各解释变量的显著性(图4),结果如图1所示,从图1可以看出,与铁相关的指标能够解释26.72%样本肠道菌群的变异,尤其是血红蛋白(p=0.004),红细胞比容(p=0.004),小肠铁含量(p=0.006)和粪便铁含量(p=0.023)。以上证明了确实是由铁影响了样本肠道菌群的变化。
7、随机森林(Random Forests)构建筛选重要菌种
随机森林模型是目前公认最好的有监督机器学习的一种,通过模拟和迭代创建分类树,在机器学习领域拥有举足轻重的地位。为了解决1982年Hopfield提出的人工神经网络(Arti ficial Neural Network)运算资源不足的问题,1984年Breiman发明了分类和回归树(Classif ication and Regression Tree),也就是后来被称为的CART算法,通过反复对数据进行分类和回归,使得原有的计算量大大降低。2001年Breiman和Cutler吸取了贝尔实验室Ho的经验,批判了当时的主流统计方法,阐述了传统模型如logistic回归的鲁棒性低下的问题,将决策树算法结合在一起创造了具有划时代意义的随机森林模型。
类似于传统logistic回归,随机森林模型也通过自变量X对应变量Y进行有效的解释,即在构建分类树的时候,模型会采用有放回随机抽样的方法(自助法Bootstrap),选取样本,然后随机选择自变量和应变量,按照平均准确率减少不纯度(Mean_decrease_impurity)和基尼不纯度(Gini impurity)进行数据分裂创建不同的分类树,同时确保每颗树的枝叶能够得到最大的生长。最终经过所有分类树共同投票,确定分类结果,见图5。
从模型类型上来说,随机森林属于自举汇聚法(Bootstrap aggregating)(Breiman(1996). Bagging predictors".Machine Learning),由于利用了Bagging技术,在每轮随机抽样的过程中,约有36.8%的样本将不会被抽取,这就意味着有很好的抗过拟合能力。证明如下:
设当有n个样本进行Bootstrap抽样n次,即意味着某个样本被一轮抽中的概率为不被选中的概率为重复进行这个独立随机抽样的过程n次,那么某个样本没有被抽中的概率P为
当n的数目极大时,
但是,通常在进行数据分析的时候,样本量并不总会非常大,因此为了保证机器学习模型的泛化能力和鲁棒性,这就要求我们采用更严格的方法去评估分类器。1993年Seymour在 Holdout验证基础上提出可以使用交叉验证(Cross-validation)的形式来进行训练(Geisser, Seymour(1993).Predictive Inference.New York,NY:Chapman andHall.ISBN 0-412-0347 1-9.),即随机将训练集分割成K个子集合,其中一个子集被保留为测试集(Testset),余下的 K–1个子集则成为训练集(Trainset)进行训练。然后循环这个过程K次,直到所有的子集都得到训练和测试,最终平均K次的结果为该模型的交叉验证结果,见图6。
2004年Svetnik在交叉验证的基础上,根据奥卡姆剃刀的原则,提出可以利用递归剔除噪音变量的方法,对随机森林模型进一步优化。因此发明基于以上方法,利用‘randomForest’,并按照交叉验证的方法,随机选取了10个随机数作为重复,对正常对照组、缺铁饮食组和高铁饮食组建模分析。并采用错误率与标准差之和的最小值为标准,选择截线(Cut-off),剔除噪音变量,确立最终的随机森林最优模型。
本次研究采用的是小鼠肠道菌群种级别相对丰度的数据,利用随机森林模型结合交叉验证的方法,共创建超过700万棵决策树来建立预测模型,并根据MDA值来判断各个菌种在预测模型的重要性,以此来筛选出决定分组的最关键菌种。如图2(A-C)可以看见随着自变量逐渐减少,5交叉验证的错误率随着噪音减少,即模型的错误率得到控制,当真正重要的变量被剔除后,错误率将剧烈增加,即我们可以找到真正的关键变量并构成了最优化的随机森林模型,并筛选出最佳的5个关键菌种作为biomarker,并且这些关键菌种与前文所测的与铁相关的数据高度相关。如图2(D-F)我们基于这5个关键菌种重新构建了最优的随机森林预测模型,可以看出这个模型能够非常精确的区分正常对照组、低铁组和高铁组。以上都证明了,我们筛选出来在不同铁含量饲料影响下,变化的关键菌种。
8、Lasso回归预测模型建立
一直以来,机器学习模型一直为过拟合(overfitting)的问题的所苦恼,即在学习过程中训练过当,以至于模型泛化能力下降。尤其是是回归问题,统计学通常采用描述函数与目标函数逼近的吻合程度来描述拟合的好坏,这就产生了大量的过拟合问题。同时,在回归过程中解释变量之间存在的相互关系,即多重共线性(Multicollinearity)也会使整个模型出现估计失真的问题。1960年很多研究者曾提出将将解释变量逐个引入模型,每引入一个新变量时考虑是否剔除已选变量,直至不再引入新变量。但在实际操作过程中,并不一定能得到最优解。因此,1996年Robert Tibshirani首次提出通过在最小二乘的基础上增加一个L1惩罚函数(L1penalization),使得解释变量的回归系数逐渐压缩至0,来收敛出一个精简模型,也就是现在被称为的LASSO回归。截止到2019年3月7日,该模型文章在GoogleScholar查询被引用达到27222次。LASSO回归的代价函数为:
其中,w是长度为n的向量,不包括截距项θ0,θ为长度n+1的向量,包括截距项的系数θ0, m为样本数,n为特征数。||w||1表示参数w的L1范数。LASSO回归有效的解决了解释变量多重共线性问题,并利用惩罚系数压缩回归系数实现了解释变量的缩减(shrinkage),起到了奥卡姆的剃刀(Occam's Razor)作用,进一步加强了模型的鲁棒性和泛化能力。
本次研究采用全部小鼠肠道菌群种级别相对丰度的数据(包括步骤7筛选的决定分组的最关键菌种),利用LASSO回归对小鼠各组织的铁含量进行预测,并建立回归模型。因为在LASSO回归的训练随着惩罚系数的逐渐增大,各个菌种的回归系数逐渐被压缩至0。在这个过程中,可以筛选出准确率最高的模型(即获得基于肠道菌群预测组织微量元素含量的预测模型),并得到此时回归系数不为0的菌种,即预测模型的关键的菌种。具体结果如图3 所示,从图3可以看出,经过lasso模型的训练,我们能够依据肠道菌群准确预测出小肠和肝脏组织的铁含量。

Claims (9)

1.一种基于肠道菌群预测组织微量元素含量的预测方法,其特征在于,包括以下步骤:
a、获取人或动物样本的粪便,获得粪便菌群丰度的数据作为数据矩阵,测定粪便相对应人或动物的各组织或其中的铁含量数据作为数据矩阵;
b、采用粪便菌群种级别相对丰度的数据,利用随机森林模型结合交叉验证的方法,构建决策树来建立预测模型,并根据MDA值来判断各个菌种在预测模型的重要性,以此来筛选出决定分组的最关键菌种;
c、采用粪便菌群种级别相对丰度的数据或步骤b筛选出的最关键菌种,利用LASSO回归对样本各组织的铁含量进行预测,并建立回归模型,筛选出准确率最高的基于肠道菌群预测组织微量元素含量的预测模型;
d、利用基于肠道菌群预测组织微量元素含量的预测模型,输入待预测样本粪便菌群丰度的数据,输出所预测的各组织微量元素含量数据。
2.根据权利要求1所述的预测方法,其特征在于,所述的获得粪便菌群丰度的数据是通过以下方法获得的:
粪便菌群DNA提取和建库;对DNA进行测序,获得下机数据;对下机数据进行预处理,产生包含所有样本及OUT丰度的数据,即为粪便菌群丰度的数据。
3.根据权利要求2所述的预测方法,其特征在于,所述的粪便菌群DNA提取和建库是粪便菌群16srDNA的获取。
4.根据权利要求3所述的预测方法,其特征在于,所述的粪便菌群DNA提取和建库是对粪便菌群16S rDNA的V3-V4区进行扩增,获取该段序列。
5.根据权利要求1所述的预测方法,其特征在于,所述的步骤a具体为:
获取人或动物样本的粪便,采用细菌通用引物338F-806R针对细菌16S rDNA的V3-V4区进行扩增,所述的细菌通用引物338F-806R具体为:338F-5’-TCCCTACACGACGCTCTTCCGATCTACTCCTACGGGAGGCAGCA-3’;806R--5’-AGACGTGTGCTCTTCCGATCTGGACTACHVGGGTWTCTAAT-3’;扩增序列增加接头方便进行上机测序,接头如下:Forward:5’-CAAGCAGAAGACGGCATACGAGATCCACTCCTGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT-3’;Reverse-5’-AATGATACGGCGACCACCGAGATCTACACTGAACCTTACACTCTTTCCCTACACGACGCTCTTCCGATCT-3’;再进行测序,获得下机数据;所有下机的原始双端序列文件采用FASTX-Tool kit工具进行修剪,得到的CLEAN_FASTQ文件按照Q20进行质控,采用标准化流程进行分析;
所述的采用标准化流程进行分析流程如下:
(a)原始数据首先经过usearch61去除序列文件中的嵌合体;
(b)采用Uclust_ref算法,按照97%阈值将序列进行聚类;
(c)聚类的OTU先用pick_close_refernece_otus.py与Greengene数据库进行比对,无法比对上的序列再利用pick_de_nono_otus.py进行de novo拼接进一步比对;
(d)使用pick_rep_set.py获得代表性OTU序列,并与Greengene数据库比对进行注释;
(e)过滤掉在所有样本中总数目小于1的OTU;
(f)最终产生包含所有样本及OTU丰度的数据存储在BIOM文件中;
由此获得粪便菌群丰度的数据作为数据矩阵,测定粪便相对应人或动物的各组织的铁含量数据作为数据矩阵。
6.根据权利要求1所述的预测方法,其特征在于,所述的步骤b具体为:采用粪便菌群种级别相对丰度的数据,利用随机森林模型结合交叉验证的方法,随机选取了若干个随机数作为重复,对正常对照组、缺铁饮食组和高铁饮食组建模分析,并采用错误率与标准差之和的最小值为标准,选择截线,剔除噪音变量,构建决策树来建立预测模型,并根据MDA值来判断各个菌种在预测模型的重要性,确立最终的随机森林最优模型,以此来筛选出决定分组的最关键菌种。
7.根据权利要求1所述的预测方法,其特征在于,所述的步骤c为:
采用粪便菌群种级别相对丰度的数据或步骤b筛选出的最关键菌种,利用LASSO回归对样本各组织的铁含量进行预测,并建立回归模型,LASSO回归的训练随着惩罚系数的逐渐增大,各个菌种的回归系数逐渐被压缩至0,在这个过程中,可以筛选出准确率最高的模型,并得到此时回归系数不为0的菌种,即预测模型的关键的菌种。
8.根据权利要求1所述的预测方法,其特征在于,所述的相对应人或动物的各组织或其中的铁含量指的是血红蛋白、红细胞比容、小肠铁含量或/和粪便铁含量。
9.一种基于肠道菌群预测组织微量元素含量的预测模型,其特征在于,包括:
a、数据获取模块:用于获取待测样本粪便菌群丰度的数据;
b、组织铁含量预测模块:
基于粪便菌群种级别相对丰度的数据,利用随机森林模型结合交叉验证的方法,构建决策树来建立预测模型,并根据MDA值来判断各个菌种在预测模型的重要性,以此来筛选出决定分组的最关键菌种;基于粪便菌群种级别相对丰度的数据或筛选出的最关键菌种,利用LASSO回归对样本各组织的铁含量进行预测,并建立回归模型,筛选出准确率最高的基于肠道菌群预测组织微量元素含量的预测模型;
c、结果获取模块:通过基于肠道菌群预测组织微量元素含量的预测模型输入待测样本粪便菌群丰度的数据,获得待预测样本的组织铁含量。
CN201910309446.5A 2019-04-17 2019-04-17 一种基于肠道菌群预测组织微量元素含量的预测方法和预测模型 Active CN110097928B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910309446.5A CN110097928B (zh) 2019-04-17 2019-04-17 一种基于肠道菌群预测组织微量元素含量的预测方法和预测模型

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910309446.5A CN110097928B (zh) 2019-04-17 2019-04-17 一种基于肠道菌群预测组织微量元素含量的预测方法和预测模型

Publications (2)

Publication Number Publication Date
CN110097928A true CN110097928A (zh) 2019-08-06
CN110097928B CN110097928B (zh) 2022-03-11

Family

ID=67445121

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910309446.5A Active CN110097928B (zh) 2019-04-17 2019-04-17 一种基于肠道菌群预测组织微量元素含量的预测方法和预测模型

Country Status (1)

Country Link
CN (1) CN110097928B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111462819A (zh) * 2020-02-26 2020-07-28 康美华大基因技术有限公司 肠道微生物检测数据分析方法、自动化解读系统及介质
CN112735530A (zh) * 2021-01-22 2021-04-30 中国科学院北京基因组研究所(国家生物信息中心) 一种基于菌群结构进行样品溯源的方法
CN115261271A (zh) * 2022-08-01 2022-11-01 厦门承葛生物科技有限公司 一种肠道菌群的高通量分离培养与筛选方法
CN116344040A (zh) * 2023-05-22 2023-06-27 北京卡尤迪生物科技股份有限公司 用于肠道菌群检测的集成模型的构建方法及其检测装置
CN116580772A (zh) * 2022-10-19 2023-08-11 佛山科学技术学院 一种预测猪平均日增重的方法
CN117594243A (zh) * 2023-10-13 2024-02-23 太原理工大学 基于跨模态视图关联发现网络的卵巢癌预后预测方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001002600A2 (en) * 1999-07-06 2001-01-11 General Atomics Detection of analytes using attenuated enzymes
US20100152059A1 (en) * 2008-11-20 2010-06-17 Zeichner Steven L Method for screening biomolecules
CN104726597A (zh) * 2015-03-27 2015-06-24 北京市心肺血管疾病研究所 用于预测儿童青春期持续肥胖的试剂盒及其应用
CN105046094A (zh) * 2015-08-26 2015-11-11 深圳谱元科技有限公司 肠道菌群的检测系统及其方法和动态式数据库
CN105796606A (zh) * 2014-12-29 2016-07-27 广州海思医疗科技有限公司 用于降低胎儿先天性心脏病风险的益生菌组合物及其检测方法
CN106962933A (zh) * 2016-10-09 2017-07-21 浙江芸麒龙祥生物技术有限公司 香水莲花提取物及其组合物在预防肥胖、改善肠道菌群方面的用途
CN108345768A (zh) * 2017-01-20 2018-07-31 深圳华大生命科学研究院 一种确定婴幼儿肠道菌群成熟度的方法和标志物组合
CN108841974A (zh) * 2018-06-28 2018-11-20 北京水母科技有限公司 提取粪便样本16s rRNA在婴幼儿肠道微生态成熟度监测的方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2001002600A2 (en) * 1999-07-06 2001-01-11 General Atomics Detection of analytes using attenuated enzymes
US20100152059A1 (en) * 2008-11-20 2010-06-17 Zeichner Steven L Method for screening biomolecules
CN105796606A (zh) * 2014-12-29 2016-07-27 广州海思医疗科技有限公司 用于降低胎儿先天性心脏病风险的益生菌组合物及其检测方法
CN104726597A (zh) * 2015-03-27 2015-06-24 北京市心肺血管疾病研究所 用于预测儿童青春期持续肥胖的试剂盒及其应用
CN105046094A (zh) * 2015-08-26 2015-11-11 深圳谱元科技有限公司 肠道菌群的检测系统及其方法和动态式数据库
CN106962933A (zh) * 2016-10-09 2017-07-21 浙江芸麒龙祥生物技术有限公司 香水莲花提取物及其组合物在预防肥胖、改善肠道菌群方面的用途
CN108345768A (zh) * 2017-01-20 2018-07-31 深圳华大生命科学研究院 一种确定婴幼儿肠道菌群成熟度的方法和标志物组合
CN108841974A (zh) * 2018-06-28 2018-11-20 北京水母科技有限公司 提取粪便样本16s rRNA在婴幼儿肠道微生态成熟度监测的方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
吴尚灵 等: "喂养方式对婴儿大便性状及大便成分的影响", 《中国妇幼保健》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111462819A (zh) * 2020-02-26 2020-07-28 康美华大基因技术有限公司 肠道微生物检测数据分析方法、自动化解读系统及介质
CN112735530A (zh) * 2021-01-22 2021-04-30 中国科学院北京基因组研究所(国家生物信息中心) 一种基于菌群结构进行样品溯源的方法
CN115261271A (zh) * 2022-08-01 2022-11-01 厦门承葛生物科技有限公司 一种肠道菌群的高通量分离培养与筛选方法
CN115261271B (zh) * 2022-08-01 2023-12-12 厦门承葛生物科技有限公司 一种肠道菌群的高通量分离培养与筛选方法
CN116580772A (zh) * 2022-10-19 2023-08-11 佛山科学技术学院 一种预测猪平均日增重的方法
CN116580772B (zh) * 2022-10-19 2024-01-30 佛山科学技术学院 一种预测猪平均日增重的方法
CN116344040A (zh) * 2023-05-22 2023-06-27 北京卡尤迪生物科技股份有限公司 用于肠道菌群检测的集成模型的构建方法及其检测装置
CN116344040B (zh) * 2023-05-22 2023-09-22 北京卡尤迪生物科技股份有限公司 用于肠道菌群检测的集成模型的构建方法及其检测装置
CN117594243A (zh) * 2023-10-13 2024-02-23 太原理工大学 基于跨模态视图关联发现网络的卵巢癌预后预测方法
CN117594243B (zh) * 2023-10-13 2024-05-14 太原理工大学 基于跨模态视图关联发现网络的卵巢癌预后预测方法

Also Published As

Publication number Publication date
CN110097928B (zh) 2022-03-11

Similar Documents

Publication Publication Date Title
CN110097928A (zh) 一种基于肠道菌群预测组织微量元素含量的预测方法和预测模型
Osman et al. An effective of ensemble boosting learning method for breast cancer virtual screening using neural network model
Paul et al. Genetic algorithm based fuzzy decision support system for the diagnosis of heart disease
CN107403072A (zh) 一种基于机器学习的2型糖尿病预测预警方法
CN110659420B (zh) 一种基于深度神经网络蒙特卡洛搜索树的个性化配餐方法
Choubey et al. GA_J48graft DT: a hybrid intelligent system for diabetes disease diagnosis
Ahmad et al. Genetic algorithm-artificial neural network (GA-ANN) hybrid intelligence for cancer diagnosis
CN114783524B (zh) 基于自适应重采样深度编码器网络的通路异常检测系统
CN111243736A (zh) 一种生存风险评估方法及系统
CN104966106B (zh) 一种基于支持向量机的生物年龄分步预测方法
CN112215259B (zh) 基因选择方法和装置
CN117272025A (zh) 基于模糊竞争粒子群多目标优化的高维数据特征选择方法
CN115985503B (zh) 基于集成学习的癌症预测系统
Markowska-Kaczmar et al. Discovering the mysteries of neural networks
CN111709440B (zh) 基于FSA-Choquet模糊积分的特征选择方法
Reddy et al. AdaBoost for Parkinson's disease detection using robust scaler and SFS from acoustic features
Matt et al. A nested genetic algorithm for explaining classification data sets with decision rules
Markowska-Kaczmar et al. Fuzzy logic and evolutionary algorithm—two techniques in rule extraction from neural networks
Hengpraprohm et al. A genetic programming ensemble approach to cancer microarray data classification
Chatzimichail et al. An evolutionary two-objective genetic algorithm for asthma prediction
Kulkarni et al. A neural network perspective on the syntactic-semantic association between mass and count nouns
Sasikala et al. Curability prediction model for anemia using machine learning
Srivathsa Knowledge discovery in medical mining by using genetic algorithms and artificial neural networks
Ramesh et al. High blood pressure predictor using binary classification algorithm
Hamdan et al. A framework for automatic modelling of survival using fuzzy inference

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 510070 No.56 courtyard, No.100 Xianlie Middle Road, Yuexiu District, Guangzhou City, Guangdong Province

Applicant after: Institute of Microbiology, Guangdong Academy of Sciences

Address before: 510070 No.56 courtyard, No.100 Xianlie Middle Road, Yuexiu District, Guangzhou City, Guangdong Province

Applicant before: GUANGDONG INSTITUTE OF MICROBIOLOGY (GUANGDONG DETECTION CENTER OF MICROBIOLOGY)

GR01 Patent grant
GR01 Patent grant