CN115527608A - 一种肠道年龄预测方法和系统 - Google Patents
一种肠道年龄预测方法和系统 Download PDFInfo
- Publication number
- CN115527608A CN115527608A CN202211390373.5A CN202211390373A CN115527608A CN 115527608 A CN115527608 A CN 115527608A CN 202211390373 A CN202211390373 A CN 202211390373A CN 115527608 A CN115527608 A CN 115527608A
- Authority
- CN
- China
- Prior art keywords
- intestinal
- age
- flora
- data
- characteristic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000000968 intestinal effect Effects 0.000 title claims abstract description 374
- 238000000034 method Methods 0.000 title claims abstract description 57
- 241000894006 Bacteria Species 0.000 claims abstract description 102
- 239000003550 marker Substances 0.000 claims abstract description 72
- 238000012216 screening Methods 0.000 claims abstract description 44
- 238000013145 classification model Methods 0.000 claims description 66
- 238000013135 deep learning Methods 0.000 claims description 61
- 210000001035 gastrointestinal tract Anatomy 0.000 claims description 32
- 238000012163 sequencing technique Methods 0.000 claims description 22
- 238000012549 training Methods 0.000 claims description 17
- 108090000623 proteins and genes Proteins 0.000 claims description 13
- 238000010801 machine learning Methods 0.000 claims description 10
- 238000007781 pre-processing Methods 0.000 claims description 10
- 230000008569 process Effects 0.000 claims description 10
- 210000000936 intestine Anatomy 0.000 claims description 4
- 230000036541 health Effects 0.000 abstract description 9
- 230000008901 benefit Effects 0.000 abstract description 7
- 230000006870 function Effects 0.000 description 11
- 230000004913 activation Effects 0.000 description 10
- 244000005700 microbiome Species 0.000 description 8
- 238000012360 testing method Methods 0.000 description 7
- 230000032683 aging Effects 0.000 description 6
- 238000001914 filtration Methods 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 5
- 230000008859 change Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 239000013598 vector Substances 0.000 description 5
- 238000012795 verification Methods 0.000 description 5
- 238000004422 calculation algorithm Methods 0.000 description 4
- 201000010099 disease Diseases 0.000 description 4
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 4
- 238000002372 labelling Methods 0.000 description 4
- 238000003062 neural network model Methods 0.000 description 4
- 241000193403 Clostridium Species 0.000 description 3
- 241000605861 Prevotella Species 0.000 description 3
- 241000192031 Ruminococcus Species 0.000 description 3
- 239000011159 matrix material Substances 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 2
- 241000606125 Bacteroides Species 0.000 description 2
- 241000186000 Bifidobacterium Species 0.000 description 2
- 241000605716 Desulfovibrio Species 0.000 description 2
- 241000186660 Lactobacillus Species 0.000 description 2
- 241001467578 Microbacterium Species 0.000 description 2
- 241000192041 Micrococcus Species 0.000 description 2
- 241001057811 Paracoccus <mealybug> Species 0.000 description 2
- 241000605947 Roseburia Species 0.000 description 2
- 241000194017 Streptococcus Species 0.000 description 2
- 241001148134 Veillonella Species 0.000 description 2
- 239000000090 biomarker Substances 0.000 description 2
- 230000001419 dependent effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 229940039696 lactobacillus Drugs 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 210000004767 rumen Anatomy 0.000 description 2
- 241000702460 Akkermansia Species 0.000 description 1
- 241000606126 Bacteroidaceae Species 0.000 description 1
- 241001202853 Blautia Species 0.000 description 1
- 241001478240 Coccus Species 0.000 description 1
- 241001143779 Dorea Species 0.000 description 1
- 241001251023 Dorema Species 0.000 description 1
- 241000194033 Enterococcus Species 0.000 description 1
- 241001608234 Faecalibacterium Species 0.000 description 1
- 241000736262 Microbiota Species 0.000 description 1
- 241000192497 Oscillatoria Species 0.000 description 1
- 241000692844 Prevotellaceae Species 0.000 description 1
- 241000607142 Salmonella Species 0.000 description 1
- 241000123710 Sutterella Species 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000008049 biological aging Effects 0.000 description 1
- 238000010224 classification analysis Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 244000005709 gut microbiome Species 0.000 description 1
- 230000003284 homeostatic effect Effects 0.000 description 1
- 230000003340 mental effect Effects 0.000 description 1
- 230000037353 metabolic pathway Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 210000000056 organ Anatomy 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/30—Detection of binding sites or motifs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Business, Economics & Management (AREA)
- Economics (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Strategic Management (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Human Resources & Organizations (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Quality & Reliability (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Development Economics (AREA)
- Artificial Intelligence (AREA)
- Game Theory and Decision Science (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Computational Linguistics (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Data Mining & Analysis (AREA)
- Genetics & Genomics (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Medical Informatics (AREA)
- Spectroscopy & Molecular Physics (AREA)
Abstract
本发明涉及一种肠道年龄预测方法和系统。本发明通过采用肠道年龄标志菌筛选模型,基于不同年龄的肠道菌群数据能够得到肠道年龄标志菌的特征,然后,采用肠道年龄预测模型根据这一肠道年龄标志菌的特征能够得到肠道年龄预测值,不仅能够提高肠道年龄预测的准确率,该方法还具有特征性好,普适性强等优点,而且肠道年龄可反映人体生理健康状态,在大健康领域具有较强的应用价值。
Description
技术领域
本发明涉及菌群处理检测技术领域,特别是涉及一种肠道年龄预测方法和系统。
背景技术
人类肠道微生物组是一个复杂的生态系统。大量文献指出,肠道微生物组在人类健康或衰老过程中起着关键的稳态作用。近年来,新一代测序技术及多组学研究发现,微生物组动态变化与宿主生物年龄具有显著相关性,尤其是瘤胃菌科(Ruminococcaceae)、拟杆菌科(Bacteroidaceae)和普雷沃式菌科(Prevotellaceae)等核心功能菌群。由此可见,肠道微生物组的结构变化是反映衰老过程的潜在生物标志,通过监测这种动态变化或可实现对人体健康水平的评估及疾病早期预警。
众所周知,肠道微生物组的测序数据庞大而复杂,如何从海量数据中找到普适性的规律并提取关键、有效的信息至关重要。此时,机器学习算法使微生物组的大数据分析进入了一个新阶段,特别是深度学习方法。已有研究基于分类分析及深度学习技术,开发并验证了“微生物衰老时钟”,实现以微生物群落分类学特征预测宿主生物年龄;并且,通过评估特定分类菌群在衰老中的重要性,有助于早期干预。
目前,基于肠道菌群特征的年龄预测模型中样本特征、筛选条件及算法各不相同,如,中国专利CN114574542A中构建一种瘤胃球菌-生物年龄拟合回归模型,证实瘤胃球菌微生物群可用于生物年龄或生物老化评估;中国专利CN111128378A中选取婴幼儿的肠道菌群数据,基于线性判别和随机森林构建肠道菌群发育年龄预测模型,但易过拟合,仅在婴幼儿群体间具有参考意义;中国专利CN113574604A基于受试者的微生物分类学剖析,采用一个或多个深度神经网络模型来预测受试者年龄;中国专利CN114093515A则以不同年龄的成年人肠道菌群数据为研究对象,基于肠道菌群物种及其代谢通路的相对丰度信息进行特征选择,构建集成学习的年龄预测方法。虽然大多专利致力于构建最佳预测模型,并对机器学习、深度学习算法进行改进,但精度优化效率仍达不到预期,适用范围也有一定局限性。
发明内容
为解决现有技术存在的上述问题,本发明提供了一种肠道年龄预测方法。
为实现上述目的,本发明提供了如下方案:
一种肠道年龄预测方法,包括:
获取待测样本;所述待测样本包括:基因测序数据和年龄信息;
对所述待测样本进行预处理得到不同年龄的肠道菌群数据;所述肠道菌群数据包括:肠道菌群特征和肠道菌群相对丰度;
将所述不同年龄的肠道菌群数据输入至肠道年龄标志菌筛选模型得到肠道年龄标志菌的特征;所述肠道年龄标志菌筛选模型为基于训练好的深度学习分类模型构建的筛选模型;
将所述肠道年龄标志菌的特征输入至肠道年龄预测模型得到肠道年龄预测值;所述肠道年龄预测模型为训练好的深度学习回归模型。
优先地,所述对所述待测样本进行预处理得到肠道菌群数据,具体包括:
获取所述待测样本中不同年龄的属水平肠道菌群,并计算所述属水平肠道菌群的相对丰度;所述属水平肠道菌群的相对丰度为所述属水平肠道菌群的绝对丰度占所述待测样本中所有肠道菌群的绝对丰度的比例;绝对丰度是指肠道菌群的数量;
筛除所述属水平肠道菌群中不符合相对丰度阈值范围的肠道菌群得到预处理肠道菌群数据;
确定肠道菌群相对丰度;所述肠道菌群相对丰度为所述预处理肠道菌群数据的相对丰度占所述样本数据中剩余肠道菌群的相对丰度之和的比例;
筛除所述待测样本中肠道菌群相对丰度不符合所述相对丰度阈值范围的肠道菌群得到所述肠道菌群数据。
优先地,所述将所述肠道菌群数据输入至肠道年龄标志菌筛选模型得到肠道年龄标志菌的特征,之前还包括:
构建深度学习分类模型;所述深度学习分类模型包括:输入层、隐含层和输出层;
获取样本数据,并对所述样本数据进行预处理得到肠道菌群数据;
采用年龄间隔分类法基于所述肠道菌群数据生成标记数据;
采用所述标记数据训练所述深度学习分类模型得到训练好的深度学习分类模型。
优先地,所述采用年龄间隔分类法基于所述肠道菌群数据生成标记数据,具体包括:
按年龄间隔1岁、3岁或5岁为标记划分所述样本数据得到初始标记数据;
将所述初始标记数据输入至所述深度学习分类模型得到肠道年龄特征菌群,并记录初始标记数据的分类模型准确率;
基于所述肠道年龄特征菌群利用机器学习计算每个肠道年龄特征菌的特征权重;
将所述初始标记数据中的肠道年龄特征菌群按特征权重由高到低进行排序;
逐次剔除序列中特征权重居于末位的肠道年龄特征菌,并进行i次迭代,依次将得到的肠道年龄特征菌群数据集gi导入所述深度学习分类模型,记录肠道年龄特征菌群数据集gi的分类模型准确率,对比初始标记数据的分类模型准确率与肠道年龄特征菌群数据集gi的分类模型准确率,绘制折线图并得到分类模型准确率差值,根据分类模型准确率差值,选取分类模型准确率最高且肠道年龄特征菌数目最少的肠道年龄特征菌群数据集gi作为初始标记数据的标志,肠道年龄特征菌群数据集gi所含肠道年龄特征菌群作为1岁年龄间隔分类的肠道年龄特征菌群、3岁年龄间隔分类的肠道年龄特征菌群或5岁年龄间隔分类的肠道年龄特征菌群;
取1岁年龄间隔分类的肠道年龄特征菌群、3岁年龄间隔分类的肠道年龄特征菌群和5岁年龄间隔分类的肠道年龄特征菌群的交集作为所述标记数据。
优先地,所述将所述不同年龄的肠道菌群数据输入至肠道年龄标志菌筛选模型得到肠道年龄标志菌的特征,具体包括:
将所述不同年龄的肠道菌群数据输入至训练好的深度学习分类模型得到肠道年龄特征菌的特征权重和第一模型分类准确率;
基于所述肠道年龄特征菌的特征权重确定每个肠道年龄特征菌在所述肠道菌群数据中的重要性;
依据所述重要性将肠道年龄特征菌群进行降序排列得到菌群序列;
剔除所述菌群序列中末位的肠道年龄特征菌得到新的肠道年龄特征菌群数据集;
将所述肠道年龄特征菌群数据集输入至所述训练好的深度学习分类模型得到第二模型分类准确率;
返回执行“剔除所述菌群序列中末位的肠道年龄特征菌得到新的肠道年龄特征菌群数据集”并进行i次迭代,对比每次迭代过程中所述第一模型分类准确率和所述第二模型分类准确率得到准确率差值;
基于所述准确率差值选取模型分类准确率最高且肠道年龄特征菌数量最少的肠道年龄特征菌群作为所述肠道年龄标志菌群,并将所述肠道年龄标志菌群输入至所述训练好的深度学习分类模型得到所述肠道年龄标志菌的特征。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明提供的肠道年龄预测方法,通过采用肠道年龄标志菌筛选模型,基于不同年龄的肠道菌群数据能够得到肠道年龄标志菌的特征,然后,采用肠道年龄预测模型根据这一肠道年龄标志菌的特征能够得到肠道年龄预测值,不仅能够提高肠道年龄预测的准确率,该方法还具有特征性好,普适性强等优点,而且肠道年龄可反映人体生理健康状态,在大健康领域具有较强的应用价值。
对应于上述提供的肠道年龄预测方法,本发明还提供了一种肠道年龄预测系统,该系统包括:
样本获取模块,用于获取待测样本;所述待测样本包括:基因测序数据和年龄信息;
预处理模块,用于对所述待测样本进行预处理得到不同年龄的肠道菌群数据;所述肠道菌群数据包括:肠道菌群特征和肠道菌群相对丰度;
特征权重确定模块,用于将所述不同年龄的肠道菌群数据输入至肠道年龄标志菌筛选模型得到肠道年龄标志菌的特征;所述肠道年龄标志菌筛选模型为基于训练好的深度学习分类模型构建的筛选模型;
肠道年龄预测模块,用于将所述肠道年龄标志菌的特征输入至肠道年龄预测模型得到肠道年龄预测值;所述肠道年龄预测模型为训练好的深度学习回归模型。
因本发明提供的肠道年龄预测系统实现的技术效果与上述提供的肠道年龄预测方法实现的技术效果相同,故在此不再进行赘述。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明提供的肠道年龄预测方法的流程图;
图2为本发明实施例提供的深度学习回归模型的结构示意图;
图3为本发明实施例提供的肠道年龄预测方法的实施原理图;
图4为本发明实施例提供的肠道年龄特征菌的特征权重示意图;
图5为本发明实施例提供的肠道年龄特征菌个数与深度学习分类模型预测精度的关系示意图;
图6为本发明实施例提供的预测年龄和实际年龄的准确性示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种肠道年龄预测方法,能够在精确筛选肠道年龄标志菌的同时,提高表征人体肠道年龄的精确性,对人类健康和衰老具有重大意义。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
如图1所示,本发明提供的肠道年龄预测方法,包括:
步骤100:获取待测样本。待测样本包括:基因测序数据和年龄信息。
步骤101:对待测样本进行预处理得到不同年龄的肠道菌群数据。肠道菌群数据包括:肠道菌群特征和肠道菌群相对丰度。
步骤102:将不同年龄的肠道菌群数据输入至肠道年龄标志菌筛选模型得到肠道年龄标志菌的特征。肠道年龄标志菌筛选模型为基于训练好的深度学习分类模型构建的筛选模型。
步骤103:将肠道年龄标志菌的特征输入至肠道年龄预测模型得到肠道年龄预测值。肠道年龄预测模型为训练好的深度学习回归模型。
进一步,本发明肠道年龄标志菌筛选的实施过程可以是:
基于预处理后不同年龄健康人群的肠道菌群数据,使用年龄间隔分类法将肠道菌群按年龄间隔1岁为一类标记、年龄间隔3岁为一类标记、年龄间隔5岁为一类标记,分别构建三类标记的深度学习分类模型,训练完成后可得到各模型的肠道年龄特征菌群。利用机器学习获取各模型肠道年龄特征菌群的特征权重并进行重要性由大到小的排序,剔除末位肠道年龄特征菌,得到新的肠道年龄特征菌群集合。把该集合数据导入到深度学习分类模型并记录其分类精度,如此迭代,获取三类标记的分类模型中分类精度最高且数目最少的肠道年龄特征菌群的交集,即为肠道年龄标志菌。
上述年龄间隔分类法指一类使用不同年龄组距标记肠道菌群的方法,包括但不限于以年龄间隔1岁为一类标记、年龄间隔3岁为一类标记、年龄间隔5岁为一类标记。
其中,采集不同年龄健康人群的肠道菌群基因测序数据及相关背景信息,对其进行预处理,得到预处理后不同年龄健康人群的肠道菌群数据。预处理包括对年龄、肠道菌群丰度特征、肠道菌群出现频率等信息进行过滤,计算肠道菌群的相对丰度。进一步地,预处理的具体操作步骤包括:
步骤A1:采集公共数据库中健康人群的年龄、性别、地区和肠道菌群基因测序数据等信息,同时纳入部分申请人所在公司自主采集并检测的不同年龄、不同地区健康人群的肠道菌群基因测序数据等信息。通过测序数据可获得肠道菌群的实际数量,即肠道菌群绝对丰度。样本特征由健康人群的年龄和肠道菌群绝对丰度构成。
步骤A2:获取样本中不同年龄的属水平肠道菌群,计算该肠道菌群的相对丰度,肠道菌群相对丰度即样本中肠道菌群的绝对丰度占该样本所有肠道菌群绝对丰度之和的比例。
步骤A3:过滤掉低丰度特征的肠道菌群,如筛除掉相对丰度不高于0.01%且出现频率不高于10%的肠道菌群。
步骤A4:经步骤A2、A3的预处理后,基于剩余肠道菌群总数,计算预处理后肠道菌群相对丰度,预处理后肠道菌群相对丰度即剩余肠道菌群相对丰度占所有剩余肠道菌群相对丰度之和的比例,以此代表不同年龄健康人群的肠道菌群相对丰度。
上述提到的健康人群是指处于健康状态的人群,包括但不限于身体健康、心理健康、精神健康及社会健康的人群,排除达到医学疾病诊断标准的人群,以此保证纳入对象的同质性。健康人群的年龄范围包括但不限于未成年人(年龄<18岁)、成年人(18岁≤年龄<60岁)、老年人(60≤年龄<90)和长寿老人(年龄≥90岁)等人群,也可以界定某一年龄区间的健康人群作为纳入对象,如20<年龄≤90。健康人群的地区范围可来自世界各地,如中国、美国、英国、澳大利亚或加拿大等。低丰度特征的肠道菌群指相对丰度和出现频率低于特定数值的肠道菌群,其中相对丰度的筛除数值范围包括但不限于0.01%,出现频率的筛除数值范围包括但不限于10%。
进一步地,表征1岁年龄间隔分类的肠道年龄特征菌群筛选步骤具体包括:
步骤B1:基于步骤A4预处理后的健康人群年龄信息及肠道菌群相对丰度,将肠道菌群按年龄间隔1岁为一类进行标记,分类原则为半开区间,获得数据集G(即第一类标记数据),G={G1,G2,G3,......,GN},表示数据集G包含N个年龄间隔1岁标记的子集。
步骤B2:基于数据集G构建深度学习分类模型。构建的深度学习分类模型结构包括输入层、隐含层、输出层,其中输入层为样本的优势特征。隐含层一共有三层,设置各层节点,每层隐藏层的激活函数为PReLU,构建每层隐藏层之后添加Dropout层,并设置Dropout参数。输出层为预测结果,激活函数为Softmax。设置深度学习分类模型的学习过程的参数优化器为Adam。划分训练集、测试集和验证集,记录深度学习分类模型的训练过程,训练完成后得到数据集G的肠道年龄特征菌群,并以准确率评估模型分类的精度,其计算公式如下:
式中,ACC为准确率,TP为真实例,FN为假反例,FP为假正例,TN为真反例。
步骤B3:基于数据集G的肠道年龄特征菌群,利用机器学习计算每个肠道年龄特征菌的特征权重,以获得每个肠道年龄特征菌在数据集G中的重要性。
步骤B4:将肠道年龄特征菌群按特征权重由高到低进行排序,剔除末位肠道年龄特征菌,获得新的肠道年龄特征菌群数据集g,把数据集g导入步骤B2深度学习分类模型,记录数据集g的分类模型准确率。
步骤B5:重复步骤B4,逐次剔除特征权重居于末位的肠道年龄特征菌,并进行i次迭代,记录数据集gj的分类模型准确率,对比数据集G与gj的分类模型准确率,绘制折线图,根据G与gj分类模型准确率差值,选取分类模型准确率最高且肠道年龄特征菌数目最少的数据集gj作为数据集G的标志,数据集gj所含肠道年龄特征菌群即可代表1岁年龄间隔分类的肠道年龄特征菌群,该肠道年龄特征菌群以数据集R表示,R={R1,R2,R3,......,RN},表示数据集R包含N个肠道年龄特征菌。
进一步地,表征3岁年龄间隔分类的肠道年龄特征菌群筛选步骤具体包括:
步骤C1:基于步骤A4预处理后健康人群年龄信息及肠道菌群相对丰度,将肠道菌群按年龄间隔3岁为一类进行标记,分类原则为半开区间,获得数据集H(即第二类标记数据),H={H1,H2,H3,......,HN},表示数据集H包含N个年龄间隔3岁标记的子集。
步骤C2:按步骤B2操作,构建基于数据集H的深度学习分类模型,获取该模型准确率,并得到数据集H的肠道年龄特征菌群。
步骤C3:按步骤B3操作,获取每个肠道年龄特征菌在数据集H中的特征权重。
步骤C4:按步骤B4操作,获得经特征选择的数据集h及其分类模型的准确率。
步骤C5:按步骤B5操作,获得作为数据集H标志的数据集hj,该数据集hj所含肠道年龄特征菌群即可代表3岁年龄间隔分类的肠道年龄特征菌群,该肠道年龄特征菌群以数据集S表示,S={S1,S2,S3,......,SN},表示数据集S包含N个肠道年龄特征菌。
进一步地,表征5岁年龄间隔的肠道年龄特征菌群筛选步骤具体包括:
步骤D1:基于步骤A4预处理后健康人群年龄信息及肠道菌群相对丰度,将肠道菌群按年龄间隔5岁为一类进行标记,分类原则为半开区间,获得数据集M(即第三类标记数据),M={M1,M2,M3,......,MN},表示数据集M包含N个年龄间隔5岁标记的子集。
步骤D2:按步骤B2操作,可构建基于数据集M的深度学习分类模型,获取该模型准确率,并得到数据集M的肠道年龄特征菌群。
步骤D3:按步骤B3操作,可获取每个肠道年龄特征菌在数据集M中的特征权重。
步骤D4:按步骤B4操作,可获得经特征选择的数据集m及其分类模型的准确率。
步骤D5:按步骤B5操作,可获得作为数据集M标志的数据集mj,该数据集mj所含肠道年龄特征菌群即可代表5岁年龄间隔分类的肠道年龄特征菌群,该肠道年龄特征菌群以数据集T表示,T={T1,T2,T3,......,TN},表示数据集T包含N个肠道年龄特征菌。其中,j为数据集G、数据集H或数据集M所含肠道年龄特征菌的个数。
进一步地,筛选肠道年龄标志菌的具体步骤包括:
基于步骤B5、步骤C5、步骤D5得到的数据集R、数据集S和数据集T,取三个数据集的交集,即为表征不同年龄健康人群的肠道年龄标志菌,该肠道年龄标志菌以数据集X表示,X=R∩S∩T={X1,X2,X3,......,XN},表示数据集X包含N个肠道年龄标志菌。
根据本发明上述提供的技术方案,年龄间隔分类法通过将年龄与肠道菌群相结合,可消除各年龄阶段肠道菌群在数量上的差异,能更好地揭示肠道年龄特征菌群总体的特征分布及内在规律,从而综合分析年龄与肠道菌群的依存关系。机器学习可进行特征重要性评估及特征选择,该法既可筛选与因变量高度相关的特征变量,还可筛选出能以较少数目并能充分预测因变量的特征变量,将其与年龄间隔分类法进行结合,即可获取分类准确率高且数目较少的肠道年龄标志菌。
进一步,上述步骤103中,肠道年龄预测模型的构建过程可以为:
使用肠道年龄标志菌特征结合宿主年龄信息,构建深度学习回归模型,对其进行训练、测试,得到肠道年龄预测模型,具体操作步骤包括:
步骤E1:基于健康人群的肠道年龄标志菌数据集X以及年龄信息,利用深度学习平台,构建深度学习回归模型,如图2所示,该深度学习回归模型包括输入层、隐含层、输出层,其中输入层为样本的优势特征。隐含层一共有三层,设置各层节点,每层隐含层的激活函数为PReLU,构建每层隐含层之后添加Dropout层,并设置Dropout参数。输出层为预测的肠道年龄结果。
与传统的神经网络模型相比较,该深度学习回归模型最大的特征是具有多隐含层的结构。在图2中最左侧为整个深度神经网络模型的输入端,也就是X=[x1,x2,...,xn],是一组n维的列向量。在肠道年龄预测问题中,输入量可以是属水平的菌群组成的列向量,具体的维数由实际情况确定。在输入层,激活函数设定为标准恒等函数,也就是说,输入量经过标准恒等变换后输出到第一层,在图2中(wn,bn)表示第n个隐藏层的权重参数为wn,阈值参数为bn。在深度神经网络中,每一个隐含层都会从一层获取输入值,通过本层的激活函数对输入变量进行非线性处理,最后将处理之后的数值作为本层的输出传送给下一个隐含层。如此计算,最后一层将结果y进行输出,也就是需要预测的肠道年龄数值。
深度神经网络的数学定义如下:
数据经过丰度计算、处理后的初始值列向量通过输入层传递到第一个隐含层,第一个隐含层的输入-输出关系为:
T1=f(w1*X+b1)
式中:T1为第一个隐藏层的输出矩阵,w1为输入层与第一个隐含层之间的权重参数,b1为输入层与第一个隐含层之间的阈值参数。
以t1,p代表第一个隐含层的第p个变量。w1,p,i代表输入层与第一隐含层的权重矩阵中的第p行第i个元素,b1,p表示输入层与第一个隐含层的阈值向量中的第p个变量值。则T1中的每一个输出值都是原始列变量x经过激活函数f的变换得出来的:
根据深度神经网络的基本原理,上一隐含层的输出是下一个隐含层的输入,我们可以得到深度神经网络模型第m个隐含层的输出Tm:
Tm=f(wm*Tm-1+bm)
第m个隐含层的输出Tm中的所有原素值tm,p为:
式中:α为第m-1个隐含层中神经元的数量,wm,p,i为第m-1个隐含层与第m个隐含层之间的权重矩阵中的第p行第i个元素,bm,p为第m-1个隐含层与第m个隐含层之间的阈值向量中的第p个变量值。
输入变量X经过输入层处理并传送至隐含层,最终经过所有隐含层的数据处理后,输出至输出层,得到的结果为:
y=G(wn+1·Tn+bn+1)
式中:wn+1为最后一个隐含层与输出层之间的权重参数。bn+1为最后一个隐含层与输出层之间的阈值参数。g为深度神经网络中输出层的激活函数
步骤E2:模型编译,设置模型的学习过程的参数优化器为RMSprop。
步骤E3:划分训练集、测试集和验证集,记录模型的训练过程。
步骤E4:使用平均绝对误差值表示预测年龄与真实年龄的误差,使用决定系数评估深度学习回归模型的拟合程度,其计算公式如下:
基于上述描述,本发明以健康人群为对象,消除了疾病因素对模型精度的影响,并降低了样本队列间的差异性。
本发明提供了一种表征肠道器官年龄的肠道年龄标志菌筛选方法,其集成了机器学习及深度学习算法,以不同年龄组距分类进行分析,全面考虑了肠道菌群差异特征与年龄变化的规律,使样本的分布更具规律,建立的肠道年龄预测模型准确度更高,拟合效果更优,弥补了现有模型在样本筛选、过滤方面的不足。同时,肠道年龄标志菌有望成为衰老过程的关键生物标志物。
本发明基于肠道年龄标志菌构建了一种肠道年龄预测模型,充分体现了不同年龄人群的肠道菌群多样性、丰度变化等特征,普适性更强,应用价值高,不仅可作为个体生理健康的潜在评估指标,而且对年龄相关疾病的早期预警和精准医疗具有现实的参考意义。
为进一步阐述本发明的技术方案及优点,以下提供一个具体实施例对本发明的内容作详细描述,但本发明的保护范围包括但不限于这些实施例。
根据本发明上述提供的技术方案,该实施例中肠道年龄预测的实施流程如图3所示,具体实施步骤如下:
一、样本采集及预处理
步骤A1:采集公共数据库中健康人群的年龄、性别、地区和肠道菌群基因测序数据等信息,同时纳入部分申请人所在公司自主采集并检测的不同年龄、不同地区健康人群的肠道菌群基因测序数据等信息,健康人群的年龄范围处于18~90岁之间,范围来自世界各地,如中国、美国、英国、澳大利亚或加拿大等。分析测序数据获取肠道菌群的绝对丰度。原始样本特征由健康人群的年龄和肠道菌群绝对丰度构成。
步骤A2:获取原始样本中20<年龄≤90的属水平肠道菌群,将菌群绝对丰度转换为相对丰度。
步骤A3:过滤掉低丰度特征的肠道菌群,即筛除掉相对丰度不高于0.01%且出现频率不高于10%的肠道菌群。
步骤A4:经步骤A2、A3的预处理后,基于剩余的肠道菌群总数,将肠道菌群相对丰度进行二次转换,最终获得20<年龄≤90的健康人群的肠道菌群相对丰度。
二、肠道年龄标志菌筛选
首先,筛选表征1岁年龄间隔分类的肠道年龄特征菌群,具体步骤包括:
步骤B1:基于预处理后健康人群年龄信息及肠道菌群相对丰度,将肠道菌群按年龄间隔1岁为一类进行标记,分类原则为半开区间,即(20,21]标记为G1、(21,22]标记为G2、(22,23]标记为G3,......,(89,90]标记为G70,获得数据集G,G={G1,G2,G3,......,G70},表示数据集G包含70个年龄间隔1岁标记的子集。
步骤B2:基于数据集G构建深度学习分类模型,模型结构包括输入层、隐含层、输出层,其中输入层为样本的优势特征。隐含层一共有三层,通过多次训练分别采用512、512和256个节点,每层隐藏层的激活函数为PReLU,构建每层隐藏层之后添加Dropout层,并设置Dropout参数为0.3。输出层为预测结果,激活函数为Softmax。设置模型的学习过程的参数优化器为Adam。划分训练集、测试集和验证集,其中训练集:测试集:验证集=7:2:1,记录模型的训练过程,训练完成后得到数据集G的肠道年龄特征菌群。以准确率评估模型分类的精度,其计算公式如下:
式中,ACC为准确率,TP为真实例,FN为假反例,FP为假正例,TN为真反例。
步骤B3:基于数据集G的肠道年龄特征菌群,利用机器学习计算每个肠道年龄特征菌的特征权重(如图4所示),以获得每个肠道年龄特征菌在数据集G中的重要性。
步骤B4:将肠道年龄特征菌群按特征权重由高到低进行排序,剔除末位肠道年龄特征菌,获得新的肠道年龄特征菌群数据集g,把数据集g导入步骤B2深度学习分类模型,记录数据集g的分类模型准确率。
步骤B5:重复步骤B4,逐次剔除特征权重居于末位的肠道年龄特征菌,并进行i次迭代,记录数据集gj的分类模型准确率,对比数据集G与gj的分类模型准确率,绘制折线图(如图5所示),以G与gj分类模型准确率差值低于0.5%为标准,选取分类模型准确率最高且肠道年龄特征菌数目最少的数据集gi作为数据集G的标志,数据集gj所含肠道年龄特征菌群即可代表1岁年龄间隔分类的肠道年龄特征菌群,该肠道年龄特征菌群以数据集R表示,R={R1,R2,R3,......,R28},表示数据集R包含28个肠道年龄特征菌。
其次,筛选表征3岁年龄间隔分类的肠道年龄特征菌群,具体步骤包括:
步骤C1:基于预处理后健康人群年龄信息及肠道菌群相对丰度,将肠道菌群按年龄间隔3岁为一类进行标记,分类原则为半开区间,即(20,23]标记为H1、(23,26]标记为H2、(26,29]标记为H3,......,(86,89]标记为H23,获得数据集H,H={H1,H2,H3,......,H23},表示数据集H包含23个年龄间隔3岁标记的子集。
步骤C2:按步骤B2操作,可构建基于数据集H的深度学习分类模型,获取该模型准确率,并得到数据集H的肠道年龄特征菌群。
步骤C3:按步骤B3操作,可获取每个肠道年龄特征菌在数据集H中的特征权重。
步骤C4:按步骤B4操作,可获得经特征选择的数据集h及其分类模型的准确率。
步骤C5:按步骤B5操作,可获得作为数据集H标志的数据集hj,该数据集hj所含肠道年龄特征菌群即可代表3岁年龄间隔分类的肠道年龄特征菌群,该肠道年龄特征菌群以数据集S表示,S={S1,S2,S3,......,S27},表示数据集S包含27个肠道年龄特征菌。
然后,筛选表征5岁年龄间隔的肠道年龄特征菌群,具体步骤包括:
步骤D1:基于步骤A4所得预处理后健康人群年龄信息及肠道菌群相对丰度,将肠道菌群按年龄间隔5岁为一类进行标记,分类原则为半开区间,即(20,25]标记为M1、(25,30]标记为M2、(30,35]标记为M3,......,(85,90]标记为H14,获得数据集M,M={M1,M2,M3,......,M14},表示数据集M包含14个年龄间隔5岁标记的子集。
步骤D2:按步骤B2操作,可构建基于数据集M的深度学习分类模型,获取该模型准确率,并得到数据集M的肠道年龄特征菌群。
步骤D3:按步骤B3操作,可获取每个肠道年龄特征菌在数据集M中的特征权重。
步骤D4:按步骤B4操作,可获得经特征选择的数据集m及其分类模型的准确率。
步骤D5:按步骤B5操作,可获得作为数据集M标志的数据集mj,该数据集mj所含肠道年龄特征菌群即可代表5岁年龄间隔的肠道年龄特征菌群,该肠道年龄特征菌群以数据集T表示,T={T1,T2,T3,......,T23},表示数据集T包含23个肠道年龄特征菌。
最后,基于步骤B5、步骤C5和步骤D5中得到的数据集R、数据集S和数据集T,取三个数据集的交集,即为可表征不同年龄健康人群的肠道年龄标志菌,该肠道年龄标志菌以数据集X表示,X=R∩S∩T={X1,X2,X3,......,XN},表示数据集X包含N个肠道年龄标志菌。
肠道年龄标志菌属共26个,即X={X1,X2,X3,......,X26},具体包括:甲烷短杆菌属(Methanobrevibacter)、乳杆菌属(Lactobacillus)、链球菌属(Streptococcus)、双歧杆菌属(Bifidobacterium)、梭菌属(Clostridium)、颤螺菌属(Oscillospira)、拟杆菌属(Bacteroides)、脱硫弧菌属(Desulfovibrio)、嗜黏蛋白阿克曼菌属(Akkermansia)、韦荣氏球菌属(Veillonella)、多尔氏菌属(Dorea)、罗氏菌属(Roseburia)、普拉梭菌属(Faecalibacterium)、瘤胃球菌属(Ruminococcus)、考拉杆菌属(Phascolarctobacterium)、布劳特氏菌属(Blautia)、粪球菌属(Coprococcus)、萨特氏菌(Sutterella)、普雷沃氏菌属(Prevotella)、毛螺菌属(Lachnospira)、副拟杆菌属(Parabacteroides)、Anaerostipes菌属、小杆菌属(Dialister)、SMB53菌属、嗜胆菌属(Bilophila)和巨球型菌属(Megasphaera)。
三、肠道年龄预测模型构建
使用肠道年龄标志菌特征结合宿主年龄信息,构建深度学习回归模型,对其进行训练、测试,得到肠道年龄预测模型。
进一步地,具体步骤包括:
步骤E1:基于健康人群的肠道年龄标志菌数据集X以及年龄信息,利用深度学习平台,构建深度学习回归模型,模型结构包括输入层、隐含层、输出层,其中输入层为样本的优势特征。隐含层一共有三层,通过多次训练分别采用1024、512和256个节点,每层隐含层的激活函数为PReLU,构建每层隐含层之后添加Dropout层,并设置Dropout参数为0.3。输出层为预测的肠道年龄结果。
步骤E2:模型编译,设置模型的学习过程的参数优化器为RMSprop。
步骤E3:划分训练集、测试集和验证集,其中训练集:测试集:验证集=7:2:1,记录模型的训练过程。
步骤E4:使用平均绝对误差值表示预测年龄与真实年龄的误差,使用决定系数评估深度学习回归模型的拟合程度,其计算公式如下:
根据本实施例的技术方案,采用20~90岁数据样本建模,得到肠道年龄预测模型,如图6所示,肠道年龄预测值与实际年龄之间呈明显的线性关系,经过多次训练的肠道年龄预测模型的MAE为5.429,R2为0.861,该模型预测性能优于专利[3]基于深度神经网络的生物年龄预测方法(MAE=5.91)与专利[4]集成年龄预测方法(R2=0.598),表明本发明基于肠道年龄标志菌构建的肠道年龄预测模型准确率高、特征性好。
四、肠道年龄预测
利用肠道年龄预测模型预测待测样本的肠道年龄。
进一步地,具体操作步骤包括:
步骤F1:收集待测样本的基因测序数据,待测样本共5例,以Y表示,Y={Y1,Y2,Y3,Y4,Y5},获取待测样本中属水平菌群,以及肠道菌群相对丰度。
步骤F2:对待测样本进行预处理,过滤掉低丰度特征的肠道菌群,即获取与步骤A4相同的肠道菌群特征,以及预处理后的肠道菌群相对丰度。
步骤F3:在步骤F2预处理后的肠道菌群数据中,基于肠道年龄标志菌数据集X={X1,X2,X3,......,X26},利用机器学习获取待测样本中对应肠道年龄标志菌X1,X2,X3,......,X26的特征权重。
步骤F4:基于肠道年龄预测深度学习回归模型,输入待测样本的肠道年龄标志菌特征权重数据,模型输出即为Y1、Y2、Y3、Y4和Y5的肠道年龄。
此外,对应于上述提供的肠道年龄预测方法,本发明还提供了一种肠道年龄预测系统,该系统包括:
样本获取模块,用于获取待测样本。待测样本包括:基因测序数据和年龄信息。
预处理模块,用于对待测样本进行预处理得到不同年龄的肠道菌群数据。肠道菌群数据包括:肠道菌群特征和肠道菌群相对丰度。
特征确定模块,用于将不同年龄的肠道菌群数据输入至肠道年龄标志菌筛选模型得到肠道年龄标志菌的特征。肠道年龄标志菌筛选模型为基于训练好的深度学习分类模型构建的筛选模型。
肠道年龄预测模块,用于将肠道年龄标志菌的特征输入至肠道年龄预测模型得到肠道年龄预测值。肠道年龄预测模型为训练好的深度学习回归模型。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
Claims (6)
1.一种肠道年龄预测方法,其特征在于,包括:
获取待测样本;所述待测样本包括:基因测序数据和年龄信息;
对所述待测样本进行预处理得到不同年龄的肠道菌群数据;所述肠道菌群数据包括:肠道菌群特征和肠道菌群相对丰度;
将所述不同年龄的肠道菌群数据输入至肠道年龄标志菌筛选模型得到肠道年龄标志菌的特征;所述肠道年龄标志菌筛选模型为基于训练好的深度学习分类模型构建的筛选模型;
将所述肠道年龄标志菌的特征输入至肠道年龄预测模型得到肠道年龄预测值;所述肠道年龄预测模型为训练好的深度学习回归模型。
2.根据权利要求1所述的肠道年龄预测方法,其特征在于,所述对所述待测样本进行预处理得到肠道菌群数据,具体包括:
获取所述待测样本中不同年龄的属水平肠道菌群,并计算所述属水平肠道菌群的相对丰度;所述属水平肠道菌群的相对丰度为所述属水平肠道菌群的绝对丰度占所述待测样本中所有肠道菌群的绝对丰度的比例;绝对丰度是指肠道菌群的数量;
筛除所述属水平肠道菌群中不符合相对丰度阈值范围的肠道菌群得到预处理肠道菌群数据;
确定肠道菌群相对丰度;所述肠道菌群相对丰度为所述预处理肠道菌群数据的相对丰度占所述样本数据中剩余肠道菌群的相对丰度之和的比例;
筛除所述待测样本中肠道菌群相对丰度不符合所述相对丰度阈值范围的肠道菌群得到所述肠道菌群数据。
3.根据权利要求1所述的肠道年龄预测方法,其特征在于,所述将所述肠道菌群数据输入至肠道年龄标志菌筛选模型得到肠道年龄标志菌的特征,之前还包括:
构建深度学习分类模型;所述深度学习分类模型包括:输入层、隐含层和输出层;
获取样本数据,并对所述样本数据进行预处理得到肠道菌群数据;
采用年龄间隔分类法基于所述肠道菌群数据生成标记数据;
采用所述标记数据训练所述深度学习分类模型得到训练好的深度学习分类模型。
4.根据权利要求3所述的肠道年龄预测方法,其特征在于,所述采用年龄间隔分类法基于所述肠道菌群数据生成标记数据,具体包括:
按年龄间隔1岁、3岁或5岁为标记划分所述样本数据得到初始标记数据;
将所述初始标记数据输入至所述深度学习分类模型得到肠道年龄特征菌群,并记录初始标记数据的分类模型准确率;
基于所述肠道年龄特征菌群利用机器学习计算每个肠道年龄特征菌的特征权重;
将所述初始标记数据中的肠道年龄特征菌群按特征权重由高到低进行排序;
逐次剔除序列中特征权重居于末位的肠道年龄特征菌,并进行i次迭代,依次将得到的肠道年龄特征菌群数据集gi导入所述深度学习分类模型,记录肠道年龄特征菌群数据集gi的分类模型准确率,对比初始标记数据的分类模型准确率与肠道年龄特征菌群数据集gi的分类模型准确率,绘制折线图并得到分类模型准确率差值,根据分类模型准确率差值,选取分类模型准确率最高且肠道年龄特征菌数目最少的肠道年龄特征菌群数据集gi作为初始标记数据的标志,肠道年龄特征菌群数据集gi所含肠道年龄特征菌群作为1岁年龄间隔分类的肠道年龄特征菌群、3岁年龄间隔分类的肠道年龄特征菌群或5岁年龄间隔分类的肠道年龄特征菌群;
取1岁年龄间隔分类的肠道年龄特征菌群、3岁年龄间隔分类的肠道年龄特征菌群和5岁年龄间隔分类的肠道年龄特征菌群的交集作为所述标记数据。
5.根据权利要求1所述的肠道年龄预测方法,其特征在于,所述将所述不同年龄的肠道菌群数据输入至肠道年龄标志菌筛选模型得到肠道年龄标志菌的特征,具体包括:
将所述不同年龄的肠道菌群数据输入至训练好的深度学习分类模型得到肠道年龄特征菌的特征权重和第一模型分类准确率;
基于所述肠道年龄特征菌的特征权重确定每个肠道年龄特征菌在所述肠道菌群数据中的重要性;
依据所述重要性将肠道年龄特征菌群进行降序排列得到菌群序列;
剔除所述菌群序列中末位的肠道年龄特征菌得到新的肠道年龄特征菌群数据集;
将所述肠道年龄特征菌群数据集输入至所述训练好的深度学习分类模型得到第二模型分类准确率;
返回执行“剔除所述菌群序列中末位的肠道年龄特征菌得到新的肠道年龄特征菌群数据集”并进行i次迭代,对比每次迭代过程中所述第一模型分类准确率和所述第二模型分类准确率得到准确率差值;
基于所述准确率差值选取模型分类准确率最高且肠道年龄特征菌数量最少的肠道年龄特征菌群作为所述肠道年龄标志菌群,并将所述肠道年龄标志菌群输入至所述训练好的深度学习分类模型得到所述肠道年龄标志菌的特征。
6.一种肠道年龄预测系统,其特征在于,包括:
样本获取模块,用于获取待测样本;所述待测样本包括:基因测序数据和年龄信息;
预处理模块,用于对所述待测样本进行预处理得到不同年龄的肠道菌群数据;所述肠道菌群数据包括:肠道菌群特征和肠道菌群相对丰度;
特征权重确定模块,用于将所述不同年龄的肠道菌群数据输入至肠道年龄标志菌筛选模型得到肠道年龄标志菌的特征;所述肠道年龄标志菌筛选模型为基于训练好的深度学习分类模型构建的筛选模型;
肠道年龄预测模块,用于将所述肠道年龄标志菌的特征输入至肠道年龄预测模型得到肠道年龄预测值;所述肠道年龄预测模型为训练好的深度学习回归模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211390373.5A CN115527608A (zh) | 2022-11-08 | 2022-11-08 | 一种肠道年龄预测方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211390373.5A CN115527608A (zh) | 2022-11-08 | 2022-11-08 | 一种肠道年龄预测方法和系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115527608A true CN115527608A (zh) | 2022-12-27 |
Family
ID=84704717
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211390373.5A Pending CN115527608A (zh) | 2022-11-08 | 2022-11-08 | 一种肠道年龄预测方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115527608A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116153414A (zh) * | 2023-02-17 | 2023-05-23 | 迪辅乐生物(上海)有限公司 | 基于肠道微生物的宿主生命早期年龄预测模型构建方法 |
CN117352057A (zh) * | 2023-03-28 | 2024-01-05 | 广东弘元普康医疗科技有限公司 | 一种菌群分布状态的评估方法及相关装置 |
CN118737472A (zh) * | 2024-09-03 | 2024-10-01 | 北京三元食品股份有限公司 | 评估0-6岁儿童肠道菌群发育状态的方法、系统和应用 |
-
2022
- 2022-11-08 CN CN202211390373.5A patent/CN115527608A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116153414A (zh) * | 2023-02-17 | 2023-05-23 | 迪辅乐生物(上海)有限公司 | 基于肠道微生物的宿主生命早期年龄预测模型构建方法 |
CN117352057A (zh) * | 2023-03-28 | 2024-01-05 | 广东弘元普康医疗科技有限公司 | 一种菌群分布状态的评估方法及相关装置 |
CN117352057B (zh) * | 2023-03-28 | 2024-05-10 | 广东弘元普康医疗科技有限公司 | 一种菌群分布状态的评估方法及相关装置 |
CN118737472A (zh) * | 2024-09-03 | 2024-10-01 | 北京三元食品股份有限公司 | 评估0-6岁儿童肠道菌群发育状态的方法、系统和应用 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115527608A (zh) | 一种肠道年龄预测方法和系统 | |
CN111128378B (zh) | 一种用于评估婴幼儿肠道菌群发育年龄的预测方法 | |
CN108345768B (zh) | 一种确定婴幼儿肠道菌群成熟度的方法和标志物组合 | |
Mounika et al. | Machine learning and deep learning models for diagnosis of parkinson’s disease: A performance analysis | |
Chen et al. | Generalized estimating equation modeling on correlated microbiome sequencing data with longitudinal measures | |
Bellisario et al. | Contributions of MIR to soundscape ecology. Part 3: Tagging and classifying audio features using a multi-labeling k-nearest neighbor approach | |
CN113593708A (zh) | 基于集成学习算法的脓毒症预后预测方法 | |
Nguyen et al. | Adversarially-regularized mixed effects deep learning (armed) models improve interpretability, performance, and generalization on clustered (non-iid) data | |
Montorsi et al. | Predicting depression in old age: Combining life course data with machine learning | |
Zhang et al. | Identification of central symptoms of children depression and development of two short version of Children's Depression Inventory: Based on network analysis and machine learning | |
CN119252349A (zh) | 单细胞转录组数据辅助ad分析分类的方法 | |
Cui et al. | Identifying key features in student grade prediction | |
CN113035363A (zh) | 一种概率密度加权的遗传代谢病筛查数据混合采样方法 | |
Fosgate et al. | Likelihood ratio estimation without a gold standard: a case study evaluating a brucellosis c-ELISA in cattle and water buffalo of Trinidad | |
Duyar et al. | Detection of cardiovascular disease using explainable artificial intelligence and gut microbiota data | |
CN114141360A (zh) | 基于惩罚cox回归的乳腺癌预测方法 | |
Modi et al. | Analysis of Vocal Signatures of COVID-19 in Cough Sounds: A Newer Diagnostic Approach Using Artificial Intelligence | |
Devlin et al. | Identifying prognostic pairwise relationships among bacterial species in microbiome studies | |
CN118197551B (zh) | 利用人工智能进行青少年抑郁倾向早期预警方法 | |
CN114863166B (zh) | 基于不确定性度量的图像分类方法及眼底图像分类方法 | |
Sivakumar et al. | Microbial Biomarkers Identification for Human Gut Disease Prediction using Microbial Interaction Network Embedded Deep Learning | |
Nur et al. | THE SCORING PREDICTORS OF STUNTING BASED ON THE EPIDEMIOLOGICAL TRIAD: PEER REVIEW | |
CN118197643B (zh) | 基于肠道环境数据的肠道肿瘤检测系统 | |
CN119889701B (zh) | 基于微生物组分层特征自适应融合的疾病预测方法及系统 | |
Wang et al. | A gene expression clustering method to extraction of cell-to-cell biological communication |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |