CN112466402A - 一种使用血液标志物预测年龄的方法 - Google Patents

一种使用血液标志物预测年龄的方法 Download PDF

Info

Publication number
CN112466402A
CN112466402A CN202011281753.6A CN202011281753A CN112466402A CN 112466402 A CN112466402 A CN 112466402A CN 202011281753 A CN202011281753 A CN 202011281753A CN 112466402 A CN112466402 A CN 112466402A
Authority
CN
China
Prior art keywords
blood
model
data
age
markers
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202011281753.6A
Other languages
English (en)
Inventor
罗奇斌
申玉林
廖胜光
任毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin Qiyun Nord Biomedical Co ltd
Original Assignee
Tianjin Qiyun Nord Biomedical Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin Qiyun Nord Biomedical Co ltd filed Critical Tianjin Qiyun Nord Biomedical Co ltd
Priority to CN202011281753.6A priority Critical patent/CN112466402A/zh
Publication of CN112466402A publication Critical patent/CN112466402A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Epidemiology (AREA)
  • Bioethics (AREA)
  • Public Health (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Investigating Or Analysing Biological Materials (AREA)

Abstract

本发明涉及生物信息领域,且公开了一种使用血液标志物预测年龄的方法,包括血液标志物数据收集、数据预处理、模型的建立与评估和模型的测试四个步骤。相比其他方法和标志物,以血液标志物作为生理年龄的评估对象可以更加全面的反应个体衰老状况、解释衰老水平,同时,使用机器学习模型对选取的血液标志物进行预测,使得流程更加智能、结果更加准确,所选取的血液标志物即血液生化指标,是临床和体检机构中最常见的指标,获取难度小、成本低、解释度高。

Description

一种使用血液标志物预测年龄的方法
技术领域
本发明涉及生物信息领域,具体为一种使用血液标志物预测年龄的方法。
背景技术
衰老是个体不可避免的生命阶段,是生物发育成熟后的一个持续、动态并缓慢发生的阶段,在这一阶段中,个体机能减退、生理结构组分逐渐发生退行性病变,同时伴发一系列退行性疾病,如老年骨质增生、阿尔兹海默症(老年痴呆症)、帕金森综合征等。衰老伴随的器官功能减退、细胞和分子水平的改变渐进性影响健康,因此衰老与疾病和死亡密切相关。近年来,关于个体衰老的研究也成为生命科学中一个热门的研究领域。衰老的个体差异较大,同一个体各个系统和器官的衰老水平和速度也不完全相同,因此历法年龄并非反应寿命的最可靠指标,生物学年龄则更为精确。
类似MARK-AGE的大型纵向项目已经开始研究多种生物标志物在衰老过程中的改变与实际年龄的关系,甲基化相关的标志物、转录组代谢组相关代谢物、端粒长度、免疫细胞数量和应答效果等都可作为衡量个体年龄的标准之一。爱丁堡大学的研究团队根据血液中的DNA甲基化水平预测个体年龄,然后将这一年龄与个体真实年龄进行比较,结果发现,甲基化预测年龄比实际年龄大五岁以上老人,死亡风险要高21‰;端粒普遍存在于染色体末端,一方面保护染色体不被降解,另一方面也防止染色体相互融合,一但端粒耗尽,染色体将无法正常分裂,细胞的更新也将结束,因此端粒的长度强烈指向细胞分裂潜力的大小,端粒越短表明细胞再生能力越小,越长则表示细胞再生活力越强,剩余分裂次数充裕。
然而现有的技术所研究的指标大多缺乏对全部器官或者系统的整体描述,只针对某一系统或个体的某一层面做衰老方面的解释;同时这些指标的测量难度大、成本高;最重要的是这些研究获取的指标大多从具有病理性特征的个体上选取,并不具有针对所有个体的普遍性。血液检测是医学和健康产业中最常见、最简单的检测,血液指标在自然状态下个体差异多样,并且对不同的生理状况反应敏感(炎症或醉酒情况等),因此血液检测在临床上的使用十分普遍。研究表明,个体步入老年后,血液中红细胞数量较青壮年时减少约10%到20%,红细胞比容和血红细胞蛋白量均有降低;白细胞也会随着年龄的增长而降低,其中以淋巴细胞降低的最明显,因此老年人的免疫能力普遍降低,发生感染、炎症和肿瘤的几率增高;白蛋白数量逐渐减少,血脂总量显著升高,甘油三酯含量增加,胆固醇含量增加等。以上血液指标均已被证明是个体衰老的标志物。
现有预测个体年龄的方法只针对个体的某个器官或组织,缺乏对个体衰老的整体描述和解释,无法全面的反应个体衰老情况,同时甲基化相关的标志物、转录组代谢组相关代谢物、端粒长度、免疫细胞数量和应答效果来衡量衰老与个体年龄的方法需要检测的指标获取难度大、成本高,因此,设计了一种使用血液标志物预测年龄的方法,将临床使用上更加普遍、更易获取的血液标志物作为预测个体生理年龄的特征值,也可以更加全面的描述个体衰老情况,具有现实意义和良好的应用前景。
发明内容
针对上述背景技术中的不足,本发明提供一种使用血液标志物预测年龄的方法,更加全面和准确地描述个体生理年龄和衰老特征,且使用更加易获取的标志物,降低了技术成本。
为实现上述目的,本发明提供如下技术方案:一种使用血液标志物预测年龄的方法,其特征在于,包括如下步骤:
第一步,血液标志物数据收集,奇云诺德从多个相关数据库总计获取92062个样本的血液标志物数据,所述每个样本中包含个体年龄和19项血液标志物数据,所述血液标志物数据即为血液生化指标,常见于医院和体检机构的血常规和血液生化指标检测报告单;
第二步,数据预处理,移除有遗漏数据的样本和有明显错误离群值(Outliar)的样本后,总计获得26754例完整样本用于模型的训练和测试,随后对19项血液标志物数据进行标准化处理,将所有标志物数据的数值都映射在[0,1]范围内;
第三步,模型的建立与评估,预处理后的数据按照7:3的比例随机分为训练集和测试集进行模型的训练,使用深度神经网络(DNN)机器学习算法训练26754个样本的19个血液标志物数据,调整隐藏层数量、神经元个数和Dropout数量等模型参数,训练多个生理年龄预测模型;
第四步,模型的测试,在所用的26754个样本数据中,随机获取30%的数据输入模型预测生理年龄,进行模型内部数据的验证,在每个模型上进行对应验证测试,最终挑选其中预测功效最好的模型为生理年龄的预测模型。
优选的,所述19项血液标志物包括白蛋白、葡萄糖、尿素、胆固醇、总蛋白、血清钠、肌酸酐、血红蛋白、总胆红素、甘油三酯、高密度脂蛋白胆固醇、低密度脂蛋白胆固醇、血清钙、血清钾、血细胞比容、平均红细胞血红蛋白浓度、平均红细胞体积、血小板计数和红细胞计数。
优选的,所述生理年龄预测使用深度神经网络(DNN)回归算法。
优选的,所述根据DNN算法建立的生理年龄预测模型使用19个血液标志物作为主要特征,来预测样本的生理年龄。
与现有技术相比,本发明具备以下有益效果:
1. 使用血液标志物为生理年龄的特征值,相较于其他方法更加全面,因为血液标志物中包含多组学代谢物,因此可以更加全面地反应个体衰老状况并解释衰老水平;
2. 使用DNN算法训练出的生理年龄预测模型为机器学习模型,计算度比常规方法高、但是计算难度降低,且预测模型中的各项参数和模型结构经过多次验证,因此用该方法评估个体生理年龄时有更高的准确性和更低的使用难度;
3. 选取的19项血液标志物是临床和体检机构中最常见的指标,常见于血常规和血液生化检测报告单,获取难度低、成本低。
附图说明
图1为本发明流程示意图;
图2为模型性能统计结果。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,一种使用血液标志物预测年龄的方法,该方法是一种利用常见血液标志物对受试者进行生理年龄评估的方法,基于统计学检验获得的19个与生理年龄显著相关的血液标志物为特征,结合公司收集的92062例样本的血液标志物数据及表型数据,利用深度神经网络(DNN)算法构建机器学习模型,并进行内部测试,DNN算法建立的模型经验证,在结果准确率、解释度上都显著高于其他机器学习算法(k近邻算法、随机森林、线性回归、支持向量机等)建立的模型,同时DNN算法引入的隐藏层和神经元增强了模型的表达能力,其在自动缩放神经元权重方面的特性也最大程度的丰富了模型的发展方向。该生理年龄预测方法包括血液标志物数据收集、数据预处理、模型的建立与评估和模型的测试四个步骤,所述血液标志物按照以下方法预测生理年龄:
第一步,血液标志物数据收集,奇云诺德从多个相关数据库总计获取92062个样本的血液标志物数据,所述每个样本中包含个体年龄和19项血液标志物数据,所述血液标志物数据即为血液生化指标,常见于医院和体检机构的血常规和血液生化指标检测报告单;
第二步,数据预处理,移除有遗漏数据的样本和明显错误的离群值(Outliar)的样本后,总计获得26754例完整样本用于模型的训练和测试,随后对19项血液标志物数据进行标准化处理,将所有标志物数据的数值都映射在[0,1]范围内;
第三步,模型的建立与评估,预处理后的数据按照7:3的比例随机分为训练集和测试集进行模型的训练,使用深度神经网络(DNN)机器学习算法训练26754个样本的19个血液标志物数据,调整隐藏层数量、神经元个数和Dropout数量等模型参数,训练多个生理年龄预测模型;
第四步,模型的测试,在所用的26754个样本数据中,随机获取30%的数据输入模型预测生理年龄,进行模型内部数据的验证,在每个模型上进行对应验证测试,最终挑选其中预测功效最好的模型为生理年龄的预测模型。
其中,所述19项血液标志物包括白蛋白、葡萄糖、尿素、胆固醇、总蛋白、血清钠、肌酸酐、血红蛋白、总胆红素、甘油三酯、高密度脂蛋白胆固醇、低密度脂蛋白胆固醇、血清钙、血清钾、血细胞比容、平均红细胞血红蛋白浓度、平均红细胞体积、血小板计数和红细胞计数。
其中,所述生理年龄预测使用深度神经网络(DNN)回归算法。
其中,所述根据DNN算法建立的生理年龄预测模型使用19个血液标志物作为主要特征,来预测样本的生理年龄。
该生理年龄预测方法的测试验证参数包括均方误差(MSE)、平均绝对误差(MAE)、皮尔森相关系数(r)、决定系数(R2)和范围准确率(ε-accuracy),通过设置不同的神经元数量和隐藏层数量,总计构建了7个结构不同的生理年龄预测模型,最后挑选了性能最好的模型作为生理年龄预测模型,模型性能统计结果请参照图2,最优模型的性能为:r=0.82,R2=0.67,MAE=9.45,ε-accuracy=0.634。
模型使用时,仅需将待测样本的19个血液标志物数据传入模型,经预测后将输出待测样本的生理年龄。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (4)

1.一种使用血液标志物预测年龄的方法,其特征在于:包括血液标志物数据收集、数据预处理、模型的建立与评估和模型的测试四个步骤,所述血液标志物按照以下方法预测生理年龄:
第一步,血液标志物数据收集,奇云诺德从多个相关数据库总计获取92062个样本的血液标志物数据,所述每个样本中包含个体年龄和19项血液标志物数据,所述血液标志物数据即为血液生化指标,常见于医院和体检机构的血常规和血液生化指标检测报告单;
第二步,数据预处理,移除有遗漏数据的样本和有明显错误离群值(Outliar)的样本后,总计获得26754例完整样本用于模型的训练和测试,随后对19项血液标志物数据进行标准化处理,将所有标志物数据的数值都映射在[0,1]范围内;
第三步,模型的建立与评估,预处理后的数据按照7:3的比例随机分为训练集和测试集进行模型的训练,使用深度神经网络(DNN)机器学习算法训练26754个样本的19个血液标志物数据,调整隐藏层数量、神经元个数和Dropout数量等模型参数,训练多个生理年龄预测模型;
第四步,模型的测试,在所用的26754个样本数据中,随机获取30%的数据输入模型预测生理年龄,进行模型内部数据的验证,在每个模型上进行对应验证测试,最终挑选其中预测功效最好的模型为生理年龄的预测模型。
2.根据权利要求1所述的一种使用血液标志物预测年龄的方法,其特征在于:所述19项血液标志物包括白蛋白、葡萄糖、尿素、胆固醇、总蛋白、血清钠、肌酸酐、血红蛋白、总胆红素、甘油三酯、高密度脂蛋白胆固醇、低密度脂蛋白胆固醇、血清钙、血清钾、血细胞比容、平均红细胞血红蛋白浓度、平均红细胞体积、血小板计数和红细胞计数。
3.根据权利要求1所述的一种使用血液标志物预测年龄的方法,其特征在于:所述生理年龄预测使用深度神经网络(DNN)回归算法。
4.根据权利要求1所述的一种使用血液标志物预测年龄的方法,其特征在于:所述根据DNN算法建立的生理年龄预测模型使用19个血液标志物作为主要特征,来预测样本的生理年龄。
CN202011281753.6A 2020-11-16 2020-11-16 一种使用血液标志物预测年龄的方法 Withdrawn CN112466402A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011281753.6A CN112466402A (zh) 2020-11-16 2020-11-16 一种使用血液标志物预测年龄的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011281753.6A CN112466402A (zh) 2020-11-16 2020-11-16 一种使用血液标志物预测年龄的方法

Publications (1)

Publication Number Publication Date
CN112466402A true CN112466402A (zh) 2021-03-09

Family

ID=74837989

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011281753.6A Withdrawn CN112466402A (zh) 2020-11-16 2020-11-16 一种使用血液标志物预测年龄的方法

Country Status (1)

Country Link
CN (1) CN112466402A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113380327A (zh) * 2021-03-15 2021-09-10 浙江大学 一种基于全外周血转录组的人体生物学年龄预测与人体衰老程度评估方法
CN113488173A (zh) * 2021-08-02 2021-10-08 广州瑞铂茵健康科技有限公司 一种人体免疫系统生理年龄的确定方法及装置
CN114334170A (zh) * 2022-03-14 2022-04-12 天津云检医学检验所有限公司 一种代谢年龄预测模型及其在结直肠癌诊断中的应用
CN116798518A (zh) * 2023-06-05 2023-09-22 中南大学湘雅医院 基于死亡这一衰老结局构建的代谢物衰老分数、代谢衰老速率及其应用
CN118588299A (zh) * 2024-08-07 2024-09-03 东南大学 基于人工智能的血液透析人群衰老时钟评估方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113380327A (zh) * 2021-03-15 2021-09-10 浙江大学 一种基于全外周血转录组的人体生物学年龄预测与人体衰老程度评估方法
CN113488173A (zh) * 2021-08-02 2021-10-08 广州瑞铂茵健康科技有限公司 一种人体免疫系统生理年龄的确定方法及装置
CN114334170A (zh) * 2022-03-14 2022-04-12 天津云检医学检验所有限公司 一种代谢年龄预测模型及其在结直肠癌诊断中的应用
CN116798518A (zh) * 2023-06-05 2023-09-22 中南大学湘雅医院 基于死亡这一衰老结局构建的代谢物衰老分数、代谢衰老速率及其应用
CN116798518B (zh) * 2023-06-05 2024-03-08 中南大学湘雅医院 构建代谢物衰老分数及代谢衰老速率的方法及其应用
CN118588299A (zh) * 2024-08-07 2024-09-03 东南大学 基于人工智能的血液透析人群衰老时钟评估方法

Similar Documents

Publication Publication Date Title
CN112466402A (zh) 一种使用血液标志物预测年龄的方法
Blanco-Míguez et al. Extending and improving metagenomic taxonomic profiling with uncharacterized species using MetaPhlAn 4
CN111430029B (zh) 基于人工智能的多维度脑卒中预防筛查方法
CN113053535B (zh) 一种医疗信息预测系统及医疗信息预测方法
CN113327679A (zh) 一种肺栓塞临床风险及预后评分方法与系统
CN112786204A (zh) 一种机器学习糖尿病发病风险预测方法及应用
CN108345768B (zh) 一种确定婴幼儿肠道菌群成熟度的方法和标志物组合
CN111175480A (zh) 一种血液生化指标计算性别和年龄的方法
CN114220540A (zh) 一种糖尿病肾病风险预测模型的构建方法及应用
CN113362954A (zh) 一种老年患者术后感染并发症风险预警模型及其建立方法
CN113380327B (zh) 一种人体生物学年龄预测与人体衰老程度评估方法
CN109273093A (zh) 一种川崎病风险评估模型的构建方法及构建系统
CN114512239B (zh) 基于迁移学习的脑卒中风险预测方法及系统
CN111413492A (zh) 一种用于检测新型冠状病毒covid-2019肺炎的方法及系统
CN112509700A (zh) 稳定型冠心病的风险预测方法及装置
CN112509701A (zh) 急性冠脉综合征的风险预测方法及装置
CN113314211A (zh) 一种基于粪便微生物标志物和人dna含量的结直肠癌风险评估的方法及应用
CN113571176A (zh) 一种基于血常规检验数据的抑郁症识别方法
CN113593708A (zh) 基于集成学习算法的脓毒症预后预测方法
CN116564521A (zh) 一种慢性病风险评估模型建立方法、介质及系统
Adi et al. Stroke risk prediction model using machine learning
CN117198517B (zh) 基于机器学习的运动反应性评估和预测模型的建模方法
CN116913382A (zh) 一种基于微生物组测序数据预测肠道年龄指数的人工智能模型和方法
CN117116475A (zh) 缺血性脑卒中的风险预测方法、系统、终端及存储介质
CN116825195A (zh) 一种利用转录组评估免疫年龄和状态的方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20210309