CN116779077A - 基于体检标志物构建生物学年龄及衰老评价的方法及系统 - Google Patents
基于体检标志物构建生物学年龄及衰老评价的方法及系统 Download PDFInfo
- Publication number
- CN116779077A CN116779077A CN202310605992.XA CN202310605992A CN116779077A CN 116779077 A CN116779077 A CN 116779077A CN 202310605992 A CN202310605992 A CN 202310605992A CN 116779077 A CN116779077 A CN 116779077A
- Authority
- CN
- China
- Prior art keywords
- age
- data
- biological
- physical examination
- aging
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 230000032683 aging Effects 0.000 title claims abstract description 59
- 238000011156 evaluation Methods 0.000 title claims abstract description 21
- 239000000090 biomarker Substances 0.000 claims abstract description 71
- 230000001133 acceleration Effects 0.000 claims abstract description 21
- 238000012795 verification Methods 0.000 claims abstract description 16
- 238000012216 screening Methods 0.000 claims abstract description 14
- 238000005070 sampling Methods 0.000 claims abstract description 12
- 230000034994 death Effects 0.000 claims description 66
- 231100000517 death Toxicity 0.000 claims description 66
- 238000012549 training Methods 0.000 claims description 34
- 210000003743 erythrocyte Anatomy 0.000 claims description 17
- 230000036541 health Effects 0.000 claims description 15
- 108010088751 Albumins Proteins 0.000 claims description 8
- 102000002260 Alkaline Phosphatase Human genes 0.000 claims description 8
- 108020004774 Alkaline Phosphatase Proteins 0.000 claims description 8
- 102000017011 Glycated Hemoglobin A Human genes 0.000 claims description 8
- 108010014663 Glycated Hemoglobin A Proteins 0.000 claims description 8
- 102000001554 Hemoglobins Human genes 0.000 claims description 8
- 108010054147 Hemoglobins Proteins 0.000 claims description 8
- 102000004357 Transferases Human genes 0.000 claims description 8
- 108090000992 Transferases Proteins 0.000 claims description 8
- 238000010276 construction Methods 0.000 claims description 8
- 125000000291 glutamic acid group Chemical group N[C@@H](CCC(O)=O)C(=O)* 0.000 claims description 8
- 210000004698 lymphocyte Anatomy 0.000 claims description 8
- 102000003855 L-lactate dehydrogenase Human genes 0.000 claims description 7
- 108700023483 L-lactate dehydrogenases Proteins 0.000 claims description 7
- 238000011282 treatment Methods 0.000 claims description 6
- 102100027211 Albumin Human genes 0.000 claims description 5
- 238000000053 physical method Methods 0.000 claims description 5
- 238000010200 validation analysis Methods 0.000 claims description 5
- 238000000605 extraction Methods 0.000 claims description 3
- 239000000107 tumor biomarker Substances 0.000 claims description 3
- 238000001514 detection method Methods 0.000 abstract description 3
- 230000003712 anti-aging effect Effects 0.000 abstract description 2
- 230000000391 smoking effect Effects 0.000 description 17
- 230000035622 drinking Effects 0.000 description 15
- 210000004369 blood Anatomy 0.000 description 9
- 239000008280 blood Substances 0.000 description 9
- 102000009027 Albumins Human genes 0.000 description 6
- 230000002596 correlated effect Effects 0.000 description 6
- 108010044091 Globulins Proteins 0.000 description 5
- 102000006395 Globulins Human genes 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 230000000875 corresponding effect Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000012417 linear regression Methods 0.000 description 4
- 238000005259 measurement Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000036962 time dependent Effects 0.000 description 4
- 230000002265 prevention Effects 0.000 description 3
- 206010061218 Inflammation Diseases 0.000 description 2
- 206010028980 Neoplasm Diseases 0.000 description 2
- 208000037063 Thinness Diseases 0.000 description 2
- 201000011510 cancer Diseases 0.000 description 2
- 206010012601 diabetes mellitus Diseases 0.000 description 2
- 230000002526 effect on cardiovascular system Effects 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 230000007166 healthy aging Effects 0.000 description 2
- 230000004054 inflammatory process Effects 0.000 description 2
- 210000003734 kidney Anatomy 0.000 description 2
- 210000004185 liver Anatomy 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000009758 senescence Effects 0.000 description 2
- 206010048828 underweight Diseases 0.000 description 2
- 208000017667 Chronic Disease Diseases 0.000 description 1
- 230000007067 DNA methylation Effects 0.000 description 1
- 101710088194 Dehydrogenase Proteins 0.000 description 1
- LFQSCWFLJHTTHZ-UHFFFAOYSA-N Ethanol Chemical compound CCO LFQSCWFLJHTTHZ-UHFFFAOYSA-N 0.000 description 1
- 208000008589 Obesity Diseases 0.000 description 1
- 206010033307 Overweight Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000000091 biomarker candidate Substances 0.000 description 1
- 235000019504 cigarettes Nutrition 0.000 description 1
- 230000001149 cognitive effect Effects 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000035487 diastolic blood pressure Effects 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000002651 drug therapy Methods 0.000 description 1
- 230000001973 epigenetic effect Effects 0.000 description 1
- 238000012854 evaluation process Methods 0.000 description 1
- 230000002431 foraging effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 210000000265 leukocyte Anatomy 0.000 description 1
- 150000002632 lipids Chemical class 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 238000002156 mixing Methods 0.000 description 1
- 230000009456 molecular mechanism Effects 0.000 description 1
- 210000003205 muscle Anatomy 0.000 description 1
- 235000020824 obesity Nutrition 0.000 description 1
- 230000035479 physiological effects, processes and functions Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000003449 preventive effect Effects 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011321 prophylaxis Methods 0.000 description 1
- 108090000623 proteins and genes Proteins 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000013517 stratification Methods 0.000 description 1
- 230000035488 systolic blood pressure Effects 0.000 description 1
- 108091035539 telomere Proteins 0.000 description 1
- 102000055501 telomere Human genes 0.000 description 1
- 210000003411 telomere Anatomy 0.000 description 1
- 235000014101 wine Nutrition 0.000 description 1
Landscapes
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明公开了一种基于体检标志物构建生物学年龄及衰老评价的方法及系统。根据体检数据的结构和特征,考虑数据不平衡问题,设计了一个可最大程度提高数据信息利用率及预测准确性的生物学年龄建模方案及衰老评价方法。包括:应用重复无放回随机抽样的方法解决数据不平衡问题;应用LASSO_Cox算法在平衡数据中筛选有效生物标志物;利用有效生物标志物,基于Levine方法构建生物学年龄Balanced‑AGE;基于验证集验证Balanced‑AGE预测全因死亡风险的能力;通过年龄加速度对衰老进行评价。允许使用者根据其体检数据计算生物学年龄,方便快捷,实现个性化自我健康检测。本发明为识别早期衰老高危人群和建立个性化、精准化抗衰老方案具有较大的指导意义。
Description
技术领域
本发明适于生物学年龄评价技术领域。具体是涉及一种考虑数据不平衡问题、基于健康体检标志物构建生物学年龄及评价衰老的方法及系统,适用于年龄大于等于50岁的人群。
背景技术
个体衰老发生速度有所不同,人类衰老受到多种分子机制的影响,也受到基因和环境交互作用的影响,是一个多因素的复杂过程。衰老是大多数慢性疾病的主要风险之一,从而导致复杂的药物治疗,增加身体和认知残疾的风险。在全球范围内,与年龄有关的疾病的患病率正在迅速增加,导致医疗保健系统和社会的发病率和死亡率负担增加。因此,确定那些“老化速度比正常速度快”的人将有助于早期干预和促进人群健康老龄化,实现人群的二级和三级预防。通常情况下,具有相同日历年龄(Chronological Age,CA)的人可能有完全不同的衰老过程和寿命,表现为对死亡易感性的差异。因此,基于个体的生物和环境因素识别个体的“真实年龄”不仅有利于个体化预防措施的干预,也有利于更好地对普通人群进行医疗保健管理。此外,为了更好地应用推广于人群,这种评估应易于使用现有仪器进行,必须比现有工具更好地捕捉风险分层,并应能够在快速衰老之前区分风险。
当数据中少数类和多数类的样本数量存在较大差距的时,这时的数据存在不平衡现象。医学领域是数据不平衡问题的代表性领域。目前已证实生物学年龄能够很好地预测死亡风险的发生。但是这些研究都没有考虑健康领域数据不平衡的问题,因此本发明将基于大量回顾性常规体检数据以及死亡登记数据,并根据体检数据所特有的结构及特征,考虑数据不平衡问题后,构建并验证了一个新的衰老评价指标-Balanced-AGE,探索其在不同亚人群(包括吸烟、饮酒、不同体重指数(Body Mass Index,BMI)、不同年龄层的人群)中评价死亡风险的能力。
特定生物标志物已经确定了与人体功能、发病率和死亡率相关,因此可用于从生物学角度估计衰老过程。生物年龄定义为通过选定的生物标志物和特定的建模逻辑构建而成的能够测量衰老的独立变量。可以更客观、准确地反映人体在衰老过程中发生的生物学变化。从与身体功能相关的检测(如肌肉质量)、人体测量学(如身BMI)到血液生物标志物(如红细胞分布宽度),广泛的生物标志物已被纳入计算生物学年龄。最突出的是表观遗传时钟(以DNA甲基化年龄(年)表示)和白细胞端粒长度。虽然这些测量方法是显著的年龄预测指标,但是测量数据不易获得,在推广与使用方面存在一定的难度。相反,基于临床可观察数据或体检血液测量指标,往往能够获得更可靠和便捷的预测因子。
体检数据通常能够收集多年的、全面的健康信息,可以提供相应的随访信息。血液和身体的生物标志物,包括身体功能、生物学、病史、生活方式和生活环境都可以从健康检查数据中获得。由于常规体检数据中死亡的比例相对较低,数据存在一定的不平衡,在这样的数据中建模会影响模型的预测精度。亚洲的一些研究虽然在体检数据中构建了生物年龄,但很少关注数据的不平衡。因此,有必要在考虑数据不平衡的情况下,获得一个高准确度预测个体死亡风险的生物学年龄,这对识别衰老过程,建立个性化、精准化抗衰老方案具有重要意义。
发明内容
本发明的目的在于针对现有技术的不足,提供一种基于体检标志物构建生物学年龄及衰老评价的方法及系统。具体是首先考虑数据不平衡问题,重复无放回随机采样方法解决该问题;随后基于健康体检生物标志物构建生物学年龄,并在验证集中验证了该生物学年龄能够预测全因死亡风险,可显著提高预测全因死亡的能力;最后提出了评估人群衰老的方法,可用于具用高危衰老因素的人群的识别。
本发明的目的是通过以下技术方案实现的:一种基于体检标志物构建生物学年龄的方法,包括如下步骤:
(1)采集健康体检人群的体检数据,并获取随访期间的死亡信息;
所述体检数据包括生物标志物数据和身体物理测量数据,所述生物标志物数据包括肾脏、血液、炎症、糖尿病、血脂、肝脏、心血管和癌症信息,所述身体物理测量数据包括日历年龄、体质质量指数(Body,Mass,Index,BMI)、脉搏、收缩压和舒张压信息;
(2)根据采集数据生成验证集,例如随机从采集数据中抽取30%生成验证集;应用重复无放回随机抽样的方法解决数据不平衡问题,生成数据平衡后的训练集;
(3)应用LASSO_Cox算法在数据平衡后的训练集中筛选出有效生物标志物;
(4)利用有效生物标志物,基于Levine方法构建生物学年龄,记为Balanced-AGE;
(5)在验证集上验证构建的生物学年龄的准确性。
数据平衡处理过程是一个技术亮点,当数据的非死亡数量远大于死亡数量时,数据就会出现“数据不平衡”的现象。应用该数据建立的模型其预测精度会降低,这种情况在医学领域尤为突出。因此解决数据不平衡问题,能够获得更好的训练模型。本发明采用重复随机无放回采样方法来解决数据不平衡问题。该过程固定死亡样本信息,配比不同的非死亡样本,充分利用数据中与死亡有关的衰老指标,最大限度地提高数据的利用率。
作为一种实施方案,应用重复无放回随机抽样的方法解决数据不平衡问题,具体过程为:
根据随访期间的死亡信息,将健康体检数据集N分为死亡样本集N1和非死亡样本集N0;在死亡样本集N1中,将死亡样本随机分为训练集Train-N1和剩余样本集Nrest;在非死亡样本集N0中,随机去除与剩余样本集Nrest样本数相同的非死亡样本,保证样本的随机性;在剩余的非死亡样本集N0中随机无放回抽取与训练集Train-N1样本数相同的非死亡样本,得到的样本集记为Train-N0,并与训练集Train-N1共同组成新的数据集记为Sub-train,即平衡子训练集(这里死亡和非死亡人数相同),直到非死亡样本集N0中的样本抽完为止,最后共生成(|N0|-|Nrest|)/|Train-N1|个平衡子训练集;以上步骤基于重复随机无放回原理,充分利用了采集数据中死亡相关信息,能够最大限度地提高数据的利用率,切实提高所构建的生物学年龄的预测能力。
如何大量的数据中筛选出针对衰老具有代表性的生物标志物是另一个技术亮点。为了消除各变量单位量纲不同对筛选生物标志物过程的影响,在每个平衡子训练集中,首先对采集的健康体检数据进行标准化,然后考虑死亡率对衰老的影响采用LASSO_Cox算法进行变量的筛选,采用十倍交叉验证来选择参数值lambda用于惩罚回归,在每个平衡子训练集中选择生物标志物,去除相互相关性强但对年龄估计贡献相对较小的生物标志物,最后根据出现率大于设定阈值的生物标志物确定最终的有效生物标志物组合M。应用统计的思想筛选生物标志物,既考虑了生物标志物之间的共线性,同时也将与死亡随访有关的衰老信息考虑进来,最大限度地选择出具有代表性的衰老生物标志物组合M。作为一种实施方案,理想情况下,所有可能的生物标志物都可以用来估计生物学年龄,但最佳衰老生物标志物组合应包括最具代表性的生物标志物。
对于生物标志物的选择,在一种优选实施方案中,筛选出的有效生物标志物包括以下13种:日历年龄、性别、白蛋白、平均红细胞血红蛋白浓度、红细胞分布宽度、淋巴细胞百分比、糖化血红蛋白、碱性磷酸酶、谷氨酰转移酶、乳酸脱氢酶、白球比、CA199、CA125。利用上述这些标志物数据构建的生物学年龄Balanced-AGE预测死亡风险的能力较好。
算法的选择是本发明需要克服的难点。算法被众多学者用来基于标志物预测时序年龄,或者从标志物与年龄关系中提取信息,进而构建生物学年龄评价指标。如主成分分析,多元线性回归,Klemera和Double method这些都是基于不同的衰老生物标志物集合来构建相应的生物学年龄。但是这些算法并没考虑到因衰老而出现的死亡对生物年龄构建的影响。Levine等人基于惩罚Cox回归模型筛选出日历年龄和9种临床血液标志物,然后通过死亡风险Gompertz分布的参数比例风险模型构建生物学年龄(PhenotypicAge),与日历年龄相关性达到0.94。其原理是,首先假设一个人在相同的日历年龄的时候死亡概率不变,然后基于2个Gompertz险模型的参数化公式——一个使用所有10个选定变量(日历年龄加9种临床血液标志物),另一个只使用日历年龄,通过推算得到计算PhenotypicAge的公式。其推演细节详见参考文献(Levine et al.2018)。PhenotypicAge可以解释衰老对死亡的长期影响,同时提高预测死亡风险的能力。PhenotypicAge的计算公式如下:
其中,F(t,xb)为基于所选有效生物标志物计算出的Gompertz模型的概率密度函数;xb为拟合Gompertz模型中有效生物标志物的线性组合;t为最长随访时间,单位为月,例如可设置t=165月;b0,b1,γ是基于仅包含日历年龄的Gompertz模型估计的参数。
作为一种优选实施方案,本发明采用日历年龄、性别、白蛋白、平均红细胞血红蛋白浓度、红细胞分布宽度、淋巴细胞百分比、糖化血红蛋白、碱性磷酸酶、谷氨酰转移酶、乳酸脱氢酶、白球比、CA199、CA125这13种有效生物标志物构建的生物学年龄Balanced-AGE的计算公式为:
Balanced-AGE=xb/0.000598+231.4236
xb=CA*0.045527-ALB*0.02657+ALP*0.002692-A_G*0.36361+GGT*0.000782+HGB*0.003425+LDH*0.001288-LY%*0.01507-MCHC*0.01312+RDW*0.109331+CA125*0.001773+CA199*0.001119-GENDER*0.34207-7.654043569
其中,Balanced-AGE为所构建的生物学年龄指标,CA为日历年龄(年)、ALB为白蛋白(G/L)、ALP为碱性磷酸酶(U/L)、A_G为白球比、GGT为谷氨酰转移酶(U/L)、HGB为糖化血红蛋白(G/L)、LDH为乳酸脱氢酶(U/L)、LY%为淋巴细胞百分比(%)、MCHC为平均红细胞血红蛋白浓度(U/L)、RDW为红细胞分布宽度(U/L)、CA199与CA125为癌症生物标志物(KU/L)、GENDER为性别。
为了消除日历年龄对衰老过程的影响,本发明在后期分析中定义年龄加速度记为AGE-ACC用于对衰老进行评价。AGE-ACC的含义为Balanced-AGE与日历年龄之间的差值。如果AGE-ACC=0,个体的Balanced-AGE与日历年龄之间没有差异;如果AGE-ACC>0,表示与日历年龄相比生理年龄较大,被认为具有更高的衰老程度,个体衰老加快;如果AGE-ACC<0,表示与日历年龄相比生理年龄较小,则被认为机体更加年轻化,个体衰老变慢。
作为一种实施方案,本发明对得到的生物学年龄进行模型评估。在验证集上采用预测全因死亡的3、5、10年AUC值评估所构建的生物学年龄的预测能力。采用Cox比例风险模型评估Balanced-AGE与全因死亡之间的风险,记录风险比(HR,Hazard Ratio)和P值。HR>1,P值<0.05,则认为生物学年龄Balanced-AGE与全因死亡显著相关。为了排除潜在的混杂效应,执行以下操作:1)调整日历年龄、性别、BMI、吸烟和饮酒状态;2)按日历年龄、性别、BMI、吸烟和饮酒情况进行分层分析。采用多元线性回归模型分析不同吸烟、饮酒、BMI、年龄的人群衰老的差异。
本发明还提供一种基于上述方法实现的生物学年龄构建系统,该系统包括如下模块:
数据采集模块:采集健康体检人群的体检数据,并获取随访期间的死亡信息;所述体检数据包括生物标志物数据和身体物理测量数据;根据采集数据生成验证集;
数据平衡模块:应用重复无放回随机抽样的方法解决数据不平衡问题,生成数据平衡后的训练集;
生物标志物筛选模块:应用LASSO_Cox算法在数据平衡后的训练集中筛选出有效生物标志物;
生物学年龄构建模块:利用筛选出的有效生物标志物,基于Levine方法构建生物学年龄,记为Balanced-AGE;
生物学年龄验证模块:在验证集上验证构建的生物学年龄的准确性。
本发明还提供一种基于上述生物学年龄构建系统实现的衰老评价系统,该系统定义年龄加速度记为AGE-ACC用于对衰老进行评价,AGE-ACC的含义为生物学年龄构建系统获得的Balanced-AGE与日历年龄之间的差值,即一个人在生理上是否比预期的更老或更年轻;如果AGE-ACC=0,个体的Balanced-AGE与日历年龄之间没有差异;如果AGE-ACC>0,表示与日历年龄相比生理年龄较大,被认为具有更高的衰老程度;如果AGE-ACC<0,表示与日历年龄相比生理年龄较小,则被认为机体更加年轻化。
本发明基于体检标志物构建生物学年龄及衰老评价方法,旨在开发一种适合中国人群的年龄评价指标(Balanced-AGE),对模型进行优化得到最优生物学年龄计算方法。本发明应用重复随机无放回采样方法解决了数据不平衡问题,采用统计学LASSO_Cox算法筛选生物标志物,最终共13个具有代表性的(涵盖肾脏、血液、炎症、糖尿病、血脂、肝脏、心血管、癌症相关生物标志物和身体物理指标)生物标志物纳入模型,运用Levine方法构建了Balanced-AGE。通过验证证明,Balanced-AGE能够非常精确的预测中国中老年人群的全因死亡风险。同时本发明进一步评估了Balanced-AGE与全因死亡率的相关关系;提出了衰老的评价方法。使用者应用本发明可利用较容易获得的健康体检数据中的生物标志物较为准确地计算自己的生物学年龄,无需特殊检测,方便快捷。对制定个性化衰老预防方案与实施人群中二级、三级衰老预防具有一定的指导意义。
本发明证明,在死亡风险的Cox比例风险模型中,Balanced-AGE估计独立于日历年龄可以预测全因死亡风险,模型在死亡精确度预测方面提升很高。本发明进一步证明这些死亡预测在不同的亚人群中都是可靠的,特别是按年龄、性别、吸烟、饮酒和BMI的分层情况下。
本发明的衰老评价方法(衰老加速度:AGE-ACC)可以识别衰老快速和衰老慢速的人群,证明了不同吸烟,烟酒,BMI,年龄人群的衰老速度的差异。对临床识别高危衰老人群,及时制定健康衰老的干预方案有一定的指导意义。
总的来说,本发明证明了在高度不平衡的体检数据中估算生物年龄(Balanced-AGE)的有效方法,这一措施被证明是一个有前途的死亡率预测指标。Balanced-AGE可以作为一个独立的指标来识别衰老过程。更重要的是,它对死亡率的预测是稳健的,而不受年龄和生活方式的影响。此外,该测量还揭示了不同年龄组和吸烟、饮酒和BMI亚组的年龄加速度的差异。这些研究结果表明,这种新的衰老测量方法可以用于对风险参与者实施早期干预,并可以评估人体衰老。Balanced-AGE在初级和临床预防中的实际应用具有实用性,应用前景巨大。
附图说明
图1为本发明实施例提供的Balanced-AGE的构建框架及评价过程。
图2为Balanced-AGE与日历年龄的相关情况、年龄加速度分布及筛选得到的13个生物学标志物的Pearson相关系数矩阵。其中,(A)Balanced-AGE与日历年龄的相关关系;(B)年龄加速度AGE-ACC分布;(C)生物标志物的相关系数矩阵;Balanced-AGE为本发明构建的生物学年龄,CA为日历年龄。
图3为预测3年、5年和10年全因死亡的受试者工作特征曲线。其中(A)3年时间依赖性ROC曲线;(B)5年时间依赖性ROC曲线;(C)10年时间依赖性ROC曲线;Balanced-AGE为本发明构建的生物学年龄,CA为日历年龄。
图4为Balanced-AGE(每5年)与死亡率之间的关系。按年龄、性别、BMI、吸烟和饮酒进行分层。
具体实施方式
下面结合实施例和附图对本发明做进一步说明。
实施例的具体内容如下:
采用重复无放回随机抽样方法,考虑数据不平衡问题对数据进行预处理。
综合考虑死亡随访信息与统计学标准,应用Levine算法在浙二(2008年1月-2020年10月)年龄大于等于50岁的体检人群中构建生物学年龄评价指标。
本研究收集了2008年1月至2020年10月在浙江大学医学院附属第二医院进行常规体检的73261人的大范围基线资料。在随访期间,我们排除了体检项目缺失、记录不完整或政府颁发的身份证件无效的参与者(n=18,465)。最终有效分析样本包括54,796名基线入组时50岁及以上的参与者。本研究获得了浙江大学医学院附属第二医院机构审查委员会批准。
获取数据后,对数据进行平衡处理,并筛选获得最佳的有效生物标志物组合。根据随访期间的死亡信息,将健康体检数据集N分为死亡样本集N1和非死亡样本集N0;在死亡样本集N1中,将死亡样本按设定比例随机分为训练集Train-N1和剩余样本集Nrest,本实施例中比例设置为3:7;在非死亡样本集N0中,随机去除与剩余样本集Nrest样本数相同的非死亡样本,保证样本的随机性;在剩余的非死亡样本集N0中随机无放回抽取与训练集Train-N1样本数相同的非死亡样本,得到的样本集记为Train-N0,并与训练集Train-N1共同组成新的数据集记为Sub-train,即平衡子训练集(这里死亡和非死亡人数相同),直到非死亡样本集N0中的样本抽完为止,最后共生成(|N0|-|Nrest|)/|Train-N1|个平衡子训练集。在每个平衡子训练集中,对采集的健康体检数据进行标准化,通过统计学LASSO_Cox算法在每一个Sub-train数据中选择生物标志物。浙江大学医学院附属第二医院常规体检数据共45个候选生物标志物。对于具有多个Sub-train,使用LASSO_Cox算法在每个Sub-train中筛选生物标志物。最后将出现率大于设定阈值的生物标志物作为构建Balanced-AGE的生物标志物,本实施例中阈值设置为60%。去除变量间相关性强(相关系数r>0.7,见图2中的(C))但对年龄估计贡献相对较小的生物标志物。例如:球蛋白(GLOB)与白球比(A/G)高度相关(相关系数r=-0.89,P值<0.05),并且对死亡率的贡献相对较小(单独预测死亡的Cox回归模型得出GLOB:HR=1.088vs A/G:HR=0.192),因此剔除了球蛋白(GLOB)。最终选出13个生物标志物(日历年龄、性别、为白蛋白、平均红细胞血红蛋白浓度、红细胞分布宽度、淋巴细胞百分比、糖化血红蛋白、碱性磷酸酶、谷氨酰转移酶、乳酸脱氢酶、白球比、CA199与CA125)被用作Balanced-AGE计算。
本实施例中,将BMI分为4个水平(体重过轻:≤18.5kg/m2;正常:18.5<BMI≤24kg/m2;超重:25<BMI≤28kg/m2;肥胖:>28kg/m2)。年龄分为3个年龄组(50-59岁、60-69岁和≥70岁).根据患者吸烟史和饮酒史,将吸烟状态分为从不吸烟、曾经吸烟和目前吸烟。饮酒状态分为从不饮酒、曾经饮酒和目前饮酒。
Levine算法模型如下:
其中,F(t,xb)为基于所选有效生物标志物计算出的Gompertz模型的概率密度函数;xb为拟合Gompertz模型中有效生物标志物的线性组合;t为最长随访时间,单位为月,本实施例中设置t=165月。
基于Levine算法模型,利用筛选出来的13个生物标志物,构建了一种更具有普适性的生物学年龄-Balanced-AGE,公式如下:
Balanced-AGE=xb/0.000598+231.4236
xb=CA*0.045527-ALB*0.02657+ALP*0.002692-A_G*0.36361+GGT*0.000782+HGB*0.003425+LDH*0.001288-LY%*0.01507-MCHC*0.01312+RDW*0.109331+CA125*0.001773+CA199*0.001119-GENDER*0.34207-7.654043569
其中,Balanced-AGE为根据采集的健康体检数据构建的生物学年龄指标,CA为日历年龄(年)、ALB为白蛋白(G/L)、ALP为碱性磷酸酶(U/L)、A_G为白球比、GGT为谷氨酰转移酶(U/L)、HGB为糖化血红蛋白(G/L)、LDH为乳酸脱氢酶(U/L)、LY%为淋巴细胞百分比(%)、MCHC为平均红细胞血红蛋白浓度(U/L)、RDW为红细胞分布宽度(U/L)、CA199与CA125为癌症生物标志物(KU/L)、GENDER为性别。线性组合的Gompertz系数见表1。
表1:Balanced-AGE的Gompertz系数及单位
变量 | Balanced-AGE | 单位 |
日历年龄 | 0.0455 | 年 |
性别 | -0.03421 | - |
白蛋白 | -0.0266 | G/L |
平均红细胞血红蛋白浓度 | -0.0131 | U/L |
红细胞分布宽度 | 0.1093 | U/L |
淋巴细胞百分比 | -0.0151 | % |
糖化血红蛋白 | 0.0034 | G/L |
碱性磷酸酶 | 0.0027 | U/L |
谷氨酰转移酶 | 0.0008 | U/L |
乳酸脱氢酶 | 0.0013 | U/L |
白球比 | 0.3636 | - |
CA199 | 0.0011 | KU/L |
CA125 | 0.0018 | KU/L |
Constant | -7.654 | - |
γ | 0.0007 | - |
生物学年龄Balanced-AGE、年龄加速度AGE-ACC在不同亚组中的详细情况见表2。可以看到,Balanced-AGE的均值为52.94±9.72岁,AGE-ACC的均值为-4.84±6.94岁。日历年龄与Balanced-AGE高度相关(如图2中(A)所示,相关系数r=0.701,P<0.001);年龄加速度呈现出正态分布(如图2中(B)所示)。
表2:不同特征受试者的Balanced-AGE与年龄加速度AGE-ACC分布特征
作为一种实施方案,本发明对得到的生物学年龄在验证集上采用预测全因死亡的3、5、10年AUC值评估所构建的生物学年龄的预测能力。采用Cox比例风险模型评估Balanced-AGE与全因死亡之间的估计风险,记录风险比(HR,Hazard Ratio)和P值。HR>1,P值<0.05,则认为生物学年龄Balanced-AGE与全因死亡显著相关。为了排除潜在的混杂效应,执行以下操作:1)调整日历年龄、性别、BMI、吸烟和饮酒状态;2)按日历年龄、性别、BMI、吸烟和饮酒情况进行分层分析。采用多元线性回归模型分析不同吸烟、饮酒、BMI、年龄的人群衰老的差异。
如图3所示,总体而言,Balanced-AGE在预测死亡风险方面优于日历年龄。在预测3年全因死亡率(AUC:0.776vs 0.734,P<0.0001)和5年全因死亡率(AUC:0.802vs 0.763,P<0.0001)方面,Balanced-AGE对应的AUC值略好于日历年龄(如图3中(A)、图3中(B)所示);但在预测10年全因死亡率时,Balanced-AGE对应的预测精度达到最佳,AUC高达0.908(AUC:0.908vs 0.773,P<0.0001),两者的时间依赖性ROC曲线具有很大的区分度(如图3中(C)所示)。总体而言,与日历年龄相比,Balanced-AGE在预测长期随访期间的全因死亡风险方面具有最佳的识别能力。
采用Cox比例风险模型评估Balanced-AGE与全因死亡之间的估计风险。如图4所示,Balanced-AGE与全因死亡率密切相关。基线时Balanced-AGE越高的患者死亡率越高。在调整年龄、性别、吸烟、饮酒和BMI后,Balanced-AGE每增加5年,死亡风险增加45%(HR=1.45,95%的可信区间:1.38-1.52,P<0.0001)。考虑到需要在不同人群中推广老龄化措施,本实施例检查了亚组人群Balanced-AGE与全因死亡风险的相关性。例如,Balanced-AGE每增加5年,50-60岁年龄组的死亡风险增加53%(P<0.0001),60-69岁和≥70岁年龄组的死亡风险分别增加46%和38%(P<0.0001)。在不同年龄组中,Balanced-AGE与全因死亡风险高度相关,在低年龄组(50-59岁)中,Balanced-AGE与死亡风险的相关性更强(HR=1.53vs HR=1.46vs HR=1.38)。此外,当研究性别、吸烟、饮酒和BMI组的死亡率时发现Balanced-AGE在所有分层组中都是可预测的,且结果稳健。
对性别、吸烟、饮酒、BMI设置亚组,采用多元线性回归模型,调整混杂因素后分析不同组别之间年龄加速度的变化。表3中,可以发现男性在生理上比女性平均衰老加速5.36年(P<0.0001)。与从不吸烟者相比,曾经吸烟者和正在吸烟者的年龄加速度分别增加了0.76年(P<0.0001)和0.60年(P<0.0001)。与从不饮酒者相比,曾经饮酒者和现在饮酒者的年龄加速度分别增加了-0.45(P=0.0266)岁和0.55岁(P<0.0001)。与正常BMI人群相比,超重和体重不足人群的年龄加速度更高,尤其是体重不足人群的年龄加速度增长最大,增加了0.66年(P=0.0012);肥胖人群年龄加速度增加-0.12年(P=0.0420)。
表3:年龄加速度在不同人群中的变化
因变量年龄加速度AGE-ACC为Balanced-AGE与日历年龄的差值。
综上,本发明在考虑体检数据不平衡问题后,使用13种生物标志物开发了一种适合中国人群的年龄评价指标(Balanced-AGE),并对模型进行优化。通过验证发现,Balanced-AGE能够非常出色地预测全因死亡。本发明进一步评估了Balanced-AGE与全因死亡风险的相关性,识别衰老速度快的高危人群,探究年龄加速度在不同亚组人群中的差别与关联性,并提供有针对性且更加及时的健康指导及干预。同时本发明构建的Balanced-AGE允许使用者根据自己的常规体检数据计算基于当次体检数据的生物学年龄,并为衰老提供一定的参考。这都证实本发明所构建的生物学年龄能够方便快捷地计算个人的生物学年龄,使用价值极高。
在一个实施例中,提供一种基于上述方法实现的生物学年龄构建系统,包括如下模块:
数据采集模块:采集健康体检人群的体检数据,并获取随访期间的死亡信息;所述体检数据包括生物标志物数据和身体物理测量数据;根据采集数据生成验证集;
数据平衡模块:应用重复无放回随机抽样的方法解决数据不平衡问题,生成数据平衡后的训练集;
生物标志物筛选模块:应用LASSO_Cox算法在数据平衡后的训练集中筛选出有效生物标志物;
生物学年龄构建模块:利用筛选出的有效生物标志物,基于Levine方法构建生物学年龄,记为Balanced-AGE;
生物学年龄验证模块:在验证集上验证构建的生物学年龄的准确性。
在一个实施例中,提供一种基于上述生物学年龄构建系统实现的衰老评价系统,该系统定义年龄加速度记为AGE-ACC用于对衰老进行评价,AGE-ACC的含义为生物学年龄构建系统获得的Balanced-AGE与日历年龄之间的差值,即一个人在生理上是否比预期的更老或更年轻;如果AGE-ACC=0,个体的Balanced-AGE与日历年龄之间没有差异;如果AGE-ACC>0,表示与日历年龄相比生理年龄较大,被认为具有更高的衰老程度;如果AGE-ACC<0,表示与日历年龄相比生理年龄较小,则被认为机体更加年轻化。
以上所述仅为本说明书一个或多个实施例的较佳实施例而已,并不用以限制本说明书一个或多个实施例,凡在本说明书一个或多个实施例的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本说明书一个或多个实施例保护的范围之内。
Claims (10)
1.一种基于体检标志物构建生物学年龄的方法,其特征在于,包括如下步骤:
(1)采集健康体检人群的体检数据,并获取随访期间的死亡信息;所述体检数据包括生物标志物数据和身体物理测量数据;
(2)根据采集数据生成验证集;应用重复无放回随机抽样的方法解决数据不平衡问题,生成数据平衡后的训练集;
(3)应用LASSO_Cox算法在数据平衡后的训练集中筛选出有效生物标志物;
(4)利用有效生物标志物,基于Levine方法构建生物学年龄,记为Balanced-AGE;
(5)在验证集上验证构建的生物学年龄的准确性。
2.根据权利要求1所述的一种基于体检标志物构建生物学年龄的方法,其特征在于,步骤(2)中,应用重复无放回随机抽样的方法解决数据不平衡问题具体为:
根据随访期间的死亡信息,将健康体检数据集N分为死亡样本集N1和非死亡样本集N0;在死亡样本集N1中,将死亡样本随机分为训练集Train-N1和剩余样本集Nrest;在非死亡样本集N0中,随机去除与剩余样本集Nrest样本数相同的非死亡样本,保证样本的随机性;在剩余的非死亡样本集N0中随机无放回抽取与训练集Train-N1样本数相同的非死亡样本,得到的样本集记为Train-N0,并与训练集Train-N1共同组成新的数据集记为Sub-train,即平衡子训练集,直到非死亡样本集N0中的样本抽完为止,最后共生成(|N0|-|Nrest|)/|Train-N1|个平衡子训练集。
3.根据权利要求2所述的一种基于体检标志物构建生物学年龄的方法,其特征在于,步骤(3)中筛选生物标志物具体为:
对采集的健康体检数据进行标准化,通过统计学LASSO_Cox算法在每个平衡子训练集中选择生物标志物,要求生物标志物在衰老过程中具有作用;将所有平衡子训练集中出现率大于设定阈值的生物标志物作为构建生物学年龄的有效生物标志物组合M。
4.根据权利要求3所述的一种基于体检标志物构建生物学年龄的方法,其特征在于,步骤(3)中,所述有效生物标志物组合M包括:日历年龄、性别、白蛋白、平均红细胞血红蛋白浓度、红细胞分布宽度、淋巴细胞百分比、糖化血红蛋白、碱性磷酸酶、谷氨酰转移酶、乳酸脱氢酶、白球比、CA199、CA125。
5.根据权利要求3所述的一种基于体检标志物构建生物学年龄的方法,其特征在于,步骤(4)中构建生物学年龄Balanced-AGE的方法具体为:
将有效生物标志物组合M重新带入每个平衡子训练集中,计算每个平衡子训练集中每个生物标志物对应的Gompertz系数,计算每个生物标志物在所有平衡子训练集中的平均Gompertz系数,采用Levine方法构建生物学年龄Balanced-AGE。
6.根据权利要求4所述的一种基于体检标志物构建生物学年龄的方法,其特征在于,步骤(4)中,Levine方法构建生物学年龄的公式如下:
其中,PhenotypicAge为采用Levine方法构建的生物学年龄,单位为岁;F(t,xb)为基于所选有效生物标志物计算出的Gompertz模型的概率密度函数;t为最长随访时间,单位为月;xb为拟合Gompertz模型中有效生物标志物的线性组合;b0,b1,γ是基于仅包含日历年龄的Gompertz模型估计的参数。
7.根据权利要求6所述的一种基于体检标志物构建生物学年龄的方法,其特征在于,步骤(4)中,根据步骤(1)采集的健康体检数据及随访期间的死亡信息计算生物学年龄,公式如下:
Balanced-AGE=xb/0.000598+231.4236
xb=CA*0.045527-ALB*0.02657+ALP*0.002692-A_G*0.36361+GGT*0.000782+HGB*0.003425+LDH*0.001288-LY%*0.01507-MCHC*0.01312+RDW*0.109331+CA125*0.001773+CA199*0.001119-GENDER*0.34207-7.654043569
其中,Balanced-AGE为根据采集的健康体检数据构建的生物学年龄指标,CA为日历年龄(年)、ALB为白蛋白(G/L)、ALP为碱性磷酸酶(U/L)、A_G为白球比、GGT为谷氨酰转移酶(U/L)、HGB为糖化血红蛋白(G/L)、LDH为乳酸脱氢酶(U/L)、LY%为淋巴细胞百分比(%)、MCHC为平均红细胞血红蛋白浓度(U/L)、RDW为红细胞分布宽度(U/L)、CA199与CA125为癌症生物标志物(KU/L)、GENDER为性别。
8.根据权利要求1所述的一种基于体检标志物构建生物学年龄的方法,其特征在于,对构建的生物学年龄进行评估:在验证集上采用预测全因死亡的3、5、10年AUC值评估所构建的生物学年龄的预测能力。
9.一种基于权利要求1-8任一项方法得到的生物学年龄进行衰老评价的方法,其特征在于,该方法定义年龄加速度记为AGE-ACC用于对衰老进行评价,AGE-ACC的含义为Balanced-AGE与日历年龄之间的差值,即一个人在生理上是否比预期的更老或更年轻;如果AGE-ACC=0,个体的Balanced-AGE与日历年龄之间没有差异;如果AGE-ACC>0,表示与日历年龄相比生理年龄较大,被认为具有更高的衰老程度;如果AGE-ACC<0,表示与日历年龄相比生理年龄较小,则被认为机体更加年轻化。
10.一种基于权利要求1-8中任一项所述方法实现的生物学年龄构建系统,其特征在于,包括如下模块:
数据采集模块:采集健康体检人群的体检数据,并获取随访期间的死亡信息;所述体检数据包括生物标志物数据和身体物理测量数据;根据采集数据生成验证集;
数据平衡模块:应用重复无放回随机抽样的方法生成数据平衡后的训练集;
生物标志物筛选模块:应用LASSO_Cox算法在数据平衡后的训练集中筛选出有效生物标志物;
生物学年龄构建模块:利用筛选出的有效生物标志物,基于Levine方法构建生物学年龄,记为Balanced-AGE;
生物学年龄验证模块:在验证集上验证构建的生物学年龄的准确性。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310605992.XA CN116779077A (zh) | 2023-05-26 | 2023-05-26 | 基于体检标志物构建生物学年龄及衰老评价的方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310605992.XA CN116779077A (zh) | 2023-05-26 | 2023-05-26 | 基于体检标志物构建生物学年龄及衰老评价的方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116779077A true CN116779077A (zh) | 2023-09-19 |
Family
ID=87985100
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310605992.XA Pending CN116779077A (zh) | 2023-05-26 | 2023-05-26 | 基于体检标志物构建生物学年龄及衰老评价的方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116779077A (zh) |
-
2023
- 2023-05-26 CN CN202310605992.XA patent/CN116779077A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210041440A1 (en) | Methods and apparatus for identifying disease status using biomarkers | |
Mayeux | Biomarkers: potential uses and limitations | |
RU2640568C2 (ru) | Способы и системы для оценки риска рака желудочно-кишечного тракта | |
Gill et al. | Validity of the mental health component scale of the 12-item Short-Form Health Survey (MCS-12) as measure of common mental disorders in the general population | |
Pincus et al. | Quantitative measures for assessing rheumatoid arthritis in clinical trials and clinical care | |
Kondoh et al. | Validation of the Japanese disease severity classification and the GAP model in Japanese patients with idiopathic pulmonary fibrosis | |
JP2022540157A (ja) | 感染に対する免疫応答を評価するためのシステムおよび方法 | |
EP3416653A1 (en) | Method and system for early risk assessment of preterm delivery outcome | |
Satapathy et al. | Human bancroftian filariasis: immunological markers of morbidity and infection | |
CN116864062B (zh) | 一种基于互联网的健康体检报告数据分析管理系统 | |
CN111816307B (zh) | 基于临床标志物构建中国人群生物学年龄评价模型的方法及评价方法 | |
Yu et al. | Changes of peripheral lymphocyte subset in patients with SARS-CoV-2 infection during the whole course of disease | |
CN114121162B (zh) | 一种关于免疫力评估的方法 | |
CN116779077A (zh) | 基于体检标志物构建生物学年龄及衰老评价的方法及系统 | |
Okeahialam et al. | Abdominal height measures cardiometabolic risk better than body mass index: result of a preliminary study | |
CN107610780B (zh) | 一种生理信息数据的分析评价系统及方法 | |
Bahadure et al. | Anemia Detection and Classification Using Data Analysis of Blood Samples | |
US20240266062A1 (en) | Disease risk evaluation method, disease risk evaluation system, and health information processing device | |
CN118039146A (zh) | 一种基于生活质量和聚类分析的疗效预测方法及系统 | |
Miraglia Raineri et al. | Underestimated Needs for Lymphoma Patients: An Assessment Issue | |
CN118609837A (zh) | 一种cip的预测模型、构建方法和预测系统 | |
Grotto et al. | Underestimated Needs for Lymphoma Patients: An Assessment Issue. | |
CN117092343A (zh) | 一种用于检测人体免疫年龄的试剂盒以及人体免疫年龄确定方法、装置、系统和存储介质 | |
WO2023275568A1 (en) | Anomaly detection based on complete blood counts using machine learning | |
WO2023086639A1 (en) | Methods for defining stages and progression of amyotrophic lateral sclerosis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |