CN111816307A - 基于临床标志物构建中国人群生物学年龄评价模型的方法及评价方法 - Google Patents
基于临床标志物构建中国人群生物学年龄评价模型的方法及评价方法 Download PDFInfo
- Publication number
- CN111816307A CN111816307A CN202010292872.5A CN202010292872A CN111816307A CN 111816307 A CN111816307 A CN 111816307A CN 202010292872 A CN202010292872 A CN 202010292872A CN 111816307 A CN111816307 A CN 111816307A
- Authority
- CN
- China
- Prior art keywords
- age
- biological age
- markers
- model
- biological
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 239000003550 marker Substances 0.000 title claims abstract description 38
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000011156 evaluation Methods 0.000 title claims abstract description 32
- 238000013210 evaluation model Methods 0.000 title claims abstract description 20
- 201000010099 disease Diseases 0.000 claims abstract description 66
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims abstract description 66
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 21
- 230000032683 aging Effects 0.000 claims abstract description 13
- 230000006870 function Effects 0.000 claims abstract description 10
- 230000000694 effects Effects 0.000 claims abstract description 8
- 230000001991 pathophysiological effect Effects 0.000 claims abstract description 6
- 238000010276 construction Methods 0.000 claims abstract description 4
- HVYWMOMLDIMFJA-DPAQBDIFSA-N cholesterol Chemical compound C1C=C2C[C@@H](O)CC[C@]2(C)[C@@H]2[C@@H]1[C@@H]1CC[C@H]([C@H](C)CCCC(C)C)[C@@]1(C)CC2 HVYWMOMLDIMFJA-DPAQBDIFSA-N 0.000 claims description 36
- DDRJAANPRJIHGJ-UHFFFAOYSA-N creatinine Chemical compound CN1CC(=O)NC1=N DDRJAANPRJIHGJ-UHFFFAOYSA-N 0.000 claims description 32
- 230000034994 death Effects 0.000 claims description 22
- 231100000517 death Toxicity 0.000 claims description 22
- XSQUKJJJFZCRTK-UHFFFAOYSA-N Urea Chemical compound NC(N)=O XSQUKJJJFZCRTK-UHFFFAOYSA-N 0.000 claims description 21
- 239000004202 carbamide Substances 0.000 claims description 21
- 108010074051 C-Reactive Protein Proteins 0.000 claims description 20
- 102100032752 C-reactive protein Human genes 0.000 claims description 19
- 230000035488 systolic blood pressure Effects 0.000 claims description 19
- 235000012000 cholesterol Nutrition 0.000 claims description 18
- 102000017011 Glycated Hemoglobin A Human genes 0.000 claims description 16
- 229940109239 creatinine Drugs 0.000 claims description 16
- 108091005995 glycated hemoglobin Proteins 0.000 claims description 16
- 206010020751 Hypersensitivity Diseases 0.000 claims description 14
- 210000003743 erythrocyte Anatomy 0.000 claims description 10
- 150000003626 triacylglycerols Chemical class 0.000 claims description 10
- 108050000784 Ferritin Proteins 0.000 claims description 9
- 102000008857 Ferritin Human genes 0.000 claims description 9
- 238000008416 Ferritin Methods 0.000 claims description 9
- 102000004338 Transferrin Human genes 0.000 claims description 8
- 108090000901 Transferrin Proteins 0.000 claims description 8
- 239000012581 transferrin Substances 0.000 claims description 8
- 238000004820 blood count Methods 0.000 claims description 7
- UFTFJSFQGQCHQW-UHFFFAOYSA-N triformin Chemical compound O=COCC(OC=O)COC=O UFTFJSFQGQCHQW-UHFFFAOYSA-N 0.000 claims description 7
- 108010088751 Albumins Proteins 0.000 claims description 5
- 102000009027 Albumins Human genes 0.000 claims description 5
- 238000010219 correlation analysis Methods 0.000 claims description 5
- 230000036737 immune function Effects 0.000 claims description 3
- 230000003907 kidney function Effects 0.000 claims description 3
- 230000003908 liver function Effects 0.000 claims description 3
- 230000002265 prevention Effects 0.000 abstract description 4
- 230000000391 smoking effect Effects 0.000 description 14
- 230000001133 acceleration Effects 0.000 description 12
- 230000000875 corresponding effect Effects 0.000 description 12
- 230000035622 drinking Effects 0.000 description 10
- 238000004364 calculation method Methods 0.000 description 7
- 230000036541 health Effects 0.000 description 7
- 230000002596 correlated effect Effects 0.000 description 5
- 238000011835 investigation Methods 0.000 description 5
- 108091035539 telomere Proteins 0.000 description 5
- 102000055501 telomere Human genes 0.000 description 5
- 210000003411 telomere Anatomy 0.000 description 5
- LFQSCWFLJHTTHZ-UHFFFAOYSA-N Ethanol Chemical compound CCO LFQSCWFLJHTTHZ-UHFFFAOYSA-N 0.000 description 4
- 230000037396 body weight Effects 0.000 description 4
- 238000012417 linear regression Methods 0.000 description 4
- 235000016709 nutrition Nutrition 0.000 description 4
- 230000035764 nutrition Effects 0.000 description 4
- 238000012098 association analyses Methods 0.000 description 3
- 238000012217 deletion Methods 0.000 description 3
- 230000037430 deletion Effects 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 230000000813 microbial effect Effects 0.000 description 3
- 208000017667 Chronic Disease Diseases 0.000 description 2
- 108020004414 DNA Proteins 0.000 description 2
- 206010020772 Hypertension Diseases 0.000 description 2
- 208000008589 Obesity Diseases 0.000 description 2
- 206010033307 Overweight Diseases 0.000 description 2
- 210000001901 basal epithelial cell of bronchioalveolar duct junction Anatomy 0.000 description 2
- 210000004369 blood Anatomy 0.000 description 2
- 239000008280 blood Substances 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 206010012601 diabetes mellitus Diseases 0.000 description 2
- 230000035487 diastolic blood pressure Effects 0.000 description 2
- 244000005700 microbiome Species 0.000 description 2
- 235000020824 obesity Nutrition 0.000 description 2
- 238000010187 selection method Methods 0.000 description 2
- 101710095342 Apolipoprotein B Proteins 0.000 description 1
- 102100040202 Apolipoprotein B-100 Human genes 0.000 description 1
- 230000007067 DNA methylation Effects 0.000 description 1
- WQZGKKKJIJFFOK-GASJEMHNSA-N Glucose Natural products OC[C@H]1OC(O)[C@H](O)[C@@H](O)[C@@H]1O WQZGKKKJIJFFOK-GASJEMHNSA-N 0.000 description 1
- 206010020100 Hip fracture Diseases 0.000 description 1
- 108010028554 LDL Cholesterol Proteins 0.000 description 1
- 206010028980 Neoplasm Diseases 0.000 description 1
- 208000006011 Stroke Diseases 0.000 description 1
- 230000004308 accommodation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 208000006673 asthma Diseases 0.000 description 1
- 201000011510 cancer Diseases 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000037213 diet Effects 0.000 description 1
- 235000005911 diet Nutrition 0.000 description 1
- 238000000556 factor analysis Methods 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 239000008103 glucose Substances 0.000 description 1
- 230000007166 healthy aging Effects 0.000 description 1
- 208000010125 myocardial infarction Diseases 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 210000002966 serum Anatomy 0.000 description 1
- 238000012105 stratification Analysis Methods 0.000 description 1
- 230000004083 survival effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 210000002700 urine Anatomy 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
Landscapes
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Biomedical Technology (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Pathology (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本发明公开了一种基于临床常规标志物构建中国人群生物学年龄评价模型的方法,包括:(1)选择了代表不同病理生理系统或功能的临床常规标志物;(2)利用选择的标志物,基于KDM算法,构建生物学年龄评价模型;(3)对得到的生物学年龄评价模型进行评估,若效果欠佳,返回步骤(1)和(2),进行下一轮模型构建操作;若效果符合要求,则输出所构建的生物学年龄评价模型。该方法可应用在对于我国人群衰老的早期识别和预防以及针对老年疾病的干预效果评估上,具有实用性,应用潜力巨大。
Description
技术领域
本发明适于生物学年龄评价技术领域,具体是涉及一种基于临床常规 标志物构建生物学年龄评价模型的方法及评价方法,适用于中国人群。
背景技术
促进健康老龄化客观上要求降低老年疾病(如高血压、糖尿病)负担。 时序年龄(Chronological Age)毫无疑问是这些慢性疾病及死亡的最大风 险因素。但同样时序年龄的个体对于这些疾病的易感性仍存有差异,原因 之一可能是时序年龄不能准确反映一个个体的衰老程度。对应地,生物学 年龄(Biological Age)则能较准确地评价衰老,进而帮助识别衰老高危个 体,尤其是在生命早期(如中青年期),另一方面也能帮助识别衰老过程的影响因素,辅助衰老干预措施的效力评估,具有重要理论和现实意义。
公开号为CN 106202989A的专利文献公开了一种基于口腔微生物群 落获得儿童个体生物年龄的方法,该方法通过获得含有所述儿童个体口腔 微生物的样品;并提取口腔微生物的DNA;将所述DNA信息转化为微生 物群落信息,利用随机森林算法,对口腔微生物群落信息与年龄进行回归, 回归模型,获得所述中国人群儿童个体年龄。
公开号为CN110408684A的专利文献公开了一种端粒长度检测试剂盒 与方法及生物学年龄评价方法,其首先利用其提供的试剂盒及平均校准因 子计算方法,建立中国人群端粒长度检测校准T/S数据库,并绘制校准 T/S值-年龄分布图;然后依据上述端粒长度校准T/S值-年龄模型分布图, 建立端粒长度-生物学年龄的算法模型系统;利用该系统进行生物学年龄 计算,并给出端粒长度在人群中的分布情况。
公开号为CN110392740A的专利文献公开了一种预测生物学年龄的 方法,其首先确定待测个体所属人群样本的以性别年龄分类的各生物学年 龄预测生物指标集;基于待测个体对应的以性别年龄分类的生物学年龄预 测生物指标集,计算所述待测个体的生物学年龄初步估计值BASC;以不 同人群的样本年龄分布数据为参照,对所述生物学年龄初步估计值BASC 进行最大后验概率计算处理,以便确定所述待测个体的预测生物学年龄 BA。
临床常规标志物反映机体不同系统不同层面的健康状况,在临床上被 日常监测,具有应用价值;如加以整合,可构建反映机体整体衰老情况的 生物学年龄指标。相比于其他方法预测生物学年龄,如基于DNA甲基化 数据,这种基于临床常规标志物构建生物学年龄评价指标,性价比高和可 操作性强,在大规模流行病调查和临床实践中具有更佳的应用价值。
发明内容
本发明提供了一种基于临床常规标志物构建中国人群生物学年龄评 价模型的方法,利用所述模型预测的生物学年龄与时序年龄相关,且在扣 除时序年龄影响后,可预测全因死亡,并与疾病个数关联显著。
本发明还提供了一种中国人群生物学年龄评价方法,使用者利用该发 明可实现个体生物学年龄科学评价,提前采取相应的防控措施延缓衰老、 降低老年疾病患病风险。
一种基于临床常规标志物构建生物学年龄评价模型的方法,包括:
(1)利用生物学和统计学标准选择了代表不同病理生理系统或功能 的标志物;
(2)利用选择的标志物,基于KDM算法,构建生物学年龄评价模 型;
(3)对得到的生物学年龄评价模型进行评估,若效果欠佳,返回步 骤(1)和(2),进行下一轮模型构建操作;若效果符合要求,则输出所 构建的生物学年龄评价模型。
标志物的获得和选择是本发明的难点之一。标志物的获得很大程度上 取决于所依托的数据资源。例如,由于诸多限制(如尿液样本采集相对困 难),大规模流行病学调查所提供的标志物基本来自于血浆或血清,且数 目有限。标志物的选择有一些不同的方法/标准(图1)。本发明中我们采 用生物学和统计学标准并用的方法,这在一定程度上能提高后期的统计效 率。作为一种实施方案,我们采用的标准如下:a)标志物在衰老过程中 具有一定作用;b)标志物在之前衰老研究中被使用到;c)标志物在目前 大部分流行病学调查中被测量;d)标志物与时序年龄具有较强的关联。 其中a)是典型的基于生物学标准的选择方法,d)是典型的基于统计学标 准的选择方法。作为一种实施方案,所选标志物必须代表如下病理生理系 统或功能中的一种或多种:免疫功能、心脏代谢功能、肝功能、肾功能。 基于以上标志物的获得和选择标准可知,所选择标志物的数量没有具体限 制,以包括C反应蛋白(或者高敏C反应蛋白)、肌酐、收缩压为佳。一 般选择3~20个标志物。
对于标志物的获得,作为一种实施方案,提供所述标志物的人群具有 一定要求,具体为:1000例以上、年龄范围覆盖20-60岁。作为优选,人 群为:2000例以上、年龄分布在20-79岁之间的个体。作为一种具体的实 施方案,本发明中我们选择2009年中国健康与营养调查(China Health and Nutrition Survey,CHNS)中20-79岁的人群。
对于标志物的选择,本发明中提供一种优选方案,所述标志物(12 种)包括总胆固醇、甘油三酯、糖化血红蛋白、尿素、肌酐、白蛋白、高 敏C反应蛋白、红细胞计数、血小板计数、铁蛋白、转铁蛋白和收缩压。 利用上述这些标志物数据构建的模型预测效力较好。作为一种次优选方案, 所述标志物(8种)包括总胆固醇、甘油三酯、糖化血红蛋白、尿素、肌 酐、高敏C反应蛋白、血小板计数和收缩压。所述高敏C反应蛋白也可 以替换为C反应蛋白,本发明对此没有限制。
算法的选择是本发明另外一个需要克服的难点。算法被众多学者用来 基于标志物预测时序年龄,或者从标志物与年龄关系中提取信息,进而构 建生物学年龄评价指标。目前存在的算法包括多重线性回归法、因子分析、 主成分分析法以及KDM算法(Klemeraand Doubal method,KDM)等。 其中KDM算法原理和计算稍显复杂,但更优秀且未被用于中国人群生物 学年龄构建,故本发明中我们选用KDM算法。KDM算法在2006年由Klemera和Doubal提出,其推演细节请参见文献(Klemera P,Doubal S. Mech Ageing Dev 2006,127(3):240-248.)。简言之,KDM算法从时序年龄 与m个标志物的m个回归曲线中获取信息,最终转化为单位为岁的生物 学年龄KDM-BA。详见下面公式:
其中m为所选择的标志物总数量,xj为某一个体对应的标志物j的数 值,CA为该个体对应的时序年龄。对于每个标志物j,通过将该标志物与 时序年龄进行回归,估算得到所述参数qj,kj和sj;其中qj为标志物j对 应的回归截距,kj为标志物j对应的回归系数,sj为标志物j对应的均方根 误差;SBA为标度因子,等于在数据集中所选择的标志物组所能解释的时 序年龄的变异的平方根。
为了扣除时序年龄的影响,我们将计算得到KDM-BA与时序年龄进 行回归,得到残差,即为KDM-BA年龄加速(BA acceleration)。年龄加 速为0则意味着一个个体的生物学年龄与基于其时序年龄的预期情况一致, 而年龄加速为正值则意味着一个个体具有一个较他/她年龄年老的个体拥 有的临床标志物谱;反之,则意味着一个个体具有一个比他/她年龄年轻的 个体所拥有的临床标志物谱。
作为一种实施方案,本发明对得到的生物学年龄评价模型进行评估。 作为优选的实施方案,本发明中基于该生物学年龄评价模型,计算生物学 年龄,分析该生物学年龄与所述个体的全因死亡和疾病个数之间的关联, 基于得到的关联分析结果,进行所述步骤(3)中的评估。
作为一种实施方案,本发明中我们利用Cox比例风险回归模型分析生 物学年龄评价指标与全因死亡之间的关联,记录风险比(Hazard Ratio) 值和P值。风险比大于1,P值小于0.05,则认为生物学年龄评价指标与 全因死亡显著相关。我们采用线性回归模型或泊松回归模型分析生物学年 龄评价指标与疾病个数的关联,记录回归系数coef值和P值。coef大于0, P值小于0.05,则认为生物学年龄评价指标与疾病个数显著相关。生物学 年龄评价指标与全因死亡和疾病个数显著相关则证实其具有预测效力和 应用价值。
本发明还提供了一种生物学年龄评价方法,利用上述任一项技术方案 所述的生物学年龄评价模型进行评价。
评价时,根据待评价对象的时序年龄,结合本发明得到的评价模型, 即可得到其对应的生物学年龄。
作为一种优选(12个标志物),所述模型公式如下:
其中:KDM-BA为所构建的生物学年龄指标。UREA为尿素(单位: mmol/L),hsCRP为高敏C反应蛋白(mg/L),CRE为肌酐(μmol/L),FET 为铁蛋白(ng/mL),RBC为红细胞计数(1012cells/L),PLT为血小板计数 (109cells/L),ALB为白蛋白(g/L),TG为甘油三酯(mmol/L),TC为总 胆固醇(mmol/L),TRF为转铁蛋白(mg/dL),HbA1c为糖化血红蛋白(%), SBP为收缩压(mmHg),CA为时序年龄(岁)。
作为一种次优选(8个标志物),所述模型公式如下:
其中:KDM-BA为所构建的生物学年龄指标。UREA为尿素(单位: mmol/L),hsCRP为高敏C反应蛋白(mg/L),CRE为肌酐(μmol/L),PLT 为血小板计数(109cells/L),TG为甘油三酯(mmol/L),TC为总胆固醇 (mmol/L),TRF为转铁蛋白(mg/dL),HbA1c为糖化血红蛋白(%),SBP 为收缩压(mmHg),CA为时序年龄(岁)。
本发明基于临床常规标志物构建评价生物学年龄的模型,并利用该模 型实现对中国人群生物学年龄的评价,本发明依托已建立的国家层面大型 队列(中国营养与健康调查)中生物标志物数据,首先利用生物学和统计 学标准从数十种临床常规标志物中选择具有代表性的几种(比如8种或者 12种),进而应用KDM算法构建模型,预测生物学年龄。数据证明,本 发明构建的模型评价得到的生物学年龄与时序年龄相关,且在扣除时序年 龄后,可以预测全因死亡,并与疾病个数关联显著。使用者利用该发明可 实现个体生物学年龄科学评价,提前采取相应的防控措施降低老年疾病患 病风险。
我们进一步证明,即使考虑了CA和性别因素,本发明的生物学年龄 评价模型对全因死亡也有很高的预测性,并且与CA和性别的基本模型相 比,在模型识别方面有显著的改善。除了极少数例外,这些死亡预测在不 同的亚人群中都是可靠的,特别是按年龄、民族、性别、教育和健康行为。 最后,本发明的生物学年龄评价模型与疾病计数相关。
总的来说,本发明提供了一种可以评价我国人群生物学年龄的方法。 该方法可应用在对于我国人群衰老的早期识别和预防以及针对老年疾病 的干预效果评估上,具有实用性,应用潜力巨大。
附图说明
图1为基于临床常规检查标志物构建生物学年龄评价指标的流程框架: 其中,A到F指代不同的标志物。
图2展示了KDM-BA年龄加速的分布情况及KDM-BA与时序年龄的 相关性情况:其中,KDM-BA为由KDM算法构建的生物学年龄评价指标, CA为时序年龄。A图展示了KDM-BA年龄加速(矫正了时序年龄)的分 布;B图展示了KDM-BA与时序年龄的相关性。
图3展示了每增加一种疾病所预测的KDM-BA年龄加速情况:其中, KDM-BA为由KDM算法构建的生物学年龄评价指标。x轴显示了根据每 个受试者的疾病个数进行分类的组(无任何疾病、1种疾病、2种疾病和3 种及以上疾病)。y轴显示与无任何疾病受试者相比,具有1种、2种或3 种及以上疾病受试者其KDM-BA年龄加速的数值。图中结果是基于一个 线性回归模型,并对年龄和性别进行了调整。
图4展示了每增加一种疾病所预测的KDM-BA(基于次优选方案的8 个标志物)年龄加速情况:其中,KDM-BA为基于次优选方案(8个标志 物)由KDM算法构建的生物学年龄评价指标。x轴显示了根据每个受试 者的疾病个数进行分类的组(无任何疾病、1种疾病、2种疾病和3种及 以上疾病)。y轴显示与无任何疾病受试者相比,具有1种、2种或3种及 以上疾病受试者其KDM-BA年龄加速的数值。图中结果是基于一个线性 回归模型,并对年龄和性别进行了调整。
具体实施方式
下面结合实施例和附图对本发明做进一步说明:
实施例的具体内容:
1、综合考虑生物学和统计学标准,选择临床常规标志物,应用KDM 算法在CHNS(2009年)队列20-79岁人群中构建生物学年龄评价指标。
我们选择的标志物来自2009年中国健康与营养调查(China Health andNutrition Survey,CHNS)数据。CHNS是一个关于中国全年龄段人群(从 0岁开始)的国家层面的前瞻性队列研究,其目的在于跨时空探索社会经 济和人口转变如何影响整个人群营养和健康状况。CHNS在1989年启动, 随后分别在1991年、1993年、1997年、2000年、2004年、2006年、2009 年、2011年和2015年进行了重复调查。CHNS采用了多阶段整群抽样方 法,从全国9个省份招募受访者。截止2011年,CHNS一共招募了30000 余人(据2010年人口普查数据显示,这9个省份贡献了我国总人口的47%)。 在CHNS调查中,所有受访者都提供了包括人口学、社会经济学、饮食、 生活方式和慢性疾病等各方面信息。2009年,CHNS第一次采集受访者的 血样并进行了临床常规标志物(如总胆固醇、甘油三酯)的检测。所有受 访者都提供了知情同意书。CHNS调查通过了北卡罗来纳大学和美国国家 营养与食物安全研究所的伦理批准,数据对外公开,经申请后免费使用。
2009年CHNS提供了25个临床常规标志物,加上收缩压和舒张压, 一共27个标志物可供选择。其中几组标志物之间具有较高的相关性 (r>0.7),比如总胆固醇、低密度脂蛋白胆固醇和载脂蛋白B,糖化血红 蛋白和血糖,收缩压和舒张压。综合考虑标志物在临床上的价值和本身的 性能以及其是否也在其他大多数调查中被检测,在以上每组(具有较高相关性的标志物定义为一组)中我们保留一个标志物进入第一轮候选,即总 胆固醇、糖化血红蛋白和收缩压。紧接着,我们选择与年龄相关性大于0.1 的标志物作为最终候选。最终纳入12个标志物,包括总胆固醇、甘油三 酯、糖化血红蛋白、尿素、肌酐、白蛋白、高敏C反应蛋白、红细胞计数、 血小板计数、铁蛋白、转铁蛋白和收缩压。它们代表了不同的病理生理系统或功能,包括免疫功能(高敏C反应蛋白、红细胞计数和血小板计数)、 心脏代谢功能(总胆固醇、甘油三酯、糖化血红蛋白、铁蛋白和收缩压)、 肝功能(白蛋白)和肾功能(尿素和肌酐)。在进行构建生物学年龄评价 指标前,非正态分布的标志物(高敏C反应蛋白、铁蛋白和甘油三酯)进 行了对数转换,以满足模型前提要求。这12个最终候选标志物在临床上 非常常见,增加了生物学年龄评价模型的性价比和可操作性。
本实施例中,我们选择了2009年CHNS中具有临床常规标志物的8394 例个体,年龄分布在20-79岁。在删除标志物缺失的275例之后,剩下8119 例为最终分析样本。删除样本在基本人口学特征上与最终分析样本类似, 比如年龄(删除样本48.4岁vs.分析样本49.9岁,P=0.061),汉族比例 (删除样本88.9%vs.分析样本88.3%,P=0.854),但删除样本中男性比 例较高(删除样本53.5%vs.分析样本46.5%,P=0.027)。
KDM算法模型如下:
其中KDM-BA为生物学年龄,m为所选择的标志物总数量,xj为某 一个体对应的标志物j的数值,CA为该个体对应的时序年龄。对于每个 标志物j,通过将该标志物与时序年龄进行回归,估算得到所述参数qj, kj和sj;其中qj为标志物j对应的回归截距,kj为标志物j对应的回归系数, sj为标志物j对应的均方根误差;SBA为标度因子,等于在数据集中所选择的标志物组所能解释的时序年龄的变异的平方根。
基于前面所述的KDM算法模型,利用以上所选择的12个标志物, 我们进行了模型构建,最终得到如下结果:
其中:KDM-BA为所构建的生物学年龄指标。UREA为尿素(单位: mmol/L),hsCRP为高敏C反应蛋白(mg/L),CRE为肌酐(μmol/L),FET 为铁蛋白(ng/mL),RBC为红细胞计数(1012cells/L),PLT为血小板计数 (109cells/L),ALB为白蛋白(g/L),TG为甘油三酯(mmol/L),TC为总 胆固醇(mmol/L),TRF为转铁蛋白(mg/dL),HbA1c为糖化血红蛋白(%), SBP为收缩压(mmHg),CA为时序年龄(岁)。
我们将计算得到KDM-BA与时序年龄进行回归,得到残差,即为 KDM-BA年龄加速(BA acceleration),年龄加速的分布如图2所示。我们 看到,KDM-BA范围为15.1到87.3岁(均值49.9岁,中位数50.3岁, 标准差14.3岁)。KDM-BA年龄加速均大致呈现出正态分布(图2A),但 KDM-BA与时序年龄具有较强的相关性(图2B,部分原因由于时序年龄 被包括在KDM-BA计算公式中)。
2、基于CHNS基线(即:CHNS 2009年)及随访数据,在全人群和 亚人群(如不同年龄层、不同健康状态的人群)中,分析以上所构建的生 物学年龄评价指标基线水平与全因死亡之间的关联。
CHNS在每轮调查中都采集了前一轮死亡个体的死亡时间。我们定义 生存时间为基线(2009年调查时间)到随访终点——死亡或者删失的时间 (删失时间为2013年或2015年调查时间。死亡和删失二者中谁先到,则 为随访终点)。CHNS在2009年调查中采集了高血压、糖尿病、心梗、卒 中、髋部骨折、哮喘和癌症等疾病信息。我们将其简单相加,得到一个疾 病个数变量(从0到7),数字越大,表示个体所患疾病越多。基于疾病个 数变量,我们构建一个分类变量:无任何疾病、1种疾病、2种疾病和3 种及以上疾病。
我们还利用其它相关协变量信息如下:年龄、性别、民族、教育程度、 婚姻状况、吸烟状况、饮酒状况和身体质量指数(Body mass index,BMI)。 这些协变量是在调查时通过问卷或体检采集的。其中大多数协变量为两分 类变量,包括性别(男性、女性)、民族(汉族、其他)、婚姻状况(目前 已婚、其他)、吸烟状况(不吸烟、吸烟)和饮酒状况(不饮酒、饮酒)。教育程度为四分类变量,包括为未正式上过学、小学、中学和高中及以上。 身体质量指数BMI的计算方法是体重(千克)除以身高(米)的平方。 我们将BMI四分类:低体重定义为BMI<18.5kg/m2;正常定义为18.5≤ BMI<25.0kg/m2;超重定义为24.0≤BMI<28.0kg/m2;肥胖定义为BMI≥ 28kg/m2。
我们采用Cox比例风险回归模型(Cox回归模型)分析生物学年龄评 价指标与全因死亡之间的关联,结果见表1。模型1调整了时序年龄和性 别。我们发现KDM-BA年龄加速每增加一年,个体死亡率增加14%(风 险比=1.14,95%置信区间=1.08,1.19)。模型2中进一步调整民族、教育 程度、婚姻状况、吸烟状况、饮酒状况、身体质量指数(按分类变量处理), 结果并未出现较大变动。当根据KDM-BA年龄加速的五分位数对样本进 行分层时,我们发现与最低五分位数(Q1,参照组)相比,最高五分位数 (Q5)的个体死亡风险增加了83%(风险比=1.83,95%置信区间=1.24, 2.71)。在进一步调整其他协变量(包括民族、教育程度、婚姻状况、吸烟 状况、饮酒状况和身体质量指数,模型2)后,这些关联并没有任何实质 性变化。由以上关联分析结果可知,利用本发明的预测模型得到的生物学 年龄能够很好地预测死亡风险。
表1.全人群中KDM-BA与全因死亡的关联分析
表1中:KDM-BA为由Klemera-Doubal法计算得到的生理学年龄; Q1-Q5为五分位数(从最低到最高)。模型1中调整了时序年龄和性别。 模型2中进一步调整了民族、教育程度、婚姻状况、吸烟状况、饮酒状况 和身体质量指数(按分类变量处理)。
为评估本实施例得到的生物学年龄对5年死亡率的预测效力,我们构 建了2个logistic模型:模型1的自变量包括KDM-BA+时序年龄+性别; 模型2的自变量包括CA+性别。分别计算模型1和模型2的ROC曲线下 面积AUC,为0.810和0.803,二者相比无显著性差异(使用“delong” 方法时P值为0.450,见表2)。然而,与模型2相比,模型1的模型区分 度(IDI:0.36%,P值=0.033)有显著改善。这说明,我们所构建的KDM-BA 在时序年龄基础上提高了对于死亡的预测效力。
我们关心KDM-BA是否在貌似健康的人群中是否能准确预测死亡, 因此我们定义了“健康”:即没有汇报任何疾病和拥有正常身体质量指数。 我们发现在“健康”个体中,KDM-BA与死亡率相关(风险比=1.18,95% 置信区间=1.05,1.31,表3)。在对5年死亡率的预测效力上,KDM-BA 在调整时序年龄+性别基础上,增加了预测效力(AUC=0.817,IDI:0.76%, P=0.034,表2)。
表2.KDM-BA对于5年死亡率的预测情况
表2中:AUC为ROC曲线下面积;连续净重新分类指数:continuous netreclassification index,NRI;综合判别改善指数:integrated discriminationimprovement,IDI。以上利用R包(“PredictABEL”)计算得到。NRI等 于x%意味着,与没有发生结局事件的个体相比,发生结局事件的个体向 上移动(到一个类别)的概率比向下移动的概率高出近x%(这取决于发 生结局事件的个体被正确分配了更高的概率,而没有发生结局事件的个体 在更新的模型中被正确分配了更低的概率(例如,模型1)与初始模型(即,模型2)相比。IDI等于x%意味着在更新的模型中(例如,模型1)发生 和没有发生结局事件的个体之间的平均预测风险差增加了x%。
为了进一步探索所构建的生物学年龄评价指标是否适用于不同亚人 群,我们在不同亚人群中应用Cox比例风险回归模型分析了KDM-BA与 全因死亡的关联。我们发现,无论亚组如何,这些模型中的大多数结果是 一致的(表3)。例如,当按年龄、民族、性别、教育程度、吸烟状况或饮 酒状况分层时,KDM-BA的风险比从1.11(老年人)到1.27(高中或以上教育程度)不等,与全人群中1.14(表1)中的风险比一致。在无任何疾 病的受试者中,我们没有观察到死亡率与KDM-BA有显著相关性(风险 比=1.05,95%置信区间=0.97,1.13)。而在两种及以上疾病的患者中, KDM-BA(风险比=1.14,95%置信区间=1.02,1.27)与全因死亡显著相关。 在那些被定义为健康(即没有疾病和正常身体质量指数)的个体中,我们发现KDM-BA与全因死亡相关(风险比=1.18,95%置信区间=1.05,1.31)。 这说明我们所构建的生物学年龄评价指标不受个体的基本特征所影响,具 有一定的普适性。
表3.不同亚人群中KDM-BA与全因死亡的关联分析
表3中:KDM-BA,由Klemera-Doubal法计算得到的生物学年龄。以 上所有模型调整了时序年龄和性别(除性别分层分析外)。
*身体质量指数BMI的计算方法是体重(公斤)除以身高(米)的平 方。低体重定义为BMI<18.5kg/m2;正常定义为18.5≤BMI<25.0kg/m2; 超重定义为24.0≤BMI<28.0kg/m2;肥胖定义为BMI≥28kg/m2。
3、基于CHNS基线数据,在全人群中分析以上所构建的生物学年龄 评价指标基线水平与疾病个数之间的关联
图3显示了与无任何疾病的受试者相比,对每增加一种疾病所预测的 KDM-BA年龄加速情况。总的来看,有疾病的受试者比没有任何疾病的 受试者具有更高的KDM-BA年龄加速。汇报一种疾病者的年龄加速为1.2 岁,患两种疾病者的年龄加速约为1.9岁,患三种及以上疾病者的年龄加 速为2.4岁。由此可知,疾病与利用本发明预测的生物学年龄具有很强的 相关性。
为了进一步了解所构建的生物学年龄指标与疾病个数之间的关联,我 们使用泊松回归模型来检验2009年全人群样本中KDM-BA与疾病个数之 间的关系(表4)。模型1对年龄和性别进行了调整,结果显示,KDM-BA 与疾病计数显著相关(coef.=0.19,SE=0.008,P<0.001)。模型2进一步 调整了民族、教育程度、婚姻状况、吸烟状况、饮酒状况和身体质量指数, 结果仍然保持不变。图3和表4均证实本发明预测的生物学年龄与疾病个 数显著相关。
表4.KDM-BA与疾病个数的关联分析
表4中:KDM-BA,由Klemera-Doubal法计算得到的生物学年龄;Coef, 回归系数;SE,标准误差。模型1中调整了时序年龄和性别。模型2中进 一步调整了民族、教育程度、婚姻状况、吸烟状况、饮酒状况和身体质量 指数(按分类变量处理)。
作为一种次优选,同样基于KDM算法,我们也构建了基于8个标志 物(分别为:尿素、高敏C反应蛋白、肌酐、血小板计数、甘油三酯、总 胆固醇、糖化血红蛋白、收缩压)的模型,最终得到如下结果:
其中:KDM-BA为基于次优选方案中8个标志物所构建的生物学年 龄指标。UREA为尿素(单位:mmol/L),hsCRP为高敏C反应蛋白(mg/L), CRE为肌酐(μmol/L),PLT为血小板计数(109cells/L),TG为甘油三酯 (mmol/L),TC为总胆固醇(mmol/L),HbA1c为糖化血红蛋白(%),SBP 为收缩压(mmHg),CA为时序年龄(岁)。
我们同样采用Cox比例风险回归模型(Cox回归模型)分析次优选方 案中生物学年龄评价指标与全因死亡之间的关联,结果见表5。模型1调 整了时序年龄和性别。我们发现KDM-BA年龄加速每增加一年,个体死 亡率增加5%(风险比=1.05,95%置信区间=1.03,1.08)。模型2中进一 步调整民族、教育程度、婚姻状况、吸烟状况、饮酒状况、身体质量指数(按分类变量处理),结果并未出现较大变动。以上结果提示,利用次优 选的预测模型得到的生物学年龄同样能够很好地预测死亡风险。
表5.全人群中KDM-BA与全因死亡的关联分析
表5中:KDM-BA为基于次优选方案中8个标志物由Klemera-Doubal 法计算得到的生理学年龄。模型1中调整了时序年龄和性别。模型2中进 一步调整了民族、教育程度、婚姻状况、吸烟状况、饮酒状况和身体质量 指数(按分类变量处理)。
图4显示了与无任何疾病的受试者相比,对每增加一种疾病所预测的 次优选方案中KDM-BA年龄加速情况。总的来看,有疾病的受试者比没 有任何疾病的受试者具有更高的KDM-BA年龄加速。汇报一种疾病者的 年龄加速为2.9岁,患两种疾病者的年龄加速约为4.5岁,患三种及以上 疾病者的年龄加速为5.0岁。由此可知,疾病与利用本发明预测的生物学年龄具有很强的相关性。
使用泊松回归模型,我们进一步观察到对次优选方案中KDM-BA与 疾病个数之间的关系(表6)。模型1对年龄和性别进行了调整,结果显示, KDM-BA与疾病计数显著相关(coef.=0.10,SE=0.004,P<0.001)。模型 2进一步调整了民族、教育程度、婚姻状况、吸烟状况、饮酒状况和身体 质量指数,结果仍然保持不变。图4和表5均证实本发明预测的生物学年龄 与疾病个数显著相关。
表6.KDM-BA与疾病个数的关联分析
表6中:KDM-BA为基于次优选方案中8个标志物由Klemera-Doubal 法计算得到的生物学年龄;Coef,回归系数;SE,标准误差。模型1中 调整了时序年龄和性别。模型2中进一步调整了民族、教育程度、婚姻状 况、吸烟状况、饮酒状况和身体质量指数(按分类变量处理)。
综上所述,利用全国人群前瞻性队列研究的数据,我们使用优选的12 种临床标志物,构建了一种评价我国人群生物学年龄的方法:KDM-BA。 我们进一步证明,即使考虑了时序年龄和性别因素,这种生物学年龄评价 指标对全因死亡也有很高的预测效力,并且与时序年龄和性别的基本模型 相比,在模型识别方面有显著的改善。除了极少数例外,这些死亡预测在 不同的亚人群中都是可靠的,特别是按年龄、民族、性别、教育和健康行 为。最后,这个生物学年龄评价指标与疾病计数相关。这都充分证实所构 建的生物学年龄评价方法对疾病和死亡具有预测效力,应用潜力巨大。
Claims (10)
1.一种基于临床常规标志物构建中国人群生物学年龄评价模型的方法,其特征在于,包括:
(1)选择了代表不同病理生理系统或功能的临床常规标志物;
(2)利用选择的标志物,基于KDM算法,构建生物学年龄评价模型;
(3)对得到的生物学年龄评价模型进行评估,若效果欠佳,返回步骤(1)和(2),进行下一轮模型构建操作;若效果符合要求,则输出所构建的生物学年龄评价模型。
2.根据权利要求1所述的基于临床常规标志物构建中国人群生物学年龄评价模型的方法,其特征在于,通过生物学和统计学标准选择所述标志物,要求标志物在衰老过程中具有一定作用且与时序年龄具有较强的关联;所述标志物代表了如下病理生理系统或功能中的一种或多种:免疫功能、心脏代谢功能、肝功能、肾功能。
3.根据权利要求1~2任一项所述的基于临床常规标志物构建中国人群生物学年龄评价模型的方法,其特征在于,所述标志物来自1000例以上中国青年、中年和老年个体,年龄范围覆盖20-60岁。
4.根据权利要求1~3任一项所述的基于临床常规标志物构建中国人群生物学年龄评价模型的方法,基于得到的生物学年龄评价模型,计算生物学年龄,进而进行评估:分析该生物学年龄与所述个体的全因死亡和疾病个数之间的关联,基于得到的关联分析结果,进行所述步骤(3)。
6.根据权利要求1所述的基于临床常规标志物构建中国人群生物学年龄评价模型的方法,所述标志物包括尿素、高敏C反应蛋白、肌酐、血小板计数、甘油三酯、总胆固醇、糖化血红蛋白、收缩压;或者所述所述标志物包括尿素、C反应蛋白、肌酐、血小板计数、甘油三酯、总胆固醇、糖化血红蛋白、收缩压。
7.根据权利要求1所述的基于临床常规标志物构建中国人群生物学年龄评价模型的方法,其特征在于,所述标志物包括总胆固醇、甘油三酯、糖化血红蛋白、尿素、肌酐、白蛋白、高敏C反应蛋白、红细胞计数、血小板计数、铁蛋白、转铁蛋白和收缩压;或者所述标志物包括总胆固醇、甘油三酯、糖化血红蛋白、尿素、肌酐、白蛋白、C反应蛋白、红细胞计数、血小板计数、铁蛋白、转铁蛋白和收缩压。
8.一种生物学年龄评价方法,其特征在于,利用权利要求1~7任一项所述的生物学年龄评价模型进行评价。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010292872.5A CN111816307B (zh) | 2020-04-15 | 2020-04-15 | 基于临床标志物构建中国人群生物学年龄评价模型的方法及评价方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010292872.5A CN111816307B (zh) | 2020-04-15 | 2020-04-15 | 基于临床标志物构建中国人群生物学年龄评价模型的方法及评价方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111816307A true CN111816307A (zh) | 2020-10-23 |
CN111816307B CN111816307B (zh) | 2024-07-05 |
Family
ID=72848597
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010292872.5A Active CN111816307B (zh) | 2020-04-15 | 2020-04-15 | 基于临床标志物构建中国人群生物学年龄评价模型的方法及评价方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111816307B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112712900A (zh) * | 2021-01-08 | 2021-04-27 | 昆山杜克大学 | 基于机器学习的生理年龄预测模型及其建立方法 |
CN112951425A (zh) * | 2021-03-10 | 2021-06-11 | 北京交通大学 | 一种机动车的尾气排放对人体健康影响的评估方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106202989A (zh) * | 2015-04-30 | 2016-12-07 | 中国科学院青岛生物能源与过程研究所 | 一种基于口腔微生物群落获得儿童个体生物年龄的方法 |
CN110277151A (zh) * | 2019-06-11 | 2019-09-24 | 浙江大学 | 基于常规体检指标的人体生理年龄分析方法、系统及模型 |
CN110392740A (zh) * | 2017-01-25 | 2019-10-29 | 深圳华大生命科学研究院 | 确定人群样本生物指标集、预测生物学年龄的方法及其应用 |
CN110827993A (zh) * | 2019-11-21 | 2020-02-21 | 北京航空航天大学 | 基于集成学习的早期死亡风险评估模型建立方法及装置 |
-
2020
- 2020-04-15 CN CN202010292872.5A patent/CN111816307B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106202989A (zh) * | 2015-04-30 | 2016-12-07 | 中国科学院青岛生物能源与过程研究所 | 一种基于口腔微生物群落获得儿童个体生物年龄的方法 |
CN110392740A (zh) * | 2017-01-25 | 2019-10-29 | 深圳华大生命科学研究院 | 确定人群样本生物指标集、预测生物学年龄的方法及其应用 |
CN110277151A (zh) * | 2019-06-11 | 2019-09-24 | 浙江大学 | 基于常规体检指标的人体生理年龄分析方法、系统及模型 |
CN110827993A (zh) * | 2019-11-21 | 2020-02-21 | 北京航空航天大学 | 基于集成学习的早期死亡风险评估模型建立方法及装置 |
Non-Patent Citations (1)
Title |
---|
李婷: ""中国老年人生理年龄的测量"", 《人口研究》, vol. 41, no. 6, pages 3 - 15 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112712900A (zh) * | 2021-01-08 | 2021-04-27 | 昆山杜克大学 | 基于机器学习的生理年龄预测模型及其建立方法 |
CN112951425A (zh) * | 2021-03-10 | 2021-06-11 | 北京交通大学 | 一种机动车的尾气排放对人体健康影响的评估方法 |
CN112951425B (zh) * | 2021-03-10 | 2024-04-02 | 北京交通大学 | 一种机动车的尾气排放对人体健康影响的评估方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111816307B (zh) | 2024-07-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Nofuji et al. | Associations of walking speed, grip strength, and standing balance with total and cause-specific mortality in a general population of Japanese elders | |
EP1490789B1 (en) | Method of predicting sepsis in a patient suffering from systemic inflammatory response syndrome (sirs) | |
Gatling et al. | Microalbuminuria in diabetes: a population study of the prevalence and an assessment of three screening tests | |
US20200011866A1 (en) | Biodosimetry panels and methods | |
McLoughlin et al. | Does the choice of allostatic load scoring algorithm matter for predicting age-related health outcomes? | |
US20070255113A1 (en) | Methods and apparatus for identifying disease status using biomarkers | |
JP2001511680A (ja) | 将来の健康を予測するためのシステム | |
CN110444287A (zh) | 使用分类系统及其试剂盒识别和诊断肺部疾病的方法 | |
Glei et al. | Beyond self‐reports: Changes in biomarkers as predictors of mortality | |
CN111816307B (zh) | 基于临床标志物构建中国人群生物学年龄评价模型的方法及评价方法 | |
CN113628750A (zh) | 一种基于数字技术的营养不良快速筛查系统 | |
CN113593708A (zh) | 基于集成学习算法的脓毒症预后预测方法 | |
Guan et al. | Association between serum klotho and physical frailty in middle-aged and older adults: finding from the national health and nutrition examination survey | |
CN111445991A (zh) | 一种基于细胞转录组数据进行临床免疫监测的方法 | |
Satapathy et al. | Human bancroftian filariasis: immunological markers of morbidity and infection | |
CN116864062B (zh) | 一种基于互联网的健康体检报告数据分析管理系统 | |
Narayan et al. | Clinical presentation and outcomes of Kawasaki disease in children from Latin America: a multicenter observational study from the REKAMLATINA network | |
Yu et al. | Changes of peripheral lymphocyte subset in patients with SARS-CoV-2 infection during the whole course of disease | |
CN114121162B (zh) | 一种关于免疫力评估的方法 | |
CN108784666B (zh) | 连续监测心血管的精准医疗系统及数据处理方法 | |
CN112384634A (zh) | 骨质疏松生物标志物及其用途 | |
WO2021250267A1 (en) | A method for early detection of propensity to severe clinical manifestations | |
Walatara et al. | Importance of anthropometry in assessing insulin resistance as a pre-alarming sign before the onset of metabolic syndrome: a study among apparently healthy subjects | |
CN116779077A (zh) | 基于体检标志物构建生物学年龄及衰老评价的方法及系统 | |
CN110808102A (zh) | 一种健康平台的信息推送方法、系统及终端 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |