CN113373236B

CN113373236B - 一种获得中国人群个体年龄的方法

Info

Publication number: CN113373236B
Application number: CN202110191027.3A
Authority: CN
Inventors: 刘凡; 汪思佳; 钱雨; 彭倩倩; 钱其溧
Original assignee: Beijing Institute of Genomics of CAS; Shanghai Institute of Nutrition and Health of CAS
Current assignee: Beijing Institute of Genomics of CAS; Shanghai Institute of Nutrition and Health of CAS
Priority date: 2021-02-19
Filing date: 2021-02-19
Publication date: 2021-12-31
Anticipated expiration: 2041-02-19
Also published as: CN113373236A

Abstract

本发明提供了一种获得中国人群个体年龄的方法，涉及生物技术领域，具体包括以下步骤：(1)测定样本的甲基化水平，获得样本数据，将样本数据预处理后，将每个CpG位点的甲基化水平记录为β值，得到阵列甲基化数据；(2)条件表观基因组关联分析；(3)将步骤(2)得到的显著位点共同与年龄构建多元回归模型，去除对年龄影响不显著的甲基化位点，留下对年龄影响显著的甲基化位点；(4)根据BSR算法，在步骤(3)得到的显著位点中选择DNA甲基化标志物，构建预测年龄的MLR模型，即得中国人群个体年龄。本发明中的方法实现了利用血液或血痕对个体年龄的推断，精确度以及稳定性较高。

Description

一种获得中国人群个体年龄的方法

技术领域

本发明涉及生物技术领域，具体涉及一种获得中国人群个体年龄的方法。

背景技术

人类衰老与基因组特定位点的DNA甲基化变化有关。这些表观遗传修饰可用于跟踪供体年龄以进行法医分析或评估生物学年龄。相关研究表明，人类基因组中特定CpG位点的甲基化水平会随着年龄发生变化。对于某些CpG位点，其甲基化的程度与年龄几乎呈线性相关，这些CpG位点可以作为预测年龄的生物标志物。血液是犯罪现场中比较常见的生物痕迹，也是基于DNA甲基化进行年龄推断研究开展最多的生物检材。通过测定血液中特定CpG位点的甲基化水平来预测年龄在法医学上有着重要的应用价值。

1967年，Berdyshev GD等首次提出DNA的甲基化水平与衰老紧密相关，开辟了DNA甲基化与老化的相关性研究的先河。2013年，Steve Horvath在多组织中通过Illumina 27K和450K芯片测序技术筛选了353个年龄相关的甲基化位点，奠定了运用甲基化位点预测年龄的基础。2014年，Weidner等在151个血液样本中通过亚硫酸氢盐焦磷酸测序技术筛选得到了3个年龄相关的甲基化位点，用其进行年龄预测的MAD(Mean absolute deviation，平均绝对偏差)小于5年。2015年，ZbiecPiekarska等通过焦磷酸测序技术检测了303份血样的DNA甲基化水平，利用7个甲基化位点进行年龄的预测，表型解释方差为0.86，预测的MAD为5.03年。同年，中国学者Feng等人通过11个CpG位点对49名中国女性的年龄进行了预测，MAD为6岁左右。2016年，Park等通过对535例韩国人的血液样本进行3个CpG位点甲基化值的测定(ELOVL2，ZNF423，CCDC102B)，并且建立了年龄预测的模型，结果显示MAD为3.16年。Mawlood等也通过比较年龄相关基因的启动子区域中CpG岛的甲基化水平，确定了4个年龄相关基因(NPTX2、KCNQ1DN、GRIA2和TRIM58)，利用80例年龄分布在18至91岁之间的女性血液DNA样本进行年龄的预测，结果显示MAD为7.2年。2018年，Aliferi等利用大规模平行测序技术测定对110例全血样品的12个CpG位点的甲基化值进行测定，结果预测结果的MAD小于4年。同年，中国学者通过83个CpG作为预测因子，能准确预测89例中国儿童和青少年(年龄范围在6-17岁)的生理年龄，MAD为0.62年。2019年，Jung等通过测定150例韩国人血液样品中5个CpG位点的DNA甲基化水平，建立年龄预测模型，结果显示MAD为3.48年。同年，Feng等也通过测定390名中国北方汉族男性(15-75岁)的外周血样品的CpG位点的甲基化水平，建立了年龄预测的最优模型，MAD为2.89年。

但是，目前大多数研究都是以欧美人群为研究对象，并且多数采用的都是Illumina 27K或450K芯片数据，利用特定甲基化位点构建模型进行年龄的预测。由于亚欧遗传背景的差异，在欧美人群中构建的预测模型不一定准确适用于中国人群。目前，针对中国人群，只有小样本(49<N<390)的儿童和青少年，女性，或者男性的单一群体的年龄预测模型，并且利用的是Epityper系统，焦磷酸测序或者Illumina 450K芯片产生的数据。利用大样本(N＝2664)的Illumina 850K芯片数据在全甲基化组水平上筛选年龄独立显著相关的甲基化位点，利用这些位点对年龄分布跨度大，不同性别，以及不同地区的中国人群年龄预测的研究几乎没有。因此，提供一种检测个体特定位点的甲基化水平来获得不同年龄层，不同性别和不同地区的中国人群年龄的方法称为亟待解决的问题。

发明内容

本发明针对现有技术存在的问题，提供了一种获得中国人群个体年龄的方法，通过获得个体的性别和DNA的10个CpG位点的甲基化水平，结合采用R软件，对性别和10个CpG位点与年龄进行多元线性回归分析，构建回归模型，以获得中国人群个体的年龄，实现了利用血液或血痕对个体年龄的推断。

为实现上述目的，本发明采用的技术方案如下：

一种获得中国人群个体年龄的方法，包括以下步骤：

(1)测定样本的甲基化水平，获得样本数据，将样本数据预处理后，将每个CpG位点的甲基化水平记录为β值，得到阵列甲基化数据；

(2)条件表观基因组关联分析：通过年龄、细胞组分、基因组主成分、甲基化组主成分、性别、种族、批次、样板和身体质量指数，构建多重线性回归模型，去除不显著的甲基化位点，得到显著位点；

(3)将步骤(2)得到的显著位点共同与年龄构建多元回归模型，去除对年龄影响不显著的甲基化位点，留下对年龄影响显著的甲基化位点；

(4)根据BSR算法，在步骤(3)得到的对年龄影响显著的甲基化位点中选择DNA甲基化标志物，构建预测年龄的MLR模型，即得中国人群个体年龄。

进一步地，本发明的样本总量为2664例，男性900例，女性1764例，年龄分布在18岁至83岁之间，年龄分布图如图2所示，其中南宁样本1053例，泰州样本800例，郑州样本811例，如表1所示。

表1.样本信息

样本	数量(个)	百分比(％)
			男性	1764	66.22
女性	900	33.78
			南宁	1053	39.53
泰州	800	30.03
			郑州	811	30.44
男性年龄	平均值：50.02岁	标准差：12.88岁
			女性年龄	平均值：50.14岁	标准差：12.81岁

针对这批来自各个年龄层，不同地区，男女混合的样本使用Illumina 850k DNA甲基化芯片测定样本的甲基化水平。

使用minfi包分批次对甲基化数据进行质量控制。使用minfi包的dropLociWithSnps函数去除含有SNP的探针。去除性染色体上的探针。通过CpG位点的beta值(甲基化信号与总信号比较)判断其甲基化程度，通过CpG位点的P值(总信号与背景信号比较)判断其甲基化质量。将P值大于0.01的beta值设置为NA，删去NA缺失率大于5％的探针。使用impute.knn函数(k＝5)对缺失beta值进行填充。

使用BMIQ函数对Ⅱ型探针进行校正。合并三个批次。通过主成分分析确认slide，position，bacth effect这三个变量需要校正。使用ComBat函数对M值(beta值的对数)进行协变量校正，随后将M值转换回beta值。由于不同细胞之间甲基化水平表达存在异质性，因此进行了细胞异质性校正，涉及7个细胞组分(B:B细胞，NK:自然杀伤细胞，CD4T:T-cells，Mono:单核细胞，Neutro:中性粒细胞，Eosino:嗜酸性粒细胞)。

每个CpG位点的甲基化水平被记录为β值，范围从0到1。最后得到了2664×11876的阵列甲基化数据，甲基化数据经过标准化处理后进行后续分析。该标准化处理即对阵列甲基化数据进行正态标准化处理，使数据符合正态分布，去除数据中的极值，使得数据更可靠。

表观基因组关联分析通过多重线性回归模型实现，以年龄(Age)为因变量，校正了6个细胞组分(6cells)，5个基因组主成分(5PCs)，5个甲基化组主成分(5mePCs)，性别(Sex)，种族(Population)，批次(Batch)，样板(Slide)，身体质量指数(BMI)的影响，使用模型如公式(1)所示：

Age～6cells+5PCs+5mePCs+Sex+Population+Batch+Slide+BMI (1)

然后校正全甲基化组最显著的甲基化位点(topCpG)对年龄的影响，继续下一轮的表观基因组关联分析，使用模型如公式(2)所示：

Age～6cells+5PCs+5mePCs+Sex+Population+Batch+Slide+BMI+topCpG (2)

一直循环校正，直到没有显著的甲基化位点出现，P值小于6.16×10^-8认为全甲基化组显著(0.05/811876)。

全甲基化组条件筛选的曼哈顿图如图4所示。

本发明共找到了28个独立的年龄显著相关的甲基化位点，具体信息如表2所示。

表2. 28个甲基化位点信息

为了进一步保证预测模型的位点对年龄表型的影响是显著的，本发明利用这28个CpG位点单独与年龄做多元线性回归，去除不显著的甲基化位点(通过P是否小于0.05来确认是否显著)，最后剩下了25个显著的位点，具体结果如表3所示。

表3. 25个甲基化位点信息

甲基化位点	效应值	标准误	P值
				cg16867657	51.55	22.65	6.19E-104
cg08097417	35.34	13.40	1.11E-39
				cg26079664	7.44	7.92	3.49E-15
cg06639320	18.91	10.49	2.89E-25
				cg10501210	-11.86	-10.49	3.04E-25
cg13552692	-21.95	-14.10	1.45E-43
				cg07850154	-8.11	-4.68	3.04E-06
cg11935615	-3.20	-2.77	5.61E-03
				cg07553761	8.63	4.93	8.57E-07
cg09409865	10.30	5.35	9.44E-08
				cg01949324	-14.12	-9.68	8.26E-22
cg18450254	-4.62	-3.34	8.43E-04
				cg03254601	-19.03	-7.64	2.93E-14
cg25090514	20.39	6.07	1.43E-09
				cg21531089	-17.29	-14.61	1.42E-46
cg06072257	10.74	5.85	5.40E-09
				cg03607117	15.34	4.19	2.83E-05
cg25478614	9.92	4.60	4.33E-06
				cg18537454	14.61	11.21	1.62E-28
cg20339868	-42.76	-7.00	3.32E-12
				cg11298010	4.46	4.39	1.18E-05
cg12549908	-9.59	-6.19	6.80E-10
				cg24639239	28.83	5.50	4.14E-08
cg13657083	11.16	5.25	1.65E-07
				cg25105276	8.02	4.08	4.65E-05

在法医应用中，期望的标志物数量与模型性能之间相权衡的结果往往与理论最优值不同。因为要结合实际应用场景中的需求，例如标志物检测的便捷性与可行性等问题。因此，在保证结果准确性的前提下，保留的标志物越少越好，一定范围内的精度损失是可以接受的。

本发明通过组合优化前人开发的算法和思想，包括后向搜索算法，多迭代回归算法，和赤池信息量准则(Akaike Information Criterion，AIC)，本发明开发了AIC收敛的后向搜索逐步线性回归算法(backward step-wise regression，BSR)。AIC可以评估模型的复杂度和拟合数据的效果。AIC值最小的时候，说明模型包含最少自由参数(数据复杂性低)，可以最好地解释数据(拟合优良性)。利用BSR算法可以快速从众多候选DNA甲基化位点中选出最优的DNA甲基化位点组合，即AIC值最小的DNA甲基化位点组合。其中，AIC～2k+n ln(∑n(yi-E(yi))2i＝1)，k代表标志物数量，n代表样本数量，E(yi)是拟合值。该算法的具体执行过程是：首先利用全部‘n’个候选DNA甲基化位点构建预测模型，每一次的执行过程中，本发明分别计算利用‘n-1’个候选位点构建模型时对应的AIC值，共计算Cn^n-1次，保留对应AIC值最小的一组‘n-1’个DNA甲基化位点，并进入下一轮迭代过程。

本发明也将引入表型解释方差来评估模型的准确性。R2的正常取值范围是[0，1]，大于0.7说明模型拟合比较好，R2越接近1，说明由被选择的DNA甲基化标志物拟合的模型越能真实反映个体的年龄状态。另外，为了平衡预测模型的精度和实际场景中可便捷检测的DNA甲基化位点个数(≤10个)，本发明通过比较当前迭代结果和前下一次迭代结果的预测精度的损失(ΔR2＝0.2％)，若当前DNA甲基化位点个数≤10且ΔR2>0.2％时就停止算法搜索，并以当前的DNA甲基化位点物组合作为最优组合，具体的R2筛选结果如图1所示。

最终，本发明根据BSR算法选择了10个DNA甲基化标志物构建了预测年龄的MLR模型，这10个位点对年龄的效应值如表4所示。

表4. 10个甲基化位点对年龄的影响

在本发明利用这10个位点对年龄进行预测的模型为：

模型1：

Y1＝20.985+54.106×cg16867657+44.681×cg08097417+10.195×cg26079664+27.123×cg06639320-18.158×cg10501210-24.798×cg13552692-17.389×cg07850154-15.088×cg01949324-11.385×cg21531089+13.650×cg18537454；

本发明也可以加上性别来对年龄进行预测，因此，本发明的模型也可以是：

模型2：

Y2＝20.736+0.176×Sex+54.195×cg16867657+45.047×cg08097417+10.604×cg26079664+26.868×cg06639320-18.118×cg10501210-24.755×cg13552692-17.149×cg07850154-15.227×cg01949324-11.249×cg21531089+13.179×cg18537454；

其中，Sex为性别。

在2664混合样本的预测结果散点图如图5所示，在此批样本中，运用留一法验证方法，运用模型1，2的MAD都为2.73年，R2都为0.93，说明两个模型预测结果准确性相近，具体结果见表5。然后采用模型2，对男女，不同地区及不同年龄段的个体分别进行了预测，在各个分类中的预测结果相近，这也进一步说明了本发明的模型鲁棒性强，适用性广，准确性高，具体结果见表6。在本发明的方案中，本领域技术人员可以根据需要从上述10个CpG位点和性别中选择一部分变量来构建其他的模型，只要能满足其对年龄推断准确性的要求即可。

表5.模型1、2在所有样本中的预测结果比较

样本集	MAD(年)	R2
			2664全部样本(模型1)	2.73	0.93
2664全部样本(模型2)	2.73	0.93

表6.模型2在不同性别、不同地区、各个年龄段的个体中的应用

综上所述，本发明针对两个回归模型的方案都能实现对不同性别，不同地区，不同年龄段的中国人群个体的年龄进行准确推断，推断的年龄的平均误差在2.73岁左右，具有良好的推断准确性。

本发明所取得的技术效果是：

目前，多数年龄预测模型主要是针对欧美人群建立的，仅有少量的模型是针对中国人群特定年龄段，以及男性或者女性的单一群体构建的，相比于以往模型应用群体的局限性。同时，由于甲基化水平变化与年龄高度相关，不做条件筛选的话，全甲基化组上有上万个与年龄相关的甲基化位点，且它们之间信息存在冗余，在实际操作中，无法运用这么多位点来对年龄进行预测。以往的预测模型没有采用条件表观基因组筛选的方法，几乎都是借鉴以往报道的年龄相关的甲基化位点，没有覆盖全甲基化组的位点信息，精确度以及稳定性不高。本发明首次提出了可以广泛适用于不同性别，不同地区，不同年龄段的中国人群个体年龄预测的模型，适用范围更广，鲁棒性更强，精确度更高，相比于已有的现有技术而言，精确度最高且最为稳定；之所以具有以上优点，原因如下：

①本发明的样本量大(2664)，并且是男女混合，年龄分布较广，来自不同地区的混合样本，利用这批样本筛选出的甲基化位点更具普遍适用性。

②相比于以往研究采用的Illumina27K或450K数据，本发明采用的是更全面，位点更齐全的Illumina 850K芯片数据，共计811876个甲基化位点，后续挑选出的位点通过850K芯片数据基础上进行挑选，筛选的位点更加全面。

③本发明改进了传统的全表观组关联分析(Epigenome-wide associationstudy，EWAS)的方法，在混合型的大样本的基础上，将每次EWAS筛选的最显著的位点作为协变量，以去除此甲基化位点的冗余效应，确保下次筛选出的位点是独立对年龄表型有效应的位点，进一步保证了本发明的模型更简洁，没有冗余信息。又因为是基于混合型的大样本筛选的，从而保证了模型较强的鲁棒性，适用范围也更广，精确度也更高。

附图说明

图1为25个甲基化位点的表型解释方差；

图2为发现样本的年龄分布图；

图3为实施样本的年龄分布图；

图4为全甲基化组条件筛选的曼哈顿图；

图5为在2664混合样本的预测结果散点图；

图6为在648混合样本的预测结果散点图。

具体实施方式

收集中国人群中648名不同年龄，不同地区，男女混合的无关个体的血液样本，年龄跨度在19-71岁之间，年龄分布图如图3所示，样本具体信息见表7。采用本发明提供的方法获得中国人群个体年龄，以下以这648个样本为例来说明本发明方案的实施过程。通过Illumina芯片测序获取648人的模型中10个CpG位点的甲基化值，然后根据本发明中提供的年龄预测模型预测其生理年龄。

表7. 648样本信息介绍

样本分类	数量	百分比
			女性	321个	49.54％
男性	327个	50.46％
			女性年龄	平均值：50.15岁	标准差：12.81岁
男性年龄	平均值：50.00岁	标准差：12.89岁

模型1：

Y1＝20.985+54.106×cg16867657+44.681×cg08097417+10.195×cg26079664+27.123×cg06639320-18.158×cg10501210-24.798×cg13552692-17.389×cg07850154-15.088×cg01949324-11.385×cg21531089+13.650×cg18537454

利用模型1预测的648人的实际年龄与预测年龄的平均误差为3.2岁

模型2：

其中，Sex为性别。

在648混合样本的预测结果散点图如图6所示，利用模型2预测的648人的实际年龄与预测年龄的平均误差也为3.2岁，进一步说明了两个模型预测效能一样，且准确性高。利用模型2，对这648个样本进行不同性别，不同地区，不同年龄层的个体进行预测，预测结果均与实际年龄平均误差在3岁左右，具体见表8，结果显示预测模型具有较强的鲁棒性，适用范围广，在不同性别，不同年龄段，不同地区的个体中均可准确预测年龄，能为案件侦破提供数据支持。

表8. 648样本的年龄预测结果

样本集	样本量	MAD
			男性	327	3.12
女性	321	3.26
			南宁	284	3.43
泰州	166	2.97
			郑州	198	3.08
青年(15-35岁)	16	2.95
			中年(36-55岁)	282	2.66
老年(>56岁)	350	3.65

最后应当说明的是，以上内容仅用以说明本发明的技术方案，而非对本发明保护范围的限制，本领域的普通技术人员对本发明的技术方案进行的简单修改或者等同替换，均不脱离本发明技术方案的实质和范围。

Claims

1.一种获得中国人群个体年龄的方法，其特征在于：包括以下步骤：

（1）测定样本的甲基化水平，获得样本数据，将样本数据预处理后，将每个CpG位点的甲基化水平记录为β值，得到阵列甲基化数据；

（2）条件表观基因组关联分析：通过年龄、细胞组分、基因组主成分、甲基化组主成分、性别、种族、批次、样板和身体质量指数，构建多重线性回归模型，去除不显著的甲基化位点，得到显著位点；

（3）将步骤（2）得到的显著位点共同与年龄构建多元回归模型，去除对年龄影响不显著的甲基化位点，留下对年龄影响显著的甲基化位点；

（4）根据BSR算法，在步骤（3）得到的对年龄影响显著的甲基化位点中选择DNA甲基化标志物，构建预测年龄的MLR模型，即得中国人群个体年龄；

步骤（4）中所述MLR模型通过DNA甲基化标志物、年龄构建或通过DNA甲基化标志物、年龄、性别构建；当所述MLR模型通过DNA甲基化标志物和年龄进行构建时，所述MLR模型为：

Y1=20.985+54.106×cg16867657+44.681×cg08097417+10.195×cg26079664+27.123×cg06639320-18.158×cg10501210-24.798×cg13552692-17.389×cg07850154-15.088×cg01949324-11.385×cg21531089+13.650×cg18537454。

2.根据权利要求1所述的方法，其特征在于：步骤（1）中所述样本的甲基化水平使用Illumina 850k DNA甲基化芯片测定。

3.根据权利要求1所述的方法，其特征在于：步骤（1）中所述预处理具体包括以下步骤：

S1：使用minfi包分批次对样本数据进行质量控制；

S2：使用minfi包的dropLociWithSnps函数去除含有SNP的探针；

S3：去除性染色体上的探针；

S4：通过CpG位点的beta值判断CpG位点的甲基化程度，通过CpG位点的P值判断CpG位点的甲基化质量，将P值大于0.01的beta值设置为NA，删去NA缺失率大于5%的探针，使用impute.knn函数对缺失beta值进行填充；

S5：校正；

其中，beta值使用甲基化信号与总信号比较，P值使用总信号与背景信号比较。

4.根据权利要求3所述的方法，其特征在于：所述校正包括：Ⅱ型探针校正、M值校正以及异质性校正，其中M值为beta值的对数。

5.根据权利要求4所述的方法，其特征在于：所述Ⅱ型探针校正使用BMIQ函数进行，所述M值校正使用ComBat函数进行。

6.根据权利要求1所述的方法，其特征在于：步骤（2）中所述多重线性回归模型具体为：以年龄为因变量，校正6个细胞组分、5个基因组主成分、5个甲基化组主成分、性别、种族、批次、样板和身体质量指数的影响，使用模型如公式（1）所示：

Age～6cells+5PCs+5mePCs+Sex+Population+Batch+Slide+BMI (1)

然后校正全甲基化组最显著的甲基化位点对年龄的影响，继续下一轮的表观基因组关联分析，使用模型如公式（2）所示：

Age～6cells+5PCs+5mePCs+Sex+Population+Batch+Slide +BMI +topCpG (2)

循环校正直至没有显著的甲基化位点出现；

上述公式中，Age为年龄，cells为细胞组分，PCs为基因组主成分，mePCs为甲基化组主成分，Sex为性别，Population为种族，Batch为批次，Slide为样板，BMI为身体质量指数的影响。

7.根据权利要求6所述的方法，其特征在于：所述显著具体指P值小于6.16×10^-8。

8.根据权利要求1所述的方法，其特征在于：当所述MLR模型通过DNA甲基化标志物、年龄和性别进行构建时，所述MLR模型为：

Y2=20.736+0.176×Sex+54.195×cg16867657+45.047×cg08097417+10.604×cg26079664+26.868×cg06639320-18.118×cg10501210-24.755×cg13552692-17.149×cg07850154-15.227×cg01949324-11.249×cg21531089+13.179×cg18537454；

其中，Sex为性别。