CN105765083B

CN105765083B - 基于表观遗传学标记物来估计组织和细胞类型的年龄的方法

Info

Publication number: CN105765083B
Application number: CN201480065105.3A
Authority: CN
Inventors: S.霍瓦特
Original assignee: University of California
Current assignee: University of California
Priority date: 2013-09-27
Filing date: 2014-09-29
Publication date: 2021-05-04
Anticipated expiration: 2034-09-29
Also published as: US20160222448A1; WO2015048665A3; CN105765083A; EP3049535A2; EP3049535B1; WO2015048665A2

Abstract

一种确定生物样品的年龄的方法，其包括测量所述生物样品的基因组DNA中的一组甲基化标记物的甲基化水平。利用统计预测算法确定所述生物样品的年龄，所述算法包括(a)获得所述甲基化标记物水平的线性组合，和(b)对所述线性组合应用变换以确定所述生物样品的年龄。

Description

基于表观遗传学标记物来估计组织和细胞类型的年龄的方法

对相关申请的交叉引用

本申请根据美国法典第35卷第119(e)条要求2013年9月27日提交的标题为“METHOD TO ESTIMATE THE AGE OF TISSUES AND CELL TYPES BASED ON EPIGENETICMARKERS”的同在申请中的美国临时专利申请序号61/883,875的权益，所述临时专利申请的内容以引用的方式并入本文中。

序列表

本申请含有已经以ASCII格式电子提交且以全文引用的方式并入在此的序列表。所述ASCII拷贝是在2014年9月26日创建，命名为G&C30435.276-WO-U1_SL.txt并且大小为119,130字节。

发明背景

(注意：本申请参考了许多不同的出版物，如贯穿本说明书以括在括号中的参考文献编号(例如[x])所指示。这些不同的出版物按照这些参考文献编号的顺序的列表可见于以下标题为“参考文献”的部分中。)

从受胎的这一刻起，我们就开始衰老。细胞结构、基因调控和DNA序列的衰化使细胞和生物体衰老。越来越多的证据表明衰老的许多表现是表观遗传学表现[1,2]。已经发现DNA甲基化模式随年龄增加而变化且促成年龄相关疾病。诸多启动子区域中的甲基化通常伴随着基因沉默和甲基化的损失或可结合某些甲基化胞嘧啶DNA核苷酸的蛋白质的损失。这在人类中可能导致诸多疾病，例如免疫缺陷、颅面综合征和雷特氏综合征(参见例如Bestor(2000)Hum.Mol.Genet.9:2395-2402)。DNA甲基化可能是基因特异性的或发生在全基因组。

一种特定类型的表观遗传学控制是胞嘧啶-磷酸-鸟嘌呤(CpG)二核苷酸内的胞嘧啶-5甲基化(也称为DNA甲基化或“DNAm”)。长久以来，已经在多种物种中观测到年龄相关的DNA低甲基化，这些物种包括鲑鱼[3]、大鼠[4]和小鼠[5]。最近的研究已经显示，许多CpG会经历年龄相关的高甲基化或低甲基化[6-14]。先前的研究已经显示，年龄相关的高甲基化优先发生在CpG岛上[8]、在与关键发育基因相关的二价染色质结构域启动子上[15]和在多梳家族蛋白质上[10]。表观遗传学景观在诸多组织类型间显著变化[16-18]，而且许多年龄相关的变化取决于组织类型[8,19]。一些研究已经表明，可以不依赖于性别、组织类型、疾病状态和阵列平台来定义年龄依赖性CpG特征[10,13-15,20-22]。

尽管许多论文描述了基于特定组织(例如唾液或血液[23,24])中的DNA甲基化(DNAm)水平的年龄预测器，但目前还不知道是否能在不考虑组织类型的情况下使用单个预测器来预测年龄。描述多种组织(例如血液、唾液和脑[13,21,23,24,90,91])中的年龄相关变化的论文通常仅集中于衰老的生物学影响。举例来说，Teschendorff等[10]已经将多种DNA CpG甲基化标记物包括在年龄相关的基因的列表中，他们证明这些标记物与年龄相关。然而，Teschendorff等[10]并未研究脑组织和唾液，而且进一步来说并未建立(多变量)年龄预测器。有许多出版物也描述了基于DNA甲基化水平的年龄预测器(参见例如Bockland等[23]；Koch等[21]；Hannum等[24])。然而，值得注意的是，Hannum等[24]发现计算针对不同的组织的基于DNA甲基化的年龄预测器基本上得不到重叠，例如来源于血液的预测性CpG与来自其他组织的那些不同。

因此，需要一种基于DNA甲基化水平的年龄预测器以便可以准确地预测许多人类组织/细胞类型的年龄。

发明概要

在本发明的一个方面，提供了一种用于估计个体的组织或细胞样品的实足年龄和/或生物学年龄的方法，所述方法是通过测量与所述个体的DNA连接的特定DNA胞嘧啶-磷酸-鸟嘌呤(CpG)甲基化标记物的甲基化。任选地，对所测量的甲基化水平进行变换。在一个或多个实施方案中，所述方法包括形成预定CpG甲基化标记物组的线性组合(或任选地，形成经过变换的甲基化水平的线性组合)，随后使用标定函数将其变换成年龄估计值。称为“时钟CpG”的CpG(或经过变换的甲基化水平)的线性组合可解释为表观遗传学时钟。所得预测年龄称为“DNA甲基化(DNAm)年龄”。在一个实施方案中，基于354个CpG的甲基化标记物组(参见以下表3)来估计年龄。在其他实施方案中，基于110个、38个、17个或6个CpG的甲基化标记物组(分别参见表4、表5、表6和表7)来估计年龄。所述110个、38个、17个和6个CpG的组是取自表3中所示出的354个CpG的甲基化标记物组的甲基化标记物子组。

在本发明的另一个方面，提供了一种使用一组CpG甲基化标记物来估计年龄的多组织年龄预测器。所述多组织年龄预测器的一个优点在于其广泛适用性：对于大部分组织，其不需要任何调节或补偿。本发明允许比较人体的不同部分的年龄。此外，多组织年龄预测器和CpG甲基化标记物允许使用容易获取的组织(例如血液、唾液、口腔细胞、表皮)来测量不易获取的组织(例如脑、肾脏、肝脏)的年龄。

举例来说，本文中所公开的方法可以用于通过测量更易获取的组织诸如血液、唾液、皮肤或脂肪组织的年龄来估计不易获取的人类脑组织的年龄。在其他方面，所述样品包括组织培养细胞或多能干细胞(例如诱导性多能干(iPS)细胞)。因此，在一些方面，诸多实施方案的方法可以用于确定组织培养细胞群体的传代次数或培养时间的量。在其他方面，诸多实施方案的方法可以用于评估包括多能干细胞(例如iPS细胞)的细胞群体的分化状态(或多能性)。

在一个或多个实施方案中，提供了一种方法，所述方法包括从样品中提取基因组DNA的第一步骤。在第二步骤中，测量所述基因组中的多个基因座处的DNAm水平。在特殊情况下，这导致对每个样品进行数千次定量测量。各测量测量了特定基因组位置(CpG)上的甲基化程度。测量较多CpG允许对数据进行归一化，但在某些实施方案中，仅测量354个、110个、38个、17个或6个CpG甲基化标记物的DNAm水平(分别参见表3至表7)。第三步骤包括计算经测量的CpG的(任选地，经过变换的)DNAm水平(加权)平均值。在某些情况下，结果是介于-4与4之间的实数。将各CpG的DNAm水平乘以(回归模型)的系数值并且将个别乘积相加。在第四步骤中，将加权平均值变换成新的量表，诸如度量DNAm年龄的数字(岁)。在这种情况下，零岁对应于出生时年龄，且出生前样品得到负年龄。使用单调非线性变换。

所述方法还可以在所述第二步骤之后包括其他步骤，其中对所述测量值进行归一化/变换，以使得其频率分布的两个峰位于与金标准物测量值相同的两个位置上。结果与第二步骤的结果相同，但值稍加变化。频率分布的峰分别对应于完全甲基化或未甲基化CpG的值。这个归一化步骤是有可能的，因为大部分CpG或是完全甲基化或是未甲基化。在一个示例性实现方式中，金标准物是基于715个血液样品的平均DNAm值。

本发明可以用于研究药物、食品化合物和/或特殊饮食对人类或黑猩猩(其可以充当模型生物体，因为DNAm年龄还适用于黑猩猩组织)的生物学年龄的影响。因为DNA甲基化模式随年龄增加而变化且促成年龄相关的疾病，所以可以使用CpG作为实足年龄的生物标记物(例如，用于司法应用)。本发明还可以用于确定和/或增加个体长寿的可能性，具体来说，通过确定和降低个体发展年龄相关的疾病(例如癌症)的可能性。这是通过例如诊断和确定疾病(例如癌症)的存在或可能性，或提供用于鉴别能对抗本文中所公开的CpG标记物中甲基化的年龄相关的增加或降低的化合物的测定法来实现。

在另一个实施方案中，提供了一种用于确定生物样品的年龄的方法，所述方法包括选择性地测量所述生物样品的基因组DNA中的一组甲基化标记物的甲基化水平，所述一组甲基化标记物包括表3中所列出的基因(SEQ ID NO:1-354)中至少6个中的标记物，和基于所述甲基化水平确定所述样品的年龄。在一些方面，所述一组甲基化标记物可以包括表3中所列出的基因中至少或至多6、7、8、9、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、105、110、115、120、125、130、135、140、145、150、155、160、165、170、175、180、185、190、195、200、205、210、215、220、225、230、235、240、245、250、255、260、265、270、275、280、285、290、295、300、305、310、315、320、325、330、335、340、345、350或354个中的标记物。在其他方面，所述一组甲基化标记物可以包括表3中所列出的CpG位置中至少或至多6、7、8、9、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、105、110、115、120、125、130、135、140、145、150、155、160、165、170、175、180、185、190、195、200、205、210、215、220、225、230、235、240、245、250、255、260、265、270、275、280、285、290、295、300、305、310、315、320、325、330、335、340、345、350或354个中的标记物。

在另一个方面，诸多实施方案的方法包括选择性地测量所述生物样品的基因组DNA中的一组甲基化标记物的甲基化水平，所述一组甲基化标记物包括表4中所列出的基因中至少6个中的标记物，和基于所述甲基化水平确定所述样品的年龄。在一些方面，所述一组甲基化标记物可以包括表4中所列出的基因中至少或至多6、7、8、9、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、105或110个中的标记物。在其他方面，所述一组甲基化标记物可以包括表4中所列出的CpG位置中至少或至多6、7、8、9、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、105或110个中的标记物。

在另一个方面，诸多实施方案的方法包括选择性地测量所述生物样品的基因组DNA中的一组甲基化标记物的甲基化水平，所述一组甲基化标记物包括表5中所列出的基因中至少3个中的标记物，和基于所述甲基化水平确定所述样品的年龄。在一些方面，所述一组甲基化标记物可以包括表5中所列出的基因中至少或至多3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37或38个中的标记物。在其他方面，所述一组甲基化标记物可以包括表5中所列出的CpG位置中至少或至多3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37或38个中的标记物。

在又一方面，诸多实施方案的方法包括选择性地测量所述生物样品的基因组DNA中的一组甲基化标记物的甲基化水平，所述一组甲基化标记物包括表6中所列出的基因中至少3个中的标记物，和基于所述甲基化水平确定所述样品的年龄。在一些方面，所述一组甲基化标记物可以包括表6中所列出的基因中至少或至多3、4、5、6、7、8、9、10、11、12、13、14、15、16或17个中的标记物。在其他方面，所述一组甲基化标记物可以包括表6中所列出的CpG位置中至少或至多3、4、5、6、7、8、9、10、11、12、13、14、15、16或17个中的标记物。

在又一方面，诸多实施方案的方法包括选择性地测量所述生物样品的基因组DNA中的一组甲基化标记物的甲基化水平，所述一组甲基化标记物包括表7中所列出的基因中至少2个中的标记物，和基于所述甲基化水平确定所述样品的年龄。在一些方面，所述一组甲基化标记物可以包括表7中所列出的基因中至少或至多2、3、4、5或6个中的标记物。在其他方面，所述一组甲基化标记物可以包括表7中所列出的CpG位置中至少或至多2、3、4、5或6个中的标记物。

在一些方面，所述生物样品是包含基因组DNA的实体组织、血液、尿液、粪便或唾液样品。在特定方面，所述生物样品是血液样品。

在其他方面，选择性地测量基因组DNA中的一组甲基化标记物的甲基化水平进一步包括对所测量的甲基化标记物水平进行变换。在诸多实施方案的某些方面，确定所述生物样品的年龄包括对所测量的甲基化标记物水平(或经过变换的甲基化标记物水平)应用统计预测算法。在某些方面，应用统计预测算法包括(a)获得所述甲基化标记物水平(或经过变换的甲基化标记物水平)的线性组合，和(b)对所述线性组合应用变换以确定所述生物样品的年龄。举例来说，获得所述甲基化标记物水平的线性组合可以包括获得所述甲基化标记物水平的加权平均值(或经过变换的甲基化标记物水平的加权平均值)。在其他方面，对所述线性组合应用变换包括对所述线性组合应用对数和/或线性变换。

在另一个方面，确定所述生物样品的年龄包括应用线性回归模型以基于所述甲基化标记物水平的加权平均值加补偿来预测样品年龄。

在其他方面，相应地用于诸多实施方案的所述一组甲基化标记物可以包括表3、表4、表5、表6或表7的所有基因中或所有CpG位置上的甲基化标记物。在某些方面，所述一组甲基化标记物可以包括NHLRC1(SEQ ID NO:357)、GREM1(SEQ ID NO:356)、SCGN(SEQ ID NO:358)或EDARADD(SEQ ID NO:355)基因中或附近的标记物。在一个实施方案中，使用如下探针：基因NHLRC1附近的cg22736354(SEQ ID NO:158)、基因GREM1附近的cg21296230(SEQ IDNO:354)、基因SCGN附近的cg06493994(SEQ ID NO:46)和/或基因EDARADD附近的cg09809672(SEQ ID NO:252)。

在一些方面，基于所述生物样品的年龄来确定个体的年龄。举例来说，可以通过确定得自于来自个体的外周组织样品(例如血液或唾液样品)的生物样品的年龄来确定个体的年龄。一种方法可以进一步包括例如报告所述样品或所述个体的年龄，例如，通过制作书面、口头或电子报告。

在另一个实施方案中，提供了一种有形的计算机可读介质，其包括当由计算机执行时使所述计算机执行诸多操作的计算机可读代码，所述操作包括：接收对应于生物样品中的一组甲基化标记物的甲基化水平的信息，所述标记物包括表3、表4、表5、表6或表7中所列出的基因中至少2个中的标记物；和通过将统计预测算法应用于所测量的甲基化标记物水平来确定所述生物样品的年龄。在一些方面，所述一组甲基化标记物可以包括表3、表4、表5、表6或表7中所列出的基因中至少或至多3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、45、50、55、60、65、70、75、80、85、90、95、100、105、110、115、120、125、130、135、140、145、150、155、160、165、170、175、180、185、190、195、200、205、210、215、220、225、230、235、240、245、250、255、260、265、270、275、280、285、290、295、300、305、310、315、320、325、330、335、340、345、350或354个中的标记物。在其他方面，所述一组甲基化标记物可以包括表3、表4、表5、表6或表7中所列出的CpG位置中至少或至多3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、45、50、55、60、65、70、75、80、85、90、95、100、105、110、115、120、125、130、135、140、145、150、155、160、165、170、175、180、185、190、195、200、205、210、215、220、225、230、235、240、245、250、255、260、265、270、275、280、285、290、295、300、305、310、315、320、325、330、335、340、345、350或354个中的标记物。在一些方面，确定所述生物样品的年龄可以进一步包括比较所测量的甲基化标记物水平与参考标记物水平。所述参考水平可以任选地存储在所述有形的计算机可读介质中。在某些方面，确定所述生物样品的年龄可以包括应用线性回归模型以基于所述甲基化标记物水平的加权平均值加补偿来预测样品年龄。

在一些方面，所述接收信息可以包括从有形的数据存储装置接收对应于所述生物样品中的所述一组甲基化标记物的甲基化水平的信息。在其他方面，所述接收信息可以进一步包括接收对应于生物样品中的一组甲基化标记物的甲基化水平的信息，所述标记物包括表3、表4、表5、表6或表7中所列出的基因中至少或至多3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、45、50、55、60、65、70、75、80、85、90、95、100、105、110、115、120、125、130、135、140、145、150、155、160、165、170、175、180、185、190、195、200、205、210、215、220、225、230、235、240、245、250、255、260、265、270、275、280、285、290、295、300、305、310、315、320、325、330、335、340、345、350或354个中的标记物。

所述有形的计算机可读介质的其他方面可以包括当由计算机执行时使所述计算机执行一项或多项额外操作的计算机可读代码，所述操作包括：向有形的数据存储装置发送对应于所述生物样品中的所述一组甲基化标记物的甲基化水平的信息。

在诸多实施方案的某些方面，测量甲基化标记物包括执行甲基化特异性PCR(MSP)、实时甲基化特异性PCR、甲基化敏感性单链构形分析(MS-SSCA)、定量甲基化特异性PCR(QMSP)、使用甲基化DNA特异性结合蛋白的PCR、高分辨率熔解分析(HRM)、甲基化敏感性单核苷酸引物延伸(MS-SnuPE)、碱基特异性裂解/MALDI-TOF、PCR、实时PCR、组合型亚硫酸氢盐限制性分析(COBRA)、甲基化DNA免疫沉淀(MeDIP)、基于微阵列的方法、焦磷酸测序或亚硫酸氢盐测序。举例来说，测量甲基化标记物可以包括执行基于阵列的PCR(例如数字PCR)、靶向型多重PCR或在不进行亚硫酸氢盐处理的情况下直接测序(例如，经由纳米孔技术)。在一些方面，确定甲基化状态包括甲基化特异性PCR、实时甲基化特异性PCR、定量甲基化特异性PCR(QMSP)或亚硫酸氢盐测序。在某些方面，根据诸多实施方案的方法包括用亚硫酸氢盐(例如亚硫酸氢钠)处理样品中或来自样品的DNA，以便将CpG二核苷酸的未甲基化胞嘧啶转化成尿嘧啶。

附图简述

现在参考附图，其中类似的参考数字表示对应的部分：

图1：得自于多项独立研究的血液组织中的单变量年龄预测器。真实(实足)年龄预测器非常准确：预测年龄与真实年龄之间的中位数绝对偏差仅为7.2岁。真实年龄与预测年龄之间的相关系数是0.76。

图2：脑组织中的单变量线性年龄预测器(使用来自颞叶皮层、额叶皮层和PONS的样品)。真实(实足)年龄预测器非常准确：预测年龄与真实年龄之间的中位数绝对偏差仅为6.1岁。真实年龄与预测年龄之间的相关系数是0.88。

图3：脑区域(额叶皮层、颞叶皮层、PONS和总体)的单变量线性年龄预测器。

图4：得自于多项独立研究的全血组织中的多变量年龄预测器。多变量真实(实足)年龄预测器非常准确：预测年龄与真实年龄之间的中位数绝对偏差仅为5.4岁。真实年龄与预测年龄之间的相关系数是0.90。

图5：脑组织中的多变量年龄预测器(使用来自颞叶皮层、额叶皮层和PONS的样品)。多变量真实(实足)年龄预测器非常准确：预测年龄与真实年龄之间的中位数绝对偏差仅为5.9岁。真实年龄与预测年龄之间的相关系数是0.89。

图6：脑区域(例如，额叶皮层、颞叶皮层、PONS和总体)的多变量年龄预测器。

图7：唾液组织中的多变量年龄预测器。多变量真实(实足)年龄预测器非常准确：预测年龄与真实年龄之间的中位数绝对偏差仅为4.9岁。真实年龄与预测年龄之间的相关系数是0.67。

图8：得自于多项独立研究的全血组织中的多变量年龄预测器。多变量真实(实足)年龄预测器非常准确：预测年龄与真实年龄之间的中位数绝对偏差仅为5.1岁。真实年龄与预测年龄之间的相关系数是0.91。

图9：脑组织中的多变量年龄预测器(使用来自颞叶皮层、额叶皮层和PONS的样品)。多变量真实(实足)年龄预测器非常准确：预测年龄与真实年龄之间的中位数绝对偏差仅为5.8岁。真实年龄与预测年龄之间的相关系数是0.90。

图10：脑区域(额叶皮层、颞叶皮层、PONS和总体)的多变量年龄预测器。

图11：唾液组织中的多变量年龄预测器。多变量真实(实足)年龄预测器非常准确：预测年龄与真实年龄之间的中位数绝对偏差仅为4.4岁。真实年龄与预测年龄之间的相关系数是0.71。

图12：脑组织中的多变量年龄预测器(使用来自颞叶皮层、额叶皮层和PONS的样品)。多变量真实(实足)年龄预测器非常准确：预测年龄与真实年龄之间的中位数绝对偏差仅为8.2岁。真实年龄与预测年龄之间的相关系数是0.84。

图13：脑区域(额叶皮层、颞叶皮层、PONS和总体)的多变量年龄预测器。

图14：唾液组织中的多变量年龄预测器。多变量真实(实足)年龄预测器非常准确：预测年龄与真实年龄之间的中位数绝对偏差仅为4.2岁。真实年龄与预测年龄之间的相关系数是0.72。

图15：尽管所述标记物在唾液和脑中特别有效，但它们在血液组织中也相当有效。多变量真实(实足)年龄预测器非常准确：预测年龄与真实年龄之间的中位数绝对偏差仅为6.1岁。真实年龄与预测年龄之间的相关系数是0.988。

图16：每一栏对应于多组织年龄预测器的不同的实施方案。第一排和第二排分别示出了训练数据集和测试集的结果。各点对应于人类受试者，并且根据数据集(Horvath2013中的表1)进行着色和标记。各小组报告了预测年龄与实足年龄之间的中位数误差和相关系数。第一栏(A组、F组)示出了多组织年龄预测器的一个实施方案(基于354个CpG，表3)在训练数据(A)和测试数据(F)中的性能如何。第二栏(B组、G组)示出了基于110个CpG的“缩小”子组的多组织年龄预测器的另一个实施方案的性能。类似地，第三栏、第四栏和第五栏分别报告了基于38个、17个和6个CpG的多组织年龄预测器的其他实施方案的结果。即使6个CpG(J组)也在测试数据中导致非常高的相关系数0.89，但误差率(8.9岁)大大高于使用354个CpG的预测器时所观测的误差率(3.6岁，F组)。

图17：测试数据中的实足年龄(y轴)对比DNAm年龄(x轴)。(A)在所有测试数据中，年龄相关系数是0.96且误差是3.6岁。结果：(B)在出生(零岁)时和1岁时测量的CD4 T细胞(相关系数＝0.78，误差＝0.27岁)、(C)CD4 T细胞和CD14单核细胞(相关系数＝0.90，误差＝3.7)、(D)外周血单核细胞(相关系数＝0.96，误差＝1.9)、(E)全血(相关系数＝0.95，误差＝3.7)、(F)小脑样品(相关系数＝0.92，误差＝5.9)、(G)枕叶皮层(相关系数＝0.98，误差＝1.5)、(H)正常相邻乳房组织(相关系数＝0.87，误差＝13)、(I)口腔上皮(相关系数＝0.83，误差＝0.37)、(J)结肠(相关系数＝0.85，误差＝5.6)、(K)脂肪(相关系数＝0.65，误差＝2.7)、(L)心脏(相关系数＝0.77，误差＝12)、(M)肾脏(相关系数＝0.86，误差＝4.6)、(N)肝脏(相关系数＝0.89，误差＝6.7)、(O)肺(相关系数＝0.87，误差＝5.2)、(P)肌肉(相关系数＝0.70，误差＝18)、(Q)唾液(相关系数＝0.83，误差＝2.7)、(R)子宫颈(相关系数＝0.75，误差＝6.2)、(S)子宫内膜(相关系数＝0.55，11)、(T)由10种爱泼斯坦-巴尔二氏病毒转化的B细胞、三种天然B细胞和三种外周血单核细胞样品构成的多种血液样品(相关系数0.46，误差＝4.4)。依据疾病状态将样品着色：沃纳早衰样综合征为棕色，哈钦森-吉尔福德早衰症为蓝色，而健康对照受试者为蓝绿色。

发明详述

在描述诸多实施方案时，可以参考附图，所述附图形成本文的一部分且其中以说明的方式示出了可以实践本发明的具体实施方案。应理解，可以利用其他实施方案并且可以在不偏离本发明范围的情况下进行结构变化。

本文中所提到的所有出版物都以引用的方式并入本文中以便结合所引用的出版物来公开和描述诸多方面、方法和/或材料。引用本文中所引用的出版物是因为其公开内容在本申请的提交日期之前。此处不应被视为承认由于较早优先权日期或在先发明日期而使诸位发明人无权优先于这些公开。此外，实际公布日期可能不同于所示出的那些且需要独立验证。

本领域技术人员充分理解且通常使用本文中所描述或参考的许多技术和程序。除非另外定义，否则本文中所使用的所有专门术语、记法和其他科学术语或技术名词意在具有本发明所属领域的技术人员通常所理解的含义。在一些情况下，本文中出于清楚性和/或供及时参考的目的定义了具有通常所理解的含义的术语，且本文中包括此种定义将未必被视为表示与本领域中通常所理解的相比存在实质性差异。

如本文中所使用的术语“表观遗传学”意指涉及、存在或包括与DNA序列无关的基因表达修饰。表观遗传学因子包括通过DNA甲基化和染色质结构的变化加以控制的基因表达修饰。举例来说，已知甲基化模式与基因表达相关。

如本文中所使用的术语“核酸”可以包括嘧啶和嘌呤碱基(优选地分别为胞嘧啶、胸腺嘧啶和尿嘧啶以及腺嘌呤和鸟嘌呤)的任何聚合物或寡聚物。本发明涵盖任何脱氧核糖核苷酸、核糖核苷酸或肽核酸组分，及其任何化学变异体，诸如这些碱基的甲基化、羟甲基化或糖基化形式等等。所述聚合物或寡聚物在组成上可以是非均质或均质的，并且可以自天然存在的来源分离，或可以人工或合成产生。另外，所述核酸可为DNA或RNA或其混合物，并且可以永久地或暂时地以单链或双链形式存在，包括同源双链体、异源双链体和杂合状态。

如本文中所使用的术语“寡核苷酸”和“聚核苷酸”是指长度介于至少2个、优选至少8个且更优选至少20个核苷酸范围内的核酸或与聚核苷酸特异性杂交的化合物。本发明的聚核苷酸包括可能从天然来源分离、重组产生或人工合成的脱氧核糖核酸(DNA)或核糖核酸(RNA)序列和其模拟物。

如本文中所使用的术语“甲基化标记物”是指可能甲基化的CpG位置。甲基化通常发生在含CpG的核酸中。含CpG的核酸可能存在于例如基因的CpG岛、CpG二联核苷、启动子、内含子或外显子中。举例来说，在本文中所提供的基因区域中，潜在甲基化位点涵盖所指示的基因的启动子/增强子区域。因此，所述区域可以从基因启动子上游开始且向下游延伸至转录区中。

如本文中所使用的术语“基因组”或“基因组的”是生物体染色体中的所有遗传物质。来源于特定生物体的染色体中的遗传物质的DNA是基因组DNA。

如本文中所使用的术语“基因”是指与指定基因相关的基因组DNA区域。举例来说，所述区域可以由特定基因(诸如蛋白质编码序列外显子、插入内含子和相关表达控制序列)和其侧接序列来定义。然而，本领域中已经认识到特定区域中的甲基化通常指示近端基因组位点上的甲基化状态。相应地，确定基因区的甲基化状态可以包括确定处于约10bp至50bp、约50至100bp、约100bp至200bp、约200bp至300bp、约300bp至400bp、约400bp至500bp、约500bp至600bp、约600bp至700bp、约700bp至800bp、约800bp至900bp、900bp至1kb、约1kb至2kb、约2kb至5kb或更大的指定基因内或与其侧接的甲基化标记物或CpG位置的甲基化状态。

如本文中所使用的短语“选择性地测量”是指其中仅测量有限数目的甲基化标记物或基因(包含甲基化标记物)而不是测定基因组中的基本上所有的潜在甲基化标记物(或基因)的方法。举例来说，在一些方面，“选择性地测量”甲基化标记物或包含此种标记物的基因可能是指测量不超过1,000个、900个、800个、700个、600个、500个、400个或354个不同的甲基化标记物或包含甲基化标记物的基因。

如本文中所使用的术语“探针”是能够以碱基特异性方式结合核酸的互补链的寡核苷酸。如本文中所使用的术语“探针”是指能被特定靶标识别的表面固定的分子以及未固定且与可检测标记偶合的分子。

如本文中所使用的术语“标记”是指例如比色(例如发光)标记、光散射标记或放射性标记。荧光标记尤其包括市售荧光素亚磷酰胺，诸如Fluoreprime^TM(Pharmacia^TM)、Fluoredite^TM(Millipore^TM)和FAM^TM(ABI^TM)(参见例如美国专利第6,287,778号和第6,582,908号)。

如本文中所使用的术语“引物”是指能够充当在合适的条件(例如缓冲液和温度)下、在四种不同的核苷三磷酸和聚合剂(诸如DNA或RNA聚合酶或逆转录酶)存在下进行的模板指导的DNA合成的起始点的单链寡核苷酸。引物的长度在任何指定情况下都取决于例如引物的预定用途，且通常在15至30个核苷酸范围内。引物无需反映模板的准确序列，但必须充分互补以便与此种模板杂交。引物位点是与引物杂交的模板区域。引物对是一组引物，其包括与待扩增序列的5'端杂交的5'上游引物和与待扩增序列的3'端的补体杂交的3'下游引物。

如本文中所使用的术语“互补”是指核苷酸或核酸之间，诸如双链DNA分子的两个链之间或寡核苷酸引物与待测序或待扩增单链核酸上的引物结合位点之间的杂交或碱基配对。互补的核苷酸通常是A和T(或A和U)或C和G。两个单链RNA或DNA分子当经过最佳比对和比较且具有适当的核苷酸插入或缺失的一条链上的核苷酸与另一条链上至少约80％、通常至少约90％至95％且更优选约98％至100％的核苷酸配对时被说成互补。或者，当RNA或DNA链在选择性杂交条件下会与其补体杂交时存在互补性。通常，当在至少14至25个核苷酸的区段上存在至少约65％互补性、优选至少约75％、更优选至少约90％互补性时，将发生选择性杂交。参见M.Kanehisa,Nucleic Acids Res.12:203(1984)，以引用的方式并入本文中。

如本文中所使用的术语“杂交”是指两个单链聚核苷酸非共价地结合以形成稳定双链聚核苷酸的过程；理论上，三链杂交也是有可能的。诸多因素可能影响杂交的严格度，包括碱基组成和互补链长度、有机溶剂的存在和碱基错配程度，但诸多参数的组合比任一单独参数的绝对量度更重要。适合于微阵列的杂交条件描述于可得自Affymetrix.com的Gene Expression Technical Manual,2004和GeneChip Mapping Assay Manual,2004中。

如本文中所使用的术语“阵列”或“微阵列”是指有意产生的分子组，可以通过合成或生物合成来制备(例如Illumina^TM HumanMethylation27微阵列)。阵列中的分子可以彼此同一或不同。阵列可以呈现多种形式，例如可溶性分子的文库；拴系于树脂珠粒、硅芯片或其他固体载体的化合物的文库。

如本文中所使用的术语“固体载体”、“载体”和“底物”可互换使用，并且是指具有刚性或半刚性表面的一种或一组材料。在许多实施方案中，固相载体的至少一个表面应该是基本上平坦的，但在一些实施方案中，可能希望用例如孔、升高区域、针状物、蚀刻沟槽等将不同的化合物的合成区域用物理方式分开。根据其他实施方案，载体将呈现珠粒、树脂、凝胶、微球体的形式或其他几何构型。关于示例性底物，参见例如美国专利第5,744,305号。

在以下描述中，论述了利用线性组合的实施方案。本领域技术人员应理解本发明的这个方面不限于线性组合且仅为典型实例。举例来说，可以使用乘积或比率代替。此种乘积在算术上将等效于形成经过对数变换的甲基化水平的线性组合。

本发明的说明性方面的描述

如本文中所公开，已经在人类基因组中鉴别了DNA甲基化百分比与年龄线性相关的许多位置。通过在个体基因组中的30亿核苷酸中的仅几个处测量DNA甲基化，本发明允许准确估计个体的实足年龄。尽管先前的研究已经显示，基因组的某些部分中的DNA甲基化随年龄而变化，但本发明鉴别了甲基化在至少50年的范围内与年龄持续相关的基因座。这就允许非常准确地预测个体的年龄。在本发明的某些实施方案中，年龄与DNA中的这种化学变化之间的关联如此之强，以致于有可能通过研究例如个体基因组中的仅两个斑点来估计个体的年龄(参见Bockland等,(2011)PLoS ONE 6(6):el4821.doi:10.1371/journal.pone.0014821)。另外，已经通过其他研究证实了本发明的某些方面(参见例如Koch等,(2011)AGING,第3卷,第10期,第1,018-1,027页)。Eric Vilain等在2014年8月14日提交且标题为“Method to Estimate Age of Individual Based On Epigenetic Markersin Biological Sample”的相关出版物(美国申请公布No.2014/0228231)以全文引用的方式并入本文中。Steve Horvath的出版物“DNA methylation age of human tissues andcell types”(Horvath(2013)Genome Biology 14:R115)也以全文引用的方式并入本文中。

本发明涉及基于测量与我们的DNA连接的DNA胞嘧啶-磷酸-鸟嘌呤(CpG)甲基化标记物来估计个别人类组织或细胞类型样品的实足年龄和/或生物学年龄的方法。在本发明的一般实施方案中，公开了一种方法，其包括选择生物细胞或组织样品(例如全血、个别血细胞、唾液、脑)的第一步骤。在第二步骤中，从需要进行年龄预测的个体的所收集组织中提取基因组DNA。在第三步骤中，测量特定时钟CpG附近的甲基化标记物的甲基化水平。在第四步骤中，将统计预测算法应用于甲基化水平以预测生物学年龄或实足年龄。一种基本方法是形成时钟CpG的加权平均值，随后使用标定函数变换成DNAm年龄。实施例8中提供了数据预处理、数据归一化、年龄预测步骤的详细描述。

一个实施方案集中于形成354个CpG(表3，SEQ ID NO:1-354)的线性组合，最后使用标定函数将其变换成年龄估计值。这354个位置上的胞嘧啶甲基化程度的加权平均值与年龄显著相关，包括但不限于人类脑组织(额叶皮层、颞叶皮层、PONS)、血液组织(全血、脐带血和血细胞)、肝脏、脂肪、皮肤、肾脏、前列腺、肌肉和唾液组织。所述354个CpG(称为时钟CpG)的线性组合可以解释为表观遗传学时钟。所得预测年龄称为DNA甲基化(DNAm)年龄。在其他实施方案中，使用110个、38个、15个或6个CpG的线性组合(分别表4至表7)，它们是所述354个CpG的一个子组。在特殊情况下，通过增加惩罚回归模型中罚分项的临界值来确定这些子组或子时钟。在本发明的其他实施方案中，这些序列可以包括已翻译或未翻译的5'调控区；且任选地在本文中所鉴别的1千碱基(5'或3')的特定GC基因座内。

在另一个实施方案中，提供了一种用于确定生物样品的年龄的方法，所述方法包括选择性地测量所述生物样品的基因组DNA中的一组甲基化标记物的甲基化水平，所述一组甲基化标记物包括表3中所列出的基因中至少6个中的标记物，和基于所述甲基化水平确定所述样品的年龄。在一些方面，所述一组甲基化标记物可以包括表3中所列出的基因中至少或至多6、7、8、9、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、105、110、115、120、125、130、135、140、145、150、155、160、165、170、175、180、185、190、195、200、205、210、215、220、225、230、235、240、245、250、255、260、265、270、275、280、285、290、295、300、305、310、315、320、325、330、335、340、345、350或354个中的标记物。在其他方面，所述一组甲基化标记物可以包括表3中所列出的CpG位置中至少或至多6、7、8、9、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、105、110、115、120、125、130、135、140、145、150、155、160、165、170、175、180、185、190、195、200、205、210、215、220、225、230、235、240、245、250、255、260、265、270、275、280、285、290、295、300、305、310、315、320、325、330、335、340、345、350或354个中的标记物。

在又一方面，诸多实施方案的方法包括选择性地测量所述生物样品的基因组DNA中的一个组甲基化标记物的甲基化水平，所述一组甲基化标记物包括表6中所列出的基因中至少3个中的标记物，和基于所述甲基化水平确定所述样品的年龄。在一些方面，所述一组甲基化标记物可以包括表6中所列出的基因中至少或至多3、4、5、6、7、8、9、10、11、12、13、14、15、16或17个中的标记物。在其他方面，所述一组甲基化标记物可以包括表6中所列出的CpG位置中至少或至多3、4、5、6、7、8、9、10、11、12、13、14、15、16或17个中的标记物。

在又一方面，在又一方面，诸多实施方案的方法包括选择性地测量所述生物样品的基因组DNA中的一组甲基化标记物的甲基化水平，所述一组甲基化标记物包括表7中所列出的基因中至少2个中的标记物，和基于所述甲基化水平确定所述样品的年龄。在一些方面，所述一组甲基化标记物可以包括表7中所列出的基因中至少或至多2、3、4、5或6个中的标记物。在其他方面，所述一组甲基化标记物可以包括表7中所列出的CpG位置中至少或至多2、3、4、5或6个中的标记物。

在本发明的另一个方面，公开了与人类血液、脑组织和唾液中的年龄持续相关的一组四个甲基化标记物。具体来说，在以下基因附近的DNA甲基化标记物：NHLRC1、GREM1、SCGN，与多个人类组织中的年龄具有非常显著的正相关系数。基因EDARADD附近的甲基化标记物与多个组织中的年龄具有非常显著的负相关系数。在一个实施方案中，甲基化标记物包括如下探针：基因NHLRC1附近的cg22736354(SEQ ID NO:158)、基因GREM1附近的cg21296230(SEQ ID NO:354)、基因SCGN附近的cg06493994(SEQ ID NO:46)和基因EDARADD附近的cg09809672(SEQ ID NO:252)。提供了涉及这些标记物中的一个至四个的年龄估计方法。在这些方法中，从个体收集生物细胞或组织样品。从所收集的组织中提取基因组DNA，并且测量NHLRC1(SEQ ID NO:357)、GREM1(SEQ ID NO:356)、SCGN(SEQ ID NO:358)和EDARADD(SEQ ID NO:355)基因中至少一者附近的甲基化标记物的甲基化水平。将统计预测算法应用于所测量的甲基化水平以确定个体的生物学年龄或实足年龄。

本发明的诸多实施方案包括使用来自生物样品的基因组DNA中的胞嘧啶甲基化的观测值来预测从中获得样品的个体的实足年龄的方法。这些方法的其他实施方案包括基于序列中所观测到的胞嘧啶甲基化的程度/量来计算个体个理论生物学年龄(生物年龄)，且随后比较所述个体的理论生物年龄与所述个体的实际实足年龄。这样就获得了可用于在个体中确定年龄相关疾病的风险水平的信息。任选地，举例来说，将个体的理论生物年龄与实际实足年龄相比较以确定理论生物年龄是否大于实际实足年龄；且所述方法进一步包括对个体提供个性化治疗以使理论生物年龄更接近个体的实足年龄。

DNAm年龄是用于研究人类发育、老化和癌症的重要生物标记物，并且可以用作评估抗衰老疗法的替代标记物。DNAm年龄的最显著特征是其对许多组织和细胞类型的适用性。已经发现DNAm年龄能预测不同来源的DNA中的年龄，包括：脂肪组织/脂肪、血液(全血、脐带血、血细胞、外周血单核细胞、B细胞、T细胞、单核细胞)、脑组织(额叶皮层、颞叶皮层、PONS)、乳房、口腔细胞/上皮、软骨、小脑、结肠、皮层(前额叶皮层、额叶皮层、枕叶皮层、颞叶皮层)、表皮、成纤维细胞(例如皮肤成纤维细胞)、胃组织、胶质细胞、头/颈组织、肾脏、肺、肝脏、间质基质细胞、神经元、胰脏、脑桥、前列腺、唾液、胃、甲状腺、子宫颈和许多其他组织/细胞类型。在并入补偿后，还发现它在心脏组织中表现良好。此外，容易获取的体液/组织(例如唾液、口腔细胞、血液、皮肤)的DNAm年龄可以充当不易获取的组织(例如脑、肾脏、肝脏)的替代标记物。此外，DNAm年龄可用于比较人体不同部分的年龄，例如，以发现不健康的器官或组织。

在本发明的另一方面，提供一种用于估计多个组织(例如全血、个别血细胞、唾液或脑组织)中的年龄的方法。在另一个方面，如以下所显示，容易获取的组织(例如血液、唾液、口腔细胞、表皮)可用于测量不易获取的组织(例如脑)中的年龄。在本发明的一个实施方案中，提供一种基于测量与个体的DNA连接的DNA CpG甲基化标记物来估计个体的人脑的实足年龄和/或生物学年龄的方法。通常，来自活个体的人类脑组织不易获取且不可用于此种测量。然而，如本文中所公开，可以在更易获取的组织，诸如血液或唾液样品中测量一小组DNA甲基化标记物，以估计脑和其他组织中的年龄相关甲基化变化。因此，能够基于血液或唾液测量值准确地预测个体脑组织中的年龄。本发明的这个方面的说明性实施方案包括例如一种预测人类年龄的方法，所述方法是通过观测得自人类的生物样品中的多个标记物，诸如至少6个、17个、38个、100个标记物(参见例如表3至表6)的甲基化状态，比较所观测的甲基化状态与在不同年龄的个体群体中所观测的甲基化模式(例如使用统计预测算法)，且随后基于在这个比较步骤中所获得的信息来预测从中获得样品的人类的年龄。

许多论文已经描述了不同的人类组织，例如血液、唾液和脑中的年龄相关变化。然而，这些研究从未试图构建同时用于多个组织或细胞类型(例如组合脑和血液数据)中的年龄预测器。相反，所述研究仅集中于创建不同的组织中的年龄相关CpG标记物的大列表以便研究老化对个体CpG的生物学影响。目前，仅有三个出版物描述了基于DNA甲基化水平的年龄预测器(Bockland等[23]；Koch等[21]；Hannum等[24])，但这些出版物集中于个体组织或体液(例如血液或唾液)。值得注意的是，Hannum等[24]发现计算针对不同的组织的基于DNA甲基化的年龄预测器基本上得不到重叠，例如来源于血液的预测性CpG与来自其他组织的那些不同。比较研究显示，本发明的年龄预测器的性能大大由于Bockland等[23]和Koch等[21]的预测器。不可能与Hannum等[24]的预测器进行直接比较，因为他们的预测器包括额外共变量(数据批次、性别和身体质量指数)。本文中所提供的多组织预测器仅使用时钟CpG，即，它不需要额外共变量。

Hannum/Bell的与子时钟(110个、38个、17个和6个CpG，分别示于表4、表5、表6和表7中)重叠的CpG/基因包括：110/38/17/6-IPO8(别名：RANBP8)和NHLRC1；110/38/17-KLF4、SCGN、RHBDD1和C16orf65；110/38-MGC16703(别名：P2RX6)和FZD9；38-BRUNOL6；110-ABCA17P(别名：ABCA3)、PIPOX、ABHD14B、EDARADD、GRP25、FLJ32110(别名：ZNF8048)和LAG3。

在本发明的另一个方面，提供一种基于时钟CpG来估计DNAm年龄的非常简单而且成本有效的试剂盒。在本发明的一些实施方案中，所述试剂盒包括甲基化微阵列(参见例如美国专利申请公布No.2006/0292585，其内容以引用的方式并入)。在一个实施方案中，所述试剂盒被用于利用血液或唾液中的测量值来估计脑组织或血液组织的实足年龄和生物学年龄。微流体装置可以应用于容易获取的组织/体液，诸如血液、口腔细胞或唾液。任选地，所述试剂盒包括多个引物组以用于扩增至少两个基因组DNA序列。在本发明的一些实施方案中，所述试剂盒进一步包括用于执行DNA指纹分析的探针或引物。本发明的此种套组可以进一步包括基因组DNA聚合过程、基因组DNA杂交过程和/或基因组DNA亚硫酸氢盐转化过程中所使用的试剂。在一个示例性实现方式中，提供了一种用于获得可用于确定个体年龄的信息的试剂盒，所述试剂盒包括多个对生物样品中的至少一个基因组DNA序列具有特异性的引物或探针，其中所述基因组DNA序列包括图4中所鉴别的CG基因座。本发明还可以呈成熟软件包或基于网络的程序的形式提供。举例来说，用户可以访问网页并且上传其DNA甲基化数据。所述程序随后以电子邮件向用户发送结果，包括预测年龄(DNAm年龄)。

可以使用不同的方法测量甲基化标记物(或接近它们的标记物)的DNA甲基化，所述方法介于市售阵列平台(例如得自Illumina^TM)至个别基因的测序方法的范围内。这包括标准实验室技术或阵列平台。举例来说，以下文献中已经描述了多种用于检测甲基化状态或模式的方法：美国专利No.6,214,556、5,786,146、6,017,704、6,265,171、6,200,756、6,251,594、5,912,147、6,331,393、6,605,432和6,300,071，以及美国专利申请公布No.20030148327、20030148326、20030143606、20030082609和20050009059，所述文献各自以引用的方式并入本文中。美国专利申请序号11/058,566中公开了其他基于阵列的甲基化分析方法。关于一些甲基化检测方法的综述，参见Oakeley,E.J.,Pharmacology&Therapeutics 84:389-400(1999)。可利用的方法包括但不限于：逆相HPLC、薄层色谱法、并入有经过标记的甲基的SssI甲基转移酶、氯乙醛反应、差异性敏感性限制酶、肼或高锰酸盐处理(通过高锰酸盐处理而不是通过肼处理来使m5C裂解)、亚硫酸氢钠、组合硫酸氢盐限制性分析和甲基化敏感性单核苷酸引物延伸。

测定了本文中所揭示的DNA甲基化标记物子组的甲基化水平(例如使用Illumina^TMDNA甲基化阵列，或使用涉及相关引物的PCR方案)。为了定量甲基化水平，可以遵循由Illumina^TM描述的标准方案来计算甲基化β值，所述值等于该位置上的甲基化胞嘧啶的分数。本发明还可以应用于任何其他方法以用于定量如本文中所公开的基因附近的位置上的DNA甲基化。可以使用许多目前可用的测定法来定量DNA甲基化，所述测定法包括例如：

a)针对DNA腺嘌呤甲基转移酶活性的分子断裂光测定法是基于限制酶DpnI对经过荧光团和淬灭剂标记的寡核苷酸中完全甲基化(腺嘌呤甲基化)的GATC位点的特异性的测定法。腺嘌呤甲基转移酶使寡核苷酸甲基化，从而使其成为DpnI的底物。通过DpnI切割寡核苷酸引起荧光增加。

b)甲基化特异性聚合酶链反应(PCR)是基于亚硫酸氢钠与DNA的化学反应，该化学反应将CpG二核苷酸的未甲基化胞嘧啶转化成尿嘧啶或UpG，随后进行传统PCR。然而，在这个过程中不会转化已甲基化的胞嘧啶，且因此将引物设计成与感兴趣的CpG位点重叠，由此允许确定甲基化状态是已甲基化或未甲基化。β值可以计算为甲基化比例。

c)基因组范围亚硫酸氢盐测序，也称为BS-Seq，是全基因组DNA甲基化分析。它是基于基因组DNA的亚硫酸氢钠转化，然后在下一代测序(NGS)平台上进行测序。然后将所获得的序列与参考基因组重新比对，以便基于由未甲基化胞嘧啶转化成尿嘧啶导致的错配来确定CpG二核苷酸的甲基化状态。

d)通过连接介导PCR进行的Hpall小片段富集(HELP)测定法是基于限制性酶差异性识别和裂解已甲基化和未甲基化CpG DNA位点的能力。

e)甲基敏感性Southern印迹类似于HELP测定法，但使用Southern印迹技术来探测使用限制性消化的甲基化中的基因特异性差异。这种技术被用于评估探针结合位点附近的局部甲基化。

f)ChIP-on-chip测定法是基于商业上制备的抗体结合DNA甲基化相关蛋白如MeCP2的能力。

g)限制性标记基因组扫描是一种复杂的且现在很少使用的测定法，它是基于限制性酶对已甲基化和未甲基化CpG位点的差异性识别。这种测定法在原理上类似于HELP测定法。

h)甲基化DNA免疫沉淀(MeDIP)类似于染色质免疫沉淀。免疫沉淀被用于分离甲基化DNA片段以便输入至诸如DNA微阵列(MeDIP-chip)或DNA测序(MeDIP-seq)之类的DNA检测方法中。

i)对亚硫酸氢盐处理过的DNA的焦磷酸测序是由正常正向引物而不是生物素化反向引物制造扩增子以便对所选基因进行PCR的测序。焦磷酸测序仪然后通过使DNA变性且根据由使用者提供的顺序每次向混合物中加入一种核苷酸来分析样品。如果存在错配，则将它记录下来并且指出存在错配的DNA的百分比。由此向使用者提供每个CpG岛的甲基化百分比。

在本发明的某些实施方案中，使基因组DNA与跟基质(例如布置在微阵列内的基质)偶合的互补序列(例如合成聚核苷酸序列)杂交。任选地，经由利用聚合酶链反应法的扩增将基因组DNA从其天然状态进行转化。举例来说，在与阵列杂交之前或同时，可以通过多种机制扩增样品，其中一些可能采用PCR。参见例如PCR Technology:Principles andApplications for DNA Amplification(H.A.Erlich编,Freeman Press,NY,N.Y.,1992)；PCR Protocols:A Guide to Methods and Applications(Innis等编,Academic Press,San Diego,Calif.,1990)；Mattila等,Nucleic Acids Res.19,4967(1991)；Eckert等,PCRMethods and Applications 1,17(1991)；PCR(McPherson等编,IRL Press,Oxford)；和美国专利No.4,683,202、4,683,195、4,800,159、4,965,188和5,333,675。可以在阵列上扩增样品。参见例如美国专利No.6,300,070，该专利以引用的方式并入本文中。

任何统计方法都可以用于将甲基化水平与年龄相关联，例如可以使用如本文中所描述的(惩罚)线性回归模型(诸如弹性网络回归)针对CpG标记物对实足年龄的变换版本进行回归计算。使用本领域中已知的常规回归模型/分析工具和方法，预期许多年龄预测模型用于特定基因组DNA样品和/或特定分析技术和/或特定个体群体(参见例如所引用的统计软件包R版本2.11.1，如R Development Core Team(2005)R:A language and environmentfor statistical computing.R Foundation for Statistical Computing,Vienna,Austria.ISBN 3-900051-07-0,URL www.R-project.org中所论述)。在一个实施方案中，可以使用恒等变换，其中针对CpG对实足年龄进行简单回归计算。在其他实施方案中，对实足年龄(惩罚回归模型中的因变量)进行变换。在说明性实验中，已经发现这种变化导致年龄预测器实质上更准确(相对于误差)且与未进行变换的相比需要实质上更少的CpG。另外，可以形成CpG的加权平均值。

在另一个实施方案中，线性回归模型可以基于甲基化水平的加权平均值加补偿来预测年龄。为了确定加权平均值的权重，可以使用回归模型的回归系数。在另一个实施方案中，可以将各甲基化标记物标准化，以使其具有平均值零和变异数。随后形成标准化甲基化水平的加权平均值，其中权重选择为等于其在训练数据集中与年龄的相关系数×测试数据集中的预期年龄标准偏差。在一个或多个实施方案中，因变量(即，实足年龄)的变换是分段变换：对于介于0岁与20岁之间的年龄，使用对数变换。对于超过20岁的年龄，使用线性变换。另外，使用Teschendorff的BMIQ算法的改编形式将因变量(CpG)相对于所选金标准物(例如，训练数据中的平均甲基化水平或血液组织中的平均甲基化水平)进行“归一化”。更多细节提供于实施例8中。这个归一化步骤确保未来的测试数据类似于训练数据。

举例来说，在本文中所公开的一个训练数据集中，基因NHLRC1、GREM1、SCGN和EDARADD附近的甲基化标记物cg22736354(SEQ ID NO:158)、cg21296230(SEQ ID NO:354)、cg06493994(SEQ ID NO:46)和cg09809672(SEQ ID NO:252)分别具有相关系数r＝-0.47、0.80、0.71和0.76(参见实施例)。在训练数据集中，年龄标准偏差是24且平均值是45。在形成标准化甲基化水平的这种加权平均值之后，加上测试数据集预期的平均年龄(例如45)以得出个体的实足年龄和/或生物学年龄的最终预测值。尽管所述预测是基于所选组织，但它也适用于其他组织。因此，容易获取的组织诸如血液或唾液组织可用于预测脑组织或其他不易获取的组织的年龄。

除本文中所公开的说明性模型以外，其他模型也可以例如针对不同的组织和/或细胞谱系定制系数值(权重)。此外，除组织类型以外，这样的系数还可以在得自不同的人群的数据集中加权。举例来说，如果模型仅应用于儿科患者，则可以使用一组系数。或者，若模型仅应用于年长人士(例如超过50岁)，则可以使用另一组系数。或者，系数可以固定，例如，当模型广泛应用于年龄为10岁至100岁等的人士时。不同的模型中的系数值还可以反映用于测量甲基化水平的具体测定法(例如，由于个别探针的甲基化水平的变异数可能影响所述系数)。举例来说，对于在Illumina^TM甲基化微阵列平台上测量的β值可能存在一组系数，而对于其他甲基化测量(例如使用测序技术)可能存在另一组系数等等。还可以使用其他值代替，诸如M值(β值的变换版本)。此外，甲基化水平可以替换为针对背景甲基化水平加以调节的值或CpG设定基准点的平均甲基化水平。在实践本发明的某些实施方案时，可以使用特定的技术平台和组织来收集参考数据集(例如不同年龄的100名个体)，然后设计特定的多变量线性模型，与这个参考数据集拟合以估计系数(例如使用最小二乘回归)。所得多变量模型随后可以用于对测试患者预测年龄。这样，不同的数理模型适宜在多种情形下分析甲基化模式。

除了使用本领域接受的建模技术(例如回归分析)以外，本发明的实施方案还可以包括多种本领域接受的技术方法。举例来说，在本发明的某些实施方案中，执行亚硫酸氢盐转化过程，以便将基因组DNA中的胞嘧啶残基转化成尿嘧啶，而基因组DNA中的5-甲基胞嘧啶残基未转化成尿嘧啶。用于DNA亚硫酸氢盐修饰的套组可购自例如MethylEasy^TM(HumanGenetic Signatures^TM)和CpGenome^TM修饰试剂盒(Chemicon^TM)。还参见WO04096825A1，该文献描述了亚硫酸氢盐修饰方法，和Olek等Nuc.Acids Res.24:5064-6(1994)，该文献公开了执行亚硫酸氢盐处理和后续扩增的方法。亚硫酸氢盐处理允许通过多种方法检测胞嘧啶的甲基化状态。举例来说，可用于检测SNP的任何方法都可以使用，例如，参见Syvanen,NatureRev.Gen.2:930-942(2001)。可以使用诸如单碱基延伸(SBE)之类的方法或与等位基因特异性杂交方法类似的序列特异性探针杂交。在另一个方面，可以使用分子倒置探针(MIP)测定法。

此外，所提供的用于估计年龄的方法可以涉及相对较少的标记物。在一个或多个某些实施方案中，所述方法涉及介于1至4个之间的标记物。举例来说，接近以下基因的DNA甲基化标记物：NHLRC1(SEQ ID NO:357)、GREM1(SEQ ID NO:356)、SCGN(SEQ ID NO:358)与多个人类组织中的年龄具有非常显著的正相关系数。基因EDARADD(SEQ ID NO:355)附近的甲基化标记物与多个组织中的年龄具有非常显著的负相关系数。以举例的方式提供了基因和相应的Illumina^TM甲基化探针ID。举例来说，来自Illumina^TM甲基化阵列平台的以下探针标识符表示合适的标记物：i)基因NHLRC1附近的探针cg22736354(SEQ ID NO:158)、ii)基因GREM1附近的探针cg21296230(SEQ ID NO:354)和iii)基因SCGN附近的探针cg06493994(SEQ ID NO:46)与多个组织中的年龄具有正相关系数；iv)基因EDARADD附近的探针cg09809672(SEQ ID NO:252)与多个组织中的年龄具有负相关系数。

估计个体年龄的方法可以用于诊断和预后目的。老化生物标记物可以用于研究药物、食品化合物和/或特殊饮食对人类健康和生物学年龄的影响。它们还可以用作活力或青春的生物标记物。举例来说，老化生物标记物可以用于确定实足年龄(例如用于司法应用)。它们还可以用于确定和增加个体长寿和在老化过程中保持认知功能的可能性。

在某些实施方案中，本发明的方法可以用于提供司法调查中的重要信息(例如，在获得DNA的个体的身份未知的情况下)。在一个实施方案中，本文中所公开的方法可以应用于涉及实足年龄预测的司法应用。测量表观遗传学标记物(时钟CpG)的甲基化水平。在某些实施方案中，测量了血液或唾液中的基因EDARADD、NHLRC1、GREM1和SCGN附近的四个甲基化标记物中一个或多个的甲基化水平。在一个实施方案中，使用如下探针：基因NHLRC1附近的cg22736354(SEQ ID NO:158)、基因GREM1附近的cg21296230(SEQ ID NO:354)、基因SCGN附近的cg06493994(SEQ ID NO:46)和/或基因EDARADD附近的cg09809672(SEQ ID NO:252)。随后应用统计预测方法(例如基于线性回归)以预测个体的年龄。所公开的年龄预测模型可以应用于多种情形。举例来说，预测个体年龄的能力可以被司法科学家用于仅基于生物样品来估计嫌疑人的年龄。在设计供司法使用的本发明实施方案中，专业人士可以例如向实验室提交生物样品。在实验室中，然后可以分析由样品制备的DNA以确定在本文中所鉴别的基因座中的一个或多个上的甲基化百分比。可以将结果输入回归模型，诸如本文中所公开的那些，以预测嫌疑人的年龄。在某些情况下，嫌疑人的年龄可以预测至3至5岁的平均准确度。

本发明的这样的实施方案可以与其他司法分析程序组合，例如，通过还对基因组DNA执行DNA指纹分析。使用短串联重复(STR)的DNA指纹分析(也称为DNA分型)是司法科学中用于人类身份鉴别的一种方法，从而得以应用于不同的情形，诸如确定暴力犯罪的罪犯、判定父子关系和鉴别大型灾难的失踪人员或牺牲者的残肢。FBI和司法科学团体在常规司法分析中通常使用13个独立的STR基因座(核心CODIS基因座)。(CODIS是指FBI在1998年建立的组合DNA指数体系)。举例来说，美国专利No.7,501,253、7,238,486、6,929,914、6,251,592和5,576,180中公开了说明性DNA指纹分析方法)。

在另一个实施方案中，本文中所公开的方法可以应用于涉及生物学年龄预测的医学应用。根据所描述的方法预测年龄。这个预测值解释为生物学年龄(DNA甲基化年龄)。然后将预测值与个体的已知实足年龄相对照。若预测年龄高于实足年龄，则其指示这个人与他或她的来自同一年龄组中的同龄人相比看起来更苍老(或受到更大损伤或处在更大的年龄相关疾病的风险下)，即，显示老化加速的证据。

另外，对得自白血细胞或皮肤细胞的基因组DNA中的相关甲基化模式进行测量还提供了常规医学筛选中用于预测年龄相关疾病的风险以及基于表观遗传学生物学年龄而不是实足年龄来定制干预的工具。在本发明的一些实施方案中，可以比较个体的预测年龄与个体的实际实足年龄，例如作为年龄相关病变的诊断程序的一部分(例如鉴于其DNA甲基化模式来比较个体的实足年龄与表观生物学年龄)。这样的方法可用于基于表观遗传学生物学年龄而不是实际实足年龄的临床干预。在一个实施方案中，可以在常规健康检查时收集生物样品并且送至实验室以进行甲基化模式分析(例如，如以上所描述)。若患者的预测年龄高于实际年龄，则患者可能处在年龄相关疾病的增加风险之下，并且可以开具膳食干预或特定药物的处方以减小此“基因年龄”。如以上所指出，本发明的诸多实施方案包括获得可用于确定个体中的年龄相关疾病(例如阿尔茨海默病或帕金森病)的风险水平的信息的方法。

此外，因为DNAm年龄允许对比得自同一个体的不同组织/细胞类型的年龄，所以它可以用于鉴别不健康组织(例如癌症组织往往显示严重正或负老化加速的证据)。老化生物标记物还可以用于确定和降低个体发展年龄相关疾病(例如癌症、痴呆)的可能性。提供了在老年人中诊断和确定由衰老或年龄相关疾病引起的认知缺陷的存在或可能性的方法。相应地，这样的方法允许确定最可能处在年龄相关认知衰退的风险之下的患者，并且允许靶向这些患者以进行更深入研究或预防。

在另一实施方案中，本文中所公开的方法可以应用于评估治疗或化合物的功效(例如抗衰老或治愈年龄相关损伤、增强记忆功能或认识)。举例来说，老化生物标记物可以用于研究虽然未老但已受通常发生在老年人中的脑病(例如早发性痴呆)困扰的患者。确定投与治疗或化合物是否会影响预测的年龄。有效的治疗将会减小预测的年龄，因为个体看起来恢复了活力而且更年轻。

提供了一种用于鉴别能增加记忆功能和/或降低受试者发展年龄相关认知衰退的可能性的化合物的测定法。所述测定法包括鉴别能对抗已鉴别的标记物中甲基化的年龄相关增加或减少的化合物。年龄预测方法还与健康护理应用有关。举例来说，已知显著DNA甲基化差异与特定的年龄相关病症相关，例如在被诊断为患有迟发性阿尔茨海默病的人士的脑与来自对照的脑之间的比较中。在这种情形下，与年龄高度相关的特定基因座的鉴别可以用于增进对健康和疾病时的老化的理解。在本发明的某些实施方案中，年龄预测方法可以用作基于患者的“生物年龄”(基因相互作用、环境和时间的结果)而不是他们的实足年龄而为其定制的临床干预的一部分。举例来说，若一个人的预测年龄高于其真实年龄，则可以设计特定干预以使基因组回到“较年轻的”状态。年龄预测方法还可以为如某些癌症治疗中发生的基于与疾病相关的特定表观遗传学标记物的干预做好准备。

如以下实施例部分中详细描述，已经使用其他测定法和其他样品鉴别并验证了特定年龄相关甲基化标记物。另外，已经设计并测试了说明性年龄预测分析模型，例如通过使用弃一分析，其中系统地从模型中去除一名受试者且使用所述模型来预测所述受试者的年龄。因为这名受试者的实际年龄是已知的，所以这样的方法提供了验证不同的模型设计的途径。

实施例

如以下说明性实施例中所示，已经在5个独立的全血数据集、3个脑甲基化数据集和2个唾液数据集中验证了DNA甲基化与年龄之间的相关性。这些发现非常显著并且已经进行了仔细验证。

对于实施例1至4，使用公开可利用的数据(参见例如基因表达综合数据库)。脑甲基化数据来自于Gibbs JR等(2010)(Gibbs JR,van der Brug MP,Hernandez DG,TraynorBJ,Nalls MA等,(2010)Abundant Quantitative Trait Loci Exist for DNAMethylation and Gene Expression in Human Brain.PLoS Genet 6(5):e1000952.doi:10.1371/journal.pgen.1000952)。这些作者从150名受试者中获得了来自额叶皮层(FCTX)、脑桥(PONS)和颞叶皮层(TCTX)的冷冻脑组织(总计450个组织样品)。他们使用Illumina^TM 27k甲基化阵列测定了各脑区域中的27,578个CpG甲基化位点。然而，这些作者没有研究老化效应。此外，他们没有将脑甲基化数据与血液甲基化数据相关联。公开可利用的血液和唾液甲基化使用了同一Illumina^TM甲基化阵列并且描述于以下表1中。

表1

为了鉴别多个组织的年龄相关甲基化标记物，使用Stouffer的统合分析Z统计量(在加权相关网络分析(WGCNA)R程序包中的后设分析R函数中实现)来鉴别在所有数据集间始终与年龄相关的甲基化标记物(参见表2)。

表2

实施例1：仅涉及1个甲基化标记物的线性回归预测器准确地预测了血液、脑和唾液中的年龄

研究了基于单个甲基化探针的单变量线性回归预测器。将对应于Illumina^TM探针ID cg22736354(SEQ ID NO:158)(接近于基因NHLRC1)的单个甲基化探针用于所述单变量线性回归模型中。如图1至图3中所示，使用基因NHLRC1中的单个胞嘧啶标记物，发现基于线性回归模型的预测年龄与脑组织(相关系数＝0.88，p值＝6.8×E-126)和血液组织(相关系数＝0.76，p＝3.6E-174)中的真实年龄相关。具体来说，位于具有基因符号NHLRC1的基因附近的探针ID：cg22736354(SEQ ID NO:158)与所考虑的脑区域中和血液中的年龄具有非常显著的正相关系数。

实施例2：涉及2个甲基化标记物的多变量回归预测器准确地预测了血液、脑和唾液中的年龄

研究了基于两个甲基化探针的多变量回归预测器。将对应于Illumina^TM探针IDcg09809672(SEQ ID NO:252，接近于基因EDARADD)和cg22736354(SEQ ID NO:158，接近于基因NHLRC1)的甲基化探针用于所述多变量线性回归模型中。如图4至图7中所示，仅使用基因NHLRC1和EDARADD附近的两个胞嘧啶，基于所述多变量线性回归模型预测的年龄与血液和脑组织中的年龄具有大于0.90的相关系数，而且它还与唾液组织中的年龄高度相关。预测年龄与真实年龄之间的中位数绝对差值(偏差)是5.1岁。具体来说，位于具有基因符号EDARADD的基因附近的探针ID：cg09809672(SEQ ID NO:252)与年龄具有负相关系数，而位于具有基因符号NHLRC1的基因附近的探针ID：cg22736354(SEQ ID NO:158)与年龄具有正相关系数。

实施例3：涉及4个甲基化标记物的多变量回归预测器准确地预测了血液、脑和唾液中的年龄

研究了基于四个甲基化探针的多变量回归预测器。将对应于Illumina^TM探针IDcg09809672(SEQ ID NO:252，接近于基因EDARADD)和cg22736354(SEQ ID NO:158，接近于基因NHLRC1)、cg21296230(SEQ ID NO:354，接近于基因GREM1)和cg06493994(SEQ ID NO:46，接近于基因SCGN)的甲基化探针用于所述多变量线性回归模型中。如图8至图11中所示，使用基因EDARADD、NHLRC1、GREM1、SCGN附近的四个胞嘧啶，基于所述多变量线性回归模型预测的年龄与血液和脑组织中的年龄具有大于0.90的相关系数，而且与唾液组织中的年龄相关。预测年龄与真实年龄之间的中位数绝对差值(偏差)是5.1岁左右。具体来说，位于具有基因符号EDARADD的基因附近的探针ID：cg09809672(SEQ ID NO:252)与年龄具有负相关系数，而分别位于具有基因符号NHLRC1、GREM1和SCGN的基因附近的探针ID：cg22736354(SEQ ID NO:158)、cg21296230(SEQ ID NO:354)和cg06493994(SEQ ID NO:46)与年龄具有正相关系数。

实施例4：两个基于唾液的甲基化标记物可以用来预测脑组织的年龄

将基因EDARADD附近的甲基化标记物(例如甲基化探针cg09809672，SEQ ID NO:252)和基因SCGN附近的甲基化标记物(例如探针cg06493994，SEQ ID NO:46)用于预测脑年龄。如图12至图15中所示，脑组织中的预测年龄与真实年龄具有0.4的相关系数(中位数偏差＝8.2岁)。在唾液中，相关系数是0.72且中位数偏差仅为4.2岁。在血液组织中，相关系数是0.88且中位数偏差是6.1岁。因此，所述预测器特别适合于基于唾液样品来预测脑年龄。位于具有基因符号EDARADD的基因附近的探针ID：cg09809672(SEQ ID NO:252)与年龄具有负相关系数，而位于具有基因符号SCGN的基因(也称为SEGN；SECRET；setagin；DJ501N12.8)附近的探针ID：cg06493994(SEQ ID NO:46)与年龄具有正相关系数。

实施例5：人类组织和细胞类型的DNA甲基化年龄

将公开可利用的DNA甲基化数据集的集合用于定义和评估年龄预测器。在大部分组织和细胞类型中显示的准确度证明将其命名为多组织年龄预测器是合理的。其年龄预测值，称为DNAm年龄，可以用作生物标记物以用于解决老化研究和相关领域中出现的大量问题。举例来说，用于产生诱导性多能干细胞的干预显示可使表观遗传学时钟复位至零。

使用涉及51个健康组织和细胞类型的82个Illumina^TM DNA甲基化阵列数据集(n＝7844)，提供了允许估计大部分组织和细胞类型的DNA甲基化(DNAm)年龄的多组织年龄预测器。DNAm年龄具有以下性质：a)对于胚胎和诱导性多能干(iPS)细胞，它接近于零；b)它与细胞传代次数相关；c)它产生老化加速的高度遗传性量度；和d)它适用于黑猩猩组织。依据染色质状态和组织差异表征了354个时钟CpG(表3)。DNAm年龄应用至32个额外癌症DNA甲基化数据集(由n＝5826个样品构成)显示所有癌症组织都表现出显著老化加速(平均36.2岁)。癌症组织的较低老化加速与高体细胞突变和TP53突变数目相关。在乳腺癌中，类固醇受体突变大大加速了DNAm老化。已经将所述多组织年龄预测器应用于结肠直肠癌、多形性成胶质细胞瘤、AML和癌细胞系。

(非癌症)DNA甲基化数据集的描述

通过组合在Illumina^TM 27K或Illumina^TM 450K阵列平台上测量的公开可利用的个别数据集(癌症和肿瘤基因图谱(Cancer Genome Atlas，TCGA)数据集)来组装大DNA甲基化数据集。总共分析了来自82个个别数据集的n＝7844个非癌症样品，由此评估51个不同的组织和细胞类型中的DNA甲基化水平。尽管收集了许多数据集以便研究某些疾病(实施例8)，但它们在很大程度上涉及健康组织。具体来说，这个第一大数据集不包括癌症组织，因为众所周知癌症对DNA甲基化水平具有深远影响[6,7,24-26]。癌症和肿瘤基因图谱(TCGA)数据集涉及得自癌症患者的正常相邻组织。关于个别数据集和数据预处理步骤的细节提供于实施例7(材料和方法)和实施例8中。前39个数据集被用来构建(“训练”)年龄预测器。数据集40至71被用来测试(验证)年龄预测器。数据集72至82服务于其他目的，例如用于估计胚胎干细胞和iPS细胞的DNAm年龄。用于选择训练组的准则描述于实施例8中。简而言之，选择训练数据i)以代表大范围的组织/细胞类型、ii)以包括平均年龄(43岁)类似于测试数据的平均年龄的样品，和iii)以包括高比例的在Illumina^TM 450K平台上测量的样品(37％)，因为许多正在进行的研究使用这种最新的Illumina^TM平台。研究了两种Illumina^TM平台(Infinium 450K和27K)上都存在的21369个CpG(用II型Infinium测定法测量)。所述数据集中的缺失值少于10个。

用于定义DNAm年龄的多组织年龄预测器

为了确保在测试数据中进行无偏验证，仅使用训练数据来定义年龄预测器。如实施例7(材料和方法)和实施例8中所详述，使用惩罚回归模型(弹性网络)针对CpG对实足年龄的变换版本进行回归计算。弹性网络回归模型自动选择354个CpG(表3，实施例9)。因为其加权平均值(由回归系数形成)相当于表观遗传学分子时钟，所以这354个CpG被称为时钟CpG。

在不同的组织中的预测准确度

初步考虑预测准确度的若干个量度，因为各量度具有不同的优点。第一个被称为“年龄相关系数”，是DNAm年龄(预测年龄)与实足年龄之间的皮尔逊相关系数。它具有以下限制：它不能用于研究DNAm是否经过充分标定、它不能在受试者具有相同的实足年龄(例如得自新生儿的脐带血样品)的数据集中进行计算，而且它强烈依赖于年龄的标准偏差(如以下所论述)。第二个准确度量度称为(中位数)“误差”，是DNAm年龄与实足年龄之间的中位数绝对差值。因此，3.6岁的测试集误差指示在50％的受试者中DNAm年龄相差不到3.6岁。所述误差非常适于研究DNAm年龄是否被不良地标定。由DNAm年龄与实足年龄之间的平均值差异定义的平均老化加速可以用来确定指定组织的DNAm年龄是否始终高(或低)于预期。

根据这三个准确度量度，已经发现多组织年龄预测器在大部分组织和细胞类型中表现得非常好。在示例性实验中显示在训练数据中的高准确度(年龄系数0.97，误差＝2.9岁)，且其在测试数据中的性能评估(年龄系数＝0.96，误差＝3.6岁，图17)显著不偏。注意，年龄预测器在非均质组织(例如全血、血液外周血单核细胞、小脑样品、枕叶皮层、口腔上皮、结肠、脂肪、肝脏、肺、唾液、子宫颈)以及在诸如CD4 T细胞和CD14单核细胞(图17C)和永生化B细胞(图17T)之类的个别细胞类型中表现很好。

年龄预测器在由青少年和儿童构成的数据集中特别准确，例如血液(图17B)、脑数据(图17F、图17G)和口腔上皮(图17I)。

血液和脑细胞的DNAm年龄

人类血细胞具有不同的寿命期限：尽管CD14+单核细胞(骨髓谱系)仅活过数周，但CD4+ T细胞(淋巴谱系)却代表了可以活过数月至数年的多种细胞类型。令人感兴趣的问题是血液细胞类型是否具有不同的DNAm年龄。在一个实验中，发现DNAm年龄在得自健康男性受试者的分选的血细胞间差异不显著。这些结果与年龄预测器在个别细胞类型中表现良好(图17)这一事实相组合强烈表明DNAm年龄不反映细胞类型组成方面的变化，而是反映甲基化组中的固有变化。DNAm年龄与胶质细胞和神经元和不同的脑区域中的实足年龄高度相关这一发现也印证了这个结论。

DNAm年龄和早衰症

DNAm年龄可以用于研究得自患者的细胞是否患有加速老化疾病，诸如在表观遗传学层面上确实显老的早衰症(包括沃纳早衰样综合征、哈钦森-吉尔福德早衰症、HGP)。示例性实验已经证明，在爱泼斯坦-巴尔二氏病毒转化的B细胞中，早衰症疾病状态与基于DNAm的老化加速无关(图17T)。但是将对HGP中最易受损的组织，即血管平滑肌重复在HGP中进行的加速老化效应研究。

DNAm年龄被不太准确地标定的组织

在某些实验中，发现DNAm年龄在乳房组织(图17H)、子宫内膜(图17S)、皮肤成纤维细胞、骨骼肌组织(图17P)和心脏组织(图17L)中被不太准确地标定(即，导致较高误差)。可以解释不太准确的标定的生物学原因只能靠推测。可能乳房组织中的较高误差可以反映在这种得自癌症样品的正常相邻组织中的激素效应或癌症场效应。注意，在正常乳房组织中，即在得自未患癌症的妇女的样品中观测到乳房组织中的最低误差(7.5岁)。月经周期和细胞增殖伴随增加可以解释子宫内膜中的高误差。肌卫星细胞可以有效地抵抗骨骼肌组织的DNAm老化。类似地，招募干细胞至心肌细胞中以进行新心肌形成可以解释为何人类心脏组织倾向于具有低DNAm年龄。将需要仔细设计的研究来检验这些假设。

通过年龄的标准偏差来确定数据集中的年龄相关系数

在以下描述了影响年龄预测器的准确度(年龄相关系数)的非生物学原因。为了获知年龄预测器在个别数据集中表现如何，使用了两种不同的方法。第一种将年龄预测器应用于个别数据集。这种方法的一个明显限制是它在训练数据集中产生有偏的结果。

第二种方法称为弃一数据集交叉验证(LOOCV)分析，它产生各数据集的预测准确度的无偏估计值。如其名称所表明，这种方法通过拟合单独的多组织年龄预测器与其余(留出)数据集而单独地估计各数据集(被视为测试数据集)的DNAm年龄。

数据集就中位数实足年龄和定义为年龄变异数的平方根的标准偏差(SD)而言大大不同。一些数据集仅包括具有相同年龄(SD＝0)的样品，而其他则包括年轻的和年老的受试者。不出所料，发现SD与年龄相关系数的相应LOOCV估计值显著相关(r＝0.49，p＝4E-5)。相反，数据集的样品大小与年龄相关系数不具有显著相关性。

大量的技术性人为因素可以解释预测准确度的差异(例如在样品处理、DNA提取、DNA存储效应、批次效应和芯片效应方面的变化)。

得自同一受试者的多个组织的DNAm年龄

以下解决是否可以发现DNAm年龄实质上不同于实足年龄的实体组织。作为第一步骤，将每个组织的平均DNAm年龄与相应的平均实足年龄相比较。不出所料，每个组织的平均DNAm年龄与平均实足年龄高度相关(相关系数＝0.99)。但乳房组织显示了显著老化加速的证据。

更令人感兴趣的分析是比较从相同的受试者收集的诸多组织的DNAm年龄。DNAm年龄在得自相同受试者的不同的脑区域(颞叶皮层、脑桥、额叶皮层、小脑)间无显著变化。尽管在这个说明性实验中每个组织的有限样品大小(大多是每个受试者每个组织一个样品)不允许进行严格测试，但这些数据可以用于估计DNAm年龄的变异系数(即，标准偏差除以平均值)。注意，第一个和第二个成年男性的变异系数相对较低(0.12和0.15)，尽管所述分析涉及的若干组织不是训练数据的一部分，例如空肠、阴茎、胰脏、食道、脾脏、胰脏、淋巴结、隔膜。成年女性的变异系数相对较高(0.21)，这反映了如下事实：其乳房组织显示了实质性老化加速的征象。

DNAm年龄在训练数据集中未呈现的组织和DNA来源中表现如何仍需拭目以待。可以预料，它在若干其他人类组织中也表现良好。不出所料，在精液中未发现显著年龄相关性。精液的DNAm年龄显著低于供体的实足年龄。

DNAm年龄适用于黑猩猩

研究就DNAm年龄而论是否存在灵长类间差异非常重要。这些研究可能不仅有助于鉴别模型生物体以进行抗衰老干预，而且可能解释灵长类寿命差异。尽管未来的研究可能解释序列差异，但现在直接将DNAm年龄估计算法应用于Illumina^TM DNA甲基化数据集72[27]和73[28]。引人注目的是，得自黑猩猩(Pan troglodytes)的心脏、肝脏和肾脏组织的DNAm年龄与相应人类组织的DNAm年龄一致。此外，得自黑猩猩属的两个现存类人猿物种(通常称为黑猩猩)的血液样品的DNAm年龄与实足年龄高度相关。尽管DNAm年龄适用于黑猩猩，但其性能在大猩猩中看似有所削弱，这可能反映了较大进化距离。

诱导性多能干(iPS)细胞和干细胞的DNAm年龄

可以通过系谱将个体内的数十亿个细胞组织至从接合子开始且以分化细胞结束的单个体细胞树中。处在这个树的根部的细胞应该是年轻的。实际上情况确实如此：在5个不同的数据集中，胚胎干细胞具有接近于零的DNAm年龄。诱导性多能干(iPS)细胞是通过诱导一组特定基因而人工获自非多能细胞(通常是成人体细胞)的一个多能干细胞类型。因为iPS细胞类似于ES细胞，所以假定iPS细胞的DNAm年龄应该显著年轻于相应原代细胞的DNAm年龄。这一假设在三个独立的数据集中得以证实。可以检测到胚胎干(ES)细胞与iPS细胞之间在DNAm年龄方面无显著差异。

细胞传代对DNAm年龄的影响

大部分细胞在有限次数的细胞分裂之后丧失其增殖和分化潜力(海弗利克限制)。假定细胞传代(也称为细胞分裂)会增加DNAm年龄。这一假设在三个独立的数据集中得以证实。当分析局限于iPS细胞时或当分析局限于胚胎干细胞时也可以观测到细胞传代次数与DNAm年龄之间的显著相关性。

比较多组织预测器与其他年龄预测器

所公开的多组织预测器的性能大大优于其他论文[21,23]中所描述的现存预测器。关于多组织预测器对比现存预测器的比较，参见实施例8。尽管或许可以通过集中于单个组织和考虑更多CpG来实现准确度的进一步增加，但多组织年龄预测器的主要长处在于其广泛适用性：对于大部分组织，它不需要任何调节或补偿。还发现基于110个CpG(从354个时钟CpG中选出)的“缩小”版本多组织预测器(实施例8和实施例9)在训练数据(相关系数＝0.95，误差＝4岁)和测试数据(相关系数＝0.95，误差＝4.2岁)中非常准确。

关于354个时钟CpG知道什么？

对与354个时钟CpG(表3)共定位的基因的独创性途径分析显示了细胞死亡/存活、细胞生长/增殖、有机体/组织发育和癌症的显著富集。

354个时钟CpG可以根据其与年龄的相关系数分成两组。193个正相关CpG和160个负相关CpG分别随年龄而得以高甲基化或低甲基化。将在许多不同的成人和胎儿组织中测量的DNA甲基化数据用于研究组织变异数与老化效应之间的相关性。尽管193个正相关CpG的DNA甲基化水平在不同的组织间变化较小，但160个负相关CpG的DNA甲基化水平与Illumina^TM 27K阵列上的其余CpG相比在组织间变化较大。为了估计“纯”老化效应，使用隐性取决于数据集的统合分析方法，即，其去除由于数据集和组织类型所致的混淆性效应。时钟CpG包括对于年龄来说具有最显著统合分析p值的那些，而不考虑统合分析p值是仅使用训练数据集还是使用所有数据集计算。尽管正相关标记物未显示与CpG岛状态的显著相关性，但负相关标记物倾向于过度呈现于CpG岸上(p＝9.3E-6)。

就多梳家族蛋白结合而论，正标记物与负标记物之间存在显著差异：正相关CpG过度呈现在多梳家族靶基因附近(反映[10,14]的结果)，而负相关CpG未显示显著相关性。

染色质状态分析

染色质状态分型已经作为一种强大的基因组注释和调控活性检测手段而出现。它提供了一种检测顺式调控元件的系统性手段(鉴于染色质在介导调控信号和控制DNA存取方面的重要作用)，并且可以用于表征基因组中有助于细胞表型的非编码部分[29]。尽管个别组蛋白修饰与调控因子结合、转录起始、增强子活性相关，但染色质修饰之组合可以提供对染色质状态的甚至更精确的洞悉[29]。Ernst等(2011)区分了六个广泛类别的染色质状态，称为启动子、增强子、绝缘子、转录、抑制和无活性状态。其中，活性启动子、弱启动子和静止启动子(状态1至3)在表达水平方面有所不同，而强增强子和弱增强子(状态4至7)在近端基因的表达方面有所不同。193个正相关CpG更可能处于静止启动子(染色质状态3区域)中，而160个负相关CpG更可能处于弱启动子(染色质状态2)或强增强子(染色质状态4)中。

老化加速是高度遗传性的

若干名作者已经发现DNA甲基化水平受基因控制[24,26,30-32]。因为许多年龄相关疾病是遗传性的，所以对研究老化加速(这里定义为DNAm年龄与实足年龄之间的差异)是否也是遗传性的感兴趣。使用Falconer公式H²＝2(cor(MZ)-cor(DZ))在包括同卵双胞胎(MZ)和异卵双胞胎(DZ)的两个双胞胎数据集中估计老化加速的广义遗传度。

估计老化加速的遗传度的说明性实验发现老化加速的广义遗传性在新生儿中是100％，而在年长受试者中是39％，这表明非遗传因素在晚年有更大关系。

老化对基因表达(信使RNA)水平的影响

因为DNA甲基化是调节基因表达水平(信使RNA丰度)的一种重要表观遗传学机制，所以自然想知道年龄相关DNAm变化是如何与基因表达水平中所观测到的变化相关的。已经发现存在非常少的重叠。此外，还没有发现对DNAm水平的老化效应会影响已知在天然CD8 T细胞与CD8记忆细胞之间差异性表达的基因。这些不显著结果反映了DNAm水平与表达水平之间的关系是复杂的[33,34]。

年龄对个别CpG的老化效应

在本实施例中，对于各CpG，研究了不到35岁的受试者中和超过55岁的受试者中的中位数DNAm水平(实施例9)。β值的年龄相关变化通常较小(354个CpG间的平均绝对差值仅为0.032)。还可以在显现DNAm水平在诸多受试者间如何变化的热图中观察对个别时钟CpG的弱老化效应。热图中的数个垂直条带表明时钟CpG对组织和数据集影响相对较强。

表观遗传学时钟的变化计时速率

354个时钟CpG的线性组合(由回归系数产生)随年龄而大幅变化。存在对数相关性直至成年，在晚年减缓至线性相关性(参见实施例8中的公式)。变化速率解释为表观遗传学时钟的计时速率。使用这种技术，已经发现了有机体生长(和伴随细胞分裂)导致高计时速率，在成年后减缓降至恒定计时速率(线性相关性)。

DNAm年龄不度量有丝分裂年龄或细胞衰老

因为体细胞复制的表观遗传学体细胞误差看起来容易检测为甲基化的年龄相关变化[35,36]，所以DNAm年龄度量体细胞复制次数是合理的假设。换言之，其度量有丝分裂年龄(其向每个细胞分配细胞拷贝数)[35,37]。尽管DNAm年龄与细胞传代次数相关且时钟计时速率在有机体生长期间最高，但它明显不同于有丝分裂年龄，这是因为它追踪非增殖性组织(例如脑组织)中的实足年龄并且给短寿命和长寿命血细胞分配类似的年龄。

一种解释是，DNAm年龄是细胞衰老的标记物。这最终是错误的，如从DNAm年龄与实足年龄在永生不衰老细胞，例如永生化B细胞中高度相关可见(图17T)。此外，DNAm年龄和细胞传代次数在也是永生细胞的ES细胞中高度相关[38]。

实施例6：模型：DNAm年龄度量表观遗传学维护系统所做的功

已经提出，DNAm年龄度量特定种类的表观遗传学维护系统(EMS)所做的累积功，所述工作有助于维持表观遗传学稳定性。尽管表观遗传学稳定性与基因组稳定性有关，但它可用于区分这两种原理。若DNAm年龄的EMS模型是正确的，则这个特定种类的EMS在非常年轻的ES细胞中看起来无活性。维护甲基转移酶可能起重要作用。在物理上，“功”是由一定时间内的功率的积分来定义。使用这种技术，假定功率(定义为这种EMS所耗费的能量的变化率)对应于表观遗传学时钟的计时速率。这个模型将解释有机体发育期间的高计时速率，这是因为在这段充满压力的时间中需要高功率来维持表观遗传学稳定性。在发育结束时，恒定量的功率足以维持稳定性，从而导致恒定的计时速率。

若DNAm年龄的这个EMS模型是正确的，则能影响表观遗传学稳定性的许多波动将会加速DNAm老化。此外，鉴于EMS的保护作用，老化加速将具有一些有益的效应。具体来说，DNAm年龄的EMS模型需要以下可检验的预测。首先，癌症组织将显示正或负加速老化的征象，从而反映EMS的作用。第二，会触发EMS反应的许多有丝分裂原、基因组畸变和致癌基因应该与加速DNAm老化相关。第三，鉴于EMS的保护作用，癌症组织的高老化加速应该与较少体细胞突变相关。第四，若进一步假定p53信号传递有助于触发EMS，则TP53中的突变应该与癌症组织的较低老化加速相关。所有这些模型预测最终都是成立的，如以下癌症应用中所示。

癌症组织的DNAm年龄对比肿瘤形态

组装包括来自32个个别癌症数据集的n＝5826个癌症样品的癌症数据集的大集合(实施例10)。关于癌症数据集的细节可见于实施例8中。尽管一些癌症组织显示了DNAm年龄与患者年龄之间的相对较大的相关性，但DNAm年龄与实足年龄之间的相关性倾向于较弱。一些癌症类型表现出增加的老化加速，而其他则表现出负老化加速。肿瘤形态(等级和阶段)与大部分癌症中的老化加速仅具有弱关系：33个假设测试中仅有4个产生标称(p<0.05)显著的结果。在应用邦弗朗尼修正之后，仅阶段与甲状腺癌中的老化加速之间的负相关性保持显著。

具有高老化加速的癌症组织表现出较少体细胞突变

引人注目的是，每个癌症样品的突变数倾向于与老化加速逆相关，这可能反映了DNAm老化加速由能促进基因组稳定性的诸多过程引起。具体来说，可以在以下七种受影响的组织/癌症中观测到老化加速与体细胞突变数之间的显著负相关性：骨髓(得自于TCGA的AML数据)、乳腺癌(BRCA数据)、肾脏肾细胞癌(KIRC)、肾脏肾乳头状细胞癌(KIRP)、卵巢癌(OVAR)、前列腺(PRAD)和甲状腺(THCA)。在若干个乳腺癌类型中也可以观测到类似的结果。

TP53突变与较低老化加速相关

引人注目的是，TP53是13个癌症数据集中的4个中的第2最重要基因，其突变对老化加速具有强影响。此外，TP53突变与五种不同的癌症类型中显著较低的老化加速相关，所述癌症类型包括AML、乳腺癌、卵巢癌症和子宫体子宫内膜样癌。此外，在肺鳞状细胞癌和结肠直肠癌(以下)中可以观察到边缘显著的结果。发现仅有一种癌症类型(GBM)中TP53中的突变与标称显著增加的老化加速相关。总体来说，这些结果表明p53信号传递可以触发加速DNAm老化的过程。

类固醇受体中的体细胞突变加速乳腺癌中的DNAm老化

以下示出了不同的乳腺癌类型间的DNAm年龄变化。类固醇受体中的体细胞突变对乳腺癌样品中的DNAm年龄具有显著影响：在四个独立的数据集中，具有突变雌激素受体(ER)或突变孕酮受体(PR)的样品表现出比ER或PR样品高得多的老化加速。相反，HER2/neu扩增与老化加速没有显著相关性。老化加速在不同的乳腺癌类型间大大不同：Luminal A肿瘤(通常ER+或PR+、HER2-、低Ki67)显示出最高正老化加速。Luminal B肿瘤(通常ER+或PR+、HER2+或HER2-、高Ki67)显示出了类似的效应。对基底细胞样肿瘤(通常三阴性ER-、PR-、HER2-)和HER2型肿瘤(通常HER2+、ER-、PR-)可以观察到最低老化加速。

原致癌基因影响结肠直肠癌中的DNAm年龄

具有BRAF(V600E)突变的结肠直肠癌样品与增加的老化加速相关，而具有K-RAS突变的样品具有降低的老化加速。与先前的结果相呼应，TP53突变似乎与降低的老化加速相关。错配修复基因MLH1的启动子高甲基化导致老化加速的最显著增加，这支持DNAm年龄的EMS模型。由格外高的癌症特异性DNA高甲基化定义[39]的CpG岛甲基化表型也与老化加速显著相关，这可能反映了其与MLH1高甲基化和BRAF突变的相关性。

多形性成胶质细胞瘤(GBM)中的DNAm年龄

通常，CpG岛甲基化表型和老化加速度量不同的性质，如多形性成胶质细胞瘤中可见。

令人感兴趣的是，GBM样品中的老化加速与H3F3A中编码非复制依赖性组蛋白变异体H3.3的某些突变高度显著相关。这些突变是赖氨酸27变成甲硫氨酸(K27M)或甘氨酸34变成精氨酸(G34R)的单核苷酸变异体(SNV)[40]。H3F3A中具有G34R突变的GBM与具有K27M突变的那些相比具有高得多的老化加速是有意义的，因为各H3F3A突变定义了具有不同的整体甲基化模式的GBM表观遗传学子家族并且通过一组不同的基因起作用[40]。赖氨酸27是组蛋白3变异体的重要残基，并且这个位置上的甲基化(H3K27me)可以通过在这个残基上经取代的甲硫氨酸的末端CH3来模拟[40]且通常与转录阻抑相关[41]，而H3K36甲基化或乙酰化通常促进基因转录[42]。G34突变细胞表现出增加的RNA聚合酶II结合、增加的基因表达，最值得注意的是致癌基因MYCN的[43]。两个H3F3A突变都与IDH1突变互相排斥，这是第三个突变定义的子家族的特征[44]。GBM样品中的老化加速还与以下基因组畸变相关：TP53突变、ATRX突变、染色体7获得、染色体10丧失、CDKN2A缺失和EGFR扩增。反映个别标记物的这些结果，老化加速在[44]中所定义的GBM亚型间显著变化。

癌细胞系的DNAm年龄。

使用七个公开可利用的细胞系数据集(实施例10)，估计了59个不同的癌细胞系(得自膀胱、乳房、神经胶质瘤、头/颈、白血病和骨肉瘤)的DNAm年龄。在所有细胞系间，发现DNAm年龄与从中获得癌细胞系的患者的实足年龄不具有显著相关性。然而，在骨肉瘤细胞系间可以观测到边缘显著的年龄相关性(相关系数＝0.41，p＝0.08)。总体来说，DNAm老化加速在癌细胞系间大幅变化(实施例11)：AML细胞系可观测到最高值(KG1A：182年，HL-60：177年)；头/颈鳞状细胞癌细胞系(UPCI SCC47：6年)和两个乳腺癌细胞系(SK-BR-3：8年，MDA-MB-468：11年)可以观测到最低值。

结论

由于数百研究人员的慷慨相助，分析了得自健康组织、癌症组织和癌细胞系的DNA甲基化数据的前所未有的集合。健康组织数据允许开发多组织年龄预测器(数理细节提供于实施例8中)。相关软件可以从[45]获取。实施例8中也提供了简单的软件教程。多组织年龄预测器的基本方法是形成354个时钟CpG(表3)的加权平均值，然后使用标定函数将其变换成DNAm年龄。标定函数显示表观遗传学时钟具有高计时速率直至成年，此后它减缓至恒定计时速率。

已经提出DNAm年龄度量表观遗传学维护系统所做的累积功。这种新颖的表观遗传学时钟可以用于解决发育生物学、癌症和老化研究中的大量问题。DNAm老化的这种EMS模型产生了若干种可检验的模型预测，已经使用癌症数据对其进行验证。但是不考虑EMS模型的正确性，癌症中的发现凭其自身的因素便令人感兴趣。总体来说，高老化加速与癌症组织中的较少体细胞突变相关。TP53中的突变与较低DNAm年龄相关。为了一睹DNAm年龄如何给癌症研究提供信息，已经将DNAm年龄与乳腺癌、结肠直肠癌、多形性成胶质细胞瘤和急性骨髓性白血病中的若干个广泛使用的基因组畸变相关联。

DNAm年龄是有望用于研究人类发育、老化和癌症的标记物。它可以是用于评估抗衰老疗法的可用替代标记物。DNAm年龄的最显著特征是其对许多组织和细胞类型的适用性。因为它允许对比得自同一受试者的不同的组织的年龄，所以它可以用于鉴别由于疾病(例如癌症)而显示加速老化证据的组织。容易获取的体液/组织(例如唾液、口腔细胞、血液、皮肤)的DNAm年龄有可能可以充当不易获取的组织(例如脑、肾脏、肝脏)的替代标记物。值得注意的是DNAm年龄适用于黑猩猩组织。鉴于年轻受试者中的老化加速的高遗传度，预期老化加速将主要是年长受试者中的相关量度。使用相对较小的数据集，没有发现过早老化疾病(早衰症)与加速DNAm老化相关的证据(图17T)。实施例8进一步描述了DNAm年龄是否满足由美国老化研究联盟开发的生物标记物准则。

未来研究将需要弄清楚DNAm年龄仅仅是老化标记物还是涉及老化效应因子。总之，这里描述的表观遗传学时钟很可能变成端粒时钟的重要补充。

实施例7：材料和方法

使用惩罚回归模型定义DNAm年龄

使用训练数据集，使用惩罚回归模型(在R程序包glmnet[46]中实现)在21369个CpG探针上回归实足年龄的对数变换版本，所述探针a)提供于Illumina^TM 450K和27K这两个平台上且b)具有少于10个缺失值。将glmnet的α参数选择为0.5(弹性网络回归)且对训练数据使用交叉验证来选择λ值(λ＝0.0226)。DNAm年龄定义为预测年龄。数理细节提供于实施例8中。

健康组织数据集的简短描述

所有数据都是公开可利用的。许多数据集涉及得自癌症基因组数据库(TCGA)的正常相邻组织。关于个别数据集的细节可见于实施例8中。简而言之，相关引用包括：数据集1和2(得自荷兰人群的全血样品)是由Roel Ophoff产生[14]。数据集3(全血)由得自对健康个体的最新大规模研究的全血样品组成[24]。作者使用这些和其他数据来估计人类老化速率并且基于血液数据开发了非常准确的年龄预测器。数据集4是来自波士顿儿童医院的得自健康男童的白细胞样品[47]。数据集5是外周血白细胞样品[48]。数据集6是得自新生儿的脐带血样品[30]。数据集7是由C.Liu和C.Chen提供的小脑样品(GEO标识符GSE38873)。数据集8、9、10、13是获自同一受试者的小脑、额叶皮层、脑桥、颞叶皮层样品[49]。数据集11是得自健康对照的前额皮层样品[22]。数据集12是来自[50]的神经元和胶质细胞样品)。数据集14是正常乳房组织样品[51]。数据集15包括来自纵向儿童发育研究的109名十五岁青少年的口腔细胞[52]。数据集16是得自8名不同的受试者的口腔细胞[15])。数据集17是得自于来自出生前/后表观遗传学双胞胎研究(PETS)同龄组的多对同卵双胞胎(MZ)和异卵双胞胎(DZ)的口腔细胞[53]。数据集18是来自[54]的软骨(软骨细胞)样品。数据集19是来自TCGA的正常相邻结肠组织。数据集20是来自[55]的结肠粘膜样品。数据集21是来自[21]的皮肤成纤维细胞样品。数据集22是来自[56]的表皮样品。数据集23是来自[57]的胃组织样品。数据集24是来自TCGA数据库(HNSC数据)的头/颈正常相邻组织样品。数据集25是来自[58]的心脏组织样品。数据集26是来自TCGA(KIRP数据)的正常相邻肾乳头状组织。数据集27是来自TCGA(KIRC数据)的正常相邻组织。数据集28是来自[59]的正常相邻肝脏样品。数据集29是来自TCGA数据库(LUSC数据)的正常相邻肺组织。数据集30是来自TCGA(LUAD数据)的正常相邻肺组织样品。数据集31是来自TCGA(LUSC)。数据集32是从骨髓分离的间质性基质细胞[60]。数据集33是得自同卵双胞胎和异卵双胞胎的母亲的胎盘样品[61]。数据集34是来自[62]的前列腺样品。数据集35是来自TCGA(PRAD数据)的正常相邻前列腺组织。数据集36是来自[63]的男性唾液样品。数据集37是来自[23]的男性唾液样品。数据集38是来自TCGA(STAD数据)的胃。数据集39是甲状腺TCGA(THCA数据)。数据集40是来自[10,64]的得自1型糖尿病的WB。数据集41是来自[15]的WB。数据集42和43分别包括得自患有卵巢癌的妇女和健康对照的全血样品。这些是来自英国卵巢癌群体研究的样品[10,64]。数据集44是来自[65]的WB。数据集45是得自西蒙斯独生子孤独症数据库(Simons Simple Collection)的健康儿童的白细胞[47]。数据集46是来自[66]的外周血单核细胞。数据集47是来自[67]的外周血单核细胞。数据集48是由N Turan和C Sapienza提供的得自新生儿的脐带血样品(GEOGSE36812)。数据集49是来自[68]的脐带血单核细胞。数据集50是来自[61]的脐带血单核细胞。数据集51是来自婴儿[69]的CD4 T细胞。数据集52是来自[15]的CD4+ T细胞和CD14+单核细胞。数据集53是来自早衰症、沃纳综合征患者和对照的永生化B细胞和其他细胞[70]。数据集54和55是来自[71]的脑样品。数据集56和57是来自TCGA的乳房组织(分别是27K和450K平台)。数据集58是来自[72]的口腔细胞。数据集59是来自TCGA(COAD数据)的结肠。数据集60是来自[73]的脂肪(脂肪)组织。数据集61是来自[27]的人类心脏组织。数据集62是来自TCGA(KIRC)的肾脏(正常相邻)组织。数据集63是来自TCGA数据库(LIHC数据)的肝脏(正常相邻组织)。数据集64是来自TCGA的肺。数据集65是来自[73]的肌肉组织。数据集66是来自[74]的肌肉组织。数据集67是来自[75]的胎盘样品。数据集68是女性唾液样品[63]。数据集69是来自[51,76]的子宫颈样品。数据集70是来自TCGA(UCEC数据)的子宫内膜(正常相邻)组织。数据集71是来自ENCODE/HAIB计划的多种人类组织(GEO GSE40700)。数据集72是来自[27]的黑猩猩和人类组织。数据集73是来自[28]的大猩猩血液样品。数据集74是来自[77]的精液样品。数据集75是来自[78]的精液样品。数据集76是来自[61]的得自人类脐带的血管内皮细胞。数据集77和78(特定细胞类型)分别包括在Illumina^TM 27K阵列和Illumina^TM 450K阵列上测得的人类胚胎干细胞、iPS细胞和体细胞样品[79]。数据集79是重编程的来自人类骨髓的间质性基质细胞(iP-MSC)、初始MSC和胚胎干细胞[80]。数据集80是来自[81]的人类ES细胞和正常初生组织。数据集81是来自[82]的人类ES细胞。数据集82是来自[83]的血液细胞类型数据。

癌症数据集的描述

所有数据都是公开可利用的，如从报告来自基因表达综合(GEO)数据库和其他在线资源的GSE标识符的一栏中可见。大部分癌症数据集来自TCGA数据库。数据集3是来自[44]的多形性成胶质细胞瘤。数据集4是来自[84]的乳腺癌。数据集5是来自[85]的乳腺癌。数据集6是来自[51]的乳腺癌。数据集10是来自[39]的结肠直肠癌。数据集23是来自[62]的前列腺癌。数据集30是来自[86]的尿路上皮癌。癌症组织和癌细胞系数据集的更多细节可见于实施例8和实施例10。

DNA甲基化分型和归一化步骤

所有公开的Illumina^TM DNA数据都是按照Illumina^TM甲基化测定法的标准方案来产生，所述标准方案通过β值对DNA甲基化水平进行定量。实施例8中提供了预处理和数据归一化步骤的详细描述。

用于度量纯老化效应(不考虑组织类型)的统合分析

使用WGCNA R程序包[87]中的统合分析R函数来度量纯老化效应，如实施例8中所详述。

用于度量组织变化的变异数分析

为了度量训练数据中的组织效应，使用变异数分析(ANOVA)来如下计算F统计量。首先，使用多变量回归模型针对年龄和组织类型对各CpG(因变量)进行回归计算。因为不同的数据集具有非常不同的平均年龄，所以针对年龄对所述分析加以调整。接下来，使用基于多变量回归模型的ANOVA来计算F统计量F.训练组织，以便度量训练数据中的组织效应。这个F统计量可度量在训练数据集中针对年龄进行调整之后的组织效应。没有将F统计量变换成相应的p值，这是因为后者最终对于大部分CpG极其显著。F.训练组织被证明与组织变异数(使用来自数据集77的成人体细胞组织定义)这一独立度量高度相关。

使用序列性质表征CpG

研究多梳家族靶标(PCGT)基因的占用率计数，因为其与非靶标相比随着老化而得以甲基化的机会较高[10]。针对此目的，使用[88]中所公布的Suz12、Eed和H3K27me3的占用率计数。为了获得贯穿人类基因组的整个非重复部分的蛋白质结合位点占用率，Lee等2006分离了与感兴趣的特定蛋白质(例如，多梳家族蛋白质SUZ12)结合的DNA序列，这是通过使该蛋白质免疫沉淀(染色质免疫沉淀)和随后使所得片段与DNA微阵列杂交而实现。关于来自[29]的染色质状态数据的更多细节可见于实施例8中。

缩写

AML-急性骨髓性白血病(AML)

BLCA-膀胱尿路上皮癌

CBMC-脐带血单核细胞

CESC-子宫颈鳞状细胞癌和子宫颈内腺癌

COAD-结肠腺癌

CpG-胞嘧啶磷酸鸟嘌呤

ES-胚胎干细胞

EMS-表观遗传学维护系统

GBM-多形性成胶质细胞瘤

GEO-基因表达综合数据库

HNSC-头/颈鳞状细胞癌

HUVEC细胞-人类脐带血管内皮细胞

iPS-诱导性多能细胞

KIRC-肾脏肾透明细胞癌

KIRP-肾脏肾乳头状细胞癌

LIHC-肝脏肝细胞癌

LOO-弃一数据集法

MSC-间质性基质细胞

OVAR-卵巢浆液性囊腺癌

PBMC-外周血单核细胞

PRAD-前列腺腺癌

READ-直肠腺癌

SARC-肉瘤

TCGA-癌症和肿瘤基因图谱

THCA-甲状腺癌

SCM-皮肤的皮肤黑色素瘤

UCEC-子宫体的子宫内膜样癌

WB-全血

实施例8：材料和方法补充

(注意：本实施例额外参考许多不同的出版物，如以括在括号中的参考文献编号例如{x}所指示。这些不同的出版物按照这些参考文献编号的顺序的列表可见于以下标题为“实施例8参考文献”的部分中。)

以下原因可以解释年龄预测器在测试数据集中的非凡准确度。首先，已知与由基因表达(mRNA)阵列所致的问题相比，得自于Illumina^TM DNA甲基化阵列(方法)的测量值不太受归一化问题影响，而且甚至未归一化的β值(方法)最终也与使用焦磷酸测序发现的相应量度高度相关{1-3}。第二，惩罚回归模型自动选择相对稳定的CpG，因为已针对来自不同的实验室和平台的数据集对它进行了训练。第三，许多数据集有助于算出假性结果和人为因素的平均值。第四，年龄对数以万计的CpG的DNAm水平具有深远影响，如许多著作所显示{4-13}。

本文的结果与已经指出以组织特异性方式发生的年龄相关DNA甲基化变化的先前研究例如{14,15}并不矛盾。相反，本文的结果显示可以使用数百个CpG来形成a)在许多人类组织中表现非常好和b)所得DNAm年龄估计值具有生物学意义的年龄预测器。

健康组织和细胞系数据集的描述

数据集1和数据集2(得自荷兰人群的全血样品)分别由在Illumina^TM 27K和450K阵列平台上测量的精神分裂症和健康对照受试者构成。得自Roel Ophoff博士实验室的这些数据从前被用于发现与老化相关的共甲基化模块{13}。目前的研究具有不同的目标，即，开发基于甲基化水平的年龄预测器。因为精神分裂症状态对老化相关性具有可以忽略的影响{13}，所以它在本分析中被忽略。此外，最终发现精神分裂症状态与DNAm年龄没有关系。所述数据的GEO标识符是GSE41037。

数据集3(全血)由来自对健康个体的最新大规模研究的全血样品组成{16}。作者使用这些数据(和额外数据)来估计人类老化速率并且开发出了非常准确的基于血液数据的年龄预测器。

数据集4(来自波士顿儿童医院的得自健康男童的白细胞)由得自健康男性(平均年龄5，范围1-16)的72个外周血白细胞样品组成{17}。

数据集5(外周血白细胞)，来自克罗恩氏病和溃疡性结肠炎的DNAm研究{18}。将Illumina^TM 450K用于得自多对不一致MZ双胞胎(CD：3；UC：3)和初治儿科IBD病例(CD：14；UC：8)的48个外周血白细胞(PBL)DNA样品以及对照(n＝14)。本人在分析时忽略疾病状态。本人在这个大小适中的数据集中没有发现疾病状态影响DNAm年龄的显著证据。

数据集6(得自新生儿的脐带血)由得自216名受试者(零岁)的脐带血样品构成{19}。

数据集7(小脑)由死后小脑构成。所述数据由C.Liu和C.Chen提供(GEO标识符GSE38873)。

数据集8、数据集9、数据集10、数据集13(小脑、额叶皮层、脑桥、颞叶皮层)由获自平均年龄是49岁(范围15-101)的相同受试者的脑组织样品组成{20}。这些患者已经捐赠其脑用于研究，属于非西班牙裔，白种人，而且在寿命期间都没有神经或脑血管疾病的病历或认知损伤诊断。{20}中报告了各受试者的人口资料、组织来源和死亡原因。无偏去除潜在离群值(如关于样品预处理的部分中所描述)减少了保留样品的数目。

数据集11(得自健康对照的前额皮层)由108个样品(平均年龄26岁，介于出生前样品直至84岁的范围内)组成{21}。这些得自非精神病对照的死后人脑是在临床脑病部门(美国国家心理健康研究所)收集。DNAm数据可公开得自独立软件包BrainCloudMethyl的网页，这可以从以下URL下载：

http://braincloud.jhmi.edu/Methylation32/BrainCloudMethyl.htm

数据集12(神经元和胶质细胞)来自{22}。作者开发了细胞后生型特异性模型用于修正脑细胞异质性偏移且将其应用于研究老化、脑区和严重抑郁。在对死后额叶皮层中神经元核58个样品(29个严重抑郁和29个匹配的对照样品)执行荧光激活细胞分选(FACS)继而进行基于Illumina^TM HM450微阵列的DNAm分型之后，作者表征了与疾病状态无关的神经元和神经胶质特异性DNAm变异的程度并且鉴别了51％基因座上的显著细胞类型特异性表观遗传学变异。本人在分析时忽略疾病状态。本人在这个数据集中没有发现疾病状态加速老化的证据。

数据集14(乳房)由得自23名女性(平均年龄48，范围19-75)的正常乳房组织组成，从GEO下载{23}。

数据集15(口腔细胞)包括来自纵向儿童发育研究的109名十五岁青少年{24}。尽管作者发现来源于口腔上皮细胞的DNA在父母于其童年早期报告高水平压力的青少年中显示差异性甲基化，但父母的压力被忽略。所有样品都具有相同的实足年龄(15岁)。

数据集16(口腔细胞)包括8名不同的受试者。Rakyan等(2010)证实这些口腔细胞制剂含有即使有也非常少的白细胞污染，因此证明所测得的甲基化谱主要来自口腔细胞{25}。

数据集17(口腔细胞)来自{26}。作者将Illumina^TM 450K平台应用于得自于来自出生前/后表观遗传学双胞胎研究(PETS)同龄组的10对同卵双胞胎(MZ)和5对异卵双胞胎(DZ)的口腔拭子。在这项纵向研究中，在出生时(0岁)和年龄1.5岁(18个月)时产生DNAm谱。

数据集18(软骨、软骨细胞)来自{27}。作者分析了来自骨关节炎患者和健康软骨样品的人类关节软骨细胞。没有发现疾病状态与加速DNAm老化之间的相关性。

数据集19(结肠、正常组织)由从在Illumina^TM 27K阵列上测得的TCGA数据库下载的样品组成。

数据集20(结肠粘膜)来自{28}。在Illumina^TM Infinium HumanMethylation450BeadChip v1.1上测量克罗恩氏病、溃疡性结肠炎和正常结肠粘膜样品。样品来自9个克罗恩氏病影响的个体、5个溃疡性结肠炎影响的个体和10个正常个体。没有检测到疾病状态与DNAm老化加速之间的相关性。

数据集21(皮肤成纤维细胞)由14个女性成纤维细胞样品(平均年龄32，范围6-73)组成。样品来自人体不同的位置(5个腹部、2个手臂、2个乳房、3个耳朵和2个腿部样品){2}。从这个数据集中去除单个毛基体样品，因为分级聚类(基于欧几里德距离、单一连锁)指示它是离群值。

数据集22(表皮)来自评估老化和长期日光曝晒的后生效应的研究{29}。本人使用了用快速抽吸收集的10个表皮样品。

数据集23(胃组织)来自{30}。使用Illumina^TM HumanMethylation27 BeadChip来获得203个胃肿瘤和94个匹配的非恶性胃样品中的27,578个CpG的DNAm谱。本人集中于匹配的对照样品。

数据集24(头/颈正常相邻组织)在Illumina^TM 450K平台上测得且来自TCGA数据库(HNSC数据)。

数据集25(心脏组织){31}。作者由人类左心室心肌DNA产生DNAm谱以便研究人类扩张型心肌病(DCM)中的心脏DNAm变化。有n＝8个对照(心脏移植之后的患者)和n＝9个特发性DCM患者。本人在分析时忽略疾病状态。本人在这个小数据集中没能发现疾病状态影响DNAm年龄的显著证据。

数据集26(肾乳头状，正常组织)由从在Illumina^TM 450K阵列上测得的TCGA数据库(KIRP)下载的44个样品(平均年龄66)组成。

数据集27(在Illumina^TM 450K阵列上测得的相邻正常组织，肾脏)来自TCGA(肾脏透明细胞肾癌，KIRC)。

数据集28(肝脏)由得自台湾肝细胞癌受试者的正常相邻组织样品组成{32}。所述数据是从GEO(GSE37988)下载。

数据集29(来自正常相邻组织的肺鳞状细胞)由从在Illumina^TM 27K阵列上测得的TCGA数据库(正常样品从LUSC)下载的样品组成。

数据集30(肺正常相邻肺组织，Illumina^TM 27K)来自癌症和肿瘤基因图谱(TCGA)数据库(http://tcga-data.nci.nih.gov/)，LUAD。

数据集31(在Illumina^TM 450K上测得的来自正常相邻组织的肺鳞状细胞)来自TCGA数据库(正常样品来自LUSC)。

数据集32(得自骨髓的间质性基质细胞)由16个女性样品(平均年龄53，范围21-85)组成{33}。来自人类骨髓的MSC或是从骨髓抽出物分离或是在年老供体髋骨折后从股骨头分离{33}。由于样品大小限制，忽略细胞传代状态(反映短期对比长期培养)。

数据集33(胎盘)来自同卵双胞胎和异卵双胞胎的母亲{34}。因为胎盘仅在怀孕期间发育，所以其实足年龄被设为零。

数据集34(前列腺)由69个正常前列腺样品(平均年龄61)组成{35}。

数据集35(前列腺，正常相邻组织)在Illumina^TM 450K平台上测得且来自TCGA数据库(PRAD数据)。

数据集36(来自酗酒男性的唾液)与数据集68一样来自{36}，但包括131个男性样品(也是平均年龄32，范围21-55)。因此，通过性别拆分原始数据。

数据集37(来自健康男性的唾液)包括69个健康男性样品(平均年龄35，范围21-55)。我们使用这些对双胞胎和三胞胎而开发了基于唾液的年龄预测器{3}。因为所有双胞胎都是同卵的，所以不能使用这些数据利用Falconer公式来估计遗传度。

数据集38(在Illumina^TM 27K阵列上测得的胃正常相邻组织)由从TCGA数据库(STAD数据)下载的41个样品(平均年龄69)组成。

数据集39(甲状腺，正常相邻组织)在Illumina^TM 450K平台上测得且来自TCGA数据库(THCA数据)。

数据集40(得自1型糖尿病的WB)由来自191名受试者(平均年龄44，范围24-74)的样品组成{12,37}。因为所有受试者都患有1型糖尿病，所以忽略疾病状态。这些数据是从GEO(GSE20067)下载。

数据集41(来自健康女性的WB)由来自平均年龄是63(范围49-74)的妇女的93个全血样品组成{25}。所述样品是从不同的健康女性(成对双胞胎和单胎)收集。

数据集42(来自绝经后妇女的WB)由得自卵巢癌妇女(平均年龄66，范围49-91)的262个全血样品组成。这些是来自UKOPS数据的病例(参见数据集43)。使用这些样品是因为卵巢癌症对血液甲基化水平不具有全面影响{12,37}。

数据集43(来自健康绝经后妇女的WB)由来自平均65岁(范围52-78)的妇女的269个全血样品组成{12,37}。尽管所述数据来自英国卵巢癌症群体研究(UKOPS)，但重要的是需强调所述样品来自卵巢癌患者的健康年龄匹配的对照。所述数据是从GEO(GSE19711)下载。

数据集44(来自变形性关节炎的WB)来自变形性关节炎的差异性DNAm研究{38}。作者发现DNAm可以充当变形性关节炎的遗传风险的媒介物。本人在分析时忽略疾病状态。本人没有发现变形性关节炎患者的全血与对照相比显示负老化加速的证据。尽管较大的样品大小导致统计上显著(p＝0.0049)的发现，但效应大小(年龄差异1.2岁)似乎可以忽略不计。

数据集45(来自西蒙斯独生子孤独症数据库的健康儿童的白细胞)由来自386个健康(主要是男性)受试者(平均年龄10，范围3-17)的外周血白细胞样品组成。这些是具有孤独症谱系障碍(ASD)的受试者的健康同胞{17}。

数据集46(来自新生儿和九十多岁的人的外周血单核细胞){39}可以从GEOGSE30870下载。

数据集47(外周血单核细胞)是从针对生命早期社会经济地位抽样的基于社区的同龄组收集{40}。所述数据是从GEO(GSE37008)下载。作者发现社会心理学因素(诸如知觉压力)和皮质醇输出与DNAm模式相关，和生命早期的社会经济地位一样。但这些因素无一最终与DNAm年龄有关，这证明本研究中忽略这些共变量是正确的。

数据集48(来自新生儿的脐带血样品)来自将DNAm数据与出生体重相关联的研究。顺便说一下，DNAm年龄看起来与出生体重不相关。似乎无法引用由N Turan和C Sapienza提交至GEO(GSE36812)的这些数据。

数据集49(脐带血单核细胞)来自从随机化双盲控制试验中登记的冈比亚妇女的后代研究孕前母体微量营养素补充对婴儿血液甲基化模式的影响的研究{41}。可以观察到DNAm年龄与微量营养素补充之间无显著相关性。

数据集50(脐带血单核细胞)来自同卵双胞胎和异卵双胞胎{34}，但在我们的分析中忽略双胞胎状态。

数据集51(来自婴儿的CD4 T细胞)由分选的CD4+ T细胞样品构成。作者使用所述数据来研究DNAm与基因表达之间在早期T细胞发育期间的动态和相关性{42}。在出生时从24个婴儿收集单核细胞(n＝12)且在12个月时再取样(n＝12)。纯化CD4+细胞且使用Illumina^TM Inf450K阵列分析DNA。所述数据是从GEO(GSE34639)下载。

数据集52(CD4+T细胞和CD14+单核细胞)由来自具有25名健康受试者的独立同龄组的血液的分选CD4+ T细胞和CD 14+单核细胞组成{25}。

数据集53(永生化B细胞)和其他细胞来自早衰症和沃纳综合征患者和对照{43}。哈钦森-吉尔福德早衰综合征(HGP)和沃纳综合征是两种显示常见老化特征的过早老化疾病。LMNA和WRN基因中的突变与疾病发作相关；然而，对于患者子组，深层次病因机制仍难以捉摸。在这项研究中，作者旨在通过对HGP和WS患者进行基因组范围的DNAm分型来评估表观遗传学变化对过早老化疾病的作用。作者分析了爱泼斯坦-巴尔二氏病毒(EBV)永生化B细胞、天然B细胞和外周血单核细胞。作者发现了过早老化病症哈钦森-吉尔福德早衰症和沃纳综合征中的异常DNAm谱{43}。本人在这个相对较小的数据集中没有发现这些过早老化疾病加速永生化B细胞中的DNAm年龄的证据。未来研究可能评估过早老化疾病是否与其他组织或细胞类型中的加速DNAm老化相关。令人感兴趣的是，实足年龄继续与这些永生化B细胞中的DNAm年龄高度相关，这表明经由EBV进行的永生化对DNAm年龄不具有主要影响。

数据集54(小脑样品)和数据集55(枕叶皮层样品)来自孤独症病例和对照{44}。作者收集了特发性孤独症和对照小脑和BA19(枕叶)脑组织。这里我们忽略孤独症疾病状态。顺便说一下，我们没能检测到孤独症状态与DNAm年龄之间的相关性。

数据集56(乳房，正常相邻组织，Illumina^TM 450K)由得自TCGA的来自90个女性乳腺癌病例(平均年龄57，范围28-90)的正常乳房组织样品组成，但不同于数据集57，在Illumina^TM 450K平台上测定这些样品。

数据集57(乳房，正常相邻组织，Illumina^TM 27K)由来自癌症和肿瘤基因图谱(TCGA)数据库(http://tcga-data.nci.nih.gov/)的得自27个女性乳腺癌病例(平均年龄55，范围35-88)的正常乳房组织样品组成。

数据集58(口腔细胞)来自{45}。作者出生时和18个月年龄时在来自出生前/后表观遗传学双胞胎研究(PETS)同龄组的10对同卵双胞胎(MZ)和5对异卵双胞胎(DZ)的口腔拭子的DNA中对DNA甲基化进行了纵向研究。

数据集59(结肠)正常相邻组织是在Illumina^TM 450K阵列上测得并且是从TCGA(COAD数据)下载。

数据集60(脂肪)来自患有2型糖尿病的不一致同卵双胞胎{46}。患有2型糖尿病的不一致同卵双胞胎构成研究对2型糖尿病特性的环境贡献的理想模型。作者旨在研究来自十二对53至80岁同卵不一致双胞胎的主要葡萄糖代谢组织中是否存在全面DNAm差异。通过Illumina^TM HumanMethylation27 BeadChip在22个(11对)骨骼肌和10个(5对)皮下脂肪组织活组织切片中测量DNAm。在本人的分析中忽略糖尿病状态。本人在这个小数据集中没能发现疾病状态影响DNAm年龄的显著证据。

数据集61(心脏组织)仅由6个人类男性样品(平均年龄61，范围55-71)组成{47}。显然，将需要更大的样品大小来评估这个组织。

数据集62(肾脏)来自透明细胞肾癌的正常相邻组织由从在Illumina^TM 27K平台上测得的TCGA数据库(KIRC)下载的样品组成。

数据集63(肝脏正常相邻组织)在Illumina^TM 450K平台上测得且来自TCGA数据库(LIHC数据)。

数据集64(肺，正常相邻组织)在Illumina^TM 450K阵列上测得。所述数据由从TCGA数据库(正常样品从LUAD)下载的样品组成。

数据集65(肌肉)来自患有2型糖尿病的不一致同卵双胞胎{46}。患有2型糖尿病的不一致同卵双胞胎构成研究对2型糖尿病特性的环境贡献的理想模型。作者旨在研究来自十二对53至80岁同卵不一致双胞胎的主要葡萄糖代谢组织中是否存在全面DNAm差异。通过Illumina^TM HumanMethylation27BeadChip在22个(11对)骨骼肌和10个(5对)皮下脂肪组织活组织切片中测量DNAm。在本人的分析中忽略糖尿病状态。本人在这个小数据集中没能发现疾病状态影响DNAm年龄的显著证据。

数据集66(肌肉)组织来自24岁的健康男性。这些数据来自遵循对照饮食和高脂肪过量供给饮食的健康年轻男性的表观遗传学分析{48}。这些数据来自随机化交叉设计，其中所有受试者都接受两种处理(对照饮食和高脂肪过量供给饮食)。活组织切片是获自23个不同的个体，总计22个样品遵循对照饮食和22个样品遵循高脂肪过量供给饮食(配对n＝21)。使用Illumina^TM 27K平台分析所得到的44个样品。在本人的分析中忽略饮食状态。本人在这个相对较小的数据集中没能发现饮食影响DNAm年龄的显著证据。

数据集67(胎盘)来自{49}。DNA来自20个末三个月早发型先兆子痫胎盘和20个胎龄匹配的对照。

数据集68(唾液)来自酗酒女性且包括52个样品(平均年龄32，范围21-55){36}。

数据集69(子宫颈)包括来自152名妇女的子宫颈的细胞学上正常的细胞{23,50}。

数据集70(子宫内膜正常相邻组织)在Illumina^TM 450K平台上测得且来自TCGA数据库(UCEC数据)。

数据集71(多种人类组织)得自ENCODE/HAIB计划。这些Illumina^TM 27K数据是从GEO GSE40700下载。

数据集72(黑猩猩和人类)来自{47}。作者使用Illumina^TM 27K阵列来比较以下人类和黑猩猩组织样品中的DNAm谱：6个人类肝脏、6个人类肾脏、6个人类心脏、6个黑猩猩肝脏、6个黑猩猩肾脏和6个黑猩猩心脏。

数据集73(猿猴血液)来自{51}。作者将Illumina^TM 450K阵列应用于来自人类、黑猩猩、倭黑猩猩、大猩猩和猩猩的血液来源DNA。因为年龄不可用于人类和猩猩，所以本人集中于年龄可利用的黑猩猩、倭黑猩猩、大猩猩。

数据集74(精液)来自{52}。作者对从21名男性分离的精液DNA进行了基因组范围分析，其中多个精液参数递交至第三方男性生殖健康诊所。利用Illumina^TM Infinium阵列在27,000个CpG基因座上测量DNAm。

数据集75(精液)来自{53}。作者将450K平台应用于来源于26个正常精液样品的DNA。

数据集76(来自人类脐带的血管内皮细胞)来自同卵双胞胎和异卵双胞胎{34}。

数据集77和78(特定细胞类型)分别包括在Illumina^TM 27K阵列和Illumina^TM450K阵列上测得的人类胚胎干细胞、iPS细胞和体细胞样品{54}。尽管没有可利用的具体年龄信息，但这两个有价值的数据集可以用于a)比较成人体细胞组织对比胎儿体细胞组织；b)比较来自同一个体的不同组织的DNAm年龄(图3)；c)评估成人体细胞组织和胎儿体细胞组织间的甲基化探针变异数；d)研究iPS细胞的DNAm年龄与体初生组织和原代细胞系的DNAm年龄相比如何(图6)；e)估计细胞传代如何影响DNAm年龄(图6)。数据集78含有来自两个成人的多个组织样品。对于数据集78，可利用以下组织和样品大小：脂肪(n＝2个样品)、肾上腺(n＝4)、主动脉(2)、膀胱(2)、血液(2)、脑(3)、乳房(1)、结肠(1)、隔膜(2)、十二指肠(1)、人类胚胎干(ES)细胞(118)、胆囊(1)、心脏(2)、iPS(46)、肾脏(2)、肝脏(1)、肺(4)、淋巴结(2)、卵巢(2)、胰脏(2)、前列腺(1)、骨骼肌(2)、皮肤(1)、小肠(1)、体原代细胞系(49)、脾脏(3)、胃(4)、舌(1)、输尿管(2)。对于数据集52，可利用以下样品大小{54}：脂肪(2)、肾上腺(5)、膀胱(2)、血液(2)、脑(5)、ES(19)、心脏(5)、iPSC(29)、肾脏(5)、肝脏(4)、肺(7)、淋巴结(2)、胰脏(2)、骨骼肌(2)、体原代细胞系(22)、脾脏(5)、胃(6)、胸腺(2)、舌(2)、输尿管(2)。

数据集79(重编程的来自人类骨髓的间质性基质细胞(iP-MSC)、初始MSC和胚胎干细胞){55}。作者对来自人类骨髓的间质性基质细胞(iP-MSC)进行重编程，并且使用Illumina^TM 450K阵列利比较其DNAm谱与初始MSC和胚胎干细胞(ESC)。所述数据是从GEO(GSE37066)下载。

数据集80(hESC和正常初生组织)来自{56}。作者从以下充分表征的人类胚胎干细胞(hESC)系中提取DNA：SHEF-1、SHEF-4、SHEF-5、SHEF-7、H7、H14、H14S9、H7S14、HS181和I3。作者使用由Biochain(Hayward，CA，USA)提供的来自人类正常初生组织的DNA。

数据集81(hESC)来自{57}。在两种不同的培养基中培养来源于H9、H13C、SHEF2hESC的DNA。培养基与DNAm年龄估计值不显著相关。

数据集82(血液细胞类型数据){58}。研究中包括六个健康男性血液供体，年龄38±13.6岁。对于各个体，在全血、外周血单核细胞(PBMC)和粒细胞以及七个分离的细胞群体(CD4+ T细胞、CD8+ T细胞、CD56+ NK细胞、CD19+ B细胞、CD14+单核细胞、中性粒细胞和嗜酸性细胞)中分析全面DNAm水平，总共分析了n＝60个样品。所述数据是从GEO(GSE35069)下载。

指导选择训练组的准则

通过以下准则来指导训练数据集的选择：首先，训练数据应代表多种组织和细胞类型。在本实施例中，训练数据包括血液(全血、脐带血、PBMC)、脑(小脑、额叶皮层、脑桥、前额皮层、颞叶皮层、神经元和胶质细胞)、乳房、口腔上皮、软骨、结肠、皮肤成纤维细胞、表皮、胃组织、头/颈组织、心脏、肾脏、肝脏、肺、间质性基质细胞、前列腺、唾液、胃、甲状腺等等。

第二，个别训练组(构成组合训练组)应该具有类似的年龄分布。训练数据应该含有较高比例的在Illumina^TM 450K平台上测量的样品(37％)，因为许多正在进行的研究都使用这种最新Illumina^TM平台。顺便说一下，在450K平台上测量了34％的测试集样品。这里本人仅研究了用II型Infinium测定法测量的21369个探针，它们满足以下准则：a)它们存在于两种Illumina^TM平台(Infinium 450K和27K)上和b)具有少于10个缺失值。

癌症数据集的描述

数据集3(多形性成胶质细胞瘤，GBM)在Illumina^TM 450K阵列上测量且来自{59}(GEO标识符GSE36278)。

数据集4(乳腺癌)在Illumina^TM 27K阵列上测量且来自{60}(GEO标识符GSE31979)。

数据集5(乳腺癌)在Illumina^TM 27K阵列上测量且来自{61}(GEO标识符GSE20712)。

数据集6(乳腺癌)在Illumina^TM 27K阵列上测量且来自{23}(GEO标识符GSE33510)。

数据集10(结肠直肠癌)在Illumina^TM 27K阵列上测量且来自{62}(GEO标识符GSE25062)。

数据集23(前列腺癌)在Illumina^TM 27K阵列上测量且来自{35}(GEO标识符GSE26126)。

数据集30(尿路上皮癌)在Illumina^TM 27L阵列上测量且来自{63}。

所有其他癌症数据集都来自TCGA数据库。具体来说，急性骨髓性白血病(AML)、膀胱尿路上皮癌(BLCA)、子宫颈鳞状细胞癌和子宫颈内腺癌(CESC)、结肠腺癌(COAD)、头/颈鳞状细胞癌(HNSC)、肝脏肝细胞癌(LIHC)、肾脏肾透明细胞癌(KIRC)、肾脏肾乳头状细胞癌(KIRP)、肝脏卵巢浆液性囊腺癌(OVAR)、前列腺腺癌(PRAD)、直肠腺癌(READ)、肉瘤(SARC)、甲状腺癌(THCA)、皮肤的皮肤黑色素瘤(SKCM)、子宫本体的子宫内膜样癌(UCEC)。

DNAm分型和预处理步骤

这些公开数据集的完整实验方法和详细描述可见于原始参考文献中。以下简略概述主要步骤。使用Illumina^TM Infinium Human Methylation27 BeadChip{64}或Illumina^TM Infinium HumanMethylation450 BeadChip进行甲基化分析。Illumina^TMHumanMethylation27 BeadChips测量人类基因组中14,475个充分注释基因的5'启动子区内的27,578个不同的CpG位点上基于亚硫酸氢盐转化率的单CpG分辨率DNAm水平。通过集中于两个平台上存在的大约26000个CpG位点来归并得自这两个平台的数据。HumanMethylation27 BeadChip主要呈现位于基因启动子区附近的特定CpG。

所有公开数据都是按照Illumina^TM甲基化测定法的标准方案来产生，所述标准方案使用甲基化等位基因(信号A)与未甲基化等位基因(信号B)之间的强度比以β值对DNAm水平进行定量。具体来说，由甲基化等位基因(M对应于信号A)和未甲基化等位基因(U对应于信号B)的强度将β值计算为荧光信号比β＝Max(M,0)/[Max(M,0)+Max(U,0)+100]。因此，β值在0(完全未甲基化)至1(完全甲基化)的范围内{65}。

使用平均阵列间相关性来度量指定样品与数据集的其余样品相比的类似(相关)程度。为了在无技术性人为因素的情况下确保高质量数据，非癌症样品仅在其平均阵列间相关系数大于0.90时和其最大DNAm水平(在所有探针间)大于0.96时得以使用。这个过滤步骤没有应用于癌症样品，因为众所周知癌症大大影响DNAm水平。值得一提的是，本人的结果将仅在已使用所有样品时变化。

针对DNA甲基化数据的归一化方法

本人进行了若干个归一化步骤以确保这些数据是可比较的。尽管分位点归一化经常用于基因表达研究中，但它不太常用于DNAm研究。在解释本人的无偏归一化策略之前，本人简略地提供一些背景。Illumina^TM 450K平台使用2种不同的化学测定法。Infinium I和infinium II测定法用于评估分布在整个基因组上的超过480,000个胞嘧啶的DNAm状态。老式Illumina^TM 27K平台仅使用Infinium II测定法。若干名作者已经指出，由450K平台使用的两种化学测定法产生的数据不完全相容{66}。Dedeurwaerder等(2011)证明其基于I型探针重定II型探针比例的修正技术，称为‘基于峰值的修正’，大大改善了Illumina^TM Inf450K数据中的信号。类似地，Maksimovic等(2012)证明其阵列归一化内子组分位点(SWAN)实质性地改善了Illumina^TM 450K平台的结果{67}。令人遗憾的是，本人在这里不能采用SWAN归一化，因为它需要idat输入文件，所述输入文件对许多数据集是不可用的。

Teschendorff等(2012)开发了一种用于450K平台的基于模型的阵列内归一化策略，称为BMIQ(β混合分位数扩张(Beta MIxture Quantile dilation))，其可将II型探针的β值调节至I型探针所特有的统计分布中{68}。

本人自己的研究支持这些作者的对II型探针进行归一化以使其对应于I型探针的技术方案对于使用Illumina^TM 450K平台的任何研究都是一个非常有用的预处理步骤。本人不能直接采用这些技术，因为本人的研究仅涉及来自27K平台的II型探针。来自27K平台的约26000个CpG也被呈现在450K平台上且具有相同的探针标识符。因此，直接归并来自两个平台的数据，只要有一个限制了对这些重叠探针的注意事项即可。在大约21368个II型探针上训练年龄预测器，所述II型探针a)在Illumina^TM 27K与450K平台之间共用而且b)在训练数据中具有<＝10个缺失值。然而，本人采纳这些论文的基础思想如下。代替使用I型探针作为金标准物来重定II型探针的比例，本人通过在本文的最大单一研究(数据集1，即，来自{13}的全血样品)中形成平均DNAm值而创建了另一种金标准物。接下来，本人改适了得自Teschendorff等(2012)的BMIQ R函数{68}，以使其将对各阵列的重叠21000个探针进行重定比例，从而使其分布与新金标准物的分布相匹配。本人的经验研究显示这个预处理步骤改善了所得年龄预测器的准确度，尤其就中位数误差而论。尽管本说明性实施例中仅使用在Illumina^TM 27K与450K阵列之间重叠的21000个CpG，但其可应用于任一组CpG(例如450K阵列上的所有CpG)。

关于DNAm年龄定义的明确细节

根据训练组数据，本人发现在进行弹性网络回归分析之前宜变换年龄。针对此目的，本人使用以下新颖函数F来变换年龄(但预期可能也可以使用其他变换)：

若年龄<＝成年年龄，则F(年龄)＝log(年龄+1)-log(成年年龄+l)。

若年龄>成年年龄，则F(年龄)＝(年龄-成年年龄)/(成年年龄+1)。

参数成年年龄对于人类设至20(还可以选择不同的值)且对于黑猩猩设至15。注意，F满足以下理想性质，其

i)是连续单调递增函数(其可以逆反)；

ii)对年龄具有对数相关性直至成年(这里设在20岁)；

iii)在成年(这里设至20岁)之后对年龄具有线性相关性；

iv)通过在对数中向年龄加1(岁)来定义负年龄(即，出生前样品)；

v)具有连续一阶导数(斜率函数)。具体来说，在年龄＝成年年龄时的斜率通过1/(成年年龄+1)得到。

函数F通过红线而得以可视化。不出所料，红线穿过CpG的加权平均值(即，回归模型的线性部分)。函数F的反函数，由反F表示，用来将回归模型的线性部分变换变换成DNAm年龄。

在训练数据中，使用弹性网络回归模型(在glmnet R函数中实现)针对大约21000个β值对年龄的变换版本进行回归计算。弹性网络回归产生线性回归模型，其系数b₀、b₁、……、b₃₅₄与经过变换的年龄的关系如下：

F(实足年龄)＝b₀+b₁CpG₁+…+b₃₅₄CpG₃₅₄+误差

系数值可见于实施例9中。基于得自回归模型的系数值，如下估计DNAm年龄：

DNAm年龄＝反F(b₀+b₁CpG₁+…+b₃₅₄CpG₃₅₄)

因此，所述回归模型可用于通过简单地将所选CpG的β值代入式中来预测经过变换的年龄值。线性部分(即，所选CpG的加权平均值)被可视化为红线。

glmnet函数需要用户指定两个参数(α和β)。因为本人使用弹性网络预测器，所以将α设至0.5。但通过向训练数据应用10倍交叉验证(经由R函数cv.glmnet)来选择0.02255706的λ值。

以下R代码提供了分析的细节。

所使用的染色质状态数据

尽管特定的组蛋白修饰与调控因子结合、转录起始和伸长、增强子活性和阻抑相关，但染色质修饰的组合可以提供对染色质状态的甚至更精确的洞察{69}。这里本人使用来自{69}的染色质状态数据。作者分析了九种人类细胞类型，包括由ENCODE联盟指定的常见细胞系和原代细胞类型。这些由胚胎干细胞(H1ES)、红细胞性白血病细胞(K562)、B淋巴样细胞(GM12878)、肝细胞癌细胞(HepG2)、脐静脉内皮细胞(HUVEC)、骨骼肌成肌细胞(HSMM)、正常肺成纤维细胞(NHLF)、正常表皮角质细胞(NHEK)和乳腺上皮细胞(HMEC)组成。

Ernst等(2011)区分了六个广泛类别的染色质状态，称为启动子、增强子、绝缘子、转录、抑制和无活性状态。其中，活性启动子、弱启动子和静止启动子(状态1至3)在表达水平方面有所不同，强候选增强子和弱候选增强子(状态4至7)在近端基因的表达方面有所不同，而强转录区和弱转录区(状态9至11)还在其位置富集以及转录物方面有所不同。类似地，多梳阻抑区(状态12)不同于异染色质和重复状态(状态13至15)，所述状态就H3K9me3来说也得以富集。将354个时钟CpG映射至个别细胞系的状态将是令人感兴趣的。因为分型细胞系的数目保持扩大且保证综合分析，所以个别细胞系的报告结果超出了本文的范围。作为替代，本人通过对Ernst 2011所提到的9个细胞系的结果取平均值而提供了宽泛概述。具体来说，y轴报告了9个细胞系中CpG呈标题中所提到的染色质状态的细胞系的平均数目。

比较多组织预测器与其他年龄预测器

若干个近期出版物描述了基于DNA甲基化水平的年龄预测器{2,3,16}。Hannum等(2012)发现计算针对不同的组织的基于DNAm的年龄预测器基本上得不到重叠，例如来源于血液的预测性CpG与来自其他组织的那些不同{16}。这表明对于一个组织最佳的年龄预测器对于另一个可能为次佳的。本人不赞同这些结果。相反，本人已证明可以建立可用于解决老化研究中所出现的各类问题的多组织年龄预测器。尽管大概可以通过集中于单个组织和考虑更多CpG来实现准确度的轻微增加，但所提出的多组织年龄预测器的主要长处在于其广泛适用性：对于大部分组织，它不需要任何调节或补偿。所提出的多组织年龄预测器的性能大大优于由{2,3}提供的预测器，如以下所详述。本人不能通过{16}直接评估预测器，因为a)其71个CpG中仅有七个呈现在Illumina^TM 27K平台上；b)其包括性别和身体质量指数作为共变量。然而，本人能够通过使用可在两种Illumina^TM平台上发现的七个重叠CpG来评估所公布的预测器的稀疏版本的性能。在下文中，本人提供了更多细节。为了提供无偏比较，本人在训练数据中以类似方式构建各预测器，即，使用相同惩罚回归方法来估计其系数值。因此，所述预测器仅在惩罚回归模型中所考虑的多组CpG方面有所不同。尽管这不允许本人直接评估所公布的预测器的性能，但它提供了诸多年龄预测器的完全无偏的比较。使用来自个别出版物的系数值将使得对其进行的比较有偏，因为大部分是构建在显著较小的训练数据集(通常涉及单一组织)上或使用单一Illumina^TM平台。

本人评估了各年龄预测器a)在训练数据集间和b)在测试数据集间的性能。因为本人使用训练数据集来构建各预测器，所以在训练组中的估计准确度极度乐观。本人还定义了本人的多组织年龄预测器的“缩小”版本，其仅涉及354个CpG中110个CpG的子组。如其名称所指示，在惩罚回归模型中使用更严格的收缩参数(50×原始模型的参数)来定义缩小预测器。缩小预测器在训练数据(相关系数＝0.95，误差＝4岁)和测试数据(相关系数＝0.95，误差＝4.2岁)中非常准确。多组织预测器和其缩小版本的系数值可见于实施例9中。本人发现，本人的多组织年龄预测器的性能大大优于由{2,3}提供的预测器。即使当本人使用相同惩罚回归方法来再训练其CpG时，两种预测器在训练和测试数据中都导致高误差(>14岁)和低得多的年龄相关系数(<＝0.56)。Hannum等(2012)提出了一种基于71个CpG的年龄预测器{16}。作者使用惩罚回归法(弹性网络)建立了老化预测模型，但它在以下方面不同于目前的分析。第一，在全血上训练得自{16}的老化模型，就实际诊断的设计而论和对于测试从其他研究收集的血液样品来说这是一个值得注意的优点。第二，它还包括了诸如性别和身体质量指数之类的临床参数作为共变量。第三，它是基于来自Illumina^TM 450K阵列的CpG，而本人的预测器仅涉及来自Illumina^TM 27K阵列的CpG。因为来自{16}的71个CpG标记物中仅有七个可在Illumina^TM 27K阵列上发现，所以本人不能在这里考虑的许多组织间进行直接比较。作为代替，本人仅能够通过使用两个Illumina^TM平台上都可以发现的七个重叠CpG(cg04474832、cg05442902、cg06493994、cg09809672、cgl9722847、cg21296230、cg22736354)来评估所公布的预测器的极稀疏版本的性能。所得稀疏版本在训练数据中(年龄相关系数＝0.82，误差＝8.0岁)和在测试数据中(相关系数＝0.86，误差＝8.0岁)表现良好。

总之，来自{16}的预测器的稀疏版本(基于7个CpG)在利用少于10个CpG的预测器中表现最好。所提出的多组织预测器表明，将需要数百个CpG在多个组织类型和两个Illumina^TM平台间准确预测年龄。

用于发现年龄相关CpG的统合分析

为了在边缘分析中度量纯老化效应，本人使用WGCNA R程序包中的统合分析R函数{70}。这个函数允许计算两个p值：分别是用于发现始终正和负年龄相关CpG的p值量表上段和p值量表下段。因此，具有低p值量表上段的CpG在个别数据集中具有始终较高的年龄相关系数。因为这种统合分析方法取决于数据集，所以p值不会因数据集或组织而混淆。在散布图中，本人使用统合分析p值的带符号对数(底数10)。选择符号以使得具有正(负)年龄相关系数的CpG产生正(负)的log p值。显示基于训练数据集的统合分析p值与使用所有训练和测试集计算的相应统合分析p值高度相关。高相关系数显示通过集中于训练数据丢失极少信息。可能已经使用单独的训练数据发现了在所有数据发现的最显著年龄相关的CpG。

年龄相关CpG在体细胞组织间的变异

因为年龄预测器在众多组织间表现良好，所以本人假设用于估计DNAm年龄的354个CpG中有许多个在组织间极少变化而且其中有许多与年龄高度相关。

为了检验这一假设，本人首先定义了三个不同的组织变异数量度。第一个组织变异数量度使用训练数据集间的变异数分析(ANOVA)。针对此目的，本人使用多变量回归模型针对年龄和组织类型对各CpG(因变量)进行回归计算。回归模型包括年龄作为共变量，因为所述分析由于不同的数据集具有不同的年龄分布这一事实而需要进行调节。ANOVA允许本人计算对于在不同的训练组组织间大幅变化的CpG呈现较大值的组织效应F统计量。第二个和第三个组织变异数量度分别使用来自{54}的成人体细胞组织和胎儿体细胞组织来定义(数据集77)。说句题外话，本人提到了胎儿体细胞组织的平均DNAm年龄(预测年龄)接近于零，即，它比这个数据集中的成人体细胞组织的平均DNAm年龄低得多，这再次验证了所述年龄预测器。各CpG的成人和胎儿组织变异数量度分别由其在来自{54}的成人和体细胞组织样品间的变异数定义。本人发现，成人和胎儿组织变异数量度高度相关(相关系数＝0.8)，这指示这些量度被稳定地定义且很少随年龄变化。因为来自Nazor等的数据(数据集77)不是训练数据的一部分，所以这些量度可以用于验证组织变异数的F统计量量度。本人发现成人组织变异数量度与F统计量高度相关(相关系数＝0.73)，这显示这些组织变异数量度高度可再现。本人还使用统合分析方法针对各CpG定义了严格的年龄变异量度。所述统合分析单独地计算各训练数据集中的年龄相关系数且接下来聚合相关性测试p值，从而产生统合分析p值。不同于年龄预测器的构建，统合分析方法明确取决于各数据集。因此，如果CpG不管组织类型、数据集效应或Illumina^TM平台版本如何都始终与年龄相关，则它具有显著统合分析p值。本人使用单独的训练数据来计算统合分析p值实际上没有关系，因为所得p值与使用所有数据集得到的类似p值高度相关(相关系数＝0.97)。

为了解决如何使CpG的组织变异与其年龄变异相关的这一问题，本人绘制了组织变异数对比年龄变异数的图。针对组织效应使用ANOVA F统计量，本人发现具有较高正或负年龄相关系数的CpG在成人身体组织间变化不大。当使用涉及来自Nazor等的成人和胎儿组织的身体变异数量度时可以观察到完全类似的结果(数据77)。在组织间极少变化的CpG看起来对老化效应更敏感。相反，在组织间大幅变化的CpG不太受老化效应影响，这可能反映了它们积极防止老化效应。

使用基因表达数据研究老化效应

公开可利用的微阵列数据集主要涉及健康个体(具体来说，没有考虑癌症样品)。

为了估计对基因表达水平的老化效应，本人分析了多个独立的公开可利用的微阵列数据集。主要涉及健康对照个体的血液微阵列数据集(称为SAFHS{71}、Chaussabel{72}和NOWAC{73}数据)和CD8 T细胞微阵列数据Cao{74}。为了评估基因在天然CD8+ T细胞和抗原暴露CD8+ T细胞之间是否差异性表达，本人使用来自Willinger等的数据{75,76})。在下文中，本人提供了更多细节。

数据来自停经后妇女研究(NOWAC数据)。在本人最大的数据集圣安东尼奥家族心脏研究(SAFHS)数据集中，从满足以下两个准则的先证者中确定个体：1)具有生活配偶和2)在圣安东尼奥地区具有六个16岁以上的一级亲属，不包括父母。尽管这个数据集被用来研究心血管表型，但数据是在对这些特质无选择偏倚的情况下获得，且因此可以被视为随机取样。

本人获得了圣安东尼奥家族心脏研究(SAFHS)血液数据集，其先前已被Goring等分析过{71}。这个数据集来源于淋巴细胞；使RNA与具有对应于18,544个基因的多组探针的Illumina^TM Sentrix人类全基因组(WG-6)I系列BeadChips杂交。将分位点归一化应用于原始数据。这个数据集由1,084个样品组成：452个男性和632个女性，在去除离群值之后年龄介于15岁与94岁之间。具体来说，使用去除平均阵列间相关系数(IAC)≤2SD且低于平均值的离群值的迭代法进行离群值检测和去除，直至肉眼观察到树状聚类图且平均IAC显示无其他离群值。这个分析完全无偏且不知实足年龄。针对此目的，本人使用{77}中所描述的我们最新开发的sampleNetwork R函数。

Chaussabel数据集最初由Pankla等公布{72}且被用于研究类鼻疽。使67个全血样品与具有12,483个基因的Illumina^TM Sentrix Human-6 V2 BeadChip阵列杂交。使用Illumina^TM BeadStudio版本2软件进行减去背景和平均值归一化，且使用原作者的Gene-Spring GX7.3软件(Agilent Technologies)进行针对单色阵列数据的标准归一化。这个数据集由年龄介于18岁与74岁之间的35个男性和32个女性组成。本人还使用来自挪威妇女与癌症(NOWAC)研究{73}的健康绝经后妇女。使用具有16,753个基因的AB人类基因组调查微阵列V2.0来测量全血数据。对于多组技术性重复实验，排除最少数目的探针具有S/N>3的阵列。去除少于40％的探针具有S/N≥3的阵列。排除在少于50％的样品中具有S/N>3的探针。进行对数(底数2)变换、分位点归一化和归因。本人此外使用去除平均阵列间相关系数<2SD的样品的迭代法排除样品，最终得到245个样品。得到{48,53)、{53,58)和{58,63}的年龄范围，且本人用于分析50岁、55岁和60岁的相应年龄。

在来自Cao等{74}的CD8+ T细胞数据集中，使用Affymetrix HG-U133A_2基因阵列来探索年龄介于23岁至81岁的范围内的三个男性和六个女性供体的表达谱。使用微阵列套装5.0版(MAS 5.0；Affymetrix)对12,483个基因的表达水平进行定量。在来自Willinger等{75,76}的CD8+ T细胞数据集中，使用Affymetrix HG-U133+ 2.0阵列(对数变换的MAS5数据)来探索人类CD8+天然T细胞(TN)、中央记忆(TCM)、效应因子记忆(TEM)和效应因子记忆RA(TEMRA)CD8+ T细胞的表达谱。TN可以被认为是外周干细胞，而TEM和TEMRA是具有效应因子功能的分化细胞。对于各T细胞类型，原始数据集含有4个重复(即，有16个阵列)。因为中央记忆样品中有一个与其他样品具有非常低的阵列间相关系数，所以本人从分析中去除了这个潜在离群值。使用差异性表现的学生t检验来比较在天然CD8+细胞对比记忆T细胞中的表达水平。

Lu等{78}先前分析了第一个脑数据集。使30个额叶样品与具有8,760个基因的Affymetrix HG-U95Av2寡核苷酸阵列杂交。Lu等使用dChip V1.3软件对阵列进行归一化，且在使用去除平均阵列间相关系数<2SD且低于平均值的样品的上述迭代法之后获得25个样品。这个数据集由年龄介于26岁与91岁之间的16个男性和9个女性组成。

Myers等{79}先前分析了第二个皮层脑数据集。利用Illumina^TM HumanRef-8Expression BeadChip，并且使用Illumina^TM BeadStudio软件对表达谱进行归一化秩不变量。本人利用了迭代归一化法且去除25个样品，得到总计168个样品和19,880个基因。这个数据集由年龄介于65岁与100岁之间的92个男性和76个女性组成。Oldham等{80}先前分析了第三个皮层脑数据集。使用Affymetrix HG-U95Av2微阵列。利用分位点归一化。最终本人在67名个体中鉴别了7763个基因。这个数据集由年龄介于22岁与81岁之间的48个男性和19个女性组成。Rodwell等{81}先前分析了肾脏数据集。本人利用来自HG-U133A高密度寡核苷酸阵列的数据；Rodwell等根据稳定不变量集使用dChip程序对数据进行归一化，且本人使用归一化和迭代离群值去除法进行进一步处理。这些归一化和离群值检测程序产生63个肾脏皮层样品和52个肾髓质样品。两个数据集中都有12,606个基因。肾皮层数据集由年龄介于27岁与87岁之间的35个男性和26个女性组成，而肾髓质数据集由年龄介于29岁与92岁之间的29个男性和23个女性组成。

Zahn等{82}先前分析了肌肉数据集。使81个样品与Affymetrix HG-U133 2.0+高密度寡核苷酸阵列杂交。作者使用DChip程序对数据进行归一化。本人使用迭代归一化和离群值去除法略去10个样品，得到71个样品和19,621个基因。这个数据集由年龄介于16岁与89岁之间的39个男性和32个女性组成。

统合分析应用于基因表达数据

在下文中，本人描述如何获得皮尔逊相关系数、各数据集中的相应t检定统计量Z、概述多个数据间的相关系数检验统计量的metaZ统计量、相应经验p值(pMetaZ)。本人以r_s表示第s个数据集中的皮尔逊相关系数(例如在年龄与基因表达谱之间)。用于检验是否相关系数不为零的学生t检验统计量由下式提供：

其中m_s表示第s个数据集中的观测值(即，微阵列、个体)数目。这个Z统计量等效于由单变量回归模型得到的Wald检验统计量，其中针对基因表达谱对年龄进行回归计算。为了组合诸多数据集间的多个相关系数检验统计量，本人使用metaZ统计量

其中w_s表示与第s个数据集相关的权重。所有数据集都接受w_s＝1的权重，但权重具有可以忽略的效应。在零相关性的无效假设下，metaZ在弱假定下遵循近似正态分布，这将在下文中概述。第一，若各个别Z_s大致遵循标准正态分布，则metaZ大致遵循标准正态分布，因为数据集是独立的。第二，若正在考虑多个独立的数据集，则即使个别Z统计量不遵循正态分布，也可以援引中心极限定理。

突变与老化加速相关的基因的名称

以下基因中的突变会增加或降低DNAm年龄。

AKAP9-A激酶(PRKA)锚蛋白(yotiao)9

CHD7-克罗莫结构域蜗牛酶DNA结合蛋白7[智人]

CTNND2-连锁蛋白(钙粘蛋白相关蛋白)δ2

DMBT1-恶性脑肿瘤缺失蛋白1

DSG3-桥粒芯糖蛋白3

FAM123C-具有序列相似性的家族123C

FAT4-FAT非典型钙粘蛋白4

GATA3-GATA结合蛋白3

KCNB1-钾电压阀门通道Shab相关亚家族成员1

LEPR-瘦蛋白受体

MACF1-微管-肌动蛋白交联因子1

MB21D1-含有Mab-21结构域的蛋白1

MGAM-麦芽糖酶-葡糖淀粉酶(α-葡糖苷酶)

MUC17-细胞表面相关粘蛋白17

MYH7-心肌β肌球蛋白重链7

RELN-络丝蛋白

THOC2-THO复合物2

TMEM132D-跨膜蛋白132D

TTN-肌联蛋白

TP53-肿瘤蛋白p53

U2AF1-U2小核RNA辅助因子1

DNAm年龄是老化的生物标记物吗？

美国老化研究联盟针对老化的生物标记物提出了以下准则(综述于{83-85}中)：

1.必须预测老化速率。

2.必须监测构成老化过程的基础的基本过程而不是疾病的影响。

3.必须能够重复进行测试而不会对人构成伤害。

4.必须在人类和实验室动物中有效。

将按照倒序来处理这些准则。若可接受黑猩猩作为实验室动物，则DNAm年龄大概满足准则4(结果在图4中给出)。有一个很好的机会从而满足了准则3(结果在血液、唾液、口腔细胞、皮肤中给出)和准则2(参见我的DNAm老化EMS模型和关于老化对DNA甲基化水平的影响的大量文献)。大量的同龄组研究对于处理准则1将是非常有价值的。这些研究需要检验在不存在疾病的情况下，基于DNAm的老化加速的量度与实足年龄相比是否将具有更好的预测功能能力{86}。

实施例8 参考文献

实施例9：DNAm年龄预测器的系数值

本实例提供关于使用训练组数据定义的多组织年龄预测器的信息。多组织年龄预测器使用354个CpG，其中193个和160个分别与年龄具有正相关系数和负相关系数。所述表格还提供了用于基于具有110个CpG的子组(354个CpG的一个子组)的缩小型新预测器的系数值。虽然这个信息足以预测年龄，但推荐[45]发布的软件。所述表格报告了各CpG的大量额外信息，包括其所有训练数据和测试数据间的变异数、最小值、最大值和中位数值。此外，它报告了在不到35岁的受试者中和在超过55岁的受试者中的中位数β值。

实施例10：癌症数据集的描述

本实例描述了32个公开可利用的癌症组织数据集和7个癌细胞系数据集。第1栏报告了数据编号和相应的颜色代码。其他栏报告了受影响的组织、Illumina^TM平台、样本大小n、女性比例、中位数年龄、年龄范围(最小年龄和最大年龄)、相关引用(TCGA或第一作者与出版年份)和公开可利用性。这些数据集中无一用于构建DNAm年龄估计器。所述表格还报告了年龄相关系数cor(年龄，DNAm年龄)、中位数误差和中位数老化加速。将表观遗传学时钟应用于许多不同的癌症类型和癌症数据集。实施例10的最后数栏示出了DNAm年龄与癌症组织中的实足年龄仅具有弱相关性。

实施例11：癌细胞系和DNAm年龄

本实施例报告了59个癌细胞系的DNAm年龄和老化加速。将表观遗传学时钟应用于许多不同的癌细胞系。最终DNAm年龄在多个细胞系间大幅变化。

结论

由此对本发明的优选实施方案的描述作出结论。已经出于说明和描述的目的提供了本发明的一个或多个实施方案的以上描述。其不希望为穷举性的或将本发明限制于所公开的精确形式。根据以上教授内容，可能进行许多修改和变化。希望本发明的范围不受此详细描述限制，而是由所附权利要求书限制。

本文中所引用的所有出版物、专利和专利申请出于所有目的以全文引用的方式并入在此。

参考文献

表3：354个CpG的组的列表

这个表格提供了本发明的354个时钟CpG的序列和甲基化残基信息(在括号中)。这些序列的进一步说明可在例如Illumina^TM网站上在Technical Note:Epigenetics-CpGLoci Identification下发现(搜索：“res.illumina.com/documents/products/technotes/technote_cpg_loci_ident ification.pdf”)。简而言之，这354个CpG对应于由所谓的簇CG编号规定的Illumina探针(参见表1，在Illumina^TM技术注意事项中)。为方便起见，还提供了这些时钟CpG的基因组坐标和基因名称。

表4：具有110个CpG的子组的列表

表5：具有38个CpG的子组的列表

表6：17个CpG的子组的列表

表7：17个CpG的子组的列表

Edaradd(NCBI参考序列：NM_080738.3)：

TTGTATGGGAACTCTGGTGAATGCGAATCATTTTTAAATTACTTTTTTTGTAAAGTGCAAAACAACAATAGCACCCATTTGCGTCATACTTTATAGTTCGCAAAGCACATGGGAAAAATAAAGGTAATGATGGGGATCGTTGCAATTCATAGGAAAGGAGGCACGAGGAAATGAAAATGAAAGGGAGTAATAACTACGTAACTAGTCAATCTTCCTTAAAAAAAAAAACCCTTAAAATATACCACCATCTTCTATTTGATATAATGCAGAATGGGAATGATAAAAACATGAATTACATTTCAGAGTTTCAAAAAGCAAACCAGCTTTATAGCAATGCTTGAGGTTGGGCTGCTAACAAGCTCACTCAACTAGTGTTTCCTGACGGCCAACGTCAGAATAATTCCATCTCCATGAGAAGTACAGAAAGAACCACAAACCAAACCTCCAAATTGATTCTAAGATAAAATACCCTTAAAAAAAATTTCCCTTCCTATCCGGGCGGCAGACCAAGAGGAAGTTTATCCTCCCACCTACAAATTCCCCAGAGAGCTTTCATCTAGAAGGTTTGACTCTGGCCAGACAACCAGCGAGCATCTTCTC GCAATCTGTTGCTTCTTCCATGGCAAACTCCAGAGAATTAAGAAGCCAAACTCAACATCGCCATGGGCCTCAGGACGACTAAACAGATGGGGAGAGGCACTGGCAGACCAAGAGGAAGTTTATCCTCCCACCTACAAATTCCCCAGAGAGCTTTCATCTAGAAGGTTTGACTCTGGCCAGACAACCAGCGAGCATCTTCTCGCAATCTGTTGCTTCTTCCATGGCAAACTCCAGAGAATTAAGAAGCCAAACTCAACATCGCCATGGGCCTCAGGACGACTAAACAGATGGGGAGAGGCACTAAAGCTCCTGGTCACCAAGAGGGTATGTAGGCATTTGCTGTCTTCCTGGATTTCTCAGAGCTGAGTTTTTAGCCAGAGGTTGCTTATTTACGATAATTCTTGGATATATTATACACTAAATACTATTATTATCTTTTTCGACCCGACTTTTATCTTTCTGTTCTTATGTGTGAAGGCAGAGAAAGATTATTTAGAGCTCTTCAAAGATTCCTATTTAATTTAAAATGCCTGTCGCCTTCCTATAATAGGCTTATGATGGATGATAGCTTTAGTTAAAATGTAGCAATCTTAAATATATT(SEQ IDNO：355)

GREM1 NCBI参考序列：XM_006725542.1

ATTTAAACGGGAGACGGCGCGATGCCTGGCACTCGGTGCGCCTTCCGCGGACCGGGCGACCCAGTGCACGGCCGCCGCGTCACTCTCGGTCCCGCTGACCCCGCGCCGAGCCCCGGCGGCTCTGGCCGCGGCCGCACTCAGCGCCACGCGTCGAAAGCGCAGGCCCCGAGGACCCGCCGCACTGACAGTATGAGCCGCACAGCCTACACGGTGGGAGCCCTGCTTCTCCTCTTGGGGACCCTGCTGCCGGCTGCTGAAGGGAAAAAGAAAGGGTCCCAAGGTGCCATCCCCCCGCCAGACAAGGCCCAGCACAATGACTCAGAGCAGACTCAGTCGCCCCAGCAGCCTGGCTCCAGGAACCGGGGGCGGGGCCAAGGGCGGGGCACTGCCATGCCCGGGGAGGAGGTGCTGGAGTCCAGCCAAGAGGCCCTGCATGTGACGGAGCGCAAATACCTGAAGCGAGACTGGTGCAAAACCCAGCCGCTTAAGCAGACCATCCACGAGGAAGGCTGCAACAGTCGCACCATCATCAACCGCTTCTGTTACGGCCAGTGCAACTCTTTCTACATCCCCAGGCACATCCGGAAGGAGGAAGGTTCCTTTCAGTCCTGCTCCTTCTGCAAGCCCAAGAAATTCACTACCATGATGGTCACACTCAACTGCCCTGAACTACAGCCACCTACCAAGAAGAAGAGAGTCACACGTGTGAAGCAGTGTCGTTGCATATCCATCGATTTGGATTAAGCCAAATCCAGGTGCACCCAGCATGTCCTAGGAATGCAGCCCCAGGAAGTCCCAGACCTAAAACAACCAGATTCTTACTTGGCTTAAACCTAGAGGCCAGAAGAACCCCCAGCTGCCTCCTGGCAGGAGCCTGCTTGTGCGTAGTTCGTGTGCATGAGTGTGGATGGGTGCCTGTGGGTGTTTTTAGACACCAGAGAAAACACAGTCTCTGCTAGAGAGCACTCCCTATTTTGTAAACATATCTGCTTTAATGGGGATGTACCAGAAACCCACCTCACCCCGGCTCACATCTAAAGGGGCGGGGCCGTGGTCTGGTTCTGACTTTGTGTTTTTGTGCCCTCCTGGGGACCAGAATCTCCTTTCGGAATGAATGTTCATGGAAGAGGCTCCTCTGAGGGCAAGAGACCTGTTTTAGTGCTGCATTCGACATGGAAAAGTCCTTTTAACCTGTGCTTGCATCCTCCTTTCCTCCTCCTCCTCACAATCCATCTCTTCTTAAGTTGATAGTGACTATGTCAGTCTAATCTCTTGTTTGCCAAGGTTCCTAAATTAATTCACTTAACCATGATGCAAATGTTTTTCATTTTGTGAAGACCCTCCAGACTCTGGGAGAGGCTGGTGTGGGCAAGGACAAGCAGGATAGTGGAGTGAGAAAGGGAGGGTGGAGGGTGAGGCCAAATCAGGTCCAGCAAAAGTCAGTAGGGACATTGCAGAAGCTTGAAAGGCCAATACCAGAACACAGGCTGATGCTTCTGAGAAAGTCTTTTCCTAGTATTTAACAGAACCCAAGTGAACAGAGGAGAAATGAGATTGCCAGAAAGTGATTAACTTTGGCCGTTGCAATCTGCTCAAACCTAACACCAAACTGAAAACATAAATACTGACCACTCCTATGTTCGGACCCAAGCAAGTTAGCTAAACCAAACCAACTCCTCTGCTTTGTCCCTCAGGTGGAAAAGAGAGGTAGTTTAGAACTCTCTGCATAGGGGTGGGAATTAATCAAAAACCGCAGAGGCTGAAATTCCTAATACCTTTCCTTTATCGTGGTTATAGTCAGCTCATTTCCATTCCACTATTTCCCATAATGCTTCTGAGAGCCACTAACTTGATTGATAAAGATCCTGCCTCTGCTGAGTGTACCTGACAGTAGTCTAAGATGAGAGAGTTTAGGGACTACTCTGTTTTAGCAAGAGATATTTTGGGGGTCTTTTTGTTTTAACTATTGTCAGGAGATTGGGCTAAAGAGAAGACGACGAGAGTAAGGAAATAAAGGGAATTGCCTCTGGCTAGAGAGTAGTTAGGTGTTAATACCTGGTAGAGATGTAAGGGATATGACCTCCCTTTCTTTATGTGCTCACTGAGGATCTGAGGGGACCCTGTTAGGAGAGCATAGCATCATGATGTATTAGCTGTTCATCTGCTACTGGTTGGATGGACATAACTATTGTAACTATTCAGTATTTACTGGTAGGCACTGTCCTCTGATTAAACTTGGCCTACTGGCAATGGCTACTTAGGATTGATCTAAGGGCCAAAGTGCAGGGTGGGTGAACTTTATTGTACTTTGGATTTGGTTAACCTGTTTTCTTCAAGCCTGAGGTTTTATATACAAACTCCCTGAATACTCTTTTTGCCTTGTATCTTCTCAGCCTCCTAGCCAAGTCCTATGTAATATGGAAAACAAACACTGCAGACTTGAGATTCAGTTGCCGATCAAGGCTCTGGCATTCAGAGAACCCTTGCAACTCGAGAAGCTGTTTTTATTTCGTTTTTGTTTTGATCCAGTGCTCTCCCATCTAACAACTAAACAGGAGCCATTTCAAGGCGGGAGATATTTTAAACACCCAAAATGTTGGGTCTGATTTTCAAACTTTTAAACTCACTACTGATGATTCTCACGCTAGGCGAATTTGTCCAAACACATAGTGTGTGTGTTTTGTATACACTGTATGACCCCACCCCAAATCTTTGTATTGTCCACATTCTCCAACAATAAAGCACAGAGTGGATTTAATTAAGCACACAAATGCTAAGGCAGAATTTTGAGGGTGGGAGAGAAGAAAAGGGAAAGAAGCTGAAAATGTAAAACCACACCAGGGAGGAAAAATGACATTCAGAACCAGCAAACACTGAATTTCTCTTGTTGTTTTAACTCTGCCACAAGAATGCAATTTCGTTAACGGAGATGACTTAAGTTGGCAGCAGTAATCTTCTTTTAGGAGCTTGTACCACAGTCTTGCACATAAGTGCAGATTTGGCTCAAGTAAAGAGAATTTCCTCAACACTAACTTCACTGGGATAATCAGCAGCGTAACTACCCTAAAAGCATATCACTAGCCAAAGAGGGAAATATCTGTTCTTCTTACTGTGCCTATATTAAGACTAGTACAAATGTGGTGTGTCTTCCAACTTTCATTGAAAATGCCATATCTATACCATATTTTATTCGAGTCACTGATGATGTAATGATATATTTTTTCATTATTATAGTAGAATATTTTTATGGCAAGATATTTGTGGTCTTGATCATACCTATTAAAATAATGCCAAACACCAAATATGAATTTTATGATGTACACTTTGTGCTTGGCATTAAAAGAAAAAAACACACATCCTGGAAGTCTGTAAGTTGTTTTTTGTTACTGTAGGTCTTCAAAGTTAAGAGTGTAAGTGAAAAATCTGGAGGAGAGGATAATTTCCACTGTGTGGAATGTGAATAGTTAAATGAAAAGTTATGGTTATTTAATGTAATTATTACTTCAAATCCTTTGGTCACTGTGATTTCAAGCATGTTTTCTTTTTCTCCTTTATATGACTTTCTCTGAGTTGGGCAAAGAAGAAGCTGACACACCGTATGTTGTTAGAGTCTTTTATCTGGTCAGGGGAAACAAAATCTTGACCCAGCTGAACATGTCTTCCTGAGTCAGTGCCTGAATCTTTATTTTTTAAATTGAATGTTCCTTAAAGGTTAACATTTCTAAAGCAATATTAAGAAAGACTTTAAATGTTATTTTGGAAGACTTACGATGCATGTATACAAACGAATAGCAGATAATGATGACTAGTTCACACATAAAGTCCTTTTAAGGAGAAAATCTAAAATGAAAAGTGGATAAACAGAACATTTATAAGTGATCAGTTAATGCCTAAGAGTGAAAGTAGTTCTATTGACATTCCTCAAGATATTTAATATCAACTGCATTATGTATTATGTCTGCTTAAATCATTTAAAAACGGCAAAGAATTATATAGACTATGAGGTACCTTGCTGTGTAGGAGGATGAAAGGGGAGTTGATAGTCTCATAAAACTAATTTGGCTTCAAGTTTCATGAATCTGTAACTAGAATTTAATTTTCACCCCAATAATGTTCTATATAGCCTTTGCTAAAGAGCAACTAATAAATTAAACCTATTCTTTC(SEQ IDNO:356)

NHLRC NCBI参考序列：NM_198586.2

GCACAGGACGCGCCATGGCGGCCGAAGCCTCGGAGAGCGGGCCAGCGCTGCATGAGCTCATGCGCGAGGCGGAGATCAGCCTGCTCGAGTGCAAGGTGTGCTTTGAGAAGTTTGGCCACCGGCAGCAGCGGCGCCCGCGCAACCTGTCCTGCGGCCACGTGGTCTGCCTGGCCTGCGTGGCCGCCCTGGCGCACCCGCGCACTCTGGCCCTCGAGTGCCCATTCTGCAGGCGAGCTTGCCGGGGCTGCGACACCAGCGACTGCCTGCCGGTGCTGCACCTCATAGAGCTCCTGGGCTCAGCGCTTCGCCAGTCCCCGGCCGCCCATCGCGCCGCCCCCAGCGCCCCCGGAGCCCTCACCTGCCACCACACCTTCGGCGGCTGGGGGACCCTGGTCAACCCCACCGGACTGGCGCTTTGTCCCAAGACGGGGCGTGTCGTGGTGGTGCACGACGGCAGGAGGCGTGTCAAGATTTTTGACTCAGGGGGAGGATGCGCGCATCAGTTTGGAGAGAAGGGGGACGCTGCCCAAGACATTAGGTACCCTGTGGATGTCACCATCACCAACGACTGCCATGTGGTTGTCACTGACGCCGGCGATCGCTCCATCAAAGTGTTTGATTTTTTTGGCCAGATCAAGCTTGTCATTGGAGGCCAATTCTCCTTACCTTGGGGTGTGGAGACCACCCCTCAGAATGGGATTGTGGTAACTGATGCGGAGGCAGGGTCCCTGCACCTCCTGGACGTCGACTTCGCGGAAGGGGTCCTTCGGAGAACTGAAAGGTTGCAAGCTCATCTGTGCAATCCCCGAGGGGTGGCAGTGTCTTGGCTCACCGGGGCCATTGCGGTCCTGGAGCACCCCCTGGCCCTGGGGACTGGGGTTTGCAGCACCAGGGTGAAAGTGTTTAGCTCAAGTATGCAGCTTGTCGGCCAAGTGGATACCTTTGGGCTGAGCCTCTACTTTCCCTCCAAAATAACTGCCTCCGCTGTGACCTTTGATCACCAGGGAAATGTGATTGTTGCAGATACATCTGGTCCAGCTATCCTTTGCTTAGGAAAACCTGAGGAGTTTCCAGTACCGAAGCCCATGGTCACTCATGGTCTTTCGCATCCTGTGGCTCTTACCTTCACCAAGGAGAATTCTCTTCTTGTGCTGGACACAGCATCTCATTCTATAAAAGTCTATAAAGTTGACTGGGGGTGATGGGCTGGGGTGGGTCCCTGGAATCAGAAGCACTAGTGCTGCCATTAATGAATTGTTTAACCCTGGATAAGTCACTTAAACTCATCTATCCAGGCAGGGATAATTAAAACCATCTGGCAGACTTACAAAGCTTGGGACAGTTATTGGAGATTAATCTACCATTTATTGAATGCATACTCTGTGCAAGGAAATTTGCAAATATTAGCTTATTTAATCTGTACTATCCAGTGAGGTAATTTCTTCCCCCCCAAGATAGAGTCAAGCTCTGTCACCCAGGCTGGAGTGCAGAAGCATGATCACAGCTCACTACAGTTTCAACGTCCCCCGCTCAGGTGGTCCTTCCACCTCAGCCTCCCAAGTAGCTGGGACCACAAGTGTGCATTACCACACTCAGCTAATTTTTGTATTTTGGCAGAGATGGGGTTTCACCATGTTGCCCAGGCTGGTCTCAAACTCCTGAGTTCAAGCAATCCACCTTCCTCGGCCTCCCAAAGTACTAGGAGTACAGGCATAGCCACTTGCTCAGCCATAATTTTTATTATTAATCTCATTGTACAAGTGAGAAAACTGAGACCCAGAGAGCTTAAGTGACTTCCTCGAGGTCATAGTTACTTACTGCCTTAGTCCCAATTTGAATTCAATTCTGATTCCAAATAAGTTGCGCTTAAATAAGACAACAGATGTGGGAAAAATATGTGAATGTGTAGTGTTGCTATGTGTACTGTCTTTACAAGTAGCTAATTATTTTAGCACAAAGATGTGCAAAGAAAGGAGACTTTATGGAGAGTTCAGGAGAAAAAGGATTTTGTGGTGGCCATCACTTTCATTCAATTTGCGACTGCTCTGATGGCACATTAGATGAAGTTACTGTTGATCCTGAGTTACGTGAATAAGAAAAACAATTGAACTGCTTATTAAAAAAGTAAACATGT(SEQ ID NO:357)

SCGN NCBI参考序列：NM_006998.3

CAGCCGCTGGTTTTGCTGAGGGCTGAGGGACGGCTCAGCGACGCCACGGCCAGCAGCGCTCGCGTCCTCCCCAGCAACAGTTACTCAAAGCTAATCAGATAGCGAAAGAAGCAGGAGAGCAAGTCAAGAAATACGGTGAAGGAGTCCTTCCCAAAGTTGTCTAGGTCCTTCCGCGCCGGTGCCTGGTCTTCGTCGTCAACACCATGGACAGCTCCCGGGAACCGACTCTGGGGCGCTTGGACGCCGCTGGCTTCTGGCAGGTCTGGCAGCGCTTTGATGCGGATGAAAAAGGTTACATAGAAGAGAAGGAACTCGATGCTTTCTTTCTCCACATGTTGATGAAACTGGGTACTGATGACACGGTCATGAAAGCAAATTTGCACAAGGTGAAACAGCAGTTTATGACTACCCAAGATGCCTCTAAAGATGGTCGCATTCGGATGAAAGAGCTTGCTGGTATGTTCTTATCTGAGGATGAAAACTTTCTTCTGCTCTTTCGCCGGGAAAACCCACTGGACAGCAGCGTGGAGTTTATGCAGATTTGGCGCAAATATGACGCTGACAGCAGTGGCTTTATATCAGCTGCTGAGCTCCGCAACTTCCTCCGAGACCTCTTTCTTCACCACAAAAAGGCCATTTCTGAGGCTAAACTGGAAGAATACACTGGCACCATGATGAAGATTTTTGACAGAAATAAAGATGGTCGGTTGGATCTAAATGACTTAGCAAGGATTCTGGCTCTTCAGGAAAACTTCCTTCTCCAATTTAAAATGGATGCTTGTTCTACTGAAGAAAGGAAAAGGGACTTTGAGAAAATCTTTGCCTACTATGATGTTAGTAAAACAGGAGCCCTGGAAGGCCCAGAAGTGGATGGGTTTGTCAAAGACATGATGGAGCTTGTCCAGCCCAGCATCAGCGGGGTGGACCTTGATAAGTTCCGCGAGATTCTCCTGCGTCACTGCGACGTGAACAAGGATGGAAAAATTCAGAAGTCTGAGCTGGCTTTGTGTCTTGGGCTGAAAATCAACCCATAATCCCAGACTGCTTTGCCTTTTGCTCTTACTATGTTTCTGTGATCTTGCTGGTAGAATTGTATCTGTGCATTGATGTTGGGAACACAGTGGGCAAACTCACAAATGGTGTGCTATTCTTGGGCAAGAACAGGGACGCTAGGGCCTTCCTTCCACCGGCGTGATCTATCCCTGTCTCACTGAAAGCCCCTGTGTAGTGTCTGTGTTGTTTTCCCTTGACCCTGGGCTTTCCTATCCTCCCAAAGACTCAGCTCCCCTGTTAGATGGCTCTGCCTGTCCTTCCCCAGTCACCAGGGTGGGGGGGACAGGGGCAGCTGAGTGCATTCATTTTGTGCTTTTCTTGTGGGCTTTCTGCTTAGTCTGAAAGGTGTGTGGCATTCATGGCAATCCTGTAACTTCAACATAGATTTTTTTGTGTGTGTGGAAATAAATCTGCAATTGGAAACAAAAAAAAAAAAAAA(SEQ ID NO:358)

Claims

1.一种确定生物样品的年龄的方法，其包括：

测量所述生物样品的基因组DNA中的一组甲基化标记物的甲基化水平，所述甲基化标记物为表7中的6个CpG甲基化标记物；和

利用统计预测算法来确定所述生物样品的年龄，所述算法包括(a)获得所述甲基化标记物水平的线性组合，和(b)对所述线性组合应用变换以确定所述生物样品的年龄；

其中所述统计预测算法为线性回归模型。

2.如权利要求1所述的方法，其中所述生物样品是血液、唾液、表皮、脑、肾脏或肝脏样品。

3.如权利要求1所述的方法，其中生物样品是血液或唾液样品。

4.如权利要求1所述的方法，其中所述一组甲基化标记物是从表3的基因中的标记物中选出。

5.如权利要求4所述的方法，其中所述一组甲基化标记物是从表3的CpG位置中选出。

6.如权利要求1所述的方法，其中个体的年龄是基于所述生物样品的年龄来确定。

7.如权利要求1所述的方法，其中测量一组甲基化标记物的甲基化水平包括用亚硫酸氢盐处理来自于所述样品的基因组DNA以便将CpG二核苷酸的未甲基化胞嘧啶转化成尿嘧啶。

8.一种试剂盒，其包括用于检测表7的6个CpG甲基化标记物的探针。

9.一种用于确定生物样品的年龄的方法，其包括：

测量所述生物样品的基因组DNA中的一组甲基化标记物的甲基化水平，所述一组甲基化标记物为表7中的6个CpG甲基化标记物；和

基于所述甲基化水平来确定所述样品的年龄。

10.如权利要求9所述的方法，其中所述生物样品是包含基因组DNA的实体组织、血液、尿液、粪便或唾液样品。

11.如权利要求9所述的方法，其中所述生物样品是包含组织培养细胞或多能干细胞的样品。

12.如权利要求9所述的方法，其中确定所述生物样品的年龄包括将统计预测算法应用于所测量的甲基化标记物水平；

其中所述统计预测算法为线性回归模型。

13.如权利要求12所述的方法，其中确定所述生物样品的年龄包括(a)获得所述甲基化标记物水平的线性组合，和(b)对所述线性组合应用变换以确定所述生物样品的年龄。

14.如权利要求1所述的方法，其中个体的年龄是基于所述生物样品的年龄来确定。

15.如权利要求1所述的方法，如权利要求9所述的方法，其进一步包括报告所述样品的年龄。

16.如权利要求15所述的方法，其中所述报告包括制作书面或电子报告。

17.如权利要求9所述的方法，其中测量一组甲基化标记物的甲基化水平包括用亚硫酸氢盐处理来自于所述样品的基因组DNA以便将CpG二核苷酸的未甲基化胞嘧啶转化成尿嘧啶。

18.一种有形的计算机可读介质，其包括当由计算机执行时使所述计算机执行诸多操作的计算机可读代码，所述操作包括：

a)接收对应于生物样品中的一组甲基化标记物的甲基化水平的信息，所述标记物为表7中的6个CpG甲基化标记物；和

b)通过将统计预测算法应用于所测量的甲基化标记物水平来确定所述生物样品的年龄；

其中所述统计预测算法为线性回归模型。

19.如权利要求18所述的有形的计算机可读介质，确定所述生物样品的年龄进一步包括比较所测量的甲基化标记物水平与参考标记物水平。

20.如权利要求19所述的有形的计算机可读介质，其中所述参考水平被存储在所述有形的计算机可读介质中。

21.如权利要求18所述的有形的计算机可读介质，其中所述接收信息包括从有形的数据存储装置接收对应于所述生物样品中的所述一组甲基化标记物的所述甲基化水平的信息。

22.如权利要求18所述的有形的计算机可读介质，其进一步包括当由计算机执行时使所述计算机执行一项或多项额外操作的计算机可读代码，所述额外操作包括：向有形的数据存储装置发送对应于所述生物样品中的所述一组甲基化标记物的所述甲基化水平的信息。

23.如权利要求18所述的有形的计算机可读介质，其中所述接收信息进一步包括接收对应于生物样品中的一组甲基化标记物的甲基化水平的信息，所述标记物为表7中所列出的6个CpG甲基化标记物。

24.如权利要求18所述的有形的计算机可读介质，其中确定所述生物样品的年龄包括应用线性回归模型以基于所述甲基化标记物水平的加权平均值加补偿来预测样品年龄。

25.一种确定个体的年龄的方法，其包括：

从个体收集组织样品；

从所收集的组织样品中提取基因组DNA；

测量所述基因组DNA上的甲基化标记物的甲基化水平，所述标记物为表7中所列出的6个CpG甲基化标记物；和

利用统计预测算法来确定所述个体的年龄，其中将所述统计预测算法应用于所测量的甲基化水平以确定所述个体的年龄；

其中所述统计预测算法为线性回归模型。

26.一种确定个体的脑的年龄的方法，其包括：

从个体收集血液或唾液组织样品；

从所收集的血液或唾液组织样品中提取基因组DNA；

测量所述基因组DNA上的甲基化标记物的甲基化水平，其中所述标记物为表7中所列出的6个CpG甲基化标记物；和

利用统计预测算法来确定所述个体的所述脑的年龄，其中将所述统计预测算法应用于所测量的甲基化水平以确定所述个体的年龄；

其中所述统计预测算法为线性回归模型。

27.表7中所列出的6个CpG甲基化标记物在制备用于观测个体的健康的试剂盒中的用途，其中所述观测包括：

从个体收集组织样品；

从所收集的组织样品中提取基因组DNA；

测量所述基因组DNA上的甲基化标记物的甲基化水平，所述标记物为表7中所列出的6个CpG甲基化标记物；

利用统计预测算法来确定所述个体的生物学年龄，其中将所述统计预测算法应用于所测量的甲基化水平以确定所述个体的所述生物学年龄；和

比较所述个体的所述生物学年龄与所述个体的实足年龄；

其中所述统计预测算法为线性回归模型。

28.如权利要求27所述的用途，其中生物学年龄大于所述个体的所述实足年龄指示所述个体的老化加速。

29.如权利要求27所述的用途，其中从所述个体收集第一组织样品和第二组织样品并且将所述第一组织样品的生物学年龄与所述第二组织样品的生物学年龄相比较。

30.如权利要求29所述的用途，其中所述第一组织样品的生物学年龄大于所述第二组织样品的生物学年龄指示所述第一组织样品不健康。