CN114599797A

CN114599797A - 基于保守基因座的哺乳动物dna甲基化测量

Info

Publication number: CN114599797A
Application number: CN202080016297.4A
Authority: CN
Inventors: S.霍瓦思; J.恩斯特; A.C.阿内森; B.巴恩斯
Original assignee: University of California; Illumina Inc
Current assignee: University of California; Illumina Inc
Priority date: 2019-01-18
Filing date: 2020-01-20
Publication date: 2022-06-07
Also published as: SG11202107670TA; US20220090200A1; EP3911761A4; JP7320067B2; JP2022517416A; WO2020150705A1; JP2023129542A; CA3126683A1; EP3911761A1

Abstract

虽然甲基化芯片在过去十年中已广泛用于人类研究，但还没有针对非人物种的甲基化芯片，可能是由于缺乏足够的需求和/或因为物种特异性甲基化芯片可能不是跨物种比较的最佳选择。为了应对这项技术中的挑战，我们开发了一种算法，即保守甲基化阵列探针选择器(CMAPS)，其重新利用了用于容忍人类内部变异的简并基础技术来容忍跨物种突变。CMAPS执行贪心搜索(greedy search)，基于多序列比对，使用针对人类基因组中任何CpG的探针来获得最大数量的物种。然后，CMAPS对所有探针进行排序并选择最终集合，以便可以根据外显子、CpG岛和高甲基化对比低甲基化区域的外部注释来制备可以查询大量哺乳动物物种和不同基因组位置的阵列。

Description

基于保守基因座的哺乳动物DNA甲基化测量

相关申请的交叉引用

本申请根据35U.S.C.第119(e)条要求共同待决和共同转让的于2019年01月18日提交的，标题为“DNA METHYLATION MEASUREMENT FOR MAMMALS BASED ON CONSERVEDLOCI”的美国临时专利申请序列号62/794,364的权益，该申请通过引用并入本文。

政府利益声明

本发明是在国家科学基金会授予的资助号1254200的政府支持下完成的。政府对本发明享有一定的权利。

发明领域

本发明涉及用于检查哺乳动物基因组DNA甲基化的方法和材料。

背景技术

通过将甲基连接到胞嘧啶上的DNA甲基化是研究最广泛的表观遗传修饰之一，因为其在很多生物过程中调节基因表达方面具有重要意义(1,2)。在人类中，DNA甲基化水平可用于准确预测个体的年龄，以及跨组织和细胞类型的年龄(3)。

获得DNA甲基化水平的两种最广泛使用的技术是亚硫酸氢盐测序和基于微阵列的甲基化芯片。全基因组亚硫酸氢盐测序是一种昂贵的检测方法，导致减少代表性亚硫酸氢盐测序(RRBS)成为流行的测序方法。RRBS仅有效查询基因组上的少量核苷酸，但仍提供全基因组甲基化图谱。然而，即使是RRBS所需的测序深度仍然会推高成本。因此，对于人样本，含有越来越多多核苷酸探针的阵列芯片已成为最可靠和广泛使用的技术(4-6)。

第一个人甲基化芯片(ILLUMINA INFINIUM 27K)于十多年前推出。然而，没有为其他非人哺乳动物物种提供类似的芯片，这种延迟可能反映了为非人哺乳动物设计常规甲基化芯片不经济的事实。例如，由于测量平台不同，传统物种特异性甲基化芯片/阵列的开发和使用可能会阻碍跨物种比较。有鉴于此，传统的物种特异性甲基化芯片可能不是跨物种比较的最佳选择。因此，需要用于观察各种哺乳动物物种的甲基化和与甲基化相关的现象(例如，衰老)的方法和材料。

发明内容

除了作为科学研究的典型焦点(例如，人和小鼠)的哺乳动物物种的甲基化模式研究之外，还可以获得有价值的信息。然而，此类研究中的一个问题是，开发用于观察很少研究的物种(例如，裸鼹鼠和虎鲸)甲基化谱的方法和材料在技术上具有挑战性且成本高昂。在这种情况下，一个可用于研究所有哺乳动物物种的单一测量平台将提供一种解决方案，使此类努力更加高效和具有成本效益。本文公开的发明以方法和材料的形式提供该平台，其可用于观察多种哺乳动物物种中的甲基化和与甲基化相关的现象。如下所述，本发明的一个有利方面是鉴定和利用人基因组中含有DNA的CpG甲基化位点的高度保守的片段，即，促进跨物种比较的人基因组区段。

在本文公开的本发明中具有多个实施方式。本发明的一个实施方式是称为“保守甲基化阵列探针选择器”(CMAPS)的算法。该算法用于通过重新利用用于以允许多核苷酸耐受跨物种突变的方式耐受人体内变异的常规简并碱基技术来鉴定在本发明的实施方式中有用的DNA序列，如DNA甲基化阵列/芯片。在本发明的实施方式中，CMAPS算法执行全面的序列搜索，基于多序列比对，使用单个探针检测人基因组中的CpG，从而获得最大数量的物种。然后，CMAPS算法对所有序列/探针进行排序并选择最终集合，以便这些序列可用于基于外显子、CpG岛和高甲基化区域对比低甲基化区域的外部注释在不同基因组位置查询大量哺乳动物物种。

例如，可以使用CMAPS算法来促进本发明实施方式的设计，包括DNA甲基化阵列(例如，布置在诸如小珠或芯片之类的基质上的多核苷酸阵列)。本发明的一个实施方式是一种DNA甲基化阵列，其包含与基质偶联的多个多核苷酸，其中通过以下选择所述多个多核苷酸：(a)进行多核苷酸序列比对，其包括将人基因组与多个非人哺乳动物基因组进行比较，以鉴定人基因组中包含与包含CpG甲基化位点的非人哺乳动物物种基因组内的多核苷酸序列同源的CpG甲基化位点的多核苷酸序列；(b)对在(a)中鉴定的在所述人基因组中的所述多核苷酸序列进行排序，其中所述排序标准包括与非人哺乳动物物种基因组中多核苷酸序列的序列同源性；和然后使用在(b)中的所述排序来选择在所述人基因组中的多个多核苷酸，这些多核苷酸与在非人哺乳动物物种基因组中的多个多核苷酸序列交叉杂交。其他说明性的排序标准可以包括，例如，鉴定在最大数量的不同哺乳动物物种中起作用的那些含有CpG的多核苷酸序列；和/或鉴定那些在其他表观遗传生物标志物研究(例如，人类衰老研究)中已被表征为显着的包含多核苷酸序列的CpG。

通常，在本发明的这些实施方式中，选择多个人基因组多核苷酸序列以与非人哺乳动物物种基因组中的多核苷酸序列具有不超过3个碱基对的错配。任选地，排序序列比对将人基因组序列与至少10、20、30、40个或更多个非人哺乳动物物种的基因组序列进行比较，和/或包括人基因组多核苷酸序列与进化遥远物种(如非胎盘哺乳动物物种以及胎盘哺乳动物物种)中的基因组多核苷酸序列的比较。在本发明的某些实施方式中，DNA甲基化芯片包含与基质偶联的至少10,000、20,000或30,000个独特的多核苷酸。通常，多核苷酸包含约60个核苷酸(例如，40-80个核苷酸)，其与包含CpG甲基化位点的非人哺乳动物基因组的DNA区段具有至少约95％同一性(例如，其中非人哺乳动物基因组的60个核苷酸中有57个与人基因组的60个核苷酸DNA区段相同)。在本文公开的本发明的某些说明性工作实施方式中，多个多核苷酸中的至少一个多核苷酸是具有表3中所示序列的多核苷酸。

本发明的一个相关实施方式是DNA甲基化阵列，其包含与基质偶联的多个多核苷酸序列，其中多核苷酸在其末端包含CpG基序(或其互补物)。这些多核苷酸通常包含约60个核苷酸的序列，其在人基因组序列和非人哺乳动物物种的基因组序列之间表现出约95％的同源性(例如，60个核苷酸中的57个)。在本发明的某些实施方式中，所述多个多核苷酸序列中的至少2,000个多核苷酸可以与在有袋类哺乳动物物种(例如，小袋鼠物种)基因组多核苷酸序列中的60个核苷酸区段杂交，并且具有小于3个碱基对的错配；和/或所述多个多核苷酸序列中的至少2,000个多核苷酸可以与在单孔目哺乳动物物种(例如，鸭嘴兽)基因组多核苷酸序列中的60个核苷酸区段杂交，并且具有小于3个碱基对的错配；和/或所述多个多核苷酸序列中的至少2,000个多核苷酸可以与在劳亚兽总目哺乳动物物种(例如，蝙蝠物种)基因组多核苷酸序列中的60个核苷酸区段杂交，并且具有小于3个碱基对的错配；和/或所述多个多核苷酸序列中的至少2,000个多核苷酸可以与在灵长总目哺乳动物物种(例如，啮齿类物种)基因组多核苷酸序列中的60个核苷酸区段杂交，并且具有小于3个碱基对的错配；和/或所述多个多核苷酸序列中的至少2,000个多核苷酸可以与在贫齿总目哺乳动物物种(例如，犰狳物种)基因组多核苷酸序列中的60个核苷酸区段杂交，并且具有小于3个碱基对的错配；和/或所述多个多核苷酸序列中的至少2,000个多核苷酸可以与在非洲兽总目哺乳动物物种(例如，马岛猬物种)基因组多核苷酸序列中的60个核苷酸区段杂交，并且具有小于3个碱基对的错配。

本发明的另一个实施方式是制备DNA甲基化阵列的方法，包括将多个多核苷酸偶联到基质上。通常，在本发明的此类实施方式中，多个多核苷酸各自包含CpG基序(或其互补物)并且是约60个核苷酸的多核苷酸序列，其在人基因组序列和非人哺乳动物物种之间表现出约95％的同源性(例如，60个核苷酸中的57个)。在本发明的典型实施方式中，DNA甲基化阵列被设计成包含至少2,000个独特的多核苷酸序列，这些序列与非胎盘哺乳动物物种以及胎盘哺乳动物物种的基因组多核苷酸序列中的60个核苷酸片段杂交，并且具有小于3个碱基对的错配。通常，通过以下选择用于制备DNA甲基化阵列的多个多核苷酸：(i)进行多核苷酸序列比对，其包括将人基因组与多个非人哺乳动物基因组进行比较，以鉴定人基因组中包含与包含CpG甲基化位点的非人哺乳动物物种基因组内的多核苷酸序列同源的CpG甲基化位点的多核苷酸序列；(ii)对在(a)中鉴定的在所述人基因组中的所述多核苷酸序列进行排序，其中所述排序标准包括与非人哺乳动物物种基因组中多核苷酸序列的序列同源性；和然后(iii)使用在(b)中的所述排序来选择具有CpG甲基化位点的多个多核苷酸，这些多核苷酸与在非人哺乳动物物种基因组中具有不超过2、3或4个碱基对错配的CpG甲基化位点的多个多核苷酸序列交叉杂交，以使得制备DNA甲基化阵列。

本发明的又一个实施方式是一种观察非人哺乳动物甲基化谱的方法，其包括从所述非人哺乳动物获得基因组DNA；且然后使用本文所述的DNA甲基化阵列观察在所述基因组DNA中多个CG基因座的胞嘧啶甲基化；以观察到所述非人哺乳动物的甲基化谱。任选地，该方法包括将观察到的CG基因座甲基化图谱与在源自具有已知年龄的非人哺乳动物物种中的个体基因组DNA中观察到的CG基因座甲基化图谱进行比较；然后将观察到的C基因座甲基化与非人哺乳动物物种的已知年龄相关联，从而获得有助于确定非人类哺乳动物年龄的信息。在本发明的典型实施方式中，将DNA甲基化阵列用于观察多种非人哺乳动物物种的甲基化谱。重要的是，本发明的实施方式还允许技术人员评估影响一个物种(例如，小鼠)的DNA甲基化水平的干预(例如，暴露于待测药剂)是否也影响另一物种(例如，人)的相应DNA甲基化水平。此外，保守序列进一步允许本领域技术人员基于高度保守的CpG开发不同哺乳动物物种的表观遗传年龄估计器(表观遗传时钟)。

如下所述，本文公开的本发明的工作实施方式被称为“HorvathMammalMethylChip40”，并且是布置在芯片上的DNA甲基化阵列，该芯片包含偶联至基质的大约38k个独特的人基因组多核苷酸作为互补序列的探针。其中，36,000个多核苷酸探针查询哺乳动物基因组保守区域中的CpG位点，使得本发明的这个实施方式可用于所有哺乳动物物种的研究。在本发明的该实施方式中，其余2,000种探针之所以被选中，是因为其在人类表观遗传生物标志物研究中被特别关注。如下表2中的数据所示，所得DNA甲基化芯片适用于所有哺乳动物，因此通过规模经济降低了每个芯片的成本。此外，该芯片实施方式是为跨物种比较量身定制的。

本发明的其他目的、特征和优点对本领域技术人员从以下详细描述中将变得显而易见。然而，应当理解，详细描述和具体实例虽然指示了本发明的一些实施方式，但是通过以说明而非限制的方式给出。在不脱离本发明的精神的情况下，可以在本发明的范围内做出许多变化和修改，并且本发明包括所有这些修改。

附图说明

图1：图1提供的图形数据显示了通过CMAPS算法鉴定的CpG位点，由于包含Infinium I探针，因而靶向密集CpG岛。所选CpG(蓝色)的表示类似于人基因组中所有CpG(红色)的表示。

图2：图2提供的图形数据显示了通过CMAPS算法鉴定的CpG位点，其靶向高甲基化和低甲基化CpG位点。所选探针(红色)的甲基化直方图与人基因组中所有位点(蓝色)的甲基化直方图相似。

图3：图3提供的图形数据显示了基于来自人甲基化数据的404个高度保守的CpG的表观遗传衰老时钟。左图：训练数据集中404个表观遗传时钟CpG对比实足年龄的加权平均值。红色曲线的变化率可以解释为滴答率。点被着色并由数据集标记，如在Horvath,S.DNAmethylation age of human tissues and cell types.Genome Biol.14,R115,2013(Horvath 2013”)中所描述的。右图：测试数据集的类似结果。只有测试数据适合独立验证。

具体实施方式

在实施方式的描述中，可以参考形成其一部分的附图，并且其中通过说明的方式示出了可以在其中实践本发明的特定实施方式。应当理解，可以利用其他实施方式，并且可以在不脱离本发明的范围的情况下进行结构改变。在此描述或引用的许多技术和程序是本领域技术人员很好理解和普遍采用的。除非另有定义，本文使用的所有技术术语、符号和其他科学术语或术语旨在具有本发明所属领域的技术人员通常理解的含义。在一些情况下，为了清楚起见和/或便于参考，本文定义具有普遍理解的含义的术语，并且本文中包含的此类定义不应被解释为代表与本领域通常理解的内容的实质性差异。

本文提及的所有出版物通过引用并入本文以公开和描述与引用的出版物相关的方面、方法和/或材料。例如，美国专利公开号20150259742，美国专利申请号15/025,185，标题为“METHOD TO ESTIMATE THE AGE OF TISSUES AND CELL TYPES BASED ON EPIGENETICMARKERS”，由Stefan Horvath提交；美国专利申请号14/119,145，标题为“METHOD TOESTIMATE AGE OF INDIVIDUAL BASED ON EPIGENETIC MARKERS IN BIOLOGICAL SAMPLE”，由Eric Villain等提交；以及Hannum等，“Genome-Wide Methylation Profiles RevealQuantitative Views Of Human Aging Rates.”Molecular Cell.2013；49(2):359-367和专利US2015/0259742，其全部内容通过引用并入本文。

如上所述，本文公开的本发明的实施方式包括用于鉴定高度保守的甲基化探针(CMAPS)的算法，该探针可用于观察跨越多种哺乳动物物种的基因组甲基化模式。包括每个探针序列内的特定核苷酸的多核苷酸探针序列信息被设计为可容忍特定变化。通过CMAPS算法鉴定的多核苷酸探针允许人们使用多核苷酸阵列(如ILLUMINA销售的阵列)测量短片段DNA中的胞嘧啶甲基化水平，这些DNA片段在哺乳动物中高度保守。本文公开内容的本发明的实施方式包括基因芯片，其包含使用CMAPS算法鉴定的多个人基因组序列。

如下所述，本文公开内容的本发明的说明性工作实施方式是包含一组35,988个多核苷酸探针的基因芯片，其允许人们评估基本上所有哺乳动物物种中的胞嘧啶DNA甲基化水平。CMAPS算法是这种定制ILLUMINA Infinium芯片(HorvathMammalMethylChip40)设计的基础，该芯片包含这些大约38k多核苷酸探针。其中，36,000个探针查询人类基因组保守区域的CpG位点，使该芯片适用于所有哺乳动物物种。其余2,000个探针之所以被选中，是因为其在人类表观遗传生物标志物研究中是特别关注的。这种DNA甲基化芯片可用于观察所有哺乳动物物种的甲基化图谱，因此是为跨物种比较量身定制的。

本发明的实施方式包括，例如，制备包含多个与基质(如小珠或芯片)偶联的多核苷酸的DNA甲基化阵列的方法。通常，在这些方法中，通过包括以下的方法选择多个多核苷酸：进行多核苷酸序列比对，其包括将人基因组与多个非人哺乳动物基因组进行比较，以鉴定人基因组中包含与包含CpG甲基化位点的非人哺乳动物物种基因组内的多核苷酸序列同源的CpG甲基化位点的多核苷酸序列；对多核苷酸序列比对中鉴定的人类基因组中的多核苷酸序列进行排序，其中所述排序标准包括与非人哺乳动物物种基因组中的多核苷酸序列的序列同源性；和使用该排序选择人基因组中的多个多核苷酸，这些多核苷酸与非人哺乳动物物种的基因组中的多个多核苷酸序列交叉杂交；和然后将选择的序列与基质偶联，以形成DNA甲基化阵列。在本发明的典型实施方式中，DNA甲基化阵列包含与基质偶联的至少30,000个独特的多核苷酸。

在用于制备DNA甲基化阵列的方法的某些实施方式中，选择多个人基因组多核苷酸序列以与非人哺乳动物物种的基因组中的多核苷酸序列具有不超过3个碱基对的错配。通常，多个多核苷酸的长度在40-80个核苷酸之间。在本发明的一些实施方式中，所述多核苷酸序列排序包括与非胎盘哺乳动物物种中，以及在劳亚兽总目(Laurasiatheria)、灵长总目(Euarchontoglires)、贫齿总目(Xenarthra)和非洲兽总目(Afrotheria)超序群中的胎盘哺乳动物物种中基因组多核苷酸序列的同源性比较的步骤。任选地，序列比对将人基因组序列与至少10个非人哺乳动物物种的基因组序列进行比较。

在一种制备DNA甲基化阵列的另一个说明性实施方式中，所述阵列包含与基质偶联的多个多核苷酸，所述多个多核苷酸包含CpG基序，并包含至少2,000个独特的多核苷酸序列，其与在有袋类(marsupial)哺乳动物物种、单孔目(monotreme)哺乳动物物种、劳亚兽总目哺乳动物物种、灵长总目哺乳动物物种、贫齿总目哺乳动物物种和非洲兽总目哺乳动物物种基因组多核苷酸序列中的60个核苷酸区段杂交，并具有小于3个碱基对错配。通常，通过以下选择多核苷酸序列：进行多核苷酸序列比对，其包括将人基因组与多个非人哺乳动物基因组进行比较，以鉴定人基因组中包含与包含CpG甲基化位点的非人哺乳动物物种基因组内的多核苷酸序列同源的CpG甲基化位点的多核苷酸序列；对在(a)中鉴定的在所述人基因组中的所述多核苷酸序列进行排序，其中所述排序标准包括与非人哺乳动物物种基因组中多核苷酸序列的序列同源性程度；使用排序来选择具有CpG甲基化位点的多个多核苷酸，这些多核苷酸与在非人哺乳动物物种基因组中具有不超过3个碱基对错配的CpG甲基化位点的多个多核苷酸序列交叉杂交；并且然后将来自步骤(b)的选择的序列与基质偶联，以形成DNA甲基化阵列，以制备DNA甲基化阵列。

本发明的实施方式包括通过本文公开的方法制备DNA甲基化阵列。在本发明的某些实施方式中，多个多核苷酸中的至少1、10、100个或更多个多核苷酸是具有表3中所示序列的多核苷酸。例如，本发明的实施方式包括DNA甲基化阵列，所述阵列包含与基质偶联的多个多核苷酸，其中所述多核苷酸在其末端包含至少60个核苷酸和CpG基序；所述多核苷酸包含在人基因组中存在的多核苷酸序列；和所述多个多核苷酸序列中的至少2,000个多核苷酸可以与在有袋类哺乳动物物种基因组多核苷酸序列中的60个核苷酸区段杂交，并且具有小于3个碱基对的错配；所述多个多核苷酸序列中的至少2,000个多核苷酸可以与在单孔目哺乳动物物种基因组多核苷酸序列中的60个核苷酸区段杂交，并且具有小于3个碱基对的错配；所述多个多核苷酸序列中的至少2,000个多核苷酸可以与在劳亚兽总目哺乳动物物种基因组多核苷酸序列中的60个核苷酸区段杂交，并且具有小于3个碱基对的错配；所述多个多核苷酸序列中的至少2,000个多核苷酸可以与在灵长总目哺乳动物物种基因组多核苷酸序列中的60个核苷酸区段杂交，并且具有小于3个碱基对的错配；所述多个多核苷酸序列中的至少2,000个多核苷酸可以与在贫齿总目哺乳动物物种基因组多核苷酸序列中的60个核苷酸区段杂交，并且具有小于3个碱基对的错配；和所述多个多核苷酸序列中的至少2,000个多核苷酸可以与在非洲兽总目哺乳动物物种基因组多核苷酸序列中的60个核苷酸区段杂交，并且具有小于3个碱基对的错配。在某些实施方式中，所述有袋类哺乳动物物种是袋鼠(Platypus)物种；和/或所述单孔目哺乳动物物种是鸭嘴兽(Platypus)物种；和/或所述劳亚兽总目哺乳动物物种是蝙蝠物种；和/或所述灵长总目哺乳动物物种是啮齿类物种；和/或所述贫齿总目哺乳动物物种是犰狳(armadillo物种；和/或所述非洲兽总目哺乳动物物种是马岛猬(tenrec)物种。

本发明的另一个实施方式是一种观察非人哺乳动物甲基化谱的方法，其包括从所述非人哺乳动物获得基因组DNA；使用本文所述的DNA甲基化阵列观察在所述基因组DNA中多个CG基因座的胞嘧啶甲基化；以观察到所述非人哺乳动物的甲基化谱。任选地，这些方法还包括将在该方法中观察到的CG基因座甲基化与在来自具有已知年龄的非人哺乳动物物种中的个体的基因组DNA中观察到的CG基因座甲基化进行比较；并且然后将(b)中观察到的CG基因座甲基化与非人哺乳动物物种的已知年龄相关联；以便获得有助于确定非人哺乳动物年龄的信息。通常，在这些实施方式中，通过包括用亚硫酸氢盐处理来自哺乳动物细胞群的基因组DNA以将基因组DNA中CpG二核苷酸的未甲基化胞嘧啶转化为尿嘧啶的过程观察甲基化；DNA甲基化阵列用于观察多个非人哺乳动物物种的甲基化谱；和/或通过聚合酶链反应过程扩增基因组DNA。

本发明的又一个实施方式是观察待测试剂(分子量小于3,000、2,000、1,000或500g/mol的化合物，例如雷帕霉素)对哺乳动物细胞(例如，人原代角质形成细胞)的基因组甲基化相关表观遗传衰老的影响的方法。通常这些方法包括将待测药剂与哺乳动物细胞结合；使用本文公开的DNA甲基化阵列观察在来自所述哺乳动物细胞的基因组DNA中的甲基化标志物状态；和然后将这些观察结果与未暴露于待测药剂的对照哺乳动物细胞的基因组DNA甲基化状态的观察结果进行比较，从而观察到待测药剂对哺乳动物细胞中基因组甲基化相关表观遗传衰老的影响(例如，待测药剂是否减少或增加与表观遗传衰老相关的基因组甲基化模式)。任选地，在这些方法中，将多种待测药剂与哺乳动物细胞结合。在这些方法的某些实施方式中，将多核苷酸与基质偶联，通过包括用亚硫酸氢盐处理来自哺乳动物细胞群的基因组DNA以将基因组DNA中CpG二核苷酸的未甲基化胞嘧啶转化为尿嘧啶的方法观察甲基化；和/或通过聚合酶链反应过程扩增基因组DNA。

本发明的其他方面和实施方式在以下部分中讨论。

本发明进一步说明性的方面和实施方式

DNA甲基化是指DNA分子的化学修饰。已经发现诸如ILLUMINA Infinium微阵列或基于DNA测序的方法等技术平台可以对人DNA甲基化水平进行高度奶油和可重复的测量。人类基因组中有超过2800万个CpG位点。因此，某些基因座被赋予唯一标识符，如在ILLUMINACpG基因座数据库中编目并在表3中使用的那些(参见，例如，Technical Note:Epigenetics,CpG Loci Identification ILLUMINA Inc.2010)。本文使用了某些说明性的CG基因座名称标识符和序列。此类序列可以使用一个或多个该技术的技术人员容易获得的基因组数据库来进一步表征，如UCSC基因组浏览器，这是一个由加州大学圣克鲁斯分校(UCSC)托管的在线和可下载的基因组浏览器。

如本文所用，术语“表观遗传”是指有关、存在或涉及DNA分子的化学修饰。表观遗传因素包括甲基的添加或去除，其导致DNA甲基化水平的变化。

如本文所用，术语“多核苷酸”可包括嘧啶和嘌呤碱基的任何聚合物或寡聚物，优选分别为胞嘧啶、胸腺嘧啶和尿嘧啶，以及腺嘌呤和鸟嘌呤。本发明考虑任何脱氧核糖核苷酸、核糖核苷酸或肽核酸组分，及其任何化学变体，如这些碱基的甲基化、羟甲基化或糖基化形式等。聚合物或低聚物在组成上可以是异质的或均质的，并且可以从天然存在的来源中分离或可以人工或合成生产。此外，核酸可以是DNA或RNA，或其混合物，并且可以以单链或双链形式永久或暂时存在，包括同源双链、异源双链和杂交状态。

如本文所用，术语“甲基化标志物”是指潜在甲基化的CpG位置。甲基化通常发生在含有CpG的核酸中。含有CpG的核酸可以存在于例如基因的CpG岛、CpG双联体、启动子、内含子或外显子中。例如，在本文提供的遗传区域中，潜在的甲基化位点包括指定基因的启动子/增强子区域。因此，这些区域可以从基因启动子的上游开始并向下游延伸到转录区域。

如本文所用的短语“选择性测量”是指其中仅测量有限数量的甲基化标志物或基因(包括甲基化标志物)而不是测定基因组中基本上所有潜在的甲基化标志物(或基因)的方法。例如，在一些方面中，“选择性测量”甲基化标志物或包含此类标志物的基因可以指测量不少于(或不多于)100、75、50、25、10或5种不同的甲基化标志物或包含甲基化标志物的基因。

可以使用各种方法测量甲基化标志物(或接近其的标志物)的DNA甲基化，这些方法的范围从商业阵列平台(例如，来自ILLUMINA)到单个基因的测序方法。这包括标准实验室技术或阵列平台。例如，在以下中描述了多种用于检测甲基化状态或模式的方法：美国专利号6,214,556、5,786,146、6,017,704、6,265,171、6,200,756、6,251,594、5,912,147、6,331,393、6,605,432和6,300,071和美国专利申请公开号20030148327、20030148326、20030143606、20030082609和20050009059，其每一个通过引用并入本文。在美国专利申请系列号11/058,566中公开了其他基于阵列的甲基化分析方法。一些甲基化检测方法的综述，参见，Oakeley,E.J.,Pharmacology&Therapeutics84:389-400(1999)。可用的方法包括但不限于：反相HPLC、薄层色谱、掺入标记甲基的SssI甲基转移酶、氯乙醛反应、差异敏感性限制酶、肼或高锰酸盐处理(m5C被高锰酸盐处理切割，但不被肼处理切割)、亚硫酸氢钠、联合硫酸氢盐限制分析和甲基化敏感性单核苷酸引物延伸。ILLUMINA方法利用CpG基因座侧翼的序列生成唯一的CpG基因座簇ID，其策略与dbSNP中NCBI的refSNP ID(rs#)相似(参见，例如，Technical Note:Epigenetics,CpG Loci Identification ILLUMINA Inc.2010)。

测定本文公开的DNA甲基化标记子集的甲基化水平(例如，使用ILLUMINA DNA甲基化阵列或使用涉及相关引物的PCR方案)。为了量化甲基化水平，可以按照ILLUMINA描述的标准方案来计算甲基化的β值，其等于该位置甲基化胞嘧啶的分数。本发明还可以应用于任何其他方法来量化本文公开的基因附近位置处的DNA甲基化。DNA甲基化可以使用许多当前可用的测定进行量化。

在本发明的某些实施方式中，基因组DNA与同基质(例如，置于微阵列内的基质)偶联的互补序列(例如，合成的多核苷酸序列)杂交。任选地，基因组DNA通过聚合酶链反应过程的扩增从其自然状态转化。例如，在与阵列杂交之前或同时，样品可以通过多种机制进行扩增，其中一些机制可以使用PCR。参见，例如，PCR Technology:Principles andApplications for DNA Amplification(H.A.Erlich编著，Freeman Press,NY,N.Y.,1992)；PCR Protocols:A Guide to Methods and Applications(Innis等编著，AcademicPress,San Diego,Calif.,1990)；Mattila等，Nucleic Acids Res.19,4967(1991)；Eckert等，PCR Methods and Applications 1,17(1991)；PCR(McPherson等编著，IRL Press,Oxford)；以及美国专利号4,683,202、4,683,195、4,800,159、4,965,188和5,333,675。该样品可以在阵列上扩增。参见，例如，美国专利号6,300,070，其通过引用并入本文。

本发明的实施方式可以包括多种本领域公认的技术过程。例如，在本发明的某些实施方式中，进行亚硫酸氢盐转化过程，使基因组DNA中的胞嘧啶残基转化为尿嘧啶，而基因组DNA中的5-甲基胞嘧啶残基不转化为尿嘧啶。用于DNA亚硫酸氢盐修饰的试剂盒可从例如MethylEasyTM(Human Genetic SignaturesTM)和CpGenomeTM Modification Kit(ChemiconTM)商购获得。亦参见，WO04096825A1，其描述了亚硫酸氢盐改性方法，和Olek等，Nuc.Acids Res.24:5064-6(1994)，其中公开了进行亚硫酸氢盐处理和随后扩增的方法。亚硫酸氢盐处理允许通过多种方法检测胞嘧啶的甲基化状态。例如，可以使用可以用于检测SNP的任何方法，例如，参见Syvanen,Nature Rev.Gen.2:930-942(2001)。可以使用诸如单碱基延伸(SBE)的方法或类似于等位基因特异性杂交方法的序列特异性探针的杂交。在另一个方面中，可以使用分子倒置探针(MIP)测定。

很多技术可用于测量单个物种的DNA甲基化水平。为了测量人DNA中的甲基化，可以使用人ILLUMINA Infinium阵列来测量人DNA样本中的DNA甲基化水平。最近的文章(Needhamsen等，BMC Bioinformatics,BMC series–2017,18:486)显示，可以使用EPIC芯片在小鼠中进行甲基化测量，但EPIC芯片上的850K探针中只有约19K可用于小鼠。与人类距离更远的物种在EPIC芯片上的有用探针可能更少，这表明需要一个可用于非人哺乳动物的平台。

用于测量DNA甲基化的芯片/阵列的替代方案是亚硫酸氢盐测序(参见，例如，Meissner等，Nucleic Acids Research,第33卷，第18期，2005年1月1日，第5868–5877页)，其适用于所有哺乳动物物种，但在数量上并不可靠。阵列技术对于开发高度耐用的衰老和发育表观遗传生物标志物特别有价值。本发明提供了一种用于选择探针的算法和该算法的结果，用于鉴定可用于适用于所有哺乳动物的甲基化阵列/芯片的(非天然)核苷酸序列。我们已经证明高度保守的序列有助于构建高度准确的表观遗传衰老时钟(参见，例如，美国专利申请号15/025,185，标题为“METHOD TO ESTIMATE THE AGE OF TISSUES AND CELLTYPES BASED ON EPIGENETIC MARKERS”)。

第一个人甲基化芯片(ILLUMINA INFINIUM 27K)于十多年前推出。然而，没有为其他非人哺乳动物物种提供类似的芯片。这种延迟可能反映了为非人哺乳动物设计甲基化芯片不经济的事实。即使成本没有障碍，物种特异性阵列的发展也可能阻碍跨物种比较，因为测量平台会有所不同。如上所述，为了应对这些挑战，我们开发了一种算法，即保守甲基化阵列探针选择器(CMAPS)，其重新利用了用于容忍人类内部变异的简并基础技术来容忍跨物种突变。CMAPS执行贪心搜索，基于多序列比对，使用针对人类基因组中任何CpG的探针来获得最大数量的物种。CMAPS用于设计近36,000个探针，查询人类基因组保守区域中的CpG位点，使该芯片直接适用于哺乳动物物种，从而便于跨物种比较。为了获得大量物种的大量探针，CMAPS对所有探针进行排序并选择最终集合，这样每个Infinium阵列都可以基于外显子、CpG岛和高甲基化区域对比低甲基化区域的外部注释查询大量哺乳动物物种和不同的基因组位置。为了提高芯片在人体研究中的实用性，我们还添加了大约2,000个在对人体生物标志物研究中特别关注的探针。在下文中，我们描述了CMAPS算法和所得芯片(HorvathMammalMethylChip40)的特性。

ILLUMINA Infinium探针

目前，ILLUMINA生产的甲基化阵列可以包含两种类型的探针：Infinium1和Infinium 2，后者是较新的技术，只需要一个小珠来查询CG，而前者需要两个小珠。

对于哺乳动物甲基化40芯片的设计和开发，我们利用了所有人类CG位点的列表，可以使用这些探针中的一个或两个进行询问。两种探针中的每一种都有两种变体，这取决于探针是在正向还是反向基因组链上设计的。探针允许多达3个简并碱基，可以容忍被询问序列的变化。容忍的简并碱基数是ILLUMINA计算的探针设计评分的函数，在Infinium 2探针的情况下是基础CpG的数量(表1)。

为了能够查询某个CpG位点，必须在包含CpG位点上游或下游的60个碱基对的阵列上合成寡核苷酸探针。简并碱基技术允许探针询问CpG位点，即使个体碰巧在邻近区域具有导致与合成探针错配的变体(方法)。我们开发了CMAPS算法，该算法重新利用该技术为每个人探针设计简并碱基，以便探针现在可以耐受突变并与来自其他物种的DNA杂交。CMAPS算法被应用于99个其他物种与人基因组的100向比对，并提供了在底层阵列技术指定的规则内挑选突变的能力，在这种特殊情况其下是Infinium技术。然而，该算法可以将与任何参考基因组的任何多序列比对以及一组设计考虑因素作为输入，并在这些规则内提供保守的探针和简并碱基选择。

确定60,000个探针的初始集合

对于人基因组中的每个CG位点，我们根据上述算法从覆盖最多物种的选项中选择了Infinium 1探针，Infinium 2也类似。我们首先包含了所有针对mm10小鼠基因组的Infinium 2探针，因此该芯片保证对使用最广泛的模式生物之一有用。然后，我们按照Infinium 2探针覆盖的物种数量的降序对CpG位点进行排序，并添加所有由于靶向mm10而尚未选择的探针，总共多达53,000个探针。然后，我们使用CMAPS算法挑选的简并碱基，按照其可以靶向的物种数量的降序对ILLUMINA EPIC阵列上的探针进行排序，并选择了另外3,000个尚未根据早期标准挑选的探针。最后，我们按照其可以靶向的物种数量的降序对CpG位点进行排序，并挑选了前4,000个Infinium 1探针，这些探针靶向尚未包括在内的CpG位点。选择Infinium 1探针是为了让我们能够查询更多CG密集区域，因为Infinium 1探针的基础CpG计数不计入允许的SNV数量。这给了我们总共60,000个探针。

基于可映射性过滤探针

由于阵列上的探针只有60个碱基对长，其存在映射到基因组中多个位置的风险，这会导致来自多个CpG位点的混淆信号。由于我们的每个探针最多可以有2^(简并碱基的个数)的变体，这个问题会变得更加复杂。对于16个质量基因组，我们为每个探针计算了在该基因组中唯一映射的变异数。然后我们通过要求探针的所有变体必须在其设计目标的至少80％的物种中唯一映射，或者探针必须针对至少40个物种来过滤探针。这将工作探针集减少到最终的35,988个探针集。

定制芯片的性质

HorvathMammalMethylChip40分析了少于40k的探针(因此以“40”结尾)。

根据其在人类生物标志物研究中的实用性，从38k探针中选择了2000个。这些CpG之前在人类ILLUMINA Infinium阵列(EPIC、450K、27K)中执行，因为其与估计年龄、血细胞计数或脑组织中的神经元比例相关。

选择剩余的35,988个探针来评估各种进化上不同的哺乳动物物种中的胞嘧啶DNA甲基化水平。为此，采用CMAPS算法来鉴定50种哺乳动物物种中高度保守的CpG：33,493个Infinium II探针和2,496个Infinium I探针。并非阵列上的所有探针都预期适用于所有物种，而是每个探针都设计为覆盖特定的物种子集，从而总体上所有物种都具有大量探针。芯片清单文件中提供了每个探针的特定物种子集。在观察到的50种哺乳动物中，其中46种的阵列上有超过10,000个探针，36种有超过20,000个探针(表2)。

染色体背景

这些探针靶向的CpG位点代表基因组的不同区域。在人类中，40％的CpG位点落在外显子区域内，正如外显子中已知的强保守信号所预期的那样。由于我们选择包含Infinium I探针(图1)，所选的CpG位点集针对密集的CpG岛，并且可以针对高甲基化和低甲基化CpG位点(图2)。

基于人高度保守的CpG的表观遗传时钟

在ILLUMINA 27阵列上使用404个高度保守的CpG，我们使用以前用于开发泛组织表观遗传时钟的相同数据(参见Horvath,S.DNA methylation age of human tissues andcell types,Genome Biol.14,R115(2013))开发了一种新的表观遗传时钟。

为了确保测试数据的无偏验证，我们仅使用训练数据来定义年龄预测器。如在Horvath 2013中详细描述的，使用惩罚回归模型(弹性网)在CpG上回归实际年龄的转换版本。弹性网络回归模型自动选择协变量CpG。这些高度保守的CpG将被称为(表观遗传)时钟CpG，因为其加权平均值(由回归系数形成)相当于一个表观遗传时钟。尽管时钟仅基于404个CpG，但由此产生的表观遗传年龄估计器在广泛的组织和细胞类型中表现出色(图3)。

从图3可以看出，404个高度保守的表观遗传时钟CpG(由回归系数产生)的线性组合在整个生命过程(从摇篮到坟墓)中变化很大。红色校正曲线显示了成年期之前的对数依赖性，在以后的生活中会减慢为线性依赖性。(这条红色曲线的)变化率可以解释为表观遗传时钟的滴答速率。与Horvath2013的原始泛组织时钟类似，我们发现生物体生长会导致高滴答率，成年后会减慢至恒定滴答率(线性依赖性)。

讨论

CMAPS算法促进了适用于所有哺乳动物的新型哺乳动物甲基化阵列的设计。哺乳动物阵列是为跨哺乳动物的跨物种比较和开发适用于多个物种的生物标志物而定制的。我们的研究表明，由CMAPS算法产生的相对较少的高度保守的CpG(大约400个)已经有助于构建高度准确的表观遗传年龄估计器(保守的表观遗传时钟)。

总体而言，我们预计哺乳动物芯片特别适用于哺乳动物中基于DNA甲基化的生物标志物研究。例如，本发明允许人们评估影响一个物种(例如，小鼠)的DNA甲基化水平的特定干预(例如，治疗剂和/或方案)是否也影响另一物种(例如，人)的相应DNA甲基化水平。

方法

保守甲基化阵列探针选择器(CMAPS)

CMAPS算法应用于99种脊椎动物与从UCSC基因组浏览器下载的hg19人类基因组的Multiz比对(7)。出于该芯片的目的，仅考虑了此比对中的哺乳动物物种。ILLUMINA提供了人基因组中每个CpG和每个位置上每种可能类型的探针的设计评分，并作为CMAPS的输入。对于人类基因组中的每个CG位点，我们计算了人类4种不同可能的探针设计中每一种可以靶向的最大物种数，考虑到最大数量的耐受突变的每个可能位置。对于每个探针选项，我们尝试了放置最大数量的潜在变体的所有可能性，并贪心地选择了在特定位置覆盖最多物种的变体。更具体地说，选择探针覆盖的物种数量的算法在下面的伪代码中解释：

函数get_max_物种通过挑选该位置比对中大多数物种包含的任何核苷酸，对特定SNV处的核苷酸进行贪心选择。

在下面的伪代码中，SNV_集合在给定设计评分和探针类型约束的情况下迭代特定探针中所有可能的SNV位置。

由于get_max_物种函数做出了贪心的选择，这可能不是探针真正的最大物种子集，但这种方法在计算上相对便宜，并且针对我们的目的产生了令人满意的物种覆盖率。

补充数据：补充的哺乳动物芯片36K探针

以下解释描述了这些变量。

正向_序列：在正向链上的序列

基因组_构件：人基因组构件

染色体：人染色体CG位点位于

坐标：在CG位点中“C”的人基因组坐标(基于1)

TB_链_OrigP：TOP/BOTTOM链

顶部_序列：在TOP链上的序列

甲基化_探针_序列：与为Infinium 2选择的序列相差1的甲基化探针序列

等位基因_Fr_链：正向/反向链

等位基因_TB_链：TOP/BOT链

等位基因_CO_链：转化/反向链

潜在_CpG_计数：针对每个位点的潜在CpG计数

非甲基化_探针_序列：与为Infinium 2选择的序列相差1的非甲基化探针序列

数量_物种：预计可用于哺乳动物物种的探针数量

物种：预计探针工作的物种的逗号分隔的基因组组装名称

探针_起始_坐标：基于1的hg19正向链中的探针起始坐标

探针_结束_坐标：基于1的hg19正向链中的探针结束坐标

参考_探针_序列：在基于1的hg19中的探针正向链参考序列

SNV_位置：基于1的hg19逗号分隔的碱基坐标，其中SNV是为SNV_原始设计的：hg19逗号分隔的针对每个SNV的参考核苷酸；与SNV_位置中坐标排序的1-1对应

SNV_改变：逗号分隔的针对每个SNV的备用设计核苷酸；1-1对应SNV位置坐标和SNV_原始参考核苷酸的排序

Infinium_类型：Inf1/Inf2 Infinium探针类型

Is_EPIC_位点：0/1二进制变量，指示EPIC阵列上的探针是否也查询CG位点

Is_EPIC_设计：0/1二进制变量，指示在EPIC阵列上查询该位点的探针是否为相同的Infinium类型(1/2)和相同的链(正向/反向和转换/相反)；如果Is_EPIC_位点为0，则始终为0

Nvariants：基于SNV的探针变体数量有效2^(#SNV)用于可映射性分析

表

表1：作为类型和设计评分的函数，探针耐受的潜在CpG和/或SNV的数量。表由ILLUMINA Inc.提供

表2：CMAPS算法发现的35,988个探针中的说明性基因组/物种和适用探针的数量

表3：列出了用于查询高度保守的CpG的探针的说明性多核苷酸序列

描述在本发明的方面中有用的方法和材料的参考文献

引用的参考文献

1.Bernstein,B.E.,Meissner,A.&Lander,E.S.The Mammalian Epigenome.Cell128,669–681(2007).

2.Smith,Z.D.&Meissner,A.DNA methylation:roles in mammaliandevelopment.Nature Reviews Genetics 14,204–220(2013).

3.Horvath,S.DNA methylation age of human tissues and celltypes.Genome Biol.14,R115(2013).

4.Genome-wide DNA methylation profiling using

assay|Epigenomics.Available at:https://www.futuremedicine.com/doi/abs/10.2217/epi.09.14.(Accessed:28th August 2018)

5.Evaluation of the Infinium Methylation 450K technology.-PubMed-NCBI.Available at:https://www.ncbi.nlm.nih.gov/pubmed/22126295.(Accessed:28thAugust 2018)

6.Pidsley,R.et al.Critical evaluation of the ILLUMINA MethylationEPICBeadChip microarray for whole-genome DNA methylation profiling.Genome Biology17,208(2016).

7.Rosenbloom,K.R.et al.The UCSC Genome Browser database:2015update.Nucleic Acids Res.43,D670-681(2015).

描述在本发明的方面中有用的方法和材料的附加出版物

1.Horvath S:DNA methylation age of human tissues and celltypes.Genome Biol 2013,14:R115.

2.Hannum G,Guinney J,Zhao L,Zhang L,Hughes G,Sadda S,Klotzle B,Bibikova M,Fan JB,Gao Y,et al:Genome-wide methylation profiles revealquantitative views of human aging rates.Mol Cell 2013,49:359-367.

3.Bocklandt S,Lin W,Sehl ME,Sanchez FJ,Sinsheimer JS,Horvath S,VilainE:Epigenetic predictor of age.PLoS One 2011,6:e14821.

4.Levine ME,Lu AT,Quach A,Chen BH,Assimes TL,Bandinelli S,Hou L,Baccarelli AA,Stewart JD,Li Y,et al:An epigenetic biomarker of aging forlifespan and healthspan.Aging(Albany NY)2018.

5.Zhang Y,Wilson R,Heiss J,Breitling LP,Saum KU,Schottker B,HolleczekB,Waldenberger M,Peters A,Brenner H:DNA methylation signatures in peripheralblood strongly predict all-cause mortality.Nat Commun 2017,8:14617.

6.Bocklandt S,Lin W,Sehl ME,Sanchez FJ,Sinsheimer JS,Horvath S,VilainE:Epigenetic predictor of age.PLoS One 2011,6.

7.Weidner CI:Aging of blood can be tracked by DNA methylation changesat just three CpG sites.Genome Biol 2014,15.

8.Hannum G:Genome-wide methylation profiles reveal quantitative viewsof human aging rates.Mol Cell 2013,49.

9.Lin Q,Weidner CI,Costa IG,Marioni RE,Ferreira MRP,Deary IJ:DNAmethylation levels at individual age-associated CpG sites can be indicativefor life expectancy.Aging 2016,8:394-401.

10.Marioni R,Shah S,McRae A,Chen B,Colicino E,Harris S,Gibson J,Henders A,Redmond P,Cox S,et al:DNA methylation age of blood predicts all-cause mortality in later life.Genome Biol 2015,16:25.

11.Christiansen L,Lenart A,Tan Q,Vaupel JW,Aviv A,McGue M,ChristensenK:DNA methylation age is associated with mortality in a longitudinal Danishtwin study.Aging Cell 2015.

12.Perna L,Zhang Y,Mons U,Holleczek B,Saum K-U,Brenner H:Epigeneticage acceleration predicts cancer,cardiovascular,and all-cause mortality in aGerman case cohort.Clinical Epigenetics 2016,8:1-7.

13.Horvath S,Pirazzini C,Bacalini MG,Gentilini D,Blasio AM,DelledonneM,Mari D,Arosio B,Monti D,Passarino G:Decreased epigenetic age of PBMCs fromItalian semi-supercentenarians and their offspring.Aging(Albany NY)2015,7.

结论

以上是对本发明优选实施方式的描述。本发明的一个或多个实施方式的前述描述是出于说明和描述的目的而呈现的。并不意在穷举或将本发明限制为所公开的精确形式。根据上述教导，很多修改和变化是可能的。

Claims

1.一种制备DNA甲基化阵列的方法，所述阵列包含与基质偶联的多个多核苷酸，其中所述多个多核苷酸通过包括以下的方法选择：

(a)进行多核苷酸序列比对，其包括将人基因组与多个非人哺乳动物基因组进行比较，以鉴定与包含CpG甲基化位点的非人哺乳动物物种基因组内的多核苷酸序列同源的包含CpG甲基化位点的人基因组中的多核苷酸序列；

(b)对在(a)中鉴定的在所述人基因组中的所述多核苷酸序列进行排序，其中所述排序标准包括与非人哺乳动物物种基因组中多核苷酸序列的序列同源性；和

(c)使用在(b)中的所述排序来选择在所述人基因组中的多个多核苷酸，所述多核苷酸与在非人哺乳动物物种基因组中的多个多核苷酸序列交叉杂交；和

(d)将来自步骤(c)的选定序列与基质偶联，以形成DNA甲基化阵列。

2.权利要求1所述的方法，其中选择所述多个人基因组多核苷酸序列以与非人哺乳动物物种基因组中的多核苷酸序列具有不超过3个碱基对的错配。

3.权利要求2所述的方法，其中所述排序包括与非胎盘哺乳动物物种中，以及在劳亚兽总目(Laurasiatheria)、灵长总目(Euarchontoglires)、贫齿总目(Xenarthra)和非洲兽总目(Afrotheria)超序群中的胎盘哺乳动物物种中基因组多核苷酸序列的同源性比较。

4.权利要求3所述的方法，其中所述序列比对将人基因组序列与至少10个非人哺乳动物物种的基因组序列进行比较。

5.权利要求1所述的方法，其中所述DNA甲基化阵列包含与所述基质偶联的至少30,000个独特的多核苷酸。

6.权利要求5所述的方法，其中所述多个独特的多核苷酸的长度在40-80个核苷酸之间。

7.权利要求1所述的方法，其中所述基质是珠或芯片。

8.一种制备DNA甲基化阵列的方法，所述阵列包含与基质偶联的多个多核苷酸，其中所述多个多核苷酸：

(a)包含：

CpG基序；

至少2,000个独特的多核苷酸序列，其与在有袋类(marsupial)哺乳动物物种、单孔目(monotreme)哺乳动物物种、劳亚兽总目哺乳动物物种、灵长总目哺乳动物物种、贫齿总目哺乳动物物种和非洲兽总目哺乳动物物种基因组多核苷酸序列中具有小于3个碱基对错配的的60个核苷酸的区段杂交；和

(b)和通过以下选择：

(i)进行多核苷酸序列比对，其包括将人基因组与多个非人哺乳动物基因组进行比较，以鉴定与非人哺乳动物物种基因组内的包含CpG甲基化位点的多核苷酸序列同源的包含CpG甲基化位点的人基因组中的多核苷酸序列；

(ii)对在(a)中鉴定的在所述人基因组中的所述多核苷酸序列进行排序，其中所述排序标准包括与非人哺乳动物物种基因组中多核苷酸序列的序列同源性程度；和

(iii)使用在(ii)中的所述排序来选择具有CpG甲基化位点的多个多核苷酸，所述多核苷酸与在非人哺乳动物物种基因组中具有不超过3个碱基对错配的具有CpG甲基化位点的多个多核苷酸序列交叉杂交；和

(c)将来自步骤(b)的选定序列与基质偶联，以形成DNA甲基化阵列；

从而制备所述DNA甲基化阵列。

9.由权利要求1-8中任一项所述的方法制备的DNA甲基化阵列。

10.DNA甲基化阵列，其包含与基质偶联的多个多核苷酸序列，其中：

所述多核苷酸在其末端包含至少40个核苷酸和CpG基序；

所述多核苷酸包含存在于人基因组中的多核苷酸序列；和：

所述多个多核苷酸序列中的至少2,000个多核苷酸可以与在有袋类哺乳动物物种基因组多核苷酸序列中具有小于3个碱基对的错配的40个核苷酸区段杂交；

所述多个多核苷酸序列中的至少2,000个多核苷酸可以与在单孔目哺乳动物物种基因组多核苷酸序列中具有小于3个碱基对的错配的40个核苷酸的区段杂交；

所述多个多核苷酸序列中的至少2,000个多核苷酸可以与在劳亚兽总目哺乳动物物种基因组多核苷酸序列中具有小于3个碱基对的错配的40个核苷酸的区段杂交；

所述多个多核苷酸序列中的至少2,000个多核苷酸可以与在灵长总目哺乳动物物种基因组多核苷酸序列中具有小于3个碱基对的错配的40个核苷酸的区段杂交；

所述多个多核苷酸序列中的至少2,000个多核苷酸可以与在贫齿总目哺乳动物物种基因组多核苷酸序列中具有小于3个碱基对的错配的40个核苷酸的区段杂交；和

所述多个多核苷酸序列中的至少2,000个多核苷酸可以与在非洲兽总目哺乳动物物种基因组多核苷酸序列中具有小于3个碱基对的错配的40个核苷酸区段的杂交。

11.权利要求10所述的DNA甲基化阵列，其中：

所述有袋类哺乳动物物种是袋鼠(Wallaby)物种；和/或

所述单孔目哺乳动物物种是鸭嘴兽(Platypus)物种；和/或

所述劳亚兽总目哺乳动物物种是蝙蝠物种；和/或

所述灵长总目哺乳动物物种是啮齿类物种；和/或

所述贫齿总目哺乳动物物种是犰狳(armadillo)物种；和/或

所述非洲兽总目哺乳动物物种是马岛猬(tenrec)物种。

12.权利要求9-11中任一项所述的DNA甲基化阵列，在所述多个多核苷酸内的至少一个多核苷酸是具有表1中所示序列的多核苷酸。

13.一种观察非人哺乳动物甲基化谱的方法，其包括：

(a)从所述非人哺乳动物获得基因组DNA；

(b)使用权利要求9-12中任一项所述的DNA甲基化阵列观察在所述基因组DNA中多个CG基因座的胞嘧啶甲基化；

以观察所述非人哺乳动物的甲基化谱。

14.权利要求13所述的方法，其还包括：

(c)将在(b)中观察到的所述CG基因座甲基化与在来自已知年龄的所述非人哺乳动物物种中个体的基因组DNA中观察到的所述CG基因座甲基化进行比较；和

(d)将在(b)中观察到的所述CG基因座甲基化与所述非人哺乳动物物种的已知年龄相关联；

从而获得可用于确定所述非人哺乳动物年龄的信息。

15.权利要求13所述的方法，其中：

通过包括用亚硫酸氢盐处理来自所述哺乳动物细胞群的基因组DNA以将所述基因组DNA中CpG二核苷酸的未甲基化胞嘧啶转化为尿嘧啶的方法观察甲基化；

将所述DNA甲基化阵列用于在多个非人哺乳动物物种中观察甲基化谱；和/或

通过聚合酶链反应过程扩增基因组DNA。

16.一种观察待测药剂对哺乳动物细胞基因组甲基化相关表观遗传衰老的影响的方法，所述方法包括：

(a)将所述待测药剂与哺乳动物细胞结合；

(b)使用权利要求9-12中任一项所述的DNA甲基化阵列观察在来自所述哺乳动物细胞的基因组DNA中的甲基化标志物状态；

(c)将来自(b)的观察结果与未暴露于待测药剂的对照哺乳动物细胞的基因组DNA中甲基化状态的观察结果进行比较，从而观察到所述待测药剂对在所述哺乳动物细胞中基因组甲基化相关表观遗传衰老的影响。

17.权利要求16所述的方法，其中将多种待测药剂与所述哺乳动物细胞结合。

18.权利要求16所述的方法，其中所述细胞是人原代角质形成细胞。

19.权利要求16所述的方法，其中所述待测药剂是分子量小于3,000、2,000、1,000或500g/mol的化合物。

20.权利要求16所述的方法，其中：

通过包括用亚硫酸氢盐处理来自所述哺乳动物细胞群的基因组DNA以将所述基因组DNA中CpG二核苷酸的未甲基化胞嘧啶转化为尿嘧啶的方法观察甲基化；和/或

通过聚合酶链反应过程扩增基因组DNA。