本申请要求于2013年11月27日提交的序列号为61/909,779的美国临时申请的优先权。序列号为61/909,779的美国临时申请的全部内容通过引用并入本文。
具体实施方式
本发明的各方面采用商业上广泛使用的用于将甲基化胞嘧啶从未甲基化胞嘧啶区分出来的基于亚硫酸氢盐的试验证实了患有常见类别的CHD的个体和正常组中整个基因组中的胞嘧啶核苷酸的甲基化百分比方面的高度显著的差异。用于本发明分析的胞嘧啶并不限于CpG岛或不限于特定基因,而包括CpG岛以外和基因以外的胞嘧啶基因座。为了该特别发明的目的,仅报道了与已知基因相关联的胞嘧啶基因座。不但在特定类别(一共6类)的CHD和正常研究组之间而且在组合的CHD组和正常组之间以及最终在两个常见类别的CHD之间均观察到了整个基因组中胞嘧啶甲基化基因座中的显著性差异。
特别的方面提供了多组整个基因组中已知的和已经鉴别出的胞嘧啶基因座,其甲基化水平(表示为百分数)对于将CHD从正常案例中区分出来是有用的。
另外的方面描述了能够将包括但不限于家族史、叶酸代谢酶的突变和母体暴露于各种毒素(如酒精和烟草)(在相关妊娠期间)的其它公认的CHD风险因素与胞嘧啶甲基化数据结合以预测CHD的能力。多个个体胞嘧啶基因座表明了CHD相对于正常案例(FDR q-值1.0×10-3至1.0×10-35)中它们的甲基化程度方面高度显著的差异,参见下文。
在所呈现的特定的分析中,将8例左心发育不良(HLH)、8例室间隔缺损(VSD)、来自肺动脉瓣狭窄(PS)、房间隔缺损(ASD)和主动脉缩窄(Coarct)的类别各12例,以及14例法洛四联症(TOF)各自作为单独的组与32例正常对照的合并组进行比较。将所有6个单独类别的CHD(一共64例)合并形成一个组并与32例正常的合并组进行比较以确定是否可以将作为整体的CHD案例从非-CHD或正常案例区别出来。当将各个单独的CHD类别与正常组进行比较时,鉴别出了胞嘧啶基因座中甲基化水平的高度显著的差异(表1至6)。将CHD案例作为一个组与合并的正常组进行比较(表7)。表格限于位于已知基因中的胞嘧啶。我们发现了胞嘧啶甲基化水平方面高度显著的差异。对于各个类别的CHD,在CHD案例和正常案例之间显示出多个胞嘧啶甲基化位点中的高度显著的差异。这些甲基化基因座的组合为单个CHD和组合CHD的非常敏感的预测因子(表8至19)。
定义:
室间隔缺损(VSD)是指将心脏的两个泵室或心脏的左心室和右心室分开的壁中的一个或多个孔。这导致来自这两个心室的具有高氧含量血液和低氧含量血液的混合。
法洛四联症为发现了心脏和起源于心脏的血管的许多结构异常的心脏缺陷。这些异常包括主动脉至肺(肺动脉)的变窄、室间隔缺损(见上文),主动脉跨位(称为主动脉的源于心脏的主要血管之一的移位,从而导致其跨坐在间壁或左心室和右心室之间的“隔膜”上)。最后,发生右心室的肌肉增厚或“肥大”。
左心发育不良综合征(HLH)是心脏的左侧,更具体地左心室(或心脏的左“泵”室)严重不发育的症状。结果心脏不能将含有高水平的氧气的血液泵至对大脑和身体的其它部位。
房间隔缺损是将心脏的两个心房或接收室分隔开的壁上异常孔的症状。这些心房通常接收来自肺以及身体其它部位的血液并将血液推送进泵室或心室。
主动脉缩窄代表主动脉变窄,该主动脉是心脏的两个主要血管之一,且其将含氧血从心脏的左侧带至大脑和身体的其它部位。
最后,肺动脉瓣狭窄是存在将低氧含量的血液从心脏的右侧带至肺的血管(肺动脉)变窄的症状。变窄通常在确保肺动脉中的血液向前流动的肺动脉瓣的水平发生,肺动脉变窄限制了血液从心脏向肺的流动的适当氧合作用。
这些代表了六种常见的和临床重要的CHD。它们经常需要外科手术来阻止严重的并发症和死亡。
胞嘧啶是指构建DNA的四个构建分段“核苷酸”的组的成员之一。DNA中发现的其它核苷酸或构建分段为硫胺素、腺嘌呤和鸟嘌呤核苷。胞嘧啶的化学结构为六面六角环或嘧啶环的形式。
术语甲基化是指将“甲基基团”或单个碳原子酶促添加至胞嘧啶的嘧啶环的#5位,这导致将胞嘧啶转化为5-甲基-胞嘧啶。如所描述的胞嘧啶的甲基化通过称为DNA甲基转移酶(DNMT's)的酶家族的作用来完成。当形成5-甲基-胞嘧啶时,其易于突变或由原始的胞嘧啶化学转化以形成胸腺嘧啶。5-甲基胞嘧啶占正常基因组中全部核苷酸碱基的约1%。
术语高甲基化是指当将来自感兴趣的个体或组的样本与正常组或对照组进行比较时,在特定的胞嘧啶基因座处提高频率或百分比的甲基化。
胞嘧啶通常与沿DNA单链的线性序列中的鸟嘌呤(另一核苷酸)配对以形成CpG对。“CpG”是指胞嘧啶-磷酸盐-鸟嘌呤核苷化学键,其中磷酸盐将两个核苷酸连接在一起。在哺乳动物中,在约70-80%的这些CpG对中,胞嘧啶被甲基化(Chatterjee R,VinsonC.Biochemica et Biophisica Acta 2012;1819:763-70)。术语“CpG岛”是指基因组中具有高浓度的CG二核苷酸对或CpG位点的区域。常常在与哺乳动物DNA接近的基因中发现“CpG岛”。CpG岛所占据DNA的长度通常为300-3000个碱基对。CG集群在相同的DNA单链上。CpG岛由各种标准限定,包括占据DNA至少200bp且片段的CG含量至少为50%以及观察到的/预期的CpG的比应该大于60%的事实的重复CG二核苷酸对的长度。人类中,基因启动子区域约70%具有高CG含量。CG二核苷酸对可以存在于基因的其它位置或特定基因外并且未知与该特定基因相关。
哺乳动物基因的启动子区域约40%(控制基因转炉和活化的基因区域)(Fatemi M等人.Footprints of mammalian CpG DNA methyltransferases revealing nucleosomepositions at a single molecule level.Nucleic Acids Res 2005;33:e176)与CpG岛相关且这些启动子区域的四分之三具有高CpG浓度。总的来说,分散于整个DNA中的大多数CpG位点中,胞嘧啶核苷酸被甲基化。相比之下,位于基因的启动子区域的CpG岛中的CpG位点中,胞嘧啶没有被甲基化,这表明了CpG岛中的胞嘧啶的甲基化状态在基因转录和活性中的作用。
与基因相关或位于基因中的胞嘧啶的甲基化经典地与抑制基因转录相关。然而在一些基因中,增加的甲基化具有相反的作用并导致基因活化或增加基因转录。解释后面的现象的一种可能机制可能为通过基因抑制元件的抑制作用由此由抑制作用释放基因。包括DNA甲基化的表观遗传修饰是这样的机制,即通过该机制例如含有相同DNA的细胞能够激活不同的基因并导致分化成独特的组织,诸如心脏或肠。
表观遗传被定义为细胞的基因表达中可遗传的(即传递给后代)变化,其不是主要由于基因中核苷酸(腺嘌呤、硫胺素、鸟嘌呤和胞嘧啶)序列突变或变化。当然,表观遗传是通过几种潜在机制可逆调控基因表达。最广泛研究的一种这样的机制为DNA甲基化。其它机制包括DNA的3维结构的变化、组蛋白修饰或微小-RNA抑制性活性。
受试者工作特征(ROC)曲线是描绘灵敏度的图-在此设置中Y轴定义为在特定胞嘧啶基因座处具有阳性试验或异常胞嘧啶甲基化水平的CHD案例的百分比而X轴定义了假阳性率(1-特异性)-即在相同基因座处具有异常胞嘧啶甲基化的正常非CHD案例的数目。特异性被定义为在感兴趣的基因座处具有正常甲基化水平正常案例或阴性试验的百分比。假阳性率是指错误地发现具有阳性试验(即异常甲基化水平)的正常个体的百分比。
ROC曲线下的区域(AUC)表明从异常案例中鉴别出正常案例的试验的准确性(Hanley JA,McNeil BJ.Radiology 1982;143:29-36)。
AUC为ROC曲线下从该曲线至从X轴和Y轴的交叉点且倾斜角为45°的对角线的区域。受试者工作特征(ROC)曲线下的区域越大,预测感兴趣的症状的试验的准确性越高。区域ROC=1.0表示完美的试验,其在所有患有病症的案例中是阳性的(异常的)且在所有正常案例(没有病症)下是阴性的。甲基化试验是指用于区分DNA中甲基化相对于未甲基化的胞嘧啶基因座的大量为市售可得的试验。
甲基化试验
多种定量甲基化试验是可用的。这些包括采用甲基化敏感限制性内切核酸酶、凝胶电泳和基于标记的杂交探针的检测的COBRATM(Ziong and Laird,Nucleic Acid Res1997 25;2532-4)。另一个可用的技术为用于扩增感兴趣的DNA片段的甲基化特异性PCR(MSP)。甲基化异性PCR在胞嘧啶的亚硫酸氢钠转化后采用甲基化敏感性探针来进行。基于定量的甲基化试验的MethyLightTM采用基于荧光的PCR(Eads等人,Cancer Res 1999;59:2302-2306)。采用的另一种方法为定量甲基化(QMTM)试验,其将PCR扩增与设计以结合至推定甲基化位点的荧光探针相结合。MS-SNuPETM是用于确定CpG位点中甲基化水平的差异的定量技术。与其它技术一样,首先进行亚硫酸氢盐处理,这导致未甲基化的胞嘧啶向尿液嘧啶转化而甲基胞嘧啶不受影响。将特异于亚硫酸氢盐转化的DNA的PCR引物用于扩增感兴趣的靶序列。将扩增的PCR产物分离并用于定量感兴趣的CpG位点的甲基化状态(Gonzalgo andJones Nuclei Acids Res1997;25:252-31)。测量胞嘧啶甲基化的优选方法为Illumina法。
Illumina法
对于DNA甲基化试验,采用Illumina
人类甲基化450芯片检测全基因组定量甲基化图谱。简言之,从细胞(这本案例中从存档的血斑)提取基因组DNA,对于此,DNA的原始来源为白血细胞。采用贸易中众所周知的技术,用市售试剂盒将基因组DNA分离。使用蛋白酶K将蛋白质和其它污染物从DNA中移除。采用可用的方法(如有机萃取、盐析或将DNA结合至固相载体)将DNA从溶液中移除。
亚硫酸氢盐转化
如在
检测甲基化步骤指南中所描述,用亚硫酸氢钠处理DNA,其将未甲基化的胞嘧啶转换为尿液嘧啶,而甲基化的胞嘧啶保持不变。然后,亚硫酸氢盐转化的DNA变性并中和。然后扩增经过变性的DNA。全基因组应用过程将DNA的量增加高达数千倍。下一步采用酶促方法使DNA片段化。接下来使用异丙醇使片段化的DNA沉淀并离心分离。接下来将分离的DNA悬浮在杂交缓冲液中。然后将片段化的DNA杂交至共价限于特异于基因组中感兴趣的胞嘧啶核苷酸的基因座处的50mer的核苷酸片段的珠子。共有特异性设计以退火至特定的胞嘧啶所处的基因座的超过500,000种珠类型。将这些珠结合至硅基阵列。存在为各个基因座设计的两种珠类型,一种珠类型代表设计以与胞嘧啶核苷酸保持不变的甲基化基因座匹配的探针。另一种珠类型对应于起初未甲基化而在亚硫酸氢盐处理后转化为硫胺素核苷酸的胞嘧啶。将未杂交(未退火到珠)的DNA洗去仅留下结合至适当的珠且含有感兴趣的胞嘧啶的DNA片段。结合寡聚体的珠在退火至相应的患者的DNA序列之后,继而采用超出患者DNA序列中感兴趣的胞嘧啶的悬突体作为延伸的模板而用荧光标记的核苷酸进行单碱基延伸。
如果感兴趣的胞嘧啶为未甲基化的,那么其优选地与未甲基化的探针或“U”型珠探针配对。这使得能够用荧光标记的核苷酸探针进行单碱基延伸并形成针对那种珠探针可以以自动化方式来读取的荧光信号。如果胞嘧啶是甲基化的,会发生与“U”型珠探针寡聚体的单碱基错配。然而珠寡聚体上不发生进一步核苷酸延伸,由此防止荧光标记的核苷酸掺入珠上。这会导致由珠“U”型珠的低荧光信号。“M”或甲基化的珠探针会发生逆转。
用激光激发结合至用于序列延伸的单碱基的荧光基团。通过将甲基化的珠的荧光强度与未甲基化的珠相比确定各个胞嘧啶基因座处的甲基化水平。将胞嘧啶甲基化水平表示为“β”,其为甲基化的-珠探针信号与那个基因座处的总信号强度的比。先前已经描述了用于确定胞嘧啶甲基化的这些技术且其广泛用于商业用途。
本发明描述了使用市售可用的甲基化技术以涵盖整个基因组中包括约16,000个基因和500,000个胞嘧啶核苷酸的高达99%Ref Seq基因低至单核苷酸水平(Infinium人类甲基化450Beach Chip试剂盒)。将一组CHD案例相比于对照组的单个核苷酸的酸胞嘧啶甲基化的频率用于估计CHD的风险或几率。采用这种技术分析的胞嘧啶核苷酸包括CpG岛中的胞嘧啶以及CpG岛外部较远距离处(即位于“CpG岛岸(CpG shores)”和“CpG岛架(CpGshelves)”)以及甚至位于更远离GpC岛的所谓的“CpG海域(CpG seas)”的那些胞嘧啶。
鉴别特异性胞嘧啶核苷酸
文件“CpG Loci Identification.A guide to Illumina's method forunambiguous CpG loci identification and tracking for the
andInfinium
Tm assays for Methylation”中已经详细说明了(Illumnia)对分布于整个基因组中的特定胞嘧啶基因座进行可靠的鉴别。简要总结如下。Illumina公司已经开发了基于胞嘧啶所处的核苷酸的实际序列或前后序列,指定胞嘧啶基因座的独特的CpG基因座标识符。其采用与NCBI's re SNP IPS(rs#)所用的类似的策略并基于感兴趣的胞嘧啶侧翼的序列。由此,将独特的CpG基因座集群ID号分配给各个进行评估的胞嘧啶。据报道该系统是一致的且不受公共数据库和基因组装配的变化的影响。将CG基因座的60个碱基5'和3'的侧翼序列(即一共122个碱基序列)用于鉴别基因座。由此,将独特的“CpG集群号”或cg#分配给含有感兴趣的CpG的122bp的序列。因此只有CpG集群中的122bp是相同的,才存在分配给相同的编号并位于基因组中超过一个位置处的基因座的风险。利用三个独立的标准以基于该独特的ID系统来追踪各个CpG基因座。建立染色体号、基因组坐标和基因组。将CpG中两个坐标“C”或“G”的较小者用于独特的CG基因座鉴别。还指定CG基因座与含有“A”(腺嘌呤)至“T”(硫胺素)中的任何一个的第一“明确的”核苷酸对有关。如果这些核苷酸中的一个为CG的5'端,那么排列为指定的TOP,且如果该核苷酸为3'端,其为指定的BOT。
另外,将正向或反向的DNA链表示为被评价的胞嘧啶的位置。假设特定的染色体区域内的胞嘧啶碱基的甲基化状态是同步的(Eckhart F,Lewin J,Cortese R等人:DNAmethylation profiling of human chromosome 6,20和22.Nat Gent.38,1379-85.2006)。
方法描述
从生物样本库重新获取保存在滤纸上的单一新生儿干血斑,该样本是作为为检测代谢紊乱而确立的密歇根新生儿筛查项目的一部分而收集的,并由密歇根兰辛的密歇根社区卫生部门(MDCH)储存。通常在平均出生后2天由足跟原始获得血液并将血液放置在滤纸上。室温下储存样品。采用临床试验完成后未鉴别的残留血斑。通过由MDCH标准化方法获得IRB批准。目前研究所用的试样是在1998和2003年之间采集的。将患有染色体异常或其它已知的或可疑的遗传综合征的案例(包括缺失染色体#22的部分小臂的称为DiGeorge综合征的症状)排除在外。除了感兴趣的CHD之外,将存在的与初步诊断无关的其它心脏或心外异常或伴随存在的重大先天缺陷排除在外。
对一共8例HLH,8例VSD,ASD、主动脉缩窄、肺动脉瓣狭窄各12例,以及14例TOF,与一共32例对照一起进行分析。对照例为正常的非CHD新生儿和非异常新生儿。将各个CHD类别与正常组进行比较并将比较的所有CHD案例组合在一起(CHD组)与作为整体的正常组进行比较。
将两个常见的CHD类别(VSD和TOF)彼此进行比较。
从血斑提取血液
按照2009年4月出版的第四版the
DNA Investigator Handbook,Sample andAssay Technologies,QIAGEN中所述进行DNA提取。提供了DNA提取法的简要总结。将两个6毫米直径的圆(或四个3毫米直径的圆)冲压出储存在滤纸上的干血斑并用于DNA提取。该圆包含约5μL全血的白血细胞的DNA。将该圆转移至2毫升的样品管。
一共使用190μL稀释的缓冲液G2(1:1比例的G2缓冲液:蒸馏水按)以将DNA从滤纸上洗脱。添加另外的缓冲液直到试管中剩余的样品体积为190μL,因为滤纸会吸收一定体积的缓冲。添加10μL蛋白酶K并将混合物涡旋10s且快速旋转。然后将混合物在56℃、900rpm下孵育15分钟。在95℃、900rpm下进一步孵育5分钟以增加DNA从滤纸上的产率。进行快速旋转。然后如所描述的将样品在EZ1进阶(Trace,Tip-Dance)步骤上运行。该步骤用于从混合物中分离总DNA。含有于50μL水中的净化DNA的洗脱管现在可用于进一步的分析。
Infinium DNA甲基化试验
甲基化分析-将Illumina's Infinium人类甲基化450珠芯片系统用于全基因组甲基化分析。采用用于Infinium的标准方案用EZ-96甲基化试剂盒(Zymo Research)对DNA(500ng)进行亚硫酸氢盐转化以使未甲基化的胞嘧啶脱去氨基形成尿液嘧啶。将DNA以酶促方式进行片段化并杂交至Illumina珠芯片。珠芯片含有基因座特异性寡聚体且是成对的,一个对甲基化的胞嘧啶基因座是特异性的且另一个对未甲基化的基因座是特异性的。进行单碱基延伸以并入生物素标记的ddNTP。荧光染色和洗涤后,对珠芯片进行扫描并采用BeadStudio软件(Illumina)确定各个基因座的甲基化状态。采用具有靶向移除、染色、杂交、延伸、亚硫酸氢钠转化、特异性的样品依赖性对照组和样品非依赖性对照组,阴性对照组和非多态对照组的控制面板对实验质量进行评估。甲基化状态为甲基化探针信号相对于甲基化和未甲基化探针的总和的比。产生的比值表明基因座是未甲基化(0)的还是全甲基化的(1)。采用Illumina自定义模型确定不同的甲基化位点并根据采用0.05作为阈值的P值对其进行过滤。
Illumina's Infinium人类甲基化450珠芯片系统,一种更新的试验方法,其涵盖多个基因的启动子区域中的CpG位点(含有胞嘧啶),大约~16880个。此外,该试验中表述了整个基因组和基因外部,以及CpG岛的内部或外部的其它胞嘧啶基因座。
采用ROC曲线用于预测CHD风险的胞嘧啶甲基化
为了确定特定胞嘧啶基因座的甲基化水平对CHD预测的准确性,采用位点处的不同甲基化阈值水平(诸如10%、≥20%、≥30%、≥40%等)以计算CHD预测的灵敏度和特异性。因此,例如在特定的cg基因座处采用≥10%的甲基化,认为甲基化水平高于该阈值的案例具有阳性检验而将低于该阈值的那些解释为阴性甲基化试验。在该特定的胞嘧啶基因座处10%的甲基化的该示例中,具有阳性试验的CHD案例的百分比可等于试验的灵敏度。可认为该基因座处甲基化水平<10%的正常非CHD案例的百分比为特异性的试验。在这里将假阳性率定义为具有(错误)异常试验结果的正常案例的数量并将灵敏度定义为具有(正确)异常试验结果(即该特定的cg基因座处10%的甲基化水平)的CHD案例的数量。对一系列的阈值甲基化值(诸如≥1/10、≥1/20、≥1/30等)进行评估,且用于对各个基因座产生一系列成对的灵敏度和假阳性值。产生了受试者工作特征(ROC)曲线,其为Y轴具有灵敏度值且X轴具有假阳性率的数据点的图。这种方法可以用于对各个胞嘧啶基因座形成ROC曲线,该ROC曲线显示了各案例与CHD组之间的显著甲基化差异。
进行了标准统计试验,该标准统计试验采用p-值来表示CHD试样和对照DNA试样之间在给定的基因座处观察到胞嘧啶甲基化之间的差异的概率。
还进行了采用假发现率(FDR)的更加严格的测试。当采用多重比较进行多重假设试验时,FDR给出了阳性结果是由于偶然性的概率。
在本发明的一个实施方式中,采用先前所描述的针对全基因组甲基化研究的Illumina Infinium试验,当与正常组相比时,以及当将所有的CHD类别合并成一个单一组(“CHD组”)并与正常组进行比较时,在各个CHD(VSD、ASD、HLH、主动脉缩窄、PS和TOF)组中表明了与特定基因相关的特异性胞嘧啶核苷酸的甲基化的频率(水平或百分数)方面的显著性差异。胞嘧啶甲基化水平方面的差异非常显著且具有足够的强度以将各个不同的CHD组与正常组准确区分。因此,可以将本发明用作在CHD和正常案例的混合群体中对CHD案例进行筛选的试验。
根据个体因素(饮食、种族、年龄、性别、药物、毒素、环境暴露、其它并发的医疗疾病等),胞嘧啶甲基化的程度可能变化。总的来说,尽管有这些潜在来源的可变性,整个基因组甲基化的研究鉴别出了某些基因内(和外部)的特异性位点并可以相比于正常案例对易患不同类别的CHD或患不同类别的CHD的风险增加的个体的组进行区分且因此可以用作有用的筛选试验以相比于正常案例对易患不同类别的CHD或患不同类别的CHD的风险增加的个体的组进行鉴别。
本发明的另一个实施方式在于,既然除极少例外(成熟的红细胞和成熟的血小板)的细胞含有核以及因此含有DNA,本发明可以采用DNA从除以上指出的两种细胞之外的任何细胞来筛选CHD。另外,来自受到破坏且可以从体液中重新获取的细胞的无细胞DNA可以用于该筛选。
细胞和来自任何含有DNA的生物样品的DNA可以用于本发明的目的。用于试验的样品可以获自活的或死亡的组织以及含有细胞或组织的考古试样。可以用于获取DNA以基于本发明进行CHD筛选的生物试样的示例包括:体液(诸如血液、唾液、生殖器分泌物、尿液液)、皮肤、毛发、毛囊/根、粘膜(脸颊又名颊的刮屑或舌头的刮屑)、身体内部组织,或出生时获得的脐带血。
本发明的另一个实施方式为利用DNA中胞嘧啶甲基化的全基因组差异以在产前和产后生活的任何阶段筛选CHD以及确定CHD的风险和可能性。这些阶段包括胚胎、胎儿、新生儿期(出生后头28天)、婴儿期(直到1岁的年龄)、儿童(直到10岁)、青春期(11至21岁的年龄)和成年期(即>21岁的年龄)。
本发明所呈现的结果证实了基于CHD和正常案例之间的整个人类全基因组的胞嘧啶位点的甲基化水平的差异可以确定患CHD的倾向和风险。
对甲基化差异的解释为CHD的形成引起或导致多个基因的异常表达,其中许多基因直接或间接地影响或控制心脏的发育。异常的基因功能包括基因功能的抑制(这些基因的活性对正常的心脏发育非常重要)或相反地基因的激活(通常抑制这些基因的功能以允许心脏的正常发育)。此外,影响形成CHD的物质(例如酒精)可以独立地对与心脏发育无关但是基于“酒精作用”形成甲基化异常的其它基因产生影响。由此,全基因组胞嘧啶甲基化研究提供了关于对参与心脏的正常和异常发育的多个基因和基因网络进行协调广泛激活和抑制的信息。这种方法不需要心脏发育中特定基因的作用或基因功能的改变导致CHD的机制的先验知识。此外,对包括数千基因的成百上千的胞嘧啶基因座同时并以无偏性方式进行评估且因此可以用于准确评估CHD的风险。更重要的是这一事实,即基因外部的胞嘧啶基因座还可以控制基因功能,因此位于基因外部的基因座的甲基化水平进一步有助于预测CHD。
本发明证实了相比于心脏正常发育的个体,受不同形式CHD影响的个体的整个基因组的多个胞嘧啶基因座处发生胞嘧啶核苷酸的甲基化模式畸变或改变。
本发明的其它方面提供了用于基于整个基因组的多个DNA位点处的胞嘧啶甲基化的差异来预测或评估CHD风险的技术和方法。
目前,不存在可靠的临床可用的采用细胞、组织或体液用于预测或评估群体中个体的CHD风险的生物学方法。
对包括主动脉瓣狭窄(AVS)、左心发育不良心脏综合征(HLHS)、室间隔缺损(VSD)、法洛四联症(TOF)、主动脉缩窄(Coarct.)、房间隔缺损(ASD)和肺动脉狭窄的几种常见类别的CHD进行检测。将CHD类别与正常组进行比较并鉴别出了在整个基因组中甲基化状态方面显示出统计学显著性差异的胞嘧啶核苷酸。由于胞嘧啶核苷酸的延伸覆盖,一些不同的甲基化的胞嘧啶位于CpG岛的外部或已知基因的外部。
本发明根据考虑的特定胞嘧啶基因座,采用严格的阴性发现率(FDR)分析,报道了整个基因组中大量胞嘧啶位点处的胞嘧啶甲基化状态之间的强相关,其中q-值<0.05且其中许多q-值低至<1×10-30,(表1至7)。对一共64例CHD和32例正常对照进行了评估。在与正常组进行比较的所有六个类别的待测CHD中以及在作为整体与正常组进行比较的CHD案例中发现了整个DNA中的多个基因座处甲基化模式的显著性差异。公开的特定胞嘧啶位于已知基因。这些发现与相比于对照组的CHD案例中的多个基因改变的表达相一致。
所报道的胞嘧啶甲基化标记物使用于基于整个基因组中胞嘧啶甲基化来预测和检测CHD的群体筛选研究能够进行。它们还允许例如通过采用基因本体论分析对胞嘧啶甲基化数据进行评估增进对形成CHD的理解。
本申请中评估的胞嘧啶包括但不限于位于基因的启动子区域中的CpG岛中的胞嘧啶。靶向和测量的其它区域包括远离CpG岛达2000个碱基对的所谓的CpG岛岸和针对DNA区域侧翼岛岸指定的所谓的CpG岛架。甚至对距离CpG岛更远的区域所谓的“海域”进行了针对胞嘧啶甲基化差异的分析。因此,对胞嘧啶甲基化进行了全面的和全基因组分析。
统计分析
本发明的一方面描述了用于对个体患特定类型的CHD的风险进行评估的方法。这种估计可以基于导致在已知与增加CHD的风险有关的大量可能的预测因子(即甲基化基因座)中重要的独立预测因子的鉴别的逻辑回归分析。不同基因座处的胞嘧啶甲基化水平可以自身或与已知与增加本申请中所描述的特定类型的CHD的风险有关的其它已知的风险预测因子(如产前暴露于毒素-“是”或“否”(诸如酒精或母体吸烟、母体糖尿液病、家族史和单个或多个基因座中的甲基化水平))组合使用。基于逻辑回归可以从概率方程推导出受影响个体的概率:
PCHD=1/1+e-(B1x 1 +B2x 2 +B3x 3 ...Bnx n)
其中‘x’是指特定预测因子的大小或数量(诸如特定基因座处的甲基化水平)以及“β”或β-系数是指针对特定预测因子(x)水平改变的各个单元,结果(特定类型的CHD)的概率变化的大小,B值源于逻辑回归分析的结果。这些B值源于受影响和未受影响的个体的大量群体的多变量逻辑回归分析。在此案例下代表不同胞嘧啶基因座处的甲基化百分比的x, 1 ,x 2 ,x 3等的值可源于所测试的个体而β-值可源于所提及的受影响(CHD)和未受影响的案例的大量参考群体的逻辑回归分析。基于这些值,可以定量评估个体患CHD类型的概率。概率阈值用于定义高风险的个体(诸如≥1/100的CHD的概率可以用于定义触发如以下一种或多种:出生时超声心动图、脉搏血氧测量等进行进一步评估的高风险的个体,而风险<1/100的个体不需要进一步跟进)。其它因素中所用的阈值会基于诊断的灵敏度(正确鉴别的CHD案例的数目)、特异性(正确鉴别为正常的非CHD案例的数目)、ECHO心动图的风险和成本以及根据指定个体为CHD“高风险”和这些因素的相关干预。众所周知逻辑回归分析是疾病筛选中用于评估个体具有紊乱的风险的方法(Royston P,Thompson SG.Model-basedscreening by risk with application in Down's syndrome.Stat Med 1992;11:257-68.)。
基于重叠的高斯分布或多变量高斯分布的方法通过利用各个有差别的胞嘧啶基因座处自身的甲基化百分数(报道为β-系数)或利用基因座的不同组合也可以计算个体患CHD的风险(Wald NJ,Cuckle HS,Deusem JW等人(1988)Maternal serum screening fordown syndrome in early pregnancy.BMJ 297,883-887.),其中变量为所谓的特定(或多个)基因座处的甲基化水平/甲基化百分比。可选地,如果甲基化百分数或β-系数不是正态分布(即非高斯),如果必要的话通过这些百分数的对数转换会获得正态高斯分布。
作为示例,针对CHD群体和正常群体中特定基因座处的甲基化,得到两个高斯分布曲线。然后计算了平均值、标准差和两个曲线之间的重叠程度。在给定的甲基化水平处分布曲线的高度比会给出似然比或因素,根据该似然比或因素,在给定的基因座处在特定的甲基化水平患CHD的风险增加(或降低)。似然比(LR)值可以乘以普通群体的CHD的背景风险(针对特定类型的CHD或针对全部CHD)并由此基于选定的cg位点处的甲基化水平给出个体的CHD风险。新生群体中CHD的背景群体风险的信息可以从几种来源获得(一个这样的示例为Hoffman JL等人Am Heart J 2004;147:425-439)。类似的信息可用于产前和后来的产后生活。
演化计算
自1950年代以来出现了演化计算。这些计算方法是用于由复杂的、大量的数据预测结果的工具。演化计算包括大量的方法,如遗传算法。后者广泛用于问题解决并利用自然进化的三个原则:选择、突变和重组(Penza-Reyes CA,Sipper M.Evolutionarycomputation in medicine2000;19:1-23.Artif Intell Med 2000;19:1-23;WhitleyD.An overview of evolutionary algorithms:practical issues and commonpitfalls.Info Software Tech 2001;43:87-31)。申请从化学、经济学、工程学、药物延伸到代谢组学。Goodcare(Goodcare R.Making sense of the metabolome usingevolutionary computing:seeing the wood with the trees.J Exp Bot 2005;56:245-54.)概述了对由新的分析平台(如代谢组学)产生的海量数据进行分析的严峻挑战。他用了一个示例,分析250个生化标记物(表观遗传分析中每个患者非常合理数量的数据点)以区分耐干旱的植物与正常对照植物。用于确定特定的代谢物是否包含于模型中的完全搜索需要2250或1.8×1075次计算。超高速计算机需要超过估计的3×1062年以执行所需的计算。演化计算是在更短的时间内用于由大量的数据提供好的解决方案或预测感兴趣的结果的自动的方法。
演化计算选择最适合“生存”意味着预测感兴趣的结果的“染色体”(其为“串(string)”或不同代谢物及它们浓度的组合)。各个可变的预测因子(诸如代谢物)代表该‘染色体’串上的基因。各个染色体存活的适合性为计算机程序分配的从0至1的数值。适合性表明参数的这种组合在多大程度上确保‘进化存活’或者提供了对问题的最好解答(Goodcare R.Making sense of the metabolome using evolutionary computing:seeing the wood with the trees.J Exp Bot2005;56:245-54)。
‘染色体’和‘适合性’的组合代表‘个体’(Miranda V,Srinivasan D,ProencaLM.Evolutionary computation in power systems.Elec Power Energ Sys 1998;20:89-981)。这些‘个体’的群体代表‘第一代’有机体。根据它们的适合性将‘个体’排列。这开始了进化过程。通过从第一代中挑选最适合的具有最好的‘存活’机会(即预测感兴趣的结果)的个体而选择操纵基因创造下一代。此外,通过与无规重排的‘染色体’的片段交叉(即形成‘基因’序列的‘染色体’片段与其组成性预测因子的串(代谢生物标记物)发生改变)改变创造了第二代的新‘个体’。最后,个体中引入变化的地方产生突变。突变可以意味着在它们的数量上(浓度)有变化或没有任何变化的组成性预测因子或输入变量(代谢标记物)的变化。
因此,遗传算法采取高性能的‘个体’并对它们进行选择、使它们‘突变’以及将它们与其它高适合性或高性能的‘个体’进行‘重组’以最终实现‘基因’的最佳组合或在‘染色体’上输入预测感兴趣的结果的预测因子。与公认的进化原则的相似性是显然的。包括遗传算法的演化计算通过不断地重新评估和调整逐步形成对问题更好的解决方案(Penza-Reyes CA,Sipper M.Evolutionary computation in medicine 2000;19:1-23.ArtifIntell Med 2000;19:1-23.)。该方法鉴别出形成了大量的数据集以达到最高的预测准确度关键的组分和类型。该方法快速、自动且不需要有关输入变量或感兴趣的结果的任何统计或其它假设。其不受缺失的数据的影响,不受背景噪音的影响且不需要参数分布。总体而言,认为它优于回归分析和神经网络且同样处理小的和非常大的数据集。考虑到分析的大量的甲基化位点,每个患者DNA样品约450000个案例和各个CHD类别中相对少量的案例,遗传编程(演化计算的分支)为数据分析的主要方法。将TheGmax计算机程序版本11.09.23用于演化计算分析。
用于计算对胞嘧啶基因座的灵敏度和特异性的逻辑回归分析的使用限于全部CHD组(组合的6个类别的CHD)因为案例数目不足且因此各个CHD子类的效能不足以进行回归分析。
示例
示例1
将来自针对代谢紊乱进行常规筛查的新生儿的血斑采集在滤纸上。采集时新生儿的平均年龄为2天。将不用于代谢测试的完全未用于鉴别(对研究人员而言)的残余血斑室温储存在密歇根兰辛的密歇根社区卫生部门设备中。如本申请中先前所述的从滤纸上的单一血斑中提取并纯化DNA,并采用如早前所述的Illumina's Infinium人类甲基化450珠芯片系统确定不同CPG岛的甲基化水平。
在8例VSD类型的CHD相对于32例正常案例中比较了整个DNA的多个胞嘧啶处的甲基化水平或百分比。表1示出了位于已知基因中的与VSD案例和正常案例之间的甲基化的显著性差异相关的6个胞嘧啶基因座。与用于整体预测VSD案例相对于正常非心脏病案例的各特定胞嘧啶基因座的分布(边际贡献)一起提供了基因ID号和基因符号、基因所位于的染色体号、呈现不同甲基化的胞嘧啶基因座的位置和DNA链(反向或向前)。极低的假发现率(FDR)值表明VSD案例相对于对照组中这些特异性胞嘧啶之间甲基化百分比的高度显著性差异。
示例2
将来自针对代谢紊乱进行常规筛查的新生儿的血斑采集在滤纸上。采集时新生儿的平均年龄为2天。将不用于代谢测试的完全未用于鉴别(对研究人员而言)的残余血斑室温储存在密歇根兰辛的密歇根社区卫生部门设备中。如本申请中先前所述的从滤纸上的单一血斑中提取并纯化DNA,并采用如早前所述的Illumina's Infinium人类甲基化450珠芯片系统确定不同CPG岛的甲基化水平。
在12例ASD类型的CHD相对于32例正常案例中比较了整个DNA的多个胞嘧啶基因座处的甲基化水平或百分比。表2示出了位于已知基因中的与ASD案例和正常案例之间的甲基化的显著性差异相关的7个胞嘧啶基因座。与用于整体预测ASD案例相对于正常非心脏病案例的各特定胞嘧啶基因座的分布(边际贡献)一起提供了基因ID号和基因符号。极低的FDR值表明VSD案例相对于对照组中这些特异性胞嘧啶之间甲基化百分比的高度显著性差异。
示例3
将来自针对代谢紊乱进行常规筛查的新生儿的血斑采集在滤纸上。采集时新生儿的平均年龄为2天。将不用于代谢测试的完全未用于鉴别(对研究人员而言)的残余血斑室温储存在密歇根兰辛的密歇根社区卫生部门设备中。如本申请中先前所述的从滤纸上的单一血斑中提取并纯化DNA,并采用如早前所述的Illumina's Infinium人类甲基化450珠芯片系统确定不同CPG岛的甲基化水平。
在12例肺动脉瓣狭窄(PS)类型的CHD相对于32例正常案例中比较了整个DNA的多个胞嘧啶处的甲基化水平或百分比。表3示出了位于已知基因中的与PS案例和正常案例之间的甲基化的显著性差异相关的6个胞嘧啶基因座。与用于整体预测PS案例相对于正常非心脏病案例的各特定胞嘧啶基因座的分布(边际贡献)一起提供了基因ID号和基因符号。极低的FDR值表明PS案例相对于对照组中这些特异的胞嘧啶之间甲基化百分比的高度显著性差异。
示例4
将来自针对代谢紊乱进行常规筛查的新生儿的血斑采集在滤纸上。采集时新生儿的平均年龄为2天。将不用于代谢测试的完全未用于鉴别(对研究人员而言)的残余血斑室温储存在密歇根兰辛的密歇根社区卫生部门设备中。如本申请中先前所述的从滤纸上的单一血斑中提取并纯化DNA,并采用如早前所述的Illumina's Infinium人类甲基化450珠芯片系统确定不同CPG岛的甲基化水平。
在12例主动脉缩窄(“coarct.”)类型的CHD相对于32例正常案例中比较了整个DNA的多个胞嘧啶处的甲基化水平或百分比。表4示出了位于已知基因中的与主动脉缩窄案例和正常案例之间的甲基化的显著性差异相关的7个胞嘧啶基因座。与用于整体预测主动脉缩窄案例和正常非心脏病案例的各特定胞嘧啶基因座的分布(边际贡献)一起提供了基因ID号和基因符号。极低的FDR值表明主动脉缩窄案例相对于对照组中这些特异性胞嘧啶之间甲基化百分比的高度显著性差异。
示例5
将来自针对代谢紊乱进行常规筛查的新生儿的血斑采集在滤纸上。采集时新生儿的平均年龄为2天。将不用于代谢测试的完全未用于鉴别(对研究人员而言)的残余血斑室温储存在密歇根兰辛的密歇根社区卫生部门设备中。如本申请中先前所述的从滤纸上的单一血斑中提取并纯化DNA,并采用如早前所述的Illumina's Infinium人类甲基化450珠芯片系统确定不同CPG岛的甲基化水平。
在14例法洛四联症(TOF)类型的CHD相对于32例正常案例中比较了整个DNA的多个胞嘧啶处的甲基化水平或百分比。表5示出了位于已知基因中的与TOF案例和正常案例之间的甲基化的显著性差异相关的8个胞嘧啶基因座。与用于整体预测TOF案例相对于正常的非心脏病案例的各特定胞嘧啶基因座的分布(边际贡献)一起提供了基因ID号和基因符号。极低的FDR值表明TOF案例相对于对照组中这些特异性胞嘧啶之间甲基化百分比的高度显著性差异。
示例6
将来自针对代谢紊乱进行常规筛查的新生儿的血斑采集在滤纸上。采集时新生儿的平均年龄为2天。将不用于代谢测试的完全未用于鉴别(对研究人员而言)的残余血斑室温储存在密歇根兰辛的密歇根社区卫生部门设备中。如本申请中先前所述的从滤纸上的单一血斑中提取并纯化DNA,并采用如早前所述的Illumina's Infinium人类甲基化450珠芯片系统确定不同CPG岛的甲基化水平。
在8例左心发育不良心脏综合征(HLHS)类型的CHD相对于32例正常案例中比较了整个DNA的多个胞嘧啶处的甲基化水平或百分比。表6示出了位于已知基因中的与HLHS案例和正常案例之间的甲基化的显著性差异相关的4个胞嘧啶基因座。与用于整体预测HLHS案例相对于正常的非心脏病案例的各特定胞嘧啶基因座的分布(边际贡献)一起提供了基因ID号和基因符号。极低的FDR值表明HLHS案例相对于对照组中这些特异性胞嘧啶之间甲基化百分比的高度显著性差异。
示例7
将来自针对代谢紊乱进行常规筛查的新生儿的血斑采集在滤纸上。采集时新生儿的平均年龄为2天。将不用于代谢测试的完全未用于鉴别(对研究人员而言)的残余血斑室温储存在密歇根兰辛的密歇根社区卫生部门设备中。如本申请中先前所述的从滤纸上的单一血斑中提取并纯化DNA,并采用如早前所述的Illumina's Infinium人类甲基化450珠芯片系统确定不同CPG岛的甲基化水平。
在66例CHD的整体组(组合的所有CHD类别)相对于32例正常案例中比较了整个DNA的多个胞嘧啶处的甲基化水平或百分比。表7示出了位于已知基因中的与CHD案例和正常案例之间的甲基化的显著性差异相关的8个胞嘧啶基因座。与用于整体预测全部CHD相对于正常的非心脏病案例的各特定胞嘧啶基因座的分布(边际贡献)一起提供了基因ID号和基因符号全部CHD。极低的FDR值表明全部CHD案例现对于对照组中这些特异性胞嘧啶之间甲基化百分比的高度显著性差异。
示例8
我们还评估了胞嘧啶基因座处的甲基化状态是否可以用于将常见类别的CHD彼此区分出来。在该特定分析中,我们将8例单独的VSD从14例TOF案例中区分了出来。将来自针对代谢紊乱进行常规筛查的新生儿的血斑采集在滤纸上。采集时新生儿的平均年龄为2天。将不用于代谢测试的完全未用于鉴别的残余血斑室温储存在密歇根兰辛的密歇根社区卫生部门设备中。如本申请中先前所述的从滤纸上的单一血斑中提取并纯化DNA,并采用如早前所述的Illumina's Infinium人类甲基化450珠芯片系统确定不同CPG岛的甲基化水平。
在8例单独的VSD相对于14例法洛四联症(TOF)类型的CHD中比较了整个DNA的多个胞嘧啶处的甲基化水平或百分比。表8示出了位于已知基因中的与VSD案例和正常案例之间的甲基化的显著性差异相关的2个胞嘧啶基因座。极低的FDR值表明单独的VSD相对于TOF案例中这些特异性胞嘧啶之间甲基化百分比的高度显著性差异。
示例9
用于CHD检测的甲基化标记物和人口学特征的诊断准确性
仅有有限的人口统计信息可以从患者的出生证明获得以及由密歇根社区卫生部门(MDCH)提供。根据内部审查委员会(IRB)的条款,所有信息是完全匿名的且排除图表审查。人口学特征为新生儿的性别、出生体重、分娩时胎龄、产妇年龄、出生的时间间隔和样品采集(小时)、以及试样采集和分子分析之间的时间(年)。而这些可能除了种族放入因素对影响CHD的形成是未知的,它们各自有可能影响DNA甲基化水平且因此在预测和检测CHD中与胞嘧啶甲基化状态一起被考虑。当与用于CHD预测的人口学特征组合时研究了胞嘧啶甲基化标记物的最佳组合。只有在TOF案例中,人口学特征当与甲基化标记物组合时确实对诊断价值做出了有意义的贡献,如表9所示。
所有的案例和对照具有白人种族以使与种族有关的DNA甲基化中潜在的变异性最小化。除了TOF,发现这些因素中没有一个显著影响儿童发育CHD的风险。
此外,似乎不太可能的是血斑储存的长度在CHD案例和对照之间的甲基化水平中具有显著性差异。
对于表1至9,与用于整体预测各个特定的CHD类别的各特定胞嘧啶基因座的分布(边际贡献)一起提供了基因ID号和基因符号。
用于CHD检测的DNA甲基化标记物的诊断灵敏度和特异性
表10至表18示出了用于检测不同类别CHD的甲基化标记物的诊断灵敏度和特异性。总体来说,采用有限数量的甲基化标记物获得了高灵敏度和特异性。
示例10
基于逻辑回归分析用于检测全部CHD组的甲基化标记物的诊断准确性
如前所述,可以利用逻辑回归分析并基于该计算的灵敏度和特异性值评估个体患CHD的风险。由于各个CHD类别的CHD案例数量小,研究效能不足以计算各个CHD类别的灵敏度和特异性值。因此,这种特定分析限于整体(组合的)CHD组相对于正常案例。
表19a示出了用于从正常对照组中预测全部CHD的两个胞嘧啶基因座的组合。示出了用于预测全部CHD的灵敏度和特异性。此外,提供了证实ROC曲线下的区域对将全部CHD从正常案例中区分出来的统计学显著性的该区域和p-值。增加人口学信息不影响或增进CND预测。表19b提供了关于感兴趣的胞嘧啶基因座的特异性详情。
DNA甲基化测试在将个体CHD案例从正常案例中区分出来方面是高度准确的。
示例11
参与形成先天主动脉瓣狭窄(AVS)的DNA甲基化鉴别基因的改变
我们进行了对患有AVS的新生儿的全基因组DNA甲基化模式进行检查的研究以鉴别含有与疾病相关的基因的基因组区域和可能有助于CHD病理生理学的表观遗传变异。该研究的重要目的为鉴别未来可能用于AVS的风险评估和检测的DNA甲基化生物标记物、血清分子。
利用市售DNA提取试剂盒(Qiagen
)按照制造商的方案从新生儿的干燥血斑获得基因组DNA。血斑试样为密歇根州的密歇根社区卫生部门(MDCH)运行的的强制执行的新生儿筛查和治疗项目而而预先采集的。所有试样是在出生后24和79小时之间采集的。威廉博蒙特(William Beaumont)医院和MDCH的机构审查委员会均批准了该项研究。在血液采集时通报了家长/法定监护人,临床测试后残余的血斑可以用于研究MDCH请求的等待候审的该研究。针对各个受试者可以获得包括样品采集的数据、母体年龄和和种族、分娩时胎龄和新生儿性别以及CHD异常的类型的有限的人口学信息。将疑似或确诊未知AVS案例排除在外。不受影响的正常对照没有报道的医疗紊乱且与出生体重、分娩时胎龄,种族、出生年份和试样采集到测试的间隔相匹配。我们的组群包括24名AVS受试者和24名对照。通过去除其它受保护的健康信息而未对所有的试样进行鉴别,且研究人员戴面具进行鉴别。表20中可以获得控制群组的案例详情。
采用人类甲基化450进行全基因组甲基化分析:采用含有485,577个甲基化位点且仅需要500ng基因组DNA的用于甲基化的人类甲基化450,Illumina’s
HD珠芯片试验(Illumina有限公司,加利福尼亚,美国)对48名个体(24名AVS受试者和24名对照)进行全基因组甲基化分析。这些位点均匀分布在基因组中且代表每个包括启动子区域、5’UTR区域、编码区域和3’UTR区域的被覆盖的基因区域的96%的RefSeq基因、95%的CpG岛和平均17个CpG位点。采用Illumina Infinium技术用外周血淋巴细胞进行的DNA甲基化图谱已经用于鉴别与疾病状态相关的CpG位点。利用EZ DNA直接甲基化试剂盒(Zymo Research,Orange,CA)按照制造商的方案对DNA样品进行亚硫酸氢盐转化。通过Illumina反扫描对荧光染色的珠芯片进行成像。在详细的生物信息学和统计学分析之前进行数据预处理和质量控制,包括检查受影响的阴性对照(甲基化和未甲基化的信号)和甲基化和未甲基化的信号强度的比的背景信号强度。处理完全按照制造商的方案进行且99%的CpG基因座为明确确定的。
统计学和生物信息学分析
利用基因组工作室甲基化分析程序包(Illumina)对全基因组、基因-特异性DNA甲基化进行检查。随后进行上述预处理,将DNA甲基化β-值指定给各个CpG位点。通过将AVS受试者和对照组之间的各个CpG位点处的各个核苷酸的β-值进行比较而对差异甲基化进行评估。如前所述对针对案例和正常组之间各个基因座处的甲基化差异的β-值进行计算。将针对β-值的过滤条件设置为<0.05以及<0.01以鉴别出最与众不同的胞嘧啶。用或不用针对多重测试(Benjamini-Hochberg测试)的假发现率(FDR)校正对β-值进行计算。为了潜在的生物学显著性对差异性甲基化的基因进行进一步分析。对受试者工作特征(ROC)曲线和ROC曲线下的面积进行了计算以确定将AVS从对照组区分出来的特异性胞嘧啶基因座的诊断准确性。采用控制归一化方法对数据进行归一化。
基因本体论分析和功能丰富
将发现为差异性甲基化的基因(FDR p-值<0.01处=上传到基于网络的功能注释工具DAVID V67(DAVID/EASE,WebGestalt)以进行包括基因ID转换、生物通路分析以及甲基化和未甲基化区域的分子功能在内的基因本体论分析。使用Chilibot对感兴趣的基因名称和关键词的同现进行文献数据挖掘。仅对可以获得Entrez标识符的基因进行进一步地分析。利用独创性通路分析(独创性系统)进行通路分析。对过度表达的标准通路、生物过程和分子过程进行鉴别。
出生时胎龄(周):AVS受试者中平均值(SD)为38.75(1.42)相对于对照组中平均值(SD)为38.88(1.19)(p=0.743),生产后试样采集时间(小时),AVS受试者中平均值(SD)为31.042(11.86)相对对照组中平均值(SD)为32.46(8.62)(p=0.638)均没有差异。母体年龄没有差异,AVS受试者中为29.87(4.56)岁相对于对照组中为29.87(4.56)岁(p值为1.0)。最后,母体种族和新生儿性别与分析相匹配。在该研究中,通过对AVS受试者的筛查群组进行全基因组甲基化分析,我们鉴别出位于1835个不同基因中的3346个CpG甲基化位点。在所鉴别出的1835个基因中,分层聚类分析表明~110个通常被甲基化且其甲基化与AVS个体中改变的基因表达有关的新型主要候选基因。基于FDR-校正的p-值,表21A和21B列出了前100个差异性甲基化CpG位点。将甲基化状态表示为针对样品中给定探针的百分比甲基化。正的‘%m变化’值表明相比于对照样品AVS受试者中甲基化状态的平均增加。类似地,负的‘%m变化’值表明相比于对照AVS受试者中甲基化状态的平均减少。p-值表明差异性甲基化水平的显著性。表21A和21B中示出了由Illumina提供的加州大学圣克鲁兹分校(UCSC)CG二核苷酸和染色体中的C的基因名称和其所处的基因组位置。由标准通路和生物过程的DAVID通路和基因本体论过度表达分析获得的结果分别示于表22和23中。由于相对较小的基因列表,采用多种计算工具进行的基因集富集分析显示没有显著的功能性富集。因此获得了列表中给出的所有基因的基因本体信息并对其进行了分类。
采用DAVID通路分析软件以在AVS受试者和对照组之间鉴别出与具有差异性甲基化的CpG位点的基因相关的分子通路。基于未经校正的p-值对具有至少一个差异性甲基化的CpG位点的基因进行了分析。鉴别出34种通路,包括细胞黏附、移植物抗宿主疾病、I型糖尿液病、MAPK信号转导和扩张型心肌病中涉及的通路。这些胰岛素信号转导通路具有显著的一部分具有甲基化变化的基因。
对这些基因的生物过程和代谢功能的确定示于表24。根据基因的基因本体论-特征性功能对其进行进一步分组。鉴别出了四个具有细胞分化功能的基因(ANAPC2、BMP8B、FOXK1和SEMA4B),知道了七个具有蛋白结合功能的基因(FASN、FOXK1、MUS81、PKHD1、PLXNA2、PPIE和TNIK)以及知道了为内在膜蛋白的12个基因(ANO10、ATP9B、C6orf10、FAM26F、GRAMD1B、KHDC1、MMEL1、OMA1、PKHD1、SDK1、SEMA4B和TMC3)。
与表明甲基化状态的FDR p-值组合,ROC曲线下的区域可以用于将AVS受试者从正常对照组中区分出来。一共57个CpG位点具有≥0.75的ROC AUC,另外333个CpG位点具有≥0.70但<0.75的ROC AUC。在各个基因座处,针对AVS受试者和对照组之间的甲基化差异的FDR p-值为高度显著差异的。
在我们的研究中,通路过表达分析中出现的参与胰岛素信号转导的基因和多个胰岛素受体基因在AVS形成中发挥了重要作用。鼠科动物模型中的研究表明糖尿液病小鼠的胎儿的心脏的心脏基因表达的显著变化。发现在心脏发育中参与包括细胞凋亡、增殖、迁移和分化在内的分子信号转导通路的基因被差异性表达。我们的研究中鉴别出的与AVS有关的34种通路中,胰岛素信号转导为最显著的过表达通路,其中基因NR2F2、IRS1和IRS4显示出甲基化变化。NR2F2和IRS1均位于染色体15q26.2-q26.3区域。而且,这两个基因位于2.64-Mb区域,其中NR2F2的3'端和IGF1R的5'区域被2.3-Mb分开。因此,这些基因代表显示出与糖尿液病以及本研究中与AVS相关的染色体15q26.2上的基因簇的两个成员。
参与胰岛素信号转导通路显示出改变的甲基化的另外两个基因为染色体2q36.3上的胰岛素受体底物1(IRS1,OMIM 147545)和染色体Xq22.3上的胰岛素受体底物4(IRS4,OMIM300904)。在多个胰岛素-响应性细胞和组织中发现的IRS1参与调控心脏中的肾素-血管紧张素系统,其对于保护心肌细胞免受缺血性损伤来说非常重要并与胰岛素耐药和糖尿液病的形成有关。
通过基因本体论分析鉴别出的其它重要的差异性甲基化的基因为VI型胶原α-1(COL6A1,MIM 120220)亚单元和VI型胶原α-2(COL6A2,MIM 120240)亚单元。COL6A1/COL6A2基因簇被比对至染色体21q22.3区域并编码广泛表达的细胞外基质蛋白。多个报道表明COL6A1/COL6A2基因参与综合征性和非综合征性先天性心脏缺陷。众所周知,细胞外基质在薄膜胚胎发育中发挥了发挥了至关重要的作用。胶原纤维是包含瓣膜的心脏中细胞外基质内的主要细胞外结构。已经报道了包括类型VI在内的几种不同的胶原类型分隔在了胚胎心脏瓣膜的不同隔间且在阀瓣叶和支撑结构中具有不同的功能。已经证明在未成熟的细胞外基质中胶原基因是高度表达的且当心脏瓣膜重建时表达的水平后来在胚胎形成中下降。因此,胶原基因的异常转录可能导致先天性瓣膜畸形。
编码plexin蛋白的PLXNA2(OMIM 601054)也被差异性甲基化。这种蛋白在胚胎发育过程中在心脏神经嵴迁移中发挥作用。神经嵴细胞自身在心脏发育中发挥关键作用。在我们的研究中还发现染色体18q23区域上的ATP9B(OMIM 614446)基因被差异性甲基化。
我们已经证明了AVS中不同基因中的多个CpG位点中的显著甲基化差异。利用这些单个CpG位点的甲基化水平来计算ROC曲线下的面积,作为假定诊断测量的准确性的衡量,其中57个CpG位点具有≥0.75的ROC AUC以及333个CpG位点具有≥0.7的ROC AUC。这就提高了可以使用大量不同的标记物组合以有效检测AVS的可能性。
表1:甲基化标记物以及从正常组检测单独的VSD:GMAX分析
表2:甲基化标记物以及从正常组检测ASD:GMAX分析
表3:甲基化标记物以及从正常组检测肺动脉瓣狭窄:GMAX分析
表4:甲基化标记物以及从正常组检测主动脉缩窄:GMAX分析
表5:用于从正常组检测法洛四联症的甲基化标记物:GMAX分析
表6:用于从正常组检测左心发育不良心脏综合征的甲基化标记物:GMAX分析
基因座 |
基因ID |
基因符号 |
染色体# |
位置 |
链 |
FDR |
边际贡献(%) |
cg00256081 |
NM_000512 |
GALNS |
16 |
88901299 |
F |
2-02E-36 |
33.00 |
cg02091607 |
NM_000294 |
PHKG2 |
16 |
30760815 |
F |
2-02E-36 |
25.00 |
cg00238468 |
NM_000122 |
ERCC3 |
2 |
128049602 |
F |
2-02E-36 |
25.00 |
cg01510380 |
NM_000744 |
CHRNA4 |
20 |
61981518 |
R |
2-02E-36 |
16.67 |
表7:甲基化标记物以及从正常组检测全部CHD*:GMax分析
*CHD-ASD、VSD、主动脉缩窄、肺动脉瓣狭窄、左心发育不良心脏综合征和法洛四联症
表8:用于从VSD(VSD作为参照组)检测法洛四联症的甲基化标记物:G-Max分析
表9:组合的甲基化标记物以及人口学特征-从正常组预测TOF:G-max分析
基因座 |
基因ID |
基因符号 |
染色体# |
位置 |
链 |
边际贡献 |
婴儿年龄 |
- |
- |
|
|
|
57.48 |
cg01655658 |
NR_027822 |
HLA-L |
6 |
30227583 |
F |
17.38 |
cg00095677 |
NM_174954 |
ATP2A3 |
17 |
3833739 |
R |
8.02 |
cg03052502 |
NR_001553 |
FAM197Y2 |
Y |
9193029 |
F |
6.68 |
男性 |
- |
- |
|
|
|
4.01 |
cg00045070 |
NM_174936 |
PCSK9 |
1 |
55504649 |
R |
2.67 |
NB(9例TOF案例中8例为男性)
幼儿年龄-出生和血样采集之间的小时数
表10:用于从正常组检测VSD的组合的甲基化标记物:GMAX分析
灵敏度(%) |
特异性(%) |
AUC |
P-值 |
100.0 |
93.75 |
0.9844 |
<0.000001 |
组合的甲基化标记物(对于各个标记物,参见表1)
表11:用于从正常组检测ASD的组合的甲基化标记物:GMAX分析
灵敏度 |
特异性 |
AUC |
P-值 |
100.0 |
96.88 |
0.9952 |
<0.000001 |
表12:组合的甲基化标记物以及从正常组检测肺动脉瓣狭窄:GMAX分析
灵敏度(%) |
特异性(%) |
AUC |
P-值 |
91.67 |
96.88 |
0.974 |
<0.000001 |
对于各个甲基化标记物,参见表3。
表13:组合的甲基化标记物以及从正常组检测主动脉缩窄:GMAX分析
灵敏度(%) |
特异性(%) |
AUC |
P-值 |
100.0 |
93.75 |
0.974 |
<0.000001 |
对于各个甲基化标记物,参见表4。
表14.用于从正常组检测法洛四联症的组合的甲基化标记物:GMAX
灵敏度 |
特异性 |
AUC |
P-值 |
70.0 |
93.75 |
0.919 |
0.00014 |
*对于各个甲基化标记物,参见表5。
表15:甲基化标记物以及相对于正常组检测左心发育不良心脏综合征:GMAX分析
灵敏度 |
特异性 |
AUC |
P-值 |
100.0 |
93.75 |
0.9844 |
0.000001 |
*组合的甲基化标记物(对于各个甲基化标记物,参见表6)
表16:甲基化标记物以及从对照组检测全部CHD**:GMAX分析
灵敏度 |
特异性 |
AUC |
P-值 |
82.81 |
78.13 |
0.8535 |
<0.000001 |
*组合的甲基化标记物(对于各个甲基化标记物,参见表7)
**CHD:ASD、VSD、主动脉缩窄、肺动脉瓣狭窄、左心发育不良心脏综合征和法洛四联症
表17:甲基化标记物以及从VSD案例检测法洛四联症:G-Max分析
灵敏度 |
特异性 |
AUC |
P-值 |
100.0 |
100.0 |
1.0 |
0.000023 |
*对于采用的甲基化基因座,参见表8。
表18:用于从正常组检测法洛四联症的甲基化标记物:GMAX分析
灵敏度 |
特异性 |
AUC |
P-值 |
88.89 |
100.00 |
0.9821 |
<0.000001 |
表19a:用于从正常组检测全部CHD*的甲基化和人口学*标记物:逻辑回归分析
全部CHD:ASD、VSD、主动脉缩窄、肺动脉瓣狭窄、左心发育不良心脏综合征和法洛四联症。
*不显著的人口学标记物
表19b:显示出差异性甲基化的胞嘧啶基因座:从正常组检测全部CHD*
表20:该分析中采用的AVS受试者群组和对照组的详情
表21A:显著甲基化区域的染色体和基因位置(AVS)
表21B:对于各个甲基化的基因(AVS)具有靶ID、基因ID、染色体位置和FDR p-值的差异性甲基化的基因
表22:基于DAVID通路和基因本体分析的过度表达的标准通路(AVS)
表23:基于DAVID通路和基因本体分析的过度表达的基因本体分子功能类别(AVS)
表24:针对采用DAVID通路和基因本体分析确定的过度表达通路的生物过程和代谢功能类别(AVS)
表25:具有表明甲基化状态的显著FDR p-值且ROC AUC>0.75似乎很有可能作为用于AVS的诊断标记物的CpG位点