CN109906275A - 检测心血管疾病易感性的组合物和方法 - Google Patents

检测心血管疾病易感性的组合物和方法 Download PDF

Info

Publication number
CN109906275A
CN109906275A CN201780049286.4A CN201780049286A CN109906275A CN 109906275 A CN109906275 A CN 109906275A CN 201780049286 A CN201780049286 A CN 201780049286A CN 109906275 A CN109906275 A CN 109906275A
Authority
CN
China
Prior art keywords
nucleic acid
acid primer
nucleotide
kit
snp
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201780049286.4A
Other languages
English (en)
Other versions
CN109906275B (zh
Inventor
R·菲利伯特
M·多甘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Iowa Research Foundation UIRF
Original Assignee
University of Iowa Research Foundation UIRF
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Iowa Research Foundation UIRF filed Critical University of Iowa Research Foundation UIRF
Priority to CN202310471575.0A priority Critical patent/CN116904572A/zh
Publication of CN109906275A publication Critical patent/CN109906275A/zh
Application granted granted Critical
Publication of CN109906275B publication Critical patent/CN109906275B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/154Methylation markers
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Organic Chemistry (AREA)
  • Genetics & Genomics (AREA)
  • Zoology (AREA)
  • Analytical Chemistry (AREA)
  • Wood Science & Technology (AREA)
  • Engineering & Computer Science (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • Biotechnology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Physics & Mathematics (AREA)
  • Pathology (AREA)
  • Immunology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Acyclic And Carbocyclic Compounds In Medicinal Compositions (AREA)
  • Medicines Containing Antibodies Or Antigens For Use As Internal Diagnostic Agents (AREA)
  • Medicines That Contain Protein Lipid Enzymes And Other Medicines (AREA)

Abstract

提供了用于检测个体的心血管疾病易感性的方法和组合物。

Description

检测心血管疾病易感性的组合物和方法
相关申请
本申请要求2016年6月8日提交的美国申请号62/347,479和2017年2月6日提交的美国申请号62/455,468在35U.S.C.§119(e)下的优先权权益。将这两个申请以其整体并入本文。
关于联邦政府资助研究的声明
本发明是在由美国国立卫生研究院授予的R01DA037648和R44DA041014下在美国政府支持下完成的。美国政府享有本发明的某些权利。
发明背景
心血管疾病(CVD)(其由冠心病(CHD)、充血性心力衰竭(CHF)和中风组成)在美国是首要死因。存在预防CVD发病和死亡的有效治疗,但其临床实施受到低效筛查技术的阻碍。近年来,其他人和我们已经证明,DNA甲基化特征可以推断出与CVD相关的各种障碍的存在,如吸烟。不幸的是,当这些表观遗传技术应用于CVD本身时,这些方法的能力降低,从而限制了它们的临床效用。这些失败的一个可能原因可能是通过基因x甲基化相互作用效应掩盖了CVD的表观遗传特征。
可靠的实验室测试在临床实践中具有实际价值,例如在协助医生为患者开出适当的治疗中。因此,需要鉴定患有CVD或有患上CVD风险的受试者的方法。
发明概述
在某些实施方案中,本公开文本提供了用于确定至少一个CpG二核苷酸的甲基化状态以及至少一个单核苷酸多态性(SNP)的基因型的试剂盒,该试剂盒包含长度为至少8个核苷酸的至少一个第一核酸引物,该至少一个第一核酸引物与经亚硫酸氢盐转化的核酸序列互补,该核酸序列包含来自图15的基因的CpG二核苷酸或来自图16的第一CpG位点、或与来自图16的第一CpG位点共线(例如,R>0.3)的第二CpG位点,其中该至少一个第一核酸引物检测未甲基化CpG二核苷酸;以及长度为至少8个核苷酸的至少一个第二核酸引物,该至少一个第二核酸引物与来自图21的第一SNP或与来自图21的第一SNP连锁不平衡的第二SNP的DNA序列或经亚硫酸氢盐转化的DNA序列互补。在一些实施方案中,连锁不平衡具有R>0.3的值。
在某些实施方案中,本公开文本提供了用于确定至少一个CpG二核苷酸的甲基化状态以及至少一个单核苷酸多态性(SNP)的基因型的试剂盒,该试剂盒包含长度为至少8个核苷酸的至少一个第一核酸引物,该至少一个第一核酸引物与经亚硫酸氢盐转化的核酸序列互补,该核酸序列包含来自图17的基因或来自图18的第一CpG二核苷酸或者与来自图18的第一CpG位点共线(例如,R>0.3)的第二CpG二核苷酸,其中该至少一个第一核酸引物检测未甲基化CpG二核苷酸;以及长度为至少8个核苷酸的至少一个第二核酸引物,该至少一个第二核酸引物与来自图22的第一SNP或与来自图22的第一SNP连锁不平衡的第二SNP的DNA序列或经亚硫酸氢盐转化的DNA序列互补。在一些实施方案中,连锁不平衡具有R>0.3的值。
在某些实施方案中,本公开文本提供了用于确定至少一个CpG二核苷酸的甲基化状态以及至少一个单核苷酸多态性(SNP)的基因型的试剂盒,该试剂盒包含长度为至少8个核苷酸的至少一个第一核酸引物,该至少一个第一核酸引物与经亚硫酸氢盐转化的核酸序列互补,该核酸序列包含来自图19的基因的CpG二核苷酸或者图20中的第一CpG位点或与来自图20的第一CpG位点共线(R>0.3)的第二CpG二核苷酸,其中该至少一个第一核酸引物检测未甲基化CpG二核苷酸;以及长度为至少8个核苷酸的至少一个第二核酸引物,该至少一个第二核酸引物与来自图23的第一SNP或与来自图23的第一SNP连锁不平衡的第二SNP的DNA序列或经亚硫酸氢盐转化的DNA序列互补。在一些实施方案中,连锁不平衡具有R>0.3的值。
在某些实施方案中,本公开文本提供了用于确定至少一个CpG二核苷酸的甲基化状态以及至少一个单核苷酸多态性(SNP)的存在的试剂盒,该试剂盒包含长度为至少8个核苷酸的至少一个第一核酸引物,该至少一个第一核酸引物与经亚硫酸氢盐转化的核酸序列互补,该核酸序列包含在转化生长因子β受体III(TGFBR3)基因内的染色体1的位置92203667处的CpG二核苷酸,其中该至少一个第一核酸引物检测未甲基化CpG二核苷酸;以及长度为至少8个核苷酸的至少一个第二核酸引物,该至少一个第二核酸引物与SNPrs347027互补。
在某些实施方案中,本公开文本提供了用于确定至少一个CpG二核苷酸的甲基化状态以及至少一个单核苷酸多态性(SNP)的存在的试剂盒,该试剂盒包含长度为至少8个核苷酸的至少一个第一核酸引物,该至少一个第一核酸引物与经亚硫酸氢盐转化的核酸序列互补,该核酸序列包含在染色体15的基因间隔区中的位置38364951处的CpG二核苷酸,其中该至少一个第一核酸引物检测未甲基化CpG二核苷酸;以及长度为至少8个核苷酸的至少一个第二核酸引物,该至少一个第二核酸引物与SNP rs4937276互补。
在某些实施方案中,本公开文本提供了用于确定至少一个CpG二核苷酸的甲基化状态以及至少一个单核苷酸多态性(SNP)的存在的试剂盒,该试剂盒包含长度为至少8个核苷酸的至少一个第一核酸引物,该至少一个第一核酸引物与经亚硫酸氢盐转化的核酸序列互补,该核酸序列包含在辅酶Q24-羟基苯甲酸聚异戊二烯基转移酶(COQ2)基因中的染色体4的位置84206068处的CpG二核苷酸,其中该至少一个第一核酸引物检测未甲基化CpG二核苷酸;以及长度为至少8个核苷酸的至少一个第二核酸引物,该至少一个第二核酸引物与SNP rs17355663互补。
在某些实施方案中,本公开文本提供了用于确定至少一个CpG二核苷酸的甲基化状态以及至少一个单核苷酸多态性(SNP)的存在的试剂盒,该试剂盒包含长度为至少8个核苷酸的至少一个第一核酸引物,该至少一个第一核酸引物与经亚硫酸氢盐转化的核酸序列互补,该核酸序列包含在硫酸乙酰肝素3-O-磺基转移酶4(HS3ST4)基因中的染色体16的位置26146070处的CpG二核苷酸,其中该至少一个第一核酸引物检测未甲基化CpG二核苷酸;以及长度为至少8个核苷酸的至少一个第二核酸引物,该至少一个第二核酸引物与SNPrs235807互补。
在某些实施方案中,本公开文本提供了用于确定至少一个CpG二核苷酸的甲基化状态以及至少一个单核苷酸多态性(SNP)的存在的试剂盒,该试剂盒包含长度为至少8个核苷酸的至少一个第一核酸引物,该至少一个第一核酸引物与经亚硫酸氢盐转化的核酸序列互补,该核酸序列包含在染色体1的基因间隔区的位置91171013处的CpG二核苷酸,其中该至少一个第一核酸引物检测未甲基化CpG二核苷酸;以及长度为至少8个核苷酸的至少一个第二核酸引物,该至少一个第二核酸引物与SNP rs11579814互补。
在某些实施方案中,本公开文本提供了用于确定至少一个CpG二核苷酸的甲基化状态以及至少一个单核苷酸多态性(SNP)的存在的试剂盒,该试剂盒包含长度为至少8个核苷酸的至少一个第一核酸引物,该至少一个第一核酸引物与经亚硫酸氢盐转化的核酸序列互补,该核酸序列包含在NADH脱氢酶(泛醌)Fe-S蛋白5(NDUFS5)基因中的染色体1的位置39491936处的CpG二核苷酸,其中该至少一个第一核酸引物检测未甲基化CpG二核苷酸;以及长度为至少8个核苷酸的至少一个第二核酸引物,该至少一个第二核酸引物与SNPrs2275187互补。
在某些实施方案中,本公开文本提供了用于确定至少一个CpG二核苷酸的甲基化状态以及至少一个单核苷酸多态性(SNP)的存在的试剂盒,该试剂盒包含长度为至少8个核苷酸的至少一个第一核酸引物,该至少一个第一核酸引物与经亚硫酸氢盐转化的核酸序列互补,该核酸序列包含在映射至光传感因子基因中的染色体1的位置186426136处的CpG二核苷酸,其中该至少一个第一核酸引物检测未甲基化CpG二核苷酸;以及长度为至少8个核苷酸的至少一个第二核酸引物,该至少一个第二核酸引物与SNP rs4336803互补。
在某些实施方案中,本公开文本提供了用于确定至少一个CpG二核苷酸的甲基化状态以及至少一个单核苷酸多态性(SNP)的存在的试剂盒,该试剂盒包含长度为至少8个核苷酸的至少一个第一核酸引物,该至少一个第一核酸引物与经亚硫酸氢盐转化的核酸序列互补,该核酸序列包含在周期蛋白依赖性激酶18(CDK18)基因中的染色体1的位置205475130处的CpG二核苷酸,其中该至少一个第一核酸引物检测未甲基化CpG二核苷酸;以及长度为至少8个核苷酸的至少一个第二核酸引物,该至少一个第二核酸引物与SNPrs4951158互补。
在某些实施方案中,本公开文本提供了用于确定至少一个CpG二核苷酸的甲基化状态以及至少一个单核苷酸多态性(SNP)的存在的试剂盒,该试剂盒包含长度为至少8个核苷酸的至少一个第一核酸引物,该至少一个第一核酸引物与经亚硫酸氢盐转化的核酸序列互补,该核酸序列包含在Ca++转运ATP酶2C型成员1(ATP2C1)基因中的染色体3的位置130614013处的CpG二核苷酸,其中该至少一个第一核酸引物检测未甲基化CpG二核苷酸;以及长度为至少8个核苷酸的至少一个第二核酸引物,该至少一个第二核酸引物与SNPrs925613互补。
在某些实施方案中,本公开文本提供了用于确定至少一个CpG二核苷酸的甲基化状态的试剂盒,该试剂盒包含:长度为至少8个核苷酸的至少一个第一核酸引物,该至少一个第一核酸引物与经亚硫酸氢盐转化的核酸序列互补,该核酸序列包含在转化生长因子β受体III(TGFBR3)基因内的染色体1的位置92203667处的CpG二核苷酸,其中该至少一个第一核酸引物包含一个或多个核苷酸类似物或者一个或多个合成或非天然核苷酸,且其中该至少一个核酸引物检测未甲基化CpG二核苷酸或甲基化CpG二核苷酸。
在某些实施方案中,本公开文本提供了用于确定至少一个CpG二核苷酸的甲基化状态的试剂盒,该试剂盒包含:长度为至少8个核苷酸的至少一个第一核酸引物,该至少一个第一核酸引物与经亚硫酸氢盐转化的核酸序列互补,该核酸序列包含在转化生长因子β受体III(TGFBR3)基因内的染色体1的位置92203667处的CpG二核苷酸,且其中该至少一个核酸引物检测未甲基化CpG二核苷酸或甲基化CpG二核苷酸;以及选自下组的可检测标记,该组由以下各项组成:酶标记、荧光标记和比色标记。
在某些实施方案中,本公开文本提供了用于确定至少一个CpG二核苷酸的甲基化状态的试剂盒,该试剂盒包含:长度为至少8个核苷酸的至少一个第一核酸引物,该至少一个第一核酸引物与经亚硫酸氢盐转化的核酸序列互补,该核酸序列包含在转化生长因子β受体III(TGFBR3)基因内的染色体1的位置92203667处的CpG二核苷酸,且其中该至少一个核酸引物检测未甲基化CpG二核苷酸或甲基化CpG二核苷酸;以及该至少一个第一核酸引物所结合的固体基质。
在某些实施方案中,本公开文本提供了用于检测易患或患有冠心病的受试者的方法,该方法包括:(a)提供来自该受试者的生物样品;(b)使来自该生物样品的DNA与亚硫酸氢盐在碱性条件下接触;(c)使该经亚硫酸氢盐处理的DNA与长度为至少8个核苷酸的至少一个第一寡核苷酸探针接触,该至少一个第一寡核苷酸探针与包含在转化生长因子β受体III(TGFBR3)内的染色体1的位置92203667处的CpG二核苷酸的序列互补,其中该至少一个第一寡核苷酸探针检测未甲基化CpG二核苷酸或甲基化CpG二核苷酸;(d)确定单核苷酸多态性rs347027处的基因型;和(e)检测未甲基化CpG二核苷酸或甲基化CpG二核苷酸,其中当确定rs347027的基因型时,染色体1的位置92203667处的CpG二核苷酸的甲基化与冠心病相关。
在某些实施方案中,本公开文本提供了用于测量来自患者的生物样品中生物标记物的存在的方法,改进之处包括(a)使来自该生物样品的DNA与亚硫酸氢盐在碱性条件下接触;和(b)使该经亚硫酸氢盐处理的DNA与长度为至少8个核苷酸的至少一个第一寡核苷酸探针接触,该至少一个第一寡核苷酸探针与包含在转化生长因子β受体III(TGFBR3)基因内的染色体1的位置92203667处的CpG二核苷酸的序列互补,其中该至少一个第一寡核苷酸探针检测未甲基化CpG二核苷酸或甲基化CpG二核苷酸,用于预测该患者患有冠心病或患上冠心病的可能性增加。
在某些实施方案中,本公开文本提供了预测来自患者的生物样品中与心血管疾病(CVD)相关的生物标记物的存在的方法,该方法包括(a)提供来自该生物样品的第一等分试样,并使来自该第一生物样品的DNA与亚硫酸氢盐在碱性条件下接触;和(b)提供来自该生物样品的第二等分试样;(c)(i)使该第一等分试样与长度为至少8个核苷酸的第一寡核苷酸探针接触,该第一寡核苷酸探针与包含在转化生长因子β受体III(TGFBR3)基因内的染色体1的位置92203667处的CpG二核苷酸的序列互补,且使该第二等分试样与长度为至少8个核苷酸的核酸引物接触,该核酸引物与SNP rs347027互补;(ii)使该第一等分试样与长度为至少8个核苷酸的第一寡核苷酸探针接触,该第一寡核苷酸探针与包含在染色体15的基因间隔区中的位置38364951处的CpG二核苷酸的序列互补,且使第二等分试样与长度为至少8个核苷酸的核酸引物接触,该核酸引物与SNP rs4937276互补;(iii)使该第一等分试样与长度为至少8个核苷酸的第一寡核苷酸探针接触,该第一寡核苷酸探针与包含在辅酶Q24-羟基苯甲酸聚异戊二烯基转移酶(COQ2)基因中的染色体4的位置84206068处的CpG二核苷酸的序列互补,且使该第二等分试样与长度为至少8个核苷酸的核酸引物接触,该核酸引物与SNP rs17355663互补;(iv)使该第一等分试样与长度为至少8个核苷酸的第一寡核苷酸探针接触,该第一寡核苷酸探针与包含在硫酸乙酰肝素3-O-磺基转移酶4(HS3ST4)基因中的染色体16的位置26146070处的CpG二核苷酸的序列互补,且使该第二等分试样与长度为至少8个核苷酸的核酸引物接触,该核酸引物与SNP rs235807互补;(v)使该第一等分试样与长度为至少8个核苷酸的第一寡核苷酸探针接触,该第一寡核苷酸探针与包含在染色体1的基因间隔区的位置91171013处的CpG二核苷酸的序列互补,且使该第二等分试样与长度为至少8个核苷酸的核酸引物接触,该核酸引物与SNP rs11579814互补;(vi)使该第一等分试样与长度为至少8个核苷酸的第一寡核苷酸探针接触,该第一寡核苷酸探针与包含在NADH脱氢酶(泛醌)Fe-S蛋白5(NDUFS5)基因中的染色体1的位置39491936处的CpG二核苷酸的序列互补,且使该第二等分试样与长度为至少8个核苷酸的核酸引物接触,该核酸引物与SNP rs2275187互补;(vii)使该第一等分试样与长度为至少8个核苷酸的第一寡核苷酸探针接触,该第一寡核苷酸探针与包含在映射至光传感因子基因中的染色体1的位置186426136处的CpG二核苷酸的序列互补,且使该第二等分试样与长度为至少8个核苷酸的核酸引物接触,该核酸引物与SNP rs4336803互补;(viii)使该第一等分试样与长度为至少8个核苷酸的第一寡核苷酸探针接触,该第一寡核苷酸探针与包含在周期蛋白依赖性激酶18(CDK18)基因中的染色体1的位置205475130处的CpG二核苷酸的序列互补,且使该第二等分试样与长度为至少8个核苷酸的核酸引物接触,该核酸引物与SNP rs4951158互补;和/或(ix)使该第一等分试样与长度为至少8个核苷酸的第一寡核苷酸探针接触,该第一寡核苷酸探针与包含在Ca++转运ATP酶2C型成员1(ATP2C1)基因中的染色体3的位置130614013处的CpG二核苷酸的序列互补,且使该第二等分试样与长度为至少8个核苷酸的核酸引物接触,该核酸引物与rs925613互补,其中TGFBR3基因内的染色体1的位置92203667、cg20636912、cg16947947、cg05916059、cg04567738、cg16603713、cg05709437、cg12081870和/或cg18070470处的CpG二核苷酸的甲基化,以及染色体1的位置91618766处的G,或rs4937276、rs17355663、rs235807、rs11579814、rs2275187、rs4336803、rs4951158和/或rs925613中的多态性与CVD相关。
在某些实施方案中,该生物样品是唾液样品。
在某些实施方案中,本公开文本提供了用于检测来自具有心血管疾病(CVD)风险的受试者的核酸样品上rs347027处的G等位基因的一个或多个拷贝以及cg13078798处的甲基化状态的方法,该方法包括a)对所述人类受试者的核酸样品进行基因分型测定,以检测rs347027多态性的G等位基因的一个或多个拷贝的存在;和b)对所述人类的核酸样品进行cg13078798处的甲基化评价,以检测甲基化状态,以确定cg13078798是否未甲基化。
在某些实施方案中,本公开文本提供了预测来自患者生物样品中与心血管疾病(CVD)相关的生物标记物的存在的方法,该方法包括检测表3中的一对或多对SNP和CpG(例如,SNP rs347027连同CpG cg13078798;SNP rs4937276连同CpG cg20636912;SNPrs17355663连同CpG cg16947947;SNP rs235807连同CpG cg05916059;SNP rs11579814连同CpG cg04567738;SNP rs2275187连同CpG cg16603713;SNP rs4336803连同CpGcg05709437;SNP rs4951158连同CpG cg12081870;和/或SNP rs925613连同CpGcg18070470)。
在某些实施方案中,CVD是冠心病(CHD)、充血性心力衰竭(CHF)和/或中风。
在某些实施方案中,本公开文本提供了确定患者样品中与CHD相关的生物标记物的存在的方法,该方法包括:(a)从该患者样品分离核酸样品;(b)对该核酸样品的第一等分试样进行基因分型测定,以检测至少一个SNP的存在,其中该SNP选自图21中的第一SNP和/或是与图21中的第一SNP连锁不平衡(例如,R>0.3)的第二SNP,以获得基因型数据;和/或(c)对该核酸的第二等分试样中核酸进行亚硫酸氢盐转化,并对该核酸样品的第二等分试样进行甲基化评价,以检测来自图15的至少一个基因或来自图16的第一CpG位点和/或与来自图16的第一CpG共线(例如,R>0.3)的第二CpG位点的甲基化状态,以获得关于特定CpG残基是否未甲基化的甲基化数据;和(d)将来自步骤(b)的基因型和/或来自步骤(c)的甲基化数据输入算法中,该算法考虑至少一个SNP主效应和/或至少一个CpG主效应和/或至少一个相互作用效应(例如,SNPxSNP、CpGxCpG、SNPxCpG)的贡献。在一些实施方案中,该算法是Random ForestTM或能够考虑线性和非线性效应的另一算法。
在某些实施方案中,本公开文本提供了确定患者样品中与中风相关的生物标记物的存在的方法,该方法包括:(a)从该患者样品分离核酸样品;(b)对该核酸样品的第一等分试样进行基因分型测定,以检测至少一个SNP的存在,其中该SNP选自图22中的第一SNP和/或与图22中的第一SNP连锁不平衡(例如,R>0.3)的第二SNP,以获得基因型数据;和/或(c)对该核酸的第二等分试样中核酸进行亚硫酸氢盐转化,并对该核酸样品的第二等分试样进行甲基化评价,以检测来自图17的至少一个基因或来自图18的第一CpG位点和/或与来自图18的第一CpG共线(例如,R>0.3)的第二CpG位点的甲基化状态,以获得关于特定CpG残基是否未甲基化的甲基化数据;和(d)将来自步骤(b)的基因型和/或来自步骤(c)的甲基化数据输入算法中,该算法考虑至少一个SNP主效应和/或至少一个CpG主效应和/或至少一个相互作用效应(例如,SNPxSNP、CpGxCpG、SNPxCpG)的贡献。在一些实施方案中,该算法是RandomForestTM或能够考虑线性和非线性效应的另一算法。
在某些实施方案中,本公开文本提供了确定患者样品中与CHF相关的生物标记物的存在的方法,该方法包括:(a)从该患者样品分离核酸样品;(b)对该核酸样品的第一等分试样进行基因分型测定,以检测至少一个SNP的存在,其中该SNP选自图23中的第一SNP和/或与图23中的第一SNP连锁不平衡(例如,R>0.3)的第二SNP,以获得基因型数据;和/或(c)对该核酸的第二等分试样中核酸进行亚硫酸氢盐转化,并对该核酸样品的第二等分试样进行甲基化评价,以检测来自图19的至少一个基因或来自图20的第一CpG位点和/或与来自图20的第一CpG共线(例如,R>0.3)的第二CpG位点的甲基化状态,以获得关于特定CpG残基是否未甲基化的甲基化数据;和(d)将来自步骤(b)的基因型和/或来自步骤(c)的甲基化数据输入算法中,该算法考虑至少一个SNP主效应和/或至少一个CpG主效应和/或至少一个相互作用效应(例如,SNPxSNP、CpGxCpG、SNPxCpG)的贡献。在一些实施方案中,该算法是RandomForestTM或能够考虑线性和非线性效应的另一算法。
在某些实施方案中,结果包含与来自图16的第一CpG共线(例如,R>0.3)的第二CpG位点与来自图21的第一SNP或与来自图21的第一SNP连锁不平衡(例如,R>0.3)的第二SNP之间的基因-环境相互作用效应(SNPxCpG)。在某些实施方案中,结果包含来自图16的至少两个CpG位点和/或来自图15的至少两个基因之间的至少一个环境-环境相互作用效应(CpGxCpG)。在某些实施方案中,结果包含与来自图16的第一CpG位点共线的至少两个CpG位点之间的至少一个环境-环境相互作用效应(CpGxCpG)。在某些实施方案中,结果包含与来自图18的第一CpG共线(例如,R>0.3)的CpG位点与来自图22的第一SNP或与来自图22的第一SNP连锁不平衡(例如,R>0.3)的第二SNP之间的基因-环境相互作用效应(SNPxCpG)。在某些实施方案中,结果包含来自图18的至少两个CpG位点和/或来自图17的基因之间的至少一个环境-环境相互作用效应(CpGxCpG)。在某些实施方案中,结果包含与来自图18的第一CpG位点共线的至少两个CpG位点之间的至少一个环境-环境相互作用效应(CpGxCpG)。在某些实施方案中,结果包含与来自图20的第一CpG共线(例如,R>0.3)的第二CpG位点与来自图23的第一SNP或与来自图23的第一SNP连锁不平衡(例如,R>0.3)的第二SNP之间的基因-环境相互作用效应(SNPxCpG)。在某些实施方案中,结果包含来自图20的至少两个CpG位点和/或来自图19的基因之间的至少一个环境-环境相互作用效应(CpGxCpG)。在某些实施方案中,结果包含与来自图20的第一CpG位点共线的至少两个CpG位点之间的至少一个环境-环境相互作用效应(CpGxCpG)。
在本公开文本的某些实施方案中,血细胞是淋巴细胞,如单核细胞、嗜碱性粒细胞、嗜酸性粒细胞和/或嗜中性粒细胞。在某些实施方案中,淋巴细胞类型是B淋巴细胞。在某些实施方案中,B淋巴细胞已经永生化。在某些实施方案中,血细胞类型是外周白细胞的混合物。在某些实施方案中,外周血细胞已经转化为细胞系。
在某些实施方案中,分析过程包括比较所得图谱与参考图谱。在某些实施方案中,参考图谱包含从一名或多名健康对照受试者获得的数据,或包含从诊断患有物质使用障碍的一名或多名受试者获得的数据。在某些实施方案中,该方法还包括获得所获得的图谱与参考图谱的相似性的统计度量。在某些实施方案中,血细胞或血细胞衍生物是外周血细胞。在某些实施方案中,图谱是通过对甲基化DNA测序获得的,如通过数据测序。
在某些实施方案中,本公开文本还可以采用PCR(聚合酶链式反应)测定的形式。在一些情况下,将采用实时PCR测定(RTPCR)或数字PCR测定的形式。在这些PCR测定的某些实施方案中,试剂盒可以含有特异性扩增目标基因的某一区域的两个引物以及选择性识别该扩增区域的基因特异性探针。引物和基因特异性探针一起称为引物-探针组。通过测量PCR反应的给定时间点或整个PCR反应期间与扩增区段杂交的基因特异性探针的量,本领域技术人员可以推断出在开始反应时最初存在的核酸的量。在一些情况下,杂交的探针的量是通过荧光分光光度法测量的。引物-探针组的数量可以是1与10,000个探针之间的任何整数,如1、2、3、4、5、6、7、8、9、10、...9997、9998、9999、10,000。在一个试剂盒中,所有探针可以物理地位于单个反应孔中或多个反应孔中。探针可以呈干燥形式或呈液体形式。它们可以用于单个反应中或一系列反应中。在某些实施方案中,探针是寡核苷酸探针。在某些实施方案中,探针是核酸衍生物探针。
除非另外定义,否则本文中使用的所有技术术语和科学术语具有与方法和物质组成所属领域的普通技术人员通常所理解的相同的含义。尽管与本文所述的方法和材料类似或等同的那些方法和材料可以用于方法和物质组成的实践或测试中,但下面描述了合适的方法和材料。另外,材料、方法以及实施例仅仅是说明性的并不意在是限制性的。本文提及的所有出版物、专利申请、专利和其他参考文献都通过引用以其整体而并入。
附图简述
图1A-1D.cg05575921(A)、年龄+性别+批次+cg05575921(B)、自我报告的吸烟状态(C)和年龄+性别+批次+自我报告的吸烟状态(D)的接受者操作特征曲线下面积。
图2.CHD预测模型(未优化)的接受者操作特征曲线下面积。
图3.CHD的蛋白质间相互作用组。与症状性CHD显著相关的具有至少一个DNA甲基化探针的前1000个基因的网络。
图4.与症状性CHD及其常规可改变风险因子显著相关的DNA甲基化探针的维恩图。
图5.与症状性CHD及其常规可改变风险因子显著相关的具有至少一个DNA甲基化探针的基因的维恩图。
图6.具有最高平均10折交叉验证AUC值的整合遗传-表观遗传模型的ROC曲线。
图7.具有最高平均10折交叉验证AUC值的常规风险因子模型的ROC曲线。
图8.DNA甲基化位点和SNP的部分依赖曲线图。
图9.DNA甲基化位点与SNP的10,000个排列的敏感性和特异性的二维直方图。
图10.效应CHF分类模型的ROC曲线。
图11.相互作用效应CHF分类模型的ROC曲线。
图12.主效应中风分类模型的ROC曲线。
图13.相互作用效应中风分类模型的ROC曲线。
图14.本发明方法的某些实施方案的流程图。
图15.甲基化与CHD相关的基因的列表。
图16.甲基化与CHD相关的CpG的列表。
图17.甲基化与中风相关的基因的列表。
图18.甲基化与中风相关的CpG的列表。
图19.甲基化与CHF相关的基因的列表。
图20.甲基化与CHF相关的CpG的列表。
图21.与CHD相关的SNP的列表。
图22.与中风相关的SNP的列表。
图23.与CHF相关的SNP的列表。
发明详述
本公开文本提供了用于确定受试者是否易感或有可能患有或患上心血管疾病(CVD)的方法和试剂盒。如本文所示,一个或多个CpG二核苷酸的甲基化状态单独或与基因型的组合和/或基因型与甲基化状态之间的相互作用(例如,CH3xSNP)与CVD相关。如本文所用,术语“易感性(predisposition)”定义为受试者表现出病症的倾向或易感性。例如,受试者比对照受试者更有可能表现出病症。
DNA甲基化
DNA在细胞中不作为裸分子存在。例如,DNA与称为组蛋白的蛋白质缔合,形成称为染色质的复合物质。DNA或组蛋白的化学修饰改变染色质的结构,但不改变DNA的核苷酸序列。此类修饰被描述为DNA的“表观遗传”修饰。染色质结构的改变对基因表达可能具有深远影响。如果染色质凝聚,参与基因表达的因子可能无法接近DNA,且基因将关闭。相反,如果染色质是“打开的”,基因可以打开。表观遗传修饰的一些重要形式是DNA甲基化和组蛋白脱乙酰化。DNA甲基化是DNA分子本身的化学修饰,且通过称为DNA甲基转移酶的酶进行。甲基化可以通过防止转录因子结合启动子而直接关闭基因表达。更普遍的效果是吸引甲基结合结构域(MBD)蛋白。这些与称为组蛋白脱乙酰酶(HDAC)的其他酶有关,其功能是化学修饰组蛋白并改变染色质结构。含乙酰化组蛋白的染色质是打开的,且转录因子可接近,且基因具有潜在活性。组蛋白脱乙酰化导致染色质凝聚,使得转录因子无法接近,并导致基因沉默。
CpG岛是DNA的短延伸部,其中CpG序列的频率高于其他区域。术语CpG中的“p”表示半胱氨酸(“C”)和鸟嘌呤(“G”)通过磷酸二酯键连接。CpG岛通常位于管家基因和许多调控基因的启动子周围。在这些位置,CG序列未甲基化。相比之下,失活基因中的CG序列通常甲基化,以抑制其表达。
如本文所用,术语“甲基化状态”意指确定某一靶DNA(如CpG二核苷酸)是否甲基化。如本文所用,术语“CpG二核苷酸重复基序”意指位于DNA序列中的一系列的两个或更多个CpG二核苷酸。
约56%的人类基因和47%的小鼠基因与CpG岛相关。通常,CpG岛与启动子重叠,并向下游延伸约1000个碱基对进入转录单位。序列分析期间鉴定潜在CpG岛有助于限定基因的5′末端,这在基于cDNA的方法中是非常困难的。技术人员可以使用适合确定这种甲基化的任何方法来确定CpG岛的甲基化。例如,技术人员可以使用基于亚硫酸氢盐反应的方法来确定这种甲基化。
本公开文本提供了确定患者的TGFBR3的核酸甲基化以预测疑似易患或患有CHD的患者的临床过程和最终结果的方法。
特别地,在本公开文本的某些实施方案中,该方法可以如下实施。从患者取出样品(如血液样品)。在某些实施方案中,可以分离从血液分离的单细胞类型(例如,淋巴细胞、嗜碱性粒细胞或单核细胞),用于进一步测试。从样品收获DNA,并检查以确定TGFBR3区域是否甲基化。例如,可以用亚硫酸氢盐处理目标DNA,以脱去未甲基化胞嘧啶残基的氨基,得到尿嘧啶。由于尿嘧啶碱基与腺苷配对,胸苷在随后的PCR扩增期间被掺入后续DNA链中代替未甲基化的胞嘧啶残基。接下来,靶序列通过PCR扩增,并用TGFBR3特异性探针探测。只有来自患者的甲基化的DNA才会结合至该探针。特定图谱与特定病症相关。
确定患者核酸图谱的方法是本领域技术人员所熟知的,并且包括任何公知的检测方法。各种PCR方法描述于例如PCR Primer:A Laboratory Manual,Dieffenbach7Dveksler编辑,Cold Spring Harbor Laboratory Press,1995中。其他分析方法包括但不限于核酸定量、限制酶消化、DNA测序、杂交技术(如Southern印迹等)、扩增方法(如连接酶链式反应(LCR)、基于核酸序列的扩增(NASBA)、自持序列复制(SSR或3SR)、链置换扩增(SDA)和转录介导扩增(TMA))、定量PCR(qPCR)或其他DNA分析,以及RT-PCR、体外翻译、Northern印迹和其他RNA分析。在另一个实施方案中,使用微阵列杂交。
单核苷酸多态性(SNP)基因分型
用于筛选遗传疾病的传统方法依赖鉴定异常基因产物(例如,镰状细胞性贫血)或异常表型(例如,精神发育迟缓)。随着简单且廉价的遗传筛选方法的发展,现在可以鉴定预示患上疾病的倾向的多态性,即使当该疾病是多基因起源的。
单核苷酸多态性(SNP)基因分型测量物种成员之间SNP的基因变异。SNP是特定基因座处的单碱基对突变,通常由两个等位基因(其中罕见等位基因频率>1%)组成,且极为常见。因为SNP在进化过程中是保守的,已提出将它们用作用于数量性状基因座(QTL)分析和关联研究中代替微卫星的标记物。已知许多不同SNP基因分型方法,包括基于杂交的方法(如动态等位基因特异性杂交、分子信标和SNP微阵列)、基于酶的方法(包括限制性片段长度多态性、基于PCR的方法、瓣状核酸内切酶、引物延伸、5’-核酸酶和寡核苷酸连接测定)、基于DNA物理性质的其他后扩增方法(如单链构象多态性、温度梯度凝胶电泳、变性高效液相色谱法、整个扩增子的高分辨率熔化、使用DNA错配结合蛋白、SNPlex和测量员核酸酶测定)和测序(如“下一代”测序)。参见例如美国专利号7,972,779。
具有不同器官功能(例如,在心脏中表达水平高和低,或例如,在心脏中表达水平高、中等和低)的多个等位基因可以来自基因中编码多肽的区域中的一个或多个多态性或者可以在影响多肽表达的调节控制序列(如启动子或聚腺苷酸化序列)中。可替代地,相关等位基因可以来自位于对所鉴定的行为具有直接影响的基因远端的基因座处的一个或多个多态性,其中远端基因座的产物对行为具有间接影响。相关等位基因可以在转录或翻译水平上影响多肽,且可以影响多肽转录速率、翻译速率、降解速率或活性。脑功能基因处的等位基因之间的差异可以通过技术人员熟知的前述任何测定方法在来自一名受试者或多名受试者的样品中表征。此类方法可以包括但不限于测量编码的多肽的量和测量多核苷酸序列表达的可能性。测定方法可以直接或间接检测蛋白质或核酸。可以评估上游启动子区域对于指导编码多肽的多核苷酸的编码区的转录的适合性,或者可以评估编码区对编码功能性多肽的适合性。特别考虑的测定方法包括使用例如任何各种已知的微阵列技术筛选核酸或多肽的特定序列或结构的存在。
技术人员将充分理解,等位基因无需先前显示出与障碍表型有任何联系或关联。相反,即使当等位基因和风险因子都与障碍表型没有任何直接关系时,等位基因和致病环境风险因子也可以相互作用来预测障碍表型的易感性。
遗传筛选(也称为基因分型或分子筛选)可以广义地定义为用以确定患者是否具有导致疾病状态或与引起疾病状态的突变“相关联”的突变(或等位基因或多态性)的测试。连锁是指在基因组中紧靠在一起的DNA序列具有一起遗传的趋势的现象。两个序列可能由于共遗传的一些选择优势而连锁。然而,更典型地,两个多态性序列因为减数分裂重组事件在两个多态性之间的区域内发生相对不频繁而共遗传。据说,共遗传的多态性等位基因彼此“连锁不平衡”,因为在给定群体中,它们在群体的任何特定成员中倾向于一起发生或根本不发生。实际上,当发现给定染色体区域内的多个多态性彼此处于连锁不平衡时,它们定义了准稳定的遗传“单倍型”。相反,在两个多态性基因座之间发生的重组事件使它们分离到不同的同源染色体上。如果两个物理连锁的多态性之间的减数分裂重组足够频繁地发生,则这两个多态性似乎独立地分离并且据说处于连锁平衡。
应当理解,可以定量连锁平衡/不平衡(使用例如皮尔逊相关性(R)或等位基因的共遗传(D′))。例如,约0.1或更小的相关性(例如,R值)反映低水平连锁,约0.3的R值反映中等水平连锁,而0.5或更大的R值反映高水平连锁。还应理解,当提及甲基化(即CpG)时,共线性(具有R值)用于确定两个CpG之间的线性缔合强度(例如,低水平的共线性可以通过约0.1或更小的R值反映;中等水平的共线性可以通过约0.3的R值反映;并且高水平的共线性可以通过约0.5或更大的R值反映)。
虽然两个标记物之间减数分裂重组的频率通常与它们在染色体上的物理距离成比例,但“热点”以及受抑制的染色体重组区域的出现可能导致两个标记物之间的物理和重组距离之间的差异。因此,在某些染色体区域中,跨越宽染色体结构域的多个多态性基因座可以彼此连锁不平衡,从而定义宽跨度的遗传单倍型。此外,当此单倍型内发现或发现与此单倍型连锁的引起疾病的突变时,单倍型的一个或多个多态性等位基因可以用作患上该疾病的可能性的诊断或预后指标。如果最近出现疾病突变,则在其他良性多态性和引起疾病的多态性之间发生这种关联,因此通过重组事件实现平衡没有经过足够的时间。因此,鉴定跨越引起疾病的突变变化或与之关联的单倍型充当个体可能遗传了该引起疾病的突变的预测量度。在无需鉴定和分离实际引起疾病损伤的情况下,可以利用此类预后或诊断程序。这是重要的,因为精确确定疾病过程中涉及的分子缺陷可能是困难且费力的,尤其是在多因子疾病的情况下。
障碍与多态性之间的统计相关性不一定表明该多态性直接导致该障碍。相反,相关多态性可以是良性等位基因变体,其与在最近的进化过程中发生的引起障碍的突变相关联(即,与之连锁不平衡),因此通过介入染色体区段中的重组事件实现平衡没有经过足够的时间。因此,出于对特定疾病的诊断和预后测定的目的,可以利用与该疾病相关的多态性等位基因的检测,而不考虑该多态性是否直接参与该疾病的病因。此外,当给定的良性多态性基因座与明显的引起疾病的多态性基因座连锁不平衡时,与良性多态性基因座连锁不平衡的仍其他多态性基因座也可能与引起疾病的多态性基因座连锁不平衡。因此,这些其他多态性基因座也将是遗传引起疾病的多态性基因座的可能性的预后或诊断。一旦在特定疾病或病症与相应的单倍型之间建立关联,就可以将宽跨度单倍型(描述一组串联多态性标记物的等位基因的共遗传的典型模式)定向用于诊断目的。因此,可以通过表征一个或多个疾病相关多态性等位基因(或甚至一种或多种疾病相关单倍型)来确定个体患上特定疾病或病症的可能性,而不必确定或表征致病性遗传变异。
许多方法可用于检测多态性基因座处的特定等位基因。用于检测特定多态性等位基因的某些方法将部分取决于多态性的分子性质。例如,多态性基因座的各种等位基因形式可能相差DNA的单个碱基对。此类单核苷酸多态性(或SNP)是遗传变异的主要贡献者,包括所有已知多态性的约80%,并且估计它们在基因组中的密度平均为每1,000个碱基对1个单核苷酸多态性。SNP最常见为双等位基因,或仅以两种不同形式存在(尽管理论上可能存在多达四种不同形式的SNP,对应于DNA中存在的四种不同核苷酸碱基)。然而,SNP在突变上比其他多态性更稳定,使得它们适用于关联研究,其中标记物和未知变体之间的连锁不平衡用于绘制引起疾病的突变。此外,由于SNP通常只有两个等位基因,因此可以通过简单的加/减测定而不是长度测量对它们进行基因分型,使其更易于自动化。
在一个实施方案中,等位基因分析可以使用核酸微阵列完成,核酸微阵列可以单独商业化或与一种或多种试剂盒组件组合商业化。基因测试领域正在快速发展,因此,技术人员将理解,存在并将开发广泛的分析测试,以根据本公开文本确定个体的等位基因特征。
核酸和多肽
术语“核酸”是指脱氧核糖核苷酸或核糖核苷酸及其聚合物,呈单链或双链形式,由含糖、磷酸和为嘌呤或为嘧啶的碱基的单体(核苷酸)构成。除非特别限定,否则该术语涵盖含有天然核苷酸的已知类似物且具有与参考核酸相似的结合特性并且以类似于天然存在的核苷酸的方式代谢的核酸。除非另外指明,否则特定核酸序列还涵盖其保守修饰的变体(例如,简并密码子取代)和互补序列以及明确指出的序列。具体地,简并密码子取代可以通过产生如下序列来实现,在该序列中一个或多个选定(或所有)密码子的第三位置被混合碱基和/或脱氧肌苷残基取代。术语“核酸”、“核酸分子”或“多核苷酸”可互换使用,并且也可与基因、cDNA、DNA和/或基因编码的RNA互换使用。
术语“核苷酸序列”是指DNA或RNA的聚合物,其可以是单链或双链的,任选地含有能够掺入DNA或RNA聚合物的合成、非天然或改变的核苷酸碱基。DNA分子或多核苷酸是脱氧核糖核苷酸(A、G、C和T)的聚合物,且RNA分子或多核苷酸是核糖核苷酸(A、G、C和U)的聚合物。
出于本公开文本的目的,“基因”包括编码基因产物的DNA区域以及调控基因产物产生的所有DNA区域,无论此类调控序列是否与编码序列相邻和/或与转录序列相邻。术语“基因”广泛用于指与生物学功能相关的核酸的任何区段。基因包括编码序列和/或其表达所需的调控序列。因此,基因包括但不必限于启动子序列、终止子、翻译调控序列(如核糖体结合位点和内部核糖体进入位点)、增强子、沉默子、绝缘子、边界元件、复制起点、基质附着位点和基因座控制区域。例如,“基因”是指表达mRNA、功能性RNA或特定蛋白质的核酸片段,包括调控序列。“功能性RNA”是指有义RNA、反义RNA、核糖酶RNA、siRNA或可能没有翻译但对至少一个细胞过程有影响的其他RNA。“基因”还包括例如形成其他蛋白质的识别序列的非表达的DNA区段。“基因”可以从多种来源获得,包括从目标来源克隆或从已知或预测的序列信息合成,并且可以包括设计为具有所需参数的序列。
“基因表达”是指将基因中包含的信息转化为基因产物。它是指细胞中内源基因、异源基因或核酸区段、或转基因的转录和/或翻译。另外,表达是指有义(mRNA)或功能性RNA的转录和稳定积累。表达也可以指蛋白质的产生。术语“改变的表达水平”是指不同于正常或未转化的细胞或生物体的表达水平的转基因细胞或生物体中的表达水平。
基因产物可以是基因的直接转录产物(例如,mRNA、tRNA、rRNA、反义RNA、核糖酶、结构RNA或任何其他类型的RNA)或mRNA翻译产生的蛋白质。基因产物还包括通过诸如加帽、聚腺苷酸化、甲基化和编辑等方法修饰的RNA,以及通过例如甲基化、乙酰化、磷酸化、泛素化、ADP核糖基化、豆蔻酰化(myristilation)和糖基化修饰的蛋白质。术语“RNA转录物”是指RNA聚合酶催化DNA序列转录产生的产物。当RNA转录物是DNA序列的完美互补拷贝时,它被称为初级转录物,或者它可以是源自初级转录物的转录后加工的RNA序列,并且被称为成熟RNA。“信使RNA”(mRNA)是指没有内含子并且可以被细胞翻译成蛋白质的RNA。“cDNA”是指与mRNA互补并源自mRNA的单链或双链DNA。“功能性RNA”是指有义RNA、反义RNA、核糖酶RNA、siRNA或可能没有翻译但对至少一个细胞过程有影响的其他RNA。
“编码序列”或“编码”选定多肽的序列是当置于适当调控序列的控制下时在体内被转录(在DNA的情况下)并且翻译(在mRNA的情况下)成多肽的核酸分子。编码序列的边界由5′(氨基)末端处的起始密码子和3′(羧基)末端处的翻译终止密码子决定。编码序列可以包括但不限于来自病毒、原核或真核mRNA的cDNA、来自病毒(例如,DNA病毒和逆转录病毒)或原核DNA的基因组DNA序列,尤其是合成的DNA序列。转录终止序列可以位于编码序列的3′。
本公开文本的某些实施方案涵盖分离的或基本上纯化的核酸组合物。在本公开文本的上下文中,“分离的”或“纯化的”DNA分子或RNA分子是与其天然环境分开存在并且因此不是自然产物的DNA分子或RNA分子。分离的DNA分子或RNA分子能以纯化形式存在或可以存在于非天然环境(例如像转基因宿主细胞)中。例如,“分离的”或“纯化的”核酸分子在通过重组技术产生时基本上不含其他细胞材料或培养基,或在化学合成时基本上不含化学前体或其他化学品。在一个实施方案中,“分离的”核酸不含衍生出该核酸的生物体的基因组DNA中天然侧接该核酸的序列(即,位于该核酸的5′和3′末端的序列)。
所谓“片段”是指仅由完整全长多肽序列和结构的一部分组成的多肽。片段可以包括天然多肽的C末端缺失、N末端缺失和/或内部缺失。蛋白质片段通常将包括全长分子的至少约5-10个连续氨基酸残基,优选地全长分子的至少约15-25个连续氨基酸残基,最优选地全长分子的至少约20-50个或更多个连续氨基酸残基,或5个氨基酸与全长序列之间的任何整数。
本公开文本的某些实施方案涵盖分离的或基本上纯化的核酸组合物。在本公开文本的上下文中,“分离的”或“纯化的”DNA分子或RNA分子是与其天然环境分开存在并且因此不是自然产物的DNA分子或RNA分子。分离的DNA分子或RNA分子能以纯化形式存在或可以存在于非天然环境(例如像转基因宿主细胞)中。例如,“分离的”或“纯化的”核酸分子在通过重组技术产生时基本上不含其他细胞材料或培养基,或在化学合成时基本上不含化学前体或其他化学品。在一个实施方案中,“分离的”核酸不含衍生出该核酸的生物体的基因组DNA中天然侧接该核酸的序列(即,位于该核酸的5′和3′末端的序列)。
“天然存在的”用于描述可以在自然界中发现的与人工产生不同的组合物。例如,存在于生物体中的可以从自然界来源分离且尚未经实验室的人员有意修饰的核苷酸序列是天然存在的。
“调控序列”和“合适的调控序列”各自指位于编码序列上游(5′非编码序列)、内部或下游(3′非编码序列),且影响相关编码序列的转录、RNA加工或稳定性或翻译的核苷酸序列。调控序列包括增强子、启动子、翻译前导序列、内含子和聚腺苷酸化信号序列。它们包括天然和合成序列以及可为合成序列与天然序列的组合的序列。
“5′非编码序列”是指位于编码序列5′(上游)的核苷酸序列。其存在于起始密码子上游经完全加工的mRNA中并且可以影响初级转录物至mRNA的加工、mRNA稳定性或翻译效率。“3′非编码序列”是指位于编码序列3′(下游)的核苷酸序列并且可以包括聚腺苷酸化信号序列和编码能够影响mRNA加工或基因表达的调控信号的其他序列。聚腺苷酸化信号的特征通常在于影响将聚腺苷酸段添加到mRNA前体的3′端。术语“翻译前导序列”是指介于启动子与编码序列之间的基因的DNA序列部分,其转录为RNA并且存在于翻译起始密码子上游(5′)的完全加工的mRNA中。翻译前导序列可以影响初级转录物至mRNA的加工、mRNA稳定性或翻译效率。
“启动子”是指如下核苷酸序列,通常在其编码序列的上游(5′),其通过为RNA聚合酶和适当转录所需的其他因子提供识别来引导和/或控制编码序列的表达。“启动子包括最小启动子,其为由TATA盒和用于指定转录起始位点的其他序列组成的短DNA序列,调控元件添加到其中以控制表达。“启动子”还指包括最小启动子加调控元件的核苷酸序列,该调控元件能够控制编码序列或功能性RNA的表达。这种类型的启动子序列由近端和更远端上游元件组成,后面的元件通常称为增强子。因此,“增强子”是如下DNA序列,其可以刺激启动子活性,并且可以为启动子的先天元件或插入以提高启动子的水平或组织特异性的异源元件。其能够在两个方向上操作(正常或翻转),并且即使在从启动子上游或下游移动时也能够发挥作用。增强子和其他上游启动子元件都结合介导其效应的序列特异性DNA结合蛋白。启动子可以整体衍生自天然基因,或由衍生自自然界中发现的不同启动子的不同元件构成,或甚至由合成DNA区段组成。启动子还可以含有参与蛋白质因子结合的DNA序列,该蛋白质因子响应于生理或发育条件控制转录起始的有效性。“组成型表达”是指使用组成型启动子的表达。“条件型”和“调控型表达”是指受调控型启动子控制的表达。
“可操作地连接的”是指核酸序列在单一核酸片段上的缔合使得一个序列的功能受另一个序列影响。例如,如果两个序列的定位使得调控DNA序列影响编码DNA序列的表达(即,使得编码序列或功能性RNA在启动子的转录控制下),那么称调控DNA序列与编码RNA或多肽的DNA序列“可操作地连接”或“缔合”。编码序列可以与调控序列以有义定向或反义定向可操作地连接。
“表达”是指细胞中内源基因、异源基因或核酸区段或转基因的转录和/或翻译。另外,表达是指有义(mRNA)或功能性RNA的转录和稳定积累。表达也可以指蛋白质的产生。术语“改变的表达水平”是指不同于正常细胞或生物体的表达水平的细胞或生物体中的表达水平。
对于序列比较,通常一个序列用作参考序列,将测试序列与其相比较。在使用序列比较算法时,将测试序列和参考序列输入计算机(如果需要,指定子序列坐标),并指定序列算法程序参数。随后序列比较算法基于所指定的程序参数来计算测试序列相对于参考序列的序列同一性百分比。
使用以下术语来描述两个或更多个核酸或多核苷酸之间的序列关系:(a)“参考序列”,(b)“比较窗,(c)“序列同一性”,(d)“序列同一性百分比”,和(e)“基本同一性”。如本文所用,“参考序列”是用作序列比较的基础的确定序列。参考序列可以为指定序列的子集或整体;例如,作为全长cDNA或基因序列的区段、或完整cDNA或基因序列。如本文所用,“比较窗”参照多核苷酸序列的连续指定区段,其中为了两个序列的最佳比对,与参考序列(其不包含添加或缺失)相比,比较窗中的多核苷酸序列可以包含添加或缺失(即,空位)。通常,比较窗的长度为至少20个连续核苷酸,并且任选地可以为30、40、50、100或更长。本领域技术人员理解,为了避免因多核苷酸序列中包括空位所致的与参考序列的高相似性,通常引入空位罚分并从匹配数中减去空位罚分。
用于比较的序列比对方法为本领域所熟知。因此,任何两个序列之间的同一性百分比的确定可以使用数学算法来完成。此类数学算法的非限制性例子是Myers和Miller的算法(Myers和Miller,CABIOS,4,11(1988));Smith等人的局部同源性算法(Smith等人,Adv.Appl.Math.,2,482(1981));Needleman和Wunsch的同源性比对算法(Needleman和Wunsch,JMB,48,443(1970));Pearson和Lipman的相似性搜索法(Pearson和Lipman,Proc.Natl.Acad.Sci.USA,85,2444(1988));Karlin和Altschul的算法(Karlin和Altschul,Proc.Natl.Acad.Sci.USA,87,2264(1990)),如Karlin和Altschul所修改(Karlin和Altschul,Proc.Natl.Acad.Sci.USA 90,5873(1993))。
可以利用这些数学算法的计算机实施来比较序列以确定序列同一性。此类实施包括但不限于:PC/Gene程序(可从加利福尼亚州山景城的Intelligenetics获得)中的CLUSTAL;ALlGN程序(2.0版)以及Wisconsin Genetics软件包第8版(可从美国威斯康辛州麦迪逊科学道575号的Genetics Computer Group(GCG)获得)中的GAP、BESTFIT、BLAST、FASTA和TFASTA。使用这些程序的比对可以使用默认参数来进行。CLUSTAL程序充分描述于以下文献中:Higgins等人(Higgins等人,CABIOS,5,151(1989));Corpet等人(Corpet等人,Nucl.Acids Res.,16,10881(1988));Huang等人(Huang等人,CABIOS,8,155(1992));和Pearson等人(Pearson等人,Meth.Mol.Biol.,24,307(1994))。ALIGN程序是基于Myers和Miller(同上)的算法。Altschul等人(Altschul等人,JMB,215,403(1990))的BLAST程序是基于Karlin和Altschul(同上)的算法。
用于进行BLAST分析的软件是可通过国家生物技术信息中心(National Centerfor Biotechnology Information)公开获得的。这种算法涉及首先通过鉴定询问序列中长度“W”的短字码来鉴定高评分序列对(HSP),该短字码在与数据库序列中相同长度的字码比对时,匹配或符合一定的正值阈值得分T。“T”被称为相邻字码得分阈值。这些初始相邻字码命中用作开始搜索的种子,以发现含有该种子的较长HSP。随后沿每个序列在两个方向上延长字码命中,只要可以增加累积比对得分即可。对于核苷酸序列,累积得分是使用参数“M”(一对匹配残基的奖励得分;始终>0)和“N”(错配残基的罚分;始终<0)来计算的。对于氨基酸序列,使用评分矩阵来计算累积得分。在累积比对得分从其最大达成值下降数量“X”时,在累积得分由于一个或多个负评分残基比对的积累而变为零或更低时,或在到达任一序列的末端时,停止每一方向上的字码命中延伸。
除了计算序列同一性百分比以外,BLAST算法还进行两个序列之间的相似性的统计学分析。BLAST算法提供的一个相似性量度是最小总和概率(P(N)),其提供两个核苷酸或氨基酸序列之间偶然发生匹配的概率的指示。例如,如果测试核酸序列与参考核酸序列的比较中的最小总和概率小于约0.1、小于约0.01、或甚至小于约0.001,那么认为测试核酸序列与参考序列相似。
为了获得用于比较目的的空位化比对,可利用Gapped BLAST(在BLAST 2.0中)。可替代地,可以使用PSI-BLAST(在BLAST 2.0中)来进行迭代搜索,其检测分子之间的远距离关系。在利用BLAST、Gapped BLAST、PSI-BLAST时,可以使用各自程序(例如,用于核苷酸序列的BLASTN、用于蛋白质的BLASTX)的默认参数。BLASTN程序(用于核苷酸序列)使用以下各项作为默认参数:11的字长(W),10的期望(E),100的截止值,M=5,N=-4,和两条链的比较。对于氨基酸序列,BLASTP程序使用以下各项作为默认参数:3的字长(W),10的期望(E),以及BLOSUM62评分矩阵。还可以通过检查人工进行比对。
出于本公开文本的目的,可以使用BlastN程序(1.4.7版或更新版)及其默认参数或任何等效程序来进行核苷酸序列比较,用于确定与本文所公开启动子序列的序列同一性百分比。所谓“等效程序”是指任何序列比较程序,其与上述程序所生成的相应比对相比,对于所讨论的任何两个序列,生成具有一致核苷酸或氨基酸残基匹配和一致序列同一性百分比的比对。
如本文所用,在两个核酸或多肽序列背景下的“序列同一性”或“同一性”参照两个序列中,当在指定比较窗中针对最大对应性进行比对时,相同残基的指定百分比,如通过序列比较算法或通过目测检查所测量的。在参考蛋白质使用序列同一性百分比时,应认识到,不一致的残基位置通常是因保守氨基酸取代而不同,其中氨基酸残基取代为其他具有相似化学性质(例如,电荷或疏水性)的氨基酸残基并因此不改变分子的功能性质。当序列因保守取代而不同时,可以上调序列同一性百分比以针对取代的保守性加以校正。称因此类保守取代而不同的序列具有“序列相似性”或“相似性”。进行此调整的手段为本领域技术人员所熟知。通常,这涉及将保守取代评为部分错配而不是完全错配,由此增加序列同一性百分比。因此,例如,在给予一致氨基酸1分,且给予非保守取代0分时,给予保守取代介于0与1之间的得分。计算保守取代的评分,例如如程序PC/GENE(加利福尼亚州山景城的Intelligenetics)中所实施。
如本文所用,“序列同一性百分比”意指通过在比较窗中比较两个最佳比对序列确定的值,其中为了两个序列的最佳比对,与参考序列(其不包含添加或缺失)相比,多核苷酸序列在比较窗中的部分可以包含添加或缺失(即,空位)。百分比是通过以下方式来计算的:确定两个序列中出现一致核酸碱基或氨基酸残基的位置数,以得到匹配位置数;用匹配位置数除以比较窗中的位置总数,并将结果乘以100,得到序列同一性百分比。
术语多核苷酸序列的“基本同一性”意味着,使用一种所述比对程序,使用标准参数,与参考序列相比,多核苷酸包含具有至少70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%或94%,或甚至至少95%、96%、97%、98%或99%序列同一性的序列。本领域技术人员将认识到,通过考虑密码子简并性、氨基酸相似性、阅读框定位等,这些值可以经适当调整以确定两个核苷酸序列编码的蛋白质的相应同一性。出于这些目的,氨基酸序列的基本同一性通常意味着至少70%、80%、90%或甚至至少95%的序列同一性。
在肽背景下的术语“基本同一性”指示,肽包含在指定比较窗中与参考序列具有至少70%、71%、72%、73%、74%、75%、76%、77%、78%、79%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%或94%,或甚至95%、96%、97%、98%或99%序列同一性的序列。在某些实施方案中,最佳比对是使用Needleman和Wunsch的同源性比对算法(Needleman和Wunsch,JMB,48,443(1970))来实施的。两个肽序列基本上一致的指示是,一个肽与针对另一个肽产生的抗体具有免疫学反应性。因此,例如,在两个肽只因保守取代而不同时,一个肽与另一个肽基本上一致。因此,本公开文本还提供了与本文所呈现的核酸分子和肽基本上一致的核酸分子和肽。
核苷酸序列基本上一致的另一指示是,如果两个分子在严格条件下彼此杂交。下文更详细地讨论核酸的杂交。
寡核苷酸探针
如本文所用,“引物”、“探针”和“寡核苷酸”可互换使用。术语“核酸探针”或对核酸“具有特异性的探针”是指,与编码目标靶向序列的核酸序列具有至少约80%(例如至少约90%、例如至少约95%)连续序列同一性或同源性的核酸序列。本公开文本的探针(或寡核苷酸或引物)的长度为至少约8个核苷酸(例如,长度为至少约8-50个核苷酸,例如长度为至少约10-40个、例如至少约15-35个核苷酸)。本公开文本的寡核苷酸探针或引物可以在寡核苷酸的3′包含与目标靶向序列具有至少约80%(例如至少约85%、例如至少约90%)连续同一性的至少约8个核苷酸。
引物对可用于使用PCR确定特定SNP的核苷酸序列。单链DNA引物对可以与SNP内或SNP周围的序列退火,以引发SNP本身的扩增DNA合成。
该过程的第一步涉及使得自患者的生理学样品(该样品含有核酸)与寡核苷酸探针接触以形成杂交DNA。可用于本公开文本的方法中的寡核苷酸探针可以为由介于约4或6个碱基至最多约80或100个或更多个碱基之间组成的任何探针。在本公开文本的一个实施方案中,探针具有约10个与约20个之间的碱基。
引物本身可以使用本领域熟知的技术来合成。通常,引物可以使用市售寡核苷酸合成机来制备。
本公开文本的引物或探针可以使用本领域技术人员已知的技术来标记。例如,用于本公开文本的测定中的标记可以为一级标记(其中该标记包含直接检测到的元素)或二级标记(其中检测到的标记结合至一级标记,如免疫学标记中所常见)。对标记(也称为“标签”)、加标签或标记程序以及标记检测的介绍可以在以下文献中找到:Polak和VanNoorden(1997)Introduction to Immunocytochemistry,第二版,Springer Verlag,纽约;以及Haugland(1996)Handbook of Fluorescent Probes and Research Chemicals,由俄勒冈州尤金市的Molecular Probes,Inc.出版的综合手册和目录。一级和二级标记可以包括未检测到的元素以及检测到的元素。本公开文本中的可用一级和二级标记可以包括光谱标记,如荧光染料(例如,荧光素和衍生物,如异硫氰酸荧光素(FITC)和Oregon GreenTM、罗丹明和衍生物(例如,德克萨斯红、四甲基罗丹明异硫氰酸酯(TRITC)等)、地高辛配基、生物素、藻红蛋白、AMCA、CyDyesTM等)、放射性标记(例如,3H、125I、35S、14C、32P、33p)、酶(例如,辣根过氧化物酶、碱性磷酸酶)光谱比色标记,如胶体金或有色玻璃或塑料(例如,聚苯乙烯、聚丙烯、胶乳)珠粒。标记可以根据本领域熟知的方法直接或间接偶联至检测测定的组分(例如,经标记的核酸)。如上文所指示,可以使用众多标记,其中标记的选择取决于所需灵敏度、与化合物缀合的容易性、稳定性要求、可用仪器以及处置规定。
一般而言,针对所用特定标记调整监控探针-底物核酸杂交的检测器。典型检测器包括分光光度计、光电管和光电二极管、显微镜、闪烁计数器、照相机、胶片等以及其组合。合适的检测器的例子可从技术人员已知的多个商业来源广泛获得。一般来说,包含所结合的经标记核酸的底物的光学图像经数字化用于后续计算机分析。
优选标记包括使用以下各项的标记:(1)化学发光(使用辣根过氧化物酶和/或碱性磷酸酶和产生光子作为分解产物的底物)和试剂盒,该试剂盒可从例如MolecularProbes、Amersham、Boehringer-Mannheim和Life Technologies/Gibco BRL获得;(2)颜色产生(使用辣根过氧化物酶和/或碱性磷酸酶二者和产生有色沉淀物的底物)(可从LifeTechnologies/Gibco BRL和Boehringer-Mannheim获得的试剂盒);(3)半荧光,使用例如碱性磷酸酶和底物AttoPhos(Amersham)或产生荧光产物的其他底物;(4)荧光(例如,使用Cy-5(Amersham)、荧光素和其他荧光标记);(5)放射性,使用激酶或其他末端标记方法、切口平移、随机引发或PCR将放射性分子掺入经标记的核酸中。其他标记和检测方法对于本领域技术人员而言是显而易见的。
可以使用荧光标记并且其优点在于在处理中所需防护措施较少,并且适用于高通量可视化技术(包括图像数字化的光学分析,用于包含计算机的集成系统中的分析)。优选标记的特征通常在于以下各项中的一项或多项:标记中的高灵敏度、高稳定性、低背景、低环境敏感性和高特异性。掺入本公开文本的标记中的荧光部分通常是已知的,包括德克萨斯红、地高辛配基、生物素、1-和2-氨基萘、p,p′-二氨基二苯乙烯、芘、四级菲啶盐、9-氨基吖啶、p,p′-二氨基二苯甲酮亚胺、蒽、氧杂羰花青、部花青、3-氨基马萘雌酮、苝、双-苯并噁唑、双-对-噁唑基苯、1,2-苯并吩嗪、视黄醇、双-3-氨基吡啶鎓盐、嚏根配基(hellebrigenin)、四环素、甾酚(sterophenol)、苯并咪唑基苯基胺、2-氧代-3-色烯、吲哚、呫吨、7-羟基香豆素、吩噁嗪、水杨酸盐、毒毛旋花苷配基、卟啉、三芳基甲烷、黄素等。许多荧光标记可从以下来源购得:SIGMA Chemical Company(密苏里州圣路易斯)、MolecularProbes、R&D systems(明尼苏达州明尼阿波里斯)、Pharmacia LKB Biotechnology(新泽西州皮斯卡塔韦)、CLONTECH Laboratories,Inc.(加利福尼亚州帕洛阿尔托)、Chem GenesCorp.、Aldrich Chemical Company(威斯康辛州密尔沃基)、Glen Research.Inc.、GIBCOBRL Life Technologies,Inc.(马里兰州盖瑟斯堡)、Fluka ChemicaBiochemikaAnalytika(Fluka Chemie AG,瑞士布克斯)和Applied BiosystemsTM(加利福尼亚州福斯特城)、以及技术人员已知的多个其他商业来源。
对标记进行检测和定量的手段为本领域技术人员所熟知。因此,例如,在标记是放射性标记时,检测手段包括闪烁计数器或照相胶片,如在放射自显影中。在标记可以光学方式检测时,典型检测器包括显微镜、照相机、光电管和光电二极管以及可广泛获得的多种其他检测系统。
可以根据本领域熟知的技术制备具有众多种碱基序列中的任一种的寡核苷酸探针。用于制备寡核苷酸探针的合适的碱基可以选自天然存在的核苷酸碱基,如腺嘌呤、胞嘧啶、鸟嘌呤、尿嘧啶和胸腺嘧啶;和非天然存在的或“合成的”核苷酸碱基,如7-去氮杂-鸟嘌呤、8-氧代-鸟嘌呤、6-巯基鸟嘌呤、4-乙酰胞苷、5-(羧基羟乙基)尿苷、2′-O-甲基胞苷、5-羧甲基氨基-甲基-2-硫尿苷、5-羧甲基氨基甲基尿苷、二氢尿苷、2′-O-甲基假尿苷、β,D-半乳糖基辫苷、2′-O-甲基鸟苷、肌苷、N6-异戊烯基腺苷、1-甲基腺苷、1-甲基假尿苷、1-甲基鸟苷、1-甲基肌苷、2,2-二甲基鸟苷、2-甲基腺苷、2-甲基鸟苷、3-甲基胞苷、5-甲基胞苷、N6-甲基腺苷、7-甲基鸟苷、5-甲基氨基甲基尿苷、5-甲氧基氨基甲基-2-硫尿苷、β,D-甘露糖基辫苷、5-甲氧基羰基甲基尿苷、5-甲氧基尿苷、2-甲硫基-N6-异戊烯基腺苷、N-((9-β-D-呋喃核糖基-2-甲基硫嘌呤-6-基)氨基甲酰基)苏氨酸、N-((9-β-D-呋喃核糖基嘌呤-6-基)N-甲基-氨基甲酰基)苏氨酸、尿苷-5-氧乙酸甲酯、尿苷-5-氧乙酸、怀丁苷、假尿苷、辫苷、2-硫胞苷、5-甲基-2-硫尿苷、2-硫尿苷、2-硫尿苷、5-甲基尿苷、N-((9-β-D-呋喃核糖基嘌呤-6-基)氨基甲酰基)苏氨酸、2′-O-甲基-5-甲基尿苷、2′-O-甲基尿苷、怀丁苷和3-(3-氨基-3-羧丙基)尿苷。可以采用任何寡核苷酸主链,包括DNA、RNA(但RNA不如DNA)、经修饰的糖(如碳环)和含有2′取代(如氟和甲氧基)的糖。寡核苷酸可以为如下寡核苷酸,其中至少一个或所有核苷酸间桥接磷酸酯残基是经修饰的磷酸酯,如甲基磷酸酯、甲基硫代磷酸酯、phosphoroinorpholidate、磷酸哌嗪化物(phosphoropiperazidate)和磷酸酰胺化物(phosplioramidate)(例如,每隔一个核苷酸间桥接磷酸酯残基可以如所述进行修饰)。寡核苷酸可以为“肽核酸”,如Nielsen等人,Science,254:1497-1500(1991)中所述。
如本文所用,“单碱基对延伸探针”是选择性识别单核苷酸多态性(即,A/G多态性的A或G)的核酸。通常,这些探针采用DNA引物的形式(例如,如在PCR引物中),其经修饰使得引物的掺入释放荧光团。这种形式的一个例子是探针,其使用酶Taq聚合酶的5′外切核酸酶活性用于测量样品中靶序列的量。探针由18-22bp寡核苷酸探针组成,其经5′端的报告荧光团和3′端的猝灭剂荧光团标记。将探针分子掺入PCR链中(这是由于探针组含于PCR引物混合物中而发生)将报告荧光团从猝灭剂的影响中解除。引物必须能够识别靶结合位点。一些引物延伸探针可以不经完整PCR延伸循环即由DNA聚合酶直接“激活”。
唯一要求是,寡核苷酸探针应该具有如下序列,该序列的至少一部分能够与DNA样品的序列的已知部分结合。本公开文本提供的核酸探针可用于多种目的。
检测核酸的方法
A.扩增
根据本公开文本的方法,存在于生理学样品中的DNA的扩增可以通过本领域已知的任何方式来进行。合适的扩增技术的例子包括但不限于聚合酶链式反应(包括用于RNA扩增的逆转录酶聚合酶链式反应)、连接酶链式反应、链置换扩增、基于转录的扩增、自持序列复制(或“3SR”)、Qβ复制酶系统、基于核酸序列的扩增(或“NASBA”)、修复链式反应(或“RCR”)和自返式(boomerang)DNA扩增(或“BDA”)。
掺入扩增产物中的碱基可以为天然或经修饰的碱基(在扩增前或扩增后进行修饰),并且可以选择该碱基以优化后续电化学检测步骤。
聚合酶链式反应(PCR)可以根据已知技术来进行。参见例如美国专利第4,683,195号、第4,683,202号、第4,800,159号和第4,965,188号。一般而言,PCR涉及,首先在杂交条件下用一个用于待检测特定序列的每条链的寡核苷酸引物处理核酸样品(例如,在热稳定DNA聚合酶存在下),使得合成与每条核酸链互补的每个引物的延伸产物,且引物与特定序列的每条链充分互补以与其杂交,使得从每个引物合成的延伸产物在与其补体分离时可以用作模板用于合成另一引物的延伸产物;以及如果存在待检测的一个或多个序列,随后在变性条件下处理样品以分离引物延伸产物与其模板。周期性重复这些步骤直至获得所需扩增程度为止。经扩增的序列的检测可以通过以下方式来进行:向反应产物中添加能够与反应产物杂交的寡核苷酸探针(例如,本公开文本的寡核苷酸探针),该探针携带可检测标记;以及之后根据已知技术检测标记。可以掺入核酸中或与核酸可操作地连接的各种标记在本领域是熟知的,如放射性标记、酶标记和荧光标记。在待扩增的核酸是RNA时,扩增可以通过首先根据已知技术用逆转录酶转化为DNA来进行。
链置换扩增(SDA)可以根据已知技术来进行。例如,SDA可以用单个扩增引物或扩增引物对来进行,且指数型扩增是用扩增引物对来实现的。一般而言,SDA扩增引物在5′至3′方向上包含侧翼序列(其DNA序列无关紧要)、用于反应中所用限制性酶的限制性位点和与待扩增和/或检测的靶序列杂交的寡核苷酸序列(例如,本公开文本的寡核苷酸探针)。在一个实施方案中,用于促进限制性酶与识别位点结合并在限制性位点被切口后提供DNA聚合酶引发位点的侧翼序列的长度为约15至20个核苷酸。限制性位点在SDA反应中起作用。在本公开文本的一个实施方案中,寡核苷酸探针部分的长度为约13至15个核苷酸。
连接酶链式反应(LCR)也可以根据已知技术来进行。一般而言,该反应是用两对寡核苷酸探针来进行:一对结合至待检测序列的一条链;另一对结合至待检测序列的另一条链。每对一起与其所对应的链完全重叠。该反应是通过以下方式来进行的:首先,使待检测序列的链变性(例如,分离),然后使该链与两对寡核苷酸探针在热稳定连接酶存在下反应,使得每对寡核苷酸探针连接在一起,然后分离反应产物,且之后周期性重复该过程,直至序列扩增至所需程度为止。随后可以与上文关于PCR所述的类似方式进行检测。
根据本公开文本的方法,检测在此基因座处的特定SNP。可用于本公开文本的方法中的技术包括但不限于直接DNA测序、PFGE分析、等位基因特异性寡核苷酸(ASO)、斑点印迹分析和变性梯度凝胶电泳,并且为技术人员所熟知。
有若干种方法可以用于检测DNA序列变异。直接DNA测序(即人工测序或自动化荧光测序)可以检测序列变异。另一种方法是单链构象多态性测定(SSCA)。这种方法不检测所有序列变化,尤其是如果DNA片段大小大于200bp的话,但可以经优化以检测大多数DNA序列变异。检测灵敏度降低是一个缺点,但使用SSCA时可能的通量增加使其成为直接测序的有吸引力的、可行的备选项,用于在研究基础上进行突变检测。随后对在SSCA凝胶上具有变动迁移率的片段进行测序,以确定DNA序列变异的确切性质。基于两条互补DNA链之间的错配的检测的其他方法包括钳位变性凝胶电泳(CDGE)、异源双链体分析(HA)和化学错配裂解(CMC)。一旦得知突变,就可以利用等位基因特异性检测方法(如等位基因特异性寡核苷酸(ASO)杂交)针对该相同突变快速筛选大量其他样品。这种技术可以利用经金纳米颗粒标记的探针来产生视觉颜色结果。
对SNP的检测可以通过使用本领域熟知的技术对所需靶区域进行测序来完成。可替代地,基因序列可以使用已知技术从来自患者组织的基因组DNA制剂直接扩增。随后可以确定经扩增的序列的DNA序列。
有6种熟知方法用于更完整但仍间接地测试以确认突变型等位基因的存在:1)单链构象分析(SSCA);2)变性梯度凝胶电泳(DGGE);3)RNA酶保护测定;4)等位基因特异性寡核苷酸(ASO);5)使用识别核苷酸错配的蛋白质,如大肠杆菌(E.coli)mutS蛋白;和6)等位基因特异性PCR。对于等位基因特异性PCR,使用在其3′端与特定DNM1突变杂交的引物。如果不存在特定突变,那么观察不到扩增产物。还可以使用扩增受阻突变系统(ARMS)。也可以通过克隆、测序和扩增来检测基因的插入和缺失。另外,可以使用用于基因或周围标记物基因的限制性片段长度多态性(RFLP)探针对等位基因的改变或多态性片段中的插入进行评分。可以使用如本领域已知的其他检测插入和缺失的技术。
在前3种方法(SSCA、DGGE和RNA酶保护测定)中,出现新电泳条带。SSCA检测差异性迁移的条带,因为序列变化引起单链分子内碱基配对的差异。RNA酶保护涉及使突变型多核苷酸裂解为两个或更多个较小片段。DGGE使用变性梯度凝胶检测突变型序列与野生型序列相比的迁移率差异。在等位基因特异性寡核苷酸测定中,设计检测特定序列的寡核苷酸,并且该测定是通过检测杂交信号的存在或不存在来进行的。在mutS测定中,蛋白质仅与突变型与野生型序列之间异源双链体中含有核苷酸错配的序列结合。
根据本公开文本,错配是如下杂交的核酸双链体,其中两条链并非100%互补。完全同源性的缺乏可能是由于缺失、插入、倒转或取代所致。可以使用错配检测来检测基因或其mRNA产物中的点突变。尽管这些技术不如测序灵敏,但其更易于对大量样品实施。错配裂解技术的例子是RNA酶保护方法。使核糖核酸探针与从肿瘤组织分离的mRNA或DNA退火(杂交)在一起,并且随后用RNA酶A消化,该酶能够检测双链体RNA结构中的一些错配。如果通过RNA酶A检测到错配,其在错配位点裂解。因此,在电泳凝胶基质上分离退火的RNA制剂时,如果已检测到错配并且通过RNA酶A裂解,那么将观察到小于核糖核酸探针与mRNA或DNA的全长双链体RNA的RNA产物。核糖核酸探针无需具有DNM1mRNA或基因的全长,但可以为任一者的区段。如果核糖核酸探针仅包含DNM1mRNA或基因的区段,那么使用多个这些探针针对错配筛选全部mRNA序列将是合意的。
以类似方式,可以使用DNA探针通过酶裂解或化学裂解来检测错配。可替代地,可以通过错配双链体的电泳迁移率相对于匹配双链体的变动来检测错配。使用核糖核酸探针或DNA探针,可以在杂交之前使用PCR扩增可能含有突变的细胞mRNA或DNA。
B.杂交
短语“与......特异性杂交”是指当复杂混合物(例如,总细胞的)DNA或RNA中存在特定核苷酸序列时,在严格条件下分子仅与该序列结合、双链化或杂交。“实质上结合”是指探针核酸与靶核酸之间的互补杂交,并且包括可以通过降低杂交介质的严格性来适应的少量错配,以实现靶核酸序列的所需检测。
通常,严格条件被选择为在确定的离子强度和pH下比特定序列的热力学熔点(Tm)低约5℃。然而,严格条件涵盖在约1℃至约20℃范围内的温度,取决于所需严格性程度,如本文另外所限定。如果在严格条件下不彼此杂交的核酸所编码的多肽基本上一致,那么该核酸仍基本上一致。例如,这可能在使用遗传密码子允许的最大密码子简并性来产生核酸拷贝时发生。两个核酸序列基本上一致的一个指示是,第一核酸编码的多肽与第二核酸编码的多肽具有免疫学交叉反应性。
“严格条件”是如下条件:(1)采用低离子强度和高温用于洗涤,例如,0.015MNaCl/0.0015M柠檬酸钠(SSC);0.1%十二烷基硫酸钠(SDS),在50℃下;或(2)在杂交期间采用变性剂,如甲酰胺,例如,50%甲酰胺和0.1%牛血清白蛋白/0.1%蔗聚糖/0.1%聚乙烯吡咯烷酮/50mM磷酸钠缓冲液(pH 6.5),和750mM NaCl、75mM柠檬酸钠,在42℃下。另一个例子是使用50%甲酰胺、5x SSC(0.75M NaCl、0.075M柠檬酸钠)、50mM磷酸钠(pH6.8)、0.1%焦磷酸钠、5x Denhardt氏溶液、超声处理的鲑鱼精子DNA(50μg/ml)、0.1%SDS和10%硫酸葡聚糖,在42℃下,且在42℃下在0.2x SSC和0.1%SDS中洗涤。严格条件的其他例子在本领域是熟知的。
在核酸杂交实验(如Southern杂交和Northern杂交)的背景下,“严格杂交条件”和“严格杂交洗涤条件”是序列依赖性的,并且在不同环境参数下有所不同。较长序列在较高温度下特异性杂交。热力学熔点(Tm)是50%的靶序列与完全匹配的探针杂交的温度(在确定的离子强度和pH下)。特异性通常随杂交后洗涤而变,关键因子是最后一次洗涤溶液的离子强度和温度。对于DNA-DNA杂合体,Tm可以从Meinkoth和Wahl(1984)的方程约计;Tm 81.5℃+16.6(log M)+0.41(%GC)-0.61(%甲酰胺)-500/L;其中M是单价阳离子的克分子浓度,%GC是DNA中鸟苷和胞嘧啶核苷酸的百分比,%甲酰胺是杂交溶液中甲酰胺的百分比,并且L是碱基对中杂合体的长度。对于每1%错配,Tm下降约1℃;因此,Tm、杂交和/或洗涤条件可以经调整以与具有所需同一性的序列杂交。例如,如果寻找具有>90%同一性的序列,Tm可以降低10℃。通常,严格条件被选择为在确定的离子强度和pH下比特定序列与其补体的Tm低约5℃。然而,极端严格条件可以利用在比Tm低1℃、2℃、3℃或4℃的温度下杂交和/或洗涤;中等严格条件可以利用在比Tm低6℃、7℃、8℃、9℃或10℃的温度下杂交和/或洗涤;低严格条件可以利用在比Tm低11℃、12℃、13℃、14℃、15℃或20℃下的温度下杂交和/或洗涤。使用该方程、杂交和洗涤组合物以及所需温度,本领域普通技术人员将理解,固有地描述了杂交和/或洗涤溶液的严格性的变化。如果所需错配程度导致低于45℃(水溶液)或32℃(甲酰胺溶液)的温度,那么增加SSC浓度,使得可以使用较高温度。通常,高严格杂交和洗涤条件被选择为在确定的离子强度和pH下比特定序列的Tm低约5℃。
高严格洗涤条件的例子是0.15M NaCl,在72℃下,约15分钟。严格洗涤条件的例子是0.2x SSC洗涤,在65℃下,15分钟。通常,在高严格性洗涤前,进行低严格性洗涤以去除背景探针信号。用于例如多于100个核苷酸的双链体的中等严格性洗涤的例子是1x SSC,在45℃下,15分钟。对于短核苷酸序列(例如,约10至50个核苷酸),严格条件通常涉及小于约1.5M的盐浓度、小于约0.01至1.0M的Na离子浓度(或其他盐),在pH7.0至8.3下,并且温度通常为至少约30℃,并且对于长探针(例如,>50个核苷酸)为至少约60℃。严格条件也可以通过添加诸如甲酰胺等去稳定剂来实现。一般而言,在特定杂交测定中,与针对无关探针观察到的相比,2x(或更高)的信噪比指示检测到特异性杂交。如果在严格条件下不彼此杂交的核酸所编码的蛋白质基本上一致,那么该核酸仍基本上一致。例如,这在使用遗传密码子允许的最大密码子简并性来产生核酸拷贝时发生。
非常严格条件被选择为与特定探针的Tm相等。用于Southern或Northern印迹中的过滤器上具有多于100个互补残基的互补核酸杂交的严格条件的例子是50%甲酰胺,例如,在50%甲酰胺、1M NaCl、1%SDS中在37℃下杂交,和在0.1x SSC中在60℃至65℃下洗涤。示例性低严格性条件包括用30%至35%甲酰胺、1M NaCl、1%SDS(十二烷基硫酸钠)的缓冲溶液在37℃下杂交,和在1x至2x SSC(20x SSC=3.0M NaCl/0.3M柠檬酸三钠)中在50℃至55℃下洗涤。示例性中等严格性条件包括在40%至45%甲酰胺、1.0M NaCl、1%SDS中在37℃下杂交,和在0.5x至1x SSC中在55℃至60℃下洗涤。
“Northern分析”或“Northern印迹”是用于鉴定与已知探针杂交的RNA序列的方法,该探针为例如寡核苷酸、DNA片段、cDNA或其片段,或RNA片段。探针可以用诸如32p等放射性同位素、通过生物素化或用酶标记。使用本领域熟知的标准技术,通常可以将待分析的RNA在琼脂糖或聚丙烯酰胺凝胶上以电泳方式分离,转移至硝酸纤维素、尼龙或其他合适的膜上,并与探针杂交。
能以本领域技术人员已知的任何合适的方式使核酸样品与寡核苷酸探针接触。例如,可以将DNA样品溶解于溶液中,并在允许杂交的条件下通过将寡核苷酸探针溶解于含有DNA样品的溶液中而与寡核苷酸探针接触。合适的条件为本领域技术人员所熟知。可替代地,可以将DNA样品溶解于含有固定在固体载体上的寡核苷酸探针的溶液中,借此可以通过将其上固定有寡核苷酸探针的固体载体浸没于含有DNA样品的溶液中来使DNA样品与寡核苷酸探针接触。
术语“基质”是指探针可以附着的任何固体载体。基质材料可以共价或其他方式经涂层或官能团修饰,以促进探针的结合。合适的基质材料尤其包括聚合物、玻璃、半导体、纸、金属、凝胶和水凝胶。基质可以具有任何物理形状或尺寸,例如盘状、条状或微粒状。术语“斑点”是指基质上的独特位置,已知的一个或多个序列的探针附着至该位置。斑点可以为平面基质上的一个区域,或其可以为例如可与其他微粒相区别的微粒。术语“结合”意指贴附至固体基质。出于筛选测定的目的,在斑点贴附于基质上的特定位置时,斑点“结合”至固体基质。
在本公开文本的某些实施方案中,基质为聚合物、玻璃、半导体、纸、金属、凝胶或水凝胶。在本公开文本的某些实施方案中,试剂盒还可以包括固体基质和至少一个对照探针,其中该至少一个对照探针结合至基质上的独特斑点中。
在本公开文本的某些实施方案中,固体基质是微阵列。“阵列”或“微阵列”在本文中同义使用,是指多个附着至基质上的一个或多个可区别斑点的探针。微阵列可以包括单个基质或多个基质,例如多个珠粒或微球。微阵列的“拷贝”含有相同类型和排列的探针。
用于检测冠心病的方法
本公开文本提供了使用经亚硫酸氢盐处理的DNA通过确定CpG二核苷酸重复序列或CpG二核苷酸重复基序区域的甲基化状态来确定受试者是否有可能患有CVD的方法,其中CpG二核苷酸的甲基化状态与CVD相关。在某些实施方案中,该方法确定多个(例如,1与10,000之间的任何整数,如至少100个)CpG二核苷酸重复基序区域的甲基化状态。
多种技术和试剂可用于本公开文本的方法中。在本公开文本的一个实施方案中,测定血样或源自血液的样品(例如血浆、循环、外周、淋巴细胞等)中一个或多个SNP的存在和/或一个或多个CpG二核苷酸的甲基化状态。生物样品也可以为唾液。通常,提供并测试含有核酸的生物样品。
如本文所用,术语“健康的”意指,受试者不表现出特定病症,并且不会比随机地对特定病症敏感的可能性大。
在某些实施方案中,本公开文本提供了用于检测易感或患有冠心病的受试者的方法。这种方法通常包括提供来自受试者的生物样品;使来自生物样品的DNA与亚硫酸氢盐在碱性条件下接触;使经亚硫酸氢盐处理的DNA与长度为至少8个核苷酸的至少一个第一寡核苷酸探针接触,该至少一个第一寡核苷酸探针与包含CpG二核苷酸的序列互补,其中该至少一个第一寡核苷酸探针检测未甲基化CpG二核苷酸或甲基化CpG二核苷酸;和检测未甲基化CpG二核苷酸或甲基化CpG二核苷酸,其中CpG二核苷酸的甲基化与冠心病相关。这种方法还可以包括确定单核苷酸多态性(SNP)(例如,rs347027)的基因型。
在某些实施方案中,该方法还包括使经亚硫酸氢盐处理的DNA与长度为至少8个核苷酸的至少一个第二寡核苷酸探针接触,该至少一个第二寡核苷酸探针与包含CpG二核苷酸的序列互补,其中该至少一个第二寡核苷酸探针检测该至少一个第一寡核苷酸探针未检测到的未甲基化CpG二核苷酸或甲基化CpG二核苷酸。
在某些实施方案中,该方法还包括确定甲基化CpG二核苷酸与未甲基化CpG二核苷酸的比率。在某些实施方案中,该方法可以包括在接触步骤之后的扩增步骤。在某些实施方案中,该方法可以包括在接触步骤之后的测序步骤。
在某些实施方案中,提供了用于测量来自患者的生物样品中的生物标记物的存在的方法。这种方法可以包括使来自生物样品的DNA与亚硫酸氢盐在碱性条件下接触;和使经亚硫酸氢盐处理的DNA与长度为至少8个核苷酸的至少一个第一寡核苷酸探针接触,该至少一个第一寡核苷酸探针与包含CpG二核苷酸的序列互补,其中该至少一个第一寡核苷酸探针检测未甲基化CpG二核苷酸或甲基化CpG二核苷酸。这种方法可以用于预测患者是否患有冠心病或患上冠心病的可能性是否增加。
在某些实施方案中,提供了预测来自患者的生物样品中与冠心病(CHD)相关的生物标记物的存在的方法。这种方法通常包括提供来自生物样品的第一等分试样和使来自第一等分试样的DNA与亚硫酸氢盐在碱性条件下接触。这种方法通常还包括提供来自生物样品的第二等分试样和使经亚硫酸氢盐处理的第一等分试样和第二等分试样与以下各项接触:(i)长度为至少8个核苷酸的第一寡核苷酸探针,该第一寡核苷酸探针与包含在转化生长因子β受体III(TGFBR3)基因内的染色体1的位置92203667处的CpG二核苷酸的序列互补,且使第二等分试样与长度为至少8个核苷酸的核酸引物接触,该核酸引物与SNP rs347027互补;(ii)使第一等分试样与长度为至少8个核苷酸的第一寡核苷酸探针接触,该第一寡核苷酸探针与包含在染色体15的基因间隔区中的位置38364951处的CpG二核苷酸的序列互补,且使第二等分试样与长度为至少8个核苷酸的核酸引物接触,该核酸引物与SNPrs4937276互补;(iii)使第一等分试样与长度为至少8个核苷酸的第一寡核苷酸探针接触,第一寡核苷酸探针与包含在辅酶Q24-羟基苯甲酸聚异戊二烯基转移酶(COQ2)基因中的染色体4的位置84206068处的CpG二核苷酸的序列互补,且使第二等分试样与长度为至少8个核苷酸的核酸引物接触,该核酸引物与SNP rs17355663互补;(iv)使第一等分试样与长度为至少8个核苷酸的第一寡核苷酸探针接触,该第一寡核苷酸探针与包含在硫酸乙酰肝素3-O-磺基转移酶4(HS3ST4)基因中的染色体16的位置26146070处的CpG二核苷酸的序列互补,且使第二等分试样与长度为至少8个核苷酸的核酸引物接触,该核酸引物与SNPrs235807互补;(v)使第一等分试样与长度为至少8个核苷酸的第一寡核苷酸探针接触,该第一寡核苷酸探针与包含在染色体1的基因间隔区的位置91171013处的CpG二核苷酸的序列互补,且使第二等分试样与长度为至少8个核苷酸的核酸引物接触,该核酸引物与SNPrs11579814互补;(vi)使第一等分试样与长度为至少8个核苷酸的第一寡核苷酸探针接触,该第一寡核苷酸探针与包含在NADH脱氢酶(泛醌)Fe-S蛋白5(NDUFS5)基因中的染色体1的位置39491936处的CpG二核苷酸的序列互补,且使第二等分试样与长度为至少8个核苷酸的核酸引物接触,该核酸引物与SNP rs2275187互补;(vii)使该第一等分试样与长度为至少8个核苷酸的第一寡核苷酸探针接触,该第一寡核苷酸探针与包含在映射至光传感因子基因中的染色体1的位置186426136处的CpG二核苷酸的序列互补,且使第二等分试样与长度为至少8个核苷酸的核酸引物接触,该核酸引物与SNP rs4336803互补;(viii)使第一等分试样与长度为至少8个核苷酸的第一寡核苷酸探针接触,该第一寡核苷酸探针与包含在周期蛋白依赖性激酶18(CDK18)基因中的染色体1的位置205475130处的CpG二核苷酸的序列互补,且使第二等分试样与长度为至少8个核苷酸的核酸引物接触,该核酸引物与SNPrs4951158互补;和/或(ix)使第一等分试样与长度为至少8个核苷酸的第一寡核苷酸探针接触,该第一寡核苷酸探针与包含在Ca++转运ATP酶2C型成员1(ATP2C1)基因中的染色体3的位置130614013处的CpG二核苷酸的序列互补,且使第二等分试样与长度为至少8个核苷酸的核酸引物接触,该核酸引物与rs925613互补。
在某些实施方案中,本公开文本提供了用于检测来自具有冠心病(CHD)风险的受试者的核酸样品上rs347027处的G等位基因的一个或多个拷贝以及cg13078798处的甲基化状态的方法,该方法包括a)对所述人类受试者的核酸样品进行基因分型测定,以检测rs347027多态性的G等位基因的一个或多个拷贝的存在;和b)对所述人类的核酸样品进行cg13078798处的甲基化评价,以检测甲基化状态,以确定cg13078798是否未甲基化。
在这种方法中,在TGFBR3基因内的染色体1的位置92203667处,或在位置cg20636912、cg16947947、cg05916059、cg04567738、cg16603713、cg05709437、cg12081870和/或cg18070470中任一处的CpG二核苷酸的甲基化,以及在染色体1的位置1618766处的G或者在rs4937276、rs17355663、rs235807、rs11579814、rs2275187、rs4336803、rs4951158和/或rs925613处的SNP中的多态性与CHD相关。
用于检测冠心病的试剂盒
在本公开文本的另一实施方案中,提供了含有可以用于例如上述应用的探针、寡核苷酸或抗体的制品和试剂盒。制品包含具有标记的容器。合适的容器包括例如瓶子、小瓶和试管。容器可以由多种材料(如玻璃或塑料)形成。容器容纳如下组合物,该组合物包括一种或多种有效实践本文所述方法的试剂。容器上的标记指示,组合物可以用于特定应用。本公开文本的试剂盒通常将包含上述容器和一个或多个其他容器,该一个或多个其他容器包含从商业角度和使用者角度来看合意的材料,包括缓冲液、稀释剂、过滤器和具有使用说明书的包装插页。
在某些实施方案中,本公开文本提供了用于确定至少一个CpG二核苷酸的甲基化状态以及至少一个单核苷酸多态性(SNP)的存在的试剂盒。在某些实施方案中,如本文所述的试剂盒可以含有多个引物,该引物数为介于1与10,000之间的任何整数,如1、2、3、4、5、6、7、8、9、10、...9997、9998、9999、10,000。如本文所用,术语“核酸引物”或“核酸探针”或“寡核苷酸”涵盖DNA和RNA引物二者。在某些实施方案中,引物或探针可以在物理上位于单个固体基质上或多个基质上。
如本文所述的试剂盒可以包括至少一个第一核酸引物(例如,长度为至少8个核苷酸),该至少一个第一核酸引物与经亚硫酸氢盐转化的核酸序列互补,该核酸序列包含CpG二核苷酸(例如,在转化生长因子β受体III(TGFBR3)基因内的染色体1的位置92203667处);和至少一个第二核酸引物(例如,长度为至少8个核苷酸),该至少一个第二核酸引物与SNP(例如,SNP rs347027)互补。在一些实施方案中,该至少一个第一核酸引物检测未甲基化CpG二核苷酸。在一些实施方案中,该至少一个第二核酸引物具有检测SNP rs347027处的G核苷酸的序列。
在一些实施方案中,试剂盒还可以包括至少一个第三核酸引物(例如,长度为至少8个核苷酸),该至少一个第三核酸引物与经亚硫酸氢盐转化的核酸序列互补,该核酸序列包含CpG二核苷酸(例如,在TGFBR基因内的染色体1的位置92203667处),其中该至少一个第三核酸引物检测甲基化CpG二核苷酸。
如本文所述的试剂盒可以包括至少一个第一核酸引物(例如,长度为至少8个核苷酸),该至少一个第一核酸引物与经亚硫酸氢盐转化的核酸序列互补,该核酸序列包含CpG二核苷酸(例如,在染色体15的基因间隔区中的位置38364951处),其中该至少一个第一核酸引物检测未甲基化CpG二核苷酸;和至少一个第二核酸引物(例如,长度为至少8个核苷酸),该至少一个第二核酸引物与SNP(例如,rs4937276)互补。
在一些实施方案中,试剂盒还可以包括至少一个第三核酸引物(例如,长度为至少8个核苷酸),该至少一个第三核酸引物与经亚硫酸氢盐转化的核酸序列互补,该核酸序列包含CpG二核苷酸(例如,在染色体15的基因间隔区中的位置38364951处),其中该至少一个第二核酸引物检测甲基化CpG二核苷酸。
如本文所述的试剂盒可以包括至少一个第一核酸引物(例如,长度为至少8个核苷酸),该至少一个第一核酸引物与经亚硫酸氢盐转化的核酸序列互补,该核酸序列包含CpG二核苷酸(例如,在辅酶Q24-羟基苯甲酸聚异戊二烯基转移酶(COQ2)基因中的染色体4的位置84206068处),其中该至少一个第一核酸引物检测未甲基化CpG二核苷酸;和至少一个第二核酸引物(例如,长度为至少8个核苷酸),该至少一个第二核酸引物与SNP(例如,SNPrs17355663)互补。
在一些实施方案中,该试剂盒还可以包括至少一个第三核酸引物(例如,长度为至少8个核苷酸),该至少一个第三核酸引物与经亚硫酸氢盐转化的核酸序列互补,该核酸序列包含CpG二核苷酸(例如,在辅酶Q2 4-羟基苯甲酸聚异戊二烯基转移酶(COQ2)基因中的染色体4的位置84206068处),其中该至少一个第二核酸引物检测甲基化CpG二核苷酸。
如本文所述的试剂盒可以包括至少一个第一核酸引物(例如,长度为至少8个核苷酸),该至少一个第一核酸引物与经亚硫酸氢盐转化的核酸序列互补,该核酸序列包含CpG二核苷酸(例如,在硫酸乙酰肝素3-O-磺基转移酶4(HS3ST4)基因中的染色体16的位置26146070处),其中该至少一个第一核酸引物检测未甲基化CpG二核苷酸;和至少一个第二核酸引物(例如,长度为至少8个核苷酸),该至少一个第二核酸引物与SNP(例如,SNPrs235807)互补。
在一些实施方案中,该试剂盒还可以包括至少一个第三核酸引物(例如,长度为至少8个核苷酸),该至少一个第三核酸引物与经亚硫酸氢盐转化的核酸序列互补,该核酸序列包含CpG二核苷酸(例如,在硫酸乙酰肝素3-O-磺基转移酶4(HS3ST4)基因中的染色体16的位置26146070处),其中该至少一个第二核酸引物检测甲基化CpG二核苷酸。
如本文所述的试剂盒可以包括至少一个第一核酸引物(例如,长度为至少8个核苷酸),该至少一个第一核酸引物与经亚硫酸氢盐转化的核酸序列互补,该核酸序列包含CpG二核苷酸(例如,在染色体1的基因间隔区的位置91171013处),其中该至少一个第一核酸引物检测未甲基化CpG二核苷酸;和至少一个第二核酸引物(例如,长度为至少8个核苷酸),该至少一个第二核酸引物与SNP(例如,SNP rs11579814)互补。
在一些实施方案中,该试剂盒还可以包括至少一个第三核酸引物(例如,长度为至少8个核苷酸),该至少一个第三核酸引物与经亚硫酸氢盐转化的核酸序列互补,该核酸序列包含CpG二核苷酸(例如,在染色体1的基因间隔区的位置91171013处),其中该至少一个第二核酸引物检测甲基化CpG二核苷酸。
如本文所述的试剂盒可以包括至少一个第一核酸引物(例如,长度为至少8个核苷酸),该至少一个第一核酸引物与经亚硫酸氢盐转化的核酸序列互补,该核酸序列包含CpG二核苷酸(例如,在NADH脱氢酶(泛醌)Fe-S蛋白5(NDUFS5)基因中的染色体1的位置39491936处),其中该至少一个第一核酸引物检测未甲基化CpG二核苷酸;和至少一个第二核酸引物(例如,长度为至少8个核苷酸),该至少一个第二核酸引物与SNP(例如,SNPrs2275187)互补。
在一些实施方案中,该试剂盒还可以包括至少一个第三核酸引物(例如,长度为至少8个核苷酸),该至少一个第三核酸引物与经亚硫酸氢盐转化的核酸序列互补,该核酸序列包含CpG二核苷酸(例如,在NADH脱氢酶(泛醌)Fe-S蛋白5(NDUFS5)基因中的染色体1的位置39491936处),其中该至少一个第二核酸引物检测甲基化CpG二核苷酸。
如本文所述的试剂盒可以包括至少一个第一核酸引物(例如,长度为至少8个核苷酸),该至少一个第一核酸引物与经亚硫酸氢盐转化的核酸序列互补,该核酸序列包含CpG二核苷酸(例如,在映射至光传感因子基因中的染色体1的位置186426136处),其中该至少一个第一核酸引物检测未甲基化CpG二核苷酸;和至少一个第二核酸引物(例如,长度为至少8个核苷酸),该至少一个第二核酸引物与SNP(例如,SNP rs4336803)互补。
在一些实施方案中,该试剂盒还可以包括至少一个第三核酸引物(例如,长度为至少8个核苷酸),该至少一个第三核酸引物与经亚硫酸氢盐转化的核酸序列互补,该核酸序列包含CpG二核苷酸(例如,在映射至光传感因子基因中的染色体1的位置186426136处),其中该至少一个第二核酸引物检测甲基化CpG二核苷酸。
如本文所述的试剂盒可以包括至少一个第一核酸引物(例如,长度为至少8个核苷酸),该至少一个第一核酸引物与经亚硫酸氢盐转化的核酸序列互补,该核酸序列包含CpG二核苷酸(例如,在周期蛋白依赖性激酶18(CDK18)基因中的染色体1的位置205475130处),其中该至少一个第一核酸引物检测未甲基化CpG二核苷酸;和至少一个第二核酸引物(例如,长度为至少8个核苷酸),该至少一个第二核酸引物与SNP(例如,SNP rs4951158)互补。
在一些实施方案中,该试剂盒还可以包括至少一个第三核酸引物(例如,长度为至少8个核苷酸),该至少一个第三核酸引物与经亚硫酸氢盐转化的核酸序列互补,该核酸序列包含CpG二核苷酸(例如,在周期蛋白依赖性激酶18(CDK18)基因中的染色体1的位置205475130处),其中该至少一个第二核酸引物检测甲基化CpG二核苷酸。
如本文所述的试剂盒可以包括至少一个第一核酸引物(例如,长度为至少8个核苷酸),该至少一个第一核酸引物与经亚硫酸氢盐转化的核酸序列互补,该核酸序列包含CpG二核苷酸(例如,在Ca++转运ATP酶2C型成员1(ATP2C1)基因中的染色体3的位置130614013处),其中该至少一个第一核酸引物检测未甲基化CpG二核苷酸;和至少一个第二核酸引物(例如,长度为至少8个核苷酸),该至少一个第二核酸引物与SNP(例如,SNP rs925613)互补。
在一些实施方案中,该试剂盒还可以包括至少一个第三核酸引物(例如,长度为至少8个核苷酸),该至少一个第三核酸引物与经亚硫酸氢盐转化的核酸序列互补,该核酸序列包含CpG二核苷酸(例如,在Ca++转运ATP酶2C型成员1(ATP2C1)基因中的染色体3的位置130614013处),其中该至少一个第二核酸引物检测甲基化CpG二核苷酸。
应理解,本文所述的核酸引物、探针或寡核苷酸中的任一者可以包括一个或多个核苷酸类似物和/或一个或多个合成或非天然核苷酸。
还应理解,本文所述的任何试剂盒可以包括固体基质。在一些实施方案中,一个或多个核酸引物可以结合至固体载体。固体载体的例子包括但不限于聚合物、玻璃、半导体、纸、金属、凝胶或水凝胶。固体载体的其他例子包括但不限于微阵列或微流体卡。
还应理解,本文所述的任何试剂盒可以包括一个或多个可检测标记。在一些实施方案中,一个或多个核酸引物可以经该一个或多个可检测标记来标记。代表性的可检测标记包括但不限于酶标记、荧光标记和比色标记。
用于预测手术后心脏事件的算法
本文所述的方法中可以使用任何数目的算法,该算法可以捕获线性效应(例如,线性回归)或线性效应和非线性效应二者(例如,Random Forest、梯度增强、神经网络(例如,深度神经网络、极限学习机(ELM))、支持向量机、隐马尔可夫(Hidden Markov)模型)。参见例如,McKinney等人,2011,Appl.Bioinform.,5(2):77-88;Gunther等人,2012,BMCGenet.,13:37;和Ogutu等人,2011,BMC Proceedings,5(增刊3):S11。可以使用能够捕获用于预测的性状的线性和/或非线性贡献的任何类型的机器学习算法或深度学习神经网络算法(经调谐或未经调谐)。参见例如图14。在一些情况下,使用算法的组合(例如,捕获性状的线性和/或非线性贡献的多种算法的组合或系综)。
仅举例来说,Random ForestTM是流行的机器学习算法,由Breiman和Cutler创建,用于生成“分类树”(参见例如,万维网上的“stat.berkeley.edu/~breiman/RandomForests/cc_home.htm”)。使用标准机器学习和预测性建模技术,根据Breiman和Cutler充分说明的准则,书写诊断分类器算法以用R和Python编程语言来执行(但其能以多种其他编程语言来执行)。诊断分类器算法是使用来自至少两个性状(T)和来自该群体的目标诊断的数据生成的。为了确定新个体的输出(例如,诊断),仅确定该至少两个性状(T)的值并将该信息输入能够捕获性状的线性和非线性贡献的算法(例如,本文所述的诊断分类器算法或上文讨论的另一算法)中。
如本文所述,输入是至少一个基因型(例如,SNP)和至少一个CpG二核苷酸的甲基化状态,并且结果可以代表CHD、CHF、中风或其他疾病的正概率或负概率(例如,预测或诊断)。用于确定结果的性状(T)可以代表至少一个CpG二核苷酸的甲基化状态或至少一个基因型(例如,SNP的基因型),但性状(T)也可以对应于至少一种相互作用(例如,甲基化状态与基因型之间(CpGxSNP)、两个不同位点的甲基化状态之间(CpGxCpG)或两个不同基因型之间(SNPxSNP))。应理解,任何此类相互作用都可以使用部分依赖曲线图来可视化。
显而易见,本公开文本使技术人员能构建矩阵,其中可以如本文所述评估一个或多个CpG二核苷酸的甲基化状态和一个或多个基因型(例如,SNP;例如,在一个或多个等位基因处),通常使用计算机来构建,以鉴定相互作用并且允许预测手术后心脏事件。尽管这种分析较复杂,但不需要过度实验,因为所有所需信息都是技术人员可容易获得的,或者可以通过如本文所述的实验来采集。
在以下实施例中进一步详述本发明,该实施例是以说明方式来提供,并不旨在以任何方式限制本发明。利用本领域熟知的标准技术或下文详细描述的技术。本说明书中引用的所有专利和参考文献都通过引用以其整体并入本文。
实施例1
在预测心血管疾病中的甲基化和Gx甲基化效应
基于甲基化的生物标记物在临床上正变得越来越受欢迎,用于指导诊断和治疗。在鉴定CpG基因座(其甲基化状态预示心血管疾病)的尝试中,多位研究者已将全基因组方法与临床诊断组合使用。特别地,Brenner和同事已将F2RL3残基cg03636183鉴定为心血管疾病的生物标记物(Breitling等人,“Smoking,F2RL3methylation,and prognosis instable coronary heart disease,”Eur.Heart J.,2012,33:2841-8)。不幸的是,已显示这些分析因未完全获知吸烟状态而完全混乱,并且未考虑到可能造成混乱的遗传变异。事实上,在使用充分考虑吸烟强度的生物标记物方法时,在cg03636183处的冠心病信号消失。此外,使用全基因组甲基化和遗传分析与生物标记物指导的吸烟评价组合,我们最近已分析了来自提供心脏病信息的大型受试者群组的数据。我们证实,与吸烟强度状态无关,如通过甲基化-基因型相互作用(meQTL)所体现的遗传语境甲基化状态实际上对冠心病的预测贡献更高,并且使用组合局部基因变异与甲基化的算法显著改良对冠心病的预测。
实施例2
纳入基因x甲基化相互作用增强预测冠心病的存在的能力
摘要
冠心病(CHD)在美国是首要死因。存在预防CHD发病和死亡的有效治疗,但其临床实施受到低效筛查技术的阻碍。近年来,其他人和我们已经证明,DNA甲基化特征可以推断出与CHD相关的各种障碍的存在,如吸烟。不幸的是,当这些表观遗传技术应用于CHD本身时,这些方法的能力降低,从而限制了它们的临床效用。这些失败的一个可能原因可能是通过基因x甲基化相互作用(meQTL)效应掩盖了CHD的表观遗传特征。为了测试这种可能性,使用逐步方法,通过分析来自弗雷明汉心脏研究的遗传和表观遗传数据,我们检查了纳入meQTL是否可以用于改良基于甲基化的预先评价的预测价值。在我们的最初尝试中,使用集中于F2RL3的接受者操作特征(ROC)曲线下面积(AUC)分析,我们发现在靠近Brenner和同事先前描述的基因座的CpG残基cg13751927处添加顺式和反式meQTL显著改良仅包括吸烟状态的模型在训练数据集中预测CHD的能力。后续全基因组meQTL分析以0.05的FDR鉴定出总计3,265个顺式meQTL,并且以0.1的FDR鉴定出467,314个重要的反式meQTL。我们的初步分析表明,引入6个额外的顺式meQTL进一步改良仅具有F2RL3meQTL和吸烟的现有模型的AUC。这个未优化模型能够以81.9%的准确率预测CHD。我们得出结论,在预测算法中纳入meQTL信息可以显著改良其预测CHD的能力,并且通过其他经优化的机器学习模型作改良模型预测CHD的能力的进一步尝试是可能的。
引言
冠心病(CHD)在美国是首要死因,据估计在2012年其对美国经济造成的直接损失有1080亿美元。1在过去五十年间,已研发出多种药物和装置来治疗CHD。不幸的是,每年仍有成千上万的美国人由于在致命的心脏事件发生前未发现CHD的存在而死亡。可以想象,更有效的CHD筛选程序可以预防部分这类死亡。1但是在目前,某些技术(如空腹血脂检查)的繁琐和/或其他技术(如心电图和C反应蛋白水平)的有限预测能力限制了当前方法在鉴定CHD中的有效性。1-3
多位研究者已提出,遗传方法可以提供预防CHD相关发病和死亡的另一可能手段。4使用全外显子组和基因组测序技术,已鉴定出多种对CHD易感的变体。许多这些变体产生的相对风险通常值得考虑,并且其存在有时可用于指导预防和治疗。5然而,大效应值变体往往较罕见,并且其存在并非当前疾病的特殊病征。4因此在目前,在一般医疗实践中,一般不使用遗传方法来评价当前CHD的存在或不存在。
可替代地,其他人已提出,表观遗传技术可能可用于评价CHD。6-8由于已研发出2型糖尿病的存在、吸烟和饮酒的重复外周白细胞DNA甲基化特征,9-12这个建议具有较强表面效度。值得注意的是,使用这种方法,Brenner和同事已提出,在cg03636183(发现于凝血因子II(凝血酶)受体样3(F2RL3)中的CpG残基)处的DNA甲基化预测心脏病的风险。6,13虽然这是在生物学上非常可能合理的发现,但其后续研究已证实,在cg03636183处的CHD相关信号与如通过cg05575921(发现于芳烃受体抑制因子(AHRR)中的CpG残基,其关于吸烟状态的强预测能力已在多次研究中证实15)处的DNA甲基化所指示的吸烟状态完全共分离。14
然而,最初吸引人的cg03636183发现未能独立鉴定单独的吸烟所产生风险以外的额外风险,并不意味着用于评价CHD的存在的甲基化方法注定失败。相反,其表明成功的方法需要更具细微差异,并且对甲基化状态与CHD的关系的概念化的再次考虑正在有序进行。例如,Brenner团队的发现有力地表明,用于预测当前CHD的甲基化算法应包括吸烟状态的指示物。鉴于吸烟是CHD的最大可预防风险因子,16这是非常合乎逻辑的。然而,另外,其可能需要考虑暴露于环境风险因子(如吸烟或其他心脏风险因子,如高脂血症)的长期效应可能被基因-环境相互作用掩盖。
基因-环境相互作用(GxE)效应在减轻对疾病的易损性中的作用可能在行为科学中理解更多。GxE效应的基础前提是,环境影响在发育敏感时期以遗传语境方式改变系统的生物性质,使得在未来,即使在环境因子不存在下,也存在增强的对疾病的易损性。17关键是,由于遗传变量造成混乱,通常无法检测环境变量的直接效应。而是只有在基因变异背景下考虑时才能检测环境变量的直接效应。虽然一些GxE发现的强度是有争论的,许多研究者仍强调这些GxE效应在多种行为障碍的发病机制中的重要意义,该行为障碍是例如抑郁症、创伤后应激障碍和反社会行为。18-20
人们认为这些GxE效应的物理基础是变化的。例如,在解剖水平上,针对行为障碍的GxE效应可以通过突触结构的变化来表现。21然而,在分子水平上,GxE效应的物理表现较不确定。但多位研究者已建议,DNA甲基化的变化可能是一个潜在机制,通过该机制传递GxE效应的物理效应。22
有趣的是,环境中的行为相关变化可以改变DNA甲基化以及那些变化的程度受基因变异影响的事实在许多年前已为人所知。在我们的早期候选基因研究中显示,吸烟改变单胺氧化酶A(MAOA)的启动子区域中的DNA甲基化,该酶是单胺能神经传递的关键调节剂,并且在已充分表征的启动子相关的可变核苷酸重复序列(VNTR)处的基因型在存在和不存在吸烟两种情况下都改变该状态下的甲基化百分比。23,24随后,Volkow和同事显示那些基因座处的甲基化变化发挥作用。25
在当前的术语中,VNTR对吸烟或基础DNA甲基化的那些效应现在称为基因型-甲基化相互作用或甲基化数量性状基因座(meQTL)效应。在我们实施最早的全基因组研究时,这些MAOA meQTL效应对于检测其与吸烟的关系的能力非常重要。不管响应于吸烟的DNA甲基化的吸烟诱导变化的量值如何,即使在来自仅一种性别的受试者的DNA的研究中,MAOAVNTR周围的探针并不在更高级探针中。来自那些最初研究的其他观察结果同样具有启发性。第一,针对吸烟的局部甲基化反应不具有同质性。对启动子相关岛中88个CpG残基的甲基化状态的因子分析显示,岛中一个区域处的甲基化增加可能与其他区域处的去甲基化相关。26最后,吸烟对DNA甲基化的效应并非静态的。一段时间后,特征往往衰减。23因此,根据那些早期研究显而易见,在MAOA启动子处,基因变异能以复杂方式改变环境因子对局部DNA甲基化特征的效应。
后续研究表明,这些响应于吸烟的相同复杂性很多在全基因组水平上是明显的。例如,显而易见,在全基因组水平上,基因变异影响甲基化反应的量值,并且在尝试重复来自不同祖先的特征时,那些meQTL效应可能削弱重复在不同祖先的受试者集合中在给定基因座处的发现的能力。27,28第二,并且同样重要的,甲基化特征的逆转可能较复杂。28, 29Guida和同事专门检查了来自745名受试者的集合的DNA中对戒烟的表观基因组反应,并且发现了两类CpG位点,一类的甲基化特征随时间而恢复,另一类不恢复;并得出结论,在全基因组水平上,“戒烟后甲基化变化的动力学受吸烟诱导变化的差异性和位点特异性量值驱动,这与吸烟的强度和持续时间无关。”29总之,大量证据表明,针对吸烟的全基因组特征仅部分可逆,并且大部分不可逆变化能以复杂方式掩盖于meQTL效应中。
由于吸烟是CHD的主要风险因子,这还表明表观基因组中存在一部分减轻了CHD风险的吸烟诱导风险,其可能稍微不可逆并且掩盖于meQTL反应中。另外,由于吸烟是多种因子中唯一可改变CHD风险的因子,并且这些其他因子也可能具有复杂的表观遗传特征,很可能研究外周WBC DNA甲基化可以揭示减轻CHD风险并且相对稳定的meQTL。在此通讯中,我们使用了回归分析方法和来自324名参与弗雷明汉心脏研究的受试者的表观遗传和遗传资源来测试,增加meQTL效应是否可对预测CHD的算法作出贡献。
方法
弗雷明汉心脏研究。此研究中使用的数据来源于弗雷明汉心脏研究(FHS)的参与者。30FHS是旨在理解心血管疾病(CVD)的风险的纵向研究并且由若干个群组构成,包括初代群组、后代群组、多种族群组(Omni Cohort)、第三代群组、新后代配偶群组和第二代多种族群组。具体而言,此研究中使用的后代群组始于1971年,由初代群组的后代和其配偶组成。这个群组由2,483名男性和2,641名女性(总计5,124人)组成。31此通讯中所述的特定分析由爱荷华大学伦理审查委员会批准。
全基因组DNA甲基化。在后代群组中的5,124名个体中,仅考虑2,567名个体(去重)的DNA甲基化数据。这些个体包括于DNA甲基化研究中是因为其参与了弗雷明汉后代第8次检查,提供了遗传研究许可,具有血沉棕黄层样品,并且具有足够的DNA数量和质量用于甲基化图谱分析。检查8发生在2005年与2008年之间。对从其白细胞提取的基因组DNA进行亚硫酸氢盐转化,之后在明尼苏达大学或约翰霍普金斯大学使用IlluminaHumanMethylation450BeadChip(加利福尼亚州圣地亚哥)对全基因组DNA甲基化进行图谱分析。使用MethyLumi、WateRmelon和IlluminaHumanMethylation450k.db R包,使用样品的强度数据(IDAT)文档以及其载玻片和阵列信息进行DASEN归一化。32DASEN归一化进行探针过滤、背景校正和针对探针类型的调整。如果样品含有>1%的CpG位点且检测p值>0.05,则移除该样品。如果CpG位点的微珠计数<3和/或>1%的样品的检测p值>0.05,则移除该CpG位点。在DASEN归一化之后,保留2,560个样品和484,241个位点(484,125个CpG位点)。将CpG位点根据染色体分组。在Lumi包中使用beta2m R函数将甲基化β值转化为M值,并且随后使用R脚本转化为z得分。33
全基因组基因型。在其余2,560名个体中,在DNA甲基化质量控制后,2,406名(1,100名男性和1,306名女性)具有来自Affymetrix GeneChip HumanMapping 500K ArraySet(加利福尼亚州圣克拉拉)的全基因组基因型数据。此阵列能够对基因组中的500,568个SNP进行图谱分析。在PLINK中在样品和SNP探针两个水平上进行质量控制。初始质量控制步骤涉及鉴定具有不一致性别信息的个体。没有鉴定出这样的个体。之后,排除杂合性比率大于或小于均值±2SD且缺失SNP比例>0.03的个体。如果血缘一致性值>0.185(二级亲属与三级亲属之间的中点),那么亲缘个体也要排除。在进行这些样品水平的质量控制步骤后,保留1,599名个体(722名男性和877名女性)。在探针水平上,保留次要等位基因频率>1%、哈迪-温伯格平衡p值>10-5且SNP缺失率<5%的SNP。在这些质量控制步骤后,保留总计403,192个SNP。使用PLINK中的重编码选项,34将基因型编码为0、1或2。
表型。在甲基化数量性状基因座(meQTL)分析中,所考虑的表型包括年龄、性别、批次、吸烟暴露和冠心病(CHD)状态。在1,599名通过所有质量控制步骤的个体中,324名个体在检查8中被记录为患有CHD。这些个体是训练集。CHD记录为流行性或偶发性,并且如果弗雷明汉终点审查委员会(3位研究者的小组)一致认为存在以下各项中的一项,即将个体诊断为患有CHD:心肌梗塞、冠状动脉功能不全、心绞痛、CHD所致的猝死、CHD所致的非猝死。对于该分析,如果个体患有流行性和/或偶发性CHD,则将CHD编码为1,否则编码为0。所用年龄是个体在检查8时的年龄。批次是甲基化板数并且吸烟暴露是在芳烃受体抑制因子(AHRR)吸烟生物标记物cg05575921处的甲基化水平。训练集中324名个体的人口统计学归纳于表1中。
表1.训练集中324名个体的人口统计学
剩余的1275名个体是测试数据集。如果不存在CHD,那么将这些个体的CHD状态编码为0,否则编码为1。这些个体的人口统计学归纳于表2中。
表2.测试数据集中1275名个体的人口统计学
CHD存在 CHD不存在
n
男性 52 447
女性 49 727
年龄
男性 71.0±8.5 65.0±8.3
女性 72.2±8.9 65.8±8.4
cg05575921甲基化(m值)
男性 -0.269±1.02 -0.153±1.02
女性 -0.181±1.00 0.055±0.91
甲基化数量性状基因座。meQTL分析是在训练集中使用MatrixeQTL包以R来进行的。35为确定SNP对给定CHD状态下的甲基化(meQTL)的显著效应,询问以下模型:
Methi~年龄+性别+批次+cg0557592l+SNPj+CHD+SNPj*CHD
保留具有显著SNPf*CHD项的顺式和反式meQTL用于预测。特别关注相互作用项,因为该分析旨在针对年龄、性别、批次、吸烟暴露以及SNP和CHD的主效应加以控制后,揭示有效预测给定CHD状态下的特定甲基化位点的特定SNP。在MatrixeQTL包中,这是使用modelLINEAR_CROSS模型类型来实现的。顺式距离被选择为在位点任一侧500,000并且是在染色体水平上进行。meQTL分析是在全基因组水平上且针对凝血因子II受体样3(F2RL3)基因特异性进行的。进行此分析以确定,在针对F2RL3所鉴定的meQTL以外是否存在更好地预测CHD的其他meQTL。
接受者操作特征曲线。书写R脚本以执行下文所示模型的逻辑回归,且随后使用pROC包以R计算接受者操作特征(ROC)曲线下面积(AUC)36。针对显著顺式meQTL在标称0.05水平且针对反式meQTL在FDR 0.1水平执行这个脚本。在下文所列的模型中,每个meQTL由SNP*meth项代表。
CHD~年龄+性别+批次+cg05575921+SNPj+methi+SNPj*methi
CHD~年龄+性别+批次+cg05575921+SNPj+methi+SNPj*methi
模型训练。在由324名个体组成的训练数据集上训练模型。此模型中的变量是基于其从上述模型生成的个别ROC曲线下面积(AUC)来选择的。进行10折交叉验证以确定CHD分类的逻辑回归阈值。根据平均准确率,选择0.5的分类阈值。
模型测试。一旦确定了训练模型参数和分类阈值,就将经训练的模型应用于独立的测试数据集。测试数据集中个体的人口统计学描述于上文中。模型测试是以R进行。
结果
吸烟状态的cg05575921。如先前所讨论,吸烟是CHD的主要风险因子。尽管过去大多数研究使用自我报告的吸烟量度,但这些量度的可靠性和忠实度都有待优化。因此,为了使不可靠自我报告的影响降至最低,且为了利用连续度量更好地捕获吸烟消耗量的能力,我们使用了已经充分验证的吸烟生物标记物cg05575921。14,15,37尽管cg05575921是324名个体中自我报告吸烟的强预测因子(p值=8.71e-9,R2=0.62),cg05575921作为CHD预测因子的强度高于自我报告的吸烟状态(p值=1.64e-5,R2=0.085相对于p值=0.00218,R2=0.042)。这证实,纳入cg05575921代替自我报告的吸烟状态来代表吸烟暴露将进一步强化用于CHD预测的下游模型。
甲基化数量性状基因座。如方法章节中所讨论的全基因组DNA甲基化分析证实了考虑甲基化与基因型之间的相互作用对CHD预测的混乱效应的重要性。在针对年龄、性别、批次和cg05575921加以控制后,在0.05的FDR显著性水平上,CHD与任何甲基化CpG位点并不显著相关。根据meQTL分析,在0.05标称、0.05FDR、0.01FDR和0.001FDR显著性水平上,分别存在5,458,462、3,265、2,025和1,227个显著顺式meQTL。类似地,在0.1FDR显著性水平上,存在467,314个显著反式meQTL。使用接受者操作特征曲线下面积来证实这些meQTL中的一些的重要性。
核心变量的接受者操作曲线(ROC)。ROC曲线描绘了模型灵敏度与选择性之间的权衡。在引入遗传和表观遗传变量之前,我们建立了meQTL模型中所用核心变量年龄、性别、批次和cg05575921的ROC曲线下面积(AUC)。年龄、性别、批次和cg05575921的AUC分别为0.52、0.51、0.50和0.64。总而言之,其导致0.65的AUC,这几乎等于仅cg05575921的AUC。如果使用自我报告吸烟代替cg05575921,其个别和共同AUC分别为0.55和0.56。这些分析的ROC曲线描绘于图1中。因此,后续模型中仅包括一个核心变量cg05575921。
训练数据中CHD预测的ROC。使用cg05575921和9个SNP-甲基化相互作用项用于CHD预测,获得0.964的ROC曲线AUC(参见图2)。模型中添加和不添加cg05575921的情况下的9个相互作用项和其各自的AUC归纳于表3中。
表3.用于生成初始预测模型的9个meQTL的列表。
SNP CpG meQTL AUC meQTL+cg055 AUC
rs347027 cg13078798 0.728 0.776
rs4937276 cg20636912 0.731 0.770
rs17355663 cg16947947 0.712 0.769
rs235807 cg05916059 0.698 0.765
rs11579814 cg04567738
rs2275187 cg16603713
rs4336803 cg05709437
rs4951158 cg12081870
rs925613 cg18070470 0.730 0.761
预测模型。在训练数据中使用初步逻辑预测模型来预测CHD。在10折交叉验证后,将分类阈值设为0.5。在324名个体中,299名由于不存在缺失数据而包括在预测中。在这299名个体中,分别有73名和226名患有和不患有CHD。这意味着,如果将每个人都分配至主要类别(即CHD不存在),预测准确率将为75.6%。在10折交叉验证后,这个初步模型的平均准确率为91%,这远高于基线。
模型测试。使用经训练的模型来预测1275名个体的独立测试数据集中的CHD状态。该模型能够以80%的准确率预测CHD。此模型仍有待优化。
讨论
结果证实,CHD的存在可以通过使用得自meQTL的甲基化-基因型相互作用来推断。然而,在可以讨论结果之前,重要的是应注意当前研究的若干限制。第一,弗雷明汉群组仅为白人并且大多数受试者的年龄都为65-69岁和75-79岁。因此,当前发现可能不适用于其他种族或不同年龄范围的人。第二,除了cg05575921以外,其他探针的M(或B值)的有效性尚未通过独立技术(如焦磷酸测序)证实。第三,研究中所用的Illumina阵列不再可获得。由于新一代阵列中探针的设计或可用性的变化,可能会影响到复现和扩展的能力。
当前结果强调资源的价值,例如弗雷明汉心脏研究加深了我们对心脏病的理解。事实上,在没有这个资源的情况下,公平地说,这类工作即便不是不可能进行也是难以实施的。而且,即便考虑到当前结果使用这个独特的数据集,在筛选测试(如本通讯中所述的测试)可以在临床上采用之前也需要做大量的额外工作。最明显地,当前结果将不得不在其他数据集中复现和改进,之后在代表其既定未来临床应用的研究群体中再次测试。后一点特别重要,因为即使最初在流行病学方面正确的设计良好的群组研究也经受保持偏置,使剩余集合更丰富以减少严重疾病。关于与药物使用相关的疾病尤其如此,因为对于纵向随访更常丢失具有高药物使用水平的先证者。38另外,由于SNP频率在不同种族之间可变,给定meQTL的效应值也可变。因此,将需要在多个提供种族信息的群组中进行广泛测试和研发。
可能很难对AUC加以改良。讽刺的是,这与表观遗传和遗传数据的质量或数量的关系不大。而是限制可能在于临床表征中的不确定性。悲哀的是,即使在最佳条件下,也可能检测不到临床相关的CHD。即使对于FHS群组也是如此。因此,当前研究中的“金标准”本身关于实际临床状态就略微不准确。由于这种不准确性增加了甚至确切地靶向相关生物学的生物标记物的误差,我们改良AUC的能力可能依赖于我们获得更准确的临床评价的能力。39
使用此方法的另一限制是CHD的不断演变的流行病学。尽管对CHD的遗传贡献相对固定,但饮食和其他环境暴露却一代一代地始终在变化。也许通过考虑吸烟对此测试在先前世代中的预测能力的贡献可以最好地阐释这种限制。自从16世纪早期从新大陆将烟草引入欧洲起,我们就可以确信地陈述,在中世纪欧洲吸烟对CHD的贡献是有限的,并且因此,cg05575921对预测能力的影响将为零。相反,由于在20世纪60年代超过40%的美国成人吸烟,40如通过cg05575921所捕获,吸烟行为对预测CHD的贡献在来自那个年代的受试者中会显著较大。然而,吸烟并非一代一代地变化且在群组之间变化的唯一环境因子。在过去20年间,对健康饮食中饱和反式脂肪酸的量,我们的理解和公众态度都已有了显著变化。由于这些环境因子对CHD的可能性也有较强影响,我们可以预期,meQTL负载对这些饮食因子的加权可随年龄和种族而变。
与自我报告吸烟相比,吸烟甲基化生物标记物cg05575921的改进的预测能力并不出乎意料。在我们的初始研究中,在使用经充分筛选的病例和对照的研究中,已显示其为当前吸烟状态的有效指示物,且AUC为0.99。37尤其在高风险群组中,对吸烟的不可靠的自我报告是众所周知的现象。41-44此外,与cg05575921不同,明确的自我报告不包括吸烟的强度。37最后,可能已参与该研究的许多受试者可能先前吸烟,但在第8波访谈中未吸烟,却仍具有AHRR的残留去甲基化。在这些情况中的每一种中,使用连续度量可以捕获通过二分型吸烟变量未捕获到的对CHD的额外易损性。
由于酒精中毒也是CHD的风险,1我们稍微惊讶的是,我们先前已确认且已验证的用于评价酒精摄入的生物标记物方法未产生更大预测影响。10,45在我们的初始模型中,添加cg2313759处的甲基化状态仅将AUC改良了0.015。尽管此未能显示酒精使用对CHD风险的效应的一个原因可能是此标记物没有像我们的吸烟生物标记物一样经充分验证,但是还存在其他原因。第一并且最重要的,与在所有暴露水平上展示增强且增加的缩短预期寿命的风险的cg05575921处的甲基化相反,cg2313759处的甲基化展示关于生物衰老的倒U形分布。尚未得知CHD风险是否也符合关于酒精摄入的U形分布。但其确实表明,任何纳入酒精相关甲基化的主效应的成功算法都无法使用简单的线性方法。
我们在不存在全基因组显著主效应的情况下成功地发现预测CHD的meQTL可能对搜索用于其他常见成年人复杂障碍的标记物集有重要意义。在美国前十大死因中,已使用主效应研发仅用于2型糖尿病和慢性阻塞性肺病(COPD)的可靠甲基化特征。12,46由于发现疾病的良好生物标记物的能力高度取决于临床诊断的可靠性,这两个情况的成功可能次于用于诊断这两种障碍的方法(即血红蛋白A1C和肺量测定法)的极佳诊断可靠性。另外,重要的是应注意,T2DM的诊断特征主要映射至受过量葡萄糖水平影响的途径,而与COPD相关的特征主要与吸烟的特征重叠,吸烟对所有COPD病例的95%有贡献。12,46而且,由于其他主要死因(如中风)的许多风险因子与CHD风险因子(例如吸烟)重叠,我们对于使用此方法可以生成类似图谱是乐观的。
不幸的是,绝大多数成人发作的常见复杂障碍不具有良好的现有生物标记物或大效应值病因学因子。在这些病例中,纳入meQTL的方法可能是有益的,真正的问题是为什么有益?尽管是推测的,基于我们的经验,局部和全基因组数据指示,长期暴露于细胞应激因子导致表观基因组重组,此可能仅为部分可逆。如果该基因组解组(不管其持续多久)是有原因地与疾病相关,其可以用作疾病的生物标记物。理解这些meQTL中的每一个的逆转时间可能进一步加深理解。例如,药理学干预可能对这些meQTL的离散子集具有效应。通过理解这些基因座处的逆转与治疗结果之间的关系,可能优化现有药物或更熟练地调整新组合方案。
未观察到针对CHD的甲基化主效应的事实并不一定指示WBC中缺乏表观遗传特征。而是,其说明了整体遗传架构的复杂性。例如,虽然数千个CpG基因座处的甲基化状态与吸烟状态相关(关于评论参见14,15),在cg05575921处的信号是少数信号未被一个群体或另一群体中的种族特异性遗传差异掩盖者之一。27本通讯显示,对吸烟的表观基因组反应还包括大量的meQTL。但测量每个meQTL的至少两个值的必要性表明,将这些发现转化为对诊断、治疗或预防的改进可能更具挑战性。
总之,我们报道,纳入来自meQTL的信息的算法可以预测FCS中CHD的存在。我们建议,指示在其他种族的群组中复现和扩展该方法的可推广性的进一步研究。我们另外建议,类似方法可以导致生成其他常见复杂障碍(如中风)的甲基化图谱。
实施例2参考文献
1.Mozaffarian等人,Executive Summary:Heart Disease and StrokeStatistics-2016 Update:A Report From the American HeartAssociation.Circulation133,447-454(2016)
2.Buckley等人,C-reactive protein as a risk factor for coronary heartdisease:a systematic review and meta-analyses for the US Preventive ServicesTask Force.Ann.Intern.Med.151,483-495(2009)
3.Auer等人,Association of major and minor ecg abnormalities withcoronary heart disease events.JAMA307,1497-1505(2012)
4.Paynter等人,Are Genetic Tests for Atherosclerosis Ready for RoutineClinical Use?Circ.Res.118,607-619(2016)
5.Mega等人,Genetic risk,coronary heart disease events,and theclinical benefit of statin thcrapy:an analysis of primary and secondaryprevention trials.The Lancet385,2264-2271
6.Breitling等人,Smoking,F2RL3 methylation,and prognosis in stablecoronary heart disease.Eur.Heart J. 33,2841-2848(2012)
7.Sharma等人,Detection of altered global DNA methylation in coronaryartery disease patients.DNA Cell Biol.27,357-365(2008)
8.Gluckman等人,Epigenetic mechanisms that underpin metabolic andcardiovascular diseases.Nat.Rev.Endocrinol.5,401-408(2009)
9.Monick等人,Coordinated changes in AHRR methylation in lymphoblastsand pulmonary macrophages from smokers.Am.J.Med Genet.159B,141-151(2012)3318996。
10.Philibert等人,A pilot examination of the genome-wide DNAmethylation signatures of subjects entering and exiting short-term alcoholdependence treatment programs.Epigenetics9,1-7(2014)
11.Zeilinger等人,Tobacco smoking leads to extensive genome-widechanges in DNA methylation.PLoS One 8,e63812(2013)
12.Toperoff等人,Genome-wide survey reveals predisposing diabetes type2-related DNA methylation variatiohs in human peripheralblood.Hum.Mol.Genet.21,371-383(2012)
13.Zhang等人,F2RL3 methylation in blood DNA is a strong predictor ofmortality.Int.J.Epidemiol.(2014)
14.Zhang等人,Smoking-Associated DNA Methylation Biomarkers and TheirPredictive Value for All-Cause and Cardiovascular Mortality.Environ.HealthPerspect.(2015)
15.Andersen等人,Current and Future Prospects for EpigeneticBiomarkers of Substance Use Disorders.Genes 6,991-1022(2015)
16.Center for Disease Control.Annual Smoking-Attributable Mortality,Years of Potential Life Lost,and Productivity Losses---United States,1997--2001.MMWR 54,625-628(2005)
17.Yang等人,Evolving methods in genetic epidemiology.III.Gene-environment interaction in epidemiologic research.Epidemiol.Rev.19,33-43(1997)
18.Caspi等人,Influence of life stress on depression:moderation byapolymorphismin the 5-HTT gene.Science 301,386-389(2003)
19.Caspi等人,Role of genotype in the cycle of violence inmaltreatedchildren.Science 297,851-854(2002)
20.Kolassa等人,Association study of trauma load and SLC6A4 promoterpolymorphism in posttraumatic stress disorder:evidence from survivors of theRwandan genocide.J Clinical Psychiatry 71,543-547(2010)
21.McEwen,Physiology and Neurobiology of Stress and Adaptation:Central Role of the Brain.Physiol.Rev.87,873-904(2007)
22.Klengel等人,The role of DNA methylation in stress-relatedpsychiatric disorders.Neuropharmacology 80,115-132(2014)
23.Philibert等人,The effect of smoking on MAOA promoter methylationin DNA prepared from lymphoblasts and whole blood.Am.J.Med.Genet.153B,619-628(2010)
24.Philibert等人,MAOA methylation is associated with nicotine andalcohol dependence in women.Am.J.Med.Genet.147B,565-570(2008)
25.Shumay等人,Evidence that the methylation state of the monoamineoxidase A(MAOA)gene predicts brain activity of MAOA enzyme in healthymen.Epigenetics 7,10-19(2012)
26.Beach等人,Child maltreatment moderates the association of MAOAwith symptoms of depression and antisocial personalitydisorder.J.Fam.Psychol.24,12-20(2010)2839928。
27.Dogan等人,Ethnicity and Smoking-Associated DNA Methylation Changesat HIV Co-Receptor GPR15.Frontiersin psychiatry 6(2015)
28.Tsaprouni等人,Cigarette smoking reduces DNA methylation levels atmultiple genomic loci but the effect is partially reversible uponcessation.Epigenetics 9,1382-1396(2014)
29.Guida等人,Dynamics of Smoking-Induced Genome-Wide MethylationChanges with Time Since Smoking Cessation.Hum.Mol.Genet.(2015)
30.Dawber等人,An approach to longitudinal studies in a community:theFramingham Study.Ann.N.Y.Acad.Sci.107,539-556(1963)
31.Mahmood等人,The Framingham Heart Study and the epidemiology ofcardiovascular disease:a historical perspective.The Lancet 383,999-1008(2014)
32.Pidsley等人,A data-driven approach to preprocessing Illumina 450Kmethylation array data.BMC Genomics 14,1-10(2013)
33.Du等人,lumi:a pipeline for processing Illuminamicroarray.Bioinformatics 24,1547-1548(2008)
34.Purcell等人,PLINK:a tool set for whole-genome association andpopulation-based linkage analyscs.The American Journal of Human Genetics 81,559-575(2007)
35.Shabalin,Matrix eQTL:ultra fast eQTL analysis via large matrixoperations.Bioinformatics 28,1353-1358(2012)
36.Beck等人,The use of relative operating characteristic(ROC)curvesin test performance evaluation.Arch.Pathol.Lab.Med.110,13-20(1986)
37.Philibert等人,A Quantitative Epigenetic Approach for theAssessment of Cigarette Consumption.Front.Psychol.6(2015)
38.Wolke等人,Selective drop-out in longitudinal studies and non-biased prediction of behaviour disorders.TheBritish Journal of Psychiatry195,249-256(2009)
39.Philibert等人,The search for peripheral biomarkers for majordepression:Benefiting from successes in the biology of smoking.AmericanJournalof Medical Genetics Part B:Neuropsychiatric Genetics 165,230-234(2014)
40.Garrett等人,Control,C.f.D.&Prevention.Cigarette smoking-UnitedStates,1965-2008.MMWR Surveill.Summ.60,109-113(2011)
41.Caraballo等人,Self-reported cigarette smoking vs.serum cotinineamomg U.S.adolescemts.Nicotine&Tobacco Research6,19-25(2004)
42.Caraballo等人,Factors associated with discrepancies between self-reports om cigarette smoking and measured serum cotinine levels among personsaged 17years or older:Third National Health and Nutrition Examination Survey,1988-1994.Am.J.Epidemiol.153,807-814(2001)
43.Shipton等人,Reliability of self-reported smoking status bypregnant women for estimating smoking prevalence:a retrospective,crosssectional study,(2009)。
44.Webb等人,The discrepancy between self-reported smoking status andurine continine levels among women enrolled in prenatal care at four publiclyfunded clinical sites.J.Public Health Manag.Pract.9,322-325(2003)
45.Brückmann等人,Validation ofdifferential GDAP1 DNA methylation inalcohol dependence and its potential function as a biomarker for diseaseseverity and therapy outcome.Epigenetics,00-00(2016)
46.Qiu等人,Variable DNA Methylation Is Associated with ChronicObstructive Pulmonary Disease and Lung Function.Am.J.Respir.Crit.CareMed.185,373-381(2012)
实施例3
吸烟相关的甲基化数量性状基因座优先映射至神经发育途径
吸烟在美国是发病和死亡的主要可预防病因。吸烟通过增加对常见复杂障碍(如冠心病和冠状动脉阻塞性肺病)的敏感性间接发挥其作用。尽管广泛研究了这些障碍与吸烟之间的关联,但对吸烟增加对复杂疾病的易损性的分子机制的理解仍有待改进。对于优先涉及中枢神经系统(CNS)的障碍尤其如此。吸烟是注意力缺陷多动障碍和恐慌症的发展的已知风险因子。我们的研究被设计成理解在弗雷明汉心脏研究(FHS)中在遗传背景的存在和不存在下吸烟对DNA甲基化的效应。具体而言,使用来自FHS后代群组的1599名个体的数据。这些个体具有欧洲祖先并且年龄为60-65岁。这些个体之间的自我报告吸烟率为7.6%。使用Illumina HumanMethylation 450k BeadChip对全基因组DNA甲基化进行图谱分析,并使用Affymetrix GeneChip HumanMapping 500k Array Set评价全基因组SNP数据。为了理解在基因变异不存在下吸烟对DNA甲基化的效应,我们针对DNA甲基化对吸烟进行了回归,针对年龄、性别和批次加以控制。在针对多重比较进行校正后,525个位点处的甲基化状态在0.05水平上是显著的。与先前研究一致,最高评级的探针是来自AHRR基因的cg05575921(p值为7.65x 10-155)。随后,为了确定在基因变异存在下吸烟对DNA甲基化的效应,实施顺式和反式甲基化数量性状基因座(meQTL)分析以确定SNP对给定吸烟状态下DNA甲基化的显著效应,针对年龄、性别和批次加以控制。进行总计126,369,511个顺式分析和195,068,554,297个反式分析。其中,在针对多重比较进行校正后在0.05显著性水平上,生成5294个(0.00419%)和422,623个(0.00022%)显著顺式和反式meQTL。为了更好地可视化和比较两个分析的结果之间的连接性和基因本体(GO)富集,我们生成了蛋白质-蛋白质相互作用(PPI)网络。尽管DNA甲基化分析映射至炎症途径,顺式和反式meQTL分析映射至神经发育途径。这些神经发育途径可以使人进一步理解吸烟与精神障碍之间的关联。此外,此研究证实,组合的遗传与表观遗传分析可能对更好地理解诸如吸烟等环境变量与病理生理结果之间的相互影响起决定作用。
实施例4
在弗雷明汉心脏研究中对冠心病的集成的遗传和表观遗传预测
摘要
背景:冠心病(CHD)在美国是首要发病和死亡原因。不幸的是,一些患者的CHD的第一体征是致死的心肌梗塞。用于检测当前CHD或未来心脏事件的风险的灵敏方法可以在一定程度上预防一些这种死亡,但无症状CHD的当前生物标记物既不灵敏也无特异性。最近,其他人和我们已显示,基于阵列的DNA甲基化评价准确预测香烟消耗程度和CHD的吸烟相关风险。然而,从这些全基因组评价提取CHD信息的其他风险的尝试尚未成功。
方法和结果:基于CHD风险因子是遗传因子与环境因子的聚合体的观念,我们使用机器学习技术和来自弗雷明汉心脏研究的集成遗传、表观遗传和表型数据(n=2214)构建并测试CHD风险的Random Forest分类模型。我们的最终分类器是针对n=1545名个体进行训练的,并利用4个DNA甲基化位点、2个SNP、年龄和性别,并且能够在测试集(n=669)中以78%的准确率预测CHD状态,且灵敏度和特异性分别为0.75和0.80。相反,仅使用CHD风险因子作为预测因子的模型具有分别为仅65%和0.41的准确率和灵敏度。特异性为0.89。个别临床风险因子的回归分析强调了通过吸烟调节的途径在CHD发病机制中的重要作用。
结论:此研究证实了集成方法预测症状性CHD状态的能力,并且表明,进一步工作可以导致引入灵敏的、可易于利用的检测无症状CHD的方法。
引言
冠心病(CHD)在美国是首要死因。1存在预防这种死亡和伴随的发病的有效方法,但其通常无法有效使用。事实上,在15%的CHD患者中,心脏猝死是最初表现。2,3
在更有效地检测和治疗CHD的努力中,已研发出多种用于症状性(绞痛、心肌梗塞)和无症状CHD的筛选方法。对于无症状患者,针对CHD进行筛选的强度取决于临床怀疑的水平。虽然临床医师小心提防任何年龄的心脏病的可能,对具有弗雷明汉心脏研究(FHS)中所定义的经典CHD风险因子的个体的关注日益增加,该风险因子包括CHD家族史、吸烟、升高的收缩压、糖尿病或任何相似的绞痛样胸部疼痛。4,5根据对CHD的怀疑水平,初始检查通常包括全面的身体检查和空腹血脂检查,其包括低密度脂蛋白(LDL)、高密度脂蛋白(HDL)和甘油三酯水平。5下一反应水平通常是心电图(ECG),之后是成本更高、更具侵入性的措施,包括应激测试和心血管造影术。6
不幸的是,大多数临床常规测试(12导联ECG和血清脂质筛选)都对CHD非常不敏感。例如,在479名患有肌酸激酶-MB同工酶(CK-MB)和肌钙蛋白T(TnT)确认的MI的因急性胸痛住院的患者的研究中,在住院时和住院后,12导联ECG分别仅对33%和28%的患者呈阳性。7同样,血清脂质(胆固醇和甘油三酯)筛选也已使用了许多年。最相关地,在弗雷明汉心脏研究(FHS)中,使用260mg/dl的截止值,在进入时进行的升高的血清胆固醇水平未能鉴定出所有在随后4年期间患上CHD的男性的2/3。因此,在过去十年中,对用于预测和诊断CHD的生物标记物的需求逐渐增加。
受到诸如ECG和脂质图谱等标准程序缺乏灵敏度和特异性的刺激,大量研究者尝试鉴定无症状CHD和心血管疾病(CVD,CHD的密切相关的疾病族群)的生物标记物。尽管已使用包括成像技术、机械技术和生物电学技术在内的多种方法,8-10绝大多数研究者专注于基于血液的方法,这是因为:1)先前关于甘油三酯和胆固醇的工作提供的主要证据;2)CHD和CVD发病机制中明确涉及血液组分,如血小板和白细胞;以及3)易于将基于血液的方法集成至当前医学诊断中。
这些基于血液的方法大多集中于循环脂质和蛋白质(关于评论参见11,12),如血红蛋白A1C(HbA1c)、纤维蛋白原、维生素D、C反应蛋白(CRP)、载脂蛋白B(ApoB)、载脂蛋白AI(ApoAI)和胆固醇(包括高密度和低密度,HDL和LDL)。当在研究设置中采用适当截止值时,这些标记物各自适度提供关于未来疾病发展的信息(机率或相对比为1.5至2.5)。11另外,对于患有预先存在的疾病的患者,心脏肌钙蛋白(cTn)水平和高灵敏度(HsCRP)比率可以提供关于未来风险的信息。11然而,这些标记物各自对其临床实施提出了挑战,如不易测量、种族变化或预测范围内的限制,从而妨碍其在CHD筛选中的常规实施。
为了寻找产生更有效筛选程序的替代手段,其他研究者已使用遗传程序来鉴定与变异相关的风险,包括更新近的全基因组关联(GWAS)和外显子组/基因组测序研究(关于评论请参见O’Donnell和Nabel,2011)。13迄今为止,这些研究已分离出CHD总遗传风险的大约10%。14,15值得注意的是,这些SNP中有很多映射至脂质和炎症途径,从对CHD的先前研究已知这两种途径都很重要。15尽管这些研究可以预测谁对CHD可能易感,其实际上无法指示个体是否患有CHD,并且荟萃分析指示,纯遗传方法对预测CHD的贡献在最好的情况下也很低。16因此,尚未将遗传方法纳入常规临床程序中。
表观遗传方法可以提供评价CHD风险的新途径。已众所周知,表观遗传方法可以定量评价香烟消耗,香烟消耗可能为CHD的最大可预防病因。17,18值得注意的是,HermannBrenner和同事已显示,cg03636183处的DNA甲基化不仅预测吸烟状态,还预测MI风险。19,20不幸的是,CHD风险和吸烟并不独立,其分组还显示,cg03636183所意味的MI风险被吸烟状态完全包含,吸烟状态如通过cg05575921处的甲基化所表示,cg05575921处的甲基化是在所有种族分组中最广为接受的吸烟的表观遗传生物标记物。17,21
当前工作的关键是如下观察结果:诸如cg03636183等甲基化状态标记物和GPR15标记物cg1985927022,23无法在所有群体中良好预测吸烟状态的原因之一在于,因局部基因变异所致甲基化变化造成的遗传混乱的存在。22在过去数年间,这些效应最初被描述为相对静态的相互作用(GxMeth),24我们对这些效应的理解已经改变成显示,这些相互作用的子集可能与关于吸烟暴露程度的语境相关。22,25,26本质上,这些和其他发现证实,在单个基因座水平上,针对吸烟的甲基化反应可以更好地概念化为吸烟暴露程度和基因变异二者的产物。这些相互作用效应似乎普遍存在。使用全基因组方法,我们最近已显示这些在全基因组基础上针对DNA甲基化的吸烟语境遗传效应,并且已显示,全部基因中近1/4具有响应于吸烟的甲基化遗传语境变化(Dogan等人,在投)。
与单方面甲基化组对单一环境因子(吸烟)的更易概念化的反应相反,外周白细胞(WBC)对多种对CHD有贡献的因子的全部生物反应可能更复杂并且难以可复现地捕获。例如,在RNA水平上,已描述从血液制备的微小RNA27,28和mRNA29的显著特征,但作为临床工具的明确实用性尚未实现。但是,其迄今为止的部分成功指示,从外周WBC制备的核酸具有可以通过更具系统性的方法采集的较大生物特征。
在此希望下,我们详述了集成方法的结果,该集成方法纳入常用机器学习算法与来自弗雷明汉心脏研究的全基因组表观遗传数据和遗传数据的组合。
方法
弗雷明汉心脏研究。其他地方已详细描述弗雷明汉心脏研究(FHS)。30,31此研究中包括的临床、遗传和表观遗传数据来自后代群组。具体而言,此研究包括后代群组的5,124名个体中的2,741名,该个体1)存活至在2005年与2008年之间实施的第八次检查周期,2)同意进行遗传学研究,并且3)具有外周血全基因组DNA甲基化数据。FHS数据是通过dbGAP(https://dbgap.ncbi.nlm.nih.gov)获得的。爱荷华大学伦理审查委员会批准了所有所述分析。
全基因组DNA甲基化。在去重后,2,567名个体的DNA甲基化数据可用。在明尼苏达大学或约翰霍普金斯大学使用Illumina Infinium HumanMethylation450BeadChip32(加利福尼亚州圣地亚哥)阵列对后代群组的全基因组DNA甲基化进行图谱分析。此阵列中的485,577个探针覆盖99%的RefSeq基因,该基因在CpG岛内和CpG岛外每个基因具有平均17个CpG位点。32
使用MethyLumi、WateRmelon和IlluminaHumanMethylation450k.db R包对甲基化强度数据(IDAT)文档进行探针过滤、背景校正和针对探针类型的调整。33在样品和探针水平上进行质量控制。对于样品,移除具有>1%CpG位点且检测p值>0.05的样品,同时移除微珠计数<3和/或>1%的样品的检测p值>0.05的CpG位点。在质量控制后,保留2,560个独特样品和484,125个CpG位点。在那些CpG位点中,472,822个映射至常染色体。由于甲基化β值的有界性(0<=β<=1),使用beta2m R包实施β值逻辑转换至M值(-inf<M值<inf),且随后使用R脚本转化为z得分。34
全基因组基因型。使用Affymetrix GeneChip HumanMapping 500K(加利福尼亚州圣克拉拉)阵列对全基因组SNP数据进行图谱分析。在DNA甲基化质量控制后保留的2,560名个体中,2,406名(1,100名男性和1,306名女性)具有基因型数据。同样,在样品和探针水平上进行质量控制。使用PLINK35,针对不一致性别信息、大于或小于相对于平均值的两个标准偏差的杂合性比率以及缺失SNP>0.03的比例来检查样品。结果,移除了总计111个样品。还进行群体分层且未排除任何个体。如果样品的血缘一致性值>0.1875(此为二级亲属与三级亲属之间的终点),也排除该样品,以确保下游分析不受亲缘个体的影响。由于这个标准,移除总计696名个体,留下1599名受试者(722名男性和877名女性)用于进一步分析。如果次要等位基因频率>1%,哈迪-温伯格平衡p值>10-5且缺失率<5%,则保留该探针。在质量控制后,保留403,192个SNP(472,822个映射至常染色体)。根据次要等位基因频率将SNP编码为0、1、2。
表型。对于每名个体,从FHS数据集提取以下数据:年龄、性别、收缩压(SBP)、高密度脂蛋白(HDL)胆固醇水平、总胆固醇水平、血红蛋白A1C(HbA1c)水平、自我报告的吸烟状态、CHD状态和确定CHD的日期。
数据分析。为了鉴定CHD和常规可修改CHD风险因子相关的全基因组DNA甲基化变化,以R实施线性回归分析,如方程1中所描绘:
Methi~年龄+性别+批次+X (1)
其中X代表CHD或常规可修改CHD风险因子:SBP、吸烟、HDL、总胆固醇和糖尿病。批次代表DNA甲基化实验室批次。
DNA甲基化与CHD或每个风险因子之间的关联是在针对年龄、性别和批次效应加以控制时确定的。针对每个回归分析进行在全基因组α=0.05下的用于多重比较的邦费罗尼校正。36对于每个X,实施总计472,822次独立测试,且因此,仅将那些标称p值为1e-07(0.05/472822)的结果视为在全基因组水平上显著相关。
网络分析:生成网络并使用用于症状性CHD的第10版STRING鉴定基因本体(GO)途径。37STRING数据库含有关于已知和预测的蛋白质之间的物理(直接)和功能(间接)关联的信息。该网络包括在针对多重比较的全基因组邦费罗尼校正后具有至少一个显著主效应DNA甲基化基因座的基因。进一步缩减网络以仅包括具有最高置信相互作用得分为0.9或更大的边缘(相互作用)的节点(蛋白质)。PPI图包括具有至少一个边缘的节点。还使用第10版STRING来确定网络的GO富集途径。
训练和测试数据集。此研究的目标是研发集成的遗传-表观遗传分类器以预测症状性CHD。为实现此目标,制备训练和测试数据集。如先前所提及,在DNA甲基化和SNP质量控制之后,保留1599名受试者。然而,基于CHD状态和第八次检查周期日期,个体数从1599名减少到1545名(694名男性和851女性)并且由这些个体构成训练集。
为了评价经训练的模型的可推广性,使用因亲缘性(血缘一致性>0.1875)而移除的来自696名个体的数据。与训练数据集中的个体类似,比较测试数据集中的个体的CHD状态和第八检查周期日期以确保,仅保留CHD状态日期小于或等于第八检查周期日期的个体。由此,测试集中的个体数从696名减少到669名(314名男性和355名女性)。
变量减少。在质量控制措施后保留的遗传(SNP)和表观遗传(DNA甲基化)探针总数分别为403,192个和472,822个。由于存在大量变量(总计876,014个,不包括表型),我们减小了搜索空间并使预测因子中的冗余度降至最低,如下文所述。
在PLINK35中进行基于连锁不平衡的SNP修剪,其中窗口大小为50个SNP,窗口位移为5个SNP且成对SNP-SNP LD阈值为0.5。这将SNP数从403,192个减少到161,474个。为了进一步减少SNP数,计算所保留161,474个SNP与CHD状态之间的卡方p值。保留卡方p值<0.1的SNP用于模型训练,得到17,532个SNP(约4%)。
为了减少DNA甲基化基因座数,首先,计算472,822个CpG位点与CHD状态之间的关联系数。如果点双列关联系数为至少0.1,那么保留该CpG位点。保留总计138,815个CpG位点。随后,计算该138,815个位点之间的皮尔森关联系数。如果两个基因座之间的皮尔森关联系数为至少0.8,那么弃去具有较小点双列关联系数的基因座。最后,保留107,799个DNA甲基化基因座(约23%)用于模型训练。
类别不平衡。在训练数据集中的1545名个体之间,仅173名经诊断患有症状性CHD。因此,患有症状性CHD的个体与未患症状性CHD的个体的比率为大约1∶8(173∶1372)。这意味着,如果同时使用来自所有1545名个体的数据,那么其中所有个体都分类为未患CHD(主要类别)的基线预测准确率将为约89%(1372/1545)。这描绘了此数据集中的主要类别不平衡,这在医学数据集中非常常见。这也表明,准确率并非理想的表现度量。为了处理类别不平衡,对未患CHD的个体进行欠采样。38将1372名未患CHD的个体随机分配至8个数据集:4个具有171名个体且4个具有172名个体,总计为1372名个体。所有8个数据集也由相同的173名患有CHD的个体组成,其现在将8个数据集中每一个的类别平衡至1∶1比率(即,50%基线准确率)。
类似地,在669名测试集个体之间,仅71名经诊断患有CHD,描绘了类别不平衡。因此,随机选择71名未患CHD的个体以确保病例与对照之间的比率为1∶1。
模型训练和测试。使用分层的10折交叉验证方法,在Python40中针对所有8个由遗传、表观遗传和表型数据组成的数据集,使用scikit-learn独立构建Random Forest(RF)39分类模型。将具有较小卡方p值的SNP和具有较大的关于CHD的关联系数的甲基化位点系统地馈送至模型。使用RF分类器的特征重要性、准确率和AUC来选择用于预测的重要变量。采用网格搜索进行模型的10折交叉验证超参数调谐。确定模型的表现度量。保存最终模型用于对测试数据集进行测试。
为了比较我们的集成遗传-表观遗传模型与具有常规CHD风险因子作为预测因子的模型的表现,采用相似方法针对训练数据构建模型,且随后针对测试数据集测试该模型。
使用RandomForestTM包以R来实施备选方法。使用“strata”和“sampsize”参数来进行次要类别的分层采样。这是上述欠采样方法的较简单实施方案。对这个备选RF分类器的树的数目(ntree)参数加以调谐。使用相同的n=1545训练集和n=142侧试集对此分类器进行训练和测试。
结果
此研究的主要分析中所用的1545名受试者的临床特征在表4中给出。女性(n=851)多于男性(n=694),且其皆具有北欧祖先。115名男性(约17%)和58名女性(约7%)经诊断患有症状性CHD。患有症状性CHD的个体通常往往较老,年龄为70-75岁,与未患症状性CHD的个体相反,其年龄往往为65岁左右。
表4. 1545名个体的人口统计学和CHD风险因子
SBP:收缩压
HbA1c:血红蛋白A1c
平均HDL和总胆固醇水平在女性和未患症状性CHD的个体中较高。所有总胆固醇平均值都<200mg/dL,但只有未患症状性CHD的女性的HDL胆固醇水平>60mg/dL。更重要的是,对于患有和未患症状性CHD的男性,HDL与总胆固醇的平均值之间的比率分别为1∶3.4和1∶3.5;并且对于患有和未患症状性CHD的女性,分别为1∶2.9和1∶3.1。用于心血管疾病预防的总胆固醇与HDL胆固醇之间的目标比率,对于男性为<4.5,且对于女性为<4.0。41
经诊断患有症状性CHD的个体的HbAlc水平(6%)平均高于经诊断未患症状性CHD的个体(5.7%)。然而,尽管患有CHD的女性的SBP高于未患CHD的女性,但男性则相反。所有SBP平均值都大于120mmHg。
CHD的另一熟知风险因子是吸烟。基于自我报告的当前吸烟状态,在男性而非女性中,患有症状性CHD的吸烟者成比例地多于未患症状性CHD的吸烟者。然而,在吸烟生物标记物(cg05575921)处的甲基化状态指示,患有症状性CHD的男性和女性都实际上比未患症状性CHD的男性和女性更常吸烟。
回归分析。作为分析的第一步,使1545名受试者的CHD状态针对年龄、性别、cg05575921、SBP、HDL胆固醇、总胆固醇和HbA1c百分比进行回归。关于每个风险因子的回归输出的概述显示于表5中。分析表明,除了SBP和HDL胆固醇以外的所有常规风险因子都以0.05显著性水平与CHD状态显著相关。更重要的是,斜率的走向表明,症状性CHD在1)男性、2)较老个体、3)具有较低总胆固醇的个体、4)在cg05575921处去甲基化(即吸烟更多)的个体以及5)具有较高HbA1c水平的个体中更普遍。
表5. CHD风险因子针对症状性CHD的回归参数
SBP:收缩压
HbA1c:血红蛋白A1c
作为下一步,我们对症状性CHD与全基因组DNA甲基化之间的关系实施了回归分析。在邦费罗尼校正后,11,497个甲基化位点(2.4%)仍与症状性CHD显著相关。这些甲基化位点映射至6,319个基因。前30个位点显示于表6中。所有显著位点都提供于图16中。
表6.前30个与症状性CHD相关的显著CpG位点
*所有标称p值都通过邦费罗尼方法加以调整用于多重比较。
由于基因数较大,使用来自前1000个基因的数据进行网络和网络的功能富集分析。网络由952个表示为节点的蛋白质和1,144个表示为边缘的相互作用组成。预期的边缘数为634,PPI富集p值为0,表明网络中蛋白质之间的相互作用可能具有生物关联性。平均节点度和聚集系数分别为2.4和0.85。此网络描绘于图3中。此网络的前10个途径显示于表7中。
表7.前10个与症状性CHD相关的显著PPI网络途径
PPI:蛋白质-蛋白质相互作用
根据回归分析,分别有44,108个(9.3%)、0个、32个、51个和6个甲基化位点与cg05575921、SBP、HDL胆固醇、总胆固醇和HbA1c显著相关。cg05575921、HDL、总胆固醇和HbA1c分析的最优结果在表8至表11中给出。
表8.前30个在邦费罗尼校正后与cg05575921相关的显著CpG位点
*所有标称p值都通过邦费罗尼方法加以调整用于多重比较。
表9.所有32个在邦费罗尼校正后与HDL胆固醇相关的显著CpG位点
*所有标称p值都通过邦费罗尼方法加以调整用于多重比较。
表10.前30个在邦费罗尼校正后与总胆固醇相关的显著CpG位点
*所有标称p值都通过邦费罗尼方法加以调整用于多重比较。
表11.所有6个在邦费罗尼校正后与HbA1c相关的显著CpG位点
*所有标称p值都通过邦费罗尼方法加以调整用于多重比较。
为了理解显著症状性CHD DNA甲基化位点对其风险因子的映射,生成图4和图5。图4中的维恩图显示症状性CHD与其风险因子之间的甲基化探针的重叠,而图5描绘了映射到至少一个该探针的重叠基因。如图5中所示,DNA甲基化相关基因的前三个交集位于症状性CHD与吸烟之间(5229)、吸烟与总胆固醇之间(15)以及症状性CHD、吸烟与总胆固醇之间(13)。一个基因DHCR24与症状性CHD和所有风险因子都显著相关。
集成遗传-表观遗传Random Forest分析。基于8个数据集构建8个RF模型,该数据集由来自训练数据集中1545名受试者的遗传、表观遗传、年龄和性别数据组成。使用标准scikit-learn RF参数确定重要的SNP和DNA甲基化基因座。基于8个分类器的平均准确率和AUC以及每个变量的Gini指数,保留4个CpG位点(cg26910465、cg11355601、cg16410464和cg12091641)、2个SNP(rs6418712和rs10275666)、年龄和性别用于预测。使用经调谐的参数(最大特征、每个拆分的最小样品、信息增益标准、最大树深度、树的数目),将所有8个模型重拟合至训练数据集。这些分层的10折交叉验证模型的表现度量显示于表12中。如此表中所描绘,在这8个模型之间,准确率的范围在70%-80%,比50%的准确率基线增加20%-30%。更重要的是,模型的灵敏度的范围在70%-82%,而特异性的范围在70%-79%。8个模型的ROC AUC的范围在0.77-0.87。表现最佳的模型(模型7)的10倍ROC AUC显示于图6中。保存所有8个模型用于对测试数据集进行测试。
表12. 8个集成遗传-表观遗传模型的10折交叉验证表现度量
测试数据集中的个体的人口统计学和CHD风险因子归纳于表13中。在54名女性和88名男性中,22名女性(约41%)和49名男性(约56%)经诊断患有症状性CHD。患有症状性CHD的个体通常往往更老,男性年龄为65-69岁,女性年龄为70-75岁。未患症状性CHD的男性和女性的年龄平均分别为55-59岁和65岁左右。与男性不同,患有和未患症状性CHD的女性的平均年龄在训练数据集与测试数据集之间相当。
表13.测试数据集中142名个体的人口统计学和CHD风险因子
SBP:收缩压
HbA1c:血红蛋白A1c
所有总胆固醇平均值都<200mg/dL,并且只有女性的平均HDL胆固醇水平>60mg/dL。对于患有和未患症状性CHD的男性,HDL与总胆固醇的平均值之间的比率分别为1∶3.1和1∶3.7;并且对于患有和未患症状性CHD的女性,分别为1∶2.9和1;3.1。同样,与男性相比,在女性的两个数据集之间,该比率更相当。然而,该比率都低于用于心血管疾病预防的总胆固醇与HDL胆固醇之间的目标比率,该目标比率对于男性<4.5且对于女性<4.0。41
在测试数据集中,女性的HbAlc百分比往往高于男性。另外,患有症状性CHD的女性的平均HbAlc>6%。女性的SBP也高于男性。所有SBP平均值都>120mmHg。基于自我报告的当前吸烟状态,与训练数据集相似,未患症状性CHD的吸烟者多于患有症状性CHD的吸烟者。然而,在考虑吸烟生物标记物cg05575921时,男性的去甲基化程度往往高于女性。
使用8个模型的系综在测试数据集中进行CHD分类。如果8个模型中至少4个显示偏向CHD,那么将该个体分类为患有CHD。在测试数据集中的142名个体中(71名患有症状性CHD且71名未患症状性CHD),110名个体的CHD状态预测正确,导致准确率为77.5%。预测的混淆矩阵显示于表14中。该系综的测试集灵敏度和特异性分别为0.75和0.80。
表14.基于测试数据集的集成遗传-表观遗传系综的混淆矩阵
常规CHD风险因子模型。为了比较我们的集成遗传-表观遗传模型的表现与常规CHD风险因子在预测CHD状态中的表现,使用年龄、性别、SBP、HbA1c、总胆固醇、自我报告吸烟和HDL胆固醇作为预测因子构建另外8个RF模型。同样,使用经调谐的参数,针对训练数据集构建8个RF模型并对测试数据集进行测试。8个模型的表现度量归纳于表15中。这些模型对其各自训练数据集的准确率的范围在70%-76%,而灵敏度和特异性范围分别为67%-74%和72%-79%。ROC AUC的范围为0.72-0.79。尽管准确率和特异性与集成遗传-表观遗传模型非常相当,但常规风险因子模型关于灵敏度和ROC AUC方面表现不佳。8个模型中,表现最佳的模型(模型7)的10倍ROC AUC显示于图7中。在针对测试数据集测试8个模型的系综时,测试准确率为64.8%,这比我们的集成遗传-表观遗传系综低大约13%。然而,更重要的度量是灵敏度,因为其显示将患有CHD的个人正确分类的程度。针对测试数据集的灵敏度仅为41%,这比我们的集成遗传-表观遗传系综低24%。然而,常规风险因子系综的特异性为0.89。混淆矩阵显示于表16中。
表15. 8个常规风险因子模型的10折交叉验证表现度量
表16.基于测试数据集的常规风险因子系综的混淆矩阵
备选Random Forest模型。为了确定我们的由8个模型组成的系综方法的表现是否优于单一RF模型,如方法中所述,以R构建1个RF模型,其包括基于次要类别的分层采样。该模型也包括相同的4个CpG、2个SNP、年龄和性别。对分类器进行调谐并选择具有最大灵敏度的分类器(ntree=500)。此模型的训练准确率、AUC、灵敏度和特异性分别为82%、0.83、0.68和0.83。尽管此模型的准确率、AUC和特异性与我们的系综模型相当,但显然,系综模型提供更高灵敏度。在对测试集进行测试时,单一RF模型表现的准确率、灵敏度和特异性分别为76%、0.66和0.86,证实系综方法提供增加的灵敏度而非特异性。此备选方法与系综方法之间的比较是在灵敏度而不是特异性基础上进行的,这是因为,鉴于分类器在预测CHD中的应用,重要的是使真阳性而非真阴性最大化。换句话说,得到假阴性的负面影响显著高于假阳性。然而,系综(ntree=170,000)的灵敏度可能无法直接与此单一RF分类器(ntree=500)相比的一个原因在于,系综中的树的有效数目远大于此分类器。然而,可以在系综内一个具有20,000个树的分类器与具有相同数目的树的备选RF分类器之间进行比较。来自系综的具有20,000个树的分类器的平均准确率、AUC、灵敏度和特异性分别为80%、0.87、0.82和0.77。类似地,具有20,000个树的备选RF分类器的准确率、AUC、灵敏度和特异性分别为82%、0.83、0.67和0.83。与先前比较相似,系综模型关于灵敏度的表现优于特异性。
虽然包括年龄和性别,因为它们是两个不可修改的CHD风险因子,但我们将不含年龄和性别的单一RF模型重拟合以证实,表现并非仅由这两个因素驱动。在模型中没有年龄和性别的情况下,训练准确率、AUC、灵敏度和特异性分别为81%、0.80、0.65和0.83。针对测试数据集,此模型表现的准确率、灵敏度和特异性分别为78%、0.68和0.89。因此,年龄和性别并非单独地独力负责集成遗传-表观遗传模型的表现。使用来自训练数据集的常规风险因子,此备选RF模型表现的准确率、AUC、灵敏度和特异性分别为77%、0.77、0.60和0.79。针对测试数据集,其表现的准确率、灵敏度和特异性分别为69%、0.61和0.77。
此遗传-表观遗传模型还用于显示,使用RF模型在捕获可能的GxM和MxM相互作用中提供额外优点,如图8中通过部分依赖曲线图所描绘。最后,进行DNA甲基化位点和基因型的排列以使用训练数据集比较由4个随机选择的CpG位点和2个随机选择的SNP组成的模型与我们的集成模型和常规风险因子模型的表现。10,000个排列的灵敏度和特异性的二维直方图显示于图9中。这些排列中的最大灵敏度和特异性分别为0.62和0.87。单一常规风险因子模型的训练灵敏度和特异性分别为0.60和0.79,完全落在该排列的灵敏度和特异性范围内。单一集成遗传-表观遗传模型的训练灵敏度和特异性分别为0.68和0.83,表明灵敏度而非特异性落在所排列值以外。
讨论
更好地理解表观遗传变化与心血管疾病的发病机制之间的关系对于研发改良的诊断剂和治疗剂是必不可少的。据我们所知,我们是最先检查如使用Illumina 450k阵列所定量的DNA甲基化与CHD之间的关系的团队。因此,可以与我们的结果进行的比较有限。然而,我们的分析证实,关于CHD的表观遗传特征与累积吸烟的特征显著重叠。这和吸烟与CHD风险之间众所周知的密切关系是一致的,其中美国每年大约30%的CHD相关死亡归因于吸烟。42,43这不是轻易提出的。戒烟可能为临床医学中最有益的,但仍未充分利用的通用干预之一,并且也已显示其可显著降低患有CHD者的死亡风险。44,45
有趣的但并不惊人的是,我们的研究中所述所有其他风险因子的DNA甲基化分析显示吸烟在表观基因组改型中的广泛分布的效应。关于动脉粥样硬化与脂质水平、糖尿病或高血压之间的关系的先前研究已证实吸烟对这些临床量度的效应。46-48我们的分析不仅鉴定出HDL胆固醇、总胆固醇和HbA1c相关的DNA甲基化变化,还鉴定出所描绘的特定基因座,其表观遗传特征被吸烟改变并且与增加的CHD风险相关。在其他人确认发现之前,通过在来自不同种族集合的受试者中扩展该发现提供的增加的精确度可以帮助在个体水平上鉴定用于CHD的特定治疗干预。
CHD的甲基化特征和其风险因子的另一应用是作为备选方法来评价CHD风险。鉴于使用常规风险因子预测CHD风险的困难和限制,这个想法特别有吸引力。例如,大多数研究使用自我报告的吸烟状态,其他人和我们都已显示自我报告的吸烟状态在更多临床/高风险群体中不可靠。49-52鉴于此研究中所用后代群组中的自我报告与cg05575921甲基化之间的不一致,这些先前发现尤其相关。以常规方式实施以评价CHD风险的另一测试是空腹血清脂质检查,其评价总胆固醇、HDL胆固醇、LDL胆固醇和甘油三酯水平。尽管研究已显示,总胆固醇与HDL胆固醇之间的比率对CHD风险特别具有预测性53,54,其他研究也已显示,需要来自其他标记物(如C反应蛋白)的信息以增强预测性。55由于这些DNA甲基化量度更具有总结性并且受每日饮食波动的影响较小,其可能更确切地将这些代谢/转录途径各自的相对贡献驱使至CHD发病机制。
在数年间,对常规CHD风险因子的鉴定已引起多个多变量风险模型的研发。弗雷明汉心脏研究是此努力的先驱者,研发了CHD的弗雷明汉风险得分。56这种算法使用常规风险因子(年龄、性别、总胆固醇或LDL胆固醇、SBP、糖尿病和当前吸烟),并且是使用由具有欧洲祖先的个体组成的FHS群组来研发的。因此,如所预期,此模型对于白人男性和女性表现良好,但对于所有其他种族很难推广。具体而言,在于种族不同的群组中验证此算法的研究中,预测模型适用于黑人男性和女性,但过高估计日裔美国人、西班牙男性和印第安人女性的风险。57因此,需要可以用于社会中所有成员的算法。
缺乏可推广性的一个可能原因是基因变异造成的可能的混乱效应。表观遗传信号造成遗传混乱的可能性的概念已被广泛接受。58因此,我们的研究目标是将遗传和表观遗传数据集成以研发分类器来预测CHD,作为当前可用的已有算法的备选方案。这种从大型复杂的遗传和表观遗传数据集挖掘预测性信号的方法是因为高效计算系统的进步才有可能实现。诸如机器学习等计算技术已成功用于基因组学和表观基因组学领域。59,60尽管逻辑回归是研发医学应用中的二元分类模型的常用方法并且已用于分析微阵列数据61,但其缺乏捕获隐含的复杂非线性关系的能力。因此,能够检测复杂关系(如基因变异与DNA甲基化之间的相互作用)的算法具有额外优势。在我们的研究中,使用Random Forest系综允许对患有CHD的个体进行高度准确的、灵敏的且具有特异性的分类。然而,由于一些遗传风险变体与伦理背景共分类并且可能不映射至与常规风险因子相关的途径,将需要使用来自所有种族分组的受试者来构建、测试并扩展这些Random Forest方法,以研发可推广性最高的预测工具。62
尽管类似的集成遗传和表观遗传研究无法进行比较,但我们的集成模型的表现明显优于使用弗雷明汉得分风险因子的分类器。常规风险因子模型证实了这些风险因子的有限预测价值,如多个研究所指示。63-65此外,在由超过2000名较老黑人和白人成人组成的研究中,弗雷明汉风险得分只能区分经历过CHD事件的个体与在8年随访后未经历过CHD事件的个体,C指数在女性和男性中分别为0.577和0.583。66常规风险因子可能由于诸如血清胆固醇水平等因子的时刻变化和使用单一血压测量值代替全天记录的平均值,而无法表现良好。67,68
如此稿件中所证实,存在若干种构建分类器的方法。在比较此稿件中描绘的两种方法时,关于灵敏度,系综模型的表现优于单一RF模型,并且对于特异性,反之亦然。我们偏好具有较高灵敏度的模型的原因很简单。对于诸如CHD等疾病的分类,假阳性需要进一步测试,但假阴性结果对于患者可能更有害。然而,具有高灵敏度和高特异性的测试是理想的。为了实现这一理想,需要由不同种族分组组成、涵盖两个性别的更大样品。同样,尽管我们使用RF算法,但有多种其他算法(如支持向量机)可以用作分类器的基础算法。然而,我们的RF模型明确显示甲基化位点与SNP之间的非线性,如部分依赖曲线图中所描绘。我们仍然愿意阐明,在我们的系综中,甲基化位点与SNP的组合是多个可能组合中唯一具有高预测性的组合。基于排列结果我们证实,用于富集高预测性甲基化和SNP探针的变量减少步骤提供关于灵敏度的边缘。然而,随着不同样品的集合增大,将需要具有高预测性且可推广的分类器。
我们的分析未考虑到药物的可能效应。这是值得注意的,因为降胆固醇药剂的当前医疗设备可能对某些与CHD风险相关的风险因子(如血清胆固醇)的水平具有显著效应。实际上,这些药物的存在可能是血清胆固醇水平在训练集中患有CHD的个体中实际上低于训练集中未患CHD的个体的原因。不幸的是,由于多种原因,很难将这些类型的数据纳入当前分析方法中。另外,即使受试者对处方的自我报告是准确的,说明处方的效应所需的关键信息(如药物顺应性和治疗史长度)也无法获得。然而,在将来,如果我们完全理解了药物干预对表观遗传特征的效应,那么获取诸如“药丸计数”和血清药物水平信息等数据将至关紧要。
另外,我们的研究中存在若干其他限制。第一,我们的研究仅包括具有欧洲祖先的个体。然而,在我们的模型中纳入基因变异允许在种族分组之间加以推广。然而,这需要其他研究来证实。第二,尽管我们的方法预测症状性CHD,但目标是使用此研究作为关于构建多变量模型的概念的证据,该多变量模型能够预测初始CHD事件的风险和之后CHD事件复发的风险。实现这个目标需要在有前景的生物采样群组中进一步探索。然而,重要的是要注意,这种集成遗传-表观遗传方法具有其优势。在计算风险中使用常规风险因子需要繁琐的测试程序、采集大量血液和多次实验室测试。可以想象,通过使用单一遗传-表观遗传测定程序会显著减少对这些通常繁琐的测试和程序的需要,该测定程序使用1微克或更少DNA。更重要的是,具有高预测价值的与特定表观遗传基因座相关的途径在指导治疗干预、管控风险因子以及监控治疗效率和生方式改变中可能非常有用。
实施例4参考文献
1.Centers for Disease Control and Prevention.Heart Disease andStrokePrevention,Addressing the Nation′s Leading Killers:At A Glance2011。
2.Myerburg等人,Sudden cardiac death caused by coronary heartdisease.Circulation.2012;125:1043-52。
3.Kannel等人,Precursors of sudden coronary death.Factors related tothe incidence of sudden death.Circulation.1975;51:606-13。
4.Dawber等人,II.Coronary Heart Disease in the Framingham Study.Int JEpidemiol.2015;44:1767-1780。
5.Braunwald,Approach to the Patient with Heart Disease Harrison′sPrinciples of Internal Medicine,.第14版纽约:McGraw Hill;1998:1229-1231。
6.Chandrasekar等人,Complications of cardiac catheterization in thecurrent era:a single-center experience.Catheter Cardiovasc Interv.2001;52:289-295。
7.等人,Detection of acute myocardial infarction using the12-lead ECG plus inverted leads versus the 16-lead ECG(with additionalposterior and right-sided chest electrodes).Clin Physiol Funct Imaging.2007;27:368-374。
8.Brant等人,Gender differences in the accuracy of time-dependentblood pressure indices for predicting coronary heart disease:A random-effectsmodeling approach.Gend Med.2010;7:616-627。
9.Stys等人,Current clinical applications of heart ratevariability.Clin Cardiol.1998;21:719-724。
10.Nandalur等人,Diagnostic Performance of Stress Cardiac MagneticResonance Imaging in the Detection of Coronary Artery DiseaseA Meta-Analysis.J Am Coll Cardiol.2007;50:1343-1353。
11.van Holten等人,CirCulating Biomarkers for PredictingCardiovascular Disease Risk;a Systematic Review and Comprehensive Overview ofMeta-Analyses.PLoS One.2013;8:e62080。
12.Manson等人,Biomarkers of cardiovascular disease risk inwomen.Metabolism.2015;64:S33-S39。
13.O′Donnell等人,Genomics of cardiovascular disease.NEngl J Med.2011;365:2098-2109。
14.Dehghan等人,Genome-wide association study for incident myocardialinfarction and coronary heart disease in prospective cohort studies:theCHARGE consortium.PLoS One.2016;11:e0144997。
15.Deloukas等人,Large-scale association analysis identifies new riskloci for coronary artery disease.Nat Genet.2013;45:25-33。
16.Hemesniemi等人,Genetic profiling using genome-wide significantcoronary artery disease risk variants does not improve the prediction ofsubclinical atherosclerosis:the cardiovascular risk in young Finns study,thebogalusa heart study and the health 2000 survey-a meta-analysis of threeindependent studies.PLoS One.2012;7:e28931。
17.Andersen等人,Current and Future Prospects for EpigeneticBiomarkers of Substance Use Disorders.Genes.2015;6:991-1022。
18.Gao等人,DNA methylation changes of whole blood cells in responseto active smoking exposure in adults:a systematic review of DNA methylationstudies.Clin Epigenetics.2015;7:113。
19.Breitling等人,Smoking,F2RL3methylation,and prognosis in stablecoronary heart disease.EurHeart J.2012。
20.Zhang等人,F2RL3 methylation in blood DNA is a strong predictor ofmortality.Int J Epidemiol.2014。
21.Zhang等人,Smoking-Associated DNA Methylation Biomarkers and TheirPredictiVe Value for All-Cause and Cardiovascular Mortality.Environ HealthPerspect.2015。
22.Dogan等人,Ethnicity and Smoking-Associated DNA Methylation Changesat HIV Co-Receptor GPR15.Frontiers in Psychiatry.2015;6。
23.Dogan等人,The effect of smoking on DNA methylatiom of peripheralblood monomuclear cells from African American women.BMC Genomics.2014;15:151。
24.Gibbs等人,Abundant Quamtitative Trait Loci Exist for DNAMethylation and Gene Expression in Human Brain.PLoS Genet.2010;6:e1000952。
25.Tsaprouni等人,Cigarette smoking reduces DNA methylation levels atmultiple genomic loci but the effect is partially reversible uponcessation.Epigenetics.2014;9:1382-1396。
26.Philibert等人,The effect of smoking on MAOA promoter methylationin DNA prepared from lymphoblasts and whole blood.Am J Med Genet.2010;153B:619-28。
27.Hoekstra等人,The peripheral blood momonuclear cell microRNAsignature of coronary artery disease.Biochem Biophys Res Commun.2010;394:792-797。
28.Meder等人,MicroRNA signatures in total peripheral blood as novelbiomarkers for acute myocardial infarction.Basic Res Cardiol.2011;106:13-23。
29.Aziz等人,Peripheral blood gene expression profiling forcardiovascular disease assessment.Genomic Med.2007;1:105-112。
30.Cupples等人,The Framingham Heart Study,第35章.An EpidemiologicalInvestigation of Cardiovascular Disease Survival Following CardiovascularEvents:30Year Follow-up.Lung and Blood Institute.1988。
31.Dawber等人,An approach to longitudinal studies in a community:theFramingham Study.Ann N YAcad Sci.1963;107:539-556。
32.Bibikova等人,High density DNA methylation array with single CpGsite resolution.Genomics.2011;98:288-95。
33.Pidsley等人,A data-driven approach to preprocessing Illumina 450Kmethylation array data.BMC Genomics.2013;14:293。
34.Du等人,Comparison of Beta-value and M-value methods forquantifying methylation levels by microarray analysis.BMCBioinformatics.2010;11:587。
35.Purcell等人,PLINK:a tool set for whole-genome association andpopulation-based linkage analyses.Am J Hum Genet.2007;81:559-75。
36.Hochberg等人,Multiple Comparison Procedures.纽约:Wiley;1987。
37.Szklarczyk等人,The STRING database in 2011:functional interactionnetworks of proteins,globally integrated and scored.Nucleic Acids Res.2011;39:D561-8。
38.Chen等人,Using random forest to learn imbalanced data.Universityof California,Berkeley.2004;110。
39.Breiman,Random forests.MLear.2001;45:5-32。
40.Pedregosa等人,Scikit-learn:Machine Learning in Python.Journal ofMachine Learning Research.2011;12:2825-2830。
41.Millan等人,Lipoprotein ratios:Physiological significance andclinical usefulness in cardiovascular prevention.Vasc Health Risk Manag.2009;5:757-65。
42.Neaton等人,Serum cholesterol,blood pressure,cigarette smoking,anddeath from coronary heart disease.Overall findings and differebces by age for316,099white men.Multiple Risk Factor Intervention Trial Research Group.ArchIntern Med.1992;152:56-64。
43.Ockene等人,Cigarette smoking,cardiovascular disease,and stroke:astatement for healthcare professionals from the American HeartAssociation.American Heart Association Task Force on RiskReduction.Circulation.1997;96:3243-7。
44.Critchley等人,Mortality risk reduction associated with smokingcessation in patients with coronary heart disease:a systematicreview.JAMA.2003;290:86-97。
45.Anczak等人,Tobacco cessation in primary care:maximizingintervention strategies.Clin Med Res.2003;1:201-216。
46.Garrison等人,Cigarette smoking and HDL cholesterol:the Framinghamoffspring study.Atherosclerosis.1978;30:17-25。
47.Kong等人,Smoking is associated with increased hepatic lipaseactivity,insulin resistance,dyslipidaemia and early atherosclerosis in Type 2diabetes.Atherosclerosis.2001;156:373-8。
48.Wilhelmsen,Coronary heart disease:epidemiology of smoking andintervention studies of smoking.Am Heart J.1988;115:242-9。
49.Hilberink等人,Validation of smoking cessation self-reported bypatients with chronic obstructive pulmonary disease.Int J Gen Med.2011;4:85。
50.Philibert等人,Reversion of AHRR Demethylation Is a QuantitativeBiomarker of Smoking Cessation.Frontiers in Psychiatry.2016;7。
51.Britton等人,Comparison of self-reported smoking and urinarycotinine levels in a rural pregnant population.J Obstet GynecolNeonatalNurs.2004;33:306-11。
52.Andersen等人,Accuracy and Utility of an Epigenetic Biomarker forSmoking in Populatiohs with Varying Rates of False Self-Report.在投。
53.Kinosian等人,Cholesterol and coronary heart disease:predictingrisks by levels and ratios.Ann Intern Med.1994;121:641-7。
54.Castelli等人,Lipids and risk of coronary heart disease.TheFramingham Study.Ann Epidemiol.1992;2:23-8。
55.Ridker等人,C-reactive protein adds to the predictive value oftotal and HDL cholesterol in determining risk of first myocardialinfarction.Circulation.1998;97:2007-11。
56.Wilson等人,Prediction of coronary heart disease using risk factorcategories.Circulation.1998;97:1837-47。
57.D′Agostino等人,Validation of the Framingham coronary heart diseaseprediction scores:results of a multiple ethnic groupsinvestigation.JAMA.2001;286:180-7。
58.Petronis,Human morbid genetics revisited:relevance ofepigenetics.Trends Genet.2001;17:142-146。
59.Bock等人,Computational epigenetics.Bioinformatics.2008;24:1-10。
60.Libbrecht等人,Machine learbing applications in genetics andgenomics.Nat Rev Genet.2015;16:321-32。
61.Liao等人,Logistic regression for disease classification usingmicroarray data:model selection in a large p and small ncase.Bioinformatics.2007;23:1945-51。
62.Roberts,Genetics of coronary artery disease.Circ Res.2014;114:1890-903。
63.Bastuji-Garin等人,Intervention as a Goal in HyPertension TreatmentStudy G.The Framingham prediction rule is not valid in a EuTopean populationof treated hyPerteBsive patients.JHypertens.2002;20:1973-80。
64.Brindle等人,Predictive accuracy of the Framingham coronary riskscore in British men:prospective cohort study.BMJ.2003;327:1267。
65.Liu等人,Predictive value for the Chinese population of theFramingham CHD risk assessment tool compared with the Chinese Multi-Provincial Cohort Study.JAMA.2004;291:2591-9。
66.Rodondi等人,Framingham risk score and alternatives for predictionof coronary heart disease in older adults.PLoS One.2012;7:e34287。
67.Peterson等人,Hourly variation in total serumcholesterol.Circulation.1960;22:247-53。
68.Staessen等人,Predicting cardiovascular risk using conventional vsambulatory blood pressure in older patients with systolichypertension.Systolic HyperteBsion in Europe Trial Investigators.JAMA.1999;282:539-46。
实施例5
在预测心血管疾病中的甲基化和Gx甲基化效应:中风和充血性心力衰竭
基于甲基化的生物标记物在临床上正变得越来越受欢迎,用于指导诊断和治疗。目前,Cologuard(一种对粪便样品中发现的人类DNA中的DNA甲基化进行定量的测定)被FDA批准用于检测结肠癌(Lao和Grady 2011)。另外,Smoke SignatureTM(一种使用来自血液的DNA检测香烟消耗的DNA甲基化测定(Philibert,Hollenbeck等人2016))可在研究市场上获得并且正准备进行FDA提交。在鉴定CpG基因座(其甲基化状态预示心血管疾病)的尝试中,多位研究者已将全基因组方法与临床诊断组合使用。特别地,Brenner和同事(Breitling,Salzmann等人2012)已将F2RL3残基cg03636183鉴定为心血管疾病的生物标记物。不幸的是,已显示这些分析因未完全获知吸烟状态而完全混乱,并且未考虑到可能造成混乱的遗传变异。事实上,在使用充分考虑吸烟强度的生物标记物方法时,在cg03636183处的冠心病信号消失(Zhang,等人2015)。此外,使用全基因组甲基化和遗传分析与生物标记物指导的吸烟评价组合,我们最近已分析了来自提供心脏病信息的大型受试者群组的数据。我们已显示,与吸烟强度状态无关,如通过甲基化-基因型相互作用效应所体现的遗传语境甲基化状态实际上对冠心病的预测贡献更高,并且使用组合局部基因变异与甲基化的算法显著改良对冠心病的预测(CVD,Dogan等人,在投)。
然而,CVD只是三种主要心血管疾病(CVD)形式中的一种。中风和充血性心力衰竭(CHF)也是CVD的重要形式。在这些例子中,我们扩展了关于CVD的先前工作以显示,如通过SNP所体现的基因变异与如通过Illumina甲基化探针所体现的表观遗传标记物的组合是如何预测中风或CHF的。
摘要
充血性心力衰竭(CHF)和中风是三种常见心血管疾病(CVD)类型中的两种。CHF和中风二者都影响大量美国人。尽管可以采取诸如避免吸烟等预防性措施来降低中风和CHF的风险,但对于这些疾病的风险的早期检测,可用的选择有限。然而,近年来,表观遗传学领域已提供了理解复杂疾病的备选方法。具体而言,DNA甲基化特征可以呈现研发在CHF和中风发生前稳定临床测试CHF和中风的机会。仅利用DNA甲基化并将其推广至不同个体组的能力可能因存在造成混乱的遗传效应而受限。因此,我们集成了来自弗雷明汉心脏研究的遗传和表观遗传数据以揭示共同增加CHF和中风的预测性的SNP和DNA甲基化位点。我们的初步分析表明,纳入3个DNA甲基化位点和3个SNP能够将CHF状态分类,且接受者操作特征(ROC)曲线的曲线下面积(AUC)在主效应和相互作用效应模型中分别为0.78和0.81。在评价这些模型的参数中我们显示,在同时实施时,DNA甲基化和SNP二者都对CHF状态具有高预测性。类似地,对于主效应和相互作用效应模型分别在0.85和0.86的中风ROC曲线的AUC证实了集成遗传和表观遗传效应的重要性。尽管这些模型未经优化并且是使用相对较小的CHF和中风样本大小来研发的,但我们确定,使用较大群组研发的解释遗传和表观遗传效应的此算法的更优化形式可以显著改良我们在CHF和中风发生前对CHF和中风的风险的预测能力。我们还确信,算法中遗传信息的存在可以允许将其推广至不同种族分组。
引言
心血管疾病(CVD)包括三种不同的诊断实体;冠心病(CVD)、中风和充血性心力衰竭(CHF)。单独地,CVD在美国是首要死因,而中风排在第四死因(疾病控制和预防中心)。在过去五十年间,已研发出大量药物和装置用于治疗CVD。不幸的是,每年仍有数十万美国人因为没有在致命的血栓栓塞或心脏事件发生前注意到CVD的存在而死亡。可以想象,针对CVD的更有效筛选程序可以导致预防部分这些死亡。(Mozaffarian,Benjamin等人2016)但是在目前,某些技术(如空腹血脂检查)的繁琐和/或其他技术(如心电图和C反应蛋白水平)的有限预测能力限制了当前方法在鉴定CVD中的有效性。(Buckley,Fu等人2009,Auer,Bauer等人2012,Mozaffarian,Benjamin等人2016)
多位研究者已提出,遗传方法可以提供预防CVD相关发病和死亡的另一可能手段。(Paynter,Ridker等人2016)使用全外显子组和基因组测序技术,已鉴定出多种对CVD易感的变体。许多这些变体所产生的相对风险通常相当大,并且其存在有时可用于指导预防和治疗。(Mega,Stitziel等人)然而,对于个别的例外,大效应值变体往往是罕见的,通常为某群体专有,并且其存在并非当前疾病的特殊病征(Traylor,Farrall等人2012,Paynter,Ridker等人2016)因此在目前,在一般医疗实践中,通常并不使用遗传方法来评价当前CVD的存在或不存在。
可替代地,其他人已提出,表观遗传技术可能可用于评价CVD。(Sharma,Kumar等人2008,Gluckman,Hanson等人2009,Breitling,Salzmann等人2012)由于已研发出针对2型糖尿病的存在、吸烟和饮酒的重复外周白细胞DNA甲基化特征,(Monick,Beach等人2012,Toperoff,Aran等人2012,Zeilinger,Kühnel等人2013,Philibert,Penaluna等人2014)这个建议具有较强表面效度。值得注意的是,使用这种方法,Brenner和同事已提出,在cg03636183(在凝血因子II(凝血酶)受体样3(F2RL3)中发现的CpG残基)处的DNA甲基化预测心脏病的风险。(Breitling,Salzmann等人2012,Zhang,Yang等人2014)虽然这是在生物学上非常可能合理的发现,但其后续研究已证实,在cg03636183处的CVD相关信号与吸烟状态完全共分离,如通过在cg05575921处的DNA甲基化所指示,(Zhang,等人2015)cg05575921是在芳烃受体抑制因子(AHRR)中发现的CpG残基,其关于吸烟状态的较强预测能力已在数十项研究中得以证实(Andersen,Dogan等人2015)
然而,最初吸引人的cg03636183发现未能独立鉴定单独的吸烟所产生风险以外的额外风险,并不意味着用于评价CVD或其他CVD形式的存在的甲基化方法注定失败。相反,其表明成功的方法需要更具细微差异,并且对甲基化状态与CVD的关系的概念化的再次考虑正在有序进行。例如,Brenner团队的发现有力地表明,用于预测当前CVD的甲基化算法应包括吸烟状态的指示物。鉴于吸烟是CVD的最大可预防风险因子(疾病控制中心2005),这是非常合乎逻辑的。然而,另外,其可能需要考虑暴露于环境风险因子(如吸烟或其他心脏风险因子,如高脂血症)的长期效应可能被基因-环境相互作用掩盖。
基因-环境相互作用(GxE)效应在减轻对疾病的易损性中的作用可能在行为科学中理解更多。GxE效应的基础前提是,环境影响在发育敏感时期以遗传语境方式改变系统的生物性质,使得在未来,即使在环境因子不存在下,也存在增强的对疾病的易损性。(Yang和Khoury 1997)关键是,由于遗传变量造成混乱,通常无法检测环境变量的直接效应。而是只有在基因变异背景下考虑时才能检测环境变量的直接效应。虽然一些GxE发现的强度是有争论的,许多研究者仍强调这些GxE效应在多种行为障碍的发病机制中的重要意义,该行为障碍是例如抑郁症、创伤后应激障碍和反社会行为。(Caspi,McClay等人2002,Caspi,Sugden等人2003,Kolassa,Ertl等人2010)
人们认为这些GxE效应的物理基础是变化的。例如,在解剖水平上,针对行为障碍的GxE效应可以通过突触结构的变化来表现。(McEwen 2007)然而,在分子水平上,GxE效应的物理表现较不确定。但多位研究者已建议,DNA甲基化的变化可能是一个潜在机制,通过该机制传递GxE效应的物理效应。(Klengel,Pape等人2014)
有趣的是,环境中的行为相关变化可以改变DNA甲基化以及那些变化的程度受基因变异影响的事实在许多年前已为人所知。在我们的早期候选基因研究中显示,吸烟改变单胺氧化酶A(MAOA)的启动子区域中的DNA甲基化,该酶是单胺能神经传递的关键调节剂,并且在已充分表征的启动子相关的可变核苷酸重复序列(VNTR)处的基因型在存在和不存在吸烟两种情况下都改变该状态下的甲基化百分比。(Philibert,Gunter等人2008,Philibert,Beach等人2010)随后,Volkow和同事显示那些基因座处的甲基化变化发挥作用。(Shumay,Logan等人2012)
在当前的术语中,VNTR对吸烟或基础DNA甲基化的那些效应现在称为基因型-甲基化相互作用效应。在我们实施最早的全基因组研究时,这些MAOA相互作用效应对于检测其与吸烟的关系的能力非常重要。不管响应于吸烟的DNA甲基化的吸烟诱导变化的量值如何,即使在来自仅一种性别的受试者的DNA的研究中,MAOA VNTR周围的探针并不在更高级探针中。来自那些最初研究的其他观察结果同样具有启发性。第一,针对吸烟的局部甲基化反应不具有同质性。对启动子相关岛中88个CpG残基的甲基化状态的因子分析显示,岛中一个区域处的甲基化增加可能与其他区域处的去甲基化相关。(Beach,Brody等人2010)最后,吸烟对DNA甲基化的效应并非静态的。一段时间后,特征往往衰减。(Philibert,Beach等人2010)因此,根据那些早期研究显而易见,在MAOA启动子处,基因变异能以复杂方式改变环境因子对局部DNA甲基化特征的效应。
后续研究表明,这些响应于吸烟的相同复杂性很多在全基因组水平上是明显的。例如,显而易见,在全基因组水平上,基因变异影响甲基化反应的量值,并且在尝试重复来自不同祖先的特征时,那些相互作用效应可能削弱重复在不同祖先的受试者集合中在给定基因座处的发现的能力。(Tsaprouni,Yang等人2014,Dogan,Xiang等人2015)第二,并且同样重要的,甲基化特征的逆转可能较复杂。(Tsaprouni,Yang等人2014,Guida,Sandanger等人2015)Guida和同事专门检查了来自745名受试者的集合的DNA中对戒烟的表观基因组反应,并且发现了两类CpG位点,一类的甲基化特征随时间而恢复,另一类不恢复;并得出结论,在全基因组水平上,“戒烟后甲基化变化的动力学受吸烟诱导变化的差异性和位点特异性量值驱动,这与吸烟的强度和持续时间无关。”(Guida,Sandanger等人2015)总之,大量证据表明,针对吸烟的全基因组特征仅部分可逆,并且大部分不可逆变化能以复杂方式掩盖于相互作用效应中。
由于吸烟通常是CVD的主要风险因子,并且尤其是中风和CVD的主要风险因子,这还表明,表观基因组中存在一部分减轻了CVD风险的吸烟诱导风险,其可能稍微不可逆并且掩盖于相互作用效应中。另外,由于吸烟是多种因子中唯一可改变CVD风险的因子,并且这些其他因子也可能具有复杂的表观遗传特征,很可能研究外周WBC DNA甲基化可以揭示减轻CVD风险并且相对稳定的相互作用效应。
因此,总之,使用遗传或表观遗传信息来预测CVD的各种形式的效果不佳。然而,这些测量的组合、特别是使相互作用效应生效的测量的组合可以表现出众。
在此通讯中,我们使用了回归分析方法和来自324名参与弗雷明汉心脏研究的受试者的表观遗传和遗传资源来测试,环境(甲基化)与遗传信息(SNP)组合在一起或与其相互作用效应组合是否可以对预测CVD的算法做出更大贡献。
方法
弗雷明汉心脏研究。此研究中所用的数据源自弗雷明汉心脏研究(FHS)的参与者。(Dawber,Kannel等人1963)FHS是旨在理解心血管疾病(CVD)的风险的纵向研究并且由若干个群组构成,包括初代群组、后代群组、多种族群组、第三代群组、新后代配偶群组和第二代多种族群组。具体而言,此研究中使用的后代群组始于1971年,由初代群组的后代和其配偶组成。这个群组由2,483名男性和2,641名女性组成(总计5,124名)。(Mahmood,Levy等人2014)此通讯中所述的特定分析由爱荷华大学伦理审查委员会批准。
全基因组DNA甲基化。在后代群组中的5,124名个体中,仅考虑2,567名个体(去重)的DNA甲基化数据。这些个体包括于DNA甲基化研究中是因为其参与了弗雷明汉后代第8次检查,提供了遗传研究许可,具有血沉棕黄层样品,并且具有足够的DNA数量和质量用于甲基化图谱分析。检查8发生在2005年与2008年之间。对从其白细胞提取的基因组DNA进行亚硫酸氢盐转化,之后在明尼苏达大学或约翰霍普金斯大学使用IlluminaHumanMethylation450 BeadChip(加利福尼亚州圣地亚哥)对全基因组DNA甲基化进行图谱分析。使用MethyLumi、WateRmelon和IlluminaHumanMethylation450k.db R包,使用样品的强度数据(IDAT)文档以及其载玻片和阵列信息进行DASEN归一化。(Pidsley,YWong等人2013)DASEN归一化进行探针过滤、背景校正和针对探针类型的调整。如果样品含有>1%的CpG位点且检测p值>0.05,则移除该样品。如果CpG位点的微珠计数<3和/或>1%的样品的检测p值>0.05,则移除该CpG位点。在DASEN归一化之后,保留2,560个样品和484,241个位点(484,125个CpG位点)。将CpG位点根据染色体分组。在那些CpG位点中,472,822个映射至常染色体。在Lumi包中使用beta2m R函数将甲基化β值转化为M值,并且随后使用R脚本转化为z得分。(Du,Kibbe等人2008)
全基因组基因型。在其余2,560名个体中,在DNA甲基化质量控制后,2,406名(1,100名男性和1,306名女性)具有来自Affymetrix GeneChip HumanMapping 500K ArraySet(加利福尼亚州圣克拉拉)的全基因组基因型数据。此阵列能够对基因组中的500,568个SNP进行图谱分析。在PLINK中在样品和SNP探针两个水平上进行质量控制。初始质量控制步骤涉及鉴定具有不一致性别信息的个体。没有鉴定出这样的个体。之后,排除杂合性比率大于或小于均值±2SD且缺失SNP比例>0.03的个体。如果血缘一致性值>0.185(二级亲属与三级亲属之间的中点),那么亲缘个体也要排除。在进行这些样品水平的质量控制步骤后,保留1,599名个体(722名男性和877名女性)。在探针水平上,保留次要等位基因频率>1%、哈迪-温伯格平衡p值>10-5且SNP缺失率<5%的SNP。在这些质量控制步骤后,保留总计403,192个SNP。使用PLINK中的重编码选项,(Purcell,Neale等人2007),根据次要等位基因频率将基因型编码为0、1或2。
表型。对于此研究中的个体,提取其中风和充血性心力衰竭(CHF)状态。由于用于DNA甲基化的生物材料是在后代群组的第八检查周期期间收集的,仅包括具有在此第八检查之前的中风或CHF发病日期的那些个体。基于此标准,分别保留总计1,540名和1,562名个体用于CHF和中风分析。
在可用于CHF分析的1,540名受试者中,40名分类为患有CHF。根据弗雷明汉研究,CHF的主要标准包括阵发性夜间呼吸困难或端坐呼吸、颈静脉扩张、啰音、根据x射线心脏增大、基于胸部x射线检查的急性肺水肿、室性S(3)奔马律、增加的静脉压>16cm H2O、肝颈静脉反流征、肺水肿、内脏充血、尸检显示的心脏扩大或基于CHF Rx:10lbs./5天的体重减轻。次要标准包括双侧踝关节水肿、夜间咳嗽、普通劳作时呼吸困难、肝肿大、根据x射线胸腔积液、肺活量自最高纪录减小三分之一、心动过速(每分钟120次或更多次心跳)或基于胸部x射线的肺血管淤血。为了分类为患有CHF,要求个体具有最少两项主要标准或同时存在一项主要标准和两项次要标准。这1,540名个体的人口统计学归纳于表17中。
表17.CHF数据集中1,540名个体的人口统计学
在可用于中风分析的1,562名受试者中,38名分类为已患有中风。中风涵盖出血性中风(蛛网膜下腔出血或脑内出血)、缺血性中风(脑栓塞或动脉粥样硬化血栓形成性脑梗塞)、短暂性缺血性中风或因中风死亡。这1,562名受试者的人口统计学归纳于表18中。
表18.中风数据集中1,562名个体的人口统计学
变量减少。在质量控制措施后保留的遗传(SNP)和表观遗传(DNA甲基化)探针总数分别为403,192个和472,822个。由于存在大量变量(总计876,014个,不包括SNP与DNA甲基化位点之间可能的相互作用),并且为了避免共线性,进行变量减少。
在PLINK中进行基于连锁不平衡的SNP修剪(Purcell,Neale等人2007),其中窗口大小为50个SNP,窗口位移为5个SNP且成对SNP-SNP LD阈值为0.5。这将SNP数从403,192个减少到161,474个。为了进一步减少SNP数,计算所保留161,474个SNP与CHF和中风状态之间的卡方p值。保留卡方p值<0.1的SNP用于分类分析,得到15,132个SNP用于CHF和14,819个SNP用于中风。
为了减少DNA甲基化基因座数,首先,计算472,822个CpG位点与CHF和中风状态之间的点双列关联系数。如果点双列关联系数为至少0.1,那么保留该CpG位点。分别保留总计19,112个和22,837个CpG位点用于CHF和中风。随后,针对每种疾病独立计算位点之间的皮尔森关联系数。如果两个基因座之间的皮尔森关联系数为至少0.8,那么弃去具有较小点双列关联系数的基因座。最后,分别保留10,707个和9,406个DNA甲基化基因座用于CHF和中风的分类分析。
接受者操作特征曲线。接受者操作特征(ROC)曲线提供具有变化的辨别阈值的二元分类表现的图形表示。因此,为了评价DNA甲基化和SNP在分类CHF和中风中的能力,书写R脚本以进行下文所示模型的逻辑回归,并且随后使用pROC包以R计算ROC曲线的曲线下面积(AUC)(Beck和Shultz1986)。这是使用DNA甲基化位点和SNP以系统方式进行的,该DNA甲基化位点是以关于疾病的点双列的降序排序的,并且该SNP是以关于疾病的卡方p值的升序排序的。在下文所列的模型中,SNP*meth项表示基因-环境相互作用。
CHF~SNPj+methi+SNPj*methi
中风~SNPj+methi+SNPj*methi
结果
CHF分类的ROC。使用前3个DNA甲基化位点(cg09099697、cg19679281、cg25840850)和SNP(rs10833199、rs11728055、rs16901105),针对CHF拟合仅纳入主效应的模型。ROC AUC为0.78并且显示于图10中。模型参数归纳于表19中。
表19.主效应CHF模型的参数
为了进一步证实纳入DNA甲基化和SNP二者在更好地预测CHF中的重要性,在CHF模型中包括如方法章节中所述的相互作用项。此模型的ROC AUC从先前模型增加至0.81并显示于图11中。模型参数归纳于表20中。
表20.相互作用效应CHF模型的参数
变量 估计值 标准误差 z值 Pr(>|z|)
cg09099697 0.4972 0.2797 1.778 0.0754
cg19679281 0.3602 0.2420 1.489 0.1366
cg25840850 0.3280 0.2915 1.125 0.2605
rs10833199 0.5076 0.5581 0.910 0.3631
rs11728055 0.5905 0.5520 1.070 0.2847
rs16901105 0.3865 0.7489 0.516 0.6058
cg09099697:rs10833199 -1.2780 0.5722 -2.234 0.0255
cg09099697:rs11728055 0.9940 0.7409 1.342 0.1797
cg09099697:rs16901105 0.1493 0.8923 0.167 0.8671
rs10833199:cg19679281 0.7185 0.5258 1.367 0.1718
rs11728055:cg19679281 -0.9245 0.5396 -1.713 0.0867
rs16901105:cg19679281 -0.3603 0.7844 -0.459 0.6460
rs10833199:cg25840850 0.4609 0.4895 0.942 0.3464
rs11728055:cg25840850 -1.2994 0.6516 -1.994 0.0461
rs16901105:cg25840850 0.4543 0.8308 0.547 0.5845
这两个用于CHF的模型明确证实了考虑遗传和表观遗传两种效应的重要性。如表19中所示,即使只有三个变量(两个CpG和一个SNP)在0.05水平上关于CHF边际显著,纳入呈SNP-meth相互作用形式的基因-环境相互作用也会增强预测。这显示于表20中,其中两个相互作用项在0.05水平上显著,与另一个边际显著的相互作用相结合。
中风分类的ROC。使用前5个DNA甲基化位点(cg27209395、cg27551078、cg03130180、cg10319399、cg25861340)和前4个SNP(rs11007270、rs17073262、rs7190657、rs2411130),针对中风拟合主效应模型。ROC AUC为0.85并且显示于图12中。模型参数归纳于表21中。
表21.主效应中风模型的参数
变量 估计值 标准误差 z值 Pr(>|z|)
cg27209395 0.2577 0.2225 1.158 0.246728
cg27551078 0.2215 0.1064 2.082 0.037338
cg03130180 -0.0240 0.3378 -0.071 0.943359
cg10319399 -0.4710 0.2880 -1.636 0.101934
cg25861340 -0.4080 0.2716 -1.502 0.133051
rs11007270 1.3498 0.4006 3.369 0.000753
rs17073262 0.8066 0.7543 1.069 0.284923
rs7190657 1.1362 0.3993 2.845 0.004439
rs2411130 1.3714 0.5702 2.405 0.016159
为了再次同时证实DNA甲基化位点和SNP的重要性,拟合相互作用效应模型。此模型的ROCAUC为0.86并显示于图13中。模型参数归纳于表22中。
表22.相互作用效应中风模型的参数
这两个中风模型再次证实遗传和环境在中风中的重要性。DNA甲基化位点和SNP二者对中风分类非常重要。此外,在使用不同种族背景和较大样本大小的其他研究中,分类表现可能增加。
讨论
结果证实,可以通过使用利用SNP、甲基化值和/或其相互作用项的组合的算法来推断中风或CHF的存在。然而,在可以讨论结果之前,重要的是应注意当前研究的若干限制。第一,弗雷明汉群组仅为白人并且大多数受试者的年龄都为65-69岁和75-79岁。因此,当前发现可能不适用于其他种族或不同年龄范围的人。第二,除了cg05575921以外,其他探针的M(或B值)的有效性尚未通过独立技术(如焦磷酸测序)证实。第三,研究中所用的Illumina阵列不再可获得。由于新一代阵列中探针的设计或可用性的变化,可能会影响到复现和扩展的能力。
当前结果强调资源的价值,例如弗雷明汉心脏研究加深了我们对心脏病的理解。事实上,在没有这个资源的情况下,公平地说,这类工作即便不是不可能进行也是难以实施的。而且,即便考虑到当前结果使用这个独特的数据集,在筛选测试(如本通讯中所述的测试)可以在临床上采用之前也需要做大量的额外工作。最明显地,当前结果将不得不在其他数据集中复现和改进,之后在代表其既定未来临床应用的研究群体中再次测试。后一点特别重要,因为即使最初在流行病学方面正确的设计良好的群组研究也经受保持偏置,使剩余集合更丰富以减少严重疾病。关于与药物使用相关的疾病尤其如此,因为对于纵向随访更常丢失具有高药物使用水平的先证者。(Wolke,Waylen等人2009)另外,由于SNP频率在种族之间可变,给定相互作用的效应值也可变。因此,将需要在多个提供种族信息的群组中进行广泛测试和研发。
可能很难对AUC加以改良。讽刺的是,这与表观遗传和遗传数据的质量或数量的关系不大。而是限制可能在于临床表征中的不确定性。悲哀的是,即使在最佳条件下,也可能检测不到临床相关形式的CVD。即使对于FHS群组也是如此。因此,当前研究中的“金标准”本身关于实际临床状态就略微不准确。由于这种不准确性增加了甚至确切地靶向相关生物学的生物标记物的误差,我们改良AUC的能力可能依赖于我们获得更准确的临床评价的能力。(Philibert,Gunter等人2014)
使用此方法的另一限制是CVD的不断演变的流行病学。尽管对CVD的遗传贡献相对固定,但饮食和其他环境暴露却一代一代地始终在变化。也许通过考虑吸烟对此测试在先前世代中的预测能力的贡献可以最好地阐释这种限制。自从16世纪早期从新大陆将烟草引入欧洲起,我们就可以确信地陈述,在中世纪欧洲吸烟对CVD的贡献是有限的,并且因此,cg05575921对预测能力的影响将为零。相反,由于在20世纪60年代超过40%的美国成人吸烟,(Garrett,Dube等人2011)如通过cg05575921所捕获,吸烟行为对预测CVD的贡献在来自那个年代的受试者中会显著较大。然而,吸烟并非一代一代地变化且在群组之间变化的唯一环境因子。在过去20年间,对健康饮食中饱和反式脂肪酸的量,我们的理解和公众态度都已有了显著变化。由于这些环境因子对CVD的可能性也有较强影响,我们可以预期,相互作用效应负载对这些饮食因子的加权可随年龄和种族而变。
与自我报告吸烟相比,吸烟甲基化生物标记物cg05575921的改进的预测能力并不出乎意料。在我们的初始研究中,在使用经充分筛选的病例和对照的研究中,已显示其为当前吸烟状态的有效指示物,且AUC为0.99。(Philibert,Hollenbeck等人2015)尤其在高风险群组中,对吸烟的不可靠的自我报告是众所周知的现象。(Caraballo,Giovino等人2001,Webb,Boyd等人2003,Caraballo,Giovino等人2004,Shipton,Tappin等人2009)此外,与cg05575921不同,明确的自我报告不包括吸烟的强度。(Philibert,Hollenbeck等人2015)最后,可能已参与该研究的许多受试者可能先前吸烟,但在第8波访谈中未吸烟,却仍具有AHRR的残留去甲基化。在这些情况中的每一种中,使用连续度量可以捕获通过二分型吸烟变量未捕获到的对CVD的额外易损性。
由于酒精中毒也是CVD风险,(Mozaffarian,Benjamin等人2016)我们稍微惊讶的是,我们先前已确认且已验证的用于评价酒精摄入的生物标记物方法未产生更大预测影响。(Philibert,Penaluna等人2014,Brückmann,Di Santo等人2016)在我们的初始模型中,添加cg2313759处的甲基化状态仅将AUC改良了0.015。尽管此未能显示酒精使用对CVD风险的效应的一个原因可能是此标记物没有像我们的吸烟生物标记物一样经充分验证,但是还存在其他原因。第一并且最重要的,与在所有暴露水平上展示增强且增加的缩短预期寿命的风险的cg05575921处的甲基化相反,cg2313759处的甲基化展示关于生物衰老的倒U形分布。尚未得知CVD风险是否也符合关于酒精摄入的U形分布。但其确实表明,任何纳入酒精相关甲基化的主效应的成功算法都无法使用简单的线性方法。
我们在不存在全基因组显著主效应的情况下成功地发现预测CVD的算法可能对搜索用于其他常见成年人复杂障碍的标记物集有重要意义。在美国前十大死因中,已使用主效应研发仅用于2型糖尿病和慢性阻塞性肺病(COPD)的可靠甲基化特征。(Qiu,Baccarelli等人2012,Toperoff,Aran等人2012)由于发现疾病的良好生物标记物的能力高度取决于临床诊断的可靠性,这两个情况的成功可能次于用于诊断这两种障碍的方法(即血红蛋白A1C和肺量测定法)的极佳诊断可靠性。另外,重要的是应注意,T2DM的诊断特征主要映射至受过量葡萄糖水平影响的途径,而与COPD相关的特征主要与吸烟的特征重叠,吸烟对所有COPD病例的95%有贡献。(Qiu,Baccarelli等人2012,Toperoff,Aran等人2012)而且,由于其他主要死因(如中风)的许多风险因子与CVD风险因子(例如吸烟)重叠,我们对于使用此方法可以生成类似图谱是乐观的。
不幸的是,绝大多数成人发作的常见复杂障碍不具有良好的现有生物标记物或大效应值病因学因子。在这些病例中,纳入相互作用效应的方法可能是有益的,真正的问题是为什么有益?尽管是推测的,基于我们的经验,局部和全基因组数据指示,长期暴露于细胞应激因子导致表观基因组重组,此可能仅为部分可逆。如果该基因组解组(不管其持续多久)是有原因地与疾病相关,其可以用作疾病的生物标记物。理解这些效应中的每一个的逆转时间可能进一步加深理解。例如,药理学干预可能对离散子集具有效应。通过理解这些基因座处的逆转与治疗结果之间的关系,可能优化现有药物或更熟练地调整新组合方案。
总之,我们报道,纳入来自相互作用效应的信息的算法可以预测FCS中中风和CHF的存在。我们建议,指示在其他种族的群组中复现和扩展该方法的可推广性的进一步研究。我们另外建议,类似方法可以导致生成其他常见复杂障碍(如中风)的甲基化图谱。
实施例5参考文献
Andersen等人(2015).“″Current and Future Prospects for EpigeneticBiomarkers of Substance Use Disorders.”Genes 6(4):991-1022。
Auer等人(2012).“Association of major and minor ecg abnormalities withcoronary heart disease events.”JAMA 307(14):1497-1505。
Beach等人(2010).“Child maltreatment moderates the association of MAOAwith symptoms of depression and antisocial personality disorder.”J FamPsychol24(1):12-20。
Beck等人(1986).“The use ofrelative operating characteristic(ROC)curves in test performance evaluation.”Archives of pathology&laboratorymedicine 110(1):13-20。
Breitling等人(2012).“Smoking,F2RL3methylation,and prognosis in stablecoronary heart disease.”European Heart Journal。
Breitling等人(2012).“Smoking,F2RL3methylation,and prognosis instablecoronary heart disease.”European heartjournal 33(22):2841-2848。
Brückmann等人(2016).“Validation of differential GDAP1DNA methylationin alcohol dependence and its potential function as a biomarker for diseaseseverity and therapy outcome.”Epigenetics(刚接收):00-00。
Buckley等人(2009).“C-reactive protein as a risk factor for coronaryheart disease:a systematic review and meta-analyses for the US PreventiveServices Task Force.”Annals ofinternal medicine 151(7):483-495。
Caraballo等人(2004).“Self-reported cigarette smoking vs.serumcotinine among U.S.adolescents.”Nicotine&Tobacco Research 6(1):19-25。
Caraballo等人(2001).“Factors associated with discrepancies betweenself-reports on cigarette smoking and measured serum cotinine levels amongpersons aged 17 years or older:Third National Health and NutritionExamination Survey,1988-1994.”Am J Epidemiol 153(8):807-814。
Caspi等人(2002).“Role of genotype in the cycle of violence inmaltreated children.”Science 297(5582):851-854。
Caspi等人(2003).“Influence of life stress on depression:moderation bya polymorphismin the 5-HTT gene.”Science 301(5631):386-389。
Center for Disease Control(2005).“Annual Smoking-AttributableMortality,Years of Potential Life Lost,and Productivity Losses---UnitedStates,1997--2001.”MMWR 54(25):625-628。
Centers for Disease Control and Prevention.“Heart Disease and StrokePrevention,Addressing the Nation′s Leading Killers:At A Glance 2011.”2012年2月2日检索,来自https://www.cdc.gov/dhdsp/docs/dhdsp_factsheet.pdf
Dawber等人(1963).“An approach to longitudinal studies in a community:the Framingham Study.”Annals of the New York Academy of Sciences 107(2):539-556。
Dogan等人(2015).“Ethnicity and Smoking-Associated DNA MethylationChanges at HIV Co-Receptor GPR15.”Frontiers in Psychiatry 6。
Du等人(2008).“lumi:a pipeline for processing Illumina microarray.”Bioinformatics 24(13):1547-1548。
Garrett等人,C.f.D.Control and Prevention(2011).“Cigarette smoking-United States,1965-2008.”MMWR Surveill Summ 60(1):109-113。
Gluckman等人(2009).“Epigenetic mechanisms that underpin metabolic andcardiovascular diseases.”Nat Rev Endocrinol 5(7):401-408。
Guida等人(2015).“Dynamics of Smoking-Induced Genome-Wide MethylationChanges with Time Since Smoking Cessation.”Human Molecular Genetics。
Klengel等人(2014).“The role of DNA methylation in stress-relatedpsychiatric disorders.”Neuropharmacology 80(0):115-132。
Kolassa等人(2010).“Association study of trauma load andSLC6A4promoter polymorphism in posttraumatic stress disorder:evidence fromsurvivors of the Rwandan gcnoeide.”J Clinical Psychiatry 71:543-547。
Lao等人(2011).“Epigenetics and colorectal cancer.”Nat RevGastroenterol Hepato1 8(12):686-700。
Mahmood等人(2014).“The Framingham Heart Study and the epidemiology ofcardiovascular disease:a historical perspective.”The Lancet 383(9921):999-1008。
McEwen(2007).“Physiology and Neurobiology of Stress and Adaptation:Central Role of the Brain.”Physiological Reviews 87(3):873-904。
Mega等人“Genetic risk,coronary heart disease events,and the clinicalbenefit of statin therapy:an analysis of primary and secondary preventiontrials.”The Lancet 385(9984):2264-2271。
Monick等人(2012).“Coordinated changes in AHRR methylation inlymphoblasts and pulmonary macrophages from smokers.”Am.J.Med Genet.159B(2):141-151。
Mozaffarian等人(2016).“Executive Summary:Heart Disease and StrokeStatistics-2016 Update:A Report From the American Heart Association.”Circulation 133(4):447-454。
Paynter等人(2016).“Are Genetic Tests for Atherosclerosis Ready forRoutine Clinical Use?”Circulation Research 118(4):607-619。
Philibert等人(2014).“The seareh for peripheral biomarkers for majordepression:Benefiting from successes in the biology of smoking.”AmericanJournal of Medical Genetics Part B:Neuropsychiatric Genetics 165(3):230-234。
Philibert等人(2016).“Reversion of AHRR Demethylation Is aQuantitative Biomarker of Smoking Cessation.”Frontiers in Psychiatry 7。
Philibert等人(2015).“A Quantitative Epigenetic Approach for theAssessment of Cigarette Consumption.”Frontiers in Psychology 6。
Philibert等人(2014).“A pilot examination of the genome-wide DNAmethylation signatures of subjects entering and exiting short-termalcoholdependence treatment programs.”Epigenetics 9(9):1-7。
Philibert等人(2010).“Theeffectof smoking on MAOA promotermethylationin DNA prepared from lymphoblasts and whole blood.”American Journal ofMedicalGenetics 153B(2):619-628。
Philibert等人(2008).“MAOA methylation is associated with nicotine andalcohol dependence in women.”American Journal of Medical Genetics 147B(5):565-570。
Pidsley等人(2013).“A data-driven approach to preprocessing Illumina450K methylation array data.”BMC Genomics 14(1):1-10。
Purcell等人(2007).“PLINK:a tool set for whole-genome association andpopulation-based linkage analyses.”The American Journal of Human Genetics 81(3):559-575。
Qiu等人(2012).“Variable DNA Methylation Is Associated with ChronicObstruetive Pulmonary Disease and Lung Function.”American Journal ofRespiratory and Critical Care Medicine 185(4):373-381。
Sharma等人(2008).“Detection of altered global DNA methylation incoronary artery disease patients.”DNA and cell biology 27(7):357-365。
Shipton等人(2009).“Reliability of self-reported smoking status bypregnant women for estimating smoking prevalence:a retrospective,crosssectional study.”BMJ 339(B4347)。
Shumay等人(2012).“Evidence that the methylation state of themonoamine oxidase A(MAOA)gene predicts brain activity of MAOA enzyme inhealthy men.”Epigenetics 7(10):10-19。
Toperoff等人(2012).“Genome-wide survey reveals predisposing diabetestyPe 2-related DNA methylation variations in human peripheral blood.”HumanMolecular Genetics 21(2):371-383。
Traylor等人(2012).“Genetic risk factors for ischaemic stroke and itssubtypes(the METASTROKE Collaboration):a meta-analysis of genome-wideassociation studies.”The Lancet Neurology 11(11):951-962。
Tsaprouni等人(2014).“Cigarette smoking reduces DNA methylation levelsat multiple genomic loci but the effect is partially reversible uponcessation.”Epigenetics 9(10):1382-1396。
Webb等人(2003).“The discrepancy between self-reported smoking statusand urine continine levels among women enrolled in prenatal care at fourpubliclyfunded clinical sites.”J Public Health Manag Pract 9(4):322-325。
Wolke等人(2009).“Selective drop-out in longitudinal studies and non-biased prediction of behaviour disorders.”The British Journal of Psychiatry195(3):249-256。
Yang等人(1997).“Evolving methods in genetic epidemiology.III.Gene-environment interaction in epidemiologic research.”Epidemiol Rev 19(1):33-43。
Zeilinger等人(2013).“Tobacco smoking leads to extensive genome-widechanges in DNA methylation.”PLoS ONE 8(5):e63812。
Zhang等人(2015).“Smoking-Associated DNA Methylation Biomarkers andTheir Predictive Value for All-Cause and Cardiovascular Mortality.”Environmental health perspectives。
Zhang等人(2014).“F2RL3methylation in blood DNA is a strong predictorof mortality.”International Journal of Epidemiology。
尽管前述说明书和实施例已充分公开本发明并使其能实现,但其并非旨在限制本发明的范围,本发明的范围是由随附的权利要求书限定的。
所有出版物、专利和专利申请都通过引用并入本文。尽管在前述说明书中已关于本发明的某些实施方案描述了本发明,并且已出于说明目的陈述了许多详情,但本领域技术人员应清楚的是,本发明容许其他实施方案,并且本文所述的某些详情可以在不背离本发明的基本原则的情况下发生显著改变。
除非本文另有指示或与上下文明确矛盾,否则使用术语“一个/一种(a/an)”和“该(the)”以及类似指示语在描述本发明的背景下应视为同时覆盖单数和复数。除非另有说明,否则术语“包含(comprising)”、“具有(having)”、“包括(including)”和“含有(containing)”应视为开放式术语(即,意指“包括但不限于”)。除非本文中另有指示,否则本文中列举的数值范围仅旨在用作个别地提到落在该范围内的每个单独值的速记方法,并且每个单独值纳入说明书中如同其在本文中个别列举一般。除非本文中另有指示或与上下文明确矛盾,否则本文所述的所有方法都能以任何合适的顺序来进行。除非另有声明,否则本文中提供的任何和所有例子或示例性语言(例如,“如”)的使用都仅旨在更好地说明本发明,并且不对本发明的范围施加任何限制。不应将说明书中的任何语言视为指示任何未主张的要素对于本发明的实践是必不可少的。
本发明的实施方案描述于本文中,包括发明人已知用于实施本发明的最佳模式。本领域普通技术人员在阅读前述说明后将清楚那些实施方案的变化形式。发明人预期技术人员可以视需要采用此类变化形式,并且发明人打算以除了本文具体描述以外的方式来实践本发明。因此,本发明包括被适用法律所允许的随附权利要求书中列举的主题的所有修改和等效内容。此外,除非本文中另有指示或与上下文明确矛盾,否则本发明涵盖所有可能变化形式中上述要素的任何组合。

Claims (96)

1.一种用于确定至少一个CpG二核苷酸的甲基化状态以及至少一个单核苷酸多态性(SNP)的基因型的试剂盒,该试剂盒包含
长度为至少8个核苷酸的至少一个第一核酸引物,该至少一个第一核酸引物与经亚硫酸氢盐转化的核酸序列互补,该核酸序列包含来自图15的基因的CpG二核苷酸或来自图16的CpG位点、或与来自图16的CpG位点共线(R>0.3)的CpG位点,其中该至少一个第一核酸引物检测未甲基化CpG二核苷酸;和
长度为至少8个核苷酸的至少一个第二核酸引物,该至少一个第二核酸引物与来自图21的第一SNP或与来自图21的第一SNP连锁不平衡的第二SNP的DNA序列或经亚硫酸氢盐转化的DNA序列互补,其中该连锁不平衡具有R>0.3的值。
2.一种用于确定至少一个CpG二核苷酸的甲基化状态以及至少一个单核苷酸多态性(SNP)的基因型的试剂盒,该试剂盒包含
长度为至少8个核苷酸的至少一个第一核酸引物,该至少一个第一核酸引物与经亚硫酸氢盐转化的核酸序列互补,该核酸序列包含来自图17的基因或来自图18中CpG位点的CpG二核苷酸或与来自图18的CpG位点共线(R>0.3)的CpG二核苷酸,其中该至少一个第一核酸引物检测未甲基化CpG二核苷酸;和
长度为至少8个核苷酸的至少一个第二核酸引物,该至少一个第二核酸引物与来自图22的第一SNP或与来自图22的第一SNP连锁不平衡的第二SNP的DNA序列或经亚硫酸氢盐转化的DNA序列互补,其中该连锁不平衡具有R>0.3的值。
3.一种用于确定至少一个CpG二核苷酸的甲基化状态以及至少一个单核苷酸多态性(SNP)的基因型的试剂盒,该试剂盒包含
长度为至少8个核苷酸的至少一个第一核酸引物,该至少一个第一核酸引物与经亚硫酸氢盐转化的核酸序列互补,该核酸序列包含来自图19的基因的CpG二核苷酸或图20中的CpG位点、与来自图20的CpG位点共线(R>0.3)的CpG二核苷酸,其中该至少一个第一核酸引物检测未甲基化CpG二核苷酸;和
长度为至少8个核苷酸的至少一个第二核酸引物,该至少一个第二核酸引物与来自图23的第一SNP或与来自图23的第一SNP连锁不平衡的第二SNP的DNA序列或经亚硫酸氢盐转化的DNA序列互补,其中该连锁不平衡具有R>0.3的值。
4.一种用于确定至少一个CpG二核苷酸的甲基化状态以及至少一个单核苷酸多态性(SNP)的存在的试剂盒,该试剂盒包含
长度为至少8个核苷酸的至少一个第一核酸引物,该至少一个第一核酸引物与经亚硫酸氢盐转化的核酸序列互补,该核酸序列包含在转化生长因子β受体III(TGFBR3)基因内的染色体1的位置92203667处的CpG二核苷酸,其中该至少一个第一核酸引物检测未甲基化CpG二核苷酸;和
长度为至少8个核苷酸的至少一个第二核酸引物,该至少一个第二核酸引物与SNPrs347027互补。
5.权利要求4的试剂盒,其中rs347027包含G等位基因。
6.权利要求4的试剂盒,其还包含长度为至少8个核苷酸的至少一个第三核酸引物,该至少一个第三核酸引物与经亚硫酸氢盐转化的核酸序列互补,该核酸序列包含在TGFBR基因内的染色体1的位置92203667处的CpG二核苷酸,其中该至少一个第二核酸引物检测甲基化CpG二核苷酸。
7.一种用于确定至少一个CpG二核苷酸的甲基化状态以及至少一个单核苷酸多态性(SNP)的存在的试剂盒,该试剂盒包含
长度为至少8个核苷酸的至少一个第一核酸引物,该至少一个第一核酸引物与经亚硫酸氢盐转化的核酸序列互补,该核酸序列包含在染色体15的基因间隔区中的位置38364951处的CpG二核苷酸,其中该至少一个第一核酸引物检测未甲基化CpG二核苷酸;和
长度为至少8个核苷酸的至少一个第二核酸引物,该至少一个第二核酸引物与SNPrs4937276互补。
8.权利要求7的试剂盒,其还包含长度为至少8个核苷酸的至少一个第三核酸引物,该至少一个第三核酸引物与经亚硫酸氢盐转化的核酸序列互补,该核酸序列包含在染色体15的基因间隔区中的位置38364951处的CpG二核苷酸,其中该至少一个第二核酸引物检测甲基化CpG二核苷酸。
9.一种用于确定至少一个CpG二核苷酸的甲基化状态以及至少一个单核苷酸多态性(SNP)的存在的试剂盒,该试剂盒包含
长度为至少8个核苷酸的至少一个第一核酸引物,该至少一个第一核酸引物与经亚硫酸氢盐转化的核酸序列互补,该核酸序列包含在辅酶Q24-羟基苯甲酸聚异戊二烯基转移酶(COQ2)基因中的染色体4的位置84206068处的CpG二核苷酸,其中该至少一个第一核酸引物检测未甲基化CpG二核苷酸;和
长度为至少8个核苷酸的至少一个第二核酸引物,该至少一个第二核酸引物与SNPrs17355663互补。
10.权利要求9的试剂盒,其还包含长度为至少8个核苷酸的至少一个第三核酸引物,该至少一个第三核酸引物与经亚硫酸氢盐转化的核酸序列互补,该核酸序列包含在辅酶Q24-羟基苯甲酸聚异戊二烯基转移酶(COQ2)基因中的染色体4的位置84206068处的CpG二核苷酸,其中该至少一个第二核酸引物检测甲基化CpG二核苷酸。
11.一种用于确定至少一个CpG二核苷酸的甲基化状态以及至少一个单核苷酸多态性(SNP)的存在的试剂盒,该试剂盒包含
长度为至少8个核苷酸的至少一个第一核酸引物,该至少一个第一核酸引物与经亚硫酸氢盐转化的核酸序列互补,该核酸序列包含在硫酸乙酰肝素3-O-磺基转移酶4(HS3ST4)基因中的染色体16的位置26146070处的CpG二核苷酸,其中该至少一个第一核酸引物检测未甲基化CpG二核苷酸;和
长度为至少8个核苷酸的至少一个第二核酸引物,该至少一个第二核酸引物与SNPrs235807互补。
12.权利要求11的试剂盒,其还包含长度为至少8个核苷酸的至少一个第三核酸引物,该至少一个第三核酸引物与经亚硫酸氢盐转化的核酸序列互补,该核酸序列包含在硫酸乙酰肝素3-O-磺基转移酶4(HS3ST4)基因中的染色体16的位置26146070处的CpG二核苷酸,其中该至少一个第二核酸引物检测甲基化CpG二核苷酸。
13.一种用于确定至少一个CpG二核苷酸的甲基化状态以及至少一个单核苷酸多态性(SNP)的存在的试剂盒,该试剂盒包含
长度为至少8个核苷酸的至少一个第一核酸引物,该至少一个第一核酸引物与经亚硫酸氢盐转化的核酸序列互补,该核酸序列包含在染色体1的基因间隔区的位置91171013处的CpG二核苷酸,其中该至少一个第一核酸引物检测未甲基化CpG二核苷酸;和
长度为至少8个核苷酸的至少一个第二核酸引物,该至少一个第二核酸引物与SNPrs11579814互补。
14.权利要求13的试剂盒,其还包含长度为至少8个核苷酸的至少一个第三核酸引物,该至少一个第三核酸引物与经亚硫酸氢盐转化的核酸序列互补,该核酸序列包含在染色体1的基因间隔区的位置91171013处的CpG二核苷酸,其中该至少一个第二核酸引物检测甲基化CpG二核苷酸。
15.一种用于确定至少一个CpG二核苷酸的甲基化状态以及至少一个单核苷酸多态性(SNP)的存在的试剂盒,该试剂盒包含
长度为至少8个核苷酸的至少一个第一核酸引物,该至少一个第一核酸引物与经亚硫酸氢盐转化的核酸序列互补,该核酸序列包含在NADH脱氢酶(泛醌)Fe-S蛋白5(NDUFS5)基因中的染色体1的位置39491936处的CpG二核苷酸,其中该至少一个第一核酸引物检测未甲基化CpG二核苷酸;和
长度为至少8个核苷酸的至少一个第二核酸引物,该至少一个第二核酸引物与SNPrs2275187互补。
16.权利要求15的试剂盒,其还包含长度为至少8个核苷酸的至少一个第三核酸引物,该至少一个第三核酸引物与经亚硫酸氢盐转化的核酸序列互补,该核酸序列包含在NADH脱氢酶(泛醌)Fe-S蛋白5(NDUFS5)基因中的染色体1的位置39491936处的CpG二核苷酸,其中该至少一个第二核酸引物检测甲基化CpG二核苷酸。
17.一种用于确定至少一个CpG二核苷酸的甲基化状态以及至少一个单核苷酸多态性(SNP)的存在的试剂盒,该试剂盒包含
长度为至少8个核苷酸的至少一个第一核酸引物,该至少一个第一核酸引物与经亚硫酸氢盐转化的核酸序列互补,该核酸序列包含在映射至光传感因子基因中的染色体1的位置186426136处的CpG二核苷酸,其中该至少一个第一核酸引物检测未甲基化CpG二核苷酸;和
长度为至少8个核苷酸的至少一个第二核酸引物,该至少一个第二核酸引物与SNPrs4336803互补。
18.权利要求17的试剂盒,其还包含长度为至少8个核苷酸的至少一个第三核酸引物,该至少一个第三核酸引物与经亚硫酸氢盐转化的核酸序列互补,该核酸序列包含在映射至光传感因子基因中的染色体1的位置186426136处的CpG二核苷酸,其中该至少一个第二核酸引物检测甲基化CpG二核苷酸。
19.一种用于确定至少一个CpG二核苷酸的甲基化状态以及至少一个单核苷酸多态性(SNP)的存在的试剂盒,该试剂盒包含
长度为至少8个核苷酸的至少一个第一核酸引物,该至少一个第一核酸引物与经亚硫酸氢盐转化的核酸序列互补,该核酸序列包含在周期蛋白依赖性激酶18(CDK18)基因中的染色体1的位置205475130处的CpG二核苷酸,其中该至少一个第一核酸引物检测未甲基化CpG二核苷酸;和
长度为至少8个核苷酸的至少一个第二核酸引物,该至少一个第二核酸引物与SNPrs4951158互补。
20.权利要求19的试剂盒,其还包含长度为至少8个核苷酸的至少一个第三核酸引物,该至少一个第三核酸引物与经亚硫酸氢盐转化的核酸序列互补,该核酸序列包含在周期蛋白依赖性激酶18(CDK18)基因中的染色体1的位置205475130处的CpG二核苷酸,其中该至少一个第二核酸引物检测甲基化CpG二核苷酸。
21.一种用于确定至少一个CpG二核苷酸的甲基化状态以及至少一个单核苷酸多态性(SNP)的存在的试剂盒,该试剂盒包含
长度为至少8个核苷酸的至少一个第一核酸引物,该至少一个第一核酸引物与经亚硫酸氢盐转化的核酸序列互补,该核酸序列包含在Ca++转运ATP酶2C型成员1(ATP2C1)基因中的染色体3的位置130614013处的CpG二核苷酸,其中该至少一个第一核酸引物检测未甲基化CpG二核苷酸;和
长度为至少8个核苷酸的至少一个第二核酸引物,该至少一个第二核酸引物与SNPrs925613互补。
22.权利要求21的试剂盒,其还包含长度为至少8个核苷酸的至少一个第三核酸引物,该至少一个第三核酸引物与经亚硫酸氢盐转化的核酸序列互补,该核酸序列包含在Ca++转运ATP酶2C型成员1(ATP2C1)基因中的染色体3的位置130614013处的CpG二核苷酸,其中该至少一个第二核酸引物检测甲基化CpG二核苷酸。
23.权利要求1-22中任一项的试剂盒,其中该至少一个第一引物的长度是至少10个核苷酸,且其中该至少一个第二引物的长度是至少10个核苷酸。
24.权利要求1-22中任一项的试剂盒,其中该至少一个第一引物的长度是至少12个核苷酸,且其中该至少一个第二引物的长度是至少12个核苷酸。
25.权利要求1-24中任一项的试剂盒,其中该至少一个第一核酸引物包含一个或多个核苷酸类似物。
26.权利要求1-24中任一项的试剂盒,其中该至少一个第一核酸引物包含一个或多个合成或非天然核苷酸。
27.权利要求1-26中任一项的试剂盒,其还包含该至少一个第一核酸引物所结合的固体基质。
28.权利要求27的试剂盒,其中该基质是聚合物、玻璃、半导体、纸、金属、凝胶或水凝胶。
29.权利要求27的试剂盒,其中该固体基质是微阵列或微流体卡。
30.权利要求1-29中任一项的试剂盒,其还包含可检测标记。
31.一种用于确定至少一个CpG二核苷酸的甲基化状态的试剂盒,该试剂盒包含:长度为至少8个核苷酸的至少一个第一核酸引物,该至少一个第一核酸引物与经亚硫酸氢盐转化的核酸序列互补,该核酸序列包含在转化生长因子β受体III(TGFBR3)基因内的染色体1的位置92203667处的CpG二核苷酸,其中该至少一个第一核酸引物包含一个或多个核苷酸类似物或者一个或多个合成或非天然核苷酸,且其中该至少一个核酸引物检测未甲基化CpG二核苷酸或甲基化CpG二核苷酸。
32.权利要求31的试剂盒,其还包含长度为至少8个核苷酸的至少一个第二核酸引物,该至少一个第二核酸引物与经亚硫酸氢盐转化的核酸序列互补,该核酸序列包含在TGFBR基因内的染色体1的位置92203667处的CpG二核苷酸,其中该至少一个第二核酸引物检测未甲基化CpG二核苷酸或甲基化CpG二核苷酸,与该至少一个第一核酸引物所检测的CpG二核苷酸相反。
33.权利要求31或32的试剂盒,其中该至少一个第一核酸引物检测未甲基化CpG二核苷酸。
34.权利要求31或32的试剂盒,其中该至少一个第一核酸引物检测甲基化CpG二核苷酸。
35.权利要求32的试剂盒,其中该至少一个第一核酸引物检测未甲基化CpG二核苷酸,且其中该至少一个第二核酸引物检测甲基化CpG二核苷酸。
36.权利要求32的试剂盒,其中该至少一个第一核酸引物检测甲基化CpG二核苷酸,且其中该至少一个第二核酸引物检测未甲基化CpG二核苷酸。
37.权利要求32的试剂盒,其还包含长度为至少8个核苷酸的至少第三核酸引物,该至少第三核酸引物与TGFBR基因内的染色体1的位置92203667处的CpG二核苷酸上游的核酸序列互补。
38.权利要求37的试剂盒,其还包含长度为至少8个核苷酸的至少第四核酸引物,该至少第四核酸引物与TGFBR基因内的染色体1的位置92203667处的CpG二核苷酸下游的核酸序列互补。
39.权利要求37的试剂盒,其中该至少第三核酸引物与经亚硫酸氢盐转化的核酸序列互补。
40.权利要求38的试剂盒,其中该至少第四核酸引物与经亚硫酸氢盐转化的核酸序列互补。
41.权利要求32的试剂盒,其中该至少一个第二核酸引物包含一个或多个核苷酸类似物。
42.权利要求33的试剂盒,其中该至少一个第二核酸引物包含一个或多个合成或非天然核苷酸。
43.权利要求32的试剂盒,其还包含该至少一个第一核酸引物所结合的固体基质。
44.权利要求43的试剂盒,其中该基质是聚合物、玻璃、半导体、纸、金属、凝胶或水凝胶。
45.权利要求43的试剂盒,其中该固体基质是微阵列或微流体卡。
46.权利要求31-45中任一项的试剂盒,其还包含可检测标记。
47.一种用于确定至少一个CpG二核苷酸的甲基化状态的试剂盒,该试剂盒包含:长度为至少8个核苷酸的至少一个第一核酸引物,该至少一个第一核酸引物与经亚硫酸氢盐转化的核酸序列互补,该核酸序列包含在转化生长因子β受体III(TGFBR3)基因内的染色体1的位置92203667处的CpG二核苷酸,且其中该至少一个核酸引物检测未甲基化CpG二核苷酸或甲基化CpG二核苷酸;以及选自下组的可检测标记,该组由以下各项组成:酶标记、荧光标记和比色标记。
48.权利要求47的试剂盒,其还包含长度为至少8个核苷酸的至少一个第二核酸引物,该至少一个第二核酸引物与经亚硫酸氢盐转化的核酸序列互补,该核酸序列包含在TGFBR基因内的染色体1的位置92203667处的CpG二核苷酸,其中该至少一个第二核酸引物检测未甲基化CpG二核苷酸或甲基化CpG二核苷酸,与该至少一个第一核酸引物所检测的CpG二核苷酸相反。
49.权利要求47或48的试剂盒,其中该至少一个第一核酸引物检测未甲基化CpG二核苷酸。
50.权利要求47或48的试剂盒,其中该至少一个第一核酸引物检测甲基化CpG二核苷酸。
51.权利要求48的试剂盒,其中该至少一个第一核酸引物检测未甲基化CpG二核苷酸,且其中该至少一个第二核酸引物检测甲基化CpG二核苷酸。
52.权利要求48的试剂盒,其中该至少一个第一核酸引物检测甲基化CpG二核苷酸,且其中该至少一个第二核酸引物检测未甲基化CpG二核苷酸。
53.权利要求48的试剂盒,其还包含长度为至少8个核苷酸的至少第三核酸引物,该至少第三核酸引物与TGFBR基因内的染色体1的位置92203667处的CpG二核苷酸上游的核酸序列互补。
54.权利要求53的试剂盒,其还包含长度为至少8个核苷酸的至少第四核酸引物,该至少第四核酸引物与TGFBR基因内的染色体1的位置92203667处的CpG二核苷酸下游的核酸序列互补。
55.权利要求53的试剂盒,其中该至少第三核酸引物与经亚硫酸氢盐转化的核酸序列互补。
56.权利要求54的试剂盒,其中该至少第四核酸引物与经亚硫酸氢盐转化的核酸序列互补。
57.权利要求47-56中任一项的试剂盒,其中该至少一个第一核酸引物包含一个或多个核苷酸类似物。
58.权利要求47-56中任一项的试剂盒,其中该至少一个第一核酸引物包含一个或多个合成或非天然核苷酸。
59.权利要求47-58中任一项的试剂盒,其还包含该至少一个第一核酸引物所结合的固体基质。
60.权利要求59的试剂盒,其中该基质是聚合物、玻璃、半导体、纸、金属、凝胶或水凝胶。
61.权利要求59的试剂盒,其中该固体基质是微阵列或微流体卡。
62.一种用于确定至少一个CpG二核苷酸的甲基化状态的试剂盒,该试剂盒包含:长度为至少8个核苷酸的至少一个第一核酸引物,该至少一个第一核酸引物与经亚硫酸氢盐转化的核酸序列互补,该核酸序列包含在转化生长因子β受体III(TGFBR3)基因内的染色体1的位置92203667处的CpG二核苷酸,且其中该至少一个核酸引物检测未甲基化CpG二核苷酸或甲基化CpG二核苷酸;以及该至少一个第一核酸引物所结合的固体基质。
63.权利要求62的试剂盒,其还包含长度为至少8个核苷酸的至少一个第二核酸引物,该至少一个第二核酸引物与经亚硫酸氢盐转化的核酸序列互补,该核酸序列包含在TGFBR基因内的染色体1的位置92203667处的CpG二核苷酸,其中该至少一个第二核酸引物检测未甲基化CpG二核苷酸或甲基化CpG二核苷酸,与该至少一个第一核酸引物所检测的CpG二核苷酸相反。
64.权利要求62或63的试剂盒,其中该至少一个第一核酸引物检测未甲基化CpG二核苷酸。
65.权利要求62或63的试剂盒,其中该至少一个第一核酸引物检测甲基化CpG二核苷酸。
66.权利要求63的试剂盒,其中该至少一个第一核酸引物检测未甲基化CpG二核苷酸,且其中该至少一个第二核酸引物检测甲基化CpG二核苷酸。
67.权利要求63的试剂盒,其中该至少一个第一核酸引物检测甲基化CpG二核苷酸,且其中该至少一个第二核酸引物检测未甲基化CpG二核苷酸。
68.权利要求63的试剂盒,其还包含长度为至少8个核苷酸的至少第三核酸引物,该至少第三核酸引物与TGFBR基因内的染色体1的位置92203667处的CpG二核苷酸上游的核酸序列互补。
69.权利要求68的试剂盒,其还包含长度为至少8个核苷酸的至少第四核酸引物,该至少第四核酸引物与TGFBR基因内的染色体1的位置92203667处的CpG二核苷酸下游的核酸序列互补。
70.权利要求68的试剂盒,其中该至少第三核酸引物与经亚硫酸氢盐转化的核酸序列互补。
71.权利要求69的试剂盒,其中该至少第四核酸引物与经亚硫酸氢盐转化的核酸序列互补。
72.权利要求62-71中任一项的试剂盒,其中该至少一个第一核酸引物包含一个或多个核苷酸类似物。
73.权利要求62-71中任一项的试剂盒,其中该至少一个第一核酸引物包含一个或多个合成或非天然核苷酸。
74.权利要求62-73中任一项的试剂盒,其中该基质是聚合物、玻璃、半导体、纸、金属、凝胶或水凝胶。
75.权利要求62-73中任一项的试剂盒,其中该固体基质是微阵列或微流体卡。
76.权利要求62-75中任一项的试剂盒,其还包含可检测标记。
77.一种预测来自患者的生物样品中与心血管疾病(CVD)相关的生物标记物的存在的方法,该方法包括
(a)提供来自该生物样品的第一等分试样,并使来自该第一生物样品的DNA与亚硫酸氢盐在碱性条件下接触;和
(b)提供来自该生物样品的第二等分试样;
(c)
(i)使该第一等分试样与长度为至少8个核苷酸的第一寡核苷酸探针接触,该第一寡核苷酸探针与包含在转化生长因子β受体III(TGFBR3)基因内的染色体1的位置92203667处的CpG二核苷酸的序列互补,且使该第二等分试样与长度为至少8个核苷酸的核酸引物接触,该核酸引物与SNP rs347027互补;
(ii)使该第一等分试样与长度为至少8个核苷酸的第一寡核苷酸探针接触,该第一寡核苷酸探针与包含在染色体15的基因间隔区中的位置38364951处的CpG二核苷酸的序列互补,且使该第二等分试样与长度为至少8个核苷酸的核酸引物接触,该核酸引物与SNPrs4937276互补;
(iii)使该第一等分试样与长度为至少8个核苷酸的第一寡核苷酸探针接触,该第一寡核苷酸探针与包含在辅酶Q24-羟基苯甲酸聚异戊二烯基转移酶(COQ2)基因中的染色体4的位置84206068处的CpG二核苷酸的序列互补,且使该第二等分试样与长度为至少8个核苷酸的核酸引物接触,该核酸引物与SNP rs17355663互补;
(iv)使该第一等分试样与长度为至少8个核苷酸的第一寡核苷酸探针接触,该第一寡核苷酸探针与包含在硫酸乙酰肝素3-O-磺基转移酶4(HS3ST4)基因中的染色体16的位置26146070处的CpG二核苷酸的序列互补,且使该第二等分试样与长度为至少8个核苷酸的核酸引物接触,该核酸引物与SNP rs235807互补;
(v)使该第一等分试样与长度为至少8个核苷酸的第一寡核苷酸探针接触,该第一寡核苷酸探针与包含在染色体1的基因间隔区的位置91171013处的CpG二核苷酸的序列互补,且使该第二等分试样与长度为至少8个核苷酸的核酸引物接触,该核酸引物与SNPrs11579814互补;
(vi)使该第一等分试样与长度为至少8个核苷酸的第一寡核苷酸探针接触,该第一寡核苷酸探针与包含在NADH脱氢酶(泛醌)Fe-S蛋白5(NDUFS5)基因中的染色体1的位置39491936处的CpG二核苷酸的序列互补,且使该第二等分试样与长度为至少8个核苷酸的核酸引物接触,该核酸引物与SNP rs2275187互补;
(vii)使该第一等分试样与长度为至少8个核苷酸的第一寡核苷酸探针接触,该第一寡核苷酸探针与包含在映射至光传感因子基因中的染色体1的位置186426136处的CpG二核苷酸的序列互补,且使该第二等分试样与长度为至少8个核苷酸的核酸引物接触,该核酸引物与SNP rs4336803互补;
(viii)使该第一等分试样与长度为至少8个核苷酸的第一寡核苷酸探针接触,该第一寡核苷酸探针与包含在周期蛋白依赖性激酶18(CDK18)基因中的染色体1的位置205475130处的CpG二核苷酸的序列互补,且使该第二等分试样与长度为至少8个核苷酸的核酸引物接触,该核酸引物与SNP rs4951158互补;和/或
(ix)使该第一等分试样与长度为至少8个核苷酸的第一寡核苷酸探针接触,该第一寡核苷酸探针与包含在Ca++转运ATP酶2C型成员1(ATP2C1)基因中的染色体3的位置130614013处的CpG二核苷酸的序列互补,且使该第二等分试样与长度为至少8个核苷酸的核酸引物接触,该核酸引物与rs925613互补,
其中在TGFBR3基因内的染色体1的位置92203667、cg20636912、cg16947947、cg05916059、cg04567738、cg16603713、cg05709437、cg12081870和/或cg18070470处的CpG二核苷酸的甲基化,以及在染色体1的位置1618766处的G,或者rs4937276、rs17355663、rs235807、rs11579814、rs2275187、rs4336803、rs4951158和/或rs925613中的多态性与CVD相关。
78.权利要求77的方法,其中该生物样品是唾液样品。
79.一种预测来自患者的生物样品中与心血管疾病(CVD)相关的生物标记物的存在的方法,该方法包括检测表3中的一对或多对SNP和CpG。
80.一种用于检测来自具有心血管疾病(CVD)风险的受试者的核酸样品上rs347027处的G等位基因的一个或多个拷贝以及染色体1的位置92203667处的CpG的甲基化状态的方法,该方法包括
a)对所述人类受试者的核酸样品进行基因分型测定,以检测rs347027多态性的G等位基因的一个或多个拷贝的存在;和
b)对所述人类的核酸样品进行甲基化评价,以确定染色体1的位置92203667处的CpG是否未甲基化。
81.权利要求77-80中任一项的方法,其中该CVD是冠心病(CHD)。
82.权利要求77-80中任一项的方法,其中该CVD是充血性心力衰竭(CHF)。
83.权利要求77-80中任一项的方法,其中该CVD是中风。
84.一种确定患者样品中与CHD相关的生物标记物的存在的方法,该方法包括:
(a)从该患者样品分离核酸样品;
(b)对该核酸样品的第一等分试样进行基因分型测定,以检测至少一个SNP的存在,其中该至少一个SNP是来自图21的第一SNP和/或与来自图21的第一SNP连锁不平衡(R>0.3)的第二SNP,以获得基因型数据;和/或
(c)对该核酸的第二等分试样中的核酸进行亚硫酸氢盐转化,并对该核酸样品的第二等分试样进行甲基化评价,以检测来自图15的至少一个基因和/或来自图16的第一CpG位点和/或与来自图16的第一CpG共线的第二CpG位点的甲基化状态,以获得关于特定CpG残基是否未甲基化的甲基化数据;和
(d)将来自步骤(b)的基因型和/或来自步骤(c)的甲基化数据输入至少一个算法中,该算法考虑至少一个SNP主效应和/或至少一个CpG主效应和/或至少一个相互作用效应的贡献。
85.一种确定患者样品中与中风相关的生物标记物的存在的方法,该方法包括:
(a)从该患者样品分离核酸样品;
(b)对该核酸样品的第一等分试样进行基因分型测定,以检测至少一个SNP的存在,其中该至少一个SNP是来自图22的第一SNP和/或与来自图22的第一SNP连锁不平衡的第二SNP,以获得基因型数据;和/或
(c)对该核酸的第二等分试样中的核酸进行亚硫酸氢盐转化,并对该核酸样品的第二等分试样进行甲基化评价,以检测来自图17的至少一个基因和/或来自图18的第一CpG位点和/或与来自图18的第一CpG共线的第二CpG位点的甲基化状态,以获得关于特定CpG残基是否未甲基化的甲基化数据;和
(d)将来自步骤(b)的基因型和/或来自步骤(c)的甲基化数据输入如下算法中,该算法考虑至少一个SNP主效应和/或至少一个CpG主效应和/或至少一个相互作用效应的贡献。
86.一种确定患者样品中与CHF相关的生物标记物的存在的方法,该方法包括:
(a)从该患者样品分离核酸样品;
(b)对该核酸样品的第一等分试样进行基因分型测定,以检测至少一个SNP的存在,其中该SNP是来自图23的第一SNP和/或与来自图23的第一SNP连锁不平衡(R>0.3)的第二SNP,以获得基因型数据;和/或
(c)对该核酸的第二等分试样中的核酸进行亚硫酸氢盐转化,并对该核酸样品的第二等分试样进行甲基化评价,以检测来自图19的至少一个基因和/或来自图20的第一CpG位点和/或与来自图20的第一CpG共线的第二CpG位点的甲基化状态,以获得关于特定CpG残基是否未甲基化的甲基化数据;和
(d)将来自步骤(b)的基因型和/或来自步骤(c)的甲基化数据输入如下算法中,该算法考虑至少一个SNP主效应和/或至少一个CpG主效应和/或至少一个相互作用效应的贡献。
87.权利要求84-86中任一项的方法,其中该至少一个相互作用效应选自下组,该组由以下各项组成:基因-环境相互作用(SNPxCpG)效应、基因-基因相互作用(SNPxSNP)效应以及环境-环境相互作用(CpGxCpG)效应。
88.权利要求84的方法,其中结果包含与来自图16的第一CpG共线的第二CpG位点与来自图21的SNP或与来自图21的第一SNP连锁不平衡的第二SNP之间的基因-环境相互作用效应(SNPxCpG)。
89.权利要求84的方法,其中结果包含来自图15的至少两个基因和/或来自图16的至少两个CpG位点之间的至少一个环境-环境相互作用效应(CpGxCpG)。
90.权利要求84的方法,其中结果包含与来自图16的第一CpG位点共线的至少两个CpG位点之间的至少一个环境-环境相互作用效应(CpGxCpG)。
91.权利要求85的方法,其中结果包含与来自图18的第一CpG共线(R>0.3)的第二CpG位点与来自图22的SNP或与来自图22的第一SNP连锁不平衡的第二SNP之间的基因-环境相互作用效应(SNPxCpG)。
92.权利要求85的方法,其中结果包含来自图17的至少两个基因和/或来自图18的至少两个CpG位点之间的至少一个环境-环境相互作用效应(CpGxCpG)。
93.权利要求85的方法,其中结果包含与来自图18的第一CpG位点共线的至少两个CpG位点之间的至少一个环境-环境相互作用效应(CpGxCpG)。
94.权利要求86的方法,其中结果包含与来自图20的第一CpG共线的第二CpG位点与来自图23的第一SNP或与来自图23的第一SNP连锁不平衡的第二SNP之间的基因-环境相互作用效应(SNPxCpG)。
95.权利要求86的方法,其中结果包含来自图19的至少两个基因和/或来自图20的至少两个CpG位点之间的至少一个环境-环境相互作用效应(CpGxCpG)。
96.权利要求86的方法,其中结果包含与来自图20的第一CpG位点共线的至少两个CpG位点之间的至少一个环境-环境相互作用效应(CpGxCpG)。
CN201780049286.4A 2016-06-08 2017-06-08 检测心血管疾病易感性的组合物和方法 Active CN109906275B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310471575.0A CN116904572A (zh) 2016-06-08 2017-06-08 检测心血管疾病易感性的组合物和方法

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201662347479P 2016-06-08 2016-06-08
US62/347,479 2016-06-08
US201762455468P 2017-02-06 2017-02-06
US62/455,468 2017-02-06
PCT/US2017/036555 WO2017214397A1 (en) 2016-06-08 2017-06-08 Compositions and methods for detecting predisposition to cardiovascular disease

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202310471575.0A Division CN116904572A (zh) 2016-06-08 2017-06-08 检测心血管疾病易感性的组合物和方法

Publications (2)

Publication Number Publication Date
CN109906275A true CN109906275A (zh) 2019-06-18
CN109906275B CN109906275B (zh) 2023-05-12

Family

ID=59078226

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201780049286.4A Active CN109906275B (zh) 2016-06-08 2017-06-08 检测心血管疾病易感性的组合物和方法
CN202310471575.0A Pending CN116904572A (zh) 2016-06-08 2017-06-08 检测心血管疾病易感性的组合物和方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN202310471575.0A Pending CN116904572A (zh) 2016-06-08 2017-06-08 检测心血管疾病易感性的组合物和方法

Country Status (7)

Country Link
US (2) US11414704B2 (zh)
EP (2) EP3907300A1 (zh)
JP (2) JP2019520066A (zh)
CN (2) CN109906275B (zh)
AU (2) AU2017277666B2 (zh)
CA (1) CA3027028A1 (zh)
WO (1) WO2017214397A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110610487A (zh) * 2019-08-29 2019-12-24 上海杏脉信息科技有限公司 一种测量心影增大的方法与装置

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2017277666B2 (en) 2016-06-08 2023-07-27 University Of Iowa Research Foundation Compositions and methods for detecting predisposition to cardiovascular disease
GB201804262D0 (en) * 2018-03-16 2018-05-02 Samsung Electronics Co Ltd Determining a cause of a trend in vital sign data of a subject
GB201810897D0 (en) * 2018-07-03 2018-08-15 Chronomics Ltd Phenotype prediction
US11017268B2 (en) * 2019-06-21 2021-05-25 Dell Products L.P. Machine learning system for identifying potential escalation of customer service requests
US11817214B1 (en) 2019-09-23 2023-11-14 FOXO Labs Inc. Machine learning model trained to determine a biochemical state and/or medical condition using DNA epigenetic data
US11795495B1 (en) * 2019-10-02 2023-10-24 FOXO Labs Inc. Machine learned epigenetic status estimator
WO2022051630A1 (en) * 2020-09-04 2022-03-10 University Of Iowa Research Foundation Methods and compositions for predicting and/or monitoring diabetes and treatments therefor
CN116348616A (zh) * 2020-09-04 2023-06-27 心脏诊断公司 用于预测和/或监测心血管疾病及其治疗的方法和组合物
US11227690B1 (en) * 2020-09-14 2022-01-18 Opendna Ltd. Machine learning prediction of therapy response
CN113355420B (zh) * 2021-06-30 2022-11-11 湖南灵康医疗科技有限公司 一种jak3启动子甲基化的检测引物组合物、应用及检测方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040142334A1 (en) * 2000-12-06 2004-07-22 Oliver Schacht Diagnosis of diseases associated with angiogenesis
US20040241651A1 (en) * 2000-04-07 2004-12-02 Alexander Olek Detection of single nucleotide polymorphisms (snp's) and cytosine-methylations
US20100234242A1 (en) * 2007-01-23 2010-09-16 Arturas Petronis DNA Methylation Changes Associated with Major Psychosis
US20120108444A1 (en) * 2009-04-28 2012-05-03 Robert Philibert Compositions and methods for detecting predisposition to a substance use disorder
WO2013001504A1 (en) * 2011-06-30 2013-01-03 Centre Hospitalier Universitaire Vaudois (C.H.U.V.) Polymorphisms associated with non-response to a hepatitis c treatment or susceptibility to non-spontaneous hepatitis c clearance
WO2016057485A1 (en) * 2014-10-06 2016-04-14 The Johns Hopkins University A dna methylation and genotype specific biomarker for predicting post-traumatic stress disorder

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4965188A (en) 1986-08-22 1990-10-23 Cetus Corporation Process for amplifying, detecting, and/or cloning nucleic acid sequences using a thermostable enzyme
US4683195A (en) 1986-01-30 1987-07-28 Cetus Corporation Process for amplifying, detecting, and/or-cloning nucleic acid sequences
US4683202A (en) 1985-03-28 1987-07-28 Cetus Corporation Process for amplifying nucleic acid sequences
US4800159A (en) 1986-02-07 1989-01-24 Cetus Corporation Process for amplifying, detecting, and/or cloning nucleic acid sequences
CA2531631A1 (en) 2003-07-11 2005-01-27 Wisconsin Alumni Research Foundation Method for assessing behavioral predisposition
JP2009521905A (ja) * 2004-03-05 2009-06-11 アプレラ コーポレイション 冠動脈心疾患に関連する遺伝的多型、その検出方法および使用
FI20041340A0 (fi) * 2004-10-15 2004-10-15 Jurilab Ltd Oy Menetelmä ja testipakkaus äkillisen sydäninfarktin riskin havaitsemiseksi
EP2113572B1 (en) * 2005-03-11 2012-12-05 Celera Corporation Genetic polymorphisms associated with coronary heart disease, methods of detection and uses thereof
US7851154B2 (en) * 2005-07-22 2010-12-14 Simon Daniel Spivack GC tag-modified bisulfite genomic DNA sequencing for continuous methylation spectra
SG182951A1 (en) 2008-06-25 2012-08-30 Baylor Res Inst Blood transcriptional signature of mycobacterium tuberculosis infection
EP2596349B1 (en) * 2010-07-23 2017-12-13 President and Fellows of Harvard College Methods of detecting cardiovascular diseases or conditions
WO2013135830A1 (en) * 2012-03-14 2013-09-19 Ruprecht-Karls-Universität Heidelberg Epigenetic signatures as marker for cardiomyopathies and myocardial insufficiencies
US9984201B2 (en) 2015-01-18 2018-05-29 Youhealth Biotech, Limited Method and system for determining cancer status
AU2017277666B2 (en) 2016-06-08 2023-07-27 University Of Iowa Research Foundation Compositions and methods for detecting predisposition to cardiovascular disease

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040241651A1 (en) * 2000-04-07 2004-12-02 Alexander Olek Detection of single nucleotide polymorphisms (snp's) and cytosine-methylations
US20040142334A1 (en) * 2000-12-06 2004-07-22 Oliver Schacht Diagnosis of diseases associated with angiogenesis
US20100234242A1 (en) * 2007-01-23 2010-09-16 Arturas Petronis DNA Methylation Changes Associated with Major Psychosis
US20120108444A1 (en) * 2009-04-28 2012-05-03 Robert Philibert Compositions and methods for detecting predisposition to a substance use disorder
WO2013001504A1 (en) * 2011-06-30 2013-01-03 Centre Hospitalier Universitaire Vaudois (C.H.U.V.) Polymorphisms associated with non-response to a hepatitis c treatment or susceptibility to non-spontaneous hepatitis c clearance
WO2016057485A1 (en) * 2014-10-06 2016-04-14 The Johns Hopkins University A dna methylation and genotype specific biomarker for predicting post-traumatic stress disorder

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
BÁRBARA DO NASCIMENTO BORGES,等: "Promoter Polymorphisms and Methylation of E-Cadherin (CDH1) and KITin Gastric Cancer Patients from Northern Brazil", 《ANTICANCER RESEARCH 》 *
NORHASHIMAH ABU SEMAN,等: "Genetic, epigenetic and protein analyses of intercellular adhesionmolecule 1 in Malaysian subjects with type 2 diabetes anddiabetic nephropathy", 《JOURNAL OF DIABETES AND ITS COMPLICATIONS》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110610487A (zh) * 2019-08-29 2019-12-24 上海杏脉信息科技有限公司 一种测量心影增大的方法与装置

Also Published As

Publication number Publication date
EP3472344B1 (en) 2021-03-31
CA3027028A1 (en) 2017-12-14
AU2023254965A1 (en) 2023-11-16
EP3907300A1 (en) 2021-11-10
US20230008544A1 (en) 2023-01-12
CN109906275B (zh) 2023-05-12
JP2022166165A (ja) 2022-11-01
US20190264286A1 (en) 2019-08-29
JP2019520066A (ja) 2019-07-18
EP3472344A1 (en) 2019-04-24
WO2017214397A1 (en) 2017-12-14
CN116904572A (zh) 2023-10-20
AU2017277666A1 (en) 2019-01-03
US11414704B2 (en) 2022-08-16
AU2017277666B2 (en) 2023-07-27

Similar Documents

Publication Publication Date Title
CN109906275A (zh) 检测心血管疾病易感性的组合物和方法
Gudbjartsson et al. A frameshift deletion in the sarcomere gene MYL4 causes early-onset familial atrial fibrillation
Cardelli The epigenetic alterations of endogenous retroelements in aging
Xu et al. The emerging landscape of dynamic DNA methylation in early childhood
CN110176273B (zh) 遗传变异的非侵入性评估的方法和过程
Lo Fetal Nucleic Acids in Maternal Plasma: Toward the Development of Noninvasive Prenatal Diagnosis of Fetal Chromosomal Aneuploidies
US20130184161A1 (en) Methods and Systems for Medical Sequencing Analysis
Benaglio et al. Allele-specific NKX2-5 binding underlies multiple genetic associations with human electrocardiographic traits
US20130338012A1 (en) Genetic risk factors of sick sinus syndrome
KR20210100650A (ko) 조상 특이적 유전 위험 점수
Ko et al. ALPK1 genetic regulation and risk in relation to gout
Findley et al. Mutations in folate transporter genes and risk for human myelomeningocele
Cerrato et al. DNA methylation in the diagnosis of monogenic diseases
Subaran et al. Novel variants in ZNF34 and other brain‐expressed transcription factors are shared among early‐onset MDD relatives
Agerbo et al. Modelling the contribution of family history and variation in single nucleotide polymorphisms to risk of schizophrenia: a Danish national birth cohort-based study
Escamilla et al. Genetics of bipolar disorder
Pembrey The Avon Longitudinal Study of Parents and Children (ALSPAC): a resource for genetic epidemiology
Poodineh et al. Association of two methylenetetrahydrofolate reductase polymorphisms (rs1801133, rs1801131) with the risk of type 2 diabetes in South-East of Iran
Vamsi et al. Haplotype association and synergistic effect of human aldosterone synthase (CYP11B2) gene polymorphisms causing susceptibility to essential hypertension in Indian patients
Bianchi et al. Structural and Functional Insights on an Uncharacterized Aγ-Globin-Gene Polymorphism Present in Four β 0-Thalassemia Families with High Fetal Hemoglobin Levels
Rekaya et al. Whole exome sequencing allows the identification of two novel groups of Xeroderma pigmentosum in Tunisia, XP-D and XP-E: impact on molecular diagnosis
Aka et al. Risk of type 2 diabetes mellitus and cardiovascular complications in KCNJ11, HHEX and SLC30A8 genetic polymorphisms carriers: a case-control study
EP3583229A1 (en) Dna methylation signatures for determining a survival probability
Sponholz et al. Polymorphisms of cystathionine beta-synthase gene are associated with susceptibility to sepsis
Christiansen et al. Differential methylation in the Gstt1 regulatory region in sudden unexplained death and sudden unexpected death in epilepsy

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant