CN102177252B - 用于甲状腺癌症的风险评估的遗传变型 - Google Patents

用于甲状腺癌症的风险评估的遗传变型 Download PDF

Info

Publication number
CN102177252B
CN102177252B CN200980139521.2A CN200980139521A CN102177252B CN 102177252 B CN102177252 B CN 102177252B CN 200980139521 A CN200980139521 A CN 200980139521A CN 102177252 B CN102177252 B CN 102177252B
Authority
CN
China
Prior art keywords
mark
risk
allelotrope
haplotype
multiformity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN200980139521.2A
Other languages
English (en)
Other versions
CN102177252A (zh
Inventor
J·甘德姆德森
D·甘伯加特森
P·萨莱姆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Decode Genetics ehf
Original Assignee
Decode Genetics ehf
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Decode Genetics ehf filed Critical Decode Genetics ehf
Publication of CN102177252A publication Critical patent/CN102177252A/zh
Application granted granted Critical
Publication of CN102177252B publication Critical patent/CN102177252B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • C12Q1/6883Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material
    • C12Q1/6886Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes for diseases caused by alterations of genetic material for cancer
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/63Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
    • C12N15/70Vectors or expression systems specially adapted for E. coli
    • C12N15/73Expression systems using phage (lambda) regulatory sequences
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/112Disease subtyping, staging or classification
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/118Prognosis of disease development
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/136Screening for pharmacological compounds
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/172Haplotypes
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N2800/00Detection or diagnosis of diseases
    • G01N2800/04Endocrine or metabolic disorders
    • G01N2800/046Thyroid disorders
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Abstract

本发明公开了已被测定为甲状腺癌的易感性变体的遗传变型。描述了疾病处治的方法,包括测定增加的对甲状腺癌的易感性,使用此类变体预测对治疗的反应的方法和预测甲状腺癌的预后的方法。本发明还涉及用于本发明的方法的试剂盒。

Description

用于甲状腺癌症的风险评估的遗传变型
引言
甲状腺癌
甲状腺癌是最常见的经典内分泌恶性肿瘤,在过去数十年中其发病率在美国以及其它工业化国家已快速升高。甲状腺癌症在组织学上被分成4类:甲状腺乳头状癌、甲状腺滤泡状癌、甲状腺髓样癌和未分化的或甲状腺退行发育性癌(DeLellis,R.A.,J Surg Oncol,94,662(2006))。乳头状和滤泡状癌(包括Hürthle细胞变体)统称为分化型甲状腺癌,并且它们约占95%的偶发病例(DeLellis,R.A.,JSurg Oncol,94,662(2006))。在2008年,预期在美国将诊断37,000多例新病例,其中约75%为女性(男性对女性的比率为1∶3.2)(Jemal,A.,等人,Cancer statistics,2008.CA Cancer J Clin,58:71-96,(2008))。如果在早期被诊断,甲状腺癌是在所有患者中的97%具有5年存活率的易于控制的疾病,然而预期2008年在美国接近1,600个个体将死于该疾病(Jemal,A.,等人,Cancer statistics,2008.CACancer J Clin,58:71-96,(2008))。被诊断患有更晚期疾病的个体中存活率更低(约40%);即具有大的浸润癌和/或远端转移的个体约40%具有5年存活率(Sherman,S.I.,等人,3rd,Cancer,83,1012(1998),Kondo,T.,Ezzat,S.,和Asa,S.L.,Nat Rev Cancer,6,292(2006))。对于抗放射性碘的转移性疾病,没有有效的治疗并且这些患者中10年存活率低于15%(Durant e,C.,等人,J ClinEndocrinol Metab,91,2892(2006))。因此,需要更好地理解甲状腺癌进展的分子原因,以开发新型诊断工具和更好的治疗选择。
虽然相对罕见(在美国1%的全部恶性肿瘤),但在美国1984年与2004年之间甲状腺癌的发病率增加1倍以上;几乎完全归因于甲状腺乳头状癌诊断的增加(SEER web报导;Ries L,Melbert D,KrapchoM等人(2007)SEER cancer statistics review,1975-2004.NationalCancer Institute,Bethesda,MD,http://seer.cancer.gov/csr/1975_2004/,based on November 2006 SEER data submission)。在1995年与2004年之间,甲状腺癌症是第三增长最快的癌症诊断,仅次于腹膜、网膜和肠系膜癌和“其它”消化系统癌(digestive cancer)[SEER web报导]。类似地,还已在加拿大、澳大利亚、以色列和几个欧洲国家(Liu,S.,等人,Br J Cancer,85,1335(2001),Burgess,J.R.,Thyroid,12,141(2002),Lubina,A.,等人,Thyroid,16,1033(2006),Colonna,M.,等人,Eur J Cancer,38,1762(2002),Leenhardt,L.,等人,Thyroid,14,1056(2004),Reynolds,R.M.,等人,Clin Endocrinol (0xf),62,156(2005),Smailyte,G.,等人,BMC Cancer,6,284(2006))观察到甲状腺癌的急剧增加。该流行病背后的因素还不十分清楚。在已知风险因素的增加明显不存在的情况下,科学家已广泛地推测不断改变的诊断实践是可能的原因(Davies,L.and Welch,H.G.,Jama,295,2164(2006),Verkooijen,H.M.,等人,Cancer Causes Control,14,13(2003))。
甲状腺癌的主要的已知风险因素是辐射暴露(radiationexposure)。潜在暴露源包括用于诊断和治疗药剂中的放射物以及来自核爆炸的放射性沉降物。然而,在美国过去的二十年中,这两种来源似乎都未增加。曾经在美国很普遍的用于良性儿童病症的对头和颈的放射疗法自1950年代早期后减少了(Zheng,T.,等人,Int J Cancer,67,504(1996))。类似地,随着部分禁核试验条约(the Limited TestBan Treaty)的签署,在美国核武器的大气层试验于1963年终止。这样的核试验对甲状腺癌率的作用,尽管不完全清楚,但被认为是有限的(Gilbert,E.S.,等人,J Nat1 Cancer Inst,90,1654(1998),Hundahl,S.A.,CA Cancer J Clin,48,285(1998),Robbins,J.和Schneider,A.B.,Rev Endocr Metab Disord,1,197(2000))。
与甲状腺癌的真实发生的增加完全相反,甲状腺癌发病率的升高可能可归咎于增加的亚临床癌的检测(Davies,L.and Welch,H.G.,Jama,295,2164(2006))。美国的甲状腺癌发病率已升高数十年,然而死亡率一直保持相对恒定(Davies,L.和Welch,H.G.,Jama,295,2164(2006))。1980年代超声检查和细针抽吸活检的引入提高了小瘤的检测并且使小结的细胞学评估变得更常规(Rojeski,M.T.和Gharib,H.,N Engl J Med,313,428(1985),Ross,D.S.,J ClinEndocrinol Metab,91,4253(2006))。该增加的诊断细查可允许进行潜在的致命性甲状腺癌的早期检测。然而,几项研究将甲状腺癌报导为在没有检出甲状腺癌的人中的相同尸检发现(autopsy finding)(达到35%)(Bondeson,L.和Ljungberg,O.,Cancer,47,319(1981),Harach,H.R.,等人,Cancer,56,531(1985),Solares,C.A.,等人,Am J Otolaryngol,26,87(2005)和Sobrinho-Simoes,M.A.,Sambade,M.C.,和Goncalves,V.,Cancer,43,1702(1979))。这表明许多人以对他们的健康威胁不大或无威胁的甲状腺癌的亚临床形式生活。
在大多数病例中已鉴定了据信为PTC引发的原因的体细胞遗传缺陷;此类遗传缺陷包括牵涉gET的酪氨酸激酶结构域和激活BRAF和RAS的突变的基因重排(Kondo,T.,Ezzat,S.,和Asa,S.L.,NatRev Cancer,6,292(2006),Tallini,G.,Endocr Pathol,13,271(2002).,Fagin,J.A.,Mol Endocrinol,16,903(2002))。虽然一些相关性研究支持特定遗传改变与侵袭性癌症行为之间的关联性(Nikiforova,M.N.,等人,J Clin Endocrinol Metab,88,5399(2003),Trovisco,V.,等人,J Pathol,202,247(2004),Garcia-Rostan,G.,等人,J Clin Oncol,21,3226(2003),Nikiforov,Y.E.,Endocr Pathol,13,3(2002)),但存在许多几乎只在侵袭性PTC中发现的事件,包括P53的突变(Fagin,J.A.,等人,J Clin Invest,91,179(1993),La Perle,K.M.,等人,AmJ Pathol,157,671(2000))、失调的β-连环蛋白信号转导(Karim,R.,等人,Pathology,36,120(2004))、细胞周期蛋白D1的上调(Khoo,M.等人,J Clin Endocrinol Metab,87,1810(2002))和促进转移、血管生成和/或细胞粘附相关基因的过表达(Klein,M.,等人,J Clin Endocrinol Metab,86,656(2001),Yu,X.M.,等人,Clin Cancer Res,11,8063(2005),Guarino,V.,等人,J ClinEndocrinol Metab,90,5270(2005),Brabant,G.,等人,Cancer Res,53,4987(1993),Scheumman,G.F.,等人,J Clin Endocrinol Metab,80,2168(1995),Maeta,H.,Ohgi,S.,和Terada,T.,Virchows Arch,438,121(2001)以及Shiomi,T.和Okada,Y.,Cancer MetastasisRev,22,145(2003))。现已证明原代PTC的侵袭性区域的特征通常在于增强的Akt活性和细胞溶质的p27定位(Ringel,M.D.,等人,Cancer Res,61,6105(2001),Vasko,V.,等人,J Med Genet,41,161(2004))。也已证明PI3激酶、Akt和p27在PTC细胞体外侵袭中的功能作用(Guarino,V.,等人,J Clin Endocrinol Metab,90,5270(2005),Vitagliano,D.,等人,Cancer Res,64,3823(2004),Motti,M.L.,等人,Am J Pathol,166,737(2005))。然而,对于具有激活BRAF突变的PTC,未发现增加的Akt活性与侵袭之间的关联性。最重要地,这些专注的研究未讨论其生物学功能和信号转导途径在侵袭性PTC细胞中被改变的更全局性的问题。
甲状腺髓样癌
在所有甲状腺癌病例中,2%至3%为髓质类型(甲状腺癌髓样癌MTC)(Hundahl,S.A.,等人,Cancer,83,2638(1998))。MTC的平均存活率低于更常见的甲状腺癌,例如MTC的83%的5年存活率对比于甲状腺乳头状癌和甲状腺滤泡状癌的90%至94%的5年存活率(Hundahl,S.A.,等人,Cancer,83,2638(1998),Bhattacharyya,N.,Otolaryngol Head Neck Surg,128,115(2003))。存活率与诊断的时期相关联,MTC中减少的存活率可部分由高比例的晚期诊断来解释(Hundahl,S.A.,等人,Cancer,83,2638(1998),Bhattacharyya,N.,Otolaryngol Head Neck Surg,128,115(2003),Modigliani,E.,等人,J Intern Med,238,363(1995))。1252个甲状腺髓样癌患者的基于群体的研究的监测、流行病学和最终结果(SEER)发现存活率变化由局部病的程度决定。例如,10年存活率范围包括从限于甲状腺的疾病的95.6%至具有远端转移的疾病的40%(Roman,S.,Lin,R.,和Sosa,J.A.,Cancer,107,2134(2006))。
MTC产生自甲状腺的滤泡旁降钙素分泌细胞。MTC以散发型和家族型形式发生并且可在C细胞增生(CCH)之后发生,虽然CCH是中年成年人中相对常见的异常。在瑞典在基于群体的研究中,26%的患MTC的患者具有家族型(Bergholm,U.,Bergstrom,R.,and Ekbom,A.,Gancer,79,132(1997))。法国国家登记处和美国临床系列都报导了更高比例的家族病例(分别地43%和44%)(Modigliani,E.,等人,JIntern Med,238,363(1995),Kebebew,E.,等人,Cancer,88,1139(2000))。家族病例通常标示着多内分泌性腺瘤形成类型2(一组由原癌基因RET中遗传的突变引起的常染色体显性遗传病症)的存在(OMIM,在线人类孟德尔遗传(online mendelian inheritance in men)(http://www.ncbi.nlm.nih.gov/sites/entrez?db=omim))。
甲状腺退行发育性癌
退行发育性肿瘤是所有甲状腺癌中最不常见(约0.5至1.5%)和最致命的。该癌症具有极低的治愈率,最好的治疗只能使10%的患者在其被诊断后存活3年。大部分患甲状腺退行发育性癌的患者自他们被诊断当天起存活不过1年。甲状腺退行发育性癌通常在更加分化的甲状腺癌或甚至甲状腺肿内产生。与乳头状癌相同,甲状腺退行发育性癌可在辐射暴露后许多年(>20)产生。在诊断时,颈部转移(癌症至颈中的淋巴结的扩散)存在于绝大部分(90%以上)的病例中。这些颈部区域中淋巴结转移的存在引起更高的复发率并且预示着高死亡率(Endocrine网,(http://www.endocrineweb.com/caana.html))。
遗传风险由人群中个体间基因组中的细微差异赋予。个体之间的基因组差异最频繁地由单核苷酸多态型(SNP)引起,虽然其它变异例如拷贝数变异(CNV)也是非常重要的。在人基因组中平均每1000个碱基对存在一个SNP。因此,包含250000个碱基对的典型人基因可包含250个不同的SNP。只有少数SNP位于外显子中并且改变由该基因编码的蛋白质的氨基酸序列。大多数SNP对基因功能可能几乎没有影响或没有影响,然而其它SNP可改变由基因编码的mRNA的转录、剪接、翻译或稳定性。人基因组中的另外的遗传多态型是由DNA的短区段或长区段的插入、缺失、易位或倒位引起的。赋予患疾病风险的遗传多态型因而可直接改变蛋白质的氨基酸序列,可增加从基因产生的蛋白质的量,或可减少由基因产生的蛋白质的量。
随着赋予患常见疾病风险的遗传多态型被发现,此类风险因素的遗传检测对于临床医学变得日益重要。实例是鉴定痴呆患者中apoE4多态型的基因携带者以进行阿尔茨海默病的鉴别诊断的载脂蛋白E测试、和对深部静脉血栓形成的易感性的因子V的Leiden测试。更重要地,在癌症的治疗中,肿瘤细胞的遗传变型的诊断对于个体患者的最适当治疗方案的选择是有用的。在乳腺癌中,雌激素受体表达或神经生长因子2型(Her2)受体酪氨酸激酶表达的遗传变异决定是否要将抗雌激素药(他莫昔芬)或抗Her2抗体(赫赛汀)整合入治疗方案。在慢性髓样白血病(CML)中,融合编码Bcr和Abl受体酪氨酸激酶的基因的费城染色体基因易位(genetic translocation)的诊出表明应当将Gleevec(STI571)(Bcr-Abl激酶的特异性抑制剂)用于治疗癌症。对于具有这样的遗传改变的CML患者,Bcr-Abl激酶的抑制导致肿瘤细胞的快速消除和白血病缓解。
对于赋予对甲状腺癌的易感性的遗传变型存在未满足的需要。基于可鉴定处于发生甲状腺癌的特定风险的个体的功用,此类变体预期对甲状腺癌的风险管理是有用的。本发明提供了此类易感性变体。
发明概述
本发明涉及甲状腺癌的风险处理的方法,其基于某些遗传变型与患甲状腺癌的风险相关的发现。因此,本发明包括通过评估已被发现与人中对甲状腺癌的易感性相关的某些标志来测定增加的对甲状腺癌的易感性或增加的患甲状腺癌的风险的方法以及测定减少的对甲状腺癌的易感性的方法。本发明的其它方面涉及评估经诊断患有甲状腺癌的个体的预后的方法,评估对甲状腺癌的治疗剂或疗法的反应的可能性的方法,以及监测经诊断患有甲状腺癌的个体的治疗进展的方法。
在一个方面,本发明涉及诊断人个体中对甲状腺癌的易感性的方法,所述方法包括确定在选自rs965513(SEQ ID NO:1)和与其处于连锁不平衡中的标志的至少一个多态型标志上的至少一个等位基因在获自该个体的核酸样品中的存在或不存在,其中所述至少一个等位基因的存在标示着对甲状腺癌症的易感性。本发明还涉及通过测定选自rs965513(SEQ ID NO:1)和与其处于连锁不平衡中的标志的至少一个多态型的至少一个等位基因的存在或不存在来测定对甲状腺癌的易感性的方法,其中所述至少一个等位基因的存在的确定标示着对甲状腺癌症的易感性。
在另一个方面中,本发明还涉及测定人个体中对甲状腺癌的易感性的方法,其包括确定至少一个多态型标志上的至少一个等位基因是否存在于获自个体的核酸样品或是否存在于来源于个体的基因型数据集中,其中所述至少一个多态型标志选自rs965513(SEQ ID NO:1)和与其处于连锁不平衡中的标志,并且其中所述至少一个等位基因的存在标示着个体的对甲状腺癌的易感性。
在另一个方面中,本发明涉及测定人个体中对甲状腺癌的易感性的方法,其包括确定至少一个多态型标志中的至少一个有风险的等位基因是否存在于来源于个体的基因型数据集中,其中所述至少一个多态型标志选自标志rs965513(SEQ ID NO:1)和与其处于连锁不平衡中的标志,并且其中所述至少一个有危险的等位基因的存在的确定标示着个体中增加的对甲状腺癌的易感性。
基因型数据集在一个实施方案中包括关于个体的标志本体和等位基因状态(对于标志的至少一个等位基因)的信息,即关于个体中标志的至少一个等位基因的本体的信息。基因型数据集可包含关于一个或多个标志,包括2个或更多个标志、3个或更多个标志、5个或更多个标志、10个或更多个标志、100个或更多个标志等的等位基因信息(关于等位基因状态的信息)。在一些实施方案中,基因型数据集包括来自个体的全基因组评估的基因型信息,其可包括数十万个标志或甚至覆盖个体的整个基因组的100万或更多个标志。
在某些实施方案中,所述至少一个多态型标志与FoxE1基因关联。
本发明的另一个方面涉及测定人个体中对甲状腺癌的易感性的方法,所述方法包括:
获得关于人个体的核酸序列数据,并且鉴定选自rs965513(SEQID NO:1)和与其处于连锁不平衡中的标志的至少一个多态型标志的至少一个等位基因,其中所述至少一个多态型标志的不同等位基因与人中对甲状腺癌的不同易感性关联,和根据核酸序列数据测定对甲状腺癌的易感性。
本发明还涉及测定人个体中对甲状腺癌的易感性的方法,所述方法包括获得关于人个体的核酸序列数据,鉴定与FoxE1基因关联的至少一个多态型标志的至少一个等位基因,其中所述至少一个多态型标志的不同等位基因与人中对甲状腺癌的不同易感性关联,以及根据核酸序列数据测定对甲状腺癌的易感性。
一般地,多态型遗传标志在核酸水平上导致可替代的序列。如果核酸标志改变由核酸编码的多肽的密码子,那么标志还将在编码的多肽的氨基酸水平上导致可替代的序列(多态标志)。核酸的多态型标志上的特定等位基因或多肽标志上的特定等位基因的本体的测定包括特定的等位基因是否存在于序列的特定位置上。鉴定标志上的特定等位基因的序列数据包括足以检测特定等位基因的序列。对于本文描述的单核苷酸多态型(SNP)或氨基酸多态型,序列数据可包括单个位置上的序列,即序列内单个位置上的核苷酸或氨基酸的本体。序列数据可任选地包括关于侧翼于多态型位点的序列的信息,所述序列在SNP的情况下覆盖单个核苷酸。
在某些实施方案中,其可用于测定至少两个多态型标志的核酸序列。在其它实施方案中,测定至少3个、至少4个或至少5个或更多个多态型标志的核酸序列。可从两个或更多个多态型标志的分析中产生单倍型信息。因此,在某些实施方案中,执行进一步骤,借助于所述步骤可基于至少两个多态型标志的序列数据产生单倍型信息。
本发明还提供了测定人个体中对甲状腺癌的易感性的方法,所述方法包括获得关于人个体的核酸序列数据,鉴定选自rs965513(SEQID NO:1)和与其处于连锁不平衡中的标志的至少两个多态型标志的这两个等位基因,基于序列数据确定至少一个单倍型的本体,以及根据单倍型数据测定对甲状腺癌的易感性。
在某些实施方案中,易感性的测定包括将核酸序列数据与包含至少一个多态型标志与对甲状腺癌的易感性之间的关联数据的数据库相比较。在一些实施方案中,数据库包括针对至少一个标志的对甲状腺癌症的易感性的至少一个风险度测量。序列数据库可以例如以查找表的形式提供,所述查找表包括标示着针对任一个或多个特定多态型的对甲状腺癌的易感性的数据。数据集还可包括标示着针对包括至少两个多态型标志的特定单倍型的易感性的数据。
获得核酸序列数据可在某些实施方案中包括从人个体获得生物样品并且分析样品的核酸中的至少一个多态型标志的序列。分析序列可包括确定至少一个多态型标志的至少一个等位基因的存在或不存在。特定易感性等位基因(例如,有风险的等位基因)的存在的确定标示着人个体中对甲状腺癌的易感性。特定易感性等位基因的不存在的确定标示着因至少一个多态型而引起的特定易感性不存在于个体中。
在一些实施方案中,获得核酸序列数据包括从既存记录获得核酸序列信息。所述既存记录可以例如是包含序列数据的计算机文件或数据库,所述序列数据是例如人个体的、至少一个多态型标志的基因型数据。
可将通过本发明的诊断方法测定的易感性报告给特定的实体。在一些实施方案中,所述至少一个实体选自下组:个体、个体的监护人、基因服务提供商、医生、医疗机构和医疗保险公司。
在本发明的某些实施方案中,易感性的测定包括将核酸序列数据与包含至少一个多态型标志与对甲状腺癌的易感性之间的关联数据的数据库相比较。在一个这样的实施方案中,所述数据库包含至少一个多态型标志的至少一个对甲状腺癌的易感性的风险度测量。在另一个实施方案中,数据库包括包含对于至少一个多态型标志的至少一个病症的至少一个风险度测量的查找表。
在某些实施方案中,获得核酸序列数据包括从人个体获得生物样品并且分析样品的核酸中的至少一个多态型标志的序列。分析至少一个多态型标志的序列可包括确定至少一个多态型标志的至少一个等位基因的存在或不存在。获得核酸序列数据还可包括从既存记录获得核酸序列信息。
本发明的某些实施方案涉及获得关于选自rs965513(SEQ ID NO:1)和与其处于连锁不平衡中的标志的至少两个多态型标志的核酸序列数据。
在本发明的某些实施方案中,至少一个多态型标志选自表2中所示的标志。在一个实施方案中,至少一个多态型标志选自SEQ IDNO:1-229中所示的标志。在一个实施方案中,至少一个标志与rs965513(SEQ ID NO:1)、rs907580(SEQ ID NO:2)和rs7024345(SEQID NO:3)的至少一个处于连锁不平衡中。在另一个实施方案中,至少一个标志与选自下组的至少一个标志处于连锁不平衡中:rs965513(SEQ ID NO:1)、rs10759944(SEQ ID NO:17)、rs907580(SEQ ID NO:2)、rs10984103(SEQ ID NO:37)、rs925487(SEQ ID NO:34)、rs7024345(SEQ ID NO:3)和rs1443434(SEQ ID NO:30)。在一个实施方案中,至少一个标志选自下组:rs965513(SEQ ID NO:1)、rs10759944(SEQID NO:17)、rs907580(SEQ ID NO:2)、rs10984103(SEQ ID NO:37)、rs925487(SEQ ID NO:34)、rs7024345(SEQ ID NO:3)和rs1443434(SEQID NO:30)。
在本发明的某些实施方案中,进行评估至少一个单倍型在个体中的频率的进一步的步骤。在此类实施方案中,单倍型可包含两个或更多个标志,包括3、4、5、6、7、8、9或10或更多个标志。在某些实施方案中,所述至少一个单倍型包含选自下组的标志:rs965513(SEQID NO:1)、rs10759944(SEQ ID NO:17)、rs907580(SEQ ID NO:2)、rs10984103(SEQ ID NO:37)、rs925487(SEQ ID NO:34)、rs7024345(SEQ ID NO:3)和rs1443434(SEQ ID NO:30)以及与其处于连锁不平衡中的标志。在某些此类实施方案中,所述至少一个单倍型代表上述标志的任一个存在于其中的特定基因组区域(例如LD区段)的基因组结构。
可将如本文中所述的赋予患甲状腺癌的风险的标志与针对甲状腺癌的其它遗传标志组合。此类标志通常不与本文中描述的标志的任一个,特别是标志rs965513(SEQ ID NO:1)、rs907580(SEQ ID NO:2)和rs7024345(SEQ ID NO:3)ID NO:6)、rs9956546(SEQ ID NO:7)、rs11912922(SEQ ID NO:8)、rs6001954(SEQ ID NO:9)处于连锁不平衡中。可通过将本文中描述的遗传风险因素与针对甲状腺癌的另外的遗传风险因素组合来实施本文中描述的方法的任一方法。
因此,在某些实施方案中,包括另外的步骤,其包括确定不与标志rs965513(SEQ ID NO:1)、rs907580(SEQ ID NO:2)和rs7024345(SEQ ID NO:3)的任一个处于连锁不平衡中的针对甲状腺癌的至少一个有风险的变体的至少一个有风险的等位基因是否存在于包含人个体的基因组DNA的样品中或来源于人个体的基因型数据集中。换句话说,基因组的其它位置中的遗传标志可用于与本发明的标志组合,以基于多个遗传变型测定甲状腺癌的总体风险。在一个实施方案中,针对甲状腺癌的所述至少一个有危险的变体不与标志rs965513(SEQ ID NO:1)处于连锁不平衡中。可基于对连锁不平衡的适当测量选择不处于连锁不平衡(不存在于LD中)的标志,如本文中进一步描述的。在某些实施方案中,不处于连锁不平衡中的标志对于与标志相关的LD测量r2具有小于0.2的值。在某些其它实施方案中,不处于LD中的标志对于与标志相关的r2具有小于0.15,包括小于0.10,小于0.05,小于0.02和小于0.01的值。涉及用于确定标志不处于LD中的其它适当的数值,包括跨越上述值的任一值的值。
在一个实施方案中,将本文中描述的一个或多个标志的评估与染色体14q13.3上的标志rs944289或与其处于连锁不平衡中的标志的评估组合,用以确定总风险度。
在某些实施方案中,确定本文中描述的多个标志以测定甲状腺癌的总体风险。因此,在某些实施方案中,包括另外的步骤,所述步骤包括确定至少两个多态型标志的每一个中的至少一个等位基因是否存在于包含人个体的基因组DNA的样品中或来源于人个体的基因型数据集中,其中在至少两个多态型标志中的至少一个等位基因的存在标示着增加的对甲状腺癌的易感性。在一个实施方案中,标志选自rs965513(SEQ ID NO:1)和与其处于连锁不平衡中的标志。在一个实施方案中,标志选自表2中所示的标志。
还可将本发明的遗传标志与非遗传信息组合以确定个体的总体风险。因此,在某些实施方案中,包括另外的步骤,其包括分析非遗传信息以进行个体的风险评估、诊断或预后。非遗传信息可以是关于个体的疾病状态的任何信息或可影响个体的甲状腺癌的总体风险的评估的其它信息。在一个实施方案中,非遗传信息选自受试者的年龄、性别、种族、社会经济地位、以前的疾病诊断、医疗史、甲状腺癌的家族史、生物化学测量和临床测量。
本发明还提供了计算机实现的方面。在一个这样的方面,本发明提供了具有用于测定个体中对甲状腺癌的易感性的计算机可执行指令的计算机可读介质(computer readable medium),该计算机可读介质包括:表示着至少一个多态型标志的数据;和存储在计算机可读介质上并且适合于用处理器执行以基于个体中所述至少一个多态型标志的至少一个等位基因的状态确定个体中对甲状腺癌的易感性的例程。
在一个实施方案中,表示至少一个多态型标志的所述数据包括标示着与所述至少一个多态型标志关联的对甲状腺癌的易感性的至少一个参数。在另一个实施方案中,表示至少一个多态型标志的所述数据包括标示着所述个体中所述至少一个等位基因标志的至少一个等位基因的等位基因的状态的数据。在另一个实施方案中,所述例程适合于接受标示着所述个体中所述至少一个等位基因标志的至少一个等位基因的等位基因状态的输入数据。在优选实施方案中,所述至少一个标志选自rs965513(SEQ ID NO:1)和与其处于连锁不平衡中的标志。在另一个优选实施方案中,所述至少一个多态型标志选自表2中所示的标志。
本发明还提供了用于测定人个体中甲状腺癌的遗传指标的装置,其包括:
处理器,
计算机可读存储器,其具有适合在处理器上执行用以就甲状腺癌分析至少一个人个体的标志和/或单倍型信息的计算机可执行指令,和
产生基于标志或单倍型信息的输出,其中所述输出包括至少一个标志或单倍型的风险度测量作为人个体的甲状腺癌的遗传指标。在一个实施方案中,计算机可读存储器包括标示着至少一个多态型标志的至少一个等位基因或至少一个单倍型在多个经诊断患有甲状腺癌的个体中的频率的数据,和标示着至少一个多态型标志的至少一个等位基因或至少一个单倍型在多个参照个体中的频率的数据,其中风险度测量基于人个体的至少一个标志和/或单倍型状态与标示着多个经诊断患有甲状腺癌的个体的至少一个标志和/或单倍型信息的频率的数据的比较。在一个实施方案中,计算机可读存储器还包括标示着与至少一个多态型标志的至少一个等位基因或至少一个单倍型关联的发生甲状腺癌的风险的数据,并且其中人个体的风险度测量基于人个体的至少一个标志和/或单倍型状态与和至少一个多态型标志的至少一个等位基因或至少一个单倍型关联的风险的比较。在另一个实施方案中,计算机可读存储器还包括标示着至少一个多态型标志的至少一个等位基因或至少一个单倍型在多个经诊断患有甲状腺癌的个体中的频率的数据,以及标示着至少一个多态型标志的至少一个等位基因或至少一个单倍型在多个参照个体中的频率的数据,并且其中发生甲状腺癌的风险度基于至少一个等位基因或单倍型在经诊断患有甲状腺癌的个体中的频率与参照个体中的频率的比较。在优选实施方案中,所述至少一个标志选自rs965513(SEQ ID NO:1)和与其处于连锁不平衡中的标志。在另一个优选实施方案中,至少一个多态型标志选自表2中所示的标志。
在另一个方面中,本发明涉及鉴定用于评估对甲状腺癌的易感性的标志的方法,所述方法包括:鉴定与rs965513(SEQ ID NO:1)、rs907580(SEQ ID NO:2)和rs7024345(SEQ ID NO:3)的至少一个处于连锁不平衡中的至少一个多态型标志;测定经诊断患有甲状腺癌的或具有对其的易感性的个体的样品的基因型状态;和测定对照个体的样品的基因型状态;其中至少一个多态型中至少一个等位基因在经诊断患有甲状腺癌或具有对其的易感性的个体中的频率与所述至少一个等位基因在对照样品中的频率相比较的显著差异标示着所述至少一个多态型对于评估对甲状腺癌的易感性是有用的。可基于甲状腺癌症患者和对照中某些多态型标志上的等位基因的计数的统计分析来评估显著性差异。在一个实施方案中,显著差异基于小于0.05的甲状腺癌患者与对照之间计算的P值。在另一个实施方案中,显著差异基于更小的计算的P值的值,例如小于0.005、0.0005或小于0.00005。在一个实施方案中,所述至少一个多态型中所述至少一个等位基因,与所述至少一个等位基因在对照样品中的频率相比较,在经诊断患有甲状腺癌或具有对其的易感性的个体中的频率的增加标示着所述至少一个多态型对于评估增加的对甲状腺癌的易感性是有用的。在另一个实施方案中,所述至少一个多态型中的所述至少一个等位基因,与所述至少一个等位基因在对照样品中的频率相比较,在经诊断患有甲状腺癌或具有对其的易感性的个体中的频率的减少标示着所述至少一个多态型对于评估减少的对甲状腺癌的易感性或抗甲状腺癌的保护作用是有用的。
本发明还涉及对取自人个体的核酸样品基因分型的方法,所述方法包括确定至少一个多态型标志的至少一个等位基因是否存在于来自个体样品的核酸样品中,其中所述至少一个标志选自rs965513(SEQID NO:1)和与其处于连锁不平衡中的标志,并且其中所述至少一个等位基因在样品中的存在的确定标示着个体中对甲状腺癌的易感性。在一个实施方案中,rs965513(SEQ ID NO:1)的等位基因C的存在的确定标示着个体中增加的对甲状腺癌的易感性。在一个实施方案中,基因分型包括使用侧翼于至少一个多态型标志的核苷酸引物对,通过聚合酶链式反应(PCR)扩增包含至少一个多态型标志的核酸的区段。在另一个实施方案中,使用选自等位基因特异性探针杂交、等位基因特异性引物延伸、等位基因特异性扩增、核酸测序、5′-外切核酸酶降解、分子信标测定、寡核苷酸连接测定、大小分析、单链构象多态型分析(single-stranded conformation analysis)以及微阵列技术的方法进行基因分型。在一个实施方案中,微阵列技术是MolecularInversion Probe阵列技术或BeadArray技术。在一个实施方案中,方法包括等位基因特异性探针杂交。在另一个实施方案中,方法包括微阵列技术。一个优选实施方案包括步骤:(1)将核酸的拷贝在用于寡核苷酸探针与所述核酸的特异性杂交的条件下与检测寡核苷酸探针和增强子寡核苷酸探针接触;其中(a)检测寡核苷酸探针在长度上为5至100个核苷酸并且与核酸的第一区段特异性杂交,所述核酸的第一区段的核苷酸序列包由SEQ ID NO:1-229的任一个给出;(b)检测寡核苷酸探针在其3′末端包含可检测标记并且在其5′末端包含猝灭部分;(c)增强子寡核苷酸在长度上为5至100个核苷酸并且与核苷酸序列的第二区段互补,所述核苷酸的第二区段相对于寡核苷酸探针为5′,以便当这两个寡核苷酸都与核酸杂交时增强子寡核苷酸相对于检测寡核苷酸探针位于3′;和(d)在第一区段与第二区段之间存在单个碱基缺口,以便当寡核苷酸探针和增强子寡核苷酸探针都与核酸杂交时,单个碱基缺口存在于寡核苷酸之间;(2)用内切核酸酶处理核酸,当检测探针与核酸杂交时,所述内切核酸酶将从检测探针的3′末端切割可检测的标记以释放游离的可检测标记;和(3)测量游离的可检测标记,其中游离的可检测标记的存在表明所述检测探针与核酸的第一区段特异性杂交,以及表明多态型位点的序列为检测探针的互补序列。
本发明的另外方面涉及就针对甲状腺癌治疗剂的反应的可能性评估个体的方法,该方法包括:确定至少一个多态型标志的至少一个等位基因在获自个体的核酸样品中或来源于个体的基因型数据集中是否存在,其中至少一个多态型标志选自rs965513(SEQ ID NO:1)和与其处于连锁不平衡中的标志,其中所述至少一个标志的所述至少一个等位基因的存在标示对治疗剂阳性反应的可能性。
本发明在另一方面涉及预测经诊断患有甲状腺癌的个体的预后的方法,该方法包括确定至少一个多态型标志的至少一个等位基因在获自个体的核酸样品中或来源于个体的基因型数据集中是否存在,其中所述至少一个多态型标志选自s965513(SEQ ID NO:1)以及与它们处于连锁不平衡中的标志,其中所述至少一个等位基因的存在标示着个体中甲状腺癌的恶化预后。
本发明的另一个方面还涉及监控正在经历甲状腺癌治疗的个体的治疗进展的方法,该方法包括确定至少一个多态型标志的至少一个等位基因在获自个体的核酸样品中或来源于个体的基因型数据集中是否存在,其中所述至少一个多态型标志选自rs965513(SEQ ID NO:1)以及与它们处于连锁不平衡中的标志,其中所述至少一个等位基因的存在标示着个体的治疗结果。在一个实施方案中,治疗是利用手术的治疗、利用放射疗法的治疗或利用药物施用的治疗。
本发明还涉及寡核苷酸探针在制备用于诊断和/或评估人个体中对甲状腺癌的易感性的试剂中的用途,其中将探针与具有SEQ IDNO:1-229的任一个中所示的核苷酸序列的核酸的区段杂交,其中所述探针在长度上可以为15至500个核苷酸。在某些实施方案中,所述探针在长度上为约16至约100个核苷酸。在某些实施方案中,所述探针在长度上为约20至约50个核苷酸。在某些其它实施方案中,所述探针在长度上为约20至约30个核苷酸。
本发明在其最广泛的意义上涉及任何亚表型的甲状腺癌症,包括甲状腺乳头状癌、甲状腺滤泡状癌、甲状腺髓样癌和甲状腺退行发育性癌。在某些实施方案中,本发明涉及某些肿瘤类型。因此,在一个实施方案中,本发明涉及甲状腺乳头状癌。在另一个实施方案中,本发明涉及甲状腺滤泡状癌。在另一个实施方案中,本发明涉及甲状腺乳头状癌和/或甲状腺滤泡状癌。在另一个实施方案中,本发明涉及甲状腺髓样癌。在另一个实施方案中,本发明涉及甲状腺退行发育性癌。其它亚表型的甲状腺癌症以及亚表型的其它组合也被涉及并且也在本发明的范围内。
本发明的某些实施方案涉及处于发作早期和/或诊断时处于早期的甲状腺癌的诊断。处于早期的经诊断的甲状腺癌可能更具侵袭性,特别是当良性小瘤在早期存在时。因此,某些实施方案涉及在发作早期和/或诊断的早期发生的甲状腺癌症。
本发明的某些实施方案还包括评估针对甲状腺癌的生物标志的定量水平。可在一些实施方案中在来自个体的生物样品中评估生物标志。在一些实施方案中,样品是血液样品。血液样品在一些实施方案中是血清样品。在优选实施方案中,生物标志选自促甲状腺激素(TSH)、甲状腺素(T4)和三碘甲腺原氨酸(thriiodothyronine)(T3)。在某些实施方案中,生物标志的异常水平的确定标示着个体中异常甲状腺功能,从而其可标示着个体中增加的患甲状腺癌的风险。异常水平可以是增加的水平或异常水平可以是降低的水平。在某些实施方案中,基于与群体中生物标志的平均水平的偏差的测定来确定异常水平。在一个实施方案中,TSH的异常水平是低于0.2mIU/L和/或高于10mIU/L的测量值。在另一个实施方案中,TSH的异常水平是低于0.3mIU/L和/或高于3.0mIU/L的测量值。在另一个实施方案中,T3(游离T3)的异常水平低于70ng/dL和/或高于205ng/dL。在另一个实施方案中,T4(游离T4)的异常水平低于0.8ng/dL和/或高于2.7ng/dL。
在本发明的方法的一些实施方案中,方法中测定的易感性是增加的易感性。在一个这样的实施方案中,增加的易感性特征在于至少1.30的相对风险度(RR)或比值比(OR)。在另一个实施方案中,增加的易感性特征在于至少1.40的相对风险度或比值比。在另一个实施方案中,增加的易感性特征在于至少1.50的相对风险度或比值比。在另一个实施方案中,增加的易感性特征在于至少1.60的相对风险度或比值比。在另一个实施方案中,增加的易感性特征在于至少1.70的相对风险度或比值比。在另外的一个实施方案中,增加的易感性特征在于至少1.80的相对风险度或比值比。在另外的一个实施方案中,增加的易感性特征在于至少1.90的相对风险度或比值比。在另一个实施方案中,增加的易感性特征在于至少2.0的相对风险度或比值比。某些其它实施方案的特征在于至少1.55、1.65、1.75、1.85和1.95的有危险的变体的相对风险度或比值比。相对危险度和/或比值比的其它数值,包括在这些上述值的任一个之间的数值也是可能的,并且这些值也在本发明的范围内。
在本发明的方法的一些实施方案中,方法中测定的易感性是减少的易感性。在一个这样的实施方案中,减少的易感性特征在于小于0.8的相对风险度(RR)或比值比(OR)。在另一个实施方案中,减少的易感性特征在于小于0.7的相对危险度或比值比。在另一个实施方案中,减少的易感性特征在于小于0.6的相对风险度或比值比。在另一个实施方案中,减少的易感性特征在于小于0.5的相对风险度或比值比。其它截断值例如小于0.69、0.68、0.67、0.66、0.65、0.64、0.63、0.62、0.61、0.60、0.59、0.58、0.57、0.56、0.55、0.54、0.53、0.52、0.51、0.50等的相对风险度或比值比也被涉及并且在本发明的范围内。
本发明还涉及试剂盒。在一个这样的方面,本发明涉及用于评估人个体中对甲状腺癌的易感性的试剂盒,所述试剂盒包括用于在个体的基因组中选择性检测选自rs965513(SEQ ID NO:1)和与其处于连锁不平衡中的标志的至少一个多态型标志的至少一个等位基因所必需的试剂,其中所述至少一个等位基因的存在标示着增加的对甲状腺癌的易感性。在另一个方面中,本发明涉及用于评估人个体中对甲状腺癌的易感性的试剂盒,所述试剂盒包括在个体的基因组中用于选择性检测至少一个多态型标志的至少一个等位基因的试剂,其中所述多态型标志选自rs965513(SEQ ID NO:1),并且其中所述至少一个等位基因的存在标示着对甲状腺癌的易感性。在一个实施方案中,所述至少一个多态型标志选自表2中所示的标志。
试剂盒试剂可在一个实施方案中包括与包含至少一个多态型标志的个体的基因组的片段杂交的至少一个连续寡核苷酸。在另一个实施方案中,试剂盒包括与获自受试者的基因组区段的相反链杂交的至少一对寡核苷酸,其中每一个寡核苷酸引物对经设计用以选择性扩增包含一个多态型的个体的基因组的片段,其中所述多态型选自表2中定义的多态型,并且其中所述片段大小为至少20个碱基对。在一个实施方案中,寡核苷酸与个体的基因组完全互补。在另一个实施方案中,试剂盒还包括用于扩增所述区段的缓冲液和酶。在另一个实施方案中,试剂还包括用于检测所述片段的标记。
在一个优选实施方案中,试剂盒包括:长度为5至100个核苷酸的检测寡核苷酸探针;长度为5至100个核苷酸的增强子寡核苷酸探针;和核酸内切酶;其中所述检测寡核苷酸探针与其核苷酸序列示于SEQ ID NO:1-229的任一个中的核酸的第一区段特异性杂交;并且其中所述检测寡核苷酸探针在其3′末端包含可检测标记并且在其5′末端包含猝灭部分;其中所述增强子寡核苷酸在长度上为5至100个核苷酸并且与核苷酸序列的第二区段互补,所述核苷酸的第二区段相对于寡核苷酸探针为5′,以便当这两个寡核苷酸都与核酸杂交时增强子寡核苷酸相对于检测寡核苷酸探针位于3′;其中在第一区段与第二区段之间存在单个碱基缺口,以便当寡核苷酸探针和增强子寡核苷酸探针都与核酸杂交时,单个碱基缺口存在于寡核苷酸之间;并且其中用内切核酸酶处理核酸,当检测探针与核酸杂交时,所述内切核酸酶将从检测探针的3′末端切割可检测的标记以释放游离的可检测标记。
根据本发明的试剂盒还可用于本发明的其它方法,包括评估之前经诊断患有甲状腺癌的个体中发生至少一个第二原发性肿瘤的风险的方法,就对甲状腺癌治疗剂的反应的可能性评估个体的方法和监控经诊断患有甲状腺癌并且被提供以疾病的治疗的个体的治疗进展的方法。
在本发明的方法、用途、装置或试剂盒的某些实施方案中,提供关于对甲状腺癌的易感性的信息的至少一个多态型标志与FoxE1基因关联。“与......关联”,在该上下文中,意指所述至少一个标志与FoxE1基因或其调控区处于连锁不平衡中。此类标志位于FoxE1基因或其调控区内,或它们可与FoxE1基因或其调控区内的至少一个标志处于连锁不平衡中,所述标志对基因的功能具有直接的影响。与FoxE1关联的易感性变体的功能性结果可在于FoxE1基因的表达水平,其转录物或通过氨基酸改变在蛋白质水平上的稳定性,如在本文中更详细地描述的。
本文中描述的与甲状腺癌关联的标志均可用于本发明的不同方面,包括本文中描述的方法、试剂盒、用途、装置、步骤。在某些实施方案中,本发明涉及与本文中定义的C09LD区段关联的标志。在某些其它实施方案中,本发明涉及表2中所示的标志(SEQ ID NO:1-229)以及与其处于连锁不平衡中的标志。在某些其它实施方案中,本发明涉及表2中所示的标志。在某些其它实施方案中,本发明涉及标志rs965513(SEQ ID NO:1)、rs10759944(SEQ ID NO:17)、rs907580(SEQ ID NO:2)、rs10984103(SEQ ID NO:37)、rs925487(SEQ ID NO:34)、rs7024345(SEQ ID NO:3)和rs1443434(SEQ ID NO:30)以及与其处于连锁不平衡中的标志。在一些其它优选实施方案中,本发明涉及选自下组的任一个标志:rs965513(SEQ ID NO:1)、rs10759944(SEQ ID NO:17)、rs907580(SEQ ID NO:2)、rs10984103(SEQ ID NO:37)、rs925487(SEQID NO:34)、rs7024345(SEQ ID NO:3)和rs1443434(SEQ ID NO:30)。
在某些实施方案中,至少一个赋予增加的患甲状腺癌的风险的标志等位基因选自下组:rs965513等位基因A、rs10759944等位基因A、rs907580等位基因A、rs10984103等位基因A、rs925487等位基因G、rs7024345等位基因A和rs1443434等位基因G。在此类实施方案中,所述等位基因(所述有风险的等位基因)的存在标示着增加的患甲状腺癌症的风险。
在本发明的某些实施方案中,使用连锁不平衡测量值r2和|D′|测定连锁不平衡,所述连锁不平衡测量值r2和|D′|提供两个遗传单元(例如,多态型标志)之间的连锁不平衡(LD)的程度的定量测量。特定标志之间的此类测量的某些数值标示着处于连锁不平衡中的标志,如本文中进一步描述的。在本发明的一个实施方案中,标志之间的连锁不平衡(即,标示着处于连锁不平衡中的标志的LD值)被定义为r2>0.1。在另一个实施方案中,连锁不平衡被定义为r2>0.2。其它实施方案可包括连锁不平衡的其它定义,例如r2>0.25,r2>0.3,r2>0.35,r2>0.4,r2>0.45,r2>0.5,r2>0.55,r2>0.6,r2>0.65,r2>0.7,r2>0.75,r2>0.8,r2>0.85,r2>0.9,r2>0.95,r2>0.96,r2>0.97,r2>0.98或r2>0.99。连锁不平衡在某些实施方案中还可被定义为|D′|>0.2,或定义为|D′|>0.3,|D′|>0.4,|D′|>0.5,|D′|>0.6,|D′|>0.7,|D′|>0.8,|D′|>0.9,|D′|>0.95,|D′|>0.98或|D′|>0.99。在某些实施方案中,连锁不平衡被定义为满足r2和|D′|的这两个标准,例如r2>0.2和|D′|>0.8。r2和|D′|的值的其它组合也是可能的并且在本发明的范围内,包括但不限于上文中所示的此类参数组的值。
应当理解,本文中描述的特征的全部组合被涉及,即使在本文中相同句子和段落中未明确地发现特征的组合。这特别地包括本文中公开的全部标志单独地或组合地用于在本文中描述的本发明的所有方面进行单个地分析或在单倍型中分析的用途。
附图概述
本发明的上述和其它目的、特征和有利方面由以下本发明的优选实施方案的更具体的描述将变得透彻。
图1提供了举例说明利用本文中描述的风险变体的计算机实现的系统的示图。
图2显示关联性结果和染色体9q22.33上的区域中LD结构的示意图。(a)来自Illumina Hap300/370芯片的SNP的单标志(菱形)关联性结果。显示了就亲缘关系修正的P值。(b)来自CEU HapMap群体的两两相关系数(r2)和基于UCSC Genome Browser,Build 36的区域中基因的相对位置。
发明详述
定义
除非另外指出,否则核酸序列以5′至3′方向从左向右书写。说明书中引用的数值范围包括界定范围的数字并且包括界定的范围内的每一个整数或任意非整数分数。除非另外定义,否则本文中使用的全部技术和科学术语具有与本发明所属领域的技术人员的通常理解相同的意义。
在本说明书中下列术语将具有所指出的意义:
如本文中所描述的“多态型标志”,有时称为“标志”意指基因组多态型位点。每个多态型标志在多态型位点上具有特定等位基因的至少2个序列差异特征。因此,多态型标志的遗传关联性(geneticassociation)意指存在与该特定多态型标志的至少一个特定等位基因的关联性。所述标志可包括基因组中发现的任何变型的任何等位基因,包括SNP、小卫星或微卫星、易位和拷贝数变化(插入、缺失、重复)。多态型标志在群体中可具有任何可测量的频率。为了定位疾病基因,具有高于5-10%的群体频率的多态型标志通常最为有用。然而,多态型标志还可具有更低的频率,例如1-5%的频率或甚至更低的频率,特别是拷贝数变异(CNV)。在本发明书中,术语将被用来包括具有任何群体频率的多态型标志。
等位基因”意指染色体上给定的基因座(位置)的核苷酸序列。因此多态型标志等位基因意指染色体上标志的组成(即,序列)。个体的基因组DNA对于任何给定的多态型标志包含2个等位基因(例如,等位基因特异性序列),代表各染色体上标志的每一个拷贝。本文中使用的核苷酸的序列码是:A=1、C=2、G=3、T=4。对于微卫星等位基因,将CEPH样品(Centre d′Etudes du Polymorphisme Humain、基因组数据库、CEPH样品1347-02)用作参照,将该样品中各微卫星的较短等位基因设置为0并且根据该参照给其它样品中所有其它等位基因编号。因此,例如等位基因1比CEPH样品中的所述较短等位基因长1bp,等位基因2比CEPH样品中的所述较短等位基因长2bp,等位基因3比CEPH样品中的所述较短等位基因长3bp等,以及等位基因-1比CEPH样品中的所述较短等位基因短1bp,等位基因-2比CEPH样品中的所述较短等位基因短2bp等。
本文中所述的序列共核苷酸错读(Sequence conucleotideambiguity),包括序列列表,是如IUPAC-IUB所提出的。此类代码与由EMBL、GenBank和PIR数据库使用的代码兼容。
  IUB代码   意义
  A   腺苷
  C   胞苷
  G   鸟嘌呤
  T   胸苷
  R   G或A
  Y   T或C
  K   G或T
  M   A或C
  S   G或C
  W   A或T
  B   C、G或T
  D   A、G或T
  H   A、C或T
  V   A、C或G
  N   A、C、G或T(任何碱基)
在群体(天然群体或合成群体,例如合成分子的文库)中可能存在超过一个序列的核苷酸位置在本文中称为“多态型位点”。
“单核苷酸多态型”或“SNP”是当基因组中特定位置上单个核苷酸在种的成员之间或个体的成对染色体之间不同时存在的DNA序列差异。大多数SNP多态型具有2个等位基因。每一个个体在该情况下对于多态型的一个等位基因是纯合的(即个体的两个染色体拷贝在该SNP位置都具有相同的核苷酸)或个体是杂合的(即个体的两个姊妹染色体包含不同的核苷酸)。本文中报导的SNP命名是指由美国国家生物技术信息中心(NCBI)分配给各独特的SNP的官方参考SNP(officialReference SNP)(rs)ID标识符。
如本文中所描述的“variant(变体、变型)”,意指与参照DNA不同的DNA的区段。如本文中所定义的“标志”或“多态型标志”,是变体。与参照不同的等位基因被称为“变体”等位基因。
微卫星”是在特定位点具有多个长度为2至8个核苷酸的小的碱基重复(例如CA重复)的多态型标志,其中重复长度的数量在一般群体中可变化。“插入和缺失(indel)”是包含通常只有数个碱基长的小的插入或缺失的多态型的一般形式。
“单倍型”,如本文中所描述的,是指特征在于沿区段排列的等位基因的特定组合的基因组DNA的区段。对于二倍体生物例如人,单倍型包含沿着区段的每一个多态型标志或基因座的等位基因对的一个成员。在某些实施方案中,单倍型可包含2个或更多个等位基因,3个或更多个等位基因,4个或更多个等位基因,或5个或更多个等位基因。单倍型在本文中依据该单倍型中标志的标志名称和等位基因来进行描述,例如,“3 rs965513”意指存在于单倍型中的标志rs7758851的3个等位基因,并且等同于“rs965513等位基因3”。此外,单倍型中等位基因代码与针对个体标志的一样,即1=A、2=C、3=G和4=T。
术语“易感性”,如本文中描述的,意指个体向某种状态(例如,某些性状、表型或疾病)发展的倾向性,或与一般个体相比较不太能抗特定状态的倾向。术语包括增加的易感性和减少的易感性。因此,本文中描述的本发明的多态型标志和/或单倍型上的特定等位基因可具有增加的对甲状腺癌的易感性(即,增加的风险)的特征,如由特定等位基因或单倍型的大于1的相对风险度(RR)或比值比(OR)表征的。可选择地,本发明的标志和/或单倍型的特征在于减少的对甲状腺癌的易感性(即,减少的风险度),如由小于1的相对风险度表征的。
术语“和/或”在本说明书中应被理解为表示包括由其连接的项的任一项或两者。换句话说,本文中的术语应当被用来表示“一个或另一个或两者”。
术语“查找表”,如本文中所描述的,是使数据的一种形式与另一种形式关联,或使数据的一种或多种形式与和数据相关的预测结果例如表型或性状关联的表。例如,查找表可包括至少一个多态型标志的等位基因数据与特定性状或表型例如特定疾病的诊断之间的关系,所述特定性状或表型是包含特定等位基因的数据的个体可能展示的或比不包含特定等位基因数据的个体更可能展示的特定性状或表型。查找表可以是多维的,即,它们可同时包括关于单个标志的多个等位基因的信息,或可包括关于多个标志的信息,并且它们还可包括其它因素,例如关于疾病诊断的明细、种族信息、生物标志、生物化学测量、治疗方法或药物等。
“计算机可读介质”是可使用商购可得的或定制的接口通过计算机读取的信息存储介质。示例性计算机可读介质包括存储器(例如,RAM、ROM、闪存等)、光存储介质(例如,CD-ROM)、磁存储介质(例如,计算机硬驱、软盘等)、穿孔卡或其它商购可得的介质。信息可在目标系统与介质之间、计算机之间或者计算机与用于储存或读取存储的信息的计算机可读介质之间传送。此类传送可以是电子的或通过其它可获得的方法例如红外连接(IR link)、无线连接等进行的。
本文中描述的“核酸样品”意指从含有核酸(DNA或RNA)的个体获得的样品。在某些实施方案即特定多态型标志和/或单倍型的检测中,核酸样品包含基因组DNA。这样的核酸样品可从含有基因组DNA的任何来源获得,包括血液样品、羊膜液样品、脑脊髓液样品或来自皮肤、肌肉、颊粘膜或结膜粘膜、胎盘、胃肠道或其它器官的组织样品。
术语“甲状腺癌治疗剂”意指可用于改善或预防与甲状腺癌相关的症状的试剂。
术语“甲状腺癌-关联核酸”,如本文中所述,意指已经发现与甲状腺癌关联的核酸。此类核酸包括但不限于本文中描述的标志和单倍型以及与其强连锁不平衡(LD)的标志和单倍型。在一个实施方案中,甲状腺癌症-关联核酸意指基因组区域例如LD区段,其经发现通过该区域或LD block内的至少一个多态型标志与甲状腺癌症的风险关联。
术语“FoxE1”或“FoxE1基因”,如本文中所描述的,意指染色体9q22.33上的以前被称为甲状腺转录因子2(TTF-2)的Forkhead因子E1基因。
术语“LD区段C09”,如本文中所描述的,意指染色体9上的连锁不平衡(LD)区段区域,其覆盖标志rs2795492和rs7855669,相应于NCBI(美国国家生物技术信息中心)Build 36(SEQ ID NO:1)的位置99,350,532至99,953,197。
通过就赋予对甲状腺癌症的易感性的遗传变型进行的全基因组搜索,本发明者已鉴定了染色体9q22.33上的包含与患甲状腺癌的风险关联的变体的区域。发现标志rs965513、rs907580和rs7024345与患甲状腺癌症的风险显著关联。对于标志rs965513(OR 1.77,P-值1.18×10-15)观察到最强的关联信号。随访分析在冰岛和来自美国和西班牙的样品都确认了该结果(对于rs965513,总体P-值为1.7×10-27)。
rs965513标志位于染色体9q22.33上的区域中,其特征在于广泛的连锁不平衡。这样的广泛的LD的结果是该区域内的许多遗传变型是有危险的变体rs965513(包括例如rs907580和rs7024345以及还有rs10759944、rs10984103、rs925487和rs1443434)的替代物,并且此类标志还用于实现本发明。本文表2中提供了因与rs965513处于LD中而实现本发明的其它SNP标志。如下文中更详细地论述的,取决于区域的基因组结构,替代标志可在大基因组区域延伸。例如,本文的表2中所示的rs965513的替代标志物覆盖约600kb的区域(在本文中也称为LD区段C09)。负责该区域中鉴定的患甲状腺癌的遗传风险的生物学结果的功能性单位原则上可位于广泛的LD的区域中的任何位置。与rs965513处于特别高的LD(例如特征在于r2和/或D′的高值的LD,如在下文中进一步描述的,例如大于0.1或0.2的r2值)中的标志最可能在此类单位中或与其处于高LD中。
叉头因子E1(FoxE1;之前称为甲状腺转录因子2(TTF-2))基因位于rs965513附近,并且在含有与rs965513处于强LD中的区域内。区域中的其它基因包括XPA、C9orf156和HEMGN(图2)。FoxE1基因调节甲有状腺特异性基因的表达(De Felice,M.,and R.Di Lauro.,Endocr.Rev.25:722-746(2004);Francis-Lang,H.,等人,Mol.Cell.Biol.12:576-588(1992);Sinclair,A.等人Eur.J.Biochem.193:311-318(1990)),并且其是甲状腺形成(Dathan,N.,R.Parlato,A.Rosica,M.De Felice,和R.Di Lauro,Dev.Dyn.224:450-456(2002))和迁移(De Felice,M.,等人Na t.Genet.19:395-398(1998))所必需的,从而处于起始甲状腺分化的转录因子和辅因子的调控网络的中心(Parlato,R.,等人Dev.Biol.276:464-475(2004))。除其它表型以外,FoxE1基因的突变引起与甲状腺发育不全关联的人综合征(Castanet,M.,等人,Hum Mol Genet11:2051-9(2002);Clifton-Bligh,R.J.,等人Nat.Genet.19:399-401(1998))。FoxE1也是甲状腺分化状态的维持所必需的,因为其是甲状腺特异性基因例如甲状腺球蛋白(Tg)(Santisteban,P.,等人,Mol.Endocrinol.6:1310-1317(1992))和甲状腺过氧化物酶(TPO)(Aza-Blanc,P.,R.Di Lauro,和P.Santisteban.Mol.Endocrinol.7:1297-1306(1993))基因的转录的激素控制所必需的。TPO基因的表达还受到TTF-1(Nkx2.1)、Pax8和核因子1(NF-1)调控。在此类因子中,FoxE1是TPO响应促甲状腺激素(TSH)和胰岛素样生长因子1(IGF-1)的主要调节剂(Aza-Blanc,P.,R.Di Lauro,和P.Santisteban.Mol.Endocrinol.7:1297-1306(1993))。FoxE1的表达以及其DNA结合和转录活性被TSH和IGF-1激活,FoxE1 DNA结合位点构成了调节甲状腺基因的特异性表达的激素反应元件(hormone response element)(Ortiz,L.,等人J.Biol.Chem.272:23334-23339(1997))。基于其参与调控甲状腺特异性基因例如甲状腺球蛋白(Tg)和甲状腺过氧化物酶(TPO)基因的转录,FOXE1也是甲状腺的分化状态的维持所必需的。这两个基因的受调控的表达是甲状腺激素三碘甲状腺原氨酸(T3)和甲状腺素(T4)的合成的中枢,因为Tg是T3和T4的前体,并且其合成由TPO催化。甲状腺激素合成和分泌控制的中心是作为主要调节剂的促甲状腺激素(TSH)。
本发明还已发现rs965513与血清中TSH、游离T4和游离T3的水平关联,这进一步验证了染色体9q22区域中的标志与甲状腺癌和甲状腺癌相关生物活性的关联性。
标志和单倍型的评估
当比较个体时,群体中的基因组序列是不相同的。相反,基因组在基因组的许多位置上展示个体之间的序列差异性。序列的此类变异通常被称为多态型,并且各基因组存在许多此类位点。例如,人基因组展示平均每500个碱基对存在序列差异。最常见的序列变体由基因组中单个碱基位置上的碱基变异组成,并且此类序列变体或多态型通常称为单核苷酸多态型(“SNP”)。此类SNP据信已在单个突变事件中发生,从而通常可能在每一个SNP位点存在2个可能的等位基因;原始等位基因和突变的等位基因。由于天然遗传漂变(genetic drift)以及可能地还有选择压力的原因,原始突变已导致特征在于其等位基因在任何给定的群体中的特定频率的多态型。在人基因组中发现许多其它类型的序列变体,包括小卫星和微卫星、以及插入、缺失和倒位(也称为拷贝数变异(CNV))。多态型微卫星在特定位点上具有多个小的碱基重复(例如CA重复,互补链上的TG),其中重复长度的数目在一般群体中是变化的。一般而言,关于多态型位点的每一个序列形式代表该多态型位点的特定等位基因。这些序列变体可全部称为在特定多态型位点上存在的特征在于所述序列变体的多态型。一般而言,多态型可在群体中包括任意数量的特定等位基因。因此在本发明的一个实施方案中,多态型的特征在于在任意给定的群体中存在2个或更多个等位基因。在另一个实施方案中,多态型的特征在于存在3个或更多个等位基因。在其它实施方案中,多态型的特征在于4个或更多个等位基因、5个或更多个等位基因、6个或更多个等位基因、7个或更多个等位基因、9个或更多个等位基因或10个或更多个等位基因。所有此类多态型可用于本发明的方法和试剂盒,从而在本发明的范围内。
由于它们的丰富性,SNP占据了人基因组中大部分序列差异。迄今为止已验证了600多万个SNP(http://www.ncbi.nlm.nih.gov/projects/SNP/snp_summary.cgi)。然而,CNV正受到日益关注。这些大尺度多态型(通常1kb或更大)解释了影响大部分装配的人基因组的多态型变异;已知的CNV覆盖15%以上的人基因组序列(Estivill,X.、Armengol,L.,PloS Genetics 3:1787-99(2007);http://projects.tcag.ca/variation/)。然而大多数此类多态型非常罕见,并且平均只影响每一个个体的一小部分基因组序列。已知CNV通过破坏基因剂量影响基因表达、表型变异和适应性,并且还已知其引起疾病(微缺失(microdeletion)和微重复(microduplication)障碍)并带来常见复杂疾病包括HIV-1感染和患肾小球肾炎的风险(Redon,R.,等人Nature 23:444-454(2006))。因此之前描述的或未知的CNV可能代表与本文中描述的与甲状腺癌关联的标志处于连锁不平衡中的病因性变体(causative variants)。用于检测CNV的方法包括比较基因组杂交(CGH)和基因分型,包括基因分型阵列的使用,如由Carter(Nature Genetics 39:S16-S21(2007))描述的。基因组变体数据库(http://projects.tcag.ca/variation/)包括关于所述CNV的位置、类型和大小的更新信息。该数据库目前包括15,000多个CNV的数据。
在一些情况下,参考多态型位点上的不同等位基因而无需选择参照等位基因。可选择地,就特定的多态型位点可参考参照序列。参照等位基因有时被称为“野生型”等位基因,其通常被选择作为第一测序的等位基因或来自“未患病的”个体(例如,未展示性状或疾病表型的个体)的等位基因。
本文中提及的SNP标志的等位基因是指它们在应用的SNP测定中存在于多态型位点上的碱基A、C、G或T。在本文中使用的SNP的等位基因代码如下:1=A、2=C、3=G、4=T。然而本领域技术人员将认识到通过测定或阅读互补DNA链,可在各情况下测量互补等位基因。因此,对于特征在于A/G多态型的多态型位点(多态型标志),使用的测定可被设计来特异性检测两个可能的碱基即A和G的一个或两个的存在。可选择地,通过设计经设计用以检测DNA模板上的互补链的测定法,可测量互补碱基T和C的存在。可根据任一DNA链(+链或-链)的测量定量地(例如,就相对风险度而言)获得相同的结果。
通常,就特定的序列参考参照序列。与参照不同的等位基因有时被称为“变体”等位基因。变体序列,如本文中使用的,意指与参照序列不同但大体上相似的序列。本文中描述多态型遗传标志上的等位基因是变体。变体可包括影响多肽的变化。当与参照核苷酸序列相比较时,序列差异可包括单个核苷酸或超过1个核苷酸的插入或缺失,导致移码;至少一个核苷酸的改变,导致编码的氨基酸的改变;至少一个核苷酸的改变,导致未成熟终止密码子的产生;数个核苷酸的缺失,导致由核苷酸编码的一个或多个氨基酸的缺失;一个或数个核苷酸的插入(例如通过不均等重组或基因转变)导致读框的编码序列中断;全部或部分序列的重复;转座(transposition);或核苷酸序列的重排。此类序列变化可改变由核酸编码的多肽。例如,如果核酸序列的变化引起移码,移码可导致编码的氨基酸的变化和/或可导致未成熟终止密码子的产生,从而引起截断的多肽的产生。可选择地,与疾病或性状关联的多态型可以是一个或多个核苷酸的同义突变(即,不导致氨基酸序列变化的变化)。这样的多态型可以例如改变剪接位点,影响mRNA的稳定性或运输,或影响编码的多肽的转录或翻译。其还可改变DNA以增加结构变化例如扩增或缺失在体细胞水平上发生的概率。由参照核苷酸序列编码的多肽为具有特定参照氨基酸序列的“参照”多肽,由变体等位基因编码的多肽被称为具有变异氨基酸序列的“变体”多肽。
单倍型意指DN A的区段,其特征在于沿区段排列的等位基因的特定组合。对于二倍体生物例如人,单倍型包括各多态型标志或基因座的成对等位基因的一个成员。在某些实施方案中,单倍型可包括2个或更多个等位基因,3个或更多个等位基因,4个或更多个等位基因,5个或更多个等位基因,各等位基因相应于沿区段的特定多态型标志。单倍型可包括不同多态型标志例如SNP与微卫星的组合,所述标志在多态型位点上具有特定的等位基因。因此单倍型包括不同遗传标志上的等位基因的组合。
检测特定多态型标志和/或单倍型可通过本领域内已知的用于检测多态型位点上的序列的方法来实现。例如,可使用用于就SNP和/或染色体微卫星标志的存在进行基因分型的标准技术,例如基于荧光的技术(例如,Chen,X.等人,Genome Res.9(5):492-98(1999);Kutyavin等人,Nucleic Acid Res.34:e128(2006)),所述技术利用PCR、LCR、嵌套式PCR和其它技术进行核酸扩增。用于SNP基因分型的可获得的特定商业方法包括但不限于TaqMan基因分型测定和SNPlex平台(Applied Biosystems)、凝胶电泳(Applied Biosystems)、质谱法(例如,来自Sequenom的MassARRAY系统)、微测序法(minisequencing method)、实时PCR、Bio-Plex系统(BioRad)、CEQ和SNPstream系统(Beckman)、阵列杂交技术(例如,AffymetrixGeneChip;Perlegen)、BeadArray技术(例如,Illumina GoldenGate和Infinium测定)、阵列标签技术(例如Parallele)和基于内切核酸酶的荧光杂交技术(Invader;Third Wave)。一些可获得的阵列平台(包括Affymetrix SNP Array 6.0和Illumina CNV370-Duo以及1MBeadChip)包括标记某些CNV的SNP。这允许通过这些平台中包括的替代SNP来检测CNV。因此,通过使用本领域技术人员可获得的此类或其它方法,可鉴定多态型标志包括微卫星、SNP或其它类型的多态型标志上的一个或多个等位基因。
在本说明书中,处于增加的对疾病的易感性(即,增加的风险度)中的个体是其中一个或多个赋予增加的对疾病的易感性(增加的风险度)的多态型标志或单倍型(即,有风险的标志等位基因或单倍型)上的至少一个特定的等位基因被鉴定的个体。有风险的标志或单倍型是赋予增加的患疾病的风险(增加的易感性)的标志或单倍型。在一个实施方案中,利用相对风险度(RR)测量与标志或单倍型相关的显著性。在另一个实施方案中,利用比值比(OR)测量与标志或单倍型相关的显著性。在另外的实施方案中,用百分数测量显著性。在一个实施方案中,显著增加的风险度测量为至少1.2的风险度(相对风险度和/或比值比),包括但不限于:至少1.2、至少1.3、至少1.4、至少1.5、至少1.6、至少1.7、至少1.8、至少1.9、至少2.0、至少2.5、至少3.0、至少4.0和至少5.0。在具体的实施方案中,至少1.2的风险度(相对风险度和/或比值比)是显著的。在另一个具体的实施方案中,至少1.3的风险度是显著的。在另外的实施方案中,至少1.4的相对风险度是显著的。在另一个另外的实施方案中,至少1.5的相对风险度是显著的。在另一个另外的实施方案中,至少1.7的风险度的显著增加是显著的。然而,还预期有其它截断值,例如,至少1.15、1.25、1.35等,并且此类截断值也在本发明的范围内。在其它实施方案中,风险度的显著增加是至少约20%,包括但不限于约25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、100%、150%、200%、300%、和500%。在一个特定的实施方案中,风险度的显著增加是至少20%。在另一个实施方案中,风险的显著增加为至少30%,至少40%、至少50%、至少60%、至少70%、至少80%、至少90%和至少100%。然而还涉及被本领域技术人员认为适合于表征本发明的其它截断值或范围,并且此类截断值或范围也在本发明的范围内。在某些实施方案中,风险度的显著增加用p值例如少于0.05,小于0.01,小于0.001,小于0.0001,小于0.00001,小于0.000001,小于0.0000001,小于0.00000001或小于0.000000001的p值来表征。
本文中描述的有风险的多态型标志或单倍型是这样的标志或单倍型,其中至少一个标志或单倍型的至少一个等位基因与其在比较组(对照)中存在的频率相比较,更频繁地存在于处于发生疾病(或性状)(患病的)的风险中或者经诊断患有所述疾病的个体中,因此标志或单倍型的存在标示着对疾病的易感性。在一个实施方案中对照组可以是群体样品,即来自一般群体的随机样品。在另一个实施方案中,对照组由一组无疾病的个体代表。在一个实施方案中这样的无疾病对照的特征在于一个或多个特定疾病相关症状的不存在。可选择地,无疾病对照是未曾被诊断患有所述疾病的对照。在另一个实施方案中,无疾病的对照组特征在于一个或多个疾病特异性风险因素的不存在。此类风险因素在一个实施方案中是至少一个环境风险因素。代表性环境因素是自然产物、矿物质或已知影响或预期影响发生特定疾病或性状的风险度的其它化学品。其它环境风险因素是与生活方式包括但不限于饮食习惯、主要栖息地的地理位置相关的风险因素和职业性风险因素。在另一个实施方案中,风险因素包括至少一个另外的遗传风险因素。
相关性的简单检验的实例可以是基于two-by-two表的Fisher精确检验。给定一列染色体,two-by-two表由两条都具有标志或单倍型的染色体、一条具有标志或单倍型但另一条不具有的染色体和两条都不具有标志或单倍型的染色体的数量构成。是本领域技术人员已知的其它关联性统计检验也被涉及并且也在本发明的范围之内。
在本发明的其它实施方案中,处于减少的对疾病或性状的易感性(即,处于减少的风险度中)中的个体是在其中鉴定了赋予减少的对于疾病或性状的易感性的一个或多个多态型标志或单倍型上的至少一个特定等位基因的个体。赋予减少的风险度的标志等位基因和/或单倍型也被认为是保护性的。一方面,保护性标志或单倍型是赋予对疾病或性状显著减少的风险度(或易感性)的标志或单倍型。在一个实施方案中,显著减少的风险度被测量为小于0.9包括但不限于小于0.9,小于0.8,小于0.7,小于0.6,小于0.5,小于0.4,小于0.3,小于0.2和小于0.1的相对风险度(或比值比)。在一个特定的实施方案中,显著减少的风险度小于0.7。在另一个实施方案中,显著减少的风险度小于0.5。在另一个实施方案中,显著减少的风险度小于0.3。在另一个实施方案中,风险度(或易感性)的减少为至少20%,包括但不限于至少25%、至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%,至少90%、至少95%和至少98%。在一个特定的实施方案中,风险度的显著减少为至少约30%。在另一个实施方案中,风险度的显著减少为至少约50%。在另一个实施方案中,风险度的显著减少为至少约70%。然而还涉及被本领域技术人员认为适合表征本发明的其它截断值或范围,这些截断值或范围也在本发明的范围内。
本领域技术人员将理解,具有两个等位基因的标志(例如SNP)存在于待研究的群体中,并且其中与对照相比较,在群体中发现一个等位基因以增加的频率存在于一群具有性状或疾病的个体中,与对照相比较,发现标志的另一个等位基因以减少的频率存在于一群具有性性或疾病的个体中。在这样的情况下,标志的一个等位基因(以增加的频率在具有性状或疾病的个体中发现的等位基因)将是有风险的等位基因,而另一个等位基因则是保护性等位基因。
与疾病或性状关联的遗传变型可单独地用于预测给定的基因型发生疾病的风险度。对于双等位基因标志例如SNP,存在3种可能的基因型:有风险的变体的纯合子、杂合子和非风险变体的携带者。与多个基因座上的变体关联的风险度可用于评估总体风险度。对于多个SNP变体,存在k个可能的基因型k=3n×2p;其中n是常染色体基因座的数目,p为性染色体(gonosomal)基因座的数目。多个风险变体的总风险度评评估算通常假定不同遗传变型的相对风险度相乘,即与特定基因型组合关联的总风险度(例如,RR或OR)是各基因座上的基因型的风险值的积。如果提供的风险度是与具有匹配的性别和种族的参照群体相比较的人或人的特定基因型的相对风险度,那么组合风险度-是基因座特异性风险度值的积-并且其还相应于与群体相比较的总风险度评估。如果人的风险度基于与非有风险的等位基因携带者的比较,那么组合风险度相应于评估,该评估将在全部基因座上具有给定的基因型组合的人与一群在任意此类基因座上不具有风险变体的个体相比较。任何有风险的变体的非携带者的组具有最低评估的风险度和具有与其本身(即,非携带者)相比较为1.0的组合风险度,但具有与所述群体相比较小于1.0的总风险度。应当指出,非携带者的群体可以是潜在的非常小的群体,特别是对于大量基因座,在该情况下,其关联性相应地很小。
乘法模型是通常非常合理地拟合复杂性状的数据的简约模型(parsimonious model)。在针对常见疾病的常见变体的背景中一直以来很少描述来有与与众不同的差异(deviations frommultiplicity),如果有报导,通常只是提示性的,因为通常需要非常大的样本容量才能证明基因座之间的统计关联性。
例如,让我们考虑其中总共8个被描述为与前列腺癌关联的变体(Gudmundsson,J.,等人,Nat Genet 39:631-7(2007);Gudmundsson,J.,等人,Nat Genet 39:977-83(2007);Yeager,M.,等人,Nat Genet39:645-49(2007);Amundadottir,L.,等人,Nat Genet 38:652-8(2006);Haiman,C.A.,等人,Nat Genet 39:638-44(2007))。这些基因座中有7个在常染色体上,剩下的基因座在X染色体上。那么理论基因型组合的总数为37×21=4374。这些基因型种类中的一些种类非常罕见,但仍然是可能的,并且应当考虑用于总风险度评估。可能的是,应用于多遗传变型的情况的乘法模型也适用于结合非遗传性风险变体的情况,假定所述遗传变型与“环境”因素不是明确相关的。换句话说,假定非遗传性与遗传性风险因素不相互作用,可在乘法模型中评估遗传性和非遗传性有风险的变体来评估组合风险度.
通过使用相同的定量方法,可评估与多个与甲状腺癌关联的变体(包括标志rs965513(SEQ ID NO:1)、rs907580(SEQ ID NO:2)和rs7024345(SEQ ID NO:3)或与其处于连锁不平衡中的标志的任一个的组合)相关的组合风险度或总风险度。
连锁不平衡
在每次减数分裂期间对于每一个染色体对平均发生一次的自然重组现象,代表了其中自然提供序列(和因此生物学功能)的变异的一个方式。已发现重组在基因组中并非随机发生;相反,重组率的频率具有巨大差异,从而导致高重组频率的小的区域(也称为重组热点)和低重组频率的更大区域(其通常被称为连锁不平衡(LD)区段)(Myers,S.等人,Biochem Soc Trans 34:526-530(2006);Jeffreys,A.J.,等人,Nature Genet 29:217-222(2001);May,C.A.,等人,NatureGenet 31:272-275(2002))。
连锁不平衡(LD)是指两个遗传成分的非随机分配。例如,如果特定遗传成分(例如,多态型标志的等位基因,或单倍型)以0.50(50%)的频率在群体中发生并且另一个成分以0.50(50%)的频率发生,假定成分是随机分配的,那么具有这两个成分的人的预测的发生频率为0.25(25%)。然而,如果发现两个成分以高于0.25的频率一起发生,那么所述成分被认为处于连锁不平衡,因为它们趋向于以比它们的独立发生频率(例如,等位基因或单倍型频率)预测的更高的比率一起遗传。粗略地讲,LD通常与两个成分之间的重组事件的频率相关。可通过在群体中对个体基因分型并且测定各等位基因或单倍型在群体中的发生频率来测定群体中等位基因或单倍型频率。对于二倍体的群体,例如,人群体,个体通常具有各遗传成分(例如,标志,单倍型或基因)的两个等位基因或等位基因组合。
已提出许多不同的量度用以评估连锁不平衡的强度(LD;综述于Devlin,B.& Risch、N.,Genomics 29:311-22(1995)中))。大多数方法获得了成对的二等位基因位点之间的关联强度。LD的两个重要成对测量是r2(有时表示为Δ2)和|D′|(Lewontin,R.,Genetics49:49-67(1964);Hill,W.G.& Robert son,A.Theor.Appl.Genet.22:226-231(1968))。这两个测量的范围是从0(无不平衡)至1(‘完全’不平衡),但它们的解释略有不同。|D′|定义的方式是:如果只有2个或3个可能的单倍型存在,其等于1,并且如果所有4个可能的单倍型都存在,其小于1。因此,小于1的|D′|的值标示历史重组可能已在两个位点之间发生(频发突变还可使|D′|小于1,但对于单核苷酸多态型(SNP),除了重组外,这通常被认为是不太可能的)。量度r2表示两个位点之间的统计相关性,如果只存在两个单倍型,则采用为1的值。
r2测量可论证是对于关联性定位(association mapping)的最相关测量,因为r2与检测易感性基因座与SNP之间的关联性所需的样本容量之间存在简单的反相关。针对成对位点确定这些量度,但对于一些应用,可能期望测定包含许多多态型位点的整个区域上的LD强度(例如,检测LD的强度在基因座之间或群体间是否不同,或在特定模型下与预期相比是否存在或多或少的LD)。测量横跨区域的LD不是直接的,但一个方法是使用在群体遗传学中发展的测量r。概略地说,r测量在特定的群体模型下产生在数据中看到的LD所需的重组次数。该类型的方法还可潜在地为确定LD数据是否提供重组热点存在的证据的问题提供统计学上严格的方法。关于本文中描述的方法,显著的r2值可以是至少0.1,例如至少0.1、0.15、0.2、0.25、0.3、0.35、0.4、0.45、0.5、0.55、0.6、0.65、0.7、0.75、0.8、0.85、0.9、0.91、0.92、0.93、0.94、0.95、0.96、0.97、0.98或至少0.99。在一个优选实施方案中,显著的r2值可以是至少0.2。可选择地,本文中描述的连锁不平衡是指特征在于|D′|的值为至少0.2,例如0.3、0.4、0.5、0.6、0.7、0.8、0.85、0.9、0.95、0.96、0.97、0.98或至少0.99的连锁不平衡。因此,连锁不平衡代表了不同标志的等位基因之间的相关性。其通过相关系数或|D′|(达到1.0的r2和达到1.0的|D′|)来测量。在某些实施方案中,根据r2和|D′|测量的值来定义连锁不平衡。在一个这样的实施方案中,显著的连锁不平衡定义为r2>0.1并且|D′|>0.8。在另一个实施方案中,显著的连锁不平衡定义为r2>0.2并且|D′|>0.9。还预期用于测定连锁不平衡的r2和|D′|的值的其它组合和排列(permutation),并且其也在本发明的范围内。如本文中所定义的,单个人群体中测定连锁不平衡,或可在包括来自超过一个人群体的个体的样品集合中测定。在本发明的一个实施方案中,如所定义的,在来自一个或多个HapMap群体(高加索人、非洲人、日本人、中国人)的样品中测定LD(http://www.hapmap.org)。在一个这样的实施方案中,在HapMap样品的CEU群体中测定LD。在另一个实施方案中,在YRI群体中测定LD。在另一个实施方案中,在来自冰岛人群体的样品中测定LD。
如果基因组中的所有多态型在群体水平上是独立的(即,无LD),那么需要在关联性分析中对它们中的每一个单个多态型进行研究,以评估所有不同多态型状态。然而,由于多态型之间的连锁不平衡,紧密连锁的多态型强相关,这减少了需要在关联性分析进行调查以观察显著关联性的多态型的数目。由于这些多态型是强相关的事实,LD的另一个因果关系是许多多态型可提供关联性信号。
已产生了覆盖基因组的基因组LD图谱,并且已有人提议将这样的LD图谱用作定位疾病-基因的构架(Risch,N.& Merkiangas,K,Science 273:1516-1517(1996);Maniatis,N.,等人,Proc Nat1 AcadSci USA 99:2228-2233(2002);Reich,DE等人,Nature 411:199-204(2001))。
现已确定可将人基因组的许多部分分区成系列离散的包含少数常见单倍型的单倍型区段;对于此类区段,连锁不平衡数据几乎未提供标示重组的证据(参见,例如,Wall.,J.D.和Pritchard,J.K.,NatureReviews Genetics 4:587-597(2003);Daly,M.等人,Nature Genet.29:229-232(2001);Gabriel,S.B.等人,Science 296:2225-2229(2002);Patil,N.等人,Science 294:1719-1723(2001);Dawson,E.等人,Nature 418:544-548(2002);Phillips,M.S.等人,NatureGenet.33:382-387(2003))。
有两个主要方法用于定义此类单倍型区段:可将区段定义为具有有限的单倍型多样性的DNA的区域(参见,例如,Daly,M.等人,NatureGenet.29:229-232(2001);Patil,N.等人,Science 294:1719-1723(2001);Dawson,E.等人,Nature 418:544-548(2002);Zhang,K.等人,Proc.Nat1.Acad.Sci.USA 99:7335-7339(2002))或定义为使用连锁不平衡鉴定的具有广泛的历史重组的过渡区之间的区域(参见,例如,Gabriel,S.B.等人,Science 296:2225-2229(2002);Phillips,M.S.等人,Nature Genet.33:382-387(2003);Wang,N.等人,Am.J.Hum.Genet.71:1227-1234(2002);Stumpf,M.P.和Goldstein,D.B.,Curr.Biol.13:1-8(2003))。更近以来,已产生了覆盖人基因组的重组率和相应热点的精细标度的图谱(Myers,S.,等人,Science 310:321-32324(2005);Myers,S.等人,BiochemSoc Trans 34:526530(2006))。图谱揭示了覆盖基因组的重组的大量变异,热点中重组率高至10-60cM/Mb,然而在间隔区(interveningregion)接近于0,其因此代表有限的单倍型多样性和高LD的区域。因此图谱可用于将单倍型区段/LD区段定义为由重组热点侧翼连接的区域。如本文中使用的,术语“单倍型区段”或“LD区段”包括由任何上述特征或由本领域技术人员用于定义此类区域的其它可选择方法定义的块。
单倍型区段(LD区段)可用于使用单个标志或包括多个标志的单倍型定位表型与单倍型状态之间的关联性。可在各单倍型区段中鉴定主要的单倍型,然后可鉴定一组“标签”SNP或标志(区分单倍型中所需的最小的SNP或标志的组)。然后可将此类标签SNP或标志用于评估来自个体的组群的样品,以鉴定表型与单倍型之间的关联性。需要时,可同时评估相邻的单倍型区段,因为在单倍型区段之间也可能存在连锁不平衡。
因此已变得显然的是,对于任何给定的观察到的与基因组中的多态型标志的关联性,基因组中另外的标志也可能显示关联性。这是LD在整个基因组中不均匀分布的自然结果,如通过重组率间的巨大差异观察到的。因此用于检测关联性的标志在某种意义上代表了与给定的疾病或性状关联的基因组区域(即,单倍型区段或LD区段)的“标签”,并且同样地对于在本发明的方法和试剂盒中的使用是非常有用的。一个或多个病因性(功能性)变体或突变可存在于经发现与疾病或性状关联的区域中。功能性变体可以是另一种SNP、串联重复多态型(例如小卫星或微卫星)、转位因子或拷贝数变异,例如倒位、缺失或插入。具有本文中描述的变体的LD中的此类变体可赋予比针对用于检测关联性的标签标志观察到的更高的相对风险度(RR)或比值比(OR)。本发明因而涉及用于检测本文中描述的与疾病的关联性的标志以及与所述标志处于连锁不平衡中的标志。因此,在本发明的某些实施方案中,与本发明的标志和/或单倍型处于LD中的标志,如本文中描述的,可用作替代标志。替代标志在一个实施方案中具有比对于最初经发现与疾病关联的标志或单倍型的更小的相对风险度(RR)和/或比值比(OR)值,如本文中所描述的。在其它实施方案中,替代标志具有比如本文中描述的针对起初被发现与疾病关联的标志起初测定的RR或OR值更大的RR或OR值。这样的实施方案的实例可以是具有起初被发现与疾病关联的更常见的变体(>10%的群体频率)处于LD中的罕见的或相对罕见(例如<10%的等位基因群体频率)的变体,例如本文中描述的变体。鉴定和使用此类标志检测本文中描述的由本发明者发现的关联性可通过本领域内技术人员熟知的常规方法进行,并因此是在本发明的范围内的。
单倍型频率的测定
可使用最大期望值算法(Dempster A.等人,J.R.Stat.Soc.B,39:1-38(1977))来评估患者和对照组中单倍型的频率。可使用可处理缺失基因型和相不确定性(uncertainty with the phase)的该算法的实现。在零假设下,假定患者和对照具有相同的频率。通过使用似然方法,检验可选择的假设,在所述假设中允许可包括本文中描述的标志的候选的有风险的单倍型在患者中具有比在对照中更高的频率,然而假定其它单倍型的频率的比率在这两个组中都相同。在两个假设下分别最大化似然性,并且将相应的1-df似然比统计量用于评估统计显著性。
为了在易感性区域内例如在LD区段内寻找有风险的和保护性标志和单倍型,研究区域内已基因分型的标志的所有可能的组合的关联性。可将合并的患者和对照组随机分成两组,大小与患者和对照的原始组相同。然后重复标志和单倍型分析,测定登记的最显著p值。可以例如重复该随机化方案100多次以建立p值的经验分布。在优选实施方案中,小于0.05的p值标示着显著的标志和/或单位型关联性。
单倍型分析
用于单倍型分析的一个一般性方法涉及使用应用于NEstedMOdels(Gretarsdottir S.,等人,Nat.Genet.35:131-38(2003))的基于似然的推断。在程序NEMO中执行该方法,所述程序允许许多多态型标志SNP和微卫星。该方法和软件经特殊设计用于其目的是鉴定赋予不同风险度的单倍型组的病例-对照研究。它也是用于研究LD结构的工具。在NEMO中,借助于EM算法,直接计算所观察到的数据的最大似然评估值、似然比和p值,将其当作缺失-数据问题来处理。
即使可赖于似然比检验(所述检验基于就所观察到的数据的直接计算的似然性,其已捕捉到由于相中的不确定性(uncertainty inphase)和缺失基因型而丢失的信息)提供有效的p值,但了解有多少信息因信息不完全而已被丢失仍然是有益的。用于单倍型分析的信息测量在Nicolae和Kong(Technical Report 537,Department ofStatistics,University of Statistics,University of Chicago;Biometrics,60(2):368-75(2004))中被描述为被确定用于连锁分析的信息测量的自然扩展,并且在NEMO中执行。
对于单个标志与疾病的关联性,可使用Fisher精确检验计算每一个单个等位基因的双侧p值。通常,除非明确指出,否则提供未就多重比较进行调整的所有p值。所提供的频率(微卫星、SNP和单倍型的)是相对于携带者频率的等位基因频率。为了最小化因被作为家族招募至研究的患者的亲缘关系而引起的偏差,可从患者名录中除去一级和二级亲属。此外,可通过扩展之前描述的用于亲缘关系(sibship)的方差调整法(variance adjustment procedure)(Risch,N.& Teng,J.Genome Res.,8:1273-1288(1998))来进行患者间亲缘关系的校正,以使其可用于一般家族关系,并且提供经调整的和未调整的用于比较的p值。基因组控制的方法(Devlin,B.& Roeder,K.Biometrics55:997(1999))还可用于调整个体的亲缘关系和可能的分层(stratification)。如所预期的,差异通常非常小。为了评估就多重检验校正的单标志关联性的显著性,我们可使用相同的基因型数据进行随机化检验。可随机化患者和对照的队列,并且重新进行关联性分析多次(例如,达到500,000次),并且p值是产生低于或等于我们使用原始患者和对照队列观察到的p值的针对一些标志等位基因的p值的重复的分数(fraction of replication)。
对于单标志分析和单倍型分析,假定乘法模型(单倍型相对风险度模型)(Terwilliger,J.D.& Ott,J.,Hum.Hered.42:337-46(1992)和Falk,C.T.& Rubinstein,P,Ann.Hum.Genet.51(Pt 3):227-33(1987))来计算相对风险度(RR)和人群归因风险度(PAR),即人携带的两个等位基因/单倍型的风险度相乘。例如,如果RR是A相对于a的风险度,那么人纯合子AA的风险度将是杂合子Aa的RR倍以及是纯合子aa的RR2倍。所述乘法模型具有简化分析和计算的良好性质-单倍型在患病群体中以及对照群体中是不相关的,即处于Hardy-Weinberg平衡中。结果,患病和对照的单倍型计数各自具有多项分布,但在备选假设说中具有不同的单倍型频率。特别地,对于两介单倍型hi和hj、风险度(hi)/风险度(hj)=(fi/pi)/(fj/pj)、其中f和p分别表示患病群体和对照群体中的频率。虽然如果实际模型不是乘性的存在一些效力损失,但除了极端情况外,损失倾向于轻微。最重要的是,p值总是有效的,因为它们是根据零假设计算的。
在一个关联性研究中检测到的关联性信息可在第二队列(理想地来自相同或不同种族的不同群体(例如,相同国家的不同地区或不同国家))中重复。重复研究的有利方面是重复研究中进行的检验的次数,从而使用的统计测量的严格度更低。例如,对于使用300,000个SNP进行的对特定疾病或性状的易感性变体的全基因组搜索,可对进行的300,000个检验(每一个SNP一个检验)进行校正。因为阵列上通常使用的许多SNP是相关的(即,处于LD中),所以它们不是独立的。因此,校正是保守的。然而,应用该校正因子要求在对来自单个研究队列的结果应用该保守检验时观察到小于0.05/300,000=1.7×10-7的P值(在小于该P值的情况下,信号才被认为是显著的)。很显然,具有小于该保守阈值的P值的全基因组关联性研究中发现的信号是真实遗传效应的测量,并且从统计观点来看在额外的队列中重复不是必需的。然而,因为所述校正因子依赖于进行的统计检验的次数,因此如果来自初步研究的一个信号(一个SNP)在第二病例-对照队列中重复,那么关于显著性的适当的统计检验是针对单一统计检验的统计检验,即P值小于0.05。一个或甚至几个另外的病例-对照队列中的重复研究具有额外的有利方面:在另外的群体中提供关联性信号的评估,从而同时确认初步发现和评估一般人群中被测试的遗传变型的总显著性。
还可组合来自几个病例-对照队列的结果以提供基础效应的总体评估。通常用于组合多个遗传关联性分析的结果的方法是Mantel-Haenszel模型(Mantel和Haenszel,J Nat1 Cancer Inst22:719-48(1959))。该模型经设计用以处理其中组合不同群体的关联性结果的情况,每一个群体可能地具有不同的遗传变型群体频率。所述模型组合假定变体产生患疾病风险的效应(由OR或RR测量的)在所有群体中相同而变体的频率在群体之间可以不同的结果。组合来自几个群体的结果具有额外的有利方面:检测真实的基础关联性信号的总体功效因由组合的队列提供的增加的统计效力而得到增加。此外,当组合来自多个队列的结果时,例如因病例和对照或人群分层(population stratification)的不对等匹配而导致的单个研究的任何缺陷将倾向于抵消,从而再次提供了真实基础遗传效应的更好的评估。
风险度的评估和诊断
在任何给定的群体中,存在发生疾病或性状的绝对风险度(定义为个人在指定的时期内发生特定疾病或性状的概率)。例如,妇女患乳腺癌的终生绝对风险度为1/9。即,每9个妇女中有1个妇女将在其生命中的某个点上发生乳腺癌。通常通过观察非常大量的人而非观察特定个体来测量风险度。风险度通常以绝对风险度(AR)和相对风险度(RR)表示。相对风险度用于比较与两个变体相关的风险度或两个不同组的人的风险度。例如,其可用于将一组具有特定基因型的人与另一组具有不同基因型的人相比较。对于疾病,为2的相对风险度表示一个组与另一个组相比较具有2倍的发生疾病的概率。所示的风险度通常是与具有匹配的性别和种族的群体相比较的针对人或人的特定基因型的相对风险度。可以以简单的方式比较相同性别和种族的2个个体的风险度。例如,如果,与群体相比较,第一个体具有1.5的相对风险度并且第二个体具有0.5的相对风险度,那么,与第二个体相比较第一个体的风险是1.5/0.5=3。
风险度计算
计算总体遗传风险度的模型的建立包括两个步骤:i)将单个遗传变型的比值比转换成相对风险度和ii)将来自不同基因座中的多个变体的风险度组合成单个相对风险度值。
从比值比推导出风险度
迄今为止已在权威杂志中出版的关于复杂疾病的大多数基因发现研究因其回顾性设置(retrospective setup)而采用病例-对照设计。这些研究获取了经选择的病例(具有特定疾病状况的人)和对照组的个体的样品并且进行了基因分型。兴趣在于病例和对照中的频率显著不同的遗传变型(等位基因)。
结果通常报告为比值比,其为在患病组中的风险变体(携带者)比非风险变体(非携带者)的分数(概率)与对照组中的所述分数之间的比率,即以患病状况的条件概率表示:
OR=(Pr(c|A)/Pr(nc|A))/(Pr(c|C)/Pr(nc|C))
然而,有时我们的兴趣在于疾病的绝对风险度,即携带风险变体的那些患病个体的分数或换句话说患病的概率。该数量不能在病例-对照研究中直接测量,部分因为病例比对照的比率通常与一般群体中的该比率不同。然而,在某些假定下,我们可评估来自比值比的风险度。
众所周知在罕见疾病的假定下,患疾病的相对风险度可用比值比来概略估算。然而该假定可能不适用于许多常见病。结果仍然可从上文表达的比值比评估一个基因型变体相对于另一个的风险度。在其中对照是来自与病例相同的群体(包括患病的人而非严格未患病的个体)的随机样品的随机群体对照的假定下,计算特别简单。为了增加样本容量和功效,许多大型全基因组关联和重复研究使用对照,所述对照既不与病例年龄匹配,也未对他们进行细致检查以确保他们在研究的时候不具有疾病。因此,虽然不很确切,但他们通常接近来自一般群体的随机样品。要指出的是,极少预期该假定得到完全满足,但风险度评估通常强有力地缓和源自该假定的偏差。
计算显示对于显性和隐性模型(其中我们将风险变体携带者表示为“c”以及将非携带者表示为“nc”),个体的比值比与这些变体之间的风险度比率相等:
OR=Pr(A|c)/Pr(A|nc)=r
同样地对于乘法模型,其中风险度是与两个等位基因的拷贝关联的风险度的乘积,等位基因的比值比等于风险度因子:
OR=Pr(A|aa)/Pr(A|ab)=Pr(A|ab)/Pr(A|bb)=r
此处“a”表示风险性等位基因,“b”表示非风险性等位基因。因此因子“r”是等位基因类型之间的相对风险度。
在过去几年中公布了报导与复杂疾病关联的常见变体的许多研究,发现乘法模型充分地总结了所述效应并且通常提供远优于备选模型例如显性和隐性模型的与数据的拟合。
相对于平均群体风险度的风险度
最方便的是提供相对于平均群体的遗传变型的风险度,因为其使得与基线群体风险度相比,更容易表达发生疾病的终生风险。例如,在乘法模型中,我们可将变体“aa”的相对群体风险度计算为:
RR(aa)=Pr(A|aa)/Pr(A)=(Pr(A|aa)/Pr(A|bb))/(Pr(A)/Pr(A|bb))=r2/(Pr(aa)r2+Pr(ab)r+Pr(bb))=r2/(p2r2+2pqr+q2)=r2/R
此处“p”和“q”分别是“a”和“b”的等位基因频率。同样地,我们得出RR(ab)=r/R和RR(bb)=1/R。可从报导比值比的出版物和从HapMap数据库获得等位基因的频率估值。请注意,在其中我们不知道个体的基因型的情况下,该检验或标志的相对遗传风险度简单地等于1。
例如,在2型糖尿病的风险中,染色体10上TCF7L2基因中疾病的关联标志rs7903146的等位基因T在非西班牙白种人人群中具有为1.37的等位基因OR和约0.28的频率(p)。基于乘法模型评估与基因型CC相比较的基因型相对风险度。
对于TT,其为1.37×1.37=1.88;对于CT,其简单地为OR 1.37,以及对于CC,根据定义其为1.0。
等位基因C的频率为q=1-p=1-0.28=0.72。在该标志上3个可能的基因型中的每一个的群体频率为:
Pr(TT)=p2=0.08,Pr(CT)=2pq=0.40,和Pr(CC)=q2=0.52
相对于基因CC(其经定义具有为1的风险度)的平均群体风险度为:
R=0.08×1.88+0.40×1.37+0.52×1=1.22
因此,针对在该标志上具有一个下列基因型的个体的相对于一般群体的风险度(RR)为:
RR(TT)=1.88/1.22=1.54,RR(CT)=1.37/1.22=1.12,RR(CC)=1/1.22=0.82。
组合多个标志的风险度
除非另外指出,当将许多SNP变体的基因型用于评估个体的风险度时,可采用用于风险度的乘法模型。这意味着将相对于群体的组合遗传风险度计算为个体标志(例如两个标志g1和g2)的相应估值的乘积:
RR(g1,g2)=RR(g1)RR(g2)
基本假设是风险因子独立地存在和表现,即联合条件概率可表示为乘积:
Pr(A|g1,g2)=Pr(A|g1)Pr(A|g2)/Pr(A)和Pr(g1,g2)=Pr(g1)Pr(g2)
对该假定的明显违背是在基因组上紧密间隔的标志,即处于连锁不平衡之中,从而使两个或更多个风险性等位基因的共发生是相关的。在这样的情况下,我们可使用所谓的建立单倍型模型,其中比值比是为相关SNP的所有等位基因组合定义的。
如在大多数其中使用统计模型的情况中一样,应用的模型预期不是完全真实的,因为其不基于基础生物物理学模型。然而,乘法模型至目前为止经发现充分地拟合数据,即对于许多已针对其发现许多风险变体的常见疾病未检测到显著的偏差。
例如,在与特定疾病关联的4个与2型糖尿病的风险关联的标志上具有下列基因型以及在各标志上相对于群体的风险度的个体:
染色体3  PPARG   CC  计算的风险度:RR(CC)=1.03
染色体6  CDKAL1  GG  计算的风险度:RR(GG)=1.30
染色体9  CDKN2A  AG  计算的风险度:RR(AG)=0.88
染色体11 TCF7L2  TT  计算的风险度:RR(TT)=1.54
该个体的相对于群体的组合总体风险度为:1.03×1.30×0.88×1.54=1.81。
调整的终生风险度
通过将相对于群体的总体遗传风险度与相同种族和性别的一般群体中的以及个体的地理起源的地区中的疾病的平均终生风险度相乘推导出个体的终身风险度。由于当确定一般群体风险度时通常有数个流行病学研究可供选择,因此我们挑选对于已针对遗传变型使用的疾病确定具有良好功效的研究。
例如,对于2型糖尿病,如果相对于群体,对于白人群体的总体遗传风险度为1.8,并且如果他的人口统计的个体的2型糖尿病的平均终身风险度为20%,那么对于他的经调整的终身风险度为20%×1.8=36%。
请注意,因为群体的平均RR是1,所以该乘法模型提供了相同的疾病的平均调整终身风险度。此外,因为实际终身风险度不能超过100%,因此对遗传性RR必须存在上限。
甲状腺癌的风险评估
如本文中所描述的,发现某些多态型标志和含有此类标志的单倍型对于甲状腺癌的风险评估是有用的。风险评估可包括将标志用于确定对甲状腺癌的易感性。发现某些多态型标志的特定等位基因的频率在患有甲状腺癌的个体中比在不具有甲状腺癌的诊断的个体中更高。因此,这些标志的等位基因对于检测个体的甲状腺癌或对甲状腺癌的易感性具有预测价值。与本文中描述的有风险的变体(或保护性变体)处于连锁不平衡中的标签标志可用作此类标志(和/或单倍型)的替代物。此类替代标志可位于特定单倍型区段或LD区段中。此类替代标志有时还可位于此类单倍型区段或LD区段的物理边界的外部,在LD区段/单倍型区段的附近,但可能也位于更远的基因组位置。
如果特定的基因组区域(例如,基因)处于功能关系中,那么长距离LD可以例如发生。例如,如果两个基因编码在共有代谢途径中起作用的蛋白质,那么一个基因中的特定变体可对针对另一个基因观察到的变体具有直接影响。让我们考虑其中一个基因的变体导致基因产物的增加的表达的情况。为了抵消该效应和保持特定途径的总通量(flux),该变体可能已导致第二基因上的一个(或多个)赋予该基因降低的表达水平的变体的选择。这两个基因可位于不同的基因组位置,可能在不同的染色体上,但基因内的变体处于明显的LD中,并非因为它们的共有物理位置在高LD的区域中,而是由于进化动力的原因。此类LD也被涉及并且在本发明的范围内。本领域技术人员将理解功能性基因-基因相互作用的许多其它场景也是可能的,并且此处论述的特定实例只代表一个这样的可能场景。
具有等于1的r2的值的标志是有风险的变体的完美替代物,即一个标志的基因型完全预测另一个标志的基因型。具有小于1的r2的值的标志也可以是有风险的变体的替代物,或可选择地代表具有与有风险的变体一样高或可能甚至更高的相对风险度的变体。鉴定的有风险的变体本身可以不是功能性变体,但在该情况下与真正的功能性变体处于连锁不平衡中。功能性变体可以例如是串联重复,例如小卫星或微卫星、转位因子(例如,Alu元件)或结构变化例如缺失、插入或倒位(有时也称为拷贝数变异或CNV)。本发明包括对本文中公开的标志的此类替代标志的评估。如技术人员所熟知的,在公共数据中注释、定位和列出此类标志,或者此类标志可以另选地通过在一组个体中测序由本发明的标志鉴定的区域或部分区域并鉴定所得的序列组中的多态型而容易地鉴定。结果,本领域技术人员可容易地并且在无需过度实验的情况下对与本文中描述的标志和/或单倍型处于连锁不平衡中的替代标志进行基因分型。被检测到的有风险的变体的处于LD中的标签或替代标志对于检测个体中与疾病或对疾病的易感性的关联性还具有预测价值。与本发明的标志处于LD中的这些标签或替代标志还可包括在单倍型间不同的其它标志,因为此类标志类似地对于检测对特定疾病的易感性具有预测价值。
在某些实施方案中,本发明可以通过就本文中描述的与甲状腺癌关联的变体的存在评估包含个体的基因组DNA的样品来实施本发明。此类评估通常包括步骤:使用本领域技术人员熟知的和本文中进一步描述的方法检测至少一个多态型标志上的至少一个等位基因是否存在,和基于此类评估的结果确定样品所源自的个体是处于增加的还是减少的患甲状腺癌的风险(增加或减少的易感性)中。在某些实施方案中,可通过获取特定人个体的鉴定至少一个多态型标志的至少一个等位基因的核酸序列数据来进行多态型标志的特定等位基因的检测。至少一个标志的不同等位基因与人对疾病的不同易感性相关联。获取核酸序列数据可包括单个核苷酸位置上的核酸序列,所述核酸序列足以鉴定SNP上的等位基因。核酸序列数据还可包括任何其它数量的核苷酸位置上的序列,特别是包含多个核苷酸位置的遗传标志的序列,并且可以是2至数十万,可能甚至数百万个核苷酸的任何位置(特别是在拷贝数变异(CNV)的情况下)。
在某些实施方案中,可利用数据集实施本发明,所述数据集包括关于至少一个与疾病关联的多态型标志(或与至少一个与疾病关联的标志处于连锁不平衡中的标志)的基因型状况的信息。换句话说,可就由发明者所显示的与疾病关联的某些多态型标志上的某些有风险的等位基因是否存在而查询数据集,所述数据集包括关于此类遗传状态(genetic status)的信息,例如以在某个多态型标志或多个标志上的序列数据、基因型计数(例如,是否存在某些有风险的等位基因的标示)的形式存在的信息或一个或多个标志的实际基因型。与疾病关联的变体(例如,标志等位基因)的阳性结果标示着作为数据集来源的个体处于增加的对疾病的易感性(增加的风险度)中。
在本发明的某些实施方案中,通过将多态型标志的基因型数据与包含多态型的至少一个等位基因与疾病之间的关联性的查找表参比而将所述多态型标志与疾病关联。在一些实施方案中,所述表包含一个多态型的关联。在其它实施方案中,所述表包括多个多态型的关联。在这两种情形下,通过参考给出标志与疾病之间的关联性标示的查找表,可以鉴定作为样品来源的个体患疾病的风险或对疾病的易感性。在一些实施方案中,关联性被报告为统计测量。统计测量可报告为风险度测量,例如相对风险度(RR)、绝对风险度(AR)或比值比(OR)。
本文中描述的标志,例如表2中所示的标志,例如rs965513(SEQID NO:1)可单独地或组合地用于风险评估和诊断目的。还可将基于本文中描述的标志的甲状腺癌风险的结果与甲状腺癌的其它遗传标志或风险因子的数据组合,以确定总体风险度。因此,即使在其中由单个标志产生的风险度的增加相对适度例如10-30%量级的情况下,关联性可具有显著的影响。因此,相对常见的变体可对总体风险度具有大量贡献(人群归因风险度较高),或标志的组合可用于确定基于标志的组合风险度处于发生疾病的显著的组合风险中的个体的组群。
因此,在本发明的某些实施方案中,将多个变体(遗传标志、生物标志和/或单倍型)用于总风险度的评估。这些变体在一个实施方案选自本文中公开的变体。其它实施方案包括将本发明的变体与已知用于诊断针对甲状腺癌的易感性的其它变体相组合的用途。在此类实施方案中,确定个体中多个标志和/或单倍型的基因型状况,和与关联变体的群体频率相比较的个体状况,或与在临床上健康的受试者例如年龄匹配和性别匹配的受试者中的变体频率相比较。随后可将本领域内已知的方法,例如多变量分析(multivariate analyses)或联合风险分析或本领域技术人员已知的其它方法,用于测定基于多个基因座上的基因型状况赋予的总体风险度。随后可将基于此类分析的风险度的评估用于本发明的方法、用途和试剂盒,如本文中所描述的。
对于针对甲状腺癌有危险的变体是纯合的个体处于特别高的发生甲状腺癌的风险中。这是归因于有危险的等位基因的剂量依赖性效应,如此可将纯合携带者的风险通常评估为每一个等位基因拷贝的风险的平方。在一个这样的实施方案中,对于标志rs965513的等位基因A是纯合的个体与一般群体和/或rs965513-A风险等位基因的非携带者相比较处于特别高的发生甲状腺癌的风险中。
如上文中所述,人基因组的单倍型区段结构具有效应:与最初与疾病或性状关联的变体处于连锁不平衡中的大量变体(标志和/或单倍型)可用作评估与所述疾病或性状的关联性的替代标志。此类替代标志的数量将取决于因素例如区域中历史重组、区域中突变频率(即,区域中多态型位点或标志的数量)和区域中LD的程度(LD区段的大小)。此类标志通常位于如使用本文中描述的方法或通过本领域技术人员已知的其它方法确定的所述LD区段或单倍型区段的物理边界内。然而,有时发现标志和单倍型关联性延伸至所确定的单倍型区段的物理边界之外,如上文中所论述的。此类标志和/或单倍型在这些情况下还可用作物理上存在于所确定的单倍型区段内的标志和/或单倍型的替代标志和/单倍型。作为结果,与本发明的标志和单倍型处于LD(通常特征在于大于0.1的标志间r2,例如大于0.2的r2,包括大于0.3的r2,还包括以大于0.4的r2的值相关的标志)中的标志和单倍型也在本发明的范围内,即使它们在物理上位于所确定的单倍型区段的边界之外。这包括本文中描述的标志(例如,rs965513),但还可包括与rs965513处于强LD(例如,特征在于大于0.1或0.2的r2和/或|D′|>0.8)中的其它标志(例如,表2中所示的标志)。
对于本文中描述的SNP标志,发现与经发现在患者中过量的等位基因(有风险的等位基因)相对的等位基因以减少的频率存在于甲状腺癌中。此类标志以及LD中的和/或包含此类标志的单倍型从而对于甲状腺癌是保护性的,即它们赋予携带此类标志和/或单位型的个体减少的发生甲状腺癌的风险或对其的易感性。
本发明的某些变体,包括某些单倍型在一些情况下包括不同遗传标志例如SNP和微卫星的组合。可通过本领域内已知的和/或本文中描述的用于检测多态型位点的序列的方法来实现检测单倍型。此外,某些单倍型或标志的组与疾病表型之间的关联性可使用标准技术来确认。关联性的简单检验的代表性实例可以是基于two by two表的Fisher精确性检验。
在特定的实施方案中,经发现与甲状腺癌关联的标志等位基因或单倍型(例如,表1中所列的标志等位基因)是这样的标志等位基因或单倍型,其中所述标志等位基因或单倍型与其在健康个体(对照)中或从群体随机选择的个体中存在的频率相比较更频繁地存在于处于患甲状腺癌(患病的)的风险中的个体中,其中所述标志等位基因或单倍型的存在标示着对甲状腺癌的易感性。在其它实施方案中,与本文中显示的与甲状腺癌关联的一个或多个标志(例如,表1中所列的标志等位基因)处于连锁不平衡中的有风险的标志是标签标志,与其在健康个体(对照)中或从群体随机选择的个体中存在的频率相比较其更频繁地存在于处于患甲状腺癌(患病的)的风险中的个体中,其中标签标志的存在标示着对甲状腺癌的易感性。在其它实施方案中,与经发现与甲状腺癌关联的一个或多个标志处于连锁不平衡中的有风险的等位基因(即,赋予增加的易感性)是包括一个或多个等位基因的标志,所述标志与其在健康个体(对照)中存在的频率相比较其更频繁地存在于处于患甲状腺癌(患病的)的风险中的个体中,其中所述标志的存在标示着增加的对甲状腺癌症的易感性。
研究群体
在一般意义上,本发明的方法和试剂盒可用于包含来自任何来源或来自任何个体的核酸材料(DNA或RNA)的样品,或用于来源于此类样品的基因型数据。在优选实施方案中,个体是人个体。个体可以是成年人、儿童或胎儿。核酸来源可以是包含核酸材料的任何样品(包括生物样品),或包含由其衍生的核酸材料的样品。本发明还提供作为靶群体的成员的个体的标志和/或单倍型的评估。这样的靶群体在一个实施方案中是一群或一组个体,基于因素例如其它遗传因素、生物标志、生物物理参数、甲状腺癌或相关疾病的历史、以前的甲状腺癌诊断、甲状腺癌的家族史,所述个体处于发生甲状腺癌的风险中。靶群体在某些实施方案中是具有已知的辐射暴露(例如因诊断或治疗药剂、来自核爆炸的放射性沉降物、由于核发电厂的放射性暴露或其它放射源等而引起的辐射暴露)的群体或组群。
本发明提供了包括来自特定年龄亚组例如40岁以上、45岁以上或50、55、60、65、70、75、80或85岁以上的年龄亚组的个体的实施方案。本发明的其它实施方案涉及其它年龄组,例如年龄小于85岁,例如小于80岁、小于75岁或小于70、65、60、55、50、45、40、35岁或30岁的个体。其它实施方案涉及具有在上述任何年龄范围内的甲状腺癌发病年龄的个体。还预期年龄的范围在某些实施方案中是相关的,例如在超过45岁但小于60岁时发病的年龄。然而还涉及其它年龄范围,包括由上列的年龄值括入的所有年龄范围。本发明还涉及任一性别男性或女性的个体。
冰岛人群体是北欧祖先的高加索人群。最近几年已公开了报导冰岛人群体中的遗传连锁和关联性的结果的大量研究。许多此类研究显示最初在冰岛人群体中鉴定为与特定疾病关联的变体在其它人群中的重复(Styrkarsdottir,U.,等人N Engl J Med Apr 29 2008(在印刷之前的电子版);Thorgeirsson,T.,等人Nature 452:638-42(2008);Gudmundsson,J.,等人Nat Genet.40:281-3(2008);Stacey,S.N.,等人,Nat Genet.39:865-69(2007);Helgadottir、A.,等人,Science 316:1491-93(2007);Steinthorsdottir,V.,等人,NatGenet.39:770-75(2007);Gudmundsson,J.,等人,Nat Genet.39:631-37(2007);Frayling,TM、Nature Reviews Genet 8:657-662(2007);Amundadottir,L.T.,等人,Nat Genet.38:652-58(2006);Grant,S.F.,等人,Nat Genet.38:320-23(2006))。因此,冰岛人群体中的遗传发现通常在其它群体包括来自非洲和亚洲的群体中重复。
因此相信经发现与甲状腺癌关联的本文中描述的标志将在其它人群体中显示相似的关联性。从而还涉及包括单个人群体的特定实施方案并且其在本发明的范围内。此类实施方案涉及人受试者,所述人受试者来自一个或多个人群体,包括但不限于高加索人群体、欧洲人群体、美国人群体、欧亚人群体、亚洲人群体、中亚/南亚人群体、东亚人群体、中东人群本、非洲人群体、西班牙人群体和大洋洲人群体。欧洲人群体包括但不限于瑞典人、挪威人、芬兰人、俄国人、丹麦人、冰岛人、爱尔兰人、塞尔特人、英国人、苏格兰人、荷兰人、比利时人、法国人、德国人、西班牙人、葡萄牙人、意大利人、波兰人、保加利亚人、斯拉夫人、塞尔维亚人、波斯尼亚人、捷克人、希腊人和土耳其人群体。在某些实施方案中,本发明涉及高加索人来源的个体。
还可在其它实施方案中在特定的人群体中实施本发明,所述群体包括班图人、Mandenk、优鲁巴人、San、姆布蒂俾格米人、奥克尼群岛人、Adygel、俄罗斯人、撒丁岛人、他斯卡尼人、莫扎比特人、贝多因人、Druze、巴勒斯坦人、Balochi、布拉灰人、莫克兰人、信德人、阿富汗人,布鲁肖人、哈扎拉人、维吾尔族人、Kalash、汉族人、傣族人(Dai)、达斡尔人、Hezhen、拉祜族、苗族人(Miao)、鄂伦春族人、She、土家族人(Tujia)、Tu、Xibo、彝族人、蒙古人、纳西族人、柬埔寨人、日本人、雅库特人、美拉尼西亚人、巴布亚人、Karitianan、Surui、哥伦比亚人、玛雅人和皮玛人。
在某些实施方案中,本发明涉及包括非洲黑人祖先的群体例如包括非洲人后裔或系谱的群体。非洲黑人祖先可通过自我报告为非洲裔美国人、非洲裔美国人、美国黑人(Black American)、为黑色人种的成员或为黑种人(negro race)的成员来确定。例如,非洲裔美国人或美国黑人是生活在北美并且起源于非洲的任何黑色人种组群的那些人。在另一个实例中,自我报告的非洲黑人始祖的人可具有至少一个非洲黑人始祖的父母或至少一个非洲黑人始祖的祖父母。在另一个实施方案中,本发明涉及高加索人起源的个体。
个体受试者中的种族贡献还可通过遗传分析来测定。可使用非连锁微卫星标志例如Smith等人(Am J Hum Genet 74,1001-13(2004))中展示的标志来进行祖先的遗传分析。
在某些实施方案中,本发明涉及在特定群体中鉴定的标志和/或单倍型,如上文中所述。本领域技术人员将理解连锁不平衡(LD)的测量当用于不同群体中时可产生不同结果。这归因于不同人群体的不同群体历史以及可能已导致特定基因组区域中LD的差异的差异选择压力。本领域技术人员还熟知某些标志例如SNP标志在不同的群体中具有不同的群体频率,或在一个群体但非另一个群体中是多态型的。然而本领域技术人员将把可获得的和本文中关注的方法用于在任意给定的人群体中实施本发明。这可包括本发明的LD区段域中的多态型标志的评估,以鉴定在特定的群体内提供最强关联性的标志。因此,本发明的有风险的变体可存在于不同的单倍型背景中和以不同的频率存在于不同的人群体中。然而,通过利用本领域内已知的方法和本发明的标志,可在任意给定的人群体中实施本发明。
促甲状腺激素
促甲状腺激素(也称为TSH或促甲状腺素)是由前叶垂体中的促甲状腺细胞(thyrotrope cell)合成和分泌的肽激素,其调节甲状腺的内分泌功能。TSH刺激甲状腺分泌激素甲状腺素(T4)和三碘甲状腺原氨酸(T3)。TSH的产生受到促甲状腺激素释放激素(TRH)的控制,所述促甲状腺激素释放激素在下丘脑中产生并且经垂体上动脉被运输至前叶垂体,在前叶垂体中其增加TSH的产生和释放。生长抑素也由下丘脑产生,并且对TSH的脑垂体产生具有相反作用,从而减少或抑制其释放。
血液中甲状腺激素类(T3和T4)的水平对TSH的垂体释放具有作用;当T3和T4的水平较低时,TSH的产量增加,并且相反地,当T3和T4的不平较高时,则TSH的产量减少。该效应产生调节性负反馈圈(regulatory negative feedback loop)。
甲状腺素或3,5,3′,5′-四碘甲腺原氨酸(通常缩写为T4)是由甲状腺的滤泡细胞分泌的主要激素。T4被运输入血液中,99.95%的分泌的T4是主要与甲状腺素结合球蛋白(TBG)结合并且以较低的程度与转甲状腺素蛋白和血清白蛋白结合的蛋白质。T4参与控制身体内代谢过程的速率和影响身体发育。已显示甲状腺素的施用显著增加成年小鼠脑中神经生长因子的浓度。
在下丘脑中,T4被转化成三碘甲状腺原氨酸,也称为T3。TSH主要被T3抑制。与T3相比,较甲状腺释放更大量的T4,因而T4的血浆浓度是T3的血浆浓度的40倍。大部分循环T3通过T4(85%)的脱碘(包括从T4的外环上的碳5除去碘的过程)外周形成。因此,T4用作T3的激素原。
基因测定的功用
本领域技术人员将懂得和理解本文中描述的变体本身一般不提供将发生甲状腺癌的个体的绝对鉴定。然而本文中描述的变体确实标示增加的和/或减少的携带本发明的有风险的或保护性变体的个体将发生甲状腺癌的可能性。本发明者已发现某些变体赋予增加的发生甲状腺癌的风险,这受到本文范例中所示的统计学上显著的结果的支持。该信息就其本身而言极具价值,如在下文中更详细地概括的,因为其可用于例如在早期启动保护性测量、进行定期体检以监控症状的进展和/或出现,或以有规律的间隔进行按照预定的时间检查以鉴定早期症状,以能够在早期实施治疗。
关于赋予发生甲状腺癌的风险的遗传变型的知识提供了将遗传检测用于区分具有增加的发生甲状腺癌的个体(即,有危险的变体的携带者)与具有减少的发生甲状腺癌的风险的个体(即,保护性变体的携带者)的可能性。对于属于这两个上述组的个体,遗传检测的核心价值是能够在早期诊断疾病或对疾病的易感性的可能性和给临床医生提供关于疾病的预后/侵袭性的信息以能够使用最适当的治疗。
具有甲状腺癌家族史的个体和有风险的变体的携带者可受益于遗传检测,因为遗传风险因素的存在的知识或作为一个或多个风险因素的携带者的增加的风险的证据可提供增加的动力来通过避免或使已知的疾病的环境风险因素降至最低来实现更健康的生活方式。经诊断患有甲状腺癌的患者的遗传检测还可提供关于疾病的原发性病因的有价值的信息和可帮助临床医生为每一个个体选择最佳治疗选择和药物治疗。
如上所述,甲状腺癌的主要的已知风险因素是辐射暴露。美国的甲状腺癌发病率数十年中一直在上升(Davies,L.和Welch,H.G.,Jama,295,2164(2006)),这可归因于增加的亚临床癌症的检测,与甲状腺癌的真实发生的增加相反(Davies,L.and Welch,H.G.,Jama,295,2164(2006))。在1980年代超声检查和细针抽吸活检的引入提高了小瘤的检测并且使小瘤的细胞学评估变得更常规(Rojeski,M.T.和Gharib,H.,N Engl J Med,313,428(1985),Ross,D.S.,J Clin Endocrinol Metab,91,4253(2006))。该增加的诊断细查可允许进行潜在的致命性甲状腺癌的早期检测。几项研究将甲状腺癌报导为在没有检出甲状腺癌的人中的相同尸检发现(autopsy finding)(达到35%)(Bondeson,L.和Ljungberg,O.,Cancer,47,319(1981),Harach,H.R.,等人,Cancer,56,531(1985),Solares,C.A.,等人,Am J Otolaryngol,26,87(2005)和Sobrinho-Simoes,M.A.,Sambade,M.C.,和Goncalves,V.,Cancer,43,1702(1979))。这表明许多人以对他们的健康威胁不大或无威胁的甲状腺癌的亚临床形式生活。
医生使用几种测试来验证对甲状腺癌的怀疑,以鉴定肿块的大小和位置并且确定肿瘤是非癌性的(良性的)还是癌性的(恶性的)。血液测试例如促甲状腺激素(TSH)测试检查甲状腺功能。
测试怀疑遭受甲状腺激素的过量(甲状腺功能亢进)或不足(甲状腺功能减退)的患者的血液中的TSH水平。一般地,成人的TSH的正常范围为0.2至10uIU/mL(相当于mIU/L)。进行治疗的患者的最佳TSH水平范围在0.3至3.0mIU/L之间。TSH测量的解释还依赖于甲状腺激素(T3和T4)的血液水平。英国的国家卫生局认为“正常”范围更可能为0.1至5.0uIU/mL。
儿童的TSH水平的起点通常高得多。在2002年于美国的国家临床生化研究院(NACB)推荐始于约1.3-19uIU/mL(对于出生时的正常足月儿),在第10周龄时下降至0.6-10uIU/mL,在第14个月时0.4-7.0uIU/mL以及在儿童期和青春期逐渐下降至成人水平0.4-4.0uIU/mL的年龄相关参照界限。NACB还申明预期成人的正常(95%)范围将下降至0.4-2.5uIU/mL,因为研究显示具有高于2.0uIU/mL的初始测量的TSH水平的成人在20年过后[以后],特别是当甲状腺抗体升高时,具有增加的发生甲状腺功能减退的比值比。
一般地,应当测量TSH以及T3和T4以确定特定的甲状腺功能不全是由原发性垂体病还是由原发性甲状腺病引起的。如果两者都升高(或下降),那么问题可能在垂体中。如果一个成分(TSH)升高并且另一种(T3和T4)下降,则疾病可能在于甲状腺本身。对于低TSH、高T3和T4发现,结论一样。
甲状腺癌的基础遗传风险因素的知识可用于甲状腺癌的筛查程序的应用。因此,针对甲状腺癌的有风险的变体的携带者可受益于比对非携带者进行的更频率的筛查。有风险的变体的纯合携带者明显地处于发生甲状腺癌的风险中。
可有益地在特定遗传特征(例如,本文中描述的针对甲状腺癌的特定的有危险的等位基因(例如,rs965513-A)的存在)的背景中测定TSH、T3和T4的水平。由于TSH、T3和T4是甲状腺功能的测量,因而诊断和预防性筛查程序将受益于包括此类临床测量的分析。例如,TSH的异常(增加或减少的)水平与rs965513-A的至少一个拷贝的存在的确定一起标示着个体处于发生甲状腺癌的风险中。在一个实施方案中,在rs965513-A存在的背景中个体中TSH的降低的水平的确定标示着个体增加的患甲状腺癌的风险。
此外,携带者还可受益于更广泛的筛查,包括超声检查和/或细针活组织检查。筛查程序的目的是在早期检测癌症。个体的关于已知的风险变体的遗传状态的知识可帮助选择适用的筛查程序。在某些实施方案中,其可用于将本文中描述的针对甲状腺癌的有风险的变体和一种或多种选自放射性碘(RAI)扫描、超声检查、cT扫描(cAT扫描)、磁共振成像(MRI)、正电子发射断层摄影(Positron EmissionTomography)(PET)扫描、细针抽吸活组织检查和手术活组织检查的诊断工具一起使用。
方法
用于患疾病的风险评估和风险处治的方法描述于本文中并且包括在本文中。本发明还包括就对治疗剂的反应的可能性评估个体的方法,预测治疗剂、核酸、多肽和抗体以及计算实现的功能的功效的方法。用于本文中所示的各种方法的试剂盒也包括在本发明中。
诊断和筛查方法
在某些实施方案中,本发明涉及通过检测遗传标志上的特定等位基因来诊断或帮助诊断甲状腺癌或对甲状腺癌的易感性的方法,所述等位基因以更高的频率在经诊断患有甲状腺癌的受试者或对甲状腺癌易感的受试者中出现。在特定实施方案中,本发明是通过检测至少一个多态型标志(例如,本文中描述的标志)上的至少一个等位基因来测定对甲状腺癌的易感性的方法。在其它实施方案中,本发明涉及通过检测至少一个多态型标志的至少一个等位基因来诊断对甲状腺癌的易感性的方法。本发明描述了其中特定标志或单倍型的检出标示着对甲状腺癌的易感性的方法。此类预后或预测测定还可用于在甲状腺癌的症状发作之前测定受试者的预防性治疗。
本发明在一些实施方案中涉及诊断例如由医学专业人员进行的诊断的临床应用的方法。在其它实施方案中,本发明涉及由业外人士进行的易感性的诊断或测定的方法。业外人士可以是基因分型服务的客户。业外人士还可以是对个体的DNA样品进行基因型分析(以基于个体(例如,客户)的基因型状况提供涉及特定性状或疾病的遗传风险因素的服务)的基因分型服务提供者。基因分型技术的最新技术进步(包括SNP标志的高通量基因分型例如分子倒置探针阵列技术(Molecular Inversion Probe array technology)(例如,AffymetrixGeneChip)和BeadArray技术(例如,Illumina GoldenGate和Infinium测定)已使得个体可能以相对低廉的花费使他们自己的基因组获得同时达到1百万个SNP的评估。可使个体获得的结果基因型信息可与和不同SNP关联的患疾病或性状风险的信息(包括来自公开文献和科学出版物的信息)相比较。因此例如可由个人通过分析本文中描述的他/她的基因型数据、由保健专业人士基于临床检测的结果,或由第三方(包括基因分型服务提供者)进行本文中描述的疾病相关性等位基因的诊断应用。第三方还可以是解释客户的基因型信息以提供与特定遗传风险因素(包括本文中描述的遗传标志)相关的服务的服务提供商。换句话说,可由保健专业人士、遗传咨询顾问、提供基因分型服务的第三方、提供风险评估服务的第三方或由业外人士(例如,个人)基于关于个体的基因型状况的信息和由特定遗传风险因素(例如,特定SNP)赋予的风险性的知识诊断或测定遗传风险的易感性。在本说明书中,术语“诊断”、“诊断易感性”和“确定易感性”意指任何可获得的方法,包括上述方法。
在某些实施方案中,收集包含个体的基因组DNA的样品。此类样品可以例如是颊部抹试(buccal swab)、唾液样品、血液样品或其它合适的包含基因组DNA的样品,如本文中进一步描述的。然后使用本领域技术人员可获得的任何常用技术例如高通量阵列技术分析基因组DNA。将此类基因分型的结果存储在方便的数据存储器中,诸如数据载体,包括计算机数据库、数据存储盘,或通过其它方便的数据存储方式存储。在某些实施方案中,计算机数据库是对象数据库、关系数据库或后关系型数据库(post-relational database)。随后就已知为针对特定人病症的易感性变体例如本文中描述的遗传变型的某些变体的存在分析基因型数据。可使用任何方便的数据查询方法从数据存储单元检索基因型数据。可基于将个体的基因型与之前测定的针对基因型(例如针对特定疾病或性状(例如甲状腺癌)的有风险的变体的杂合携带者)的风险度(例如,表示为相对风险度(RR)或比值比(OR))相比较来计算由个体的特定基因型赋予的风险度。个体的计算的风险度可以是与具有匹配的性别和种族的平均群体相比较的人的或人的特定基因型的相对风险度。可使用参照群体的结果将平均群体风险度表示为不同基因型的风险度的加权平均值,并且可进行适当的计算以计算相对于群体的基因型组群的风险度。可选择地,个体的风险度基于特定基因型例如标志的有风险的等位基因的杂合携带者与非有风险的等位基因携带者的比较。在某些实施方案中使用群体平均值可能更方便,因为其为用户提供了易于解释的测量,即与群体的平均值相比较基于他/她的基因型提供了个体风险度的测量。可通过网站,优选安全性网站使客户可获得评估的计算的风险度。
在某些实施方案中,服务提供商在提供的服务中将包括从客户提供的样品分离基因组DNA,对分离的DNA进行基因分型,基于基因型数据计算遗传风险度和将风险度报告给客户的所有步骤。在一些其它实施方案中,服务提供商在服务中将包括个体的基因型数据的解释,即基于个体的基因型数据的特定遗传变型的风险评估。在一些其它实施方案中,服务提供商可包括的服务包括始于个体(客户)的分离的DNA的样品的基因分型服务和基因型数据的解释。
可使用标准方法进行针对多个风险变体的总体风险度。例如,假定乘法模型,即,假定单个风险变体的风险度相乘以确定总体效应,允许直接计算多个标志的总体风险度。
此外,在某些其它实施方案中,本发明涉及通过检测特定遗传标志等位基因或单倍型(所述等位基因或单倍型在甲状腺癌患者中出现的频率比在经诊断未患有甲状腺癌的个体中或一般群体中出现的频率更低)来确定减少的对甲状腺癌的易感性的方法。
如本文中所描述的和举例说明的,特定标志等位基因或单倍型(例如,rs965513和与其处于连锁不平衡中的标志)与甲状腺癌关联。在一个实施方案中,标志等位基因或单倍型是赋予显著的患甲状腺癌的风险或易感性的标志等位基因或单倍型。在另一个实施方案中,本发明涉及确定人个体中对甲状腺癌的易感性的方法,该方法包括确定至少一个多态型标志的至少一个等位基因在获自个体的核酸样品中是否存在,其中所述至少一个多态型标志选自表2中所列的多态型标志。在另一个实施方案中,本发明涉及通过筛查表选自rs965513(SEQ IDNO:1)、rs907580(SEQ ID NO:81)和rs7024345(SEQ ID NO:66)的至少一个标志来确定人个体中对甲状腺癌的易感性的方法。在另一个实施方案中,标志等位基因或单倍型与其在健康受试者(对照,例如群体对照)中存在的频率相比较更频繁地存在于具有甲状腺癌(患病的)的或对甲状腺癌易感的受试者中。在某些实施方案中,至少一个标志等位基因或单倍型的关联性的显著性的特征在于p值小于0.05。在其它实施方案中,关联性的显著性的特征在于更小的p值,例如小于0.01、小于0.001、小于0.0001、小于0.00001、小于0.000001、小于0.0000001、小于0.00000001或小于0.000000001。
在这些实施方案中,至少一个标志等位基因或单倍型的存在标示着对甲状腺癌的易感性。此类诊断方法包括确定与甲状腺癌的风险关联的特定等位基因或单倍型是否存在于特定个体中。本文中描述的单倍型包括不同等位遗传标志(例如,SNP、微卫星或其它遗传变型)上的等位基因的组合。可通过本文中描述的和/或本领域内已知的多种方法检测组成特定单倍型的特定遗传标志等位基因。例如,可在核酸水平(例如,通过直接的核苷酸测序或通过本领域技术人员已知的其它基因分型方法)或当遗传标志影响蛋白质的编码序列时在氨基酸水平上(例如,通过蛋白质测序或通过使用识别这样的蛋白质的抗体的免疫测定)检测遗传标志。本发明的标志等位基因或单倍型相应于与甲状腺癌关联的基因组区段(例如,基因)的片段。此类片段包括所述多态型标志或单倍型的DNA序列,而且还可包括与所述标志或单倍型处于强LD(连锁不平衡)中的DNA区段。在一个实施方案中,此类区段包括处于具有确定为大于0.2的r2的值和/或|D′|>0.8的所述标志或单倍型的LD中的区段。
在一个实施方案中,可使用杂交方法完成对甲状腺癌的易感性的确定。(参见Current Protocols in Molecular Biology,Ausubel,F.等人,eds.、John Wiley & Sons,包括全部补充材料)。可通过特异于特定等位基因的核酸探针的序列特异性杂交来显示特定标志等位基因的存在。可通过使用几个序列特异性核酸探针(各自特异于特定的等位基因)来显示超过一个特定标志等位基因或特定单倍型的存在。可将序列特异性探针直接与基因组DNA、RNA或cDNA杂交。“核酸探针”,如本文中所使用的,可以是与互补序列杂交的DNA探针或RNA探针。本领域技术人员会知道如何设计这样的探针(以使仅当特定等位基因存在于测试样品的基因组序列中时序列特异性杂交才发生)的方法。还可将本发明简化至使用任何方便的基因分型法(包括用于对特定多态型标志进行基因分型的商购可得的技术和方法)来进行实施。
为了测定对甲状腺癌的易感性,可通过将包含甲状腺癌相关核酸的测试样品例如基因组DNA样品与至少一个核酸探针接触来形成杂交样品。用于检测mRNA或基因组DNA的探针的非限定性实例是能够与本文中所述的mRNA或基因组DNA序列杂交的标记的核酸探针。核酸探针可以是例如全长核酸分子或其部分,例如在长度上是至少15、30、50、100、250或500个核苷酸的寡核苷酸,其足以在严格条件下与适当的mRNA或基因组DNA特异性杂交。例如,核酸探针可包含LD Block C09的核苷酸序列的全部或部分,如本文中所描述的,其任选地包含本文中描述的标志的至少一个等位基因或至少一个本文中描述的单倍型,或者探针可以是这样的序列的互补序列。核酸探针还可包括本文中所示的SEQ ID NO:1-229的任一个的核苷酸序列的全部或部分。在特定的实施方案中,核酸探针是SEQ ID NO:1-229的任一个的核苷酸序列的部分,如本文中描述的,其任选地包括本文表2中所示的至少一个多态型标志的至少一个等位基因,或者探针可以是这样的序列的互补序列。本文中描述了用于本发明的诊断测定的其它适当的探针。可通过本领域技术人员熟知的方法进行杂交(参见,例如,CurrentProtocols in Molecular Biology,Ausubel,F.等人,eds.,John Wiley& Sons,包括全部补充材料)。在一个实施方案中,杂交意指特异性杂交,即无错配杂交(完全杂交)。在一个实施方案中,用于特异性杂交的杂交条件是高度严格的。
使用标准方法检测特异性杂交(如果存在的话)。如果特异性杂交在核酸探针与测试样品中的核酸之间发生,那么样品包含与存在于核酸探针中的核苷酸互补的等位基因。所述方法可以针对本发明的任意标志或组成本发明的单倍型的标志进行重复,或可一次将多个探针同时用于检测1个以上的标志等位基因。还可能设计包含特定单倍型的1个以上的标志等位基因的单一探针(例如,包含与组成特定单倍型的2、3、4、5个或全部标志互补的等位基因的探针)。样品中单倍型的特定标志的检出标示着样品源具有所述特定单倍型(例如,单倍型)并因此对甲状腺癌易感。
在一个优选实施方案中,如Kutyavin等人(Nucleic Acid Res.34:e128(2006))所描述采用,利用在其3′末端包含荧光部分或基团和在其5′末端包含猝灭剂的检测寡核苷酸探针和增强子寡核苷酸的方法。荧光部分可以是Gig Harbor绿或Yakima黄或其它适当的荧光部分。所述检测探针经设计用以与包含待检测的SNP多态型的短核苷酸序列杂交。优选地,SNP位于从末端残基至离检测探针的3′末端-6个残基的任何位置。所述增强子是相对于检测探针3′地与DNA模板杂交的短寡核苷酸探针。这样设计探针以便当检测探针和增强子核苷酸探针均与模板结合时单个核苷酸缺口存在于两个探针之间。缺口产生被内切核酸酶例如内切核酸酶IV识别的合成无碱基位点。酶将染料从完全互补的检测探针切除,但不能切割包含错配的检测探针。因此,通过测量释放的荧光部分的荧光,可进行由检测探针的核苷酸序列确定的特定等位基因的存在的评估。
检测探针可以是任何适当大小的探针,尽管优选地探针相对较短。在一个实施方案中,探针在长度上为5至100个核苷酸。在另一个实施方案中,探针在长度上为10至50个核苷酸以及在另一个实施方案中,探针在长度上为12至30个核苷酸。探针的其它长度是可能的并且在本领域普通技术人员的能力范围内。
在优选实施方案中,通过聚合酶链式反应(PCR)扩增包含SNP多态型的DNA模板,然后进行检测。在这样的实施方案中,扩增的DNA用作检测探针和增强子探针的模板。
检测探针、增强子探针和/或用于通过PCR扩增模板的引物的某些实施方案包括经修饰的碱基(包括经修饰的A和经修饰的G)的使用。经修饰的碱基的用途可用于调整核苷酸分子(探针和/或引物)对模板DNA的解链温度,例如用于增加包含低百分数的G或C碱基的区域的解链温度(其中可使用具有与其互补T形成3个氢键的能力的修饰的A),或用于降低包含高百分数的G或C碱基的区域的解链温度(例如通过使用在双链DNA分子中与其互补C碱基只形成2个氢键的经修饰的G碱基)。在优选实施方案中,经修饰的碱基在所述检测核苷酸探针的设计中使用。可在此类方法中选择本领域技术人员已知的任何修饰碱基,并且基于本文中的教导和可从本领域技术人员已知的商业来源获得的已知碱基,适当的碱基的选择完全在本领域技术人员的能力范围内。
可选择地,除了核酸探针以外或在不用核酸探针的情况下,可将肽核酸(PNA)探针用于本文中所述的杂交方法。PNA是具有肽样无机主链例如N-(2-氨乙基)甘氨酸单元的DNA模拟物(有机碱基(A、G、C、T或U)通过亚甲基羰基接头连接至甘氨酸的氮)(参见,例如,Nielsen,P.,等人,Bioconjug.Chem.5:3-7(1994))。可设计PNA探针用以与怀疑包含一个或多个与甲状腺癌关联的标志等位基因或单倍型的样品中的分子特异性杂交。从而PNA的杂交是对甲状腺癌或对甲状腺癌的易感性的诊断。
在本发明的一个实施方案中,收集包含获自受试者的基因组DNA的测试样品并且将聚合酶链式反应(PCR)用于扩增包含本发明的一个或多个标志或单倍型的片段。如本文中所描述的,特定标志等位基因或单倍型的鉴定可使用多种方法(例如,序列分析、通过限制性消化的分析、特异性杂交、单链构象多态型测定(SSCP)、电泳分析等)来完成。在另一个实施方案中,通过表达分析,例如通过使用定量PCR(动力学热循环(kinetic thermal cycling))来进行诊断。该技术可以例如利用商购可得的技术,例如(Applied Biosystems,Foster City,CA)。所述技术可评估多肽或剪接变体的表达或组成的变化的存在。此外,可将变体的表达定量为物理或功能上的差异。
在本发明的方法的另一个实施方案中,如果特定等位基因导致与参照序列相比较限制性位点的产生或消除,那么限制性消化的分析可用于检测所述等位基因。可以例如如Current Protocols in MolecularBiology(同上)中所述进行限制性片段长度多态型(RFLP)分析。相关DNA片段的消化模式表示特定等位基因在样品中是否存在。
还可将序列分析用于检测特定等位基因或单倍型。因此,在一个实施方案中,特定标志等位基因或单倍型是否存在的确定包括获自受试者或个体的DNA或RNA的测试样品的序列分析。可使用PCR或其它适当的方法扩增包含多态型标志或单倍型的核酸,然后可通过测定样品中基因组DNA的多态型位点(或单倍型中的多个多态型位点)的序列来直接检测特定等位基因的存在。
在另一个实施方案中,与来自受试者的靶核酸序列区段互补的寡核苷酸探针的阵列可用于鉴定与多态型位点上的特定等位基因。例如,可使用寡核苷酸阵列。寡核苷酸阵列通常包括众多的在不同的已知位置上偶联至基质表面的不同寡核苷酸探针。通常可使用机械合成法或光导合成法(并入了光刻法和固相寡核苷酸合成法的组合)或利用本领域技术人员已知的其它方法产生此类阵列(参见,例如,Bier,F.F.,等人Adv Biochem Eng Biotechnol 109:433-53(2008);Hoheisel,J.D.,Nat Rev Genet 7:200-10(2006);Fan,J.B.,等人MethodsEnzymol 410:57-73(2006);Raqoussis,J.& Elvidge,G.,ExpertRev Mol Diagn 6:145-52(2006);Mockler,T.C.,等人Genomics85:1-15(2005)和本文中引用的参考资料,其各自的全部教导通过引用合并入本文)。用于检测多态型的寡核苷酸阵列的制备和用途的许多另外描述可见于例如US 6,858,394、US 6,429,027、US 5,445,934、US 5,700,637、US 5,744,305、US 5,945,334、US 6,054,270、US6,300,063、US 6,733,977、US 7,364,858、EP 619 321和EP 373 203(其全部教导通过引用合并入本文)。
可将本领域技术人员可获得的核酸分析的其它方法用于检测多态型位点上的特定等位基因。代表性方法包括例如直接手工测序(Churchand Gilbert,Proc.Nat1.Acad.Sci.USA,81:1991-1995(1988);Sanger,F.,等人,Proc.Nat1.Acad.Sci.USA,74;5463-5467(1977);Beavis,等人,U.S.Patent No.5,288,644);自动化荧光测序;单链构象多态型测定(SSCP);夹持变性凝胶电泳(clamped denaturinggel electrophoresis)(CDGE);变性梯度凝胶电泳(DGGE)(Sheffield,V.,等人,Proc.Nat1.Acad.Sci.USA,86:232-236(1989))、迁移率变动分析(Orita,M.,等人,Proc.Nat1.Acad.Sci.USA,86:2766-2770(1989))、限制酶分析(Flavell,R.,等人,Cell、15:25-41(1978);Geever,R.,等人,Proc.Nat1.Acad.Sci.USA,78:5081-5085(1981));异源双链体分析;化学错配裂解法(CMC)(Cotton,R.,等人,Proc.Nat1.Acad.Sci.USA,85:4397-4401(1985));核糖核酸酶保护测定(Myers,R.,等人,Science,230:1242-1246(1985));识别核苷酸错配的多肽例如大肠杆菌(E.coli)mutS蛋白的使用和等位基因特异性PCR。
在本发明的另一个实施方案中,在本发明的遗传标志或单倍型导致多肽的组成或表达的变化的情况下,可通过检查由与甲状腺癌关联的核酸编码的多肽的表达和/或组成来进行甲状腺癌或对甲状腺癌的易感性的诊断。因此,在本发明的遗传标志或单倍型导致多肽的组成或表达的变化的情况下,可通过检查此类多肽中一种多肽或由与甲状腺癌关联的核酸编码的另一种多肽的表达和/或组成来进行对甲状腺癌的易感性的确定。本发明的显示与甲状腺癌关联性的标志可通过它们对一个或多个此类附近的基因的效应起作用。在某些实施方案中,标志显示对FoxE1基因的效应。影响此类基因(例如,FoxE1基因)的可能机制包括例如对转录的效应、对RNA剪接的效应、mRNA的可选择剪接形式的相对量的改变、对RNA稳定性的效应、对从细胞核至细胞质的转运的效应和对翻译的效率和准确性的效应。
因此,在另一个实施方案中,本文中提供的变体(标志或单倍型)影响FoxE1基因的表达。众所周知影响基因表达的调控元件可位于远离基因的启动子区域,甚至远至离所述启动子区域数十或数百个千碱基。通过测定本发明的至少一个多态型标志的至少一个等位基因是否存在,从而可能评估此类邻近基因的表达水平。因此预期本文中描述的标志、包含此类标志的单倍型的检测可用于评估和/或预防FoxE1基因或与本文中显示的赋予患甲状腺癌的风险的任一个标志关联的另一个附近基因的表达。
可使用多种方法来检测蛋白质表达水平,包括酶联免疫吸附测定(ELISA)、Western印迹法、免疫沉淀和免疫荧光法。就由核酸编码的多肽的表达和/或组成的变化的存在评估受试者的测试样品。由核酸编码的多肽的表达的变化可以例如是定量多肽表达(即,产生的多肽的量)的变化。由核酸编码的多肽的组成的变化是定性多肽表达(例如,突变多肽或不同剪接变体的表达)的变化。在一个实施方案中,通过检测由与甲状腺癌关联的核酸编码的特定剪接变体或剪接变体的特定模式来进行对甲状腺癌的易感性的诊断。
此类变化(定量和定性)都可存在。多肽表达或组成的“变化”,如本文中所使用的,意指与对照样品中多肽的表达或组成相比较,测试样品中表达或组成的变化。对照样品是相应于测试样品(例如,来自相同类型的细胞的)并且来自未患甲状腺癌和/或不具有对甲状腺癌的易感性的受试者的样品。在一个实施方案中,对照样品来自不具有与甲状腺癌关联的标志等位基因或单倍型的受试者,如本文中所描述的。类似地,测试样品中一个或多个不同剪接变体的存在,或与对照样品相比较测试样品中不同剪接变体的显著不同的量的存在可标示着对甲状腺癌的易感性。与对照样品相比较,测试样品中多肽的表达或组成的变化可标示着在其中等位基因相对于对照样品中的参照改变剪接位点的情况下的特定等位基因。检测由核酸编码的多肽的表达或组成的各种方法是本领域技术人员已知并且可被使用,其包括光谱学、比色法、电泳、等电聚焦和免疫测定(例如,David等人,U.S.Pat.No.4,376,110)例如免疫印迹(参见,例如,Current Protocols inMolecular Biology、特别是第10章,同上)。
例如,在一个实施方案中,可使用能够结合由与甲状腺癌关联的核酸编码的多肽的抗体(例如,具有可检测标记的抗体)。抗体可以是多克隆抗体或单克隆抗体。可使用完整抗体或其片段(例如,Fv、Fab、Fab′、F(ab′)2)。对于探针或抗体术语“标记的”旨在包括通过将可检测物质偶联(即,物理连接)至探针或抗体的探针或抗体的直接标记,以及通过与被直接标记的其它试剂的反应性进行的探针或抗体的间接标记。间接标记的实例包括使用标记的第二抗体(例如,荧光标记的第二抗体)进行的一抗的检测和使用生物素进行的DNA探针的末端标记(以便其可用荧光标记的链霉抗生物素蛋白检测)。
在本方法的一个实施方案中,将测试样品中多肽的水平或量对比对照样品中多肽的水平或量。比对照样品中多肽的水平或量更高或更低(以至差异在统计学上是显著的)的测试样品中肽的水平或量标示着由核酸编码的多肽的表达的变化,并且是针对负责引起表达的差异的特定等位基因或单倍型的诊断。可选择地,将测试样品中多肽的组成与对照样品中多肽的组成相比较。在另一个实施方案中,可评估测试样品和对照样品中多肽的水平或量和组成。
在另一个实施方案中,通过结合另外的基于蛋白质、基于RNA或基于DNA的测定检测本发明的至少一个标志或单倍型来测定对甲状腺癌的易感性。
试剂盒
用于本发明的方法的试剂盒包括用于本文中描述的任何方法的组分,包括例如,用于核酸扩增的引物、杂交探针、限制酶(例如,用于RFLP分析)、等位基因特异性寡核苷酸、结合由本文中描述的本发明的核酸(例如包含本发明的至少一个多态型标志和/或单倍型的基因组区段)编码的改变的多肽或结合由本文中描述的本发明的核酸编码的未改变的(天然)多肽的抗体、用于扩增与甲状腺癌关联的核酸的方法、用于分析与甲状腺癌关联的核酸的核酸序列的方法、用于分析由与甲状腺癌关联的核酸编码的多肽的氨基酸序列的方法等。试剂盒可以例如包括必需缓冲液、用于扩增本发明的核酸(例如包含本文中描述的一个或多个多态型标志的核酸区段)的核酸引物和用于使用此类引物和必需酶(例如,DNA聚合酶)扩增的片段的等位基因特异性检测的试剂。此外,试剂盒还可提供用于与本发明的方法组合使用的测定的试剂,例如与其它甲状腺癌诊断测定一起使用的试剂。
在一个实施方案中,本发明涉及用于测定受试者的样品以检测受试者中对甲状腺癌的易感性的试剂盒,其中试剂盒包括选择性检测个体的基因组中至少一个本发明的多态型的至少一个等位基因所必需的试剂。在特定的实施方案中,所述试剂包括至少一个连续寡核苷酸,所述寡核苷酸与包含至少一个本发明的多态型的个体基因组的片段杂交。在另一个实施方案中,所述试剂包括至少一对与获自受试者的基因组区段的相反链杂交的寡核苷酸,其中各寡核苷酸引物对经设计用以选择性扩增包括至少一个与甲状腺癌风险关联的多态型的个体的基因组的片段。在一个这样的实施方案中,多态型选自本文中表2中所示的多态型。在另一个实施方案中,多态型选自rs965513(SEQ IDNO:1)、rs907580(SEQ ID NO:81)和rs7024345(SEQ ID NO:66)。在另一个实施方案中,片段大小为至少20个碱基对。可使用侧翼连接与甲状腺癌的风险关联的多态型(例如,SNP或微卫星)的多态型的核酸序列的部分设计此类寡核苷酸或核酸(例如,寡核苷酸引物)。在另一个实施方案中,试剂盒包括能够等位基因特异性检测一个或多个特定多态型标志或单倍型的一个或多个标记核酸和用于检测所述标记的试剂。适当的标记物包括例如放射性同位素、荧光标记物、酶标记物、酶辅因子标记物、磁标记物、自旋标记物、表位标记物。
在特定的实施方案中,待用试剂盒的试剂检测的多态型标志或单倍型包括选自表2中所显示的标志的1个或多个标志、2个或更多个标志、3个或更多个标志、4个或更多个标志、5个或更多个标志。在另一个实施方案中,待检测的标志或单倍型包括选自标志rs965513(SEQ ID NO:1)、rs907580(SEQ ID NO:81)和rs7024345(SEQ ID NO:66)的1个或多个标志、2个或更多个标志、3个或更多个标志、4个或更多个标志、5个或更多个标志。在另一个实施方案中,待检测的标志或单倍型选自rs965513(SEQ ID NO:1)或与其处于连锁不平衡中的标志。
在一个优选实施方案中,用于检测本发明的标志的试剂盒包括检测寡核苷酸探针(其可与包含待检测的SNP多态型的模板DNA的区段杂交)、增强子寡核苷酸探针和核酸内切酶。如上文中所解释的,检测寡核苷酸探针在其3′末端包含荧光部分或基团以及在其5′末端包含猝灭剂,并且使用增强子寡核苷酸,如由Kutyavin等人(NucleicAcid Res.34:e128(2006))所描述的。荧光部分可以是Gig Harbor绿或Yakima黄或其它适当的荧光部分。所述检测探针经设计用以与包含待检测的SNP多态型的短核苷酸序列杂交。优选地,SNP位于从末端残基至离检测探针的3′末端-6个残基的任何位置。所述增强子是相对于检测探针3′地与DNA模板杂交的短寡核苷酸探针。这样设计探针以便当检测探针和增强子核苷酸探针均与模板结合时单个核苷酸缺口存在于两个探针之间。缺口产生被内切核酸酶例如内切核酸酶IV识别的合成无碱基位点。酶将染料从完全互补的检测探针切除,但不能切割包含错配的检测探针。因此,通过测量释放的荧光部分的荧光,可进行由检测探针的核苷酸序列确定的特定等位基因的存在的评估。
检测探针可以是任何适当大小的探针,尽管优选地探针相对较短。在一个实施方案中,探针在长度上为5至100个核苷酸。在另一个实施方案中,探针在长度上为10至50个核苷酸以及在另一个实施方案中,探针在长度上为12至30个核苷酸。探针的其它长度是可能的并且在本领域普通技术人员的能力范围内。
在优选实施方案中,通过聚合酶链式反应(PCR)扩增包含SNP多态型的DNA模板,然后进行检测,并且用于此类扩增的引物包括在试剂盒中。在这样的实施方案中,扩增的DNA用作检测探针和增强子探针的模板。
在一个实施方案中,利用全基因组扩增(WGA)法扩增DNA模板,然后评估本文中描述的特定多态型标志的存在。可使用本领域技术人员熟知的用于进行WGA的标准方法,并且其在本发明的范围内。在一个这样的实施方案中,进行WGA的试剂包括在试剂盒中。
检测探针、增强子探针和/或用于通过PCR扩增模板的引物的某些实施方案包括经修饰的碱基(包括经修饰的A和经修饰的G)的使用。经修饰的碱基的用途可用于调整核苷酸分子(探针和/或引物)对模板DNA的解链温度,例如用于增加包含低百分数的G或C碱基的区域的解链温度(其中可使用具有与其互补T形成3个氢键的能力的修饰的A),或用于降低包含高百分数的G或C碱基的区域的解链温度(例如通过使用在双链DNA分子中与其互补C碱基只形成2个氢键的经修饰的G碱基)。在优选实施方案中,经修饰的碱基在所述检测核苷酸探针的设计中使用。可在此类方法中选择本领域技术人员已知的任何修饰碱基,并且基于本文中的教导和可从本领域技术人员已知的商业来源获得的已知碱基,适当的碱基的选择完全在本领域技术人员的能力范围内。
在一个这样的实施方案中,标志或单倍型的存在的确定标示着对甲状腺癌的易感性(增加的易感性或减少的易感性)。在另一个实施方案中,标志或单倍型的存在的确定标示着对甲状腺癌治疗剂的反应。在另一个实施方案中,标志等位基因或单倍型的存在标示着甲状腺癌的预后。在另一个实施方案中,标志或单倍型的存在标示着甲状腺癌治疗的进展。此类治疗可包括通过手术、药物或通过其它方法(例如,生活方式的改变)进行的干预。
在本发明的其它方面,提供了药物包装(试剂盒),所述包装包括治疗剂和一套用于将治疗剂施用至就本发明的一个或多个变体(如本文中公开的)诊断测试的人的说明书。治疗剂可以是小分子药物、抗体、肽、反义或RNAi分子或其它治疗分子。在一个实施方案中,指导被鉴定为至少一个本发明的变体的携带者的个体服用处方规定的剂量的治疗剂。在一个这样的实施方案中,指导被鉴定为至少一个本发明的变体的纯合携带者的个体服用处方规定的剂量的治疗剂。在另一个实施方案中,指导被鉴定为至少一个本发明的变体的非携带者的个体服用处方规定的剂量的治疗剂。
在某些实施方案中,试剂盒还包括一套用于使用包括试剂的试剂盒的说明书。
治疗剂
甲状腺癌的治疗选择包括现有标准治疗法和处于临床试验的治疗方法。
甲状腺癌的现有治疗方法包括:
手术-包括叶切除术(lobectomy),在该手术中除去其中发现甲状腺癌的中,甲状腺切除术,在该手术中除去甲状腺的几乎每一个小部分,甲状腺全切术,在该手术中除去整个甲状腺,以及淋巴切除术,在该手术中除去颈中包含癌性生长的淋巴结;
放射疗法-包括使用放射性化合物进行的外照射疗法和内照射疗法。可在手术后提供放射疗法以除去任何存活的癌细胞。同样地,有时用放射性碘(RAI)疗法治疗甲状腺滤泡状癌和甲状腺乳头状癌;
化学疗法-包括化疗化合物的口服或静脉内施用的使用;
甲状腺激素疗法-该疗法包括施用阻止促甲状腺激素(TSH)在体内产生的药物。
目前正在进行用于甲状腺癌治疗和医治的许多临床试验,包括但不限于18F-氟脱氧葡萄糖(FluGlucoScan);111In-喷曲肽(NeuroendoMedix);用于甲状腺退行发育性癌的治疗的考布他汀和紫杉醇/卡铂、用于手术后治疗的具有或不具有131I的促甲状腺激素、XL184-301(Exelixis)、凡德他尼(Zactima;Astra Zeneca)、CS-7017(Sankyo)、地西他滨(Dacogen;5-氮杂-2′-脱氧胞苷)、伊立替康(Pfizer、Yakult Honsha)、硼替佐米(Velcade;MilleniumPharmaceuticals);17-AAG(17-N-丙烯胺基-17-去甲氧基格尔德霉素)、索拉非尼(Nexavar、Bayer)、重组促甲状腺素、来那度胺(Revlimid、Celgene)、舒尼替尼(Sutent)、索拉非尼(Nexavar、Bayer)、阿西替尼(AG-013736、Pfizer)、丙戊酸(2-丙戊酸)、凡德他尼(Zactima、阿斯利康)、AZD6244(阿斯利康)、贝伐珠单抗(阿瓦斯丁、Genetech/Roche)、MK-0646(Merck)、帕唑帕尼(GlaxoSmithKline)、Aflibercept(Sanofi-Aventis & Regeneron Pharmaceuticals)和FR901228(Romedepsin)的试验。
还可将本文中公开的赋予增加的患甲状腺癌的风险的变体(标志和/或单倍型)用于鉴定甲状腺癌的新型治疗靶。例如,可靶向包含一个或多个此类变体或与其处于连锁不平衡中的基因或其产物(例如,FoxE1基因和其基因产物),以及受此类变体基因或其产物直接或间接调控或与其相互作用的基因或其产物,以将其用于开发治疗甲状腺癌或预防或延迟与甲状腺癌关联的症状的发作的治疗剂。治疗剂可包括一种或多种例如非蛋白质和非核酸小分子、蛋白质、肽、蛋白质片段、核酸(DNA、RNA)、PNA(肽核酸)或其衍生物或模拟物,其可调控靶基因或它们的基因产物的功能和/或水平。
可将本发明的核酸和/或变体或包含其互补序列的核酸用作控制细胞、组织或器官中基因表达的反义构建体。与反义技术相关的方法对于本领域技术人员来说是熟知的,并且描述和综述于AntisenseDrug Technology:Principles,Strategies,andApplications,Crooke,ed.,Marcel Dekker Inc.,New York(2001)中。一般地,反义核酸分子经设计与由基因表达的mRNA的区域互补,以便反义分子与mRNA杂交,从而阻止mRNA至蛋白质的翻译。几种反义寡核苷酸是本领域技术人员已知的,包括切割子(cleaver)和阻断子(blocker)。前者结合靶RNA位点,激活切割靶RNA的细胞内核酸酶(例如,RNA酶H或RNA酶L)。阻断子结合靶RNA,通过核糖体的空间位阻来抑制蛋白质翻译。阻断子的实例包括核酸、玛琳代化合物、锁(locked)核酸和膦酸甲酯(Thompson,Drug Discovery Today,7:912-917(2002))。反义寡核苷酸可直接用作治疗剂,并且还有用于测定和验证基因功能,例如通过基因敲除或基因敲低实验来进行。反义技术还描述于Lavery等人,Curr.Opin.Drug Discov.Devel.6:561-569(2003),Stephens等人,Curr.Opin.Mol.Ther.5:118-122(2003),Kurreck,Eur.J.Biochem.270:1628-44(2003),Dias等人,Mol.Cancer Ter.1:347-55(2002),Chen,Methods Mol.Med.75:621-636(2003),Wang等人,Curr.Cancer Drug Targets 1:177-96(2001)和Bennett,Antisense Nucleic Acid Drug.Dev.12:215-24(2002)中。
本文中描述的变体可用于特异于特定变体的反义试剂的选择和设计。通过使用关于本文中描述的变体的信息,可设计特异性靶向包含一个或多个本发明的变体的mRNA分子的反义寡核苷酸或其它反义分子。这样,可抑制或阻断包含一个或多个本发明的变体(即,标志和/或单倍型)的mRNA分子的表达。在一个实施方案中,反义分子经设计用以特异性结合靶核酸的特定等位基因形式(即,一个或几个变体(等位基因和/或单倍型))(从而抑制源于该特定等位基因或单倍型的产物的翻译),但其不结合靶核酸分子的该特定多态型位点上的其它或可选择的变体。
由于反义分子可用于使mRNA失活以抑制基因表达,从而抑制蛋白质表达,因此所述分子可用于疾病治疗。方法可包括利用包含与mRNA中的一个或多个区域互补的核苷酸序列的核酶进行的切割,其减弱mRNA被翻译的能力。此类mRNA区域包括例如蛋白质编码区,特别是相应于蛋白质的催化活性、底物和/或配体结合位点或其它功能结构域的蛋白质编码区。
自其最初在线虫(C.elegans)中被发现(Fire等人,Nature391:806-11(1998))以来,在过去10年中,RNA干扰(RNAi)现象一直得到活跃地研究,并且在近年中,其在人疾病的治疗中的潜在用途一直受到积极追求(综述于Kim & Rossi,Nature Rev.Genet.8:173-204(2007)中)。RNA干扰(RNAi),也称为基因沉默,基于使用双链RNA分子(dsRNA)关闭特定基因。在细胞中,细胞质双链RNA分子(dsRNA)被细胞复合物加工成小干扰RNA(siRNA)。siRNA指导蛋白质-RNA复合物至靶mRNA上的特定位点的靶向,从而导致mRNA的切割(Thompson,Drug Discovery Today,7:912-917(2002))。siRNA分子在长度上通常为约20、21、22或23个核苷酸。因此,本发明的一个方面涉及分离的核酸分子和此类分子用于RNA干扰的用途,即作为小干扰RNA分子(siRNA)。在一个实施方案中,分离的核酸分子在长度上为18至26个核苷酸,优选在长度上为19至25个核苷酸,更优选在长度上为20至24个核苷酸,和更优选在长度上为21、22或23个核苷酸。
RNAi介导的基因沉默的另一个途径始于在细胞中经加工产生前体miRNA(pre-miRNA)的内源编码的初级microRNA(pri-miRNA)转录物。此类miRNA分子被从细胞核输出至细胞质,在细胞质中它们经历加工,产生成熟miRNA分子(miRNA),所述成熟miRNA分子通过识别mRNA的3′非翻译区中的靶位点,然后通过加工P小体(processingP-body)降解mRNA来指导翻译抑制(综述于Kim & Rossi,Nature Rev.Genet.8:173-204(2007)中)。
RNAi的临床应用包括在大小优选为约20-23个核苷酸并且优选具有2个核苷酸的3′重叠(overlaps)的合成siRNA双链体的掺入。通过针对靶mRNA的序列特异性设计建立基因表达的敲低。用于此类分子的最佳设计和合成的几个商业部位是本领域技术人员已知的。
其它应用提供了更长的siRNA分子(长度上通常为约25-30个核苷酸,优选约27个核苷酸)以及小发夹RNA(shRNA;长度上通常为约29个核苷酸)。后者是内源表达的,如Amarzguioui等人(FEBS Lett.579:5974-81(2005))中所描述的。化学合成siRNA和shRNA是体内加工的底物,并且在一些情况下提供比更短的设计更强的基因沉默(Kim等人,Nature Biotechnol.23:222-226(2005);Siolas等人,Nature Biotechnol.23:227-231(2005))。一般地siRNA提供基因表达的瞬时沉默,因为它们的细胞内浓度被随后的细胞分裂稀释。相反地,表达的shRNA介导长期稳定的靶转录物的敲低,只要shRNA的转录发生(Marques等人,Nature Biotechnol.23:559-565(2006);Brummelkamp等人,Science 296:550-553(2002))。
因为RNAi分子,包括siRNA、miRNA和shRNA,以序列依赖性的方式起作用,因此本文中所示的变体(例如,表2中所示的标志和单倍型)可用于设计RNAi试剂,所述RNAi试剂识别包含特定等位基因和/或单倍型(例如本发明的等位基因和/或单倍型)的特定核酸分子然而不识别包含其它等位基因或单倍型的核酸分子。此类RNAi试剂从而可识别和破坏靶核酸分子。与反义试剂一样,RNAi试剂可用作治疗剂(即,用于关闭疾病相关基因或疾病相关基因变体),而且还可用于表征和验证基因功能(例如,通过基因敲除或基因敲低实验)。
可通过一系列本领域技术人员已知的方法进行RNAi的递送。利用非病毒递送的方法包括胆固醇、稳定的核酸-脂质颗粒(SNALP)、重链抗体片段(Fab)、适体和纳米颗粒。病毒递送法包括慢病毒、腺病毒和腺伴随病毒的使用。在一些实施方案中化学修饰siRNA分子以增加其稳定性。这可包括核糖的2′位置上的修饰,包括2′-O-甲基嘌呤和2′-氟嘧啶,其提供了对RNA酶活性的抗性。其它化学修饰是可能的并且是本领域技术人员已知的。
下列参考资料提供了RNAi的其它概述和使用RNAi靶向特定基因的可能性:Kim & Rossi,Nat.Rev.Genet.8:173-184(2007),Chen& Rajewsky,Nat.Rev.Genet.8:93-103(2007),Reynolds,等人,Nat.Biotechnol.22:326-330(2004),Chi等人,Proc.Nat1.Acad.Sci.USA 100:6343-6346(2003),Vickers等人,J.Biol.Chem.278:7108-7118(2003),Agami,Curr.Opin.Chem.Biol.6:829-834(2002),Lavery,等人,Curr.Opin.Drug Discov.Devel.6:561-569(2003),Shi,Trends Genet.19:9-12(2003),Shuey等人,Drug Discov.Today 7:1040-46(2002),McManus等人,Nat.Rev.Genet.3:737-747(2002),Xia等人,Nat.Biotechnol.20:1006-10(2002),Plasterk等人,Curr Opin Genet Dev 10:562-7(2000),Bosher等人,Nat.Cell Biol.2:E31-6(2000)和Hunter,Curr.Biol.9:R440-442(1999)。
导致增加的对疾病例如甲状腺癌发生的易感性或风险的遗传缺陷或引发疾病的缺陷可通过给携带缺陷的受试者施用核酸片段来永久性矫正,所述核酸片段包含提供所述基因缺陷的位点上的正常/野生型核苷酸的修复序列。此类位点特异性修复序列可包括操作以促进受试者的基因组DNA的内源修复的RNA/DNA寡核苷酸。可利用适当的载体例如封装在阴离子脂质体内的与聚乙烯亚胺的复合物、病毒载体例如腺病毒载体或适合于促进施用的核酸细胞内吸收的其它药物组合物进行修复序列的施用。遗传缺陷因而可被克服,因为嵌合寡核苷酸诱导正常序列整合入受试者的基因组,从而导致正常/野生型基因产物表达。替换得到遗传,从而使得与疾病或病症关联的症状得到永久性修复和缓解。
本发明提供了用于鉴定可用于治疗甲状腺癌的化合物或试剂的方法。因此,本发明的变体用作用为鉴定和/或发开治疗剂的靶。在某些实施方案中,此类方法包括测定试剂或化合物调控核酸(所述核酸包括至少一个本发明的变体(标志和/或单倍型))或包含变体或位于变体附近的核酸序列的编码产物的活性和/或表达的能力。在某些实施方案中,试剂或化合物调节FoxE1基因的活性或表达。所述试剂或化合物还可抑制或改变编码的核酸产物即FoxE1蛋白质产物的不期望的活性或表达。可在本领域技术人员已知的基于细胞的系统或无细胞系统中进行用于进行此类实验的测定。基于细胞的系统包括天然表达目的核酸分子的细胞或已经历基因改造从而表达某个期望的核酸分子的重组细胞。
可通过包含变体的核酸序列(例如,包含至少一个本发明的变体的基因,其可被转录成包含至少一个变体的RNA并且接着被翻译成蛋白质)的表达,或通过因影响正常转录物的表达水平或模式的变体例如基因的调控或控制区中的变体而导致的正常/野生型核酸序列的改变的表达来评估患者的变体基因表达。用于基因表达的测定包括直接核酸测定(mRNA)、用于表达的蛋白质水平的测定或参与途径例如信号途径的附随化合物(collateral compound)的测定。此外,还可测定响应信号途径而被上调或下调的基因的表达。一个实施方案包括将报告基因例如荧光素酶有效地连接至目的基因的调控区。
一个实施方案中,当将细胞与候选化合物或试剂接触,然后测定mRNA的表达时,可鉴定基因表达的调控剂。将在候选化合物或试剂存在的情况下的mRNA的表达水平与在所述化合物或试剂不存在的情况下的表达水平相比较。基于该比较,可将用于治疗甲状腺癌的候选化合物或试剂鉴定为调控变体基因的基因表达的化合物或试剂。当mRNA或编码的蛋白质的表达在候选化合物或试剂存在的情况下比在其不存在的情况下在统计学上显著更高时,则候选化合物或试剂被鉴定为核酸表达的刺激剂或上调剂(up-regulator)。当核酸表达或蛋白质水平在候选化合物或试剂存在的情况比在其不存在的情况下统计学上显著更低时,则候选化合物被鉴定为核酸表达的抑制剂或下调剂(down-regulator)。
本发明还提供了使用通过药物(化合物和/或试剂)筛选鉴定的化合物作为基因调控剂(即基因表达的刺激剂和/或抑制剂)进行治疗的方法。
评估响应治疗剂的概率的方法,监控治疗进展的方法和治疗方法
如本领域内已知的,个体可具有对特定疗法(例如,治疗剂或治疗方法)区别的反应。药物基因组学阐述了遗传变异(例如,本发明的变体(标志和/或单倍型))是如何由于改变的药物分布(drugdisposition)和/或药物的异常或改变的作用而影响药物反应的问题。因此,区别反应的基础可在遗传上获得部分确定。由于遗传变异影响药物反应而产生的临床结果可在某些个体(例如,本发明的遗传变型的携带者或非携带者)中导致药物的毒性或药物的治疗失败。因此,本发明的变体可确定治疗剂和/或方法对身体起作用的方式,或身体代谢治疗剂的方式。
因此,在一个实施方案中,多态型位点或单倍型(例如,rs965513多态型位点或与其处于连锁不平衡中的标志)上特定等位基因的存在标示着不同的对特定治疗形式的反应,例如不同的反应速率。这意味着经诊断患有甲状腺癌的患者和在本发明的多态型或单倍型上携带某个等位基因(例如,本发明的有风险的和保护性等位基因和/或单倍型)的患者将对用于治疗疾病的特定治疗药物和/或其它疗法作出更好或更差的反应。因此,标志等位基因或单倍型是否存在可帮助决定应当对患者使用的治疗。例如,对于新诊断的患者,可评估(例如,通过测试来源于血液样品的DNA,如本文中所描述的)本发明的标志或单倍型的存在。如果患者对于标志等位基因或单倍型呈阳性(即,标志或单倍型的至少一个特定等位基因存在),那么医生推荐一个特定的疗法,然而如果患者对于标志或单倍型的至少一个等位基因呈阴性,那么可推荐不同的治疗过程(其包括不同于疾病进展的系列监控的不进行立即治疗的推荐)。因此,患者的携带者状态可用于帮助确定是否应当施用特定治疗模式。价值在于能够在早期诊断疾病,选择最适当的治疗和给临床医师提供关于疾病的预后/侵袭性的信息以能够应用最适当的方法的可能性。
在上文中于治疗剂下描述的任何治疗方法和化合物可用于此类方法。即,使用上文中描述的或涉及的任何化合物或方法进行的甲状腺癌的治疗在某些实施方案中受益于筛查本文中描述的至少一个多态型标志的特定等位基因的存在,其中所述特定等位基因的存在标示着特定化合物或方法的治疗结果。
在某些实施方案中,将用于治疗甲状腺癌的治疗剂(药物)与用于测定本文中描述的多态型标志(例如,rs965513或与其处于连锁不平衡中的标志)上的等位基因状态的试剂盒一起提供。如果个体对于待测试的特定等位基因或多个等位基因是阳性的,则个体比所述等位基因的非携带者更可能受益于特定化合物。在某些其它实施方案中,关于预示着特定化合物的治疗结果的至少一个多态型标志的基因型信息被预先确定并且通过其它适当的方法将其存储在数据库、查找表中,并且所述信息可以例如通过本领域技术人员已知的常规数据查询方法从数据库或查找表读取。如果特定个体经测定携带标示着用于治疗甲状腺癌的特定化合物或药物的阳性治疗结果的某些等位基因,那么所述个体更可能受益于特定化合物的施用。
本发明还涉及监控甲状腺癌的治疗的进展或功效的方法。可基于本发明的标志和单倍型的基因型和/或单倍型状态,即通过评估至少一个本文中所述的多态型标志的至少一个等位基因的不存在或存在,或通过监控与本发明的变体(标志和单倍型)关联的基因的表达来进行该方法。可测量组织样品(例如,外周血或活组织检查样品)中的风险基因mRNA或编码的多肽。因此可在治疗之前和治疗的过程中测定表达水平和/或mRNA水平以监控其效率。可选择地或相伴随地,在治疗之前和治疗过程中测定本文中所示的针对甲状腺癌的至少一个风险变体的基因型和/或单倍型状态以监控其效率。
可选择地,与本发明的标志和单倍型相关的生物网络或代谢途径可通过测定mRNA和/或多肽水平来监控。可以例如通过监控属于网络和/或途径的一些基因在治疗前和治疗过程中采集的样品中的表达水平或多肽来进行该监控。可选择地,可在治疗前和治疗过程中测定属于生物网络或代谢途径的代谢产物。通过将治疗过程中观察到的表达水平/代谢产物水平的变化与来自健康受试者的相应数据相比较来测定治疗的功效。
在另外的方面,可将本发明的标志用于增加临床试验的效力和功效。因此,作为至少一个本发明的有风险的变体的携带者的个体可以更可能地对特定治疗模式作出有利反应。在一个实施方案中,携带特定治疗(例如,小分子药物)所靶向的途径和/或代谢网络中的基因的有风险的变体的个体更可能是所述治疗的反应者。在另一个实施方案中,携带表达和/或功能被有风险的变体改变的基因的有风险的变体的个体更可能是靶向该基因、其表达或其基因产物的治疗模式的反应者。该应用可提高临床试验的安全性,而且还可增加临床试验显示统计学上显著的功效(所述临床试验可限定于群体的某个亚群)的机会。因此,这样的试验的一个可能的结果是某些遗传变型例如本发明的标志和单倍型的携带者在统计学上显著地可能显示对治疗剂的阳性反应,即当采用处方规定的治疗剂或药物时,经历与甲状腺癌关联的症状的减轻。
在另外的方面,本发明的标志和单倍型可用于靶向用于特定个体的治疗剂的选择。治疗模式的个人化选择、生活方式的改变或生活方式的改变和特定治疗的施用的组合可通过利用本发明的有风险的变体来实现。因此,就本发明的特定标志而言的个体状态的知识可用于选择治疗选择,所述治疗选择靶向受本发明的有风险的变体影响的基因或基因产物。变体的某些组合可适用于治疗选择的一个选择,然而其它基因变体组合可靶向其它治疗选择。这样的变体组合可包括1个变体、2个变体、3个变体或4个或更多个变体,这对于以临床上可靠的准确性确定治疗模式的选择是必需的。
计算机实现的方面
如本领域技术人员所理解的,可以完全或部分地按照已知的计算机可读介质上的计算机可执行指令实现本文中描述的方法和信息。例如,可以硬件实现本文中描述的方法。可选择地,所述方法可以存储在例如一个或多个存储器或其它计算机可读介质中的软件并在一个或多个处理器上实现。如所已知的,处理器可与计算机系统的一个或多个控制器、计算单元和/或其它单元连接,或需要时植入固件中。如果以软件实现,可将例程(routine)存储在任何计算机可读存储器例如RAM、ROM、闪存、磁盘、光盘或其它存储介质中,这也是已知的。同样地,可通过任何已知的传送方法包括例如利用通信通道例如电话线、因特网、无线连接等或通过可移动介质例如计算机可读盘、U盘(flashdrive)等将该软件传送至计算装置。
更常见地,且如本领域技术人员所理解的,上述各种步骤可作为依次可以硬件、固件、软件或硬件、固件和/或软件的任意组合实现的各种块、操作、工具、模块和技术来实现。当以硬件实现时,一些或全部块、操作、技术等可以例如定制的集成电路(IC)、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)、可编程逻辑阵列(PLA)等执行。
当以软件实现时,该软件可存储于任何已知的计算可读介质例如计算机的RAM或ROM或闪存、处理器、硬盘驱动器、光盘驱动器、磁带驱动器等中的磁盘、光盘或其它存储介质中。同样地,该软件通过任何已知的传送方法包括例如在计算可读盘或其它可移动计算存储机械装置上可传送至用户或计算系统。
图1举例说明适当的计算系统环境100的实例,在该计算系统环境上可实现用于所要求的方法步骤和装置的系统。计算系统环境100只是适当的计算环境的一个实例并且无意表示对权利要求的方法或装置的用途或功能性的范围的任何限制。计算环境100不应当被解释为对示例性操作环境100中举例说明的组件的任一个和其组合具有任何依赖性或需要。
所要求的方法和系统的步骤是用众多一般性用途或特殊性用途的计算系统环境或配置运行的。可适用于所要求的方法或系统的熟知的计算系统、环境和/或配置的实例包括但不限于个人计算机、服务器计算机、手提式或便携式设备、多处理器系统、基于微处理器的系统、机顶盒(set top box)、可编程消费类电子产品、网络PC、微型计算机、大型计算机、包括上述系统或装置的任一个的分布式计算环境,等等。
所要求的方法和系统的步骤可描述于计算机可执行指令的一般背景中,例如可由计算机执行的程序模块。通常,程序模块包括进行特定任务或执行特定抽象数据类型的例程、程序、对象、组件(component)、数据结构等。还可在其中利用通过通讯网络连接的远程处理设备进行任务的分布式计算环境中实践所述方法和装置。在集成式和分布式计算环境中,程序模块可位于本地和远程计算机存储介质包括记忆储存装置。
参考图1,用于实现所要求的方法和系统的步骤的示例性系统包括以计算机110的形式存在的一般性用途的计算装置。计算机110的组件可包括但不限于处理单元120、系统内存130和将各种系统组件(包括系统内存)连接至处理单元120的系统总线121。系统总线121可以是几种类型的总线结构(包括使用多种总线体系结构的任一种的存储器总线或存储控制器、外围总线和局部总线)的任何类型。例如,但不限于,此类体系结构包括工业标准结构(ISA)总线、微通道结构(MCA)总线、扩展的ISA(EISA)总线、视频电子标准协会(VESA)局部总线和互连外围设备(PCI)总线(也称为夹层总线)。
计算机110通常包括多种计算机可读介质。计算机可读介质可以是任何可获得的可由计算机110读取的介质,包括易失性和非易失性介质、可移动和不可移动介质。例如但非限制性的,计算机可读介质可包括计算机存储介质和通讯介质。计算机存储介质包括在任何方法或技术中实现的用于存储信息例如计算机可读指令、数据结构、程序模块或其它数据的易失性和非易失性介质、可移动和不可移动介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其它存储技术、CD-ROM、数字多功能光盘(digital versatile disk)(DVD)或其它光盘存储器、磁盒(magnetic cassette)、磁带、磁盘存储器或其它磁存储器装置,或可用于存储期望的信息并且可由计算机110读取的任何其它介质。通讯介质通常包括计算机可读指令、数据结构、程序模块或调制数据信号(modulated data signal)例如载波或其它传送机械装置中的其它数据并包括任何信息传送介质。术语“调制数据信号”意指具有一个或多个其特征集合或以将信息编码在信号中的方式改变的信号。例如但非限制性的,通讯介质包括有线介质例如有线网络或直线连接和无线介质例如声音(acoustic)、射频、红外和其它无线介质。任何上述介质的组合也应当包括在计算机可读介质的范围内。
系统内存130包括以易失性和/或非易失性存储器例如只读存储器(ROM)131和随机存取存储器(RAM)132的形式存在的计算机存储介质。包含帮助例如在起动过程中在计算机110内的元件之间传递信息的基本例程的基本输入/输出系统133(BIOS)通常被存储在ROM 131中。RAM 132通常包含可由处理单元120立即可读取的和/或即可被运行的数据和/或程序。例如但非限制性的,图1举例说明了操作系统134、应用程序135、其它程序模块136和程序数据137。
计算机110还可包括其它可移动/不可移动、易失性/非易失性计算机存储介质。仅作为示例,图1举例说明了从不可移动的非易失性磁介质读取或写入的硬盘驱动器140,从可移动的非易失性磁盘152读取或写入的磁盘驱动器151和从可移动非易失性光盘156例如CDROM或其它光学介质读取或写入的光盘驱动器155。可用于示例性运行环境的其它可移动/不可移动、易失性/非易失性计算机存储介质包括但不限于盒式磁带、闪速存储卡、数字多功能盘、数字录像带、固态RAM、固态ROM等。通常通过不可移动存储器接口例如接口140将硬盘驱动器141连接至系统总线121,以及通常通过可移动存储器接口例如接口150将磁盘驱动器151和光盘驱动器155连接至系统总线121。
上述和图1中举例说明的驱动器和其相关计算机存储介质提供了用于计算机110的计算机可读指令、数据结构、程序模块和其它数据的存储。在图1中,硬盘驱动器141被举例说明来存储操作系统144、应用程序145、其它程序模块146和程序数据147。要指出的是,这些组件可以与操作系统134、应用程序135、其它程序模块136和程序数据137相同或不同。在此处给操作系统144、应用程序145、其它程序模块146和程序数据147提供不同的编号以举例说明至少它们是不同的拷贝。用户可通过输入装置例如键盘162和点击设备(pointingdevice)161(通常称为鼠标、随访球或触控垫(touch pad))将命令和信息输入计算机20。其它输入装置(未显示)可包括麦克风、操纵杆、游戏键盘(game pad)、卫星碟(satellite dish)、扫描仪等。通常将此类和其它输入装置通过连接至系统总线的用户输入接口160连接至处理单元120,但也可通过其它接口和总线结构例如并行端口、游戏口或通用串行总线(USB)连接。还可通过接口例如视频接口190将监视器191或其它类型的显示装置连接至系统总线121。除了监视器外,计算机还可包括其它外围输出设备例如扬声器197和打印机196,其可通过输出外部接口190连接。
计算机110可使用至一个或多个远程计算机例如远程计算机180的逻辑连接来在网络环境中运行。远程计算机180可以是个人计算机、服务器、路由器、网络PC、同级装置(peer device)或其它公用网络结点,并且通常包括相对于计算机110许多或全部上述元件,虽然在图1中只举例说明了记忆存储设备181。图1中描述的逻辑连接包括局域网(LAN)171和广域网(WAN)173,但还可包括其它网络。此类网络环境在办公室、企业范围的计算机网络、企业内部互联网和因特网中是很平常的。
当在LAN网络环境中使用时,通过网络接口或适配器170将计算机110连接至LAN 171。当在WAN网络环境中使用时,计算机110通常包括调制解调器172或用于建立利用WAN 173例如因特网的通讯的其它方法。可通过用户输入接口160或其它适当的机械装置将可以是内部或外部的调制解调器172连接至系统总线121。在网络环境中,可将相对于计算机110或其部分描述的程序模块存储在远程记忆存储设备中。例如但非限制性的,图1举例说明了如存在于存储设备181中的远程应用程序185。应理解,显示的网络连接是示例性的并且可使用建立计算机之间的通讯连接的其它方法。
虽然上述正文显示了本发明的许多不同实施方案的详细描述,但应当理解,本发明的范围由本专利的末尾处所示的权利要求的言语表达来界定。详细描述将被解释为仅为示例性的并且不描述本发明的每一个可能的实施方案,因为描述每一个可能的实施方案将是不现实的,如果不是不可能的话。可使用现有技术或在本专利提交日期后发展的技术(其仍然落在界定本发明的权利要求的范围内)实现许多可选择的实施方案。
虽然已描述优选以软件实施风险评估系统和方法以及其它组成部分,但也可以硬件、固件等实施它们,以及可通过任何其它处理器实施它们。因此,可以标准多用途CPU或专门设计的硬件或固件专用集成电路(ASIC)或其它硬线设备(需要时)(包括但不限于图1的计算机110)实施本文中描述的组成部分。当在软件中实施时,可将软件例程存储于任何计算可读存储器中例如存储在磁盘、光盘或其它存储介质中,于计算机或处理器的RAM或ROM中,于任何数据库等中。同样地,可将该软件通过任何已知的或期望的传送方法传送至用户或诊断系统,所述传送方法包括例如在计算机可读盘或其它便携式计算机存储机械装置上或利用通讯通道例如电话线、因特网、无线通讯等(这可被视为与通过便携式存储介质提供此类软件相同或可与其互换)。
因此,在本文中描述的和举例说明的技术和结构中可进行许多变动和变化而不背离本发明的精神和范围。因此,应当理解,本文中描述的方法和装置仅是举例说明性的并且不限定本发明的范围。
因此,本发明涉及使用本文中描述的多态型标志和单倍型和来源于其的基因和/或疾病相关数据的计算机实现的应用。此类应用可用于存储、处理或分析用于本发明的方法的数据。一个实例涉及将来源于个体的基因型信息存储在可读介质上,以使能够给第三方(例如,个体、个体的监护人、卫生保健提供者或遗传分析服务提供者)提供基因型信息,或用于从基因型数据获取信息,例如通过将基因型数据与关于促成增加的患甲状腺癌的易感性的遗传风险因素的信息相比较并且报告基于此类比较的结果。
一般术而言,计算机可读介质具有存储(i)如本文中描述的至少一个多态型标志或单倍型的标识符信息;(ii)患有甲状腺癌的个体中所述至少一个标志的至少一个等位基因的频率或单倍型频率的指标;和参照群体中所述至少一个标志的至少一个等位基因的频率或单倍型频率的指标的能力。参照群体可以是无疾病的个体群体。可选择地,参照群体是来自一般群体的随机样品,从而代表一般群体。频率指标可以是计算的频率、等位基因和/或单倍型拷贝的计数或适合于特定介质的实际频率的标准化或经处理的值。
本文中描述的与增加的对甲状腺癌的易感性(例如,增加的风险度)的标志和单倍型在某些实施方案中用于解释和/或分析基因型数据。因此在某些实施方案中,如本文中显示的针对甲状腺癌的有风险的等位基因的鉴定或与本文中显示的与甲状腺癌关联的任一个标志处于LD中的多态型标志上的等位基因的存在的确定标示着作为基因型数据源的个体处于增加的患甲状腺癌的风险中。在一个这样的实施方案中,产生至少一个本文中显示的与甲状腺癌关联的多态型标志或与其处于连锁不平衡中的标志的基因型数据。然后例如通过可利用因特网访问的用户界面,使第三方可一起获得该基因型数据和以例如疾病的风险度测量(例如绝对风险度(AR)、风险比(RR)或比值比(OR))的形式存在的基因型数据的解释,所述第三方例如作为数据源的个体、他/她的监护人或代理人、医生或卫生保健工作者、遗传咨询顾问或保险代理。在另一个实施方案中,评估在来源于个体的基因型数据集中鉴定的有风险的标志,并且例如通过安全性网络界面或通过其它通讯方法,使第三方可获得由此类有风险的变体在数据集中的存在赋予的风险度的评估的结果。可以以数值形式(例如,以风险度值,例如绝对风险度、相对风险度和/或比值比,或利用与参照相比较风险度的百分数增加)、通过图解方式或通过适合于举例说明对基因型作为数据源的个体的风险性的其它方式报告这样的风险评估的结果。
核酸和多肽
可将本文中描述的核酸和多肽用于本发明的方法和试剂盒。“分离的”核酸分子,如本文中所使用的,是与通常侧翼连接基因或核苷酸序列(例如在基因组序列中)的核酸分离的和/或已从其它转录的序列(例如,当在RNA文库中时)完全或部分纯化的核酸。例如,本发明的分离的核酸可基本上相对于其中天然存在的复杂细胞环境、或当通过重组技术产生时的培养基,或当化学合成时的化学前体或其它化学品而分离。在一些情况下,所述经分离的材料会形成组合物(例如,包含其它物质的粗制提取物)、缓冲系统或试剂混合物的一部分。在其它情况下,所述材料可被纯化至基本上同质,例如如通过聚丙烯酰胺凝胶电泳(PAGE)或柱层析(例如,HPLC)所测定的。本发明的分离的核酸分子可包含至少约50%,至少约80%或至少约90%(基于摩尔数)的所有存在的大分子种类。就基因组DNA而言,术语“分离的”还可指从与所述基因组天然相关联的染色体分离的核酸分子。例如,分离的核酸分子可包含小于约250kb、200kb、150kb、100kb、75kb、50kb、25kb、10kb、5kb、4kb、3kb、2kb、1kb、0.5kb或0.1kb的核苷酸,所述核苷酸侧翼连接作为所述核酸分子来源的细胞基因组DNA中的核酸分子。
所述核酸分子可被融合至其它编码或调控序列并且仍然被认为是分离的。因此,载体中包含的重组DNA包括在本文中使用的“分离的”的定义内。此外,分离的核酸分子包括异源宿主细胞或异源生物中的重组DNA分子,以及溶液中部分或基本上纯化的DNA分子。“分离的”核酸分子还包括本发明的DNA分子的体内和体外RNA转录物。分离的核酸分子或核苷酸序列可包括通过化学或通过重组方法合成的核酸分子或核苷酸序列。此类分离的核苷酸序列用于例如经编码的多肽的制造,用作分离同源序列(例如,从其它哺乳动物物种)的探针,用于基因定位(例如,通过与染色体原位杂交)或用于检测组织(例如,人组织)中基因的表达(例如通过Northern印迹分析或其它杂交技术)。
本发明还涉及在高严格度杂交条件下与本文中描述的核苷酸序列杂交(例如用于选择性杂交)的核酸分子(例如,与包含与本文中描述的标志或单倍型关联的多态型位点的核苷酸序列特异性杂交的核酸分子)。此类核酸分子可通过等位基因-或序列-特异性杂交(例如,在高严格度条件下)检测和/或分离。用于核酸分离的严格条件和方法是本领域技术人员熟知的(参见,例如,Current Protocols in MolecularBiology,Ausubel,F.等人,John Wiley & Sons,(1998)和Kraus,M.and Aaronson,S.,Methods Enzymol.,200:546-556(1991),其全部教导通过此引用合并入本文。
可通过就最佳比较目的比对序列(例如,可在第一序列的序列中引入缺口)来测定两个核苷酸或氨基酸序列的百分数同一性。然后比较相应位置上的核苷酸或氨基酸,并且两个序列之间的百分数同一性是由序列共有的相同位置的数目的函数(即,同一性%=相同位置的#/总位置#×100)。在某些实施方案中,就比较目的比对的序列的长度是参照序列的长度的至少30%、至少40%、至少50%、至少60%、至少70%、至少80%、至少90%或至少95%。可通过熟知的方法,例如,使用数学算法实现两个序列的实际比较。这样的数学算法的非限定性实例描述于Karlin,S.和Altschul,S.,Proc.Nat1.Acad.Sci.USA,90:5873-5877(1993)中。将这样的算法合并入NBLAST和XBLAST程序(版本2.0)中,如Altschul,S.等人,Nucleic Acids Res.,25:3389-3402(1997)中所描述的。当使用BLAST和Gapped BLAST程序时,可使用各自程序(例如,NBLAST)的缺省参数。参见ncbi.nlm.nih.gov上的万维网上的网站。在一个实施方案中,可将用于序列比较的参数设置在评分=100、字长=12,或可变化(例如,W=5或W=20)。算法的另一个实例是BLAT(Kent,W.J.Genome Res.12:656-64(2002))。
其它实例包括Myers和Miller,CABIOS(1989)的算法,于Torellis,A.和Robotti,C.,Comput.Appl.Biosci.10:3-5(1994)中描述的ADVANCE和ADAM以及于Pearson,W.和Lipman,D.,Proc.Nat1.Acad Sci.USA,85:2444-48(1988)中描述的FASTA。
在另一个实施方案中,可使用GCG软件包(Accelrys,Cambridge,UK)中的GAP程序获得两个氨基酸序列之间的百分数同一性。
本发明还提供了分离的核酸分子,所述核酸分子包含在高度严格条件下与包含或由SEQ ID NO:1-229的任一个的核苷酸序列组成的核酸、或包含或由SEQ ID NO:1-229的任一个的核苷酸序列的互补序列组成的核苷酸序列杂交的片段或部分,其中所述核苷酸序列包含本文中描述的标志和单倍型中包含的至少一个多态型等位基因。本发明的核酸片段为至少约15个、至少约18、20、23或25个核苷酸,并且在长度上可为30、40、50、100、200、500、1000、10,000或更多个核苷酸。
将本发明的核酸片段在测定例如本文中描述的测定中用作探针或引物。“探针”或“引物”是以碱基特异性方式与核酸分子的互补链杂交的寡核苷酸。除了DNA和RNA外,此类探针和引物包括多肽核酸(PNA),如Nielsen,P.等人,Science 254:1497-1500(1991)中所描述的。探针或引物包含与核酸分子的至少约15个,通常约20-25个以及在某些实施方案中约40、50或75个连续核苷酸杂交的核酸序列的区域。在一个实施方案中,探针或引物包含本文中描述的至少一个多态型标志的至少一个等位基因或至少一个单倍型,或其互补序列。在特定实施方案中,探针或引物可包含100个或更少的核苷酸;例如,在某些实施方案中6至50个核苷酸,例如12至30个核苷酸。在其它实施方案中,探针或引物与连续核苷酸序列或与所述连续核苷酸序列的互补序列至少70%同一,至少80%同一,至少85%同一,至少90%同一或至少95%同一。在另一个实施方案中,探针或引物能够与连续核苷酸序列或与所述连续核苷酸序列的互补序列选择性杂交。通常,探针或引物还包含标记物,例如放射性同位素、荧光标记物、酶标记物、酶辅因子标记物、磁标记物、自旋标记物、表位标记物。
可使用本领域技术人员熟知的标准分子生物学技术鉴定和分离本发明的核酸分子例如上述核酸分子。可标记(例如,放射性标记、荧光标记)扩增的DNA并且将其用作筛选来源于人细胞的cDNA文库的探针。cDNA可来源于mRNA并包含在适当的载体中。可分离相应的克隆,在体内切除后获得的DNA,并且可通过本领域公认的鉴定编码适当分子量的多肽的正确阅读框架的方法在任一或两个方向上测定克隆的插入物的序列。通过使用此类或相似的方法,可分离多肽和编码所述多肽的DNA,测序并进一步表征。
抗体
还提供了特异性结合基因产物的一种形式但不结合基因产物的其它形式的多克隆抗体和/或单克隆抗体。还提供了结合包含多态型位点的变体或参照基因产物的一部分的抗体。本文中使用的术语“抗体”意指免疫球蛋白分子和免疫球蛋白分子的免疫活性部分,即,包含特异性结合抗原的抗原结合部位的分子。特异性结合本发明的多肽的分子是结合该多肽或其片段但基本上不结合样品例如生物样品(所述样品天然包含多肽)中的其它分子的分子。免疫球蛋白分子的免疫活性部分的实例包括F(ab)和F(ab′)2片段,其可通过用酶例如胃蛋白酶处理抗体来产生。本发明提供了结合本发明的多肽的多克隆和单克隆抗体。本文中使用的术语“单克隆抗体”或“单克隆抗体组合物”意指只包含一种能够与本发明的多肽的特定表位免疫反应的抗原结合部位的抗体分子的群体。因此单克隆抗体组合物通常展示对于与其免疫反应的本发明的特定多肽的单一结合亲和力。
可如上所述通过用期望的免疫原例如本发明的多肽或其片段免疫适当的受试者来制备多克隆抗体。可在一段时间内利用标准方法,例如使用固定多肽的酶联免疫吸附测定(ELISA)来监控已免疫的受试者中的抗体滴度。需要时,可从哺乳动物(例如,从血液)分离针对多肽的抗体分子,然后通过熟知的技术例如A蛋白层析进行纯化以获得IgG级分。在免疫后适当的时间,例如,当抗体滴度最高时,可从受试者获得抗体产生性细胞,并且利用标准技术将其用于制备单克隆抗体,所述标准技术是例如最初由Kohler和Milstein,Nature256:495-497(1975)描述的杂交瘤技术、人B细胞杂交瘤技术(Kozbor等人,Immunol.Today 4:72(1983))、EBV-细胞杂交瘤技术(Cole等人,Monoclonal Antibodies and Cancer Therapy,Alan R.Liss,1985,Inc.,pp.77-96)或三源杂交瘤技术。用于产生杂交瘤的技术是熟知的(通常参见Current Protocols in Immunology(1994)Coligan等人,(eds.)John Wiley & Sons,Inc.,New York,NY)。简而言之,将永生化细胞系(通常骨髓瘤)融合至来自上述用免疫原免疫的哺乳动物的淋巴细胞(通常脾细胞),然后筛选所得杂交瘤细胞的培养上清液以鉴定产生结合本发明的多肽的单克隆抗体的杂交瘤。
可将用于融合淋巴细胞和永生化细胞系的许多熟知的方案的任一方案用于产生针对本发明的多肽的单克隆抗体的目的(参见,例如,Current Protocols in Immunology,同上;Galfre等人,Nature266:55052(1977);R.H.Kenneth,in Monoclonal Antibodies:A NewDimension In Biological Analyses,Plenum Publishing Corp.,New York,New York(1980);和Lerner,Yale J.Biol.Med.54:387-402(1981))。此外,本领域技术人员将理解此类方法的许多变型也是有用的。
作为制备单克隆抗体分泌性杂交瘤的替代方法,可通过用多肽筛选重组组合免疫球蛋白文库(例如,抗体噬菌体展示文库)从而分离结合所述多肽的免疫球蛋白文库成员来鉴定和分离针对本发明的多肽的单克隆抗体。用于产生和筛选噬菌体展示文库的试剂盒是商购可得的(例如,the Pharmacia Recombinant Phage Antibody System,Catalog No.27-9400-01;和Stratagene SurfZAPTM Phage Display试剂盒,Catalog No.240612)。此外,特别易于用于产生和筛选抗体展示文库的方法和试剂的实例可见于例如美国专利5,223,409;PCT公开案WO 92/18619;PCT公开案WO 91/17271;PCT公开案WO 92/20791;PCT公开案WO 92/15679;PCT公开案WO 93/01288;PCT公开案WO92/01047;PCT公开案WO 92/09690;PCT公开案WO 90/02809;Fuchs等人,Bio/Technology 9:1370-1372(1991);Hay等人,Hum.Antibod.Hybridomas 3:81-85(1992);Huse等人,Science 246:1275-1281(1989)和Griffiths等人,EMBO J.12:725-734(1993)中。
此外,重组抗体例如包含人和非人部分的嵌合和人源化单克隆抗体(其可使用标准重组DNA技术制备)在本发明的范围内。可通过本领域内已知的重组DNA技术产生此类嵌合和人源化单克隆抗体。
一般地,可将本发明的抗体(例如,单克隆抗体)用于利用标准技术例如亲和层析或免疫沉淀分离本发明的多肽。多肽特异性抗体可帮助纯化来自细胞的天然多肽和在宿主细胞中表达的重组产生的多肽。此外,特异于本发明的多肽的抗体可用于检测所述多肽(例如,在细胞裂解物、细胞上清液或组织样品中)以评估多肽的丰度和表达模式。可在诊断上使用抗体监控组织中蛋白质的水平(作为临床检测方法的一部分)例如以例如测定给定的治疗方案的功效。还可将抗体与可检测物质偶联以帮助其检测。可检测物质的实例包括各种酶、辅基、荧光材料、发光材料、生物发光材料和放射性材料。适当的酶的实例包括辣根过氧化物酶、碱性磷酸酶、β-半乳糖苷酶或乙酰胆碱酯酶;适当的辅基复合物的实例包括链霉抗生物素蛋白/生物素和抗生物素蛋白/生物素;适当的荧光材料的实例包括伞形酮、荧光素、异硫氰酸荧光素、罗丹明、二氯三嗪胺(dichlorotriazinylamine)荧光素、丹磺酰氯或藻红蛋白;发光材料的实例包括鲁米诺;生物发光材料的实例包括荧光素酶、萤光素和水母荧光素以及适当的放射性材料的实例包括125I、131I、35S或3H。
抗体还可用于药物基因组学分析。在此类实施方案中,抗体由根据本发明的核酸编码的变异蛋白例如由包含至少一个本发明的多态型标志的核酸编码的变异蛋白的抗体,可用于鉴定需要改进的治疗模式的个体。
抗体还可用于评估疾病状态中例如疾病的活动期中或具有对与变异蛋白的功能相关的疾病(特别是甲状腺癌)的易感性的个体中所述变异蛋白的表达。特异于本发明的变异蛋白(其由包含至少一个本文中描述的多态型标志或单倍型的核酸编码)的抗体可用于筛查变异蛋白的存在,例如以筛查对甲状腺癌的易感性,如由所述变异蛋白的存在所表明的。
抗体可用于其它方法。因此,抗体用作与利用电泳迁移率、等电点、胰蛋白酶或其它蛋白酶降解的分析结合用于评估蛋白质(例如本发明的变异蛋白)或用于本领域技术人员已知的其它物理测定的诊断工具。抗体还可用于组织分型。在一个这样的实施方案中,已将特定变异蛋白与特定组织类型中的表达发生关联,因此可将特异于变异蛋白的抗体用于鉴定特定组织类型。
还可使用抗体确定蛋白质包括变异蛋白的亚细胞定位,所述蛋白质的亚细胞定位还可用于评估蛋白质在不同组织的细胞中的异常亚细胞定位。此类用途可用于基因测定,而且还可用于监控特定治疗模式。在其中治疗的目的在于矫正变异蛋白的表达水平或存在或变异蛋白的异常组织分布或发育表达的情况下,特异于变异蛋白或其片段的抗体可用于监控治疗功效。
抗体还用于例如通过阻断变异蛋白对结合分子或伴侣的结合来抑制变异蛋白的功能。此类用途还可用于其中治疗包括抑制变异蛋白的功能的治疗背景。还可将抗体例如用于阻断或竞争性抑制结合,从而调控(激动或拮抗)蛋白质的活性。可制备抗包含进行特定功能所需的位点的特定蛋白质片段或抗与细胞或细胞膜结合的完整蛋白质的抗体。为了进行体内施用,可将抗体与另外的治疗有效载荷(therapeuticpayload)例如放射性核素、酶、免疫原性表位或细胞毒性剂(包括细菌毒素(白喉或植物毒素,例如蓖麻蛋白))连接。可通过缀合至聚乙二醇的PEG化来增加抗体或其片段的体内半衰期。
本发明还涉及在本文中描述的方法中使用抗体的试剂盒。这包括但不限于用于检测变异蛋白在测试样品中的存在的试剂盒。一个优选实施方案包括抗体例如标记的或可标记的抗体和用于检测生物样品中的变异蛋白的化合物或试剂,用于测定样品中变异蛋白的量或存在和/或不存在的方法以及用于将样品中变异蛋白的量与标准相比较的方法,以及试剂盒使用说明书。
本发明现通过下列非限定性实施例来举例说明。
实施例1
赋予患甲状腺癌的风险的染色体9q22.33上的风险变体的鉴定
甲状腺癌在冰岛的发病率比相邻国家高并且是世界上发病率最高的国家之一。冰岛每100,000个人的年龄标准化的发病率对于男性和女性分别为5和12.5个人。诊断时的平均年龄是61岁(对于男性)和47岁(对于女性)。在冰岛组织学亚型之间的分布与在其它工业化国家的相似。乳头状组织学亚型是最频繁的,代表了直至80%的所有甲状腺癌,第二频繁的是滤泡型(约14%),第三是退行发育型,代表了约5%的所有甲状腺病例,最不常见的是髓样型(约1%)。
受试者
该研究的批准由冰岛的国家生物伦理委员会和冰岛信息保护专局授权。
我们用于甲状腺癌研究的样品集合充分代表了冰岛的总体分布。在我们基因分型的406个病例中,309(82%)个是乳头状型,53(14%)个是滤泡状型,7(1.5%)个是髓样甲状腺癌,以及37个是未知的或未确定的组织学亚表型。
下面表1中所示的结果是我们的全部病例的合并结果,因为在不同组织学亚组之间未观察到统计学上显著的差异。
28,858个冰岛人对照由来自在deCODE genetics进行的其它正在进行的全基因组关联研究的个体组成。排除具有甲状腺癌的诊断的个体。包括男性和女性。
基因分型
在针对甲状腺癌的易感性变体的全基因组搜索中,在IlluminaHap300 SNP bead微阵列(Illumina,San Diego,CA,USA)上对来自经诊断患有甲状腺癌的冰岛患者和群体对照的样品进行基因分型,所述微阵列包含317,503个来源于International HapMap项目的I期的SNP。对于常见SNP,该芯片以r2≥0.8在Utah CEPH(CEU)HapMap样品中提供了约75%的基因组覆盖(Barrett和Cardon,(2006),NatGenet,38,659-62)。在分析之前除去因为它们是单态的(组合的患者和对照组群中低于0.001的小等位基因频率)或因为它们具有低(<95%)产率而被认为是不适宜的标志。
利用Centaurus SNP基因分型(Kutyavin,等人,(2006),NucleicAcids Res,34,e128)进一步评估标志rs907580、rs7024345和rs965513。
在deCODE genetics的设备上进行全部基因分型。
统计分析
我们采用乘法模型(即假定人携带的两个等位基因的相对风险相乘)计算SNP等位基因的比值比(OR)。对于所述标志提供了等位基因频率而非携带者频率。使用在NEMO软件包中执行的标准似然比卡方统计(Gretarsdottir,等人,(2003),Nat Genet,35,131-8)计算相关的P值。假定OR的评估具有对数正态分布,计算置信区间。
全部P值报告为双侧的。
结果
在从Illumina Hap300芯片分析基因型后,我们在染色体9q22.33上发现了3个显示非常显著的与甲状腺癌的关联性的标志rs965513、rs907580和rs7024345。我们通过使用Centaurus基因分型测定对另外的病例进行基因分型来跟踪这些结果。结果示于表1A中。
全部3个标志产生与甲状腺癌的全基因组显著关联性(对317,000个测试的校正需要小于0.05/317,000~1.5×10-8的P值),对于rs965513获得最显著的结果(OR 1.77,P值1.18×10-15)。rs907580和rs702345标志与rs965513相关,r2值为0.90(表1B),此类标志因而最可能捕获相同的关联信号。
表1A.染色体9q22.33上的变体与甲状腺癌的关联性。显示了标示、相关等位基因、关联性的P值、等位基因风险的比值比、病例和对照的数量以及病例和对照中等位基因的频率。
  标志   等位基因   P值   OR   病例数量   病例频率   对照数量   对照频率
  rs965513   1   1.18E-15   1.77   404   0.491   28858   0.353
  rs965513   3   1.18E-15   0.56   404   0.509   28858   0.647
  rs907580   1   4.56E-12   1.67   403   0.397   28833   0.283
  rs907580   3   4.56E-12   0.60   403   0.603   28833   0.717
  rs7024345   1   1.62E-09   1.56   406   0.385   28852   0.286
  rs7024345   3   1.62E-09   0.64   406   0.615   28852   0.714
表1B.提供与甲状腺癌的最强关联性的3个标志的LD特征。在高加索人HapMap样品中测定LD(http://www.hapmap.org)
  M-1   M-2   D′   r2   P值   位置(B36)
  rs7024345   rs907580   1   0.948461   1.40E-45   99635059
  rs7024345   rs965513   0.90033   0.454289   7.25E-14   99635059
  rs907580   rs965513   0.897329   0.433569   3.20E-13   99662418
表2.与rs965513处于连锁不平衡(LD)中的替代SNP。标志选自高加索HapMap数据集,使用大于0.1的r2的截断值。显示了标志名称、锚定标志、两个标志之间的LD的D′和r2的值、相应的P值、人基因组装配的NCBI Build 36中标志的位置和标志的侧翼序列、标志的侧翼序列的SEQ ID的标志符。
实施例2
为了搜索赋予患甲状腺癌的风险的序列变体,我们使用利用Illumina HumanHap300和HumanCNV370-duo Bead芯片基因分型平台基因分型的192个组织病理学上确认的冰岛甲状腺癌病例和37,196个对照进行全基因组关联研究(GWAS)。此外,我们使用其中将已知基因型的亲属用于提供关于未基因分型(in silico基因分型)的甲状腺癌病例的信息的方法,以加入平均每SNP等于另外186个甲状腺癌患者的基因型(Gudbjartsson,DF等人Nat Genet 40:609-15(2008))。在除去未通过质量检查的SNP后,关联性测试了总共304,083SNP。我们采用乘法模型计算每一个SNP的等位基因比值比(OR),并且为了测试的目的,计算标准似然比χ2统计量。使用基因组控制的方法(Devlin B & Roeder K Biometrics 55:997-1004(1999))就个体之间的亲缘关系和就潜在的群体分层调整结果;将χ2统计量除以估计的膨胀系数1.09。
我们观察到与9q22.33上的叉头因子E1(FOXE1)基因相同地位于连锁不平衡(LD)区域中的几个强信号(图2;表3)。为了确认这些结果,我们使用Centaurus单道测定基因分型在另外的241个冰岛甲状腺癌病例中对这些SNP进行基因分型。合并这些结果和来自GWAS的结果,对于rs965513的等位基因A(rs965513-A)和rs10759944的等位基因A(rs10759944-A)观察到最强的关联性信号,对于这两个变体(对于rs965513和rs10759944,分别地P=6.8×10-20和P=1.7×10-19)OR为1.77(表3和表4)。这两个SNP是彼此几乎完美的替代物(r2=1,在Utah CEPH(CEU)HapMap样品中,以及r2=0.998,在冰岛人样品中)并且由于变体的效应彼此不能区别,因而我们在随后的研究中选择集中于rs965513-A。通过在多元分析中控制rs965513-A,9q22.33上剩下的SNP没有一个是显著的。
我们接着使用来自Columbus,Ohio,United States(US)(342个病例和384个对照)和西班牙(90个病例和1,343对照)的群体在两个欧洲人后裔的病例-对照组中测试rs965513与甲状腺癌的关联性。与rs965513的关联性在这两个研究组中都得到重复(表4)。3个研究群体之间的OR的异质性的测试显示无显著差异(P=0.58,对于rs965513)。组合来自冰岛的结果,哥伦布和西班牙给出了针对rs965513-A的为1.75的估计的OR(P=1.7×10-27)。
为了研究遗传模式,我们计算基因型特异性OR并且发现乘法模型为这两个变体都提供了足够的拟合(表5)。一般群体中约11%的个体是rs965513-A的纯合携带者。rs965513-A的纯合携带者据估计各自具有与非携带者相比较3.1倍的发生疾病的更大风险。此外,我们观察到在全部3个群体中rs965513-A的频率在于年轻时诊断的病例中更高。通过组合的数据,估计对于携带的每一个等位基因,诊断时的年龄下降2.42年(P=0.0014)(表6)。
我们分析r s 965513在4个主要组织学类型的甲状腺癌中的效应。大部分西班牙人和冰岛人样品集合由PTC(约85%)和FTC(约12%)组成并且来自哥伦布的全部病例是PTC。对于rs965513-A,只基于冰岛人和西班牙人样品,在3个群体的组合分析中观察到的PTC的OR为1.80(P=4.7×10-23)并且对于FTC,OR为1.55(P=0.016)(表7)。这证明了变体影响两个主要组织类型的甲状腺癌的风险。其它组织学甲状腺癌类型的数量太有限以至不能得出有意义的结论。
SNP rs965513存在于9q22.33的LD区内,在所述LD区中已定位了下列基因:XPA、FOXE1、C9orf156和HEMGN(图2)。最靠近的基因是FOXE1,其离位于rs965513末端着丝粒距离约57kb。FOXE1对于垂体-和甲状腺形成都是非常重要的(Dathan,N等人Dev Dyn224:450456(2002);De Felice,M等人Nat Genet 19:395-98(1998))并且处于在胚胎期起始甲状腺分化的转录因子和辅因子的调控网络的中心(Parlato R等人.DevBiol 276:464-75(2004))。此外,FOXE1基因的突变引起除其它表型以外与甲状腺发育不全相关的人综合征(De Felice,M等人Nat Genet 19:395-98(1998);Clifton-Bligh RJ等人Nat Genet 19:399-1401(1998))。基于其参与调节甲状腺特异性基因例如甲状腺球蛋白(Tg)和甲状腺过氧化物酶(TPO)基因的转录,FOXE1也是维持甲状腺的分化状态所必需的。这两个基因的受调节的表达是甲状腺激素三碘甲状腺原氨酸(T3)和甲状腺素(T4)的合成的中枢,因为Tg的合成是T3和T4的前体,并且它们的合成由TPO催化。甲状腺激素合成和分泌控制的中枢是用作主要调节剂的促甲状腺激素(TSH)。
鉴于FOXE1牵涉甲状腺的生物学,我们评估rs965513-A对血清中TSH(N=12,035)、游离T4(N=7,108)和游离T3(N=3,593)的循环水平的效应。使用的数据来自在11年的期间内(从1997至2008)从不知道是否具有甲状腺癌的冰岛人收集的系列测量(表8)。rs965513-A与减少的TSH的血清水平关联(每拷贝rs965513-A减少5.9%(P=2.90×10-14;表9)),还以相反的方向与T3和T4的血清水平关联;与T3的水平的增加(每拷贝rs965513-A增加1.2%)和T4的水平的降低(每拷贝rs965513-A降低1.2%)关联(对于T3和T4,分别地P=3.00×10-3和6.10×10-5)(表9)。这些数据显示9q22.33变体影响甲状腺的内分泌功能的一些方面。
综合起来,9q22.33上的rs965513对甲状腺和甲状腺相关激素的效应、rs965513与FOXE1的靠近以及FOXE1对甲状腺特异性基因的控制效应强烈地暗示着甲状腺癌与rs965513之间的关联性通过包括FOXE1的过程介导。此外,已显示FOXE1的表达在甲状腺肿瘤中是异常的(Sequeira,MJ等人Thyroid 995-1001(2001))。该变体从而可能是对甲状腺癌的遗传易感性的最重要的决定因素之一。
方法
受试者。冰岛人研究群体。基于来自冰岛癌症登记(ICR)的全国性名单(http://www.krabbameinsskra.is/)鉴定经诊断患有甲状腺癌的个体,所述ICR包括从1995年1月1日至2007年12月31日诊断的全部1110个冰岛甲状腺癌患者。其中1.097个是非髓性甲状腺癌。冰岛甲状腺癌研究群体由从2000年11月至2008年4月招募的460个患者(从1974年12月至2007年6月诊断的)组成,其中454(98%)个在该研究中成功地进行了基因分型。已对用于本研究的全部甲状腺癌的组织学进行了再检查和确认。使用Illumina SentrixHumanHap300(n=96)和HumanCNV370-duo Bead芯片(n=96)微阵列(Illumina,San Diego,CA,USA)将总共192个患者包括在全基因组SNP基因分型努力中,并且按照我们的质量标准对所述患者成功地进行了基因分型,并且将其用于本病例-对照关联分析。剩下的241个病例使用Centaurs单道基因分型平台进行基因分型。提供知情同意的患者诊断时的平均年龄为44岁(中值年龄43岁)并且范围为13至87岁,然而对于ICR中的全部甲状腺癌患者,诊断时的平均年龄是56岁。从诊断至血液取样的平均时间是10年(范围0至46岁)。当我们比较在1998年以前诊断的个体与1998年或之后诊断的个体之间的A-rs965513的频率时,未观察到显著差异(P=0.97)。用于本研究的37,202个对照(16,109个男性(43.3%)和21,093女性(56.7%))由属于在deCODE进行的不同遗传研究项目的个体组成。个体已被诊断患有心血管系统的常见疾病(例如,卒中或心肌梗塞)、精神病和神经病(例如精神分裂症、双相型障碍(bipolar disorder)),内分泌和自身免疫系统(例如2型糖尿病、哮喘)、恶性病(例如乳腺癌或前列腺癌)以及个体随机选自冰岛系谱数据库。没有单个疾病项目代表6%以上的对照总数。对照具有84岁的平均年龄并且范围是8至105岁。线性回归分析显示在冰岛人对照中在A-rs965513的等位基因频率与出生年龄之间无相关性(P>0.2)。对照不存在于根据ICR的甲状腺患者的全国性名单中。使用标准方法从全血分离冰岛人病例和对照的DNA。
研究由冰岛信息保护专局(Data Protection Commission ofIceland)和冰岛国家生物伦理委员会批准。从所有受试者获得书面知情同意。与医学资料和血液样品相随的个人身份标识号(Personalidentifiers)用之前描述的第三方加密系统加密(Gulcher,JG等人Eur J Hum Genet 8:739-42(2000))。
美国俄亥俄哥伦布。研究由Ohio State University的伦理委员会批准。全部受试者提供书面知情同意。病倒(n=342)是组织学上确认的乳头状甲状腺癌患者(包括常规PTC和滤泡状变体PTC)。这些患者加入Ohio State University综合性肿瘤中心,除了一个病例是通过人类组织网(cooperative human tissue network,CHTN)获得的;该病倒加入University of Pennsylvania医学中心。全部病例是高加索人;92个男性,250个女性,平均年龄40岁,范围13至88岁。从血液样品或PTC患者的新鲜冷冻正常甲状腺组织提取基因组DNA。对照(n=384)是来自俄亥俄中心地区的不具有临床上被诊断的甲状腺癌的个体。全部对照是高加索人,143个男性,241个女性,平均年龄51岁,范围18至94岁。
西班牙人。西班牙人研究群体由90个甲状腺癌病例组成。从2006年10月至2007年6月从西班牙萨拉戈萨的萨拉戈萨医院的肿瘤科招募病例。全部患者是自我报告的欧洲人后裔。包括发病年龄、等级和分期的临床信息获自医疗记录。患者诊断时的平均年龄为48岁(中值年龄49岁)并且范围是22至79岁。在萨拉戈萨的大学医院接洽具有51岁的平均年龄(中值年龄50岁并且范围12至87岁)的1,343个西班牙人对照个体579(43%)个男性和764(57%)个女性,所述个体已知不具有甲状腺癌。使用标准方法从全血分离西班牙人病例和对照的DNA。研究方案由萨拉戈萨大学院的生物伦理委员会批准。全部受试者提供书面知情同意。
统计分析
关联性分析。将之前描述的(Gretarsdottir S等人Nat Genet35:131-38(2003))和在NEMO软件中实现的似然性方法用于关联性分析。试图就报导的SNP对全部个体进行基因分型。在第一个组中对于SNP产率高于95%。我们使用标准似然比统计量测试等位基因与甲状腺癌的关联性,如果受试者不相关,则所述统计量具有渐近地χ2分布,在零假设下具有一个自由度。在正文中提供了标志的等位基因频率而非携带者频率。采用乘法模型计算个体的两条染色体上的等位基因特异性OR和相关P值(Falk CT & Rubinstein P Ann Hum Genet 51(Pt3):227-33(1987))。对于三个病例-对照组的每一个组,与对照中的HWE无显著偏差(P>0.3)。使用Mantel-Haenszel模型(Mantel,N &Haenszel,W J Nat1 Cancer Inst 22:719-48(1959))组合来自多个病例-对照组的结果,在所述模型中允许所述组具有不同的等位基因和基因型的群体频率,但假定具有具有共同的相对风险(也参见Gudmundsson等人Nat Genet 39:977-83(2007))。
亲缘关系的校正和基因组控制。冰岛人GWAS组中的一些个体彼此相关,从而引起上述χ2检验统计量具有大于1的平均值。我们通过使用基因组控制的方法(Devlin B.Roeder K.Biometrics55:997-1004(1999)估计膨胀系数,计算304,083个χ2统计量的平均值来估计膨胀系数。根据该方法,膨胀系数估计为1.09。基于因单测定基因分型而引起的基因分型的和in-silico基因分型的病例的样品容量的变化,我们估计组合的冰岛人样品组的膨胀系数为1.12。相应地调整组合的冰岛人样品中与甲状腺癌的关联性的检验的χ2统计量。
基因分型
Illumina基因分型。分别用Illumina Sentrix HumanHap300或HumanCNV370-duo Bead芯片(Illumina,San Diego,CA,USA)测定192和37,202个冰岛病例-和对照-样品,并且按照我们的质量控制标准成功地对样品进行了基因分型。在于芯片上测定的SNP中,具有低于95%的产率的SNP在组合的病例和对照组中具有低于0.01的小等位基因频率,或为单态的(从而从分析中略去)。另外4,632个SNP显示与对照中的Hardy-Weinberg平衡显著偏离(P<1.0×10-3)。总共从研究中除去13,420个独特的SNP。因此,正文中报告的分析利用304,083个SNP。将具有低于98%的位点分型成功率(call rate)任何样品从分析中排除。
单道测定SNP基因分型。利用Centaurus(Nanogen)平台(Kutyavin,IV等人Nucleic Acids Res 34:e128(2006))通过冰岛雷基亚比克的deCODE Genetics进行来自冰岛和西班牙人的两个病例-对照组的单SNP基因分型。通过在CEU和/或YRI HapMap样品中对每一个测定进行基因分型并且将结果与HapMap公开释放的数据相比较来评估每一个CentaurusSNP测定的质量。不使用具有大于1.5%的错配率的测定,并且将连锁不平衡(LD)测定用于已知处于LD中的标志。我们使用Illumina Hap300芯片和Centaurus单道SNP测定对330个个体进行了基因分型并且观察到低于0.5%的错配率。
使用之前描述的(He H.等人Thyroid 15:660-667(2005))在OhioState University的SNaPshot(PE Applied Biosystems,Foster City,CA)基因分型平台进行来自俄亥俄研究群体的样品的基因分型。
TSH、游离T4和游离T3的测量。
测量1997年至2008年于冰岛医疗中心(Laeknasetrid)(致力于内科学的诊所)寻求医疗保健的冰岛人的TSH、游离T4和、游离T3水平。在Mjodd,Reykjavik,Iceland的实验室进行测量。弃去指定的范围之外的测量。使用广义相加模型就测量时的性别和年龄调整对数转换的测量。在当多个测量对于单个个体是可获得的情况下,将对数调整的测量的平均值用于随后的分析。使用经典线性回归将年龄和性别调整的对数转换的测量对等位基因计数进行回归。
表4.冰岛、西班牙和美国的rs965513与甲状腺癌的关联性结果
显示了病例和对照(n)的相应数量、变体在患病和对照个体中的等位基因频率、对于95%置信区间的等位基因比值比(OR)(95%c.i.)和基于乘法模型的P值。显示的全部P值是双侧的。
a冰岛人全基因病例研究群体由具有来自Illumina Hap300/370芯片(n=192)的基因型的个体和具有来自in-silico分析(n=每标志平均186)的基因型的个体组成。
b组合的冰岛人全部研究群体由具有来自Illumina Hap300/370芯片的基因型的个体和具有来自单道测定基因分型(n=454)的基因型的个体以及具有来自in-silico分析(n=每标志平均125)的基因型的个体组成。使用Illumina Hap300/370芯片对冰岛人对照进行基因分型。
c对于合并的研究群体,报告的对照频率是个体群体的平均未加权的对照频率,同时使用Mantel-Haenszel模型评估OR和P值。
表5.rs965513的基因型相对风险的无模型假评估(A)
a与非携带者(00)的风险度相比较的杂合-(0X)和纯合携带者(XX)的基因型相对风险度。
b增殖模型对完全模型的测试,一个自由度
表6.就诊断时的a)性别和b)年龄进行的rs965513-A的关联性分析。
全部P值都是双侧的。(a)显示了具有95%的置信区间(95%c.i.)的等位基因比值比(OR)和基于男性比较女性中的相关风险变体的频率的关联性分析的P值。(b)显示了对诊断时的年龄(以岁表示)的影响,95%c.i的风险等位基因(rs965513-A)的携带的等位基因。
负号(″-″)表示诊断时年龄的下降以及正号(″+″)表示诊断时年龄的增加。
a每患者测量的数量的几何平均值。
显示了个体(n)与给定的类型的测量和已知的rs965513携带者状态的关联性结果(每风险等位基因)。负号(″-″)表示减少的甲状腺相关激素的浓度以及正号(″+″)表示增加的浓度。

Claims (4)

1.用于在人个体的基因组中选择性检测至少一个多态型标志的至少一个等位基因的试剂在制备用于测定所述人个体中对甲状腺癌的易感性的试剂盒中的用途,其中所述至少一个多态型标志选自下组:rs965513、rs10759944、rs907580、rs10984103、rs925487、rs7024345和rs1443434,其中标志rs965513中的等位基因A、标志rs907580中的等位基因A、标志rs10759944的等位基因A、标志rs10984103中的等位基因A、标志rs925487中的等位基因G、标志rs7024345中的等位基因A和标志rs1443434中的等位基因G的存在标示着个体中增加的对甲状腺癌的易感性。
2.权利要求1的用途,其还包括评估个体中至少一个单倍型的频率。
3.权利要求1或2的用途,其中所述至少一个等位基因或单倍型的存在标示着具有相对风险度(RR)或比值比(OR)为至少1.6的增加的对甲状腺癌的易感性。
4.权利要求3的用途,其中所述至少一个等位基因或单倍型的存在标示着具有相对风险度(RR)或比值比(OR)为至少1.7的增加的易感性。
CN200980139521.2A 2008-08-12 2009-08-12 用于甲状腺癌症的风险评估的遗传变型 Expired - Fee Related CN102177252B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
IS8755 2008-08-12
IS8755 2008-08-12
IS8791 2009-02-05
IS8791 2009-02-05
PCT/IS2009/000010 WO2010018600A1 (en) 2008-08-12 2009-08-12 Genetic variants useful for risk assessment of thyroid cancer

Publications (2)

Publication Number Publication Date
CN102177252A CN102177252A (zh) 2011-09-07
CN102177252B true CN102177252B (zh) 2014-12-24

Family

ID=41217645

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200980139521.2A Expired - Fee Related CN102177252B (zh) 2008-08-12 2009-08-12 用于甲状腺癌症的风险评估的遗传变型

Country Status (10)

Country Link
US (1) US20110230366A1 (zh)
EP (1) EP2334820A1 (zh)
JP (1) JP2011530306A (zh)
KR (1) KR20110081807A (zh)
CN (1) CN102177252B (zh)
AU (1) AU2009280807A1 (zh)
CA (1) CA2733910A1 (zh)
IL (1) IL211177A0 (zh)
NZ (1) NZ591613A (zh)
WO (1) WO2010018600A1 (zh)

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10236078B2 (en) 2008-11-17 2019-03-19 Veracyte, Inc. Methods for processing or analyzing a sample of thyroid tissue
US9495515B1 (en) 2009-12-09 2016-11-15 Veracyte, Inc. Algorithms for disease diagnostics
NZ593628A (en) * 2008-11-26 2013-07-26 Decode Genetics Ehf Genetic variants useful for risk assessment of thyroid cancer using rs944289
JP6078339B2 (ja) 2009-05-07 2017-02-08 ベラサイト インコーポレイテッド 甲状腺状態の診断のための方法および組成物
US20140087961A1 (en) * 2011-03-17 2014-03-27 Illumina Inc. Genetic variants useful for risk assessment of thyroid cancer
US8718950B2 (en) 2011-07-08 2014-05-06 The Medical College Of Wisconsin, Inc. Methods and apparatus for identification of disease associated mutations
WO2013088457A1 (en) * 2011-12-13 2013-06-20 Decode Genetics Ehf Genetic variants useful for risk assessment of thyroid cancer
BR112015012239B1 (pt) * 2012-11-27 2022-07-19 Pontificia Universidad Católica De Chile Método in vitro de diagnóstico de câncer de tireoide
KR102011383B1 (ko) * 2014-10-31 2019-08-16 에스케이텔레콤 주식회사 갑상선암의 서브타입 분류용 조성물
EP3215170A4 (en) 2014-11-05 2018-04-25 Veracyte, Inc. Systems and methods of diagnosing idiopathic pulmonary fibrosis on transbronchial biopsies using machine learning and high dimensional transcriptional data
US10424396B2 (en) * 2015-03-27 2019-09-24 Sentieon Inc. Computation pipeline of location-dependent variant calls
US10395759B2 (en) 2015-05-18 2019-08-27 Regeneron Pharmaceuticals, Inc. Methods and systems for copy number variant detection
CN106636413B (zh) * 2016-12-28 2019-07-16 常州市第二人民医院 一种用于诊断哮喘的分子标志物
US11217329B1 (en) 2017-06-23 2022-01-04 Veracyte, Inc. Methods and systems for determining biological sample integrity
CN107194206A (zh) * 2017-06-26 2017-09-22 思畅信息科技(上海)有限公司 一种基于大数据的染色体异常位点的筛选方法
KR102081486B1 (ko) * 2017-08-01 2020-02-25 사회복지법인 삼성생명공익재단 Ahr 분류에 기반한 갑상선암 예후 예측 방법 및 시스템
KR102097540B1 (ko) * 2017-12-26 2020-04-07 주식회사 클리노믹스 질병 및 표현형 위험도 예측 장치 및 방법
CN108315425B (zh) * 2018-04-10 2021-08-06 广东省人民医院(广东省医学科学院) 甲状腺癌转移相关基因检测用的pcr特异性引物、试剂盒及其使用方法
EP3935581A4 (en) 2019-03-04 2022-11-30 Iocurrents, Inc. DATA COMPRESSION AND COMMUNICATION USING MACHINE LEARNING
KR102169699B1 (ko) * 2019-12-27 2020-10-23 주식회사 클리노믹스 유전자 검사를 위한 맞춤형 유전자칩 및 이의 제작 방법

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101608227A (zh) * 2008-06-20 2009-12-23 上海主健生物工程有限公司 甲状腺癌遗传检测试剂盒

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4376110A (en) * 1980-08-04 1983-03-08 Hybritech, Incorporated Immunometric assays using monoclonal antibodies
US6054270A (en) * 1988-05-03 2000-04-25 Oxford Gene Technology Limited Analying polynucleotide sequences
US5700637A (en) * 1988-05-03 1997-12-23 Isis Innovation Limited Apparatus and method for analyzing polynucleotide sequences and method of generating oligonucleotide arrays
US5223409A (en) * 1988-09-02 1993-06-29 Protein Engineering Corp. Directed evolution of novel binding proteins
US5744101A (en) * 1989-06-07 1998-04-28 Affymax Technologies N.V. Photolabile nucleoside protecting groups
US5143854A (en) * 1989-06-07 1992-09-01 Affymax Technologies N.V. Large scale photolithographic solid phase synthesis of polypeptides and receptor binding screening thereof
US5288644A (en) * 1990-04-04 1994-02-22 The Rockefeller University Instrument and method for the sequencing of genome
US6287850B1 (en) * 1995-06-07 2001-09-11 Affymetrix, Inc. Bioarray chip reaction apparatus and its manufacture
DE69527585T2 (de) * 1994-06-08 2003-04-03 Affymetrix Inc Verfahren und Vorrichtung zum Verpacken von Chips
US6300063B1 (en) * 1995-11-29 2001-10-09 Affymetrix, Inc. Polymorphism detection
WO1997045559A1 (en) * 1996-05-29 1997-12-04 Cornell Research Foundation, Inc. Detection of nucleic acid sequence differences using coupled ligase detection and polymerase chain reactions
US6429027B1 (en) * 1998-12-28 2002-08-06 Illumina, Inc. Composite arrays utilizing microspheres
US20020077775A1 (en) * 2000-05-25 2002-06-20 Schork Nicholas J. Methods of DNA marker-based genetic analysis using estimated haplotype frequencies and uses thereof
JP4729030B2 (ja) * 2002-07-31 2011-07-20 株式会社東芝 塩基配列検出装置
JP4994676B2 (ja) * 2006-02-27 2012-08-08 富士通株式会社 遺伝子多型解析支援プログラム、該プログラムを記録した記録媒体、遺伝子多型解析支援装置、および遺伝子多型解析支援方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101608227A (zh) * 2008-06-20 2009-12-23 上海主健生物工程有限公司 甲状腺癌遗传检测试剂盒

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Genome-Wide Profiling of Papillary Thyroid Cancer Identifies MUC1 as an Independent Prognostic Marker;Volkert B. Wreesmann 等;《CANCER RESEARCH》;20040101;第64卷;3780-3789 *
High Prevalence of BRAF Mutations in Thyroid Cancer: Genetic Evidence for Constitutive Activation of the RET/PTC-RAS-BRAF Signaling Pathway in Papillary Thyroid Carcinoma;Edna T. Kimura 等;《CANCER RESEARCH》;20030401;第63卷;1454-1457 *

Also Published As

Publication number Publication date
KR20110081807A (ko) 2011-07-14
WO2010018600A1 (en) 2010-02-18
CN102177252A (zh) 2011-09-07
CA2733910A1 (en) 2010-02-18
AU2009280807A1 (en) 2010-02-18
US20110230366A1 (en) 2011-09-22
EP2334820A1 (en) 2011-06-22
JP2011530306A (ja) 2011-12-22
NZ591613A (en) 2013-01-25
IL211177A0 (en) 2011-04-28

Similar Documents

Publication Publication Date Title
CN102177252B (zh) 用于甲状腺癌症的风险评估的遗传变型
CN102144036B (zh) 用于乳腺癌风险评估的遗传变型
US8580501B2 (en) Genetic variants on chr 5p12 and 10q26 as markers for use in breast cancer risk assessment, diagnosis, prognosis and treatment
US20110287946A1 (en) Genetic Variants Useful for Risk Assessment of Thyroid Cancer
US20130273543A1 (en) Genetic variants useful for risk assessment of thyroid cancer
US8828657B2 (en) Susceptibility variants for lung cancer
EP2686443A1 (en) Genetic variants useful for risk assessment of thyroid cancer
CN102137937A (zh) 作为用于膀胱癌风险评估、诊断、预后和治疗的标志的遗传变型
WO2013065072A1 (en) Risk variants of prostate cancer
CA2707350A1 (en) Genetic variants on chr 11q and 6q as markers for prostate and colorectal cancer predisposition
WO2011095999A1 (en) Genetic variants for predicting risk of breast cancer

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20141224

Termination date: 20150812

EXPY Termination of patent right or utility model