CN102144036B

CN102144036B - 用于乳腺癌风险评估的遗传变型

Info

Publication number: CN102144036B
Application number: CN200980134453.0A
Authority: CN
Inventors: S·斯达赛; P·苏勒姆
Original assignee: Decode Genetics ehf
Current assignee: Decode Genetics ehf
Priority date: 2008-07-07
Filing date: 2009-07-03
Publication date: 2014-07-16
Anticipated expiration: 2029-07-03
Also published as: US20110294673A1; CA2729934A1; CN102144036A; JP2011527565A; KR20110036608A; IL210504A0; AU2009269542A1; NZ590833A; WO2010004591A3; WO2010004591A2; US8951735B2; EP2313525A2

Abstract

本发明涉及经测定为乳腺癌的易感性变体的某些遗传变型。描述了疾病处治包括诊断增加的对乳腺癌的易感性的方法，预测对治疗的反应的方法和使用变体预测预后的方法。本发明还涉及用于本发明的方法的试剂盒。

Description

用于乳腺癌风险评估的遗传变型

引言

乳腺癌是迄今为止全世界妇女最常见的癌症。目前全球发病率每年超过1,151,000新诊断的病例[Parkin，等人，(2005)，CA Cancer J Clin，55，74-108]。乳腺癌发病在发达国家特别是在北欧人族源(ethnicorigin)的人群中最高，并且正日益增加。在美国，每年年龄标准化的发病率为每100,000人口大约125例，是世界平均水平的3倍以上。北欧国家的发病率相似地高。在2008年，据估计将在美国诊断出184,450例浸润性乳腺癌新病例并且40,930人将死于该疾病[Jemal，等人，(2008)，CA Cancer J Clin，58，71-96]。必须将该数字加上2008中预计的另外67,770例原位导管癌和小叶原位癌诊断。从个体角度来看，在美国妇女中发生乳腺癌的终生概率为12.3％(即，8个妇女中有1个将在其生命中发生乳腺癌)。与大多数癌症一样，早期检出和适当的治疗是非常重要的因素。总体上，乳腺癌的5年存活率是89％。然而，在呈现局部浸润性(invasive)或转移性疾病的个体中，该比率分别下降至84％和27％[Jemal，等人，(2008)，CA Cancer J Clin，58，71-96]。

逐渐地，重点落在了鉴定处于患原发性或复发性乳腺癌的高风险中的个体。此类个体可利用更密集的筛查、预防性化学疗法、激素疗法和在当个体处于极高风险的情况下预防性手术来治疗。普查程序对卫生服务造成了巨大的经济负担，然而预防性治疗与风险度和生活质量后果相关。

对乳腺癌的遗传易感性(Genetic Predisposition)

两个主要的已知乳腺癌风险因素类别是内分泌因素和遗传因素。关于后者，大约12％的乳腺癌患者具有一个或多个患乳腺癌的一级亲属[(2001)，Lancet，358，1389-99]。众所周知的显性乳腺癌易感基因BRCA1和BRCA2赋予携带者显著增加的患乳腺癌的风险，终生外显率估计在40至80％的范围内。BRCA1和BRCA2突变的存在可解释大多数具有6例或更多例乳腺癌的家族以及解释大部分包括乳腺癌和卵巢癌或男性乳腺癌的家族。然而，此类家族事实上非常罕见。在具有更少的病例的家族或特征在于只有乳腺癌病家族中发现BRCA1和BRCA2突变的频率要低得多。结合起来，BRCA1和BRCA2中的突变可解释15-20％的患家族性乳腺癌的风险。在非祖先个体(non-founder)群体中，如果可检测所有常见BRCA突变，那么预期2至3％的偶发性乳腺癌患者(incident breastcancer patient)可具有突变[Gorski，等人，(2005)，Breast CancerRes Treat，92，19-24；(2000)，Br J Cancer，83，1301-8]。该低“发现概率(chance to find)”统计量将BRCA突变测试的可靠使用排除在具有明显的遗传易感性(hereditary predisposition)的家族之外(Anon[(2003)，J Clin Oncol，21，2397-406])。已知罕见的高外显率突变在TP53和PTEN基因中发生，然而，这些一起解释不超过5％的患乳腺癌的总遗传风险度[Easton，(1999)，Breast Cancer Res，1，14-7]。连锁研究在鉴定赋予患乳腺癌的高风险度的广泛突变中很大程度上不再成功[Smith，等人，(2006)，Genes Chromosomes Cancer，45，646-55]。

最近的流行病学研究已表明大多数乳腺癌病例发生在易患病、易感性的少数群体中[Antoniou，等人，(2002)，Br J Cancer，86，76-83；Pharoah，等人，(2002)，Nat Genet，31，33-6]。来自双胞胎研究和原发性乳腺癌存活患者的对侧乳腺中癌症的恒定的高发病率的观察数据表明大部分未表征的患乳腺癌的风险与内源性因素，很可能遗传因素相关[Lichtenstein，等人，(2000)，N Engl J Med，343，78-85；Peto andMack，(2000)，Nat Genet，26，411-4]。支持该广泛的风险遗传因素的知识极为有限。分离分析预测未表征的患乳腺癌的遗传风险在本质上很可能是多基因的，因为风险性等位基因赋予低至中度的风险并且可以彼此之间以及与激素风险因子相互作用。然而，此类研究预测多达40倍的可通过捕获此类低至中度的风险性等位基因的遗传特征(geneticprofiling)确定的最高分布分位数与最低分布分位数之间的相对风险度的差异[Antoniou，等人，(2002)，Br J Cancer，86，76-83；Pharoah，等人，(2002)，Nat Genet，31，33-6]。预期88％的所有乳腺癌病例在易感染的50％的群体中发生并且12％的处于最高风险的群体占据了50％的所有乳腺癌病例[Pharoah，等人，(2002)，Nat Genet，31，33-6；Pharoah，(2003)，Recent Results Cancer Res，163，7-18；discussion264-6]。因此许多精力集中在鉴定此类具有遗传易感性的个体和发展针对他们的个性化医学管理策略。

我们和其他研究小组已证明在冰岛存在显著的乳腺癌的家族风险性，其扩展至至少第五级亲属[Amundadottir，等人，(2004)，PLoS Med，1，e65；Tulinius，等人，(2002)，J Med Genet，39，457-62]。在冰岛，BRCA1突变对家族风险性的贡献被认为是最小的[Arason，等人，(1998)，J Med Genet，35，446-9；Bergthorsson，等人，(1998)，Hum Mutat，Suppl 1，S195-7]。BRCA2基因中的单个祖先个体突变(founder mutation)(999del5)在普通冰岛人群中以0.6-0.8％的携带者频率和在女性乳腺癌患者中以7.7-8.6％的携带者频率存在[Thorlacius，等人，(1997)，AmJ Hum Genet，60，1079-84；Gudmundsson，等人，(1996)，Am J Hum Genet，58，749-56]。该单个突变估计可解释针对一至三级亲属的大约40％的遗传性乳腺癌风险[Tulinius，等人，(2002)，J Med Genet，39，457-62]。虽然该估计高于15-25％的归因于非祖先个体群体中组合的所有BRCA 1和2突变的家族风险性，但仍然有大约60％的冰岛人家族乳腺癌风险有待解释。BRCA2 999del5测试为阴性的患者的一级亲属保持1.72倍的患乳腺癌的群体风险(95％CI 1.49-1.96)[Tulinius，等人，(2002)，JMed Genet，39，457-62]。

遗传风险由人群中个体间基因组中的细微差异赋予。人基因组中的变异最频繁地由单核苷酸多态型(SNP)引起，虽然其它变异也是非常重要的。在人基因组中平均每1000个碱基对存在一个SNP。因此，包含250,000个碱基对的典型人基因可包含250个不同的SNP。只有少数SNP位于外显子中并且改变由该基因编码的蛋白质的氨基酸序列。大多数SNP对基因功能可能几乎没有影响或没有影响，然而其它SNP可改变由基因编码的mRNA的转录、剪接、翻译或稳定性。人基因组中的另外的遗传多态型是由DNA的短区段或长区段的插入、缺失、易位或倒位引起的。赋予患疾病风险的遗传多态型可直接改变蛋白质的氨基酸序列，可增加从基因产生的蛋白质的量，或可减少由基因产生的蛋白质的量。

随着赋予患常见疾病风险的遗传多态型被发现，此类风险因素的遗传检测对于临床医学变得日益重要。实例是鉴定痴呆患者中apoE4多态型的基因携带者以进行阿尔茨海默病的鉴别诊断的载脂蛋白E测试、和对深部静脉血栓形成的易感性的因子V的Leiden测试。更重要地，在癌症的治疗中，肿瘤细胞的遗传变型的诊断对于个体患者的最适当治疗方案的选择是有用的。在乳腺癌中，雌激素受体表达或神经生长因子2型(Her2)受体酪氨酸激酶表达的遗传变异决定是否要将抗雌激素药(他莫昔芬)或抗Her2抗体(赫赛汀)整合入治疗方案。在慢性髓样白血病(CML)中，融合编码Bcr和Abl受体酪氨酸激酶的基因的费城染色体基因易位(genetic translocation)的诊断表明应当将Gleevec(STI571)(Bcr-Abl激酶的特异性抑制剂)用于治疗癌症。对于具有这样的遗传改变的CML患者，Bcr-Abl激酶的抑制导致肿瘤细胞的快速消除和白血病缓解。此外，遗传检测服务现今是可获得的，从而为个体提供关于他们的患疾病风险的信息(基于特定SNP已与患许多常见疾病的风险关联的发现)。

对引起患乳腺癌的残余遗传风险的遗传因素的了解非常有限。2个基因的变体已被严格地证实为低外显率乳腺癌风险基因；CHEK2和ATM[Renwick，等人，(2006)，Nat Genet，38，873-5；(2004)，Am J HumGenet，74，1175-82]。此外，最近的报导建立了染色体2q35和16q12上的变体与增加的患雌激素受体阳性乳腺癌的风险之间的关联(Simon，SN.等人Nat Genet 39：865-9(2007))。此外，已报导了FGFR2、TNRC9、MAP3K1和LSP1基因(Easton，D.F.，等人Nature 447：1087-93(2007))以及FGFR2基因中或其附近的变体(Hunter，D.J.，et al Nat Genet39：870-4(2007))。许多其他基因已被涉及，然而它们对乳腺癌风险的贡献在使用很大的样品组的分析中还未得到验证[Breast CancerAssociation，(2006)，J Natl Cancer Inst，98，1382-96]。

用于预防或治疗乳腺癌的通用成功方法目前是不可获得的。乳腺癌的治疗目前依赖于一级预防、早期诊断、适当的治疗和二级预防的组合。存在将基因测定整合入这些管理领域的所有方面的明确的临床紧迫性。癌症易感性基因的鉴定还可揭示可进行操作(例如，使用小或大分子量的药物)并且可带来更有效的治疗的至关重要的分子途径。本发明提供了针对乳腺癌的另外的遗传变型，可将其整合在乳腺癌的预防程序中。

发明概述

本发明涉及评估对乳腺癌的易感性的方法。本发明包括通过评估某些已经发现与增加的或减少的患乳腺癌的易感性关联的标志或单倍型，诊断增加的对乳腺癌的易感性的方法以及诊断减少的对乳腺癌的易感性或诊断抗癌保护作用的方法。本发明还涉及评估经诊断患有乳腺癌的个体的预后的方法、评估对乳腺癌治疗剂或乳腺癌治疗的反应可能性的方法以及监控经诊断患有乳腺癌的个体的治疗进展的方法。

在一个方面，本发明涉及诊断人个体中对乳腺癌的易感性的方法，所述方法包括测定至少一个多态型标志的至少一个等位基因在获自个体的核酸样品中存在或不存在，所述多态型标志选自下组：rs999737(SEQID NO：6)、rs2005154(SEQ ID NO：1)、rs2184380(SEQ ID NO：2)、rs2224696(SEQ ID NO：3)、rs2242503(SEQ ID NO：4)、rs12291026(SEQID NO：5)、rs9956546(SEQ ID NO：7)、rs11912922(SEQ ID NO：8)、rs6001954(SEQ ID NO：9)和与它们处于连锁不平衡中的标志，其中至少一个等位基因的存在标示着对乳腺癌的易感性。本发明还涉及通过测定至少一个多态型的至少一个等位基因在获自个体的核酸品中的存在或不存在来测定对乳腺癌的易感性的方法，所述多态型标志选自下组：rs2005154(SEQ ID NO：1)、rs2184380(SEQ ID NO：2)、rs2224696(SEQID NO：3)、rs2242503(SEQ ID NO：4)、rs12291026(SEQ ID NO：5)、rs999737(SEQ ID NO：6)、rs9956546(SEQ ID NO：7)、rs11912922(SEQID NO：8)、rs6001954(SEQ ID NO：9)和与它们处于连锁不平衡中的标志，其中至少一个等位基因的存在的确定标示着对乳腺癌的易感性。

在另一个方面，本发明涉及测定人个体中对乳腺癌的易感性的方法，所述方法包括测定至少一个多态型标志上的至少一个有风险的等位基因是否存在于来源于该个体的基因型数据集中，其中至少一个多态型标志选自下组：rs2005154(SEQ ID NO：1)、rs2184380(SEQ ID NO：2)、rs2224696(SEQ ID NO：3)、rs2242503(SEQ ID NO：4)、rs12291026(SEQID NO：5)、rs999737(SEQ ID NO：6)、rs9956546(SEQ ID NO：7)、rs11912922(SEQ ID NO：8)、rs6001954(SEQ ID NO：9)和与它们处于连锁不平衡中的标志，并且其中至少一个有风险的等位基因的存在的确定标示着该个体中增加的对乳腺癌的易感性。

本发明是还涉及测定人个体中对乳腺癌的易感性的方法，其包括确定至少一个多态型标志的至少一个等位基因是否存在于获自该个体的核酸样品中或来源于该个体的基因型数据集中，其中所述至少一个多态型标志选自rs2005154(SEQ ID NO：1)、rs2184380(SEQ ID NO：2)、rs2224696(SEQ ID NO：3)、rs2242503(SEQ ID NO：4)、rs12291026(SEQ ID NO：5)、rs999737(SEQ ID NO：6)、rs9956546(SEQ ID NO：7)、rs11912922(SEQID NO：8)、rs6001954(SEQ ID NO：9)和与它们处于连锁不平衡中的标志，并且其中所述至少一个等位基因的存在标示着个体中对乳腺癌的易感性。

在一个实施方案中，基因型数据集包括关于标志本体和个体的等位基因状态的信息，即关于由个体携带的所述标志的2个等位基因的本体的信息。基因型数据集可包括关于一个或多个标志(包括2个或更多个标志、3个或更多个标志、5个或更多个标志、100个或更多个标志等)的等位基因信息。在一些实施方案中，基因型数据集包括来自个体的全基因组评估(可包括数十万个标志或甚至1百万个或更多个标志)的基因型信息。

在某些实施方案中，所述至少一个多态型标志与PAX5(成对基因盒5，也称为BSAP)基因、TUB(Tubby同源物(小鼠，rd5))基因、SERPINH1(丝氨酸蛋白酶抑制剂、clade H(热激蛋白47)、成员1(胶原结合蛋白1))基因、RAD51L1(REC2；R51H2；hREC2；RAD51B；MGC34245)基因、FHOD3(含形成素同源性2域3，也称为FHOS2；Formactin2)基因或TNRC6B(含三核苷酸串联重复的6B或KIAA1093)基因中的任意一个关联。

在某些此类实施方案中，至少一个多态型标志与上述基因的任意一个即PAX5(成对基因盒5，也称为BSAP)基因、TUB(Tubby同源物(小鼠，rd5))基因、SERPINH1(丝氨酸蛋白酶抑制剂，clade H(热激蛋白47)，成员1，(胶原结合蛋白1))基因、RAD51L1(REC2；R51H2；hREC2；RAD51B；MGC34245)基因、FHOD3(含形成素同源性2域3，也称为FHOS2；Formactin2)基因和TNRC6B(含三核苷酸重复序列6B(trinucleotiderepeat containing 6B)或KIAA1093)基因的任意一个处于连锁不平衡中。

本发明的另一个方面涉及测定人个体中对乳腺癌的易感性的方法，所述方法包括：

获得关于人个体的核酸序列数据，鉴定至少一个多态型标志的至少一个等位基因，所述标志选自rs2005154(SEQ ID NO：1)、rs2184380(SEQID NO：2)、rs2224696(SEQ ID NO：3)、rs2242503(SEQ ID NO：4)、rs12291026(SEQ ID NO：5)、rs999737(SEQ ID NO：6)、rs9956546(SEQID NO：7)、rs11912922(SEQ ID NO：8)、rs6001954(SEQ ID NO：9)和与它们处于连锁不平衡的标志，其中所述至少一个多态型标志的不同等位基因与人中对乳腺癌的不同易感性关联，和根据核酸序列数据测定对乳腺癌的易感性。

在一般意义上，遗传标志在核酸水平上导致替代序列(alternatesequence)。如果核酸标志改变由核酸编码的多肽的密码子，那么该标志也将在氨基酸水平上导致所编码的多肽(多肽标志)的替代序列。核酸中的多态型标志上的特定等位基因或多肽标志上的特定等位基因的本体的测定包括特定等位基因是否存在于序列的特定位置上。鉴定标志上的特定等位基因的序列数据包括足以检测所述特定等位基因的序列。对于本文中描述的单核苷酸多态型(SNP)或氨基酸多态型，序列数据可包括单个位置上的序列，即，序列内单个位置上的核苷酸或氨基酸的本体。鉴定多态型标志的特定等位基因的核酸序列数据有时也称为基因型数据。可以例如通过分析该个体的生物样品中至少一个多态型标志的序列来获取核酸序列数据。可选择地，从来自人个体的基因型数据集中可获取核酸序列数据并且分析数据集中至少一个多态型标志的序列。此类分析在某些实施方案中包括确定特定多态型标志的特定等位基因的存在或不存在。一般术语中特定等位基因的鉴定应被用来表示进行等位基因的存在或不存在的确定。通常，通过测定特定多态型的所有可能的等位基因在特定个体中的存在来进行个体的基因组中两个等位基因拷贝的测定(对于SNP，2个可能的核苷酸中的每一个对于等位基因位点都是可能的)。还可能确定只有特定的等位基因存在还是不存在。例如，在某些实施方案中，确定已显示与青光眼的风险关联的某些等位基因的存在或不存在，但不必确定特定标志的其他等位基因的存在或不存在，基于这样的确定来进行易感性的测定。

在某些实施方案中，就至少2个多态型标志测定核酸序列可能是有用的。在其它实施方案中，测定至少3个、至少4个或至少5个或更多个多态型标志的核酸序列。单倍型信息可来源于2个或更多个多态型标志的分析。因此，在某些实施方案中，进行另外的步骤，通过该步骤基于至少2个多态型标志的序列数据产生单倍型信息。

本发明还提供了测定人个体中对乳腺癌的易感性的方法，该方法包括获得关于人个体的核酸序列数据鉴定至少2个多态型标志和与它们处于连锁不平衡中的标志的这两个等位基因，所述多态型标志选自rs2005154(SEQ ID NO：1)、rs2184380(SEQ ID NO：2)、rs2224696(SEQID NO：3)、rs2242503(SEQ ID NO：4)、rs12291026(SEQ ID NO：5)、rs999737(SEQ ID NO：6)、rs9956546(SEQ ID NO：7)、rs11912922(SEQID NO：8)、rs6001954(SEQ ID NO：9)，基于序列数据测定至少一个单倍型的本体，和由单倍型数据测定对乳腺癌的易感性。

在某些实施方案中，易感性的测定包括将核酸序列数据与数据库相比较，所述数据库包含至少一个多态型标志与对乳腺癌的易感性之间的关联数据。在一些实施方案中，数据库包括针对至少一个标志的对乳腺癌的易感性的至少一个风险测量。可以例如以查找表的方式提供序列数据库，所述查找表包含针对任何一个或多个特定多态型标示对乳腺癌的易感性的数据。所述数据库还可包括针对包含至少2个多态型标志的特定单倍型标示易感性的数据。

获取核酸序列数据可以在某些实施方案中包括获取源自人个体的生物样品和分析该样品的核酸中的至少一个多态型标志的序列。分析序列可包括确定至少一个多态型标志的至少一个等位基因是否存在。特定易感性等位基因(例如，有风险的等位基因)的存在的确定标示着人个体中对乳腺癌的易感性。特定易感性等位基因的不存在的确定标示着所述特定易感性不存在于个体。

在一些实施方案中，获取核酸序列数据包括从既存记录获取核酸序列信息。所述既存记录可以例如是包含序列数据的计算机文件或数据库，所述序列数据例如人个体的、至少一个多态型标志的基因型数据。

可将通过本发明的诊断方法测定的易感性报告给特定的实体。在一些实施方案中，所述至少一个实体选自下组：个体、个体的监护人、基因服务提供商、医生、医疗机构和医疗保险公司。

在本发明的某些实施方案中，易感性的测定包括将核酸序列数据与数据库相比较，所述数据库包含至少一个多态型标志与对乳腺癌的易感性之间的关联数据。在一个这样的实施方案中，数据库包括针对至少一个多态型标志的对乳腺癌的易感性的至少一个风险测量。在另一个实施方案中，数据库包括查找表，所述查找表包括针对至少一个多态型标志的至少一个病症的至少一个风险测量。

在某些实施方案中，获取核酸序列数据包括获取源自人个体的生物样品和分析该样品的核酸中的至少一个多态型标志的序列。分析至少一个多态型标志的序列可包括确定至少一个多态型标志的至少一个等位基因的存在或不存在。获取核酸序列数据还可包括从既存记录获取核酸序列信息。

本发明的某些实施方案涉及获得关于至少2个多态型标志的核酸序列数据，所述标志选自rs2005154(SEQ ID NO：1)、rs2184380(SEQ IDNO：2)、rs2224696(SEQ ID NO：3)、rs2242503(SEQ ID NO：4)、rs12291026(SEQ ID NO：5)、rs999737(SEQ ID NO：6)、rs9956546(SEQID NO：7)、rs11912922(SEQ ID NO：8)、rs6001954(SEQ ID NO：9)和与它们处于连锁不平衡中的标志。

在本发明的某些实施方案中，至少一个多态型标志选自表4中所示的标志。在一个实施方案中，至少一个多态型标志选自SEQ ID NO：1-562中所示的标志。在一个实施方案中，至少一个标志与rs2005154、rs2184380、rs2224696、rs2242503、rs12291026、rs999737、rs9956546、rs11912922和rs6001954中的至少一个处于连锁不平衡中。在一个实施方案中，与rs999737处于连锁不平衡中的标志选自下组：rs999737、rs10134446、rs10138140、rs10146772、rs10467820、rs10483812、rs10483813、rs11158749、rs11158751、rs11621276、rs11624097、rs11624164、rs11624333、rs11628293、rs11846360、rs11847185、rs11849916、rs12878761、rs12879200、rs12886864、rs12889251、rs12894230、rs1468279、rs1468280、rs1547012、rs17105675、rs17755657、rs17755734、rs17755752、rs17755925、rs17756000、rs17828691、rs17828721、rs17828763、rs17828907、rs17828955、rs1956534、rs2074563、rs2074565、rs2097800、rs2107340、rs2145157、rs2158357、rs2189517、rs2253317、rs2257111、rs2257116、rs2257127、rs2331701、rs2331705、rs2331775、rs2525503、rs2525530、rs2842327、rs3784121、rs4531674、rs4899246、rs4902604、rs4902606、rs4902608、rs5004090、rs6573837、rs7140266、rs7146456、rs7153476、rs739874、rs746663、rs8007194、rs8010439、rs8012610、rs9323512、rs9323513和rs9323514。

在一个实施方案中，与rs2005154处于连锁不平衡中的标志选自下组：rs2005154、rs4878662和rs4880019。

在一个实施方案中，与rs2184380处于连锁不平衡中的标志选自下组：rs2184380、rs10466295、rs10508363、rs10508364、rs10508365、rs10795670、rs10905411、rs10905414、rs10905415、rs10905430、rs10905437、rs10905439、rs10905440、rs10905443、rs10905444、rs10905445、rs10905446、rs10905447、rs10905454、rs11255764、rs11255776、rs11255777、rs11255778、rs11255779、rs11255790、rs11255795、rs11255797、rs11255800、rs11255804、rs11255805、rs11255820、rs11255821、rs11255822、rs11255832、rs11255836、rs11255840、rs11255858、rs11255862、rs11255869、rs11255870、rs11255871、rs11255882、rs11255884、rs12049705、rs12218610、rs12250379、rs12259226、rs1325874、rs1334549、rs1334550、rs1334559、rs1360749、rs1413678、rs1413683、rs1537601、rs1537602、rs1537603、rs17407711、rs17407781、rs17407830、rs17408204、rs17408337、rs17408580、rs17484150、rs17485426、rs17485998、rs17486082、rs17486795、rs17486816、rs1970170、rs1999638、rs2031561、rs2182292、rs2388821、rs2388825、rs2388826、rs2892613、rs4112287、rs4112288、rs4345867、rs4454616、rs4747806、rs4749805、rs4749807、rs4749812、rs6602328、rs6602329、rs7069110、rs7080765、rs7083359、rs7477023、rs7904921、rs7912413、rs7912704、rs7912831、rs827389和rs966562。

在一个实施方案中，与rs2224696处于连锁不平衡中的标志选自下组：rs2224696、rs10905509、rs11256045、rs12761213、rs12761461、rs12766048、rs12772042、rs12776383、rs12778120、rs12780218、rs12781427、rs1475189、rs1573109、rs1573110、rs17145088、rs17145095、rs17145118、rs17145120、rs17145151、rs17145164、rs17145169、rs17145188、rs17145193、rs17145221、rs17363338、rs1775559、rs1857230、rs1891532、rs1935813、rs2013364、rs2025289、rs2057442、rs2093625、rs2093626、rs2146598、rs2185817、rs2397336、rs2760204、rs2797266、rs391733、rs4550140、rs7081544、rs852273、rs860418、rs861172、rs962993和rs965307。

在一个实施方案中，与rs2242503处于连锁不平衡中的标志选自下组：rs2242503、rs10431029、rs1055233、rs10734629、rs10743052、rs10743053、rs10743054、rs10743055、rs10769872、rs10769873、rs10769878、rs10769882、rs10839976、rs10839984、rs11041740、rs11041742、rs11041788、rs11041791、rs11041794、rs1108277、rs12146654、rs12808387、rs1528125、rs1569128、rs1970880、rs1997262、rs2049684、rs2141321、rs2242501、rs2272383、rs3750955、rs3752898、rs3849986、rs3849990、rs3911309、rs3911310、rs4340037、rs4343012、rs4385931、rs4575312、rs4578424、rs4636658、rs4758040、rs4758042、rs4758287、rs4758309、rs4758310、rs7103334、rs7112519、rs7115706、和rs7122690、rs7127738、rs7358396、rs7479156、rs7479738、rs7480804、rs7481667、rs7481683、rs7482611、rs7927368和rs7940668。

在一个实施方案中，与rs12291026处于连锁不平衡中的标志选自下组：rs12291026、rs1004856、rs10899091、rs11236449、rs11236452、rs11236454、rs12362081、rs1540210、rs1540211、rs1557471、rs1631470、rs1783551、rs1783556、rs1783559、rs1790144、rs1790152、rs1790307、rs1793396、rs1793397、rs1793398、rs1793399、rs1793414、rs1938800、rs2853066、rs499613、rs504793、rs514477、rs549034、rs550881、rs581007、rs589724、rs600387、rs606460、rs617617、rs618202、rs628972、rs640649、rs662279、rs667410、rs667531、rs670100、rs670491、rs682292、rs7128888、rs7129014、rs7129150和rs947844。

在一个实施方案中，与rs11912922处于连锁不平衡中的标志选自下组：rs11912922、rs11089967、rs11704971、rs11705454、rs17406386、rs17406434、rs2071771、rs2958650、rs2958651、rs2958659、rs7284488、rs7285507、rs7291782、rs739145、rs9611246和rs9611265。

在一个实施方案中，与rs6001954处于连锁不平衡中的标志选自下组：rs6001954、rs10483203、rs10483204、rs10483205、rs10483206、rs1106673、rs11913132、rs12158399、rs12158872、rs12159200、rs12159970、rs12484697、rs12627881、rs133036、rs133038、rs16985899、rs17001846、rs17001868、rs17001943、rs17001974、rs17001977、rs17001993、rs17001994、rs17001997、rs17002019、rs17002020、rs17002026、rs17002027、rs17002034、rs17002036、rs17002038、rs17002069、rs2075764、rs2187832、rs2235318、rs2280790、rs2294348、rs2294350、rs2294352、rs2413624、rs3788577、rs3788578、rs3788579、rs3827381、rs3827382、rs4140512、rs470113、rs5750957、rs5750960、rs5750966、rs5757976、rs5757998、rs5758001、rs5995849、rs5995856、rs5995870、rs5995871、rs5995886、rs6001900、rs6001910、rs6001911、rs6001912、rs6001913、rs6001930、rs6001931、rs6001932、rs6001935、rs6001950、rs6001974、rs6001980、rs6001990、rs6002000、rs718193、rs7292804、rs7293100、rs742140、rs760700、rs760701、rs9306345、rs932379、rs9607721、rs9611310、rs9611311、rs9611312、rs9611316、rs9611318、rs9611324、rs9611325、rs9611328和rs9611329。

在发明的某些实施方案中，进行估量至少一个单倍型在个体中的频率的额外步骤。在此类实施方案中，单倍型中可包括2个或更多个标志，包括3、4、5、6、7、8、9或10或更多个标志。在某些实施方案中，所述至少一个单倍型包括全部都与rs2005154(SEQ ID NO：1)、rs2184380(SEQ ID NO：2)、rs2224696(SEQ ID NO：3)、rs2242503(SEQ ID NO：4)、rs12291026(SEQ ID NO：5)、rs999737(SEQ ID NO：6)、rs9956546(SEQID NO：7)、rs11912922(SEQ ID NO：8)和rs6001954(SEQ ID NO：9)的至少一个处于LD中的标志。在此类实施方案中，所述至少一个单倍型代表上述标志的任意一个存在于其中的特定基因组区域(LD区段)的基因组结构。在一个实施方案中，单倍型包括与rs999737处于连锁不平衡中的标志。

可将本文中描述的赋予乳腺癌的风险的标志与乳腺癌的其他遗传标志组合。此类标志通常不与本文中描述的任一标志，特别是标志rs2005154(SEQ ID NO：1)、rs2184380(SEQ ID NO：2)、rs2224696(SEQID NO：3)、rs2242503(SEQ ID NO：4)、rs12291026(SEQ ID NO：5)、rs999737(SEQ ID NO：6)、rs9956546(SEQ ID NO：7)、rs11912922(SEQID NO：8)、rs6001954(SEQ ID NO：9)和与它们处于连锁不平衡中的标志处于连锁不平衡中。可通过将本文中描述的遗传风险因素与针对乳腺癌的另外的遗传风险因素组合来实施本文中描述的任何方法。

因此，在某些实施方案中，包括另外的步骤，其包括确定乳腺癌的至少一个有风险的变体(其不与表1和/或表4中所示的任一个标志处于连锁不平衡中)的至少一个有风险的等位基因是否存在于个体中。换句话说，可将基因组的其他位置中的遗传标志与本发明的标志组合使用，以基于多个遗传因素测定乳腺癌的总体风险。不处于连锁不平衡中(不在LD中)的标志的选择可基于对连锁不平衡的适当测量，如本文中进一步描述的。在某些实施方案中，不处于连锁不平衡中的标志具有小于0.2的标志之间的LD测量r²值。在某些其他实施方案中，不存在于LD中的标志具有小于0.15、包括小于0.10、小于0.05、小于0.02和小于0.01的标志之间的r²值。涉及确定标志不处于LD中的其他适当的截断值，包括此类值的任意值之间的值。此类遗传风险因素的实例包括染色体5p12和染色体10q26上的标志，例如，标志rs10941679和标志rs1219648。可选择地，可评估与任一个此类标志处于LD中的标志。还可将已知赋予患乳腺癌的风险的其他标志与本文中描述的标志一起评估，包括染色体2q14(例如，标志rs4848543或与其处于连锁不平衡中的标志)、2q35(例如，标志rs13387042或与其处于连锁不平衡中的标志)和染色体16(例如，标志rs3803662或与其处于连锁不平衡中的标志)上的标志。

在某些实施方案中，确定本文中描述的多个标志以测定患乳腺癌的总体风险度。因此，在某些实施方案中，包括另外的步骤，所述步骤包括在包含源自人个体的基因组DNA的样品中或来源于人个体的基因型数据集中确定至少一个等位基因在至少2个多态型标志的每一个标志中是否存在，其中所述至少一个等位基因在至少2个多态型标志中的存在标示着增加的对乳腺癌的易感性。在一个实施方案中，标志选自rs2005154(SEQ ID NO：1)、rs2184380(SEQ ID NO：2)、rs2224696(SEQ ID NO：3)、rs2242503(SEQ ID NO：4)、rs12291026(SEQ ID NO：5)、rs999737(SEQID NO：6)、rs9956546(SEQ ID NO：7)、rs11912922(SEQ ID NO：8)和rs6001954(SEQ ID NO：9)以及与它们处于连锁不平衡中的标志。

还可将基于本发明的标志的风险评估与乳腺癌的至少一个高外显率遗传因素在获自个体的核酸样品中或在来源于个体的基因型数据集中的存在或不存在的评估组合。乳腺癌的高外显率遗传因子可以例如是BRCA1突变、BRCA2突变、TP53突变或PTEN突变。结合起来，BRCA1和BRCA2中的突变可解释15-20％的患家族性乳腺癌的风险，并且这些突变可解释2至3％的偶发性乳腺癌患者[Gorski，等人，(2005)，Breast CancerRes Treat，92，19-24；(2000)，Br J Cancer，83，1301-8]。TP53和PTEN基因中的已知突变解释大约5％的患乳腺癌的总体遗传风险[Easton，(1999)，Breast Cancer Res，1，14-7]。在一个实施方案中，高外显率遗传因子是BRCA2 999del5。

还可将本发明的遗传标志与非遗传信息组合以确定个体的总体风险度。因此，在某些实施方案中，包括另外的步骤，所述步骤包括分析非遗传信息以进行个体的风险度评估、诊断或预后。非遗传信息可以是涉及个体的疾病状态的任何信息或可影响个体患乳腺癌的总体风险度的评估的其他信息。在一个实施方案中，非遗传信息选自受试者的年龄、性别、种族性、社会经济地位、以前的疾病诊断、医疗史、乳腺癌的家族史、生物化学测量和临床测量。

在另一个方面，本发明涉及评估在之前经诊断患有乳腺癌的个体中发生至少第二原发肿瘤的风险度的方法，所述方法包括确定至少一个多态型标志的至少一个等位基因在获自个体的核酸样品中的存在或不存在，其中所述至少一个多态型标志选自表1和4中所列的多态型标志和与它们处于连锁不平衡中的标志组成的组，其中所述至少一个等位基因的存在标示着发生至少第二原发肿瘤的风险。可选择地，本发明涉及测定之前经诊断患有乳腺癌的个体中发生至少第二原发肿瘤的风险度的方法，所述方法包括确定至少一个多态型标志的至少一个等位基因存在于获自个体的核酸样品中或来源于个体的基因型数据集中，其中所述至少一个多态型标志选自rs2005154(SEQ ID NO：1)、rs2184380(SEQ ID NO：2)、rs2224696(SEQ ID NO：3)、rs2242503(SEQ ID NO：4)、rs12291026(SEQID NO：5)、rs999737(SEQ ID NO：6)、rs9956546(SEQ ID NO：7)、rs11912922(SEQ ID NO：8)和rs6001954(SEQ ID NO：9)以及与它们处于连锁不平衡中的标志，并且其中所述至少一个等位基因的存在标示着发生至少第二原发肿瘤的风险。在一个这样的实施方案中，所述至少一个多态型标志选自表4中所列的标志。

本发明还提供了计算机实现的方面。在一个这样的方面中，本发明提供了具有用于测定个体中对乳腺癌的易感性的计算机可执行指令的计算机可读介质(computer-readable medium)，该计算机可读介质包括：

标示着至少一个多态型标志的数据；和

存储在计算机可读介质上并且适合于用处理器执行以基于所述至少一个多态型标志的至少一个等位基因在个体中的等位基因状态确定个体中对乳腺癌的易感性的例程。

在一个实施方案中，代表至少一个多态型标志的所述数据包括至少一个标示着对与所述至少一个多态型标志关联的乳腺癌的易感性的参数。在另一个实施方案中，代表至少一个多态型标志的所述数据包括标示着所述至少一个等位基因标志的至少一个等位基因在所述个体中的等位基因状态的数据。在另一个实施方案中，所述例程适合于接受标示着所述至少一个等位基因标志的至少一个等位基因在所述个体中的等位基因状态的输入数据。在优选实施方案中，所述至少一个标志选自rs2005154(SEQ ID NO：1)、rs2184380(SEQ ID NO：2)、rs2224696(SEQ ID NO：3)、rs2242503(SEQ ID NO：4)、rs12291026(SEQ ID NO：5)、rs999737(SEQID NO：6)、rs9956546(SEQ ID NO：7)、rs11912922(SEQ ID NO：8)、rs6001954(SEQ ID NO：9)和与它们处于连锁不平衡中的标志。在另一个优选实施方案中，所述至少一个多态型标志选自表4中所示的标志。

本发明还提供了用于测定针对人个体的乳腺癌的遗传指标(indicator)的装置，其包括：

处理器，

计算机可读存储器，其具有适合在处理器上执行用以就至少一个乳腺癌分析至少一个人个体的标志和/或单倍型信息的计算机可执行指令，和产生基于标志或单倍型信息的输出，其中所述输出包括至少一个标志或单倍型的风险度测量作为人个体的乳腺癌的遗传指标。在一个实施方案中，计算机可读存储器包括标示着至少一个多态型标志的至少一个等位基因或至少一个单倍型在多个经诊断患有乳腺癌的个体中的频率的数据，和标示着至少一个多态型标志的至少一个等位基因或至少一个单倍型在多个参照个体中的频率的数据，其中风险度测量基于人个体的至少一个标志和/或单倍型状态与标示着多个经诊断患有乳腺癌的个体的至少一个标志和/或单倍型频率的信息的数据的比较。在可选择的实施方案中，计算机可读存储器还包括标示着发生与至少一个多态型标志的至少一个等位基因或至少一个单倍型关联的乳腺癌的风险的数据，其中人个体的风险度测量基于人个体的基因型状态与与至少一个多态型标志的至少一个等位基因或至少一个单倍型关联的风险度的比较。在另一个实施方案中，计算机可读存储器还包括标示着至少一个多态型标志的至少一个等位基因或至少一个单倍型在多个经诊断患有乳腺癌的个体中的频率的数据，以及标示着至少一个多态型标志的至少一个等位基因或至少一个单倍型在多个参照个体中的频率的数据，并且其中发生乳腺癌的风险度基于至少一个等位基因或单倍型在经诊断患有乳腺癌的个体中的频率与参照个体中的频率的比较。在优选实施方案中，至少一个标志选自rs2005154(SEQ ID NO：1)、rs2184380(SEQ ID NO：2)、rs2224696(SEQID NO：3)、rs2242503(SEQ ID NO：4)、rs12291026(SEQ ID NO：5)、rs999737(SEQ ID NO：6)、rs9956546(SEQ ID NO：7)、rs11912922(SEQID NO：8)、rs6001954(SEQ ID NO：9)和与它们处于连锁不平衡中的标志。在另一个优选实施方案中，至少一个多态型标志选自表4中所示的标志。

在另一个方面，本发明涉及鉴定用于评估对乳腺癌的易感性的标志的方法，所述方法包括：鉴定与rs2005154(SEQ ID NO：1)、rs2184380(SEQ ID NO：2)、rs2224696(SEQ ID NO：3)、rs2242503(SEQID NO：4)、rs12291026(SEQ ID NO：5)、rs999737(SEQ ID NO：6)、rs9956546(SEQ ID NO：7)、rs11912922(SEQ ID NO：8)和rs6001954(SEQID NO：9)中的至少一个处于连锁不平衡中的至少一个多态型标志；确定经诊断患有乳腺癌或具有对其的易感性的个体的样品的基因型状态；和确定对照个体的样品的基因型状态；其中，与至少一个等位基因在对照样品中的频率相比较，至少一个多态型的至少一个等位基因在经诊断患有乳腺癌或具有对其的易感性的个体中的频率的显著差异标示着：至少一个多态型对于评估对乳腺癌的易感性是有用的。可基于乳腺癌患者和对照中特定多态型标志上的等位基因的计数的统计分析来评估显著差异。在一个实施方案中，显著差异基于小于0.05的乳腺癌患者与对照之间计算的P值。在其他实施方案中，显著差异基于计算的P值的更小的值，例如小于0.005、0.0005或0.00005的值。在一个实施方案中，与至少一个等位基因在对照样品中的频率相比较，至少一个多态型的至少一个等位基因在经诊断患有乳腺癌或具有对其的易感性的个体中的频率的增加标示着所述至少一个多态型对于评估增加的对乳腺癌的易感性是有用的。在另一个实施方案中，与至少一个等位基因在对照样品中的频率相比较，至少一个多态型中的至少一个等位基因在经诊断患有乳腺癌或具有对乳腺癌易感性的个体中的频率的增加标示着所述至少一个多态型对于评估减少的对乳腺癌的易感性或抗乳腺癌的保护性是有用的。

本发明还涉及对获自人个体的核酸样品进行基因分型的方法，其包括确定至少一个多态型标志的至少一个等位基因是否存在于来自个体样品的核酸样品中，其中所述至少一个标志选自rs2005154(SEQ ID NO：1)、rs2184380(SEQ ID NO：2)、rs2224696(SEQ ID NO：3)、rs2242503(SEQID NO：4)、rs12291026(SEQ ID NO：5)、rs999737(SEQ ID NO：6)、rs9956546(SEQ ID NO：7)、rs11912922(SEQ ID NO：8)和rs6001954(SEQID NO：9)以及与它们处于连锁不平衡中的标志，并且其中至少一个等位基因在样品中的存在的确定标示着个体中对乳腺癌的易感性。在一个实施方案中，rs2005154等位基因T、rs2184380等位基因G、rs2224696等位基因T、rs2242503等位基因C、rs12291026等位基因G、rs999737等位基因C、rs9956546等位基因A、rs11912922等位基因T和rs6001954等位基因G的存在的确定标示着个体中增加的对乳腺癌的易感性。在一个实施方案中，基因分型包括使用侧翼连接至少一个多态型标志的核苷酸引物对，通过聚合酶链式反应(PCR)扩增核酸的区段，所述核酸的区段包括所述至少一个多态型标志。在另一个实施方案中，使用方法进行基因分型，所述方法选自等位基因特异性探针杂交、等位基因特异性引物延伸、等位基因特异性扩增、核酸测序、5′-外切核酸酶降解、分子信标测定、寡核苷酸连接测定、大小分析、单链构象多态型分析(single-stranded conformation analysis)和微阵列技术。在一个实施方案中，微阵列技术是Molecular Inversion Probe阵列技术或BeadArray技术。在一个实施方案中，方法包括等位基因特异性探针杂交。在另一个实施方案中，方法包括微阵列技术。一个优选实施方案包括步骤：(1)将核酸的拷贝在用于寡核苷酸探针与所述核酸的特异性杂交的条件下与检测寡核苷酸探针和增强子寡核苷酸探针接触；其中(a)检测寡核苷酸探针在长度上为5至100个核苷酸并且与核酸的第一区段特异性杂交，所述核酸的第一区段的核苷酸序列由SEQ ID NO：1-562中的任一个提供；(b)检测寡核苷酸探针在其3′末端包含可检测标记并且在其5′末端包含猝灭部分；(c)增强子寡核苷酸在长度上为5至100个核苷酸并且与核酸序列的第二区段互补，所述核酸的第二区段的核苷酸序列相对于寡核苷酸探针为5′，以便当两个寡核苷酸探针都与核酸杂交时增强子寡核苷酸探针相对于检测寡核苷酸探针位于3′；和(d)在第一区段与第二区段之间存在单个碱基缺口，以便当寡核苷酸探针和增强子寡核苷酸探针都与核酸杂交时，单个碱基缺口存在于寡核苷酸之间；(2)用内切核酸酶处理核酸，当检测探针与核酸杂交时，所述内切核酸酶将从检测探针的3′末端切割可检测的标记以释放游离的可检测标记；和(3)测量游离的可检测标记，其中游离可检测标记的存在表明所述检测探针与核酸的第一区段特异性杂交，以及表明多态型位点的序列为检测探针的互补序列。

本发明的另外的方面涉及就对乳腺癌治疗剂的反应的可能性评估个体的方法，其包括：确定至少一个多态型标志的至少一个等位基因在获自个体的核酸样品中或在来源于个体的基因型数据集中的存在或不存在，其中至少一个多态型标志选自rs2005154(SEQ ID NO：1)、rs2184380(SEQ ID NO：2)、rs2224696(SEQ ID NO：3)、rs2242503(SEQID NO：4)、rs12291026(SEQ ID NO：5)、rs999737(SEQ ID NO：6)、rs9956546(SEQ ID NO：7)、rs11912922(SEQ ID NO：8)和rs6001954(SEQID NO：9)以及与它们处于连锁不平衡中的标志，其中所述至少一个标志的至少一个等位基因的存在标示着对治疗剂的阳性反应的可能性。

本发明在另一方面涉及预测经诊断患有乳腺癌的个体的预后的方法，所述方法包括确定至少一个多态型标志的至少一个等位基因在获自个体的核酸样品中或来源于个体的基因型数据集中的存在或不存在，其中所述至少一个多态型标志选自rs2005154(SEQ ID NO：1)、rs2184380(SEQID NO：2)、rs2224696(SEQ ID NO：3)、rs2242503(SEQ ID NO：4)、rs12291026(SEQ ID NO：5)、rs999737(SEQ ID NO：6)、rs9956546(SEQID NO：7)、rs11912922(SEQ ID NO：8)和rs6001954(SEQ ID NO：9)以及与它们处于连锁不平衡中的标志，其中至少一个等位基因的存在标示着个体的乳腺癌的恶化预后。

本发明的另一个方面涉及监控正在经历乳腺癌治疗的个体的治疗进展的方法，所述方法包括确定至少一个多态型标志的至少一个等位基因在获自个体的核酸样品中或来源于个体的基因型数据集中的存在或不存在，其中至少一个多态型标志选自rs2005154(SEQ ID NO：1)、rs2184380(SEQ ID NO：2)、rs2224696(SEQ ID NO：3)、rs2242503(SEQID NO：4)、rs12291026(SEQ ID NO：5)、rs999737(SEQ ID NO：6)、rs9956546(SEQ ID NO：7)、rs11912922(SEQ ID NO：8)和rs6001954(SEQID NO：9)以及与它们处于连锁不平衡中的标志，其中至少一个等位基因的存在标示着个体的治疗结果。在一个实施方案中，所述治疗是利用手术的治疗、利用放射疗法的治疗或利用药物施用的治疗。

本发明还涉及寡核苷酸探针在用于诊断和/或评估人个体中对乳腺癌的易感性的试剂的制造中的用途，其中将探针与具有SEQ ID NO：1-562的任一个中所示的核苷酸序列的核酸的区段杂交，其中探针在长度上为15至500个核苷酸。在某些实施方案中，探针在长度上为大约16至大约100个核苷酸。在某些其他实施方案中，探针在长度上为大约20至大约50个核苷酸。在某些其他实施方案中，探针在长度上为大约20至大约30个核苷酸。

乳腺癌表型的各种诊断和分类在本发明的范围内。在其广义上，本发明涉及任何乳腺癌表型。在某些实施方案中，乳腺癌包括乳腺癌的任何临床诊断，包括但不限于：浸润性导管癌、浸润性小叶癌、管状癌或浸润性或混合浸润性髓性DCIS(导管原位癌)、LCIS(小叶原位癌)或非浸润性癌；浸润性乳腺癌，包括0期、1期、2期(包括2a期和2b期)、3期(包括3a期、3b期和3c期)以及4期乳腺癌。在某些实施方案中，乳腺癌表型选自所有乳腺癌，多原发性乳腺癌和早发性乳腺癌。在一些实施方案中，本发明的标志与具有乳腺癌家族史的个体的乳腺癌的风险关联。在一个这样的实施方案中，总计家族史(summed family history)(FHS)是与乳腺癌关联的表型。在另一个实施方案中，与本发明的变体关联的乳腺癌是雌激素受体(ER)阳性和/或孕激素受体(PR)阳性乳腺癌。在一个实施方案中，与本发明的变体关联的乳腺癌是雌激素受体(ER)阳性的。在另一个实施方案中，与本发明的变体关联的乳腺癌是孕激素受体(ER)阳性的。在一个这样的实施方案中，本文中描述的与增加的患乳腺癌的风险或易感性关联的标志赋予增加的患ER阳性和/或PR阳性乳腺癌的风险或易感性。因此，在某些实施方案中，本发明的至少一个有风险的变体的存在标示着个体的ER阳性或PR阳性乳腺癌。

在本发明的方法的一些实施方案中，方法中测定的易感性是增加的易感性。在一个这样的实施方案中，增加的易感性的特征在于至少1.10的相对风险度(RR)。在另一个实施方案中，增加的易感性的特征在于至少1.20的相对风险度。在另一个实施方案中，增加的易感性的特征在于至少1.30的相对风险度。在另一个实施方案中，增加的易感性的特征在于至少1.40的相对风险度。在另一个实施方案中，增加的易感性的特征在于至少1.50的相对风险度。在其他实施方案中，增加的易感性的特征在于至少1.70的相对风险度。在另一个实施方案中，增加的易感性的特征在于至少2.0的相对风险度。其他实施方案的特征在于至少1.10、1.11、1.12、1.13、1.14、1.15、1.16、1.17、1.18、1.19、1.20、1.21、1.22、1.23、1.24、1.25、1.26、1.27、1.28、1.29、1.30、1.31、1.32、1.33、1.34、1.35的相对风险度。上述这类值的任意值之间的风险度的其他数值也是可能的，并且这类数值也在本发明的范围内。

在本发明的方法的一些实施方案中，方法中测定的易感性是减少的易感性。在一个这样的实施方案中，减少的易感性的特征在于小于0.9的相对风险度(RR)。在另一个实施方案中，减少的易感性的特征在于小于0.8的相对风险度(RR)。在另一个实施方案中，减少的易感性的特征在于小于0.7的相对风险度(RR)。在另一个实施方案中，减少的易感性的特征在于小于0.5的相对风险度(RR)。其他截断值，例如小于0.89、0.88、0.87、0.86、0.85、0.84、0.83、0.82、0.81、0.80、0.79、0.78、0.77、0.76、0.75、0.74、0.73、0.72、0.71、0.70等的相对风险度在本发明的范围内。

本发明还涉及试剂盒。在一个这样的方面，本发明涉及用于评估人个体中对乳腺癌的易感性的试剂盒，所述试剂盒包括选择性检测个体的基因组中至少一个多态型标志的至少一个等位基因所必需的试剂，所述多态型标志选自rs2005154(SEQ ID NO：1)、rs2184380(SEQ ID NO：2)、rs2224696(SEQ ID NO：3)、rs2242503(SEQ ID NO：4)、rs12291026(SEQID NO：5)、rs999737(SEQ ID NO：6)、rs9956546(SEQ ID NO：7)、rs11912922(SEQ ID NO：8)、rs6001954(SEQ ID NO：9)和与它们处于连锁不平衡中的标志，其中至少一个等位基因的存在标示着增加的对乳腺癌的易感性。在一个实施方案中，试剂盒还包括包含至少一个多态型与对乳腺癌的易感性之间的关联数据的数据集。关联数据可以以任何适当的形式例如相对风险度测量(RR)、比值比(OR)或本领域技术人员已知的其他方便的测量存在。在一个实施方案中，数据集存在于计算机可读介质上。在另一个方面，本发明涉及用于评估人个体中对乳腺癌的易感性的试剂盒，所述试剂盒包括选择性检测个体的基因组中至少一个多态型标志的至少一个等位基因所必需的试剂，其中所述多态型标志选自rs2005154(SEQ ID NO：1)、rs2184380(SEQ ID NO：2)、rs2224696(SEQID NO：3)、rs2242503(SEQ ID NO：4)、rs12291026(SEQ ID NO：5)、rs999737(SEQ ID NO：6)、rs9956546(SEQ ID NO：7)、rs11912922(SEQID NO：8)和rs6001954(SEQ ID NO：9)，并且其中所述至少一个等位基因的存在标示着对乳腺癌的易感性。在一个实施方案中，至少一个多态型标志选自表4中所示的标志。

在一个实施方案中，试剂盒试剂可包括至少一个连续寡核苷酸，所述寡核苷酸与包含至少一个多态型标志的个体的基因组的片段杂交。在另一个实施方案中，试剂盒包括至少一对寡核苷酸，所述至少一对寡核苷酸与获自受试者的基因组区段的相反链(opposite strand)杂交，其中每一个寡核苷酸引物对经设计用以选择性扩增包含一个多态型的个体的基因组的片段，其中所述多态型选自表4中定义的多态型组成的组，其中所述片段大小为至少20个碱基对。在一个实施方案中，寡核苷酸与个体的基因组完全互补。在另一个实施方案中，试剂盒还包括用于扩增所述区段的缓冲液和酶。在另一个实施方案中，试剂还包括用于检测所述片段的标记。

在一个优选实施方案中，试剂盒包括：长度为5至100个核苷酸的检测寡核苷酸探针；长度为5至100个核苷酸的增强子寡核苷酸探针；和内切核酸酶；其中所述检测寡核苷酸探针与其核苷酸序列示于SEQ IDNO：1-562的任一个中的核酸的第一区段特异性杂交，并且其中所述检测寡核苷酸探针在其3′末端包含可检测标记和在其5′末端包含猝灭部分；其中所述增强子寡核苷酸在长度上为5至100个核苷酸并且与相对于寡核苷酸探针为5′的核酸序列的第二区段互补，以便当这两个寡核苷酸都与核酸杂交时增强子寡核苷酸相对于检测寡核苷酸探针位于3′；其中单个碱基缺口存在于第一区段与第二区段之间，以便当寡核苷酸探针和增强子寡核苷酸探针都与核酸杂交时，单个碱基缺口存在于寡核苷酸之间；以及其中当检测探针与核酸杂交时，用内切核酸酶处理核酸将从检测探针的3′末端切割可检测标记以释放游离可检测标记。

根据本发明的方法还可用于本发明的其他方法，包括评估在之前经诊断患有乳腺癌的个体中发生至少第二原发性肿瘤的风险的方法，就对乳腺癌治疗剂起反应的可能性评估个体的方法和监控经诊断患有乳腺癌并且接受疾病治疗的个体的治疗进展的方法。

本文中描述的与乳腺癌关联的标志可全部用于本发明的不同方面，包括本文中描述的方法、试剂盒、用途、装置和程序。在一般意义上，本发明涉及与本文中定义的LD区段C09、LD区段C10A、LD区段10B、LD块C11A、LD区段C11B、LD区段C14、LD区段C18、LD区段C22A和LD区段C22B的任一个关联的标志。在某些实施方案中，本发明涉及表1或表4中所示的标志和与它们处于连锁不平衡中的标志。在某些其他实施方案中，本发明涉及表4中所示的标志。在某些其他实施方案中，本发明涉及标志rs2005154、rs2184380、rs2224696、rs2242503、rs12291026、rs999737、rs9956546、rs11912922和rs6001954以及与它们处于连锁不平衡中的标志。在一些其他优选实施方案中，本发明涉及rs2005154(SEQ ID NO：1)、rs2184380(SEQ ID NO：2)、rs2224696(SEQ ID NO：3)、rs2242503(SEQ ID NO：4)、rs12291026(SEQ ID NO：5)、rs999737(SEQID NO：6)、rs9956546(SEQ ID NO：7)、rs11912922(SEQ ID NO：8)和rs6001954(SEQ ID NO：9)中的任一个。

在某些实施方案中，赋予增加的患乳腺癌的风险的至少一个标志等位基因选自rs2005154等位基因T、rs2184380等位基因G、rs2224696等位基因T、rs2242503等位基因C、rs12291026等位基因G、rs999737等位基因C、rs9956546等位基因A、rs11912922等位基因T和rs6001954等位基因G。在此类实施方案中，等位基因(有风险的等位基因)的存在标示着增加的患乳腺癌的风险度。

在本发明的某些实施方案中，使用连锁不平衡测量r²和|D′|测定连锁不平衡，所述r²和|D′|给出两个遗传成分(例如，多态型标志)之间的连锁不平衡(LD)的程度。针对特定标志的此类测量的某些数值标示着标志处于连锁不平衡中，如本文中进一步描述的。在本发明的一个实施方案中，标志之间的连锁不平衡(即，标示着标志处于连锁不平衡中的LD值)被定义为r²＞0.1。在另一个实施方案中，连锁不平衡被定义为r²＞0.2。其它实施方案可包括连锁不平衡的其它定义，例如r²＞0.25、r²＞0.3、r²＞0.35、r²＞0.4、r²＞0.45、r²＞0.5、r²＞0.55、r²＞0.6、r²＞0.65、r²＞0.7、r²＞0.75、r²＞0.8、r²＞0.85、r²＞0.9、r²＞0.95、r²＞0.96、r²＞0.97、r²＞0.98或r²＞0.99。在某些实施方案中连锁不平衡还可定义为|D′|＞0.2或定义为|D′|＞0.3、|D′|＞0.4、|D′|＞0.5、|D′|＞0.6、|D′|＞0.7、|D′|＞0.8、|D′|＞0.9、|D′|＞0.95、|D′|＞0.98或|D′|＞0.99。在某些实施方案中，连锁不平衡被定义为满足r²和|D′|两个标准，例如r²＞0.2并且|D′|＞0.8。r²和|D′|的值的其它组合也是可能的并且在本发明的范围内，包括但不限于上文所示的这些参数的值。

应当理解，本文中描述的特征的所有组合是被涉及的，即使特征的组合未明确地见于本文中相同的句子或段落中。这特别地包括本文中公开的全部标志，单独地或组合地用于个别分析或在单倍型中，在本文中描述的本发明的所有方面中的用途。

附图概述

本发明的上述和其它目的、特征和有利方面由以下本发明的优选实施方案的更具体的描述将变得透彻。

图1提供了举例说明利用本文中描述的风险变体的计算机实现系统的图解。

详述

本发明公开了已发现与乳腺癌关联的多态型变体和单倍型。已发现染色体9、10、11、14、18和22上的多态型标志上的特定等位基因与发生乳腺癌的风险关联。此类标志和单倍型用于诊断目的、用于预测药物反应的方法和用于预测治疗进展的方法，如本文中进一步描述的。本发明的其他应用包括利用本发明的多态型标志来评估对利用手术或放射疗法进行的乳腺癌治疗的反应的方法以及用于本发明的方法的试剂盒。

定义

除非另外指出，否则核酸序列以5′至3′方向从左向右书写。说明书中引用的数值范围包括界定范围的数字并且包括界定的范围内的每一个整数或任意非整数分数。除非另外定义，否则本文中使用的全部技术和科学术语具有与本发明所属领域的技术人员的通常理解相同的意义。

在本说明书中下列术语将具有所指出的意义：

如本文中所描述的“多态型标志”，有时称为“标志”意指基因组多态型位点。每一个多态型标志在多态型位点上具有特定等位基因的至少2个序列差异特征。因此，多态型标志的遗传关联性(geneticassociation)意指存在与该特定多态型标志的至少一个特定等位基因的关联性。标志可包括基因组中发现的任何变型的任何等位基因，包括单核苷酸多态型(SNP)、小卫星或微卫星、易位和拷贝数变化(插入、缺失、重复)。多态型标志在群体中可具有任何可测量的频率。为了定位疾病基因，具有高于5-10％的群体频率的多态型标志通常最为有用。然而，多态型标志还可具有更低的频率，例如1-5％的频率或甚至更低的频率，特别是拷贝数变异(CNV)。在本发明书中，术语将被用来包括具有任何群体频率的多态型标志。

“等位基因”意指染色体上给定的基因座(位置)的核苷酸序列。因此多态型标志等位基因意指染色体上标志的组成(即，序列)。个体的基因组DNA对于任何给定的多态型标志包含2个等位基因，代表每一条染色体上标志的每一个拷贝。本文中使用的核苷酸的序列码是：A＝1、C＝2、G＝3、T＝4。对于微卫星等位基因，将CEPH样品(Centre d′Etudesdu Polymorphisme Humain、基因组数据库、CEPH样品1347-02)用作参照，将该样品中每一个微卫星的较短等位基因设置为0并且根据该参照给其它样品中所有其它等位基因编号。因此，例如等位基因1比CEPH样品中的所述较短等位基因长1bp，等位基因2比CEPH样品中的所述较短等位基因长2bp，等位基因3比CEPH样品中的所述较短等位基因长3bp等，以及等位基因-1比CEPH样品中的所述较短等位基因短1bp，等位基因-2比CEPH样品中的所述较短等位基因短2bp等。

“单核苷酸多态型”或“SNP”是当基因组中特定位置上单个核苷酸在种的成员之间或个体的成对染色体之间不同时存在的DNA序列差异。大多数SNP多态型具有2个等位基因。每一个个体在该情况下对于多态型的一个等位基因是纯合的(即个体的两个染色体拷贝在该SNP位置都具有相同的核苷酸)或个体是杂合的(即个体的两个姊妹染色体包含不同的核苷酸)。本文中报导的SNP命名是指由美国国家生物技术信息中心(NCBI)分配给每一个独特的SNP的官方参考SNP(official ReferenceSNP)(rs)ID标识符。

本文中所述的序列共核苷酸错读(Sequence conucleotideambiguity)是如IUPAC-IUB所提出的。此类代码与由EMBL、GenBank和PIR数据库使用的代码兼容。

IUB代码	意义
		A	腺苷
C	胞苷
		G	鸟嘌呤
T	胸苷
		R	G或A
Y	T或C
		K	G或T
M	A或C
		S	G或C
W	A或T
		B	C、G或T
D	A、G或T
		H	A、C或T
V	A、C或G
		N	A、C、G或T(任何碱基)

本文中所示的序列表提供了在本文中表1至4所示的多态型标志的侧翼序列，其中在序列中使用如上所示的序列共核苷酸的多义性码标示多态型位点。

在群体(天然群体或合成群体，例如合成分子的文库)中可能存在超过一个序列的核苷酸位置在本文中称为“多态型位点”。

如本文中所描述的“variant(变体、变型)”，意指与参照DNA不同的DNA的区段。如本文中所定义的“标志”或“多态型标志”，是变体。与参照不同的等位基因被称为“变体”等位基因。

“微卫星”是特定位点上具有多个长度为2至8个核苷酸的小的碱基重复(例如CA重复)的多态型标志，其中重复长度的数量在一般群体中可变化。

“插入和缺失(indel)”是包含通常只有数个碱基长的小的插入或缺失的多态型的一般形式。

“单倍型”，如本文中所描述的，是指特征在于沿区段排列的等位基因的特定组合的DNA的一条链内的基因组DNA的区段。对于二倍体生物例如人，单倍型包含每一个多态型标志或基因座的等位基因对的一个成员。在某些实施方案中，单倍型可包含2个或更多个等位基因，3个或更多个等位基因，4个或更多个等位基因，或5个或更多个等位基因。

术语“易感性”，如本文中描述的，包括增加的易感性和减少的易感性。因此，本发明的多态型标志和/或单倍型可以以增加的对乳腺癌的易感性(即，增加的风险)为特征，如由大于1的相对风险度(RR)或大于1的比值比(OR)所表征的。可选择地，本发明的标志和/或单倍型可具有减少的对乳腺癌的易感性(即，减小的风险)的特征，如由小于1的相对风险度或小于1的比值比表征的。单倍型在本文中依据该单倍型中标志的标志名称和等位基因来进行描述，例如，“Ars9956546”意指存在于单倍型中的标志rs9956546的A个等位基因，并且等同于“rs9956546等位基因A”和“A-rs9956546”。此外，单倍型中等位基因代码与针对个体标志的一样，即1＝A、2＝C、3＝G和4＝T。

术语“易感性”，如本文中描述的，意指个体向某种状态(例如，某些性状、表型或例如，乳腺癌)发展的倾向性，或与一般个体相比较不太能抗特定状态的倾向。术语包括增加的易感性和减少的易感性。因此，本文中描述的本发明的多态型标志和/或单倍型上的特定等位基因可具有增加的对乳腺癌的易感性(即，增加的风险)的特征，如由特定等位基因或单倍型的大于1的相对风险度(RR)或比值比(OR)表征的。可选择地，本发明的标志和/或单倍型的特征在于减少的对乳腺癌的易感性(即，减少的风险度)，如由小于1的相对风险度表征的。

术语“和/或”在本说明书中应被理解为表示包括由其连接的项的任一项或两者。换句话说，本文中的术语应当被用来表示“一个或另一个或两者”。

术语“查找表”，如本文中所描述的，是使数据的一种形式与另一种形式关联，或使数据的一种或多种形式与和数据相关的预测结果例如表型或性状关联的表。例如，查找表可包括至少一个多态型标志的等位基因数据与特定性状或表型例如特定疾病的诊断之间的关系，所述特定性状或表型是包含所述特定等位基因数据的个体可能展示的或比不包含特定等位基因数据的个体更可能展示的特定性状或表型。查找表可以是多维的，即，它们可同时包括关于单个标志的多个等位基因的信息，或它们可包括关于多个标志的信息，并且它们还可包括其它因素，例如关于疾病诊断的明细、种族信息、生物标志、生物化学测量、治疗方法或药物等。

“计算机可读介质”是可使用商购可得的或定制的接口通过计算机读取的信息存储介质。示例性计算机可读介质包括存储器(例如，RAM、ROM、闪存等)、光存储介质(例如，CD-ROM)、磁存储介质(例如，计算机硬驱、软盘等)、穿孔卡或其它商购可得的介质。信息可在目标系统与介质之间、计算机之间或者计算机与用于储存或读取存储的信息的计算机可读介质之间传送。此类传送可以是电子的或通过其它可获得的方法例如红外连接(IR link)、无线连接等进行的。

“核酸样品”是从含有核酸(DNA或RNA)的个体获得的样品。在某些实施方案即特定多态型标志和/或单倍型的检测中，核酸样品包含基因组DNA。这样的核酸样品可从含有基因组DNA的任何来源获得，包括如血液样品、羊膜液样品、脑脊髓液样品或来自皮肤、肌肉、颊粘膜或结膜粘膜、胎盘、胃肠道或其它器官的组织样品。

术语“乳腺癌治疗剂”意指可用于改善或预防与乳腺癌相关的症状的试剂。

术语“乳腺癌-关联核酸”，如本文中所述，意指已经发现与乳腺癌关联的核酸。此类核酸包括但不限于本文中描述的标志和单倍型以及与其处于强连锁不平衡(LD)中的标志和单倍型。

本文中描述的术语“乳腺癌”意指乳腺癌的任何临床诊断，包括乳腺癌的任何和所有特定亚表型(subphenotype)。例如，有时将乳腺癌分类为雌激素受体(ER)阳性乳腺癌或雌激素受体阴性乳腺癌；有时还将乳腺癌分类为孕激素受体(PR)阳性或阴性乳腺癌。此外乳腺癌有时被诊断为浸润性导管癌、诊断为浸润性小叶癌、诊断为管状癌或诊断为浸润性或混合浸润性癌。乳腺癌还可被分类为髓质性DCIS(导管原位癌)或LCIS(小叶原位癌)或非浸润性癌；浸润性乳腺癌还可被定义为0期、1期、2期(包括2a期和2b期)、3期(包括3a期、3b期和3c期)或4期乳腺癌。在本说明书中，“乳腺癌”可包括乳腺癌的此类亚表型的任一种亚表型，并且还包括乳腺癌的任何其他临床上可应用的亚表型。

术语“所有乳腺癌”或“所有BC”意指经诊断患有乳腺癌的所有个体。

术语“中度易感性(Medium Predisposition)”乳腺癌或“MedPre”乳腺癌意指乳腺癌的亚表型。该表型的界定需要先证者(proband)满足下列标准中的至少一个标准：

先证者是包括3个或更多个在3个减数分裂事件的遗传距离(3M)内的患病亲属的乳腺癌病例组中的成员。

先证者是在3M内相关的患病对的成员，其中一个在诊断时年龄为50岁或更年轻。

先证者是3M内相关的患病对的成员，其中一个经诊断患有任何类型的第二原发肿瘤。

先证者经诊断患有任何类型的第二原发肿瘤。

术语“多原发性乳腺癌”或“MPBC”，如本文中所描述的，意指其中除了第一乳腺癌诊断外还诊断出至少一个原发性肿瘤的病例，并且所述两个肿瘤在临床上和组织学上被确认为独立的原发性肿瘤，其是同时发生的或在第一乳腺癌之后发生并且存在于对侧或同侧乳腺中。

术语“家族史评分(family history score)”或“FHS”，如本文中所描述的，是基于患有乳腺癌的先证者的患所述疾病的亲属的人数确定的。对于每一个先证者，将为1的评分赋予每一个患病的1级亲属，将0.5分赋予每一个患病的二级亲属以及将0.25分赋予每一个三级亲属。所有患病亲属所获得的总和代表了总计家族史评分(summed familyhistory score)或FHS。

术语“雌激素受体阳性乳腺癌”或“ER阳性乳腺癌”，如本文中所描述的，意指经测定为对于雌激素受体是阳性的肿瘤。在本说明书中，大于或等于10fmol/mg的ER水平和/或大于或等于10％的阳性细胞核的免疫组织化学观察被认为是ER阳性的。不满足为ER阳性的标准的乳腺癌在本文中被定义为“ER阴性的”或“雌激素受体阴性的”。

术语“孕激素受体阳性乳腺癌”或“PR阳性乳腺癌”，如本文中所描述的，意指经测定为对于孕激素受体是阳性的肿瘤。在本说明书中，大于或等于10fmol/mg的PR水平和/或大于或等于10％的阳性细胞核的免疫组织化学观察被认为是PR阳性的。不满足为PR阳性的标准的乳腺癌在本文中被定义为“PR阴性的”或“孕激素受体阴性的”。

本文中描述的术语“PAX5”或“PAX5基因”意指配对盒基因5(PAIRED BOX GENE 5)基因，也称为人染色体9p13上的BSAP。

术语“TUB”或“rd5基因”，如本文中所描述的，意指人染色体11p15.5上的Tubby同源物(小鼠)基因。

本文中描述的术语“SERPINH1”意指人染色体11上的丝氨酸蛋白酶抑制剂、clade H(热激蛋白47)、成员1(胶原结合蛋白1)基因。

此外，还命名了术语“RAD51L1 X-基因”；本文中描述的“REC2；R51H2；hREC2；RAD51B或MGC34245”意指位于人染色体14q23-24上的蛋白质编码基因。

此外，术语“FHOD3基因”，也称为“FHOS2基因”或“Formactin2”(如本文中所描述的)，代表了含形成素同源性2域3，位于人染色体18q12上的蛋白质编码基因。

最后，术语“TNRC6B”或“TNRC6B基因”，也称为“KIAA1093”(如本文中所描述的)，意指含三核苷酸串联重复的6B，位于人染色体22q13上的蛋白质编码基因。

通过一群经诊断患有根据本发明的乳腺癌的个体的关联分析，已发现染色体9，10，11，14，18和22上某些多态型标志上的某些等位基因与乳腺癌关联。与癌症关联的变体的全基因组分析显现乳腺癌与9个染色体区域的关联性，所述区域即

染色体9上位置36，806，001与36，859，001之间(LD区段C09)；

染色体10上位置8，643，001与8，817，001之间(LD区段C10A)；

染色体10上位置9，077，001与9，264，001之间(LD区段C10B)；

染色体11上位置8，053，268与8，191，268之间(LD区段C11A)；

染色体11上位置74，886，341与74，971，341之间(LD区段C11B)；

染色体14上位置68，035，712与68，130，712之间(LD区段C14)；

染色体18上位置32，110，012与32，145，012之间(LD区段C18)；

染色体22上位置38，704，907与38，859，907之间(LD区段C22A)；

染色体22上位置38，859，907与39，411，907之间(LD区段C22B)；

其中所有位置相应于NCBI Build 36坐标)。

发现这些区域中的特定标志与这些位置中增加的患乳腺癌的风险关联。

通过使用Illumina HumanHap300微阵列技术对大约1840个冰岛人乳腺癌患者和平均30,350个对照进行基因分型，发现几个染色体位置上的大量标志显示与乳腺癌的关联性(表1)。特别地，发现9个SNP：rs2005154、rs2184380、rs2224696、rs2242503、rs12291026、rs999737、rs9956546、rs11912922和rs6001954与增加的患乳腺癌的风险关联。

来自冰岛、荷兰、西班牙和瑞典的另外的队列中的随访分析显示9个标志的关联信号确实是显著的(表3)。此类标志以及与此类标志中的任意一个标志处于连锁不平衡中的替代标志从而对于预测个体中患乳腺癌的风险度是有用的。示例性替代标志在本文中示于表4中。

此类标志从而鉴定了9个染色体区域，所述9个区域，由于它们与上述标志中的任意一个处于LD中，因而特别地预期包含预测乳腺癌的标志。此类区域在本文中也称为LD区段C09、LD区段C10A、LD区段10B、LD区段C11A、LD区段C11B、LD区段C14、LD区段C18、LD区段C22A和LD区段C22B。

本领域技术人员将理解与9个锚定标志rs2005154、rs2184380、rs2224696、rs2242503、rs12291026、rs999737、rs9956546、rs11912922和rs6001954中的任意一个处于LD中的标志可位于本文中定义的LD区段的外部。这是因为LD可延伸超过通常定义的LD区段的表观物理边界(通常由高重组率的区域界定的边界)的结果。也特别地预期与这9个标志处于LD中的此类替代标志对于本发明是有用的，从而也在本发明的范围内。

标志和单倍型的评估

当比较个体时，群体中的基因组序列是不相同的。相反，基因组在基因组的许多位置上展示个体之间的序列差异性。序列的此类变异通常被称为多态型，并且每一个基因组中存在许多此类位点。例如，人基因组展示平均每500个碱基对存在序列差异。最常见的序列变体由基因组中单个碱基位置上的碱基变异组成，并且此类序列变体或多态型通常称为单核苷酸多态型(“SNP”)。此类SNP据信已由单个突变事件产生，从而通常可能在每一个SNP位点存在2个可能的等位基因；原始等位基因和突变的(替代)等位基因。由于天然遗传漂变(genetic drift)以及可能地还有选择压力的原因，原始突变已导致由其等位基因在任何给定的群体中的特定频率表征的多态型。在人基因组中发现许多其它类型的序列变体，包括小卫星和微卫星、以及插入、缺失、倒位(也称为拷贝数变异(CNV))。多态型微卫星在特定位点上具有多个小的碱基重复(例如CA重复，互补链上的TG)，其中重复长度的数目在一般群体中是变化的。一般说来，针对多态型位点序列的每一个形式代表了多态型位点的特定等位基因。所有序列变体可被称为存在于特定多态型位点上的表征为所述序列变体的多态型。一般地，多态型可在群体中包括任意数量的特定等位基因，虽然每一个人个体在各多态型位点上具有2个等位基因-一个母源等位基因和一个父源等位基因。因此在本发明的一个实施方案中，多态型的特征在于在群体中存在2个或更多个等位基因。在另一个实施方案中，多态型的特征在于存在3个或更多个等位基因。在其它实施方案中，多态型的特征在于4个或更多个等位基因、5个或更多个等位基因、6个或更多个等位基因、7个或更多个等位基因、9个或更多个等位基因或10个或更多个等位基因。所有此类多态型可用于本发明的方法和试剂盒，从而在本发明的范围内。

由于它们的丰富性，SNP占据了人基因组中大部分序列差异。迄今为止已验证了600多万个人SNP(http://www.ncbi.nlm.nih.gov/projects/SNP/snp_summary.cgi)。然而，CNV正受到日益关注。这些大尺度多态型(通常1kb或更大)解释了影响大部分装配的人基因组的多态型变异；已知的CNV覆盖15％以上的人基因组序列(Estivill，X.、Armengol，L.，PloS Genetics 3：1787-99(2007)；http://projects.tcag.ca/variation/)。然而大多数此类多态型非常罕见，并且平均只影响每一个个体的一小部分基因组序列。已知CNV通过破坏基因剂量影响基因表达、表型变异和适应性，并且还已知其引起疾病(微缺失(microdeletion)和微重复(microduplication)障碍)并带来常见复杂疾病包括HIV-1感染和患肾小球肾炎的风险(Redon，R.，等人Nature 23：444-454(2006))。因此之前描述的或未知的CNV可能代表与本文中描述的疾病相关标志处于连锁不平衡中的病因性变体(causative variants)。用于检测CNV的方法包括比较基因组杂交(CGH)和基因分型，包括基因分型阵列的使用，如由Carter(Nature Genetics 39：S16-S21(2007))描述的。基因组变体数据库(http://projects.tcag.ca/variation/)包括关于所述CNV的位置、类型和大小的更新信息。该数据库目前包括21,000多个CNV的数据。

在一些情况下，参考多态型位点上的不同等位基因而无需选择参照等位基因。可选择地，就特定的多态型位点可参考参照序列。参照等位基因有时被称为“野生型”等位基因，其通常被选择作为第一测序的等位基因或来自“未患病的”个体(例如，未展示性状或疾病表型的个体)的等位基因。

本文中提及的SNP标志的等位基因是指它们存在于多态型位点上的碱基A、C、G或T。在本文中使用的SNP的等位基因代码如下：1＝A、2＝C、3＝G、4＝T。因为人DNA是双链，因此本领域技术人员将认识到通过测定或阅读互补DNA链，可在每一种情况下测量互补等位基因。因此，对于特征在于A/G多态型的多态型位点(多态型标志)，用于检测标志的方法可被设计来特异性检测两个可能的碱基即A和G的一个或两个的存在。可选择地，通过设计经设计用以检测DNA模板上的相反链的测定法，可测量互补碱基T和C的存在。可根据任一DNA链(+链或-链)的测量定量地(例如，就相对风险度而言)获得相同的结果。

通常，就特定的序列参考参照序列。与参照不同的等位基因有时被称为“变体”等位基因。变体序列，如本文中使用的，意指与参照序列不同但大体上相似的序列。本文中描述多态型遗传标志上的等位基因是变体。变体可包括影响多肽的变化。当与参照核苷酸序列相比较时，序列差异可包括单个核苷酸或超过1个核苷酸的插入或缺失，导致移码；至少一个核苷酸的改变，导致编码的氨基酸的改变；至少一个核苷酸的改变，导致未成熟终止密码子的产生；数个核苷酸的缺失，导致由核苷酸编码的一个或多个氨基酸的缺失；一个或数个核苷酸的插入(例如通过不均等重组或基因转变)导致读框的编码序列中断；全部或部分序列的重复；转座(transposition)；或核苷酸序列的重排。此类序列变化可改变由核酸编码的多肽。例如，如果核酸序列的变化引起移码，移码可导致编码的氨基酸的变化和/或可导致未成熟终止密码子的产生，从而引起截断的多肽的产生。可选择地，多态型可以是一个或多个核苷酸的同义突变(即，不导致氨基酸序列变化的变化)。这样的多态型可以例如改变剪接位点，影响mRNA的稳定性或运输，或影响编码的多肽的转录或翻译。其还可改变DNA以增加结构变化例如扩增或缺失在体细胞水平上发生的概率。由参照核苷酸序列编码的多肽为具有特定参照氨基酸序列的“参照”多肽，由变体等位基因编码的多肽被称为具有变异氨基酸序列的“变体”多肽。

单倍型意指DNA的单链区段，其特征在于沿区段排列的等位基因的特定组合。对于二倍体生物例如人，单倍型包括每一个多态型标志或基因座的成对等位基因的一个成员。在某些实施方案中，单倍型可包括2个或更多个等位基因，3个或更多个等位基因，4个或更多个等位基因，5个或更多个等位基因，每一个等位基因相应于沿区段的特定多态型标志。单倍型可包括不同多态型标志例如SNP与微卫星的组合，所述标志在多态型位点上具有特定的等位基因。因此单倍型包括不同遗传标志上的等位基因的组合。

检测特定多态型标志和/或单倍型可通过本领域内已知的用于检测多态型位点上的序列的方法来实现。例如，可使用用于就SNP和/或染色体微卫星标志的存在进行基因分型的标准技术，例如基于荧光的技术(例如，Chen，X.等人，Genome Res.9(5)：492-98(1999))，所述技术利用PCR、LCR、嵌套式PCR和其它技术进行核酸扩增。用于SNP基因分型的可获得的特定商业方法包括但不限于TaqMan基因分型测定和SNPlex平台(Applied Biosystems)、凝胶电泳(Applied Biosystems)、质谱法(例如，来自Sequenom的MassARRAY系统)、微测序法(minisequencing method)、实时PCR、Bio-Plex系统(BioRad)、CEQ和SNPstream系统(Beckman)、阵列杂交技术(例如，Affymetrix GeneChip；Perlegen)、BeadArray技术(例如，Illumina GoldenGate和Infinium测定)、阵列标签技术(例如Parallele)和基于内切核酸酶的荧光杂交技术(Invader；Third Wave)。一些可获得的阵列平台(包括Affymetrix SNPArray 6.0和Illumina CNV370-Duo以及1M BeadChip)包括标记某些CNV的SNP。这允许通过这些平台中包括的替代SNP来检测CNV。因此，通过使用本领域技术人员可获得的此类或其它方法，可鉴定多态型标志包括微卫星、SNP或其它类型的多态型标志上的一个或多个等位基因。

在某些实施方案中，通过测序技术检测多态型标志。获得关于个体的序列信息鉴定序列背景中的特定核苷酸。对于SNP，关于单个独特序列位点的序列信息足以鉴定该特定SNP上的等位基因。对于包含超过一个的核苷酸的标志，关于含有多态型位点的个体的核苷酸的序列信息鉴定了个体的针对该特定位点的等位基因。可从个体的样品获得序列信息。在某些实施方案中，样品是核酸样品。在某些其它实施方案中，样品是蛋白质样品。

用于获取核酸序列的各种方法是本领域技术人员已知的，并且所有此类方法对于实施本发明是有用的。桑格测序是用于产生核酸序列信息的熟知方法。已开发了用于获得大量序列数据的新近方法，并且也预期此类方法对于获得序列信息是有用的。此类方法包括焦磷酸测序技术(Ronaghi，M.等人Anal Biochem 267：65-71(1999)；Ronaghi，等人Biotechniques 25：876-878(1998))，例如454焦磷酸测序(Nyren，P.，等人Anal Biochem 208：171-175(1993))、Illumina/Solexa测序技术(http://www.illumina.com；也参见Strausberg，RL，等人Drug DiscToday 13：569-577(2008))和支持的寡核苷酸连接和检测平台(Supported Oligonucleotide Ligation and Detection Platform)(SOLiD)技术(Applied Biosystems，http://www.appliedbiosystems.com)；Strausberg，RL，等人Drug Disc Today 13：569-577(2008)。

归纳或预测已知基因型的个体的未基因分型的亲属的基因型是可能的。对于每一个未基因分型的案例，计算被给定的其4个可能的分枝基因型(phased genotype)的亲属基因型的概率是可能的。实践中，可有利地只包括案例的双亲、子女、兄弟姐妹、同父异母或同母异父兄弟姐妹(和同父异母或同母异父兄弟姐妹的双亲)、祖父母、孙子女(和孙子女的双亲)和配偶的基因型。假定围绕每一个案例产生的小型亚家谱(sub-pedigree)中的个体不与不包括在该家谱中的任何分支具有亲缘关系。还假定未传递至案例的等位基因具有相同的频率-群体等位基因频率。让我们考虑具有等位基因A和G的SNP标志。因此可利用下述公式计算该案例的亲属基因型的概率：

其中θ表示案例中A等位基因的频率。假定每组亲属的基因型是不相关的，那么这允许我们写下θ的似然函数：

该不相关性假定通常是不正确的。解释个体之间的相关性是困难且潜在地过分昂贵的计算任务。(*)中的似然函数可被看作是正确解释所有相关性的θ的完全似然函数的伪似然近似值。一般地，案例-对照关联研究中已基因分型的案例和对照并非是不相关的并且将案例-对照法用于相对案例和对照是类似逼近的。已证明基因组控制的方法(Devlin，B.等人，Nat Genet 36，1129-30；作者回复(author reply)1131(2004))证明就亲缘关系调整案例-对照检验统计是成功的。因此我们将基因组控制法用于解释我们的伪似然中的项之间的相关性和产生有效的检验统计。

可使用Fisher信息来评估由于未基因分型的案例而产生的伪似然的部分的有效样本容量。将总Fisher信息I分成归因于已基因分型的案例的部分I_g和归因于未知基因型的案例的部分I_u，I＝I_g+I_u、并且用N表示已基因分型的案例的数量，归因于未知基因型的案例的有效样本容量评估为

在本说明书中，处于增加的对疾病的易感性(即，增加的风险度)中的个体是其中一个或多个赋予增加的对疾病的易感性(增加的风险度)的多态型标志或单倍型(即，有风险的标志等位基因或单倍型)上的至少一个特定的等位基因被鉴定的个体。有风险的标志或单倍型是赋予增加的患疾病的风险(增加的易感性)的标志或单倍型。在一个实施方案中，利用相对风险度(RR)测量与标志或单倍型相关的显著性。在另一个实施方案中，利用比值比(OR)测量与标志或单倍型相关的显著性。在另外的实施方案中，用百分数测量显著性。在一个实施方案中，显著增加的风险度测量为至少1.2的风险度(相对风险度和/或比值比)，包括但不限于：至少1.2、至少1.3、至少1.4、至少1.5、至少1.6、至少1.7、至少1.8、至少1.9、至少2.0、至少2.5、至少3.0、至少4.0、至少5.0。在具体的实施方案中，至少1.2的风险度(相对风险度和/或比值比)是显著的。在另一个具体的实施方案中，至少1.3的风险度是显著的。在另一个实施方案中，至少1.4的风险度是显著的。在另外的实施方案中，至少1.5的相对风险度是显著的。在另一个另外的实施方案中，至少1.7为风险度的显著增加是显著的。然而，还预期有其他截断值，例如至少1.15、1.25、1.35等，并且这些截断值也在本发明的范围之内。在其他实施方案中，风险度的显著增加是至少大约20％，包括但不限于大约25％、30％、35％、40％、45％、50％、55％、60％、65％、70％、75％、80％、85％、90％、95％、100％、150％、200％、300％和500％。在一个具体的实施方案中，风险度的显著增加是至少20％。在其他实施方案中，风险度的显著增加是至少30％、至少40％、至少50％、至少60％、至少70％、至少80％、至少90％和至少100％。然而还涉及被本领域技术人员认为适合于表征本发明的其他截断值或范围，并且此类截断值或范围也在本发明的范围内。在某些实施方案中，风险度的显著增加用p值例如少于0.05，小于0.01，小于0.001，小于0.0001，小于0.00001，小于0.000001，小于0.0000001，小于0.00000001或小于0.000000001的p值来表征。

本发明的有风险的多态型标志或单倍型是这样的标志或单倍型，其中至少一个标志或单倍型的至少一个等位基因与其在比较组(对照)中存在的频率相比较，更频繁地存在于处于发生疾病或性状(患病的)的风险中或者经诊断患有所述疾病或性状的个体中，因此标志或单倍型的存在标示对疾病或性状疾病或性状(例如，乳腺癌)的易感性。在一个实施方案中对照组可以是群体样品，即来自一般群体的随机样品。在另一个实施方案中，对照组由一组无疾病的个体即未曾被诊断患有乳腺癌的个体代表。在一个实施方案中这样的无疾病对照的特征在于一个或多个特定疾病相关症状的不存在。在另一个实施方案中，无疾病的对照组特征在于一个或多个疾病特异性风险因素的不存在。此类风险因素在一个实施方案中是至少一个环境风险因素。代表性环境因素是自然产物、矿物质或已知影响或预期影响发生特定疾病或性状的风险度的其它化学品。其它环境风险因素是与生活方式包括但不限于饮食习惯、主要栖息地的地理位置相关的风险因素和职业性风险因素。在另一个实施方案中，风险因素为至少一个遗传风险因素。

相关性的简单检验的实例可以是基于two by two表的Fisher精确检验。给定一列染色体，two by two表由两条都具有标志或单倍型的染色体、一条具有标志或单倍型但另一条不具有的染色体和两条都不具有标志或单倍型的染色体的数量构成。是本领域技术人员已知的其它关联性统计检验也被涉及并且也在本发明的范围之内。

本领域技术人员将理解具有两个等位基因的标志(例如SNP)存在于待研究的群体中，并且其中与对照相比较，在群体中发现一个等位基因以增加的频率存在于一群具有性状或疾病的个体中，与对照相比较，发现标志的另一个等位基因以减少的频率存在于一群具有性性或疾病的个体中。在这样的情况下，标志的一个等位基因(以增加的频率在具有性状或疾病的个体中发现的等位基因)将是有风险的等位基因，而另一个等位基因则是保护性等位基因。

因此在本发明的其它实施方案中，处于减少的对疾病或性状的易感性(即，处于减少的风险度中)中的个体是在其中鉴定了赋予减少的对于疾病或性状的易感性的一个或多个多态型标志或单倍型上的至少一个特定等位基因的个体。赋予减少的风险度的标志等位基因和/或单倍型也被认为是保护性的。一方面，保护性标志或单倍型是赋予对疾病或性状显著减少的风险度(或易感性)的标志或单倍型。在一个实施方案中，显著减少的风险度被测量为小于0.90，包括但不限于小于0.85，小于0.80，小于0.75，小于0.7，小于0.6，小于0.5，小于0.4，小于0.3，小于0.2，小于0.1的相对风险度。在一个特定的实施方案中，显著减少的风险度小于0.90。在另一个实施方案中，显著减少的风险度小于0.85。在另一个实施方案中，显著减少的风险度小于0.80。在另一个实施方案中，风险度(或易感性)的减少为至少10％，包括但不限于至少15％、至少20％、至少25％、至少30％、至少35％、至少40％、至少45％、至少50％、至少55％、至少60％、至少65％、至少70％、至少80％、至少85％，至少90％、至少95％和至少98％。在一个具体的实施方案中，风险度的显著减少为至少大约15％。在另一个实施方案中，风险度的显著减少为至少大约20％。在另一个实施方案中，风险度的显著减少为至少大约25％。然而还涉及被本领域技术人员认为适合表征本发明的其他截断值或范围，这些截断值或范围也在本发明的范围内。

与疾病或性状(例如乳腺癌)关联的遗传变型可单独地用于预测给定的基因型发生疾病的风险度。对于双等位基因标志例如SNP，存在3种可能的基因型：有风险的变体的纯合子、杂合子和非风险变体的携带者。与多个基因座上的变体关联的风险度可用于评估总体风险度。对于多个SNP变体，存在k个可能的基因型k＝3ⁿ×2^p；其中n是常染色体基因座的数目，p为性染色体(gonosomal)基因座的数目。总风险度评评估算通常假定不同遗传变型的相对风险度相乘，即与特定基因型组合关联的总风险度(例如，RR或OR)是每一个基因座上的基因型的风险值的积。如果提供的风险度是与具有匹配的性别和种族的参照群体相比较的人或人的特定基因型的相对风险度，那么组合风险度-是基因座特异性风险度值的积-并且其还相应于与群体相比较的总风险度评估。如果人的风险度基于与非有风险的等位基因携带者的比较，那么组合风险度相应于评估，该评估将在全部基因座上具有给定的基因型组合的人与一群在任意此类基因座上不具有风险变体的个体相比较。任何有风险的变体的非携带者的组具有最低评估的风险度和具有与其本身(即，非携带者)相比较为1.0的组合风险度，但具有与所述群体相比较小于1.0的总风险度。应当指出，非携带者的群体可以是潜在的非常小的群体，特别是对于大量基因座，在该情况下，其关联性相应地很小。

乘法模型是通常非常合理地拟合复杂性状的数据的简约模型(parsimonious model)。在针对常见疾病的常见变体的背景中一直以来很少描述来有与与众不同的差异(deviations from multiplicity)，如果有报导，通常只是提示性的，因为通常需要非常大的样本容量才能证明基因座之间的统计关联性。

例如，让我们考虑病例是总共7个与乳腺癌关联的变体。一个这样的实例由标志rs13387042、rs4415084、rs1219648、rs3803662、rs13281615、rs3817198和rs889312提供，其全都用于用于乳腺癌易感性的市售的deCODE BreastCancer测试(http://www.decodediagnostics.com)。那么理论基因型组合的总数为3⁷＝2187。这些基因型种类中的一些种类非常罕见，但仍然是可能的，并且应当考虑用于总风险度评估。可能的是，应用于多遗传变型的情况的乘法模型也适用于结合非遗传性风险变体的情况，假定所述遗传变型与“环境”因素不是明确相关的。换句话说，假定非遗传性与遗传性风险因素不相互作用，可在乘法模型中评估遗传性和非遗传性有风险的变体来评估组合风险度。

通过使用相同的定量方法，可评估与任意多个与乳腺癌关联的此类和其他变体相关的组合风险度或总体风险度。这包括本文中显示和声明的预测乳腺癌的风险度的变体。

连锁不平衡

在每次减数分裂期间对于每一个染色体对平均发生一次的自然重组现象，代表了其中自然提供序列(和因此生物学功能)的变异的一个方式。已发现重组在基因组中并非随机发生；相反，重组率的频率具有巨大差异，从而导致高重组频率的小的区域(也称为重组热点)和低重组频率的更大区域(其通常被称为连锁不平衡(LD)区段)(Myers，S.等人，Biochem Soc Trans 34：526-530(2006)；Jeffreys，A.J.，等人，NatureGenet 29：217-222(2001)；May，C.A.，等人，Nature Genet31：272-275(2002))。

连锁不平衡(LD)是指两个遗传成分的非随机分配。例如，如果特定遗传成分(例如，多态型标志的等位基因，或单倍型)以0.50(50％)的频率在群体中发生并且另一个成分以0.50(50％)的频率发生，假定成分是随机分配的，那么具有两个成分的人的预测的发生频率为0.25(25％)。然而，如果发现两个成分以高于0.125的频率一起发生，那么所述成分被认为处于连锁不平衡，因为它们趋向于以比它们的独立发生频率(例如，等位基因或单倍型频率)预测的更高的比率一起遗传。粗略地讲，LD通常与两个成分之间的重组事件的频率相关。可通过在群体中对个体基因分型并且测定每一个等位基因或单倍型在群体中的发生频率来测定群体中等位基因或单倍型频率。对于二倍体的群体，例如，人群体，个体通常具有每一个遗传成分(例如，标志，单倍型或基因)的两个等位基因。

已提出许多不同的量度用以评估连锁不平衡的强度(LD；综述于Devlin，B.& Risch，N.，Genomics 29：311-22(1995)中))。大多数方法获得了成对的二等位基因位点之间的关联强度。LD的两个重要成对测量是r²(有时表示为Δ²)和|D′|(Lewontin，R.，Genetics 49：49-67(1964)；Hill，W.G.& Robert son，A.Theor.Appl.Genet.22：226-231(1968))。两个测量的范围是从0(无不平衡)至1(‘完全’不平衡)，但它们的解释略有不同。|D′|定义的方式是：如果对于两个标志只有2个或3个可能的单倍型存在，其等于1，并且如果所有4个可能的单倍型都存在，其小于1。因此，小于1的|D′|的值标示历史重组可能已在两个位点之间发生(频发突变还可使|D′|小于1，但对于单核苷酸多态型(SNP)，除了重组外，这通常被认为是不太可能的)。量度r²表示两个位点之间的统计相关性，如果只存在两个单倍型，则采用为1的值。

r²测量可论证是对于关联性定位(associat ion mapping)的最相关测量，因为r²与检测易感性基因座与SNP之间的关联性所需的样本容量之间存在简单的反相关。针对成对位点确定这些量度，但对于一些应用，可能期望测定包含许多多态型位点的整个区域上的LD强度(例如，检测LD的强度在基因座之间或群体间是否不同，或在特定模型下与预期相比是否存在或多或少的LD)。概略地说，r测量在特定的群体模型下产生在数据中看到的LD所需的重组次数。该类型的方法还可潜在地为确定LD数据是否提供重组热点存在的证据的问题提供统计学上严格的方法。关于本文中描述的方法，标示处于连锁不平衡中的标志的标志之间的显著的r²值可以是至少0.1，例如至少0.15、0.20、0.25、0.30、0.35、0.40、0.45、0.50、0.55、0.60、0.65、0.70、0.75、0.80、0.85、0.90、0.91、0.92、0.93、0.94、0.95、0.96、0.97、0.98或至少0.99。在一个优选实施方案中，显著的r²值可以是至少0.2。可选择地，处于连锁不平衡的标志特征在于|D′|的值为至少0.2，例如0.3、0.4、0.5、0.6、0.7、0.8、0.85、0.9、0.95、0.96、0.97、0.98或至少0.99。因此，连锁不平衡代表了不同标志的等位基因之间的相关性。在某些实施方案中，根据r²和|D′|测量的值来定义连锁不平衡。在一个这样的实施方案中，显著的连锁不平衡定义为r²＞0.1并且|D′|＞0.8，并且满足这些标准的标志被认为处于连锁不平衡中。在另一个实施方案中，显著的连锁不平衡定义为r²＞0.2并且|D′|＞0.9。还预期用于测定连锁不平衡的r²和|D′|的值的其它组合和排列(permutation)，并且其也在本发明的范围内。如本文中所定义的，单个人群体中测定连锁不平衡，或可在包括来自超过一个人群体的个体的样品集合中测定。在本发明的一个实施方案中，如所定义的，在来自一个或多个HapMap群体(高加索人、非洲人(Yuroban)、日本人、中国人)的样品中测定LD(http://www.hapmap.org)。在一个这样的实施方案中，在HapMap样品的CEU群体(祖先来自北欧和西欧的Utah居民)中测定LD。在另一个实施方案中，在HapMap样品的YRI群体(尼日利亚伊巴丹的Yuroba)中测定LD。在另一个实施方案中，在HapMap样品的CHB群体(来自中国北京的汉族中国人)中测定LD。在另一个实施方案中，在HapMap样品的JPT群体(来自日本东京的日本人)中测定LD。在另一个实施方案中，在来自冰岛人群体的样品中测定LD。

如果基因组中的所有多态型在群体水平上是相同的，那么需要在关联性分析中对它们中的每一个单个多态型进行研究。然而，由于多态型之间的连锁不平衡，紧密连锁的多态型强相关，这减少了需要在关联性分析进行调查以观察显著关联性的多态型的数目。由于这些多态型是强相关的事实，LD的另一个因果关系是许多多态型可提供关联性信号。

已产生了覆盖基因组的基因组LD图谱，并且已有人提议将这样的LD图谱用作定位疾病-基因的构架(Risch，N.& Merkiangas，K，Science273：1516-1517(1996)；Maniatis，N.，等人，Proc Natl Acad Sci USA99：2228-2233(2002)；Reich，DE等人，Nature 411：199-204(2001))。

现已确定可将人基因组的许多部分分区成系列离散的包含少数常见单倍型的单倍型区段；对于此类区段，连锁不平衡数据几乎未提供标示重组的证据(参见，例如，Wall.，J.D.和Pritchard，J.K.，Nature ReviewsGenetics 4：587-597(2003)；Daly，M.等人，Nature Genet.29：229-232(2001)；Gabriel，S.B.等人，Science 296：2225-2229(2002)；Patil，N.等人，Science 294：1719-1723(2001)；Dawson，E.等人，Nature418：544-548(2002)；Phillips，M.S.等人，Nature Genet.33：382-387(2003))。

有两个主要方法用于定义此类单倍型区段：可将区段定义为具有有限的单倍型多样性的DNA的区域(参见，例如，Daly，M.等人，Nature Genet.29：229-232(2001)；Patil，N.等人，Science 294：1719-1723(2001)；Dawson，E.等人，Nature 418：544-548(2002)；Zhang，K.等人，Proc.Natl.Acad.Sci.USA 99：7335-7339(2002))或定义为使用连锁不平衡鉴定的具有广泛的历史重组的过渡区之间的区域(参见，例如，Gabriel，S.B.等人，Science 296：2225-2229(2002)；Phillips，M.S.等人，Nature Genet.33：382-387(2003)；Wang，N.等人，Am.J.Hum.Genet.71：1227-1234(2002)；Stumpf，M.P.和Goldstein，D.B.，Curr.Biol.13：1-8(2003))。更近以来，已产生了覆盖人基因组的重组率和相应热点的精细标度的图谱(Myers，S.，等人，Science 310：321-32324(2005)；Myers，S.等人，Biochem Soc Trans 34：526530(2006))。图谱揭示了覆盖基因组的重组的大量变异，热点中重组率高至10-60cM/Mb，然而在间隔区(intervening region)接近于0，其因此代表有限的单倍型多样性和高LD的区域。因此图谱可用于将单倍型区段/LD区段定义为由重组热点侧翼连接的区域。如本文中使用的，术语“单倍型区段”或“LD区段”包括由任何上述特征或由本领域技术人员用于定义此类区域的其它可选择方法定义的块。

例如术语“LD区段C09”，如本文中所描述的，意指染色体9上NCBI(美国国家生物技术信息中心)Build 36的位置36，806，001与36，859，001之间的连锁不平稳(LD)区段。下表定义了本申请中提及的NCBI Build 36中的9个LD区段的染色体位置：

LD-区段(根据NCBI Build 36的位置)的表

染色体	LD区段	区段起始B36	区段终止B36
				C09	LD区段C09	36，806，001	36，859，001
C10	LD区段C10A	8，643，001	8，817，001
				C10	LD区段C10B	9，077，001	9，264，001
C11	LD区段C11A	8，053，268	8，191，268
				C11	LD区段C11B	74，886，341	74，971，341
C14	LD区段C14	68，035，712	68，130，712
				C18	LD区段C18	32，110，012	32，145，012
C22	LD区段C22A	38，704，907	38，859，907
				C22	LD区段C22B	38，859，907	39，411，907

单倍型区段(LD区段)可用于使用单个标志或包括多个标志的单倍型定位表型与单倍型状态之间的关联性。可在每一个单倍型区段中鉴定主要的单倍型，然后可鉴定一组“标签”SNP或标志(区分单倍型中所需的最小的SNP或标志的组)。然后可将此类标签SNP或标志用于评估来自个体的组群的样品，以鉴定表型与单倍型之间的关联性。本文中显示的与乳腺癌关联的标志是此类标签标志。需要时，可同时评估相邻的单倍型区段，因为在单倍型区段之间也可能存在连锁不平衡。

因此已变得显然的是，对于任何给定的观察到的与基因组中的多态型标志的关联性，基因组中另外的标志也显示关联性。这是LD在整个基因组中不均匀分布的自然结果，如通过重组率间的巨大差异观察到的。因此用于检测关联性的标志在某种意义上代表了与给定的疾病或性状关联的基因组区域(即，单倍型区段或LD区段)的“标签”。一个或多个病因性(功能性)变体或突变可存在于经发现与疾病或性状关联的区域中。功能性变体可以是另一种SNP、串联重复多态型(例如小卫星或微卫星)、转位因子或拷贝数变异，例如倒位、缺失或插入。具有本文中描述的变体的LD中的此类变体可赋予比针对用于检测关联性的标签标志观察到的更高的相对风险度(RR)或比值比(OR)。本发明因而涉及用于检测本文中描述的与疾病的关联性的标志以及与所述标志处于连锁不平衡中的标志。因此，在本发明的某些实施方案中，存在于具有最初用于检测关联性的标志的LD中的标志可用作替代标志。替代标志在一个实施方案中具有比最初检测到的值更小的相对风险度(RR)和/或比值比(OR)。在其它实施方案中，替代标志具有比针对起初被发现与疾病关联的标志起初测定的RR或OR值更大的RR或OR值。这样的实施方案的实例可以是具有起初被发现与疾病关联的更常见的变体(＞10％的群体频率)的LD中的罕见的或相对罕见(＜10％的等位基因群体频率)的变体。鉴定和使用此类替代标志用于检测关联性可通过本领域内技术人员熟知的常规方法进行，并因此是在本发明的范围内的。

单倍型频率的测定

患者和对照组中单倍型的频率可使用期望-最大化算法来评估(Dempster A.等人，J.R.Stat.Soc.B，39：1-38(1977))。可用相处理丢失的基因型和时期的不确定性的该算法的执行是可以使用的。在零假设下，假定患者和对照具有相同的频率。使用似然方法，检验备选的假设，其中使可包括本文中描述的标志的候选有风险的单倍型在患者中的频率比在对照中更高，同时假定其他单倍型的频率的比率在两个组中相同。分别在两种假设下使似然性最大化并且将相应的1-df似然比统计量用于评估统计显著性。

为了在易感区中例如在LD区段中寻找有风险的和保护性的标志和单倍型，研究所述区域中的已基因分型的标志的所有可能的组合的关联性。可将组合的患者和对照组随机分成两组，样本容量与患者和对照的原始组相同。然后重复标志和单倍型分析，并且确定登记的最显著的p值。可以重复该随机方案例如100多次以建立P值的经验分布。在优选实施方案中，小于0.05的p值标示着显著的标志和/或单倍型关联性。

单倍型分析

用于单倍型分析的一个一般性方法涉及使用应用于NEsted MOdels(Gretarsdottir S.，等人，Nat.Genet.35：131-38(2003))的基于似然的推断。在程序NEMO中执行该方法，所述程序允许许多多态型标志、SNP和微卫星。该方法和软件经特殊设计用于其目的是鉴定赋予不同风险度的单倍型组的病例-对照研究。它也是用于研究LD结构的工具。在NEMO中，直接计算最大似然评估值、似然比和p值，借助于EM算法，将所观察到的数据当作缺失-数据问题来处理。

即使可赖于似然比检验(所述检验基于就所观察到的数据的直接计算的似然性，其已捕捉到由于相中的不确定性(uncertainty in phase)和缺失基因型而丢失的信息)提供有效的p值，但了解有多少信息因信息不完全而已被丢失仍然是有益的。用于单倍型分析的信息测量在Nicolae和Kong(Technical Report 537，Department of Statistics，University of Statistics，University of Chicago；Biometrics，60(2)：368-75(2004))中被描述为被确定用于连锁分析的信息测量的自然扩展，并且在NEMO中执行。

关联分析

对于单个标志与疾病的关联性，可使用Fisher精确检验计算每一个单个等位基因的双侧p值。可通过扩展之前描述的用于亲缘关系(sibship)的方差调整法(variance adjustment procedure)(Risch，N.& Teng，J.Genome Res.，8：1273-1288(1998))来进行患者间亲缘关系的校正，以使其可用于一般家族关系。基因组控制的方法(Devlin，B.& Roeder，K.Biometrics 55：997(1999))还可用于调整个体的亲缘关系和可能的分层(stratification)。

对于单标志分析和单倍型分析，假定乘法模型(单倍型相对风险度模型)(Terwilliger，J.D.& Ott，J.，Hum.Hered.42：337-46(1992)和Falk，C.T.& Rubinstein，P，Ann.Hum.Genet.51(Pt 3)：227-33(1987))来计算相对风险度(RR)和人群归因风险度(PAR)，即人携带的两个等位基因/单倍型的风险度相乘。例如，如果RR是A相对于a的风险度，那么人纯合子AA的风险度将是杂合子‘Aa’的RR倍以及是纯合子‘aa’的RR²倍。所述乘法模型具有简化分析和计算的良好性质-单倍型在患病群体中以及对照群体中是不相关的，即处于Hardy-Weinberg平衡中。结果，患病和对照的单倍型计数各自具有多项分布，但在备选假设说中具有不同的单倍型频率。特别地，对于两个单倍型h_i和h_j、风险度(h_i)/风险度(h_j)＝(f_i/p_i)/(f_j/p_j)、其中f和p分别表示患病群体和对照群体中的频率。虽然如果实际模型不是乘性的存在一些效力损失，但除了极端情况外，损失倾向于轻微。最重要的是，p值总是有效的，因为它们是根据零假设计算的。

在一个关联性研究中检测到的关联性信息可在第二队列(理想地来自相同或不同种族的不同群体(例如，相同国家的不同地区或不同国家))中重复。重复研究的有利方面是重复研究中进行的检验的次数通常相当少，从而需要使用的统计测量的严格度更低。例如，对于使用300,000个SNP进行的对特定疾病或性状的易感性变体的全基因组搜索，可对进行的300,000个检验(每一个SNP一个检验)进行校正。因为阵列上通常使用的许多SNP是相关的(即，处于LD中)，所以它们不是独立的。因此，校正是保守的。然而，应用该校正因子要求在对来自单个研究队列的结果应用该保守检验时观察到小于0.05/300,000＝1.7x10^-7的P值(在小于该P值的情况下，信号才被认为是显著的)。很显然，具有小于该保守阈值的P值(即更显著的)的全基因组关联性研究中发现的信号是真实遗传效应的测量，并且从统计观点来看在额外的队列中重复不是必需的。然而重要的是，具有大于该阈值的P值的信号也可归因于真实遗传效应。第一研究中的样本容量可能不够足够大以致不能提供满足全基因组显著性的保守阈值的观察到的P值，或第一研究可能因由于取样导致的固有波动而未达到全基因组显著性。因为所述校正因子依赖于进行的统计检验的次数，因此如果来自初步研究的一个信号(一个SNP)在第二病例-对照队列中重复，那么关于显著性的适当的统计检验是针对单一统计检验的统计检验，即P值小于0.05。一个或甚至几个另外的病例-对照队列中的重复研究具有额外的有利方面：在另外的群体中提供关联性信号的评估，从而同时确认初步发现和评估一般人群中被测试的遗传变型的总显著性。

还可组合来自几个病例-对照队列的结果以提供基础效应的总体评估。通常用于组合多个遗传关联性分析的结果的方法是Mantel-Haenszel模型(Mantel和Haenszel，J Natl Cancer Inst 22：719-48(1959))。该模型经设计用以处理其中组合不同群体的关联性结果的情况，每一个群体可能地具有不同的遗传变型群体频率。所述模型组合假定变体产生患疾病风险的效应(由OR或RR测量的)在所有群体中相同而变体的频率在群体之间可以不同的结果。组合来自几个群体的结果具有额外的有利方面：检测真实的基础关联性信号的总体功效因由组合的队列提供的增加的统计效力而得到增加。此外，当组合来自多个队列的结果时，例如因病例和对照或人群分层(population stratification)的不对等匹配而导致的单个研究的任何缺陷将倾向于抵消，从而再次提供了真实基础遗传效应的更好的评估。

风险度的评估和诊断

在任何给定的群体中，存在发生疾病或性状的绝对风险度(定义为个人在指定的时期内发生特定疾病或性状的概率)。例如，妇女患乳腺癌的终生绝对风险度为1/9。即，每9个妇女中有1个妇女将在其生命中的某个点上发生乳腺癌。通常通过观察非常大量的人而非观察特定个体测定来测量风险度。风险度通常以绝对风险度(AR)和相对风险度(RR)表示。相对风险度用于比较与两个变体相关的风险度或两个不同组的人的风险度。例如，其可用于将一组具有特定基因型的人与另一组具有不同基因型的人相比较。对于疾病，为2的相对风险度表示一个组与另一个组相比较具有2倍的发生疾病的概率。所示的风险度通常是与具有匹配的性别和种族的群体相比较的针对人或人的特定基因型的相对风险度。可以以简单的方式比较相同性别和种族的2个个体的风险度。例如，如果与群体相比较，第一个体具有1.5的相对风险度并且第二个体具有0.5的相对风险度，那么，与第二个体相比较第一个体的风险是1.5/0.5＝3。

风险度计算

计算总体遗传风险度的模型的建立包括两个步骤：i)将单个遗传变型的比值比转换成相对风险度和ii)将来自不同基因座中的多个变体的风险度组合成单个相对风险度值。

从比值比推导出风险度

迄今为止已在权威杂志中出版的关于复杂疾病的大多数基因发现研究因其回顾性设置(retrospective setup)而采用病例-对照设计。这些研究获取了经选择的一组病例(具有特定疾病状况的人)和对照组的个体的样品并且进行了基因分型。兴趣在于病例和对照中的频率显著不同的遗传变型(等位基因)。

结果通常报告为比值比，其为在患病组中的风险变体(携带者)比非风险变体(非携带者)的分数(概率)与对照组中的所述分数之间的比率，即以患病状况的条件概率表示(i.e.expressed in terms ofprobabilities conditional on the affection status)：

OR＝(Pr(c|A)/Pr(nc|A))/(Pr(c|C)/Pr(nc|C))

然而，有时我们的兴趣在于疾病的绝对风险度，即携带风险变体的那些患病个体的分数或换句话说患病的概率。该数量不能在病例-对照研究中直接测量，部分因为病例比对照的比率通常与一般群体中的该比率不同。然而，在某些假定下，我们可评估来自比值比的风险度。

众所周知在罕见疾病的假定下，患疾病的相对风险度可用比值比来概略估算。然而该假定可能不适用于许多常见病。结果仍然可从上文表达的比值比评估一个基因型变体相对于另一个的风险度。在其中对照是来自与病例相同的群体(包括患病的人而非严格未患病的个体)的随机样品的随机群体对照的假定下，计算特别简单。为了增加样本容量和功效，许多大型全基因组关联和重复研究使用对照，所述对照既不与病例年龄匹配，也未对他们进行细致检查以确保他们在研究的时候不具有疾病。因此，虽然不很确切，但他们通常接近来自一般群体的随机样品。要指出的是，极少预期该假定得到完全满足，但风险度评估通常强有力地缓和源自该假定的偏差。

计算显示对于显性和隐性模型(其中我们将风险变体携带者表示为“c”以及将非携带者表示为“nc”)，个体的比值比与这些变体之间的风险度比率相等：

OR＝Pr(A|c)/Pr(A|nc)＝r

同样地对于乘法模型，其中风险度是与两个等位基因的拷贝关联的风险度的乘积，等位基因的比值比等于风险度因子：

OR＝Pr(A|aa)/Pr(A|ab)＝Pr(A|ab)/Pr(A|bb)＝r

此处“a”表示风险性等位基因，“b”表示非风险性等位基因。因此因子“r”是等位基因类型之间的相对风险度。

在过去几年中公布了报导与复杂疾病关联的常见变体的许多研究，发现乘法模型充分地总结了所述效应并且通常提供远优于备选模型例如显性和隐性模型的与数据的拟合。

相对于平均群体风险度的风险度

最方便的是提供相对于平均群体的遗传变型的风险度，因为其使得与基线群体风险度相比，更容易表达发生疾病的终生风险。例如，在乘法模型中，我们可将变体“aa”的相对群体风险度计算为：

RR(aa)＝Pr(A|aa)/Pr(A)＝(Pr(A|aa)/Pr(A|bb))/(Pr(A)/Pr(A|bb))＝r²/(Pr(aa)r²+Pr(ab)r+Pr(bb))＝r²/(p²r²+2pq r+q²)＝r²/R

此处“p”和“q”分别是“a”和“b”的等位基因频率。同样地，我们得出RR(ab)＝r/R和RR(bb)＝1/R。可从报导比值比的出版物和从HapMap数据库获得等位基因的频率估值。请注意，在其中我们不知道个体的基因型的情况下，该检验或标志的相对遗传风险度简单地等于1。

例如，对于染色体14上的标志rs999737，等位基因C针对乳腺癌具有为1.15的等位基因OR并且在高加索人群中具有大约0.76的频率(p)。基于乘法模型评估与基因型TT相比较的基因型相对风险度。

对于CC，其为1.15×1.15＝1.32；对于CT，其简单地为OR1.15，以及对于TT，根据定义其为1.0。

等位基因T的频率为q＝1-p＝1-0.76＝0.24。在该标志上3个可能的基因型中的每一个的群体频率为：

Pr(CC)＝p²＝0.58，Pr(CT)＝2pq＝0.36，和Pr(TT)＝q²＝0.06

相对于基因TT(其经定义具有为1的风险度)的平均群体风险度为：

R＝0.50×1.32+0.36×1.15+0.06×1＝1.13

因此，在该标志上具有下列基因型之一的个体相对于一般群体的风险度(RR)为：

RR(CC)＝1.32/1.13＝1.17，RR(CT)＝1.15/1.13＝1.02，RR(TT)＝1/1.13＝0.88。

组合多个标志的风险度

当将许多SNP变体的基因型用于评估个体的风险度时，通常采用用于风险度的乘法模型。这意味着将相对于群体的组合遗传风险度计算为个体标志(例如两个标志g1和g2)的相应估值的乘积：

RR(g1，g2)＝RR(g1)RR(g2)

基本假设是风险因子独立地存在和表现，即联合条件概率可表示为乘积：

Pr(A|g1，g2)＝Pr(A|g1)Pr(A|g2)/Pr(A)和Pr(g1，g2)＝Pr(g1)Pr(g2)

对该假定的明显违背是在基因组上紧密间隔的标志，即处于连锁不平衡之中，从而使两个或更多个风险性等位基因的共发生是相关的。在这样的情况下，我们可使用所谓的建立单倍型模型，其中比值比是为相关SNP的所有等位基因组合定义的。

如在大多数其中使用统计模型的情况中一样，应用的模型预期不是完全真实的，因为其不基于基础生物物理学模型。然而，乘法模型至目前为止经发现充分地拟合数据，即对于许多已针对其发现许多风险变体的常见疾病未检测到显著的偏差。

例如，在与特定疾病关联的4个假定的标志上具有下列基因型以及在每一个标志上相对于群体的风险度的个体：

标志	基因型	计算的风险度
			M1	CC	1.03
M2	GG	1.30
			M3	AG	0.88
M4	TT	1.54

该个体的相对于群体的组合总体风险度为：1.03×1.30×0.88×1.54＝1.81。以类似的方式，可评估任意多个标志(或单倍型)的总体风险度。

调整的终生风险度

通过将相对于群体的总体遗传风险度与相同种族和性别的一般群体中的以及个体的地理起源的地区中的疾病的平均终生风险度相乘推导出个体的终身风险度。由于当确定一般群体风险度时通常有数个流行病学研究可供选择，因此我们挑选对于已针对遗传变型使用的疾病确定具有良好功效的研究。

例如，对于特定疾病，如果个体相对于群体的总体遗传风险度为1.8，并且如果他的人口统计的个体的疾病的平均终身风险度为20％，那么他的经调整的终身风险度为20％x1.8＝36％。

请注意，因为群体的平均RR是1，所以该乘法模型提供了相同的疾病的平均调整终身风险度。此外，因为实际终身风险度不能超过100％，因此对遗传性RR必须存在上限。

患乳腺癌的风险评估

如本文中所描述的，发现某些多态型标志和含有此类标志的单倍型对于乳腺癌的风险评估是有用的。风险评估可包括将标志用于诊断对乳腺癌的易感性。发现某些多态型标志的特定等位基因的频率在患有乳腺癌的个体中比在不具有乳腺癌的诊断的个体中更高。因此，这些标志的等位基因对于检测个体的乳腺癌或对乳腺癌的易感性具有预测价值。与本文中描述的有风险的变体(或保护性变体)处于连锁不平衡中的标签标志可用作此类标志(和/或单倍型)的替代物。此类替代标志可位于特定单倍型区段或LD区段中。此类替代标志有时还可位于此类单倍型区段或LD区段的物理边界的外部，在LD区段/单倍型区段的附近，但可能也位于更远的基因组位置。

如果特定的基因组区域(例如，基因)处于功能关系中，那么长距离LD可以例如发生。例如，如果两个基因编码在共有代谢途径中起作用的蛋白质，那么一个基因中的特定变体可对针对另一个基因观察到的变体具有直接影响。让我们考虑其中一个基因的变体导致基因产物的增加的表达的情况。为了抵消该效应和保持特定途径的总通量(flux)，该变体可能已导致第二基因上的一个(或多个)赋予该基因降低的表达水平的变体的选择。这两个基因可位于不同的基因组位置，可能在不同的染色体上，但基因内的变体处于明显的LD中，并非因为它们的共有物理位置在高LD的区域中，而是由于进化动力的原因。此类LD也被涉及并且在本发明的范围内。本领域技术人员将理解功能性基因-基因相互作用的许多其它场景也是可能的，并且此处论述的特定实例只代表一个这样的可能场景。

具有等于1的r²的值的标志是有风险的变体(锚变体(anchorvariant))的完美替代物，即一个标志的基因型完全预测另一个标志的基因型。具有小于1的r²的值的标志也可以是有风险的变体的替代物，或可选择地代表具有与有风险的变体一样高或可能甚至更高的相对风险度的变体。在某些优选实施方案中，具有相对于有风险的锚变体的r²的值的标志是有用的替代标志。鉴定的有风险的变体本身可以不是功能性变体，但在该情况下与真正的功能性变体处于连锁不平衡中。功能性变体可以是SNP，但也可以例如是串联重复，例如小卫星或微卫星、转位因子(例如，Alu元件)或结构变化例如缺失、插入或倒位(有时也称为拷贝数变异或CNV)。本发明包括对本文中公开的标志的此类替代标志的评估。如技术人员所熟知的，在公共数据中注释、定位和列出此类标志，或者此类标志可以另选地通过在一组个体中测序由本发明的标志鉴定的区域或部分区域并鉴定所得的序列组中的多态型而容易地鉴定。结果，本领域技术人员可容易地并且在无需过度实验的情况下鉴定与本文中描述的标志和/或单倍型处于连锁不平衡中的替代标志并且对其进行基因分型。被检测到的有风险的变体的处于LD中的标签或替代标志还具有预测价值。

在某些实施方案中，本发明可以通过就本文中描述的与乳腺癌关联的某些变体的存在评估包含个体的基因组DNA的样品来实施本发明。此类评估包括步骤：使用本领域技术人员熟知的和本文中进一步描述的方法检测至少一个多态型标志上的至少一个等位基因是否存在，和基于此类评估的结果确定样品所源自的个体是处于增加的还是减少的患乳腺癌的风险(增加或减少的易感性)中。可选择地，可利用数据集实施本发明，所述数据集包括关于至少一个本文中描述的与乳腺癌关联的多态型标志(或与至少一个本文中显示的与乳腺癌关联的标志处于连锁不平衡中的标志)的基因型状况的信息。换句话说，可就由发明者所显示的与乳腺癌关联的某些多态型标志上的某些有风险的等位基因是否存在而查询数据集，所述数据集包括关于此类遗传状态(genetic status)的信息，例如以在某个多态型标志或多个标志上的基因型计数(例如，是否存在某些有风险的等位基因的标示)的形式存在的信息或一个或多个标志的实际基因型。与乳腺癌关联的变体(例如，标志等位基因)的阳性结果，如本文中显示的，标示着作为数据集来源的个体处于增加的对乳腺癌的易感性(增加的风险度)中。

在本发明的某些实施方案中，通过参考数据库(例如包含多态型的至少一个等位基因与乳腺癌之间的关联数据的查找表)中针对多态型标志的基因型数据而将一个多态型标志与乳腺癌关联。在一些实施方案中，所述表包含一个多态型的关联。在其它实施方案中，所述表包括多个多态型的关联。在这两种情形下，通过参考给出标志与乳腺癌之间的关联性标示的查找表，可以鉴定作为样品来源的个体患乳腺癌的风险或对乳腺癌的易感性。在一些实施方案中，关联性被报告为统计测量。统计测量可报告为风险度测量，例如相对风险度(RR)、绝对风险度(AR)或比值比(OR)。

风险标志可单独地或组合地用于风险评估和诊断目的。还可将基于本文中描述的标志的疾病风险评估的结果与疾病的其它遗传标志或风险因子的数据组合，以确定总体风险度。因此，即使在其中由单个标志产生的风险度的增加相对适度例如10-30％量级的情况下，当与其它风险标志组合时，关联性可具有显著的影响。因此，相对常见的变体可对总体风险度具有大量贡献(人群归因风险度较高)，或标志的组合可用于确定基于标志的组合风险度处于发生疾病的显著的组合风险中的个体的组群。例如，可基于rs2005154、rs2184380、rs2224696、rs2242503、rs12291026、rs999737、rs9956546、rs11912922和rs6001954的任意一个或组合的基因分型结果评估组合风险度。此类组合还可包括乳腺癌的其他易感性标志例如染色体5p12和染色体10q26上的标志，例如标志rs10941679和标志rs1219648(Stacey，S.N.等人Nat Genet 40：703-6(2008))。可选择地，可评估与此类标志的任意一个处于LD中的标志。还可将已知赋予患乳腺癌的风险的其他标志与本文中描述的标志例如染色体2q14上的标志(例如，标志rs4848543或与其处于连锁不平衡中的标志)、2q35上的标志(例如，标志rs13387042或与其处于连锁不平衡中的标志)和染色体16上的标志(例如，标志rs3803662或与其处于连锁不平衡中的标志)一起评估(Stacey，S.N.等人Nat Genet39：865-9(2007))。

因此，在本发明的某些实施方案中，将多个变体(标志和/或单倍型)用于总风险度的评估。这些变体在一个实施方案选自本文中公开的变体。其它实施方案包括将本发明的变体与已知用于诊断针对乳腺癌的易感性的其它变体相组合的用途。在此类实施方案中，确定个体中多个标志和/或单倍型的基因型状况，和与关联变体的群体频率相比较的个体状况，或与在临床上健康的受试者例如年龄匹配和性别匹配的受试者中的变体频率相比较。随后可将本领域内已知的方法，例如多变量分析(multivariate analyses)或联合风险分析，或本文中所描述的那些方法，或本领域技术人员已知的其它方法，用于测定基于多个基因座上的基因型状况赋予的总体风险度。随后可将基于此类分析的风险度的评估用于本发明的方法、用途和试剂盒，如本文中所描述的。

在一般意义上，本文中描述的方法和试剂盒可用于包含来自任何来源或来自任何个体的核酸材料(DNA或RNA)的样品，或用于来源于此类样品的基因型或序列数据。在优选实施方案中，个体是人个体。个体可以是成年人、儿童或胎儿。核酸来源可以是包含核酸材料的任何样品(包括生物样品)，或包含由其衍生的核酸材料的样品。本发明还提供作为靶群体的成员的个体的标志和/或单倍型的评估。这样的靶群体在一个实施方案中是一群或一组个体，基于例如其它遗传因素、生物标志、生物物理参数(例如，体重、BMD、血压)或一般健康状况和/或生活方式参数(例如，癌症史、乳腺癌史、以前的疾病诊断、癌症家族史乳腺癌的家族史)，所述个体处于发生疾病的风险中。

本发明提供了包括来自特定年龄亚组例如40岁以上、45岁以上或50、55、60、65、70、75、80或85岁以上的年龄亚组的个体的实施方案。本发明的其它实施方案涉及其它年龄组，例如年龄小于85岁，例如小于80岁、小于75岁或小于70、65、60、55、50、45、40、35岁或30岁的个体。其它实施方案涉及具有在上述任何年龄范围内的乳腺癌发病年龄的个体。还预期年龄的范围在某些实施方案中是相关的，例如在超过45步但小于60岁时发病的年龄。然而还涉及其它年龄范围，包括由上列的年龄值括入的所有年龄范围。本发明还涉及任一性别男性或女性的个体。

冰岛人群体是北欧祖先的高加索人群。最近几年已公开了报导冰岛人群体中的遗传连锁和关联性的结果的大量研究。许多此类研究显示最初在冰岛人群体中鉴定为与特定疾病关联的变体在其它人群中的重复(Sulem，P.，等人Nat Genet May 172009(印刷纸版之前的电子版)；Rafnar，T.，等人Nat Genet 41：221-7(2009)；Gretarsdottir，S.，等人Ann Neurol 64：402-9(2008)；Stacey，S.N.，等人Nat Genet40：1313-18(2008)；Gudbjartsson，D.F.，等人Nat Genet 40：886-91(2008)；Styrkarsdottir，U.，等人N Engl J Med 358：2355-65(2008)；Thorgeirs son，T.，等人Nature 452：638-42(2008)；Gudmundsson，J.，等人Nat Genet.40：281-3(2008)；Stacey，S.N.，等人，Nat Genet.39：865-69(2007)；Helgadottir，A.，等人，Science 316：1491-93(2007)；Steinthorsdottir，V.，等人，Nat Genet.39：770-75(2007)；Gudmundsson，J.，等人，Nat Genet.39：631-37(2007)；Frayling，TM，Nature Reviews Genet 8：657-662(2007)；Amundadottir，L.T.，等人，Nat Genet.38：652-58(2006)；Grant，S.F.，等人，Nat Genet.38：320-23(2006))。因此，冰岛人群体中的遗传发现通常在其它群体包括来自非洲和亚洲的群体中重复。

因此相信本文中描述的与患乳腺癌的风险关联的标志将在其它人群体中显示相似的关联性。从而还涉及包括单个人群体的特定实施方案并且其在本发明的范围内。此类实施方案涉及人受试者，所述人受试者来自一个或多个人群体，包括但不限于高加索人群体、欧洲人群体、美国人群体、欧亚人群体、亚洲人群体、中亚/南亚人群体、东亚人群体、中东人群本、非洲人群体、西班牙人群体和大洋洲人群体。欧洲人群体包括但不限于瑞典人、挪威人、芬兰人、俄国人、丹麦人、冰岛人、爱尔兰人、塞尔特人、英国人、苏格兰人、荷兰人、比利时人、法国人、德国人、西班牙人、葡萄牙人、意大利人、波兰人、保加利亚人、斯拉夫人、塞尔维亚人、波斯尼亚人、捷克人、希腊人和土耳其人群体。在一个实施方案中，本发明涉及高加索人来源的个体。

个体受试者中的种族贡献还可通过遗传分析来测定。可使用非连锁微卫星标志例如Smith等人(Am J Hum Genet 74，1001-13(2004))中展示的标志来进行祖先的遗传分析。

在某些实施方案中，本发明涉及在特定群体中鉴定的标志和/或单倍型，如上文中所述。本领域技术人员将理解连锁不平衡(LD)的测量当用于不同群体中时可产生不同结果。这归因于不同人群体的不同群体历史以及可能已导致特定基因组区域中LD的差异的差异选择压力。本领域技术人员还熟知某些标志例如SNP标志在一个群体但非另一个群体中是多态型的。然而本领域技术人员将把可获得的和本文中关注的方法用于在任意给定的人群体中实施本发明。这可包括本发明的LD区段域中的多态型标志的评估，以鉴定在特定的群体内提供最强关联性的标志。因此，本发明的有风险的变体可存在于不同的单倍型背景中和以不同的频率存在于不同的人群体中。然而，通过利用本领域内已知的方法和本发明的标志，可在任意给定的人群体中实施本发明。

预测患乳腺癌的遗传性风险的模型

乳腺癌风险评估的目的是提供用于开发针对所有妇女的个性化医疗管理策略的合理构架，所述管理策略的目的在于增加高风险妇女的存活率和生活质量同时使处于更低风险的妇女的花费、不必要的干预和焦虑降至最低。风险预测模型试图评估具有给定组的先天性风险特征(例如，家族史、以前的良性乳腺损伤、以前的乳腺肿瘤)的个体患乳腺癌的风险度。最常用于临床实践的乳腺癌风险评估模型通过考虑家族史评估遗传风险因素。风险评估基于具有一个或多个之前诊断患有乳腺癌的近亲的个体的增加的风险的观察。它们不考虑复杂系谱结构。此类模型具有不能区分具有乳腺癌易感性突变的基因的携带者与非携带者的其他不利方面。

更复杂的风险模型具有更好的处理特定家族史的机制和具有考虑针对BRCA1和BRCA2突变的携带者状态的能力。例如，发病率和携带者评估算法的乳腺和卵巢分析(Breast and Ovarian Analysis of DiseaseIncidence and Carrier Estimation Algorithm)(BOADICEA)(Antoniou等人，2004)通过系谱分析程序MENDEL基于个体系谱结构考虑了家族史。也考虑了关于已知的BRCA1和BRCA2状态的信息。目前使用的BOADICEA和所有其他乳腺癌风险模式的主要限制是其未整合来自其他易感基因的基因型信息。目前的模式严重依赖家族史作为补偿缺乏风险的非BRCA遗传定子(genetic determinant)知识的替代物。因此可获得的模式限定于其中存在已知的疾病家族史的情况。更低外显率的乳腺癌易感基因在群体中可以是相对普遍的并且可以不显示与BRCA1和BRCA2基因所表现的一样强的驱动家族聚集(familial clustering)的倾向。具有相对高的易感性等位基因的遗传负荷的患者可显示极少的疾病家族史或不显示疾病家族史。因此存在建立整合直接通过基于基因的测试获得的遗传易感性数据的模式的需要。除了使所述模式更精确外，这将降低对家族史参数的依赖性和帮助将风险预测扩展至更广泛的有风险的群体(其中家族史不是这样的至关重要的因素)。

将改进的遗传风险模型整合至乳腺癌一级预防的临床管理内

临床一级预防选择目前可分类为化学预防性(或激素)治疗和预防性手术。可给鉴定为高风险度的患者开具长期化学预防性治疗过程的处方。该概念在心血管医学领域中得到良好接受，但其现在只是开始在临床肿瘤学中产生影响。最广泛使用的肿瘤化学预防剂是他莫昔芬，选择性雌激素受体调节剂(SERM)。他莫昔芬最初用作抗乳腺癌复发的辅助疗法，现以证明其作为乳腺癌预防剂的有效性[Cuzick，等人，(2003)，Lancet，361，296-300][Martino，等人，(2004)，Oncologist，9，116-25]。FDA已批准他莫昔芬在某些高风险妇女中用作化学预防剂。

不幸地，长期使用他莫昔芬使患子宫内膜癌的风险增加大约2.5倍，患静脉血栓形成的风险增加大约2.0倍。还增加了患肺栓塞、卒中和白内障的风险度[Cuzick，等人，(2003)，Lancet，361，296-300]。因此，他莫昔芬用于降低乳腺癌发病率的有益性可能不容易转化成总体死亡率的相应降低。另一种称为雷洛昔芬的SERM在预防性模式中可以是更有效的，并且不具有患子宫内膜癌的相同风险。然而患血栓形成的风险在用雷洛昔芬长期治疗的患者中仍然升高[Cuzick，等人，(2003)，Lancet，361，296-300；Martino，等人，(2004)，Oncologist，9，116-25]。此外，他莫昔芬和雷洛昔芬具有与它们相关的生活质量问题。为了在化学预防剂模式中进行SERM疗法的合理风险：有益性分析，存在对鉴定最具患乳腺癌的风险的个体的临床需要。假定大部分患乳腺癌的风险是遗传性的，那么对在该背景中定量个体的风险度的遗传测试存在明确的临床需要。有人可预期相似的问题从可成为可获得的任何将来的癌症chemo-preventative疗法例如芳香酶抑制剂产生。此外，随着化学预防性疗法变得更安全，存在对鉴定遗传上具有易感性但不具有显著升高的与BRCA1 & 2突变携带者关联的风险度的患者的日益增加的需要。

考虑对被鉴定为处于患乳腺癌的高风险的患者进行预防性手术；双侧乳房切除术或卵巢切除术或两者。很明显，只对被发现处于极高风险的患者推荐此类激烈的治疗。在实践中，目前只在携带BRCA1、BRCA2或已知牵涉罕见乳腺癌易感性症状的基因如李弗劳明综合征中的p53、Cowden综合征中的PTEN的突变的个体中可鉴定此类风险。

当BRCA1和BRCA2突变来源于多病例家族时，BRCA1和BRCA2突变的外显率的评估倾向于比当它们来源于基于群体时的评估更高。这是因为不同的携带突变的家族展示不同的乳腺癌的外显率(例如参见[Thorlacius，等人，(1997)，Am J Hum Genet，60，1079-84])。促成该变化的主要因素之一是其作用改变BRCA1和BRCA2突变的外显率的迄今未知的易感基因的作用。因此，不能在缺乏修饰基因的存在和作用的知识的情况下准确地定量携带BRCA1或BRCA2基因的突变的个体的绝对风险度。因为用于BRCA1和BRCA2携带者的治疗选择可以是严峻的，因此在该背景中尽可能准确地定量个体BRCA携带者的风险度是非常重要的。因此需要鉴定其作用改变BRCA1和BRCA2携带者的乳腺癌的外显率的易感基因和基于此类基因开发改进的风险评估模型。

此外，存在被认为处于非常高的患乳腺癌的风险中的个体，这可能是因为乳腺癌的强家族史，但在所述个体中未能鉴定出已知的易感基因的突变。在此类情况下考虑预防性手术是困难的，因为不能测试个体以发现她是否遗传了高外显率易感基因。因此，不能准确地评估个体的风险度。因此对鉴定仍未发现的任何高外显率易感基因和开发用于一级预防策略的相关遗传测试存在明确的临床需要。此类基因可以例如是本文中公开的与患乳腺癌的风险关联的基因。虽然本文中显示的与患乳腺癌的风险关联的变体相当常见，并且赋予相对低的患乳腺癌的风险度，但很可能更高风险的变体存在于一个或多个此类基因中。因此预期存在于PAX5、TUB、SERPINH1、RAD51L1、FHOD3和/或TNRC6B基因中的一个或多个基因中的或与其相关的高风险遗传变型可用于确定个体是否是乳腺癌的高风险(和高外显率)遗传因子的携带者。

早期诊断

大多数西方国家中用于乳腺癌的临床筛查由定期临床乳腺检查(CBE)和乳房X射线摄影术组成。良好的证据表明当在良好的乳房摄影筛查程序的背景中使用时CBE几乎不具有额外有益性。在英国，50至70岁的妇女每3年1次被邀请进行筛查乳房X射线摄影术。在美国情况视保健提供者而变化，然而美国癌症学会推荐从40岁开始每年一次乳房X射线摄影筛查。已证明乳房X射线摄影筛查在降低50岁以上的筛查妇女中的死亡率是有效的。

遗传测试不可能会被用作为减少使用现有乳房X射线摄影筛查程序的手段。然而，乳房X射线摄影筛查并非没有缺点，并且可以想象遗传测试应当用于选择进行增强的筛查程序的人。乳房X射线摄影筛查的缺点之一是到目前为止仍然不可能对50岁以下筛查的妇女的存活率提高显示出显著的作用。

乳房X射线摄影术在50岁以下的妇女中不太有效的一个原因可能是乳腺组织的密度在年轻妇女中更高，这使得肿瘤的乳房X射线摄影检测更困难。然而，易感性个体的乳腺癌倾向于在早期年龄组中发生，并且在高乳腺密度与乳腺癌风险之间存在明显的关联性。因而对于具有高易感性的个体存在关于乳房X射线摄影筛查的简单增加的问题，因为他们可通过在高风险组群中以次佳方式进行的技术来管理。最近的研究已显示，对比度增强的磁共振成像(contrast-enhanced magnetic resonanceimaging)(CE-MRI)比乳房X射线摄影筛查更灵敏并且可检测该高风险组群的早期肿瘤[Warner，等人，(2004)，Jama，292，1317-25；Leach，等人，(2005)，Lancet，365，1769-78]。当与常规乳房X射线摄影术结合使用时CE-MRI策略的效果特别良好[Leach，等人，(2005)，Lancet，365，1769-78]。因为CE-MRI需要导致高费用的专家中心，因此50岁以下的筛查必须限定于处于最高风险中的个体。目前CE-MRI试验限定于对具有BRCA1、BRCA2或p53突变或非常强的疾病家族史的患者开放。通过提供基于基因的风险预测工具可极大地帮助该筛查模式至更广泛的高风险患者的延伸。

有充分的证据支持概念：在遗传上易感的妇女中发生的早发型乳腺癌和癌症比在年老的易感性不太强的妇女中的癌症生长更快。这是从年轻妇女中更高的间期癌比率的观察(即，在良好筛查的群体中筛查随访之间的间期发生的癌症)得出的。因此，有人建议无论采用什么方法进行的，都应当缩短针对年轻妇女的筛查间期。此处存在矛盾，因为对于其中乳腺癌的总体发生率相对低的年龄组似乎需要更频繁的使用更昂贵的方法的筛查。此处存在对鉴定对较早发生疾病最为易感的年轻个体并且将其引向更昂贵和详尽的筛查方案的明确临床需要。本文中公开的赋予患乳腺癌的风险的变体可用于鉴定处于特别高的发生乳腺癌的风险中的个体。此类个体可能从早期和侵入性筛查程序获益最多，从而使癌症的早期诊断的可能性最大化。

治疗

目前，通过手术、辅助化学疗法、放射疗法，然后进行长期激素疗法来治疗原发性乳腺癌。通常使用3个或4个疗法的组合。

具有相同疾病期的乳腺癌患者可对辅助化学疗法具有非常不同的反应，从而导致总体治疗结果的广泛变化。共识指南(St Galen和NIH标准)已被发展用以确定进行辅助化学疗法治疗的乳腺癌患者的合格中选条件。然而，即使转移的最强临床和组织学预测也不能准确地预测乳腺肿瘤的临床反应[Goldhirsch，等人，(1998)，J Natl Cancer Inst，90，1601-8；Eifel，等人，(2001)，J Natl Cancer Inst，93，979-89]。化学疗法或激素疗法只减少转移的风险大约1/3，然而70-80％的接受该治疗的患者可在其不存在的情况下存活。因此目前为大部分乳腺癌患者提供了无效或不必要的治疗。对于允许临床医生定制更适合于将获得最大有益性的患者的治疗的预后测量的发展方面的改良存在明确临床需要。可合理地预期就遗传易感性表征个体可显示与他们的治疗结果相关的信息，从而帮助合理治疗计划。本发明的赋予患乳腺癌的风险的标志预期在该背景中是有用的。

几个之前的研究举例说明了该概念：作为BRCA突变携带者的乳腺癌患者当用辅助化学疗法治疗时似乎显示更好的临床反应率和存活率[Chappuis，等人，(2002)，J Med Genet，39，608-10；Goffin，等人，(2003)，Cancer，97，527-36]。BRCA突变携带者相对于非携带者显示提高的对卵巢癌的铂化学疗法的反应[Cass，等人，(2003)，Cancer，97，2187-95]。相似的考虑可用于其中牵涉的基因是未知的易感性患者。例如，已知浸润性小叶乳腺癌(infiltrating lobular breast carcinoma)(ILBC)具有强家族成分(familial component)但牵涉的遗传变型仍未被鉴定。具有ILBC的患者显示更差的对普通化学治疗方案的反应性[Mathieu，等人，(2004)，Eur J Cancer，40，342-51]。

遗传易感性模型可能不仅有助于治疗策略的个体化，而且还可在此类策略的设计中发挥必不可少的作用。例如，已发现BRCA1和BRCA2突变肿瘤细胞由于它们缺乏DNA修复途径而对聚(ADP-核糖)聚合酶(PARP)抑制剂极度敏感[Farmer，等人，(2005)，Nature，434，917-21]。这已激发了靶向PARP的小分子药物的开发，鉴于它们在BRCA携带者患者中的特异用途。根据该实例，很清楚遗传易感性的知识可鉴定药物靶，所述药物靶导致与遗传风险特征组合使用的个性化化学疗法方案的开发。类似地，本发明的标志可帮助鉴定靶向例如PAX5、TUB、SERPINH1、RAD51L1、FHOD3和/或TNRC6B基因中的一个或多个的新型药物。

癌症化学疗法对正常组织特别是高度增殖性造血细胞和肠上皮细胞区域具有熟知的剂量限定性副作用。可预期基于遗传的个体差异存在于正常组织对细胞毒性药物的敏感性。此类因素的理解可帮助合理治疗计划和帮助经设计用以保护正常组织免受化学疗法的有害作用的药物的开发。

遗传特征还可促成改进的放射疗法：在正在经历标准放射疗法方案的乳腺癌患者组群中，一部分患者将经历对可被正常耐受的辐射剂量的不利反应。急性反应包括红斑、湿性脱皮(moist desquamation)、水肿和放射性肺炎(radiation pneumatitis)。长期反应，包括毛细管扩张、水肿、肺纤维化和乳房纤维化可在放射治疗许多年后发生。急性和长期反应是病态的重大来源并且可以是致命的。在一个研究中，发现87％的患者对放射疗法具有一些不利的副作用同时11％具有严重的不良反应(LENT/SOMA分级3-4级)；[Hoeller，等人，(2003)，Int J Radiat OncolBiol Phys，55，1013-8]。经历对放射疗法的不良反应的可能性主要归因于正常组织反应中的组成型个体差异并且怀疑这具有强遗传成分。几个已知的乳腺癌易感基因(例如BRCA1、BRCA2、ATM)影响DNA双链断裂修复的途径。DNA双链断裂是由放射疗法引起的主要细胞毒性损伤。这已引起关注：通过携带属于此类途径的基因的变体而在遗传上对乳腺癌易感的个体可能也处于因放射疗法而遭受过度的正常组织损伤的更高风险中。预期本文中描述的赋予(例如通过PAX5、TUB、SERPINH1、RAD51L1、FHOD3和/或TNRC6B基因中的一个或多个)患乳腺癌的风险的遗传变型可用于鉴定处于对放射疗法的产生不良反应的特定风险中的个体。

组成型放射敏感个体在群体中的存在意味着为了将不良反应的频率保持在可接受的水平上，必须限制用于大多数患者群体的放射疗法剂量率。因此存在对可鉴定处于对放射疗法的产生不良反应的增加的风险中的个体的可靠测试的临床需要。此类测试建议对放射敏感的个体施用保守疗法或替代疗法，同时允许对大部分相对抗放射性的患者增加放射疗法剂量。据估计通过将乳腺癌患者简单地分成放射敏感、中间状态和抗放射性的类别的测试可能产生的剂量递增会导致大约35％的局部肿瘤控制的增加和结果存活率的提高[Burnet，等人，(1996)，Clin Oncol(RColl Radiol)，8，25-34]。

对电离辐射的暴露已证明促成乳腺癌的肿瘤发生的因素[Dumitrescu和Cotarla，(2005)，J Cell Mol Med，9，208-21]。已知的乳腺癌易感基因编码对辐射诱导的DNA损伤的细胞反应的途径组成[Narod和Foulkes，(2004)，Nat Rev Cancer，4，665-76]。因此，有人担心在放射疗法领域中患第二原发性肿瘤的风险可因对正常组织的辐照而增加。对于BRCA携带者似乎不存在由放射疗法引起的任何可测量的增加的风险，然而它们患第二原发性肿瘤的风险已经出人意料地高。有证据表明患第二原发性肿瘤的风险在用放射疗法治疗的ATM和CHEK2基因的乳腺癌易感基因的携带者中增加[Bernstein，等人，(2004)，乳腺癌Res，6，R199-214；Broeks，等人，(2004)，乳腺癌Res Treat，83，91-3]。预期由放射疗法引起的(和可能地由密集的乳房X射线摄影筛查引起的)第二原发性肿瘤的风险可通过在治疗计划阶段中获得患者的准确遗传风险特征来更好地确定。

二级预防

大约30％的经诊断患有1期或2期乳腺癌的患者将经历其原始肿瘤的局部或远距离转移复发。已患有原发性乳腺癌的患者，当已进行保乳手术(breast-conserving surgery)时，也处于极大增加的被诊断在对侧或同侧乳腺中患有第二原发生性肿瘤的风险中。二级预防是指用于预防复发或第二原发性肿瘤发生的方法。目前使用的方法包括：单独地或与芳香酶抑制剂交替地使用他莫昔芬或另一种SERM的长期治疗，对侧乳腺的降低风险的乳房切除术和降低风险的卵巢切除术(患家族性乳腺-卵巢癌的风险中的患者)。上文中已论述了关于他莫昔芬的使用的考虑。对于降低风险的手术选择，很明显需要尽可能地定量风险度以进行有根据的成本收益分析(cost versus benefit analysis)。

一些迹象表明具有已知的对乳腺癌的遗传易感性的患者境遇比大部分患者更糟。携带CHEK2基因的1100delC变体的患者与非携带者相比较具有估计的2.8倍增加的远端转移的风险和3.9倍增加的疾病复发的风险[de Bock，等人，(2004)，J Med Genet，41，731-5]。具有BRCA1结阴性肿瘤的患者具有比不携带BRCA1突变的相似患者更大的转移风险[Goffin，等人，(2003)，Cancer，97，527-36；Moller，等人，(2002)，Int J Cancer，101，555-9；Eerola，等人，(2001)，Int J Cancer，93，368-72]。因此可将遗传特征用于帮助评估局部复发和转移的风险度，从而指导二级预防性治疗的选择。基于本文中描述的变体的遗传特征可用于该背景。在某些实施方案中，此类遗传特征可基于本文中描述的一个或多个变体。在其他实施方案中，此类遗传特征可包括一个或数个其他已知的针对乳腺癌的遗传风险因素。此类风险因子可以是已明确确定的高外显率风险因子或它们可以是之前已描述的一个或多个常见的低外显率风险因子(例如，标志rs2005154、rs2184380、rs2224696、rs2242503、rs12291026、rs999737、rs9956546、rs11912922和rs6001954或与它们处于连锁不平稳中的标志，例如表4中的标志)。

一般地，具有原发性肿瘤诊断的患者处于以0.7％的恒定的年发病率发生第二原发性肿瘤的风险中[Peto和Mack，(2000)，Nat Genet，26，411-4]。具有BRCA突变的患者处于比大多数乳腺癌患者显著更大的患第二原发性肿瘤的风险中，绝对风险度在40％至60％的范围内[Easton，(1999)，乳腺癌Res，1，14-7]。BRCA突变的携带者具有极大增加的患第二原发性肿瘤的风险[Stacey，等人，(2006)，PLoS Med，3，e217；Metcalfe，等人，(2004)，J Clin Oncol，22，2328-35]。具有CHEK2基因的突变的患者具有估计的5.7倍增加的患对侧乳腺癌的风险[deBock，等人，(2004)，J Med Genet，41，731-5]。BARD1 Cys557Ser变体的携带者更可能被诊断患有第二原发性肿瘤的概率是2.7倍[Stacey，等人，(2006)，PLoS Med，3，e217]。遗传风险特征可用于评估患者的患第二原发性肿瘤的风险度和可决定预防性测量应当具有的侵入性程度。

方法

用于患疾病的风险评估和风险处治的方法描述于本文中并且包括在本发明中。本发明还包括就对治疗剂的反应的可能性评估个体的方法，预测治疗剂、核酸、多肽和抗体的功效以及计算机实现的功能的方法。用于本文中所示的各种方法的试剂盒也包括在本发明中。

诊断和筛查方法

在某些实施方案中，本发明涉及通过检测遗传标志上的特定等位基因来诊断或帮助诊断乳腺癌或对乳腺癌的易感性的方法，所述等位基因以更高的频率在乳腺癌受试者或对乳腺癌易感的受试者中出现。在特定实施方案中，本发明是通过检测至少一个多态型标志(例如，本文中描述的标志)上的至少一个等位基因来测定对乳腺癌的易感性的方法。在其它实施方案中，本发明涉及通过检测至少一个多态型标志的至少一个等位基因来诊断对乳腺癌的易感性的方法。本发明描述了其中特定标志或单倍型的检出标示着对乳腺癌的易感性的方法。此类预后或预测测定还可用于在乳腺癌的症状发作之前测定受试者的预防性治疗。

本发明在一些实施方案中涉及诊断例如由医学专业人员进行的诊断的临床应用的方法。在其它实施方案中，本发明涉及由业外人士进行的易感性的诊断或测定的方法。业外人士可以是基因分型服务的客户。业外人士还可以是对个体的DNA样品进行基因型分析(以基于个体(例如，客户)的基因型状况提供涉及特定性状或疾病的遗传风险因素的服务)的基因分型服务提供者。基因分型技术的最新技术进步(包括SNP标志的高通量基因分型例如分子倒置探针阵列技术(Molecular InversionProbe array technology)(例如，Affymetrix GeneChip)和BeadArray技术(例如，Illumina GoldenGate和Infinium测定)已使得个体可能以相对低廉的花费使他们自己的基因组获得同时达到1百万个SNP的评估。可使个体获得的结果基因型信息可与和不同SNP关联的患疾病或性状风险的信息(包括来自公开文献和科学出版物的信息)相比较。因此例如可由个人通过分析他/她的基因型数据、由保健专业人士基于临床检测的结果，或由第三方(包括基因分型服务提供者)进行本文中描述的疾病相关性等位基因的诊断应用。第三方还可以是解释客户的基因型信息以提供与特定遗传风险因素(包括本文中描述的遗传标志)相关的服务的服务提供商。换句话说，可由保健专业人士、遗传咨询顾问、提供基因分型服务的第三方、提供风险评估服务的第三方或由业外人士(例如，个人)基于关于个体的基因型状况的信息和由特定遗传风险因素(例如，特定SNP)赋予的风险性的知识诊断或测定遗传风险的易感性。在本说明书中，术语“诊断”、“诊断易感性”和“确定易感性”意指任何可获得的方法，包括上述方法。

在某些实施方案中，收集包含个体的基因组DNA的样品。此类样品可以例如是颊部抹试(buccal swab)、唾液样品、血液样品或其它合适的包含基因组DNA的样品，如本文中进一步描述的。然后使用本领域技术人员可获得的任何常用技术例如高通量阵列技术分析基因组DNA。将此类基因分型的结果存储在方便的数据存储器中，诸如数据载体，包括计算机数据库、数据存储盘，或通过其它方便的数据存储方式存储。在某些实施方案中，计算机数据库是对象数据库、关系数据库或后关系型数据库(post-relational database)。随后就已知为针对特定人病症的易感性变体例如本文中描述的遗传变型的某些变体的存在分析基因型数据。可使用任何方便的数据查询方法从数据存储单元检索基因型数据。可基于将个体的基因型与之前测定的针对基因型(例如针对特定疾病或性状的有风险的变体的杂合携带者)的风险度(例如，表示为相对风险度(RR)或比值比(OR))相比较来计算由个体的特定基因型赋予的风险度。个体的计算的风险度可以是与具有匹配的性别和种族的平均群体相比较的人的或人的特定基因型的相对风险度。可使用参照群体的结果将平均群体风险度表示为不同基因型的风险度的加权平均值，并且可进行适当的计算以计算相对于群体的基因型组群的风险度。可选择地，个体的风险度基于特定基因型例如标志的有风险的等位基因的杂合携带者与非有风险的等位基因携带者的比较。在某些实施方案中使用群体平均值可能更方便，因为其为用户提供了易于解释的测量，即与群体的平均值相比较基于他/她的基因型提供了个体风险度的测量。可通过网站，优选安全性网站使客户可获得评估的计算的风险度。

在某些实施方案中，服务提供商在提供的服务中将包括从客户提供的样品分离基因组DNA，对分离的DNA进行基因分型，基于基因型数据计算遗传风险度和将风险度报告给客户的所有步骤。在一些其它实施方案中，服务提供商在服务中将包括个体的基因型数据的解释，即基于个体的基因型数据的特定遗传变型的风险评估。在一些其它实施方案中，服务提供商可包括的服务包括始于个体(客户)的分离的DNA的样品的基因分型服务和基因型数据的解释。

可使用标准方法进行针对多个风险变体的总体风险度。例如，假定乘法模型，即，假定单个风险变体的风险度相乘以确定总体效应，允许直接计算多个标志的总体风险度。

此外，在某些其它实施方案中，本发明涉及通过检测特定遗传标志等位基因或单倍型(所述等位基因或单倍型在乳腺癌患者中出现的频率比在经诊断未患有乳腺癌的个体中或一般群体中出现的频率更低)来诊断或帮助诊断减少的对乳腺癌的易感性的方法。

如本文中所描述的和举例说明的，特定标志等位基因或单倍型与患乳腺癌的风险关联。在一个实施方案中，标志等位基因或单倍型是赋予显著的患乳腺癌的风险或易感性的标志等位基因或单倍型。在另一个实施方案中，本发明涉及诊断人个体的对乳腺癌的易感性的方法，该方法包括确定至少一个多态型标志的至少一个等位基因在获自个体的核酸样品中是否存在。在另一个实施方案中，本发明涉及通过筛查本文中描述的至少一个标志等位基因或单倍型来测定人个体中对乳腺癌的易感性的方法。在另一个实施方案中，标志等位基因或单倍型与其在健康受试者(对照，例如群体对照)中存在的频率相比较更频繁地存在于具有乳腺癌(患病的)的或对乳腺癌易感的受试者中。在某些实施方案中，至少一个标志等位基因或单倍型的关联性的显著性的特征在于p值小于0.05。在其它实施方案中，关联性的显著性的特征在于更小的p值，例如小于0.01、小于0.001、小于0.0001、小于0.00001、小于0.000001、小于0.0000001、小于0.00000001或小于0.000000001。

在这些实施方案中，至少一个标志等位基因或单倍型的存在的确定标示着对乳腺癌的易感性。此类诊断方法包括检测至少一个与乳腺癌关联的标志等位基因或单倍型是否存在。可通过本文中描述的和/或本领域内已知的多种方法检测组成特定单倍型的特定遗传标志等位基因。例如，可在核酸水平(例如，通过直接的核苷酸测序或通过本领域技术人员已知的其它方法)或当遗传标志影响由乳腺癌相关核酸编码的蛋白质的编码序列时在氨基酸水平上(例如，通过蛋白质测序或通过使用识别这样的蛋白质的抗体的免疫测定)检测遗传标志。标志等位基因或单倍型相应于与乳腺癌关联的基因组DNA序列的区段。此类片段包括所述多态型标志或单倍型的DNA序列，而且还可包括与所述标志或单倍型处于强LD(连锁不平衡)中的DNA区段。在一个实施方案中，此类区段包括处于具有确定为大于0.1的r²的值和/或|D′|＞0.8的所述标志或单倍型的LD中的区段。

在一个实施方案中，可使用杂交方法完成对乳腺癌的易感性的诊断。(参见Current Protocols in Molecular Biology，Ausubel，F.等人，eds.，John Wiley & Sons，包括全部补充材料)。从怀疑患有乳腺癌、对乳腺癌易感的或易于患乳腺癌的受试者(“测试受试者”)获得基因组DNA、RNA或cDNA的来自测试受试者或个体的生物样品(“测试样品”)。受试者可以是成年人、儿童或胎儿。测试样品可来自包含基因组DNA的任何来源，例如血液样品、羊膜液样品、脑脊髓液样品或来自皮肤、肌肉、颊粘膜或结膜粘膜、胎盘、胃肠道或其它器官的组织样品。来自胎儿细胞或组织的DNA的测试样品可通过适当的方法例如通过羊膜穿刺或绒膜绒毛取样获得。然后检查DNA、RNA或cDNA样品。可通过特异于特定等位基因的核酸探针的序列特异性杂交来显示特定标志等位基因的存在。可通过使用几个序列特异性核酸探针(各自特异于特定的等位基因)来显示超过一个特定标志等位基因或特定单倍型的存在。在一个实施方案中，可用特异于特定单倍型(即，与包含所述单倍型的特定标志等位基因特征的DNA链特异性杂交)的单个核酸探针来显示单倍型。可将序列特异性探针可直接与基因组DNA、RNA或cDNA杂交。“核酸探针”，如本文中所使用的，可以是与互补序列杂交的DNA探针或RNA探针。本领域技术人员会知道如何设计这样的探针(以使仅当特定等位基因存在于测试样品的基因组序列中时序列特异性杂交才发生)的方法。还可将本发明简化至使用任何方便的基因分型法(包括用于对特定多态型标志进行基因分型的商购可得的技术和方法)来进行实施。

为了测定对乳腺癌的易感性，可通过将测试样品例如基因组DNA样品与至少一个核酸探针接触来形成杂交样品。用于检测mRNA或基因组DNA的探针的非限定性实例是能够与本文中所述的mRNA或基因组DNA序列杂交的标记的核酸探针。核酸探针可以是例如全长核酸分子或其部分，例如在长度上是至少15、30、50、100、250或500个核苷酸的寡核苷酸，其足以在严格条件下与适当的mRNA或基因组DNA特异性杂交。在某些实施方案中，寡核苷酸在长度上是大约15至大约100个核苷酸。在某些其他实施方案中，寡核苷酸在长度上是大约20至大约50个核苷酸。核酸探针可包含本文中描述的LD区段C09、LD区段C10A、LD区段10B、LD区段C11A、LD区段C11B、LD区段C14、LD区段C18、LD区段C22A和LD区段C22B中的任意一个的核苷酸序列的全部或一部分；可选择地，核酸探针可包含含有本文中表1和4中所示的标志(SEQ ID NO：1-562)的核苷酸序列或含有PAX5、TUB、SERPINH1、RAD51L1、FHOD3和TNRC6B基因中的任一个的核苷酸序列的全部或部分，如本文中所描述的，其任选地包含本文中描述的标志的至少一个等位基因或本文中描述的至少一个单倍型，或者探针可以是这样的序列的互补序列。在特定的实施方案中，核酸探针是包含表1、2、3和4的任意一个中所列的标志(SEQ IDNO：1-562)的核苷酸序列或含有PAX5、TUB、SERPINH1、RAD51L1、FHOD3和TNRC6B基因的任一个的核苷酸序列或其片段的部分，如本文中描述的，其任选地包含本文中描述的标志的至少一个等位基因或至少一个多态型标志的至少一个等位基因，或包含本文中描述的至少一个多态型标志的单倍型，或者探针可以是这样的序列的互补序列。可通过本领域技术人员熟知的方法进行杂交(参见，例如，Current Protocols in MolecularBiology，Ausubel，F.等人，eds.，John Wiley & Sons，包括全部补充材料)。在一个实施方案中，杂交意指特异性杂交，即无错配杂交(完全杂交)。在一个实施方案中，用于特异性杂交的杂交条件是高度严格的。

使用标准方法检测特异性杂交(如果存在的话)。如果特异性杂交在核酸探针与测试样品中的核酸之间发生，那么样品包含与存在于核酸探针中的核苷酸互补的等位基因。所述方法可以针对本发明的任意标志或组成本发明的单倍型的标志进行重复，或可一次将多个探针同时用于检测1个以上的标志等位基因。还可能设计包含特定单倍型的1个以上的标志等位基因的单一探针(例如，包含与组成特定单倍型的2、3、4、5个或全部标志互补的等位基因的探针)。样品中单倍型的特定标志的检出标示着样品源具有所述特定单倍型(例如，单倍型)并因此对乳腺癌易感。

在一个优选实施方案中，如Kutyavin等人(Nucleic Acid Res.34：e128(2006))所描述采用，利用在其3′末端包含荧光部分或基团和在其5′末端包含猝灭剂的检测寡核苷酸探针和增强子寡核苷酸的方法。荧光部分可以是Gig Harbor绿或Yakima黄或其它适当的荧光部分。所述检测探针经设计用以与包含待检测的SNP多态型的短核苷酸序列杂交。优选地，SNP位于从末端残基至离检测探针的3′末端-6个残基的任何位置。所述增强子是相对于检测探针3′地与DNA模板杂交的短寡核苷酸探针。这样设计探针以便当检测探针和增强子核苷酸探针与模板结合时单个核苷酸缺口存在于两个探针之间。缺口产生被内切核酸酶例如内切核酸酶IV识别的合成无碱基位点。酶将染料从完全互补的检测探针切除，但不能切割包含错配的检测探针。因此，通过测量释放的荧光部分的荧光，可进行由检测探针的核苷酸序列确定的特定等位基因的存在的评估。

检测探针可以是任何适当大小的探针，尽管优选地探针相对较短。在一个实施方案中，探针在长度上为5至100个核苷酸。在另一个实施方案中，探针在长度上为10至50个核苷酸以及在另一个实施方案中，探针在长度上为12至30个核苷酸。探针的其它长度是可能的并且在本领域普通技术人员的能力范围内。

在优选实施方案中，通过聚合酶链式反应(PCR)扩增包含SNP多态型的DNA模板，然后进行检测。在这样的实施方案中，扩增的DNA用作检测探针和增强子探针的模板。

检测探针、增强子探针和/或用于通过PCR扩增模板的引物的某些实施方案包括经修饰的碱基(包括经修饰的A和经修饰的G)的使用。经修饰的碱基的用途可用于调整核苷酸分子(探针和/或引物)对模板DNA的解链温度，例如用于增加包含低百分数的G或C碱基的区域的解链温度(其中可使用具有与其互补T形成3个氢键的能力的修饰的A)，或用于降低包含高百分数的G或C碱基的区域的解链温度(例如通过使用在双链DNA分子中与其互补C碱基只形成2个氢键的经修饰的G碱基)。在优选实施方案中，经修饰的碱基在所述检测核苷酸探针的设计中使用。可在此类方法中选择本领域技术人员已知的任何修饰碱基，并且基于本文中的教导和可从本领域技术人员已知的商业来源获得的已知碱基，适当的碱基的选择完全在本领域技术人员的能力范围内。

此外或可选择地，除了核酸探针以外或在不用核酸探针的情况下，可将肽核酸(PNA)探针用于本文中所述的杂交方法。PNA是具有肽样无机主链例如N-(2-氨乙基)甘氨酸单元的DNA模拟物(有机碱基(A、G、C、T或U)通过亚甲基羰基接头连接至甘氨酸的氮)(参见，例如，Nielsen，P.，等人，Bioconjug.Chem.5：3-7(1994))。可设计PNA探针用以与怀疑包含一个或多个与乳腺癌关联的标志等位基因或单倍型的样品中的分子特异性杂交。在本发明的一个实施方案中，收集包含获自受试者的基因组DNA的测试样品并且将聚合酶链式反应(PCR)用于扩增包含本发明的一个或多个标志或单倍型的片段。如本文中所描述的，与乳腺癌关联的特定标志等位基因或单倍型的鉴定可使用多种方法(例如，序列分析、通过限制性消化的分析、特异性杂交、单链构象多态型测定(SSCP)、电泳分析等)来完成。在另一个实施方案中，通过表达分析，例如通过使用定量PCR(动力学热循环(kinetic thermal cycling))来进行诊断。该技术可以例如利用商购可得的技术，例如(AppliedBiosystems，Foster City，CA)。所述技术可评估由与乳腺癌关联的核酸编码的多肽或剪接变体的表达或组成的变化的存在。此外，可将变体的表达定量为物理或功能上的差异。

在本发明的方法的另一个方法中，如果特定等位基因导致与参照序列相比较限制性位点的产生或消除，那么限制性消化的分析可用于检测所述等位基因。可以例如如Current Protocols in Molecular Biology(同上)中所述进行限制性片段长度多态型(RFLP)分析。相关DNA片段的消化模式表示特定等位基因在样品中是否存在。

还可将序列分析用于检测特定等位基因或单倍型。因此，在一个实施方案中，特定标志等位基因或单倍型是否存在的确定包括获自受试者或个体的DNA或RNA的测试样品的序列分析。可使用PCR或其它适当的方法扩增与乳腺癌关联的核酸的一部分，然后可通过测定样品中基因组DNA的多态型位点(或单倍型中的多个多态型位点)的序列来直接检测特定等位基因的存在。

在另一个实施方案中，与来自受试者的靶核酸序列区段互补的寡核苷酸探针的阵列可用于鉴定多态型位点上的特定等位基因。例如，可使用寡核苷酸阵列。寡核苷酸阵列通常包括众多的在不同的已知位置上偶联至基质表面的不同寡核苷酸探针。通常可使用机械合成法或光导合成法(并入了光刻法和固相寡核苷酸合成法的组合)或利用本领域技术人员已知的其它方法产生此类阵列(参见，例如，Bier，F.F.，等人AdvBiochem Eng Biotechnol 109：433-53(2008)；Hoheisel，J.D.，Nat RevGenet 7：200-10(2006)；Fan，J.B.，等人Methods Enzymol 410：57-73(2006)；Raqoussis，J.& Elvidge，G.，Expert Rev Mol Diagn 6：145-52(2006)；Mockler，T.C.，等人Genomics 85：1-15(2005)和本文中引用的参考资料，其每一个的全部教导通过引用合并入本文)。用于检测多态型的寡核苷酸阵列的制备和用途的许多另外描述可见于例如US6,858,394、US 6,429,027、US 5,445,934、US 5,700,637、US 5,744,305、US 5,945,334、US 6,054,270、US 6,300,063、US 6,733,977、US 7,364,858、EP 619 321和EP 373 203(其全部教导通过引用合并入本文)。

可将本领域技术人员可获得的核酸分析的其它方法用于检测与乳腺癌关联的多态型位点上的特定等位基因。代表性方法包括例如直接手工测序(Church and Gilbert，Proc.Natl.Acad.Sci.USA，81：1991-1995(1988)；Sanger，F.，等人，Proc.Natl.Acad.Sci.USA，74：5463-5467(1977)；Beavis，等人，U.S.Patent No.5,288,644)；自动化荧光测序；单链构象多态型测定(SSCP)；夹持变性凝胶电泳(clamped denaturinggel electrophoresis)(CDGE)；变性梯度凝胶电泳(DGGE)(Sheffield，V.，等人，Proc.Natl.Acad.Sci.USA，86：232-236(1989))、迁移率变动分析(Orita，M.，等人，Proc.Natl.Acad.Sci.USA，86：2766-2770(1989))、限制酶分析(Flavell，R.，等人，Cell，15：25-41(1978)；Geever，R.，等人，Proc.Natl.Acad.Sci.USA，78：5081-5085(1981))；异源双链体分析；化学错配裂解法(CMC)(Cotton，R.，等人，Proc.Natl.Acad.Sci.USA，85：4397-4401(1985))；核糖核酸酶保护测定(Myers，R.，等人，Science，230：1242-1246(1985))；识别核苷酸错配的多肽例如大肠杆菌(E.coli)mutS蛋白的使用和等位基因特异性PCR。

在本发明的另一个实施方案中，在本发明的遗传标志或单倍型导致多肽的组成或表达的变化的情况下，可通过检查由与乳腺癌关联的核酸编码的多肽的表达和/或组成来进行对乳腺癌的易感性的测定。因此，在本发明的遗传标志或单倍型导致多肽(例如，PAX5、TUB、SERPINH1、RAD51L1、FHOD3和TNRC6B基因中的一个或多个)的组成或表达的变化的情况下，可通过检查此类多肽中一种多肽或由与乳腺癌关联的核酸编码的另一种多肽的表达和/或组成来进行对乳腺癌的易感性诊断。本文中描述的显示与乳腺癌的关联性的标志还可影响附近基因的表达。众所周知影响基因表达的调控元件可位于远离基因的启动子区域，甚至远至离所述启动子区域数十或数百个千碱基。通过测定本发明的至少一个多态型标志的至少一个等位基因是否存在，从而可能评估此类邻近基因的表达水平。影响此类基因的可能机制包括例如对转录的影响、对RNA剪接的影响、mRNA的可选择剪接形式的相对量的变化、对RNA稳定性的影响、对从细胞核至细胞质的转运的影响以及对翻译的功效和准确性的影响。

可使用多种方法来检测蛋白质表达水平，包括酶联免疫吸附测定(ELISA)、Western印迹法、免疫沉淀和免疫荧光法。就由与乳腺癌关联的核酸编码的多肽的表达和/或组成的变化的存在评估受试者的测试样品。由与乳腺癌关联的核酸编码的多肽的表达的变化可以例如是定量多肽表达(即，产生的多肽的量)的变化。由与乳腺癌关联的核酸编码的多肽的组成的变化是定性多肽表达(例如，突变多肽或不同剪接变体的表达)的变化。在一个实施方案中，通过检测由与乳腺癌关联的核酸编码的特定剪接变体或剪接变体(例如，编码PAX5、TUB、SERPINH1、RAD51L1、FHOD3和TNRC6B基因的核酸)的特定模式来进行对乳腺癌的易感性的诊断。

此类变化(定量和定性)都可存在。多肽表达或组成的“变化”，如本文中所使用的，意指与对照样品中多肽的表达或组成相比较，测试样品中表达或组成的变化。对照样品是相应于测试样品(例如，来自相同类型的细胞的)并且来自未患乳腺癌和/或不具有对乳腺癌的易感性的受试者的样品。在一个实施方案中，对照样品来自不具有本文中描述的标志等位基因或单倍型的受试者。类似地，测试样品中一个或多个不同剪接变体的存在，或与对照样品相比较测试样品中不同剪接变体的显著不同的量的存在可标示着对乳腺癌的易感性。与对照样品相比较，测试样品中多肽的表达或组成的变化可标示着在其中等位基因相对于对照样品中的参照改变剪接位点的情况下的特定等位基因。检测由核酸编码的多肽的表达或组成的各种方法是本领域技术人员已知并且可被使用，其包括光谱学、比色法、电泳、等电聚焦和免疫测定(例如，David等人，U.S.Pat.No.4,376,110)例如免疫印迹(参见，例如，Current Protocolsin Molecular Biology、特别是第10章，同上)。

例如，在一个实施方案中，可使用能够结合由与乳腺癌关联的核酸编码的多肽的抗体(例如，具有可检测标记的抗体)。抗体可以是多克隆抗体或单克隆抗体。可使用完整抗体或其片段(例如，Fv、Fab、Fab′、F(ab′)₂)。对于探针或抗体术语“标记的”旨在包括通过将可检测物质偶联(即，物理连接)至探针或抗体的探针或抗体的直接标记，以及通过与被直接标记的其它试剂的反应性进行的探针或抗体的间接标记。间接标记的实例包括使用标记的第二抗体(例如，荧光标记的第二抗体)进行的一抗的检测和使用生物素进行的DNA探针的末端标记(以便其可用荧光标记的链霉抗生物素蛋白检测)。

在本方法的一个实施方案中，将测试样品中与乳腺癌关联的核酸(例如，PAX5、TUB、SERPINH1、RAD51L1、FHOD3和/或TNRC6B基因)编码的多肽的水平或量对比对照样品中多肽的水平或量。比对照样品中多肽的水平或量更高或更低(以至差异在统计学上是显著的)的测试样品中肽的水平或量标示着由核酸编码的多肽的表达的变化，并且是针对负责引起表达的差异的特定等位基因或单倍型的诊断。可选择地，将测试样品中多肽的组成与对照样品中多肽的组成相比较。在另一个实施方案中，可评估测试样品和对照样品中多肽的水平或量和组成。

在另一个实施方案中，通过结合另外的基于蛋白质、基于RNA或基于DNA的测试检测本发明的至少一个标志或单倍型来测定对乳源癌的易感性。

试剂盒

用于本发明的方法的试剂盒包括用于本文中描述的任何方法的组分，包括例如，用于核酸扩增的引物、杂交探针、限制酶(例如，用于RFLP分析)、等位基因特异性寡核苷酸、结合由本文中描述的本发明的核酸(例如包含本发明的至少一个多态型标志和/或单倍型的基因组区段)编码的改变的多肽或结合由本文中描述的本发明的核酸编码的未改变的(天然)多肽的抗体、用于扩增与乳腺癌关联的核酸的方法、用于分析与乳腺癌关联的核酸的核酸序列的方法、用于分析由与乳腺癌关联的核酸编码的多肽的氨基酸序列的方法等。试剂盒可以例如包括必需缓冲液、用于扩增本发明的核酸(例如本文中描述的一个或多个多态型标志)的核酸引物和用于使用此类引物和必需酶(例如，DNA聚合酶)扩增的片段的等位基因特异性检测的试剂。此外，试剂盒还可提供用于与本发明的方法组合使用的测定的试剂，例如与其它乳腺癌诊断测定一起使用的试剂。

在一个实施方案中，本发明是用于测定受试者的样品以检测乳腺癌或对乳腺癌的易感性在受试者中的存在的试剂盒，其中试剂盒包括选择性检测个体的基因组中至少一个本发明的多态型的至少一个等位基因所必需的试剂。在特定的实施方案中，所述试剂包括至少一个连续寡核苷酸，所述寡核苷酸与包含至少一个本发明的多态型的个体基因组的片段杂交。在另一个实施方案中，所述试剂包括至少一对与获自受试者的基因组区段的相反链杂交的寡核苷酸，其中每一个寡核苷酸引物对经设计用以选择性扩增包括至少一个多态型(其中所述多态型选自如表1和表4(SEQ ID NO：1-562)中所列的多态型组成的组)和与它们处于连锁不平衡中的多态型标志的个体的基因组的片段。在另一个实施方案中，片段在长度上是至少20个碱基对。可使用侧翼连接标示着乳腺癌的多态型(例如，SNP或微卫星)的核酸序列的部分设计此类寡核苷酸或核酸(例如，寡核苷酸引物)。在另一个实施方案中，试剂盒包括能够等位基因特异性检测一个或多个与乳腺癌关联的特定多态型标志或单倍型的一个或多个标记核酸和用于检测所述标记的试剂。适当的标记物包括例如放射性同位素、荧光标记物、酶标记物、酶辅因子标记物、磁标记物、自旋标记物、表位标记物。

在特定的实施方案中，待用试剂盒的试剂检测的多态型标志或单倍型包括表1和4中的标志组成的组中的1个或多个标志、2个或更多个标志、3个或更多个标志、4个或更多个标志、5个或更多个标志。在另一个实施方案中，待检测的标志或单倍型包括来自处于强连锁不平衡(如由大于0.2的r²的值确定的)的标志组到表1、2、3和4中所列的标志组成的组中的至少一个标志。在另一个实施方案中，待检测的标志或单倍型包括至少一个选自标志rs2005154、rs2184380、rs2224696、rs2242503、rs12291026、rs999737、rs9956546、rs11912922和rs6001954的标志。

在优选实施方案中，通过聚合酶链式反应(PCR)扩增包含SNP多态型的DNA模板，然后进行检测，并且用于此类扩增的引物包括在试剂盒中。在这样的实施方案中，扩增的DNA用作检测探针和增强子探针的模板。

在一个实施方案中，利用全基因组扩增(WGA)法扩增DNA模板，然后评估本文中描述的特定多态型标志的存在。可使用本领域技术人员熟知的用于进行WGA的标准方法，并且其在本发明的范围内。在一个这样的实施方案中，进行WGA的试剂包括在试剂盒中。

在某些实施方案中，特定标志等位基因或单倍型的存在的确定标示着对乳腺癌的易感性(增加的易感性或减少的易感性)。在另一个实施方案中，标志等位基因或单倍型的存在的确定标示着对乳腺癌治疗剂的反应。在另一个实施方案中，标志等位基因或单倍型的存在标示着乳腺癌的预后。在另一个实施方案中，标志等位基因或单倍型的存在标示着乳腺癌治疗的进展。此类治疗可包括通过手术、药物或通过其它方法(例如，生活方式的改变)进行的干预。

在本发明的其它方面，提供了药物包装(试剂盒)，所述包装包括治疗剂和一套用于将治疗剂施用至就本发明的一个或多个变体(如本文中公开的)诊断测试的人的说明书。治疗剂可以是小分子药物、抗体、肽、反义或RNAi分子或其它治疗分子。在一个实施方案中，指导被鉴定为至少一个本发明的变体的携带者的个体服用处方规定的剂量的治疗剂。在一个这样的实施方案中，指导被鉴定为至少一个本发明的变体的纯合携带者的个体服用处方规定的剂量的治疗剂。在另一个实施方案中，指导被鉴定为至少一个本发明的变体的非携带者的个体服用处方规定的剂量的治疗剂。

在某些实施方案中，试剂盒还包括一套用于使用包括试剂的试剂盒的说明书。在某些实施方案中，试剂盒还包括数据集，其包括利用试剂盒评估的多态型标志与对乳腺癌的易感性之间的关联数据。

治疗剂

可将本文中所示的乳腺癌的风险变体用于鉴定针对乳腺癌的新型治疗靶。例如，可靶向包含与乳腺癌关联的变体(标志和/或单倍型)或与其处于连锁不平衡中的基因(例如，PAX5、TUB、SERPINH1、RAD51L1、FHOD3和TNRC6B基因中的一个或多个基因)或其产物，及受此类变体基因或其产物直接或间接调控或与其相互作用的基因或其产物，以将其用于开发治疗乳腺癌或预防或延迟与乳腺癌关联的症状的发作的治疗剂。治疗剂可包括一种或多种例如非蛋白质和非核酸小分子、蛋白质、肽、蛋白质片段、核酸(DNA、RNA)、PNA(肽核酸)或其衍生物或模拟物，其可调控靶基因或它们的基因产物的功能和/或水平

可将本文中描述的核酸和/或变体或包含其互补序列的核酸用作在细胞、组织或器官中控制基因表达的反义构建体。与反义技术相关的方法对于本领域技术人员来说是熟知的，并且例如描述和综述于AntisenseDrug Technology：Principles，Strategies，andApplications，Crooke，ed.，Marcel Dekker Inc.，New York(2001)中。一般地，反义试剂(反义寡核苷酸)由能够结合互补核苷酸区段的单链寡核苷酸(RNA或DNA)组成。通过结合适当的靶序列，形成RNA-RNA、DNA-DNA或RNA-DNA双链体。反义寡核苷酸与基因的有义链或编码链互补。还可能形成三股螺旋，其中反义寡核苷酸结合双链体DNA。

几种反义寡核苷酸是本领域技术人员已知的，包括切割子(cleaver)和阻断子(blocker)。前者结合靶RNA位点，激活切割靶RNA的细胞内核酸酶(例如，RNA酶H或RNA酶L)。阻断子结合靶RNA，通过核糖体的空间位阻来抑制蛋白质翻译。阻断子的实例包括核酸、玛琳代化合物(morpholino compound)、锁(locked)核酸和膦酸甲酯(Thompson，Drug Discovery Today，7：912-917(2002))。反义寡核苷酸可直接用作治疗剂，并且还有用于测定和验证基因功能，例如通过基因敲除或基因敲低实验来进行。反义技术还描述于Lavery等人，Curr.Opin.DrugDiscov.Devel.6：561-569(2003)，Stephens等人，Curr.Opin.Mol.Ther.5：118-122(2003)，Kurreck，Eur.J.Biochem.270：1628-44(2003)，Dias等人，Mol.Cancer Ter.1：347-55(2002)，Chen，MethodsMol.Med.75：621-636(2003)，Wang等人，Curr.Cancer Drug Targets1：177-96(2001)和Bennett，Antisense Nucleic Acid Drug.Dev.12：215-24(2002)中。

在某些实施方案中，反义试剂是能够结合特定核苷酸区段的寡核苷酸。在某些实施方案中，核苷酸区段包括PAX5、TUB、SERPINH1、RAD51L1、FHOD3和TNRC6B基因中的任一个基因。在某些其他实施方案中，反义核苷酸能够结合SEQ ID NO：1-562中所示的核苷酸区段。反义核苷酸在长度上可以是5至500个核苷酸，包括5至200个核苷酸、5至100个核苷酸、10至50个核苷酸和10至30个核苷酸。在某些优选实施方案中，反义核苷酸在长度上是14至50个核苷酸，包括14至40个核苷酸和14至30个核苷酸。本文中描述的变体还可用于特异于特定变体的反义试剂的选择和设计。通过使用关于本文中描述的变体的信息，可设计特异性靶向包含一个或多个本发明的变体的mRNA分子的反义寡核苷酸或其它反义分子。这样，可抑制或阻断包含一个或多个本发明的变体(即，某些标志等位基因和/或单倍型)的mRNA分子的表达。在一个实施方案中，反义分子经设计用以特异性结合靶核酸的特定等位基因形式(即，一个或几个变体(等位基因和/或单倍型))(从而抑制源于该特定等位基因或单倍型的产物的翻译)，但其不结合靶核酸分子的该特定多态型位点上的其它或可选择的变体。由于反义分子可用于使mRNA失活以抑制基因表达，从而抑制蛋白质表达，因此所述分子可用于疾病治疗。方法可包括利用包含与mRNA中的一个或多个区域互补的核苷酸序列的核酶进行的切割，其减弱mRNA被翻译的能力。此类mRNA区域包括例如蛋白质编码区，特别是相应于蛋白质的催化活性、底物和/或配体结合位点或其它功能结构域的蛋白质编码区。

自其最初在线虫(C.elegans)中被发现(Fire等人，Nature391：806-11(1998))以来，在过去10年中，RNA干扰(RNAi)现象一直得到活跃地研究，并且在近年中，其在人疾病的治疗中的潜在用途一直受到积极追求(综述于Kim & Rossi，Nature Rev.Genet.8：173-204(2007)中)。RNA干扰(RNAi)，也称为基因沉默，基于使用双链RNA分子(dsRNA)关闭特定基因。在细胞中，细胞质双链RNA分子(dsRNA)被细胞复合物加工成小干扰RNA(siRNA)。siRNA指导蛋白质-RNA复合物至靶mRNA上的特定位点的靶向，从而导致mRNA的切割(Thompson，Drug DiscoveryToday，7：912-917(2002))。siRNA分子在长度上通常为约20、21、22或23个核苷酸。因此，本发明的一个方面涉及分离的核酸分子和此类分子用于RNA干扰的用途，即作为小干扰RNA分子(siRNA)。在一个实施方案中，分离的核酸分子在长度上为18至26个核苷酸，优选在长度上为19至25个核苷酸，更优选在长度上为20至24个核苷酸，和更优选在长度上为21、22或23个核苷酸。

RNAi介导的基因沉默的另一个途径始于在细胞中经加工产生前体miRNA(pre-miRNA)的内源编码的初级microRNA(pri-miRNA)转录物。此类miRNA分子被从细胞核输出至细胞质，在细胞质中它们经历加工，产生成熟miRNA分子(miRNA)，所述成熟miRNA分子通过识别mRNA的3′非翻译区中的靶位点，然后通过加工P小体(processing P-body)降解mRNA来指导翻译抑制(综述于Kim & Rossi，Nature Rev.Genet.8：173-204(2007)中)。

RNAi的临床应用包括在大小优选为约20-23个核苷酸并且优选具有2个核苷酸的3′重叠(overlaps)的合成siRNA双链体的掺入。通过针对靶mRNA的序列特异性设计建立基因表达的敲低。用于此类分子的最佳设计和合成的几个商业部位是本领域技术人员已知的。

其它应用提供了更长的siRNA分子(长度上通常为约25-30个核苷酸，优选约27个核苷酸)以及小发夹RNA(shRNA；长度上通常为约29个核苷酸)。后者是内源表达的，如Amarzguioui等人(FEBS Lett.579：5974-81(2005))中所描述的。化学合成siRNA和shRNA是体内加工的底物，并且在一些情况下提供比更短的设计更强的基因沉默(Kim等人，Nature Biotechnol.23：222-226(2005)；Siola s等人，NatureBiotechnol.23：227-231(2005))。一般地siRNA提供基因表达的瞬时沉默，因为它们的细胞内浓度被随后的细胞分裂稀释。相反地，表达的shRNA介导长期稳定的靶转录物的敲低，只要shRNA的转录发生(Marques等人，Nature Biotechnol.23：559-565(2006)；Brummelkamp等人，Science 296：550-553(2002))。

因为RNAi分子，包括s iRNA、miRNA和shRNA，以序列依赖性的方式起作用，因此本文中所示的变体可用于设计RNAi试剂，所述RNAi试剂识别包含特定等位基因和/或单倍型(例如本发明的等位基因和/或单倍型)的特定核酸分子然而不识别包含其它等位基因或单倍型的核酸分子。此类RNAi试剂从而可识别和破坏靶核酸分子。与反义试剂一样，RNAi试剂可用作治疗剂(即，用于关闭疾病相关基因或疾病相关基因变体)，而且还可用于表征和验证基因功能(例如，通过基因敲除或基因敲低实验)。

可通过一系列本领域技术人员已知的方法进行RNAi的递送。利用非病毒递送的方法包括胆固醇、稳定的核酸-脂质颗粒(SNALP)、重链抗体片段(Fab)、适体和纳米颗粒。病毒递送法包括慢病毒、腺病毒和腺伴随病毒的使用。在一些实施方案中化学修饰siRNA分子以增加其稳定性。这可包括核糖的2′位置上的修饰，包括2′-O-甲基嘌呤和2′-氟嘧啶，其提供了对RNA酶活性的抗性。其它化学修饰是可能的并且是本领域技术人员已知的。

下列参考资料提供了RNAi的其它概述和使用RNAi靶向特定基因的可能性：Kim & Rossi，Nat.Rev.Genet.8：173-184(2007)，Chen &Rajewsky，Nat.Rev.Genet.8：93-103(2007)，Reynolds，等人，Nat.Biotechnol.22：326-330(2004)，Chi等人，Proc.Natl.Acad.Sci.USA 100：6343-6346(2003)，Vickers等人，J.Biol.Chem.278：7108-7118(2003)，Agami，Curr.Opin.Chem.Biol.6：829-834(2002)，Lavery，等人，Curr.Opin.Drug Discov.Devel.6：561-569(2003)，Shi，Trends Genet.19：9-12(2003)，Shuey等人，Drug Discov.Today 7：1040-46(2002)，McManus等人，Nat.Rev.Genet.3：737-747(2002)，Xia等人，Nat.Biotechnol.20：1006-10(2002)，Plasterk等人，Curr Opin Genet Dev 10：562-7(2000)，Bosher等人，Nat.CellBiol.2：E31-6(2000)和Hunter，Curr.Biol.9：R440-442(1999)。

导致增加的对疾病包括乳腺癌发生的易感性的遗传缺陷或引发乳腺癌的缺陷可通过给携带缺陷的受试者施用核酸片段来永久性矫正，所述核酸片段包含提供所述基因缺陷的位点上的正常/野生型核苷酸的序列。此类位点特异性修复序列可包括操作以促进受试者的基因组DNA的内源修复的RNA/DNA寡核苷酸。可利用适当的载体例如封装在阴离子脂质体内的与聚乙烯亚胺的复合物、病毒载体例如腺病毒载体或适合于促进施用的核酸细胞内吸收的其它药物组合物进行修复序列的施用。遗传缺陷因而可被克服，因为嵌合寡核苷酸诱导正常序列整合入受试者的基因组，从而导致正常/野生型基因产物表达。替换得到遗传，从而使得与疾病或病症关联的症状得到永久性修复和缓解。

本发明提供了用于鉴定可用于治疗乳腺癌的化合物或试剂的方法。因此，本发明的变体用作用为鉴定和/或发开治疗剂的靶。在某些实施方案中，此类方法包括测定试剂或化合物调控核酸(所述核酸包括至少一个本发明的变体(标志和/或单倍型))或包含变体或位于变体附近的核酸序列的编码产物的活性和/或表达的能力。这包括例如FGF10、MRPS30、HCN1和FGFR2基因中的一个或多个基因以及其基因产物。这从而可用于鉴定抑制或改变编码的核酸产物的不期望的活性或表达的试剂或化合物。可在本领域技术人员已知的基于细胞的系统或无细胞系统中进行用于进行此类实验的测定。基于细胞的系统包括天然表达目的核酸分子的细胞或已经历基因改造从而表达某个期望的核酸分子的重组细胞。

可通过包含变体的核酸序列(例如，包含至少一个本发明的变体的基因，其可被转录成包含至少一个变体的RNA并且接着被翻译成蛋白质)的表达，或通过因影响正常转录物的表达水平或模式的变体例如基因的调控或控制区中的变体而导致的正常/野生型核酸序列的改变的表达来评估患者的变体基因表达。用于基因表达的测定包括直接核酸测定(mRNA)、用于表达的蛋白质水平的测定或参与途径例如信号途径的附随化合物(collateral compound)的测定。此外，还可测定响应信号途径而被上调或下调的基因的表达。一个实施方案包括将报告基因例如荧光素酶有效地连接至目的基因的调控区。

在一个实施方案中，当将细胞与候选化合物或试剂接触，然后测定mRNA的表达时，可鉴定基因表达的调控剂。将在候选化合物或试剂存在的情况下的mRNA的表达水平与在所述化合物或试剂不存在的情况下的表达水平相比较。基于该比较，可将用于治疗乳腺癌的候选化合物或试剂鉴定为调控变体基因的基因表达的化合物或试剂。当mRNA或编码的蛋白质的表达在候选化合物或试剂存在的情况下比在其不存在的情况下在统计学上显著更高时，则候选化合物或试剂被鉴定为核酸表达的刺激剂或上调剂(up-regulator)。当核酸表达或蛋白质水平在候选化合物或试剂存在的情况比在其不存在的情况下统计学上显著更低时，则候选化合物被鉴定为核酸表达的抑制剂或下调剂(down-regulator)。

本发明还提供了使用通过药物(化合物和/或试剂)筛选鉴定的化合物作为基因调控剂(即基因表达的刺激剂和/或抑制剂)进行治疗的方法。

评估响应治疗剂的概率的方法、监控治疗的进展的方法和治疗乳腺癌的方法

如本领域内已知的，个体可具有对特定疗法(例如，治疗剂或治疗方法)区别的反应。可在遗传上部分确定区别反应的基础。药物基因组学阐述了遗传变异(例如，本发明的变体(标志和/或单倍型))是如何由于改变的药物分布(drug disposition)和/或药物的异常或改变的作用而影响药物反应的问题。因此，区别反应的基础可在遗传上获得部分确定。由于遗传变异影响药物反应而产生的临床结果可在某些个体(例如，本发明的遗传变型的携带者或非携带者)中导致药物的毒性或药物的治疗失败。因此，本发明的变体可确定治疗剂和/或方法对身体起作用的方式，或身体代谢治疗剂的方式。

因此，在一个实施方案中，多态型位点或单倍型上特定等位基因的存在标示着不同的对特定治疗形式的反应。这意味着经诊断患有乳腺癌的患者和在本发明的多态型或单倍型上携带某个等位基因(例如，本发明的有风险的和保护性等位基因和/或单倍型)的患者将对用于治疗疾病的特定治疗药物和/或其它疗法作出更好或更差的反应。因此，标志等位基因或单倍型是否存在可帮助决定应当对患者使用的治疗。例如，对于新诊断的患者，可评估(例如，通过测试来源于血液样品的DNA，如本文中所描述的)本发明的标志或单倍型的存在。如果患者对于标志等位基因或单倍型呈阳性(即，标志或单倍型的至少一个特定等位基因存在)，那么医生推荐一个特定的疗法，然而如果患者对于标志或单倍型的至少一个等位基因呈阴性，那么可推荐不同的治疗过程(其包括不同于疾病进展的系列监控的不进行立即治疗的推荐)。因此，患者的携带者状态可用于帮助确定是否应当施用特定治疗模式。价值在于能够在早期诊断疾病，选择最适当的治疗和给临床医师提供关于疾病的预后/侵袭性的信息以能够应用最适当的方法的可能性。

如本文中进一步描述的，乳腺癌的当前临床预防主要是化学预防剂(化学疗法或激素疗法)和预防性手术。最常用的化学预防剂是他莫昔芬和雷洛昔芬；其他选择包括其他选择性雌激素受体调节剂(SERM)和芳香酶抑制剂。治疗选择还包括放射疗法，对于该疗法部分患者经历不利的症状。本文中描述的本发明的标志可用于评估量对此类治疗选择的反应，或预测使用任意一个此类治疗选择的治疗的进展。因此，可将遗传特征用于选择基于个体的遗传状态的适当的治疗策略，或其可用于预测特定治疗选择的结果，从而用于治疗选择或可获得的治疗选择的组合的策略选择。

本发明还涉及监控乳腺癌的治疗的进展或功效的方法。可基于本发明的标志和单倍型的基因型和/或单倍型状态，即通过评估至少一个本文中所述的多态型标记物的至少一个等位基因的不存在或存在，或通过监控与本发明的变体(标志和单倍型)关联的基因的表达来进行该方法。可测量组织样品(例如，外周血或活组织检查样品)中的风险基因mRNA或编码的多肽。因此可在治疗之前和治疗的过程中测定表达水平和/或mRNA水平以监控其效率。可选择地或相伴随地，在治疗之前和治疗过程中测定本文中所示的针对乳腺癌的至少一个风险变体的基因型和/或单倍型状态以监控其效率。

可选择地，与本发明的标志和单倍型相关的生物网络或代谢途径可通过测定mRNA和/或多肽水平来监控。可以例如通过监控属于网络和/或途径的一些基因在治疗前和治疗过程中采集的样品中的表达水平或多肽来进行该监控。可选择地，可在治疗前和治疗过程中测定属于生物网络或代谢途径的代谢产物。通过将治疗过程中观察到的表达水平/代谢产物水平的变化与来自健康受试者的相应数据相比较来测定治疗的功效。

在另外的方面，可将本发明的标志用于增加临床试验的效力和功效。因此，作为本发明的有风险的变体的携带者的个体，即作为赋予增加的发生乳腺癌的风险的至少一个多态型标记物的至少一个等位基因的携带者的个体可以更可能地对特定治疗模式作出反应。在一个实施方案中，携带特定治疗(例如，小分子药物)所靶向的途径和/或代谢网络中的基因的有风险的变体的个体更可能是所述治疗的反应者。在另一个实施方案中，携带表达和/或功能被有风险的变体改变的基因的有风险的变体的个体更可能是靶向该基因、其表达或其基因产物的治疗模式的反应者。

在另外的方面，本发明的标志和单倍型可用于靶向用于特定个体的治疗剂的选择。治疗模式的个人化选择、生活方式的改变或两者的组合可通过利用本发明的有风险的变体来实现。因此，就本发明的特定标志而言的个体状态的知识可用于选择治疗选择，所述治疗选择靶向受本发明的有风险的变体影响的基因或基因产物。变体的某些组合可适用于治疗选择的一个选择，然而其它基因变体组合可靶向其它治疗选择。这样的变体组合可包括1个变体、2个变体、3个变体或4个或更多个变体，这对于以临床上可靠的准确性确定治疗模式的选择是必需的。

计算机实现的方面

如本领域技术人员所理解的，可以完全或部分地按照已知的计算机可读介质上的计算机可执行指令实现本文中描述的方法和信息。例如，可以硬件实现本文中描述的方法。可选择地，所述方法可以存储在例如一个或多个存储器或其它计算机可读介质中的软件并在一个或多个处理器上实现。如所已知的，处理器可与计算机系统的一个或多个控制器、计算单元和/或其它单元连接，或需要时植入固件中。如果以软件实现，可将例程(routine)存储在任何计算机可读存储器例如RAM、ROM、闪存、磁盘、光盘或其它存储介质中，这也是已知的。同样地，可通过任何已知的传送方法包括例如利用通信通道例如电话线、因特网、无线连接等或通过可移动介质例如计算机可读盘、U盘(flash drive)等将该软件传送至计算装置。

更常见地，且如本领域技术人员所理解的，上述各种步骤可作为依次可以硬件、固件、软件或硬件、固件和/或软件的任意组合实现的各种块、操作、工具、模块和技术来实现。当以硬件实现时，一些或全部块、操作、技术等可以例如定制的集成电路(IC)、专用集成电路(ASIC)、现场可编程逻辑阵列(FPGA)、可编程逻辑阵列(PLA)等执行。

当以软件实现时，该软件可存储于任何已知的计算可读介质例如计算机的RAM或ROM或闪存、处理器、硬盘驱动器、光盘驱动器、磁带驱动器等中的磁盘、光盘或其它存储介质中。同样地，该软件通过任何已知的传送方法包括例如在计算可读盘或其它可移动计算存储机械装置上可传送至用户或计算系统。

图1举例说明适当的计算系统环境100的实例，在该计算系统环境上可实现用于所要求的方法步骤和装置的系统。计算系统环境100只是适当的计算环境的一个实例并且无意表示对权利要求的方法或装置的用途或功能性的范围的任何限制。计算环境100不应当被解释为对示例性操作环境100中举例说明的组件的任一个和其组合具有任何依赖性或需要。

所要求的方法和系统的步骤是用众多一般性用途或特殊性用途的计算系统环境或配置运行的。可适用于所要求的方法或系统的熟知的计算系统、环境和/或配置的实例包括但不限于个人计算机、服务器计算机、手提式或便携式设备、多处理器系统、基于微处理器的系统、机顶盒(settop box)、可编程消费类电子产品、网络PC、微型计算机、大型计算机、包括上述系统或装置的任一个的分布式计算环境，等等。

所要求的方法和系统的步骤可描述于计算机可执行指令的一般背景中，例如可由计算机执行的程序模块。通常，程序模块包括进行特定任务或执行特定抽象数据类型的例程、程序、对象、组件(component)、数据结构等。还可在其中利用通过通讯网络连接的远程处理设备进行任务的分布式计算环境中实践所述方法和装置。在集成式和分布式计算环境中，程序模块可位于本地和远程计算机存储介质包括记忆储存装置。

参考图1，用于实现所要求的方法和系统的步骤的示例性系统包括以计算机110的形式存在的一般性用途的计算装置。计算机110的组件可包括但不限于处理单元120、系统内存130和将各种系统组件(包括系统内存)连接至处理单元120的系统总线121。系统总线121可以是几种类型的总线结构(包括使用多种总线体系结构的任一种的存储器总线或存储控制器、外围总线和局部总线)的任何类型。例如，但不限于，此类体系结构包括工业标准结构(ISA)总线、微通道结构(MCA)总线、扩展的ISA(EISA)总线、视频电子标准协会(VESA)局部总线和互连外围设备(PCI)总线(也称为夹层总线)。

计算机110通常包括多种计算机可读介质。计算机可读介质可以是任何可获得的可由计算机110读取的介质，包括易失性和非易失性介质、可移动和不可移动介质。例如但非限制性的，计算机可读介质可包括计算机存储介质和通讯介质。计算机存储介质包括在任何方法或技术中实现的用于存储信息例如计算机可读指令、数据结构、程序模块或其它数据的易失性和非易失性介质、可移动和不可移动介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其它存储技术、CD-ROM、数字多功能光盘(digital versatile disk)(DVD)或其它光盘存储器、磁盒(magnetic cassette)、磁带、磁盘存储器或其它磁存储器装置，或可用于存储期望的信息并且可由计算机110读取的任何其它介质。通讯介质通常包括计算机可读指令、数据结构、程序模块或调制数据信号(modulated data signal)例如载波或其它传送机械装置中的其它数据并包括任何信息传送介质。术语“调制数据信号”意指具有一个或多个其特征集合或以将信息编码在信号中的方式改变的信号。例如但非限制性的，通讯介质包括有线介质例如有线网络或直线连接和无线介质例如声音(acoustic)、射频、红外和其它无线介质。任何上述介质的组合也应当包括在计算机可读介质的范围内。

系统内存130包括以易失性和/或非易失性存储器例如只读存储器(ROM)131和随机存取存储器(RAM)132的形式存在的计算机存储介质。包含帮助例如在起动过程中在计算机110内的元件之间传递信息的基本例程的基本输入/输出系统133(BIOS)通常被存储在ROM 131中。RAM 132通常包含可由处理单元120立即可读取的和/或即可被运行的数据和/或程序。例如但非限制性的，图1举例说明了操作系统134、应用程序135、其它程序模块136和程序数据137。

计算机110还可包括其它可移动/不可移动、易失性/非易失性计算机存储介质。仅作为示例，图1举例说明了从不可移动的非易失性磁介质读取或写入的硬盘驱动器140，从可移动的非易失性磁盘152读取或写入的磁盘驱动器151和从可移动非易失性光盘156例如CD ROM或其它光学介质读取或写入的光盘驱动器155。可用于示例性运行环境的其它可移动/不可移动、易失性/非易失性计算机存储介质包括但不限于盒式磁带、闪速存储卡、数字多功能盘、数字录像带、固态RAM、固态ROM等。通常通过不可移动存储器接口例如接口140将硬盘驱动器141连接至系统总线121，以及通常通过可移动存储器接口例如接口150将磁盘驱动器151和光盘驱动器155连接至系统总线121。

上述和图1中举例说明的驱动器和其相关计算机存储介质提供了用于计算机110的计算机可读指令、数据结构、程序模块和其它数据的存储。在图1中，硬盘驱动器141被举例说明来存储操作系统144、应用程序145、其它程序模块146和程序数据147。要指出的是，这些组件可以与操作系统134、应用程序135、其它程序模块136和程序数据137相同或不同。在此处给操作系统144、应用程序145、其它程序模块146和程序数据147提供不同的编号以举例说明至少它们是不同的拷贝。用户可通过输入装置例如键盘162和点击设备(pointing device)161(通常称为鼠标、随访球或触控垫(touch pad))将命令和信息输入计算机20。其它输入装置(未显示)可包括麦克风、操纵杆、游戏键盘(game pad)、卫星碟(satellite dish)、扫描仪等。通常将此类和其它输入装置通过连接至系统总线的用户输入接口160连接至处理单元120，但也可通过其它接口和总线结构例如并行端口、游戏口或通用串行总线(USB)连接。还可通过接口例如视频接口190将监视器191或其它类型的显示装置连接至系统总线121。除了监视器外，计算机还可包括其它外围输出设备例如扬声器197和打印机196，其可通过输出外部接口190连接。

计算机110可使用至一个或多个远程计算机例如远程计算机180的逻辑连接来在网络环境中运行。远程计算机180可以是个人计算机、服务器、路由器、网络PC、同级装置(peer device)或其它公用网络结点，并且通常包括相对于计算机110许多或全部上述元件，虽然在图1中只举例说明了记忆存储设备181。图1中描述的逻辑连接包括局域网(LAN)171和广域网(WAN)173，但还可包括其它网络。此类网络环境在办公室、企业范围的计算机网络、企业内部互联网和因特网中是很平常的。

当在LAN网络环境中使用时，通过网络接口或适配器170将计算机110连接至LAN 171。当在WAN网络环境中使用时，计算机110通常包括调制解调器172或用于建立利用WAN 173例如因特网的通讯的其它方法。可通过用户输入接口160或其它适当的机械装置将可以是内部或外部的调制解调器172连接至系统总线121。在网络环境中，可将相对于计算机110或其部分描述的程序模块存储在远程记忆存储设备中。例如但非限制性的，图1举例说明了如存在于存储设备181中的远程应用程序185。应理解，显示的网络连接是示例性的并且可使用建立计算机之间的通讯连接的其它方法。

虽然上述正文显示了本发明的许多不同实施方案的详细描述，但应当理解，本发明的范围由本专利的末尾处所示的权利要求的言语表达来界定。详细描述将被解释为仅为示例性的并且不描述本发明的每一个可能的实施方案，因为描述每一个可能的实施方案将是不现实的，如果不是不可能的话。可使用现有技术或在本专利提交日期后发展的技术(其仍然落在界定本发明的权利要求的范围内)实现许多可选择的实施方案。

虽然已描述优选以软件实施风险评估系统和方法以及其它组成部分，但也可以硬件、固件等实施它们，以及可通过任何其它处理器实施它们。因此，可以标准多用途CPU或专门设计的硬件或固件专用集成电路(ASIC)或其它硬线设备(需要时)(包括但不限于图1的计算机110)实施本文中描述的组成部分。当在软件中实施时，可将软件例程存储于任何计算可读存储器中例如存储在磁盘、光盘或其它存储介质中，于计算机或处理器的RAM或ROM中，于任何数据库等中。同样地，可将该软件通过任何已知的或期望的传送方法传送至用户或诊断系统，所述传送方法包括例如在计算机可读盘或其它便携式计算机存储机械装置上或利用通讯通道例如电话线、因特网、无线通讯等(这可被视为与通过便携式存储介质提供此类软件相同或可与其互换)。

因此，在本文中描述的和举例说明的技术和结构中可进行许多变动和变化而不背离本发明的精神和范围。因此，应当理解，本文中描述的方法和装置仅是举例说明性的并且不限定本发明的范围。

因此，本发明涉及与乳腺癌关联的本文中描述的多态型标志和单倍型的计算机实现的应用。此类应用可用于存储、处理或分析用于本发明的方法的数据。一个实例涉及将来源于个体的基因型信息存储在可读介质上，以使能够给第三方(例如，个体、个体的监护人、卫生保健提供者或遗传分析服务提供者)提供基因型信息，或用于从基因型数据获取信息，例如通过将基因型数据与关于促成增加的对癌症的易感性的遗传风险因素的信息相比较并且报告基于此类比较的结果。

在一般术语中，计算机可读介质具有存储(i)至少一个多态型标志或单倍型，如本文中所描述的；(ii)患有疾病的个体中所述至少一个标志的至少一个等位基因的频率或单倍型的频率的指标；和参照群体中所述至少一个标志的至少一个等位基因的频率或单倍型频率的指标的能力。参照群体可以是无疾病的个体群体。可选择地，参照群体是来自一般群体的随机样品，从而代表一般群体。频率指标可以是计算的频率、等位基因和/或单倍型拷贝的计数或适合于特定介质的实际频率的标准化或经处理的值。

本文中描述的与增加的对乳腺癌的易感性(增加的风险度)的标志和单倍型在某些实施方案中用于解释和/或分析数据。因此在某些实施方案中，如本文中显示的针对乳腺癌的有风险的等位基因的存在的确定或与任何此类风险性等位基因处于LD中的多态型标志上的等位基因的存在的确定标示着基因型数据来源的个体处于增加的患乳腺癌的风险中。在一个这样的实施方案中，产生至少一个本文中显示的与乳腺癌关联的多态型标志或与其处于连锁不平衡中的标志的基因型数据。然后例如通过可利用因特网访问的用户界面，使第三方可一起获得该基因型数据和以例如疾病的风险度测量(例如绝对风险度(AR)、风险比(RR)或比值比(OR))的形式存在的基因型数据的解释，所述第三方例如作为数据源的个体、他/她的监护人或代理人、医生或卫生保健工作者、遗传咨询顾问或保险代理。在另一个实施方案中，评估在来源于个体的基因型数据集中鉴定的有风险的标志，并且例如通过安全性网络界面或通过其它通讯方法，使第三方可获得由此类有风险的变体在数据集中的存在赋予的风险度的评估的结果。可以以数值形式(例如，以风险度值，例如绝对风险度、相对风险度和/或比值比，或利用与参照相比较风险度的百分数增加)、通过图解方式或通过适合于举例说明对基因型作为数据源的个体的风险性的其它方式报告这样的风险评估的结果。

核酸和多肽

可将本文中描述的核酸和多肽用于本发明的方法和试剂盒，如上文中所描述的。“分离的”核酸分子，如本文中所使用的，是与通常侧翼连接基因或核苷酸序列(例如在基因组序列中)的核酸分离的和/或已从其它转录的序列(例如，当在RNA文库中时)完全或部分纯化的核酸。例如，本发明的分离的核酸可基本上相对于其中天然存在的复杂细胞环境、或当通过重组技术产生时的培养基，或当化学合成时的化学前体或其它化学品而分离。在一些情况下，所述经分离的材料会形成组合物(例如，包含其它物质的粗制提取物)、缓冲系统或试剂混合物的一部分。在其它情况下，所述材料可被纯化至基本上同质，例如如通过聚丙烯酰胺凝胶电泳(PAGE)或柱层析(例如，HPLC)所测定的。本发明的分离的核酸分子可包含至少约50％，至少约80％或至少约90％(基于摩尔数)的所有存在的大分子种类。就基因组DNA而言，术语“分离的”还可指从与所述基因组天然相关联的染色体分离的核酸分子。例如，分离的核酸分子可包含小于约250kb、200kb、150kb、100kb、75kb、50kb、25kb、10kb、5kb、4kb、3kb、2kb、1kb、0.5kb或0.1kb的核苷酸，所述核苷酸侧翼连接作为所述核酸分子来源的细胞基因组DNA中的核酸分子。

所述核酸分子可被融合至其它编码或调控序列并且仍然被认为是分离的。因此，载体中包含的重组DNA包括在本文中使用的“分离的”的定义内。此外，分离的核酸分子包括异源宿主细胞或异源生物中的重组DNA分子，以及溶液中部分或基本上纯化的DNA分子。“分离的”核酸分子还包括本发明的DNA分子的体内和体外RNA转录物。分离的核酸分子或核苷酸序列可包括通过化学或通过重组方法合成的核酸分子或核苷酸序列。此类分离的核苷酸序列用于例如经编码的多肽的制造，用作分离同源序列(例如，从其它哺乳动物物种)的探针，用于基因定位(例如，通过与染色体原位杂交)或用于检测组织(例如，人组织)中基因的表达(例如通过Northern印迹分析或其它杂交技术)。

本发明还涉及在高严格度杂交条件下与本文中描述的核苷酸序列杂交(例如用于选择性杂交)的核酸分子(例如，与包含与本文中描述的标志或单倍型关联的多态型位点的核苷酸序列特异性杂交的核酸分子)。此类核酸分子可通过等位基因-或序列-特异性杂交(例如，在高严格度条件下)检测和/或分离。用于核酸分离的严格条件和方法是本领域技术人员熟知的(参见，例如，Current Protocols in Molecular Biology，Ausubel，F.等人，John Wiley & Sons，(1998)和Kraus，M.and Aaronson，S.，Methods Enzymol.，200：546-556(1991)，其全部教导通过此引用合并入本文。

可通过就最佳比较目的比对序列(例如，可在第一序列的序列中引入缺口)来测定两个核苷酸或氨基酸序列的百分数同一性。然后比较相应位置上的核苷酸或氨基酸，并且两个序列之间的百分数同一性是由序列共有的相同位置的数目的函数(即，同一性％＝相同位置的#/总位置#x 100)。在某些实施方案中，就比较目的比对的序列的长度是参照序列的长度的至少30％、至少40％、至少50％、至少60％、至少70％、至少80％、至少90％或至少95％。可通过熟知的方法，例如，使用数学算法实现两个序列的实际比较。这样的数学算法的非限定性实例描述于Karlin，S.和Altschul，S.，Proc.Natl.Acad.Sci.USA，90：5873-5877(1993)中。将这样的算法合并入NBLAST和XBLAST程序(版本2.0)中，如Altschul，S.等人，Nucleic Acids Res.，25：3389-3402(1997)中所描述的。当使用BLAST和Gapped BLAST程序时，可使用各自程序(例如，NBLAST)的缺省参数。参见ncbi.nlm.nih.gov上的万维网上的网站。在一个实施方案中，可将用于序列比较的参数设置在评分＝100、字长＝12，或可变化(例如，W＝5或W＝20)。算法的另一个实例是BLAT(Kent，W.J.Genome Res.12：656-64(2002))。

其它实例包括Myers和Miller，CABIOS(1989)的算法，于Torellis，A.和Robotti，C.，Comput.Appl.Biosci.10：3-5(1994)中描述的ADVANCE和ADAM以及于Pearson，W.和Lipman，D.，Proc.Natl.Acad.Sci.USA，85：2444-48(1988)中描述的FASTA。

在另一个实施方案中，可使用GCG软件包(Accelrys，Cambridge，UK)中的GAP程序获得两个氨基酸序列之间的百分数同一性。

本发明还提供了包含在高度严格条件下与核酸杂交的片段或部分的分离的核酸分子，所述核酸是包含或由包含本文中描述的LD区段C09、LD区段C10A、LD区段10B、LD区段C11A、LD区段C11B、LD区段C14、LD区段C18、LD区段C22A和LD区段C22B的全部或一部分的核苷酸组成的核酸；或包含本文中表4中所列的多态型标志(SEQ ID NO：1-562)中的至少一个标志的核酸；或PAX5、TUB、SERPINH1、RAD51L1、FHOD3和TNRC6B的任意一个的核苷酸序列；或核苷酸序列，其包含或由包含本文中定义的LD区段C09、LD区段C10A、LD区段10B、LD区段C11A、LD区段C11B、LD区段C14、LD区段C18、LD区段C22A和LD区段C22B的全部或一部分的核苷酸序列的互补序列组成；或包含本文中表4中所列的多态型标志(SEQ ID NO：1-562)中的至少一个标志的核酸；或PAX5、TUB、SERPINH1、RAD51L1、FHOD3和TNRC6B基因的任一个的核苷酸序列。

本发明的核酸片段为至少大约15个，至少大约18、20、23或25个核苷酸，并且在长度上可以是30、40、50、100、200、500、1000、10,000或更多个核苷酸。

将本发明的核酸片段在测定例如本文中描述的测定中用作探针或引物。“探针”或“引物”是以碱基特异性方式与核酸分子的互补链杂交的寡核苷酸。除了DNA和RNA外，此类探针和引物包括多肽核酸(PNA)，如Nielsen，P.等人，Science 254：1497-1500(1991)中所描述的。探针或引物包含与核酸分子的至少约15个，通常约20-25个以及在某些实施方案中约40、50或75个连续核苷酸杂交的核酸序列的区域。在一个实施方案中，探针或引物包含本文中描述的至少一个多态型标志的至少一个等位基因或至少一个单倍型，或其互补序列。在特定实施方案中，探针或引物可包含100个或更少的核苷酸；例如，在某些实施方案中6至50个核苷酸，例如12至30个核苷酸。在其它实施方案中，探针或引物与连续核苷酸序列或与所述连续核苷酸序列的互补序列至少70％同一，至少80％同一，至少85％同一，至少90％同一或至少95％同一。在另一个实施方案中，探针或引物能够与连续核苷酸序列或与所述连续核苷酸序列的互补序列选择性杂交。通常，探针或引物还包含标记物，例如放射性同位素、荧光标记物、酶标记物、酶辅因子标记物、磁标记物、自旋标记物、表位标记物。

可使用本领域技术人员熟知的标准分子生物学技术鉴定和分离本发明的核酸分子例如上述核酸分子。可标记(例如，放射性标记)扩增的DNA并且将其用作筛选来源于人细胞的cDNA文库的探针。cDNA可来源于mRNA并包含在适当的载体中。可分离相应的克隆，在体内切除后获得的DNA，并且可通过本领域公认的鉴定编码适当分子量的多肽的正确阅读框架的方法在任一或两个方向上测定克隆的插入物的序列。通过使用此类或相似的方法，可分离多肽和编码所述多肽的DNA，测序并进一步表征。

抗体

本发明还提供了结合包含由变异等位基因编码的变异氨基酸序列(例如，包含氨基酸置换)的表位或由相应的非变异或野生型等位基因编码的参照氨基酸序列的抗体。本文中使用的术语“抗体”意指免疫球蛋白分子和免疫球蛋白分子的免疫活性部分，即，包含特异性结合抗原的抗原结合部位的分子。特异性结合本发明的多肽的分子是结合该多肽或其片段但基本上不结合样品例如生物样品(所述样品天然包含多肽)中的其它分子的分子。免疫球蛋白分子的免疫活性部分的实例包括F(ab)和F(ab′)₂片段，其可通过用酶例如胃蛋白酶处理抗体来产生。本发明提供了结合本发明的多肽的多克隆和单克隆抗体。本文中使用的术语“单克隆抗体”或“单克隆抗体组合物”意指只包含一种能够与本发明的多肽的特定表位免疫反应的抗原结合部位的抗体分子的群体。因此单克隆抗体组合物通常展示对于与其免疫反应的本发明的特定多肽的单一结合亲和力。

可如上所述通过用期望的免疫原例如本发明的多肽或其片段免疫适当的受试者来制备多克隆抗体。可在一段时间内利用标准方法，例如使用固定多肽的酶联免疫吸附测定(ELISA)来监控已免疫的受试者中的抗体滴度。需要时，可从哺乳动物(例如，从血液)分离针对多肽的抗体分子，然后通过熟知的技术例如A蛋白层析进行纯化以获得IgG级分。在免疫后适当的时间，例如，当抗体滴度最高时，可从受试者获得抗体产生性细胞，并且利用标准技术将其用于制备单克隆抗体，所述标准技术是例如最初由Kohler和Milstein，Nature 256：495-497(1975)描述的杂交瘤技术、人B细胞杂交瘤技术(Kozbor等人，Immunol.Today4：72(1983))、EBV-细胞杂交瘤技术(Cole等人，Monoclonal Antibodiesand Cancer Therapy，Alan R.Liss，1985，Inc.，pp.77-96)或三源杂交瘤技术。用于产生杂交瘤的技术是熟知的(通常参见CurrentProtocols in Immunology(1994)Coligan等人，(eds.)John Wiley &Sons，Inc.，New York，NY)。简而言之，将永生化细胞系(通常骨髓瘤)融合至来自上述用免疫原免疫的哺乳动物的淋巴细胞(通常脾细胞)，然后筛选所得杂交瘤细胞的培养上清液以鉴定产生结合本发明的多肽的单克隆抗体的杂交瘤。

可将用于融合淋巴细胞和永生化细胞系的许多熟知的方案的任一方案用于产生针对本发明的多肽的单克隆抗体的目的(参见，例如，CurrentProtocols in Immunology，同上；Galfre等人，Nature 266：55052(1977)；R.H.Kenneth，in Monoclonal Antibodies：A New Dimension InBiological Analyses，Plenum Publishing Corp.，New York，New York(1980)；和Lerner，Yale J.Biol.Med.54：387-402(1981))。此外，本领域技术人员将理解此类方法的许多变型也是有用的。

作为制备单克隆抗体分泌性杂交瘤的替代方法，可通过用多肽筛选重组组合免疫球蛋白文库(例如，抗体噬菌体展示文库)从而分离结合所述多肽的免疫球蛋白文库成员来鉴定和分离针对本发明的多肽的单克隆抗体。用于产生和筛选噬菌体展示文库的试剂盒是商购可得的(例如，the Pharmacia Recombinant Phage Antibody System，Catalog No.27-9400-01；和Stratagene SurfZAP^TM Phage Display试剂盒，CatalogNo.240612)。此外，特别易于用于产生和筛选抗体展示文库的方法和试剂的实例可见于例如美国专利5,223,409；PCT公开案O 92/18619；PCT公开案WO 91/17271；PCT公开案WO 92/20791；PCT公开案WO 92/15679；PCT公开案WO 93/01288；PCT公开案WO 92/01047；PCT公开案WO 92/09690；PCT公开案WO 90/02809；Fuchs等人，Bio/Technology 9：1370-1372(1991)；Hay等人，Hum.Antibod.Hybridomas3：81-85(1992)；Huse等人，Science 246：1275-1281(1989)和Griffiths等人，EMBO J.12：725-734(1993)中。

此外，重组抗体例如包含人和非人部分的嵌合和人源化单克隆抗体(其可使用标准重组DNA技术制备)在本发明的范围内。可通过本领域内已知的重组DNA技术产生此类嵌合和人源化单克隆抗体。

一般地，可将本发明的抗体(例如，单克隆抗体)用于利用标准技术例如亲和层析或免疫沉淀分离本发明的多肽(例如，由PAX5、TUB、SERPINH1、RAD51L1、FHOD3和TNRC6B中的任意一个编码的多肽)。多肽特异性抗体可帮助纯化来自细胞的天然多肽和在宿主细胞中表达的重组产生的多肽。此外，特异于本发明的多肽的抗体可用于检测所述多肽(例如，在细胞裂解物、细胞上清液或组织样品中)以评估多肽的丰度和表达模式。可在诊断上使用抗体监控组织中蛋白质的水平(作为临床检测方法的一部分)例如以例如测定给定的治疗方案的功效。还可将抗体与可检测物质偶联以帮助其检测。可检测物质的实例包括各种酶、辅基、荧光材料、发光材料、生物发光材料和放射性材料。适当的酶的实例包括辣根过氧化物酶、碱性磷酸酶、β-半乳糖苷酶或乙酰胆碱酯酶；适当的辅基复合物的实例包括链霉抗生物素蛋白/生物素和抗生物素蛋白/生物素；适当的荧光材料的实例包括伞形酮、荧光素、异硫氰酸荧光素、罗丹明、二氯三嗪胺(dichlorotriazinylamine)荧光素、丹磺酰氯或藻红蛋白；发光材料的实例包括鲁米诺；生物发光材料的实例包括荧光素酶、萤光素和水母荧光素以及适当的放射性材料的实例包括¹²⁵I、¹³¹I、³⁵S或³H。

抗体还可用于药物基因组学分析。在此类实施方案中，抗体由根据本发明的核酸编码的变异蛋白例如由包含至少一个本发明的多态型标志的核酸编码的变异蛋白的抗体，可用于鉴定需要改进的治疗模式的个体。

抗体还可用于评估疾病状态中例如疾病的活动期中或具有对与变异蛋白的功能相关的疾病(特别是乳腺癌)的易感性的个体中所述变异蛋白的表达。特异于本发明的变异蛋白(其由包含至少一个本文中描述的多态型标志或单倍型的核酸编码)的抗体可用于筛查变异蛋白的存在，例如以筛查对乳腺癌的易感性，如由所述变异蛋白的存在所表明的。

抗体可用于其它方法。因此，抗体用作与利用电泳迁移率、等电点、胰蛋白酶或其它蛋白酶降解的分析结合用于评估蛋白质(例如本发明的变异蛋白)或用于本领域技术人员已知的其它物理测定的诊断工具。抗体还可用于组织分型。在一个这样的实施方案中，已将特定变异蛋白与特定组织类型中的表达发生关联，因此可将特异于变异蛋白的抗体用于鉴定特定组织类型。

还可使用抗体确定蛋白质包括变异蛋白的亚细胞定位，所述蛋白质的亚细胞定位还可用于评估蛋白质在不同组织的细胞中的异常亚细胞定位。此类用途可用于基因测定，而且还可用于监控特定治疗模式。在其中治疗的目的在于矫正变异蛋白的表达水平或存在或变异蛋白的异常组织分布或发育表达的情况下，特异于变异蛋白或其片段的抗体可用于监控治疗功效。

抗体还用于例如通过阻断变异蛋白对结合分子或伴侣的结合来抑制变异蛋白的功能。此类用途还可用于其中治疗包括抑制变异蛋白的功能的治疗背景。还可将抗体例如用于阻断或竞争性抑制结合，从而调控(激动或拮抗)蛋白质的活性。可制备抗包含进行特定功能所需的位点的特定蛋白质片段或抗与细胞或细胞膜结合的完整蛋白质的抗体。为了进行体内施用，可将抗体与另外的治疗有效载荷(therapeutic payload)例如放射性核素、酶、免疫原性表位或细胞毒性剂(包括细菌毒素(白喉或植物毒素，例如蓖麻蛋白))连接。可通过缀合至聚乙二醇的PEG化来增加抗体或其片段的体内半衰期。

本发明还涉及在本文中描述的方法中使用抗体的试剂盒。这包括但不限于用于检测变异蛋白在测试样品中的存在的试剂盒。一个优选实施方案包括抗体例如标记的或可标记的抗体和用于检测生物样品中的变异蛋白的化合物或试剂，用于测定样品中变异蛋白的量或存在和/或不存在的方法以及用于将样品中变异蛋白的量与标准相比较的方法，以及试剂盒使用说明书。

本发明现通过下列非限定性实施例来举例说明。

实施例

与患乳腺癌的风险关联的9个染色体位置上的变体的鉴定

为了广泛地搜寻与乳腺癌易感性相关的常见SNP的等位基因，我们使用Illumina HumanHap300微阵列技术进行全基因组SNP关联研究。对大约1835冰岛人乳腺癌患者和30,320个对照进行基因分型。在除去未能通过质量控制检查的SNP后，剩下311,524个SNP，并且就与乳腺癌的关联性将其进行测试。使用基因组控制的方法[Devlin和Roeder，(1999)，Biometrics，55，997-1004](参见方法)就个体间的亲缘关系和潜在的人群分层调整结果。利用P值对信号分级。来自基因组的不同位置(最值得注意的是来自染色体9、10(2个区域A和B)、11(2个区域A和B)、14、18和22(2个区域A和B))的一组SNP显示最高的分级。包含此类标志的目的区域(称为LD区段)定义于LD区段表中；本文中所有坐标来自NCBI Build 36。此类区域中Illumina SNP的基因分型的结果示于表1中。

为了进一步研究与高分级的9个标志例如rs2005154(C09)、rs2184380(C10A)、rs2224696(C10B)、rs2242503(C11A)、rs12291026(C11B)、rs999737(C14)、rs9956546(C18)、rs11912922(C22A)和rs6001954(C22B)相关的信号，我们产生并且验证了针对此类SNP的Centaurus测定。将SNP测定用于对大约450个冰岛人乳腺癌患者和5000多个对照的另外的样品进行基因分型。冰岛人乳腺癌患者(2280)和对照(35650)的Illumina测定和Centaurus测定的组合数据示于表2中。所有SNP在组合的冰岛人队例中显示与乳腺癌的显著关联性，从而确认具有表1中的结果的原始观察。

方法

患者和对照的选择：

在获得知情同意和根据赫尔辛基宣言的伦理审查委员会批准的情况下进行血液样品和医疗资料的收集。

冰岛：从Icelandic Cancer Registry(ICR)获得所有乳腺癌诊断的记录。ICR包括1955年1月1日以来在冰岛诊断的浸润性乳腺肿瘤和导管或小叶原位癌的所有病例。生活在冰岛的在2006年12月底之前诊断进入ICR的所有现患病例都有资格参加研究。ICR包括4785个在该时期被诊断的个体的记录。从大约2280个患者获得了知情同意、样品和成功的基因型。其中，基因型来源于针对1835个患者的Illumina Hap300芯片和来源于针对445个患者的Centaurus测定。大约35500个冰岛人对照由选自在deCODE genetics正在进行基于Illumina的全基因组关联研究的个体。排除ICR中具有乳腺癌诊断的个体。包括男性和女性。在冰岛人对照(和下文中描述的外来重复对照组)中，表6中所列的SNP的频率在性别之间没有显著差异。因此我们认为此类对照组提供了正在研究的SNP的群体频率的合理代表。

西班牙：西班牙研究患者是在2006年3月至2007年8月从Zaragoza医院的肿瘤科招募的。满意地对大约825个患者进行了基因分型。成功地基因分型的对照(大约1730个)已就除了癌症外的疾病加入Zaragoza的大学医院。询问对照以在抽取血液样品之前排除先前的癌症病例。所有患者和对照都是欧洲人种族。

瑞典：瑞典人样品组由家族性和连贯患者(Consecutive patient)系列组成。家族性乳腺癌招募组由347个已就乳腺癌家族史的调查被提交至Karolinska大学医院的肿瘤形成咨询门诊的乳腺癌患者组成。每一个患者来自不同的家族。满足BRCA突变筛查的目前标准的所有病例已测试为阴性。连贯乳腺癌招募组由482个在1998年10月至2000年5月于Huddinge and医院的肿瘤科就原发浸润性乳腺癌进行手术治疗的连续招募的患者(覆盖南Stockholm的群体)组成。在患者的招募选择中未考虑家族史。对照是两性的1302个血液供体和448个无癌个体。所有对照收集于Stockholm的Karolinska大学医院。对于任何测试的SNP家族性和连贯性系列之间不存在显著异质性的证据。

荷兰：在2005至2006年期间经诊断患有乳腺癌的女性患者选自由Comprehensive Cancer Centre East in Nijmegen，the Netherlands掌控的地区癌症登记。该癌症中性保留着基于群体的癌症登记并且覆盖荷兰的东部，具有一百三十万居民的地区。70岁以前经诊断患有乳腺癌的所有患者被邀请参加研究。Comprehensive Cancer Centre East收集关于癌症登记中的所有患者的临床和病理数据。通过其中患者接受治疗的医院的医学档案提取，给这些标准癌症登记数据补充更详细的数据。由Radboud University Nijmegen Medical Center于2002年至2003年在调查中收集对照。该调查，Nijmegen生物医学研究，基于Nijmegen的人群的年龄分层的随机样品。从该组2034个对照个体中按频率选择年龄与患者群体匹配的个体并且进行基因分型。

CGEMS(癌症遗传标志的敏感性)：是美国国家癌症研究所的项目，其已将数据公布至关于基于1145个患者和1142个对照(所述患者和对照已使用Illumina平台针对大约530,000个SNP进行了基因分型)的乳腺癌易感性的全基因组SNP关联研究的公共服务器。这些数据可在：https://caintegrator.nci.nih.gov/cgems/上获得。

基因分型

如之前所描述的[Stacey，等人，(2007)，Nat Genet 39：865-9]在Illumina Hap300 SNP阵列上对大约1840个冰岛人患者和3020个对照进行基因分型。结果示于表1中。使用针对表2和3中显示的SNP产生的Nanongen Centaurus测定[Kutyavin，等人，(2006)，Nucleic AcidsRes，34，e128]进行所有其它基因分型。通过对HapMap CEU样品进行基因分型并且将所述基因型与公开的数据相比较验证了Centaurus SNP测定。如果它们显示≥1.5％的与HapMap数据的错配，则抛弃测定。在Illumina和Nanogen平台上对大约10％的冰岛人病例样品进行基因分型并且观察到的错配率低于0.5％。在deCODE genetics facility进行所有基因分型。按照NCBI Build 36提供所有物理坐标。

Illumina基因分型

按照制造商的说明书在Illumina Infinium HumanHap300 SNP珠粒阵列(Illumina，San Diego，CA，USA)(其包含来源于国际HapMap项目的I期的317,503个SNP)上对DNA样品进行基因分型。针对r²≥0.8的常见SNP，该芯片覆盖了大约75％的Utah CEPH(CEU)HapMap样品的基因组[Barrett和Cardon，(2006)，Nat Genet，38，659-62]。在芯片上SNP的总数中，5979个被认为是不适当的，因为它们是单型的(即，组合的患者和对照组中较小的等位基因频率小于0.001)或具有低(＜95％)产率或显示与对照中的哈迪-温伯格平衡非常显著的偏离(P＜1x10^-10)。从分析中除去所有此类有问题的SNP。因此311,524个SNP被用于关联分析。也从全基因组关联分析除去具有低于98％的SNP的总体检出率的任何芯片。

Centaurus SNP基因分型

针对所有9个变体：例如rs2005154、rs2184380、rs2224696、rs2242503、rs12291026、rs999737、rs9956546、rs11912922和rs6001954设计Centaurus测定[Kutyavin，等人，(2006)，Nucleic AcidsRes，34，e128]并且通过对HapMap CEU样品进行基因分型，然后将基因型与公布的数据相比较来验证该测定。测定产生小于1.5％的与HapMap数据的错匹。表2显示此类SNP的序列背景的序列标识号参考例如Seq ID No 1、Seq ID No 2、Seq ID No 3、Seq ID No 4、Seq ID No5、Seq ID No 6、Seq ID No 7、Seq ID No 8和Seq ID No 9。

统计方法

我们采用乘法模型(即假定个人携带的两个等位基因的相对风险度相乘)计算SNP等位基因的比值比(OR)。提供标志等位基因频率而非携带者频率。使用在NEMO软件包[Gretarsdottir，等人，(2003)，NatGenet，35，131-8]中执行的标准似然比卡方统计计算相关的P值。假定OR的值计具有对数正态分面，计算置信区间。

在组内和组间，一些冰岛患者和对照是相关的，这使得卡方检验统计具有大于1的平均值和大于0.675²的中位值。我们使用基因组控制的方法，通过计算针对全基因组SNP组的观察到的卡方统计量的平均值(其解释了亲缘关系和可能的人群分层)来评估冰岛1的膨胀因子[Devlin和Roeder，(1999)，Biometrics，55，997-1004]。对于未利用全基因组标志组分型的冰岛2，通过利用冰岛人系谱模拟基因型评估膨胀因子[Grant，等人，(2006)，Nat Genet，38，320-3]。评估的膨胀因子为1.105(对于冰岛1)和1.11(对于冰岛2)。针对冰岛1和冰岛2样品组的联合分析的评估的膨胀因子为1.08(通过模拟获得的)。

所有P值报告为双侧的。

表1：来自Illumina Infinium HumanHap300芯片的发现与冰岛人病例和对照样品的乳腺癌关联的SNP。该表显示SNP的rs名称、与乳腺癌的关联性的P值、关联风险度、患者和对照中关联等位基因的数目和频率、有风险的等位基因的本体、染色体和染色体上关联标志的位置(NCBIBuild36)和显示SNP的侧翼序列的序列标识符的参考。等位基因代码组是：1＝A；2＝C；3＝G；4＝T。

表2：来源于Illumina Infinium HumanHap300芯片的发现与冰岛人病例和对照样品的乳腺癌关联并且发现在几个高加索人队列中重复的锚定SNP。表中显示的冰岛人数据来自使用组合的Illumina和Centaurus测定进行的数据分析。

表3：显示个体和组合的高加索人队列的针对染色体9、10、11、14、18和22上的9个变体与乳腺癌的关联性。

表4：9个锚定SNP的替代标志。在1Mb的侧翼连接标志的间隔中，选择在HapMap CEU数据集(http://www.hapmap.org)中具有大于0.2的相对于锚定标志的R²的值的标志。显示了相关SNP的名称、针对该标志的R²和D′的值和相应的P值以及替代标志在NCBI Build 36中的位置和包含该标志的侧翼序列的序列标识符的参考。

锚定标志

替代标志

D′

R²

P值

染色体

Build 36的位置

Seq ID NO：

rs2005154

1

-

C09

36，846，828

1

rs2005154

rs4878662

1

1.07E-16

C09

36，851，331

174

rs2005154

rs4880019

1

0.900826

3.20E-15

C09

36，853，450

175

rs2184380

1

-

C10

8，754，080

2

rs2184380

rs10466295

1

1.53E-28

C10

8，747，556

176

rs2184380

rs10508363

1

1.53E-28

C10

8，736，508

177

rs2184380

rs10508364

0.948936

0.856732

1.01E-22

C10

8，808，518

178

rs2184380

rs10508365

0.948936

0.856732

1.01E-22

C10

8，808，985

179

rs2184380

rs10795670

1

0.209877

4.71E-09

C10

8，765，045

180

rs2184380

rs10905411

0.874714

0.387964

3.45E-11

C10

8，678，685

181

rs2184380

rs10905414

0.870352

0.356105

3.50E-10

C10

8，680，134

182

rs2184380

rs10905415

0.91879

0.237472

4.68E-08

C10

8，680，223

183

rs2184380

rs10905430

0.844581

0.2373

1.96E-07

C10

8，704，489

184

rs2184380

rs10905437

1

0.304695

1.26E-11

C10

8，735，801

185

rs2184380

rs10905439

0.947367

0.897401

6.59E-23

C10

8，753，333

186

rs2184380

rs10905440

1

0.951417

1.10E-26

C10

8，755，150

187

rs2184380

rs10905443

1

1.53E-28

C10

8，757，369

188

rs2184380

rs10905444

1

1.53E-28

C10

8，757，533

189

rs2184380

rs10905445

1

1.53E-28

C10

8，758，377

190

rs2184380

rs10905446

1

1.53E-28

C10

8，758，390

191

rs2184380

rs10905447

1

1.53E-28

C10

8，758，955

192

锚定标志

替代标志

D′

R²

P值

染色体

Build 36的位置

Seq ID NO：

rs2184380

rs10905454

0.895085

0.796777

4.82E-19

C10

8，807，933

193

rs2184380

rs11255764

0.885251

0.566844

9.13E-15

C10

8，676，745

194

rs2184380

rs11255776

0.844286

0.245302

2.21E-07

C10

8，701，838

195

rs2184380

rs11255777

0.847467

0.247154

1.12E-07

C10

8，702，017

196

rs2184380

rs11255778

0.848675

0.247226

9.24E-08

C10

8，703，356

197

rs2184380

rs11255779

0.840039

0.241626

3.17E-07

C10

8，703，789

198

rs2184380

rs11255790

0.937236

0.429299

1.11E-12

C10

8，722，186

199

rs2184380

rs11255795

1

1.93E-28

C10

8，731，572

200

rs2184380

rs11255797

1

1.53E-28

C10

8，737，159

201

rs2184380

rs11255800

1

3.91E-27

C10

8，742，581

202

rs2184380

rs11255804

0.94445

0.792459

3.17E-19

C10

8，747，207

203

rs2184380

rs11255805

1

1.53E-28

C10

8，747，459

204

rs2184380

rs11255820

1

1.53E-28

C10

8，759，525

205

rs2184380

rs11255821

1

9.41E-28

C10

8，759，540

206

rs2184380

rs11255822

1

2.45E-28

C10

8，759，613

207

rs2184380

rs11255832

1

0.949367

2.82E-26

C10

8，770，466

208

rs2184380

rs11255836

1

1.53E-28

C10

8，773，212

209

rs2184380

rs11255840

1

0.95

4.16E-26

C10

8，779，199

210

rs2184380

rs11255858

0.948936

0.856732

1.01E-22

C10

8，790，639

211

rs2184380

rs11255862

0.948936

0.856732

1.01E-22

C10

8，793，888

212

rs2184380

rs11255869

0.948925

0.855817

1.27E-22

C10

8，801，802

213

rs2184380

rs11255870

0.948936

0.856732

1.01E-22

C10

8，803，268

214

rs2184380

rs11255871

0.948936

0.856732

1.01E-22

C10

8，803，763

215

rs2184380

rs11255882

0.884394

0.542127

3.04E-14

C10

8，810，853

216

rs2184380

rs11255884

0.933202

0.665922

4.29E-14

C10

8，811，968

217

rs2184380

rs12049705

0.885669

0.565013

5.63E-15

C10

8，679，446

218

rs2184380

rs12218610

0.856757

0.38242

1.22E-09

C10

8，706，615

219

rs2184380

rs12250379

0.926804

0.305824

1.61E-09

C10

8，802，201

26

rs2184380

rs12259226

0.946719

0.85359

2.31E-21

C10

8，806，948

220

rs2184380

rs1325874

1

1.53E-28

C10

8，740，707

221

rs2184380

rs1334549

1

1.53E-28

C10

8，744，989

29

rs2184380

rs1334550

1

1.53E-28

C10

8，744，845

222

rs2184380

rs1334559

0.948936

0.856732

1.01E-22

C10

8，796，810

223

rs2184380

rs1360749

1

1.53E-28

C10

8，759，215

224

rs2184380

rs1413678

0.924198

0.284149

5.54E-09

C10

8，794，683

225

rs2184380

rs1413683

0.944299

0.850224

5.27E-20

C10

8，804，953

226

rs2184380

rs1537601

0.949468

0.901005

7.18E-24

C10

8，785，004

227

rs2184380

rs1537602

0.949474

0.9015

5.73E-24

C10

8，784，898

228

rs2184380

rs1537603

1

0.201238

7.61E-09

C10

8，774，301

31

rs2184380

rs17407711

1

1.53E-28

C10

8，769，001

229

rs2184380

rs17407781

1

1.93E-28

C10

8，773，088

230

rs2184380

rs17407830

0.943872

0.805805

5.02E-20

C10

8，775，487

231

rs2184380

rs17408204

0.948913

0.854883

1.59E-22

C10

8，790，006

232

rs2184380

rs17408337

0.948936

0.856732

1.01E-22

C10

8，791，931

233

rs2184380

rs17408580

0.946832

0.854684

4.55E-22

C10

8，794，975

234

rs2184380

rs17484150

0.874978

0.400207

3.72E-11

C10

8，707，041

235

rs2184380

rs17485426

1

1.53E-28

C10

8，743，013

236

rs2184380

rs17485998

1

1.53E-28

C10

8，759，878

237

锚定标志

替代标志

D′

R²

P值

染色体

Build 36的位置

Seq ID NO：

rs2184380

rs17486082

1

1.53E-28

C10

8，767，474

238

rs2184380

rs17486795

0.948936

0.856732

1.01E-22

C10

8，792，167

239

rs2184380

rs17486816

0.948936

0.856732

1.01E-22

C10

8，792，191

240

rs2184380

rs1970170

0.949389

0.899443

2.68E-23

C10

8，785，426

241

rs2184380

rs1999638

1

0.95

4.16E-26

C10

8，783，743

242

rs2184380

rs2031561

0.874358

0.384902

4.27E-11

C10

8，683，505

243

rs2184380

rs2182292

0.872839

0.372331

7.65E-11

C10

8，683，484

244

rs2184380

rs2388821

1

0.318315

4.75E-12

C10

8，736，687

245

rs2184380

rs2388825

1

1.53E-28

C10

8，756，643

246

rs2184380

rs2388826

0.946678

0.850726

4.53E-21

C10

8，805，023

247

rs2184380

rs2892613

1

1.53E-28

C10

8，756，702

248

rs2184380

rs4112287

0.948936

0.856732

1.01E-22

C10

8，791，551

249

rs2184380

rs4112288

0.948936

0.856732

1.01E-22

C10

8，791，525

250

rs2184380

rs4345867

1

0.283927

4.34E-11

C10

8，736，698

251

rs2184380

rs4454616

0.911606

0.211521

4.36E-07

C10

8，705，153

33

rs2184380

rs4747806

0.870907

0.357423

1.65E-10

C10

8，678，241

35

rs2184380

rs4749805

1

7.43E-28

C10

8，751，692

252

rs2184380

rs4749807

1

1.53E-28

C10

8，751，763

253

rs2184380

rs4749812

1

0.201238

7.61E-09

C10

8，777，570

254

rs2184380

rs6602328

0.8255

0.21783

3.95E-06

C10

8，700，007

255

rs2184380

rs6602329

0.843632

0.234214

2.42E-07

C10

8，700，101

36

rs2184380

rs7069110

1

0.318315

4.75E-12

C10

8，735，184

256

rs2184380

rs7080765

0.922785

0.313611

2.97E-09

C10

8，797，824

257

rs2184380

rs7083359

0.937236

0.429299

1.11E-12

C10

8，722，685

39

rs2184380

rs7477023

1

1.53E-28

C10

8，753，932

258

rs2184380

rs7904921

0.948936

0.856732

1.01E-22

C10

8，792，331

259

rs2184380

rs7912413

1

2.03E-24

C10

8，762，126

260

rs2184380

rs7912704

1

0.201238

7.61E-09

C10

8，771，181

261

rs2184380

rs7912831

1

0.201238

7.61E-09

C10

8，771，261

262

rs2184380

rs827389

1

0.417761

1.41E-13

C10

8，740，261

263

rs2184380

rs9665623

0.948936

0.856732

1.01E-22

C10

8，797，122

264

rs2224696

1

-

C10

9，168，781

3

rs2224696

rs10905509

1

0.461682

4.95E-12

C10

9，160，368

265

rs2224696

rs11256045

0.807004

0.329629

6.26E-08

C10

9，157，239

266

rs2224696

rs12761213

0.88785

0.589831

1.21E-10

C10

9，106，345

267

rs2224696

rs12761461

0.906382

0.751312

1.87E-13

C10

9，158，901

268

rs2224696

rs12766048

1

0.66736

4.52E-12

C10

9，133，679

52

rs2224696

rs12772042

1

0.919893

4.43E-18

C10

9，164，748

269

rs2224696

rs12776383

1

0.727891

1.42E-12

C10

9，227，620

270

rs2224696

rs12778120

0.621966

0.221569

0.000014

C10

9，253，860

271

rs2224696

rs12780218

0.906382

0.751312

1.87E-13

C10

9，159，062

272

rs2224696

rs12781427

1

0.919192

4.98E-18

C10

9，167，711

53

rs2224696

rs1475189

1

0.830628

2.85E-15

C10

9，147，691

273

rs2224696

rs1573109

0.772073

0.519575

1.43E-08

C10

9，141，049

274

rs2224696

rs1573110

0.794588

0.591124

4.06E-10

C10

9，135，501

275

rs2224696

rs17145088

1

0.830628

2.85E-15

C10

9，116，440

276

rs2224696

rs17145095

1

0.830628

2.85E-15

C10

9，116，991

277

rs2224696

rs17145118

1

0.66736

5.30E-12

C10

9，121，203

278

锚定标志

替代标志

D′

R²

P值

染色体

Build 36的位置

Seq ID NO：

rs2224696

rs17145120

1

0.830628

3.46E-15

C10

9，122，007

279

rs2224696

rs17145151

1

0.830628

2.85E-15

C10

9，130，711

280

rs2224696

rs17145164

1

0.830628

2.85E-15

C10

9，146，874

281

rs2224696

rs17145169

1

0.66736

4.90E-12

C10

9，147，141

282

rs2224696

rs17145188

0.621966

0.221569

0.000014

C10

9，148，524

283

rs2224696

rs17145193

0.883003

0.562854

1.15E-09

C10

9，155，959

284

rs2224696

rs17145221

1

0.89916

5.67E-15

C10

9，168，824

285

rs2224696

rs17363338

0.906382

0.751312

1.87E-13

C10

9，161，882

286

rs2224696

rs1775559

0.820762

0.495886

1.94E-10

C10

9，115，547

287

rs2224696

rs1857230

1

0.270147

1.73E-08

C10

9，127，246

288

rs2224696

rs1891532

1

0.209856

7.58E-08

C10

9，120，032

289

rs2224696

rs1935813

1

0.830628

2.85E-15

C10

9，118，559

290

rs2224696

rs2013364

1

1.16E-19

C10

9，168，159

291

rs2224696

rs2025289

0.906382

0.751312

1.87E-13

C10

9，161，060

292

rs2224696

rs2057442

1

0.242991

1.64E-08

C10

9，129，940

293

rs2224696

rs2093625

1

0.310553

1.63E-08

C10

9，126，798

294

rs2224696

rs2093626

1

0.252336

1.09E-08

C10

9，126，888

295

rs2224696

rs2146598

1

0.66736

4.52E-12

C10

9，118，227

296

rs2224696

rs2185817

0.796105

0.599318

1.59E-08

C10

9，140，970

297

rs2224696

rs2397336

1

0.267074

2.33E-08

C10

9，147，920

298

rs2224696

rs2760204

1

0.242991

1.64E-08

C10

9，139，981

299

rs2224696

rs2797266

1

0.242991

1.64E-08

C10

9，129，166

59

rs2224696

rs391733

0.780788

0.203685

0.00001

C10

9，191，976

300

rs2224696

rs4550140

1

0.25

1.23E-08

C10

9，145，853

301

rs2224696

rs7081544

1

0.830628

2.85E-15

C10

9，144，695

302

rs2224696

rs852273

1

0.276161

4.18E-09

C10

9，133，645

303

rs2224696

rs860418

1

0.245283

5.19E-08

C10

9，131，906

304

rs2224696

rs861172

1

0.240684

1.85E-08

C10

9，133，432

305

rs2224696

rs962993

0.885222

0.209643

1.52E-06

C10

9，093，138

67

rs2224696

rs965307

1

0.830628

2.85E-15

C10

9，119，005

306

rs2242503

1

-

C11

8，075，048

4

rs2242503

rs10431029

0.723593

0.468793

4.39E-13

C11

8，133，019

307

rs2242503

rs1055233

0.76309

0.517167

1.34E-14

C11

8，084，071

308

rs2242503

rs10734629

0.720552

0.46649

6.01E-13

C11

8，143，253

309

rs2242503

rs10743052

0.717443

0.464136

8.24E-13

C11

8，131，542

310

rs2242503

rs10743053

0.553357

0.295358

9.02E-09

C11

8，158，239

311

rs2242503

rs10743054

0.553357

0.295358

9.02E-09

C11

8，158，291

312

rs2242503

rs10743055

0.553357

0.295358

9.02E-09

C11

8，158，376

313

rs2242503

rs10769872

0.732431

0.432469

1.14E-11

C11

8，110，090

314

rs2242503

rs10769873

0.734884

0.322358

2.52E-09

C11

8，114，186

315

rs2242503

rs10769878

0.717939

0.348534

1.89E-08

C11

8，143，862

316

rs2242503

rs10769882

0.5497

0.229219

5.61E-06

C11

8，154，849

317

rs2242503

rs10839976

0.724865

0.308568

1.44E-08

C11

8，116，468

318

rs2242503

rs10839984

0.734884

0.322358

2.52E-09

C11

8，137，470

68

rs2242503

rs11041740

0.941774

0.461102

4.78E-14

C11

8，074，094

319

rs2242503

rs11041742

0.734884

0.322358

2.52E-09

C11

8，083，499

320

rs2242503

rs11041788

0.539249

0.212989

0.000025

C11

8，164，924

321

rs2242503

rs11041791

0.553934

0.235484

7.51E-07

C11

8，168，818

69

锚定标志

替代标志

D′

R²

P值

染色体

Build 36的位置

Seq ID NO：

rs2242503

rs11041794

0.644371

0.240003

2.20E-06

C11

8，172，242

322

rs2242503

rs1108277

1

0.705954

1.08E-24

C11

8，077，794

323

rs2242503

rs12146654

0.64592

0.38833

1.53E-08

C11

8，152，036

324

rs2242503

rs12808387

0.553357

0.295358

9.02E-09

C11

8，159，414

325

rs2242503

rs1528125

0.553357

0.295358

9.02E-09

C11

8，156，792

326

rs2242503

rs1569128

0.723593

0.468793

4.39E-13

C11

8，089，461

327

rs2242503

rs1970880

0.544244

0.288701

1.80E-08

C11

8，160，092

328

rs2242503

rs1997262

0.522176

0.272668

3.97E-08

C11

8，158，988

329

rs2242503

rs2049684

0.723593

0.468793

4.39E-13

C11

8，127，695

72

rs2242503

rs2141321

0.789386

0.513662

2.21E-14

C11

8，086，752

330

rs2242503

rs2242501

0.737441

0.335833

2.13E-09

C11

8，074，679

331

rs2242503

rs2272383

0.63086

0.397985

3.43E-11

C11

8，080，075

332

rs2242503

rs3750955

0.784744

0.385656

1.72E-10

C11

8，082，818

333

rs2242503

rs3752898

0.900696

0.245488

5.00E-07

C11

8，073，496

334

rs2242503

rs3849986

0.522176

0.272668

3.97E-08

C11

8，159，303

335

rs2242503

rs3849990

0.665217

0.252525

3.28E-07

C11

8，175，019

336

rs2242503

rs3911309

0.554372

0.202829

2.81E-06

C11

8，173，902

337

rs2242503

rs3911310

0.554372

0.202829

2.81E-06

C11

8，174，324

338

rs2242503

rs4340037

0.782801

0.349689

2.40E-10

C11

8，084，734

339

rs2242503

rs4343012

0.734884

0.322358

2.52E-09

C11

8，089，751

340

rs2242503

rs4385931

0.770418

0.551609

6.82E-16

C11

8，066，224

341

rs2242503

rs4575312

0.669287

0.255625

1.73E-07

C11

8，065，299

342

rs2242503

rs4578424

0.642849

0.214843

2.18E-06

C11

8，064，861

75

rs2242503

rs4636658

0.590173

0.221903

1.11E-06

C11

8，178，862

343

rs2242503

rs4758040

0.834104

0.50807

1.52E-15

C11

8，057，749

76

rs2242503

rs4758042

0.717439

0.45831

2.74E-12

C11

8，085，872

344

rs2242503

rs4758287

0.63975

0.255278

1.71E-07

C11

8，056，489

345

rs2242503

rs4758309

0.544875

0.227845

2.57E-06

C11

8，165，306

346

rs2242503

rs4758310

0.553934

0.235484

7.51E-07

C11

8，165，969

347

rs2242503

rs7103334

0.546807

0.278288

2.54E-08

C11

8，157，501

348

rs2242503

rs7112519

0.535211

0.217411

3.18E-06

C11

8，169，345

349

rs2242503

rs7115706

0.544644

0.223928

1.40E-06

C11

8，169，421

350

rs2242503

rs7122690

0.522176

0.272668

3.97E-08

C11

8，159，397

351

rs2242503

rs7127738

0.527011

0.276798

1.88E-07

C11

8，154，963

352

rs2242503

rs7358396

0.71764

0.42377

2.13E-10

C11

8，141，858

353

rs2242503

rs7479156

0.551079

0.289269

1.57E-08

C11

8，157，993

354

rs2242503

rs7479738

0.553357

0.295358

9.02E-09

C11

8，157，931

355

rs2242503

rs7480804

1

0.236507

1.40E-08

C11

8，066，385

356

rs2242503

rs7481667

0.553357

0.295358

9.02E-09

C11

8，157，701

357

rs2242503

rs7481683

0.553357

0.295358

9.02E-09

C11

8，157，762

358

rs2242503

rs7482611

0.693202

0.457371

2.46E-10

C11

8，106，602

359

rs2242503

rs7927368

0.643226

0.370442

1.47E-10

C11

8，152，196

360

rs2242503

rs7940668

0.643226

0.370442

1.47E-10

C11

8，152，710

361

rs12291026

1

-

C11

74，932，878

5

rs12291026

rs1004856

0.795363

0.22224

3.36E-06

C11

74，858，615

362

rs12291026

rs10899091

1

1.43E-20

C11

74，933，440

363

rs12291026

rs11236449

1

0.919893

4.43E-18

C11

74，918，745

364

rs12291026

rs11236452

1

0.919893

4.98E-18

C11

74，927，534

365

锚定标志

替代标志

D′

R²

P值

染色体

Build 36的位置

Seq ID NO：

rs12291026

rs11236454

1

0.906687

6.96E-16

C11

74，932，272

366

rs12291026

rs12362081

1

0.84127

3.43E-16

C11

74，899，292

367

rs12291026

rs1540210

0.800306

0.242864

1.38E-06

C11

74，887，046

78

rs12291026

rs1540211

0.750347

0.450541

1.04E-09

C11

74，887，332

368

rs12291026

rs1557471

0.79757

0.231043

2.21E-06

C11

74，857，322

369

rs12291026

rs1631470

0.799311

0.23844

1.70E-06

C11

74，864，790

370

rs12291026

rs1783551

0.837984

0.701135

2.54E-13

C11

74，908，860

371

rs12291026

rs1783556

0.876315

0.242246

0.000013

C11

74，897，710

372

rs12291026

rs1783559

0.820042

0.540279

1.73E-10

C11

74，894，676

373

rs12291026

rs1790144

0.750347

0.450541

1.04E-09

C11

74，889，549

79

rs12291026

rs1790152

0.79757

0.231043

2.21E-06

C11

74，862，499

374

rs12291026

rs1790307

0.830991

0.514897

7.92E-11

C11

74，898，758

375

rs12291026

rs1793396

0.895234

0.292441

6.02E-08

C11

74，890，048

376

rs12291026

rs1793397

0.750347

0.450541

1.04E-09

C11

74，890，155

377

rs12291026

rs1793398

0.906458

0.369032

1.79E-09

C11

74，893，069

378

rs12291026

rs1793399

0.831094

0.516953

7.12E-11

C11

74，898，153

80

rs12291026

rs1793414

0.792872

0.226475

4.83E-06

C11

74，860，335

379

rs12291026

rs1938800

1

0.748428

2.23E-16

C11

74，933，770

81

rs12291026

rs2853066

0.804722

0.264424

6.22E-07

C11

74，866，805

380

rs12291026

rs499613

0.792872

0.226475

4.83E-06

C11

74，872，133

381

rs12291026

rs504793

0.800306

0.242864

1.38E-06

C11

74，878，212

382

rs12291026

rs514477

0.800306

0.242864

1.38E-06

C11

74，875，650

383

rs12291026

rs549034

0.799814

0.24066

1.53E-06

C11

74，880，782

384

rs12291026

rs550881

0.800306

0.242864

1.38E-06

C11

74，880，612

385

rs12291026

rs581007

0.800306

0.242864

1.38E-06

C11

74，879，594

386

rs12291026

rs589724

0.805181

0.254846

6.34E-07

C11

74，876，829

387

rs12291026

rs600387

1

0.293756

1.11E-09

C11

74，935，675

388

rs12291026

rs606460

0.902797

0.333104

1.27E-08

C11

74，926，105

389

rs12291026

rs617617

1

0.425837

7.51E-12

C11

74，936，378

390

rs12291026

rs618202

0.838016

0.70227

2.28E-13

C11

74，916，133

86

rs12291026

rs628972

0.800306

0.242864

1.38E-06

C11

74，885，999

391

rs12291026

rs640649

0.793071

0.480582

5.31E-09

C11

74，949，499

88

rs12291026

rs662279

1

0.334073

2.08E-10

C11

74，939，444

90

rs12291026

rs667410

0.891296

0.289518

1.94E-07

C11

74，872，345

392

rs12291026

rs667531

0.721513

0.369086

1.84E-07

C11

74，950，364

393

rs12291026

rs670100

0.89343

0.292234

1.02E-07

C11

74，926，922

394

rs12291026

rs670491

0.902797

0.333104

1.27E-08

C11

74，926，833

395

rs12291026

rs682292

0.800306

0.242864

1.38E-06

C11

74，877，949

396

rs12291026

rs7128888

1

1.43E-20

C11

74，931，631

397

rs12291026

rs7129014

1

1.43E-20

C11

74，931，725

398

rs12291026

rs7129150

1

0.921773

7.97E-18

C11

74，931，825

399

rs12291026

rs947844

1

0.84127

3.43E-16

C11

74，906，532

400

rs999737

1

-

C14

68，104，435

6

rs999737

rs10134446

1

0.22

1.39E-09

C14

68，067，388

91

rs999737

rs10138140

0.674626

0.269357

4.17E-08

C14

68，011，742

401

rs999737

rs10146772

0.659865

0.223224

3.27E-07

C14

67，948，122

402

rs999737

rs10467820

0.674626

0.269357

4.17E-08

C14

67，988，769

403

rs999737

rs10483812

1

0.914924

1.84E-27

C14

68，087，596

404

锚定标志

替代标志

D′

R²

P值

染色体

Build 36的位置

Seq ID NO：

rs999737

rs10483813

1

1.04E-30

C14

68，101，037

405

rs999737

rs11158749

1

0.224097

1.07E-09

C14

68，067，049

406

rs999737

rs11158751

1

0.340659

4.73E-13

C14

68，101，178

95

rs999737

rs11621276

1

0.87513

3.15E-26

C14

68，066，219

96

rs999737

rs11624097

0.953506

0.831825

5.44E-24

C14

68，055，789

407

rs999737

rs11624164

0.953471

0.82933

9.30E-24

C14

68，055，910

408

rs999737

rs11624333

0.953506

0.831825

5.44E-24

C14

68，049，588

409

rs999737

rs11628293

1

0.954597

2.00E-28

C14

68，107，073

410

rs999737

rs11846360

0.528484

0.243633

1.31E-06

C14

67，997，698

411

rs999737

rs11847185

0.499138

0.226969

2.79E-06

C14

67，997，747

412

rs999737

rs11849916

0.499138

0.226969

2.79E-06

C14

67，957，791

413

rs999737

rs12878761

0.527934

0.255003

2.88E-07

C14

68，138，118

414

rs999737

rs12879200

0.739817

0.228092

4.95E-07

C14

68，137，863

415

rs999737

rs12886864

0.662607

0.259908

1.17E-07

C14

68，017，871

416

rs999737

rs12889251

1

0.876374

2.38E-26

C14

68，063，893

417

rs999737

rs12894230

0.544425

0.273137

2.77E-07

C14

68，137，669

418

rs999737

rs1468279

0.659722

0.26746

2.08E-07

C14

67，994，846

419

rs999737

rs1468280

1

0.310873

3.99E-12

C14

68，101，613

420

rs999737

rs1547012

0.575976

0.303524

1.93E-08

C14

68，133，183

421

rs999737

rs17105675

0.499138

0.226969

2.79E-06

C14

67，998，259

422

rs999737

rs17755657

0.511149

0.219511

2.63E-06

C14

67，950，390

423

rs999737

rs17755734

0.499138

0.226969

2.79E-06

C14

67，979，708

424

rs999737

rs17755752

0.499138

0.226969

2.79E-06

C14

67，979，904

425

rs999737

rs17755925

1

0.876374

2.38E-26

C14

68，081，699

426

rs999737

rs17756000

1

0.914924

1.84E-27

C14

68，089，291

427

rs999737

rs17828691

0.499138

0.226969

2.79E-06

C14

67，956，346

428

rs999737

rs17828721

0.499138

0.226969

2.79E-06

C14

67，979，791

429

rs999737

rs17828763

0.499138

0.226969

2.79E-06

C14

67，984，862

430

rs999737

rs17828907

1

0.914924

1.84E-27

C14

68，080，958

431

rs999737

rs17828955

1

0.914924

1.84E-27

C14

68，086，398

432

rs999737

rs1956534

0.587868

0.237655

4.20E-07

C14

67，963，825

433

rs999737

rs2074563

0.674626

0.269357

4.17E-08

C14

68，004，865

434

rs999737

rs2074565

0.674626

0.269357

4.17E-08

C14

68，013，900

435

rs999737

rs2097800

0.66475

0.25742

2.25E-07

C14

68，006，440

436

rs999737

rs2107340

0.674626

0.269357

4.17E-08

C14

68，000，418

437

rs999737

rs2145157

0.739817

0.228092

4.95E-07

C14

68，137，391

438

rs999737

rs2158357

1

0.956044

8.64E-29

C14

68，098，956

439

rs999737

rs2189517

1

0.219935

1.39E-09

C14

68，072，741

440

rs999737

rs2253317

0.923817

0.281194

1.03E-08

C14

68，122，156

441

rs999737

rs2257111

0.532356

0.267955

1.67E-07

C14

68，129，446

442

rs999737

rs2257116

0.533815

0.272433

1.21E-07

C14

68，129，544

443

rs999737

rs2257127

0.533815

0.272433

1.21E-07

C14

68，129，821

444

rs999737

rs2331701

0.669937

0.256122

8.50E-08

C14

67，952，384

445

rs999737

rs2331705

0.510976

0.244712

1.44E-06

C14

67，991，800

446

rs999737

rs2331775

0.739817

0.228092

4.95E-07

C14

68，136，385

447

rs999737

rs2525503

1

0.318681

1.88E-12

C14

68，098，356

105

rs999737

rs2525530

1

0.205178

4.00E-09

C14

68，084，205

448

rs999737

rs2842327

1

0.382208

4.73E-13

C14

68，098，285

449

锚定标志

替代标志

D′

R²

P值

染色体

Build 36的位置

Seq ID NO：

rs999737

rs3784121

0.499138

0.226969

2.79E-06

C14

67，953，441

450

rs999737

rs4531674

0.527934

0.255003

2.88E-07

C14

68，136，496

451

rs999737

rs4899246

0.533815

0.272433

1.21E-07

C14

68，129，955

108

rs999737

rs4902604

0.561463

0.264852

2.16E-07

C14

68，124，238

452

rs999737

rs4902606

0.739817

0.228092

4.95E-07

C14

68，135，119

453

rs999737

rs4902608

0.739817

0.228092

4.95E-07

C14

68，138，576

454

rs999737

rs5004090

0.674626

0.269357

4.17E-08

C14

68，013，998

455

rs999737

rs6573837

0.77856

0.353726

5.97E-10

C14

67，999，862

456

rs999737

rs7140266

1

0.219935

1.39E-09

C14

68，074，558

457

rs999737

rs7146456

1

0.260433

1.04E-10

C14

68，108，734

458

rs999737

rs7153476

1

0.308233

3.65E-12

C14

68，102，983

459

rs999737

rs739874

0.952339

0.761982

7.28E-22

C14

68，044，163

460

rs999737

rs746663

0.61957

0.227187

5.55E-07

C14

67，954，305

461

rs999737

rs8007194

1

0.281975

2.77E-11

C14

68，105，178

462

rs999737

rs8010439

0.587868

0.237655

4.20E-07

C14

67，954，354

463

rs999737

rs8012610

0.659865

0.223224

3.27E-07

C14

67，972，552

464

rs999737

rs9323512

0.674626

0.269357

4.17E-08

C14

68，019，310

465

rs999737

rs9323513

1

0.220532

1.43E-09

C14

68，066，244

466

rs999737

rs9323514

1

0.315043

2.49E-12

C14

68，066，317

467

rs9956546

1

-

C18

32，136，446

7

rs9956546

rs16960059

1

0.66736

4.52E-12

C18

32，120，094

468

rs9956546

rs492392

1

0.399199

3.93E-11

C18

32，142，779

120

rs9956546

rs7239113

1

0.66736

4.52E-12

C18

32，133，395

469

rs9956546

rs7240720

0.524852

0.251926

0.000036

C18

32，142，893

124

rs9956546

rs9304157

1

0.211045

0.000182

C18

32，143，156

470

rs11912922

1

-

C22

38，733，117

8

rs11912922

rs11089967

1

9.56E-34

C22

38，739，085

471

rs11912922

rs11704971

1

1.57E-30

C22

38，734，239

472

rs11912922

rs11705454

1

6.56E-31

C22

38，731，841

473

rs11912922

rs17406386

1

1.37E-33

C22

38，735，844

474

rs11912922

rs17406434

1

3.28E-33

C22

38，737，520

475

rs11912922

rs2071771

1

0.214286

1.52E-09

C22

38，745，086

476

rs11912922

rs2958650

1

3.28E-33

C22

38，735，877

477

rs11912922

rs2958651

1

0.958241

2.48E-29

C22

38，735，709

478

rs11912922

rs2958659

1

9.56E-34

C22

38，730，858

479

rs11912922

rs7284488

1

0.239332

2.31E-10

C22

38，742，497

480

rs11912922

rs7285507

0.747862

0.497836

2.02E-12

C22

38，718，254

481

rs11912922

rs7291782

1

0.924812

2.56E-30

C22

38，745，563

482

rs11912922

rs739145

1

0.24812

1.20E-10

C22

38，728，791

483

rs11912922

rs9611246

1

0.214286

1.52E-09

C22

38，745，655

484

rs11912922

rs9611265

0.957937

0.846507

5.98E-24

C22

38，828，439

485

rs6001954

1

-

C22

39，251，626

9

rs6001954

rs10483203

0.922166

0.736052

7.16E-15

C22

39，159，899

486

rs6001954

rs10483204

1

0.865546

9.75E-19

C22

39，200，740

487

rs6001954

rs10483205

1

0.800222

4.35E-17

C22

39，213，545

488

rs6001954

rs10483206

1

0.865546

9.75E-19

C22

39，231，291

489

rs6001954

rs1106673

0.922166

0.736052

7.16E-15

C22

39，155，760

490

rs6001954

rs11913132

0.696801

0.304518

1.56E-07

C22

39，108，724

491

锚定标志

替代标志

D′

R²

P值

染色体

Build 36的位置

Seq ID NO：

rs6001954

rs12158399

1

0.568501

2.92E-15

C22

39，378，887

492

rs6001954

rs12158872

0.922166

0.736052

7.16E-15

C22

39，162，447

493

rs6001954

rs12159200

1

0.542302

7.76E-15

C22

39，372，037

138

rs6001954

rs12159970

1

0.800222

4.35E-17

C22

39，149，100

494

rs6001954

rs12484697

0.624393

0.257388

1.79E-06

C22

39，066，418

139

rs6001954

rs12627881

0.925127

0.534379

1.11E-12

C22

39，374，539

495

rs6001954

rs133036

1

0.231068

6.07E-09

C22

39，342，384

141

rs6001954

rs133038

1

0.223301

9.26E-09

C22

39，345，215

496

rs6001954

rs16985899

1

0.932127

1.30E-20

C22

39，293，348

497

rs6001954

rs17001846

0.624393

0.257388

1.79E-06

C22

39，073，999

498

rs6001954

rs17001868

0.635691

0.328651

4.59E-07

C22

39，108，177

499

rs6001954

rs17001943

0.922166

0.736052

7.16E-15

C22

39，192，559

500

rs6001954

rs17001974

1

0.865546

9.75E-19

C22

39，207，330

501

rs6001954

rs17001977

1

0.779103

6.11E-16

C22

39，210，159

502

rs6001954

rs17001993

1

0.800222

4.35E-17

C22

39，230，023

503

rs6001954

rs17001994

1

0.788111

8.57E-16

C22

39，230，764

504

rs6001954

rs17001997

1

0.788111

4.07E-16

C22

39，235，018

505

rs6001954

rs17002019

1

0.932127

1.30E-20

C22

39，295，282

506

rs6001954

rs17002020

1

0.930025

1.15E-19

C22

39，295，389

507

rs6001954

rs17002026

1

0.930456

2.22E-19

C22

39，312，527

508

rs6001954

rs17002027

1

0.925154

2.26E-18

C22

39，314，517

509

rs6001954

rs17002034

1

0.865546

9.75E-19

C22

39，326，313

151

rs6001954

rs17002036

1

0.932127

1.30E-20

C22

39，327，057

510

rs6001954

rs17002038

1

0.925548

4.67E-19

C22

39，330，910

511

rs6001954

rs17002069

0.923881

0.509328

4.13E-12

C22

39，380，932

512

rs6001954

rs2075764

0.624393

0.257388

1.79E-06

C22

39，088，527

513

rs6001954

rs2187832

1

0.223301

9.26E-09

C22

39，328，395

514

rs6001954

rs2235318

0.628984

0.275382

9.11E-07

C22

39，130，490

515

rs6001954

rs2280790

0.624393

0.257388

1.79E-06

C22

39，075，127

516

rs6001954

rs2294348

0.694473

0.293289

2.75E-07

C22

39，113，726

517

rs6001954

rs2294350

0.624393

0.257388

1.79E-06

C22

39，114，224

518

rs6001954

rs2294352

0.922166

0.736052

7.16E-15

C22

39，157，265

519

rs6001954

rs2413624

1

0.260204

3.65E-09

C22

39，260，158

520

rs6001954

rs3788577

0.624393

0.257388

1.79E-06

C22

39，072，777

521

rs6001954

rs3788578

0.624393

0.257388

1.79E-06

C22

39，072，867

522

rs6001954

rs3788579

0.624453

0.267064

1.98E-06

C22

39，072，935

523

rs6001954

rs3827381

1

0.865546

9.75E-19

C22

39，211，348

524

rs6001954

rs3827382

1

0.800222

4.35E-17

C22

39，211，349

153

rs6001954

rs4140512

1

0.568501

2.92E-15

C22

39，362，809

525

rs6001954

rs470113

0.624393

0.257388

1.79E-06

C22

39，059，560

155

rs6001954

rs5750957

1

0.265513

1.01E-09

C22

39，265，239

526

rs6001954

rs5750960

1

0.231068

6.07E-09

C22

39，289，866

157

rs6001954

rs5750966

1

0.213336

1.64E-08

C22

39，299，739

527

rs6001954

rs5757976

1

0.223301

9.26E-09

C22

39，245，664

528

rs6001954

rs5757998

1

0.265513

1.01E-09

C22

39，269，856

529

rs6001954

rs5758001

0.90345

0.224527

3.42E-07

C22

39，276，253

159

rs6001954

rs5995849

0.696801

0.304518

1.56E-07

C22

39，107，018

530

rs6001954

rs5995856

0.927089

0.801157

1.72E-16

C22

39，179，008

531

锚定标志

替代标志

D′

R²

P值

染色体

Build 36的位置

Seq ID NO：

rs6001954

rs5995870

1

4.37E-23

C22

39，251，762

532

rs6001954

rs5995871

1

5.10E-23

C22

39，252，278

533

rs6001954

rs5995886

1

0.563253

6.45E-15

C22

39，363，747

534

rs6001954

rs6001900

0.693507

0.310492

4.91E-07

C22

39，120，948

535

rs6001954

rs6001910

1

0.800222

4.35E-17

C22

39，153，955

536

rs6001954

rs6001911

0.922166

0.736052

7.16E-15

C22

39，155，139

537

rs6001954

rs6001912

0.922166

0.736052

7.16E-15

C22

39，158，307

538

rs6001954

rs6001913

1

0.800222

4.35E-17

C22

39，166，699

539

rs6001954

rs6001930

1

0.865546

9.75E-19

C22

39，206，180

540

rs6001954

rs6001931

1

0.857313

9.26E-18

C22

39，207，460

541

rs6001954

rs6001932

1

0.865546

9.75E-19

C22

39，207，581

161

rs6001954

rs6001935

1

0.865546

9.75E-19

C22

39，216，939

542

rs6001954

rs6001950

1

0.865546

9.75E-19

C22

39，236，581

543

rs6001954

rs6001974

1

4.37E-23

C22

39，309，110

544

rs6001954

rs6001980

1

4.37E-23

C22

39，334，330

545

rs6001954

rs6001990

1

0.568501

2.92E-15

C22

39，364，131

546

rs6001954

rs6002000

1

0.568501

2.92E-15

C22

39，381，055

547

rs6001954

rs718193

1

0.932127

1.30E-20

C22

39，354，010

548

rs6001954

rs7292804

0.923881

0.509328

4.13E-12

C22

39，377，502

549

rs6001954

rs7293100

0.92505

0.531874

1.29E-12

C22

39，377，697

550

rs6001954

rs742140

0.624393

0.257388

1.79E-06

C22

39，111，532

551

rs6001954

rs760700

0.624393

0.257388

1.79E-06

C22

39，130，017

552

rs6001954

rs760701

0.628984

0.275382

9.11E-07

C22

39，130，464

553

rs6001954

rs9306345

0.780144

0.423648

8.54E-10

C22

39，162，321

167

rs6001954

rs932379

1

0.932127

1.30E-20

C22

39，282，480

554

rs6001954

rs9607721

0.851982

0.479217

3.33E-11

C22

39，192，066

168

rs6001954

rs9611310

0.624393

0.257388

1.79E-06

C22

39，063，723

555

rs6001954

rs9611311

0.694782

0.31869

2.91E-07

C22

39，063，897

556

rs6001954

rs9611312

0.61091

0.260998

7.16E-06

C22

39，064，736

557

rs6001954

rs9611316

0.673329

0.320213

8.89E-07

C22

39，066，973

558

rs6001954

rs9611318

0.624393

0.257388

1.79E-06

C22

39，069，360

559

rs6001954

rs9611324

0.696801

0.304518

1.56E-07

C22

39，111，108

172

rs6001954

rs9611325

0.624393

0.257388

1.79E-06

C22

39，112，436

560

rs6001954

rs9611328

0.624393

0.257388

1.79E-06

C22

39，121，918

561

rs6001954

rs9611329

0.624393

0.257388

1.79E-06

C22

39，121，984

562

表5：显示包括台湾人的个体队列的针对染色体22上的rs 6001954的与乳腺癌的关联性。还显示了组合的欧洲人结果以及所有组合的队列的结果。

Claims

1.用于确定多态型标志rs999737的等位基因C是否存在于获自人个体的核酸样品中的试剂在制备用于测定对乳腺癌的易感性的试剂盒中的用途，其中确定rs999737中的等位基因C的存在标示着个体中增加的对乳腺癌的易感性。