CN110382712A

CN110382712A - 用于评估发展乳腺癌的风险的改进方法

Info

Publication number: CN110382712A
Application number: CN201880015590.1A
Authority: CN
Inventors: 理查德·奥尔曼
Original assignee: Genetic Technologies Ltd
Current assignee: Genetic Technologies Ltd
Priority date: 2017-01-24
Filing date: 2018-01-23
Publication date: 2019-10-25
Also published as: JP2020508643A; AU2018213400A1; US20200102617A1; WO2018136995A1; EP3574113A4; CA3051488A1; IL268235A; SG11201906778RA; EP3574113A1; KR20190110594A

Abstract

本公开涉及用于评估人类女性受试者发展乳腺癌的风险的方法和系统。具体而言，本公开涉及将简化的临床风险评估与遗传风险评估相结合以改进风险分析。

Description

用于评估发展乳腺癌的风险的改进方法

技术领域

发明背景

据估计，在美国，约八分之一的妇女将在其生存期发展乳腺癌。预计2013年有超过23万名妇女诊断为患有浸润性乳腺癌，近4万名将死于该疾病(ACS Breast Cancer Facts&Figures 2013-14)。因此，有迫切的理由预测哪些妇女会发展疾病，并采取措施来预防。

广泛的研究集中在表型风险因素，包括年龄、家族史、生殖史和良性乳腺疾病。将这些风险因素的各种组合编辑成两种最常用的风险预测算法；Gail模型(适合一般群体)(也称为乳腺癌风险评估工具：BCRAT)和Tyrer-Cuzick模型(适合具有较强家族史的妇女)。

这些风险预测算法很大程度上依赖于通常通过问卷获得的自我报告的临床信息。在一些情况下，没有提供相关的临床信息。这是意料之中的，因为一些问题依赖于几十年前的记忆(第一次月经)，而其他问题则需要患者的医疗水平和/或实际病理学报告(非典型增生)。此外，对于那些输入答案而不是‘未知’的人来说，这就对输入算法中的数据的准确性提出了质疑。例如，非典型增生是否存在是乳腺癌风险评估的一个重要因素(相对风险>4.0)。

最近，用于评估发展乳腺癌风险的市售测试讨论了通过将临床风险评分与遗传风险评分结合来预测乳腺癌风险。然而，这些测试的临床风险评估组分受到了自我报告临床信息的上述限制。因此，本领域需要经过改进的乳腺癌风险评估测试。

发明内容

本发明人已经鉴定出简化的临床风险评估，该简化的临床风险评估可与遗传风险评估相结合以提供评估女性受试者乳腺癌风险的改进方法。

在一个实施方案中，本公开涉及用于评估人类女性受试者发展乳腺癌风险的方法，该方法包括：

对所述女性受试者进行临床风险评估，其中所述临床风险评估仅基于女性受试者年龄、乳腺癌家族史及族群中的两个或全部；

对所述女性受试者进行遗传风险评估，其中所述遗传风险评估涉及检测来自女性受试者的生物样品中已知与乳腺癌相关的至少两个单核苷酸多态性的存在；及

将所述临床风险评估与所述遗传风险评估相结合，以获得人类女性受试者发展乳腺癌的风险。

例如，所述遗传风险评估可包括检测已知与乳腺癌相关的至少3、5、10、20、30、40、50、60、70、80个单核苷酸多态性的存在。

在一个实施方案中，在没有协变量的对数加性模型下，通过逻辑回归单独测试单核苷酸多态性与乳腺癌的相关性。

在另一实施方案中，所述单核苷酸多态性选自由以下组成的组：rs2981582、rs3803662、rs889312、rs13387042、rs13281615、rs4415084、rs3817198、rs4973768、rs6504950及rs11249433或与其中一个或多个连锁不平衡的单核苷酸多态性。在另一实施方案中，所述单核苷酸多态性选自表6或与其中一个或多个连锁不平衡的单核苷酸多态性。

在另一实施方案中，所述遗传风险评估可包括检测与乳腺癌相关的至少72个单核苷酸多态性，其中至少67个单核苷酸多态性选自表7或与其中一个或多个连锁不平衡的单核苷酸多态性，且其余单核苷酸多态性选自表6或与其中一个或多个连锁不平衡的单核苷酸多态性。

在一个实施方案中，所述遗传风险评估可能基于所评估女性受试者的族群而发生变化。例如，当女性受试者是高加索人时，所述遗传风险评估包括检测表9所示的至少72个单核苷酸多态性或与其中一个或多个连锁不平衡的单核苷酸多态性。在另一实施例中，当女性受试者是高加索人时，所述遗传风险评估包括检测表9所示的至少77个单核苷酸多态性或与其中一个或多个连锁不平衡的单核苷酸多态性。在另一实施例中，当女性受试者是黑种人或非洲裔美国人时，所述遗传风险评估包括检测表10所示的至少74个单核苷酸多态性或与其中一个或多个连锁不平衡的单核苷酸多态性。在另一实施例中，当女性受试者是黑种人或非洲裔美国人时，所述遗传风险评估包括检测表10所示的至少78个单核苷酸多态性或与其中一个或多个连锁不平衡的单核苷酸多态性。在另一实施例中，当女性受试者是西班牙人时，所述遗传风险评估包括检测表11所示的至少78个单核苷酸多态性或与其中一个或多个连锁不平衡的单核苷酸多态性。在另一实施例中，当女性受试者是西班牙人时，所述遗传风险评估包括检测表11所示的至少82个单核苷酸多态性或与其中一个或多个连锁不平衡的单核苷酸多态性。

在一个实施方案中，连锁不平衡的单核苷酸多态性具有大于0.9的连锁不平衡。在另一实施方案中，连锁不平衡的单核苷酸多态性具有大于1的连锁不平衡。

在一个实施方案中，所述临床风险评估仅基于女性受试者年龄及乳腺癌家族史。在另一实施方案中，所述临床风险评估仅基于女性受试者年龄、乳腺癌家族史及族群。

在另一实施方案中，将所述临床风险评估与所述遗传风险评估相结合包括将所述风险评估相乘以提供风险评分。

在一个实施方案中，所述临床风险评估的结果表明，女性受试者应进行更频繁的筛查和/或预防性抗乳腺癌疗法。

在另一实施方案中，如果确定受试者具有发展乳腺癌的风险，则受试者与非响应相比更可能对雌激素抑制疗法有响应。

在一个实施方案中，乳腺癌可为雌激素受体阳性或雌激素受体阴性。

在另一实施方案中，可以将本公开的方法并入用于确定人类女性受试者对乳腺癌的常规诊断测试的需要的方法中。

在一个实施方案中，进行临床风险评估使用计算发展乳腺癌的绝对风险的模型。例如，发展乳腺癌的绝对风险可使用乳腺癌发病率来计算，并且考虑到除乳腺癌以外的其它原因导致死亡的竞争风险。

在另一实施方案中，所述临床风险评估提供5年发展乳腺癌的绝对风险。在另一实施方案中，所述临床风险评估提供10年发展乳腺癌的绝对风险。

在另一实施方案中，进行临床风险评估使用计算发展乳腺癌的终生风险的模型。在一个实施方案中，大于约20％终生风险的风险评分表明受试者应纳入筛查乳房MRIc及乳房X线照相程序。

在另一实施方案中，本公开涵盖一种筛查人类女性受试者的乳腺癌的方法，所述方法包括使用本公开的方法评估受试者发展乳腺癌的风险，及若所述受试者被评估为具有发展乳腺癌的风险，则对她们进行乳腺癌常规筛查。

在另一实施方案中，可以将本公开的方法并入用于确定人类女性受试者对预防性抗乳腺癌疗法的需要的方法中。在一个实施方案中，大于约1.66％5年风险的风险评分表明应为受试者提供雌激素受体疗法。

在另一实施方案中，本公开涵盖一种用于预防或降低人类女性受试者发展乳腺癌的风险的方法，所述方法包括使用本公开的方法评估受试者发展乳腺癌的风险，及若所述受试者被评估为具有发展乳腺癌的风险，则向她们施用抗乳腺癌疗法。在一个实施方案中，该疗法抑制雌激素。

在另一实施方案中，本公开涵盖一种用于预防具有乳腺癌风险的人类女性受试者发展乳腺癌的抗乳腺癌疗法，其中根据本公开的方法所述受试者被评估为具有发展乳腺癌的风险。

在另一实施方案中，本公开涵盖一种对进行候选疗法的临床试验的人类女性受试者组进行分层的方法，所述方法包括使用本公开的方法评估受试者发展乳腺癌的个体风险，及使用评估结果选择更可能对所述疗法有响应的受试者。

在另一实施方案中，本公开涵盖一种用于评估人类女性受试者发展乳腺癌风险的计算机实现方法，所述方法可在包括处理器和存储器的计算系统中操作，所述方法包括：

接收女性受试者的临床风险数据和遗传风险数据，其中所述临床风险数据和遗传风险数据是通过本公开的方法获得的；

处理数据以将临床风险数据与遗传风险数据相结合，从而获得人类女性受试者发展乳腺癌的风险；

输出人类女性受试者发展乳腺癌的风险。

在另一实施方案中，本公开涵盖一种用于评估人类女性受试者发展乳腺癌风险的系统，所述系统包括：

根据本公开对女性受试者进行临床风险评估和遗传风险评估的系统说明；及

将临床风险评估与遗传风险评估相结合以获得人类女性受试者发展乳腺癌的风险的系统说明。

除非另有特别说明，否则此处的任何实例应被视为在作必要的变更后适用于任何其他实例。

本公开的范围不受本文所描述的具体实施例的限制，所述实施例意在仅用于例示的目的。如本文所述，功能等效的产品、组合物和方法显然在本公开的范围内。

在整个说明书中，除非另有特别说明或上下文另有要求，否则对单个步骤、物质组成、步骤组或物质组成组的提及应被视为涵盖那些步骤、物质组成、步骤组或物质组成组中的一个和多个(即一个或多个)。

在整个说明书中，词语“包含(comprise)”或诸如“包含(comprising或comprises)”的变化形式将被理解为提示包括所述要素、整数或步骤或者要素、整数或步骤的组，但不排除任何其他要素、整数或步骤或者要素、整数或步骤的组。

以下通过下述非限制性实施例并参照附图对本公开进行描述。

附图说明

图1：描绘使用Gail模型进行临床风险评估得到的患者整体5年风险。

图2：(a)使用简易临床风险(SCR)模型加SNP或Gail模型加SNP得到的2,282名美国患者5年风险评分的盒须图。圆圈代表离群值。(b)5年分布及t测试结果的对数转换值。t测试表明在SCR加SNP评分与Gail加SNP评分之间平均值无差异(P>0.05)。

图3：(a)非洲裔美国妇女、(b)高加索妇女及(c)西班牙妇女中利用仅SNP、仅SCR模型或SCR加风险SNP进行的风险预测的ROC图。还示出了随机风险预测的基准线。

图4：描绘使用SCR模型得到的患者绝对5年风险。

具体实施方式

一般技术和定义

除非另外特别定义，否则本文使用的所有技术和科学术语均应被视为具有与本领域(例如，肿瘤学、乳腺癌分析、分子遗传学、风险评估及临床研究)普通技术人员所通常理解的相同的含义。

除非另外说明，否则本公开中使用的分子和免疫学技术是本领域技术人员公知的标准规程。这样的技术在诸如J.Perbal，A Practical Guide to Molecular Cloning，JohnWiley and Sons(1984)，J.Sambrook等，Molecular Cloning：A Laboratory Manual，ColdSpring Harbor Laboratory Press(1989)，T.A.Brown(编者)，Essential MolecularBiology：A Practical Approach，第1卷和第2卷，IRL Press(1991)，D.M.Glover和B.D.Hames(编者)，DNA Cloning：A Practical Approach，第1-4卷，IRL Press(1995和1996)和F.M.Ausubel等(编者)，Current Protocols in Molecular Biology，GreenePub.Associates and Wiley-Interscience(1988，包括直到现在的所有更新)，Ed Harlow和David Lane(编者)Antibodies：A Laboratory Manual，Cold Spring HarbourLaboratory，(1988)和J.E.Coligan等(编者)Current Protocols in Immunology，JohnWiley&Sons(包括直到现在的所有更新)的来源的文献中通篇描述和解释。

应当理解，本公开不限于特定实施方案，当然可以变化。还应当理解，本文使用的术语仅用于描述特定实施方案的目的，而不意图为限制性的。如本说明书和所附权利要求中所使用的，例如单数形式的术语“一个/种(a、an)”和“所述”任选地包括复数个指示物，内容另外明确规定的除外。因此，例如，对“一种探针”的提及任选地包括多种探针分子；类似地，根据上下文，术语“一个核酸”的使用实际上任选地包括该核酸分子的许多拷贝。

除非相反地说明，否则本文所用术语“约”是指指定值的+/-10％，更优选+/-5％，更优选+/-1％。

本公开的方法可用于评估人类女性受试者发展乳腺癌的风险。本文所用术语“乳腺癌”涵盖女性受试者可发展的任何类型的乳腺癌。例如，乳腺癌可以被表征为Luminal A(ER+和/或PR+、HER2-、低Ki67)、Luminal B(ER+和/或PR+、HER2+(或具有高Ki67的HER2-)、三阴性/基础样(ER-、PR-、HER2-)或HER2型(ER-、PR-、HER2+)。在另一实施例中，乳腺癌可能对一种或多种治疗剂有抗性，所述治疗剂诸如烷化剂、铂剂、紫杉烷、长春花剂、抗雌激素药物、芳香酶抑制剂、卵巢抑制剂、内分泌/激素剂、双磷酸盐治疗剂或靶向生物治疗剂。本文所用“乳腺癌”还涵盖在个体中显示出发展乳腺癌倾向的表型。在一组给定环境条件(饮食、身体活动方案、地理位点等)下，与相关一般群体的成员相比，表现出乳腺癌倾向的表型可示出(例如)癌症将在具有该表型的个体中发展的似然更高。

本文所用“生物样品”是指包含来自或衍生自人类患者的核酸(特别是DNA)的任何样品，例如来自患者的体液(血液、唾液、尿液等)、活体组织切片、组织和/或废物。因此，组织活体组织切片、粪便、痰液、唾液、血液、淋巴液等可以容易地筛选SNP，基本上任何含有适当核酸的目标组织都可以如此。在一个实施方案中，生物样品是颊细胞样品。这些样品通常由患者在知情同意之后通过标准医学实验室方法获取。样品可以为从患者直接取得的形式，或者可以至少部分地加工(纯化)以除去至少一些非核酸材料。

“多态性”是可变的基因座；也就是说，在群体内，多态性的核苷酸序列具有多于一个型式或等位基因。多态性的一个实例是“单核苷酸多态性”，其是基因组中单个核苷酸位置的多态性(个体或群体之间在指定位置的核苷酸不同)。

本文所用术语“SNP”或“单核苷酸多态性”是指个体之间的遗传变化；例如，可变的生物体DNA中的单个含氮碱基位置。本文所用“SNP”是SNP的复数。当然，在本文中提及DNA时，这样的提及可包括DNA的衍生物，例如扩增子、其RNA转录物等。

术语“等位基因”是指在特定基因座发生或编码的两个或更多个不同的核苷酸序列或由该基因座编码的两个或更多个不同多肽序列之一。例如，第一等位基因可以发生在一个染色体上，而第二等位基因发生在第二同源染色体上，例如发生在杂合个体的不同染色体上，或者在群体中不同的纯合或杂合个体之间。当等位基因与性状相关联时，并且当等位基因的存在是性状或性状形式将在包含等位基因的个体中发生的指示时，等位基因与性状“正”相关。当等位基因与性状相关联时，并且等位基因的存在是性状或性状形式将不在包含等位基因的个体中发生的指示时，等位基因与性状“负”相关。

当标志物多态性或等位基因可以与表型统计学相关(正或负)时，标志物多态性或等位基因与指定表型(乳腺癌易感性等)“相关”或“相关联”。用于确定多态性或等位基因是否统计学相关的方法是本领域技术人员已知的。也就是说，指定的多态性在病例群体(例如，乳腺癌患者)中比在对照群体(例如，未患乳腺癌的个体)中更常见。这种相关性通常被认为在本质上是因果关系，但是与有关潜于表型下的性状的基因座简单的遗传连锁(与之相关联)未必足以发生相关/关联。

短语“连锁不平衡”(LD)用于描述两个相邻多态性基因型之间的统计学相关性。通常，LD是指在两个基因座中随机配子的等位基因之间的相关性，假设配子之间为Hardy-Weinberg平衡(统计学独立性)。用Lewontin的相关参数(D')或用Pearson相关系数(r)(Devlin和Risch，1995)对LD进行量化。将LD值为1的两个基因座称为完全LD。在另一个极端，将LD值为0的两个基因座称为连锁平衡。通过应用期望最大化算法(EM)估计单倍型频率来计算连锁不平衡(Slatkin和Excoffier，1996)。根据本公开的相邻基因型/基因座的LD值选为超过0.1、优选超过0.2、更优选超过0.5、更优选超过0.6、更优选超过0.7、优选超过0.8、更优选超过0.9、理想地约为1.0。

本领域技术人员可以容易地鉴定与本公开的SNP连锁不平衡的SNP的另一种方法是确定两个基因座的LOD评分。LOD表示“几率的对数”，两个基因或基因和疾病基因是否可能在染色体上位置彼此靠近，并且因此可能遗传的统计学估计。LOD评分为约2至3或更高通常被理解为意指两个基因在染色体上的位置彼此靠近。与本公开的SNP连锁不平衡的SNP的各种实例示于表1至4中。本发明人发现，与本公开的SNP连锁不平衡的许多SNP具有约2至50的LOD评分。因此，在一个实施方案中，根据本公开的相邻基因型/基因座的LOD值选为至少超过2、至少超过3、至少超过4、至少超过5、至少超过6、至少超过7、至少超过8、至少超过9、至少超过10、至少超过20、至少超过30、至少超过40、至少超过50。

在另一实施方案中，与本公开的SNP连锁不平衡的SNP可以具有小于或等于约20厘摩尔(cM)或更小的特定基因重组距离。例如，15cM或更小、10cM或更小、9cM或更小、8cM或更小、7cM或更小、6cM或更小、5cM或更小、4cM或更小、3cM或更小、2cM或更小、1cM或更小、0.75cM或更小、0.5cM或更小、0.25cM或更小、0.1cM或更小。例如，单个染色体片段内的两个连锁的基因座可以在减数分裂期间以小于或等于约20％、约19％、约18％、约17％、约16％、约15％、约14％、约13％、约12％、约11％、约10％、约9％、约8％、约7％、约6％、约5％、约4％、约3％、约2％、约1％、约0.75％、约0.5％、约0.25％或约0.1％或更少的频率彼此进行重组。

在另一实施方案中，与本公开的SNP连锁不平衡的SNP在彼此至少100kb(其在人类中与约0.1cM相关，取决于局部重组率)、至少50kb、至少20kb或更少。

例如，用于鉴定特定SNP的替代标志物的一种方法涉及一种简单的策略，其假设围绕靶SNP的SNP处于连锁不平衡，因此可以提供关于疾病易感性的信息。因此，如本文所述，替代标志物因此可以通过搜索适合于替代标志物候选物的选择符合在科学界发现的某些标准的SNP来从诸如HAPMAP的公开数据库中鉴定(参见，例如，表1至4的图例)。

“等位基因频率”是指等位基因存在于个体内、品系或品系群体内的基因座的频率(比例或百分比)。例如，对于等位基因“A”，基因型“AA”、“Aa”或“aa”的二倍体个体分别具有1.0、0.5或0.0的等位基因频率。可以通过平均来自该线或群体的个体样品的等位基因频率来估计品系或群体(例如，病例或对照)中的等位基因频率。类似地，可以通过对构成群体的品系的等位基因频率进行平均来计算品系群体中的等位基因频率。

在一个实施方案中，术语“等位基因频率”用于定义次要等位基因频率(MAF)。MAF是指给定群体中最不常见等位基因发生的频率。

如果个体在给定基因座处仅具有一种类型的等位基因(例如，二倍体个体具有两个同源染色体中的每一个的基因座处的相同等位基因的拷贝)，则个体是“纯合的”。如果在给定基因座处存在多于一个等位基因类型(例如，具有两个不同等位基因的一个拷贝的二倍体个体)，则个体是“杂合的”。术语“同质性”表示组成员在一个或多个特定基因座具有相同的基因型。相比之下，术语“异质性”用于表示组内的个体在一个或多个特定基因座处的基因型不同。

“基因座”是染色体位置或区域。例如，多态基因座是多态性核酸、性状决定簇、基因或标志物定位的位置或区域。在另一实例中，“基因座”是可以找到特定基因的物种基因组中的特定染色体位点(区域)。

“标志物”、“分子标志物”或“标志物核酸”是指当鉴定基因座或连锁基因座时用作参照点的核苷酸序列或其编码产物(例如，蛋白质)。标志物可以衍生自基因组核苷酸序列或来自表达的核苷酸序列(例如，来自RNA、nRNA、mRNA、cDNA等)或编码的多肽。该术语还指与标志物序列互补或侧接的核酸序列，例如用作能够扩增标志物序列的探针或引物对的核酸。“标志物探针”是可用于鉴定标志物基因座的存在的核酸序列或分子，例如，与标志物基因座序列互补的核酸探针。当核酸在溶液中特异性杂交时，例如根据Watson-Crick碱基配对规则，核酸是“互补的”。“标志物基因座”是可用于跟踪第二连锁基因座的存在的基因座，例如编码或有助于表型性状群体变化的连锁或相关基因座。例如，可以使用标志物基因座来监测在与标志物基因座遗传或物理连接的基因座(例如，QTL)处等位基因的分离。因此，“标志物等位基因”或者“标志物基因座的等位基因”是在标志物基因座多态性群体的标志物基因座处发现的多个多态性核苷酸序列之一。预期鉴定出的每个标志物将与有助于相关表型的遗传元件(例如，QTL)处于紧密的物理和遗传接近(导致物理和/或遗传连锁)。可以通过本领域公认的方法检测与群体成员之间的遗传多态性相对应的标志物。这些包括例如基于PCR的序列特异性扩增方法、限制性片段长度多态性(RFLP)检测、同功酶标志物检测、等位基因特异性杂交检测(ASH)、单核苷酸扩增检测、基因组的扩增可变序列检测、自我维持序列复制的检测、简单序列重复检测(SSR)、单核苷酸多态性(SNP)检测、扩增片段长度多态性(AFLP)检测。

在核酸扩增的背景下，术语“扩增”是产生所选核酸(或其转录形式)的额外拷贝的任何方法。典型的扩增方法包括各种基于聚合酶的复制方法，包括聚合酶链反应(PCR)、连接酶介导的方法例如连接酶链反应(LCR)和基于RNA聚合酶的扩增(例如，通过转录)方法。

“扩增子”是扩增的核酸，例如，通过任何可用的扩增方法(例如PCR、LCR、转录等)扩增模板核酸产生的核酸。

“基因”是基因组中一起编码一个或多个表达分子(例如，RNA或多肽)的一个或多个核苷酸序列。该基因可以包括转录成RNA的编码序列，其随后可以被翻译成多肽序列，并且可以包括有助于基因复制或表达的相关结构或调控序列。

“基因型”是一个或多个遗传基因座处个体(或个体组)的遗传构成。基因型由个体的一个或多个已知基因座的等位基因定义，通常是从其亲本遗传的等位基因的编译。

“单倍型”是单个DNA链上多个遗传基因座上个体的基因型。通常，由单倍型描述的遗传基因座在物理上和遗传上连接，即在相同的染色体链上。

标志物、探针或引物的“集”是指用于共同目的(例如鉴定具有指定基因型的个体(例如，发展乳腺癌的风险))的标志物探针、引物或由其得到数据的集合或组。通常，将对应于标志物、探针或引物或由其使用得到的数据存储在电子介质中。虽然组的每个成员对于指定的目的具有效用，但是选自组以及亚组的个体标志物(包括一些，但不是所有标志物)也在实现特定目的方面有效。

上述多态性和基因以及相应的标志物探针、扩增子或引物可以在本文的任何系统中以物理核酸的形式或者包括核酸的序列信息的系统说明的形式体现。例如，该系统可以包括与本文所述的基因或多态性相对应(或扩增一部分)的引物或扩增子。如在上述方法中，该组标志物探针或引物任选地检测多个所述基因或遗传基因座中的多个多态性。因此，例如，该组标志物探针或引物检测这些多态性或基因或本文定义的任何其它多态性、基因或基因座中的每一个中的至少一个多态性。任何这样的探针或引物可以包括任何这样的多态性或基因的核苷酸序列或其互补核酸或其转录产物(例如，由基因组序列产生的nRNA或mRNA形式，例如通过转录或剪接)。

本文所用“接受者操作特征曲线”(ROC)是指二进制分类器系统随其鉴别阈值变化的灵敏度相对于(1-特异性)的图形。ROC也可以通过绘制真阳性分数(TPR＝真阳性率)相对于假阳性分数(FPR＝假阳性率)来等同地表示。也称为相对操作特征曲线，因为它是两个操作特征(TPR&FPR)作为标准变化的比较。ROC分析提供了选择可能的最佳模型和弃去独立于(并且在指定前)成本背景或类别分布的次优模型的工具。在本公开的上下文中使用的方法对于本领域技术人员而言将是清楚的。

本文所用术语“将临床风险评估与遗传风险评估相结合以获得风险”是指依赖于两个评估结果的任何合适的数学分析。例如，可以将临床风险评估和遗传风险评估的结果相加，更优选相乘。

本文所用术语“常规筛查乳腺癌”和“更频繁筛查”是相对术语，并且是基于向与没有鉴定出发展乳腺癌风险的受试者推荐的筛查水平的比较。

临床风险评估

在一个实施方案中，临床风险评估程序包括获得女性受试者的临床信息。在其它实施方案中，这些细节已经被确定(诸如在受试者医疗记录中)。

在一个实施方案中，临床风险评估至少考虑进女性的年龄。在另一实施方案中，临床风险评估仅基于女性受试者的年龄及乳腺癌家族史。在此实施方案中，临床风险评估可任选地也将族群考虑在内。因此，在另一实施方案中，临床风险评估仅基于女性受试者的乳腺癌家族史及族群。在另一实施方案中，临床风险评估仅基于女性受试者的年龄及族群。在另一实施方案中，临床风险评估仅基于女性受试者的年龄、乳腺癌家族史及族群。

“乳腺癌家族史”在本公开的上下文中用于指女性受试者一级和/或二级亲属的乳腺癌史。例如，“乳腺癌家族史”可用于指仅一级亲属的乳腺癌史。换句话说，临床风险评估程序可考虑进女性受试者一级亲属的乳腺癌家族史。在本公开的上下文中，“一级亲属”是与女性受试者共有约50％基因的家族成员。一级亲属的实例包括父母、子女及同父同母的兄弟姐妹。“二级亲属”是与女性受试者共有约25％基因的家族成员。二级亲属的实例包括叔父/伯父/舅父、姨母/姑母、侄子/外甥、侄女/外甥女、祖父母/外祖父母、孙子(女)/外孙子(女)和同父异母/同母异父的兄弟姐妹。

因此，在一个实施方案中，临床风险评估仅基于女性受试者的年龄及一级亲属的已知乳腺癌史。在另一实施方案中，所述临床风险评估基于女性受试者的年龄、一级亲属的已知乳腺癌史和族群。

如本文所用，“基于”意指将值分配给例如受试者的年龄和乳腺癌家族史，但是随后进行任何合适的计算以确定临床风险。

女性受试者可以自我报告临床信息。例如，受试者可以完成一份问卷，旨在获得临床信息，诸如年龄、一级亲属乳腺癌史和族群。在另一实施例中，在获得女性受试者的知情同意的条件下，可以通过询问包含临床信息的相关数据库从医疗记录中获得临床信息。

在一个实施方案中，临床风险评估程序提供人类女性受试者在接下来的5年期间发展乳腺癌的风险(即5年风险)的估计。

在另一实施方案中，临床风险评估程序提供人类女性受试者在90岁之前发展乳腺癌的风险(即终生风险)的估计。在另一实施方案中，进行临床风险评估使用计算发展乳腺癌的绝对风险的模型。例如，发展成乳腺癌的绝对风险可以使用癌症发病率同时考虑进除乳腺癌之外的其它原因导致死亡的竞争风险来计算。

在一个实施方案中，临床风险评估提供5年的发展乳腺癌的绝对风险。在另一实施方案中，临床风险评估提供10年的发展乳腺癌的绝对风险。

遗传风险评估

在一个实施方案中，遗传风险评估是通过分析受试者2个或更多个基因座处有关与乳腺癌相关的单核苷酸多态性的基因型来进行。本公开中讨论了与乳腺癌相关的各个例示性单核苷酸多态性。这些单核苷酸多态性在外显率方面有所不同，本领域技术人员将理解许多单核苷酸多态性是低外显率的。

术语“外显率”在本公开的上下文中用于指特定单核苷酸多态性基因型在患有乳腺癌的女性受试者内显现的频率。“高外显率”单核苷酸多态性在患有乳腺癌的女性受试者中几乎总是显而易见的，而“低外显率”单核苷酸多态性只是有时才显而易见。在一个实施方案中，根据本公开被评估为遗传风险评估的一部分的SNP是低外显率SNP。

如技术人员将理解的，增加发展乳腺癌风险的每个SNP均具有大于1.0的与乳腺癌相关的让步比。在一个实施方案中，让步比大于1.02。降低发展乳腺癌风险的每个SNP均具有小于1.0的与乳腺癌相关的让步比。在一个实施方案中，让步比小于0.98。此类SNP的实例包括但不限于表6至11提供的那些SNP或与其中一个或多个连锁不平衡的单核苷酸多态性。在一个实施方案中，遗传风险评估涉及评估与发展乳腺癌的风险增加相关的SNP。在另一实施方案中，遗传风险评估涉及评估与发展乳腺癌的风险降低相关的SNP。在另一实施方案中，遗传风险评估涉及评估与发展乳腺癌的风险增加相关的SNP及与发展乳腺癌的风险降低相关的SNP。

在一个实施方案中，遗传风险评估是通过分析受试者2、3、4、5、6、7、8、9、10或更多个基因座处有关与乳腺癌相关的单核苷酸多态性的基因型来进行。与乳腺癌风险评估相关的例示性单核苷酸多态性包括rs2981582、rs3803662、rs889312、rs13387042、rs13281615、rs4415084、rs3817198、rs4973768、rs6504950及rs11249433或与其中一个或多个连锁不平衡的单核苷酸多态性。

在另一实施方案中，遗传风险评估是通过分析受试者20、30、40、50、60、70、80或更多个基因座处有关与乳腺癌相关的单核苷酸多态性的基因型来进行。

在一个实施方案中，遗传风险评估是通过分析受试者72个或更多个基因座处有关与乳腺癌相关的单核苷酸多态性的基因型来进行。

在一个实施方案中，当进行本公开的方法来评估乳腺癌的风险时，至少67个单核苷酸多态性选自表7或与其中一个或多个连锁不平衡的单核苷酸多态性，且其余单核苷酸多态性选自表6或与其中一个或多个连锁不平衡的单核苷酸多态性。在另一实施方案中，当进行本公开的方法时，至少68个、至少69个、至少70个单核苷酸多态性选自表7或与其中一个或多个连锁不平衡的单核苷酸多态性，且其余单核苷酸多态性选自表6或与其中一个或多个连锁不平衡的单核苷酸多态性。在一个实施方案中，对表6所示的至少72个、至少73个、至少74个、至少75个、至少76个、至少77个、至少78个、至少79个、至少80个、至少81个、至少82个、至少83个、至少84个、至少85个、至少86个、至少87个、至少88个单核苷酸多态性或与其中一个或多个连锁不平衡的单核苷酸多态性进行评估。在其它实施方案中，对表7所示的至少67个、至少68个、至少69个、至少70个单核苷酸多态性或与其中一个或多个连锁不平衡的单核苷酸多态性进行评估。在其它实施方案中，对至少70个、至少71个、至少72个、至少73个、至少74个、至少75个、至少76个、至少77个、至少78个、至少79个、至少80个、至少81个、至少82个、至少83个、至少84个、至少85个、至少86个、至少87个、至少88个单核苷酸多态性进行评估，其中对表7所示的至少67个、至少68个、至少69个、至少70个单核苷酸多态性或与其中一个或多个连锁不平衡的单核苷酸多态性进行评估，且其余任何单核苷酸多态性选自表6或与其中一个或多个连锁不平衡的单核苷酸多态性。

本领域技术人员很容易鉴定与本文具体提到的那些连锁不平衡的SNP。此类SNP的实例包括与rs2981582(表1中提供的其它可能的实例)强连锁不平衡的rs1219648和rs2420946、与SNP rs3803662(表2中提供的其它可能的实例)强连锁不平衡的rs12443621和rs8051542和与SNP rs4415084(表3中提供的其它可能的实例)强连锁不平衡的rs10941679。另外，表4提供了与rs13387042连锁不平衡的SNP的实例。技术人员使用HAPMAP数据库可以非常容易地鉴定表6中列出的其它SNP的此类连锁多态性。

表1.SNP rs2981582的替代标志物。选择针对rs2981582的在标志物侧翼的1Mbp间隔内的HAPMAP数据集(http://hapmap.ncbi.nlm.nih.gov)中r2大于0.05的标志物。示出相关SNP的名称、rs2981582的r2和D’值及相应的LOD值，以及NCB Build36中替代标志物的位置。

DbSNP rsID	位置	相关SNP	位点	D’	r<sup>2</sup>	LOD
							rs2981582	123342307	rs3135715	123344716	1.000	0.368	15.02
rs2981582	123342307	rs7899765	123345678	1.000	0.053	2.44
							rs2981582	123342307	rs1047111	123347551	0.938	0.226	9.11
rs2981582	123342307	rs1219639	123348302	1.000	0.143	6.53
							rs2981582	123342307	rs10886955	123360344	0.908	0.131	5.42
rs2981582	123342307	rs1631281	123380775	0.906	0.124	5.33
							rs2981582	123342307	rs3104685	123381354	0.896	0.108	4.58
rs2981582	123342307	rs1909670	123386718	1.000	0.135	6.12
							rs2981582	123342307	rs7917459	123392364	1.000	0.135	6.42
rs2981582	123342307	rs17102382	123393846	1.000	0.135	6.42
							rs2981582	123342307	rs10788196	123407625	1.000	0.202	9.18
rs2981582	123342307	rs2935717	123426236	0.926	0.165	7.30
							rs2981582	123342307	rs3104688	123426455	0.820	0.051	2.07
rs2981582	123342307	rs4752578	123426514	1.000	0.106	5.15
							rs2981582	123342307	rs1696803	123426940	0.926	0.168	7.33
rs2981582	123342307	rs12262574	123428112	1.000	0.143	7.39
							rs2981582	123342307	rs4752579	123431182	1.000	0.106	5.15
rs2981582	123342307	rs12358208	123460953	0.761	0.077	2.46
							rs2981582	123342307	rs17102484	123462020	0.758	0.065	2.39
rs2981582	123342307	rs2936859	123469277	0.260	0.052	1.56
							rs2981582	123342307	rs10160140	123541979	0.590	0.016	0.40

表2.SNP rs3803662的替代标志物。选择针对rs3803662的在标志物侧翼的1Mbp间隔内的HAPMAP数据集(http://hapmap.ncbi.nlm.nih.gov)中r2大于0.05的标志物。示出相关SNP的名称、rs3803662的r2和D’值及相应的LOD值，以及NCB Build36中替代标志物的位置。

表3.SNP rs4415084的替代标志物。选择针对rs4415084的在标志物侧翼的1Mbp间隔内的HAPMAP数据集(http://hapmap.ncbi.nlm.nih.gov)中r2大于0.05的标志物。示出相关SNP的名称、rs4415084的r2和D’值及相应的LOD值，以及NCB Build36中替代标志物的位置。

表4.SNP rs13387042的替代标志物。选择针对rs13387042的在标志物侧翼的1Mbp间隔内的HAPMAP数据集(http://hapmap.ncbi.nlm.nih.gov)中r2大于0.05的标志物。示出相关SNP的名称、rs13387042的r2和D’值以及相应的LOD值，以及NCB Build 36中替代标志物的位置。

DbSNP rsID	位置	相关SNP	位点	D’	r<sup>2</sup>	LOD
							rs13387042	217614077	rs4621152	217617230	0.865	0.364	15.30
rs13387042	217614077	rs6721996	217617708	1.000	0.979	50.46
							rs13387042	217614077	rs12694403	217623659	0.955	0.33	14.24
rs13387042	217614077	rs17778427	217631258	1.000	0.351	16.12
							rs13387042	217614077	rs17835044	217631850	1.000	0.351	16.12
rs13387042	217614077	rs7588345	217632061	1.000	0.193	8.93
							rs13387042	217614077	rs7562029	217632506	1.000	0.413	20.33
rs13387042	217614077	rs13000023	217632639	0.949	0.287	12.20
							rs13387042	217614077	rs13409592	217634573	0.933	0.192	7.69
rs13387042	217614077	rs2372957	217635302	0.855	0.168	5.97
							rs13387042	217614077	rs16856888	217638914	0.363	0.101	3.31
rs13387042	217614077	rs16856890	217639976	0.371	0.101	3.29
							rs13387042	217614077	rs7598926	217640464	0.382	0.109	3.60
rs13387042	217614077	rs6734010	217643676	0.543	0.217	7.90
							rs13387042	217614077	rs13022815	217644369	0.800	0.319	12.94
rs13387042	217614077	rs16856893	217645298	0.739	0.109	3.45
							rs13387042	217614077	rs13011060	217646422	0.956	0.352	14.71
rs13387042	217614077	rs4674132	217646764	0.802	0.327	13.10
							rs13387042	217614077	rs16825211	217647249	0.912	0.326	12.95
rs13387042	217614077	rs41521045	217647581	0.903	0.112	4.70
							rs13387042	217614077	rs2372960	217650960	0.678	0.058	2.12
rs13387042	217614077	rs2372967	217676158	0.326	0.052	1.97
							rs13387042	217614077	rs3843337	217677680	0.326	0.052	1.97
rs13387042	217614077	rs2372972	217679386	0.375	0.062	2.28
							rs13387042	217614077	rs9677455	217680497	0.375	0.062	2.28
rs13387042	217614077	rs12464728	217686802	0.478	0.073	2.54

在另一实施方案中，当测定乳腺癌风险时，本公开的方法涵盖评估表6中所示的所有SNP或与其中一个或多个连锁不平衡的单核苷酸多态性。

表6及表7列举了重叠的SNP。应当理解，当选择用于评估的SNP时，相同的SNP将不被选择两次。为方便起见，表6中的SNP已经分成表7和8。表7列出了高加索人、非洲裔美国人和西班牙人群体共有的SNP。表8列出了高加索人、非洲裔美国人和西班牙人群体不共有的SNP。

在另一实施方案中，对72至88、73至87、74至86、75至85、76至84、75至83、76至82、77至81、78至80个单核苷酸多态性进行评估，其中对表7中所示的至少60个、至少61个、至少62个、至少63个、至少64个、至少65个、至少66个、至少67个、至少68个、至少69个、至少70个SNP或与其中一个或多个连锁不平衡的单核苷酸多态性进行评估，且其余任何SNP选自表6或与其中一个或多个连锁不平衡的单核苷酸多态性。

在一个实施方案中，所评估的SNP的数目基于使用净重新分类指数(NRI)计算的风险预测的净重新分类改进(Pencina等，2008)。

在一个实施方案中，本公开方法的净重新分类改进大于0.01。

在另一实施方案中，本公开方法的净重新分类改进大于0.05。

在又一实施方案中，本公开方法的净重新分类改进大于0.1。

在另一实施方案中，遗传风险评估是通过分析受试者90个或更多个基因座处有关与乳腺癌相关的单核苷酸多态性的基因型来进行。在另一实施方案中，遗传风险评估是通过分析受试者100、200、300、400、500、600、700、800、900、1,000、5,000、10,000、50,000、100,000个或更多个基因座处有关与乳腺癌相关的单核苷酸多态性的基因型来进行。在这些实施方案中，一个或多个SNP可选自表6至11。

族群基因型变化

本领域技术人员已知不同群体之间存在基因型变化。这种现象被称为人类遗传变化。不同族群背景的群体之间经常观察到人类遗传变化。这种变化很少是一致的，且通常由环境和生活方式因素的各种组合决定。由于遗传变化，通常很难鉴定在不同群体(诸如来自不同族群背景的群体)之间保持信息性的遗传标志物(诸如SNP)群体。

本文公开了至少三种族群背景所共有的SNP的选择，这些SNP对于评估发展乳腺癌的风险保留信息性。

在一个实施方案中，本公开的方法可用于评估来自各种族群背景的人类女性受试者发展乳腺癌的风险。例如，根据体质人类学，女性受试者可分为高加索人、澳大利亚人、蒙古人和黑种人。

在一个实施方案中，人类女性受试者可以是高加索人、非洲裔美国人、西班牙人、亚洲人、印度人或拉丁美洲人。在一个优选实施方案中，人类女性受试者是高加索人、非洲裔美国人或西班牙人。因此，族群可以作为临床和/或遗传风险评估的一部分考虑进去。

在一个实施方案中，人类女性受试者是高加索人，且对选自表9的至少72个、至少73个、至少74个、至少75个、至少76个、至少77个单核苷酸多态性或与其连锁不平衡的单核苷酸多态性进行评估。或者，对选自表9的至少77个单核苷酸多态性或与其连锁不平衡的单核苷酸多态性进行评估。

在另一实施方案中，人类女性受试者可以是黑种人，且对选自表10的至少74个、至少75个、至少76个、至少77个、至少78个单核苷酸多态性或与其连锁不平衡的单核苷酸多态性进行评估。或者，对选自表10的至少78个单核苷酸多态性或与其连锁不平衡的单核苷酸多态性进行评估。

在另一实施方案中，人类女性受试者可以是非洲裔美国人，且对选自表10的至少74个、至少75个、至少76个、至少77个、至少78个单核苷酸多态性或与其连锁不平衡的单核苷酸多态性进行评估。或者，对选自表10的至少78个单核苷酸多态性或与其连锁不平衡的单核苷酸多态性进行评估。

在另一实施方案中，人类女性受试者可以是西班牙人，且对选自表11的至少78个、至少79个、至少80个、至少81个、至少82个单核苷酸多态性或与其连锁不平衡的单核苷酸多态性进行评估。或者，对选自表11的至少82个单核苷酸多态性或与其连锁不平衡的单核苷酸多态性进行评估。

众所周知，随着时间的推移，存在不同族群来源的混血。然而，实际上这并不影响技术人员实践本发明的能力。

在本公开的上下文中，认为主要为直接或间接通过血统源自欧洲的白皮肤女性受试者是高加索人。高加索人可具有例如至少75％的高加索人血统(例如但不限于具有至少三位高加索人祖父母的女性受试者)。

在本公开的上下文中，认为主要为直接或间接通过血统源自中部或南部非洲的女性受试者是黑种人。例如，黑种人可具有至少75％的黑种人血统。在本公开的上下文中，认为主要有黑种人血统和黑皮肤的美国女性受试者是非洲裔美国人。例如，非洲裔美国人可具有至少75％的黑种人血统。类似的原则适用于例如生活在其它国家(例如英国、加拿大及荷兰)的黑种人血统的女性。

在本公开的上下文中，认为主要为直接或间接通过血统源自西班牙或西班牙语国家(例如中部或南部美国)的女性受试者是西班牙人。例如，西班牙人可具有至少75％的西班牙人血统。

术语“族群”及“种族”在本公开的上下文中可互换使用。在一个实施方案中，遗传风险评估可以根据受试者认为自己属于哪个族群而容易地实践。因此，在一个实施方案中，人类女性受试者的族群由受试者自我报告。例如，可以要求女性受试者回答这个问题来确定她们的族群：“你属于什么族群团体？”。在另一实例中，女性受试者的族群来自从受试者或从临床医师的意见或观察获得合适的知情同意后的医疗记录。

计算复合SNP相对风险“SNP风险”

个体的复合SNP相对风险评分(“SNP风险”)可以定义为评估的每个SNP的基因型相对风险值的乘积。然后可以使用对数加和风险模型来定义在罕见疾病模型的情况下具有相对风险值为1、OR和OR²的单个SNP的三种基因型AA、AB和BB，其中OR为针对高风险等位基因B相对于低风险等位基因A的先前报道的疾病让步比。如果等位基因B频率为(p)，那么这些基因型的群体频率为(1-p)²、2p(1-p)和p²，假设Hardy-Weinberg平衡。然后可以对每个SNP的基因型相对风险值进行按比例调整，以便根据这些频率，群体中的平均相对风险为1。具体而言，假设未按比例调整的群体平均相对风险：

(μ)＝(1-p)²+2p(1-p)OR+p²OR²

调整后的风险值1/μ、OR/μ和OR²/μ用于AA、AB和BB基因型。丢失的基因型被分配相对风险为1。

可以对非SNP多态性进行类似的计算。

组合的临床风险×遗传风险

可以设想，人类女性受试者发展乳腺癌的“风险”可以根据需要作为相对风险(或风险比)或绝对风险来提供。在一个实施方案中，将临床风险评估与遗传风险评估相结合，以获得人类女性受试者发展乳腺癌的“绝对风险”。绝对风险是人类女性受试者在特定时期(例如5年、10年、15年、20年或更长时间)内发展乳腺癌的数值概率。它反映了人类女性受试者发展乳腺癌的风险，因为它不考虑孤立的各种风险因素。

将临床风险评估与遗传风险评估相结合以获得人类女性受试者发展乳腺癌的“绝对风险”的一个实例涉及使用以下公式：

abs_risk＝mortsuv(1-exp(-RRxSNP(incid_5-incid_age)))

其中RR＝与具有患乳腺癌的一级亲属相关的相对风险，SNP是通过遗传风险评估确定的复合SNP相对风险，incid_age是当前(基线)年龄时的乳腺癌发病率，incid_5是基线+5年时的乳腺癌发病率，mortsurv是由乳腺癌以外的原因引起的竞争性死亡率。

乳腺癌发病率及竞争性死亡率数据可从各种来源获得。在一个实例中，这些数据是从美国监测、流行病学和最终结果计划(SEER)数据库获得。

在一个实施方案中，上述公式中使用族群特异性乳腺癌发病率及竞争性死亡率数据。在一个实例中，族群特异性乳腺癌发病率及竞争性死亡率数据也可以从SEER数据库获得。

可以使用各种合适的数据库来计算与女性受试者乳腺癌家族史相关的相对风险。Cancer，Collaborative Group on Hormonal Factors in Breast Cancer(CGoHFiB)提供了一个实例。在另一实施例中，可从Seer数据库(Siegel等，2016)获得相关人口统计。

在另一实施方案中，将临床风险评估与遗传风险评估相结合，以获得人类女性受试者发展乳腺癌的“相对风险”。相对风险(或风险比)测量为具有特定特征(或暴露)的个体的疾病发病率除以没有该特征的个体的疾病发病率，表明该特定暴露是增加还是减少风险。相对风险有助于鉴别与疾病相关的特征，但其本身并不是特别有助于指导筛查决策，因为风险的频率(发病率)被抵消了。

将临床风险评估与遗传风险评估相结合，以获得人类女性受试者发展乳腺癌的“风险”，可以使用以下公式：

[风险(即临床评价×SNP风险)]＝[临床评价风险]×SNP₁×SNP₂×SNP₃×SNP₄×SNP₅×SNP₆×SNP₇×SNP_x等。

当临床评价是临床评价提供的风险评分，而SNP₁至SNP_x是各个SNP的相对风险评分时，各自按比例调整至具有如上所述的群体平均数为1。由于SNP风险评分已被“集中”为群体平均风险为1，如果假设SNP之间独立，则综合评分的所有基因型的群体平均风险与潜在的临床评价风险估计一致。

在一个实施方案中，通过[5年风险评分]×[一级亲属5年乳腺癌家族史风险评分]×SNP₁×SNP₂×SNP₃×SNP₄×SNP₅×SNP₆×SNP₇×SNP_x等计算人类女性受试者发展乳腺癌的风险。

在另一实施方案中，通过[终生年龄风险评分]×[一级亲属终生乳腺癌家族史风险评分]×SNP₁×SNP₂×SNP₃×SNP₄×SNP₅×SNP₆×SNP₇×SNP_x等计算人类女性受试者发展乳腺癌的风险。

在一个实施方案中，使用风险[临床5年风险×SNP风险]来确定是否应向受试者提供化学预防剂以降低受试者风险。例如，可以使用风险[临床5年风险×SNP风险]来确定是否应向受试者提供雌激素受体疗法以降低受试者风险。在此实施方案中，风险的阈值水平优选为对于5年风险而言>1.66％。

在另一实施方案中，使用风险[临床终生风险×SNP风险]来确定受试者是否应纳入筛查乳房MRIc及乳房X线照相程序。在此实施方案中，阈值水平优选大于约(20％终生风险)。

治疗

在进行本公开的方法之后，可以向受试者处以或施用治疗。

因此，在一个实施方案中，本公开的方法涉及一种用于预防或降低有乳腺癌风险的人类受试者发展乳腺癌的风险的抗癌疗法。

本领域技术人员将理解，乳腺癌是具有不同临床结果的异质性疾病(Sorlie等，2001)。例如，本领域中已经讨论了乳腺癌可能是雌激素受体阳性或雌激素受体阴性。在一个实施方案中，不设想将本公开的方法限于评估发展特定类型或亚型乳腺癌的风险。例如，设想本公开的方法可用于评估发展雌激素受体阳性或雌激素受体阴性乳腺癌的风险。在另一实施方案中，本公开的方法用于评估发展雌激素受体阳性乳腺癌的风险。在另一实施方案中，本公开的方法用于评估发展雌激素受体阴性乳腺癌的风险。在另一实施方案中，本公开的方法用于评估发展转移性乳腺癌的风险。在一个实例中，向受试者处以或施用抑制雌激素的疗法。

在另一实例中，向受试者处以或施用化学预防剂。目前主要有两类用于乳腺癌化学预防的药物：

(1)选择性雌激素受体调节剂(SERM)，其阻断雌激素分子与其缔合细胞受体结合。这类药物包括例如他莫昔芬(Tamoxifen)和雷洛昔芬(Raloxifene)。

(2)芳香酶抑制剂，其通过芳香酶酶抑制雄激素转化成雌激素，减少雌激素的产生。这类药物包括例如依西美坦(Exemestane)、来曲唑(Letrozole)、阿那曲唑(Anastrozole)、伏氯唑(Vorozole)、凡士林(Formestane)、法倔唑(Fadrozole)。

在一个实例中，向受试者处以或施用SERM或芳香酶抑制剂。

在一个实例中，向受试者处以或施用他莫昔芬、雷洛昔芬、依西美坦、来曲唑、阿那曲唑、伏氯唑、凡士林或法倔唑。

在一个实施方案中，本公开的方法用于评估人类女性受试者发展乳腺癌的风险并施用适于发展乳腺癌风险的治疗。例如，当进行本公开的方法指示乳腺癌的高风险时，可以建立浸润性化学预防治疗方案。相比之下，当进行本公开的方法指示乳腺癌的中度风险时，可以建立不那么具有浸润性的化学预防治疗方案。或者，当进行本公开的方法指示乳腺癌的风险低时，不需要建立化学预防治疗方案。设想本公开的方法可以随时间进行，使得可以根据受试者发展乳腺癌的风险来改进治疗方案。

标志物检测策略

在本公开中可以使用用于扩增标志物(例如，标志物基因座)的扩增引物和用于检测这样的标志物或者相对于多个标志物等位基因对样品进行基因分型的合适的探针。例如，长程PCR的引物选择描述于US 10/042,406和US 10/236,480中；对于短程PCR，US 10/341,832提供了关于引物选择的指导。此外，还有可用于引物设计的公开程序例如“Oligo”。利用这样的可用的引物选择和设计软件，可公开获得的人类基因组序列和多态性位点，技术人员可以构建引物来扩增SNP以实施本公开。此外，应当理解，用于检测包含SNP的核酸的精确探针(例如，包含SNP的扩增子)可以变化，例如可以鉴定要检测的标志物扩增子区域的任何探针可以结合本公开使用。此外，检测探针的配置当然可以变化。因此，本公开不限于本文所述的序列。

实际上，应当理解，标志物检测不要求扩增，例如可以简单地通过对基因组DNA样品进行Southern印迹来直接检测未扩增的基因组DNA。

通常，通过本领域可获得的任何已建立的方法检测分子标志物，包括但不限于等位基因特异性杂交(ASH)、单核苷酸延伸检测、阵列杂交(任选地包括ASH)或用于检测单核苷酸多态性(SNP)的其它方法、扩增片段长度多态性(AFLP)检测、扩增可变序列检测、随机扩增多态性DNA(RAPD)检测、限制性片段长度多态性(RFLP)检测、自我维持序列复制检测、简单序列重复(SSR)检测和单链构象多态性(SSCP)检测。

可用于扩增包含与乳腺癌相关的SNP的核酸的低聚核苷酸引物的实例在表5中提供。如本领域技术人员将理解的，这些低聚核苷酸杂交的基因组区的序列可用于设计在5'和/或3'端更长的引物，可能在5'和/或3'处更短(只要截短的形式仍可用于扩增即可)，其具有一个或几个核苷酸差异(但是仍然可以用于扩增)，或者与所提供的那些不具有序列相似性，但是基于接近特异性提供的低聚核苷酸杂交的基因组序列设计，并且仍然可以用于扩增。

在一些实施方案中，本公开的引物被放射性标志物标记，或通过任何合适的方法(例如，使用非放射性荧光标签)标记，以允许在扩增反应后快速可视化不同大小的扩增子，而无需任何另外的标记步骤或可视化步骤。在一些实施方案中，引物未被标记，并且扩增子在其大小分辨(size resolution)之后可视化，例如在琼脂糖或丙烯酰胺凝胶电泳之后。在一些实施方案中，尺寸分辨后的PCR扩增子的溴化乙锭染色允许不同大小的扩增子的可视化。

表5.可用于本公开的低聚核苷酸引物的实例。

本公开的引物并非意图限于产生任何特定大小的扩增子。例如，用于扩增本文的标志物基因座和等位基因的引物不限于扩增相关基因座或其任何子区域的整个区域。引物可以产生用于检测的任何合适长度的扩增子。在一些实施方案中，标志物扩增产生长度为至少20个核苷酸或者长度为至少50个核苷酸、或者长度为至少100个核苷酸或长度为至少200个核苷酸的扩增子。可以使用本文所述的各种技术来检测任何尺寸的扩增子。基本组成或大小的差异可以通过常规方法(例如，电泳)来检测。

用于检测遗传标志物的一些技术利用探针核酸与对应于遗传标志物的核酸(例如，使用基因组DNA作为模板产生的扩增的核酸)进行杂交。杂交形式包括但不限于：溶液相、固相、混合相或原位杂交测定可用于等位基因检测。核酸杂交的详细指导见于Tijssen(1993)Laboratory Techniques in Biochemistry and Molecular Biology--Hybridization with Nucleic Acid Probes Elsevier，New York，以及Sambrook等(同上)。

根据本公开，也可以使用双标记荧光寡核苷酸探针(通常称为“TaqMan^TM”探针)进行PCR检测。这些探针由用两种不同荧光染料标记的短(例如，20-25个碱基)寡脱氧核苷酸组成。每个探针的5'末端是报道染料，在每个探针的3'末端发现淬灭染料。寡核苷酸探针序列与存在于PCR扩增子中的内部靶序列互补。当探针完好无损时，能量转移发生在两个荧光团之间，来自报道分子的发射通过FRET由猝灭剂淬灭。在PCR的延伸阶段，探针被反应中使用的聚合酶的5'核酸酶活性切割，从而从寡核苷酸猝灭剂释放报道分子并产生报道分子发射强度的增加。因此，TaqMan^TM探针是具有标记和猝灭剂的寡核苷酸，其中通过用于扩增的聚合酶的外切核酸酶作用在扩增期间释放标记。这提供了合成期间扩增的实时测量。各种TaqMan^TM试剂可商购，例如购自Applied Biosystems(加利福尼亚州福斯特市的总部)以及购自各专业生产商例如Biosearch Technologies(例如，黑洞淬灭剂探针)。关于双标记探针策略的进一步细节可以在例如WO 92/02638中找到。

其它类似方法包括例如两个相邻杂交探针之间的荧光共振能量转移，例如使用US6,174,670中描述的“Light”形式。

基于阵列的检测可以使用可商购的阵列进行，例如来自Affymetrix(SantaClara，Calif)或其他制造商。关于核酸阵列的操作的评论包括Sapolsky等(1999)；Lockhart(1998)；Fodor(1997a)；Fodor(1997b)和Chee等(1996)。由于基于阵列的检测具有固有的高通量性质，基于阵列的检测是样品中公开内容的鉴定标志物的一种优选方法。

待分析的核酸样品被分离、扩增，并且通常用生物素和/或荧光报道基团标记。然后使用流控平台和杂交烘箱将标记的核酸样品与阵列一起孵育。根据检测方法，可以对阵列进行洗涤和/或染色或反染色。杂交、洗涤和染色后，将阵列插入到扫描仪中，其中检测到杂交模式。从已经掺入标记的核酸的荧光报道基团发射的光中收集杂交数据，其现在与探针阵列结合。与标记的核酸最明显匹配的探针产生比具有不匹配的信号更强的信号。由于阵列上每个探针的序列和位置是已知的，通过互补性可以鉴定应用于探针阵列的核酸样品的性质(identity)。

使标志物与表型关联

这些关联可以通过能够鉴定等位基因与表型之间的关系或等位基因的组合与表型的组合的任何方法来进行。例如，本文定义的基因或基因座中的等位基因可以与一种或多种乳腺癌表型相关。最通常地，这些方法涉及参考包括多态性的等位基因与表型之间的相关性的查找表。该表可以包括多个等位基因-表型关系的数据，并且可以考虑多个等位基因-表型关系的加和或其他更高阶的影响，例如通过使用诸如主成分分析、启发式算法等的统计工具。

标志物与表型的关联任选地包括进行一个或多个统计学测试以关联。许多统计学测试是已知的，大多数是计算机实现的，以便于分析。确定表型性状与生物标志物之间的相关/关联的各种统计方法是已知的，并且可以应用于本公开(Hartl等，1981)。在Lynch和Walsh(1998)中描述了各种适当的统计模型。例如，这些模型可以提供基因型和表型值之间的相关性、表征基因座对表型的影响、整理环境和基因型之间的关系、确定基因的优势或外显率、确定母体和其他表观遗传效应、确定分析中的主要组件(通过主成分分析或“PCA”)等。这些文本献中引用的参考文献提供了关于标志物和表型相关性的统计模型的更多细节。

除了用于确定相关性的标准统计方法之外，可以使用通过模式识别和训练确定相关性的其他方法，例如遗传算法的使用，以确定标志物和表型之间的相关性。当鉴定多个等位基因与多个表型之间的高阶相关性时，这特别有用。为了说明，神经网络方法可以连接到遗传算法类型编程，用于启发式开发结构函数数据空间模型，其确定遗传信息与表型结果之间的相关性。

在任何情况下，基本上任何统计测试都可以应用在计算机实现模型中，通过标准编程方法，或者使用进行这样的统计分析的各种“现成”软件包中的任何一种，包括例如上述那些例如，可以从Partek Incorporated(St.Peters，Mo.；www.partek.com)购买，例如提供用于模式识别的软件(例如，提供了Partek Pro 2000模式识别软件的)。

关于关联研究的其他细节可以参见US 10/106,097、US10/042,819、US 10/286,417、US 10/768,788、US 10/447,685、US10/970,761和US 7,127,355。

用于进行上述关联的系统也是本公开的特征。通常，该系统将包括将等位基因的存在或不存在(无论是直接检测或例如通过表达水平)与预测表型相关联的系统说明。

任选地，系统说明还可以包括接受与任何检测到的等位基因信息相关联的诊断信息的软件，例如具有相关等位基因的受试者具有特定表型的诊断。该软件本质上可以是启发式的，使用这样的输入关联来提高查询表的精确度和/或系统对查找表的解释。上文描述了各种这样的方法，包括神经网络、马尔科夫模型(Markov modelling)和其他统计分析。

多态性图谱分析

本公开提供了确定本公开(例如表6)中概述的SNP或与其中一个或多个连锁不平衡的SNP处的个体的多态性图谱分析的方法。

多态性图谱构成占据个体各种多态性位点的多态性。在二倍体基因组中，两个彼此相同或不同的多态性形式通常占据每个多态性位点。因此，位置X和Y处的多态性图谱可以以X(x1，x1)和Y(y1，y2)的形式表示，其中x1，x1表示等位基因x1占据位点X和y1的两个拷贝，y2表示占据位点Y的杂合等位基因。

可以通过与在每个位点处发生的对乳腺癌的抗性或易感性相关的多态性形式进行比较来评估个体的多态性图谱。该比较可以在至少例如1、2、5、10、25、50或全部多态性位点，以及任选地其它与它们连锁不平衡的情况下进行。多态性位点可以与其他多态性位点结合进行分析。

多态性图谱分析例如在选择试剂以影响给定个体中乳腺癌的治疗或预防方面有用。具有相似多态性的个体可能以类似的方式响应于药剂。

多态性图谱分析也可用于被测试在治疗乳腺癌或相关病症能力的药剂的临床试验中对个体进行分层。对具有相似或相同多态性图谱的经治疗群体或对照群体进行这样的试验(参见EP 99965095.5)，例如，指示个体具有增加的发展乳腺癌的风险的多态性图谱。遗传匹配的群体的使用消除或减少由于遗传因素导致的治疗结果的变化，从而更准确地评估潜在药物的功效。

多态性图谱也可用于从临床试验中排除不具有乳腺癌倾向的个体。在试验中包括这样的个体增加了获得统计学显着结果所需群体的大小。可以通过如上所述确定多态性图谱中的抗性和易感性等位基因的数目来鉴定不具有乳腺癌倾向的个体。例如，如果针对受试者在10个与乳腺癌相关的公开基因中的10个位点进行基因分型，则总共确定了20个等位基因。如果超过50％、或者超过60％或75％的这些是抗性基因，个体不太可能发展乳腺癌，并且可以从试验中排除。

在其它实施方案中，可以使用多态性图谱分析与其他分层方法结合来实现对临床试验中的个体进行分层，所述分层方法包括但不限于风险模型(例如，Gail评分、Claus模型)、临床表型(例如，非典型病变、乳腺密度)和特异性候选物标志物。

计算机实现方法

设想本公开的方法可以通过诸如计算机实现方法的系统来实现。例如，该系统可以是包括一个或多个处理器的计算机系统，其可以连接到存储器一起操作(为了方便起见而被称为“处理器”)。存储器可以是非暂时的计算机可读介质，例如硬盘驱动器、固态盘或CD-ROM。软件，即可执行指令或程序代码，例如分组到代码模块中的程序代码，可以存储在存储器中，并且可以在处理器执行时使计算机系统执行诸如确定任务以帮助用户确定人类女性受试者发展乳腺癌的风险的功能；接收表示发展乳腺癌的女性受试者的临床风险和遗传风险的数据，其中所述遗传风险是通过在源自所述女性受试者的生物样品中检测至少72个与乳腺癌相关的单核苷酸多态性得出的，其中至少67个单核苷酸多态性选自表7，或与其中一个或多个连锁不平衡的单核苷酸多态性，且其余单核苷酸多态性选自表6，或与其中一个或多个连锁不平衡的单核苷酸多态性；处理数据以将临床风险与遗传风险评估相结合从而获得人类女性受试者发展乳腺癌的风险；输出发展乳腺癌的人类女性受试者的风险。

例如，存储器可以包括程序代码，当由处理器执行程序代码时，系统确定至少72个与乳腺癌相关的单核苷酸多态性，其中至少67个单核苷酸多态性选自表7，或与其中一个或多个连锁不平衡的单核苷酸多态性，且其余单核苷酸多态性选自表6，或与其中一个或多个连接不平衡的单核苷酸多态性，或接收指示与乳腺癌相关的至少72个单核苷酸多态性的数据，其中至少67个单核苷酸多态性选自表7，或与其中一个或多个连接不平衡的单核苷酸多态性，且其余单核苷酸多态性选自表6，或与其中一个或多个连锁不平衡的单核苷酸多态性；处理数据将临床风险与遗传风险评估相结合以获得人类女性受试者发展乳腺癌的风险；报道人类女性受试者发展乳腺癌的风险。

在另一实施方案中，系统可以连接到用户界面，以使得系统能够从用户接收信息和/或输出或显示信息。例如，用户界面可以包括图形用户界面、语音用户界面或触摸屏。

在一个实施方案中，程序代码可以使系统确定“SNP风险”。

在一个实施方案中，程序代码可以使系统确定综合临床评估×遗传风险(例如SNP风险)。

在一个实施方案中，系统可以被配置为通过诸如无线通信网络的通信网络与至少一个远程设备或服务器进行通信。例如，系统可以被配置为通过通信网络从设备或服务器接收信息，并且通过通信网络将信息发送到相同或不同的设备或服务器。在另一些实施方案中，系统可以与直接用户交互隔离。

在另一实施方案中，进行本公开的方法来评估人类女性受试者发展乳腺癌的风险，使得能够基于女性受试者发展乳腺癌的临床风险和遗传风险建立诊断或预后规则。例如，诊断或预后规则可以基于综合临床评估×SNP风险评分相对于风险的对照、标准或阈值水平。

在一个实施方案中，风险的阈值水平是美国癌症协会(ACS)指南针对筛查乳腺MRIc和乳房X线照相术推荐的水平。在该实例中，阈值水平优选地大于约(20％终生风险)。

在另一实施方案中，风险的阈值水平是美国临床肿瘤学会(ASCO)推荐的用于提供雌激素受体疗法以降低受试者风险的水平。在该实施方案中，风险的阈值水平优选为(5年风险的GAIL指数>1.66％)。

在另一实施方案中，诊断或预测规则基于统计和机器学习算法的应用。这种算法使用SNP群体与训练数据(已知疾病状态)观察到的疾病状态之间的关系来推断关系，然后用这些关系确定在具有未知风险的受试者中人类女性受试者发展乳腺癌的风险。使用一种提供人类女性受试者发展乳腺癌的风险的算法。该算法进行多变量或单变量分析功能。

指示乳腺癌风险的单核苷酸多态性

指示乳腺癌风险的SNP的实例如表6所示。77个SNP在高加索人中具有信息性，78个SNP在非洲裔美国人中具有信息性，且82个SNP在西班牙人中具有信息性。70个SNP在高加索人、非洲裔美国人及西班牙人中具有信息性(由水平条纹图案表示；也参见表7)。其余18个SNP(见表8)在高加索人(由深色格子图案表示；也参见表9)、非洲裔美国人(由向下对角条纹图案表示；也参见表10)和/或西班牙人(由网格图案表示；也参见表11)中都具有信息性。

表6.指示乳腺癌风险的SNP(n＝88)

表7.高加索人、非洲裔美国人及西班牙人群体中共有的SNP(n＝70)

表8.高加索人、非洲裔美国人及西班牙人群体中不共有的SNP(n＝18)

图例

表9.高加索人SNP(n＝77)。等位基因表示为主要/次要(例如，rs616488A是常见的等位基因并且G不那么常见)。OR次要等位基因数低于1意指次要等位基因并非风险等位基因，而当大于1时，次要等位基因是风险等位基因。

表10.非洲裔美国人SNP(n＝78)。等位基因表示为风险/参照(非风险)(例如rs616488A是风险等位基因)。

表11.西班牙人SNP(n＝82)。等位基因表示为主要/次要(例如，rs616488A是常见的等位基因，而G不那么常见)。OR次要等位基因低于1意指次要等位基因不是风险等位基因，而当高于1时，次要等位基因是风险等位基因。

实施例

实施例1–风险阈值

乳腺癌风险评估是重要的，因为它可以识别处于高风险中可能受益于目标筛查或预防措施(De la Cruz，2014；Advani and Morena-Aspitia，2014)的妇女。遗传和环境因素两者都被认为在乳腺癌的多因素易感性中起作用(Lichtenstein等，2000；Mahoney等，2008)。为了最佳地评估风险，两个成分一起考虑。目前，乳腺癌风险通常通过利用国家癌症研究所(NCI)乳腺癌风险评估工具(BCRAT)(通常称为“Gail模型”(Gail等，1989；Costantino等，1999；Rockhill等，2001)进行评估。BCRAT纳入了与个人历史相关的若干风险因素，并纳入了一些家族史信息。

目前的模型采用预约医师提供的信息来计算Gail评分，并将其与患者乳腺癌的常见遗传标志物结合起来，以产生整体终生和5年患者风险(图1所示实例)乳腺癌评估。推荐接受适当的遗传或临床咨询来解释测试结果的意义。美国癌症协会(ACS)指南推荐对高风险(20％终生风险)的妇女筛查乳腺MRIc和乳房X线照相术。美国临床肿瘤学会(ASCO)建议高风险妇女(GAIL指数>5年风险为1.66％)可能会提供雌激素受体疗法以降低其风险。

遗传风险评估通过评估来自颊细胞样品的遗传信息提供了关于女性发展乳腺癌风险的更多重要信息。该测试检测SNP。对这些不同遗传位点进行分析(基因分型)，其中每一个已被显示出可重现性，以修改个体发展乳腺癌的几率。科学验证研究支持结合SNP风险的简单乘法模型(Mealiffe等，2010)。

实施例2–SNP风险评分与所选临床信息的结合

存在几种流行的乳腺癌风险预测模型。这些模型包括BOADICEA(Antoniou等，2008及2009)及BRCAPRO(Chen等，2004；Mazzola等，2014；Parmigianin等，1998)，两者均基于乳腺癌和卵巢癌的谱系数据；Gail模型(BCRAT)(Costantino等，1999；Gail等，1989)，其基于已建立的乳腺癌风险因素和以乳腺癌一级亲属数目所代表的家族史；及Tyrer-Cuzick模型(IBIS)(Tyrer等，2004)，其结合关于乳腺癌的家族和个人风险因素的信息。

输入风险预测算法的数据点应尽可能客观，以限制‘噪音’并加强测试的可信度。虽然SNP是一个客观的衡量标准，但患者通常会自我报告上述临床评估的风险因素。

一项性能改进研究旨在(1)鉴定和确认临床实验室样品内自我报告风险因素的一致性和可靠性，以及(2)验证一项仅使用最可靠的自我报告风险因素与SNP图谱分析相结合的测试(‘增强’测试)。

输入Gail模型问题中的缺失或“未知”信息是从2,282名非洲裔美国妇女、高加索妇女和西班牙裔美国妇女的去识别测试申请表中获得的，这些妇女以前曾接受过BREVAGenplus(Phenogen Sciences)商业乳腺癌风险评估测试。

表12显示了来自性能改进研究的数据。大约16％(n＝2,339)的Gail特异性信息缺失(或回答为未知)。最常缺失的信息是初潮年龄，且4.4％完成Gail模型问卷的妇女无法给出答案。第二最常缺失(或未知)的信息问题与患者是否至少有一次非典型增生活检有关。其他Gail问题信息缺失占不到4％，且患者年龄和族群没有缺失信息(表12)。

可能会出现信息缺失，因为一些问题依赖于几十年前的记忆(第一次月经)，而其它问题则需要患者的医疗水平和/或实际病理学报告(非典型增生)。此外，对于那些输入数据而不是‘未知’数据的人来说，这就对输入算法中的数据的准确性提出了质疑。例如，非典型增生是否存在是乳腺癌风险评估的一个重要因素(相对风险>4.0)。

表12：来自Gail模型风险因素字段的缺失数据

Gail模型输入	具有缺失信息的字段的％(n)
		患者年龄	0.0％
初潮年龄	4.4％
		首次活产时的年龄	1.3％
患乳腺癌的一级亲属	2.7％
		曾经做过乳腺活检吗	1.1％
做过多少次乳腺活检	2.4％
		至少一次活检有非典型增生	4.0％
族群	0.0％
		具有缺失信息的总字段	15.9％

如果在临床风险评估中使用所有Gail字段，不完整的数据或者很可能是不正确的数据将会影响风险评估评分的性能。

为了克服一些Gail问题中与患者输入缺失/未知数据相关的限制，采用了一种只需要患者年龄和乳腺癌家族史的修正模型。该模型被称为简单临床风险(SCR)模型。

对2,282名接受过BREVAGenplus风险评估且家族史问题已完成的妇女进行了Gail模型加SNP风险与SCR模型加SNP风险之间的风险评估的比较。

基于已公布的一级亲属受影响的相对风险值，并考虑进除乳腺癌之外的其它原因导致死亡的竞争风险，创建乳腺癌的5年绝对临床风险。族群特异性乳腺癌发病率和竞争性死亡率数据来自美国SEER数据库(SEER 2013年研究数据)。

假设对数OR标度上的独立和加和风险，使用每个等位基因的让步比(OR)和风险等位基因频率(p)的估计值计算基于SNP的(相对)风险评分。对于每个SNP，未按比例调整的群体平均风险计算为μ＝(1–p)²+2p(1–p)OR+p²OR²。对于由风险等位基因数(0、1或2)定义的三种基因型，调整后的风险值(群体平均风险等于1)计算为1/μ、OR/μ和或OR²/μ。然后通过将77个SNP中的每一个的调整后的风险值相乘来计算基于SNP的总体风险评分。

针对所有分析，对临床模型风险评分、基于所公布估计值的基于SNP的评分及合并的风险评分进行对数转换。使用逻辑回归来估计对数转换年龄调整的5年风险的每调整标准偏差的让步比。对上述2,282个患者样品(不包括1级相对响应缺失或未知的患者)且使用双侧学生t检验进行了Gail模型加SNP风险与SCR模型加SNP风险之间5年风险估计值的对比分析。

使用如先前(Allman等，2015；Dite等，2016)所述的接受者操作特征曲线下面积(AUC)，针对1,150名高加索妇女和7,539名非洲裔美国妇女和3,363名西班牙妇女，对单独SCR模型、单独SNP风险和SCR模型加SNP风险进行了鉴别度分析。

虽然Gail模型加SNP风险的风险评分范围更广(图2a)，但Gail模型加SNP风险的绝对5年风险分布(中值评分为1.60，图2a)与SCR模型加SNP风险的绝对5年风险分布(中值评分为1.61，图2a)非常相似。双尾t检验表明，每个模型之间的平均风险评分没有显著(P＝0.8441)差异(图2b)。这表明，与Gail模型相比，SCR模型中所用临床信息量的减少对乳腺癌风险评估没有显著大的影响。

这些数据表明，仅将临床信息截短为两个临床变量并不会损害算法的完整性，而且这种简单得多的问卷使得医师更容易准确高效地记录患者数据。这种提高的且更高效的患者吞吐量非常重要，因为目前美国预防服务工作组(United States PreventiveServices Task Force，USPSTF)关于降低风险的建议表明，如果ALL妇女基于家族史或其它高风险因素(诸如暴露于辐射)不能摆脱风险，则应进行乳腺癌风险评估。

美国临床肿瘤学会将高风险妇女定义为5年风险为1.67％或以上的妇女，而USPSTF则使用3％的阈值来定义高风险妇女(Visvanathan等，2009；Moyer等，2013)。目前对2,282名美国非洲裔美国妇女、高加索妇女和西班牙妇女的分析揭示，当使用Gail模型和SNP风险(数据未显示)时，48.2％的患者超过了1.67％的5年高风险阈值，21.9％的患者超过了3.0％的5年高风险阈值。类似地，使用SCR模型和SNP风险就1.67％和3％的阈值而言，分别将2,282名非洲裔美国妇女、高加索妇女和西班牙妇女中的48.2％和18.8％归类为高风险。这些发现重申了更高效的患者吞吐量的重要性，因为有大量的人需要进行筛查。

实施例3–改进的风险评估的验证

进行ROC分析，以确定与使用单独SCR模型的预测相比，将SNP风险添加到SCR模型预测中是否能改进乳腺癌预测。当仅使用SNP进行风险预测时，非洲裔美国人的AUC为0.55(95％CI＝0.53，0.58)，高加索人为0.61(95％CI＝0.58，0.65)，西班牙人为0.59(95％CI＝0.54，0.64)(表13)。当仅使用SCR进行风险预测时，非洲裔美国人的AUC为0.53(95％CI＝0.50，0.56)，高加索人为0.59(95％CI＝0.55，0.62)，西班牙人为0.55(95％CI＝0.50，0.59)。然而，当将SCR模型与SNP风险结合使用时，AUC在风险预测方面最高，其中非洲裔美国人的值为0.57(95％CI＝0.54，0.60)，高加索人的值为0.64(95％CI＝0.61，0.67)，西班牙人的值为0.60(95％CI＝0.55，0.65)(表13)。因此，ROC分析证实，在非洲裔美国妇女(图3a)、高加索妇女(图3b)和西班牙妇女(图3c)中，与使用单独SCR模型相比，SCR模型与SNP风险结合产生更大的鉴别力。

表13：使用不同模型进行的风险预测中的AUC及95％置信区间(CI)。

对数转换的风险评分	AUC	(95％CI)
			高加索人(n＝1,155)
仅SNP风险	0.61	(0.58，0.65)
			仅SCR模型	0.59	(0.55，0.62)
SCR和SNP风险	0.64	(0.61，0.67)
			非洲裔美国人(n＝7,470)
仅SNP风险	0.55	(0.53，0.58)
			仅SCR模型	0.53	(0.50，0.56)
SCR和SNP风险	0.57	(0.54，0.60)
			西班牙人(n＝3,348)
仅SNP风险	0.59	(0.54，0.64)
			仅SCR模型	0.55	(0.50，0.59)
SCR和SNP风险	0.60	(0.55，0.65)

阳性似然比(LR)是测试结果呈阳性的妇女将发展乳腺癌的可能性。作为SCR模型加SNP风险预测乳腺癌风险能力的另一衡量标准，阳性似然比是使用3％USPSTF高风险阈值作为阳性乳腺癌预测阈值来计算的。如果非洲裔美国人、高加索人和西班牙人的测试结果呈阳性，那么她们发展乳腺癌的可能性分别是1.51倍、2.69倍和2.56倍。阳性似然比计算为灵敏度/1-特异度，其中使用3.0％的5年风险作为阈值。

本领域技术人员将理解，在不脱离如广泛描述的本发明的精神或范围的情况下，可以对特定实施方案所示的本发明进行多种变化和/或修改。因此，本发明实施方案在所有方面都被认为是说明性的而不是限制性的。

本申请要求2017年1月24日提交的AU 2017900208的优先权，该专利的公开内容以引用方式并入本文。

本文所讨论和/或引用的所有出版物均整体并入本文。

已经包括在本说明书中的文件、动作、材料、装置、物品等的任何讨论仅仅是为了提供本发明的上下文。不应被视为承认任何或所有这些事项构成现有技术基础的一部分，或者是在本申请的每个权利要求的优先权日之前存在与本发明相关的领域中的常见一般知识。

参考文献

Advani and Morena-Aspitia(2014)Breast Cancer：Targets&Therapy；6：59-71

Allman et al.(2015)Breast Cancer Res Treat.154：583-9.

Antoniou et al.(2008)Br J Cancer.98：1457-1466.

Antoniou et al.(2009)Hum Mol Genet 18：4442-4456.

American Cancer Society：(2013)Breast Cancer Facts&Figures 2013-1014.Atlanta(GA)，American Cancer Society Inc，12.

Cancer，Collaborative Group on Hormonal Factors in Breast Cancer(CGoHFiB)(2001)The Lancet.358：1389-1399.

Chee et al.(1996)Science 274：610-614.

Chen et al.(2004)Stat Appl Genet Mol Biol.3：Article 21.

Costantino et al.(1999)J Natl Cancer Inst 91：1541-1548.

De la Cruz(2014)Prim Care Clin Office Pract；41：283-306.

Devlin and Risch(1995)Genomics.29：311-322.

Dite et al.(2016)Cancer Epidemiol Biomarkers.154：583-9.

Fodor(1997a)FASEB Journal 11：A879.

Fodor(1997b)Science 277：393-395.

Gail et al.(1989)J Natl Cancer Inst 81：1879-1886.

Hartl et al.(1981)A Primer of Population Genetics WashingtonUniversity，Saint Louis Sinauer Associates，Inc.Sunderland，Mass.ISBN：0-087893-271-2.

Lichtenstein et al.(2000)NEJM 343：78-85.

Lockhart(1998)Nature Medicine 4：1235-1236.

Lynch and Walsh(1998)Genetics and Analysis of Quantitative Traits，Sinauer Associates，Inc.Sunderland Mass.ISBN 0-87893-481-2.

Mahoney et al.(2008)Cancer J Clin；58：347-371.

Mazzola et al.(2014)Cancer Epidemiol Biomarkers Prev.23：1689-1695.

Mealiffe et al.(2010)Natl Cancer Inst.102：1618-1627.

Moyer et al.(2013)Ann Intern Med.159：698-708.

Parmigiani et al.(1998)Am J Hum Genet.62：145-158.

Pencina et al.(2008)Statistics in Medicine 27：157-172.

Rockhill et al.(2001)J Natl Cancer Inst 93：358-366.

Sapolsky et al.(1999)Genet Anal：Biomolec Engin 14：187-192.

Siegel et al.(2016)Cancer statistics.66：7-30.

Slatkin and Excoffier(1996)Heredity 76：377-383.

Sorlie et al.(2001)Proc.Natl.Acad.Sci.98：10869-10874.

Tyrer et al.(2004)Stat Med.23：1111-1130.

Visvanathan et al.(2009)Journal of Clinical Oncology.27：3235-3258.

序列表

<110> 基因技术有限公司(Genetic Technologies Limited)

<120> 用于评估发展乳腺癌的风险的改进方法

<130> 523946PCT

<150> AU 2017900208

<151> 2017-01-24

<160> 20

<170> PatentIn version 3.5

<210> 1

<211> 20

<212> DNA

<213> 智人(Homo sapiens)

<400> 1

tatgggaagg agtcgttgag 20

<210> 2

<211> 20

<212> DNA

<213> 智人(Homo sapiens)

<400> 2

ctgaatcact ccttgccaac 20

<210> 3

<211> 20

<212> DNA

<213> 智人(Homo sapiens)

<400> 3

caaaatgatc tgactactcc 20

<210> 4

<211> 20

<212> DNA

<213> 智人(Homo sapiens)

<400> 4

tgaccagtgc tgtatgtatc 20

<210> 5

<211> 20

<212> DNA

<213> 智人(Homo sapiens)

<400> 5

tctcacctga taccagattc 20

<210> 6

<211> 20

<212> DNA

<213> 智人(Homo sapiens)

<400> 6

tctctcctta atgcctctat 20

<210> 7

<211> 20

<212> DNA

<213> 智人(Homo sapiens)

<400> 7

actgctgcgg gttcctaaag 20

<210> 8

<211> 21

<212> DNA

<213> 智人(Homo sapiens)

<400> 8

ggaagattcg attcaacaag g 21

<210> 9

<211> 19

<212> DNA

<213> 智人(Homo sapiens)

<400> 9

ggtaactatg aatctcatc 19

<210> 10

<211> 20

<212> DNA

<213> 智人(Homo sapiens)

<400> 10

aaaaagcaga gaaagcaggg 20

<210> 11

<211> 20

<212> DNA

<213> 智人(Homo sapiens)

<400> 11

agatgatctc tgagatgccc 20

<210> 12

<211> 20

<212> DNA

<213> 智人(Homo sapiens)

<400> 12

ccagggtttg tctaccaaag 20

<210> 13

<211> 19

<212> DNA

<213> 智人(Homo sapiens)

<400> 13

aatcacttaa aacaagcag 19

<210> 14

<211> 20

<212> DNA

<213> 智人(Homo sapiens)

<400> 14

cacatacctc tacctctagc 20

<210> 15

<211> 19

<212> DNA

<213> 智人(Homo sapiens)

<400> 15

ttccctagtg gagcagtgg 19

<210> 16

<211> 20

<212> DNA

<213> 智人(Homo sapiens)

<400> 16

ctttcttcgc aaatgggtgg 20

<210> 17

<211> 20

<212> DNA

<213> 智人(Homo sapiens)

<400> 17

gcactcatcg ccacttaatg 20

<210> 18

<211> 20

<212> DNA

<213> 智人(Homo sapiens)

<400> 18

gaacagctaa accagaacag 20

<210> 19

<211> 20

<212> DNA

<213> 智人(Homo sapiens)

<400> 19

atcactctta tttctccccc 20

<210> 20

<211> 20

<212> DNA

<213> 智人(Homo sapiens)

<400> 20

tgagtcactg tgctaaggag 20

Claims

1.一种用于评估人类女性受试者发展乳腺癌的风险的方法，所述方法包括：

对所述女性受试者进行临床风险评估，其中所述临床风险评估仅基于所述女性受试者年龄、乳腺癌家族史及族群中的两个或全部；

对所述女性受试者进行遗传风险评估，其中所述遗传风险评估涉及检测来自所述女性受试者的生物样品中已知与乳腺癌相关的至少两个单核苷酸多态性的存在；及

2.如权利要求1所述的方法，其包括检测已知与乳腺癌相关的至少3、5、10、20、30、40、50、60、70、80个单核苷酸多态性的存在。

3.如权利要求1或权利要求2所述的方法，其中在没有协变量的对数加性模型下，通过逻辑回归单独测试所述单核苷酸多态性与乳腺癌的相关性。

4.根据权利要求1至3中任一项所述的，其中所述单核苷酸多态性选自由以下组成的组：rs2981582、rs3803662、rs889312、rs13387042、rs13281615、rs4415084、rs3817198、rs4973768、rs6504950及rs11249433或与其中一个或多个连锁不平衡的单核苷酸多态性。

5.根据权利要求1至3中任一项所述的，其中所述单核苷酸多态性选自表6或与其中一个或多个连锁不平衡的单核苷酸多态性。

6.根据权利要求1至3中任一项所述的，其包括检测与乳腺癌相关的至少72个单核苷酸多态性，其中所述单核苷酸多态性中的至少67个选自表7或与其中一个或多个连锁不平衡的单核苷酸多态性，且其余单核苷酸多态性选自表6或与其中一个或多个连锁不平衡的单核苷酸多态性。

7.根据权利要求1至3中任一项所述的，其中当所述女性受试者是高加索人时，所述方法包括检测表9所示的至少72个单核苷酸多态性或与其中一个或多个连锁不平衡的单核苷酸多态性。

8.根据权利要求1至3中任一项所述的，其中当所述女性受试者是高加索人时，所述方法包括检测表9所示的至少77个单核苷酸多态性或与其中一个或多个连锁不平衡的单核苷酸多态性。

9.根据权利要求1至3中任一项所述的，其中当所述女性受试者是黑种人或非洲裔美国人时，所述方法包括检测表10所示的至少74个单核苷酸多态性或与其中一个或多个连锁不平衡的单核苷酸多态性。

10.根据权利要求1至3中任一项所述的，其中当所述女性受试者是黑种人或非洲裔美国人时，所述方法包括检测表10所示的至少78个单核苷酸多态性或与其中一个或多个连锁不平衡的单核苷酸多态性。

11.根据权利要求1至3中任一项所述的，其中当所述女性受试者是西班牙人时，所述方法包括检测表11所示的至少78个单核苷酸多态性或与其中一个或多个连锁不平衡的单核苷酸多态性。

12.根据权利要求1至3中任一项所述的，其中当所述女性受试者是西班牙人时，所述方法包括检测表11所示的至少82个单核苷酸多态性或与其中一个或多个连锁不平衡的单核苷酸多态性。

13.根据权利要求1至12中任一项所述的方法，其中所述临床风险评估的结果表明所述女性受试者应进行更频繁的筛查和/或预防性抗乳腺癌疗法。

14.根据权利要求1至13中任一项所述的方法，其中如果确定所述受试者具有发展乳腺癌的风险，则所述受试者与非响应相比更可能对雌激素抑制疗法有响应。

15.根据权利要求1至14中任一项所述的方法，其中所述乳腺癌为雌激素受体阳性或雌激素受体阴性。

16.根据权利要求1至15中任一项所述的方法，其中所述临床风险评估仅基于所述女性受试者年龄及乳腺癌家族史。

17.根据权利要求1至16中任一项所述的方法，其中将所述临床风险评估与所述遗传风险评估相结合包括将所述风险评估相乘以提供风险评分。

18.根据权利要求1至16中任一项所述的方法，其中将所述临床风险评估与所述遗传风险评估相结合涉及使用以下公式：

abs_risk＝mortsuv(1-exp(-RRxSNP(incid_5-incid_age)))

其中RR＝与具有患乳腺癌的一级亲属相关的相对风险，SNP是复合SNP相对风险，incid_age是当前(基线)年龄时的乳腺癌发病率，incid_5是基线+5年时的乳腺癌发病率，mortsurv是由乳腺癌以外的原因引起的竞争性死亡率。

19.一种用于确定人类女性受试者对乳腺癌的常规诊断测试的需要的方法，所述方法包括使用根据权利要求1至18中任一项所述的方法评估所述受试者发展乳腺癌的风险。

20.如权利要求19所述的方法，其中大于约20％终生风险的风险评分表明所述受试者应纳入筛查乳腺MRIc和乳房X线照相程序。

21.一种筛查人类女性受试者的乳腺癌的方法，所述方法包括使用根据权利要求1至18中任一项所述的方法评估所述受试者发展乳腺癌的风险，并且如果所述受试者被评估为具有发展乳腺癌的风险则常规地筛查她们的乳腺癌。

22.一种用于确定人类女性受试者对于预防性抗乳腺癌疗法的需要的方法，所述方法包括使用根据权利要求1至18中任一项所述的方法评估所述受试者发展乳腺癌的风险。

23.如权利要求22所述的方法，其中大于约1.66％的5年风险的风险评分表明应向所述受试者提供雌激素受体疗法。

24.一种用于预防或降低人类女性受试者的乳腺癌的风险的方法，所述方法包括使用根据权利要求1至18中任一项所述的方法评估所述受试者发展乳腺癌的风险，以及如果所述受试者被评估为具有发展乳腺癌的风险则向她们施用抗乳腺癌疗法。

25.如权利要求24所述的方法，其中所述疗法抑制雌激素。

26.一种用于预防有患乳腺癌风险的人类女性受试者的乳腺癌的抗乳腺癌疗法，其中根据权利要求1至18中任一项所述的方法将所述受试者评估为具有发展乳腺癌的风险。

27.一种用于对进行候选疗法的临床试验的人类女性受试者组进行分层的方法，所述方法包括使用根据权利要求1至18中任一项所述的方法评估所述受试者发展乳腺癌的个体风险，以及使用所述评估的结果选择更可能对所述疗法有响应的受试者。

28.一种用于评估人类女性受试者发展乳腺癌的风险的计算机实现方法，所述方法可在包括处理器和存储器的计算系统中操作，所述方法包括：

接收所述女性受试者的临床风险数据和遗传风险数据，其中所述临床和遗传风险数据是通过根据权利要求1至18中任一项所述的方法获得的；

处理所述数据以将所述临床风险数据与所述遗传风险数据相结合，以获得人类女性受试者发展乳腺癌的风险；

输出人类女性受试者发展乳腺癌的风险。

29.一种用于评估人类女性受试者发展乳腺癌的风险的系统，所述系统包括：

用于根据权利要求1至18中任一项对所述女性受试者进行临床风险评估和遗传风险评估的系统说明；及

将所述临床风险评估与所述遗传风险评估相结合以获得人类女性受试者发展乳腺癌的风险的系统说明。