CN103710429B

CN103710429B - 乳腺癌标志物

Info

Publication number: CN103710429B
Application number: CN201310524782.4A
Authority: CN
Inventors: 戴维.考克斯; 丹尼斯.巴林杰; 布鲁斯.庞德; 道格.伊斯顿
Original assignee: Cambridge Enterprise Ltd
Current assignee: Cambridge Enterprise Ltd
Priority date: 2005-11-29
Filing date: 2006-11-29
Publication date: 2016-03-30
Anticipated expiration: 2026-11-29
Also published as: KR101472701B1; KR20130096768A; IL191566A; US9051617B2; JP5394069B2; DK2463388T3; US9068229B2; US9702011B2; EP1954834B1; EP1954834A2; DK2468901T3; US20090239226A1; EP1954834A4; US20150354010A1; WO2007064776A2; JP2013188223A; EP2463387A1; JP2009519707A; CA2631621C; EP2458017A1

Abstract

本申请涉及乳腺癌标志物。提供了多态性与乳腺癌之间的相关性。提供了乳腺癌的诊断、预后和治疗方法。提供了乳腺癌诊断、预后和治疗的系统和试剂盒。还记载了鉴定乳腺癌调控剂的方法。

Description

乳腺癌标志物

本申请是申请日为2006年11月29日、中国申请号为200680051710.0、发明名称为“乳腺癌标志物”的发明申请的分案申请。

相关申请的交叉参考

本申请请求Cox等在2005年11月29日提交的USSN60/740,971MARKERSFORBREASTCANCER的优先权和利益。本申请还请求Cox等在2006年3月10日提交的USSN60/781,483MARKERSFORBREASTCANCER的优先权和利益。将这些在先申请各自完整地引入本文作为参考。

发明背景

乳腺癌如其它常见的癌症一样表现出家族性聚类(clustering)。大量流行病学调查已经证实，总体而言，该病在乳腺癌患者的一级亲属中普及约为2倍¹。家族研究特别是双生子研究提示如果不是所有该聚类，那么也是大部分该聚类存在遗传基础^2,3。例如，Peto和Mack³估计乳腺癌在患病女性的MZ双生子中的风险约高于姊妹病例风险的4倍。

已经鉴定了几种乳腺癌易感性(susceptibility)基因，最重要的是BRCA1和BRCA2。在这些基因中的突变赋予了乳腺癌的高风险(截止到70岁分别为65%和45%的等级)⁴。基于群体的系列乳腺癌病例突变筛选已经证实仅约15%的乳腺癌家族风险度可以解释为这些基因中的突变^5,6。其它已知的乳腺癌易感性基因(TP53、PTEN、ATM、CHEK2)对家族性风险仅有较小的贡献(因为恶病质突变是罕见的和/或仅赋予较小的风险)。因此，总体而言，估计已知的乳腺癌易感性基因占家族性风险的不超过20%⁷。

风险中的遗传变异可能源自罕见的高度外显性(penetrant)突变(诸如BRCA1和BRCA2中的那些)或源自赋予更为中度风险的变异。几条证据强烈提示高度外显性突变并非剩余的家族性乳腺癌风险的主要提供者。首先，多个病例家族的突变筛选发现具有极为明显家族史(例如4个或个以上患病亲属)的大部分病例在BRCA1或BRCA2中包含突变⁸。第二，尽管在过去的9年中进行了广泛努力，但是遗传连锁研究尚未鉴定任何额外连锁基因座^9,10。第三，对较大系列的乳腺癌家族的分离分析已经发现，在调整BRCA1和BRCA2后，无进一步重大显性乳腺癌易感性等位基因的证据^11,12。在最大规模的这类分析中，Antoniou等¹³发现乳腺癌的最经济型(parsimonious)模型为多基因模型，它与大量小作用基因座的倍增联合(alargenumberoflociofsmalleffectcombiningmultiplicatively)相当。

尽管上述分析提示几种较低外显性乳腺癌易感性基因仍然有待检测，但是这类基因的精确数目尚不了解。此外，在现有技术中，尚不清楚这类易感性等位基因在群体中是常见的还是罕见的。本申请集中于相对常见(频率高于5%)的等位基因且本文基于全基因组对这类基因座进行鉴定。

发明概述

本发明包括与乳腺癌表型，诸如乳腺癌易感性相关的多态性基因座的鉴定。图1和2提供了表型基因座的描述。图1提供了优选的表型基因座的描述。因此，本发明提供了先前未知的各种多态性与乳腺癌易感性表型之间的相关性。因此，对这些多态性(或与之相关的基因座)的检测提供了用于鉴定患者处于乳腺癌风险中的有力和精确的方法和系统。此外，对这些多态性的鉴定提供了鉴定乳腺癌调控剂的高通量系统和方法。

因此，本发明在一个方面中提供了鉴定生物体或其衍生的生物学样品的乳腺癌表型的方法。该方法包括检测生物体或生物学样品中的多态性或与之紧密连锁的基因座，所述的多态性选自图1的多态性，其中多态性与乳腺癌表型相关。这些方法进一步包括使所述多态性或基因座与所述表型建立相关性。

生物体典型的是哺乳动物，优选人类患者，最典型的是女性患者（尽管男性也会发生乳腺癌，而且本文中所述的相关性也适用于男性患者）。类似的，生物学样品典型的衍生自哺乳动物，例如人类患者，例如遵循适宜的知情同意实践。所述方法可用于检测取自人类患者的样品中的乳腺癌标志物，或者可用于检测由其衍生的生物学样品（例如细胞，包括原代的和培养的细胞）中的标志物。

可以通过任何可利用的方法检测多态性，包括扩增、与探针或阵列杂交等。在一个具体的实施方案中，检测包括扩增多态性、连锁基因座或与之相关的序列(例如，侧翼序列、转录序列等)并检测所得扩增子。例如，在一个实施方案中，扩增包括：a)混合扩增引物或扩增引物对与分离自生物体或生物学样品的核酸模板。所述的引物或引物对可以与邻近或包含多态性或连锁基因座的区互补或部分互补，并且能够在核酸模板上由聚合酶启动核酸聚合。所述的引物或引物对在包括聚合酶和模板核酸的DNA聚合反应中延伸而生成扩增子。在某些方面中，任选通过如下方法检测扩增子，该方法包括使所述的扩增子与阵列杂交、用限制酶消化该扩增子或实时PCR分析。例如，可以任选通过杂交对扩增子进行完全或部分测序。一般而言，扩增可以包括使用分离自生物体或生物学样品的核酸作为PCR、RT-PCR或LCR中的模板进行聚合酶链反应(PCR)、逆转录酶PCR(RT-PCR)或连接酶链反应(LCR)。可以用其它技术取代扩增，例如使用分支DNA(bDNA)探针。

在典型的实施方案中，多态性或连锁基因座可以包括SNP。等位基因的实例包括图1和/或2中所述的那些。例如，相关多态性可以为图1(最优选)或图2的那些。优选的多态性包括选自SNP识别号码所述的SNP组的SNP，所述的识别号码选自：SNPID2312116，SNPID1622530，SNPID3712013，SNPID1509710，SNPID843029，SNPID1990126，SNPID604819，SNPID3025734，SNPID1152499，SNPID4415909，SNPID1732681，SNPID4281579，SNPID4454457，SNPID2616199，SNPID1720694，SNPID4077723，SNPID3711990，SNPID3337858，SNPID4093095，SNPID4213825，SNPID3488617，SNPID3610210，SNPID3451239，SNPID1582533，SNPID3488150，SNPID2770052，SNPID4141351，SNPID1335030，SNPID2211665和SNPID4538418。这些识别号码为PerlegenSNP识别号码(PerlegenSciences，Inc.inMountainView，CA)，其为公众可得到的并且可以在Perlegen(dot)com上查阅到大量相关信息，通过使用该公司在genome(dot)perlegen(dot)com/browser/index(dot)html可利用的基因组浏览器查阅。可以在SNP_ID开始处添加通配符(例如，"*"符号)以便例如按照提供的完整说明书鉴定有关所有SNP等位基因的相关信息。该数据库还与NCBI基因组数据库链接，由此提供大量有关相关基因和多态性的额外信息。这些SNP包括与例如如下基因相关的SNP：FGFR2，A2BP1，TNRC9，H19，FSTL5，LSP1，LOC388927，UNQ9391，HCN1，LOC441192，TNRC9，NR3C2，KIAA0826，FLJ31033，AACS，FRMD4A和SEC31L2(另外，参见图1)。因此，与这些基因相关的多态性也是可能与乳腺癌多态性相关的优选SNP。

并且任选在某些实施方案中，该方法包括在一种以上这类基因中检测多态性(例如，在某些便利性的应用中，可以同时对单一患者检测几种多态性以便更完整地确定或指定相关表型)。如此，本发明在一个方面中包括检测多个所述基因中的多个多态性或连锁基因座。该方法可以包括，例如，检测下列每种的至少一个多态性：SNPID2312116、SNPID1622530、SNPID3712013、SNPID1509710和SNPID84302，和/或FGFR2、A2BP1、TNRC9、H19和FSTL5中的多态性。类似地，该方法可以包括检测下列每种的至少一个多态性：SNPID2312116，SNPID1622530，SNPID3712013，SNPBD1509710，SNPID843029，SNPID1990126，SNPID604819，SNPID3025734，SNPID1152499，SNPID4415909，SNPID1732681，SNPID4281579，SNPID4454457，SNPID2616199，SNPID1720694，SNPID4077723，SNPID3711990，SNPID3337858，SNPID4093095，SNPID4213825，SNPID3488617，SNPID3610210，SNPID3451239，SNPID1582533，SNPID3488150，SNPID2770052，SNPID4141351，SNPID1335030，SNPID2211665和SNPID4538418；或如下每种中的至少一个多态性：FGFR2，A2BP1，TNRC9，H19，FSTL5，LSP1，LOC388927，UNQ9391，HCN1，LOC441192，TNRC9，NR3C2，KIAA0826，FLJ31033，AACS，FRMD4A和SEC31L2。一般而言，可以检测本文图中的这些或任何其它多态性/基因/基因座的任何组合，并且所有这类组合均任选为本发明的特征，无论是否特别列出。本发明用于检测本文多态性的探针或引物可以包括图1和/或2多态性的核苷酸序列，其侧翼序列或其互补核酸或其转录产物(例如，由基因组序列例如通过转录或剪接产生的nRNA或mRNA形式)。还可以检测多肽序列，例如对任何由核酸指定等位基因形式转录的多肽序列检测多态性。

一般而言，与QTL相关的任何多态性可以用作QTL的标志物。因此，与图中指定多态性相关的标志物可以用作指定多态性的代替(proxy)标志物。一般而言，相关性越紧密，则作为QTL/多态性的标志物越好。因此，期望连锁基因座可以为距多态性约为5cM或以下(且任选1cM或以下)的紧密连锁基因座。

所述的方法任选包括通过参照查阅表使多态性或连锁基因座与乳腺癌表型建立相关性，所述的查阅表包含多态性或连锁基因座的等位基因与乳腺癌表型的相关性的信息。用于这种相关性的数据库可以为启发式的(heuristic)，或者以其它方式能够基于通过关联标志物-性状信息获得的信息改进相关性。

相关的组合物为本发明的特征，例如，包含多个标志物探针或扩增引物的组合物，所述的标志物探针或扩增引物检测或扩增例如如本文所述与乳腺癌表型相关的多种多态性。引物/探针可以基于阵列或在溶液中游离。

在另一个方面中，还提供了鉴定乳腺癌表型调控剂的方法。所述的方法包括使潜在的调控剂接触基因或基因产物，例如，其中基因或基因产物包含本文所述的多态性(例如，在图1和/或2中)或与之紧密连锁。检测潜在调控剂对基因或基因产物的作用，由此鉴定潜在的调控剂是否调控表型。

基因或基因产物任选包括选自本文所列那些的多态性的特定等位基因，但还可以对其它等位基因测试调控剂以便鉴定特异性或非特异性调控等位基因的调控剂。可以测试的作用包括如下中的任意种：(a)在有调控剂存在下基因或基因产物表达的升高或降低；(b)在有调控剂存在下基因产物活性的升高或降低；和(c)在有调控剂存在下基因或基因产物表达图式的改变。

治疗乳腺癌表型的试剂盒可以包括所述方法鉴定的调控剂和用于对患者给药以便治疗所述表型的说明书。

除上述方法外，用于实施所述方法的试剂盒和系统也为本发明的特征。例如，用于鉴定生物体或其衍生的生物学样品的乳腺癌表型的系统为本发明的一个特征。该系统包括，例如，一组为检测一种或多种多态性或连锁基因座中的至少一种等位基因配置的标志物探针或引物，例如，其中所述的多态性为本文所述，例如，在图1或2中所述的任何多态性。该系统任选还包括检测器，该检测器为检测来自所述标志物探针或引物组或由该标志物探针或引物组产生的扩增子的一种或多种信号输出，由此鉴定存在或不存在所述的等位基因。一般在该系统中包括使等位基因的存在或不存在与预测的表型建立相关性的系统指令(例如，在该系统计算机中包含的软件)作为系统的组成部分。

筛选调控剂的系统也为本发明的特征。这些系统可以包括，例如，与本文多态性相关的基因或基因编码的表达产物。这些系统一般包括检测器，该检测器测定在有调控剂存在下基因或基因产物表达的升高或降低；在有调控剂存在下基因产物活性的升高或降低；或在有调控剂存在下基因或基因产物表达图式的改变。这些系统还可以包括用于混合和等分调控剂和/或基因或产物、混合它们、进行实验室操作(例如纯化，合成，细胞培养等)的流体操作部件。用于记录调控剂作用且任选用于选择调控剂的系统指令也为这些系统的任选特征。

用于进行本文任何方法的试剂盒为本发明的另一个特征。这类试剂盒可以包括用于检测本文的任何多态性的探针或扩增子、适当的包装材料和用于实施所述方法的说明书。

上述多态性和基因和相应标志物探针、扩增子或引物可以以物理核酸或多肽的形式或系统说明书的形式具体配置在本文的任何系统中，所述的系统说明书包括有关核酸和多肽的序列信息。例如，该系统可以包括对应于本文所述基因或多态性的引物或扩增子或者扩增其一部分的引物或扩增子，所述的基因或多态性诸如SNPID2312116，SNPID1622530，SNPID3712013，SNPID1509710，SNPID843029，SNPID1990126，SNPID604819，SNPID3025734，SNPID1152499，SNPID4415909，SNPID1732681，SNPID4281579，SNPID4454457，SNPID2616199，SNPID1720694，SNPID4077723，SNPID3711990，SNPID3337858，SNPID4093095，SNPID4213825，SNPID3488617，SNPID3610210，SNPID3451239，SNPID1582533，SNPID3488150，SNPID2770052，SNPID4141351，SNPID1335030，SNPID2211665和SNPID4538418，和/或FGFR2，A2BP1，TNRC9，H19，FSTL5，LSP1，LOC388927，UNQ9391，HCN1，LOC441192，TNRC9，NR3C2，KIAA0826，FLJ31033，AACS，FRMD4A和SEC31L2。正如在上述方法中，标志物探针或引物组任选检测多个所述基因或遗传基因座中的多个多态性。因此，例如，标志物探针或引物组检测本文图中的这些多态性或基因或任何其它多态性、基因或基因座每种中的至少一个多态性。任何这类探针或引物可以包括任何这类多态性或基因或其互补核酸或其转录产物的核苷酸序列(例如，由基因组序列，例如通过转录或剪接产生的nRNA或mRNA形式)。

许多可选择的变体为本发明的实施方案。例如，检测器一般检测一种或多种光发射，它表示存在或不存在所述的等位基因。说明书一般包含至少一种查阅表，它包括所述等位基因的存在或不存在与所述表型之间的相关性。系统任选包括测试样品，例如，基因组DNA、扩增的基因组DNA、cDNA、扩增的cDNA、RNA或扩增的RNA。样品可以来自或衍生自哺乳动物，诸如人类患者。

所述方法、试剂盒和系统的所有特征可以彼此结合使用。例如，用于检测调控剂的系统可以用于实施调控剂检测方法。用于鉴定乳腺癌表型与多态性之间相关性的系统可以用于实施本文的方法。试剂盒可以用于实施本文的方法。因此，系统、方法和试剂盒的所述特征可以适用于本文的不同系统、方法和试剂盒。

本发明涉及下述各项。

1.对生物体或其衍生的生物学样品鉴定乳腺癌表型的方法，该方法包括：

检测生物体或生物学样品中的多态性或与之紧密连锁的基因座，所述的多态性选自图1或2的多态性，其中所述的多态性与乳腺癌表型相关；并且

将所述的多态性或基因座与所述的表型建立相关性。

2.项1所述的方法，其中所述的生物体为哺乳动物或所述的生物学样品衍生自哺乳动物。

3.项1所述的方法，其中所述的生物体为人类患者或所述的生物学样品衍生自人类患者。

4.项1所述的方法，其中所述的检测包括扩增多态性、连锁基因座或与之相关的序列，并且检测所得扩增子。

5.项4所述的方法，其中所述的扩增包括：

a)混合扩增引物或扩增引物对与分离自所述生物体或生物学样品的核酸模板，其中所述的引物或引物对与邻近或包含所述的多态性或连锁基因座的区互补或部分互补，并且能够在所述核酸模板上由聚合酶启动核酸聚合；和

b)使引物或引物对在包括聚合酶和模板核酸的DNA聚合反应中延伸以便生成扩增子。

6.项4所述的方法，其中通过包括如下一个或多个步骤的方法检测所述的扩增子：使该扩增子与阵列杂交；用限制酶消化该扩增子；或实时PCR分析。

7.项4所述的方法，包括对所述的扩增子进行部分或完全测序。

8.项4所述的方法，其中所述的扩增包括进行聚合酶链反应(PCR)、逆转录酶PCR(RT-PCR)或连接酶链反应(LCR)，其中使用分离自所述生物体或生物学样品的核酸作为PCR、RT-PCR或LCR中的模板。

9.项1所述的方法，其中所述的多态性或连锁基因座包含单核苷酸多态性(SNP)。

10.项1所述的方法，其中所述的多态性包含选自图1或2中等位基因的等位基因。

11.项1所述的方法，其中所述的多态性为选自下组的单核苷酸多态性：SNPID2312116、SNPID1622530、SNPID3712013、SNPID1509710、SNPID843029、SNPID1990126、SNPID604819、SNPID3025734、SNPID1152499、SNPID4415909、SNPID1732681、SNPID4281579、SNPID4454457、SNPID2616199、SNPID1720694、SNPID4077723、SNPID3711990、SNPID3337858、SNPID4093095、SNPID4213825、SNPID3488617、SNPID3610210、SNPID3451239、SNPID1582533、SNPID3488150、SNPID2770052、SNPID4141351、SNPID1335030、SNPID2211665和SNPID4538418。

12.项1所述的方法，其中所述的多态性在选自下组的基因或基因座中：FGFR2、A2BP1、TNRC9、H19、FSTL5、LSP1、LOC388927、UNQ9391、HCNl、LOC441192、TNRC9、NR3C2、KIAA0826、FLJ31033、AACS、FRMD4A和SEC31L2。

13.项12所述的方法，其中该方法包括检测在多个所述基因中的多个多态性或连锁基因座。

14.项12所述的方法，其中该方法包括检测在FGFR2、A2BP1、TNRC9、H19和FSTL5每种中的至少一个多态性。

15.项12所述的方法，其中该方法包括检测SNPID2312116、SNPID1622530、SNPID3712013、SNPID1509710和SNPID843029每种的至少一个多态性。

16.项12所述的方法，其中该方法包括检测如下每种的至少一个多态性：SNPID2312116、SNPID1622530、SNPID3712013、SNPID1509710、SNPID843029、SNPID1990126、SNPID604819、SNPID3025734、SNPID1152499、SNPID4415909、SNPID1732681、SNPID4281579、SNPID4454457、SNPID2616199、SNPID1720694、SNPID4077723、SNPID3711990、SNPID3337858、SNPID4093095、SNPID4213825、SNPID3488617、SNPID3610210、SNPID3451239、SNPID1582533、SNPID3488150、SNPID2770052、SNPID4141351、SNPID1335030、SNPID2211665和SNPID4538418；或如下每种中的至少一个多态性：FGFR2、A2BP1、TNRC9、H19、FSTL5、LSP1、LOC388927、UNQ9391、HCN1、LOC441192、TNRC9、NR3C2、KIAA0826、FLJ31033、AACS、FRMD4A和SEC31L2。

17.项1所述的方法，其中所述的连锁基因座为距离所述多态性约5cM或5cM以下的紧密连锁基因座。

18.项1所述的方法，其中将所述多态性或连锁基因座与所述乳腺癌表型建立相关性包括参阅查阅表，该查阅表包含所述多态性或连锁基因座的等位基因与所述乳腺癌表型的相关性的信息。

19.组合物，包含多个标志物探针或扩增引物，该标志物探针或扩增引物用于检测或扩增多个选自下组的多态性：SNPID2312116、SNPID1622530、SNPID3712013、SNPID1509710、SNPID843029、SNPID1990126、SNPID604819、SNPID3025734、SNPID1152499、SNPID4415909、SNPID1732681、SNPID4281579、SNPID4454457、SNPID2616199、SNPID1720694、SNPID4077723、SNPID3711990、SNPID3337858、SNPID4093095、SNPID4213825、SNPID3488617、SNPID3610210、SNPID3451239、SNPID1582533、SNPID3488150、SNPID2770052、SNPID4141351、SNPID1335030、SNPID2211665和SNPID4538418。

20.项19所述的组合物，其中所述的标志物探针或扩增引物在溶液中游离。

21.鉴定乳腺癌表型的调控剂的方法，该方法包括：

使潜在的调控剂接触基因或基因产物，其中所述的基因或基因产物包含选自下组的多态性或与之紧密连锁：SNPID2312116、SNPID1622530、SNPID3712013、SNPID1509710、SNPID843029、SNPID1990126、SNPID604819、SNPID3025734、SNPID1152499、SNPID4415909、SNPID1732681、SNPID4281579、SNPID4454457、SNPID2616199、SNPID1720694、SNPID4077723、SNPID3711990、SNPID3337858、SNPID4093095、SNPID4213825、SNPID3488617、SNPID3610210、SNPID3451239、SNPID1582533、SNPID3488150、SNPID2770052、SNPID4141351、SNPID1335030、SNPID2211665和SNPID4538418；并且

检测该潜在的调控剂对所述基因或基因产物的作用，由此鉴定该潜在的调控剂是否调控所述的表型。

22.项21所述的方法，其中所述的基因或基因产物包含选自下组的多态性：SNPID2312116、SNPID1622530、SNPID3712013、SNPID1509710、SNPID843029、SNPID1990126、SNPID604819、SNPID3025734、SNPID1152499、SNPID4415909、SNPID1732681、SNPID4281579、SNPID4454457、SNPID2616199、SNPID1720694、SNPID4077723、SNPID3711990、SNPID3337858、SNPID4093095、SNPID4213825、SNPID3488617、SNPID3610210、SNPID3451239、SNPID1582533、SNPID3488150、SNPID2770052、SNPID4141351、SNPID1335030、SNPID2211665和SNPID4538418。

23.项21所述的方法，其中所述的作用选自：

(a)在有所述调控剂存在下所述基因或基因产物的表达升高或降低；

(b)在有所述调控剂存在下所述基因产物的活性；和升高或降低

(c)在有所述调控剂存在下所述基因或基因产物的表达图式改变。

24.治疗乳腺癌表型的试剂盒，该试剂盒包含通过项21所述方法鉴定的调控剂和将该调控剂施用于患者以便治疗所述表型的说明书。

25.对生物体或其衍生的生物学样品鉴定乳腺癌表型的系统，该系统包含：

a)一组标志物探针或引物，设置用于检测一个或多个多态性或连锁基因座的至少一个等位基因，其中所述的多态性选自SNPID2312116、SNPID1622530、SNPID3712013、SNPID1509710、SNPID843029、SNPID1990126、SNPID604819、SNPID3025734、SNPID1152499、SNPID4415909、SNPID1732681、SNPID4281579、SNPID4454457、SNPID2616199、SNPID1720694、SNPID4077723、SNPID3711990、SNPID3337858、SNPID4093095、SNPID4213825、SNPID3488617、SNPID3610210、SNPID3451239、SNPID1582533、SNPID3488150、SNPID2770052、SNPID4141351、SNPID1335030、SNPID2211665和SNPID4538418；

b)检测器，设置用于检测来自该组标志物探针或引物的一种或多种信号输出或由该组标志物探针或引物产生的扩增子，由此鉴定所述等位基因的存在与否；和

c)系统指令，其将所述等位基因的存在与否与预测的表型建立相关性。

26.项25所述的系统，其中该组标志物探针或引物检测选自下组的基因中的多态性：FGFR2、A2BP1、TNRC9、H19、FSTL5、LSP1、LOC388927、UNQ9391、HCN1、LOC441192、TNRC9、NR3C2、KIAA0826、FLJ31033、AACS、FRMD4A和SEC31L2。

27.项25所述的系统，其中该组标志物探针或引物检测多个所述基因或遗传基因座中的多个多态性。

28.项25所述的系统，其中该组标志物探针或引物检测FGFR2、A2BP1、TNRC9、H19和FSTL5每种中的至少一个多态性。

29.项25所述的系统，其中该组标志物探针或引物检测选自SNPID2312116、SNPID1622530、SNPID3712013、SNPID1509710和SNPID843029多态性的至少一个多态性。

30.项25所述的系统，其中所述的检测器检测一种或多种光发射，其中所述的光发射指示所述等位基因的存在与否。

31.项25所述的系统，其中所述的指令包含至少一种查阅表，该查阅表包括所述等位基因的存在与否与所述表型之间的相关性。

32.项25所述的系统，其中该系统包含样品。

33.项32所述的系统，其中所述的样品包含基因组DNA、扩增的基因组DNA、cDNA、扩增的cDNA、RNA或扩增的RNA。

34.项32所述的系统，其中所述的样品衍生自哺乳动物。

附图简述

图1为优选多态性、基因和与乳腺癌相关的多态性的相关信息的表。

图2为优选多态性、基因和与乳腺癌相关的多态性的相关信息的表。

定义

应理解本发明并不限于特定的实施方案，其当然可以改变。还应理解本文所用术语的目的仅在于描述特定的实施方案，但并非旨在限制。除非上下文中另有明确的描述，否则作为本说明书和所附权利要求中所用的单数和单数形式的术语例如"一个/一种（a,an）"和"所述的（the）"任选包括复数指示物。因此，例如，提到"一种探针"任选包括多个探针分子；类似地，根据上下文的不同，应用的术语"一种核酸"作为实用物质任选包括该核酸分子的许多拷贝。对基因或蛋白质的字母命名根据上下文的不同可以指基因形式和/或蛋白质形式。本领域技术人员完全能够通过参比本文的序列、已知的序列和遗传密码联系相关生物学分子的核酸和氨基酸形式。

除非另作陈述，否则核酸从左到右以5'－3'方向书写。本说明书中引述的数值范围包括确定范围的数值并且包括该定义范围的每个整数或任何非整数的分数。除非另作陈述，否则本文所用的所有技术和科学术语具有与本发明所属领域普通技术人员通常理解相同的含义。尽管与本文所述那些类似或相当的任何方法和物质可以用于实施本发明的测试，但是优选的物质和方法如本文所述。在描述和请求保护本发明中，按照如下列出的定义使用下列术语。

"表型"为在个体或群体中可观察到的性状或性状集合。该性状可以为定量的(数量性状或QTL)或定性的。例如，对乳腺癌的易感性为可以按照本文的方法、组合物、试剂盒和系统监测的表型

"乳腺癌易感性表型"为展示出个体对发生乳腺癌的恶病质(predisposition)的表型。展示出对乳腺癌的恶病质的表型可以例如表现出癌症在具有该表型的个体中发生的可能性高于在指定的一组环境条件(膳食、体力活动方案、地理位置等)下的相关一般群体中的成员。

"多态性"为可变的基因座；即在群体内多态性处的核苷酸序列具有一种以上形式或等位基因。术语"等位基因"意指出现在特定基因座上或在其上编码的两种或多种不同核苷酸序列或由这类基因座编码的两种或多种不同多肽序列之一。例如，第一种等位基因可以出现在一条染色体上，而第二种等位基因出现在第二条同源染色体上，例如，正如对杂合个体的不同染色体或群体中的不同纯合或杂合个体之间的不同染色体出现的。多态性的一个实例为"单核苷酸多态性"(SNP)，其为在基因组中的单一核苷酸位置上的多态性(在特定位置上的核苷酸在个体或群体之间可变)。

在等位基因与性状连锁且在等位基因的存在为性状或性状形式会在包含该等位基因的个体中出现的指示物时，该等位基因与该性状“正”相关。在等位基因与性状连锁且在等位基因的存在为性状或性状形式不会在包含该等位基因的个体中出现的指示物时，该等位基因与该性状“负”相关。

在标志物多态性或等位基因可以在统计学上(正的或负的)与特定表型关联时，该标志物多态性或等位基因与该表型(乳腺癌易感性等)"关联"或"相关"。即特定多态性与对照群体(例如，不具有乳腺癌的个体)相比更常见于病例群体(例如，乳腺癌患者)。通常将这种相关性推断为实际上是致病原因，但不一定－与表型潜在的性状的基因座的简单遗传连锁(与之相关)足以使关联/相关性出现。

"有利的等位基因"为与期望表型，例如乳腺癌抗性正相关的特定基因座上的等位基因，例如，与乳腺癌恶病质负相关的等位基因。连锁标志物的有利等位基因为与有利等位基因分离的标志物等位基因。染色体区段的有利等位基因形式为如下染色体区段，它包括与不利表型正相关或与物理上位于染色体区段上的一个或多个遗传基因座上的不利表型负相关的核苷酸序列。

"不利的等位基因"为与期望表型负相关或与不利表型正相关，例如与乳腺癌易感性正相关的特定基因座上的等位基因。连锁标志物的不利等位基因为与不利等位基因分离的标志物等位基因。染色体区段的不利等位基因形式为如下染色体片段，它包括与期望表型负相关或与物理上位于该染色体区段上的一个或多个遗传基因座上的不利表型正相关的核苷酸序列。

"等位基因频率"意指等位基因存在于个体、品系或品系群体内基因座上的频率(比例或百分比)。例如，就等位基因"A"而言，基因型"AA"、"Aa"或"aa"的二倍体个体具有的等位基因频率分别为1.0、0.5或0.0。可以估计品系或群体(例如病例或对照)内的等位基因频率，通过取来自该品系或群体的个体样品的等位基因频率的平均值来进行。类似地，可以通过取构成所述群体的品系的等位基因频率的平均值来计算等位基因频率。

若个体在指定基因座上仅具有一种类型的等位基因(例如，二倍体个体在两条同源染色体各自的基因座上具有相同的等位基因拷贝)，则该个体为"纯合"的。若一种以上的等位基因类型存在于指定基因座上(例如，具有两种不同等位基因各自的一种拷贝的二倍体个体)，则该个体为"杂合"的。术语"同质性"表示组中的成员在一个或多个特定基因座上具有相同基因型。相反，术语"异质性"用于表示组中的个体在一个或多个特定基因座上的基因型不同。

"基因座"为染色体位置或区域。例如，多态基因座为多态核酸、性状决定子、基因或标志物定位的位置或区域。在另一个实例中，"基因的基因座"为可以发现特定基因的物种基因组中的特定染色体位置(区域)。类似地，术语"数量性状基因座"或"QTL"意指具有至少两种等位基因的基因座，所述的两种等位基因在至少一种遗传背景中例如在至少一种群体或子代中有差别地影响数量或连续表型性状的表达或改变数量或连续表型性状的变化形式。

"标志物"，"分子标志物"或"标志物核酸"意指在鉴定基因座或连锁基因座时用作参比点的核苷酸序列或其编码的产物(例如蛋白质)。标志物可以衍生自基因组核苷酸序列或表达的核苷酸序列(例如，衍生自RNA、nRNA、mRNA、cDNA等)或编码的多肽。该术语还意指与标志物序列互补或位于其侧翼的核酸序列，诸如用作能够扩增该标志物序列的探针或引物对的核酸。"标志物探针"为可以用于鉴定标志物基因座的存在的核酸序列或分子，例如与标志物基因座序列互补的核酸探针。若例如核酸按照沃森-克里克碱基配对原则在溶液中特异性杂交，则该核酸为"互补的"。"标志物基因座"为可以用于示踪第二种连锁基因座的存在的基因座，例如，编码或促成表型性状的群体变异的连锁或相关基因座。例如，标志物基因座可以用于监测在基因座，诸如QTL上的等位基因的分离，这些等位基因在遗传或物理上与标志物基因座连锁。因此，"标志物等位基因"，或者"标志物基因座的等位基因"，为在对该标志物基因座而言多态性的群体中的标志物基因座上发现的多个多态性核苷酸序列之一。本发明在一个方面中提供了与所关注的表型，例如乳腺癌易感性/抗性相关的标志物基因座。预计鉴定的标志物各自与促成相关表型的遗传元件，例如QTL具有紧密的物理和遗传邻近性(导致物理和/或遗传连锁)。可以通过本领域完全确立的方法检测群体成员之间对应于遗传多态性的标志物。这些方法包括，例如，基于PCR的序列特异性扩增法、检测限制性片段长度多态性(RFLP)、检测同工酶标志物、检测等位基因特异性杂交(ASH)、检测单核苷酸延伸、检测基因组的扩增可变序列、检测自维持序列复制、检测单一序列重复(SSR)、检测单核苷酸多态性(SNP)或检测扩增片段长度多态性(AFLP)。

"遗传图"一般以图或表形式描述指定物种中一条或多条染色体(或连锁群)上的基因座中的遗传连锁(或关联)相关性。"作图"为通过使用遗传标志物、标志物的群体分离和重组频率的标准遗传原理定义基因座连锁相关性的过程。"图定位"为遗传图上相对于连锁遗传标志物的指定位置，其中可以在指定物种中发现特定标志物。术语"染色体区段"指居留在单一染色体上的基因组DNA的连续的线性跨度。类似地，"单倍型"为在个体或群体的可遗传物质中发现的一组遗传基因座(该组可以为连续的或不连续的)。在本发明的上下文中，遗传元件诸如本文的一种或多种等位基因和一种或多种连锁标志物等位基因可以位于染色体区段内，且因而是遗传连锁的，特定遗传重组距离小于或等于20厘摩(cM)或20cM以下，例如15cM或15cM以下，通常为10cM或10cM以下，例如，约9、8、7、6、5、4、3、2、1、0.75、0.5、0.25或0.1CM或以下。即单一染色体区段内两种紧密连锁的遗传元件在减数分裂过程中以小于或等于约20%、例如约19%、18%、17%、16%、15%、14%、13%、12%、11%、10%、9%、8%、7%、6%、5%、4%、3%、2%、1%、0.75%、0.5%、0.25%或0.1%或以下的频率彼此重组。一旦例如通过比较病例和对照的基因座统计频率鉴定出表型(例如，乳腺癌恶病质)与多态基因座之间的相关性/关联性，则与相关基因座连锁的任何多态性可以用作相关基因座的替代标志物。

"遗传重组频率"为两个遗传基因座之间重组事件的频率。可以通过跟踪减数分裂过程中标志物和/或性状的分离来观察重组频率。在本发明的上下文中，若相关基因座因染色体物理关联而为相同连锁群的组成部分且连锁不平衡(linkagedisequilibrium)时，则该标志物基因座与另一标志物基因座或某些其它基因座(例如，乳腺癌易感性基因座)"有关联"。这一情况在发现标志物基因座和连锁基因座一起在子代中比基因座随机分离更频繁时发生。类似地，标志物基因座还可以与性状相关，例如，若标志物基因座与性状连锁不平衡中(例如，当发现标志物在病例中比在对照群体中更常见时，可以检测到这一结果)，则可以说标志物基因座与指定性状(乳腺癌抗性或易感性)"相关"。术语"连锁不平衡"意指遗传基因座或性状(或它们两者)的非随机分离。在每一情况中，连锁不平衡意指相关基因座位于沿染色体长度的足够物理接近内，使得它们以大于随机的频率彼此分离(就共分离性状而言，性状潜在的基因座彼此有足够的接近性)。连锁基因座共分离50%以上的机会，例如，约51%－约100%的机会。有利的是，两个基因座彼此紧密邻近定位，使得同源染色体对之间的重组以高频率在减数分裂过程中在两个基因座之间不发生，例如，使得紧密连锁的基因座共分离至少约80%的机会，更优选至少约85%的机会，更优选至少90%的机会，例如，91%，92%，93%，94%，95%，96%，97%，98%，99%，99.5%，99.75%或99.90%或以上的机会。

本申请中的术语"紧密连锁"意指两个连锁的基因座(例如，SNP，诸如图1或2中鉴定的(例如，通过比较病例和对照群体得出与乳腺癌表型相关)和第二种连锁多态性)之间重组以等于或小于约20%的频率发生。换言之，紧密(或"紧固")连锁的基因座共分离至少80%的机会。标志物基因座在它们与靶基因座(例如，乳腺癌的QTL，或单纯的其它乳腺癌标志物基因座)紧密连锁时对本发明尤其有用。标志物与靶基因座连锁得越紧密，则该标志物为靶基因座指示物越好。因此，在一个实施方案中，紧密连锁的基因座，诸如标志物基因座和第二种基因座展示出约20%或以下，例如，15%或以下，例如，10%或以下，优选约9%或以下，更优选约8%或以下，更优选约7%或以下，更优选约6%或以下，更优选约5%或以下，更优选约4%或以下，更优选约3%或以下且更优选约2%或以下的基因座间重组频率。在高度优选的实施方案中，相关基因座(例如，标志物基因座和靶基因座，诸如QTL)展示出约1%或以下，例如，约0.75%或以下，更优选约0.5%或以下、或更优选约0.25%或以下、或更优选约0.1%或以下的重组频率。还认为对于位于同一染色体上的两个基因座并且在两个基因座之间以小于约20%，例如15%，更优选10%(例如，约9%，8%，7%，6%，5%，4%，3%，2%，1%，0.75%，0.5%，0.25%，0.1%或以下)的频率发生重组的这类距离上，两个基因座为彼此"邻近的"。当提到两个连锁遗传元件，诸如促成性状的遗传元件和邻近标志物的相关性时，"偶联"相连锁表示位于性状基因座上的"有利"等位基因以物理方式结合在与相应连锁标志物基因座的"有利"等位基因相同的染色体链上的状态。在偶联相中，两种有利的等位基因一起通过遗传该染色体链的子代遗传。在"排斥"相连锁中，在所关注的基因座(例如，乳腺癌易感性的QTL)上的"有利"等位基因以物理方式结合在与邻近标志物基因座上"不利"等位基因相同的染色体链上，并且两个"有利"的等位基因不一起遗传(即两个基因座彼此"异相")。

在有关核酸扩增的上下文中术语"扩增"为产生所选核酸(或其转录形式)的额外拷贝的任何过程。典型的扩增方法包括基于各种聚合酶的复制方法，包括聚合酶链反应(PCR)、连接酶介导的方法诸如连接酶链反应(LCR)和基于RNA聚合酶的扩增(例如，通过转录)法。"扩增子"为扩增得到的核酸，例如通过用任何可利用的扩增方法(例如，PCR、LCR、转录等)扩增模板核酸产生的核酸。

"基因组核酸"为序列上对应于细胞中可遗传核酸的核酸。常见的实例包括核基因组DNA及其扩增子。在某些情况中，基因组核酸不同于剪接RNA或相应cDNA，即剪接的RNA或cDNA例如被剪接机制加工以除去内含子。基因组核酸任选包含不转录(例如，染色体结构序列、启动子区、增强子区等)和/或不翻译的序列(例如内含子)，而剪接的RNA/cDNA一般不具有内含子。"模板基因组核酸"为用作扩增反应(例如，基于聚合酶的扩增反应，诸如PCR；连接酶介导的扩增反应，诸如LCR；转录反应等)中的模板的基因组核酸。

"外源性核酸"为对特定系统(例如，种质、细胞、个体等)而言在序列、基因组位置或它们两者方面非天然的核酸。本文作为应用于多核苷酸或多肽所用的术语"外源性"或"异源性"一般意指以人工方式提供给生物系统(例如，细胞、个体等)并且对特定生物学系统而言为非天然的分子。该术语可以表示该相关物资源自非天然存在来源的来源，或可以指具有部分非天然构造、遗传位置或排列的分子。

术语"导入"在指将异源性或外源性核酸转移入细胞时意指使用任何方法将核酸掺入细胞。该术语涵盖诸如"转染"、"转化"和"转导"这类核酸导入方法。

本文所用的术语"载体"用于指将核酸区段转入细胞的多核苷酸或其它分子。术语"媒介（vehicle）"有时与"载体（vector）"可以互换使用。载体任选包含介导载体维持并且能够实现指定应用的部分(例如，复制必需序列、传递药物或抗生素抗性的基因、多克隆位点、能够表达所克隆基因的可操作连接的启动子/增强子元件等)。载体通常衍生自质粒、噬菌体、或植物或动物病毒。"克隆载体"或"穿梭载体"或"亚克隆载体"包含有利于亚克隆步骤的可操作连接的部分(例如，包含多个限制性内切核酸酶位点的多克隆位点)。

本文所用的术语"表达载体"意指包含有利于特定宿主生物体中编码序列表达的可操作连接的多核苷酸序列(例如，细菌表达载体或哺乳动物细胞表达载体)。有利于原核细胞中表达的多核苷酸序列一般包括，例如，启动子、操纵基因(任选)和核糖体结合位点，通常还有其它序列。真核细胞可以使用启动子、增强子、终止和聚腺苷酸化信号、和一般不同于原核细胞所用的其它序列。在一个任选的实施方案中，将对应于本文基因座的基因克隆入表达载体并且表达，其中将基因产物用于本文的方法和系统以便进行调控剂鉴定。

若特定的核酸是使用指定的核酸序列构建的，或者特定的核酸是使用指定的核酸构建的，则该特定的核酸"衍生自"该指定的核酸。

"基因"为基因组中一起编码一种或多种表达分子，例如RNA或多肽的一种或多种核苷酸序列。基因可以包括转录成RNA、随后可翻译成多肽序列的编码序列，并且可以包括有助于基因复制或表达的相关结构序列或调控序列。本发明中所关注的基因包括包含图1和/或2的基因座或与之紧密连锁的那些。

"基因型"为一个或多个遗传基因座上单个(单个成组)的遗传组成。基因型由个体的一个或多个已知基因座的等位基因确定，一般为从其亲代遗传的等位基因的汇编。"单倍型"为个体在单一DNA链上的多个遗传基因座的基因型。一般而言，由单倍型描述的遗传基因座在物理和遗传上连锁，即在相同染色体链上。

标志物或探针"组"意指标志物或探针的集合或组，或其衍生的数据，它们用于常用目的，例如鉴定具有特定表型(例如，乳腺癌抗性或易感性)的个体。通常将对应于标志物或探针或衍生自其应用的数据储存在电子介质中。尽管一组中的成员各自具有在特定目的方面的应用，但是选自该组和亚组（其包括某些，但并非所有的标志物）的各个标志物也有效地实现特定目的。

"查阅表"为使一种数据形式与另一种数据形式或使一种或多种数据形式与该数据相关的预测结果建立相关性的表。例如，查阅表可以包括等位基因数据与包含一种或多种指定等位基因的个体有可能展示出的预测性状之间的相关性。这些表可以并且一般为多维的，例如同时考虑多个等位基因，并且还任选考虑其它因素，诸如遗传背景，例如在进行性状预测时。

"计算机可读介质"为可通过使用可利用或定制界面的计算机读取的信息储存介质。实例包括内存(例如ROM或RAM、闪存等)、光存储介质(例如，CD-ROM)、磁存储介质(计算机硬驱、软盘等)、穿孔卡片和可商购的许多其它介质。信息可以在所关注的系统与计算机之间传输，传输出入计算机或出入计算机可读介质以储存或读取所存储的信息。这种传输可以为电子传输，或可以通过其它可利用的方法，诸如IR链接、无线连接等进行。

"系统指令"为可以由系统部分或完全执行的指令集。一般而言，该指令集作为系统软件存在。

"翻译产物"为作为核酸翻译结果产生的产物(一般为多肽)。"转录产物"为作为核酸(例如，DNA)转录结果产生的产物(例如，RNA，任选包括mRNA，或例如催化性或生物学活性RNA)。

"阵列"为元件集合。该集合可以为空间排序的("样式阵列")或混乱的("随机样式"阵列)。阵列可以形成或包含一种或多种功能性元件(例如，微阵列上的探针区)或它可以为非功能性的。

本文所用的术语"SNP"或"单核苷酸多态性"意指个体之间的遗传变异；例如，可变的生物体DNA中的单一含氮碱基位置。本文所用的"SNPs"为SNP的复数。当然，当意指本文的DNA时，这类参比物可以包括DNA的衍生物，诸如扩增子、其RNA转录物等。

发明详述

综述

本发明包括图1和2的多态性(和包括多态性或与之邻近的基因)与乳腺癌恶病质之间的新相关性。在这些基因或基因产物中及与之连锁的某些等位基因可预测具有相关等位基因的个体发生乳腺癌的可能性。因此，通过任何可利用的方法检测这些等位基因可以用于诊断目的，诸如对乳腺癌易感性的早期诊断、具有乳腺癌的患者的预后和有助于诊断，例如，当目前的标准不足以确定诊断时。

图1或2的多态性、基因或基因产物与乳腺癌表型相关的鉴定还提供了用于筛选乳腺癌病症的潜在调控剂的平台。预计对应于图1和2的多态性的任何基因或编码蛋白质的活性的调控剂对乳腺癌有作用。因此，筛选方法、筛选系统等为本发明的特征。通过这些筛选手段鉴定的调控剂也为本发明的特征。

例如包括鉴定相关等位基因的探针、包装材料和使相关等位基因的检测与乳腺癌建立相关性的说明书的乳腺癌诊断和治疗试剂盒也为本发明的特征。这些试剂盒还可以包括乳腺癌调控剂和/或关于使用常规方法治疗患者的说明书。

鉴定乳腺癌恶病质的方法

正如所述的，本发明提供了图1和2的某些基因或其它基因座与乳腺癌表型连锁的发现。因此，通过检测与相关表型正或负相关的标志物(例如，图1或2中的SNP与之紧密连锁的基因座)，可以确定个体或群体是否可能包含这些表型。这为鉴定处于乳腺癌风险中的患者提供了增强的早期检测选择，从而在某些情况中有可能例如通过采取早期预防行动(例如，任何现有的疗法，包括预防性手术、膳食、锻炼、可利用的药物等)预防癌症的实际发生。此外，各种本文标志物的应用还为现存的鉴定患者是否患有特定形式乳腺癌的诊断技术增加了确定性。此外，是否存在该病的分子基础的知识也可有助于例如通过提供患者对乳腺癌常规疗法有响应的可能性如何的指征来确定患者的预后。还可以基于患者展示出何种类型的分子病症来靶向疾病的治疗。

用于检测相关等位基因的检测方法可以包括任何可利用的方法，例如，扩增技术。例如，检测可以包括扩增多态性或与之相关的序列并且检测所得扩增子。例如，该方法可以包括混合扩增引物或扩增引物对与分离自生物体或生物学样品(例如包含SNP或其它多态性)的核酸模板，其中所述的引物或引物对与基因或紧密连锁的多态性的至少一部分或与之邻近的序列互补或部分互补。引物一般能够启动聚合酶在核酸模板上的核酸聚合。所述的引物或引物对例如在包含聚合酶和模板核酸的DNA聚合反应(PCR、RT-PCR等)中延伸而生成扩增子。通过可利用的检测方法，例如测序、使扩增子与阵列杂交(或使扩增子附着在阵列上并且使探针与之杂交)、用限制酶消化扩增子(例如，RFLP)、实时PCR分析、单核苷酸延伸、等位基因特异性杂交等来检测扩增子。

可以通过可鉴定等位基因与表型之间相关性的任何方法形成所检测的多态性与性状之间的相关性。最一般的情况是，这些方法包括参照包含多态性的等位基因与表型之间相关性的查阅表。该表可以包括多种等位基因-表型相关性的数据并且可以考虑到多种等位基因-表型相关性的叠加或其它高级作用，例如，通过使用统计学工具，诸如主要成分分析、启发式算法等。

在这些方法的内容中，下列讨论首先集中在标志物与等位基因如何连锁和该现象如何应用于鉴定乳腺癌表型的方法的内容中，然后集中在标志物检测方法。下面的别的部分讨论了数据分析。

标志物、连锁和等位基因

在传统的连锁(或关联)分析中，无需染色体上基因的物理相关性的直接知识。孟德尔第一法则为成对特征的因素是分离的，意味着二倍体性状的等位基因分离成两个配子且然后分离成不同的子代。经典的连锁分析可以视为对不同性状的共分离的相对频率的统计学描述。连锁分析为性状如何基于它们一起分离的频率一起分组的充分表征的描述框架。即，如果两个非等位基因的性状以高于随机的频率一起遗传，那么就说它们是"连锁的"。性状一起遗传的频率为性状如何紧密连锁的主要度量，即以较高频率一起遗传的性状比以较低(但仍然高于随机)频率一起遗传的性状更紧密连锁。性状连锁是因为性状潜在的基因彼此接近地位于同一染色体上。基因所在的染色体上的间隔越大，则它们一起分离的可能性越低，因为同源染色体在减数分裂过程中重组。因此，基因所在的染色体上的间隔越大，则在减数分裂过程中有重组事件的可能性越大，所述的重组会导致两种基因彼此分离而进入子代。

连锁(或关联)的常见度量为性状共分离的频率。可以将此表述为共分离百分比(重组频率)，或同样常用的以厘摩(cM)表示，它们实际上为重组频率的倒数单位。cM以开拓性遗传学家ThomasHuntMorgan命名并且为遗传重组频率的度量单位。1个cM等于因单代(singlegeneration)中的重组，一个遗传基因座上的性状与另一基因座上的性状分离的机会为1%（这意味着这些性状99%的机会一起分离）。因为染色体距离与性状间重组事件频率大致成正比，所以存在与重组频率相关的近似物理距离。例如，在人体中，1cM平均与约1百万个碱基对(1Mbp)相关。

标志物基因座自身为性状并且可以按照标准连锁分析，通过在分离过程中示踪标志物基因座来评价。因此，在本发明的上下文中，1cM等于因单代中的重组，标志物基因座与另一基因座(可以为任何其它性状，例如另一种标志物基因座，或编码乳腺癌QTL的另一种性状基因座)分离的机会为1%。本文的标志物，例如，图1和2中所列的那些，可以与乳腺癌相关。这意味着所述的标志物包含乳腺癌的QTL或与之足够邻近，即它们自身可以用作性状的预测物。这在疾病诊断方面极为有用。

已经在病例(乳腺癌患者)与对照群体中将图1和2的多态性鉴定为更普遍的。与所关注的性状基因座连锁的任何标志物(例如，在目前情况中为乳腺癌的QTL或鉴定的连锁标志物基因座，例如，如在图1和2中)可以用作该性状的标志物。因此，在图1和2中注意到的外，与这些图中详细列举的标志物紧密连锁的其它标志物也可以有用地预测图中所示的标志物等位基因(和由此的相关表型性状)的存在。在它们足够邻近指定基因座，使得它们展示出与指定基因座的低重组频率时，这类连锁的标志物特别有用，。在本发明中，这类紧密连锁的标志物为本发明的特征。紧密连锁的基因座展示出与指定标志物的重组频率为约20%或以下(指定基因在指定标志物的20cM内)。换言之，紧密连锁的基因座至少80%的机会共分离。更优选重组频率为10%或以下，例如，9%，8%，7%，6%，5%，4%，3%，2%，1%，0.5%，0.25%或0.1%或以下。在一种典型类型的实施方案中，紧密连锁的基因座彼此在5cM或以下内。

正如本领域技术人员认识到的，重组频率(和作为结果的图位置)可以根据所用图(和图上的标志物)而改变。与图1和2中鉴定的标志物紧密连锁的(例如，在约20cM内，更优选在约10cM内，更优选在5cM内)别的标志物易于用于鉴定乳腺癌恶病质的QTL。

在标志物基因座与靶基因座(例如，乳腺癌表型的QTL，或可选择地，自身与这类QTL连锁的其它标志物基因座)（所述标志物基因座作为所述靶基因的标志物）紧密连锁时，该标志物基因座尤其可用于本发明。标志物与编码或影响表型性状的靶基因座连锁得越紧密，则该标志物作为靶基因座的指示物越好(因靶基因座与标志物之间的交叉(cross-over)频率下降)。因此，在一个实施方案中，紧密连锁的基因座诸如标志物基因座和第二种基因座(例如图1和2的指定标志物基因座和别的第二种基因座)展示出约20%或以下，例如15%或以下，优选10%或以下，更优选约9%或以下，更优选约8%或以下，更优选约7%或以下，更优选约6%或以下，更优选约5%或以下，更优选约4%或以下，更优选约3%或以下且更优选约2%或以下的基因座间交叉频率。在非常优选的实施方案中，相关基因座(例如，标志物基因座和靶基因座诸如QTL)展示出约1%或以下，例如约0.75%或以下，更优选约0.5%或以下，或更优选约0.25%或0.1%或以下的重组频率。因此，基因座相距约20cM，19cM，18cM，17cM，16cM，15cM，14cM，13cM，12cM，11cM，10cM，9cM，8cM，7cM，6cM，5cM，4cM，3cM，2cM，1cM，0.75cM，0.5cM，0.25cM，0或0.1cM以下。换言之，认为位于相同染色体上并且在两个基因座之间的重组以低于20%(例如，约19%，18%，17%，16%，15%，14%，13%，12%，11%，10%，9%，8%，7%，6%，5%，4%，3%，2%，1%，0.75%，0.5%，0.25%，0.1%或以下)的频率出现的这类距离上的两个基因座彼此"邻近"。在一个方面中，连锁标志物彼此在100kb内(在人体中对应于约0.1cM，这取决于局部重组率)，例如，50kb，乃至20kb或以下。

当涉及两种遗传元件，诸如促成乳腺癌的遗传元件与邻近标志物之间的相关性时，"偶联"相连锁表示位于基因座上的"有利"等位基因以物理方式结合在与相应的连锁标志物基因座的"有利"等位基因相同的染色体链上的状态。在偶联相中，两种有利的等位基因一起通过遗传该染色体链的子代遗传。在"排斥"相连锁中，在所关注的基因座(例如，乳腺癌的QTL)上的"有利"等位基因以物理方式与位于邻近标志物基因座上的"不利"等位基因连锁，并且两个"有利"的等位基因不一起遗传(即两个基因座彼此"异相")。

在示踪基因组和相应表达的核酸和多肽中的SNP和其它多态性外，个体或群体之间的mRNA或蛋白质形式的图1和2基因产物的表达水平差异也与乳腺癌相关。因此，本发明的标志物可以包括如下的任意种，例如：基因组基因座、转录的核酸、剪接的核酸、表达的蛋白质、转录的核酸的水平、剪接的核酸的水平和表达的蛋白质的水平。

标志物扩增策略

用于扩增标志物(例如，标志物基因座)的扩增引物和用于检测这类标志物或对样品在多种标志物等位基因方面进行基因分型合适探针为本发明的特征。在图1和2中，提供了用于扩增的特定基因座及这类引物设计中已知的侧翼序列。例如，用于远程PCR的引物选择描述在2002年1月9日提交的USSN10/042,406和2002年9月5日提交的USSN10/236,480中；就近程PCR而言，2003年1月14日提交的USSN10/341,832中提供了有关引物选择的指导原则。此外，存在公众可用于进行引物设计的程序，诸如"Oligo"。使用这类可利用的引物选择和设计软件、图1和2中提供的公众可利用的人类基因组序列和多态性位置，本领域技术人员可以构建引物以便扩增本发明的SNP。此外，可以理解用于检测包含SNP的核酸(例如，包含SNP的扩增子)的精确探针可以改变，例如，可以鉴定所检测的标志物扩增子区的任何探针可以与本发明结合使用。此外，检测探针的构造当然可以改变。因此，本发明并不限于本文所述的序列。

实际上，可以理解扩增并非标志物检测所要求的-例如，可以单纯通过对基因组DNA样品进行Southern印迹来直接检测未扩增的基因组DNA。用于进行Southern印迹、标准扩增(PCR、LCR等)和许多其它核酸检测方法的规程为充分确立的并且例如教导在下列文献中：Sambrook等，MolecularCloning- ALaboratoryManual(3rdEd.)，Vol.1-3，ColdSpringHarborLaboratory，ColdSpringHarbor，NewYork，2000("Sambrook")；CurrentProtocolsinMolecularBiology，F.M.Ausubel等，eds.，CurrentProtocols，GreenePublishingAssociates，Inc.和JohnWiley&Sons，Inc.的合作项目，(增补至2002)("Ausubel"))和PCR ProtocolsAGuidetoMethodsandApplications(Innis等eds)AcademicPressInc.SanDiego，CA(1990)(Innis).

在扩增/检测方法中，例如，还可以通过进行检测产物形成的实时扩增反应来省略单独的检测探针，其中在掺入产物时修饰相关扩增引物，将标记的核苷酸掺入扩增子，或监测与未扩增的前体相比扩增子的分子旋转特性的改变(例如，通过荧光偏振)。

一般而言，通过本领域中任何可利用的确立的方法检测分子标志物，包括，但不限于等位基因特异性杂交(ASH)、检测单核苷酸延伸、阵列杂交(任选包括ASH)或其它检测单核苷酸多态性(SNP)的方法、扩增片段长度多态性(AFLP)检测、扩增可变序列检测、随机扩增多态性DNA(RAPD)检测、限制性片段长度多态性(RFLP)检测、自维持序列复制检测、单一序列重复(SSR)检测、单链构象多态性(SSCP)检测、同工酶标志物检测、Northern分析(其中将表达水平用作标志物)、mRNA或cDNA的定量扩增等。尽管图中提供的例示性标志物为SNP标志物，但是上述任何标志物类型均可以用于本发明的上下文中，以便鉴定与乳腺癌表型相关的连锁基因座。

用于标志物检测的例示技术

本发明提供了包含乳腺癌表型的QTL或与之连锁的分子标志物。这些标志物应用于疾病恶病质诊断、预后、治疗等。并非意图将本发明限于用于检测这些标志物的任何特定方法。

可以通过大量本领域中充分确立的方法来检测对应于群体成员之间的遗传多态性的标志物(例如，基于PCR的序列特异性扩增、限制性片段长度多态性(RFLP)、同工酶标志物、Northern分析、等位基因特异性杂交(ASH)、基于阵列的杂交、扩增可变基因组序列、自维持序列复制、单一序列重复(SSR)、单核苷酸多态性(SNP)、随机扩增的多态性DNA("RAPD")或扩增片段长度多态性(AFLP))。在另一个实施方案中，单纯通过测定多态性标志物区的核苷酸序列来确定分子标志物的存在与否。任何这些方法均易于适合于高通量分析。

用于检测遗传标志物的某些技术利用探针核酸与对应于遗传标志物的核酸(例如，使用基因组DNA作为模板产生的扩增的核酸)的杂交。杂交方式，包括，但不限于：溶液相、固相、混合相或原位杂交测定法，可用于等位基因检测。应用于核酸杂交的广泛指导原则见Tijssen(1993)Laboratory TechniquesinBiochemistryandMolecularBiology-HybridizationwithNucleic AcidProbesElsevier，NewYork以及Sambrook，Berger和Ausubel。

例如，包含限制性片段长度多态性(RFLP)的标志物例如通过使一般为待检测核酸的亚片段(或对应于亚片段的寡核苷酸)的探针与限制性消化基因组DNA杂交来检测。选择限制酶以便提供在不同个体或群体中有至少两种可选择的(或多态性)长度的限制片段。确定对标志物各等位基因产生有用片段的一种或多种限制酶为本领域众所周知的简便规程。在根据长度在适当基质(例如，琼脂糖或聚丙烯酰胺)中分离并且转至膜(例如，硝化纤维素、尼龙等)后，在导致探针与靶物平衡结合的条件下杂交标记的探针，随后通过洗涤除去过量的探针。

可以克隆和/或合成用于标志物基因座的核酸探针。任何合适的标记物均可以与本发明的探针联用。适用于核酸探针的可检测标记物包括，例如，可通过分光光度法、放射性同位素、光化学、生物化学、免疫化学、电、光学或化学方式检测的任何组合物。有用的标记物包括使用标记的链霉亲合素缀合物染色的生物素、磁珠、荧光染料、放射性标记物、酶、和比色标记物。其它标记物包括结合用荧光团、化学发光剂和酶标记的抗体的配体。探针还可以构成用于产生放射性标记的扩增子的放射性标记的PCR引物。用于标记核酸的标记策略和相应的检测策略可以见例如Haugland(2003)Handbookof FluorescentProbesandResearchChemicalsNinthEdition，MolecularProbes，Inc.(EugeneOR)。有关标志物检测策略的其它细节可以在下文中找到。

基于扩增的检测方法

PCR、RT-PCR和LCR特别广泛地用作扩增所关注的核酸(例如，包含标志物基因座的那些)的扩增和扩增-检测方法，从而有利于检测所关注的核酸。有关这些和其它扩增方法的详细描述可以在任何多种标准教科书中找到，包括，例如，Sambrook，Ausubel和Berger。许多可利用的生物学教科书还扩展了有关PCR和相关扩增方法的讨论。本领域技术人员可以理解基本上可以将任何RNA转化成适合于限制性消化、PCR延伸、和使用逆转录酶和聚合酶测序("逆转录-PCR或"RT-PCR")的双链DNA。另外参见上述的Ausubel，Sambrook和Berger。这些方法还可以用于定量扩增mRNA或相应的cDNA，从而提供个体中对应于基因产物的mRNA表达水平的指示，所述的基因产物对应于图1和2的基因或基因产物。个体、家族、品系和/或群体之间的这些基因的表达水平差异可以用作乳腺癌表型的标志物。

实时扩增/检测方法

在一个方面中，例如，使用分子信标或TaqMan^TM探针对本文所述的扩增混合物进行实时PCR或LCR。分子信标(MB)为在适当杂交条件下自杂交而形成茎环结构的寡核苷酸或PNA。MB在寡核苷酸或PNA末端上具有标记物和猝灭剂；由此在允许分子内杂交的条件下，标记物一般被猝灭剂猝灭(或至少在其荧光方面发生改变)。在MB未展示出分子内杂交的条件下(例如在扩增过程中当结合靶核酸，例如扩增子区时)，MB标记物未猝灭。有关制备和使用MB的标准方法的详细描述在文献中充分确立，并且MB可购自许多商品试剂来源。另外，参见例如，Leone等(1995)"MolecularbeaconprobescombinedwithamplificationbyNASBAenablehomogenousreal-timedetectionofRNA."NucleicAcidsRes.26：2150-2155；Tyagi和Kramer(1996)"Molecularbeacons:probesthatfluoresceuponhybridization"NatureBiotechnology14：303-308；Blok和Kramer(1997)"Amplifiablehybridizationprobescontainingamolecularswitch"MolCellProbes11：187-194；Hsuih等(1997)"Novel,ligation-dependentPCRassayfordetectionofhepatitisCinserum"JClin Microbiol34：501-507；Kostrikis等(1998)"Molecularbeacons:spectralgenotypingofhumanalleles"Science279：1228-1229；Sokol等(1998)"RealtimedetectionofDNA:RNAhybridizationinlivingcells"Proc.Natl.Acad.Sd. U.S.A.95：11538-11543；Tyagi等(1998)"Multicolormolecularbeaconsforallelediscrimination"NatureBiotechnology16：49-53；Bonnet等(1999)"ThermodynamicbasisofthechemicalspecificityofstructuredDNAprobes"Proc.Natl.Acad.Sd.U.S.A.96：6171-6176；Fang等(1999)"Designinganovelmolecularbeaconforsurface-immobilizedDNAhybridizationstudies"J.Am. Chem.Soc.121：2921-2922；Marras等(1999)"Multiplexdetectionofsingle-nucleotidevariationusingmolecularbeacons"Genet.Anal.Biomol.Eng.14：151-156;和Vet等(1999)"Multiplexdetectionoffourpathogenicretrovirusesusingmolecularbeacons"Proc.Natl.Acad.Sci.U.S.A.96：6394-6399。有关MB构建和应用的额外详细描述可以在专利文献中找到，例如，Tyagi等的USP5,925,517(1999年7月20日)，标题为"Detectablylabeleddualconformationoligonucleotideprobes,assaysandkits"；Tyagi等的USP6,150,097(2000年11月21日)，标题为"Nucleicaciddetectionprobeshavingnon-FRETfluorescencequenchingandkitsandassaysincludingsuchprobes"和Tyagi等的USP6,037,130(2000年3月14日)，标题为"Wavelength-shiftingprobesandprimersandtheiruseinassaysandkits"。

还可以按照本发明使用通常称作"TaqMan^TM"探针的双重标记的荧光寡脱氧核苷酸探针进行PCR检测和定量。这些探针由使用两种不同荧光染料标记的短(例如，20-25个碱基)寡核苷酸组成。在每个探针的5'端上为报道染料，并且在每个探针的3'端上发现猝灭染料。寡核苷酸探针序列与存在于PCR扩增子中的内部靶序列互补。当该探针完整时，在两个荧光团之间发生能量转移并且由猝灭剂通过FRET猝灭来自报道分子的发射。在PCR的延伸期过程中，探针因用于反应的聚合酶的5'核酸酶活性而裂解，由此从寡核苷酸-猝灭剂中释放报道分子并且产生报道分子发射强度的增加。因此，TaqMan^TM探针为具有标记物和猝灭剂的寡核苷酸，其中标记物在扩增过程中通过扩增所用聚合物的外切核酸酶作用而释放。这在合成过程中提供了对扩增的实时测量。各种TaqMan^TM试剂为商购的，例如购自AppliedBiosystems(DivisionHeadquarters,FosterCity，CA)并且购自各种专业供应商，诸如BiosearchTechnologies(例如，黑洞猝灭剂探针)。有关双重标记物探针策略的额外详细描述可以在例如WO92/02638中找到。

其它类似的方法包括，例如，使用例如U.S.6,174,670中所述的""形式的两个相邻杂交探针之间的荧光共振能量转移。

基于阵列的标志物检测

可以使用商购阵列，例如购自Affymetrix(SantaClara，CA)或其它制造商的阵列进行基于阵列的检测。有关核酸阵列操作的综述包括Sapolsky等(1999)"High-throughputpolymorphismscreeningandgenotypingwithhigh-densityoligonucleotidearrays"GeneticAnalysis:BiomolecularEngineering14：187-192；Lockhart(1998)"Mutantyeastondrugs"NatureMedicine4：1235-1236；Fodor(1997)"Genes，ChipsandtheHumanGenome"FASEBJournal11：A879；Fodor(1997)"MassivelyParallelGenomics."Science277：393-395；和Chee等(1996)"AccessingGeneticInformationwithHigh-DensityDNAArrays"Science274：610-614。基于阵列的检测因基于阵列的检测的固有高流通量性质而成为用于鉴定样品中本发明标志物的优选方法。

各种探针阵列已经描述在文献中并且可以用于本发明上下文中检测可能与本文所述表型相关的标志物。例如，DNA探针阵列芯片或较大的DNA探针阵列晶片(否则，可以通过打断晶片而获得各个体芯片)用于本发明的一个实施方案。DNA探针阵列晶片一般包含玻璃晶片，其上放置了高密度DNA探针(短DNA片段)阵列。这些晶片各自可以保持例如约6000万个用于识别较长样品DNA序列(例如，来自个体或群体，例如，包含所关注的标志物)的DNA探针。用玻璃晶片上的DNA探针组识别样品DNA通过DNA杂交进行。当DNA样品与DNA探针阵列杂交时，样品结合与样品DNA序列互补的那些探针。通过评价个体样品DNA与那些探针更稳固地杂交，有可能确定已知的核酸序列是否存在于样品中，由此确定核酸中发现的标志物是否存在。还可以使用这一手段通过控制杂交条件以允许区别单一核苷酸，例如，用于SNP鉴定和一种或多种SNP的样品基因分型来进行ASH。阵列提供了一种同时(或串连)检测多个多态性标志物的便利性实施方案。例如，可以构建乳腺癌易感性检测阵列，其中同时检测任何或所有本文所述的多态性(或与之连锁的多态性)以便指定乳腺癌易感性表型。当然，可以类似地使用任何检测技术(PCR、LCR、实时PCR等)，例如，使用多重扩增/检测反应或单纯通过运行几个单独的反应，例如，同时的或串连的。

DNA探针阵列在获得等位基因信息中的应用一般包括下列一般步骤：设计和制备DNA探针阵列，制备样品，使样品DNA与阵列杂交，检测杂交事件和数据分析以便测定序列。使用来自半导体生产的改良方法制备优选的晶片以便获得成本效率和高质量并且可购自例如Affymetrix，Inc(SantaClara，California)。

例如，可以通过光定向的化学合成方法制备探针阵列，所述的光定向的化学合成方法合并了固相化学合成与半导体工业所采用的光刻制造技术。由于使用一系列光刻罩来限定芯片暴露点，随后进行特定的化学合成步骤，所以该方法构建了高密度寡核苷酸阵列，在该阵列中每个探针位于预定的位置。可以在大玻璃晶片上同时合成多个探针阵列。这种平行方法提高了再现性并且有助于实现规模化经济。

一旦制成，DNA探针阵列就可以用于获得有关所关注标志物的存在和/或表达水平的数据。可以通过标准生化方法用生物素和/或荧光报道基团标记DNA样品。将标记的样品与阵列一起孵育，并且使样品的区段与阵列上的互补序列结合或杂交。可以洗涤和/或染色阵列以便产生杂交模式。然后扫描该阵列并且根据从荧光报道基团中发射的光检测杂交模式。有关这些规程的额外详细描述可以在下文的实施例中找到。因为已知阵列上每个探针的身份和位置，所以可以确定应用于阵列的样品中的DNA序列的性质。当这些阵列用于基因分型实验时，它们可以称作基因分型阵列。如上所述，可以检测例如图1和/或图2中本文所述的任何或所有多态性的基因型，例如以便指定乳腺癌恶病质表型。

将待分析的核酸样品分离，扩增且一般用生物素和/或荧光报道基团标记。然后使用流控技术站和分子杂交仪将标记的核酸样品与阵列一起孵育。可以根据检测方法的需要对阵列进行洗涤和/或染色或复染。在杂交、洗涤和染色后，将阵列插入检测杂交模式的扫描仪。将杂交数据采集为发射自荧光报道基团的光，所述的荧光报道基团已经掺入现在与探针阵列结合的标记核酸。最明显地与标记核酸匹配的探针产生强于具有错配的那些的信号。由于已知阵列上每个探针的序列和位置，所以可以根据互补性鉴定应用于探针阵列的核酸的身份。

在一个实施方案中，可以差别标记两种DNA样品并且使其与单组设计的基因分型阵列杂交。在这种方式中，可以从相同的物理阵列中获得两组数据。可以使用的标记物包括，但不限于cychrome、荧光素或生物素(随后在杂交后用藻红蛋白-链霉亲合素染色)。双色标记描述在美国专利No,6,342,355中，将该文献完整地引入本文作为参考。可以扫描每个阵列，使得同时检测来自两种标记物的信号或将它们扫描两次以便分别检测每个信号。

对测试标志物存在的各个体用扫描仪采集所有标志物的强度数据。测得的强度为指示存在于指定个体的样品中特定标志物的量的度量(存在于个体中的等位基因的表达水平和/或拷贝数，取决于是分析基因组核酸还是表达的核酸)。这可以用于确定个体在左关注的标志物方面是纯合型的还是杂合型的。处理强度数据以便提供有关各种强度的相应标志物信息。

有关扩增的可变序列、SSR、AFLP、ASH、SNP和同工酶标志物的别的细节

扩增的可变序列意指在同一物种成员之间表现出高度核酸残基变异性的基因组的扩增序列。所有生物体均具有可变基因组序列且每种生物体(除克隆，例如克隆的细胞外)均具有不同组的可变序列。一旦鉴定，则特定可变序列的存在可以用于预测表型性状。优选的，来自基因组的DNA用作使用位于DNA可变序列侧翼的引物扩增的模板。扩增可变序列且然后测序。

可选择地，自维持序列复制可以用于鉴定遗传标志物。自维持序列复制意指使用靶核酸序列进行核酸扩增的方法，所述的靶核酸序列在体外基本上等温条件下通过使用三种涉及逆转录病毒复制的酶活性呈指数复制：(1)逆转录酶，(2)RNA酶H和(3)DNA-依赖性RNA聚合酶(Guatelli等(1990)Proc NatlAcadSciUSA87：1874)。通过模拟经cDNA中间体的RNA复制的逆转录病毒策略，该反应累积了原始靶标的cDNA和RNA拷贝。

扩增片段长度多态性(AFLP)也可以用作遗传标志物(Vos等(1995)Nucl AcidsRes23：4407)。术语"扩增片段长度多态性"意指在用限制性内切核酸酶切割之前或之后扩增的所选限制性片段。扩增步骤容许易于检测特定限制片段。AFLP容许检测大量的多态性标志物并且已经用于遗传作图(Becker等(1995)MolGenGenet249：65;和Meksem等(1995)MolGenGenet249：74)。

等位基因特异性杂交(ASH)可以用于鉴定本发明的遗传标志物。ASH技术基于短的单链寡核苷酸探针与完全互补单链靶核酸的稳定退火。可以用附着于探针的同位素或非同位素标记物进行检测。

就每种多态性而言，设计两种或多种不同的ASH探针，它们具有相同的DNA序列，但不包括多态性核苷酸上的序列。每个探针具有与一种等位基因序列确切的同源性，使得该探针系列可以区分所有已知的可选等位基因序列。每种探针与靶DNA杂交。使用适当的探针设计和杂交条件，探针与靶DNA之间的单碱基错配会防止杂交。按照这种方式，仅可选探针之一与对等位基因而言纯合或均质的靶样品杂交。对两种等位基因而言杂合或异质的样品与两种可选探针均杂交。

ASH标志物用作显性标志物，其中根据仅有一种探针杂交或不杂交确定仅一种等位基因的存在与否。可以根据无杂交推断可选的等位基因。ASH探针和靶分子任选为RNA或DNA；靶分子为超过与探针互补序列的任何核苷酸长度；设计所述探针以便与DNA靶标的任一链杂交；探针的大小范围与各种严格杂交条件一致等。

PCR容许在相对小体积中由低浓度的核酸扩增ASH的靶序列。否则，用限制性内切核酸酶消化来自基因组DNA的靶序列并且通过凝胶电泳进行大小分离。杂交一般如美国专利5,468,613中所述与结合至膜表面的靶序列进行，ASH探针序列可以与膜结合。

在一个实施方案中，一般如下获得ASH数据，即使用PCR由基因组DNA扩增核酸片段(扩增子)，按照斑点印迹形式将该扩增子靶DNA转至膜上，使标记的寡核苷酸探针与扩增子靶标杂交，并且通过放射自显影术观察杂交斑点。

单核苷酸多态性(SNP)为由基于单核苷酸区分的共有序列组成的标志物。一般而言，通过包含SNP的扩增子在例如丙烯酰胺凝胶上的差别迁移模式来检测这一差别。然而，可选的检测方式，诸如杂交，例如，ASH或RFLP分析或基于阵列的检测也是合适的。

例如，可以将同工酶标志物用作遗传标志物，以便示踪与本文所述标志物连锁的同工酶标志物。同工酶为彼此在其氨基酸和由此的其核酸序列方面不同的酶的多种形式。某些同工酶为包含略微不同亚基的多聚体酶。其它同工酶为多聚体的或单体的，但已经在氨基酸序列的不同位点上从酶原中裂解。可以在蛋白质水平上表征和分析同工酶，或者，可以确定在核酸水平上不同的同工酶。在这类情况中，本文所述任何基于核酸的方法可用于分析同工酶标志物。

有关核酸扩增的别的细节

正如注意到的，核酸扩增技术，诸如PCR和LCR为本领域众所周知的并且可以应用于本发明，以便扩增和/或检测所关注的核酸，诸如包含标志物基因座的核酸。在上述参考文献例如Innis，Sambrook，Ausubel和Berger中可以找到足以指导本领域技术人员通过这类体外方法的技术的实例，包括聚合酶链反应(PCR)、连接酶链反应(LCR)、Qβ-复制酶扩增和其它RNA聚合酶介导的技术(例如NASBA)。额外的详细描述在如下文献中找到：Mullis等(1987)美国专利No.4,683,202；Arnheim&Levinson(1990年10月1日)C&EN36-47；TheJournalOfNIHResearch(1991)3，81-94;Kwoh等(1989)Proc.Natl.Acad. Sci.USA86，1173；Guatelli等(1990)Proc.Natl.Acad.Sci.USA87，1874；Lomell等(1989)J.Clin.Chem35，1826；Landegren等(1988)Science241，1077-1080；VanBrunt(1990)Biotechnology8，291-294；Wu和Wallace(1989)Gene4，560；Barringer等(1990)Gene89，117和Sooknanan和Malek(1995)Biotechnology13：563-564。Cheng等(1994)Nature369：684及其中的参考文献中进一步概括了通过PCR扩增大核酸的改进方法，其中生成达40kb的PCR扩增子，它可用于与本文多态性(图1和/或2)连锁的基因的定位克隆的情况中。例如，在下列文献中披露了远程PCR方法：2002年1月9日提交的美国专利申请No.10/042,406，标题为"AlgorithmsforSelectionofPrimerPairs"；2002年9月9日提交的美国专利申请No.10/236,480，标题为"MethodsforAmplificationofNucleicAcids"；和2004年5月25日授权的美国专利No.6,740,510，标题为"MethodsforAmplificationofNucleicAcids"。USSN10/341,832(1/14/03提交)中还提供了有关进行近程PCR的引物挑取法的详细描述。

蛋白质表达产物的检测

蛋白质，诸如图1和/或2中注意到的基因编码的那些由核酸，包括包含与本文关注的表型相关的标志物的那些编码。关于分子生物学的基本范例的说明，包括DNA表达(转录和/或翻译)成RNA，进而成蛋白质，参见Alberts等(2002)MolecularBiologyoftheCell，4 ^th EditionTaylor和Francis，Inc.，ISBN：0815332181("Alberts")和Lodish等(1999)MolecularCellBiology，4 ^th EditionWHFreeman&Co，ISBN：071673706X("Lodish")。因此，例如，可以通过检测个体或群体之间的不同蛋白质同种型或通过检测这类所关注的蛋白质(例如，图1和/或2的基因产物)的差别存在、不存在或表达水平，将对应于图1和/或2中的基因的蛋白质作为标志物来检测。

已知各种蛋白质检测方法并且可以用于区分标志物。除上文的各种参考文献外，各种蛋白质操作和检测方法也为本领域中公知的，包括，例如，下列文献中所述的那些：R.Scopes，ProteinPurification，Springer-Verlag，N.Y.(1982)；Deutscher，MethodsinEnzymologyVol.182；GuidetoProtein Purification，AcademicPress，Inc.N.Y.(1990)；Sandana(1997)Bioseparation ofProteins，AcademicPress，Inc.；Bollag等(1996)ProteinMethods，2 ^th EditionWiley-Liss，NY；Walker(1996)TheProteinProtocolsHandbookHumanaPress，NJ；Harris和Angal(1990)ProteinPurificationApplications:APractical ApproachIRLPress，Oxford，Oxford，England；Harris和AngalProtein PurificationMethods:APracticalApproachIRLPress，Oxford，Oxford，England；Scopes(1993)ProteinPurification:PrinciplesandPractice3 ^th EditionSpringerVerlag，NY；Janson和Ryden(1998)ProteinPurification:Principles,High ResolutionMethodsandApplications，SecondEditionWiley-VCH，NY;和Walker(1998)ProteinProtocolsonCD-ROMHumanaPress，NJ；和其中引述的参考文献。有关蛋白质纯化和检测方法的额外详细描述可以在SatinderAhujaed.，HandbookofBioseparations，AcademicPress(2000)中找到。

描述了同时检测许多蛋白质的"蛋白质组"检测方法。它们可以包括各种多维电泳方法(例如，2-d凝胶电泳)、基于质谱的方法(例如，SELDI、MALDI、电喷射等)或表面等离振子共振法。例如，在MALDI中，通常将样品与适当的基质混合，置于探针表面上，并通过激光解吸/电离检验。MALDI的技术为本领域众所周知的。例如，参见美国专利5,045,694(Beavis等)，美国专利5,202,561(Gleissmann等)和美国专利6,111,251(Hillenkamp)。类似地，就SELDI而言，使第一个等分试样接触固相支持体结合的(例如，基质结合的)吸附剂。基质一般为可以使用气相离子分光光度计以可查询的关系定位的探针(例如，生物芯片)。SELDI也为众所周知的技术并且已经应用于诊断蛋白质组学。例如，参见Issaq等(2003)"SELDI-TOFMSforDiagnosticProteomics"AnalyticalChemistry75：149A-155A。

一般而言，上述方法可以用于检测蛋白质的不同形式(等位基因)和/或可以用于检测个体、家族、品系、群体等之间的蛋白质的不同表达水平(可能是因为等位基因差异)。即使所编码的差异表达的蛋白质自身相同，但是受环境因素控制的(whencontrolledforenvironmentfactors)表达水平的差异可以指示位于所关注基因的QTL上的不同等位基因。例如，如果在非编码区，例如诸如控制基因表达的启动子或增强子这类区中存在基因的多种等位基因形式，那么上述情况发生。因此，可以将检测差异表达水平用作检测等位基因差异的方法。

在本发明的其它方面中，包含与乳腺癌表型相关的核酸的、与该核酸连锁不平衡的、或在该核酸控制下的基因可以表现出差异等位基因表达。本文所用的"差异等位基因表达"意指存在于细胞中的单一基因的多个等位基因的等位基因表达上的定性和定量差别。照此，展示出差异等位基因表达的基因可以具有与相同细胞/组织中第二种等位基因相比以不同时间或水平表达的一种等位基因。例如，尽管两者均为相同基因的等位基因并且存在于相同细胞/组织中，但是与乳腺癌表型相关的等位基因可以以高于或低于与乳腺癌表型无关的等位基因的水平得到表达。差异等位基因表达和分析方法详细披露在2003年5月13日提交的美国专利申请号10/438,184和2004年5月12日提交的美国专利申请号10/845,316中，二者标题均为"Allele-specificexpressionpatterns"。与乳腺癌表型相关的一种或多种核酸或其片段、衍生物、多态性、变体或互补物的差异等位基因表达模式的检测对于乳腺癌易感性/抗性是预后性的和诊断性的；同样，检测与乳腺癌表型相关的一种或多种核酸或其片段、衍生物、多态性、变体或互补物的差异等位基因表达模式对于乳腺癌和乳腺癌治疗效果是预后性的和诊断性的。

有关适合于筛选的标志物类型的别的细节

为与本文的表型的相关性筛选的生物学标志物可以为可以通过筛选检测的任何那些类型的标志物，例如，遗传标志物，诸如遗传基因座的等位基因变体(例如，像在SNP中)、表达标志物(例如，mRNA和/或蛋白质的存在或其数量)、诸如此类。

在本发明方法中待扩增、转录、翻译和/或检测的所关注的核酸基本上可以为任何核酸，不过，衍生自人体来源的核酸尤其与检测涉及疾病诊断和临床应用的标志物相关。可得到许多核酸和氨基酸(核酸序列可以通过逆翻译由其推导)的序列，包括图1和/或2的基因/蛋白质。已知核酸的公用序列全集包括EMBL、DDBJ和NCBI。其它全集易于通过搜索互联网鉴定。待扩增、转录、翻译和/或检测的核酸可以为RNA(例如，其中扩增包括RT-PCR或LCR、Van-GelderEberwine反应或Ribo-SPIA)或DNA(例如，扩增的DNA、cDNA或基因组DNA)乃至任何其类似物(例如，用于检测合成的核酸或其类似物，例如，其中所关注的样品包括人工核酸或用于衍生或合成人工核酸)。可以将个体或群体之间核酸序列或表达水平中的任何变异作为标志物来检测，例如，突变、多态性、单核苷酸多态性(SNP)、等位基因、同种型、RNA或蛋白质的表达等。可以检测序列、表达水平或基因拷贝数的变异作为可能与乳腺癌表型相关的标志物来检测。

例如，本发明的方法可用于对衍生自患者的样品筛选所关注的标志物核酸，例如，所述的样品来自患者的体液(血液、唾液、尿液等)、活检、组织、和/或废物。因此，可通过本发明的方法对组织活检、粪便、痰、唾液、血液、淋巴、泪液、汗液、尿液、阴道分泌物、射精的流体等容易的筛选核酸，因为所关注的任何组织基本上均包含适当的核酸。这些样品一般在知情许可后通过标准医学实验室方法取自患者。

在扩增和/或检测包含标志物的核酸前，任选通过任何可利用的方法从样品中纯化核酸，所述的方法例如在如下文献中教导的：Berger和Kimmel，GuidetoMolecularCloningTechniques，MethodsinEnzymologyvolume152AcademicPress，Inc.，SanDiego，CA(Berger)；Sambrook等，MolecularCloning -ALaboratoryManual(3rdEd.)，Vol.1-3，ColdSpringHarborLaboratory，ColdSpringHarbor，NewYork，2001("Sambrook")；和/或CurrentProtocolsin MolecularBiology，F.M.Ausubel等，eds.，CurrentProtocols，GreenePublishingAssociates，Inc.与JohnWiley&Sons，Inc.的合作项目(增补至2002)("Ausubel"))。在商业上还可以利用多种试剂盒从细胞或其它样品中纯化核酸(例如，参见EasyPrep^TM、FlexiPrep^TM，均来自PharmaciaBiotech；StrataClean^TM，来自Stratagene；和QIAprep^TM，来自Qiagen)。可选择地，例如，可以在等分和/或稀释后使样品单纯的直接进行扩增或检测。

标志物的实例可以包括多态性、单核苷酸多态性、样品中一种或多种核酸的存在、样品中一种或多种核酸的缺失、一种或多种基因组DNA序列的存在、一种或多种基因组DNA序列的缺失、一种或多种mRNA的存在、一种或多种mRNA的缺失、一种或多种mRNA的表达水平、一种或多种蛋白质的存在、一种或多种蛋白质的表达水平、和/或衍生自任何上述的数据或其组合。基本上可以使用可利用的方法，例如使用提供高密度、高通量标志物作图的阵列技术检测任何数目的标志物。因此，可以在第一种和/或第二种群体中同时或以连续方式(或其组合)对至少约10、100、1,000、10,000乃至100,000或以上个遗传标志物测试与相关表型的相关性。例如，可能还想测试标志物的组合，以便鉴定群体中与表型相关的遗传组合或表达模式的组合。

正如注意到的，待检测的生物学标志物可以为任何可检测的生物学成分。通常检测的标志物包括遗传标志物(例如，存在于基因组DNA中的DNA序列标志物或其表达产物)和表达标志物(可以反映出遗传编码因素、环境因素或它们两者)。如果标志物为表达标志物，那么方法可以包括测定第一种个体或群体的第一种表达谱(例如，一种或多种表达的标志物，例如一组表达的标志物)并且比较第一种表达谱与第二种个体或群体的第二种表达谱。在该实例中，使表达标志物与特定表型建立相关性可以包括使第一种或第二种表达谱与所关注的表型建立相关性。

探针/引物合成方法

一般而言，用于制备寡核苷酸，包括探针、引物、分子信标、PNA、LNA(锁定核酸)等的合适方法为众所周知的。例如，可以如Needham-VanDevanter等(1984)NucleicAcidsRes.12：6159-6168所述，使用商购的自动化合成仪，按照Beaucage和Caruthers(1981)TetrahedronLetts.，22(20)：1859-1862中所述的固相亚磷酰胺(phosphoramidtie)三酯方法，以化学方式合成寡核苷酸。还可以由本领域技术人员知道的各种商业来源定购寡核苷酸，包括修饰的寡核苷酸。存在许多寡核苷酸合成服务的商业供应商且由此这是一项广泛可取得的技术。可以从各种商业来源定购任何核酸，诸如TheMidlandCertifiedReagentCompany(mcrcoligos.com)、TheGreatAmericanGeneCompany(www.genco.com)、ExpressGenInc.(www.expressgen.com)、OperonTechnologiesInc.(Alameda，CA)等。类似地，可以从任何各种来源，诸如PeptidoGenic(pkimccnet.com)、HTIBio-products，Inc.(htibio.com)、BMABiomedicalsLtd(U.K.)、Bio-Synthesis，Inc.等定购PNA。

计算机(InSilico)标志物检测

在某些实施方案中，计算机(insilico)方法可以用于检测所关注的标志物基因座。例如，可以将包含所关注的标志物基因座的核酸序列储存在计算机中。可以使用由例如，诸如BLAST这类易于得到的程序乃至简单的文字处理器提供的适当核酸搜索算法来鉴定所需标志物基因座序列或其同系物。已经对完整人类基因组进行了测序且由此可将序列信息用于鉴定标志物区、侧翼核酸等。

用于标志物检测的扩增引物

在某些优选的实施方案中，使用合适的基于PCR的检测方法检测本发明的分子标志物，其中PCR扩增子的大小或序列指示所述标志物(例如，特定的标志物等位基因)的存在与否。在这些类型的方法中，PCR引物与位于多态标志物区侧翼的保守区杂交。

可以使用任何合适的方法设计用于本发明的合适的引物。并非意图将本发明限于任何特定的引物或引物对。例如，可以使用任何合适的软件程序，诸如，例如考虑到公众可利用的序列信息来设计引物。本文鉴定的多态性的侧翼序列为公众可得到的；因此，可以基于充分理解的碱基配对原则构建合适的扩增引物。正如上述已经进行了讨论，例如可以通过杂交、阵列杂交、PCR、实时PCR、LCR等进行任何扩增子的序列。

在某些实施方案中，可以通过任何合适的手段(例如，使用非放射性荧光标签)放射性标记或标记本发明的引物，以便能够在不添加任何额外的标记步骤或显现步骤的扩增反应后使不同大小的扩增子快速显现。在某些实施方案中，不标记引物并且在其大小解析后，例如在琼脂糖或丙烯酰胺凝胶电泳后使扩增子显现。在某些实施方案中，在大小解析后对PCR扩增子进行溴化乙锭染色能够使不同大小的扩增子显现。

并非意图将本发明的引物限于产生任何特定大小的扩增子。例如，用于扩增本文的标志物基因座和等位基因的引物并不限于扩增相关基因座的完整区或其任何子区。该引物可以产生任何适当长度的扩增子用于检测。在某些实施方案中，标志物扩增产生了至少20个核苷酸长度，或可选择地，至少50个核苷酸长度，或可选择地，至少100个核苷酸长度，或可选择地，至少200个核苷酸长度的扩增子。可以使用本文披露的各种技术检测任何大小的扩增子。可以通过常规方法，诸如电泳检测碱基组成或大小的差别。

用于定位克隆的标志物的检测

在某些实施方案中，核酸探针用于检测包含标志物序列的核酸。例如，除测定乳腺癌表型中的作用外，这类探针还可以用于定位克隆以便分离与标志物核苷酸序列连接的核苷酸序列。并非意图将本发明的核酸探针限于任何特定的大小。在某些实施方案中，核酸探针至少为20个核苷酸长度，或可选择地，至少50个核苷酸长度，或可选择地，至少100个核苷酸长度，或可选择地，至少200个核苷酸长度。

例如，根据待检测的标记物的不同，使用放射自显影术、荧光照相术或其它类似检测技术检测杂交的探针。特异性杂交方案的实例为本领域中广泛可利用的，例如参见Berger，Sambrook和Ausubel，均在本文中。

转基因细胞的产生

本发明还提供了用依照本发明鉴定的QTL所对应的核酸转化的细胞。例如，这类核酸包括编码对应于乳腺癌表型的QTL或与乳腺癌表型的QTL连锁的基因的cDNA、ORF、基因、和/或染色体间隔(例如，基因组片段)。另外，本发明提供了影响乳腺癌表型的多肽的生产方法。例如，它可用于影响乳腺癌和产生转基因细胞。这些细胞提供了具有影响相关表型的确定基因的商业上有用的细胞系，由此提供了筛选表型的潜在调控剂的平台以及针对所关注基因各自作用机理的基础研究。此外，基因疗法可以用于将期望基因导入其个体或群体。这类基因疗法可以用于提供治疗由个体表现出的病症的方法或可以用作预防处于风险中的个体发生这类病症的预防措施。

描述用于克隆和操作核酸和生产所编码的多肽的分子生物学技术的一般教科书包括Berger和Kimmel，GuidetoMolecularCloningTechniques， MethodsinEnzymologyvolume152AcademicPress，Inc.，SanDiego，CA(Berger)；Sambrook等，MolecularCloning-ALaboratoryManual(3rdEd.)， Vol.1-3，ColdSpringHarborLaboratory，ColdSpringHarbor，NewYork，2001("Sambrook")和CurrentProtocolsinMolecularBiology，F.M.Ausubel等，eds.，CurrentProtocols，GreenePublishingAssociates，Inc.与JohnWiley&Sons，Inc.的合作项目(增补至2004或以后)("Ausubel"))。这些教科书描述了诱变，载体，启动子和许多其它与例如产生包含所关注的核酸的克隆相关的主题的应用，例如，基因、标志物基因座、标志物探针、与标志物基因座分离的QTL等。

宿主细胞用本发明载体(例如，载体，诸如包含衍生自QTL或与之相关的基因或ORF的表达载体)遗传改造(例如，转导、转染、转化的等)，所述本发明的载体可以为，例如克隆载体、穿梭载体或表达载体。这类载体为，例如质粒、噬菌粒、农杆菌（agrobacterium）、病毒、裸多核苷酸(线性或环状)、或偶联多核苷酸的形式。可以将载体导入细菌，尤其是为了增殖和扩增的目的。有关核酸导入方法的额外详细描述可以在下文的Sambrook，Berger和Ausubel中找到。将本发明的核酸导入宿主细胞的方法对本发明而言并不关键，并且并非意图将本发明限于任何将外源性遗传物质导入宿主细胞的特定方法。因此，可以使用任何合适的方法并且应用于本发明，例如，包括，但不限于本文提供的方法，这些方法提供了将核酸有效导入细胞或原生质体。

可以在根据诸如，例如活化启动子或选择转化体这类活动的需要而改良的常规营养培养基中培养改造后的宿主细胞。除全部在下文中的Sambrook，Berger和Ausubel外，Atlas和Parks(eds)TheHandbookofMicrobiological Media(1993)CRCPress，BocaRaton，FL和可得到的商业文献，诸如Life ScienceResearchCellCultureCatalogue(2004)Sigma-Aldrich，Inc(StLouis，MO)("Sigma-LSRCCC")提供了额外的详细描述。

使标志物与表型建立相关性

本发明的一个方面在于描述图1和/或2中注意到的多态性与乳腺癌表型之间的相关性。对这些相关性的理解可以用于本发明，以便建立有关一组确定个体或样品所具有的多态性的信息与他们有可能展示的表型之间的相关性。此外，考虑了一种或多种不同基因中的等位基因组合的高级相关性也可以用于评价与表型的相关性。

可以通过任何方法建立这些相关性，所述的方法可以鉴定等位基因与表型或等位基因组合与表型组合之间的相关性。例如，图1和/或2中的基因或基因座中的等位基因可以与一种或多种乳腺癌表型相关。最一般的情况是，这些方法包括参照查阅表，该表包含多态性的等位基因与表型之间的相关性。该表可以包括多个等位基因-表型相关性的数据并且例如，通过使用统计学工具，诸如主要成分分析、启发算法等考虑到了多个等位基因-表型相关性的叠加或其它高级作用。

标志物与表型的相关性任选包括对相关性进行一种或多种统计学检验。许多统计学检验为已知的且大部分为计算机执行的以便于分析。测定表型性状与生物学标志物之间的关联性/相关性的各种统计学方法为公知的并且可以应用于本发明。关于该主题的介绍，参见Hartl(1981)APrimerofPopulation GeneticsWashingtonUniversity，SaintLouisSinauerAssociates，Inc.Sunderland，MAISBN：0-087893-271-2。各种适当的统计学模型描述在Lynch和Walsh(1998)GeneticsandAnalysisofQuantitativeTraits,SinauerAssociates，Inc.SunderlandMAISBN0-87893-481-2。例如，这些模型可以提供基因型与表型值之间的相关性，表征基因座对表型的影响，分类环境与基因型之间的相关性，测定基因的显性或外显率，测定母体和其它后生效应，测定分析中的主要成分(通过主要成分分析或"PCA")等。这些教科书中引述的参考文献提供了有关使标志物与表型建立相关性的统计学模型的大量额外详细描述。

除用于测定相关性的标准统计学方法外，通过模式识别和训练，诸如使用遗传算法测定相关性的其它方法也可以用于测定标志物与表型之间的相关性。这在鉴定多个等位基因与多个表型之间的高级相关性时特别有用。为了解释，可以将神经网络法与遗传算法型编程结合应用于启发式开发结构-功能数据空间模型，该模型测定遗传信息与表型结果之间的相关性。例如，NNUGA(NeuralNetworkUsingGeneticAlgorithms)为可利用的程序(例如，在环球网cs.bgu.ac.il/～omri/NNUGA上，它结合了神经网络和遗传算法。例如，可以在KevinGurney，AnIntroductiontoNeuralNetworks，UCLPress(1999)和环球网shef.ac.uk/psychology/gurney/notes/index.html上找到有关神经网络的介绍。额外有用的神经网络的参考书包括上述有关遗传算法的那些，并且例如有Bishop，NeuralNetworksforPatternRecognition，OxfordUniversityPress(1995)和Ripley等，PatternRecognitionandNeuralNetworks，CambridgeUniversityPress(1995)。显示例示性数据集，包括某些统计学分析的两个表如图1和/或2中所示。

可用于理解利用和建立相关性的数据分析应用、分析的主要成分、神经网络建模等的额外参考书包括，例如，Hinchliffe，ModelingMolecular Structures，JohnWileyandSons(1996)；Gibas和Jambeck，Bioinformatics ComputerSkills，O'Reilly(2001)；Pevzner，ComputationalMolecularBiology andAlgorithmicApproach，TheMITPress(2000)；Durbin等，Biological SequenceAnalysis:ProbabilisticModelsofProteinsandNucleicacids，CambridgeUniversityPress(1998)；和Rashidi和Buehler，BioinformaticBasics: ApplicationsinBiologicalScienceandMedicine.CRCPressLLC(2000)。

在任何情况下，任何统计学检验基本上均可以通过标准编程法或使用任何各种"架外"软件包应用于计算机执行的模型，所述的"架外"软件包执行这类统计学分析，包括，例如，上述那些和商购的那些，例如，来自PartekIncorporated(St.Peters，Missouri；www.partek.com)，例如，其提供用于模式识别的软件(例如，提供PartekPro2000PatternRecognitionSoftware)，它可以应用于遗传算法以便进行多变量数据分析、交互式显现、可变选择、神经网络和统计学建模等。例如，可以通过主要成分分析(PCA)作图的散点图和双点图(biplot)、多维标定(Multi-DimensionalScaling,MDS)、多维标定(MDS)作图的散点图、星状图等分析相关性。用于进行相关性分析的可利用的软件包括SAS、R和MathLab。

标志物无论是多态性还是表达模式均可以用于任何不同的遗传分析。例如，一旦鉴定出标志物，正如本例中的那样，就可以将它们用于相关研究的许多不同测定法。例如，可以为查询这些标志物而设计微阵列的探针。其它例示性测定法包括，例如，Taqman测定法和上文所述的分子信标测定法以及常规的PCR和/或测序技术。

有关相关性研究的额外详细描述可以在如下文献中找到：2002年3月26日提交的10/106,097，标题为"MethodsforGenomicAnalysis"；2002年1月7日提交的10/042,819，标题为"GeneticAnalysisSystemsandMethods"；2002年10月31日提交的10/286,417，标题为"MethodsforGenomeAnalysis"；2004年1月30日提交的10/768,788，标题为"ApparatusandMethodsforAnalyzingandCharacterizingNucleicAcidsSequences"；2003年5月28日提交的10/447,685，标题为"LiverRelatedDiseaseCompositionsandMethods"；2004年10月20日提交的10/970,761，标题为"ImprovedAnalysisMethodsandApparatusforIndividualGenotyping"(用于个体基因分型的方法)；2004年9月30日提交的10/956,224，标题为"MethodsforGeneticAnalysis"。

在某些实施方案中，标志物数据用于进行相关性研究以便显示标志物与表型之间的相关性。这可以通过测定具有所关注表型的个体(即，展示出所关注表型的个体或群体)中的标志物特征并且比较这些个体中标志物的等位基因频率或其它特征(表达水平等)与对照组个体中等位基因频率或其它特征来进行。可以基于全基因组进行这类标志物测定或可以将这类标志物测定集中于基因组的特定区(例如，所关注的单倍型段)。在一个实施方案中，对与图1和/或2中基因或基因座连锁的标志物评价与一种或多种特定乳腺癌恶病质表型的相关性。

除本文披露的本发明方法的其它实施方案外，所述的方法还能够"切开"表型。即特定的表型可以(并且一般确实)由两种或多种不同遗传碱基产生。例如，在一种个体中的易感性表型可能是图1和/或2中的基因中的"缺陷"(或单纯是特定等位基因－在易感性表型方面的"缺陷"是语境依赖性的，例如，表型在指定环境中是个体需要的还是不需要的)的结果，而在不同个体中相同的基础表型可能是图1和/或2中多个基因中的多个"缺陷"的结果。如此，扫描多个标志物(例如，作为在基因组或单倍型段扫描中)能够切开类似(或分级的(graduated))表型的不同遗传碱基。

如上述段落中所述，进行相关性研究的一种方法在于比较具有所关注表型的个体("病例组")中的等位基因频率(或表达水平)与对照组个体中的等位基因频率。在一种方法中，信息SNP用于进行SNP单倍型模式比较("信息SNP"为遗传SNP标志物，诸如基因组或单倍型段中趋向于区分一种SNP、基因组或单倍型模式与其它SNP、基因组或单倍型模式的SNP或SNP子集(一种以上))。使用信息SNP的方法具有胜过本领域中知道的其它全基因组扫描或基因分型方法的优点，以便代替读取每一个体基因组的所有30亿个碱基－或乃至读取可能发现的3-4百万个常见SNP－仅来自样品群的信息SNP需要检测。读取这些特定信息SNP提供了足够的信息以便能够如上所述从特定实验群体中提取统计学上精确的相关性数据。

如此，在测定遗传相关性的一种方法的实施方案中，对未展示出表型的对照群体的基因组测定信息SNP的等位基因频率。还对确实展示出表型的群体的基因组测定了信息SNP的等位基因频率。比较信息SNP等位基因频率。例如，可以通过测定每一群体中各信息SNP位置上的等位基因频率(群体中特定等位基因的实例数除以等位基因总数)并且比较这些等位基因频率进行等位基因频率比较。选择展示出对照与病例群体/组中的等位基因出现频率之间差异的信息SNP用于分析。一旦选择了信息SNP，就鉴定包含信息SNP的SNP单倍型段，继而鉴定与表型相关的所关注的基因组区。例如，可以通过本领域中公知的遗传或任何生物学方法分析基因组区，以便用作药物研发靶标或诊断标志物。

用于鉴定乳腺癌表型的系统

执行上述相关性建立的系统也为本发明的特征。一般而言，该系统包括使等位基因的存在与否(例如，无论是直接检测的还是通过表达水平检测的)与预测表型建立相关性的系统指令。该系统指令可以比较有关等位基因序列或表达水平的检测信息与包括等位基因与相关表型之间相关性的数据库。如上所述，该数据库可以为多维的，由此包括等位基因组合与相关表型之间的高级相关性。可以将这些相关性储存在任何数目的查阅表中，例如，采用电子数据表形式(例如，Excel^TM电子数据表)或数据库，诸如Access^TM、SQL^TM、Oracle^TM，Paradox^TM或类似数据库。该系统包括用于例如通过自动化或用户界面输入有关等位基因检测信息的样品特异性信息并且用于比较该信息与查阅表的条款。

任选该系统指令还可以包括接受与任何检测的等位基因信息相关的诊断信息，例如，具有相关等位基因的受试者具有特定表型的诊断的软件。该软件本质上可以为启发式的，使用这类输入的相关性来改善查阅表的准确性和/或由该系统解读查阅表。各种这类方法，包括神经网络、马尔可夫建模和其它统计学分析如上所述。

本发明提供了用于检测一种或多种可检测遗传标志物的数据采集模块(例如，包含一种或多种生物分子探针的一种或多种阵列、检测器、流体处理器等)。这类数据采集模块的生物分子探针可以包括适合于检测生物学标志物，例如寡核苷酸探针、蛋白质、适体、抗体等的任意种。它们可以包括样品处理器(例如，流体处理器)、机器人、微流体系统、核酸或蛋白质纯化模块、阵列(例如，核酸阵列)、检测器、热循环仪或其组合，例如，用于获取样品、稀释或等分样品、纯化标志物材料(例如，核酸或蛋白质)、扩增标志物核酸、检测扩增的标志物核酸等。

例如，可以并入所述系统的自动化装置用于评价各种生物现象，包括，例如基因应答所选刺激物的表达水平(Service(1998)"MicrochipsArraysPutDNAontheSpot"Science282：396-399)、高通量DNA基因分型(Zhang等(1999)"AutomatedandIntegratedSystemforHigh-ThroughputDNAGenotypingDirectlyfromBlood"Anal.Chem.71：1138-1145)等。类似地，还可利用进行混合实验、DNA扩增、DNA测序等的集成系统。例如，参见Service(1998)"ComingSoon：thePocketDNASequencer"Science282：399-401。例如，各种自动化系统部件可购自CaliperTechnologies(Hopkinton，MA)，其使用各种Zymate系统，它们一般包括，例如机器人和流体处理模块。类似地，用于各种实验室系统，例如，用于微量滴定托盘操作的常用机器人也可商购，例如，购自BeckmanCoulter，Inc.(Fullerton，CA)。类似地，可以用作本发明系统部件的商购微流体系统包括来自Agilenttechnologies和CaliperTechnologies的那些。此外，专利和技术文献包括微流体系统的大量实例，包括可以直接与微孔板相连以进行自动化流体操作的那些。

任何各种液体处理和/或阵列结构可以用于本文的系统。一种用于本文系统的常用形式是微量滴定板，其中阵列或液体处理器包括微量滴定托盘。这类托盘为商购的并且可以按照各种孔大小和每个托盘的孔数目定购，以及各种功能化表面，用于测定法或阵列成分的结合。常用的托盘包括普遍的96孔板，还有常用的384和1536孔板。可以在这类托盘上处理样品，其中所有处理步骤在所述托盘上进行。还可以在微流体设备或微量滴定和微流体设备的组合中处理样品。

除液相阵列外，还可以将成分储存在固相阵列中或在固相阵列上进行分析。这些阵列以空间可及的模式(例如，行和列栅格)将物质固定在固相基质，诸如膜(例如尼龙或硝化纤维素)、聚合物或陶瓷表面、玻璃或改性二氧化硅表面、金属表面等上。例如，可以通过杂交、通过局部再水化(例如使用移液管或其它流体处理部件)和流体转移、或通过刮取阵列或切下阵列上所关注的位置评价成分。

所述的系统还可以包括使用本文所述的任何方法检测等位基因信息的检测仪器。例如，可以将为检测实时PCR产物配置的检测器(例如，光学检测器，诸如荧光检测器)或阵列读取器并入该系统。例如，可以为检测来自包含所关注的等位基因的杂交或扩增反应的光发射配置检测器，其中所述的光发射指示所述等位基因的存在与否。任选提供检测器与包含上述系统指令的计算机之间的可操作连接，从而能够向计算机自动输入检测到的等位基因特异性信息，例如，计算机可以储存数据库信息和/或执行系统指令以便比较检测到的等位基因特异性信息与查阅表。

还可以将用于产生由检测器检测的信息的探针与任何其它硬件或软件一起并入系统，以便使用该探针检测扩增子。它们可以包括热循环仪部件(例如，用于进行所述探针检测的等位基因的PCR或LCR扩增)、探针在其上排成阵列和/或杂交的阵列等。用于处理样品的上述流体处理部件可以用于移动样品材料(例如，待检测的模板核酸和/或蛋白质)、引物、探针、扩增子等从而彼此接触。例如，该系统可以包括一组为检测一种或多种与表型相关的基因或连锁基因座中的至少一种等位基因而配置的标志物探针或引物，其中所述的基因编码图1和/或2中的多态性。配置检测器组件是为了检测从该组标志物探针或引物输出的一种或多种信号或由该组标志物探针或引物产生的扩增子，由此鉴定等位基因的存在与否。

所分析的样品任选为系统的组成部分或可以考虑与其分开。样品任选包括，例如，如本文所述的基因组DNA、扩增的基因组DNA、cDNA、扩增的cDNA、RNA、扩增的RNA、蛋白质等。在一个方面中，样品衍生自哺乳动物，诸如人类患者。

任选提供用于与用户形成界面的系统部件。例如，该系统可以包括显示计算机执行的系统指令的输出的用户可视显示器、用于输入用户命令和激活该系统的用户输入装置(例如，键盘或点击装置，诸如鼠标)等。一般而言，所关注的系统包括计算机，其中各种计算机执行的系统指令在计算机软件中具体实施，例如，储存在计算机可读介质上的。

标准台式应用软件，诸如文字处理软件(例如MicrosoftWord^TM或CorelWordPerfect^TM)和数据库软件(例如电子数据表软件，诸如MicrosoftExcel^TM、CorelQuattroPro^TM或数据库程序，诸如MicrosoftAccess^TM或Sequel^TM、Oracle^TM、Paradox^TM)可以通过输入对应于本文等位基因或等位基因与表型之间相关性的字符串而适合于本发明。例如，系统可以包括具有适当字符串信息的软件，例如，它与用户界面(例如，在标准操作系统，诸如Windows、Macintosh或LINUX系统中，为GUI)联合以处理字符串。还可以将专用的序列对比程序，诸如BLAST并入本发明的系统以便对核酸或蛋白质(或相应的字符串)进行序列对比，例如，用于鉴定多个等位基因并且建立相关性。

正如注意到的，系统可以包括具有适当数据库和本发明等位基因序列或相关性的计算机。用于对序列以及输入软件系统的、包含任何本文序列的数据集进行序列对比的软件可以为本发明的特征。计算机可以为，例如，PC(基于Intelx86或奔腾芯片兼容DOS^TM、OS2^TM、INDOWS^TM、WINDOWSNT^TM、WINDOWS95^TM、WINDOWS98^TM、WINDOWS2000、WINDOWSME或LINUX的机器，MACINTOSH^TM，PowerPC或基于UNIX的(例如，SUN^TM工作站或基于LINUX的机器)或其它商购的本领域技术人员公知的常用计算机。用于输入并且对比或以其它方式操作序列的软件可得到，例如，BLASTP和BLASTN，或易于由本领域技术人员使用标准编程语言，诸如Visualbasic、Fortran、Basic、Java等构建。

鉴定调控剂的方法

除提供用于鉴定乳腺癌恶病质等的各种诊断和预后标志物外，本发明还提供了鉴定乳腺癌表型调控剂的方法。在这些方法中，使潜在的调控剂接触对应于图1和/或2中的基因座的相关蛋白质或接触编码这类蛋白质的核酸。检测潜在调控剂对基因或基因产物的作用，由此鉴定潜在调控剂是否调控表型潜在的分子基础。

此外，所述的方法可以包括，例如，将一种或多种推定的调控剂施用于展示出相关表型的个体并且测定该推定的调控剂是否例如在临床试验或治疗环境中调控个体中的表型。这继而测定了推定的调控剂是否在临床上有用。

调控剂接触的基因或基因产物可以包括本文所述的任何等位基因形式。与不良表型正相关的等位基因形式，无论是基因还是蛋白质，为调控剂筛选的优选靶标。

可以筛选的所关注的作用包括：(a)在有调控剂存在下图1和/或2中基因或基因产物的表达升高或降低；(b)表达时间或位置的改变；或(c)在有调控剂存在下对应于图1和/或2中基因座的蛋白质定位的改变。

调控剂筛选的精确形式当然根据检测的作用和可利用的设备的不同而改变。Northern分析、定量RT-PCR和/或基于阵列的检测形式可以用于区分上述基因的表达水平。还可以使用可利用的方法，诸如Western印迹、ELISA分析、抗体杂交、BIAcore等检测蛋白质表达水平。任何这些方法均可以用于区分因潜在调控剂导致的表达水平的改变。

因此，可以对潜在调控剂筛选活性或表达。例如，可以使潜在调控剂(小分子、有机分子、无机分子、蛋白质、激素、转录因子等)接触包含所关注的等位基因的细胞，并且可以在施用潜在表达调控剂之前和之后，例如，通过Northern分析或定量(任选实时)RT-PCR检测对对应于图1和/或2中基因座的基因或蛋白质活性或表达(或它们两者)的作用。类似地，可以使不同基因的启动子区(例如，一般是转录起始位点区中的序列，例如，在起始位点的5kb内，例如，1kb或以下，例如，在起始位点的500bp或250bp或100bp内)与报道构建体(CAT、β-半乳糖苷酶、萤光素酶或任何其它可利用的报道分子)偶联并且可以类似地测试潜在调控剂的表达活性调控。在任一情况中，按照高通量方式，例如，使用自动化流体处理和/或检测系统按照顺序或平行方式进行测定。类似地，可以使用本文的任何活性检测方法通过使潜在调控剂接触合适的细胞测试活性调控剂，不管检测的活性是否为活性调控、表达调控或它们两者的结果。

用于检测调控剂活性检测的生物传感器也为本发明的特征。它们包括包含对应于图1和/或2的基因座的基因或基因产物的装置或系统，其与读出器偶联，所述的读出器测量或展示所述基因或产物的一种或多种活性。如此，可以通过可操作地偶联适当的测定部件与读出器将任何上述测定部件配置为生物传感器。该读出器可以为光学的(例如，检测细胞标志物或细胞存活)、电的(例如，与FET、BIAcore或任何各种其它部件偶联)、光谱的等，并且可以任选包括用户可视的显示器(例如，CRT或光学观测站)。该生物传感器可以与机器人或其它自动化装置偶联，例如，微流体系统，其使推定的调控剂直接与本发明的蛋白质接触，例如，用于对推定的调控剂活性进行自动化高通量分析。可以适用于本发明的生物传感器的各种自动化系统为商购的。例如，可以制造自动化系统以便评价各种生物现象，包括，例如，基因应答所选刺激物的表达水平(Service(1998)"MicrochipsArraysPutDNAontheSpot"Science282：396-399)。实验室系统还可以进行例如重复流体处理操作(例如移液)，以便将材料转移至或转移出包含阵列的试剂储存系统，诸如微量滴定托盘或其它芯片托盘，它们用作各种自动化实验室方法的基础容器部件。类似地，所述的系统操作例如微量滴定托盘并且控制各种环境条件，诸如温度、对光或空气的暴露等。许多这类自动化系统为商购的并且在本文中描述，包括上述那些。它们包括各种Zymate系统、机器人、微流体装置等。例如，CaliperTechnologies，MountainView，CA的LabMicrofluidic装置高通量筛选系统(HTS)可以适用于本发明以便筛选调控剂活性。

一般而言，用于检测蛋白质表达水平和活性的方法和传感器为可得到的，包括在上述各种参考文献中教导的那些，包括R.Scopes，Protein Purification，Springer-Verlag，N.Y.(1982)；Deutscher，MethodsinEnzvmology Vol.182：GuidetoProteinPurification，AcademicPress，Inc.N.Y.(1990)；Sandana(1997)BioseparationofProteins，AcademicPress，Inc.；Bollag等(1996)ProteinMethods，2 ^th Edition，Wiley-Liss，NY；Walker(1996)TheProtein ProtocolsHandbook，HumanaPress，NJ；Harris和Angal(1990)Protein PurificationApplications：APracticalApproach，IRLPress，Oxford，Oxford，England；Harris和AngalProteinPurificationMethods：APracticalApproachIRLPress，Oxford，Oxford，England；Scopes(1993)ProteinPurification：Principles 和Practice3 ^rd Edition，SpringerVerlag，NY；Janson和Ryden(1998)Protein Purification：Principles.HighResolutionMethodsandApplications，Second Edition，Wiley-VCH，NY；和Walker(1998)ProteinProtocolsonCD-ROM，HumanaPress，NJ；和SatinderAhujaed.，HandbookofBioseparations，AcademicPress(2000)。描述了同时检测许多蛋白质的"蛋白质组"检测方法并且也如上所述，包括各种多维电泳方法(例如，2-d凝胶电泳)、基于质谱的方法(例如，SELDI、MALDI、电喷射等)或表面等离振子共振法。它们还可以用于示踪蛋白质活性和/或表达水平。

类似地，可以使用任何可利用的方法，包括Northern分析、定量RT-PCR等检测核酸表达水平(例如，mRNA)。足以通过这些方法指导本领域技术人员的参考文献易于得到，包括Ausubel，Sambrook和Berger。

筛选对表达和/或活性的作用的潜在调控剂文库是可得到的。这些文库可以是随机的或可以是靶向的。

靶向文库包括使用任何形式的合理设计技术设计的那些，其选择支架或构件来产生组合文库。这些技术包括用于设计和组合合成靶聚焦文库(targe-focusedlibrairy)的大量方法，包括用生物等排转化变形(morphingwithbioisosterictransformation)、靶标特异性特有结构的分析等。一般而言，如果有关图1和/或2的结构基因或基因产物的信息可得到，那么，有可能可以使用例如灵活停靠方法(flexibledockingapproach)等设计结合配偶体。类似地，各种基础化学支架有随机文库。在任一情况中，化学文库的数以千计的支架和构件是可获得的，包括具有多肽、核酸、碳水化合物和其它骨架的那些。商购的文库和文库设计服务包括ChemicalDiversity(SanDiego，CA)、Affymetrix(SantaClara，CA)、Sigma(St.LouisMO)、ChemBridgeResearchLaboratories(SanDiego，CA)、TimTec(Newark，DE)、NuevolutionA/S(Copenhagen，Denmark)等提供的那些。

用于治疗乳腺癌表型的试剂盒可以包括如上所述鉴定的调控剂和用于将该化合物施用于患者以便治疗乳腺癌的说明书。

调控基因的基因表达

可以使用本领域公知的各种技术中任意种调控与图1和2中多态性连锁的任何基因的基因表达(例如转录和/或翻译)。例如，可以使用反义核酸或干扰RNA抑制基因表达。抑制特定细胞类型中的表达可以用于进一步研究这些基因的体外或体内作用和/或作为治疗过表达连锁基因导致的疾患和/或治疗这类基因的特定等位基因导致的显性效应的机理。基因表达调控剂为一类本发明提供的调控剂，例如应用于调控乳腺癌表型的调控剂。

例如，反义核酸的应用为本领域众所周知的。反义核酸具有与靶核酸，例如，靶基因、mRNA或cDNA互补的区。一般而言，将包含相对于内源性基因的编码(有义)序列呈互补、反义方向的核苷酸序列的核酸导入细胞。反义核酸可以为RNA、DNA、PNA或任何其它合适的分子。双链体可以在反义序列与其互补有义序列之间形成，导致基因失活。反义核酸可以通过与转录自基因的RNA形成双链体、通过与双链体DNA形成三链体等抑制基因表达。例如，对于编码序列为已知的或可以通过许多充分确立的技术测定的任何基因，均可以产生反义核酸(例如，反义RNA或寡聚核苷酸(任选包括增加对降解的抗性或改善细胞摄取的修饰的核苷酸和/或键)的化学合成或体外转录)。例如，下列文献中描述了反义核酸及其应用：Haselton和Alexander的USP6,242,258(2001年6月5日)，标题为"MethodsfortheselectiveregulationofDNAandRNAtranscriptionandtranslationbyphotoactivation"；USP6,500,615；USP6,498,035；USP6,395,544；USP5,563,050；E.Schuch等(1991)SympSoc.Exp Biol45：117-127；deLange等(1995)CurrTopMicrobiolImmunol197：57-75：Hamilton等(1995)CurrTopMicrobiolImmunol197：77-89；Finnegan等(1996)ProcNatlAcadSciUSA93：8449-8454；Uhlmann和A.Pepan(1990)Chem.Rev.90：543；P.D.Cook(1991)Anti-CancerDrugDesign6：585；J.Goodchild，BioconjugateChem.1(1990)165；和S.L.Beaucage和R.P.Iyer(1993)，Tetrahedron49：6123；和F.Eckstein，Ed.(1991)，Oligonucleotidesand Analogues-APracticalApproach，IRLPress。

还可以通过RNA沉默或干扰抑制基因表达。"RNA沉默"意指细胞中单链或一般为双链RNA的存在导致对靶基因表达的抑制的任何机制，所述的靶基因包含与RNA相同或近似相同的序列，包括，但不限于RNA干扰、抑制转录自靶基因的靶mRNA翻译但不改变mRNA的稳定性、和转录沉默(例如，导致靶mRNA转录抑制的组蛋白乙酰化和异染色质形成)。

术语"RNA干扰"("RNAi"，有时称作RNA介导的干扰、转录后基因沉默、或镇压(quelling))意指细胞中RNA，一般为双链RNA的存在导致基因表达抑制的现象，所述的基因包含与所述双链RNA相同或近似相同的序列。诱导RNAi的双链RNA称作"干扰RNA"。基因表达由如下所述的RNAi机制抑制，其中干扰RNA的存在导致转录自基因的mRNA降解且由此mRNA和任何所编码的蛋白质水平降低。

RNAi机制已经和正在广泛在大量真核生物体和细胞类型中研究。例如，参见如下综述：McManus和Sharp(2002)"GenesilencinginmammalsbysmallinterferingRNAs"NatureReviewsGenetics3：737-747；Hutvagner和Zamore(2002)"RNAi：Natureabhorsadoublestrand"CurrOpinGenet&Dev200：225-232；Hannon(2002)"RNAinterference"Nature418：244-251；Agami(2002)"RNAiandrelatedmechanismsandtheirpotentialusefortherapy"CurrOpinChemBiol6：829-834；Tuschl和Borkhardt(2002)"SmallinterferingRNAs：Arevolutionarytoolfortheanalysisofgenefunctionandgenetherapy"MolecularInterventions2：158-167；Nishikura(2001)"AshortprimeronRNAi：RNA-directedRNApolymeraseactsasakeycatalyst"Cell107：415-418；和Zamore(2001)"RNAinterference：Listeningtothesoundofsilence"NatureStructuralBiology8：746-750。RNAi还描述在专利文献中；例如，参见Kreutzer和Limmer的CA2359180，标题为"Methodandmedicamentforinhibitingtheexpressionofagivengene"；Beach等的WO01/68836，标题为"MethodsandcompositionsforRNAinterference"；Graham等的WO01/70949，标题为"Geneticsilencing"；和Tuschl等的WO01/75164，标题为"RNAsequence-specificmediatorsofRNAinterference"。

简言之，例如，用称作Dicer的RNA酶III样酶将导入细胞(例如导入细胞质)的双链RNA处理成较短的双链片段，称作小干扰RNA(siRNA，也称作短干扰RNA)。产生的siRNA的长度和性质依赖于细胞种类，不过，一般siRNA为21-25个核苷酸长度(例如，siRNA可以具有19个碱基对的双链体部分，在每端上带有2个核苷酸的3'悬垂)。类似地，可以在体外产生siRNA(例如，通过化学合成或体外转录)并且将其导入细胞以便诱导RNAi。siRNA与RNA诱导的沉默复合物(RISC)结合。任选发生siRNA的有义和反义链的分离，及siRNA反义链与其靶mRNA通过互补碱基配对相互作用的相互作用。最终mRNA裂解和降解。

由此可以通过将适当选择的双链RNA导入细胞特异性抑制靶基因在细胞中的表达。用于设计合适的干扰RNA的指导原则为本领域技术人员公知的。例如，一般针对外显子序列，而非内含子或非翻译区设计干扰RNA。高效干扰RNA的表征可能因细胞类型而改变。例如，尽管siRNA可能需要3'悬垂和5'磷酸以便最有效地诱导果蝇细胞中的RNAi，但是哺乳动物细胞中缺乏5'磷酸的平末端siRNA和/或RNA诱导RNAi可以与有3'悬垂和/或5'磷酸的siRNA诱导RNAi同样有效(例如，参见Czauderna等(2003)"StructuralvariationsandstabilizingmodificationsofsyntheticsiRNAsinmammaliancells"NuclAcidsRes31：2705-2716)。作为另一个实例，由于大于30-80个碱基对长度的双链RNA活化哺乳动物细胞中的抗病毒干扰素应答并且导致非特异性沉默，所以用于哺乳动物细胞的干扰RNA一般小于30个碱基对(例如，Caplen等(2001)"Specificinhibitionofgeneexpressionbysmalldouble-strandedRNAsininvertebrateandvertebratesystems"Proc.Natl.Acad.Sci.USA98：9742-9747；Elbashir等(2001)"Duplexesof21-nucleotideRNAsmediateRNAinterferenceinculturedmammaliancells"Nature411：494-498；和Elbashir等(2002)"AnalysisofgenefunctioninsomaticmammaliancellsusingsmallinterferingRNAs"Methods26：199-213其描述了21个核苷酸的siRNA在特异性抑制哺乳动物细胞系中的基因表达中的应用；和Kim等(2005)"SyntheticdsRNADicersubstratesenhanceRNAipotencyandefficacy"NatureBiotechnology23：222-226，其描述了25-30个核苷酸双链体的应用)。siRNA的有义和反义链一般但非一定在siRNA双链区内(不包括任何悬垂)彼此完全互补。反义链一般在相同区内与靶mRNA完全互补，不过，可以耐受一些核苷酸取代(例如，反义链与mRNA之间的一个或两个核苷酸错配仍然可以产生RNAi，不过，效率降低)。双链区的末端一般比中部更耐受取代；例如，已经证实在具有19bp双链区的21聚物环境内反义链与靶mRNA之间的互补性小至15bp(碱基对)可产生功能性siRNA(例如，参见Czauderna等(2003)"StructuralvariationsandstabilizingmodificationsofsyntheticsiRNAsinmammaliancells"NuclAcidsRes31：2705-2716)。任何悬垂可以但非一定与靶mRNA互补；例如，TT(两个2'-脱氧胸苷)悬垂频繁应用于降低合成成本。

尽管最初认为需要双链RNA(例如，双链siRNA)启动RNAi，但是几个近期的报导表明这类siRNA的反义链足以启动RNAi。单链反义siRNA可以通过与双链siRNA相同的途径启动RNAi(正如所证实的，例如，根据特异性mRNA内切核酸降解裂解片段的出现)。就双链干扰RNA而言，高效单链siRNA的特征可以因细胞类型的不同而改变(例如，在反义链上可能需要5'磷酸以便有效诱导某些细胞类型中的RNAi，而游离5'羟基在能够使羟基磷酸化的其它细胞类型中是足够的)。例如，参见Martinez等(2002)"Single-strandedantisensesiRNAsguidetargetRNAcleavageinRNAi"Cell110：563-574；Amarzguioui等(2003)"ToleranceformutationsandchemicalmodificationsinasiRNA"Nucl.AcidsRes.31：589-595；Holen等(2003)"Similarbehaviorofsingle-strandanddouble-strandsiRNAssuggeststhattheyactthroughacommonRNAipathway"Nucl.AcidsRes.31：2401-2407；和Schwarz等(2002)Mol.Cell10：537-548。

由于在对应于指定靶mRNA不同区的siRNA之间的效率差异，所以一般设计几种siRNA并且对靶mRNA测试以便确定那种siRNA最为有效。还可以产生小发夹RNA(shRNA，也称作短发夹RNA)形式的干扰RNA，它们在细胞中被处理成启动RNAi的siRNA样分子(例如，参见Siolas等(2005)"SyntheticshRNAsaspotentRNAitriggers"NatureBiotechnology23：227-231)。

细胞中RNA，特别是双链RNA的存在可以通过非RNAi的机制导致基因表达抑制，所述的基因包含与RNA相同或接近相同的序列。例如，与靶mRNA部分互补的双链RNA可以抑制mRNA翻译，但不影响其稳定性。作为另一个实例，双链RNA可以诱导组蛋白甲基化和异染色质形成，从而导致包含与RNA相同或接近相同的序列的基因转录沉默(例如，参见Schramke和Allshire(2003)"HairpinRNAsandretrotransposonLTRseffectRNAiandchromatin-basedgenesilencing"Science301：1069-1074；Kawasaki和Taira(2004)"InductionofDNAmethylationandgenesilencingbyshortinterferingRNAsinhumancells"Nature431：211-217；和Morris等(2004)"SmallinterferingRNA-inducedtranscriptionalgenesilencinginhumancells"Science305：1289-1292)。

已经在不同种类中鉴定了称作microRNA(miRNA)的短RNA。一般而言，这些内源性RNA各自转录为长RNA，然后加工成约60-75个核苷酸的形成有缺陷发夹(茎-环)结构的前-miRNA。前-miRNA一般随后例如被Dicer裂解成成熟miRNA。成熟miRNA一般约为21-25个核苷酸长度，但可以改变，例如，约14－约25或以上个核苷酸。尽管并非全部，但是已经证实某些miRNA抑制具有部分互补序列的mRNA的翻译。这类miRNA包含一个或多个针对相应mRNA的内部错配，预计它们在miRNA反义链与mRNA结合形成的双链体中心产生凸起。miRNA一般与mRNA形成约14-17个沃森-克里克碱基对；还可以形成额外的摆动(wobble)碱基对。此外，已经证实包含对相应mRNA的中心错配的短合成双链RNA(例如，与siRNA类似)抑制mRNA翻译(但不会启动降解)。例如，参见Zeng等(2003)"MicroRNAsandsmallinterferingRNAscaninhibitmRNAexpressionbysimilarmechanisms"Proc.Natl.Acad.Sci.USA100：9779-9784；Doench等(2003)"siRNAscanfunctionasmiRNAs"Genes&Dev.17：438-442；Bartel和Bartel(2003)"MicroRNAs：Attherootofplantdevelopment?"PlantPhysiology132：709-717；Schwarz和Zamore(2002)"WhydomiRNAsliveinthemiRNP?"Genes&Dev.16：1025-1031；Tang等(2003)"AbiochemicalframeworkforRNAsilencinginplants"Genes&Dev.17：49-63；Meister等(2004)"Sequence-specificinhibitionofmicroRNA-andsiRNA-inducedRNAsilencing"RNA10：544-550；Nelson等(2003)"ThemicroRNAworld：Smallismighty"TrendsBiochem.Sci.28：534-540；Scacheri等(2004)"ShortinterferingRNAscaninduceunexpectedanddivergentchangesinthelevelsofuntargetedproteinsinmammaliancells"Proc.Natl.Acad.Sci.USA101：1892-1897；Sempere等(2004)"ExpressionprofilingofmammalianmicroRNAsuncoversasubsetofbrain-expressedmicroRNAswithpossiblerolesinmurineandhumanneuronaldifferentiation"GenomeBiology5：R13；Dykxhoorn等(2003)"Killingthemessenger：ShortRNAsthatsilencegeneexpression"NatureReviewsMolec.andCellBiol.4：457-467；McManus(2003)"MicroRNAsandcancer"SeminCancerBiol.13：253-288；和Stark等(2003)"IdentificationofDrosophilamicroRNAtargets"PLoSBiol.1：E60。

涉及部分互补RNA(例如，某些miRNA)对mRNA翻译抑制的细胞机制似乎与涉及RNAi的部分交叠，不过，正如注意到的，mRNA的翻译但并非其稳定性受到影响，并且mRNA一般不会降解。

在RNA的反义链结合mRNA时形成的凸起的位置和/或大小可以影响RNA抑制mRNA翻译的能力。类似地，RNA自身内任何凸起的位置和/或大小也可以影响翻译抑制效率。例如，参见上述参考文献。一般而言，翻译抑制在RNA反义链与mRNA3'非翻译区(3'UTR)互补时最为有效。与RNA反义链互补的序列的多次重复，例如，串联重复也可以提供更有效的翻译抑制；例如，被内源性miRNA以翻译方式抑制的某些mRNA在其3'UTR上包含miRNA结合序列的7-8个重复。值得注意的是翻译抑制似乎比RNA干扰更依赖于RNA浓度；认为翻译抑制涉及各自抑制性RNA对单一mRNA的结合，而认为RNAi涉及单一siRNA-RISC复合物对mRNA多个拷贝的切割。

为抑制指定靶mRNA翻译而设计合适的RNA的指导原则可以在文献中(例如，上述参考文献和Doench和Sharp(2004)"SpecificityofmicroRNAtargetselectionintranslationalrepression"Genes&Dev.18：504-511；Rehmsmeier等(2004)"FastandeffectivepredictionofmicroRNA/targetduplexes"RNA10：1507-1517；Robins等(2005)"IncorporatingstructuretopredictmicroRNAtargets"ProcNatlAcadSci102：4006-4009；和Mattick和Makunin(2005)"SmallregulatoryRNAsinmammals"Hum.Mol.Genet.14：R121-R132等)和本文中找到。然而，由于不同结构(例如，凸起大小、序列和/或位置)的RNA与对应于靶mRNA的不同区的RNA之间翻译抑制效率的差异，所以任选设计几种RNA并且对靶mRNA测试以便确定哪种对抑制靶mRNA翻译最为有效。

针对基因产物的抗体

另一类调控剂为结合与本文基因座连锁的基因产物的抗体。这些抗体可以用于检测和/或纯化基因产物，例如在原位监测基因产物。抗体还可以用于在体内、原位或体外阻断基因产物的功能。本文所用的术语"抗体"包括，但不限于多克隆抗体、单克隆抗体、人源化或嵌合抗体和生物学功能性抗体片段，它们为足以使抗体片段结合蛋白质的那些片段。

为了产生针对相关基因产物的抗体，可以通过注射多肽或其部分对各种宿主动物中的任意种免疫接种。举例而言，这类宿主动物可以包括，但不限于家兔、小鼠和大鼠。根据宿主种类的不同，各种佐剂可以用于加强免疫应答，包括，但不限于弗氏(完全和不完全)佐剂、矿物凝胶诸如氢氧化铝、表面活性物质诸如溶血卵磷脂、pluronic多元醇、聚阴离子、肽、油乳剂、匙孔虫戚血蓝蛋白、二硝基酚和潜在有用的人佐剂，诸如BCG(卡介苗)和短小棒状杆菌（Corynebacteriumparvum）。

多克隆抗体为衍生自免疫接种了抗原，诸如靶基因产物或其抗原功能性衍生物的动物血清的抗体分子的异质性群体。为了产生多克隆抗体，可以通过注射补充了也如上所述的佐剂的所编码的蛋白质或其部分对诸如上述那些宿主动物免疫接种。

可以通过任何提供由培养物中连续细胞系产生抗体分子的技术获得针对特定抗原的抗体同质性群体，即单克隆抗体(mAb)。这些技术包括，但不限于杂交瘤技术(Kohler和Milstein，Nature256：495-497，1975;和美国专利US4,376,110)、人B细胞杂交瘤技术(Kosbor等，ImmunologyToday4：72，1983；Cole等，Proc.Nat'lAcad.Sci.USA80：2026-2030，1983)和EBV杂交瘤技术(Cole等，MonoclonalAntibodiesandCancerTherapy，AlanR.Liss，Inc.，pp.77-96，1985)。这类抗体可以属于任何免疫球蛋白类型，包括IgG、IgM、IgE、IgA、IgD及其任何的亚类。可以在体外或体内培养产生本发明mAb的杂交瘤。在体内产生高滴度的mAbs使得它成为目前优选的生产方法。

此外，可以使用为通过剪接来自具有适当抗原特异性的小鼠抗体分子的基因与来自具有适当生物学活性的人抗体分子的基因生产"嵌合抗体"研发的技术(Morrison等，Proc.Nat'l.Acad.Sci.USA81：6851-6855，1984；Neuberger等，Nature312：604-608，1984；Takeda等，Nature314：452-454，1985)。嵌合抗体为如下分子，其中不同的部分衍生自不同的动物种类，诸如具有衍生自鼠mAb的可变区或高变区和人免疫球蛋白恒定区的那些。类似地，还可以使用可利用技术生产人源化抗体。

可选择地，为生产单链抗体描述的技术(美国专利US4,946,778；Bird，Science242：423-426，1988；Huston等，Proc.Nat'lAcad.Sci.USA85：5879-5883，1988；和Ward等，Nature334：544-546，1989)可以适合于生产差异表达的基因-单链抗体。单链抗体如下形成，即经氨基酸桥连接Fv区的重链和轻链片段，从而产生单链多肽。

在一个方面中，可用于生产"人源化抗体"的技术可以适合于生产针对蛋白质、其片段或衍生物的抗体。这类技术披露在美国专利US5,932,448；5,693,762；5,693,761；5,585,089；5,530,101；5,569,825；5,625,126；5,633,425；5,789,650；5,661,016；和5,770,429中。

可以通过公知技术产生识别特定表位的抗体片段。例如，这类片段包括，但不限于可以通过对抗体分子进行胃蛋白酶消化产生的F(ab')₂片段和可以通过还原F(ab')₂片段的二硫键产生的Fab片段。可选择地，可以构建Fab表达文库(Huse等，Science246：1275-1281，1989)以便能够快速和便利地鉴定具有所需特异性的单克隆Fab片段。

使用上述抗体检测和测定基因产物表达的方案为本领域众所周知的。这类方法包括，但不限于斑点印迹、Western印迹、竞争性和非竞争性蛋白质结合测定法、酶联免疫吸附测定法(ELISA)、免疫组织化学、荧光活化细胞分选(FACS)和其它常用且广泛描述在科学和专利文献中的方法以及许多商业上使用的方法。

易于检测的一种方法为夹心式ELISA，其存在大量变化形式，所有这些均意图包括在本发明内。例如，在典型的正向测定法中，将未标记的抗体固定在固相基质上并且使测试样品接触所结合的分子并且孵育足以形成抗体-抗原二元复合物的时间。此时，随之加入使用能够诱导可检测信号的报道分子标记的第二抗体并且孵育，使得时间足以形成抗体-抗原-标记抗体的三元复合物。洗去任何未反应的物质并且通过观察信号确定抗原的存在，或可以通过与包含已知量抗原的对照样品进行比较对抗原进行定量。正向测定法的变化形式包括：同时测定法，其中同时将样品和抗体加入到所结合的抗体；或反向测定法，其中首先合并标记抗体和测试样品，孵育并加至未标记的表面结合抗体。这些技术为本领域技术人员众所周知的并且微小变化的可能性显而易见。本文所用的"夹心式测定法"意图包括基础双位点技术(basictwo-sitetechnique)的所有变化形式。就本发明的免疫测定法而言，唯一的限制性因素在于经过标记的抗体为对所关注的基因表达的蛋白质具有特异性的抗体。

在这种类测定法中最常用的报道分子为酶、含荧光团分子或含放射性核素分子。就酶的免疫测定法而言，通常通过戊二醛或高碘酸盐使酶与第二抗体偶联。然而，正如易于公认的，存在本领域技术人员众所周知的各种不同的连接技术。常用的酶包括辣根过氧化物酶、葡萄糖氧化酶、β-半乳糖苷酶和碱性磷酸酶等。一般为通过相应酶水解时产生可检测颜色改变而选择与特定酶一起使用的底物。例如，磷酸对硝基苯酯适用于碱性磷酸酶偶联物；就过氧化物酶偶联物而言，常用1,2-苯二胺或甲苯胺。还可能使用荧光底物，其产生荧光产物，而非上述显色底物。然后将包含合适底物的溶液加至所述的三元复合物。使底物与连接至第二抗体的酶反应，得到定性可视信号，其通常可以进一步通过分光光度法将其定量，以便评价存在于血清样品中PLAB的量。

可选择地，可以通过化学方式使荧光化合物，诸如荧光素和若丹明与抗体偶联而不改变其结合能力。当通过用特定波长的光照射活化时，荧光染料标记的抗体吸收光能，诱导分子中的激发态，随后在较长的特征性波长处发射光。发射表现为可使用光学显微镜检测到的可视特征性颜色。免疫荧光和EIA技术均为本领域中充分确立的并且为特别优选用于本发明的方法。然而，也可以使用其它报道分子，诸如放射性同位素、化学发光或生物发光分子。如何改变规程以适合于所需的应用对本领域技术人员而言是显而易见的。

细胞挽救(cellrescue)复苏和治疗性给药

本发明在一个方面中包括挽救在图1和/或2的一种或多种内源性基因或多肽的功能方面存在缺陷(由此赋予所关注的相关表型例如乳腺癌易感性、抗性等)的细胞。这可以单纯通过将基因(或表达相关蛋白质的异源性核酸)，即具有所需等位基因的基因的新拷贝导入细胞来进行。还可以实施其它方法，诸如同源重组以修复缺陷基因(例如通过嵌合成形术(chimeraplasty))。在任何情况下，例如，可以在本文所述的任何测定法中测量功能的挽救。实际上，该方法可以用作在体外对细胞筛选图1和/或2任何基因或基因产物的表达或活性的一般方法。因此，体外功能挽救可用于上述大量体外筛选方法的环境中。挽救的细胞可以包括培养物(包括来自患者的原代或继代细胞培养物以及充分确立细胞的培养物)中的细胞。如果从患者中分离细胞，那么它具有确立哪种基因或产物在呈现相关表型的患者中存在缺陷的额外诊断功用。

在另一个方面中，细胞挽救在患者，例如人中发生，例如以便修补缺陷。因此，本发明的一个方面在于修补缺陷的基因疗法。在这些应用中，任选将本发明的核酸克隆入适当的基因疗法载体(和/或单纯作为裸核酸或脂质体偶联的核酸递送)，然后任选与适当的载体或递送剂一起递送。还可以直接递送蛋白质，但一般优选在需要稳定表达的应用中递送核酸。类似地，可以在治疗上使用本文方法鉴定的任何缺陷的调控剂。

例如，给药组合物包含治疗有效量的调控剂、基因疗法载体或其它相关核素和药学上可接受的载体或赋形剂。这类载体或赋形剂包括，但不限于盐水、缓冲盐水、右旋糖、水、甘油、乙醇、和/或其组合。制备适合于给药方式的制剂。一般而言，局部应用的基因疗法载体的给药方法为本领域众所周知的并且可以应用于给药本发明的核酸。

任选在一种或多种适当的体外和/或体内疾病动物模型中测试包含本发明一种或多种调控剂或基因疗法核酸的治疗性组合物，以便按照本领域众所周知的方法证实功效、组织代谢和估算剂量。特别地，最初可以根据制剂的活性、稳定性或其它合适的度量来确定剂量。

给药通过常用于将分子与细胞紧密接触的任何途径进行。可以以任何合适的方式，任选使用一种或多种药学上可接受的载体给药调控剂和/或编码相关序列的核酸。对患者给药本发明上下文中的这类核酸的合适方法是可得到的，并且尽管可以将一种以上的途径用于给药特定的组合物，特定的途径通常可以提供比另一种途径更迅速和更有效的作用或反应。

部分根据给药的特定组合物以及用于给药组合物的特定方法来确定药学上可接受的载体。因此，存在极其多种本发明药物组合物的合适制剂。可以通过许多途径给药组合物，包括，但不限于：口服、静脉内、腹膜内、肌内、透皮、皮下、表面、舌下或直肠给药。可通过脂质体(例如，表面的)或通过裸DNA或病毒载体的表面递送来给药组合物。这类给药途径和合适的制剂一般为本领域技术人员公知的。

还可以将单独的组合物或与其它合适的成分联用的组合物制成气溶胶制剂(即它们可以"雾化")以便通过吸入给药。可以将气溶胶制剂置于加压可接受的推进剂中，诸如二氯二氟甲烷、丙烷、氮等。适合于诸如，例如通过关节内(在关节中)、静脉内、肌内、真皮内、腹膜内和皮下途径进行胃肠外给药的制剂包括：可以包含抗氧化剂、缓冲剂、抑菌剂和赋予该制剂与指定接受者血液等渗的溶质的水性和非水性等渗无菌注射溶液；和可以包括悬浮剂、增溶剂、增稠剂、稳定剂和防腐剂的水性和非水性无菌混悬液。可以将包装好的核酸的制剂在单剂或多剂密封容器中提供，诸如安瓿和小瓶。

在本发明的上下文中，对患者的给药剂量足以随着时间的过去对患者产生有益治疗应答。根据特定载体或其它制剂的功效，表达的多肽的活性、稳定性或血清半衰期，和患者的状况以及所治疗患者的体重或表面积确定剂量。剂量的大小还根据伴随患者中特定载体、制剂等给药的任何不良副作用的存在、性质和程度来确定。在确定在治疗疾病时给药的载体或制剂的有效量时，医师评价局部表达或循环血浆水平、制剂毒性、相关疾病的进展和/或重要时，针对多核苷酸编码的蛋白质的抗体的产生。例如，对70千克的患者，给药剂量范围一般与目前使用的治疗性蛋白质的剂量相当，根据相关组合物改变的活性或血清半衰期进行调整。本发明的载体可以通过任何公知的常规疗法补充治疗条件。

为了给药，可以以根据相关制剂的LD-50和/或本发明载体在不同浓度下（例如应用于大的(mass)或表面递送区域）的任何副作用的观察结果和患者的总体健康状况确定的速率给药本发明的制剂。可以通过单剂或分剂进行给药。

如果进行治疗的患者发生发热、发冷或肌痛，那么他/她接受适当剂量的阿司匹林、布洛芬、对乙酰氨基酚或其它疼痛/发热控制药。对组合物有反应，诸如发热、肌痛和发冷的患者在输注前30分钟进行前驱用药，即阿司匹林、对乙酰氨基酚、或例如苯海拉明。哌替啶(meperidine)用于更严重的发冷和肌痛，这些症状对解热药和抗组织药没有快速响应。治疗根据反应严重性的不同而减缓或中断。

诊断和预后测定法

核酸、多肽、抗体和本文的其它组合物可以用作乳腺癌表型易感性或抗性的预后和诊断试剂(例如，在预包装试剂盒中)。可以将这些方法对已知具有乳腺癌表型一种或多种症状的受试者实施作为其它疾病的差异诊断或预后组成部分。这些方法还可以对具有已知乳腺癌表型易感性的受试者实施。这类个体的多态性特征谱可以升高或降低对易感性的评价。例如，已知，具有两个乳腺癌同胞的个体比一般群体对疾病的易感性增加。发现有利于易感性的额外因素增加了风险，而发现有利于抗性的因素降低了这种风险。

本发明提供了测定个体在本发明一种或多种SNP处的多态性特征谱的方法。SNP包括图1和2中所示的那些和与之连锁不平衡的那些。与之连锁不平衡的那些通常发生在相同基因中或相同基因的100或50或20kb内。可以通过单倍型作图确定与本文图中SNP连锁不平衡的SNP。可以通过融合来自不同种类的二倍体细胞测定单倍型。所得细胞为部分单倍体，从而能够确定单倍体染色体上的单倍型(例如，参见US20030099964)。可选择地，可以通过与下文实施例中所述类似的结合研究确定与例示SNP连锁不平衡的SNP。

多态性特征谱由占据个体各种多态性位点上的多态形式构成。在二倍体基因组中，两种多态形式，彼此相同的或不同的，通常占据每个多态位点。如此，在位点X和Y处的多态性特征谱可以表示为X(x1，x1)和Y(yl，y2)形式，其中x1、x1表示占据位点X的等位基因x1的两个拷贝，而y1、y2表示占据位点Y的杂合等位基因。

可以通过与占据本文图中所示每一位点处的、与乳腺癌表型抗性或易感性相关的多态形式比较对个体的多态性特征谱评分。可以对至少例如，1、2、5、10、25、50或全部多态位点和任选与之连锁不平衡的其它位点进行比较。可以与其它多态位点组合分析多态位点。然而，通常分析的多态位点总数少于10,000、1000、100、50或25个并且可以为约10个或以下、约5个或以下、或约2个或以下。

可以以叠加的方式合并存在于特定个体中的抗性或易感性等位基因的数量或形成比例以便提供有关个体对乳腺癌表型遗传倾向的总体评价(参见USSN60,566,302，2004年4月28日提交；USSN60/590,534，2004年7月22日提交；USSN10/956,224，2004年9月30日提交；和PCTUS05/07375，2005年3月3日提交)。可以任意将抗性等位基因各自评分为+1并且将易感性等位基因评分为-1(或反之亦然)。例如，如果将个体对本发明的100个多态位点分型并且在其所有位点上的抗性而言为纯合的，那么可以将他指定为对乳腺癌表型的抗性的遗传倾向得分为100%或对乳腺癌表型的易感性的倾向为0%。如果个体对所有易感性等位基因而言为纯合的，则为相反的结果。更典型的是，个体对某些基因座上的抗性等位基因而言为纯合的，对某些基因座上的易感性等位基因而言为纯合的，并且对其它基因座上的抗性/易感性等位基因而言为杂合的。可以通过将所有抗性等位基因的评分指定为+1，并且将所有易感性等位基因的评分指定为-1(或反之亦然)，并且合并评分，对这类个体的乳腺癌表型遗传倾向进行评分。例如，如果个体具有102个抗性等位基因和204个易感性等位基因，那么可以将该个体评分为具有33%的抗性遗传倾向和67%的易感性遗传倾向。可选择地，可以将纯合抗性等位基因的评分指定为+1，将杂合等位基因的评分指定为0，并且将纯合易感性等位基因的评分指定为-1。还可以将抗性等位基因和易感性等位基因的相对数目表示为百分比。如此，对30个多态位点处的抗性等位基因而言为纯合的、对60个多态位点处的易感性等位基因而言为纯合的、且剩余63个多态位点处为杂合的个体指定为33%的抗性遗传倾向。作为另一种可替代选择，可以将易感性纯合性评分为+2，杂合性评分为+1，而抗性纯合性评分为0。

个体评分和多态性特征谱性质可用于个体对乳腺癌表型易感性的预后或诊断。任选可以告知患者通过遗传特征谱表示的乳腺癌表型易感性。可以将对乳腺癌表型的高遗传倾向的存在作为警告来对待，以开始预防性或治疗性处理。例如，可以不同地监测具有发生乳腺癌表型的风险升高的个体(例如，更频繁的乳房照相术)或可以预防性处理(例如，使用一种或多种药物)。对乳腺癌表型的高度倾向的存在还指示进行第二测试，诸如活检的有益性。

例如，多态性特征制谱可用于选择在指定个体中实现乳腺癌表型治疗或预防的药剂剂。具有类似多态性特征谱的个体有可能以类似的方式响应药剂。

多态性特征制谱还可用于对测试药剂在治疗乳腺癌表型或相关疾患方面的能力的临床试验中的个体进行分层。这类试验对具有类似或相同多态性特征谱的治疗或对照群体进行(参见EP99965095.5)，例如，所述多态性特征谱指示个体具有发生乳腺癌表型的风险增加。遗传匹配的群体的应用消除或减少了因遗传因素导致的治疗效果的变异，从而导致对潜在药物功效的评价更为准确。计算机执行的算法可以用于鉴定遗传上更同质的亚群，其中治疗或预防具有显著作用，不过，治疗或预防在更异质的更大群体中无效。在这类方法中，对具有乳腺癌表型的、用药剂治疗的第一群体和也具有乳腺癌表型、但用安慰剂治疗的第二群体提供了数据。测定在选自图1和/或2中所示基因中的至少一个多态位点或100kb或50kb或20kb内两个群体中个体的多态性特征谱。还提供了群体中每位患者是否达到表示成功治疗或预防的所需终点的数据。然后选择第一和第二群体中的亚群，使得亚群中的个体彼此具有大于原始第一和第二群体中个体的多态性特征谱相似性。存在可以评价相似性的许多标准。例如，一项标准在于要求亚群中的个体在上述基因的至少10个上各自具有至少一个易感性等位基因。另一项标准在于亚群中个体对测定了多态性特征谱的各多态位点而言具有至少75%的易感性等位基因。与用于评价相似性的标准无关，比较亚群的终点数据以便确定治疗或预防是否在亚群中实现了统计学显著的结果。作为计算机执行的结果，可以分析亿万相似性标准以便鉴定表现出统计学显著性的一个或几个亚群。

多态性特征制谱还可用于从临床试验中排除无乳腺癌表型恶病质的个体。在试验中包括这类个体增加了获得统计学显著效果所需的群体的大小。可以通过如上所述测定多态性特征谱中抗性和易感性等位基因的数目鉴定无乳腺癌表型恶病质的个体。例如，如果受试者在与乳腺癌表型相关的本发明10个基因的10个位点上基因分型，那么总计测定了20个等位基因。如果其中超过50%且优选超过60%或75%为抗性基因，那么该个体不太可能发生乳腺癌表型并且可以将他/她从试验中排除。

在其它实施方案中，可以使用多态性特征制谱与其它分层方法的组合进行临床试验中个体的分层，所述的其它分层方法包括，但不限于家族史、风险模型(例如，Gail得分、Claus模型)、临床表型(例如，非典型损害和乳腺密度)和特定候选生物标志物(例如，IGF1、IFG2、IGFBP3、Ki-67和雌二醇)。例如，在包括基于多态性特征谱的分层的化学预防试验中较高风险度的分层可以改善结果。特别地，与FGFR2连锁的标志物可以用于对抗VEGF或抗血管发生疗法应答的分层，并且与PKHD1连锁的标志物可以用于对抗EGF疗法功效(抗EGF疗法在具有多囊肾和肝病的患者中有活性)的分层。

还可以在完成临床试验后使用多态性特征谱来阐明对指定治疗的响应差异。例如，多态性组可以用于将登记患者分层为疾病亚型或类型。还有可能使用多态性鉴定具有类似多态性特征谱的患者亚组，他们对治疗具有不常见的(高或低)的响应或根本无响应(不响应者)。在这种方式中，有关影响对治疗的响应的潜在遗传因素的信息可以用于研发治疗的许多方面(它们从新靶标的鉴定到经新试验的设计到产物标记和患者靶向)。另外，多态性可以用于鉴定牵涉对治疗的不良响应(不良事件)的遗传因素。例如，表现出不良响应的患者可能具有比预计为偶然的更类似的多态性特征谱。这容许早期鉴定并且从治疗中排除这类个体。还提供了可以用于理解不良事件的生物学原因和改进治疗以避免这类后果的信息。

多态性特征谱还可以用于其它目的，包括如US6,525,185中所述的亲子鉴定和法医分析。在法医分析中，将来自犯罪现场的样品的多态性特征谱与嫌疑人的进行比对。两者之间的匹配是嫌疑人实际犯罪的证据，而缺乏匹配就可排除嫌疑人。提出的多态位点可以用于这类方法，正如用于人类基因组中的其它多态位点一样。

实施例

提供下列实施例是为了例证，并非限制请求保护的发明。本领域技术人员将认出各种可以在本发明范围内改变的非关键性参数。

实施例1：鉴定乳腺癌标志物的策略

前言：鉴定常见的遗传变体

在鉴定乳腺癌标志物等位基因中存在公众健康的重要应用。如果遗传变异是因许多基因座所致，那么个体的风险度就会广泛变化，这取决于在易感性基因座上遗传得到的高危等位基因的数目。我们基于Antoniou等¹³的模型的分析提示在群体的前、后20%之间可能存在多达40倍的风险度差异。在相同的模型中，所有乳腺癌中的半数发生在12%的最高风险度女性中，并且这些女性在到70岁时有8位中至少1位的风险度。相反，在50%的最低风险度女性中仅有12%的癌症，并且个体风险度低于30位中1位¹⁴。鉴定为与乳腺癌风险相关的基因可以用于评估相关的和个别的风险度。这种风险度评估的实际结果是重要的。

赋予中度风险的常见遗传变体在群体水平上各自具有重要的作用。例如，个体风险度仅增加1.5倍的、具有20%频率的常见变体占负载癌症的群体的15%。与在心血管疾病中血压或胆固醇中度升高具有相似性。如果该变体指示切实可行的干预机制，那么这也为靶向干预提供了新的可能性。

在这些实际结果外，癌症易感性基因的鉴定有助于澄清致癌机理（正如已经发生的例如BRCA1和BRCA2）。超越已知候选物扩展至整个基因组检索具有全新机制出现的巨大优点。这些机制还提供了新的治疗靶。

最终，易感性基因的知识能够使我们通过使用例如EPIC分组调查法(cohort)研究基因与这些危险因素的组合的作用来澄清生活方式危险因素。

乳腺癌

尽管对许多癌症中的相关性研究可能存在争论，但是存在几个为何特别适合于在乳腺癌中进行研究的原因。它是女性中最常见的癌症并且其病因学仍然了解甚少。对该病遗传基础比对任何其它常见的癌症研究得更充分。作为结果，有利于多基因基础的证据比对其它癌症更清楚。长期研究组合了足够大系列的病例以便可靠地鉴定易感性基因座。此外，具有明显家族史的病例可通过癌遗传学临床获得，并且可以在相关性研究的有效性中提供显著收获(参见“ResearchProposal”)。最终，存在可以对发现处于风险度增加的女性提供的干预。例如，预防性卵巢切除术可以明显降低随后乳腺癌的风险度¹⁵。近期研究提示通过MRI的筛选可以提供远高于乳房x线摄影术的灵敏度，但成本明显较高¹⁶。

研究设计

对一组400个家族性乳腺癌病例和来自EPIC组的400个对照测定200,000个单核苷酸多态性(SNP)的基因型；这些SNP中显示最强相关性的5%在基于额外群体的4,600个病例和4,600个对照系列中进行分析。在额外的大量病例-对照系列中证实了这一阶段的正相关性。

在乳腺癌终点外，许多定量表型可以在对照组中获得并且提供遗传分析的额外数据。它们包括与癌症风险相关的表型（例如乳房照相图式、激素水平）。

收率

扫描评价了重复序列外全基因组间10%或10%以上频率(且某些在5-10%的范围)的单核苷酸多态性。它在占乳腺癌总体遗传成分中2%或2%以上的这些区中具有约80%检测任何常见变体的可信度(power)。

用于寻找常见易感性变体的研究设计

鉴定常见低风险度等位基因的有效设计为病例/对照研究。与易感性相关的变体通过其在癌症病例中明显高于为遗传背景匹配的对照中的出现频率来鉴定。在本研究中，变体为单核苷酸多态性(SNP)。最常见的是，并不了解可能与疾病易感性相关的活性或功能性变体，且由此研究依赖于可以报告推定的（但未知的）活性变体的一组“标签”SNP。

病例-对照相关性研究方法已经广泛应用于基于“候选基因”的乳腺癌。先前已经以这种方式研究了接近100个基因的编码区和内含子中的多态性。这些基因包括，例如，涉及性类固醇激素代谢、细胞周期控制和DNA修复的基因。尽管已经对常见变体提示了某些相关性，但是无一得到最终确立。迄今为止的结果提示乳腺癌风险中的大部分变异并非因可以作为乳腺癌候选物第一选择的基因的基因内DNA中的变体所致。此外，对候选基因方法存在严重限制。它缓慢并且相对昂贵，依赖于基于SNP×SNP的、对测试的每一基因开发的测定法；它甚至对候选基因的覆盖不完全，特别是在大部分情况中忽略了潜在的调控变异；并且它限于对疾病生物学目前的知识。作为对比，全基因组搜索具有在没有任何现有功能或位置知识的情况下鉴定活性常见变体的潜能。

基因组扫描SNP

对基因组扫描的要求在于确定在报告基因组间所有其它SNP组时提供完整性与成本之间最佳折衷的一组SNP。PerlegenSciences(www.perlegen.com)已经通过对在人/啮齿类动物体细胞杂合物中分离的20-50个单倍体基因组中的人基因组的非重复序列进行再测序鉴定了110万个常用SNP标志物（密度为每2kb有1个SNP）。这种SNP搜索基于与在Patil等¹⁷报导的第21条染色体研究中报导的类似的策略。他们由此使用动态编程算法¹⁸确定了一组200,000个标签SNP，它们明确地报告了超过80%的由完整组110万个SNP确定的常见单倍型。在本实施例中使用的就是该组的200,000个标签SNP。

SNP在Affymetrix研发的高密度寡核苷酸阵列上分型，这些阵列已经在常规应用中得到了广泛验证。简言之，阵列设计使用80个特征（25聚物寡核苷酸）以查询每一SNP。80个特征包含10个交叠特征组，其中每个特征组包括对参比等位基因特异的4个特征（1个完全匹配和3个错配特征）和针对可选(alternative)等位基因的4个类似特征。通过比较参比等位基因的完全匹配特征的荧光强度与为可选等位基因的完全匹配的那些，可以区分三种可能的SNP基因型（常见的纯合子、杂合子和罕见纯合子）。为了进行基因分型测定，使用多重（78路）短程PCR特异性扩增样品基因组包含所关注SNP的区。合并来自每一个体的PCR产物并且用生物素标记以便生成靶DNA。使靶DNA与SNP分型高密度寡核苷酸阵列杂交。在过夜杂交后，洗涤阵列，染色并且扫描荧光强度。

在本实施例中，将用于对200,000个SNP进行基因分型的特征排列在一系列6个高密度阵列上，要求具有约30,000个SNP的复杂性的靶DNA用于杂交。这一复杂性的靶物产生97.3%的呼叫率(callrate)。高密度阵列基因分型技术与其它技术（实时PCR和荧光极化）的比较显示了在大约20,000个基因分型中99%以上的一致索引(concordance)，有多至20个不同的SNP。这项技术已经在使用来自多个合作临床和研究实验室的DNA时证实为确实的，并且在使用基因组扩增的DNA时良好地起作用。

在本研究中使用的200,000个标签SNP的特性在于其“报告”基因组内所有其它SNP变体的能力。就指定的可信度(power)而言，所需的样本大小与1/r²成正比，其中r为所寻找的功能性变体与最紧密连锁的标签SNP之间的连锁不平衡系数¹⁹。

根据经验通过对在28个无关个体（56条染色体）中基因组DNA的4Mb区内均匀间距的1608个SNP基因分型测定非标签SNP与其相应标签SNP之间的r²分布：参见表1。对所有988个测试SNP而言（每个的最低等位基因频率>10%），平均r²为67%，69%的SNP具有大于0.5的r²。

表1

表1：在不同于用于SNP发现的那些的28个个体的第21条染色体4Mb区段中测定的417个选择的“标签”SNP与988个“测试”SNP之间的r²值分布。整组SNP的15%具有最低等位基因频率1-10%；85%具有大于10%的频率，在10-50%之间均匀分布。所有测试SNP具有最低等位基因频率>10%。417个的标签SNP组的平均间距为每10kb有1个，与用于基因组扫描的200,000个的SNP组类似。

表1

增加200,000个的标签SNP组增加了整个基因组中报告的SNP的比例，但增加了成本。甚至一组110万个SNP也不会提供完全覆盖，因为不能测定某些碱基并且某些常见SNP因调查的染色体数目有限而缺失。我们的结论是200,000个的标签SNP组在覆盖度与成本之间提供了良好的折衷。

先前的研究集中于癌症恶病质的遗传学，包括更加集中于低外显率易感性^13,14,20-23。相关的主题包括：(1)病例和对照组的组合；(2)乳腺癌易感性遗传模型的开发；(3)用于相关性研究的实验室设施的建立。

(1)样品集

乳腺癌病例-基于群体的组。我们已经集合了基于群体的、在70岁以前诊断为攻击性(invasive)乳腺癌的病例组（目前4900个），通过当地盎格鲁癌症登记处(AnglianCancerRegistry)确定。从诊断到完成募集的中值时间为6个月（四分位数间距(interquartilerange)为3-9个月）。所有合格病例中65%提供了血样。该组提供了用于我们研究第1阶段分析的某些家族性病例和用于第2阶段的基于群体的系列病例。在血样外，受试者还完成了问卷，它包括二级亲属的家族史、生殖史、人乳喂养、口服避孕药和HRT的应用、良性乳腺疾病、包括其它癌症的医疗史、吸烟、酒精、教育和种族。登记数据包括临床阶段、病理学等级和阶段、简单的治疗数据和存活随访。目前有800个病例可获得肿瘤的石蜡块，并且如果可获得资金，那么大体上可以对整个组的大多数采集。

乳腺癌病例-家族性组。通过剑桥的家族性乳腺癌诊所和上述基于群体的组，组合了具有明显乳腺癌家族史或双侧原发性乳腺癌的一组200个以上病例，它们已经测试为BRCA1和BRCA2突变呈阴性。这些病例与通过与其他CRUK小组合作获得的类似病例共同构成用于相关性研究第一阶段的“遗传富集的”病例组。

对照组。本研究第1阶段和第2阶段的对照DNA获自EPIC-Norfolk组²⁴。这是多中心欧洲前瞻性癌症调查(MulticentreEuropeanProspectiveInvestigationofCancer)的一部分，即450,000个募集时年龄在45-70岁的男性和女性的基于强大(strong)群体的组，可得到他们的血液、多方面流行病学信息和随访。EPIC-Norfolk中25,000个参与者为从Norfolk的家庭医疗实践确定的志愿者，Norfolk在与获得乳腺癌病例相同的盎格鲁区内。在提供用于本计划的基因发现期的对照外，更大的EPIC组提供了用于证实肯定相关性和随访阶段调查基因/生活方式相互作用的样品和数据。

本研究群体在人种上较为同质，群体中超过95%记录为白种人并且出生在英国。已经通过对23个非连锁基因中SNP的1655个对照进行基因分型评价了该群体中的群体分层(stratification)的证据。发现非连锁的基因座之间无显著相关性，指示无分层证据²⁵。

EPIC对照集中额外的表型信息。就与研究的相关性而言，对于在第1阶段对200,000个SNP进行基因分型的400个EPIC对照，可获得广泛表型信息（在个体子集中）或易于获得。对这些定量或半定量表型评价了基因型相关性。与乳腺癌相关的表型包括：乳房照相密度、踵的骨密度、体重指数和血清中的一系列测量，其中迄今为止雌激素代谢物、SHBG、IGF-1和某些细胞因子早就可在不同个体集中得到。其它表型包括血压、脂质谱、C-反应性蛋白、纤维蛋白原、全血计数、糖化血红蛋白和甲状腺功能。在2004和2005年，计划进行有限的招回以便进行再访视和进一步采血样，有可能进行额外的表型分型并且采集新鲜血清和活细胞。

(2)乳腺癌易感性的遗传模型

我们对在基于盎格鲁群体的研究中确定的前1500例乳腺癌分析了BRCA1和BRCA2中的突变，并且发现与Peto等一致，即仅15%的乳腺癌家族群聚可归因于这些基因中的突变。我们对本研究中病例家族中的乳腺癌模式的分离分析（随后对其他系列进行测试）产生了较早概括的多基因模型¹³。该模型继而作为通过使用家族性而非未选择的病例提供的相关性研究的增加可信度(power)的计算的基础，其为用于本实施例提出的两阶段设计的基础。

(3)样品处理和SNP基因分型的实验设置

基于384孔Taqman平台的中度流通量基因分型实验室用于候选基因相关性研究。基因分型容量为约100,000个SNP每周。

简言之，实验室设置如下。募集期给研究参与者指定代码，该代码作为条形码贴在所有其数据及其生物学样品管上。在实验室内，使用实验室信息管理系统(LaboratoryInformationManagementSystem,Thermo,AltringhamUK)跟踪样品。在WhatmanLtd(Ely,UK)的编码管中从全血中分批提取DNA，每批96位受试者，并且返回到编码阵列中，DNA标准化至40ng/ul。对标准化的阵列进行全基因组预扩增并且将产物以等分试样储存。从相等数目的病例和对照生成用于基因分型的384孔日常储液(workingstock)，插入空白孔作为阴性对照。复制来自一项研究的3%的样品。如此，将病例和对照（上述）保持在13块板中－12块为独特样品和第13块为复制品。对所有研究板同时进行基因分型－由机器人(Matrix,UK)加入试剂，在MJTetrads(GRI,UK)上进行热循环，并且由7900序列检测仪(ABI,Warrington,UK)进行终点荧光检测。将基因型输出至数据库并且与每位受试者的表型数据连接。对对照基因型测试自哈迪-温伯格平衡(Hardy-WeinbergEquilibrium)的偏离，作为最终的质量控制步骤。

研究设计

分阶段组织本研究：

阶段1.在为家族史富集的400个无关乳腺癌病例和从EPIC研究中抽取的400个女性对照中分析全组200,000个标签SNP。对乳腺癌病例的BRCA1/2突变筛选为阴性。

阶段2.在额外的4600个乳腺癌病例和4600个匹配的对照中再次评价在癌症系列与对照系列之间的频率中显示出p<0.05水平的显著差异的SNP。

研究设计的原理

选择分阶段设计以便将所需的基因分型的量减少至最低限度，同时保持检测对风险度具有适度(modest)作用的SNP的可信度(power)高。就建议的阈值，约10,000个SNP会进入第2阶段，而预计在第2阶段结束时进入其它研究的额外验证的明显更少（取决于“真实”相关性的数目）。计算已经显示这种分阶段设计与对所有样品的所有SNP进行基因分型相比非常有效²⁷。

病例-第1阶段

病例为攻击性乳腺癌女性，其有至少两名具有乳腺癌的一级亲属或同样明显的家族史（例如，1名一级和2名二级亲属患病）。这些女性选自英国癌症遗传中心或盎格鲁乳腺癌研究(AnglianBreastCancerStudy)。排除其种族不被记录为白种人的女性。

我们先前证实检测相关性的可信度(power)与病例的家族史程度极为相关²⁶。具有两名患病一级亲属的病例的使用将所需样本大小比使用未选择的病例减小了至少4倍。从所有可得到的病例中，我们选择了具有最强家族史的400个病例。如果1个以上病例获自同一家族，那么我们选择具有最强的近亲属家族史的病例，使得在该集中的所有病例不相关。

对所有病例筛选的BRCA1和BRCA2中的突变（并且为阴性）。这种筛选包括，通过敏感性筛选技术（例如CSGE）筛选所有外显子和剪接点。实施该方法是因为不了解影响BRCA1或BRCA2突变非携带者中乳腺癌风险度的低外显率等位基因是否也会影响携带者中的风险度。Antoniou等¹³的分析提示了携带者中类似的“多基因”成分。然而，可能的情况是，改变BRCA1和BRCA2携带者中的风险度的基因可以不同，特别是考虑到BRCA1肿瘤的区别性病理学。BRCA1和BRCA2突变可以存在于20%以上根据阶段1所用标准选择的病例中。如果所关注的多态性不影响携带者中的疾病风险度，那么包括携带者可能降低研究的可信度(power)。如此，本研究保守地筛选并且排除已知BRCA1和BRCA2突变携带者。估计该手段排除约70%的BRCA1突变和90%的BRCA2突变，使得在最终集中低于5%的病例可能包含有未鉴别的突变。

病例-阶段2

阶段2的病例由从基于群体的盎格鲁乳腺癌(AnglianBreastCancer,ABC)研究中抽取的4,600个病例组成。

尽管对在第1阶段为使可信度(power)最大化和将成本降至最低限度而使用“富集的”病例存在争议，病例在第2阶段得到了更细致地平衡。家族性病例的应用增加了可信度(power)，但增益较不显著，因为可信度(power)的主要决定因素在于第1阶段的效率。同时，基于群体的病例-对照集已经用于候选基因相关性研究，并且来自第1阶段的DNA样品已经排成阵列。在这一规模上发展一组新的家族性病例要承担可观的延迟和费用。第二，使病例在地理上与对照匹配，从而提供更多对因等位基因频率的区域变异导致的假阳性相关性的防护。第三，基于群体的系列提供了与每种SNP或单倍型相关的相对风险度的直接评估。第四，ABC研究已经系统性地采集了有关生活方式危险因素和癌症临床结果的信息。这为研究与存活的相关性和与生活方式危险因素的相互作用的进一步分析提供了可能性。对家族性病例不可能获得相同质量的信息。

概括地说，通过使用富集的和基于群体的病例系列，我们优化了检测真实相关性的可信度(power)，同时获得了在基于充分表征的群体的病例-对照研究中进行基因分型的额外价值。

对照

第1和2阶段的对照均为来自如上所述的EPIC研究的女性。对照的年龄分布与病例的类似。排除已知发生了癌症或非白种人的女性。第1阶段对照取样自2,000个绝经后女性的子组，她们已经进行了性类固醇激素和乳房照相密度的详细分析²⁸。

已经获得了覆盖用于遗传相关性研究的病例和对照样品的使用的伦理批准。病例和对照均获得其DNA用于这类遗传研究的知情许可。

统计学考虑

统计学分析

第1和2阶段的主要分析均用于评价每种SNP分别与乳腺癌的相关性。流行病学研究提示在病例的母亲与姊妹之间几乎没有或没有乳腺癌相对风险度的差异，但在非常年轻的年龄段可能存在^1,12，指示大多数易感性等位基因几乎没有隐性(recessive)成分（正如Antoniou等¹³的多基因模型中所述）。因此，主要分析基于病例与对照之间等位基因频率差异的趋势检验²⁹。给病例加权家族史以便改善检验效率。

原则上，单倍型分析或连接基因型分析(jointgenotypeanalysis)可以提供可信度(power)上的一定改善³⁰。然而，在目前的设计中，单倍型分析大大过多，因为仅少部分SNP会进入第2阶段，并且可信度(power)计算由此采取(assume)单一SNP分析。将一块中的所有标签SNP进入第2阶段以便进行完整单倍型分析的成本可能会超过可信度(power)的任何提高。单倍型分析用于那些在同一LD块中有1种以上相连SNP在第2阶段分型的病例，并且广泛应用于随访研究。

可信度(power)计算

研究的可信度(power)基于两阶段合并的限制性水平p=10⁴而推导出。预计约12个基因座在该水平上偶然具有显著性（考虑到分阶段设计），从而得到了用于在更大系列中再次检验的可控数目的基因座和有利的“真”:“假”阳性比。

可信度(power)计算推定第1阶段中的病例具有2个患病一级亲属的家族史。实际上，该可信度(power)稍高，因为这是最低的标准并且许多病例具有更明显的家族史。检测疾病易感性等位基因的可信度(power)的实例列于表2，对疾病等位基因频率和亲属风险度的不同值，采用(assuming)来自标签集的r²估算分布。（就具有.05等位基因频率的多态性而言，如下计算可信度(power)，即假设多态性在LD中，在D'=l，其中从集中随机选择常见的多态性。）就常见的等位基因而言，可信度(power)主要依赖于基因座对总体遗传变异的贡献，并且解释(explaining)1%变异的基因座为至少50%，并且解释2%变异的基因座为约80%。相反，就具有低于5%的频率的等位基因而言，除非作用大小极高，否则可信度(power)极低。

表2

表2：采用(assuming)基于先前报告的数据（表1）的易感性基因座与标记SNP之间的r²分布，检测具有指定等位基因频率的、赋予指定相对风险度（两阶段后P<.0001）的显性易感性基因座的估算总可信度(power)，。括号中解释了总遗传变异百分比。

就对照中测得的定量性状而言，检测解释至少5%的表型变异的基因座的可信度(power)为约50%，在5%的显著性水平。这些基因座可用于即将在EPIC组中进行的大规模研究中的进一步评价。

易感性基因座的详细评价

一旦鉴定了显著相关性，就评价在尝试建立最明显相关的变体或单倍型的区中额外的多态性。一般规程与用于调查候选基因的方法类似。对可利用的数据库搜索已知的SNP。如果对所有可利用的SNP未进行系统性搜索，那么使用对有限数目个体（例如，n=48）的公司内部再测序。在排除完全LD中的SNP后，将用于第1和2阶段的病例和对照中的提供信息的SNP进行基因分型。将多重逻辑斯谛回归(multiplelogisticregression)用于调查多个SNP的联合作用(jointeffect)。可以进行额外的调查以便鉴定功能性变体。

定量性状基因座的额外评价

将利用在第1阶段上表现出显著相关性的、具有定量性状的SNP在额外的系列中进行复制。因为定量性状的数目较大，所以基于相关性强度、基因座的似真性(plausibility)和表型的重要性进行优先化(prioritization)。例如，与血清性类固醇激素水平和乳房照相密度的相关性得到有利的优先化，因为它们与乳腺癌风险度相关。与这些表型相关的SNP在来自EPIC的绝经后女性的额外1,600个样品中分型。如果相关性重复，那么将它们如上追踪(pursue)。

参考文献：

1.CollaborativeGroupinHormonalFactorsinBreastCancer(2001)Familialbreastcancer:collaborativereanalysisofindividualdatafrom52epidemiologicalstudiesincluding58,209womenwithbreastcancerand101,986womenwithoutthedisease.Lancet358:1389-1399.

2.LichtensteinPetal(2000)Environmentalandheritablefactorsinthecausationofcancer-analysesofcohortsoftwinsfromSweden,DenmarkandFinland.NewEnglJMed243:78-85.

3.PetoJ,MackTM(2000)Highconstantincidenceintwinsandotherrelativesofwomenwithbreastcancer.NatureGenet26:411-414.

4.AntoniouAetal(2003)AveragerisksofbreastandovariancancerassociatedwithmutationsinBRCA1orBRCA2detectedincaseseriesunselectedforfamilyhistory:acombinedanalysisof22studies.AmJHumGenet72:1117-1130.

5.PetoJetal(1989)TheprevalenceofBRCA1andBRCA2mutationsamongstearlyonsetbreastcancercasesintheU.K.JNatlCancerInst91:943-949.

6.TheAnglianBreastCancerStudyGroup(2000)PrevalenceofBRCA1andBRCA2mutationsinalargepopulationbasedseriesofbreastcancercases.BrJCancer83:1301-1308.

7.EastonDF(1999)Howmanymorebreastcancerpredispositiongenesarethere?BreastCancerRes1:1-4

8.FordDetal(1998)GeneticheterogeneityandPenetranceanalysisoftheBRCA1andBRCA2genesinbreastcancerfamilies.AmJHumGenet62:334-345.

9.ThompsonDetal(2002)EvaluationoflinkageofbreastcancertotheputativeBRCA3locusonchromosome13q21in128multiplecasefamiliesfromtheBreastCancerLinkageConsortium.ProcNatlAcadSciUSA99:827-831.

10.HuuskoPetal(2003)Genome-widescanningforlinkageinFinnishbreastcancerfamilies.EurJHumGenet,印刷中.

11.AntoniouACetal(2001)EvidenceforfurtherbreastcancersusceptibilitygenesinadditiontoBRCA1andBRCA2inapopulationbasedstudy.GenetEpidemiol21:1-18.

12.CuiJetal(2000)AfterBRCA1andBRCA2-whatnext?Multifactorialsegregationanalysisofthree-generational,population-basedAustralianfemalebreastcancerfamilies.AmJHumGenet68:420-431.

13.AntoniouACetal(2002)AcomprehensivemodelforfamilialbreastcancerincorporatingBRCA1,BRCA2andothergenes.BritJCancer86:76-83.

14.PharoahPDPetal(2002)Polygenicsusceptibilitytobreastcancerandimplicationsforprevention.NatureGenetics31:33-36.

15.Titus-ErnstoffLetal(1998)Menstrualfactorsinrelationtobreastcancerrisk.CancerEpidemiolBiomarkersPrev.7:783-9.

16.Kriegeetal(2003)MRIscreeningforbreastcancerinwomenwithhighfamilialandgeneticrisk:FirstresultsoftheDutchMRIscreeningstudy(MRISC).ProcAmSocClinOncol22:A5.

17.PatilNetal(2001)Blocksoflimitedhaplotypediversityrevealedbyhigh-resolutionscanningofhumanchromosome21.Science294:1719-1723.

18.ZhangKetal(2002)Adynamicprogrammingalgorithmforhaplotypeblockpartitioning.ProcNatlAcadSciUSA99:7335-7339.

19.PritchardJK,PrzeworskiM(2001)Linkagedisequilibriuminhumans:modelsanddata.AmJHumGenet69:1-14.

20.DunningAMetal(1999)Asystematicreviewofgeneticpolymorphismandbreastcancerrisk.CancerEpidemiolBiomarkersPrevention8:843-854.

21.HealeyCSetal(2000)AcommonvariantinBRCA2isassociatedwithbothbreastcancerriskandprenatalviability.NatureGenet26:362-364.

22.KuschelBetal(2002)VariantsinDNAdoublestrandbreakrepairgenesandbreastcancersusceptibility.HumMolGenet11:1399-1407

23.DunningAMetal(2003)ATGFβ-1signalpeptidevariantincreasessecretioninvitroandisassociatedwithincreasedincidenceofinvasivebreastcancer.CancerRes63:2610-15.

24.DayNetal(1999)EPIC-Norfolk:studydesignandcharacteristicsofthecohort.EuropeanProspectiveInvestigationofCancer.BrJCancer80Suppl1:95-103.

25.GoodeELetal(2001)Assessmentofpopulationstratificationinalargepopulation-basedcohort.GenetEpidemiol21:A126.

26.AntoniouA,EastonDF(2003)Polygenicinheritanceofbreastcancer:implicationsfordesignofassociationstudies.GenetEpidemiol25:190-202.

27.SatagopanJMetal(2002)Two-stageddesignsforgene-diseaseassociationstudies.Biometrics58:163-170.

28.DunningAMetal(2004)Polymorphismassociatedwithcirculatingsexhormonelevelsinpost-menopausalwomen.JNatlCancerInst,印刷中.

29.SasieniPD(1997)Fromgenotypestogenes:doublingthesamplesize.Biometrics53:1253-1261.

30.ChapmanJPetal(2003)Detectingdiseaseassociationsduetolinkagedisequilibriumusinghaplotypetags:aclassoftestsandthedeterminantsofstatisticalpower.HumHered56:18-31.

实施例2：与乳腺癌恶病质相关的标志物多态性

鉴定为与乳腺癌风险（恶病质）相关的SNP列于图1和2。图1提供了目前最优选的关联；图2提供了别的关联。

指定dbSNP_rsID号（参见“REFSNP_ID”，图中第2栏）的序列见http：//www.ncbi.nlm.nih.gov/SNP/。在图1和2中，第2栏标记为“REFSNP_ID”。在该栏中的值为依照由位于美国国家卫生研究所(USNationalInstituteofHealth)的美国国家医学图书馆(USNationalLibraryofMedicine)的NCBI建立并且维护的dbSNP数据库的SNP识别号。NCBIdbSNP数据库是公众可访问的并且可以通过搜索数据库容易的得到大量别的信息，搜索使用图中提供的rsID号，在数据库搜索窗口中输入以“rs”为前缀的号并点击“搜索”。提供的信息可以包括但不限于位于该SNP基因座的等位基因、侧翼的核苷酸序列和提交信息。

SNP_ID栏号（见图1和2的第1栏）注明公众可得到的PerlegenSNP识别号，其可以在Perlegen(dot)com上使用该公司可在genome(dot)perlegen(dot)com/browser/index(dot)htm处得到的基因组浏览器按照所提供的指令查阅相关信息(PerlegenSciences,Inc.,MenloPark,CA)。正如所提供的指令中所述，可以在SNP_ID开始处加入通配符（例如，“*”符号）以便鉴定SNP的所有等位基因的信息。该数据库还与NCBI基因组数据库链接。

在图中，每页上的第一行为具有各栏名称的标题行。各栏如下：

尽管为清楚和理解的目的在一定程度上详细描述了上述发明，但是本领域技术人员显然可以通过阅读本说明书披露的内容在不脱离本发明确切范围的情况下从形式和详细内容上做出各种改变。例如，所有上述技术和设备均可以以不同的组合形式使用。为所有目的而将本申请中引述的所有出版物、专利、专利申请和/或其它文件完整地引入作为参考，其引入程度与如同为所有目的而指定将每篇出版物、专利、专利申请和/或其它文件分别引入作为参考相同。

Claims

1.用于鉴定REFSNP_ID3817198(SNPID1152499)多态性的探针或引物在制造用于对人鉴定乳腺癌表型形成风险的组合物或系统中的用途，其中所述的鉴定包括：

检测来自所述人的生物学样品中的多态性，所述的多态性是REFSNP_ID3817198(SNPID1152499)，其中所述的多态性与乳腺癌表型相关；并且

将所述的多态性与所述的表型形成风险建立相关性。

2.权利要求1所述的用途，其中所述的检测包括将多态性进行扩增，并且检测所得扩增子。

3.权利要求2所述的用途，其中所述的扩增包括：

i)a)混合扩增引物或扩增引物对与分离自所述人的核酸模板，其中所述的引物或引物对与邻近或包含所述的多态性的区互补或部分互补，并且能够在所述核酸模板上由聚合酶启动核酸聚合；和

b)使引物或引物对在包括聚合酶和模板核酸的DNA聚合反应中延伸以便生成扩增子；或

ii)进行聚合酶链反应(PCR)、逆转录酶PCR(RT-PCR)或连接酶链反应(LCR)，其中使用分离自所述人的核酸模板作为PCR、RT-PCR或LCR中的模板。

4.权利要求2或3所述的用途，其中通过包括如下一个或多个步骤的方法检测所述的扩增子：使该扩增子与阵列杂交；用限制酶消化该扩增子；或实时PCR分析。

5.权利要求2或3所述的用途，包括对所述的扩增子进行部分或完全测序。

6.权利要求1或权利要求2或权利要求3所述的用途，其中所述的鉴定进一步包括：

(i)检测在FGFR2、A2BP1、TNRC9、H19和FSTL5每种中的至少一个多态性；或

(ii)检测如下每种的至少一个多态性：REFSNP_ID2981582(SNPID2312116)、REFSNP_ID1318703(SNPID1622530)、REFSNP_ID12443621(SNPID3712013)、REFSNP_ID3857481(SNPID1509710)、和REFSNP_ID889312(SNPID843029)；或

(iii)检测如下每种的至少一个多态性：REFSNP_ID2981582(SNPID2312116)、REFSNP_ID1318703(SNPID1622530)、REFSNP_ID12443621(SNPID3712013)、REFSNP_ID3857481(SNPID1509710)、REFSNP_ID889312(SNPID843029)、REFSNP_ID13281615(SNPID1990126)、REFSNP_ID2107425(SNPID604819)、REFSNP_ID2314099(SNPID3025734)、REFSNP_ID4666451(SNPID4415909)、REFSNP_ID2049621(SNPID1732681)、REFSNP_ID4841365(SNPID4281579)、REFSNP_ID7313833(SNPID4454457)、REFSNP_ID981782(SNPID2616199)、REFSNP_ID11235127(SNPID1720694)、REFSNP_ID6463266(SNPID4077723)、REFSNP_ID8051542(SNPID3711990)、REFSNP_ID12658840(SNPID3337858)、REFSNP_ID6469633(SNPID4093095)、REFSNP_ID7443644(SNPID4213825)、REFSNP_ID3852789(SNPID3488617)、REFSNP_ID16998733(SNPID3610210)、REFSNP_ID6843340(SNPID3451239)、REFSNP_ID17157070(SNPID1582533)、REFSNP_ID13110927(SNPID3488150)、REFSNP_ID30099(SNPID2770052)、REFSNP_ID7307700(SNPID4141351)、REFSNP_ID4954956(SNPID1335030)、REFSNP_ID10508468(SNPID2211665)、和REFSNP_ID2298075(SNPID4538418)；或如下每种中的至少一个多态性：FGFR2、A2BP1、TNRC9、H19、FSTL5、LOC388927、UNQ9391、HCN1、LOC441192、TNRC9、NR3C2、KIAA0826、FLJ31033、AACS、FRMD4A和SEC31L2。

7.权利要求1或权利要求2或权利要求3所述的用途，其中将所述多态性与所述乳腺癌表型形成风险建立相关性包括参阅查阅表，该查阅表包含所述多态性的等位基因与所述乳腺癌表型形成风险的相关性的信息。